CN116167910A

CN116167910A - 文本编辑方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN116167910A
Application number: CN202310002377.XA
Authority: CN
Inventors: 莫秀云; 王国鹏; 黄志远; 张梓霖
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-05-26
Anticipated expiration: 2043-01-03
Also published as: CN116167910B

Abstract

本申请公开了一种文本编辑方法、装置、计算机设备及计算机可读存储介质，涉及计算机视觉及互联网技术领域，不仅能够实现对复杂背景图像中的文本进行编辑，还能够使合成图像中的文本样式与原始图像中的文本样式保持一致。所述方法包括：获取原始图像和替换文本图像，对原始图像进行文字区域检测；依据检测到的前景信息，提取原始图像的前景图像，并对前景图像进行识别，得到原始图像中原始文本的文本属性，前景信息包括原始文本对应的文本边界框和二值掩码图像；基于目标图像背景修复网络，确定原始图像的背景图像；将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。

Description

文本编辑方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及计算机视觉及互联网技术领域，特别是涉及一种文本编辑方法、装置、计算机设备及计算机可读存储介质。

背景技术

在广告行业里，对于同一种设计风格的海报，设计师作为原始文件的持有者，可以很简单的给同一种风格的海报更换文字内容，以实现海报主题更换的目。但是，当设计师设计的图片较多时，可能难以从大量原始文件中找出当前设计风格的原始文件，从而无法从原始文件中完成文字替换。

相关技术中，设计师可以采用修图软件框选图像中的文字区域，在将文字区域部分内容删除后，输入需要更换的文字内容，进而实现对纯色背景的图片内容更改。

在实现本申请的过程中，申请人发现相关技术至少存在以下问题：

在图像背景纹理复杂时，采用框选的方式替换文字会破坏背景图像的纹理信息，导致修改的文字部分和背景部分连接生硬，视觉效果差。另外，框选图像文字区域的做法效率较低，不适合编辑大量文本数据的场景。

发明内容

有鉴于此，本申请提供了一种文本编辑方法、装置、计算机设备及计算机可读存储介质，主要目的在于解决目前在图像背景纹理复杂时，采用框选的方式替换文字会破坏背景图像的纹理信息，导致修改的文字部分和背景部分连接生硬，视觉效果差。另外，框选图像文字区域的做法效率较低，不适合编辑大量文本数据的场景的问题。

依据本申请第一方面，提供了一种文本编辑方法，该方法包括：

获取原始图像和替换文本图像，对所述原始图像进行文字区域检测；

依据检测到的前景信息，提取所述原始图像的前景图像，并对所述前景图像进行识别，得到所述原始图像中原始文本的文本属性，所述前景信息包括所述原始文本对应的文本边界框和二值掩码图像；

基于目标图像背景修复网络，确定所述原始图像的背景图像；

将所述替换文本图像、所述文本属性、所述前景图像、所述背景图像和所述文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。

可选地，所述对所述原始图像进行文字区域检测，包括：

获取目标实例分割网络，采用所述目标实例分割网络对所述原始图像进行分割检测，得到所述文本边界框和所述二值掩码图像；

合并所述所述文本边界框和所述二值掩码图像，得到所述前景信息。

可选地，所述获取目标实例分割网络，包括：

采集多个第一样本图像，分别标注所述多个第一样本图像中的每个样本图像的文字区域，得到多个标注数据；

对所述多个标注数据进行编号，在所述多个标注数据中提取目标编号的标注数据作为训练数据，直至所述训练数据的数量达到预设数量值，并将提取后剩余的标注数据作为测试数据，其中，所述目标编号的取值为任意数值；

采用所述训练样本训练实例分割网络；

在训练完成后，采用所述测试数据测试所述实例分割网络，确定分割准确率，并将所述分割准确率与预设准确率阈值进行比对；

当比对确定所述分割准确率大于等于所述预设准确率阈值时，得到目标实例分割网络。

可选地，所述对所述前景图像进行识别，得到所述原始图像中原始文本的文本属性，包括：

将所述前景图像调整为目标尺寸，得到指定图像；

将所述指定图像按照预设顺序输入至多任务网络中的每个任务分支，分别采用每个任务分支的特征提取网络识别所述指定图像，得到多个文本特征；

合并所述多个文本特征，得到所述文本属性。

可选地，所述基于目标图像背景修复网络，确定所述原始图像的背景图像，包括：

构建目标图像背景修复网络，将所述原始图像输入至所述目标图像背景修复网络；

基于所述目标图像背景修复网络，删除所述原始图像中文本边界框内的原始文本，填充所述文本边界框内的背景纹理，得到所述背景图像。

可选地，所述构建目标图像背景修复网络，包括：

构建图像背景修复网络和第一判别网络；

获取第二样本图像和所述第二样本图像对应的标签背景图像，采用所述图像背景修复网络对所述样本图像进行预测，得到第一指定图像；

使用所述第一判别网络比对所述第一指定图像和所述标签背景图像，得到第一判别结果；

根据所述第一判别结果对所述图像背景修复网络的网络参数进行调整，在所述图像背景修复网络达到平衡状态后，得到所述目标图像背景修复网络，其中，所述目标图像背景修复网络的编码器包括下采样卷积层和残差块，所述目标图像背景修复网络的解码器包括上采样卷积层和双曲正切函数。

可选地，所述将所述替换文本图像、所述文本属性、所述前景图像、所述背景图像和所述文本边界框的中心点坐标输入至目标渲染网络进行渲染之前，所述方法还包括：

构建渲染网络和第二判别网络；

获取第三样本图像和所述第三样本图像对应的标签文本图像，采用所述渲染网络对所述样本图像进行预测，得到第二指定图像；

使用所述第二判别网络比对所述第二指定图像和所述标签文本图像，得到第二判别结果，并根据所述第二判别结果对所述渲染络的网络参数进行调整，在所述渲染网络达到平衡状态后，得到所述目标渲染网络；

其中，所述目标渲染网络包括编码器和解码器，所述编码器包括降采样卷积层和残差块，所述解码器包括上采样转置卷积层和激活函数。

依据本申请第二方面，提供了一种文本编辑装置，该装置包括：

获取模块，用于获取原始图像和替换文本图像，对所述原始图像进行文字区域检测；

提取模块，用于依据检测到的前景信息，提取所述原始图像的前景图像，并对所述前景图像进行识别，得到所述原始图像中原始文本的文本属性，所述前景信息包括所述原始文本对应的文本边界框和二值掩码图像；

确定模块，用于基于目标图像背景修复网络，确定所述原始图像的背景图像；

渲染模块，用于将所述替换文本图像、所述文本属性、所述前景图像、所述背景图像和所述文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。

可选地，所述获取模块，用于获取目标实例分割网络，采用所述目标实例分割网络对所述原始图像进行分割检测，得到所述文本边界框和所述二值掩码图像；合并所述所述文本边界框和所述二值掩码图像，得到所述前景信息。

可选地，所述获取模块，用于采集多个第一样本图像，分别标注所述多个第一样本图像中的每个样本图像的文字区域，得到多个标注数据；对所述多个标注数据进行编号，在所述多个标注数据中提取目标编号的标注数据作为训练数据，直至所述训练数据的数量达到预设数量值，并将提取后剩余的标注数据作为测试数据，其中，所述目标编号的取值为任意数值；采用所述训练样本训练实例分割网络；在训练完成后，采用所述测试数据测试所述实例分割网络，确定分割准确率，并将所述分割准确率与预设准确率阈值进行比对；当比对确定所述分割准确率大于等于所述预设准确率阈值时，得到目标实例分割网络。

可选地，所述提取模块，用于将所述前景图像调整为目标尺寸，得到指定图像；将所述指定图像按照预设顺序输入至多任务网络中的每个任务分支，分别采用每个任务分支的特征提取网络识别所述指定图像，得到多个文本特征；合并所述多个文本特征，得到所述文本属性。

可选地，所述确定模块，用于构建目标图像背景修复网络，将所述原始图像输入至所述目标图像背景修复网络；基于所述目标图像背景修复网络，删除所述原始图像中文本边界框内的原始文本，填充所述文本边界框内的背景纹理，得到所述背景图像。

可选地，所述确定模块，用于构建图像背景修复网络和第一判别网络；获取第二样本图像和所述第二样本图像对应的标签背景图像，采用所述图像背景修复网络对所述样本图像进行预测，得到第一指定图像；使用所述第一判别网络比对所述第一指定图像和所述标签背景图像，得到第一判别结果；根据所述第一判别结果对所述图像背景修复网络的网络参数进行调整，在所述图像背景修复网络达到平衡状态后，得到所述目标图像背景修复网络，其中，所述目标图像背景修复网络的编码器包括下采样卷积层和残差块，所述目标图像背景修复网络的解码器包括上采样卷积层和双曲正切函数。

可选地，所述装置还包括：

构建模块，用于构建渲染网络和第二判别网络；

预测模块，用于获取第三样本图像和所述第三样本图像对应的标签文本图像，采用所述渲染网络对所述样本图像进行预测，得到第二指定图像；

调整模块，用于使用所述第二判别网络比对所述第二指定图像和所述标签文本图像，得到第二判别结果，并根据所述第二判别结果对所述渲染络的网络参数进行调整，在所述渲染网络达到平衡状态后，得到所述目标渲染网络；其中，所述目标渲染网络包括编码器和解码器，所述编码器包括降采样卷积层和残差块，所述解码器包括上采样转置卷积层和激活函数。

依据本申请第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

依据本申请第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

借由上述技术方案，本申请提供的一种文本编辑方法、装置、计算机设备及计算机可读存储介质，本申请首先获取原始图像和替换文本图像，对原始图像进行文字区域检测。接下来，依据检测到的前景信息，提取原始图像的前景图像，并对前景图像进行识别，得到原始图像中原始文本的文本属性。通过获取原始文本的文本属性，后续可以通过目标渲染网络为替换文本图像中的替换文本设置相同的文本属性，进而使替换文本与原始文本的样式一致。随后，基于目标图像背景修复网络，删除原始图像中的原始文本，与此同时填充原始文本部分的背景纹理，从而得到不破坏复杂纹理的背景图像。最后，将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。通过渲染网络对已修复纹理的背景图像和已更换文本属性的替换文本进行渲染，使合成图像更加和谐，不仅能够实现对复杂背景图像中的文本进行编辑，还能够使合成图像中的文本样式与原始图像中的文本样式保持一致。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种文本编辑方法流程示意图；

图2示出了本申请实施例提供的一种文本编辑方法流程示意图；

图3示出了本申请实施例提供的一种文本编辑方法的多任务网络示意图；

图4示出了本申请实施例提供的一种文本编辑装置的结构示意图；

图5示出了本申请实施例提供的一种文本编辑装置的结构示意图；

图6示出了本申请实施例提供的一种计算机设备的装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

在广告行业里，对于同一种设计风格的海报，设计师作为原始文件的持有者，可以很简单的给同一种风格的海报更换文字内容，以实现海报主题更换的目。但是，当设计师设计的图片较多时，可能难以从大量原始文件中找出当前设计风格的原始文件，从而无法从原始文件中完成文字替换。目前，设计师可以采用修图软件框选图像中的文字区域，在将文字区域部分内容删除后，输入需要更换的文字内容，进而实现对纯色背景的图片内容更改。但是申请人认识到，在图像背景纹理复杂时，采用框选的方式替换文字会破坏背景图像的纹理信息，导致修改的文字部分和背景部分连接生硬，视觉效果差。另外，框选图像文字区域的做法效率较低，不适合编辑大量文本数据的场景。因此，本申请提供了一种文本编辑方法，首先获取原始图像和替换文本图像，对原始图像进行文字区域检测。接下来，依据检测到的前景信息，提取原始图像的前景图像，并对前景图像进行识别，得到原始图像中原始文本的文本属性。通过获取原始文本的文本属性，后续可以通过目标渲染网络为替换文本图像中的替换文本设置相同的文本属性，进而使替换文本与原始文本的样式一致。随后，基于目标图像背景修复网络，删除原始图像中的原始文本，与此同时填充原始文本部分的背景纹理，从而得到不破坏复杂纹理的背景图像。最后，将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。通过渲染网络对已修复纹理的背景图像和已更换文本属性的替换文本进行渲染，使合成图像更加和谐，不仅能够实现对复杂背景图像中的文本进行编辑，还能够使合成图像中的文本样式与原始图像中的文本样式保持一致。

本申请实施例提供了一种文本编辑方法，如图1所示，该方法包括：

101、获取原始图像和替换文本图像，对原始图像进行文字区域检测。

在本申请实施例中，用户需要将原始图像和替换文本图像上传至文本编辑系统，由编辑系统对原始图像和替换文本图像进行图像处理，最终合成目标图像。在整个图像处理过程中，编辑系统首先需要检测出原始图像中原始文本所在的位置。实际运行过程中，编辑系统对原始图像进行文字区域检测，确定原始图像的前景信息，也就是确定原始图像中原始文本所在的文本边界框，以及原始文本的二值掩码图像。通过获取前景信息可以为后续提取前景图像提供数据支持，提高后续提取前景图像的效率。

102、依据检测到的前景信息，提取原始图像的前景图像，并对前景图像进行识别，得到原始图像中原始文本的文本属性，前景信息包括原始文本对应的文本边界框和二值掩码图像。

其中，编辑系统是通过统一原始文本和替换文本的文本属性，使替换文本图像中的替换文本与原始文本的样式风格保持一致的。而为了排除运行过程中原始图像背景对后续模型预测文本属性的干扰，编辑系统就需要依据上一步骤检测到的前景信息(文本边界框、二值掩码图像)，在原始图像中提取前景图像。进而通过对前景图像中的原始文本进行识别，得到原始文本的文本属性。需要说明的是，文本属性至少包括字体、透明度、阴影、亮度和方向等属性指标，本申请对文本属性的属性指标不进行具体限定。

103、基于目标图像背景修复网络，确定原始图像的背景图像。

在本申请实施例中，编辑系统利用训练完成的目标图像背景修复网络，获取背景纹理清晰、完整的背景图像。运行过程中，编辑系统通过目标图像背景修复网络擦除原始图像中的文本部分，而考虑到在图像上擦除文本会同时擦除文本覆盖的背景部分，编辑系统还需要利用目标图像背景修复网络修复文本覆盖的背景部分，从而得到不存在原始文本且背景纹理清晰、完整的的背景图像。

104、将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。

在本申请实施例中，编辑系统采用目标渲染网络对图像进行渲染，最终输出合成的目标图像。具体地，编辑系统将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络。通过目标渲染网络为替换文本设置文本属性，将替换文本添加至背景图像中，并依据文本边界框的中心点坐标，调整替换文本的位置，使合成图像更加融合和谐。在渲染完成后，即可得到最终的目标图像。

本申请实施例提供的方法，首先获取原始图像和替换文本图像，对原始图像进行文字区域检测。接下来，依据检测到的前景信息，提取原始图像的前景图像，并对前景图像进行识别，得到原始图像中原始文本的文本属性。通过获取原始文本的文本属性，后续可以通过目标渲染网络为替换文本图像中的替换文本设置相同的文本属性，进而使替换文本与原始文本的样式一致。随后，基于目标图像背景修复网络，删除原始图像中的原始文本，与此同时填充原始文本部分的背景纹理，从而得到不破坏复杂纹理的背景图像。最后，将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。通过渲染网络对已修复纹理的背景图像和已更换文本属性的替换文本进行渲染，使合成图像更加和谐，不仅能够实现对复杂背景图像中的文本进行编辑，还能够使合成图像中的文本样式与原始图像中的文本样式保持一致。

本申请实施例提供了一种文本编辑方法，如图2所示，该方法包括：

201、获取原始图像和替换文本图像，采用目标实例分割网络对原始图像进行分割检测，得到文本边界框和二值掩码图像，合并文本边界框和二值掩码图像，得到前景信息。

在本申请实施例中，用户需要将原始图像和替换文本图像上传至文本编辑系统，由编辑系统对原始图像和替换文本图像进行图像处理，最终合成目标图像。在本步骤中，编辑系统先接收用户上传的原始图像和替换文本图像，进而采用系统中的目标实例分割网络对原始图像进行文字区域检测，获取原始图像的前景信息，确定原始文本的位置。

其中，目标实例分割网络是由相关技术人员预先构建的，具体地，先采集多个第一样本图像，分别标注多个第一样本图像中的每个样本图像的文字区域，得到多个标注数据。例如，图像甲中文本处于左上角，文本对应的文本框左上角像素坐标为(25，59)、右上角像素坐标为(185，59)、左下角像素坐标为(25，74)、右下角像素坐标为(185，74)。将文本框标注在图像甲中。需要说明的是，第一样本图像可以存在多个，具体数量可以由相关技术人员根据网络的实际训练情况进行改变。再对多个标注数据进行编号，在多个标注数据中提取目标编号的标注数据作为训练数据，直至训练数据的数量达到预设数量值，并将提取后剩余的标注数据作为测试数据，其中，目标编号的取值为任意数值。进一步地，采用训练样本训练实例分割网络，在训练完成后，采用测试数据测试实例分割网络，确定分割准确率，并将分割准确率与预设准确率阈值进行比对。当比对确定分割准确率大于等于预设准确率阈值时，得到目标实例分割网络Mask R-CNN。在实际运行过程中，编辑系统可以直接使用训练完成的目标实例分割网络Mask R-CNN对原始图像进行文字区域检测。

在实际运行过程中，用户可通过网络、相机、扫描器等图像采集渠道或者设备上传带有文字内容的原始图像，例如，带有【新年快乐】文本的节日氛围海报。接下来，用户可以自定义替换文本的文本内容，通过标注字体渲染后，使用截图或者拍照等方式上传替换文本图像，例如，带有宋体【元旦快乐】文本的截图，本申请对原始图像和替换文本图像的获取方式不进行具体限定。另外，标注字体可以是宋体或者楷体，本申请对标注字体的字形不进行具体限定。进一步地，编辑系统采用已经训练完成目标实例分割网络Mask R-CNN对原始图像进行分割检测，得到文本边界框和二值掩码图像。通过获取前景信息可以为后续提取前景图像提供数据支持，提高后续提取前景图像的效率。

202、依据检测到的前景信息，提取原始图像的前景图像。

在本申请实施例中，编辑系统是通过统一原始文本和替换文本的文本属性，使替换文本图像中的替换文本与原始文本的样式风格保持一致的。而为了排除运行过程中原始图像背景对后续模型预测文本属性的干扰，编辑系统就需要依据上一步骤检测到的前景信息(文本边界框、二值掩码图像)，在原始图像中提取前景图像。进而通过对前景图像中的原始文本进行识别，得到原始文本的文本属性。其中，前景图像为剔除背景后，保留文字区域部分的图像。具体地，编辑系统利用Mask R-CNN得到的二值掩码图像和opencv(跨平台计算机视觉和机器学习软件库)库的bitwise_and(图像位与运算)算法，对原始图像进行图像处理，最终输出原始图像的前景图像。

203、对前景图像进行识别，得到原始图像中原始文本的文本属性。

进一步地，考虑到文本样式复杂精巧的原因取决于文本关联了多个文本特征，如字体、透明度、阴影、亮度和方向等。因此，为了检测出原始文本关联的文本特征，本申请设计了多任务网络，如图3所示，其中透明度、阴影、亮度参数范围为0～1，方向类别为0、90、180、270度，字体类别为宋体、黑体、楷体、罗马体、Georgia和Baskerville。多任务网络的每个任务分支的全连接层都包括多个节点，每个节点关联有一个文本特征。以字体任务分支为例，字体类文本特征包括宋体、黑体、楷体、罗马体、Georgia和Baskerville，每个文本特征关联一个节点，如需更多类型字体，可灵活修改字体分类分支最后全连接层的节点数量。

在本步骤中，编辑系统通过多任务网络对前景图像中的原始文本进行识别，得到原始文本的文本属性。具体地，编辑系统将前景图像输入至多任务网络，多任务网络先将前景图像调整为目标尺寸(如227×227×3)，得到目标尺寸的指定图像。进一步地，编辑系统将指定图像按照预设顺序输入至多任务网络中的每个任务分支，分别采用每个任务分支的特征提取网络识别指定图像，得到多个文本特征。最后，合并多个文本特征，得到文本属性。

204、基于目标图像背景修复网络，确定原始图像的背景图像。

其中，目标图像背景修复网络是由相关技术人员预先构建的，具体地，先构建图像背景修复网络和第一判别网络。接下来，获取第二样本图像和第二样本图像对应的标签背景图像，例如，在绘图软件中导出添加文本前的图像作为标签背景图像，再在绘图软件中添加文本内容，导出添加文本内容的图像作为第二样本图像。随后，采用图像背景修复网络对样本图像进行预测，得到第一指定图像。再使用第一判别网络比对第一指定图像和标签背景图像，得到第一判别结果(0或者1)。最后，根据第一判别结果对图像背景修复网络的网络参数进行调整，使图像背景修复网络和判别网络进行对抗训练。在图像背景修复网络达到平衡状态后，得到目标图像背景修复网络，其中，目标图像背景修复网络的编码器包括3个下采样卷积层和6个残差块，目标图像背景修复网络的解码器包括3个上采样卷积层和双曲正切tanh函数。

在实际应用过程中，编辑系统将原始图像输入至目标图像背景修复网络，基于目标图像背景修复网络，删除原始图像中文本边界框内的原始文本，填充文本边界框内的背景纹理，得到背景图像。

205、构建目标渲染网络，将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。

在本申请实施例中，编辑系统采用目标渲染网络对图像进行渲染，最终输出合成的目标图像。其中，目标渲染网络是由相关技术人员预先构建的，具体地，先构建渲染网络和第二判别网络。接下来，获取第三样本图像和第三样本图像对应的标签文本图像，例如，在绘图软件中导出添加原始文本的图像作为第三样本图像，再在绘图软件中采用替换文本替换原始文本，导出添加替换文本的图像作为标签文本图像。随后，采用渲染网络对样本图像进行预测，得到第二指定图像。最后，使用第二判别网络比对第二指定图像和标签文本图像，得到第二判别结果(0或者1)，并根据第二判别结果对渲染络的网络参数进行调整，使渲染网络和判别网络进行对抗训练。在渲染网络达到平衡状态后，得到目标渲染网络，其中，目标渲染网络包括编码器和解码器，编码器包括4个降采样卷积层和残差块，解码器包括3个上采样转置卷积层和leaky ReLU激活函数。在实际应用过程中，编辑系统将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络。通过目标渲染网络为替换文本设置文本属性，将替换文本添加至背景图像中，并依据文本边界框的中心点坐标，调整替换文本的位置，以使替换文本的边界框的中心点坐标与原始文本的文本边界框的中心点坐标一致。在渲染完成后，即可得到最终的目标图像。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种文本编辑装置，如图4所示，所述装置包括：获取模块401、提取模块402、确定模块403、渲染模块404。

该获取模块401，用于获取原始图像和替换文本图像，对所述原始图像进行文字区域检测；

该提取模块402，用于依据检测到的前景信息，提取所述原始图像的前景图像，并对所述前景图像进行识别，得到所述原始图像中原始文本的文本属性，所述前景信息包括所述原始文本对应的文本边界框和二值掩码图像；

该确定模块403，用于基于目标图像背景修复网络，确定所述原始图像的背景图像；

该渲染模块404，用于将所述替换文本图像、所述文本属性、所述前景图像、所述背景图像和所述文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。

在具体的应用场景中，该获取模块401，用于获取目标实例分割网络，采用所述目标实例分割网络对所述原始图像进行分割检测，得到所述文本边界框和所述二值掩码图像；合并所述所述文本边界框和所述二值掩码图像，得到所述前景信息。

在具体的应用场景中，该获取模块401，用于采集多个第一样本图像，分别标注所述多个第一样本图像中的每个样本图像的文字区域，得到多个标注数据；对所述多个标注数据进行编号，在所述多个标注数据中提取目标编号的标注数据作为训练数据，直至所述训练数据的数量达到预设数量值，并将提取后剩余的标注数据作为测试数据，其中，所述目标编号的取值为任意数值；采用所述训练样本训练实例分割网络；在训练完成后，采用所述测试数据测试所述实例分割网络，确定分割准确率，并将所述分割准确率与预设准确率阈值进行比对；当比对确定所述分割准确率大于等于所述预设准确率阈值时，得到目标实例分割网络。

在具体的应用场景中，该提取模块402，用于将所述前景图像调整为目标尺寸，得到指定图像；将所述指定图像按照预设顺序输入至多任务网络中的每个任务分支，分别采用每个任务分支的特征提取网络识别所述指定图像，得到多个文本特征；合并所述多个文本特征，得到所述文本属性。

在具体的应用场景中，该确定模块403，用于构建目标图像背景修复网络，将所述原始图像输入至所述目标图像背景修复网络；基于所述目标图像背景修复网络，删除所述原始图像中文本边界框内的原始文本，填充所述文本边界框内的背景纹理，得到所述背景图像。

在具体的应用场景中，该确定模块403，用于构建图像背景修复网络和第一判别网络；获取第二样本图像和所述第二样本图像对应的标签背景图像，采用所述图像背景修复网络对所述样本图像进行预测，得到第一指定图像；使用所述第一判别网络比对所述第一指定图像和所述标签背景图像，得到第一判别结果；根据所述第一判别结果对所述图像背景修复网络的网络参数进行调整，在所述图像背景修复网络达到平衡状态后，得到所述目标图像背景修复网络，其中，所述目标图像背景修复网络的编码器包括下采样卷积层和残差块，所述目标图像背景修复网络的解码器包括上采样卷积层和双曲正切函数。

在具体的应用场景中，如图5所示，所述装置还包括：构建模块501、预测模块502、调整模块503。

该构建模块501，用于构建渲染网络和第二判别网络；

该预测模块502，用于获取第三样本图像和所述第三样本图像对应的标签文本图像，采用所述渲染网络对所述样本图像进行预测，得到第二指定图像；

该调整模块503，用于使用所述第二判别网络比对所述第二指定图像和所述标签文本图像，得到第二判别结果，并根据所述第二判别结果对所述渲染络的网络参数进行调整，在所述渲染网络达到平衡状态后，得到所述目标渲染网络；其中，所述目标渲染网络包括编码器和解码器，所述编码器包括降采样卷积层和残差块，所述解码器包括上采样转置卷积层和激活函数。

本申请实施例提供的装置，首先获取原始图像和替换文本图像，对原始图像进行文字区域检测。接下来，依据检测到的前景信息，提取原始图像的前景图像，并对前景图像进行识别，得到原始图像中原始文本的文本属性。通过获取原始文本的文本属性，后续可以通过目标渲染网络为替换文本图像中的替换文本设置相同的文本属性，进而使替换文本与原始文本的样式一致。随后，基于目标图像背景修复网络，删除原始图像中的原始文本，与此同时填充原始文本部分的背景纹理，从而得到不破坏复杂纹理的背景图像。最后，将替换文本图像、文本属性、前景图像、背景图像和文本边界框的中心点坐标输入至目标渲染网络进行渲染，得到目标图像。通过渲染网络对已修复纹理的背景图像和已更换文本属性的替换文本进行渲染，使合成图像更加和谐，不仅能够实现对复杂背景图像中的文本进行编辑，还能够使合成图像中的文本样式与原始图像中的文本样式保持一致。

需要说明的是，本申请实施例提供的一种文本编辑装置所涉及各功能单元的其他相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

在示例性实施例中，参见图6，还提供了一种设备，该设备包括通信总线、处理器、存储器和通信接口，还可以包括输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的文本编辑方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的文本编辑方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种文本编辑方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述原始图像进行文字区域检测，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取目标实例分割网络，包括：

采用所述训练样本训练实例分割网络；

4.根据权利要求1所述的方法，其特征在于，所述对所述前景图像进行识别，得到所述原始图像中原始文本的文本属性，包括：

将所述前景图像调整为目标尺寸，得到指定图像；

合并所述多个文本特征，得到所述文本属性。

5.根据权利要求1所述的方法，其特征在于，所述基于目标图像背景修复网络，确定所述原始图像的背景图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述构建目标图像背景修复网络，包括：

构建图像背景修复网络和第一判别网络；

7.根据权利要求1所述的方法，其特征在于，所述将所述替换文本图像、所述文本属性、所述前景图像、所述背景图像和所述文本边界框的中心点坐标输入至目标渲染网络进行渲染之前，所述方法还包括：

构建渲染网络和第二判别网络；

8.一种文本编辑装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。