CN113496225A

CN113496225A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113496225A
Application number: CN202111041464.3A
Authority: CN
Inventors: 任旭华; 孙子荀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-10-12
Anticipated expiration: 2041-09-07
Also published as: CN113496225B

Abstract

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质，可以应用于云技术、人工智能、区块链、智慧交通、车载、游戏等各种领域或场景，其中方法包括：获取待合成文本和待合成图像；根据所述待合成图像生成背景图像，其中，当所述待合成图像包括字符信息时，所述背景图像是根据去除掉所述字符信息的待合成图像生成的；获取所述背景图像的辅助图像特征，并根据所述辅助图像特征确定所述待合成文本的显示特征；根据所述显示特征将所述待合成文本和所述背景图像进行合成，得到合成文本图像。通过本申请实施例可以有效提高文本图像的合成效率以及有效提高合成文本图像的合成效果。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及图像处理方法、图像处理装置、计算机设备及计算机可读存储介质。

背景技术

随着人工智能技术的发展，光学字符识别（Optical Character Recognition，OCR）技术应运而生，光学字符识别OCR是指对包含文本资料的图像资料文件（可简称为文本图像）进行分析识别处理，获取文字及版面信息的技术。在实际应用中，通常是训练一个OCR文本检测模型来实现对文本图像的文本检测，以获取文本图像的文字及版面信息。OCR文本检测模型的训练通常需要大量的文本图像作为训练语料，而往往现有的真实文本图像的数量不能满足训练要求，如果由人工去实际拍摄足够数量的真实文本图像则会耗费大量的人力和时间成本。为快速且容易的获取到足够数量的文本图像，可以采用合成文本图像的方式，但如何合成效果佳的文本图像是有待解决的问题。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质，可以有效提高文本图像的合成效率以及合成文本图像的合成效果。

一方面，本申请实施例提供了一种图像处理方法，所述方法包括：

获取待合成文本和待合成图像；

根据所述待合成图像生成背景图像，其中，当所述待合成图像包括字符信息时，所述背景图像是根据去除掉所述字符信息的待合成图像生成的；

获取所述背景图像的辅助图像特征，并根据所述辅助图像特征确定所述待合成文本的显示特征；

根据所述显示特征将所述待合成文本和所述背景图像进行合成，得到合成文本图像。

一方面，本申请实施例提供了一种图像处理装置，所述装置包括：

获取单元，用于获取待合成文本和待合成图像；

处理单元，用于根据所述待合成图像生成背景图像，其中，当所述待合成图像包括字符信息时，所述背景图像是根据去除掉所述字符信息的待合成图像生成的；

所述处理单元，还用于获取所述背景图像的辅助图像特征，并根据所述辅助图像特征确定所述待合成文本的显示特征；

所述处理单元，还用于根据所述显示特征将所述待合成文本和所述背景图像进行合成，得到合成文本图像。

在一实施例中，所述处理单元，具体用于：

获取所述背景图像的深度特征图；提取所述背景图像的颜色特征信息和纹理特征信息，根据所述颜色特征信息和所述纹理特征信息对所述背景图像进行区域分割处理，得到所述背景图像的第一区域分割图；将所述深度特征图和所述第一区域分割图确定为所述背景图像的辅助图像特征。

在一实施例中，所述处理单元，具体用于：

根据所述第一区域分割图，确定所述待合成文本在所述背景图像中的显示区域；根据所述深度特征图，确定所述背景图像中所述显示区域的深度信息，并根据所述深度信息确定所述待合成文本的显示深度；将所述显示区域和所述显示深度确定为所述待合成文本的显示特征。

在一实施例中，所述处理单元，还用于：

提取所述背景图像的亮度特征信息，根据所述亮度特征信息对所述背景图像进行区域分割处理，得到所述背景图像的第二区域分割图；其中，所述辅助图像特征还包括所述第二区域分割图；

根据所述第二区域分割图，确定所述背景图像中所述显示区域的亮度信息，并根据所述亮度信息确定所述待合成文本的显示亮度；其中，所述显示特征还包括所述显示亮度。

在一实施例中，所述处理单元，具体用于：

当所述待合成图像中存在字符信息时，对所述待合成图像进行字符清除，并针对字符清除区域进行图像填充；根据字符信息清除且图像填充后的待合成图像生成背景图像。

在一实施例中，所述获取单元，具体用于：

从文本数据库中获取与目标场景相关联的参考文本，根据所述参考文本确定待合成文本；从图像数据库中获取与所述目标场景相关联的参考图像，根据所述参考图像确定待合成图像。

在一实施例中，所述处理单元，还用于：确定所述合成文本图像中所述待合成文本的文本位置；将所述合成文本图像、所述待合成文本和所述文本位置组成样本数据对，并根据所述样本数据对生成训练数据集；

所述装置还包括训练单元，所述训练单元，用于利用所述训练数据集对初始文本检测模型进行训练，得到训练后的文本检测模型。

在一实施例中，所述获取单元，还用于获取与所述目标场景相关联的待检测文本图像；

所述装置还包括文本检测单元，所述文本检测单元，用于将所述待检测文本图像输入所述训练后的文本检测模型中进行处理，得到所述待检测文本图像的文本检测结果；其中，所述文本检测结果包括识别文本内容、识别文本位置和所述文本检测结果的识别准确度中的一种或者多种。

一方面，本申请实施例提供了一种计算机设备，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行本申请实施例提供的图像处理方法。

相应地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本申请实施例提供的图像处理方法。

相应地，本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行本申请实施例提供的图像处理方法。

采用本申请实施例，一方面，当待合成图像原本包括字符信息时，会将原本的字符信息进行清除后与待合成文本进行合成，这样可以避免待合成图像原本的字符信息影响合成文本图像的合成效果；另一方面，可以根据背景图像的辅助图像特征自动且快速的确定待合成文本的合理显示特征，并按照该合理显示特征将待合成文本和背景图像进行快速合成，这样不仅可以有效提高文本图像的合成效率，还可以有效提高合成文本图像中文本显示的真实性，从而进一步提高合成文本图像的合成效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的图像处理方法所适用的一种网络架构；

图2是本申请实施例提供的一种图像处理方法的流程示意图；

图3是本申请实施例提供的一种U型卷积神经网络的网络结构图；

图4示出了基于背景图提取模型针对图像进行背景图提取的方式；

图5示出了一种深度图；

图6示出了一种连续区域分割图；

图7示出了基于连续区域分割模型针对图像进行连续区域分割的方式；

图8示出了本申请实施例提供的带有残差网络的卷积神经网络的一种网络结构；

图9示出了本申请实施例提供的带有残差网络的卷积神经网络的另一种网络结构；

图10示出了基于文本图像合成模型合成文本图像的方式；

图11示出了图1中步骤S205的后续步骤；

图12示出了文本检测模型应用所适用的一种网络架构；

图13示出了文本检测结果的一种可视化呈现；

图14是本申请实施例提供的一种游戏视频封面的示意图；

图15是本申请实施例提供的一种图像处理装置的结构示意图；

图16是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为更好的理解本申请实施例，下面先对本申请实施例所涉及的一些术语进行介绍：

OpenCV：OpenCV是一个基于BSD（一种开源协议）许可（开源）发行的跨平台计算机视觉库。

HTTP协议：HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写，是用于从万维网服务器传输超文本到本地浏览器的传送协议。

U型卷积神经网络：该网络是基于全卷积神经网络的一种语义分割网络，适用于做医学图像的分割。

COCO数据集：全称是Microsoft Common Objects in Context，是一个图像数据库。

文本图像的一种合成方法是，在搜集到的文本数据库中随机的裁剪出待合成文字内容，这样可以在保证语义的完整性的基础上具备一定的随机性，在搜集到的图像库中随机的选择图像作为背景图像，然后将背景图像和该文字内容进行随机的合成。为保证合成文本图像的多样性，可以进一步通过OpenCV库对合成文本图像进行一定的线性或者非线性运算，例如：随机裁剪图像，弯曲图像，给图像中的文字加边界、加上划线、加下划线，等等。但采用上述方式合成的文本图像往往存在合成效果不佳（诸如真实性低）的问题。

基于此，本申请实施例提供了一种图像处理方法，其包含了另一种文本图像合成方法，以按照根据背景图像的辅助图像特征确定的合理显示特征将待合成文本和背景图像进行合成，这样可以有效提高合成文本图像中文本显示的真实性，从而有效提高合成文本图像的合成效果。本申请实施例提供的图像处理方法可以基于AI（ArtificialIntelligence，人工智能）技术实现。AI是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。AI技术是一门综合学科，其涉及的领域较为广泛；而本申请实施例提供的图像处理方法主要涉及AI技术中的机器学习(Machine Learning，ML)技术。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在可行的实施例中，本申请实施例提供的图像处理方法还可以基于云技术（Cloudtechnology）和/或区块链技术实现。具体可以涉及云技术中的云存储（Cloud storage）、云数据库（Cloud Database）、大数据（Big data）中的一种或者多种。例如，从云数据库中获取执行该图像处理方法所需要的数据（例如文本数据、图像数据等）。又例如，执行该图像处理方法所需要的数据可以是以区块的形式存储在区块链上；可以将执行该图像处理方法所产生的数据（例如背景图像、辅助图像特征、显示特征、合成文本图像等）以区块的形式存储到区块链上；另外，执行该图像处理方法的数据处理设备可以是区块链网络中的节点设备。

本申请实施例提供的图像处理方法可以适用于图1所示的网络架构。图1所示的数据处理设备10可以是具备数据（如图像和文本）处理功能的服务器或者终端，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端，等等，但并不局限于此。图1所示的文本数据库11和图像数据库12可以是数据处理设备10的本地数据库，也可以是数据处理设备10能够访问的云端数据库。本申请实施例提供的图像处理方法可以由数据处理设备10执行，具体的：

从文本数据库11中获取与目标场景相关联的参考文本，然后根据该参考文本确定待合成文本，从图像数据库12中获取与目标场景相关联的参考图像，然后根据该参考图像确定待合成图像。待合成文本和待合成图像对应相同的目标场景，这样可以使得合成的文本图像更加符合真实情况。在获取到待合成图像之后，根据待合成图像生成背景图像，其中，当待合成图像包括字符信息时，先将待合成图像中的字符信息进行去除，然后根据去除掉字符信息的待合成图像生成背景图像。获取背景图像的辅助图像特征，该辅助图像特征可以包括深度特征图和区域分割图，该区域分割图可以包括基于颜色和纹理特征确定的第一区域分割图，还可以包括基于亮度特征确定的第二区域分割图。根据辅助图像特征确定待合成文本的合理显示特征，该合理显示特征包括待合成文本在背景图像中的显示区域，还可以包括待合成文本在该显示区域中的显示深度和/或显示亮度，该合理显示特征会使得文本在合成文本图像中更加真实的显示。最后根据该合理显示特征将待合成文本和背景图像进行合成，得到最终的合成文本图像。采用上述方式，一方面，当待合成图像原本包括字符信息时，会将原本的字符信息进行清除后与待合成文本进行合成，这样可以避免待合成图像原本的字符信息影响合成文本图像的合成效果；另一方面，可以根据背景图像的辅助图像特征自动且快速的确定待合成文本的合理显示特征，并按照该合理显示特征将待合成文本和背景图像进行快速合成，这样不仅可以有效提高文本图像的合成效率，还可以有效提高合成文本图像中文本显示的真实性，从而进一步提高合成文本图像的合成效果。

以上对本申请实施例提供的图像处理方法进行了简要介绍，下面对该图像处理方法的具体实现方式进行详细阐述。

请参阅图2，图2为本申请实施例提供的一种图像处理方法的流程示意图。本申请实施例中所描述的图像处理方法可以由图1所示的数据处理设备执行，该图像处理方法包括但不限于如下步骤：

S201、获取待合成文本和待合成图像。

本申请实施例中，数据处理设备可以从文本数据库中获取与目标场景相关联的参考文本，然后根据该参考文本确定待合成文本。数据处理设备可以从图像数据库中获取与目标场景相关联的参考图像，然后根据该参考图像确定待合成图像。该文本数据库和该图像数据库可以是数据处理设备的本地数据库，也可以是数据处理设备能够访问的云端数据库。该文本数据库包括与目标场景相关联的一系列真实的文本资料，该图像数据库包括与目标场景相关联的一系列真实的图像资料。该目标场景可以是虚拟场景或者真实场景，例如可以是虚拟的游戏场景，此时文本数据库包括的与虚拟游戏场景相关联的真实文本资料，如“击杀2人”、玩家名称“ThyzhyXX”，等等；此时图像数据库包括的与虚拟游戏场景相关联的真实图像资料可以为游戏视频中的帧图像。又例如可以是真实的演出场景，此时该真实文本资料可以为演出宣传语，如“本次活动由甲公司倾情赞助”，该真实图像资料可以为针对演出场景所拍摄的照片，或者也可以为针对演出场景所拍摄的视频中的图像帧。待合成文本和待合成图像对应相同的目标场景，这样可以使得合成的文本图像更加符合真实情况。

在一实施例中，数据处理设备在从文本数据库中获取与目标场景相关联的参考文本时，可以将从文本数据库中随机选取的与目标场景相关联的真实文本资料确定为参考文本；也可以对文本数据库中的与目标场景相关联的真实文本资料进行随机的选取、裁剪、组合等操作，以采样出不同长度的语句，然后将采样出的不同长度的语句中的部分或者全部确定为参考文本，例如：对于真实文本资料“大哥盖草屋，二哥盖木屋，三弟盖了砖屋”，而通过随机的选取、裁剪、组合等操作，可以采样出丰富的文字组合，如：“盖草屋”、“盖草屋，二哥”、“盖了砖屋”、“木屋，三弟”等，可以将上述文字组合中的全部或者部分确定为参考文本。

在一实施例中，数据处理设备在根据该参考文本确定待合成文本时，一种方式可以是直接将该参考文本确定为待合成文本；另一种方式可以是对该参考文本进行随机修改后，将随机修改后得到的具有实际意义的文本确定为待合成文本，这样可以增加待合成文本的随机性和多样性，从而使得采用本申请的图像处理方法所生成的合成文本图像更加丰富多样，这样可以为后续训练文本检测模型提供丰富的训练素材，有利于训练出更佳的文本检测模型。在可行的实施方式中，对该参考文本进行随机修改的方式包括以下一种或者多种：

随机替换（SR）：从文本中随机选取一定数量的字或词，并随机选择其同义词进行替换；随机插入（Random Insertion，RI）：从文本中随机确定某个或者某些字或词，并随机确定其同义词，将该同义词插入参考文本的一个随机位置；随机交换（Random Swap，RS）：随机的选择文本中一组或多组的字或词进行位置交换。随机删除（Random Deletion，RD）：随机的移除文本中一个或多个字或词。

例如，原文本为：A sad，superior human comedy played out on the backroads of life。通过随机替换方法，随机抽取sad 和back两个词，则原文本变为：Alamentable，superior human comedy played out the backward road of life。其中，lamentable和sad为同义词，“on the back roads of life”和“the backward road oflife”能够表达类似的意思。通过随机插入方法，在原文本中插入额外的单词funniness，则原文本变为：A sad，superior human comedy played out of funniness the back roadsof life。通过随机交换方法，交换原文本中the和roads两个词的位置，则原文本变为：Asad，superior human comedy played out on roads back the of life。通过随机删除方法，删除原文本中comedy和played两个词，则原句变成了A sad，superior human out onthe roads of life。

在一实施例中，数据处理设备在从图像数据库中获取与目标场景相关联的参考图像时，可以将从图像数据库中随机选取的与目标场景相关联的真实图像本资料确定为参考图像。数据处理设备在根据该参考图像确定待合成图像时，一种方式可以是直接将该参考图像确定为待合成文本；另一种方式可以是对该参考图像进行调整后，将调整后的参考图像确定为待合成图像。在可行的实施方式中，对参考图像进行调整的方式可以包括以下一种或者多种：

尺寸调整，包括将图像的尺寸调整为某一设定尺寸，或者将图像的尺寸按照某一设定倍数进行缩放，可选的，图像尺寸调整可以是进行矢量调整，当矢量调整后的图像不能满足尺寸要求时，可以采用图像填充等方式使得满足尺寸要求；图像旋转，包括将图像进行水平翻转，或者将图像按照某一旋转方向（如顺时针或者逆时针）旋转一定的角度；随机裁剪图像，即将图像随机裁剪一部分；图像变形，包括将图像变弯曲；图像去噪处理。

S202、根据所述待合成图像生成背景图像，其中，当所述待合成图像包括字符信息时，所述背景图像是根据去除掉所述字符信息的待合成图像生成的。

本申请实施例中，数据处理设备在获取到待合成图像之后，先检测待合成图像是否包括字符信息，当待合成图像中存在字符信息时，对待合成图像进行字符清除，即清除待合成图像所包括的字符信息；由于在字符清除后，字符清除区域可能不存在图像信息，为保证去除字符后的待合成图像的图像完整性，可以针对去除字符后的待合成图像中的字符清除区域进行图像填充，可以是基于去除字符后的待合成图像中已知的图像内容来确定字符清除区域的填充图像内容，并利用该填充图像内容对该字符清除区域进行图像填充；最后根据字符信息清除且图像填充后的待合成图像生成背景图像。

在根据字符信息清除且图像填充后的待合成图像生成背景图像时，可以是直接将字符信息清除且图像填充后的待合成图像确定为待合成文本；也可以是当待合成图像不为对参考图像进行调整后的图像时，对字符信息清除且图像填充后的待合成图像进行图像调整后作为背景图像。在可行的实施方式中，图像调整方式可以包括上述尺寸调整、图像旋转、随机裁剪图像、图像变形、图像去噪处理中的一种或者多种。

在一实施例中，上述对待合成图像进行字符清除以及对字符清除区域进行图像填充，得到字符信息清除且图像填充后的待合成图像的过程，可以利用背景图提取模型实现，该背景图提取模型可以是由卷积神经网络构成，具体可以是由U型卷积神经网络构成。如图3所示，示出了U型卷积神经网络的一种网络结构，U型卷积神经网络是一个经典的编码器和解码器结构，编码器是图3中的左边部分，采用卷积层（图像和卷积核进行相乘后相加的操作）和下采样层（下采样层也叫池化层，其具体操作与卷积层的操作基本相同，只不过下采样的卷积操作只取对应位置的最大值或平均值等，并且不经过反向传播的修改），逐渐生成稠密的卷积神经网络特征图提取层；解码器是图3中的右边部分，解码器相对编码器是一个镜像的结构，采用上采样层（上采样操作即上池化操作，是从前一层输出中安放复原物到当前层的合适位置，从而在一定程度上保护原有特征图结构）和卷积层逐渐把特征图还原到和原图一样的大小，同时采用复制和粘贴操作，将左边编码器提取的特征图拼接到右边的解码器部分，以保证特征图的准确性。如图4所示，将包含字符信息的图像输入背景图提取模型中进行处理后，会对图像中原本的字符信息进行清除，且会对字符清除区域进行图像填充，最终输出一个完整的背景图像。

S203、获取所述背景图像的辅助图像特征。

本申请实施例中，数据处理设备获取该背景图像的深度特征图，该深度特征图包括背景图像的深度特征信息，可用于指示背景图像中像素点的深度值。如图5所示，图5中处于上方的图为原图，图5中处于下方的图为原图的深度图。数据处理设备提取背景图像的颜色特征信息和纹理特征信息，根据提取的颜色特征信息和纹理特征信息对背景图像进行区域分割处理，以将具有相似颜色特征且具有相似纹理特征的图像区域归为同一分割区域，相似可以是指特征值相同或者特征差值在预设范围内，区域分割处理后得到背景图像的第一区域分割图。通常不同对象的颜色和纹理特征相差较大，同一对象的全部或者部分区域具有相似的颜色和纹理特征，故该第一区域分割图通常可以将背景图像中的不同显示对象或者同一显示对象中颜色和纹理特征不相似的不同部分，划分到不同的分割区域中，可以将同一显示对象具有相似颜色和纹理特征的部分，划分到同一分割区域中，这样该第一区域分割图中的每一个分割区域为具有相似颜色和纹理特征的图像区域，这样的图像区域亦可称之为连续区域，则该第一区域分割图亦可称之为连续区域分割图。如图6所示，图6中处于上方的图为原图，图6中处于下方的图为原图的连续区域分割图，原图所示的帐篷门的下半部分61具有相似的颜色和纹理，故在连续区域分割图中帐篷门的下半部分61对应同一个分割区域62。数据处理设备可以将该深度特征图和该第一区域分割图中的一种或者多种确定为背景图像的辅助图像特征。

在一实施例中，数据处理设备提取背景图像的亮度特征信息，根据提取的亮度特征信息对背景图像进行区域分割处理，以将具有相似亮度特征的图像区域归为同一分割区域，相似可以是指特征值相同或者特征差值在预设范围内，区域分割处理后得到背景图像的第二区域分割图（或称之为亮度区域分割图）。数据处理设备可以将该深度特征图、该第一区域分割图以及该第二区域分割图像中的一种或者多种确定为背景图像的辅助图像特征。

在一实施方式中，在获取该背景图像的连续区域分割图时，可以利用连续区域分割模型实现。在获取该背景图像的亮度区域分割图时，可以利用亮度区域分割模型实现。该连续区域分割模型和该亮度区域分割模型可以是由卷积神经网络构成，例如由U型卷积神经网络构成，U型卷积神经网络的结构例如图3所示，此处不再赘述。该连续区域分割模型和该亮度区域分割模型可以是利用COCO数据集训练得到的分割模型。如图7所示，将图像输入连续区域分割模型中进行处理后，即可自动且快速的确定出图像的连续区域分割图。同样的，将图像输入亮度区域分割模型中进行处理后，即可自动且快速的确定出图像的亮度区域分割图。

在一实施方式中，在获取该背景图像的深度特征图时，可以利用深度图提取模型实现。该深度特征图可以是由带有残差网络（一种经典的卷积网络架构）的卷积神经网络（例如全卷积神经网络）构成。如图8所示，示出了一种带有残差网络的卷积神经网络的网络结构，该卷积神经网络包含了一系列的卷积、降采样（可由图中所示的残差模块实现）、批归一化和上采样操作。在可行的实施方式中，可以在U型卷积神经网络的基础上，将U型卷积神经网络中的部分结构替换为如图9所示的残差模块，即可得到另一种带有残差网络的卷积神经网络。如图8所示，将图像输入深度图提取模型中进行处理后，即可自动且快速的确定出图像的深度特征图。

S204、根据所述辅助图像特征确定所述待合成文本的显示特征。

本申请实施例中，当辅助图像特征包括背景图像的深度特征图和第一区域分割图（或称之为连续区域分割图）时，可以根据该连续区域分割图，确定待合成文本在背景图像中的显示区域，可以根据该深度特征图，确定背景图像中该显示区域的深度信息，并根据该深度信息确定待合成文本的显示深度；最后可以将该显示区域以及该显示深度确定为待合成文本的显示特征。

在一实施方式中，在根据该连续区域分割图确定待合成文本在背景图像中的显示区域时，为保证合成文本图像中文本显示的真实性，该显示区域可以对应的是该连续区域分割图中的某分割区域，该某分割区域对应背景图像中某显示对象的具有相似的颜色和纹理特征的连续区域，这样可以使得待合成文本的显示区域位于背景图像中某显示对象的连续区域。例如，对于一张同时包括墙面和地面的真实图像，文字通常只会存在于墙面或者地面上，而不会既存在于墙面上，同时又存在于地面上；并且通常墙面和地面在颜色和纹理上具有较大的差别，所以相应的连续区域分割图会将墙面和地面划分到不同的分割区域，这样可以使得在基于连续区域分割图确定待合成文本的显示区域时，不会将墙面和地面所对应的区域同时确定为待合成文本的显示区域，只会将墙面或者地面所对应的区域确定为待合成文本的显示区域。需要说明的是，当待合成文本包括多个字符串时，可以针对该多个字符串选择同一显示区域；也可以针对该多个字符串选择不同的显示区域。

在一实施方式中，根据背景图像中该显示区域的深度信息确定出的待合成文本的显示深度，包括待合成文本中每一个字符的每一部分的显示深度。为保证合成文本图像中文本显示的真实性，确定出的待合成文本的显示深度需要使得待合成文本能够贴合该显示区域中的显示对象进行显示。例如，显示区域中的显示对象为矿泉水水桶，由于水桶为弧形物体，所以图像中水桶的各部分的深度存在一定的区别，为保证在图像中的水桶上添加文本之后，文本显示真实，则需要文本贴合水桶显示，即文本中显示在水桶上深度越深位置处的字符的深度越深，显示在水桶上深度越浅位置处的字符的深度越浅。

在一实施例中，当辅助图像特征除了包括背景图像的深度特征图和第一区域分割图之外，还包括背景图像的第二区域分割图（或称之为亮度区域分割图）时，可以根据该亮度区域分割图，确定背景图像中该显示区域的亮度信息，并根据该亮度信息确定待合成文本的显示亮度。最后可以将该显示区域、显示深度以及该显示亮度确定为待合成文本的显示特征。

在一实施方式中，根据背景图像中该显示区域的亮度信息确定出的待合成文本的显示亮度，包括待合成文本中每一个字符的每一部分的显示亮度。为保证合成文本图像中文本显示的真实性，确定出的待合成文本的显示亮度需要使得待合成文本与显示区域的亮度相匹配，即文本中显示在显示区域中亮度越亮位置处的字符的亮度越亮，显示在显示区域中亮度越暗位置处的字符的亮度越暗。

S205、根据所述显示特征将所述待合成文本和所述背景图像进行合成，得到合成文本图像。

本申请实施例中，若待合成文本的显示特征包括上述确定的显示区域和显示深度，则按照该显示区域和该显示深度将待合成文本和背景图像进行合成，即将待合成文本放置在背景图像中的该显示区域处，且待合成文本在该显示区域处以该显示深度进行显示。

在一实施例中，若待合成文本的显示特征除了包括上述确定的显示区域和显示深度之外，还包括上述确定的显示亮度，则按照该显示区域、该显示深度以及该显示亮度将待合成文本和背景图像进行合成，即将待合成文本放置在背景图像中的该显示区域处，且待合成文本在该显示区域处以该显示深度和该显示亮度进行显示。

在可行的实施方式中，对于合成文本图像的一些特定的应用场景，可以确定待合成文本的参考字体，并在进行文本图像合成时，将待合成文本的字体调整为该参考字体。例如，合成文本图像用于训练一个专门针对票据进行识别的文本检测模型，由于票据中的字体都是专门设计的，这时候将合成文本图像中的文本的字体调整为与票据专用字体相同或相似的字体，则会有利于专门针对票据进行识别的文本检测模型的训练。

在可行的实施方式中，可以基于上述确定的显示区域的大小，在进行文本图像合成时，适应性调整待合成文本的显示大小。还可以事先确定待合成文本的显示大小，并在确定待合成文本的显示区域时，从背景图像中找到与待合成文本的显示大小相匹配的连续区域作为显示区域。还可以基于上述确定的显示区域的颜色，在进行文本图像合成时，适应性调整待合成文本的显示颜色，可根据预先设置的颜色搭配规则以及显示区域的颜色来确定待合成文本的显示颜色，例如，当显示区域的颜色为黑色时，为能够看清显示区域中的文本，则可以将文本的显示颜色设置为白色。

在可行的实施例中，上述步骤S204-步骤S205，即根据背景图像的辅助图像特征确定待合成文本的显示特征，以及根据该显示特征将待合成文本和背景图像进行合成得到合成文本图像的过程，可以利用文本图像合成模型实现。例如，如图10所示，将上述确定的背景图像、背景图像的连续区域分割图和深度图、以及待合成文本输入文本图像合成模型中进行处理，即可自动快速生成合成文本图像。在一实施方式中，该文本图像合成模型可以是由卷积神经网络构成，如图10所示，可以由U型卷积神经网络构成，U型卷积神经网络的具体结构可参考前文描述，此处不再赘述。

采用本申请实施例提供的图像合成方法，一方面，当待合成图像原本包括字符信息时，会将原本的字符信息进行清除后与待合成文本进行合成，这样可以避免待合成图像原本的字符信息影响合成文本图像的合成效果；另一方面，可以根据背景图像的深度特征图、连续区域分割图和亮度区域分割图中的全部或者部分辅助图像特征，自动且快速的确定待合成文本的合理显示特征，并按照该合理显示特征将待合成文本和背景图像进行快速合成，这样不仅可以有效提高文本图像的合成效率，还可以有效提高合成文本图像中文本显示的真实性。

在可行的实施例中，基于上述步骤S201-步骤S205确定的合成文本图像可用于训练文本检测模型，基于训练的文本检测模型可用于针对文本图像进行文本检测，具体实现过程包括但不限于如图11所示的以下步骤：

S206、确定所述合成文本图像中所述待合成文本的文本位置。

本申请实施例中，可以以合成文本图像的左上边界为原点，水平方向为X轴，竖直方向为Y周建立坐标系，先基于该坐标系确定待合成文本在合成文本图像中的四个边界位置，包括左上边界位置[Xmin，Ymin]，右上边界位置[Xmax，Ymin]，右下边界位置[Xmax，Ymax] ，左下边界位置[Xmin，Ymmax]；然后根据上述四个边界位置确定合成文本图像中待合成文本的文本位置，位置表示形式可以为：[[Xmin，Ymin]，[Xmax，Ymin]，[Xmax，Ymax]，[Xmin，Ymmax]]。

S207、将所述合成文本图像、所述待合成文本和所述文本位置组成样本数据对，并根据所述样本数据对生成训练数据集。

本申请实施例中，训练数据集中包括多个样本数据对（用于训练文本检测模型的训练数据集中通常需要包括数万级别的样本数据对），训练数据集中的每一个样本数据对可以均是由与目标场景相关联的合成文本图像、合成文本图像中的合成文本和合成文本在合成文本图像中的位置组成的，可以是重复执行上述步骤S201-步骤S205，以获取足够数量的合成文本图像，并重复执行步骤S206-步骤S207以构建足够数量的样本数据对。在另一实施例中，训练数据集中的多个样本数据对也可以是部分样本数据对由与目标场景相关联的合成文本图像、合成文本图像中的合成文本和合成文本在合成文本图像中的位置组成，另一部分样本数据对由与目标场景相关联的真实文本图像、真实文本图像中的真实文本和真实文本在真实文本图像中的位置组成。

采用上述构建训练数据集的方式，可以在与目标场景相关联的真实文本图像的数量有限，不足以构建足够数量的训练用样本数据对的情况下，基于上述文本图像合成方法快速构造足够数量的与目标场景相关联的合成文本图像，从而快速构建足够数量的训练用样本数据对，有效提高训练数据集的生成效率。

S208、利用所述训练数据集对初始文本检测模型进行训练，得到训练后的文本检测模型。

本申请实施例中，利用该训练数据集对初始文本检测模型进行训练，以不断调整文本检测模型的模型结构和/或模型参数，直至训练后的文本检测模型满足收敛条件，即训练后的文本检测模型具有较高的文本检测准确率，最终得到训练后的文本检测模型。由于上述训练数据集中的文本图像均是与目标场景相关联的文本图像，所以上述训练后的文本检测模型对于与目标场景相关联的文本图像具有更高的文本检测准确度。由于训练数据集中包含了一些合成文本图像，合成文本图像的多样性更加丰富，这样相对于只采用真实文本图像进行训练的方式，采用本申请实施例的方式所训练得到的文本检测模型的检测准确率和鲁棒性更好。

在一实施方式中，该文本检测模型可以是OCR文本检测模型，具体可以是EAST模型（一种OCR文本检测模型），也可以是由U型卷积神经网络构成，U型卷积神经网络的结构例如图3所示，此处不再赘述。

需要说明的是，步骤S206-步骤S208可以由上述执行步骤S201-步骤S205的数据处理设备执行，也可以由其他数据处理设备执行。

S209、获取与所述目标场景相关联的待检测文本图像。

例如，当目标场景为虚拟游戏场景时，则待检测图像可以是游戏视频中的任一帧图像。当然，也可以获取不与目标场景相关联的其他图像作为待检测文本图像，只是可能文本检测的准确度会相对较低。

S210、将所述待检测文本图像输入所述训练后的文本检测模型中进行处理，得到所述待检测文本图像的文本检测结果。其中，所述文本检测结果包括识别文本内容、识别文本位置和所述文本检测结果的识别准确度中的一种或者多种。该识别准确度可以是指整个文本检测结果的一个综合置信度，也可以仅是指文本检测结果中的识别文本内容或者识别文本位置的置信度，还可以包括文本检测结果中的识别文本内容和识别文本位置分别的置信度。

需要说明的是，步骤S209-步骤S210可以由上述执行步骤S201-步骤S205的数据处理设备执行，或者由上述执行步骤S206-步骤S208的数据处理设备执行，也可以由其他数据处理设备执行。

在实际应用中，可以将上述训练好的文本检测模型部署到线上服务中，如部署到图12所示的算法线上服务器中。如图12所示，当用户在生产过程中需要对某文本图像中的文本进行检测时，其只需要启动脚本，服务器则会将待检测文本图像的源地址下发到某算法线上服务器中，算法线上服务器根据该源地址获取待检测文本图像，并利用其部署的文本检测模型对待检测文本图像进行文本检测，最终通过http协议将文本检测结果反馈给前端服务器和/或后端服务器。

文本检测结果可以包括：text字段，用于记录识别出的文本内容；Confidence字段，用于表征这项预测的置信度程度，最大值为1，表示极为可信，而最小值为0，表示结果不可信；text_region字段，表示识别文本在图像上的位置信息，形式为[[Xmin，Ymin]，[Xmax，Ymin]，[Xmax，Ymax]，[Xmin，Ymmax]]。例如，对于图13中所示的待检测文本图像（处于上方的图），其文本检测结果包括：

Model result: [{'text': '森友学校', 'confidence': 0.9901357889175415,'text_region': [[280, 27], [434, 27], [434, 37], [280, 37]]}, {'text': '欢迎”', 'confidence': 0.8290864825248718, 'text_region': [[260, 210], [300,210], [300, 215], [260, 215]]}]。

另外，如果需要可视化的结果，则可以将可视化的文本检测结果呈现在前端页面以作展示。如图13所示，处于上方的图为待检测文本图像，处于下方的图为待检测文本图像的文本检测结果的可视化呈现。

需要说明的是，用于执行上述方法实施例中各步骤的执行主体可以是由硬件构成，也可以是由软件构成，还可以是由软硬件结合构成。

在可行的实施例中，本申请提供的图像处理方法可以应用于游戏业务应用场景。可以采用本申请提供的图像处理方法生成游戏视频封面或者游戏宣传海报等等。例如，在生成游戏视频封面时包括但不限于如下步骤：从游戏视频中确定游戏背景图像，该游戏视频可以是游戏过程中针对游戏界面所录制的视频，也可以是基于记录的游戏过程中游戏界面的显示内容数据直接生成的视频，还可以是游戏直播视频，等等；可以是从游戏视频中随机选取一帧图像作为游戏背景图像，也可以是从游戏视频中的多帧图像中选取图像素材，并将从多帧图像中选取的图像素材进行合成，得到游戏背景图像。其中，在生成游戏背景图像的过程中，还可以对图像进行原有字符清除、尺寸调整、图像旋转、随机裁剪图像、图像变形、图像去噪处理中的一种或者多种处理。获取游戏视频封面的封面文本内容，该封面文本内容可以是业务人员编辑输入的，也可以是从游戏视频中获取游戏相关信息，该游戏相关信息包括：对战双方的战队名称、参赛队员名称，游戏模式，比赛时间信息，游戏数据，游戏结果，等等，然后根据获取的游戏相关信息自动生成游戏视频封面的封面文本内容。

进一步地，获取游戏背景图像的辅助图像特征，该辅助图像特征包括深度特征图、连续区域分割图和亮度区域分割图中的一种或者多种，可以根据该连续区域分割图确定封面文本内容在游戏背景图像中的合理放置区域，可以根据该深度特征图确定封面文本内容在放置区域的合理显示深度，可以根据该亮度区域分割图确定封面文本内容在放置区域的合理显示亮度，还可以确定封面文本内容的合理显示字体、合理显示大小、合理显示颜色等等，然后将上述合理放置区域、合理显示深度、合理显示亮度、合理显示字体、合理显示大小和合理显示颜色中的一种或者多种确定为封面文本内容的合理显示特征，并按照该合理显示特征将封面文本内容与游戏背景图像进行合成，得到合成的游戏视频封面。如图14所示，示出了一种游戏视频封面，游戏视频封面14包括游戏背景图形141和封面文本内容142，封面文本内容142包括“游戏玩家：甲玩家”、“游戏结果：胜利”等内容，为突出显示玩家名称和游戏结果，图14所示的游戏视频封面将玩家名称“甲玩家”和游戏结果“胜利”进行了加粗和加大显示。

请参阅图15，图15为本申请实施例提供的一种图像处理装置的结构示意图。本申请实施例中所描述的图像处理装置，对应于前文所述的数据处理设备，所述装置包括：

获取单元151，用于获取待合成文本和待合成图像；

处理单元152，用于根据所述待合成图像生成背景图像，其中，当所述待合成图像包括字符信息时，所述背景图像是根据去除掉所述字符信息的待合成图像生成的；

所述处理单元152，还用于获取所述背景图像的辅助图像特征，并根据所述辅助图像特征确定所述待合成文本的显示特征；

所述处理单元152，还用于根据所述显示特征将所述待合成文本和所述背景图像进行合成，得到合成文本图像。

在一实施例中，所述处理单元152，具体用于：

在一实施例中，所述处理单元152，还用于：

在一实施例中，所述处理单元152，具体用于：

在一实施例中，所述获取单元151，具体用于：

在一实施例中，所述处理单元152，还用于：确定所述合成文本图像中所述待合成文本的文本位置；将所述合成文本图像、所述待合成文本和所述文本位置组成样本数据对，并根据所述样本数据对生成训练数据集；

所述装置还包括训练单元153，所述训练单元153，用于利用所述训练数据集对初始文本检测模型进行训练，得到训练后的文本检测模型。

在一实施例中，所述获取单元151，还用于获取与所述目标场景相关联的待检测文本图像；

所述装置还包括文本检测单元154，所述文本检测单元154，用于将所述待检测文本图像输入所述训练后的文本检测模型中进行处理，得到所述待检测文本图像的文本检测结果；其中，所述文本检测结果包括识别文本内容、识别文本位置和所述文本检测结果的识别准确度中的一种或者多种。

可以理解的是，本申请实施例提供的图像处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例中的相关描述，此处不再赘述。

在可行的实施例中，本申请实施例提供的图像处理装置可以采用软件方式实现，图像处理装置可以存储在存储器中，其可以是程序和插件等形式的软件，并包括一系列的单元，包括获取单元、处理单元、训练单元和文本检测单元；其中，获取单元、处理单元、训练单元和文本检测单元用于实现本申请实施例提供的图像处理方法。

在其它可行的实施例中，本申请实施例提供的图像处理装置也可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的图像处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application SpecificIntegrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

请参阅图16，图16为本申请实施例提供的一种计算机设备的结构示意图。本申请实施例中所描述的计算机设备包括：处理器161、通信接口162及存储器163。其中，处理器161、通信接口162及存储器163可通过总线或其他方式连接，本申请实施例以通过总线连接为例。

其中，处理器161（或称CPU（Central Processing Unit，中央处理器））是计算机设备的计算核心以及控制核心，其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据，例如：CPU可以用于解析用户向计算机设备所发送的开关机指令，并控制计算机设备进行开关机操作；再如：CPU可以在计算机设备内部结构之间传输各类交互数据，等等。通信接口162可选的可以包括标准的有线接口、无线接口（如Wi-Fi、移动通信接口等），受处理器161的控制用于收发数据。存储器163（Memory）是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器163既可以包括计算机设备的内置存储器，当然也可以包括计算机设备所支持的扩展存储器。存储器163提供存储空间，该存储空间存储了计算机设备的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

在本申请实施例中，处理器161通过运行存储器163中的可执行程序代码，执行如下操作：

获取待合成文本和待合成图像；根据所述待合成图像生成背景图像，其中，当所述待合成图像包括字符信息时，所述背景图像是根据去除掉所述字符信息的待合成图像生成的；获取所述背景图像的辅助图像特征，并根据所述辅助图像特征确定所述待合成文本的显示特征；根据所述显示特征将所述待合成文本和所述背景图像进行合成，得到合成文本图像。

当处理器161不是从计算机设备的本地数据库中获取用于确定待合成文本或者待合成图像的参考文本或者参考图像时，处理器161可以通过通信接口162从其可以访问的数据库中获取用于确定待合成文本或者待合成图像的参考文本或者参考图像。

在一实施例中，所述处理器161获取所述背景图像的辅助图像特征时，具体用于：获取所述背景图像的深度特征图；提取所述背景图像的颜色特征信息和纹理特征信息，根据所述颜色特征信息和所述纹理特征信息对所述背景图像进行区域分割处理，得到所述背景图像的第一区域分割图；将所述深度特征图和所述第一区域分割图确定为所述背景图像的辅助图像特征。

在一实施例中，所述处理器161根据所述辅助图像特征确定所述待合成文本的显示特征时，具体用于：根据所述第一区域分割图，确定所述待合成文本在所述背景图像中的显示区域；根据所述深度特征图，确定所述背景图像中所述显示区域的深度信息，并根据所述深度信息确定所述待合成文本的显示深度；将所述显示区域和所述显示深度确定为所述待合成文本的显示特征。

在一实施例中，所述处理器161还用于：提取所述背景图像的亮度特征信息，根据所述亮度特征信息对所述背景图像进行区域分割处理，得到所述背景图像的第二区域分割图；其中，所述辅助图像特征还包括所述第二区域分割图；

在一实施例中，所述处理器161根据所述待合成图像生成背景图像时，具体用于：当所述待合成图像中存在字符信息时，对所述待合成图像进行字符清除，并针对字符清除区域进行图像填充；根据字符信息清除且图像填充后的待合成图像生成背景图像。

在一实施例中，所述处理器161获取待合成文本和待合成图像时，具体用于：从文本数据库中获取与目标场景相关联的参考文本，根据所述参考文本确定待合成文本；从图像数据库中获取与所述目标场景相关联的参考图像，根据所述参考图像确定待合成图像。

在一实施例中，所述处理器161还用于：确定所述合成文本图像中所述待合成文本的文本位置；将所述合成文本图像、所述待合成文本和所述文本位置组成样本数据对，并根据所述样本数据对生成训练数据集；利用所述训练数据集对初始文本检测模型进行训练，得到训练后的文本检测模型。

在一实施例中，所述处理器161还用于：获取与所述目标场景相关联的待检测文本图像；将所述待检测文本图像输入所述训练后的文本检测模型中进行处理，得到所述待检测文本图像的文本检测结果；其中，所述文本检测结果包括识别文本内容、识别文本位置和所述文本检测结果的识别准确度中的一种或者多种。

具体实现中，本申请实施例中所描述的处理器161、通信接口162及存储器163可执行本申请实施例提供的图像处理方法中所描述的数据处理设备的实现方式，也可执行本申请实施例提供的图像处理装置中所描述的实现方式，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如本申请实施例所述的图像处理方法。其具体实现方式可参考前文描述，此处不再赘述。

本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行如本申请实施例所述的图像处理方法。其具体实现方式可参考前文描述，此处不再赘述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory ，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

以上所揭露的仅为本申请部分实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待合成文本和待合成图像；

2.如权利要求1所述的方法，其特征在于，所述获取所述背景图像的辅助图像特征，包括：

获取所述背景图像的深度特征图；

提取所述背景图像的颜色特征信息和纹理特征信息，根据所述颜色特征信息和所述纹理特征信息对所述背景图像进行区域分割处理，得到所述背景图像的第一区域分割图；

将所述深度特征图和所述第一区域分割图确定为所述背景图像的辅助图像特征。

3.如权利要求2所述的方法，其特征在于，所述根据所述辅助图像特征确定所述待合成文本的显示特征，包括：

根据所述第一区域分割图，确定所述待合成文本在所述背景图像中的显示区域；

根据所述深度特征图，确定所述背景图像中所述显示区域的深度信息，并根据所述深度信息确定所述待合成文本的显示深度；

将所述显示区域和所述显示深度确定为所述待合成文本的显示特征。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述待合成图像生成背景图像，包括：

当所述待合成图像中存在字符信息时，对所述待合成图像进行字符清除，并针对字符清除区域进行图像填充；

根据字符信息清除且图像填充后的待合成图像生成背景图像。

6.如权利要求1-5任一项所述的方法，其特征在于，所述获取待合成文本和待合成图像，包括：

从文本数据库中获取与目标场景相关联的参考文本，根据所述参考文本确定待合成文本；

从图像数据库中获取与所述目标场景相关联的参考图像，根据所述参考图像确定待合成图像。

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

确定所述合成文本图像中所述待合成文本的文本位置；

将所述合成文本图像、所述待合成文本和所述文本位置组成样本数据对，并根据所述样本数据对生成训练数据集；

利用所述训练数据集对初始文本检测模型进行训练，得到训练后的文本检测模型。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

获取与所述目标场景相关联的待检测文本图像；

将所述待检测文本图像输入所述训练后的文本检测模型中进行处理，得到所述待检测文本图像的文本检测结果；

其中，所述文本检测结果包括识别文本内容、识别文本位置和所述文本检测结果的识别准确度中的一种或者多种。

9.一种图像处理装置，其特征在于，所述装置包括：

获取单元，用于获取待合成文本和待合成图像；

10.一种计算机设备，其特征在于，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行如权利要求1-8中任一项所述的图像处理方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-8中任一项所述的图像处理方法。