CN114463238A

CN114463238A - 图像融合方法、装置及存储介质

Info

Publication number: CN114463238A
Application number: CN202210122597.1A
Authority: CN
Inventors: 马明宇
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-10

Abstract

本发明涉及图像处理领域，具体提供一种图像融合方法、装置及存储介质，旨在解决现有图像融合方法得到的文本效果较差的技术问题。为此目的，本发明的图像融合方法包括下述步骤：获取第一风格图像和待迁移文本图像，第一风格图像包括第一文本内容，待迁移文本图像包括第二文本内容，第一风格图像和待迁移文本图像的风格样式不同；基于文本擦除模型对第一风格图像的第一文本内容进行擦除，得到背景图像；基于背景图像和第一风格图像获取第二风格图像；利用文本风格迁移融合模型对第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像。

Description

图像融合方法、装置及存储介质

技术领域

本发明涉及图像处理领域，具体提供一种图像融合方法、装置及存储介质。

背景技术

目前，传统的图像融合方法主要是将文本区域二值化后利用opencv中的inpaint方法将切片中的文本内容擦除掉，然后利用预置模型对原文本的字体、组成模式、颜色字高等分析，生成相应的字段内容后贴在擦除好的切片背景中，再复原到原图像中生成新的数据用于训练。但是，inpaint对于纯色背景的图像擦除效果很好，如果是有纹理结构的背景擦除之后背景会完全消失，在训练检测模型时会有明显的边界特征，这样训练出来的模型鲁棒性比较差。另外，根据预置模型得出的字段内容相关信息来合成的字段效果较差，尤其是字高和颜色与背景本身反差过大，一定程度上会影响合成效果。

相应地，本领域需要一种新的图像融合方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有图像融合方法得到的文本效果较差的技术问题。本发明提供了一种图像融合方法、装置及存储介质。

在第一方面，本发明提供一种图像融合方法，包括下述步骤：获取第一风格图像和待迁移文本图像，所述第一风格图像包括第一文本内容，所述待迁移文本图像包括第二文本内容，所述第一风格图像和待迁移文本图像的风格样式不同；基于文本擦除模型对所述第一风格图像的第一文本内容进行擦除，得到背景图像；基于所述背景图像和第一风格图像获取第二风格图像；利用文本风格迁移融合模型对所述第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像。

在一个实施方式中，基于所述背景图像和第一风格图像获取第二风格图像包括：对所述背景图像和第一风格图像进行差分计算，得到所述第二风格图像。

在一个实施方式中，利用文本风格迁移融合模型对所述第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像包括：利用文本风格迁移融合模型，将所述待迁移文本图像的第二文本内容以所述第二风格图像的风格样式迁移至所述第二风格图像中，得到迁移文本图像；将所述迁移文本图像与所述背景图像进行融合，得到当前融合图像。

在一个实施方式中，利用文本风格迁移融合模型，将所述待迁移文本图像的第二文本内容以所述第二风格图像的风格样式迁移至所述第二风格图像中，得到迁移文本图像包括：利用文本风格迁移融合模型，将所述待迁移文本图像的第二文本内容以所述第二风格图像的风格样式迁移至第二风格图像中的目标位置，得到所述迁移文本图像，所述目标位置为第二风格图像中的预设位置。

在一个实施方式中，所述文本擦除模型包含生成式对抗网络，所述文本风格迁移融合模型包含Resnet网络。

在一个实施方式中，还包括：利用特征提取网络提取所述当前融合图像的文本内容及边界特征；对所述当前融合图像和提取的所述文本内容及边界特征进行拼接，得到拼接图像；对所述拼接图像进行卷积处理，得到最终融合图像。

在一个实施方式中，所述特征提取网络包含编码器和解码器，所述编码器包含至少一个卷积层，所述解码器包含至少一个反卷积层。

在第二方面，本发明提供一种图像融合装置，包括：输入模块，被配置为获取第一风格图像和待迁移文本图像，所述第一风格图像包括第一文本内容，所述待迁移文本图像包括第二文本内容，所述第一风格图像和待迁移文本图像的风格样式不同；擦除模块，被配置为基于文本擦除模型对所述第一风格图像的第一文本内容进行擦除，得到背景图像；获取模块，被配置为基于所述背景图像和第一风格图像获取第二风格图像；融合模块，被配置为利用文本风格迁移融合模型对所述第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像。

在第三方面，提供一种电子设备，该电子设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述任一项所述的图像融合方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行前述任一项所述的图像融合方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

本发明的图像融合方法，首先利用文本擦除模型对第一风格图像的文本内容进行擦除以得到背景图像，接着利用文本风格迁移融合模型对删除背景图像的第二风格图像、待迁移文本图像以及擦除文本信息的背景图像进行融合，最终得到当前融合图像，避免了利用现有图像融合方法合成的文本图像效果较差的问题，提高了图像融合的精度。

通过对背景图像和第一风格图像进行差分计算，从而得到只包含文本内容的第二风格图像，这种只突出文字本身的方法，有利于提高后续文本风格迁移融合模型提取文本骨架图像的精度。

在得到当前融合图像的基础上，进一步对当前融合图像的文本信息和边界信息进行优化处理，具体是提取当前融合图像的文本内容和边界信息，并将提取的信息与当前融合图像进行拼接后再做卷积处理，以得到最终融合图像，实现了融合图像的文字信息和边界信息的增强效果。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本发明的一个实施例的图像融合方法的流程示意图；

图2是根据本发明的一个实施例的文本擦除模型结构示意图；

图3是根据本发明的一个实施例文本风格迁移融合模型结构示意图；

图4(a)是根据本发明的一个实施例的第一风格图像示意图；

图4(b)是根据本发明的一个实施例的背景图像示意图；

图5(a)是根据本发明的一个实施例的第二风格图像示意图；

图5(b)是根据本发明的一个实施例的当前融合图像示意图；

图6是根据本发明的一个实施例的对当前融合图像进行优化处理的流程示意图；

图7是根据本发明的一个实施例的图像融合装置的结构示意图。

附图标记列表：

11：输入模块；12：擦除模块；13：获取模块；14：融合模块。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

目前传统的图像融合方法对有纹理结构的风格图像的擦除效果较差，同时，现有的图像融合方法的合成效果较差。为此，本申请提供了一种图像融合方法、装置及存储介质，

参阅附图1，图1是根据本发明的一个实施例的图像融合方法的主要步骤流程示意图。如图1所示，本发明实施例中的图像融合方法主要包括下列步骤S101-步骤S104。

步骤S101：获取第一风格图像和待迁移文本图像，第一风格图像包括第一文本内容，所述待迁移文本图像包括第二文本内容，第一风格图像和待迁移文本图像的风格样式不同。具体来说，第一风格图像中包含第一文本内容，待迁移文本图像包含第二文本内容，一般来说，第一文本内容和第二文本内容不同。另外，第一风格图像和待迁移文本图像的风格样式不同，其中，风格样式可以是字体、字号等，但不限于此。

步骤S102：基于文本擦除模型对第一风格图像的第一文本内容进行擦除，得到背景图像。本申请的文本擦除模型包含生成式对抗网络(GAN)。GAN(Generative AdversarialNetworks，生成式对抗网络)，是一种深度学习模型，也是近年来复杂分布上无监督学习最具前景的方法之一。GAN通过框架中至少两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生输出。本申请的文本擦除模型就是基于生成式对抗网络(GAN)实现的，具体来说，如图2所示，该实施例中的文本擦除模型包括生成器和判别器，其中生成器由编码器(Encoder)、卷积层(Conv)和解码器(Decoder)组成。在训练文本擦除模型时，通过采集的固定版式常用的背景图像和近300种印刷字体在线生成文本擦除网络所需要的训练数据用于训练，进一步提高了模型训练的准确度，所述训练数据可以包括第一风格图像和背景图像标签。将第一风格图像输入文本擦除模型进行训练，并利用输出结果和真实的背景图像标签计算损失函数，具体的损失函数L_B的计算公式如下式(1)所示。在模型训练好后，将需要擦除的风格图像输入训练好的文本擦除模型后，即可得到背景图像。

上式中,D_B代表判别器的结果，T_b是背景图像标签，I_s是第一风格图像，O_b是生成器输出的结果，β为系数，在该实施例中可设置为10。

步骤S103：基于背景图像和第一风格图像获取第二风格图像。具体来说，对背景图像和第一风格图像进行差分计算，得到第二风格图像，这里所述的差分计算就是对背景图像和第一风格图像两者的对应位置做减法，从而将第一风格图像中的背景图像擦除，得到第二风格图像。通过对背景图像和第一风格图像进行差分计算，从而得到只包含文本内容的第二风格图像，这种只突出文字本身的方法，有利于提高后续文本风格迁移融合模型提取骨架图像的精度。

步骤S104：利用文本风格迁移融合模型对第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像。利用文本风格迁移融合模型对第二风格图像、待迁移文本图像以及背景图像进行融合以得到当前融合图像的具体过程可通过下述步骤步骤S1041至步骤S1042实现，这里不赘述。

本申请的文本风格迁移融合模型也是基于生成式对抗网络(GAN)实现的，具体如图3所示，文本风格迁移融合模型包括多个生成器和判别器，其中生成器由编码器(Encoder)和解码器(Decoder)组成，其中编码器(Encoder)和解码器(Decoder)具体由Resnet网络。具体来说，编码器(Encoder)可以由三个卷积层(Conv)组成，解码器可以由三个反卷积层(Deconv)组成。本申请的文本风格迁移融合模型在训练过程可以采用常规的网络训练方法来实现，在训练过程中的所有损失函数如下述公式(2)-(5)所示。

L_Vgg＝α₁L_per+α₂L_style (3)

上式中，φ_i代表网络输出的结果，G代表Gram矩阵，α₁为1，α₂为500。

另外，还可以采用TV loss对文本风格迁移融合模型进行训练，以通过相邻像素值进行降噪，从而保持当前融合图像的光滑性，具体公式如下式(6)所示。

上式中，系数α＝2×10^-8，i,j分别表示图像行号、列号，x_i,j-1表示第i行、第j-1列元素。

基于上述步骤S101-步骤S104，首先利用文本擦除模型对第一风格图像的文本内容进行擦除以得到背景图像，接着利用文本风格迁移融合模型对删除背景图像的第二风格图像、待迁移文本图像以及擦除文本信息的背景图像进行融合，最终得到当前融合图像，避免了现有图像融合方法合成的文本效果较差的问题，提高了图像融合的精度。

步骤S1041：利用文本风格迁移融合模型，将待迁移文本图像的第二文本内容以第二风格图像的风格样式迁移至第二风格图像中，得到迁移文本图像。在一个实施方式中，利用文本风格迁移融合模型，将待迁移文本图像的第二文本内容以第二风格图像的风格样式迁移至第二风格图像中的目标位置，得到迁移文本图像，目标位置为第二风格图像中的预设位置。具体来说，如图3所示，首先第二风格图像经过文本风格迁移融合模型中的编码器-解码器结构得到文本骨架，接着将待迁移文本图像的第二文本内容根据所述文本骨架以第二风格图像的风格样式迁移至第二风格图像中的目标位置，得到迁移文本图像，其中，这里的第二风格图像中的目标位置指的是第二风格图像中的预设位置，由于第二风格图像是第一风格图像去除背景图像后生成的图像，所以，这个的预设位置也可以是第一文本内容在第一风格图像中的位置。

步骤S1042：将迁移文本图像与背景图像进行融合，得到当前融合图像。具体来说，这里的融合也是通过编码器-解码器结构对迁移文本图像与背景图像进行融合的，融合后即可得到当前融合图像，也即图3中的输出结果。

另外，本申请训练好文本擦除模型和文本风格迁移融合模型分别置于自动化训练平台中的文本擦除模块和图像融合模块以进行文本擦除和图像融合。事实证明，本申请训练好的文本擦除模型具有良好的擦除效果，具体来说，对于第一风格图像来说，如图4(a)所示，训练好的文本擦除模型能够较好地擦除第一风格图像中的文本信息，从而得到背景图像，如图4(b)所示。另外，本申请的文本风格迁移融合模型具有良好的迁移效果，具体来说，对于第二风格图像，如图5(a)所示，训练好的文本风格迁移融合模型能够较好地将待迁移文本图像中的文本内容以第二风格图像中的风格样式迁移至第二风格中，最终得到当前融合图像，如图5(b)所示。

本申请基于前述步骤生成当前融合图像后，还在当前融合图像的基础上做了进一步的优化处理，具体包括：首先利用特征提取网络提取当前融合图像的文本内容及边界特征，接着对当前融合图像和提取的文本内容及边界特征进行拼接得到拼接图像，其中拼接可以使用常规的拼接手段来是实现。最后对拼接图像进行卷积处理，得到最终融合图像，具体如图6所示，对当前融合图像和文本内容及边界特征的卷积处理具体可以通过一个卷积层(Conv)来实现。另外，该实施例中的特征提取网络包含编码器和解码器，编码器包含至少一个卷积层，解码器包含至少一个反卷积层，其中卷积层的个数以及反卷积层的个数具体可根据实际情况设定。对于特征提取网络，在训练时，可以通过采集的真实图像及其标签(label)进行训练，在测试时，则可以直接将文本风格迁移融合模型的输出结果作为特征提取网络的输入进行测试。

在该步骤中，在得到当前融合图像的基础上，进一步对当前融合图像的文本信息和边界信息进行优化处理，具体是提取当前融合图像的文本内容和边界信息，并将提取的信息与当前融合图像进行拼接后再做卷积处理，以得到最终融合图像，实现了融合图像的文字信息和边界信息的增强效果。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

进一步，本发明还提供了一种图像融合装置。参阅附图7，图7是根据本发明的一个实施例的图像融合装置的主要结构框图。如图7所示，本发明实施例中的图像融合装置主要包括输入模块11、擦除模块12和获取模块13和融合模块14。在一些实施例中，输入模块11、擦除模块12、获取模块13和融合模块14中的一个或多个可以合并在一起成为一个模块。在一些实施例中输入模块11可以被配置成获取第一风格图像和待迁移文本图像，第一风格图像包括第一文本内容，待迁移文本图像包括第二文本内容，第一风格图像和待迁移文本图像的风格样式不同。擦除模块12可以被配置成基于文本擦除模型对第一风格图像的第一文本内容进行擦除，得到背景图像。获取模块13可以被配置成基于背景图像和第一风格图像获取第二风格图像。融合模块14可以利用文本风格迁移融合模型对第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像。一个实施方式中，具体实现功能的描述可以参见步骤S101-步骤S104所述。

上述图像融合装置以用于执行图1所示的图像融合方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，图像融合装置的具体工作过程及有关说明，可以参考图像融合方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种电子设备。在根据本发明的一个电子设备实施例中，电子设备包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的图像融合方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的图像融合方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的图像融合方法的程序，该程序可以由处理器加载并运行以实现上述图像融合方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种图像融合方法，其特征在于，包括下述步骤：

获取第一风格图像和待迁移文本图像，所述第一风格图像包括第一文本内容，所述待迁移文本图像包括第二文本内容，所述第一风格图像和待迁移文本图像的风格样式不同；

基于文本擦除模型对所述第一风格图像的第一文本内容进行擦除，得到背景图像；

基于所述背景图像和第一风格图像获取第二风格图像；

利用文本风格迁移融合模型对所述第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像。

2.根据权利要求1所述的图像融合方法，其特征在于，基于所述背景图像和第一风格图像获取第二风格图像包括：对所述背景图像和第一风格图像进行差分计算，得到所述第二风格图像。

3.根据权利要求1所述的图像融合方法，其特征在于，利用文本风格迁移融合模型对所述第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像包括：利用文本风格迁移融合模型，将所述待迁移文本图像的第二文本内容以所述第二风格图像的风格样式迁移至所述第二风格图像中，得到迁移文本图像；

将所述迁移文本图像与所述背景图像进行融合，得到当前融合图像。

4.根据权利要求3所述的图像融合方法，其特征在于，利用文本风格迁移融合模型，将所述待迁移文本图像的第二文本内容以所述第二风格图像的风格样式迁移至所述第二风格图像中，得到迁移文本图像包括：利用文本风格迁移融合模型，将所述待迁移文本图像的第二文本内容以所述第二风格图像的风格样式迁移至第二风格图像中的目标位置，得到所述迁移文本图像，所述目标位置为第二风格图像中的预设位置。

5.根据权利要求1所述的图像融合方法，其特征在于，所述文本擦除模型包含生成式对抗网络，所述文本风格迁移融合模型包含Resnet网络。

6.根据权利要求1所述的图像融合方法，其特征在于，还包括：

利用特征提取网络提取所述当前融合图像的文本内容及边界特征；

对所述当前融合图像和提取的所述文本内容及边界特征进行拼接，得到拼接图像；

对所述拼接图像进行卷积处理，得到最终融合图像。

7.根据权利要求6所述的图像融合方法，其特征在于，所述特征提取网络包含编码器和解码器，所述编码器包含至少一个卷积层，所述解码器包含至少一个反卷积层。

8.一种图像融合装置，其特征在于，包括：

输入模块，被配置为获取第一风格图像和待迁移文本图像，所述第一风格图像包括第一文本内容，所述待迁移文本图像包括第二文本内容，所述第一风格图像和待迁移文本图像的风格样式不同；

擦除模块，被配置为基于文本擦除模型对所述第一风格图像的第一文本内容进行擦除，得到背景图像；

获取模块，被配置为基于所述背景图像和第一风格图像获取第二风格图像；

融合模块，被配置为利用文本风格迁移融合模型对所述第二风格图像、待迁移文本图像以及背景图像进行融合，得到当前融合图像。

9.一种电子设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的图像融合方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的图像融合方法。