CN111311480B - 图像融合方法和装置 - Google Patents

图像融合方法和装置 Download PDF

Info

Publication number
CN111311480B
CN111311480B CN201811510772.4A CN201811510772A CN111311480B CN 111311480 B CN111311480 B CN 111311480B CN 201811510772 A CN201811510772 A CN 201811510772A CN 111311480 B CN111311480 B CN 111311480B
Authority
CN
China
Prior art keywords
image
style
content
sample
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811510772.4A
Other languages
English (en)
Other versions
CN111311480A (zh
Inventor
刘帝麟
叶韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201811510772.4A priority Critical patent/CN111311480B/zh
Publication of CN111311480A publication Critical patent/CN111311480A/zh
Application granted granted Critical
Publication of CN111311480B publication Critical patent/CN111311480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了图像融合方法和装置。该方法的一具体实施方式包括:获取待融合的内容图像和风格图像;对内容图像和风格图像分别进行特征提取,得到基于内容图像的特征图像和风格图像的特征图像的特征图像集合;将特征图像集合中的特征图像和预先生成的约束图像输入至预先训练的图像融合网络,得到融合后的图像。该实施方式可以提升所生成的融合图像的融合效果,还提高了图像的生成速度。

Description

图像融合方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及图像融合方法和装置。
背景技术
随着科学技术的发展,人工智能技术在各个领域得到了广泛的应用。人工智能技术应用于图像处理技术中,得到了较好的处理的效果。
为了满足用户对图像的各种需求,图像处理技术中包括图像风格迁移技术。图像风格迁移技术,是将其中一幅图像中的对象作为内容、将另外一幅图像作为风格,将内容图像与风格图像进行融合。
相关图像风格迁移技术中,通常是基于风格图像中的整体布局,将内容图像中的对象迁移至风格图像中。
发明内容
本申请实施例提出了图像融合方法和装置。
第一方面,本申请实施例提供了一种图像融合方法,包括:获取待融合的内容图像和风格图像;对内容图像和风格图像分别进行特征提取,得到基于内容图像的特征图像和风格图像的特征图像的特征图像集合;将特征图像集合中的特征图像和预先生成的约束图像输入至预先训练的图像融合网络,得到融合后的图像,其中,约束图像用于约束内容图像所呈现的对象与风格图像所呈现的风格之间的融合方式。
在一些实施例中,对内容图像和风格图像分别进行特征提取,得到基于内容图像的特征图像和风格图像的特征图像的特征图像集合,包括:将内容图像和风格图像输入至预先训练的特征提取网络,得到内容图像的特征图像和风格图像的特征图像。
在一些实施例中,约束图像通过如下步骤生成:获取风格图像中的第一位置区域,第一位置区域用于指定内容图像呈现的对象在风格图像中位置;对风格图像进行视觉显著性检测,得到基于视觉显著性检测结果的第二位置区域;基于第一位置区域和第二位置区域,生成约束图像。
在一些实施例中,图像融合网络通过如下步骤训练得到:获取训练样本集,训练样本集中的训练样本包括样本风格图、样本内容图和样本约束图;对于训练样本集合中的训练样本,执行如下训练步骤:对样本风格图和样本内容图进行特征提取,得到样本风格特征图、样本内容特征图;将样本风格特征图、样本内容特征图和样本约束图输入至待训练的神经网络,得到融合图;基于预设损失函数,确定预设损失函数的损失值是否达到预设目标值,其中,预设损失函数用于指示所得到的融合图集合中的融合图呈现的风格与对应的样本风格图之间的误差和融合图呈现的对象与对应的样本内容图呈现的对象之间的误差;响应于确定预设损失函数的损失值达到预设目标值,将待训练的神经网络确定为训练完成的图像融合网络;响应于确定待训练的神经网络未达到预设目标值,调整待训练的神经网络的参数,继续执行训练步骤。
在一些实施例中,预设损失函数包括第一损失函数和第二损失函数的加权和;其中,第一损失函数用于指示融合图与样本内容图之间的误差;第二损失函数用于指示融合图与样本风格图之间的误差。
第二方面,本申请实施例提供了一种图像融合装置,该装置包括:获取单元,被配置成获取待融合的内容图像和风格图像;提取单元,被配置成对内容图像和风格图像分别进行特征提取,得到基于内容图像的特征图像和风格图像的特征图像的特征图像集合;融合单元,被配置成将特征图像集合中的特征图像和预先生成的约束图像输入至预先训练的图像融合网络,得到融合后的图像,其中,约束图像用于约束内容图像所呈现的对象与风格图像所呈现的风格之间的融合方式。
在一些实施例中,提取单元进一步被配置成:将内容图像和风格图像输入至预先训练的特征提取网络,得到内容图像的特征图像和风格图像的特征图像。
在一些实施例中,约束图像通过如下步骤生成:获取风格图像中的第一位置区域,第一位置区域用于指定内容图像呈现的对象在风格图像中位置;对风格图像进行视觉显著性检测,得到基于视觉显著性检测结果的第二位置区域;基于第一位置区域和第二位置区域,生成约束图像。
在一些实施例中,图像融合网络通过如下步骤训练得到:获取训练样本集,训练样本集中的训练样本包括样本风格图、样本内容图和样本约束图;对于训练样本集合中的训练样本,执行如下训练步骤:对样本风格图和样本内容图进行特征提取,得到样本风格特征图、样本内容特征图;将样本风格特征图、样本内容特征图和样本约束图输入至待训练的神经网络,得到融合图;基于预设损失函数,确定预设损失函数的损失值是否达到预设目标值,其中,预设损失函数用于指示所得到的融合图集合中的融合图呈现的风格与对应的样本风格图之间的误差和融合图呈现的对象与对应的样本内容图呈现的对象之间的误差;响应于确定预设损失函数的损失值达到预设目标值,将待训练的神经网络确定为训练完成的图像融合网络;响应于确定预设损失函数的损失值未达到预设目标值,调整待训练的神经网络的参数,继续执行训练步骤。
在一些实施例中,预设损失函数包括第一损失函数和第二损失函数的加权和;其中,第一损失函数用于指示融合图与样本内容图之间的误差;第二损失函数用于指示融合图与样本风格图之间的误差。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面中任意实施例的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面中任意实施例的方法。
本申请实施例提供的图像融合方法和装置,可以首先对内容图像和风格图像进行特征提取,得到特征图像集合,然后将预先生成的约束图像作为约束条件,利用预先训练的图像融合网络对特征图像集合中的特征图像进行特征匹配,从而生成融合后的图像,提升了所生成的融合图像的融合效果,还提高了图像的生成速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的图像融合方法的一个实施例的流程图;
图3是根据本申请的图像融合方法的一个应用场景的示意图;
图4是根据本申请的图像融合方法的又一个应用场景的示意图;
图5是根据本申请的图像融合网络的训练方法的一种可选的实现方式的流程图;
图6是根据本申请的图像融合装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的图像融合方法或图像融合装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如地图类应用、搜索类应用、购物类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器。服务器105可以接收终端设备101、102、103发送的内容图像和风格图像,然后对接收到的内容图像和风格图像进行各种分析,最后根据分析结果生成融合图像。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的图像融合方法一般由服务器105执行,相应地,图像融合装置一般设置于服务器105中。当服务器105可以从本地获取待融合的内容图像和风格图像时,可以不需要设置终端设备101、102、103。当终端设备101、102、103具有强大的图像处理功能时,可以不需要设置服务器105,本申请实施例所提供的图像融合方法可以由终端设备101、102、103执行。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的图像融合方法的一个实施例的流程200。该图像融合方法,包括以下步骤:
步骤201,获取待融合的内容图像和风格图像。
在本实施例中,图像融合方法的执行主体(例如图1所示的服务器)可以获取待融合的内容图像和风格图像。该获取可以从与执行主体通信连接的终端设备中获取,可以从本地获取,也可以从存储有大量的图像的网络图像平台中获取。
在本实施例中,内容图像为图像风格迁移中作为内容的图像。通常,该内容图像中通常包括对象,该对象可以包括但不限于人物、动物、植物、汽车、房子等可以识别出的具体物体。基于图像风格迁移的图像融合中,通常将内容图像中所包括的具体对象作为融合后的图像中所呈现的物体对象。风格图像为图像风格迁移中作为风格的图像。也即是说,在图像融合过程中,基于风格图像所呈现的风格,将内容图像中的内容处理成至与风格图像所呈现的风格一致的图像融合至风格图像中。
步骤202,对内容图像和风格图像分别进行特征提取,得到基于内容图像得到特征图像和风格图像的特征图像的特征图像集合。
在本实施例中,上述执行主体在获取到内容图像和风格图像后,可以对该风格图像和内容图像进行特征提取。该特征提取方法例如可以包括边界特征法、傅里叶形状描述符、几何参数法等方法。
在本实施例的一些可选的实现方式中,可以将内容图像和风格图像输入至预先训练的特征提取网络,从而得到内容图像的特征图像和风格图像的特征图像。在这里,该特征提取网络可以为神经网络。例如为卷积神经网络。以卷积神经网络为例,该特征提取网络可以为仅包括含输入层、卷积层、池化层的卷积神经网络。在这里,每一层卷积层中所包括的卷积核的大小、卷积步长的大小可以根据具体的应用场景的需要进行调整。
步骤203,将特征图像集合中的特征图像和预先生成的约束图像输入至预先训练的图像融合网络,得到融合后的图像。
在本实施例中,在得到特征图像集合后,可以将特征图像集合和预先生成的约束图像输入至预先训练的图像融合网络。在这里,该约束图像可以用于约束内容图像所呈现的对象与风格图像所呈现的风格之间的融合方式。具体来说,约束图像可以用于约束内容图像中呈现的对象迁移至风格图像中时所处的位置,也可以用于约束内容图像所呈现的对象需要进行风格迁移的区域。
在本实施例中,预先利用特征图像和约束图像对神经网络进行训练,从而得到可以用于图像融合的神经网络,可以称之为图像融合网络。该预先训练的图像融合网络例如可以为卷积神经网络、循环神经网络等。
在一个具体的应用场景中,如图3所示,图3示例性的示出了图像迁移方法的一个应用场景的示意图。附图标记301为内容图像,附图标记302为风格图像,附图标记303为预先生成的约束图像。约束图像303通常为掩膜图像。该掩膜图像为二值图像。这里,该掩膜图像可以通过掩膜矩阵实现。附图标记304为内容图像301和风格图像302进行图像融合后的融合图像。在内容图像301中,其与约束图像303中黑色区域对应的区域为不需要进行风格迁移的区域。因此,该区域不需要与风格图像302进行图像融合,在最终融合后的图像中,其保留有与内容图像相同的图像。在内容图像301中,其与约束图像303中白色区域对应的区域为需要进行风格迁移的区域。因此,该区域需要与风格图像302进行图像融合。从而,在约束图像303的约束条件下,内容图像301和风格图像302进行图像融合,最终形成融合图像304。
在本实施例中,该预先设置的约束图像可以根据预先确定的内容图像呈现的对象在风格图像中的位置生成,也可以根据内容图像中需要进行风格迁移的部分在内容图像中的位置生成。
在本实施例一些可选的实现方式中,上述约束图像还可以用于约束内容图像中呈现的对象迁移至风格图像中时所处的位置和风格图像中参与图像融合的区域。该约束图像可以通过如下步骤生成:获取风格图像中的第一位置区域,第一位置区域用于指定内容图像呈现的对象在风格图像中位置;对风格图像进行视觉显著性检测,得到基于视觉显著性检测结果的第二位置区域;基于第一位置区域和第二位置区域,生成约束图像。
具体来说,可以设置基于图像风格图像的坐标,基于内容图像在风格图像中的位置,可以得到该第一位置区域的坐标。通常,内容图像在风格图像中的位置为人工标记的。
接着,对风格图像进行视觉显著性检测。视觉显著性检测是通过模拟人的视觉特点,提取图像中的显著区域。可以用基于背景特征建模的显著性物体检测方法、基于全卷积神经网络的显著性物体检测方法、基于显著性的视觉注意模型的显著区域检测方法等各种方法对风格图像进行视觉显著性检测,从而将显著性检测后得到的显著区域作为第二位置区域。
以基于显著性的视觉注意模型为例,进行具体阐述。对风格图像进行线性滤波后,可以得到基于风格图像的颜色、亮度、方位等视觉特征的特征图。接着,对所得的各个维度的特征图使用中央周边操作操作产生体现显著性度量的特征图。然后,将所得到的特征图信息合并后得到最终的显著图。最后,利用生物学中的赢者取全的竞争机制得到图像中最显著的位置。
最后,根据第二位置区域和第二位置区域,生成约束图像。举例来说,该生成的约束图像例如可以为基于第一位置区域和第二位置区域的掩膜图。
通过对风格图像进行视觉显著性检测生成第二位置区域,然后基于第一位置区域和第二位置区域生成约束图像,可以将内容图像呈现的对象迁移至风格图像中时,仅考虑上述第一位置区域和第二位置区域的风格,也即该位置的颜色、亮度、方位等信息,不需要考虑风格图像中其他位置的风格,从而可以避免图像由于考虑风格图像的全局风格使得融合边界处过渡不均匀,可以提升图像融合效果。由于视觉显著性区域可以代表风格图像中的整个风格基调,将风格图像的显著性区域考虑到约束图像中,可以在进行图像融合过程中,得到更多的风格信息,提升融合效果。
进一步参考图4,其示出了本申请提供的一个应用场景的示意图。如图4所示,附图标记402为风格图像,附图标记403为内容图像,附图标记405为用于约束内容图像在风格图像中的位置的约束图像,约束图像为二值图像。
服务器401在获取到风格图像402、内容图像403后,可以对该风格图像402和内容图像403分别进行特征提取,从而得到基于风格图像402和内容图像403的特征图集合404。接着,服务器可以将特征图集合404中所包括的特征图和约束图像405一起输入至预先训练的图像融合网络406,从而得到融合后的图像407。
在上述实施例的一些可选的实现方式中,上述图像融合网络可以是基于样本集合训练得出的。图5示出了该图像融合网络的训练方法的一种可选的实现方式的流程500。该流程500包括以下步骤:
步骤501,获取训练样本集合。该训练样本集合中的训练样本包括样本风格图、样本内容图和约束图。
步骤502,对于训练样本集合中的每一个训练样本,执行如下训练步骤:
首先,在步骤5021中,对样本风格图和样本内容图进行特征提取,得到样本风格特征图、样本内容特征图。在这里,样本风格图和样本内容图可以例如采用卷积神经网络进行特征提取。
接着,在步骤5022中,将该训练样本中的样本风格特征图、样本内容特征图和样本约束图输入至待训练的神经网络,得到融合图。
样本约束图用于约束样本内容图所呈现的对象在样本风格图中的位置。该样本约束图为二值矩阵所形成的二值图。
每一个样本均生成与其对应的融合图。由于样本集中包括多个样本,因此,可以生成多个融合图。该多个融合图组成融合图集合。
然后,在步骤5023中,基于预设损失函数,确定预设损失函数的损失值是否达到预设阈值。预设损失函数用于指示所得到的融合图集合中的融合图呈现的风格与对应的样本风格图之间的误差和融合图呈现的对象与对应的样本内容图呈现的对象之间的误差。具体来说,该预设损失函数可以包括用于指示所得到的融合图集合中的融合图呈现的风格与对应的样本风格图之间的误差的第一损失函数和用于指示融合图呈现的对象与对应的样本内容图呈现的对象之间的误差的第二损失函数。从而,当该第一损失函数的损失值和第二损失函数的损失值之和达到预设目标值时,可以将待训练的神经网络确定为训练完成的图像融合网络。其中,该第一预设损失函数例如可以为均方误差函数,该第二预设损失函数例如可以为格拉姆矩阵。当预设损失函数的值达到预设阈值,也即是说,预设损失函数的值不再减小时,可以确定预设损失函数的损失值达到预设目标值。
步骤503,响应于确定预设损失函数的损失值达到预设目标值,将待训练的神经网络确定为训练完成的图像融合网络。
上述训练步骤还包括:步骤504,响应于确定待训练的预设损失函数的损失值未达到预设目标值,调整待训练的神经网络的参数,将调整后的待训练的神经网络作为待训练的神经网络,继续执行步骤502所示的训练步骤。
在这里,调整待训练的神经网络的参数例如可以调整待训练的神经网络的每一层网络的权重、每一层网络的卷积核的大小、每一层网络的步长等。还可以调整风格特征图和样本特征图的权重。该待训练的神经网络例如可以为卷积神经网络、循环神经网络等。
在一些可选的实现方式中,上述预设损失函数可以包括第一损失函数和第二损失函数的加权和。确定预设损失函数的损失值是否达到预设目标值具体可以包括:基于第一损失函数的权重和第二预设损失函数的权重,确定第一损失函数的损失值和第二损失函数的损失值之和是否达到预设目标值,其中,第一损失函数用于指示融合图像与样本内容图像之间的误差;第二损失函数用于指示融合图像与样本风格图像之间的误差。
具体来说,该第一损失函数例如可以为用于表征融合图与样本内容图之间的差值的损失函数。该第一损失函数例如可以为均方差损失函数。通过反向传播算法,融合图可以与样本内容图对应的每一层特征图进行比较,最后根据融合图与样本内容特征图之间的均方差,从而优化融合图与样本内容图所呈现的对象之间的一致性。
该第二损失函数可以为格拉姆矩阵。可以根据融合图和从待训练的卷积神经网络的每一层输出的样本风格特征图的格拉姆矩阵之间的均方误差来优化融合图与样本风格图之间的风格差异。
最后,基于第一损失函数的权重和第二损失函数的权重,确定第一损失函数的损失值和第二损失函数的损失值之和是否达到预设目标值。
基于图5提供的图像融合网络的训练步骤得到的图像融合网络,可以在准确的保留有内容图像所呈现的对象的同时,有效的对内容图像和风格图像进行融合,从而进一步提升融合效果。
进一步参考图6,作为对上述图2所示方法的实现,本申请提供了一种图像融合装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的图像融合装置600包括:获取单元601、提取单元602和融合单元603。其中,获取单元601,被配置成获取待融合的内容图像和风格图像。提取单元602,被配置成对内容图像和风格图像分别进行特征提取,得到基于内容图像的特征图像和风格图像的特征图像的特征图像集合。融合单元603,被配置成将特征图像集合中的特征图像和预先生成的约束图像输入至预先训练的图像融合网络,得到融合后的图像,其中,约束图像用于约束内容图像所呈现的对象与风格图像所呈现的风格之间的融合方式。
在本实施例中,图像融合装置600中:获取单元601、提取单元602和融合单元603的具体处理及其带来的有益效果可参看图2对应实施例中的步骤201、步骤202和步骤203的实现方式的相关描述,在此不再赘述。
在本实施例一些可选的实现方式中,提取单元601进一步被配置成:将内容图像和风格图像输入至预先训练的特征提取网络,得到内容图像的特征图像和风格图像的特征图像。
在本实施例一些可选的实现方式中,约束图像通过如下步骤生成:获取风格图像中的第一位置区域,第一位置区域用于指定内容图像呈现的对象在风格图像中位置;对风格图像进行视觉显著性检测,得到基于视觉显著性检测结果的第二位置区域;基于第一位置区域和第二位置区域,生成约束图像。
在本实施例一些可选的实现方式中,图像融合网络通过如下步骤训练得到:获取训练样本集,训练样本集中的训练样本包括样本风格图、样本内容图和样本约束图;对于训练样本集合中的训练样本,执行如下训练步骤:对样本风格图和样本内容图进行特征提取,得到样本风格特征图、样本内容图;将样本风格特征图、样本内容特征图和样本约束图输入至待训练的神经网络,得到融合图;基于预设损失函数,确定预设损失函数的损失值是否达到预设目标值,其中,预设损失函数用于指示所得到的融合图集合中的融合图呈现的风格与对应的样本风格图之间的误差和融合图呈现的对象与对应的样本内容图呈现的对象之间的误差;响应于确定预设损失函数的损失值达到预设目标值,将待训练的神经网络确定为训练完成的图像融合网络;响应于确定预设损失函数的损失值未达到预设目标值,调整待训练的神经网络的参数,继续执行训练步骤。
在本实施例一些可选的实现方式中,预设损失函数包括第一损失函数和第二损失函数的加权和;其中,第一损失函数用于指示融合图与样本内容图之间的误差;第二损失函数用于指示融合图与样本风格图之间的误差
下面参考图7,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器)的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请该的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,该程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、提取单元和选择单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待融合的内容图像和风格图像的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待融合的内容图像和风格图像;对内容图像和风格图像分别进行特征提取,得到基于内容图像的特征图像和风格图像的特征图像的特征图像集合;将特征图像集合中的特征图像和预先生成的约束图像输入至预先训练的图像融合网络,得到融合后的图像。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种图像融合方法,包括:
获取待融合的内容图像和风格图像;
对所述内容图像和所述风格图像分别进行特征提取,得到基于所述内容图像的特征图像和所述风格图像的特征图像的特征图像集合;
将所述特征图像集合中的特征图像和预先生成的约束图像输入至预先训练的图像融合网络,得到融合后的图像,所述融合后的图像为将所述内容图像所呈现的对象处理成与所述风格图像所呈现的风格一致的图像,并融合至所述风格图像所得到,其中,所述约束图像用于约束内容图像所呈现的对象迁移至风格图像中时所处的位置和风格图像中参与图像融合的区域,所述约束图像通过如下步骤生成:获取所述风格图像中的第一位置区域,所述第一位置区域用于指定所述内容图像呈现的对象在风格图像中位置;对所述风格图像进行视觉显著性检测,将视觉显著性检测后得到的显著区域作为第二位置区域;基于所述第一位置区域和所述第二位置区域,生成约束图像。
2.根据权利要求1所述的方法,其中,所述对所述内容图像和所述风格图像分别进行特征提取,得到基于所述内容图像的特征图像和所述风格图像的特征图像的特征图像集合,包括:
将所述内容图像和所述风格图像输入至预先训练的特征提取网络,得到所述内容图像的特征图像和所述风格图像的特征图像。
3.根据权利要求1所述的方法,其中,所述图像融合网络通过如下步骤训练得到:
获取训练样本集,所述训练样本集中的训练样本包括样本风格图、样本内容图和样本约束图;
对于所述训练样本集合中的训练样本,执行如下训练步骤:
对样本风格图和样本内容图进行特征提取,得到样本风格特征图、样本内容特征图;
将样本风格特征图、样本内容特征图和样本约束图输入至待训练的神经网络,得到融合图;
基于预设损失函数,确定预设损失函数的损失值是否达到预设目标值,其中,预设损失函数用于指示所得到的融合图集合中的融合图呈现的风格与对应的样本风格图之间的误差和融合图呈现的对象与对应的样本内容图呈现的对象之间的误差;
响应于确定预设损失函数的损失值达到预设目标值,将待训练的神经网络确定为训练完成的图像融合网络;
响应于确定预设损失函数的损失值未达到所述预设目标值,调整待训练的神经网络的参数,继续执行所述训练步骤。
4.根据权利要求3所述的方法,其中,所述预设损失函数包括第一损失函数和第二损失函数的加权和;其中,所述第一损失函数用于指示融合图与样本内容图之间的误差;所述第二损失函数用于指示融合图与样本风格图之间的误差。
5.一种图像融合装置,包括:
获取单元,被配置成获取待融合的内容图像和风格图像;
提取单元,被配置成对所述内容图像和所述风格图像分别进行特征提取,得到基于所述内容图像的特征图像和所述风格图像的特征图像的特征图像集合;
融合单元,被配置成将所述特征图像集合中的特征图像和预先生成的约束图像输入至预先训练的图像融合网络,得到融合后的图像,所述融合后的图像为将所述内容图像所呈现的对象处理成与所述风格图像所呈现的风格一致的图像,并融合至所述风格图像所得到,其中,所述约束图像用于约束内容图像所呈现的对象迁移至风格图像中时所处的位置和风格图像中参与图像融合的区域,所述约束图像通过如下步骤生成:获取所述风格图像中的第一位置区域,所述第一位置区域用于指定所述内容图像呈现的对象在风格图像中位置;对所述风格图像进行视觉显著性检测,将视觉显著性检测后得到的显著区域作为第二位置区域;基于所述第一位置区域和所述第二位置区域,生成约束图像。
6.根据权利要求5所述的装置,其中,所述提取单元进一步被配置成:
将所述内容图像和所述风格图像输入至预先训练的特征提取网络,得到所述内容图像的特征图像和所述风格图像的特征图像。
7.根据权利要求5所述的装置,其中,所述图像融合网络通过如下步骤训练得到:
获取训练样本集,所述训练样本集中的训练样本包括样本风格图、样本内容图和样本约束图;
对于所述训练样本集合中的训练样本,执行如下训练步骤:
对样本风格图和样本内容图进行特征提取,得到样本风格特征图、样本内容特征图;
将样本风格特征图、样本内容特征图和样本约束图输入至待训练的神经网络,得到融合图;
基于预设损失函数,确定预设损失函数的损失值是否达到预设目标值,其中,预设损失函数用于指示所得到的融合图集合中的融合图呈现的风格与对应的样本风格图之间的误差和融合图呈现的对象与对应的样本内容图呈现的对象之间的误差;
响应于确定预设损失函数的损失值达到预设目标值,将待训练的神经网络确定为训练完成的图像融合网络;
响应于确定预设损失函数的损失值未达到所述预设目标值,调整待训练的神经网络的参数,继续执行所述训练步骤。
8.根据权利要求7所述的装置,其中,所述预设损失函数包括第一损失函数和第二损失函数的加权和;其中,所述第一损失函数用于指示融合图与样本内容图之间的误差;所述第二损失函数用于指示融合图与样本风格图之间的误差。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201811510772.4A 2018-12-11 2018-12-11 图像融合方法和装置 Active CN111311480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811510772.4A CN111311480B (zh) 2018-12-11 2018-12-11 图像融合方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811510772.4A CN111311480B (zh) 2018-12-11 2018-12-11 图像融合方法和装置

Publications (2)

Publication Number Publication Date
CN111311480A CN111311480A (zh) 2020-06-19
CN111311480B true CN111311480B (zh) 2024-02-09

Family

ID=71157826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811510772.4A Active CN111311480B (zh) 2018-12-11 2018-12-11 图像融合方法和装置

Country Status (1)

Country Link
CN (1) CN111311480B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932439A (zh) * 2020-06-28 2020-11-13 深圳市捷顺科技实业股份有限公司 一种戴口罩人脸图像生成方法及相关装置
CN111986075B (zh) * 2020-08-12 2022-08-09 兰州交通大学 一种目标边缘清晰化的风格迁移方法
CN112613341A (zh) * 2020-11-25 2021-04-06 北京迈格威科技有限公司 训练方法及装置、指纹识别方法及装置、电子设备
CN113505800A (zh) * 2021-06-30 2021-10-15 深圳市慧鲤科技有限公司 图像处理方法及其模型的训练方法和装置、设备、介质
CN114119348A (zh) * 2021-09-30 2022-03-01 阿里巴巴云计算(北京)有限公司 图像生成方法、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296567A (zh) * 2015-05-25 2017-01-04 北京大学 一种基于稀疏表示的多层次图像风格的转换方法及装置
CN106778928A (zh) * 2016-12-21 2017-05-31 广州华多网络科技有限公司 图像处理方法及装置
CN107392842A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 图像风格化处理方法、装置、计算设备及计算机存储介质
CN108734749A (zh) * 2017-04-20 2018-11-02 微软技术许可有限责任公司 图像的视觉风格变换
CN108734653A (zh) * 2018-05-07 2018-11-02 商汤集团有限公司 图像风格转换方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296567A (zh) * 2015-05-25 2017-01-04 北京大学 一种基于稀疏表示的多层次图像风格的转换方法及装置
CN106778928A (zh) * 2016-12-21 2017-05-31 广州华多网络科技有限公司 图像处理方法及装置
CN108734749A (zh) * 2017-04-20 2018-11-02 微软技术许可有限责任公司 图像的视觉风格变换
CN107392842A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 图像风格化处理方法、装置、计算设备及计算机存储介质
CN108734653A (zh) * 2018-05-07 2018-11-02 商汤集团有限公司 图像风格转换方法及装置

Also Published As

Publication number Publication date
CN111311480A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111311480B (zh) 图像融合方法和装置
CN108520220B (zh) 模型生成方法和装置
CN108427939B (zh) 模型生成方法和装置
CN107622240B (zh) 人脸检测方法和装置
CN107766940B (zh) 用于生成模型的方法和装置
CN110458107B (zh) 用于图像识别的方法和装置
CN110288049B (zh) 用于生成图像识别模型的方法和装置
CN111523640B (zh) 神经网络模型的训练方法和装置
CN111275784B (zh) 生成图像的方法和装置
CN109472264B (zh) 用于生成物体检测模型的方法和装置
US20210200971A1 (en) Image processing method and apparatus
CN109255767B (zh) 图像处理方法和装置
CN108509921B (zh) 用于生成信息的方法和装置
CN108427941B (zh) 用于生成人脸检测模型的方法、人脸检测方法和装置
CN108510084B (zh) 用于生成信息的方法和装置
CN109285181B (zh) 用于识别图像的方法和装置
CN109118456B (zh) 图像处理方法和装置
CN113505848A (zh) 模型训练方法和装置
CN108595211B (zh) 用于输出数据的方法和装置
CN109241930B (zh) 用于处理眉部图像的方法和装置
CN108257081B (zh) 用于生成图片的方法和装置
CN109816670B (zh) 用于生成图像分割模型的方法和装置
CN112784189A (zh) 一种识别页面图像的方法和装置
CN113255819B (zh) 用于识别信息的方法和装置
CN115393423A (zh) 目标检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant