CN110166759A - 图像的处理方法和装置、存储介质、电子装置 - Google Patents

图像的处理方法和装置、存储介质、电子装置 Download PDF

Info

Publication number
CN110166759A
CN110166759A CN201810523698.3A CN201810523698A CN110166759A CN 110166759 A CN110166759 A CN 110166759A CN 201810523698 A CN201810523698 A CN 201810523698A CN 110166759 A CN110166759 A CN 110166759A
Authority
CN
China
Prior art keywords
view
eye view
feature
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810523698.3A
Other languages
English (en)
Other versions
CN110166759B (zh
Inventor
龚新宇
黄浩智
马林
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810523698.3A priority Critical patent/CN110166759B/zh
Publication of CN110166759A publication Critical patent/CN110166759A/zh
Application granted granted Critical
Publication of CN110166759B publication Critical patent/CN110166759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种图像的处理方法和装置、存储介质、电子装置。其中,该方法包括:接收到转换请求,其中,转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格;响应于转换请求,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同;返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图。本发明解决了相关技术中进行图像风格的转换的时间成本较高的技术问题。

Description

图像的处理方法和装置、存储介质、电子装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种图像的处理方法和装置、存储介质、电子装置。
背景技术
风格迁移(Style Transfer),或者称为风格转移,是众多图像应用中非常有趣的一种应用,可以使用风格转移这种方法把一张图片的风格“迁移”到另一张图片上。
为了实现上述效果,可以预先分析某一种风格的图像,给这一种风格建立一个数学或者统计模型,再改变要执行风格迁移的图像,如改变其大小让其能更好的符合建立的模型的输入,采用这种方法做出来图像效果虽然很好,但是存在很大的缺陷:1)准备时间较长,建立一个数学或者统计模型需要耗费开发者较长时间;2)灵活性较差,一个模型仅能做某一种风格或者某一个场景,因此基于这种形式的风格迁移在实际应用中非常有限。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图像的处理方法和装置、存储介质、电子装置,以至少解决相关技术中进行图像风格的转换的时间成本较高的技术问题。
根据本发明实施例的一个方面,提供了一种图像的处理方法,包括:接收到转换请求,其中,转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格;响应于转换请求,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同;返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图。
根据本发明实施例的另一方面,还提供了一种图像的处理装置,包括:接收单元,用于接收到转换请求,其中,转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格;转换单元,用于响应于转换请求,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同;返回单元,用于返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
在本发明实施例中,在接收到转换请求时,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同;返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图,换言之,可以采用预先训练好的第一模型来转换,而不用在进行转换时建立数据或者统计模型,可以解决相关技术中进行图像风格的转换的时间成本较高的技术问题,进而达到了提高进行图像风格的转换效率的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的图像的处理方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的图像的处理方法的流程图;
图3是根据本发明实施例的一种可选的操作界面的示意图;
图4是根据本发明实施例的一种可选的操作界面的示意图;
图5是根据本发明实施例的一种可选的模型架构的示意图;
图6是根据本发明实施例的一种可选的损失网络的示意图;
图7是根据本发明实施例的一种可选的模型架构的示意图;
图8是根据本发明实施例的一种可选的模型架构的示意图;
图9是根据本发明实施例的一种可选的图像的处理装置的示意图;
以及
图10是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一方面,提供了一种图像的处理方法的方法实施例。
可选地,在本实施例中,上述图像的处理方法可以应用于如图1所示的由服务器101和终端103所构成的硬件环境中。如图1所示,服务器101通过网络与终端103进行连接,可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等),可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端103并不限定于PC、手机、平板电脑等。本发明实施例的图像的处理方法可以由服务器101来执行,也可以由终端103来执行,还可以是由服务器101和终端103共同执行。其中,终端103执行本发明实施例的图像的处理方法也可以是由安装在其上的客户端来执行。
图2是根据本发明实施例的一种可选的图像的处理方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,服务器接收到转换请求,转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格,第一左眼视图和第一右眼视图为具有视差的三维图像。
上述的第一左眼视图和第一右眼视图的类型为三维3D图像,即具有深度信息的图像,3D图像的场景包括但不局限于游戏场景中的3D图像,医学临床场景的3D图像、军事、房地产等仿真场景中的3D图像等,上述第一左眼视图和第一右眼视图可以为一个用户或者多个用户的双目3D图片,双目3D图片分为左眼视图和右眼视图,用户通过佩戴特定装置(如3D眼镜等)观察双目3D图片进而会体验到3D效果,即能够感知到图片的深度信息。
图像风格的类型包括但不局限于:中国风、立体主义、表现主义、现代主义、超现实主义、表现主义、金属风等等。
步骤S204,响应于转换请求,服务器通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同,第一模型是利用第三视图和验证视图对第二模型进行训练后得到的,验证视图是将第三视图的图像风格转换为目标风格后得到的。
在风格转移过程中,相当于第一模型参考验证视图(即风格参考图)的为目标风格的图像风格,将风格参照图的风格转移到第一左眼视图和第一右眼视图(即内容图)上,同时保持内容图的高层抽象语义信息,如纹理特征、深度信息等;如图1所示,对于待转换的视图,第一模型在进行转换时,可以先识别出建筑物、天空以及地面,然后将建筑物轮廓将其分成几个部分,天空以及地面也是如此,并保持识别出的这些对象的深度信息,即保持视图的高层抽象语义信息,进而将这些对象的各个部分用目标风格的图像风格的元素(如金属元素)来填充,进而得到第二视图。
步骤S206,服务器返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图,此处的“返回”是指返回给发起转换请求的目标应用或目标网页,或者目标应用或目标网页指定的另一应用或网页。
在上述方案中,第一模型是预先训练好的,换言之,在进行图像风格的转换时可以直接进行转换,而不用在进行转换时建立数据或者统计模型,可以节约较长时间,且模型的训练过程无需人工参与,可以降低人工时间成本;且第一模型是可复用的,用什么类型的风格的图片进行训练,那么该模型就具备进行这种类型的风格的图像的转换功能,而不用针对各种类型的风格的图像分别建立模型,灵活性较好,进一步降低了人工时间成本。
通过上述步骤S202至步骤S206,在接收到转换请求时,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同;返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图,换言之,可以采用预先训练好的第一模型来转换,而不用在进行转换时建立数据或者统计模型,可以解决相关技术中进行图像风格的转换的时间成本较高的技术问题,进而达到了提高进行图像风格的转换效率的技术效果。
在步骤S202提供的技术方案中,如图3所示,当用户存在图片风格的转换这一需求时(如用来发送朋友圈、杂志等媒体需要这一类型的图像等场景下),在用户终端上,用户可以通过图3所示的“转换界面”添加待转换的图像,在添加完图像之后,可进一步选择希望转换的风格类型,如“金属风”,然后点击“转换”按钮,此时,终端生成携带有所添加的视图和目标风格(如“金属风”)的转换请求,并发送给服务器,以请求服务器将视图的图像风格转换为目标风格。
在上述实施例中,用于提供图3中的“转换界面”的客户端可以为网页客户端、图像处理应用的客户端、社交应用的客户端、微博应用的客户端、即时通讯应用的客户端等,这些客户端可以安装在移动终端(如手机、平板、可穿戴设备等)上,也可安装在计算机设备、服务器上。
在步骤S206提供的技术方案中,服务器向终端返回对目标图像的图像风格进行转换后得到的第二视图(即第二左眼视图和第二右眼视图),如图4所示,终端可对接收到的图像进行显示。下面结合步骤S204详述如何进行转换,当然,“对目标图像的图像风格进行转换”这一功能也可集成在终端本地。
本申请相当于提供了一种针对双目3D图片等三维图像的风格转移方法,该方案可以应用于多种3D设备,例如3D电视、3D银幕以及虚拟现实VR设备、增强现实AR设备等,能够快速的对图像进行风格转换,同时很好地保持转换后图像的深度信息。
在步骤S204提供的技术方案中,对转换请求进行响应,服务器通过第一模型将第一左眼视图和第一右眼视图(即双目3D图片或双目3D视图)转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同,第一模型是利用第三视图和验证视图对第二模型进行训练后得到的,验证视图是将第三视图的图像风格转换为目标风格后得到的。
上述的双目3D视图可以包括对目标场景以不同视角采集到的多张三维图像,如同一游戏场景下不同玩家视角下的三维图像,利用3D眼镜等看到的三维图像等。
下面以双目3D视图为例进行说明,对于其余类型的目标三维图像,与此类似。
(1)关于模型的训练
上述的第一模型可以是用户自己训练得到的,也可是获取的其他服务提供者提供的,在通过第一模型将视图的图像风格进行转换之前,一种可选的训练方式(包括步骤1至步骤3)如下:
步骤1,将作为训练图像的第三视图输入第二模型,并获取第二模型对第三视图进行图像风格转换后得到的第四视图,第三视图、第四视图以及验证视图可以为双目3D视图或单目3D视图。
一种可选的模型如图5所示,包括多通道风格化网络(卷积网络)和损失网络。
步骤2,在第四视图的图像风格与验证视图的图像风格匹配的情况下,将第二模型作为第一模型,例如,计算出第四视图中每个局部区域(如表征同一对象,如建筑物的楼层、云朵等)的用于表示该目标风格的特征(如颜色特征、纹理特征)与验证视图中相应的特征是否类似,并求出相似程度,针对每个局部区域的相似程度求取平局值,若平均值大于阈值,则匹配,否则不匹配,验证视图为预先提供的制作为目标风格的视图。
一种可选的损失网络如图6所示,该损失网络可在训练模型时启用,该网络可承担以下两项任务,第一是迫使多通道风格化网络吸收风格信息,即在保证生成图片与原始内容图在抽象语义层面(如所表达的具体内容,如建筑物、环境对象、场景对象等)相似的前提下,又使得其拥有风格参照图的风格;第二是使得多通道风格化网络具有保留生成图片深度信息的能力。
该损失网络可由两个损失层组成,感知损失层(Perceptual loss)和多层视角损失层(Multi-layer view loss),这两者分别承担以上所提到的任务。损失网络具体的结构如图6所示,VGG-16是一种卷积神经网络,S表示风格化图片style image。
卷积网络得到的双目3D图片的风格化图(即述第三视图)、内容原始图(即第三视图)会被送入多层视角损失层,多层视角损失Lview的表达式如下:
Lview表示感知损失层Perceptual loss,其由两部分组成,即图像层次视角损失与特征层次视角损失其中,图像层次视角损失的关系表示如下:
这里W()代表使用ground-truth视差图进行变形操作,为左视差图(用L表示)中各像素(i和j为像素的行和列的编号)的置信遮罩,为右视差图(用R表示)中各像素的置信遮罩,可与风格化图像拥有相同尺寸,可为单通道图,的取值是0或1,取1的地方代表此处视差图的取值是正确的,取0则相反,“|| ||”表示2的范数,ML表示左视图的掩膜MASK。
特征层次视角损失的关系式如下:
表示的是是使用双线性插值法调整大小后的其与解码器第K层的特征图具有相同的宽和高,mL表示的含义是。
卷积网络得到的双目3D图片的风格化图(即第三视图)会被送入损失网络的多层视角损失层,双目3D图片的第一特征图FL、FR也会被送入损失网络的多层视角损失层。感知损失Lperceptual可以参考相关技术中的求取方法,故而总的损失函数Ltotal的表达式可以为:Ltotal=Lview+Lperceptual,在训练过程中,通过求取该损失的值,以减小Ltotal目标来迭代更新双通道风格化网络权重。
在训练过程中,通过设置相应的约束(即上述的损失),风格参照图片的风格信息(即验证视图的图像风格)、保留输入图片的抽象语义和深度信息的能力,将会被预先编码进入模型中,体现在模型中的参数数值不同,从而使得该模型具备能够快速的将双目3D图片等风格化,并在风格化图片中保留相应的深度信息的能力。
上述训练的主要目的是为了初始化卷积网络中各个网络层中的权重参数,并由损失网络判断初始化后的权重参数是否欠拟合,若欠拟合则继续训练,如步骤3所示。
步骤3,在第四视图的图像风格与验证视图的图像风格不匹配的情况下,继续利用第三视图对第二模型进行训练,直至第二模型输出的第四视图的图像风格与验证视图的图像风格匹配。
(2)关于模型的使用(参见图5、图7-图8)
在上述实施例中,通过设计一个基于卷积神经网络(即上述第一模型)的多通道(如双通道)风格化模型,将多张三维图像(如一对双目图片)作为输入,可输出相应的风格化图片,服务器可通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图包括按照如下方式对第一左眼视图和第一右眼视图进行转换,其中,第一左眼视图和第一右眼视图中当前进行转换的视图被视为当前视图:通过第一模型将当前视图的图像风格转换为目标风格、并利用当前视图与第一视图之间的视差保留当前视图的深度信息,得到第二视图,其中,第一视图为第一左眼视图和第一右眼视图中除当前视图之外的另一张视图,第二视图包括第二左眼视图和第二右眼视图。
可选地,如图5和图7所示,通过第一模型将当前视图的图像风格转换为目标风格、并利用当前视图与第一视图之间的视差保留当前视图的深度信息,得到第二视图可以通过如下步骤1至步骤3实现:
步骤1,通过第一模型对当前视图进行特征提取,得到第一特征图,第一特征图用于描述当前视图的图像特征,如将一对3D双目图片(xL,xR)同时送入编码器(Encoder)进行特征提取,然后获得相对应的特征图
可选地,通过第一模型对当前视图进行特征提取,得到第一特征图可以通过如下方式实现:首先每张图片将会被送入共享的编码器提取相应的特征图,通过第一模型中的卷积核(即编码器)对当前视图进行卷积操作,得到包括当前视图的图像特征的第一特征图,每个卷积核用于通过执行卷积操作来将当前视图的一类图像特征提取至第一特征图,换言之,如果有多个卷积核,那么提取的维度就是多个维度的,即可以提取多类图像特征。
上述的图像特征包括但不局限于:颜色特征、纹理特征、形状特征、空间关系特征等中的一个或多个。
颜色特征(如颜色集、颜色直方图等)是一种全局特征,描述了图像或图像区域所对应的景物的表面性质,可选用颜色直方图,这是一种可选的表达颜色特征的方法,其不受图像旋转和平移变化的影响,还可进一步借助归一化来规避其受图像尺度变化的影响。
纹理特征是一种全局特征,描述了图像或图像区域所对应景物的表面性质(如前述图1中的建筑物、天空、地面等),纹理特征可包含多个像素点的区域中进行的统计计算,这种区域性的特征具有较大的优越性,不会由于局部的偏差而无法匹配成功,纹理特征常具有旋转不变性,并且对于噪声有较强的抵抗能力。
形状特征可包括两类表示方法,一类是轮廓特征,另一类是区域特征,图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域,利用形状特征可以比较有效地利用图像中感兴趣的目标来进行检索。
空间关系是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系,这些关系也可分为连接、邻接关系、交叠、重叠关系和包含、包容关系等。
可选地,对于输入图片的特征的提取,可使用基于卷积神经网络的编码器进行特征提取工作,该编码器包括多三层(如三层)卷积层,或称为卷积核(Convolution-BatchNorm-Activation),多幅输入图片可共享同一个编码器,被分别编码为多维(如48维)的特征图,一种可选的编码器的具体结构如表1所示,激活函数可以为ReLU:
表1
步骤2,通过第一模型对第一特征图中的图像特征进行特征聚合操作,得到第二特征图,特征聚合操作用于利用当前视图与第一视图之间的视差保留当前视图的深度信息,利用第一模型的特征聚合模块,两路特征图将会互相聚合有效信息以便保留深度信息,如利用特征聚合模块(Feature Aggregation Block)对两路特征图进行特征聚合操作,由此生成聚合特征图(即第二特征图)。
可选地,在提取了两幅图片的特征图之后,可使用特征聚合模块来对两路特征图(即第一特征图)进行信息交互,特征聚合模块的具体结构见图8,特征聚合模块主要分为三个部分,视差网络(Disparity sub-network)、门网络(Gate-subnetwork)和聚合网络(Aggregation)。为了简洁起见,以下以描述左眼视图(如当前视图)的特征图的聚合过程(如步骤S21至步骤S23)为例进行描述,右眼视图(如第一视图)的特征图的聚合过程与此过程相似。
步骤S21,通过第一模型的视差网络获取当前视图与第一视图之间的视差图,即两幅内容图(当前视图与第一视图)会在视差网络的通道维度进行串联{xL,xR},如xL为RGB三通道,xR也为RGB三通道,串联后就相当于有6通道的数据,随后送入视差网络预测相应的视差图,通过视差图将第一特征图变换为第三特征图,如,利用视差图可以将xR变形至第三特征图W′(xR),视差图用于在第一特征图中补充第一特征图中所描述的对象的深度信息,或称为位置信息,即可以保留图像的深度信息,得到第三特征图。
上述视差图是精确的,W′(xR)和xL应该是对齐的,除去由于视差造成的遮挡部分,视差网络也可以由其他更高级的视差图预测网络所代替,以提升性能,本申请对此不做限定,一种可选的视差网络的具体结构如表2所示:
表2
卷积核大小 步长 输入维度 输出维度 激活函数
卷积核 3*3 1 6 32 ReLU
卷积核 3*3 2 32 64 ReLU
卷积核 3*3 2 64 48 ReLU
残差网络 48 48 ReLU
反卷积 3*3 0.5 48 28 ReLU
反卷积 3*3 0.5 24 8 ReLU
卷积 3*3 1 8 3 ReLU
卷积 3*3 1 3 1 tanh
步骤S22,通过第一模型的下采样网络(即门网络)对当前视图和第三特征图进行下采样(对于一个图像样值序列间隔几个样值取样一次,得到新序列就是原序列的下采样),如利用双线性插值法对W′(xR)和xL的进行减采样(或称为下采样),使得其和第三特征图同样大小,并将经过下采样的当前视图和第三特征图输入第一模型的门网络,得到第四特征图,门网络用于对经过下采样的当前视图和第三特征图中同一像素点的像素值之间的差值取绝对值,并将同一像素点的绝对值进行归一化后作为第四特征图中同一像素点的像素值,如将减采样后的W′(xR)和xL进行相减取绝对值操作:
DL=|r(xL)-r(W′(xR))|,
r(W′(xR))和r(xL)分别是减采样后的W′(xR)和xL,将DL送入门网络后,门网络将会产生一张与特征图相同尺寸的单通道门图GL(即第四特征图)。这里GL的每个像素的取值范围为[0,1]。一种可选的门网络结构如表3所示。
表3
卷积核大小 步长 输入维度 输出维度 激活函数
卷积核 3*3 1 3 6 ReLU
卷积核 1*1 1 6 12 ReLU
卷积核 1*1 1 12 6 ReLU
卷积核 1*1 1 6 3 ReLU
卷积核 1*1 1 3 1 tanh
步骤S23,利用门网络生成的门图GL(即第四特征图),需对W′(xR)进行纯化操作,可通过第一模型的聚合网络利用第四特征图对第三特征图执行纯化操作,并将执行纯化操作后的第三特征图与第四特征图相串联,得到第二特征图,第四特征图为通过第一模型中的卷积核对第一视图进行卷积操作,得到的包括第一视图的图像特征的特征图。
一种可选的“通过第一模型的聚合网络利用第四特征图对第三特征图执行纯化操作”的实现方式如下:利用用于表示第四特征图的矩阵GL按照如下公式对用于表示第三特征图的矩阵W′(xR)执行纯化操作:随后,在通道维度上相串联,形成聚合特征图(即第二特征图)。矩阵表示执行纯化操作后的第三特征图,矩阵FL表示第四特征图,⊙表示矩阵乘,需要说明的是,计算“(1-GL)”时,可以将“1”乘以“GL”的单位矩阵之后,在执行减法操作。
步骤3,通过第一模型对第二特征图按照目标风格的图像风格生成第二视图,如共享的解码器(Decoder)将两路聚合特征图解码生成风格化图片
在通过第一模型对第二特征图按照目标风格的图像风格生成第二视图时,可以按照目标风格的图像风格对第二特征图中的像素点的风格进行变换,生成第二视图,例如,识别出用于表示一个楼层的区域、一个云朵的区域,然后将这些区域的像素用表示金属风的像素进行填充。
解码器以聚合特征图(即第二特征图)为输入,将两者分别解码为风格化图(即第二视图),解码器可包括若干残差模块(即残差网络)和转置卷积模块(Deconvolution-InstanceNorm-Activation),表4展示了解码器结构。
表4
卷积核大小 步长 输入维度 输出维度 激活函数
卷积核 3*3 1 96 96 ReLU
卷积核 3*3 1 96 48 ReLU
残差网络 48 48 ReLU
反卷积 3*3 0.5 48 32 ReLU
反卷积 3*3 0.5 32 16 ReLU
卷积核 3*3 1 16 3 tanh
以对聚合特征图中的局部描述符进行聚合为例,对于媒体信息,每帧的局部描述符{x1,…,xi,…},在大规模媒体信息搜索中不可能将它们一次都存在内存中,即使每个局部描述符都只需要几比特大小,但是一般来说,每帧都会有数百上千的局部描述符。因此,可将这些局部描述符聚合到一个单独的向量中去,如利用Fisher Kernel这一网络来对图像进行变形,当然,聚合的过程中还可将上述目标风格像素考虑在内,用表示“金属风”的像素来进行填充,得到的结果向量即局部聚合描述符(VLAD),它提供了一种简洁有效的图像表达。
以上步骤1至步骤3共同组成了双通道风格化网络(Dual Path StylizingNetwork)的处理流程,该模型引入的损失网络(Loss Network),可用于生成的风格化图片和解码器中的第K层特征图作为输入,用以训练双通道风格化网络。
采用本申请的技术方案,弥补了双目3D图片的风格转移方法的空缺,该方案能够快速的对双目3D图片进行保持深度信息的风格转移,能够便捷的部署至3D设备,具有巨大的商业价值。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图像的处理方法的图像的处理装置。图9是根据本发明实施例的一种可选的图像的处理装置的示意图,如图9所示,该装置可以包括:接收单元901、转换单元903以及返回单元905。
接收单元901,用于接收到转换请求,其中,转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格。
上述的第一左眼视图和第一右眼视图的类型为三维3D图像,即具有深度信息的图像,3D图像的场景包括但不局限于游戏场景中的3D图像,医学临床场景的3D图像、军事、房地产等仿真场景中的3D图像等,上述第一左眼视图和第一右眼视图可以为一个用户或者多个用户的双目3D图片,双目3D图片分为左眼视图和右眼视图,用户通过佩戴特定装置(如3D眼镜等)观察双目3D图片进而会体验到3D效果,即能够感知到图片的深度信息。
图像风格的类型包括但不局限于:中国风、立体主义、表现主义、现代主义、超现实主义、表现主义、金属风等等。
转换单元903,用于响应于转换请求,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同。
在风格转移过程中,相当于第一模型参考验证视图(即风格参考图)的为目标风格的图像风格,将风格参照图的风格转移到第一左眼视图和第一右眼视图(即内容图)上,同时保持内容图的高层抽象语义信息,如纹理特征、深度信息等;如图1所示,对于待转换的视图,第一模型在进行转换时,可以先识别出建筑物、天空以及地面,然后将建筑物轮廓将其分成几个部分,天空以及地面也是如此,并保持识别出的这些对象的深度信息,即保持视图的高层抽象语义信息,进而将这些对象的各个部分用目标风格的图像风格的元素(如金属元素)来填充,进而得到第二视图。
返回单元905,用于返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图。
在上述方案中,第一模型是预先训练好的,换言之,在进行图像风格的转换时可以直接进行转换,而不用在进行转换时建立数据或者统计模型,可以节约较长时间,且模型的训练过程无需人工参与,可以降低人工时间成本;且第一模型是可复用的,用什么类型的风格的图片进行训练,那么该模型就具备进行这种类型的风格的图像的转换功能,而不用针对各种类型的风格的图像分别建立模型,灵活性较好,进一步降低了人工时间成本。
需要说明的是,该实施例中的接收单元901可以用于执行本申请实施例中的步骤S202,该实施例中的转换单元903可以用于执行本申请实施例中的步骤S204,该实施例中的返回单元905可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,在接收到转换请求时,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同;返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图,换言之,可以采用预先训练好的第一模型来转换,而不用在进行转换时建立数据或者统计模型,可以解决相关技术中进行图像风格的转换的时间成本较高的技术问题,进而达到了提高进行图像风格的转换效率的技术效果。
上述转换单元还可用于:按照如下方式对第一左眼视图和第一右眼视图进行转换,其中,第一左眼视图和第一右眼视图中当前进行转换的视图被视为当前视图:通过第一模型将当前视图的图像风格转换为目标风格、并利用当前视图与第一视图之间的视差保留当前视图的深度信息,得到第二视图,其中,第一视图为第一左眼视图和第一右眼视图中除当前视图之外的另一张视图,第二视图包括第二左眼视图和第二右眼视图。
可选地,转换单元可包括:提取模块,用于通过第一模型对当前视图进行特征提取,得到第一特征图,其中,第一特征图用于描述当前视图的图像特征;聚合模块,用于通过第一模型对第一特征图中的图像特征进行特征聚合操作,得到第二特征图;转换模块,用于通过第一模型对第二特征图按照目标风格的图像风格生成第二视图。
可选地,提取模块还可用于:通过第一模型中的卷积核对当前视图进行卷积操作,得到包括当前视图的图像特征的第一特征图,其中,卷积核用于通过执行卷积操作来将当前视图的图像特征提取至第一特征图。
可选地,聚合模块可包括:变换子模块,用于通过第一模型的视差网络获取当前视图与第一视图之间的视差图,并通过视差图将第一特征图变换为第三特征图,其中,视差图用于在第一特征图中补充第一特征图中所描述的对象的深度信息,得到第三特征图;采样子模块,用于通过第一模型的下采样网络对当前视图和第三特征图进行下采样,并将经过下采样的当前视图和第三特征图输入第一模型的门网络,得到第四特征图,其中,门网络用于对经过下采样的当前视图和第三特征图中同一像素点的像素值之间的差值取绝对值,并将同一像素点的绝对值进行归一化后作为第四特征图中同一像素点的像素值;聚合子模块,用于通过第一模型的聚合网络利用第四特征图对第三特征图执行纯化操作,并将执行纯化操作后的第三特征图与第四特征图相串联,得到第二特征图,其中,第四特征图为通过第一模型中的卷积核对第一视图进行卷积操作,得到的包括第一视图的图像特征的特征图。
上述的聚合子模块还可用于:利用用于表示第四特征图的矩阵GL按照如下公式对用于表示第三特征图的矩阵W′(xR)执行纯化操作:其中,矩阵表示执行纯化操作后的第三特征图,矩阵FL表示第四特征图,⊙表示矩阵乘。
上述的转换模块还可用于:按照目标风格的图像风格对第二特征图中的像素点的风格进行变换,生成第二视图。
本申请的装置还可包括训练单元:用于通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图之前,将第三视图输入第二模型,并获取第二模型对第三视图进行图像风格转换后得到的第四视图;在第四视图的图像风格与验证视图的图像风格匹配的情况下,将第二模型作为第一模型;在第四视图的图像风格与验证视图的图像风格不匹配的情况下,继续利用第三视图对第二模型进行训练,直至第二模型输出的第四视图的图像风格与验证视图的图像风格匹配。
采用本申请的技术方案,弥补了双目3D图片的风格转移方法的空缺,该方案能够快速的对双目3D图片进行保持深度信息的风格转移,能够便捷的部署至3D设备,具有巨大的商业价值。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图像的处理方法的服务器或终端。
图10是根据本发明实施例的一种终端的结构框图,如图10所示,该终端可以包括:一个或多个(图10中仅示出一个)处理器1001、存储器1003、以及传输装置1005,如图10所示,该终端还可以包括输入输出设备1007。
其中,存储器1003可用于存储软件程序以及模块,如本发明实施例中的图像的处理方法和装置对应的程序指令/模块,处理器1001通过运行存储在存储器1003内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像的处理方法。存储器1003可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1003可进一步包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1005用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1005包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1005为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器1003用于存储应用程序。
处理器1001可以通过传输装置1005调用存储器1003存储的应用程序,以执行下述步骤:
接收到转换请求,其中,转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格;
响应于转换请求,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同;
返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图。
处理器1001还用于执行下述步骤:
通过第一模型的视差网络获取当前视图与第一视图之间的视差图,并通过视差图将第一特征图变换为第三特征图,其中,视差图用于在第一特征图中补充第一特征图中所描述的对象的深度信息,得到第三特征图;
通过第一模型的下采样网络对当前视图和第三特征图进行下采样,并将经过下采样的当前视图和第三特征图输入第一模型的门网络,得到第四特征图,其中,门网络用于对经过下采样的当前视图和第三特征图中同一像素点的像素值之间的差值取绝对值,并将同一像素点的绝对值进行归一化后作为第四特征图中同一像素点的像素值;
通过第一模型的聚合网络利用第四特征图对第三特征图执行纯化操作,并将执行纯化操作后的第三特征图与第四特征图相串联,得到第二特征图,其中,第四特征图为通过第一模型中的卷积核对第一视图进行卷积操作,得到的包括第一视图的图像特征的特征图。
采用本发明实施例,在接收到转换请求时,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同;返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图,换言之,可以采用预先训练好的第一模型来转换,而不用在进行转换时建立数据或者统计模型,可以解决相关技术中进行图像风格的转换的时间成本较高的技术问题,进而达到了提高进行图像风格的转换效率的技术效果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图10所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行图像的处理方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S12,接收到转换请求,其中,转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格。
S14,响应于转换请求,通过第一模型将第一左眼视图和第一右眼视图转换为第二左眼视图和第二右眼视图,其中,第二左眼视图和第二右眼视图的图像风格为目标风格,且第二左眼视图和第二右眼视图之间的视差与第一左眼视图和第一右眼视图之间的视差相同。
S16,返回对第一左眼视图和第一右眼视图进行转换得到的第二左眼视图和第二右眼视图。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S22,通过第一模型的视差网络获取当前视图与第一视图之间的视差图,并通过视差图将第一特征图变换为第三特征图,其中,视差图用于在第一特征图中补充第一特征图中所描述的对象的深度信息,得到第三特征图。
S24,通过第一模型的下采样网络对当前视图和第三特征图进行下采样,并将经过下采样的当前视图和第三特征图输入第一模型的门网络,得到第四特征图,其中,门网络用于对经过下采样的当前视图和第三特征图中同一像素点的像素值之间的差值取绝对值,并将同一像素点的绝对值进行归一化后作为第四特征图中同一像素点的像素值。
S26,通过第一模型的聚合网络利用第四特征图对第三特征图执行纯化操作,并将执行纯化操作后的第三特征图与第四特征图相串联,得到第二特征图,其中,第四特征图为通过第一模型中的卷积核对第一视图进行卷积操作,得到的包括第一视图的图像特征的特征图。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种图像的处理方法,其特征在于,包括:
接收到转换请求,其中,所述转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格,所述第一左眼视图和所述第一右眼视图为具有视差的三维图像;
响应于所述转换请求,通过第一模型将所述第一左眼视图和所述第一右眼视图转换为第二左眼视图和第二右眼视图,其中,所述第二左眼视图和所述第二右眼视图的图像风格为所述目标风格,且所述第二左眼视图和所述第二右眼视图之间的视差与所述第一左眼视图和所述第一右眼视图之间的视差相同;
返回对所述第一左眼视图和所述第一右眼视图进行转换得到的所述第二左眼视图和所述第二右眼视图。
2.根据权利要求1所述的方法,其特征在于,通过第一模型将所述第一左眼视图和所述第一右眼视图转换为第二左眼视图和第二右眼视图包括按照如下方式对所述第一左眼视图和所述第一右眼视图进行转换,其中,所述第一左眼视图和所述第一右眼视图中当前进行转换的视图被视为当前视图:
通过所述第一模型将所述当前视图的图像风格转换为所述目标风格、并利用所述当前视图与第一视图之间的视差保留所述当前视图的深度信息,得到第二视图,其中,所述第一视图为所述第一左眼视图和所述第一右眼视图中除所述当前视图之外的另一张视图,所述第二视图包括所述第二左眼视图和所述第二右眼视图。
3.根据权利要求2所述的方法,其特征在于,通过所述第一模型将所述当前视图的图像风格转换为所述目标风格、并利用所述当前视图与第一视图之间的视差保留所述当前视图的深度信息,得到第二视图包括:
通过所述第一模型对所述当前视图进行特征提取,得到第一特征图,其中,所述第一特征图用于描述所述当前视图的图像特征;
通过所述第一模型对所述第一特征图中的图像特征进行特征聚合操作,得到第二特征图,其中,所述特征聚合操作用于利用所述当前视图与所述第一视图之间的视差保留所述当前视图的深度信息;
通过所述第一模型对所述第二特征图按照所述目标风格的图像风格生成所述第二视图。
4.根据权利要求3所述的方法,其特征在于,通过所述第一模型对所述当前视图进行特征提取,得到第一特征图包括:
通过所述第一模型中的卷积核对所述当前视图进行卷积操作,得到包括所述当前视图的图像特征的所述第一特征图,其中,所述卷积核用于通过执行所述卷积操作来将所述当前视图的图像特征提取至所述第一特征图。
5.根据权利要求3所述的方法,其特征在于,通过所述第一模型对所述第一特征图中的图像特征进行特征聚合操作,得到第二特征图包括:
通过所述第一模型的视差网络获取所述当前视图与所述第一视图之间的视差图,并通过所述视差图将所述第一特征图变换为第三特征图,其中,所述视差图用于在所述第一特征图中补充所述第一特征图中所描述的对象的深度信息,得到所述第三特征图;
通过所述第一模型的下采样网络对所述当前视图和所述第三特征图进行下采样,并将经过下采样的所述当前视图和所述第三特征图输入所述第一模型的门网络,得到第四特征图,其中,所述门网络用于对经过下采样的所述当前视图和所述第三特征图中同一像素点的像素值之间的差值取绝对值,并将所述同一像素点的绝对值进行归一化后作为所述第四特征图中所述同一像素点的像素值;
通过所述第一模型的聚合网络利用所述第四特征图对所述第三特征图执行纯化操作,并将执行纯化操作后的所述第三特征图与第四特征图相串联,得到所述第二特征图,其中,所述第四特征图为通过所述第一模型中的卷积核对所述第一视图进行卷积操作,得到的包括所述第一视图的图像特征的特征图。
6.根据权利要求5所述的方法,其特征在于,通过所述第一模型的聚合网络利用所述第四特征图对所述第三特征图执行纯化操作包括:
利用用于表示所述第四特征图的矩阵GL按照如下公式对用于表示所述第三特征图的矩阵W′(xR)执行纯化操作: 其中,矩阵表示执行纯化操作后的所述第三特征图,矩阵FL表示所述第四特征图,⊙表示矩阵乘。
7.根据权利要求3所述的方法,其特征在于,通过所述第一模型对所述第二特征图按照所述目标风格的图像风格生成所述第二视图包括:
按照所述目标风格的图像风格对所述第二特征图中的像素点的风格进行变换,生成所述第二视图。
8.根据权利要求1至7中任意一项所述的方法,其特征在于,在通过第一模型将所述第一左眼视图和所述第一右眼视图转换为第二左眼视图和第二右眼视图之前,所述方法还包括:
将第三视图输入第二模型,并获取所述第二模型对所述第三视图进行图像风格转换后得到的第四视图;
在所述第四视图的图像风格与验证视图的图像风格匹配的情况下,将所述第二模型作为所述第一模型;
在所述第四视图的图像风格与所述验证视图的图像风格不匹配的情况下,继续利用所述第三视图对所述第二模型进行训练,直至所述第二模型输出的所述第四视图的图像风格与所述验证视图的图像风格匹配。
9.一种图像的处理装置,其特征在于,包括:
接收单元,用于接收到转换请求,其中,所述转换请求用于请求将第一左眼视图和第一右眼视图的图像风格转换为目标风格,所述第一左眼视图和所述第一右眼视图为具有视差的三维图像;
转换单元,用于响应于所述转换请求,通过第一模型将所述第一左眼视图和所述第一右眼视图转换为第二左眼视图和第二右眼视图,其中,所述第二左眼视图和所述第二右眼视图的图像风格为所述目标风格,且所述第二左眼视图和所述第二右眼视图之间的视差与所述第一左眼视图和所述第一右眼视图之间的视差相同;
返回单元,用于返回对所述第一左眼视图和所述第一右眼视图进行转换得到的所述第二左眼视图和所述第二右眼视图。
10.根据权利要求9所述的装置,其特征在于,所述转换单元还用于按照如下方式对所述第一左眼视图和所述第一右眼视图进行转换,其中,所述第一左眼视图和所述第一右眼视图中当前进行转换的视图被视为当前视图:
通过所述第一模型将所述当前视图的图像风格转换为所述目标风格、并利用所述当前视图与第一视图之间的视差保留所述当前视图的深度信息,得到第二视图,其中,所述第一视图为所述第一左眼视图和所述第一右眼视图中除所述当前视图之外的另一张视图,所述第二视图包括所述第二左眼视图和所述第二右眼视图。
11.根据权利要求10所述的装置,其特征在于,所述转换单元包括:
提取模块,用于通过所述第一模型对所述当前视图进行特征提取,得到第一特征图,其中,所述第一特征图用于描述所述当前视图的图像特征;
聚合模块,用于通过所述第一模型对所述第一特征图中的图像特征进行特征聚合操作,得到第二特征图,其中,所述特征聚合操作用于利用所述当前视图与所述第一视图之间的视差保留所述当前视图的深度信息;
转换模块,用于通过所述第一模型对所述第二特征图按照所述目标风格的图像风格生成所述第二视图。
12.根据权利要求11所述的装置,其特征在于,所述提取模块还用于:
通过所述第一模型中的卷积核对所述当前视图进行卷积操作,得到包括所述当前视图的图像特征的所述第一特征图,其中,所述卷积核用于通过执行所述卷积操作来将所述当前视图的图像特征提取至所述第一特征图。
13.根据权利要求11所述的装置,其特征在于,所述聚合模块包括:
变换子模块,用于通过所述第一模型的视差网络获取所述当前视图与所述第一视图之间的视差图,并通过所述视差图将所述第一特征图变换为第三特征图,其中,所述视差图用于在所述第一特征图中补充所述第一特征图中所描述的对象的深度信息,得到所述第三特征图;
采样子模块,用于通过所述第一模型的下采样网络对所述当前视图和所述第三特征图进行下采样,并将经过下采样的所述当前视图和所述第三特征图输入所述第一模型的门网络,得到第四特征图,其中,所述门网络用于对经过下采样的所述当前视图和所述第三特征图中同一像素点的像素值之间的差值取绝对值,并将所述同一像素点的绝对值进行归一化后作为所述第四特征图中所述同一像素点的像素值;
聚合子模块,用于通过所述第一模型的聚合网络利用所述第四特征图对所述第三特征图执行纯化操作,并将执行纯化操作后的所述第三特征图与第四特征图相串联,得到所述第二特征图,其中,所述第四特征图为通过所述第一模型中的卷积核对所述第一视图进行卷积操作,得到的包括所述第一视图的图像特征的特征图。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至8任一项中所述的方法。
15.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至8任一项中所述的方法。
CN201810523698.3A 2018-05-28 2018-05-28 图像的处理方法和装置、存储介质、电子装置 Active CN110166759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810523698.3A CN110166759B (zh) 2018-05-28 2018-05-28 图像的处理方法和装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810523698.3A CN110166759B (zh) 2018-05-28 2018-05-28 图像的处理方法和装置、存储介质、电子装置

Publications (2)

Publication Number Publication Date
CN110166759A true CN110166759A (zh) 2019-08-23
CN110166759B CN110166759B (zh) 2021-10-15

Family

ID=67644977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810523698.3A Active CN110166759B (zh) 2018-05-28 2018-05-28 图像的处理方法和装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN110166759B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353964A (zh) * 2020-02-26 2020-06-30 福州大学 基于卷积神经网络的结构一致立体图像风格迁移方法
CN112383765A (zh) * 2020-11-10 2021-02-19 中移雄安信息通信科技有限公司 一种vr图像传输方法及装置
CN113269223A (zh) * 2021-03-16 2021-08-17 重庆市地理信息和遥感应用中心 一种基于空间文化模因分析的城市风格分类方法
CN116228985A (zh) * 2023-03-17 2023-06-06 合肥泰瑞数创科技有限公司 基于多维图像编码的建筑物室内语义模型的构建方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130136337A1 (en) * 2011-11-30 2013-05-30 Adobe Systems Incorporated Methods and Apparatus for Coherent Manipulation and Stylization of Stereoscopic Images
CN105100769A (zh) * 2014-05-05 2015-11-25 浙江大学 一种视觉特效图像或视频对及其生成方法和装置
CN105227837A (zh) * 2015-09-24 2016-01-06 努比亚技术有限公司 一种图像合成方法和装置
CN107392842A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 图像风格化处理方法、装置、计算设备及计算机存储介质
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法
CN110049303A (zh) * 2018-01-15 2019-07-23 微软技术许可有限责任公司 立体图像的视觉风格化

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130136337A1 (en) * 2011-11-30 2013-05-30 Adobe Systems Incorporated Methods and Apparatus for Coherent Manipulation and Stylization of Stereoscopic Images
CN105100769A (zh) * 2014-05-05 2015-11-25 浙江大学 一种视觉特效图像或视频对及其生成方法和装置
CN105227837A (zh) * 2015-09-24 2016-01-06 努比亚技术有限公司 一种图像合成方法和装置
CN107392842A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 图像风格化处理方法、装置、计算设备及计算机存储介质
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法
CN110049303A (zh) * 2018-01-15 2019-07-23 微软技术许可有限责任公司 立体图像的视觉风格化

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353964A (zh) * 2020-02-26 2020-06-30 福州大学 基于卷积神经网络的结构一致立体图像风格迁移方法
CN111353964B (zh) * 2020-02-26 2022-07-08 福州大学 基于卷积神经网络的结构一致立体图像风格迁移方法
CN112383765A (zh) * 2020-11-10 2021-02-19 中移雄安信息通信科技有限公司 一种vr图像传输方法及装置
CN113269223A (zh) * 2021-03-16 2021-08-17 重庆市地理信息和遥感应用中心 一种基于空间文化模因分析的城市风格分类方法
CN113269223B (zh) * 2021-03-16 2022-04-22 重庆市地理信息和遥感应用中心 一种基于空间文化模因分析的城市风格分类方法
CN116228985A (zh) * 2023-03-17 2023-06-06 合肥泰瑞数创科技有限公司 基于多维图像编码的建筑物室内语义模型的构建方法及系统
CN116228985B (zh) * 2023-03-17 2023-10-20 合肥泰瑞数创科技有限公司 基于多维图像编码的建筑物室内语义模型的构建方法及系统

Also Published As

Publication number Publication date
CN110166759B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN110166759A (zh) 图像的处理方法和装置、存储介质、电子装置
CN109086683B (zh) 一种基于点云语义增强的人手姿态回归方法和系统
WO2019174378A1 (zh) 一种基于深度预测和增强子网络的高质量深度估计方法
CN105229697B (zh) 多模态前景背景分割
CN110120049B (zh) 由单张图像联合估计场景深度与语义的方法
CN108701359A (zh) 跨越具有对应深度图的视频帧跟踪兴趣区域
CN113906478A (zh) 新颖的姿态合成
CN107103645B (zh) 虚拟现实媒体文件生成方法及装置
CN112543317A (zh) 高分辨率单目2d视频到双目3d视频的转制方法
CN109993824A (zh) 图像处理方法、智能终端及具有存储功能的装置
CN110378250A (zh) 用于场景认知的神经网络的训练方法、装置及终端设备
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN112492231B (zh) 远程交互方法、装置、电子设备和计算机可读存储介质
CN110149551A (zh) 媒体文件播放方法和装置、存储介质及电子装置
CN113628326A (zh) 多视角三维重建方法、装置、电子设备和可读存储介质
CN114612832A (zh) 一种实时手势检测方法及装置
CN116958534A (zh) 一种图像处理方法、图像处理模型的训练方法和相关装置
CN113344794B (zh) 一种图像处理方法、装置、计算机设备及存储介质
Abuowaida et al. Improved deep learning architecture for depth estimation from single image
CN116797768A (zh) 全景图像减少现实的方法和装置
Li et al. Sat2vid: Street-view panoramic video synthesis from a single satellite image
CN112990370B (zh) 图像数据的处理方法和装置、存储介质及电子设备
EP4176409A1 (en) Full skeletal 3d pose recovery from monocular camera
CN113362409A (zh) 图像上色及其模型训练方法、装置、电子设备、存储介质
CN112529975A (zh) 图像生成的方法、装置以及计算机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant