CN107274381A

CN107274381A - 一种基于双识别流卷积网络的动态纹理合成方法

Info

Publication number: CN107274381A
Application number: CN201710597785.9A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2017-10-20

Abstract

本发明提出了一种基于双识别流卷积网络的动态纹理合成方法，其主要内容包括：纹理模型中表观流的设计、纹理模型中动态流的设计、新纹理的产生、动态纹理的合成、纹理风格的转换，其过程为，基于预训练卷积网络(ConvNet)完成目标识别与光流预测这两个任务，并在给定动态纹理输入后从目标识别卷积网络响应的过滤器数据封装了输入纹理的每一帧表观，此时从光流卷积网络响应的滤波器数据则对输入纹理的动态进行建模。为了产生新纹理，需要优化噪声输入序列来匹配输入纹理中每个识别流的特征，也可以将一个纹理的表观与另一个纹理的动态相结合以产生全新的动态纹理。这种方法可以产生与输入纹理的逐像素表观与时变情况相匹配的高质量样本。

Description

一种基于双识别流卷积网络的动态纹理合成方法

技术领域

本发明涉及计算机图形学中里的动态纹理合成技术领域，尤其是涉及了一种基于双识别流卷积网络的动态纹理合成方法。

背景技术

动态纹理是指描述某种动态景观的具有时间相关重复特征的图像序列，它们在自然界中广泛存在，比如海浪、瀑布、飘扬的旗帜、飞翔的鸟群等等。国内外许多学者应用基于物理模型的仿真方法在动态纹理合成方面做了大量的工作，对某些现象的合成取得了很好的效果。基于物理模型仿真的合成方法通过分析特定现象的物理规律，建立简化的物理模型，进行光照计算绘制而成。由于动态景观的复杂性，这些物理模型具有难以构建，计算复杂和只适用于特定的现象的特点。动态纹理总是和描述它的动态系统同时存在，只要模型能力允许，动态纹理可以是任意长度的、实时输出的，这一点对于动态的纹理的应用具有重要的意义。此外，可以利用动态纹理合成技术进行纹理填充(如修补破损的图片，重现原有图片效果)，纹理传输，扩展到时域则可以用一短段视频图像，生成任意长度的非重复的视频动画等。所以动态纹理合成技术在图像编辑、数据压缩、网络数据的快速传输、大规模场景的生成以及真实感和非真实感绘制等方面具有广泛的应用前景。

本发明提出了一种基于双识别流卷积网络的动态纹理合成方法，其主要内容包括：纹理模型中表观流的设计、纹理模型中动态流的设计、新纹理的产生、动态纹理的合成、纹理风格的转换，其过程为，基于预训练卷积网络(ConvNet)完成目标识别与光流预测这两个独立任务，并在给定动态纹理输入后从目标识别卷积网络响应的过滤器数据封装了输入纹理的每一帧表观，此时从光流卷积网络响应的滤波器数据则对输入纹理的动态进行建模。为了产生新纹理，需要优化噪声输入序列来匹配输入纹理中每个识别流的特征，也可以将一个纹理的表观与另一个纹理的动态相结合以产生全新的动态纹理。这种方法可以产生与输入纹理的逐像素表观与时变情况相匹配的高质量样本。

发明内容

针对本发明提出的基于双识别流卷积网络的动态纹理合成方法，其基于预训练卷积网络(ConvNet)完成目标识别与光流预测这两个独立任务，并在给定动态纹理输入后从目标识别卷积网络响应的过滤器数据封装了输入纹理的每一帧表观，此时从光流卷积网络响应的滤波器数据则对输入纹理的动态进行建模。为了产生新纹理，需要优化噪声输入序列来匹配输入纹理中每个识别流的特征，也可以将一个纹理的表观与另一个纹理的动态相结合以产生全新的动态纹理。这种方法可以产生与输入纹理的逐像素表观与时变情况相匹配的高质量样本。

为解决上述问题，本发明提供一种基于双识别流卷积网络的动态纹理合成方法，其主要内容包括：

(一)纹理模型中表观流的设计；

(二)纹理模型中动态流的设计；

(三)新纹理的产生；

(四)动态纹理的合成；

(五)纹理风格的转换。

其中，所述的纹理模型中表观流的设计，双识别流中的表观流基于空间纹理模型，通过在目标识别任务中训练卷积网络里不同级别的特征相互关系来捕获纹理表观，为了捕获输入动态纹理的表观，需要先通过卷积网络执行图像序列中每一帧的前向传递并计算出在网络中每一级的特征激活其中N_l代表滤波器的数量而M_l则代表在时间t时层l的空间位置，这里在特定层中滤波器响应的相互关系基于图像的帧进行平均计算并用Gram矩阵进行封装，其中入口由来给定，其中T代表输入帧的数量而代表在目标图像帧t时层l中在位置k处特征i的激活数据，而合成的纹理表观与Gram矩阵所表示的相类似，这里激活数据由所给出，其中代表在合成图像帧t时层l中在位置k处特征i的激活数据，然后将表观误差定义为输入纹理的Gram矩阵与在输入纹理的每一帧上所计算的新产生的纹理之间的均方误差的时间平均值，这里如等式(1)所示：

其中L_app为用于计算出Gram矩阵的网络层数量，T_out为输出纹理的帧数，||·||_F为Frobenius范数，然后使用该等式在不同层上计算出Gram矩阵的结果。

进一步地，所述的纹理模型中动态流的设计，模型中网络的激活数据必须能表示输入模式的时间变化，且表观流所表征的激活数据应该与图像本身的表观在很大程度上是一致的，最后纹理模型的表示必须是可区分的以便后续能进行纹理合成，这里通过使用与表观流类似的方法，需要选择适用于计算光流的自然可区分的卷积网络架构，然而对于大多数纹理模型都不清楚它们的网络层对于表观来说是如何不变的，因此提出一种基于时空导向能量模型的新型网络架构。

进一步地，所述的基于时空导向能量模型的网络架构，在运动能量模型中图像中的运动速度解释为x-y-t时空域中的三维方向，且在频域中正在平移图像的信号能量可以在一个通过原点的平面上显示出来，其中平面的倾斜程度由图像的移动速度来定义，因此运动能量模型是通过一组图像滤波操作来识别出平面的取向以及图像的移动速度，且对于包括平移与动态的纹理在内的一般视觉模式的频谱来说其构建的时空取向可以作为描述图像序列随时间变化情况的基础；这里先给出输入时空的大小，然后应用一组对时空取向敏感的三维滤波器到其中，而滤波器的激活数据会在局部区域上进行修正与池化来保证滤波器响应对于输入信号的鲁棒性，即对于底层图像结构与滤波器的校准的鲁棒性，然后就将与类似时空取向一致的滤波器的激活数据进行求和，这些滤波器响应提供了输入纹理在频域平面上时空取向的逐像素分布测量情况，然而这些滤波器响应会因为局部图像对比而导致混淆，所以难以确定高响应值是由于时空取向的存在还是由于较高的图像对比度；为解决这里模糊性的问题，需要在时空取向这里应用范数L₁从而使对于局部表观的表示具有鲁棒性且对于时空取向具有高度的可选择性。

进一步地，所述的完全卷积网络架构，卷积网络输入是一对灰度值图像且首先会被标准化为具有零均值与单位方差，而这一步骤提供了图像整体亮度与对比度的不变性水平，即全局的加法与乘法信号的变化，这里网络的第一层由大小为11×11×2的32个三维时空卷积滤波器组成，然后应用一个平方激活函数与5×5的空间最大池化来保证滤波器响应对于局部信号相位的鲁棒性，随后一个具有64个滤波器的大小为1×1的卷积层用来进行与相同取向一致的能量测量的结合，最后为了去除对局部图像对比度的依赖，需要用L₁来进行局部做除，而为了捕获这些超过了在初始层中使用的有限接受域的时空取向，需要计算出一个每级之间由两倍下降采样组成的五级空间金字塔，这里多分辨率结果基于同样的时空导向能量模型进行独立处理，并对原始分辨率进行双线性化上升采样然后将结果进行级联，这里需要选择对该人工过滤器权重进行学习以便更好地调整自然图像。

进一步地，所述的网络训练方法，为训练网络需要增加额外的解码层并使用级联分布式表示，其中包括有64个滤波器的3×3卷积，修正线性单元(ReLU)和包含64个滤波器的1×1卷积，最后是一个双通道输出直接进行光流的编码，还需要使用预测流和真实流之间的标准平均端点误差(aEPE)流标准，即L₂范数来作为误差值用于训练网络，且由于不存在大规模的流数据库使用真实流捕获自然图像，需要采用未标记的视频数据库并应用现有的流估计器来估计训练光流，而对于训练数据则使用来自数据库的视频随机进行90度旋转来进行数据增强以及aEPE的误差优化。进一步地，所述的数据收集，通过记录从图像出现开始直到标注者进行点击的时间作为标注时间，并以此体现标注者的标注效率；通过记录标注者的所点击点与实际边界框中心的距离来测得误差距离，并以此体现标注者的标注准确度；最后是通过记录标注者每标注一批图像所需支付的金额来体现总体的标注成本。

进一步地，所述的动态流设计方法，在动态流的特定层中滤波器响应的相互关系基于图像的帧数进行平均计算并用Gram矩阵进行封装，这里入口由来给定，其中代表在目标图像帧t与t+1时层l中于位置k处特征i的激活数据，而合成纹理的动态由Gram矩阵对每一对图像帧进行特征激活数据相互关系计算来表示，这里入口由所给出，其中代表在合成图像帧在t与t+1时层l中在位置k处特征i的激活数据，然后将动态误差定义为输入纹理的Gram矩阵与新产生纹理之间的均方误差平均值，如等式(2)所示：

其中L_dyn是在动态流中使用的卷积网络层的数量。

进一步地，所述的新纹理的产生，整体的动态纹理误差由等式(1)中的表观误差值与等式(2)中的动态误差值相结合，如等式(3)所示：

其中α和β分别是表观和动态内容的权重因子，而这里动态纹理被隐形的定义为这种误差的局部最小值，且纹理通过对关于时空体积的等式(3)进行优化来产生，其中所生成纹理的变化情况通过使用高斯噪声来初始化优化过程，而随着动态纹理时间范围的增长前面所述方法的初步应用会使得消耗的存储器越来越多，这样生成更长的序列就变得不切实际，故需要通过增加序列的长度来逐渐产生更长的图像序列，并且这里仅对序列中最近的帧进行优化，且这里序列的第一帧是直接产生的，而随后的图像帧则通过将它们的初始帧固定为先前批次的最后一个合成帧来以小批量的形式生成；这种方法确保了合成纹理的批次之间的时间一致性，并且可以被看作一种针对生成完整序列目标的坐标下降法的优化形式；这种框架的灵活性允许通过改变帧的初始化还有控制所需要更新的帧来解决其他的纹理生成问题。

进一步地，所述的动态纹理的合成，将动态纹理合成方法应用于数据库中的纹理，其中包含了如流水、波浪、云、火、旗帜、水生植物和鱼类等一系列现象，这里双识别流纹理合成方法产生了具有吸引力的动态纹理，此外还包括递增生成的序列，而在这些序列中没有观察到明显的时间不连续性，所生成的纹理在第一帧与最后一帧之间没有可辨别的时间间隙，作为循环来看的话这些纹理看起来在时间上是没有尽头的，这一点可以通过将额外误差加到最后一帧和第一帧连在一起的动态流上来实现。

进一步地，所述的纹理风格的转换，纹理模型的基本假设是纹理的表观与动态是可以分解的，这样就允许将一个纹理的动态转移到另一个纹理的表观上，而通过执行上述的优化方法来完成模型，但是这里使用从不同纹理计算出表观和动态的目标Gram矩阵，而当执行动态风格转移的时候，表观结构在规模和语义上的相似是很重要的，否则所生成的动态纹理将会不自然，比如将火焰的纹理动态转移到水景中通常是无效的，且由于针对表观误差的目标Gram矩阵可以在单个的帧上完成计算，这里也将纹理的动态应用到静态输入图像中去，这使得静态图像的区域可以有效地进行动画化。

附图说明

图1是本发明一种基于双识别流卷积网络的动态纹理合成方法的系统框架图。

图2是本发明一种基于双识别流卷积网络的动态纹理合成方法的双识别流动态纹理生成流程图。

图3是本发明一种基于双识别流卷积网络的动态纹理合成方法的动态流卷积网络图示。

图4是本发明一种基于双识别流卷积网络的动态纹理合成方法的动态纹理合成与纹理合成的对比示例图。

图5是本发明一种基于双识别流卷积网络的动态纹理合成方法的动态纹理合成示例图。

图6是本发明一种基于双识别流卷积网络的动态纹理合成方法的动态纹理合成失败情况的示例图。

图7是本发明一种基于双识别流卷积网络的动态纹理合成方法的纹理风格转换示例图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于双识别流卷积网络的动态纹理合成方法的系统框架图。主要包括纹理模型中表观流的设计、纹理模型中动态流的设计、新纹理的产生、动态纹理的合成、纹理风格的转换。

其中L_dyn是在动态流中使用的卷积网络层的数量。

进一步地，所述的纹理风格的转换，纹理模型的基本假设是纹理的表观与动态是可以分解的，这样就允许将一个纹理的动态转移到另一个纹理的表观上，而通过执行上述的优化方法来完成模型，但是这里使用从不同纹理计算出表观和动态的目标Gram矩阵，而当执行动态风格转移的时候，表观结构在规模和语义上的相似是很重要的，否则所生成的动态纹理将会不自然，比如将火焰的纹理动态转移到水景中通常是无效的，且由于对于表观误差的目标Gram矩阵可以在单个的帧上完成计算，这里也将纹理的动态应用到静态输入图像中去，这使得静态图像的区域可以有效地进行动画化。

图2是本发明一种基于双识别流卷积网络的动态纹理合成方法的双识别流动态纹理生成流程图。图中独立的Gram矩阵集代表了纹理的表观和动态，这里将统计数据连接在一起就可以在不同纹理间转换风格并生成新的纹理。

图3是本发明一种基于双识别流卷积网络的动态纹理合成方法的动态流卷积网络图示。图中的卷积网络基于时空导向能量模型并被训练来进行光流预测，这里仅用三个不同的范围显示在图中用于解释，而实际上需要使用5个不同的范围。

图4是本发明一种基于双识别流卷积网络的动态纹理合成方法的动态纹理合成与纹理合成的对比示例图。图中第一行图片是原始纹理，中间的图片是未加入动态限制的纹理合成结果，底下的图片则是同时加入表观流和动态流的纹理合成结果，每一行图片都不同时刻的图像帧。

图5是本发明一种基于双识别流卷积网络的动态纹理合成方法的动态纹理合成示例图。图中包含火焰、岩浆、烟雾、水下植被以及海水等纹理的合成结果。

图6是本发明一种基于双识别流卷积网络的动态纹理合成方法的动态纹理合成失败情况的示例图。图中原始纹理的表观或动态是不对称的从而导致动态纹理合成失败。

图7是本发明一种基于双识别流卷积网络的动态纹理合成方法的纹理风格转换示例图。图中左边是原始纹理的表观对象，右边是动态纹理合成的输出，这些输出图像一帧一帧播放就可以形成动画。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于双识别流卷积网络的动态纹理合成方法，其特征在于，主要包括纹理模型中表观流的设计(一)；纹理模型中动态流的设计(二)；新纹理的产生(三)；动态纹理的合成(四)；纹理风格的转换(五)。

2.基于权利要求书1所述的纹理模型中表观流的设计(一)，其特征在于，双识别流中的表观流基于空间纹理模型，通过在目标识别任务中训练卷积网络里不同级别的特征相互关系来捕获纹理表观，为了捕获输入动态纹理的表观，需要先通过卷积网络执行图像序列中每一帧的前向传递并计算出在网络中每一级的特征激活其中N_l代表滤波器的数量而M_l则代表在时间t时层l的空间位置，这里在特定层中滤波器响应的相互关系基于图像的帧进行平均计算并用Gram矩阵进行封装，其中入口由来给定，其中T代表输入帧的数量而代表在目标图像帧t时层l中在位置k处特征i的激活数据，而合成的纹理表观与Gram矩阵所表示的相类似，这里激活数据由所给出，其中代表在合成图像帧t时层l中在位置k处特征i的激活数据，然后将表观误差定义为输入纹理的Gram矩阵与在输入纹理的每一帧上所计算的新产生的纹理之间的均方误差的时间平均值，这里如等式(1)所示：

3.基于权利要求书1所述的纹理模型中动态流的设计(二)，其特征在于，模型中网络的激活数据必须能表示输入模式的时间变化，且表观流所表征的激活数据应该与图像本身的表观在很大程度上是一致的，最后纹理模型的表示必须是可区分的以便后续能进行纹理合成，这里通过使用与表观流类似的方法，需要选择适用于计算光流的自然可区分的卷积网络架构，然而对于大多数纹理模型都不清楚它们的网络层对于表观来说是如何不变的，因此提出一种基于时空导向能量模型的新型网络架构。

4.基于权利要求书3所述的基于时空导向能量模型的网络架构，其特征在于，在运动能量模型中图像中的运动速度解释为x-y-t时空域中的三维方向，且在频域中正在平移图像的信号能量可以在一个通过原点的平面上显示出来，其中平面的倾斜程度由图像的移动速度来定义，因此运动能量模型是通过一组图像滤波操作来识别出平面的取向以及图像的移动速度，且对于包括平移与动态的纹理在内的一般视觉模式的频谱来说其构建的时空取向可以作为描述图像序列随时间变化情况的基础；这里先给出输入时空的大小，然后应用一组对时空取向敏感的三维滤波器到其中，而滤波器的激活数据会在局部区域上进行修正与池化来保证滤波器响应对于输入信号的鲁棒性，即对于底层图像结构与滤波器的校准的鲁棒性，然后就将与类似时空取向一致的滤波器的激活数据进行求和，这些滤波器响应提供了输入纹理在频域平面上时空取向的逐像素分布测量情况，然而这些滤波器响应会因为局部图像对比而导致混淆，所以难以确定高响应值是由于时空取向的存在还是由于较高的图像对比度；为解决这里模糊性的问题，需要在时空取向这里应用范数L₁从而使对于局部表观的表示具有鲁棒性且对于时空取向具有高度的可选择性。

5.基于权利要求书3所述的完全卷积网络架构，其特征在于，卷积网络输入是一对灰度值图像且首先会被标准化为具有零均值与单位方差，而这一步骤提供了图像整体亮度与对比度的不变性水平，即全局的加法与乘法信号的变化，这里网络的第一层由大小为11×11×2的32个三维时空卷积滤波器组成，然后应用一个平方激活函数与5×5的空间最大池化来保证滤波器响应对于局部信号相位的鲁棒性，随后一个具有64个滤波器的大小为1×1的卷积层用来进行与相同取向一致的能量测量的结合，最后为了去除对局部图像对比度的依赖，需要用L₁来进行局部做除，而为了捕获这些超过了在初始层中使用的有限接受域的时空取向，需要计算出一个每级之间由两倍下降采样组成的五级空间金字塔，这里多分辨率结果基于同样的时空导向能量模型进行独立处理，并对原始分辨率进行双线性化上升采样然后将结果进行级联，这里需要选择对该人工过滤器权重进行学习以便更好地调整自然图像。

6.基于权利要求书3所述的网络训练方法，其特征在于，为训练网络需要增加额外的解码层并使用级联分布式表示，其中包括有64个滤波器的3×3卷积，修正线性单元(ReLU)和包含64个滤波器的1×1卷积，最后是一个双通道输出直接进行光流的编码，还需要使用预测流和真实流之间的标准平均端点误差(aEPE)流标准，即L₂范数来作为误差值用于训练网络，且由于不存在大规模的流数据库使用真实流捕获自然图像，需要采用未标记的视频数据库并应用现有的流估计器来估计训练光流，而对于训练数据则使用来自数据库的视频随机进行90度旋转来进行数据增强以及aEPE的误差优化。

7.基于权利要求书3所述的动态流设计方法，其特征在于，在动态流的特定层中滤波器响应的相互关系基于图像的帧数进行平均计算并用Gram矩阵进行封装，这里入口由来给定，其中代表在目标图像帧t与t+1时层l中于位置k处特征i的激活数据，而合成纹理的动态由Gram矩阵对每一对图像帧进行特征激活数据相互关系计算来表示，这里入口由所给出，其中代表在合成图像帧在t与t+1时层l中在位置k处特征i的激活数据，然后将动态误差定义为输入纹理的Gram矩阵与新产生纹理之间的均方误差平均值，如等式(2)所示：

其中L_dyn是在动态流中使用的卷积网络层的数量。

8.基于权利要求书1所述的新纹理的产生(三)，其特征在于，整体的动态纹理误差由等式(1)中的表观误差值与等式(2)中的动态误差值相结合，如等式(3)所示：

9.基于权利要求书1所述的动态纹理的合成(四)，其特征在于，将动态纹理合成方法应用于数据库中的纹理，其中包含了如流水、波浪、云、火、旗帜、水生植物和鱼类等一系列现象，这里双识别流纹理合成方法产生了具有吸引力的动态纹理，此外还包括递增生成的序列，而在这些序列中没有观察到明显的时间不连续性，所生成的纹理在第一帧与最后一帧之间没有可辨别的时间间隙，作为循环来看的话这些纹理看起来在时间上是没有尽头的，这一点可以通过将额外误差加到最后一帧和第一帧连在一起的动态流上来实现。

10.基于权利要求书1所述的纹理风格的转换(五)，其特征在于，纹理模型的基本假设是纹理的表观与动态是可以分解的，这样就允许将一个纹理的动态转移到另一个纹理的表观上，而通过执行上述的优化方法来完成模型，但是这里使用从不同纹理计算出表观和动态的目标Gram矩阵，而当执行动态风格转移的时候，表观结构在规模和语义上的相似是很重要的，否则所生成的动态纹理将会不自然，比如将火焰的纹理动态转移到水景中通常是无效的，且由于针对表观误差的目标Gram矩阵可以在单个的帧上完成计算，这里也将纹理的动态应用到静态输入图像中去，这使得静态图像的区域可以有效地进行动画化。