CN109978021A - 一种基于文本不同特征空间的双流式视频生成方法 - Google Patents
一种基于文本不同特征空间的双流式视频生成方法 Download PDFInfo
- Publication number
- CN109978021A CN109978021A CN201910172420.0A CN201910172420A CN109978021A CN 109978021 A CN109978021 A CN 109978021A CN 201910172420 A CN201910172420 A CN 201910172420A CN 109978021 A CN109978021 A CN 109978021A
- Authority
- CN
- China
- Prior art keywords
- text
- video
- double
- feature
- current method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 24
- 239000010410 layer Substances 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 15
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 12
- 230000003068 static effect Effects 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 11
- 230000009977 dual effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 239000002356 single layer Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000003475 lamination Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- 239000012530 fluid Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 206010054949 Metaplasia Diseases 0.000 claims 1
- 230000008859 change Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 claims 1
- 230000015689 metaplastic ossification Effects 0.000 claims 1
- 239000000463 material Substances 0.000 abstract description 2
- 238000009825 accumulation Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公布了一种基于文本不同特征空间的双流式视频生成方法,包括:文本特征提取过程、双流式视频生成过程和对抗性训练过程。本发明对解析了输入的文本内容,并利用关注机制得到的特征信息进行了分离,分别提取了外观特征空间与运动特征空间的信息;采用双流式视频生成方式,最大化地利用单一模型对指定特征的学习能力;使用对抗性训练过程,从每一帧的质量和整体运动的连贯性两方面来指导和训练模型,同时加入文本特征来强化训练过程,使得生成的视频可以符合输入文本描述,实现生成的准确性。本发明方法能够实现智能化生成,在素材积累和数据集自动生成方面具有广泛的市场需求和应用前景。
Description
技术领域
本发明涉及模式识别、自然语言处理、计算机视觉等技术领域,尤其涉及一种基于文本不同特征空间的视频生成方法,根据文本中所描述的物体外观特征空间与其相应的运动特征空间,智能化生成符合文本内容的视频片段。
背景技术
近年来,随着计算机视觉领域的飞速发展和生成对抗网络的提出,图像生成的研究受到了越来越广泛的关注,其在素材积累,数据集自动生成方面有非常积极的意义。视频相比于图像它更加生动,生成难度也更大,因此对于视频生成方面的探索更加有研究意义。同时,如果与大多数的图像生成方法一样随机地生成视频并不具有太多实用价值,用户更多地会想要基于某种给定信息来生成,比如,用户输入“一个人在走路”,期望得到与所输入文本相匹配的视频片段,而不是一些随机的、无意义的视频。如此看来,传统的生成方法已经不能满足用户对于生成结果指向性的、匹配性的要求。基于文本的视频生成面临的挑战主要是如何有效地理解文本内容(“什么物体在进行着怎么样的运动”),并且生成结果要保证其每一帧的生成质量和整个视频在时序上动作的连贯性。
现有的方法大多对整个文本进行统一地处理,对提取到的特征直接生成整个视频片段,但是,这样的处理高估了单一模型的学习能力,不仅需要学习空间特征(外观信息),还要学习时序特征(运动信息),使得模型对于两种特征都不能充分地理解,难以有效地进行高质量的生成。
发明内容
本发明提供了一种基于文本不同特征空间的双流式视频生成方法,根据文本中所描述的物体外观特征空间与其相应的运动特征空间,通过分离文本中所包含的空间特征和时序特征,并采用双流的方式分别对这些特征建模,利用对抗训练的方式来指导生成过程和优化生成结果,使其逐渐趋于真实,从而实现智能化生成符合文本内容的视频片段。本发明还通过在简单物体运动视频数据库中验证了本发明方法的有效性。
本发明的技术方案是:
一种基于文本不同特征空间的双流视频生成方法,通过分离文本中所包含的空间特征和时序特征,并采用双流的方式分别对这些特征建模,并利用对抗训练的方式进行训练,实现智能化生成符合文本内容的真实高的视频片段;包括:文本特征提取过程、双流式视频生成过程和对抗性训练过程。
1)文本特征提取过程;
本发明解析了输入的文本内容,对得到的特征信息进行了分离,分别提取了外观特征空间与运动特征空间的信息。
需要注意的是,为了确保输入后续视频生成过程的文本特征是有意义的,文本特征提取过程要经过提前训练,并在后续其他模块的训练过程中保持不变。
文本特征提取过程具体包括如下步骤:
11)提取得到文本的外观特征Ta和运动特征Tm;
对输入的文本,采用双向的长短期记忆网络(bidirectional long short-termmemory,LSTM)实现对文本特征的映射,同时引入了注意力关注机制(attentionmechanism)结构进行外观特征和运动特征的分离。
具体操作如下:
111)双向长短期记忆网络分为上下两层,分别对文本做一个正序和逆序的解析,可以得到更全面的理解。文本中的每一个词依次输入长短期记忆网络的每个时间节点(time step),每个时间节点处的维度为256维,提取到的特征分别表示为正序文本特征Tx={tx1,tx2,…,txn}和逆序文本特征Ty={ty1,ty2,…,tyn},n表示文本的长度,然后通过取均值的方式得到需要的文本特征T={t1,t2,…,tn},表示为式1:
T=(Tx+Ty)/2 (式1)
其中Tx+Ty采用的是向量加法。
112)在注意关注机制结构中,文本特征T经过两组并行的全连接网络(fully-connected),全连接网络的最后一层使用softmax激活函数,得到两组权重wa={wa1,wa2,…,wan}和wb={wb1,wb2,…,wbn},并且满足和分别用于提取外观特征和运动特征。以外观特征的提取为例,其计算过程可以表示为式2:
权重中每个值wai代表了对文本中不同位置特征的关注程度,值越大代表其对于外观特征的描述更多,通过加权和的方式可得到“关注”后的特征。同理,文本特征中包含的运动特征Tm也可以采用这种方式来进行提取。
12)对提取的外观特征Ta和运动特征Tm,需要在数据集中选择正负样本,同时引入三元组损失(triplet loss),实现文本特征准确的分离。
具体操作如下:
121)在训练提取外观特征过程中,定义三元组Φa=(Ta,G+,G-),其中Ta为参照用外观特征,G+为正样本,是包含符合文本描述的物体的视频帧,G-为负样本,是包含文本描述不同的物体的视频帧。此时关注的是外观特征,只需要物体类型符合文本描述即可,使用的仅是视频中的一帧。对选取的视频帧,使用2D卷积神经网络(2D convolution neuralnetwork)来提取其空间特征(spatial feature),并在最后利用一个单层全连接网络结构将其映射到Ta的同构空间,为后续的图文匹配做准备。使用L2范数计算的不同模态数据间距离,表示为式3:
其中表示同构空间内图像与文本之间的欧式距离。
以外观特征Ta为参照物,引入三元组约束(triplet constraint)调整文本分布,即拉近匹配的文本图像对(Ta,G+)的距离,同时增加不匹配的文本图像对(Ta,G-)的距离,确保分离出的外观特征是准确的、有意义的。外观特征的三元组损失可以表示为式4:
其中α为超参数,表示文本特征与正负样本间距离之差的最大值。
122)相似地,在训练提取动作特征过程中,选取包含符合文本描述的运动的视频V+,此时关注的是运动特征,需要使用整个视频,但视频中包含的物体类型可以忽略。对选取的视频帧,使用3D卷积神经网络(3D convolution neural network)来提取其时序特征(temporal feature),并在最后利用一个单层全连接网络结构将其映射到Tm的同构空间。
同样的,通过构建三元组Φm=(Tm,V+,V-)和采用式4所示的损失函数计算拉近匹配的文本视频对(Tm,V+)的距离,增加不匹配的文本视频对(Tm,V-)的距离。
文本特征提取过程的目标函数L由外观特征的三元组损失与运动特征的三元组损失组成,可以表示为式5:
2)双流式视频生成器的构建过程
本发明引入双流式视频生成器来生成视频,先利用提取的外观特征Ta生成一张静态图(static image),再将学习到的运动特征Tm作用于这张图上来衍生出后续的视频帧,即以一种“先静后动”的方式来生成视频。
执行如下操作:
21)对外观特征Ta,先利用一个单层全连接网络结构将其映射到4*4*1024维度,并维度重组为(4,4,1024),再通过2D反卷积神经网络(2D deconvolution neural network)来生成静态图F。其中,2D反卷积神经网络由5层反卷积层组成,每层反卷积层的感受野大小为4*4,步长为2,最终输出的图像大小为64*64.同时为了对同样的文本生成更多样性的视频,引入一个随机变量Z,该随机变量从高斯分布采样,使得生成的静态图中的物体可以有略微不同的外观和不同的初始位置。
22)对运动特征Tm,采取的方式是利用其来学习仿射变换(affine transform)的参数,单一的仿射变换有六个参数,表示为矩阵其变换过程可以表示为式6:
其中(xk,yk)为变换前某一点的坐标,(x′k,y′k)为变换后对应的坐标。单一的仿射只能实现平移、缩放、旋转、翻转等操作,为了对复杂的运动建模,需要使用K组仿射变换参数分别作用于上述静态图F,来得到K张变换后的图F′={f1′,f2′,…,fK′},再通过将这K张变换图组合起来得到后续的一帧。假定需要生成长度为L的视频片段,则共需要L*K*6个仿射变换参数,本发明中将运动特征Tm通过一个双层的全连接网络映射为指定维度的参数。
在将K张变换后的图F′={f1′,f2′,…,fK′}组合在一起的过程中,需要评估在每个坐标位置上每张变换图的置信度,置信度越高说明在该位置上该变换图越接近真实的视频帧,通过引入掩码(mask)来实现置信度的自动评估。掩码的生成需要结合外观特征Ta、运动特征Tm和随机变量Z,在有初始状态以及运动趋势等信息的指导下才能更好地生成掩码。在将这些特征信息拼接后,经过一个3D反卷积神经网络(3D deconvolution neuralnetwork)来生成掩码M={m1,m2,…,mK},网络的最后一层使用softmax激活函数对每一个坐标位置(i,j)上的置信度进行归一化,即满足变换图的结合过程可以表示为式7:
其中Fnext为生成的下一帧图像。
通过上述过程构建得到双流式视频生成器。
3)对抗性训练过程,通过交替训练双流式视频生成器和辨别器进行优化,得到最优化的生成器,使得生成的视频内容趋于真实;
本发明使用对抗性训练过程,对抗性训练利用零和博弈的思想,通过交替训练生成器和辨别器的方式同时提高两者的性能,然后取用训练好的生成器来完成文本到视频的生成任务。本发明具体采用文献[2](Pan Y,Qiu Z,Yao T,et al.To Create What YouTell:Generating Videos from Captions[J].2018.)中记载的两个辨别器:帧辨别器和视频辨别器,分别从每一帧的质量和整体运动的连贯性两方面来指导和训练模型,同时加入文本特征来强化训练过程,使得生成的视频可以符合输入文本描述,实现生成的准确性。
执行操作如下:
31)使用帧辨别器(frame-level discriminator)的方法,帧辨别器是四层的2D卷积神经网络结构;对生成的视频中的每一帧和作为参照的真实的视频 中的每一帧加入正负样本的文本外观特征与组成真实图文对不匹配图文对以及生成图文对传统的辨别器只能缩小真实数据分布与预测分布的误差,加入文本特征强化训练可以进一步拉近与预测的图像数据分布与真实且外观符合描述的图像数据分布之间的距离,实现生成的准确性,其损失函数表达式为式8:
其中,N是一次迭代中数据的数目,ck为真实数据的类别,和为帧辨别器对不同图文对的类别预测。帧辨别器的目标函数整体可以表示为式9:
其中l为生成视频的长度。
与之相对的,上述双流式视频生成器的优化目标之一为在假定帧辨别器的预测类别为真实数据类别的前提下使得生成的图像数据分布与真实且外观匹配的图像数据分布尽可能相似,优化函数表达式为式10:
32)使用视频辨别器(video-level discriminator)的方法,辨别器是四层的3D卷积神经网络结构;相似地,对生成的视频Vg和作为参照的真实的视频Vr,加入正负样本的文本运动特征与组成真实视频文本对不匹配的视频文本对以及生成视频文本对其作用是拉近预测的视频数据分布与真实且运动符合描述的视频数据分布之间的距离,其损失函数表达式为式11:
其中D(RV)、D(WV))和D(GV))为辨别器对不同视频文本对的类别预测,同样的,双流式视频生成器的另一个优化目标为在假定视频辨别器的预测类别为真实数据类别的前提下使得生成的视频数据分布与真实且运动匹配的视频数据分布尽可能相似,优化函数表达式为式12:
对抗训练中辨别器的目标函数由帧辨别器和视频辨别器的损失函数组成,可以表示为式13:
双流式视频生成器的目标函数同样也由两部分组成,可以表示为式14:
辨别器与生成器的目标函数交替训练,得到最优化的生成器,即可实现基于文本内容的视频生成。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于文本不同特征空间的双流式视频生成方法,根据文本中所描述的物体外观特征空间与其相应的运动特征空间,通过分离文本中所包含的空间特征和时序特征,并采用双流的方式分别对这些特征建模,利用对抗训练的方式来优化生成结果,使其逐渐趋于真实,从而实现智能化生成符合文本内容的视频片段。与现有技术相比,其技术优势体现在以下两方面:
(一)通过分离文本特征中的外观特征和动作特征,采用双流式的方式生成视频,避免了高估单一模型的能力,实现对文本特征的准确学习。
(二)通过对运动特征的单独建模,并采用一种“先静后动”的生成方式,模型自适应地可以保持时序一致性,即视频中物体运动的连贯性,而不需要如已有方法在对抗训练中添加额外的指导动作连贯性的辨别器。
附图说明
图1是本发明提供方法的流程框图。
图2是本发明实施例根据输入文本生成双流式视频的结果示例图;
其中,(a)-(j)的输入文本分别为:
(a)“The digit 0 is moving left and right.”;
(b)“The digit 1 is moving up and down.”;
(c)“The digit 2 is moving left and right.”;
(d)“The digit 3 is moving left and right.”;
(e)“The digit 4 is moving up and down.”;
(f)“The digit 5 is moving left and right.”;
(g)“The digit 6 is moving up and down.”;
(h)“The digit 7 is moving up and down.”;
(i)“The digit 8 is moving left and right.”;
(j)“The digit 9 is moving up and down.”。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供了一种基于文本不同特征空间的双流视频生成方法,通过分离文本中所包含的空间特征和时序特征,并采用双流的方式分别对这些特征建模,最大化对指定特征的学习能力,并利用对抗训练的方式来优化生成结果。
本发明提供的方法包括:文本特征提取过程、双流式视频生成过程和对抗性训练过程;图1所示是本发明提供方法的流程,具体步骤如下:
1、进行文本特征提取和分离,参见步骤11)-13)
11)利用双向长短时记忆网络,针对输入的文本,提取正序文本特征Tx={tx1,tx2,…,txn}和逆序文本特征Ty={ty1,ty2,…,tyn},n表示文本的长度,然后通过取均值的方式T=(Tx+Ty)/2得到需要的文本特征T={t1,t2,…,tn}。
12)引入注意力关注机制,学习两组权重wa={wa1,wa2,…,wan}和wb={wb1,wb2,…,wbn},并且满足和分别用于提取外观特征Ta和运动特征Tm。以外观特征为例,权重的学习网络是两组并行的全连接网络,全连接网络的最后一层使用softmax激活函数。
权重中每个值wai代表了对文本中不同位置特征的关注程度,值越大代表其对于外观特征的描述更多,通过加权和的方式可得到“关注”后的特征。
同理,文本特征中包含的运动特征Tm也可以采用这种方式来进行提取。
13)文本特征提取和分离的训练过程,以外观特征的提取为例,通过引入三元组约束(triplet constraint)调整文本分布,并且通过计算文本特征与图像特征在同构空间的欧式距离,即拉近匹配的文本图像对(Ta,G+)的距离,同时增加不匹配的文本图像对(Ta,G-)的距离,确保分离出的特征是准确的、有意义的。运动特征的提取过程与此相似,优化匹配的文本视频对(Tm,V+)的距离,增加不匹配的文本视频对(Tm,V-)的距离。
2、双流式视频生成过程,参见步骤21-22)
21)对外观特征Ta,先利用一个单层全连接网络结构将其映射到4*4*1024维度,再通过2D反卷积神经网络(2D deconvolution neural network)来生成静态图F。2D反卷积神经网络由5层反卷积层组成,每层反卷积层的感受野大小为4*4,步长为2.
为了对同样的文本生成更多样性的视频,引入一个随机变量Z,该随机变量从高斯分布采样,使得生成的静态图中的物体可以有略微不同的外观和不同的初始位置。
22)对运动特征Tm,学习仿射变换(affine transform)的参数来对运动规律建模,通过将这些参数运用到静态图F上得到一组变换图,再与掩码结合来生成视频。掩码的生成需要结合外观特征Ta、运动特征Tm和随机变量Z,经过一个3D反卷积神经网络来生成掩码,网络的最后一层使用softmax激活函数。
3、对抗性训练过程,参见如下步骤:
使用帧辨别器和视频辨别器,对生成的视频帧质量和视频的运动进行指导,并通过分别加入外观特征Ta和运动特征Tm强化训练过程,使生成的视频可以符合文本描述。辨别器与生成器的目标函数交替训练,得到最优化的生成器。
本发明实施主要是在文献[1](Xue T,Wu J,Bouman K L,et al.VisualDynamics:Probabilistic Future Frame Synthesis via Cross ConvolutionalNetworks[J].2016.)提供的Moving MNIST数据集上进行,并且通过与文献[2](Pan Y,QiuZ,Yao T,et al.To Create What You Tell:Generating Videos from Captions[J].2018.)记载的方法进行比较,图2是本实施例进行视频生成的结果示例图,通过图2可以看出,本发明可以准确地生成出符合文本描述的视频片段,采用本发明模型能够自适应地生成时序一致的视频片段,不需要在对抗训练中使用额外的运动辨别器来对其指导,这也是本发明优于现有方法的技术优势。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (10)
1.一种基于文本不同特征空间的双流式视频生成方法,通过分离文本中所包含的空间特征和时序特征,采用双流的方式进行特征建模,并利用对抗训练的方式进行训练,实现智能化生成符合文本内容的真实高的视频片段;包括:文本特征提取过程、双流式视频生成器构建过程和对抗性训练过程;
1)文本特征提取过程;执行如下操作:
11)提取得到文本的外观特征Ta和运动特征Tm;
12)对提取的外观特征Ta和运动特征Tm,在数据集中选择正负样本,同时引入三元组损失,准确分离文本特征;具体执行如下操作:
121)在训练提取外观特征过程中,定义三元组Φa=(Ta,G+,G-),其中Ta为参照用外观特征;G+为正样本,是包含符合文本描述的物体的视频帧;G-为负样本,是包含文本描述不同的物体的视频帧;外观特征只需物体类型符合文本描述;
使用视频中的一帧;对选取的视频帧,使用2D卷积神经网络提取视频空间特征,并利用一个单层全连接网络结构将视频空间特征映射到Ta的同构空间;使用L2范数计算不同模态数据间的距离,即同构空间内图像与文本之间的欧式距离
以外观特征Ta为参照物,引入外观特征的三元组损失调整文本分布,即拉近匹配的文本图像对(Ta,G+)的距离,同时增加不匹配的文本图像对(Ta,G-)的距离,确保分离出的外观特征准确;
122)在训练提取动作特征过程中,选取包含符合文本描述的运动的视频V+;使用整个视频,可忽略视频中包含的物体类型;
对选取的视频帧,使用3D卷积神经网络提取视频时序特征,并利用一个单层全连接网络结构将视频时序特征映射到Tm的同构空间;
同样的,通过构建三元组Φm=(Tm,V+,V-)并采用损失函数计算运动特征的三元组损失拉近匹配的文本视频对(Tm,V+)的距离,增加不匹配的文本视频对(Tm,V-)的距离;
文本特征提取过程的目标函数L由外观特征的三元组损失与运动特征的三元组损失组成;
2)双流式视频生成器的构建过程:执行如下操作:
21)利用提取的外观特征Ta,通过2D反卷积神经网络生成一张静态图;
22)利用运动特征Tm学习仿射变换的参数,作用于该静态图上,并通过掩码结合来衍生出后续的视频帧;
由此构建双流式视频生成器;
3)对抗性训练过程,通过交替训练双流式视频生成器和辨别器,通过分别加入外观特征Ta和运动特征Tm强化训练过程进行优化,得到最优化的生成器,使得生成的视频内容符合文本描述;
通过上述步骤,实现基于文本不同特征空间的双流式视频生成。
2.如权利要求1所述基于文本不同特征空间的双流式视频生成方法,其特征是,步骤11)具体执行如下操作:
111)对输入的文本,采用双向的长短期记忆网络实现对文本特征的映射,提取正序文本特征Tx={tx1,tx2,...,txn}和逆序文本特征Ty={ty1,ty2,...,tyn},n表示文本的长度;然后通过取均值的方式T=(Tx+Ty)/2得到需要的文本特征T={t1,t2,...,tn};
112)引入关注机制对不同类型的文本特征进行分离,得到外观特征Ta和运动特征Tm:
文本特征T分别通过两组全连接网络,网络最后一层使用softmax激活函数,分别学习两组权重wa={wa1,wa2,...,wan}和wb={wb1,wb2,...,wbn},并且满足和 由此提取得到外观特征Ta和运动特征Tm。
3.如权利要求2所述基于文本不同特征空间的双流式视频生成方法,其特征是,步骤111)双向长短期记忆网络分为上下两层,分别对文本进行正序和逆序的解析;文本中的每一个词依次输入双向长短期记忆网络的每个时间节点,每个时间节点处的维度为256维,提取到正序文本特征和逆序文本特征。
4.如权利要求2所述基于文本不同特征空间的双流式视频生成方法,其特征是,步骤112)中,外观特征Ta具体通过式2计算提取得到:
其中,每个权重值wai代表对文本中不同位置特征的关注程度。
5.如权利要求1所述基于文本不同特征空间的双流式视频生成方法,其特征是,步骤121)使用L2范数计算不同模态数据间距离,通过式3计算得到同构空间内图像与文本之间的欧式距离
外观特征的三元组损失具体通过式4计算得到:
其中,α为超参数,表示文本特征与正负样本间距离之差的最大值;
运动特征的三元组损失也采用式4表示的损失函数计算得到;
文本特征提取过程的目标函数L表示为式5。
6.如权利要求1所述基于文本不同特征空间的双流式视频生成方法,其特征是,步骤21)具体执行如下操作:
211)利用一个单层全连接网络结构,将外观特征Ta映射到4*4*1024维度,将维度重组为(4,4,1024);
212)再通过2D反卷积神经网络生成静态图;其中,2D反卷积神经网络由5层反卷积层组成,每层反卷积层的感受野大小为4*4,步长为2,输出的图像大小为64*64;
213)同时引入一个随机变量Z,该随机变量从高斯分布采样,使得生成的静态图中的物体可以有略微不同的外观和不同的初始位置,以使得对同样的文本生成更多样性的视频。
7.如权利要求1所述基于文本不同特征空间的双流式视频生成方法,其特征是,步骤22)利用运动特征Tm学习仿射变换的参数,具体执行如下操作:
221)单一的仿射变换包括六个参数,表示为矩阵变换过程表示为式6,用于实现平移、缩放、旋转、翻转操作:
其中,(xk,yk)为变换前某一点的坐标,(x′k,y′k)为变换后对应的坐标;
222)使用K组仿射变换参数分别作用于静态图,得到K张变换后的图F′={f1′,f2′,…,f′K},再通过将K张变换后的图组合起来,得到后续的一帧,以实现对复杂的运动建模。
8.如权利要求7所述基于文本不同特征空间的双流式视频生成方法,其特征是,步骤222)中,假定需要生成长度为L的视频片段,则共需要L*K*6个仿射变换参数,将运动特征Tm通过一个双层的全连接网络映射为指定维度的参数;在将K张变换后的图F′={f1′,f2′,…,f′K}组合在一起的过程中,评估在每个坐标位置上每张变换图的置信度;置信度越高说明在该位置上该变换图越接近真实的视频帧;
具体通过外观特征Ta、运动特征Tm和随机变量Z,在有初始状态及运动趋势信息的指导下,经过一个3D反卷积神经网络生成掩码M={m1,m2,…,mK};再通过掩码实现置信度的自动评估;网络的最后一层使用softmax激活函数对每一个坐标位置(i,j)上的置信度进行归一化,即满足
变换图的过程表示为式7:
其中,Fnext为生成的下一帧图像。
9.如权利要求1所述基于文本不同特征空间的双流式视频生成方法,其特征是,步骤3)中,辨别器包括帧辨别器和视频辨别器;对抗性训练过程具体执行如下操作:
31)帧辨别器采用四层的2D卷积神经网络结构;使用帧辨别器的方法,对生成的视频Vg=中的每一帧和作为参照的真实的视频中的每一帧加入正负样本的文本外观特征与组成真实图文对不匹配图文对及生成图文对进行强化训练,由此拉近预测的图像数据分布与真实且外观符合描述的图像数据分布之间的距离,提高生成视频的准确性;损失函数表达式为式8:
其中,N是一次迭代中数据的数目;ck为真实数据的类别;D(Wi v))和分别为帧辨别器对不同图文对的类别预测;
帧辨别器的目标函数表示为式9:
其中,l为生成视频的长度;
双流式视频生成器的优化目标之一为:在假定帧辨别器的预测类别为真实数据类别的前提下,使得生成的图像数据分布与真实且外观匹配的图像数据分布尽可能相似,优化函数表达式为式10:
32)视频辨别器采用四层的3D卷积神经网络结构;使用视频辨别器的方法,对生成的视频Vg和作为参照的真实的视频Vr,加入正负样本的文本运动特征与组成真实视频文本对不匹配的视频文本对及生成视频文本对进行训练,由此达到拉近预测的视频数据分布与真实且运动符合描述的视频数据分布之间的距离的效果;损失函数表达式为式11:
其中,D(RV)、D(WV))和D(GV))为辨别器对不同视频文本对的类别预测;
双流式视频生成器的另一个优化目标为:在假定视频辨别器的预测类别为真实数据类别的前提下使得生成的视频数据分布与真实且运动匹配的视频数据分布尽可能相似,优化函数表达式为式12。
10.如权利要求9所述基于文本不同特征空间的双流式视频生成方法,其特征是,对抗训练中辨别器的目标函数由帧辨别器和视频辨别器的损失函数组成,表示为式13:
双流式视频生成器的目标函数也由两部分组成,表示为式14:
通过辨别器与生成器的目标函数进行交替训练,得到最优化的生成器,即可实现基于文本内容的视频生成。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172420.0A CN109978021B (zh) | 2019-03-07 | 2019-03-07 | 一种基于文本不同特征空间的双流式视频生成方法 |
PCT/CN2019/085962 WO2020177214A1 (zh) | 2019-03-07 | 2019-05-08 | 一种基于文本不同特征空间的双流式视频生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172420.0A CN109978021B (zh) | 2019-03-07 | 2019-03-07 | 一种基于文本不同特征空间的双流式视频生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109978021A true CN109978021A (zh) | 2019-07-05 |
CN109978021B CN109978021B (zh) | 2022-09-16 |
Family
ID=67078179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910172420.0A Expired - Fee Related CN109978021B (zh) | 2019-03-07 | 2019-03-07 | 一种基于文本不同特征空间的双流式视频生成方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109978021B (zh) |
WO (1) | WO2020177214A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610124A (zh) * | 2019-07-30 | 2019-12-24 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的图像生成方法 |
CN110717054A (zh) * | 2019-09-16 | 2020-01-21 | 清华大学 | 基于对偶学习的跨模态文字生成视频的方法及系统 |
CN110929098A (zh) * | 2019-11-14 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 视频数据的处理方法、装置、电子设备及存储介质 |
WO2021244457A1 (zh) * | 2020-05-30 | 2021-12-09 | 华为技术有限公司 | 一种视频生成方法及相关装置 |
CN115249062A (zh) * | 2022-09-22 | 2022-10-28 | 武汉大学 | 一种文本生成视频的网络模型、方法及装置 |
CN116939325A (zh) * | 2023-06-05 | 2023-10-24 | 阿里巴巴(中国)有限公司 | 视频生成方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449135B (zh) * | 2021-08-31 | 2021-11-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像生成系统与方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304864A (zh) * | 2018-01-17 | 2018-07-20 | 清华大学 | 深度对抗度量学习方法及装置 |
WO2018137357A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 一种目标检测性能优化的方法 |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
CN108830212A (zh) * | 2018-06-12 | 2018-11-16 | 北京大学深圳研究生院 | 一种视频行为时间轴检测方法 |
CN109344266A (zh) * | 2018-06-29 | 2019-02-15 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2705515A4 (en) * | 2011-05-06 | 2015-04-29 | Seyyer Inc | GENERATING VIDEO BASED ON TEXT |
CN104731959B (zh) * | 2015-04-03 | 2017-10-17 | 北京威扬科技有限公司 | 基于文本的网页内容生成视频摘要的方法、装置及系统 |
US9971958B2 (en) * | 2016-06-01 | 2018-05-15 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for generating multimodal digital images |
CN107609460B (zh) * | 2017-05-24 | 2021-02-02 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN109325135B (zh) * | 2018-10-26 | 2023-08-08 | 平安科技(深圳)有限公司 | 基于文本的视频生成方法、装置、计算机设备及存储介质 |
-
2019
- 2019-03-07 CN CN201910172420.0A patent/CN109978021B/zh not_active Expired - Fee Related
- 2019-05-08 WO PCT/CN2019/085962 patent/WO2020177214A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137357A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 一种目标检测性能优化的方法 |
CN108304864A (zh) * | 2018-01-17 | 2018-07-20 | 清华大学 | 深度对抗度量学习方法及装置 |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
CN108830212A (zh) * | 2018-06-12 | 2018-11-16 | 北京大学深圳研究生院 | 一种视频行为时间轴检测方法 |
CN109344266A (zh) * | 2018-06-29 | 2019-02-15 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610124A (zh) * | 2019-07-30 | 2019-12-24 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的图像生成方法 |
CN110610124B (zh) * | 2019-07-30 | 2021-11-30 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的图像生成方法 |
CN110717054A (zh) * | 2019-09-16 | 2020-01-21 | 清华大学 | 基于对偶学习的跨模态文字生成视频的方法及系统 |
CN110717054B (zh) * | 2019-09-16 | 2022-07-15 | 清华大学 | 基于对偶学习的跨模态文字生成视频的方法及系统 |
CN110929098A (zh) * | 2019-11-14 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 视频数据的处理方法、装置、电子设备及存储介质 |
CN110929098B (zh) * | 2019-11-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 视频数据的处理方法、装置、电子设备及存储介质 |
WO2021244457A1 (zh) * | 2020-05-30 | 2021-12-09 | 华为技术有限公司 | 一种视频生成方法及相关装置 |
CN115249062A (zh) * | 2022-09-22 | 2022-10-28 | 武汉大学 | 一种文本生成视频的网络模型、方法及装置 |
CN115249062B (zh) * | 2022-09-22 | 2023-02-03 | 武汉大学 | 一种文本生成视频的网络模型、方法及装置 |
CN116939325A (zh) * | 2023-06-05 | 2023-10-24 | 阿里巴巴(中国)有限公司 | 视频生成方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020177214A1 (zh) | 2020-09-10 |
CN109978021B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109978021A (zh) | 一种基于文本不同特征空间的双流式视频生成方法 | |
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN111798369B (zh) | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 | |
CN111160189B (zh) | 一种基于动态目标训练的深度神经网络人脸表情识别方法 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN110021051A (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN109558862A (zh) | 基于空间感知的注意力细化框架的人群计数方法及系统 | |
CN109344759A (zh) | 一种基于角度损失神经网络的亲属识别方法 | |
CN113361251B (zh) | 一种基于多阶段生成对抗网络的文本生成图像方法及系统 | |
CN104318214B (zh) | 一种基于结构化词典域转移的交叉视角人脸识别方法 | |
CN109064389B (zh) | 一种手绘线条画生成现实感图像的深度学习方法 | |
CN112347888A (zh) | 基于双向特征迭代融合的遥感图像场景分类方法 | |
CN110059220A (zh) | 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法 | |
CN106529586A (zh) | 基于补充文本特征的图像分类方法 | |
CN117529755A (zh) | 图像识别系统中的迁移学习 | |
CN110473267A (zh) | 基于注意力特征提取网络的社交网络图像描述生成方法 | |
CN113378949A (zh) | 一种基于胶囊网络和混合注意力的双重生成对抗学习方法 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
Han et al. | Robustness and diversity seeking data-free knowledge distillation | |
CN110210419A (zh) | 高分辨率遥感图像的场景识别系统及模型生成方法 | |
CN109948589A (zh) | 基于量子深度信念网络的人脸表情识别方法 | |
Wang et al. | Beyond knowledge distillation: Collaborative learning for bidirectional model assistance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220916 |