CN109658369A - 视频智能生成方法及装置 - Google Patents
视频智能生成方法及装置 Download PDFInfo
- Publication number
- CN109658369A CN109658369A CN201811403132.3A CN201811403132A CN109658369A CN 109658369 A CN109658369 A CN 109658369A CN 201811403132 A CN201811403132 A CN 201811403132A CN 109658369 A CN109658369 A CN 109658369A
- Authority
- CN
- China
- Prior art keywords
- neural network
- video
- picture
- module
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 137
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 75
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000009826 distribution Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 210000005036 nerve Anatomy 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 239000000463 material Substances 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 11
- 238000003860 storage Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 210000004205 output neuron Anatomy 0.000 description 7
- 210000002364 input neuron Anatomy 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000010297 mechanical methods and process Methods 0.000 description 1
- 230000005226 mechanical processes and functions Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Studio Circuits (AREA)
Abstract
本公开提供一种视频智能生成装置和生成方法,其中该生成方法包括:生成模块,通过第一人工神经网络,根据输入的合成指示数据,生成相应的创作图片;合成模块,根据所述创作图片,进行图片合成,生成合成图片;视频处理模块,将合成图片作为视频帧进行处理,获得合成视频。通过本公开的装置能节省人力物力,减少后期视频制作过程。
Description
技术领域
本公开涉及信息处理技术领域,具体涉及一种视频智能生成方法以及实现该方法的装置。
背景技术
现有技术中,通常对于视频生成有很大需求,相应对视频智能生成装置也有需求,例如,在电视电影制作中,会需要进行大量的修改图像或者视频帧的工作,例如对于玄幻剧的功法,通常的做法是需要专业人员应用专业软件花费大量的时间进行修改,这种修改方式不但费时费力,而且由于技术人员的技术水平存在区别,也会对于后期的制作效果产品难以预料到的影响。
发明内容
(一)要解决的技术问题
有鉴于此,本公开的目的在于提供一种视频智能生成方法以及实现该方法的装置,以至少部分解决上述技术问题。
(二)技术方案
根据本公开的一方面,提供一种视频智能生成装置,包括:
生成模块,通过第一人工神经网络,根据输入的合成指示数据,生成相应的创作图片;
合成模块,根据所述创作图片,进行图片合成,生成合成图片;
视频处理模块,将合成图片作为视频帧进行处理,获得合成视频。
在进一步的实施方案中,还包括:图像视频接收模块,用于接收外部输入的图像和/或视频,且输入至所述合成模块;所述合成模块还用于根据由图像视频接收模块输入的图像和/或视频帧,以及生成模块输出的创作图片,进行图片合成;所述视频处理模块还用于将图像视频接收模块中的视频作为部分输入,获得合成视频。
在进一步的实施方案中,还包括:文字接收模块,用于接收外部输入的文字,生成合成指示数据。
在进一步的实施方案中,所述生成模块中,通过第一人工神经网络,根据输入的合成指示数据,生成相应的创作图片,包括:通过生成对抗网络进行创作图片的生成,该对抗网络包括生成器神经网络和鉴别器神经网络;生成器神经网络输入随机向量,输出生成数据;鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据,输出为对生成数据的判断。
在进一步的实施方案中,所述生成对抗网络中,还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。
在进一步的实施方案中,在所述生成模块中,还包括对生成器神经网络和鉴别器神经网络进行训练:采用真实图片作为训练样本,获取图片的第一数据分布特征,确定图片的第一鉴别器得分;生成器输入随机噪声,该随机噪声对应生成指示数据对应的类别,输出模仿的该类别对应真实图片的第二数据分布特征,确定该第二数据分布的第二鉴别器得分;根据第一鉴别器得分和第二鉴别器得分的梯度进行更新,分别更新生成器神经网络和鉴别器神经网络。
在进一步的实施方案中,所述合成模块包括:特征提取子模块,通过第二人工神经网络进行图片合成,通过所述创作图片、图像视频接收模块输入的图像和/或图像视频接收模块输入的视频帧,提取特定特征;
特征合成子模块,将提取的特定特征合并至同一图中。
在进一步的实施方案中,所述视频处理模块中,将合成图片作为视频帧进行处理,包括:使用第三人工神经网络对许多的视频帧,输入合成指示数据,还输入合成图片和/或图像视频接收模块输入的视频,输出多帧图片内容。
在进一步的实施方案中,所述第一人工神经网络、第二人工神经网络和第三人工神经网络分别包括卷积层、全连接层、池化层和批归一化层。
在进一步的实施方案中,所述生成模块、合成模块、视频处理模块和图像视频接收模块各自采用不同的神经网络芯片,或者至少两个集成于同一神经网络芯片。
根据本公开的另一方面,还提供一种视频智能生成方法,包括:
通过生成模块,根据第一人工神经网络以及输入的合成指示数据,生成相应的创作图片;
通过合成模块,根据所述创作图片,进行图片合成,生成合成图片;
通过视频处理模块,将合成图片作为视频帧进行处理,获得合成视频。
在进一步的实施方案中,还包括:通过图像视频接收模块接收外部输入的图像和/或视频,且输入至所述合成模块;合成模块还根据由图像视频接收模块输入的图像和/或视频帧,以及生成模块输出的创作图片,进行图片合成;视频处理模块还将图像视频接收模块中的视频作为部分输入,获得合成视频。
在进一步的实施方案中,还包括:通过文字接收模块,接收外部输入的文字,生成合成指示数据。
在进一步的实施方案中,通过生成模块,根据第一人工神经网络以及输入的合成指示数据,生成相应的创作图片,包括:通过生成对抗网络进行创作图片的生成,该对抗网络包括生成器神经网络和鉴别器神经网络;生成器神经网络输入随机向量,输出生成数据;鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据,输出为对生成数据的判断。
在进一步的实施方案中,还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。
在进一步的实施方案中,还包括对生成器神经网络和鉴别器神经网络进行训练:采用真实图片作为训练样本,获取图片的第一数据分布特征,确定图片的第一鉴别器得分;生成器输入随机噪声,该随机噪声对应生成指示数据对应的类别,输出模仿的该类别对应真实图片的第二数据分布特征,确定该第二数据分布的第二鉴别器得分;根据第一鉴别器得分和第二鉴别器得分的梯度进行更新,分别更新生成器神经网络和鉴别器神经网络。
在进一步的实施方案中,通过特征提取子模块,经第二人工神经网络进行图片合成,通过所述创作图片、图像视频接收模块输入的图像和/或图像视频接收模块输入的视频帧,提取特定特征;还通过特征合成子模块,将提取的特定特征合并至同一图中。
在进一步的实施方案中,所述通过视频处理模块,将合成图片作为视频帧进行处理,获得合成视频,包括:使用第三人工神经网络对许多的视频帧,输入合成指示数据,还输入合成图片和/或图像视频接收模块输入的视频,输出多帧图片内容。
在进一步的实施方案中,所述第一人工神经网络、第二人工神经网络和第三人工神经网络分别包括卷积层、全连接层、池化层和批归一化层。
(三)有益效果
针对现有的对视频的处理,有些看着很不自然,对电视电影的后期处理,花费很多的人力物力,一些电视电影的拍摄,场景布置、演员等,耗费的资源很多,用本装置能节省人力物力;
通过在文字接收模块输入文字等合成指示,可以不需要专业技术,即可实现视频的生成,尤其现在拍摄电影电视的导演有该专业基础,用本设备,可以全民导演,使之成为一个人人可以实现的兴趣爱好。
附图说明
图1是本公开实施例的视频智能生成装置原理方框图。
图2是本公开实施例的另一种视频智能生成装置的示意图。
图3是本公开实施例的视频智能生成装置生成模块的示意图。
图4是本公开实施例的视频智能生成装置合成模块的示意图。
图5是本公开实施例的神经网络芯片原理方框图。
图6是本公开实施例的视频智能生成方法流程图。
具体实施方式
下面结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开的保护范围。
根据本公开的基本构思,提供一种视频智能生成装置,包括:生成模块110,根据第一人工神经网络以及输入的合成指示数据,生成相应的创作图片;合成模块120,根据所述创作图片,进行图片合成,生成合成图片;以及视频处理模块130,将合成图片作为视频帧进行处理,获得合成视频。这种装置中,只需外部输入简单的合成指示,即可以实现视频的合成,大幅度提高了效率。
图1是本公开实施例的视频智能生成装置原理方框图。如图1所示,本公开的生成模块110用于根据合成指示,生成创作图片,可通过第一人工神经网络进行创作。创作过程中,第一人工神经网络的输入包括合成指示数据以及随机信号,通过该神经网络运算后输出创作图片。
图3是本公开实施例的视频智能生成装置生成模块110的示意图。在一些实施例中,通过生成对抗网络(第一人工神经网络的一种示例)进行创作图片的生成,该对抗网络可包括生成器神经网络和鉴别器神经网络;生成器神经网络输入随机向量(随机信号的一种示例),输出生成数据;鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据,输出为对生成数据的判断。
在进一步的实施例中,生成对抗网络中,还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。相应的,对生成器神经网络和鉴别器神经网络进行训练,包括:采用真实图片作为训练样本,获取图片的第一数据分布特征,确定图片的第一鉴别器得分;生成器输入随机噪声,该随机噪声对应生成指示数据对应的类别,输出模仿的该类别对应真实图片的第二数据分布特征,确定该第二数据分布的第二鉴别器得分;根据第一鉴别器得分和第二鉴别器得分的梯度进行更新,分别更新生成器神经网络和鉴别器神经网络。
举例来说,上述训练过程可以为:
1.采集特定类别(如小狗)训练样本(真实图片)x的一个小批归一化层(minibatch),得到它的数据分布特征,计算他们的鉴别器得分D(x);
2.生成器输入随机噪声z,该随机噪声对应要生成的特定类别,输出模仿的该类别对应真实图片的数据分布,计算它们的鉴别器得分D(G(z));
3.使用这两个步骤累积的梯度进行更新,分别更新生成器和鉴别器;鉴别器的优化目标为使D(x)大,D(G(z))小;生成器的优化目标为使D(G(z))大,可以使用随机梯度下降算法对鉴别器和生成器进行更新。
需要说明的是,该训练过程可以在事先进行,即可在实际使用之前即训练完成。即实际创作时,可以仅包括生成器神经网络进行创作,相应的视频智能生成装置中可以仅采用生成器神经网络。
在一些实施例中,生成模块110使用的第一人工神经网络可以是深度神经网络,深度神经网络算法分为训练过程和使用过程两部分。在训练过程中,使用生成器和鉴别器神经网络。这里的深度神经网络可以包括卷积层、全连接层、池化层和批归一化层(batchnorm)。
在一些实施例中,本公开的视频智能合成装置还可以包括文字接收模块140,用于接收外部输入的文字,生成合成指示数据。这里的合成指示数据可以作为生成模块110中的输入,用于表明该生成模块110需要进行何种图片创作,可以作为第一人工神经网络的部分输入参与运算。实际操作过程中,可以是视频创作人员通过输入设备输入一段文字,该段文字可以生成一定的指示数据(比如指示视频中某个人物四周加入闪光特效),该指示数据经生成模块110运算后,可以是产生闪光特效的创作图片。
在一些实施例中,本公开的视频智能合成装置还可以包括图像视频接收模块150,用于接收外部输入的图像和/或视频,且输入至所述合成模块120。相应的,合成模块120还用于根据由图像视频接收模块150输入的图像和/或视频帧,以及生成模块110输出的创作图片,进行图片合成。这里图像视频接收模块150可以接收原始拍摄的图片或者视频,或者是已经经过处理的图片或者视频,其将图片或者视频帧输入至合成模块120,以作为部分素材进行合并。
如图2所示,在一些实施例中,上述的文字接收模块140和图像视频接收模块150可以集成至输入输出接口210,可以通过该接口接收文字、图像以及视频数据,然后在分别传送至生成模块110、合成模块120和/或视频处理模块130。
其中,参见图1和图4所示,合成模块120根据所述创作图片,进行图片合成,生成合成图片。这里,可以通过第二人工神经网络进行图片合成,通过所述创作图片、图像视频接收模块150输入的图像和/或图像视频接收模块150输入的视频帧,提取特定特征合并至同一图中(具体的,可以通过提取特征子模块410提取该特定特征,以及通过特征合成子模块420将若干特定特征合成至同一图中)。可选地,该用于进行合成的图片可以来自生成模块110生成的图片,也可来自图像视频接收模块150,将不同来源的图片,提取需要的特征,合到一张图片中。
在一些实施例中,合成模块120使用的第二人工神经网络可以是深度神经网络,深度神经网络算法分为训练过程和使用过程两部分。这里的深度神经网络可以包括卷积层、全连接层、池化层和批归一化层。
参见图1所示,视频处理模块130将合成图片作为视频帧进行处理,获得合成视频。可以使用第三人工神经网络对许多的视频帧,输入合成指示数据,还输入合成图片和/或图像视频接收模块150输入的视频,输出多帧图片内容。例如,第三人工神经网络输入为文字描述以及多张图片,通过获取图片中的目标,文字描述中包含对该目标的行为的描述,以及该行为持续k帧,根据描述,生成k帧图片的内容,获得的图片帧快速播放即可形成视频。其中,可以对第三人工神经网络进行训练,训练时,该视频处理模块130优化目标为减小生成的视频与标签视频不相似度,该不相似度可通过对视频每帧进行处理,获得一个得分,连续的16帧的得分作为评价标准进行优化(方法可选),通过反向传播进行网络更新。
在一些实施例中,视频处理模块130使用的第三人工神经网络可以是深度神经网络,深度神经网络算法分为训练过程和使用过程两部分。这里的深度神经网络可以包括卷积层、全连接层、池化层和批归一化层。
在一些实施例中,以上所介绍的生成模块110、合成模块120、视频处理模块130和图像视频接收模块150各自采用不同的神经网络芯片,或者至少两个集成于同一神经网络芯片。如图2所示,它们可以集成为一处理器220,通过至少一神经网络芯片进行处理。
图5是本公开实施例的神经网络芯片500原理方框图。如图5所示,在一些实施例中,神经网络芯片500包括存储单元510、控制单元520和运算单元530,其中,存储单元510用于存储输入数据(可以作为输入神经元),神经网络参数和指令;控制单元520用于从所述存储单元510中读取专用指令,并将其译码成运算单元530指令并输入至运算单元530;运算单元530用于根据运算单元530指令对所述数据执行相应的神经网络运算,得到输出神经元。其中,存储单元510还可以存储经运算单元530运算后获得的输出神经元。这里的神经网络参数包括但不限于权值、偏置和激活函数。作为优选的,参数中的初始化权值为经过训练的人脸识别权值,可直接进行人工神经网络运算),节省了对神经网络进行训练的过程。
在一些实施例中,运算单元530中执行相应的神经网络运算包括:将输入神经元和权值数据相乘,获得相乘结果;执行加法树运算,用于将所述相乘结果通过加法树逐级相加,得到加权和,对加权和加偏置或不做处理;
对加偏置或不做处理的加权和执行激活函数运算,得到输出神经元。作为优选的,激活函数可以是sigmoid函数、tanh函数、ReLU函数或softmax函数。
在一些实施例中,如图5所示,神经网络芯片500还可以包括DMA540(DirectMemory Access,直接内存存取),用于存入存储单元510中的输入数据,神经网络参数和指令,以供控制单元520和运算单元530调用;进一步的还用于在运算单元530计算出输出神经元后,向存储单元510写入该输出神经元。
在一些实施例中,如图5所示,神经网络芯片500还包括指令缓存550,用于从所述直接内存存取DMA540缓存指令,供控制单元520调用。该指令缓存550可以为片上缓存,其通过制备工艺集成于神经网络芯片500上,可以在指令调取时,提高处理速度,节省整体运算时间。
在一些实施例中,神经网络芯片500还包括:输入神经元缓存570,其用于从所述直接内存存取DMA540缓存输入神经元,供运算单元530调用;权值缓存560,其用于从所述直接内存存取DMA540缓存权值,供运算单元530调用;输出神经元缓存580,其用于存储从所述运算单元530获得运算后的输出神经元,以输出至直接内存存取DMA540。上述输入神经元缓存570、权值缓存560以及输出神经元缓存580也可以为片上缓存,通过半导体工艺集成于神经网络芯片500上,可以在供运算单元530读写时提高处理速度,节省整体运算时间。
参见图6所示,基于同一发明构思,本公开实施例还提供一种视频智能生成方法,包括:
S610:通过生成模块110,根据第一人工神经网络以及输入的合成指示数据,生成相应的创作图片;
S620:通过合成模块120,根据所述创作图片,进行图片合成,生成合成图片;
S630:通过视频处理模块130,将合成图片作为视频帧进行处理,获得合成视频。
在一些实施例中,还包括:通过图像视频接收模块150接收外部输入的图像和/或视频,且输入至所述合成模块120。步骤S620中,合成模块120还根据由图像视频接收模块150输入的图像和/或视频帧,以及生成模块110输出的创作图片,进行图片合成。而且,步骤S630中,视频处理模块130还将图像视频接收模块150中的视频作为部分输入,获得合成视频。
在一些实施例中,在步骤S610之前,在还包括:通过文字接收模块140,接收外部输入的文字,生成合成指示数据。
在一些实施例中,步骤S620中,通过生成模块110,根据第一人工神经网络以及输入的合成指示数据,生成相应的创作图片,包括:通过生成对抗网络进行创作图片的生成,该对抗网络包括生成器神经网络和鉴别器神经网络;生成器神经网络输入随机向量,输出生成数据;鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据,输出为对生成数据的判断。
可选的,还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。以及对鉴别器神经网络和生成器神经网络训练:采用真实图片作为训练样本,获取图片的第一数据分布特征,确定图片的第一鉴别器得分;生成器输入随机噪声,该随机噪声对应生成指示数据对应的类别,输出模仿的该类别对应真实图片的第二数据分布特征,确定该第二数据分布的第二鉴别器得分;根据第一鉴别器得分和第二鉴别器得分的梯度进行更新,分别更新生成器神经网络和鉴别器神经网络。
本公开所提供的实施例中,应理解到,所揭露的相关装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述部分或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个部分或模块可以结合或者可以集成到一个系统,或一些特征可以忽略或者不执行。
本公开中,术语“和/或”可能已被使用。如本文中所使用的,术语“和/或”意指一个或其他或两者(例如,A和/或B意指A或B或者A和B两者)。
在上面的描述中,出于说明目的,阐述了众多具体细节以便提供对本公开的各实施例的全面理解。然而,对本领域技术人员将显而易见的是,没有这些具体细节中的某些也可实施一个或多个其他实施例。所描述的具体实施例不是为了限制本公开而是为了说明。本公开的范围不是由上面所提供的具体示例确定,而是仅由下面的权利要求确定。在其他情况下,以框图形式,而不是详细地示出已知的电路、结构、设备,和操作以便不至于使对描述的理解变得模糊。在认为适宜之处,附图标记或附图标记的结尾部分在诸附图当中被重复以指示可选地具有类似特性或相同特征的对应或类似的要素,除非以其他方式来指定或显而易见。
已描述了各种操作和方法。已经以流程图方式以相对基础的方式对一些方法进行了描述,但这些操作可选择地被添加至这些方法和/或从这些方法中移去。另外,尽管流程图示出根据各示例实施例的操作的特定顺序,但可以理解,该特定顺序是示例性的。替换实施例可以可任选地以不同方式执行这些操作、组合某些操作、交错某些操作等。设备的此处所描述的组件、特征,以及特定可选细节还可以可任选地应用于此处所描述的方法,在各实施例中,这些方法可以由这样的设备执行和/或在这样的设备内执行。
本公开中各功能单元/子单元/模块/子模块都可以是硬件,比如该硬件可以是电路,包括数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于物理器件,物理器件包括但不局限于晶体管,忆阻器等等。所述计算装置中的计算模块可以是任何适当的硬件处理器,比如CPU、GPU、FPGA、DSP和ASIC等等。所述存储单元可以是任何适当的磁存储介质或者磁光存储介质,比如RRAM,DRAM,SRAM,EDRAM,HBM,HMC等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (19)
1.一种视频智能生成装置,其特征在于包括:
生成模块,通过第一人工神经网络,根据输入的合成指示数据,生成相应的创作图片;
合成模块,根据所述创作图片,进行图片合成,生成合成图片;
视频处理模块,将合成图片作为视频帧进行处理,获得合成视频。
2.根据权利要求1所述的装置,其特征在于,还包括:
图像视频接收模块,用于接收外部输入的图像和/或视频,且输入至所述合成模块;
所述合成模块还用于根据由图像视频接收模块输入的图像和/或视频帧,以及生成模块输出的创作图片,进行图片合成;
所述视频处理模块还用于将图像视频接收模块中的视频作为部分输入,获得合成视频。
3.根据权利要求1所述的装置,其特征在于,还包括:
文字接收模块,用于接收外部输入的文字,生成合成指示数据。
4.根据权利要求1所述的装置,其特征在于,所述生成模块中,通过第一人工神经网络,根据输入的合成指示数据,生成相应的创作图片,包括:
通过生成对抗网络进行创作图片的生成,该对抗网络包括生成器神经网络和鉴别器神经网络;生成器神经网络输入随机向量,输出生成数据;鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据,输出为对生成数据的判断。
5.根据权利要求4所述的装置,其特征在于,所述生成对抗网络中,还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。
6.根据权利要求4所述的装置,其特征在于,在所述生成模块中,还包括对生成器神经网络和鉴别器神经网络进行训练:
采用真实图片作为训练样本,获取图片的第一数据分布特征,确定图片的第一鉴别器得分;
生成器输入随机噪声,该随机噪声对应生成指示数据对应的类别,输出模仿的该类别对应真实图片的第二数据分布特征,确定该第二数据分布的第二鉴别器得分;
根据第一鉴别器得分和第二鉴别器得分的梯度进行更新,分别更新生成器神经网络和鉴别器神经网络。
7.根据权利要求2所述的装置,其特征在于,所述合成模块包括:
特征提取子模块,通过第二人工神经网络进行图片合成,通过所述创作图片、图像视频接收模块输入的图像和/或图像视频接收模块输入的视频帧,提取特定特征;
特征合成子模块,将提取的特定特征合并至同一图中。
8.根据权利要求1所述的装置,其特征在于,所述视频处理模块中,将合成图片作为视频帧进行处理,包括:
使用第三人工神经网络对许多的视频帧,输入合成指示数据,还输入合成图片和/或图像视频接收模块输入的视频,输出多帧图片内容。
9.根据权利要求7或8所述的装置,其特征在于,所述第一人工神经网络、第二人工神经网络和第三人工神经网络分别包括卷积层、全连接层、池化层和批归一化层。
10.根据权利要求2所述的装置,其特征在于,所述生成模块、合成模块、视频处理模块和图像视频接收模块各自采用不同的神经网络芯片,或者至少两个集成于同一神经网络芯片。
11.一种视频智能生成方法,其特征在于包括:
通过生成模块,根据第一人工神经网络以及输入的合成指示数据,生成相应的创作图片;
通过合成模块,根据所述创作图片,进行图片合成,生成合成图片;
通过视频处理模块,将合成图片作为视频帧进行处理,获得合成视频。
12.根据权利要求11所述的方法,其特征在于,还包括:
通过图像视频接收模块接收外部输入的图像和/或视频,且输入至所述合成模块;
合成模块还根据由图像视频接收模块输入的图像和/或视频帧,以及生成模块输出的创作图片,进行图片合成;
视频处理模块还将图像视频接收模块中的视频作为部分输入,获得合成视频。
13.根据权利要求11所述的方法,其特征在于,还包括:
通过文字接收模块,接收外部输入的文字,生成合成指示数据。
14.根据权利要求11所述的方法,其特征在于,通过生成模块,根据第一人工神经网络以及输入的合成指示数据,生成相应的创作图片,包括:
通过生成对抗网络进行创作图片的生成,该对抗网络包括生成器神经网络和鉴别器神经网络;生成器神经网络输入随机向量,输出生成数据;鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据,输出为对生成数据的判断。
15.根据权利要求14所述的方法,其特征在于,还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。
16.根据权利要求14所述的方法,其特征在于,还包括对生成器神经网络和鉴别器神经网络进行训练:
采用真实图片作为训练样本,获取图片的第一数据分布特征,确定图片的第一鉴别器得分;
生成器输入随机噪声,该随机噪声对应生成指示数据对应的类别,输出模仿的该类别对应真实图片的第二数据分布特征,确定该第二数据分布的第二鉴别器得分;
根据第一鉴别器得分和第二鉴别器得分的梯度进行更新,分别更新生成器神经网络和鉴别器神经网络。
17.根据权利要求12所述的方法,其特征在于,通过合成模块,根据所述创作图片,进行图片合成,生成合成图片,包括:
通过特征提取子模块,采用第二人工神经网络进行图片合成,通过所述创作图片、图像视频接收模块输入的图像和/或图像视频接收模块输入的视频帧,提取特定特征;
通过特征合成子模块合并至同一图中。
18.根据权利要求11所述的方法,其特征在于,所述通过视频处理模块,将合成图片作为视频帧进行处理,获得合成视频,包括:
使用第三人工神经网络对许多的视频帧,输入合成指示数据,还输入合成图片和/或图像视频接收模块输入的视频,输出多帧图片内容。
19.根据权利要求17或18所述的方法,其特征在于,所述第一人工神经网络、第二人工神经网络和第三人工神经网络分别包括卷积层、全连接层、池化层和批归一化层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811403132.3A CN109658369A (zh) | 2018-11-22 | 2018-11-22 | 视频智能生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811403132.3A CN109658369A (zh) | 2018-11-22 | 2018-11-22 | 视频智能生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109658369A true CN109658369A (zh) | 2019-04-19 |
Family
ID=66111427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811403132.3A Pending CN109658369A (zh) | 2018-11-22 | 2018-11-22 | 视频智能生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109658369A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111669515A (zh) * | 2020-05-30 | 2020-09-15 | 华为技术有限公司 | 一种视频生成方法及相关装置 |
CN112165582A (zh) * | 2020-08-31 | 2021-01-01 | 北京小米松果电子有限公司 | 生成视频的方法、装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101098395A (zh) * | 2006-06-30 | 2008-01-02 | 株式会社东芝 | 实现边缘平滑的视频数据处理装置及处理视频数据的方法 |
CN103079040A (zh) * | 2013-01-11 | 2013-05-01 | 北京友维科软件科技有限公司 | 图像与影像视频合成系统与合成方法 |
CN105306862A (zh) * | 2015-11-17 | 2016-02-03 | 广州市英途信息技术有限公司 | 一种基于3d虚拟合成技术的情景视频录制系统、方法及情景实训学习方法 |
CN107392255A (zh) * | 2017-07-31 | 2017-11-24 | 深圳先进技术研究院 | 少数类图片样本的生成方法、装置、计算设备及存储介质 |
CN107464210A (zh) * | 2017-07-06 | 2017-12-12 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
CN107862377A (zh) * | 2017-11-14 | 2018-03-30 | 华南理工大学 | 一种基于文本‑图像生成对抗网络模型的分组卷积方法 |
CN108268845A (zh) * | 2018-01-17 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种利用生成对抗网络合成人脸视频序列的动态转换系统 |
-
2018
- 2018-11-22 CN CN201811403132.3A patent/CN109658369A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101098395A (zh) * | 2006-06-30 | 2008-01-02 | 株式会社东芝 | 实现边缘平滑的视频数据处理装置及处理视频数据的方法 |
CN103079040A (zh) * | 2013-01-11 | 2013-05-01 | 北京友维科软件科技有限公司 | 图像与影像视频合成系统与合成方法 |
CN105306862A (zh) * | 2015-11-17 | 2016-02-03 | 广州市英途信息技术有限公司 | 一种基于3d虚拟合成技术的情景视频录制系统、方法及情景实训学习方法 |
CN107464210A (zh) * | 2017-07-06 | 2017-12-12 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
CN107392255A (zh) * | 2017-07-31 | 2017-11-24 | 深圳先进技术研究院 | 少数类图片样本的生成方法、装置、计算设备及存储介质 |
CN107862377A (zh) * | 2017-11-14 | 2018-03-30 | 华南理工大学 | 一种基于文本‑图像生成对抗网络模型的分组卷积方法 |
CN108268845A (zh) * | 2018-01-17 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种利用生成对抗网络合成人脸视频序列的动态转换系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111669515A (zh) * | 2020-05-30 | 2020-09-15 | 华为技术有限公司 | 一种视频生成方法及相关装置 |
CN111669515B (zh) * | 2020-05-30 | 2021-08-20 | 华为技术有限公司 | 一种视频生成方法及相关装置 |
WO2021244457A1 (zh) * | 2020-05-30 | 2021-12-09 | 华为技术有限公司 | 一种视频生成方法及相关装置 |
CN112165582A (zh) * | 2020-08-31 | 2021-01-01 | 北京小米松果电子有限公司 | 生成视频的方法、装置、存储介质及电子设备 |
CN112165582B (zh) * | 2020-08-31 | 2023-02-21 | 北京小米松果电子有限公司 | 生成视频的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rombach et al. | Text-guided synthesis of artistic images with retrieval-augmented diffusion models | |
CN110363210A (zh) | 一种图像语义分割模型的训练方法和服务器 | |
CN106503034B (zh) | 一种为动画配乐的方法及装置 | |
Souza et al. | Efficient neural architecture for text-to-image synthesis | |
CN113077537B (zh) | 一种视频生成方法、存储介质及设备 | |
CN110085218A (zh) | 一种基于特征金字塔网络的音频场景识别方法 | |
CN111127309B (zh) | 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置 | |
CN109064548B (zh) | 视频生成方法、装置、设备及存储介质 | |
CN107274381A (zh) | 一种基于双识别流卷积网络的动态纹理合成方法 | |
CN109215092A (zh) | 仿真场景的生成方法及装置 | |
CN109658369A (zh) | 视频智能生成方法及装置 | |
CN116071494A (zh) | 基于隐式神经函数的高保真三维人脸重建与生成方法 | |
CN110096617A (zh) | 视频分类方法、装置、电子设备及计算机可读存储介质 | |
Ge et al. | Neural-sim: Learning to generate training data with nerf | |
CN110136162A (zh) | 无人机视角遥感目标跟踪方法及装置 | |
Zhu et al. | Label-guided generative adversarial network for realistic image synthesis | |
Zheng et al. | Constrained predictive filters for single image bokeh rendering | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
Li | Research on the application of artificial intelligence in the film industry | |
Jiang et al. | Scenimefy: learning to craft anime scene via semi-supervised image-to-image translation | |
JP2017059193A (ja) | 時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラム | |
CN116777738A (zh) | 基于服装区域对齐和风格保持调制的真实性虚拟试穿方法 | |
Goh et al. | Automatic effect generation method for 4D films | |
CN110517200A (zh) | 人脸草绘图的获取方法、装置、设备及存储介质 | |
Zhai et al. | SKFlow: optical flow estimation using selective kernel networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190419 |
|
RJ01 | Rejection of invention patent application after publication |