CN115222858A - 动画重构网络的训练及其图像重构、视频重构方法与设备 - Google Patents

动画重构网络的训练及其图像重构、视频重构方法与设备 Download PDF

Info

Publication number
CN115222858A
CN115222858A CN202210892683.0A CN202210892683A CN115222858A CN 115222858 A CN115222858 A CN 115222858A CN 202210892683 A CN202210892683 A CN 202210892683A CN 115222858 A CN115222858 A CN 115222858A
Authority
CN
China
Prior art keywords
sample
data
face
animation
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210892683.0A
Other languages
English (en)
Inventor
王传鹏
李腾飞
张昕玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hard Link Network Technology Co ltd
Original Assignee
Shanghai Hard Link Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hard Link Network Technology Co ltd filed Critical Shanghai Hard Link Network Technology Co ltd
Priority to CN202210892683.0A priority Critical patent/CN115222858A/zh
Publication of CN115222858A publication Critical patent/CN115222858A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种动画重构网络的训练及其图像重构、视频重构方法与设备,该方法包括:获取由样本游戏改编的样本动画,样本动画中具有多帧样本图像数据;从样本图像数据中提取第一样本人脸数据;若第一样本人脸数据属于具有样本动画中风格的角色,则将第一样本人脸数据标记为第二样本人脸数据;以第二样本人脸数据作为人脸风格的来源训练第一生成对抗网络,作为人脸重构网络;以样本图像数据作为场景风格的来源训练第二生成对抗网络,作为场景重构网络;将人脸重构网络与场景重构网络输出为动画重构网络。两个生成对抗网络可以对人脸、场景进行不同程度的风格化、实现不同变化偏向,实现了个性化的动画风格化。

Description

动画重构网络的训练及其图像重构、视频重构方法与设备
技术领域
本发明涉及计算机视觉的技术领域,尤其涉及一种动画重构网络的训练及其图像重构、视频重构方法与设备。
背景技术
在短视频、广告等场景中,用户会制作各种不同类型的视频数据,在录制原始的视频数据之后,通常会对视频数据进行后期处理,从而提升视频数据的质量。
其中一种常用的后期处理是对视频数据添加滤镜,将视频数据整体转换至其他风格,例如,复古、胶片、落日,等等。
但是,这些滤镜的数量较少,效果较为单一,使用多个滤镜叠加也难以实现一些特定动画的风格,而如果在制作视频数据时按照特定动画的风格进行设计,这将提高制作视频数据的门槛,导致制作视频数据的耗时大大延长,制作视频数据的效率低。
发明内容
本发明提供了一种动画重构网络的训练及其图像重构、视频重构方法与设备,以解决如何在视频数据中高效实现动画的风格。
根据本发明的一方面,提供了一种动画重构网络的训练方法,包括:
获取由样本游戏改编的样本动画,所述样本动画中具有多帧样本图像数据;
从所述样本图像数据中提取第一样本人脸数据;
若所述第一样本人脸数据属于具有所述样本动画中风格的角色,则将所述第一样本人脸数据标记为第二样本人脸数据;
以所述第二样本人脸数据作为人脸风格的来源训练第一生成对抗网络,作为人脸重构网络;
以所述样本图像数据作为场景风格的来源训练第二生成对抗网络,作为场景重构网络;
将所述人脸重构网络与所述场景重构网络输出为动画重构网络。
根据本发明的另一方面,提供了一种图像重构方法,包括:
加载根据本发明任一实施例所述的方法训练的动画重构网络,所述样本动画重构网络包括人脸重构网络与场景重构网络;
在待重构风格的原始图像数据中检测原始人脸数据;
将所述原始人脸数据输入至所述人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据;
将所述目标人脸数据贴回所述原始图像数据中,得到候选图像数据;
将所述候选图像数据输入至所述场景重构网络中重构为包含由样本游戏改编的动画的场景风格的目标图像数据。
根据本发明的另一方面,提供了一种视频重构方法,包括:
加载根据本发明任一实施例所述的方法训练的动画重构网络,所述样本动画重构网络包括人脸重构网络与场景重构网络;
获取内容为介绍目标游戏的原始视频数据,所述原始视频数据中具有多帧原始图像数据,至少部分所述原始图像数据中具有原始人脸数据;
将所述原始人脸数据输入至所述人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据;
将所述目标人脸数据贴回所述原始图像数据中,得到候选图像数据;
将所述候选图像数据输入至所述场景重构网络中重构为包含由样本游戏改编的动画的场景风格的目标图像数据;
在所述原始视频数据中将所述目标图像数据替换所述原始图像数据,获得目标视频数据。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的动画重构网络的训练方法或者图像重构方法或者视频重构方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现本发明任一实施例所述的动画重构网络的训练方法或者图像重构方法或者视频重构方法。
在本实施例中,获取由样本游戏改编的样本动画,样本动画中具有多帧样本图像数据;从样本图像数据中提取第一样本人脸数据;若第一样本人脸数据属于具有样本动画中风格的角色,则将第一样本人脸数据标记为第二样本人脸数据;以第二样本人脸数据作为人脸风格的来源训练第一生成对抗网络,作为人脸重构网络;以样本图像数据作为场景风格的来源训练第二生成对抗网络,作为场景重构网络;将人脸重构网络与场景重构网络输出为动画重构网络。第一生成对抗网络可以重构样本游戏的人脸风格、第二生成对抗网络可以重构样本游戏的场景风格,两个生成对抗网络可以对人脸、场景进行不同程度的风格化、实现不同变化偏向,实现了个性化的动画风格化,动画风格化属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作动画风格化的视频数据的效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种动画重构网络的训练方法的流程图;
图2是根据本发明实施例二提供的一种图像重构方法的流程图;
图3A至图3E是根据本发明实施例二提供的图像重构风格的示例图;
图4是根据本发明实施例三提供的一种视频重构方法的流程图;
图5是根据本发明实施例四提供的一种动画重构网络的训练装置的结构示意图;
图6是根据本发明实施例五提供的一种图像重构装置的结构示意图;
图7是根据本发明实施例六提供的一种视频重构装置的结构示意图;
图8是实现本发明实施例七提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供的一种动画重构网络的训练方法的流程图,本实施例可适用于训练实现动画风格的动画重构网络的情况,该方法可以由动画重构网络的训练装置来执行,该动画重构网络的训练装置可以采用硬件和/或软件的形式实现,该动画重构网络的训练装置可配置于电子设备中。如图1所示,该方法包括:
步骤101、获取由样本游戏改编的样本动画。
在生活中,游戏与动画的受众存在较高的重合度,因此,如果一些游戏在发行之后具有良好的反响,可能会被改编为动画,这使得游戏改编动画可以有两种选择,一是专注于游戏粉丝向的内容,直接针对游戏粉丝深化动画的内容,二是达到吸引没有接触过游戏的普通观众,无论是哪种选择,游戏与动画在角色、背景、情节等信息上具有较高的重合程度。
进一步而言,被改编为动画的游戏的类型可以包括MOBA(Multiplayer OnlineBattle Arena,多人在线战术竞技游戏)、RPG(Role-playing game,角色扮演游戏)、SLG(Simulation Game,策略类游戏),等等,本实施例对此不加以限制。
在本实施例中,可以根据业务需求获取由游戏改编的动画,作为训练动画重构网络的样本,动画重构网络用于在保留图像数据的内容的条件下、将该图像数据重构为包含由样本游戏改编的样本动画的风格(即动画风格)的图像数据,为便于区分,该游戏记为样本游戏,该动画记为样本动画。
样本动画属于视频数据,样本动画中具有多帧图像数据,帧率一般超过24帧/秒,以保证画面的流畅性,为便于区分,该图像数据记为样本图像数据。
步骤102、从样本图像数据中提取第一样本人脸数据。
在本实施例中,可以预先构建两个相互独立的生成对抗网络(GenerativeAdversarial Network,GAN),分别记为第一生成对抗网络、第二生成对抗网络。
一般情况下,生成对抗网络包括生成器和判别器。其中,生成器负责依据随机向量产生内容,在本实施例中,该内容为图像数据,尤其为具有由游戏改编的动画的风格的图像数据;判别器负责判别接收的内容是否是真实的,判别器通常会给出一个概率,代表内容的真实度。
生成器和判别器可以使用不同的结构,对于处理图像数据的功能,这些结构不局限于人工设计的神经网络,如卷积层(Convolutional Layer)、全连接层(Fully ConnectedLayers)等,也可以通过模型量化方法优化的神经网络,通过NAS(Neural ArchitectureSearch,神经网络结构搜索)方法针对动画风格搜索的神经网络,等等,本实施例对此不加以限制。
针对不同结构的生成器和判别器,可以将生成对抗网络划分为如下类型:
DCGAN(深度卷积生成对抗网络)、CGAN(条件生成对抗网络)、CycleGAN(周期生成对抗网络)、CoGAN(耦合生成对抗网络)、ProGAN(生成对抗网络的渐进式增长)、WGAN(Wasserstein生成对抗网络)、SAGAN(自注意力生成对抗网络)、BigGAN(大生成对抗性网络)、StyleGAN(基于风格的生成对抗网络)。
生成器和判别器存在对抗,所谓对抗,可以指在生成对抗网络交替训练的过程,以生成具有动画风格的图像数据为例,让生成器生成一些假的图像数据和真的图像数据,一起交给判别器判别,让它学习区分两者,给真的图像数据(即具有动画风格的图像数据)评高分,给假的图像数据(即不具有动画风格的图像数据)评低分,当判别器能够熟练判断现有的图像数据后,让生成器以从判别器处获得高分为目标,不断生成更好的假的图像数据,直到能骗过判别器,重复这一过程,直到判别器对任何图像数据的预测概率都接近0.5,也就是无法判别图像数据的真假,即可停止训练了。
在本实施例中,可从样本图像数据中进行人脸检测、从而提取样本动画中各个角色的人脸数据,该人脸数据一般以检测框标记,可作为训练第一生成对抗网络的样本,为便于区分,该人脸数据记为第一样本人脸数据。
在具体实现中,可以使用命令行工具、库文件等方式将样本动画切分为多个视频片段,以使每个视频片段中具有一个或多个独立的场景。
进一步而言,检测场景的方式包括如下两种:
1、阈值模式
针对存在明显场景边界的样本动画适用阈值模式,将每帧样本图像数据与设置的黑电平进行比较,基于检测的结果判断是否为淡入、淡出、切成黑色等场景的边界,从而在样本动画中划分场景。
2、内容模式
针对场景之间快速切换的样本动画适用内容模式,比较每帧样本图像数据,依次查找内容存在较大变化的样本图像数据,从而在样本动画中划分场景。
一般情况下,可以将包含一个独立场景的样本动画切分为一个视频片段,而考虑到某些包含一个独立场景的样本动画的时长较短,则可以将该场景与相邻的其他场景合并,将包含两个或两个以上相连场景的样本动画切分为一个视频片段,本实施例对此不加以限制。
在视频片段中可通过随机、间隔固定的时长等方式抽取多帧样本图像数据,在每帧样本图像数据中进行人脸检测,获得第一样本人脸数据。
其中,人脸检测也称为人脸关键点检测、定位或者人脸对齐,是指给定人脸数据,定位出人脸面部的关键区域位置,包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等等。
人脸检测通常使用如下方法:
1、利用人工提取特征,如haar特征,使用特征训练分类器,使用分类器进行人脸检测。
2、从通用的目标检测算法中继承人脸检测,例如,利用Faster R-CNN来检测人脸。
3、使用级联结构的卷积神经网络,例如,Cascade CNN(级联卷积神经网络),MTCNN(Multi-task Cascaded Convolutional Networks,多任务卷积神经网络)。
考虑到简单标记人脸数据即可满足训练第一生成对抗网络,因而人脸检测的算法的要求较低,允许存在噪音,可使用MTCNN等通用的卷积神经网络进行人脸检测。
本实施例按照场景将样本动画切分为视频片段(即切片),在视频片段中抽帧检测第一样本人脸数据,由于在同一个场景中的角色较为固定,因而第一样本人脸数据较为固定,通过切片与抽帧可以提高采样第一样本人脸数据的均匀性,提高第一样本人脸数据的多样性,从而提高第一生成对抗网络的性能。
此外,由于第一样本人脸数据可能存在噪音,因而可以对第一样本人脸数据进行预处理,筛选出质量较高的第一样本人脸数据:
1、亮度过滤
在本预处理中,可以对每个第一样本人脸数据计算亮度,并将第一样本人脸数据的亮度与预设的亮度范围进行比,其中,第一样本人脸数据的亮度属于一个整体上亮度的评估值,可以以第一样本人脸数据中各个像素点的平均值等方式表示。
如果第一样本人脸数据的亮度在预设的亮度范围内(即大于或等于亮度范围的下限值、且小于或等于亮度范围的上限值),则表示第一样本人脸数据的亮度合适,可以保留该第一样本人脸数据。
如果第一样本人脸数据的亮度在预设的亮度范围外(即小于亮度范围的下限值,或者,大于亮度范围的上限值),则表示第一样本人脸数据的亮度过暗或过亮,可以滤除亮度位于预设的亮度范围之外的第一样本人脸数据。
2、模糊过滤
在本预处理中,可以使用sobel、laplacian等算法对第一样本人脸数据计算模糊度,并将第一样本人脸数据的模糊度与预设的模糊阈值进行比较。
如果第一样本人脸数据的模糊度小于预设的模糊阈值,则第一样本人脸数据较为清晰,可以保留该第一样本人脸数据。
如果第一样本人脸数据的模糊度大于或等于预设的模糊阈值,则第一样本人脸数据较为模糊,可以滤除模糊度大于或等于预设的模糊阈值的样本图像数据。
当然,上述预处理只是作为示例,在实施本实施例时,可以根据实际情况设置其它预处理,本实施例对此不加以限制。另外,除了上述预处理外,本领域技术人员还可以根据实际需要采用其它预处理,本实施例对此也不加以限制。
步骤103、若第一样本人脸数据属于具有样本动画中风格的角色,则将第一样本人脸数据标记为第二样本人脸数据。
样本动画中具有多个角色,不同角色的重要程度不同,在美术人员在制作样本动画时可能会对不同的角色有所侧重,因而不同角色的第一样本人脸数据体现样本动画中风格的信息量有所不同,那么,在本实施例中,可以综合对比不同角色,筛选出具有样本动画中典型风格的角色,例如,眉毛比较浓厚、眼睛周围具有粗描边、嘴唇颜色较为深沉,等等,挑选出这些角色的第一样本人脸数据,标记为第二样本人脸数据,以此训练第一生成对抗网络,可以进一步提高第一生成对抗网络的性能。
角色的筛选由技术人员实现,在技术人员熟悉样本动画的情况下,筛选的效率较高,但考虑到样本动画较多,技术人员并不一定熟悉动画,而样本动画的时长较长,每季样本动画包含数十集样本动画,每集样本动画的时长从几分钟到20分钟不等,技术人员浏览、熟悉样本动画的过程会消耗较长的时间。
对此,在本发明的一个实施例中,步骤103可以包括如下步骤:
步骤1031、将第一样本人脸数据聚类至样本动画中的角色。
在对第一样本人脸数据置信人脸检测时,可以对第一样本人脸数据标记角色的ID,即,如果检测到已有角色的第一样本人脸数据,则可以将第一样本人脸数据映射至该角色的ID,如果检测到未知角色的第一样本人脸数据,则可以对该未知角色配置新的ID,将第一样本人脸数据映射至该角色的ID,从而实现将第一样本人脸数据聚类至样本动画中的各个角色。
考虑到美术人员、建模等与绘图因素,动画中各个角色的第一样本人脸数据之间通常具有一定的相似性,各个角色之间多以第一样本人脸数据、发型、服装等元素结合进行区分,如果以MTCNN等通用的卷积神经网络进行人脸检测,在标记角色的ID时可能存在一定的误差,对此,可以使用样本动画中其他简单的信息去进行校对,提高标记角色的ID的准确率,从而将误差降低至可接受的范围内,提高第一生成对抗网络的性能。
在具体实现中,样本动画是由样本游戏改编的,一般情况下,样本动画的资料更新会存在一定的滞后性,样本游戏的资料比样本动画的资料完整,因此,可以以样本游戏的名称作为关键词在网络上的百科库、游戏库等网站查找样本游戏的资料,从样本游戏的资料中查找样本动画中各个角色的名称。
一方面,通过逐帧比较表示嘴唇的人脸关键点,在样本图像数据中识别第三样本人脸数据,其中,第三样本人脸数据为嘴唇存在开合过程的第一样本人脸数据。
另一方面,通过OCR(optical character recognition,光学字符识别)在样本图像数据中识别字幕,字幕所在的区域一般位于样本图像数据的下方,在OCR识别的文本信息中提取指定区域内的文本信息,即可认为是字幕,允许存在一定的噪音。
将两者结合,可表示该第三样本人脸数据所属的角色说出内容为该字幕的话语。
若在字幕中查找到名称,则分析样本图像数据整个场景,得到字母表达的语义,从而按照字幕表达的语义对第三样本人脸数据生成标志信息。
示例性地,在字幕中查找表示自己的第一语义词(如“我”)、表示他人的第二语义词(如“你”、“他”)。
若查找到第一语义词,表示该名称属于说话者(即该第三样本人脸数据所属的角色),则可以对第三样本人脸数据生成标志信息为第三样本人脸数据与名称配对。
若查找到第二语义词,表示该名称不属于说话者(即该第三样本人脸数据所属的角色),则对第三样本人脸数据生成标志信息为第三样本人脸数据与名称不配对。
若标志信息表示第三样本人脸数据与名称配对,则允许将第三样本人脸数据聚类至同一名称的角色。
若标志信息表示第三样本人脸数据与名称不配对,则禁止将第三样本人脸数据聚类至同一名称的角色。
步骤1032、根据第一样本人脸数据在样本动画中的分布信息对角色统计指标数据。
一般情况下,样本动画中的各个角色按照重要程度区分为不同的类型,主要为主角、配角,主角的重要程度高于配角的重要程度,在配角方面也可以进一步划分主要配角、次要配角,主要配角的重要程度高于次要配角的重要程度。
由于样本动画是基于样本游戏改编的,改编的程度一般是监制人员根据用户的反响在不同集、不同季中进行调节,与样本游戏中的原剧情存在一定的差异,对此,本实施例对角色划分类型并不依赖样本游戏的资料,而根据第一样本人脸数据在样本动画中的分布信息对角色统计不同的指标数据,从而重新对角色划分不同的类型。
示例性地,对角色统计指标数据如下:
1、算术密度
在样本动画中统计角色的第一样本人脸数据在算术上的密度值,具体而言,如果在某集样本动画中出现该角色的第一样本人脸数据,则可以对该角色标记算术上的密度值为1,如果在某集样本动画中未出现该角色的第一样本人脸数据,则可以对该角色标记算术上的密度值为0。
2、频次
统计每个角色的第一样本人脸数据在样本动画中出现的平均频次,具体而言,统计每个角色的第一样本人脸数据在所有集样本动画中出现的总频次,计算总频次与样本动画的集数之间的比值,得到平均频次。
3、概率
统计每个角色的第一样本人脸数据在样本动画中出现的平均概率,具体而言,针对每集样本动画,分别统计所有角色的第一样本人脸数据的数量、每个角色的第一样本人脸数据的数量,计算每个角色的第一样本人脸数据的与所有角色的第一样本人脸数据的数量之间的比值,得到单次概率,计算所有单次概率的平均值,得到平均概率。
4、高频占比
针对每个角色,统计高频动画在所有样本动画中出现的占比,其中,高频动画为角色的第一样本人脸数据的数量大于预设的阈值的样本动画。
当然,上述指标数据只是作为示例,在实施本实施例时,可以根据实际情况设置其它指标数据,本实施例对此不加以限制。另外,除了上述指标数据外,本领域技术人员还可以根据实际需要采用其它指标数据,本实施例对此也不加以限制。
步骤1033、按照指标数据对角色配置表示典型程度的分数。
针对每个角色,可以通过线性或非线性的方式将该角色对应的各个指标数据融合为表示典型程度的分数。
以线性融合为例,分别将密度值乘以预设的第一权重,获得第一调权值,将平均频次乘以预设的第二权重,获得第二调权值,将平均概率乘以预设的第三权重,获得第三调权值,将占比乘以预设的第四权重,获得第四调权值。
其中,第一权重、第二权重、第三权重与第四权重之间的大小关系可以根据实验、经验等方式进行设置,例如,第四权重大于第二权重,第二权重大于第三权重,第三权重大于第一权重,等等,本实施例对此不加以限制。
将第一调权值、第二调权值、第三调权值与第四调权值相加,获得角色的、表示典型程度的分数。
步骤1034、按照分数在重要程度上对角色划分类型,并将角色的第一样本人脸数据及类型发送至制作者。
一般情况下,角色的分数越大,其重要程度越高,反之,角色的分数越小,其重要程度越低,因而可以按照不同角色的分数大小,将角色映射至对应的类型上。
示例性地,可以确定第一典型范围、第二典型范围、第三典型范围,其中,第一典型范围的数值大于第二典型范围的数值,第二典型范围的数值大于第三典型范围的数值。
将各个角色的分数依次与第一典型范围、第二典型范围、第三典型范围进行比较。
若分数在第一典型范围内,则确定角色的类型为主角。
若分数在第二典型范围内,则确定角色的类型为主要配角。
若分数在第三典型范围内,则确定角色的类型为次要配角。
将各个角色的第一样本人脸数据聚类为一个集合,将各个角色的集合及类型发送至制作者,制作者为制作动画重构网络的用户,可以以用户ID等数据标识,因而将各个角色的集合及类型发送至制作者可以指将各个角色的集合及类型发送至制作者登录的客户端,在该客户端上展示各个角色的集合及类型,制作者以类型辅助作为参考,浏览各个角色的集合中的第一样本人脸数据。
步骤1035、若接收到制作者针对角色的选定操作,则标记角色的第一样本人脸数据为第二样本人脸数据。
如果制作者选定某个角色的集合,则可以对该角色触发选定操作,此时,可标记角色的第一样本人脸数据为第二样本人脸数据。
在本实施例中,根据第一样本人脸数据在样本动画中的分布信息对角色统计指标数据,从而按照指标数据对角色配置表示典型程度的分数,并按照分数在重要程度上对角色划分类型,指标数据、分数较为客观,使得划分的类型更加贴近样本动画实际的剧情,制作者以这些数据作为参考选定第二样本人脸数据,可以降低主观性的影响,也减少了浏览、熟悉样本动画的过程消耗的时间,提高了效率。
由于样本动画的帧数较为有限,使得第二样本人脸数据的数量较为有限,因此,可以对第二样本人脸数据执行数据增强操作,从而提高第二样本人脸数据的数量。
其中,数据增强操作包括如下的至少一种:
在三维的空间中按照随机角度旋转第二样本人脸数据,将旋转之后的第二样本人脸数据投影至二维的平面,得到新的第二样本人脸数据。
随机对第二样本人脸数据进行裁剪,得到新的第二样本人脸数据。
对第二样本人脸数据镜像翻转,得到新的第二样本人脸数据。
当然,上述数据增强操作只是作为示例,在实施本实施例时,可以根据实际情况设置其它数据增强操作,本实施例对此不加以限制。另外,除了上述数据增强操作外,本领域技术人员还可以根据实际需要采用其它数据增强操作,本实施例对此也不加以限制。
步骤104、以第二样本人脸数据作为人脸风格的来源训练第一生成对抗网络,作为人脸重构网络。
在本实施例中,第二样本人脸数据为训练第一生成对抗网络的部分样本,其可以作为风格的来源训练第一生成对抗网络,将完成训练的第一生成对抗网络记为人脸重构网络,即,人脸重构网络用于将原人脸数据重构为包含样本动画中人脸风格的新的人脸数据,其中,样本游戏由样本游戏改编。
如果训练第一生成对抗网络的样本为成对数据(paired data),这样子的话,要收集第二样本人脸数据对应真实用户的人脸数据,但实际上并不存在,因此,本实施例中的第一生成对抗网络支持利用非成对数据(unpaired data)训练,例如,CycleGAN、StyleGAN,等等。
在具体实现中,可以从一些公开的数据集(如FFHQ(Flickr-Faces-HQ,高质量的人脸图像数据集))等方式获取真实人脸数据,真实人脸数据为真实用户的人脸数据,真实人脸数据与第二样本人脸数据并不要求满足对应关系,因而第一生成对抗网络的拓展性更好。
以第二样本人脸数据作为人脸风格的来源、真实人脸数据作为人脸内容的来源训练第一生成对抗网络,作为人脸重构网络。
以Perceptual Losses for Real-Time Style Transfer and Super-Resolution(固定风格任意内容的快速风格迁移网络)为例,固定风格任意内容的快速风格迁移网络包括图像转换网络(Image Transform Network)和损失网络(Loss Networ),图像转换网络一般为一些卷积的堆积,利用残差学习与跳跃链接优化,通过训练图像转换网络的权值来实现快速风格迁移,由于图像转换网络可以接受任意图像,所以这是任意内容的风格迁移,损失网络一般为VGG(Visual Geometry Group)16。
设原始图像为x,风格目标图为ys,内容目标图为yc,将原始图像x经过图像转换网络处理得到输出图像yx,映射关系为:yx=fW(x),其中,W为是图像转换网络的参数,x是图像转换网络的输入,yx是图像转换网络的输出。
损失网络的作用如下:
1、内容层面
将yx与yc在损失网络中间层的欧式距离作为Loss(损失值)训练图像转换网络,使yx与yc越来越接近。
2、风格层面
将yx与ys在损失网络多个中间层得到的feature map(特征图)生成的Gram(格拉姆)矩阵的欧式距离加权和作为Loss训练图像转换网络,使yx与ys越来越接近。
步骤105、以样本图像数据作为场景风格的来源训练第二生成对抗网络,作为场景重构网络。
在本实施例中,样本图像数据为训练第二生成对抗网络的部分样本,其可以作为风格的来源训练第二生成对抗网络,将完成训练的第二生成对抗网络记为场景重构网络,即,场景重构网络用于将原有的图像数据重构为包含样本动画中场景风格的新的图像数据,其中,样本游戏由样本游戏改编。
如果训练第二生成对抗网络的样本为成对数据(paired data),这样子的话,要收集样本图像数据对应真实世界的图像数据,但实际上并不存在,因此,本实施例中的第二生成对抗网络支持利用非成对数据(unpaired data)训练,例如,CycleGAN、StyleGAN,等等。
进一步而言,由于人脸重构网络的功能与场景重构网络的功能并不相同,因此,一般情况下,第一生成对抗网络的结构与第二生成对抗网络的结构并不相同。
在具体实现中,可以获取真实图像数据,真实图像数据为真实世界的图像数据,由于样本图像数据中既可能包含虚拟的环境也可能包含虚拟的人脸数据,因而真实图像数据中既可能包含真实的环境也可能包含真实的人脸数据。
但真实图像数据与样本图像数据并不要求满足对应关系,因而第二生成对抗网络的拓展性更好。
其中,记录真实环境且未包含人脸数据的真实图像数据的占比超过预设的比例阈值(如50%),这样子可以保证重构纯场景的风格的性能。
以样本图像数据作为场景风格的来源、真实图像数据为场景内容的来源训练第二生成对抗网络,作为场景重构网络。
以Learning to Cartoonize Using White-box Cartoon Representations(学习使用白盒卡通表示法进行卡通化网络)为例,该网络包含三个模块,可将原图和风格图分为三个表征:
1、surface(表面)表征
提取表面表征来表示图像数据的光滑表面。给定图像数据,可提取加权低频分量,其中颜色成分和表面纹理被保留,边缘、纹理和细节被忽略,可用于实现平滑表面的灵活和可学习的特征表示。
2、structure(结构)表征
结构表征可有效抓住赛璐珞卡通风格中的全局结构信息和稀疏色块从输入的图像数据中提取分割区域,对每个分割区域应用自适应着色算法以生成结构表征。结构表征可模仿赛璐珞卡通风格,其特点是边界清晰,色块稀疏。
3、texture(纹理)表征
纹理表征包含绘制的细节和边缘。输入的图像数据被转换为单通道强度图,其中去除了颜色和亮度,并保留了相对像素强度。纹理表征可引导网络独立学习高频纹理细节,排除颜色和亮度模式。
通过平衡表面表征、结构表征、纹理表征的权重来控制图像数据输出的风格。
步骤106、将人脸重构网络与场景重构网络输出为动画重构网络。
在人脸重构网络与场景重构网络均训练完成时,可以记录分别记录人脸重构网络的结构及参数、记录场景重构网络的结构及参数,将人脸重构网络与场景重构网络作为整体,输出记为动画重构网络。
在本实施例中,获取由样本游戏改编的样本动画,样本动画中具有多帧样本图像数据;从样本图像数据中提取第一样本人脸数据;若第一样本人脸数据属于具有样本动画中风格的角色,则将第一样本人脸数据标记为第二样本人脸数据;以第二样本人脸数据作为人脸风格的来源训练第一生成对抗网络,作为人脸重构网络;以样本图像数据作为场景风格的来源训练第二生成对抗网络,作为场景重构网络;将人脸重构网络与场景重构网络输出为动画重构网络。第一生成对抗网络可以重构样本游戏的人脸风格、第二生成对抗网络可以重构样本游戏的场景风格,两个生成对抗网络可以对人脸、场景进行不同程度的风格化、实现不同变化偏向,实现了个性化的动画风格化,动画风格化属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作动画风格化的视频数据的效率。
实施例二
图2为本发明实施例二提供的一种图像重构方法的流程图,本实施例可适用于基于动画重构网络将图像数据重构至由游戏改编的动画的风格的情况,该方法可以由图像重构装置来执行,该图像重构装置可以采用硬件和/或软件的形式实现,该图像重构装置可配置于电子设备中。如图2所示,该方法包括:
步骤201、加载动画重构网络。
在具体实现中,可以预先根据本发明实施例一所述的方法训练动画重构网络,其中,动画重构网络包括人脸重构网络与场景重构网络,人脸重构网络用于将原人脸数据重构为包含样本动画中人脸风格的新的人脸数据,场景重构网络用于将原有的图像数据重构为包含样本动画中场景风格的新的图像数据,其中,样本游戏由样本游戏改编。
在应用动画重构网络时,将人脸重构网络及其参数、场景重构网络及其参数加载至内存进行运行。
在本实施例中,人脸与场景的风格化程度、变化偏向是不一样的,示例性地,人脸希望像样本动画风格中的粗眉毛、瞳孔光明显等;而场景希望一定的色彩变化、光影区分明显,因此,区分人脸重构网络与场景重构网络进行处理。
步骤202、在待重构风格的原始图像数据中检测原始人脸数据。
一般情况下,动画重构网络的结构较为庞大,占用的资源较多,通常部署在服务端,服务端可将动画重构网络封装成接口、插件等方式,面向局域网或公网的用户提供重构动画风格的服务,用户可以通过客户端或浏览器以调用该接口、插件等方式将待重构风格的图像数据传输至服务端,为便于区分,待重构风格的图像数据记为原始图像数据,服务端可在原始图像数据中执行人脸检测,得到人脸数据,为便于区分,该人脸数据记为原始人脸数据。
当然,如果诸如个人电脑、笔记本电脑等电子设备本地的资源较多,可满足动画重构网络的运行,则可以在电子设备本地加载并运行动画重构网络,此时,可以通过命令行等方式输入待重构风格的原始图像数据,并在该原始图像数据中检测原始人脸数据,其中,原始人脸数据以检测框标记。
步骤203、将原始人脸数据输入至人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据。
在本实施例中,将原始人脸数据输入至人脸重构网络中,人脸重构网络按照其结构对原始人脸数据进行处理,将原始人脸数据重构为包含由样本游戏改编的动画的人脸风格的新的人脸数据,记为目标人脸数据。
步骤204、将目标人脸数据贴回原始图像数据中,得到候选图像数据。
在本实施例中,将目标人脸数据贴回原始图像数据中,得到新的图像数据,记为候选图像数据。
在具体实现中,考虑到风格化之后的目标人脸数据并未发生明显的位移,因此,可以查询在检测原始人脸数据时标记的人脸关键点,从而通过人脸关键点将目标人脸数据映射回原始图像数据中,得到候选图像数据,即,遍历每个人脸关键点,针对同一人脸关键点,将目标人脸数据中表示该人脸关键点的像素点与原始图像数据中表示该人脸关键点的像素点对齐,在对齐完成时,将目标人脸数据贴在映射回原始图像数据之上。
步骤205、将候选图像数据输入至场景重构网络中重构为包含由样本游戏改编的动画的场景风格的目标图像数据。
在本实施例中,将候选图像数据输入至场景重构网络中,场景重构网络按照其结构对候选图像数据进行处理,将候选图像数据重构为包含由样本游戏改编的动画的场景风格的新的图像数据,记为目标图像数据,实现均匀化处理。
此后,可以对目标图像数据执行整体的图像处理,例如,调整亮度、调整饱和度,等等,以提高目标图像数据的质量。
在一个示例中,针对如图3A所示的原始图像数据,可以提取如图3B所示的原始人脸数据,调用人脸重构网络对原始人脸数据重构为如图3C所示的目标人脸数据,对比图3B与图3C,目标人脸数据相比于原始人脸数据,眉毛更粗、嘴唇棱角更明显、瞳孔光更明显,将图3C所示的目标人脸数据贴回原始图像数据,得到如图3D所示的候选图像数据,调用场景重构网络对候选图像数据重构为如图3E所示的目标图像数据。
在本实施例中,加载根据动画重构网络,样本动画重构网络包括人脸重构网络与场景重构网络;在待重构风格的原始图像数据中检测原始人脸数据;将原始人脸数据输入至人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据;将原始图像数据输入至场景重构网络中重构为包含由样本游戏改编的动画的场景风格的候选图像数据;将目标人脸数据贴回候选图像数据中,得到目标图像数据。人脸重构网络可以重构样本游戏的人脸风格、场景重构网络可以重构样本游戏的场景风格,两个网络可以对人脸、场景进行不同程度的风格化、实现不同变化偏向,实现了个性化的动画风格化,动画风格化属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作动画风格化的视频数据的效率。
实施例三
图4为本发明实施例三提供的一种视频重构方法的流程图,本实施例可适用于基于动画重构网络将视频数据重构至由游戏改编的动画的风格的情况,该方法可以由视频重构装置来执行,该视频重构装置可以采用硬件和/或软件的形式实现,该视频重构装置可配置于电子设备中。如图4所示,该方法包括:
步骤401、加载动画重构网络。
在具体实现中,可以预先根据本发明实施例一所述的方法训练动画重构网络,其中,动画重构网络包括人脸重构网络与场景重构网络,人脸重构网络用于将原人脸数据重构为包含样本动画中人脸风格的新的人脸数据,场景重构网络用于将原有的图像数据重构为包含样本动画中场景风格的新的图像数据,其中,样本游戏由样本游戏改编。
在应用动画重构网络时,将人脸重构网络及其参数、场景重构网络及其参数加载至内存进行运行。
在本实施例中,人脸数据与场景的风格化程度、变化偏向是不一样的,示例性地,人脸数据希望像样本动画风格中的粗眉毛、瞳孔光明显等;而场景希望一定的色彩变化、光影区分明显,因此,区分人脸重构网络与场景重构网络进行处理。
步骤402、获取内容为介绍目标游戏的原始视频数据。
在本实施例中,美术人员可以针对待推广目标的游戏制作视频数据,该视频数据的内容用于介绍该游戏,为便于区分,该游戏记为目标游戏,该视频数据记为原始视频数据。
其中,目标游戏的类型可以包括MOBA、RPG、SLG等等,本实施例对此不加以限制。
在具体实现中,原始视频数据的内容可以划分为目标游戏的内容、真实的剧情两种主要的形式,其中剧情可以进一步划分为如下类别:
1、伪美食分享
原始视频数据包含一些美食类的素材,可以吸引起用户的注意,其次植入赚钱吃美食的玩法,与此同时还给用户们提供了一个非常明确的玩游戏的目标。
2、贴近用户生活题材
原始视频数据贴近用户现在的生活状态,将目标游戏的卖点植入到生活的方方面面,购买目标游戏的道具、吃饭、买零食等方式使用目标游戏赚钱付款。这类素材的制作也较为简单,场景单一且拍摄难度低,素材前半段主要以2人对话为主,后半段为目标游戏的植入片段。
3、情景剧
原始视频数据包含情景剧的素材,部分情况为明星穿着目标游戏中的服饰代言,某些剧情较为夸张,用以吸引起用户的注意。
一般情况下,动画重构网络的结构较为庞大,占用的资源较多,通常部署在服务端,服务端可将动画重构网络封装成接口、插件等方式,面向局域网或公网的用户提供重构动画风格的服务,用户可以通过客户端或浏览器以调用该接口、插件等方式将待重构风格的视频数据传输至服务端,为便于区分,待重构风格的视频数据记为原始视频数据,在原始视频数据中具有多帧原始图像数据,至少部分原始图像数据中具有原始人脸数据,那么,服务端可在原始视频数据中执行人脸检测,得到人脸数据,为便于区分,该人脸数据记为原始人脸数据。
当然,如果诸如个人电脑、笔记本电脑等电子设备本地的资源较多,可满足动画重构网络的运行,则可以在电子设备本地加载并运行动画重构网络,此时,可以通过命令行等方式输入待重构风格的原始视频数据,并在该原始视频数据的至少部分原始图像数据中检测原始人脸数据,其中,原始人脸数据以检测框标记。
进一步而言,为了后期对各帧目标图像数据进行平滑,在识别到原始人脸数据但是没有识别到人脸关键点的情况,则可以对比当前帧原始图像数据的检测框与前一帧图像数据的检测框,在两者相似的情况下,复用前一帧检测的人脸关键点。
在识别不到原始人脸数据的情况下,对比当前帧原始图像数据的脸部区域与前一帧图像数据的脸部区域之间的变化,如果变化较小(表现为小于变化阈值),则可以复用前一帧的识别结果(即人脸关键点与检测框)。
步骤403、将原始人脸数据输入至人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据。
在本实施例中,将原始人脸数据输入至人脸重构网络中,人脸重构网络按照其结构对原始人脸数据进行处理,将原始人脸数据重构为包含由样本游戏改编的动画的人脸风格的新的人脸数据,记为目标人脸数据。
步骤404、将目标人脸数据贴回原始图像数据中,得到候选图像数据。
在本实施例中,将目标人脸数据贴回原始图像数据中,得到新的图像数据,记为候选图像数据。
在具体实现中,考虑到风格化之后的目标人脸数据并未发生明显的位移,因此,可以查询在检测原始人脸数据时标记的人脸关键点,从而通过人脸关键点将目标人脸数据映射回原始图像数据中,得到候选图像数据,即,遍历每个人脸关键点,针对同一人脸关键点,将目标人脸数据中表示该人脸关键点的像素点与原始图像数据中表示该人脸关键点的像素点对齐,在对齐完成时,将目标人脸数据贴在映射回原始图像数据之上。
步骤405、将候选图像数据输入至场景重构网络中重构为包含由样本游戏改编的动画的场景风格的目标图像数据。
在本实施例中,将候选图像数据输入至场景重构网络中,场景重构网络按照其结构对候选图像数据进行处理,将候选图像数据重构为包含由样本游戏改编的动画的场景风格的新的图像数据,记为目标图像数据,实现均匀化处理。
此后,可以对目标图像数据执行整体的图像处理,例如,调整亮度、调整饱和度,等等,以提高目标图像数据的质量。
步骤406、在原始视频数据中将目标图像数据替换原始图像数据,获得目标视频数据。
在原始视频数据中,可以将目标图像数据替换相应的原始图像数据,获得目标视频数据。
此后,可以在目标视频数据中添加与目标游戏相关的广告元素数据,获得广告视频数据,其中,广告元素数据包括用于分发目标游戏的平台的LOGO(图标)、Banner(横幅广告)、EC(结束片段,一般包含目标游戏的信息(如名称、分发目标游戏的平台等)),等等。
在指定的渠道(如新闻资讯、短视频、小说阅读、运动健康等)发布广告视频数据,以在客户端访问渠道时,将广告视频数据推送至客户端进行播放,用户在对目标游戏感兴趣时,从分发目标游戏的平台中下载目标游戏。
在本实施例中,加载根据动画重构网络,样本动画重构网络包括人脸重构网络与场景重构网络;获取内容为介绍目标游戏的原始视频数据,原始视频数据中具有多帧原始图像数据,至少部分原始图像数据中具有原始人脸数据;将原始人脸数据输入至人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据;将原始图像数据输入至场景重构网络中重构为包含由样本游戏改编的动画的场景风格的候选图像数据;将目标人脸数据贴回候选图像数据中,得到目标图像数据;在原始视频数据中将目标图像数据替换原始图像数据,获得目标视频数据。人脸重构网络可以重构样本游戏的人脸风格、场景重构网络可以重构样本游戏的场景风格,两个网络可以对人脸、场景进行不同程度的风格化、实现不同变化偏向,实现了个性化的动画风格化,动画风格化属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作动画风格化的视频数据的效率。
实施例四
图5为本发明实施例四提供的一种动画重构网络的训练装置的结构示意图。如图5所示,该装置包括:
样本动画获取模块501,用于获取由样本游戏改编的样本动画,所述样本动画中具有多帧样本图像数据;
第一样本人脸数据提取模块502,用于从所述样本图像数据中提取第一样本人脸数据;
第二样本人脸数据标记模块503,用于若所述第一样本人脸数据属于具有所述样本动画中风格的角色,则将所述第一样本人脸数据标记为第二样本人脸数据;
人脸重构网络训练模块504,用于以所述第二样本人脸数据作为人脸风格的来源训练第一生成对抗网络,作为人脸重构网络;
场景重构网络训练模块505,用于以所述样本图像数据作为场景风格的来源训练第二生成对抗网络,作为场景重构网络;
动画重构网络输出模块506,用于将所述人脸重构网络与所述场景重构网络输出为动画重构网络。
在本发明的一个实施例中,所述第一样本人脸数据提取模块502还用于:
将所述样本动画切分为多个视频片段,以使每个所述视频片段中具有独立的场景;
在所述视频片段中抽取多帧所述样本图像数据;
在所述样本图像数据中进行人脸检测,获得第一样本人脸数据。
在本发明的一个实施例中,所述第一样本人脸数据提取模块502还用于:
对所述第一样本人脸数据计算亮度;
滤除所述亮度位于预设的亮度范围之外的所述样本图像数据;
对所述第一样本人脸数据计算模糊度;
滤除所述模糊度大于或等于预设的模糊阈值的所述样本图像数据。
在本发明的一个实施例中,所述第二样本人脸数据标记模块503还用于:
将所述第一样本人脸数据聚类至所述样本动画中的角色;
根据所述第一样本人脸数据在所述样本动画中的分布信息对所述角色统计指标数据;
按照所述指标数据对所述角色配置表示典型程度的分数;
按照所述分数在重要程度上对所述角色划分类型,并将所述角色的所述第一样本人脸数据及所述类型发送至制作者;
若接收到所述制作者针对所述角色的选定操作,则标记所述角色的所述第一样本人脸数据为第二样本人脸数据。
在本发明的一个实施例中,所述第二样本人脸数据标记模块503还用于:
从所述样本游戏的资料中查找所述样本动画中各个角色的名称;
在所述样本图像数据中识别第三样本人脸数据、字幕,所述第三样本人脸数据为嘴唇存在开合过程的所述第一样本人脸数据;
若在所述字幕中查找到所述名称,则按照所述字幕表达的语义对所述第三样本人脸数据生成标志信息;
若所述标志信息表示所述第三样本人脸数据与所述名称配对,则允许将所述第三样本人脸数据聚类至同一所述名称的所述角色;
若所述标志信息表示所述第三样本人脸数据与所述名称不配对,则禁止将所述第三样本人脸数据聚类至同一所述名称的所述角色。
在本发明的一个实施例中,所述第二样本人脸数据标记模块503还用于:
在所述字幕中查找表示自己的第一语义词、表示他人的第二语义词;
若查找到所述第一语义词,则对所述第三样本人脸数据生成标志信息为所述第三样本人脸数据与所述名称配对;
若查找到所述第二语义词,则对所述第三样本人脸数据生成标志信息为所述第三样本人脸数据与所述名称不配对。
在本发明的一个实施例中,所述第二样本人脸数据标记模块503还用于:
在所述样本动画中统计所述角色的所述第一样本人脸数据在算术上的密度值;
统计每个所述角色的所述第一样本人脸数据在所述样本动画中出现的平均频次;
统计每个所述角色的所述第一样本人脸数据在所述样本动画中出现的平均概率;
统计高频动画出现的占比,所述高频动画为所述角色的所述第一样本人脸数据的数量大于预设的阈值的所述样本动画。
在本发明的一个实施例中,所述第二样本人脸数据标记模块503还用于:
将所述密度值乘以预设的第一权重,获得第一调权值;
将所述平均频次乘以预设的第二权重,获得第二调权值;
将所述平均概率乘以预设的第三权重,获得第三调权值;
将所述占比乘以预设的第四权重,获得第四调权值;
将所述第一调权值、所述第二调权值、所述第三调权值与所述第四调权值相加,获得所述角色的、表示典型程度的分数。
在本发明的一个实施例中,所述第二样本人脸数据标记模块503还用于:
确定第一典型范围、第二典型范围、第三典型范围,所述第一典型范围的数值大于所述第二典型范围的数值,所述第二典型范围的数值大于所述第三典型范围的数值;
若所述分数在所述第一典型范围内,则确定所述角色的类型为主角;
若所述分数在所述第二典型范围内,则确定所述角色的类型为主要配角;
若所述分数在所述第三典型范围内,则确定所述角色的类型为次要配角。
在本发明的一个实施例中,该装置还包括:
数据增强操作模块,用于对所述第二样本人脸数据执行数据增强操作,其中,所述数据增强操作包括如下的至少一种:
在三维的空间中按照随机角度旋转所述第二样本人脸数据,将旋转之后的所述第二样本人脸数据投影至二维的平面;
随机对所述第二样本人脸数据进行裁剪;
对所述第二样本人脸数据镜像翻转。
在本发明的一个实施例中,所述人脸重构网络训练模块504还用于:
获取真实人脸数据;
以所述第二样本人脸数据作为人脸风格的来源、所述真实人脸数据作为人脸内容的来源训练第一生成对抗网络,作为人脸重构网络。
在本发明的一个实施例中,所述场景重构网络训练模块505还用于:
获取真实图像数据,其中,记录真实环境且未包含人脸数据的所述真实图像数据的占比超过预设的比例阈值;
以所述样本图像数据作为场景风格的来源、所述真实图像数据为场景内容的来源训练第二生成对抗网络,作为场景重构网络。
本发明实施例所提供的动画重构网络的训练装置可执行本发明任意实施例所提供的动画重构网络的训练方法,具备执行动画重构网络的训练方法相应的功能模块和有益效果。
实施例五
图6为本发明实施例五提供的一种图像重构装置的结构示意图。如图6所示,该装置包括:
动画重构网络加载模块601,用于加载根据本发明任一实施例所述的方法训练的动画重构网络,所述样本动画重构网络包括人脸重构网络与场景重构网络;
原始人脸数据检测模块602,用于在待重构风格的原始图像数据中检测原始人脸数据;
目标人脸数据重构模块603,用于将所述原始人脸数据输入至所述人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据;
候选图像数据重构模块604,用于将所述目标人脸数据贴回所述原始图像数据中,得到候选图像数据;
目标图像数据生成模块605,用于将所述候选图像数据输入至所述场景重构网络中重构为包含由样本游戏改编的动画的场景风格的目标图像数据。
在本发明的一个实施例中,所述候选图像数据重构模块604还用于:
查询在检测所述原始人脸数据时标记的人脸关键点;
通过所述人脸关键点将所述目标人脸数据映射回所述原始图像数据中,得到候选图像数据。
本发明实施例所提供的图像重构装置可执行本发明任意实施例所提供的图像重构方法,具备执行图像重构方法相应的功能模块和有益效果。
实施例六
图7为本发明实施例六提供的一种视频重构装置的结构示意图。如图7所示,该装置包括:
动画重构网络加载模块701,用于加载根据本发明任一实施例所述的方法训练的动画重构网络,所述样本动画重构网络包括人脸重构网络与场景重构网络;
原始视频数据获取模块702,用于获取内容为介绍目标游戏的原始视频数据,所述原始视频数据中具有多帧原始图像数据,至少部分所述原始图像数据中具有原始人脸数据;
目标人脸数据重构模块703,用于将所述原始人脸数据输入至所述人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据;
候选图像数据重构模块704,用于将所述目标人脸数据贴回所述原始图像数据中,得到候选图像数据;
目标图像数据生成模块705,用于将所述候选图像数据输入至所述场景重构网络中重构为包含由样本游戏改编的动画的场景风格的目标图像数据;
目标视频数据生成模块706,用于在所述原始视频数据中将所述目标图像数据替换所述原始图像数据,获得目标视频数据。
在本发明的一个实施例中,还包括:
广告视频数据生成模块,用于在所述目标视频数据中添加与所述目标游戏相关的广告元素数据,获得广告视频数据;
广告视频数据发布模块,用于在指定的渠道发布所述广告视频数据,以在客户端访问所述渠道时,将所述广告视频数据推送至所述客户端进行播放。
本发明实施例所提供的视频重构装置可执行本发明任意实施例所提供的视频重构方法,具备执行视频重构方法相应的功能模块和有益效果。
实施例七
图8示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如动画重构网络的训练方法、图像重构方法、视频重构方法。
在一些实施例中,动画重构网络的训练方法、图像重构方法、视频重构方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的动画重构网络的训练方法、图像重构方法、视频重构方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行动画重构网络的训练方法、图像重构方法、视频重构方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (17)

1.一种动画重构网络的训练方法,其特征在于,包括:
获取由样本游戏改编的样本动画,所述样本动画中具有多帧样本图像数据;
从所述样本图像数据中提取第一样本人脸数据;
若所述第一样本人脸数据属于具有所述样本动画中风格的角色,则将所述第一样本人脸数据标记为第二样本人脸数据;
以所述第二样本人脸数据作为人脸风格的来源训练第一生成对抗网络,作为人脸重构网络;
以所述样本图像数据作为场景风格的来源训练第二生成对抗网络,作为场景重构网络;
将所述人脸重构网络与所述场景重构网络输出为动画重构网络。
2.根据权利要求1所述的方法,其特征在于,所述从所述样本图像数据中提取第一样本人脸数据,包括:
将所述样本动画切分为多个视频片段,以使每个所述视频片段中具有独立的场景;
在所述视频片段中抽取多帧所述样本图像数据;
在所述样本图像数据中进行人脸检测,获得第一样本人脸数据。
3.根据权利要求2所述的方法,其特征在于,所述从所述样本图像数据中提取第一样本人脸数据,还包括:
对所述第一样本人脸数据计算亮度;
滤除所述亮度位于预设的亮度范围之外的所述样本图像数据;
对所述第一样本人脸数据计算模糊度;
滤除所述模糊度大于或等于预设的模糊阈值的所述样本图像数据。
4.根据权利要求1所述的方法,其特征在于,所述若所述第一样本人脸数据属于具有所述样本动画中风格的角色,则将所述第一样本人脸数据标记为第二样本人脸数据,包括:
将所述第一样本人脸数据聚类至所述样本动画中的角色;
根据所述第一样本人脸数据在所述样本动画中的分布信息对所述角色统计指标数据;
按照所述指标数据对所述角色配置表示典型程度的分数;
按照所述分数在重要程度上对所述角色划分类型,并将所述角色的所述第一样本人脸数据及所述类型发送至制作者;
若接收到所述制作者针对所述角色的选定操作,则标记所述角色的所述第一样本人脸数据为第二样本人脸数据。
5.根据权利要求4所述的方法,其特征在于,所述将所述第一样本人脸数据聚类至所述样本动画中的角色,包括:
从所述样本游戏的资料中查找所述样本动画中各个角色的名称;
在所述样本图像数据中识别第三样本人脸数据、字幕,所述第三样本人脸数据为嘴唇存在开合过程的所述第一样本人脸数据;
若在所述字幕中查找到所述名称,则按照所述字幕表达的语义对所述第三样本人脸数据生成标志信息;
若所述标志信息表示所述第三样本人脸数据与所述名称配对,则允许将所述第三样本人脸数据聚类至同一所述名称的所述角色;
若所述标志信息表示所述第三样本人脸数据与所述名称不配对,则禁止将所述第三样本人脸数据聚类至同一所述名称的所述角色。
6.根据权利要求5所述的方法,其特征在于,所述按照所述字幕表达的语义对所述第三样本人脸数据生成标志信息,包括:
在所述字幕中查找表示自己的第一语义词、表示他人的第二语义词;
若查找到所述第一语义词,则对所述第三样本人脸数据生成标志信息为所述第三样本人脸数据与所述名称配对;
若查找到所述第二语义词,则对所述第三样本人脸数据生成标志信息为所述第三样本人脸数据与所述名称不配对。
7.根据权利要求4所述的方法,其特征在于,所述根据所述第一样本人脸数据在所述样本动画中的分布信息对所述角色统计指标数据,包括:
在所述样本动画中统计所述角色的所述第一样本人脸数据在算术上的密度值;
统计每个所述角色的所述第一样本人脸数据在所述样本动画中出现的平均频次;
统计每个所述角色的所述第一样本人脸数据在所述样本动画中出现的平均概率;
统计高频动画出现的占比,所述高频动画为所述角色的所述第一样本人脸数据的数量大于预设的阈值的所述样本动画。
8.根据权利要求7所述的方法,其特征在于,所述按照所述指标数据对所述角色配置表示典型程度的分数,包括:
将所述密度值乘以预设的第一权重,获得第一调权值;
将所述平均频次乘以预设的第二权重,获得第二调权值;
将所述平均概率乘以预设的第三权重,获得第三调权值;
将所述占比乘以预设的第四权重,获得第四调权值;
将所述第一调权值、所述第二调权值、所述第三调权值与所述第四调权值相加,获得所述角色的、表示典型程度的分数。
9.根据权利要求4所述的方法,其特征在于,所述按照所述分数在重要程度上对所述角色划分类型,包括:
确定第一典型范围、第二典型范围、第三典型范围,所述第一典型范围的数值大于所述第二典型范围的数值,所述第二典型范围的数值大于所述第三典型范围的数值;
若所述分数在所述第一典型范围内,则确定所述角色的类型为主角;
若所述分数在所述第二典型范围内,则确定所述角色的类型为主要配角;
若所述分数在所述第三典型范围内,则确定所述角色的类型为次要配角。
10.根据权利要求1所述的方法,其特征在于,在所述若所述第一样本人脸数据属于具有所述样本动画中风格的角色,则将所述第一样本人脸数据标记为第二样本人脸数据之后,所述方法还包括:
对所述第二样本人脸数据执行数据增强操作,其中,所述数据增强操作包括如下的至少一种:
在三维的空间中按照随机角度旋转所述第二样本人脸数据,将旋转之后的所述第二样本人脸数据投影至二维的平面;
随机对所述第二样本人脸数据进行裁剪;
对所述第二样本人脸数据镜像翻转。
11.根据权利要求1-9中任一项所述的方法,其特征在于,
所述以所述第二样本人脸数据作为人脸风格的来源训练第一生成对抗网络,作为人脸重构网络,包括:
获取真实人脸数据;
以所述第二样本人脸数据作为人脸风格的来源、所述真实人脸数据作为人脸内容的来源训练第一生成对抗网络,作为人脸重构网络;
所述以所述样本图像数据作为场景风格的来源训练第二生成对抗网络,作为场景重构网络,包括:
获取真实图像数据,其中,记录真实环境且未包含人脸数据的所述真实图像数据的占比超过预设的比例阈值;
以所述样本图像数据作为场景风格的来源、所述真实图像数据为场景内容的来源训练第二生成对抗网络,作为场景重构网络。
12.一种图像重构方法,其特征在于,包括:
加载根据权利要求1-11任一项所述的方法训练的动画重构网络,所述样本动画重构网络包括人脸重构网络与场景重构网络;
在待重构风格的原始图像数据中检测原始人脸数据;
将所述原始人脸数据输入至所述人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据;
将所述目标人脸数据贴回所述原始图像数据中,得到候选图像数据;
将所述候选图像数据输入至所述场景重构网络中重构为包含由样本游戏改编的动画的场景风格的目标图像数据。
13.根据权利要求12所述的方法,其特征在于,所述将所述目标人脸数据贴回所述原始图像数据中,得到候选图像数据,包括:
查询在检测所述原始人脸数据时标记的人脸关键点;
通过所述人脸关键点将所述目标人脸数据映射回所述原始图像数据中,得到候选图像数据。
14.一种视频重构方法,其特征在于,包括:
加载根据权利要求1-11任一项所述的方法训练的动画重构网络,所述样本动画重构网络包括人脸重构网络与场景重构网络;
获取内容为介绍目标游戏的原始视频数据,所述原始视频数据中具有多帧原始图像数据,至少部分所述原始图像数据中具有原始人脸数据;
将所述原始人脸数据输入至所述人脸重构网络中重构为包含由样本游戏改编的动画的人脸风格的目标人脸数据;
将所述目标人脸数据贴回所述原始图像数据中,得到候选图像数据;
将所述候选图像数据输入至所述场景重构网络中重构为包含由样本游戏改编的动画的场景风格的目标图像数据;
在所述原始视频数据中将所述目标图像数据替换所述原始图像数据,获得目标视频数据。
15.根据权利要求14所述的方法,其特征在于,还包括:
在所述目标视频数据中添加与所述目标游戏相关的广告元素数据,获得广告视频数据;
在指定的渠道发布所述广告视频数据,以在客户端访问所述渠道时,将所述广告视频数据推送至所述客户端进行播放。
16.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的动画重构网络的训练方法或者权利要求12-13中任一项所述的图像重构方法或者权利要求14-15中任一项所述的视频重构方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现权利要求1-11中任一项所述的动画重构网络的训练方法或者权利要求12-13中任一项所述的图像重构方法或者权利要求14-15中任一项所述的视频重构方法。
CN202210892683.0A 2022-07-27 2022-07-27 动画重构网络的训练及其图像重构、视频重构方法与设备 Pending CN115222858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210892683.0A CN115222858A (zh) 2022-07-27 2022-07-27 动画重构网络的训练及其图像重构、视频重构方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210892683.0A CN115222858A (zh) 2022-07-27 2022-07-27 动画重构网络的训练及其图像重构、视频重构方法与设备

Publications (1)

Publication Number Publication Date
CN115222858A true CN115222858A (zh) 2022-10-21

Family

ID=83614093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210892683.0A Pending CN115222858A (zh) 2022-07-27 2022-07-27 动画重构网络的训练及其图像重构、视频重构方法与设备

Country Status (1)

Country Link
CN (1) CN115222858A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644296A (zh) * 2023-07-27 2023-08-25 北京斯年智驾科技有限公司 一种数据增强方法及装置
CN117689026A (zh) * 2023-12-12 2024-03-12 山东浪潮科学研究院有限公司 一种生成式的聊天对话方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644296A (zh) * 2023-07-27 2023-08-25 北京斯年智驾科技有限公司 一种数据增强方法及装置
CN116644296B (zh) * 2023-07-27 2023-10-03 北京斯年智驾科技有限公司 一种数据增强方法及装置
CN117689026A (zh) * 2023-12-12 2024-03-12 山东浪潮科学研究院有限公司 一种生成式的聊天对话方法

Similar Documents

Publication Publication Date Title
US10255681B2 (en) Image matting using deep learning
Smith et al. Harnessing ai for augmenting creativity: Application to movie trailer creation
US10127945B2 (en) Visualization of image themes based on image content
CN111738243B (zh) 人脸图像的选择方法、装置、设备及存储介质
CN103988202B (zh) 基于索引和搜索的图像吸引力
US10248865B2 (en) Identifying presentation styles of educational videos
CN115222858A (zh) 动画重构网络的训练及其图像重构、视频重构方法与设备
Ge et al. Co-saliency detection via inter and intra saliency propagation
CN106663196A (zh) 视频中的计算机显著人物识别
CN115100334B (zh) 一种图像描边、图像动漫化方法、设备及存储介质
CN112272295B (zh) 具有三维效果的视频的生成方法、播放方法、装置及设备
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
CN109408672A (zh) 一种文章生成方法、装置、服务器及存储介质
CN117058271A (zh) 用于生成商品主图背景的方法及计算设备
Sebyakin et al. Spatio-temporal deepfake detection with deep neural networks
CN115661302A (zh) 一种视频编辑方法、装置、设备及存储介质
Laishram et al. Challenges and applications of face deepfake
CN115272057A (zh) 卡通素描图像重构网络的训练及其重构方法与设备
US20220375223A1 (en) Information generation method and apparatus
Ramos et al. Personalizing fast-forward videos based on visual and textual features from social network
Hong et al. Advances in Multimedia Information Processing–PCM 2018: 19th Pacific-Rim Conference on Multimedia, Hefei, China, September 21-22, 2018, Proceedings, Part III
Chai et al. An artistic analysis model based on sequence cartoon images for scratch
CN111818364A (zh) 视频融合方法、系统、设备及介质
CN115829828A (zh) 游戏图像重构网络的训练及重构方法、设备与存储介质
CN114328990B (zh) 图像完整性识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination