CN116112762A - 一种基于元学习的补充数据下的说话视频生成方法 - Google Patents

一种基于元学习的补充数据下的说话视频生成方法 Download PDF

Info

Publication number
CN116112762A
CN116112762A CN202310403985.1A CN202310403985A CN116112762A CN 116112762 A CN116112762 A CN 116112762A CN 202310403985 A CN202310403985 A CN 202310403985A CN 116112762 A CN116112762 A CN 116112762A
Authority
CN
China
Prior art keywords
data
model
meta
speaking video
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310403985.1A
Other languages
English (en)
Inventor
熊盛武
杨猛
路雄博
陈如意
陈亚雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanya Science and Education Innovation Park of Wuhan University of Technology
Original Assignee
Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanya Science and Education Innovation Park of Wuhan University of Technology filed Critical Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority to CN202310403985.1A priority Critical patent/CN116112762A/zh
Publication of CN116112762A publication Critical patent/CN116112762A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于元学习的补充数据下的说话视频生成方法,获取训练数据和补充数据,对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集;构建端到端的生成对抗网络作为元学习的元模型;基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练得到参考模型;根据补充任务集对参考模型进行微调得到特定人的说话视频模型;基于特定人的说话视频模型以及特定人的参考数据,生成与参考数据对应的说话视频。本发明提出了使用基于元学习的方法训练模型,使用Reptile梯度更新进行训练,得到泛化性好的模型参数,然后利用补充数据进行微调,生成特定人的图片,并且和语音有很好的语义一致性,实现说话视频中唇形和语音的同步。

Description

一种基于元学习的补充数据下的说话视频生成方法
技术领域
本发明属于深度学习和跨模态技术领域,具体涉及一种基于元学习的补充数据下的说话视频生成方法。
背景技术
近年来,随着人工智能的发展,说话视频能够帮助理解听觉信息,通过生成任务能够帮助理解语音和唇部的关联,在视频编辑、虚拟现实(VR)、数字人物等应用上也有重要的应用价值。
现实场景中,通常可以获得少量的额外参考视频,比如在视频会议中,一段时间的说话视频,数字人物的配音中短时唇形同步说话视频等。这些少量的参考视频作为输入应该能够帮助模型得到更符合参考视频的语义一致性模型,比如口音和唇形之间的关系。
而现在的研究方法多是基于长达上千小时的说话视频数据集,当提供这种少量补充说话数据时,往往不能很好的学到数据中的特征,泛化能力不足,即存在补充数据场景下的语音驱动生成的说话视频语义一致性不佳的问题。
发明内容
本发明的目的就是为了解决上述背景技术存在的不足,提供一种基于元学习的补充数据下的说话视频生成方法,当提供少量额外参考视频时,能够学习到参考视频中的语义一致性特征,生成更好的说话视频。
本发明采用的技术方案是:一种基于元学习的补充数据下的说话视频生成方法,包括以下步骤:
获取训练数据和补充数据,对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集;
构建端到端的生成对抗网络作为元学习的元模型;
基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练和测试得到参考模型;
根据补充任务集对参考模型进行微调得到特定人的说话视频模型;
基于特定人的说话视频模型以及特定人的参考数据,生成与参考数据对应的说话视频。
进一步地,所述数据处理的过程为:将数据中的说话视频拆分为图片数据和语音数据,对图片数据进行处理得到若干帧人脸居中的人脸图片形成图片序列;对语音数据进行处理得到音频序列,所述图片序列和音频序列为语义一致的片段。
进一步地,所述对图片数据进行处理包括进行人脸检测、人脸对齐、人脸图片边界框检测和裁剪处理。
进一步地,对语音数据进行MFCC特征的计算得到音频序列。
进一步地,所述补充数据为特定人的说话视频数据的集合。
更进一步地,所述参考数据为待生成特定人说话视频的语音数据。
本发明的有益效果是:
本发明提出了基于元学习的语义一致性模型,然后采用元学习的训练方法得到泛化能力更强的元模型,当提供少量额外参考视频时,能够学习到参考视频中的语义一致性特征,生成更好的说话视频,同时,经过在真实图片上的微调,在人脸属性建模上也能获得更好的结果,生成的人脸图片更加“真实”。
本发明提出了使用基于元学习的方法训练模型,使用Reptile梯度更新进行训练,得到泛化性好的模型参数,然后利用补充数据进行微调,生成特定人的模型,该模型图片和语音有很好的语义一致性,利用该模型及真实的语音数据,即可实现说话视频中唇形和语音的同步,并且人物真实,有人物特点。
附图说明
图1为本发明的流程图。
图2为本发明的原理图。
图3为本发明生成器网络结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以互相结合。
如图1、图2所示,本发明提供一种基于元学习的补充数据下的说话视频生成方法,包括以下步骤:
S1,获取训练数据和补充数据,对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集,训练数据包含采集的若干不同人的说话视频数据,补充数据为特定人的说话视频数据的集合。
所述数据处理的过程为:将说话视频拆分为图片数据和语音数据,针对图片数据,进行人脸检测、人脸对齐和人脸图片边界框检测和裁剪,得到若干帧人脸居中的人脸图片形成图片序列,其中边界框的确定,使用融合后的边界框,即取多张人脸图片边界框的交集;针对语音数据,进行MFCC特征的计算得到音频序列。
对说话视频而言,可以分为音频序列和图片序列,其中是语义一致的片段,这样就可以使用来表示说话视频,即。定义任务为单张人脸图片的生成任务,将定义为生成的单张人脸图片,定义为生成器,则。在数据处理阶段,选择参考图片和参考语音不同步的人脸图片构成任务=,然后随机将任务集划分得到k个数据集作为元模型的训练集,元模型的测试集可以由剩下的语义一致性数据构成。
S2,构建端到端的生成对抗网络作为元学习的元模型,元模型是一个端到端的生成对抗网络,使用常见的卷积网络进行特征编码和人脸图片的生成,如图3所示。元模型的目标不是学习全部任务中的语义一致性信息而是变成了补充数据场景下的最优化问题,即得到一个泛化能力足够强的元模型,即下述的生成器G。
S3,基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练和测试得到参考模型。
使用基于优化的Reptile梯度更新算法来训练元模型,主要是指生成器,从而得到一组比较好的网络参数,这组参数具有良好的泛化能力,当其作为模型初始参数值设置时,在特定任务上训练时,微调几次,模型可以快速收敛,达到一个比较好的结果。具体的算法表示如下:
在这个训练阶段的目标是:
其中表示任务的损失函数,是指在采样的个任务上进行参数更新,为在任务使用元学习的方式。在网络中,可以转换为学习模型的参数权重。将视为元模型的参数权重,是在任务上训练后的参数权重,目的是找到的是一个最优的元模型参数初始化权重,使得:
对优化目标求导,得到:
其中,表示求参数φ的梯度。
在网络训练过程中,网络是在对随机采样的任务上执行参数更新,网络的参数更新方法如下:
并且将训练中网络学习到的参数替换
S4,根据补充任务集对上述参考模型进行微调得到特定人的说话视频模型,即提供补充数据,进行模型的微调,这样生成器G能够快速的学习到补充数据的语义一致性,使得到的生成图片和参考语音的语义一致性与补充数据中的数据特征更相近。
S5,基于特定人的说话视频模型以及特定人的参考数据,生成与参考数据对应的说话视频,参考数据为待生成特定人说话视频的语音数据(即图中的驱动语音),补充数据与参考数据中的语音数据可以完全不相同,也可以部分不相同。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (6)

1.一种基于元学习的补充数据下的说话视频生成方法,其特征在于,包括以下步骤:
获取训练数据和补充数据,对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集;
构建端到端的生成对抗网络作为元学习的元模型;
基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练和测试得到参考模型;
根据补充任务集对参考模型进行微调得到特定人的说话视频模型;
基于特定人的说话视频模型以及特定人的参考数据,生成与参考数据对应的说话视频。
2.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:所述数据处理的过程为:将数据中的说话视频拆分为图片数据和语音数据,对图片数据进行处理得到若干帧人脸居中的人脸图片形成图片序列;对语音数据进行处理得到音频序列,所述图片序列和音频序列为语义一致的片段。
3.根据权利要求2所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:所述对图片数据进行处理包括进行人脸检测、人脸对齐、人脸图片边界框检测和裁剪处理。
4.根据权利要求2所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:对语音数据进行MFCC特征的计算得到音频序列。
5.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:所述补充数据为特定人的说话视频数据的集合。
6.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:所述参考数据为待生成特定人说话视频的语音数据。
CN202310403985.1A 2023-04-17 2023-04-17 一种基于元学习的补充数据下的说话视频生成方法 Pending CN116112762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310403985.1A CN116112762A (zh) 2023-04-17 2023-04-17 一种基于元学习的补充数据下的说话视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310403985.1A CN116112762A (zh) 2023-04-17 2023-04-17 一种基于元学习的补充数据下的说话视频生成方法

Publications (1)

Publication Number Publication Date
CN116112762A true CN116112762A (zh) 2023-05-12

Family

ID=86258354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310403985.1A Pending CN116112762A (zh) 2023-04-17 2023-04-17 一种基于元学习的补充数据下的说话视频生成方法

Country Status (1)

Country Link
CN (1) CN116112762A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353610A (zh) * 2020-02-28 2020-06-30 创新奇智(青岛)科技有限公司 一种模型参数确定方法、装置、存储介质及电子设备
CN112114791A (zh) * 2020-09-08 2020-12-22 南京航空航天大学 一种基于元学习的代码自适应生成方法
US20220036617A1 (en) * 2020-07-30 2022-02-03 Tata Consultancy Services Limited Audio-speech driven animated talking face generation using a cascaded generative adversarial network
US20220084273A1 (en) * 2020-09-12 2022-03-17 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech
CN115442543A (zh) * 2022-07-29 2022-12-06 平安科技(深圳)有限公司 虚拟形象说话视频的合成方法、装置、设备及存储介质
CN115905855A (zh) * 2022-09-26 2023-04-04 西北工业大学 一种改进的元学习算法MG-Reptile

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353610A (zh) * 2020-02-28 2020-06-30 创新奇智(青岛)科技有限公司 一种模型参数确定方法、装置、存储介质及电子设备
US20220036617A1 (en) * 2020-07-30 2022-02-03 Tata Consultancy Services Limited Audio-speech driven animated talking face generation using a cascaded generative adversarial network
CN112114791A (zh) * 2020-09-08 2020-12-22 南京航空航天大学 一种基于元学习的代码自适应生成方法
US20220084273A1 (en) * 2020-09-12 2022-03-17 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech
CN115442543A (zh) * 2022-07-29 2022-12-06 平安科技(深圳)有限公司 虚拟形象说话视频的合成方法、装置、设备及存储介质
CN115905855A (zh) * 2022-09-26 2023-04-04 西北工业大学 一种改进的元学习算法MG-Reptile

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"On First-Order Meta-Learning Algorithms", pages 2 - 6, Retrieved from the Internet <URL:https://arxiv.org/abs/1803.02999> *

Similar Documents

Publication Publication Date Title
CN106056207B (zh) 一种基于自然语言的机器人深度交互与推理方法与装置
JP6019108B2 (ja) 文字に基づく映像生成
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
Xie et al. A coupled HMM approach to video-realistic speech animation
JP2014519082A5 (zh)
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
KR20060090687A (ko) 시청각 콘텐츠 합성을 위한 시스템 및 방법
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN116051692B (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN116828129B (zh) 一种超清2d数字人生成方法及系统
CN110728971B (zh) 一种音视频合成方法
KR102319753B1 (ko) 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치
Taylor et al. A mouth full of words: Visually consistent acoustic redubbing
CN116912375A (zh) 面部动画生成方法、装置、电子设备及存储介质
Sun et al. Pre-avatar: An automatic presentation generation framework leveraging talking avatar
CN113963092B (zh) 音视频拟合关联的计算方法、装置、介质和设备
CN116112762A (zh) 一种基于元学习的补充数据下的说话视频生成方法
CN115529500A (zh) 动态影像的生成方法和装置
CN115223224A (zh) 数字人说话视频生成方法、系统、终端设备及介质
CN113990295A (zh) 一种视频生成方法和装置
Mahavidyalaya Phoneme and viseme based approach for lip synchronization
Shen et al. Automatic video self modeling for voice disorder
Zhang et al. Realistic Speech-Driven Talking Video Generation with Personalized Pose

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination