CN116112762A - 一种基于元学习的补充数据下的说话视频生成方法 - Google Patents
一种基于元学习的补充数据下的说话视频生成方法 Download PDFInfo
- Publication number
- CN116112762A CN116112762A CN202310403985.1A CN202310403985A CN116112762A CN 116112762 A CN116112762 A CN 116112762A CN 202310403985 A CN202310403985 A CN 202310403985A CN 116112762 A CN116112762 A CN 116112762A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- meta
- speaking video
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 14
- 241000270322 Lepidosauria Species 0.000 claims abstract description 7
- 230000000153 supplemental effect Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于元学习的补充数据下的说话视频生成方法,获取训练数据和补充数据,对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集;构建端到端的生成对抗网络作为元学习的元模型;基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练得到参考模型;根据补充任务集对参考模型进行微调得到特定人的说话视频模型;基于特定人的说话视频模型以及特定人的参考数据,生成与参考数据对应的说话视频。本发明提出了使用基于元学习的方法训练模型,使用Reptile梯度更新进行训练,得到泛化性好的模型参数,然后利用补充数据进行微调,生成特定人的图片,并且和语音有很好的语义一致性,实现说话视频中唇形和语音的同步。
Description
技术领域
本发明属于深度学习和跨模态技术领域,具体涉及一种基于元学习的补充数据下的说话视频生成方法。
背景技术
近年来,随着人工智能的发展,说话视频能够帮助理解听觉信息,通过生成任务能够帮助理解语音和唇部的关联,在视频编辑、虚拟现实(VR)、数字人物等应用上也有重要的应用价值。
现实场景中,通常可以获得少量的额外参考视频,比如在视频会议中,一段时间的说话视频,数字人物的配音中短时唇形同步说话视频等。这些少量的参考视频作为输入应该能够帮助模型得到更符合参考视频的语义一致性模型,比如口音和唇形之间的关系。
而现在的研究方法多是基于长达上千小时的说话视频数据集,当提供这种少量补充说话数据时,往往不能很好的学到数据中的特征,泛化能力不足,即存在补充数据场景下的语音驱动生成的说话视频语义一致性不佳的问题。
发明内容
本发明的目的就是为了解决上述背景技术存在的不足,提供一种基于元学习的补充数据下的说话视频生成方法,当提供少量额外参考视频时,能够学习到参考视频中的语义一致性特征,生成更好的说话视频。
本发明采用的技术方案是:一种基于元学习的补充数据下的说话视频生成方法,包括以下步骤:
获取训练数据和补充数据,对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集;
构建端到端的生成对抗网络作为元学习的元模型;
基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练和测试得到参考模型;
根据补充任务集对参考模型进行微调得到特定人的说话视频模型;
基于特定人的说话视频模型以及特定人的参考数据,生成与参考数据对应的说话视频。
进一步地,所述数据处理的过程为:将数据中的说话视频拆分为图片数据和语音数据,对图片数据进行处理得到若干帧人脸居中的人脸图片形成图片序列;对语音数据进行处理得到音频序列,所述图片序列和音频序列为语义一致的片段。
进一步地,所述对图片数据进行处理包括进行人脸检测、人脸对齐、人脸图片边界框检测和裁剪处理。
进一步地,对语音数据进行MFCC特征的计算得到音频序列。
进一步地,所述补充数据为特定人的说话视频数据的集合。
更进一步地,所述参考数据为待生成特定人说话视频的语音数据。
本发明的有益效果是:
本发明提出了基于元学习的语义一致性模型,然后采用元学习的训练方法得到泛化能力更强的元模型,当提供少量额外参考视频时,能够学习到参考视频中的语义一致性特征,生成更好的说话视频,同时,经过在真实图片上的微调,在人脸属性建模上也能获得更好的结果,生成的人脸图片更加“真实”。
本发明提出了使用基于元学习的方法训练模型,使用Reptile梯度更新进行训练,得到泛化性好的模型参数,然后利用补充数据进行微调,生成特定人的模型,该模型图片和语音有很好的语义一致性,利用该模型及真实的语音数据,即可实现说话视频中唇形和语音的同步,并且人物真实,有人物特点。
附图说明
图1为本发明的流程图。
图2为本发明的原理图。
图3为本发明生成器网络结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以互相结合。
如图1、图2所示,本发明提供一种基于元学习的补充数据下的说话视频生成方法,包括以下步骤:
S1,获取训练数据和补充数据,对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集,训练数据包含采集的若干不同人的说话视频数据,补充数据为特定人的说话视频数据的集合。
所述数据处理的过程为:将说话视频拆分为图片数据和语音数据,针对图片数据,进行人脸检测、人脸对齐和人脸图片边界框检测和裁剪,得到若干帧人脸居中的人脸图片形成图片序列,其中边界框的确定,使用融合后的边界框,即取多张人脸图片边界框的交集;针对语音数据,进行MFCC特征的计算得到音频序列。
对说话视频而言,可以分为音频序列和图片序列,其中是语义一致的片段,这样就可以使用和来表示说话视频,即。定义任务为单张人脸图片的生成任务,将定义为生成的单张人脸图片,定义为生成器,则。在数据处理阶段,选择参考图片和参考语音不同步的人脸图片构成任务=,然后随机将任务集划分得到k个数据集作为元模型的训练集,元模型的测试集可以由剩下的语义一致性数据构成。
S2,构建端到端的生成对抗网络作为元学习的元模型,元模型是一个端到端的生成对抗网络,使用常见的卷积网络进行特征编码和人脸图片的生成,如图3所示。元模型的目标不是学习全部任务中的语义一致性信息而是变成了补充数据场景下的最优化问题,即得到一个泛化能力足够强的元模型,即下述的生成器G。
S3,基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练和测试得到参考模型。
使用基于优化的Reptile梯度更新算法来训练元模型,主要是指生成器,从而得到一组比较好的网络参数,这组参数具有良好的泛化能力,当其作为模型初始参数值设置时,在特定任务上训练时,微调几次,模型可以快速收敛,达到一个比较好的结果。具体的算法表示如下:
在这个训练阶段的目标是:
其中表示任务的损失函数,,是指在采样的个任务上进行参数更新,为在任务使用元学习的方式。在网络中,可以转换为学习模型的参数权重。将视为元模型的参数权重,是在任务上训练后的参数权重,目的是找到的是一个最优的元模型参数初始化权重,使得:
对优化目标求导,得到:
其中,,,表示求参数φ的梯度。
在网络训练过程中,网络是在对随机采样的任务上执行参数更新,网络的参数更新方法如下:
并且将训练中网络学习到的参数替换。
S4,根据补充任务集对上述参考模型进行微调得到特定人的说话视频模型,即提供补充数据,进行模型的微调,这样生成器G能够快速的学习到补充数据的语义一致性,使得到的生成图片和参考语音的语义一致性与补充数据中的数据特征更相近。
S5,基于特定人的说话视频模型以及特定人的参考数据,生成与参考数据对应的说话视频,参考数据为待生成特定人说话视频的语音数据(即图中的驱动语音),补充数据与参考数据中的语音数据可以完全不相同,也可以部分不相同。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (6)
1.一种基于元学习的补充数据下的说话视频生成方法,其特征在于,包括以下步骤:
获取训练数据和补充数据,对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集;
构建端到端的生成对抗网络作为元学习的元模型;
基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练和测试得到参考模型;
根据补充任务集对参考模型进行微调得到特定人的说话视频模型;
基于特定人的说话视频模型以及特定人的参考数据,生成与参考数据对应的说话视频。
2.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:所述数据处理的过程为:将数据中的说话视频拆分为图片数据和语音数据,对图片数据进行处理得到若干帧人脸居中的人脸图片形成图片序列;对语音数据进行处理得到音频序列,所述图片序列和音频序列为语义一致的片段。
3.根据权利要求2所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:所述对图片数据进行处理包括进行人脸检测、人脸对齐、人脸图片边界框检测和裁剪处理。
4.根据权利要求2所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:对语音数据进行MFCC特征的计算得到音频序列。
5.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:所述补充数据为特定人的说话视频数据的集合。
6.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法,其特征在于:所述参考数据为待生成特定人说话视频的语音数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310403985.1A CN116112762A (zh) | 2023-04-17 | 2023-04-17 | 一种基于元学习的补充数据下的说话视频生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310403985.1A CN116112762A (zh) | 2023-04-17 | 2023-04-17 | 一种基于元学习的补充数据下的说话视频生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116112762A true CN116112762A (zh) | 2023-05-12 |
Family
ID=86258354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310403985.1A Pending CN116112762A (zh) | 2023-04-17 | 2023-04-17 | 一种基于元学习的补充数据下的说话视频生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116112762A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353610A (zh) * | 2020-02-28 | 2020-06-30 | 创新奇智(青岛)科技有限公司 | 一种模型参数确定方法、装置、存储介质及电子设备 |
CN112114791A (zh) * | 2020-09-08 | 2020-12-22 | 南京航空航天大学 | 一种基于元学习的代码自适应生成方法 |
US20220036617A1 (en) * | 2020-07-30 | 2022-02-03 | Tata Consultancy Services Limited | Audio-speech driven animated talking face generation using a cascaded generative adversarial network |
US20220084273A1 (en) * | 2020-09-12 | 2022-03-17 | Jingdong Digits Technology Holding Co., Ltd. | System and method for synthesizing photo-realistic video of a speech |
CN115442543A (zh) * | 2022-07-29 | 2022-12-06 | 平安科技(深圳)有限公司 | 虚拟形象说话视频的合成方法、装置、设备及存储介质 |
CN115905855A (zh) * | 2022-09-26 | 2023-04-04 | 西北工业大学 | 一种改进的元学习算法MG-Reptile |
-
2023
- 2023-04-17 CN CN202310403985.1A patent/CN116112762A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353610A (zh) * | 2020-02-28 | 2020-06-30 | 创新奇智(青岛)科技有限公司 | 一种模型参数确定方法、装置、存储介质及电子设备 |
US20220036617A1 (en) * | 2020-07-30 | 2022-02-03 | Tata Consultancy Services Limited | Audio-speech driven animated talking face generation using a cascaded generative adversarial network |
CN112114791A (zh) * | 2020-09-08 | 2020-12-22 | 南京航空航天大学 | 一种基于元学习的代码自适应生成方法 |
US20220084273A1 (en) * | 2020-09-12 | 2022-03-17 | Jingdong Digits Technology Holding Co., Ltd. | System and method for synthesizing photo-realistic video of a speech |
CN115442543A (zh) * | 2022-07-29 | 2022-12-06 | 平安科技(深圳)有限公司 | 虚拟形象说话视频的合成方法、装置、设备及存储介质 |
CN115905855A (zh) * | 2022-09-26 | 2023-04-04 | 西北工业大学 | 一种改进的元学习算法MG-Reptile |
Non-Patent Citations (1)
Title |
---|
"On First-Order Meta-Learning Algorithms", pages 2 - 6, Retrieved from the Internet <URL:https://arxiv.org/abs/1803.02999> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106056207B (zh) | 一种基于自然语言的机器人深度交互与推理方法与装置 | |
JP6019108B2 (ja) | 文字に基づく映像生成 | |
Vougioukas et al. | Video-driven speech reconstruction using generative adversarial networks | |
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成系统 | |
Xie et al. | A coupled HMM approach to video-realistic speech animation | |
JP2014519082A5 (zh) | ||
US11847726B2 (en) | Method for outputting blend shape value, storage medium, and electronic device | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN116051692B (zh) | 一种基于语音驱动的三维数字人脸部动画生成方法 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN116828129B (zh) | 一种超清2d数字人生成方法及系统 | |
CN110728971B (zh) | 一种音视频合成方法 | |
KR102319753B1 (ko) | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 | |
Taylor et al. | A mouth full of words: Visually consistent acoustic redubbing | |
CN116912375A (zh) | 面部动画生成方法、装置、电子设备及存储介质 | |
Sun et al. | Pre-avatar: An automatic presentation generation framework leveraging talking avatar | |
CN113963092B (zh) | 音视频拟合关联的计算方法、装置、介质和设备 | |
CN116112762A (zh) | 一种基于元学习的补充数据下的说话视频生成方法 | |
CN115529500A (zh) | 动态影像的生成方法和装置 | |
CN115223224A (zh) | 数字人说话视频生成方法、系统、终端设备及介质 | |
CN113990295A (zh) | 一种视频生成方法和装置 | |
Mahavidyalaya | Phoneme and viseme based approach for lip synchronization | |
Shen et al. | Automatic video self modeling for voice disorder | |
Zhang et al. | Realistic Speech-Driven Talking Video Generation with Personalized Pose |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |