CN110728971B - 一种音视频合成方法 - Google Patents

一种音视频合成方法 Download PDF

Info

Publication number
CN110728971B
CN110728971B CN201910912787.1A CN201910912787A CN110728971B CN 110728971 B CN110728971 B CN 110728971B CN 201910912787 A CN201910912787 A CN 201910912787A CN 110728971 B CN110728971 B CN 110728971B
Authority
CN
China
Prior art keywords
video
audio
text data
model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910912787.1A
Other languages
English (en)
Other versions
CN110728971A (zh
Inventor
孙见青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201910912787.1A priority Critical patent/CN110728971B/zh
Publication of CN110728971A publication Critical patent/CN110728971A/zh
Application granted granted Critical
Publication of CN110728971B publication Critical patent/CN110728971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Abstract

本发明提供了一种音视频合成方法,该音视频合成方法有别于现有技术需要对视频图像的关键点进行提取和建模处理,其在合成过程中并不涉及任何视频图像关键点的设计,而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成,并且该音视频合成方法在生成视频时充分考虑了视频前后帧图像之间的关系,还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理,以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求,从而大大地降低了音视频合成的难度和提高音视频合成的质量。

Description

一种音视频合成方法
技术领域
本发明涉及智能信号处理的技术领域,特别涉及一种音视频合成方法。
背景技术
传统的语音合成只局限于音频信号的合成,其并未涉及音频信号和视频信号的同时合成。随着应用场景的变化和人机交互技术的广泛应用,关于音频信号和视频信号之间相互结合的音视频合成领域受到广泛的关注。现有技术对于视频的合成,一般是通过对视频图像中的关键点进行建模或者通过对视频图像进行降维处理后再进行建模。
虽然,对视频图像进行建模能够精确地对图像进行标定,但是对视频图像的建模过程涉及较多繁复的步骤,其中还涉及在视频图像中提取关键点信息,但是无论是对视频图像中的关键点进行建模还是对视频图像进行降维处理后再进行建模,都普遍存在视频图像合成处理连续性较差和清晰度较低等不同的问题,这使得通过建模方式合成得到的音视频信号都不能满足对音视频信号连续和清晰的要求。可见,现有技术急需一种能够简便和快速地获得高质量音视频合成信号的合成方法。
发明内容
针对现有技术存在的缺陷,本发明提供一种音视频合成方法,该音视频合成方法包括如下步骤:步骤(1),对经过训练的深度神经网络模型输入文本数据,以得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征;步骤(2),根据该声学参数,得到与该文本数据对应的目标音频;步骤(3),根据该变分自编码器VAE隐层特征,得到与该文本数据对应的目标视频;步骤(4),将该目标音频和所述目标视频进行组合,以实现该音视频合成。可见,该音视频合成方法有别于现有技术需要对视频图像的关键点进行提取和建模处理,其在合成过程中并不涉及任何视频图像关键点的设计,而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成,并且该音视频合成方法在生成视频时充分考虑了视频前后帧图像之间的关系,还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理,以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求,从而大大地降低了音视频合成的难度和提高音视频合成的质量。
本发明提供一种音视频合成方法,其特征在于,所述音视频合成方法包括如下步骤:
步骤(1),对经过训练的深度神经网络模型输入文本数据,以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征;
步骤(2),根据所述声学参数,得到与所述文本数据对应的目标音频;
步骤(3),根据所述变分自编码器VAE隐层特征,得到与所述文本数据对应的目标视频;
步骤(4),将所述目标音频和所述目标视频进行组合,以实现所述音视频合成;
进一步,在所述步骤(1)中,对经过训练的深度神经网络模型输入文本数据,以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征具体包括,
步骤(101),构建用于所述训练的文本-音频-视频数据库;
步骤(102),基于所述文本-音频-视频数据库中的所有数据对所述深度神经网络模型进行训练;
步骤(103),将所述文本数据输入至经过训练的所述深度神经网络模型中,并从所述深度神经网络模型的输出得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征;
进一步,在所述步骤(101)中,构建用于所述训练的文本-音频-视频数据库具体包括,
获取关于不同场景的音频数据和视频数据,并从所述音频数据中提取对应的声学参数,以及从所述视频数据的每一帧图像中提取对应的VAE隐层特征,并根据预设数据结构,通过所述声学参数和所述VAE隐层特征录制和标注,以得到所述文本-音频-视频数据库;
进一步,在所述步骤(2)中,根据所述声学参数,得到与所述文本数据对应的目标音频具体包括,
步骤(201),将所述文本数据输入至训练好的网络模型中,从而得到所述声学参数;
步骤(202),将所述声学参数输入至声码器,从而通过所述声码器重构得到所述目标音频;
进一步,在所述步骤(3)中,根据所述变分自编码器VAE隐层特征,得到与所述文本数据对应的目标视频具体包括,
步骤(301),对所述变分自编码器VAE隐层特征进行变换处理,以此得到初级视频;
步骤(302),对所述初级视频进行关于预设算法模型的变换处理,以此得到关于所述文本数据的自然视频;
步骤(303),根据所述自然视频生成所述目标视频;
进一步,在所述步骤(301)中,对所述变分自编码器VAE隐层特征进行变换处理,以此得到初级视频具体包括,
步骤(3011),对所述变分自编码器VAE隐层特征进行VAE解码处理,以此得到关于所述文本数据的若干帧图像;
步骤(3012),根据预设图像组合模式,对所述若干帧图像进行组合处理,以此得到所述初级视频;
进一步,在所述步骤(302)中,对所述初级视频进行关于预设算法模型的变换处理,以此得到关于所述文本数据的自然视频具体包括,
步骤(3021),基于条件生成对抗网络CGAN,构建Video-to-Video Synthesis模型作为所述预设算法模型;
步骤(3022),对所述Video-to-Video Synthesis模型进行训练处理;
步骤(3023),将所述初级视频输入至经过所述训练处理的所述Video-to-VideoSynthesis模型,以此输出得到所述自然视频;
进一步,在所述步骤(3021)中,基于条件生成对抗网络CGAN,构建Video-to-VideoSynthesis模型作为所述预设算法模型具体包括,
基于条件生成对抗网络CGAN、预设视频图像帧顺序条件和视频精度调整模式,构建得到所述Video-to-Video Synthesis模型;
或者,
在所述步骤(3022)中,对所述Video-to-Video Synthesis模型进行训练处理具体包括,
采用训练所述深度神经网络模型的文本-音频-视频数据库中的视频相关数据,对所述Video-to-Video Synthesis模型进行训练处理,以使所述Video-to-Video Synthesis模型的视频变换特性满足预设特性条件;
进一步,在所述步骤(3023)中,将所述初级视频输入至经过所述训练处理的所述Video-to-Video Synthesis模型,以此输出得到所述自然视频具体包括,
步骤(30231),获取所述Video-to-Video Synthesis模型对应的视频转换精度和/或视频转换连续度;
步骤(30232),基于所述视频转换精度和/或所述视频转换连续度,对所述Video-to-Video Synthesis模型进行训练处理;
步骤(30233),将所述初级视频输入至训练好的所述Video-to-Video Synthesis模型,从而转换得到所述自然视频;
进一步,在所述步骤(4)中,将所述目标音频和所述目标视频进行组合,以实现所述音视频合成具体包括,
步骤(401),获取所述目标音频对应的音频特性和所述目标视频对应的视频特性;
步骤(402),根据所述音频特性和所述视频特性,通过预设音视频合成器,将所述目标音频和所述目标视频进行组合处理。
相比于现有技术,该音视频合成方法包括如下步骤:步骤(1),对经过训练的深度神经网络模型输入文本数据,以得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征;步骤(2),根据该声学参数,得到与该文本数据对应的目标音频;步骤(3),根据该变分自编码器VAE隐层特征,得到与该文本数据对应的目标视频;步骤(4),将该目标音频和所述目标视频进行组合,以实现该音视频合成。可见,该音视频合成方法有别于现有技术需要对视频图像的关键点进行提取和建模处理,其在合成过程中并不涉及任何视频图像关键点的设计,而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成,并且该音视频合成方法在生成视频时充分考虑了视频前后帧图像之间的关系,还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理,以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求,从而大大地降低了音视频合成的难度和提高音视频合成的质量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种音视频合成方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种音视频合成方法的流程示意图。该音视频合成方法包括如下步骤:
步骤(1),对经过训练的深度神经网络模型输入文本数据,以得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征。
优选地,在该步骤(1)中,对经过训练的深度神经网络模型输入文本数据,以得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征具体包括,
步骤(101),构建用于该训练的文本-音频-视频数据库;
步骤(102),基于该文本-音频-视频数据库中的所有数据对该深度神经网络模型进行训练;
步骤(103),将该文本数据输入至经过训练的该深度神经网络模型中,并从该深度神经网络模型的输出得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征。
优选地,在该步骤(101)中,构建用于该训练的文本-音频-视频数据库具体包括,
获取关于不同场景的音频数据和视频数据,并从该音频数据中提取对应的声学参数,以及从该视频数据的每一帧图像中提取对应的VAE隐层特征,并根据预设数据结构,通过该声学参数和该VAE隐层特征录制和标注,以得到该文本-音频-视频数据库。
步骤(2),根据该声学参数,得到与该文本数据对应的目标音频。
优选地,在该步骤(2)中,根据该声学参数,得到与该文本数据对应的目标音频具体包括,
步骤(201),将该文本数据输入至训练好的网络模型中,从而得到该声学参数;
步骤(202),将该声学参数输入至声码器,从而通过该声码器重构得到该目标音频。
在该步骤(3)中,根据该变分自编码器VAE隐层特征,得到与该文本数据对应的目标视频具体包括,
步骤(301),对该变分自编码器VAE隐层特征进行变换处理,以此得到初级视频;
步骤(302),对该初级视频进行关于预设算法模型的变换处理,以此得到关于该文本数据的自然视频;
步骤(303),根据该自然视频生成该目标视频。
优选地,在该步骤(301)中,对该变分自编码器VAE隐层特征进行变换处理,以此得到初级视频具体包括,
步骤(3011),对该变分自编码器VAE隐层特征进行VAE解码处理,以此得到关于该文本数据的若干帧图像;
步骤(3012),根据预设图像组合模式,对该若干帧图像进行组合处理,以此得到该初级视频。
优选地,在该步骤(302)中,对该初级视频进行关于预设算法模型的变换处理,以此得到关于该文本数据的自然视频具体包括,
步骤(3021),基于条件生成对抗网络CGAN,构建Video-to-Video Synthesis模型作为该预设算法模型;
步骤(3022),对该Video-to-Video Synthesis模型进行训练处理;
步骤(3023),将该初级视频输入至经过该训练处理的该Video-to-VideoSynthesis模型,以此输出得到该自然视频。
优选地,在该步骤(3021)中,基于条件生成对抗网络CGAN,构建Video-to-VideoSynthesis模型作为该预设算法模型具体包括,
基于条件生成对抗网络CGAN、预设视频图像帧顺序条件和视频精度调整模式,构建得到该Video-to-Video Synthesis模型。
优选地,在该步骤(3022)中,对该Video-to-Video Synthesis模型进行训练处理具体包括,
采用训练该深度神经网络模型的文本-音频-视频数据库中的视频相关数据,对该Video-to-Video Synthesis模型进行训练处理,以使该Video-to-Video Synthesis模型的视频变换特性满足预设特性条件。
优选地,在该步骤(3023)中,将该初级视频输入至经过该训练处理的该Video-to-Video Synthesis模型,以此输出得到该自然视频具体包括,
步骤(30231),获取该Video-to-Video Synthesis模型对应的视频转换精度和/或视频转换连续度;
步骤(30232),基于该视频转换精度和/或该视频转换连续度,对该Video-to-Video Synthesis模型进行训练处理;
步骤(30233),将该初级视频输入至训练好的该Video-to-Video Synthesis模型,从而转换得到该自然视频。
步骤(4),将该目标音频和该目标视频进行组合,以实现该音视频合成。
优选地,在该步骤(4)中,将该目标音频和该目标视频进行组合,以实现该音视频合成具体包括,
步骤(401),获取该目标音频对应的音频特性和该目标视频对应的视频特性;
步骤(402),根据该音频特性和该视频特性,通过预设音视频合成器,将该目标音频和该目标视频进行组合处理。
从上述实施例可以看出,该音视频合成方法有别于现有技术需要对视频图像的关键点进行提取和建模处理,其在合成过程中并不涉及任何视频图像关键点的设计,而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成,并且该音视频合成方法在生成视频时充分考虑了视频前后帧图像之间的关系,还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理,以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求,从而大大地降低了音视频合成的难度和提高音视频合成的质量。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种音视频合成方法,其特征在于,所述音视频合成方法包括如下步骤:
步骤(1),对经过训练的深度神经网络模型输入文本数据,以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征;
步骤(2),根据所述声学参数,得到与所述文本数据对应的目标音频;
步骤(3),根据所述变分自编码器VAE隐层特征,得到与所述文本数据对应的目标视频;
步骤(4),将所述目标音频和所述目标视频进行组合,以实现所述音视频合成;
在所述步骤(3)中,根据所述变分自编码器VAE隐层特征,得到与所述文本数据对应的目标视频具体包括,
步骤(301),对所述变分自编码器VAE隐层特征进行变换处理,以此得到初级视频;
步骤(302),对所述初级视频进行关于预设算法模型的变换处理,以此得到关于所述文本数据的自然视频;
步骤(303),根据所述自然视频生成所述目标视频;
在所述步骤(302)中,对所述初级视频进行关于预设算法模型的变换处理,以此得到关于所述文本数据的自然视频具体包括,
步骤(3021),基于条件生成对抗网络CGAN,构建Video-to-Video Synthesis模型作为所述预设算法模型;
步骤(3022),对所述Video-to-Video Synthesis模型进行训练处理;
步骤(3023),将所述初级视频输入至经过所述训练处理的所述Video-to-VideoSynthesis模型,以此输出得到所述自然视频;
在所述步骤(3021)中,基于条件生成对抗网络CGAN,构建Video-to-Video Synthesis模型作为所述预设算法模型具体包括,基于条件生成对抗网络CGAN、预设视频图像帧顺序条件和视频精度调整模式,构建得到所述Video-to-Video Synthesis模型;
或者,
在所述步骤(3022)中,对所述Video-to-Video Synthesis模型进行训练处理具体包括,
采用训练所述深度神经网络模型的文本-音频-视频数据库中的视频相关数据,对所述Video-to-Video Synthesis模型进行训练处理,以使所述Video-to-Video Synthesis模型的视频变换特性满足预设特性条件。
2.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(1)中,对经过训练的深度神经网络模型输入文本数据,以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征具体包括,
步骤(101),构建用于所述训练的文本-音频-视频数据库;
步骤(102),基于所述文本-音频-视频数据库中的所有数据对所述深度神经网络模型进行训练;
步骤(103),将所述文本数据输入至经过训练的所述深度神经网络模型中,并从所述深度神经网络模型的输出得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征。
3.如权利要求2所述的音视频合成方法,其特征在于:
在所述步骤(101)中,构建用于所述训练的文本-音频-视频数据库具体包括,
获取关于不同场景的音频数据和视频数据,并从所述音频数据中提取对应的声学参数,以及从所述视频数据的每一帧图像中提取对应的VAE隐层特征,并根据预设数据结构,通过所述声学参数和所述VAE隐层特征录制和标注,以得到所述文本-音频-视频数据库。
4.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(2)中,根据所述声学参数,得到与所述文本数据对应的目标音频具体包括,
步骤(201),将所述文本数据输入至训练好的网络模型中,从而得到所述声学参数;
步骤(202),将所述声学参数输入至声码器,从而通过所述声码器重构得到所述目标音频。
5.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(301)中,对所述变分自编码器VAE隐层特征进行变换处理,以此得到初级视频具体包括,
步骤(3011),对所述变分自编码器VAE隐层特征进行VAE解码处理,以此得到关于所述文本数据的若干帧图像;
步骤(3012),根据预设图像组合模式,对所述若干帧图像进行组合处理,以此得到所述初级视频。
6.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(3023)中,将所述初级视频输入至经过所述训练处理的所述Video-to-Video Synthesis模型,以此输出得到所述自然视频具体包括,
步骤(30231),获取所述Video-to-Video Synthesis模型对应的视频转换精度和/或视频转换连续度;
步骤(30232),基于所述视频转换精度和/或所述视频转换连续度,对所述Video-to-Video Synthesis模型进行训练处理;
步骤(30233),将所述初级视频输入至训练好的所述Video-to-Video Synthesis模型,从而转换得到所述自然视频。
7.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(4)中,将所述目标音频和所述目标视频进行组合,以实现所述音视频合成具体包括,
步骤(401),获取所述目标音频对应的音频特性和所述目标视频对应的视频特性;
步骤(402),根据所述音频特性和所述视频特性,通过预设音视频合成器,将所述目标音频和所述目标视频进行组合处理。
CN201910912787.1A 2019-09-25 2019-09-25 一种音视频合成方法 Active CN110728971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910912787.1A CN110728971B (zh) 2019-09-25 2019-09-25 一种音视频合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910912787.1A CN110728971B (zh) 2019-09-25 2019-09-25 一种音视频合成方法

Publications (2)

Publication Number Publication Date
CN110728971A CN110728971A (zh) 2020-01-24
CN110728971B true CN110728971B (zh) 2022-02-18

Family

ID=69219451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910912787.1A Active CN110728971B (zh) 2019-09-25 2019-09-25 一种音视频合成方法

Country Status (1)

Country Link
CN (1) CN110728971B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682153B2 (en) * 2020-09-12 2023-06-20 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech
CN113469292A (zh) * 2021-09-02 2021-10-01 北京世纪好未来教育科技有限公司 视频合成模型的训练方法、合成方法、装置、介质和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置
CN108090940A (zh) * 2011-05-06 2018-05-29 西尔股份有限公司 基于文本的视频生成
CN108389239A (zh) * 2018-02-23 2018-08-10 深圳市唯特视科技有限公司 一种基于条件多模式网络的微笑脸部视频生成方法
CN109068163A (zh) * 2018-08-28 2018-12-21 哈尔滨市舍科技有限公司 一种音视频合成系统及其合成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140118543A1 (en) * 2012-10-31 2014-05-01 Motorola Solutions, Inc. Method and apparatus for video analysis algorithm selection based on historical incident data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090940A (zh) * 2011-05-06 2018-05-29 西尔股份有限公司 基于文本的视频生成
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置
CN108389239A (zh) * 2018-02-23 2018-08-10 深圳市唯特视科技有限公司 一种基于条件多模式网络的微笑脸部视频生成方法
CN109068163A (zh) * 2018-08-28 2018-12-21 哈尔滨市舍科技有限公司 一种音视频合成系统及其合成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sync-DRAW: Automatic Video Generation using Deep Recurrent Attentive Architectures;Gaurav Mial 等;《Proceedings of the 25th ACM international conference on Multimedia》;20171019;第1097-1104页 *
Video-to-video synthesis;Ting-Chun Wang 等;《Proceedings of the 32nd International Conference on Neural Information Processing Systems》;20181203;第1152-1164页 *

Also Published As

Publication number Publication date
CN110728971A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
US20210150793A1 (en) Matching mouth shape and movement in digital video to alternative audio
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
WO2023011221A1 (zh) 混合变形值的输出方法及存储介质、电子装置
CN110728971B (zh) 一种音视频合成方法
JP2017167779A (ja) 画像処理装置、表示装置、アニメーション生成方法、アニメーション表示方法及びプログラム
US10923106B2 (en) Method for audio synthesis adapted to video characteristics
Hassid et al. More than words: In-the-wild visually-driven prosody for text-to-speech
JP6843409B1 (ja) 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
KR102319753B1 (ko) 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치
Hussen Abdelaziz et al. Speaker-independent speech-driven visual speech synthesis using domain-adapted acoustic models
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
CN117237521A (zh) 语音驱动人脸生成模型构建方法、目标人说话视频生成方法
Jha et al. Cross-language speech dependent lip-synchronization
US20220375223A1 (en) Information generation method and apparatus
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN115908661A (zh) 一种基于gan网络将戏剧人物图片生成演唱视频的方法
JP3368739B2 (ja) アニメーション制作システム
JP2003132363A (ja) アニメーション制作システム
CN113963092A (zh) 音视频拟合关联的计算方法、装置、介质和设备
CN113886639A (zh) 数字人视频生成方法、装置、电子设备及存储介质
Schabus et al. Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis.
Kadam et al. A Survey of Audio Synthesis and Lip-syncing for Synthetic Video Generation
Zheng et al. A neural lip-sync framework for synthesizing photorealistic virtual news anchors
Barve et al. Synchronized Speech and Video Synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant