CN110728971B

CN110728971B - 一种音视频合成方法

Info

Publication number: CN110728971B
Application number: CN201910912787.1A
Authority: CN
Inventors: 孙见青
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2022-02-18
Anticipated expiration: 2039-09-25
Also published as: CN110728971A

Abstract

本发明提供了一种音视频合成方法，该音视频合成方法有别于现有技术需要对视频图像的关键点进行提取和建模处理，其在合成过程中并不涉及任何视频图像关键点的设计，而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成，并且该音视频合成方法在生成视频时充分考虑了视频前后帧图像之间的关系，还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理，以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求，从而大大地降低了音视频合成的难度和提高音视频合成的质量。

Description

一种音视频合成方法

技术领域

本发明涉及智能信号处理的技术领域，特别涉及一种音视频合成方法。

背景技术

传统的语音合成只局限于音频信号的合成，其并未涉及音频信号和视频信号的同时合成。随着应用场景的变化和人机交互技术的广泛应用，关于音频信号和视频信号之间相互结合的音视频合成领域受到广泛的关注。现有技术对于视频的合成，一般是通过对视频图像中的关键点进行建模或者通过对视频图像进行降维处理后再进行建模。

虽然，对视频图像进行建模能够精确地对图像进行标定，但是对视频图像的建模过程涉及较多繁复的步骤，其中还涉及在视频图像中提取关键点信息，但是无论是对视频图像中的关键点进行建模还是对视频图像进行降维处理后再进行建模，都普遍存在视频图像合成处理连续性较差和清晰度较低等不同的问题，这使得通过建模方式合成得到的音视频信号都不能满足对音视频信号连续和清晰的要求。可见，现有技术急需一种能够简便和快速地获得高质量音视频合成信号的合成方法。

发明内容

针对现有技术存在的缺陷，本发明提供一种音视频合成方法，该音视频合成方法包括如下步骤：步骤(1)，对经过训练的深度神经网络模型输入文本数据，以得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征；步骤(2)，根据该声学参数，得到与该文本数据对应的目标音频；步骤(3)，根据该变分自编码器VAE隐层特征，得到与该文本数据对应的目标视频；步骤(4)，将该目标音频和所述目标视频进行组合，以实现该音视频合成。可见，该音视频合成方法有别于现有技术需要对视频图像的关键点进行提取和建模处理，其在合成过程中并不涉及任何视频图像关键点的设计，而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成，并且该音视频合成方法在生成视频时充分考虑了视频前后帧图像之间的关系，还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理，以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求，从而大大地降低了音视频合成的难度和提高音视频合成的质量。

本发明提供一种音视频合成方法，其特征在于，所述音视频合成方法包括如下步骤：

步骤(1)，对经过训练的深度神经网络模型输入文本数据，以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征；

步骤(2)，根据所述声学参数，得到与所述文本数据对应的目标音频；

步骤(3)，根据所述变分自编码器VAE隐层特征，得到与所述文本数据对应的目标视频；

步骤(4)，将所述目标音频和所述目标视频进行组合，以实现所述音视频合成；

进一步，在所述步骤(1)中，对经过训练的深度神经网络模型输入文本数据，以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征具体包括，

步骤(101)，构建用于所述训练的文本-音频-视频数据库；

步骤(102)，基于所述文本-音频-视频数据库中的所有数据对所述深度神经网络模型进行训练；

步骤(103)，将所述文本数据输入至经过训练的所述深度神经网络模型中，并从所述深度神经网络模型的输出得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征；

进一步，在所述步骤(101)中，构建用于所述训练的文本-音频-视频数据库具体包括，

获取关于不同场景的音频数据和视频数据，并从所述音频数据中提取对应的声学参数，以及从所述视频数据的每一帧图像中提取对应的VAE隐层特征，并根据预设数据结构，通过所述声学参数和所述VAE隐层特征录制和标注，以得到所述文本-音频-视频数据库；

进一步，在所述步骤(2)中，根据所述声学参数，得到与所述文本数据对应的目标音频具体包括，

步骤(201)，将所述文本数据输入至训练好的网络模型中，从而得到所述声学参数；

步骤(202)，将所述声学参数输入至声码器，从而通过所述声码器重构得到所述目标音频；

进一步，在所述步骤(3)中，根据所述变分自编码器VAE隐层特征，得到与所述文本数据对应的目标视频具体包括，

步骤(301)，对所述变分自编码器VAE隐层特征进行变换处理，以此得到初级视频；

步骤(302)，对所述初级视频进行关于预设算法模型的变换处理，以此得到关于所述文本数据的自然视频；

步骤(303)，根据所述自然视频生成所述目标视频；

进一步，在所述步骤(301)中，对所述变分自编码器VAE隐层特征进行变换处理，以此得到初级视频具体包括，

步骤(3011)，对所述变分自编码器VAE隐层特征进行VAE解码处理，以此得到关于所述文本数据的若干帧图像；

步骤(3012)，根据预设图像组合模式，对所述若干帧图像进行组合处理，以此得到所述初级视频；

进一步，在所述步骤(302)中，对所述初级视频进行关于预设算法模型的变换处理，以此得到关于所述文本数据的自然视频具体包括，

步骤(3021)，基于条件生成对抗网络CGAN，构建Video-to-Video Synthesis模型作为所述预设算法模型；

步骤(3022)，对所述Video-to-Video Synthesis模型进行训练处理；

步骤(3023)，将所述初级视频输入至经过所述训练处理的所述Video-to-VideoSynthesis模型，以此输出得到所述自然视频；

进一步，在所述步骤(3021)中，基于条件生成对抗网络CGAN，构建Video-to-VideoSynthesis模型作为所述预设算法模型具体包括，

基于条件生成对抗网络CGAN、预设视频图像帧顺序条件和视频精度调整模式，构建得到所述Video-to-Video Synthesis模型；

或者，

在所述步骤(3022)中，对所述Video-to-Video Synthesis模型进行训练处理具体包括，

采用训练所述深度神经网络模型的文本-音频-视频数据库中的视频相关数据，对所述Video-to-Video Synthesis模型进行训练处理，以使所述Video-to-Video Synthesis模型的视频变换特性满足预设特性条件；

进一步，在所述步骤(3023)中，将所述初级视频输入至经过所述训练处理的所述Video-to-Video Synthesis模型，以此输出得到所述自然视频具体包括，

步骤(30231)，获取所述Video-to-Video Synthesis模型对应的视频转换精度和/或视频转换连续度；

步骤(30232)，基于所述视频转换精度和/或所述视频转换连续度，对所述Video-to-Video Synthesis模型进行训练处理；

步骤(30233)，将所述初级视频输入至训练好的所述Video-to-Video Synthesis模型，从而转换得到所述自然视频；

进一步，在所述步骤(4)中，将所述目标音频和所述目标视频进行组合，以实现所述音视频合成具体包括，

步骤(401)，获取所述目标音频对应的音频特性和所述目标视频对应的视频特性；

步骤(402)，根据所述音频特性和所述视频特性，通过预设音视频合成器，将所述目标音频和所述目标视频进行组合处理。

相比于现有技术，该音视频合成方法包括如下步骤：步骤(1)，对经过训练的深度神经网络模型输入文本数据，以得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征；步骤(2)，根据该声学参数，得到与该文本数据对应的目标音频；步骤(3)，根据该变分自编码器VAE隐层特征，得到与该文本数据对应的目标视频；步骤(4)，将该目标音频和所述目标视频进行组合，以实现该音视频合成。可见，该音视频合成方法有别于现有技术需要对视频图像的关键点进行提取和建模处理，其在合成过程中并不涉及任何视频图像关键点的设计，而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成，并且该音视频合成方法在生成视频时充分考虑了视频前后帧图像之间的关系，还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理，以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求，从而大大地降低了音视频合成的难度和提高音视频合成的质量。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种音视频合成方法的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的一种音视频合成方法的流程示意图。该音视频合成方法包括如下步骤：

步骤(1)，对经过训练的深度神经网络模型输入文本数据，以得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征。

优选地，在该步骤(1)中，对经过训练的深度神经网络模型输入文本数据，以得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征具体包括，

步骤(101)，构建用于该训练的文本-音频-视频数据库；

步骤(102)，基于该文本-音频-视频数据库中的所有数据对该深度神经网络模型进行训练；

步骤(103)，将该文本数据输入至经过训练的该深度神经网络模型中，并从该深度神经网络模型的输出得到与该文本数据对应的声学参数和变分自编码器VAE隐层特征。

优选地，在该步骤(101)中，构建用于该训练的文本-音频-视频数据库具体包括，

获取关于不同场景的音频数据和视频数据，并从该音频数据中提取对应的声学参数，以及从该视频数据的每一帧图像中提取对应的VAE隐层特征，并根据预设数据结构，通过该声学参数和该VAE隐层特征录制和标注，以得到该文本-音频-视频数据库。

步骤(2)，根据该声学参数，得到与该文本数据对应的目标音频。

优选地，在该步骤(2)中，根据该声学参数，得到与该文本数据对应的目标音频具体包括，

步骤(201)，将该文本数据输入至训练好的网络模型中，从而得到该声学参数；

步骤(202)，将该声学参数输入至声码器，从而通过该声码器重构得到该目标音频。

在该步骤(3)中，根据该变分自编码器VAE隐层特征，得到与该文本数据对应的目标视频具体包括，

步骤(301)，对该变分自编码器VAE隐层特征进行变换处理，以此得到初级视频；

步骤(302)，对该初级视频进行关于预设算法模型的变换处理，以此得到关于该文本数据的自然视频；

步骤(303)，根据该自然视频生成该目标视频。

优选地，在该步骤(301)中，对该变分自编码器VAE隐层特征进行变换处理，以此得到初级视频具体包括，

步骤(3011)，对该变分自编码器VAE隐层特征进行VAE解码处理，以此得到关于该文本数据的若干帧图像；

步骤(3012)，根据预设图像组合模式，对该若干帧图像进行组合处理，以此得到该初级视频。

优选地，在该步骤(302)中，对该初级视频进行关于预设算法模型的变换处理，以此得到关于该文本数据的自然视频具体包括，

步骤(3021)，基于条件生成对抗网络CGAN，构建Video-to-Video Synthesis模型作为该预设算法模型；

步骤(3022)，对该Video-to-Video Synthesis模型进行训练处理；

步骤(3023)，将该初级视频输入至经过该训练处理的该Video-to-VideoSynthesis模型，以此输出得到该自然视频。

优选地，在该步骤(3021)中，基于条件生成对抗网络CGAN，构建Video-to-VideoSynthesis模型作为该预设算法模型具体包括，

基于条件生成对抗网络CGAN、预设视频图像帧顺序条件和视频精度调整模式，构建得到该Video-to-Video Synthesis模型。

优选地，在该步骤(3022)中，对该Video-to-Video Synthesis模型进行训练处理具体包括，

采用训练该深度神经网络模型的文本-音频-视频数据库中的视频相关数据，对该Video-to-Video Synthesis模型进行训练处理，以使该Video-to-Video Synthesis模型的视频变换特性满足预设特性条件。

优选地，在该步骤(3023)中，将该初级视频输入至经过该训练处理的该Video-to-Video Synthesis模型，以此输出得到该自然视频具体包括，

步骤(30231)，获取该Video-to-Video Synthesis模型对应的视频转换精度和/或视频转换连续度；

步骤(30232)，基于该视频转换精度和/或该视频转换连续度，对该Video-to-Video Synthesis模型进行训练处理；

步骤(30233)，将该初级视频输入至训练好的该Video-to-Video Synthesis模型，从而转换得到该自然视频。

步骤(4)，将该目标音频和该目标视频进行组合，以实现该音视频合成。

优选地，在该步骤(4)中，将该目标音频和该目标视频进行组合，以实现该音视频合成具体包括，

步骤(401)，获取该目标音频对应的音频特性和该目标视频对应的视频特性；

步骤(402)，根据该音频特性和该视频特性，通过预设音视频合成器，将该目标音频和该目标视频进行组合处理。

从上述实施例可以看出，该音视频合成方法有别于现有技术需要对视频图像的关键点进行提取和建模处理，其在合成过程中并不涉及任何视频图像关键点的设计，而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成，并且该音视频合成方法在生成视频时充分考虑了视频前后帧图像之间的关系，还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理，以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求，从而大大地降低了音视频合成的难度和提高音视频合成的质量。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音视频合成方法，其特征在于，所述音视频合成方法包括如下步骤：

在所述步骤(3)中，根据所述变分自编码器VAE隐层特征，得到与所述文本数据对应的目标视频具体包括，

步骤(303)，根据所述自然视频生成所述目标视频；

在所述步骤(302)中，对所述初级视频进行关于预设算法模型的变换处理，以此得到关于所述文本数据的自然视频具体包括，

步骤(3022)，对所述Video-to-Video Synthesis模型进行训练处理；

在所述步骤(3021)中，基于条件生成对抗网络CGAN，构建Video-to-Video Synthesis模型作为所述预设算法模型具体包括，基于条件生成对抗网络CGAN、预设视频图像帧顺序条件和视频精度调整模式，构建得到所述Video-to-Video Synthesis模型；

或者，

采用训练所述深度神经网络模型的文本-音频-视频数据库中的视频相关数据，对所述Video-to-Video Synthesis模型进行训练处理，以使所述Video-to-Video Synthesis模型的视频变换特性满足预设特性条件。

2.如权利要求1所述的音视频合成方法，其特征在于：

在所述步骤(1)中，对经过训练的深度神经网络模型输入文本数据，以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征具体包括，

步骤(101)，构建用于所述训练的文本-音频-视频数据库；

步骤(103)，将所述文本数据输入至经过训练的所述深度神经网络模型中，并从所述深度神经网络模型的输出得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征。

3.如权利要求2所述的音视频合成方法，其特征在于：

在所述步骤(101)中，构建用于所述训练的文本-音频-视频数据库具体包括，

获取关于不同场景的音频数据和视频数据，并从所述音频数据中提取对应的声学参数，以及从所述视频数据的每一帧图像中提取对应的VAE隐层特征，并根据预设数据结构，通过所述声学参数和所述VAE隐层特征录制和标注，以得到所述文本-音频-视频数据库。

4.如权利要求1所述的音视频合成方法，其特征在于：

在所述步骤(2)中，根据所述声学参数，得到与所述文本数据对应的目标音频具体包括，

步骤(202)，将所述声学参数输入至声码器，从而通过所述声码器重构得到所述目标音频。

5.如权利要求1所述的音视频合成方法，其特征在于：

在所述步骤(301)中，对所述变分自编码器VAE隐层特征进行变换处理，以此得到初级视频具体包括，

步骤(3012)，根据预设图像组合模式，对所述若干帧图像进行组合处理，以此得到所述初级视频。

6.如权利要求1所述的音视频合成方法，其特征在于：

在所述步骤(3023)中，将所述初级视频输入至经过所述训练处理的所述Video-to-Video Synthesis模型，以此输出得到所述自然视频具体包括，

步骤(30233)，将所述初级视频输入至训练好的所述Video-to-Video Synthesis模型，从而转换得到所述自然视频。

7.如权利要求1所述的音视频合成方法，其特征在于：

在所述步骤(4)中，将所述目标音频和所述目标视频进行组合，以实现所述音视频合成具体包括，