CN111339865A

CN111339865A - 一种基于自监督学习的音乐合成视频mv的方法

Info

Publication number: CN111339865A
Application number: CN202010097990.0A
Authority: CN
Inventors: 康洪文
Original assignee: Hangzhou Huichuan Intelligent Technology Co ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-26

Abstract

本发明公开了一种基于自监督学习的音乐合成视频MV的方法，它包含以下步骤：一、从已有的素材库中，分离出音频和视频流；二、利用深度学习技术，基于视频理解，从视频中提取出人物、动作、表情、场景信息；三、根据音乐的节奏、声纹信息自动分类；四、从音乐中分离出人声，乐器，伴奏以及歌词；五、由视频文件中的时间戳同步音视频相关特征信息；六、由音乐特征学习对应的视频信息，形成音乐和视频的映射关系；七、输入任何一段音乐，合成相应的视频MV；本发明可以从海量的已有视频数据中，自动匹配选取合适的视频片段，将音乐映射生成相应的短视频MV，给用户更直观的视觉冲击力和更加生动的听觉体验。

Description

一种基于自监督学习的音乐合成视频MV的方法

技术领域

本发明涉及媒资管理技术领域，具体涉及一种基于自监督学习的音乐合成视频MV的方法。

背景技术

在移动互联网、大数据、AI智能的技术驱动下，短视频正以其自身优势，打破内容行业的传统思路。短视频平台能够基于用户的兴趣偏好，实现精准匹配、智能导流，并通过短视频内容，智能辐射多元分发渠道，精准触达多级用户，使用户低成本理解视频主题并引起共鸣，获得更多的认可和转发。随着5G技术的发展，平台运营成本降低，移动端网速大幅提升，短视频井喷的流量和突出的营销效应，使得用户的社交活跃性和使用黏性大大提升，越来越符合移动用户时间碎片化的体验。

音乐与短视频MV同时具有娱乐属性，但由于其语音特性，无法向用户提供直观、丰满的画面信息，而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据，再从中选出一些跟音乐节奏等信息相匹配的片段来，耗费了巨大的时间与精力。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种基于自监督学习的音乐合成视频MV的方法，可以从海量的已有视频数据中，自动匹配选取合适的视频片段，将音乐映射生成相应的短视频MV，给用户更直观的视觉冲击力和更加生动的听觉体验。

为实现上述目的，本发明采用的技术方案是：它包含如下步骤：

一、从已有的素材库中，分离出音频和视频流；

二、利用深度学习技术，基于视频理解，从视频中提取出人物、动作、表情、场景信息；

三、根据音乐的节奏、声纹信息自动分类；

四、从音乐中分离出人声、乐器、伴奏以及歌词；

五、由视频文件中的时间戳同步音视频相关特征信息；

六、由音乐特征学习对应的视频信息，形成音乐和视频的映射关系；

七、输入任何一段音乐，合成相应的视频MV。

进一步地，步骤二的具体方法是：使用深度3D卷积神经网络提取视频的时空信息，进行场景识别、动作捕捉、情感分析，提取出视频的场景信息、对象信息、人物表情、运动信息；

进一步地，步骤三的具体方法是：使用GRU(Gated Recurrent Unit)网络识别音乐的旋律节奏、情感、流派、声纹特征，并按照不同的特征对其分类；

进一步地，步骤四的具体方法是：使用LSTM(Long Short-Term Memory)长短期记忆网络，基于音乐时间序列中的间隔和延迟，将人声、乐器、伴奏、歌词信息从音乐中分离出来；

进一步地，步骤六的具体方法是：根据步骤三和步骤四得到的不同的音乐特征，使用RNN(Recurrent NeuralNetwork)网络来学习对应的视频信息，从而形成音乐和视频的映射关系；

进一步地，步骤七的具体方法是：首先根据步骤三的方法，对输入的音乐进行分类；再根据步骤六得到的音乐和视频映射关系，从素材库中选择合适的视频片段，合成相应的视频MV。

采用上述方案后，本发明有益效果为：本发明所述的一种基于自监督学习的音乐合成视频MV的方法，可以从海量的已有视频数据中，自动匹配选取合适的视频片段，将音乐映射生成相应的短视频MV，给用户更直观的视觉冲击力和更加生动的听觉体验。

具体实施方式

下面对本发明作进一步的说明。

本具体实施方式采用的技术方案是：它包含如下步骤：

一、从已有的素材库中，分离出音频和视频流；

二、利用深度学习技术，基于视频理解，从视频中提取出人物、动作、表情、场景信息；具体方法是使用深度3D卷积神经网络提取视频的时空信息，进行场景识别、动作捕捉、情感分析，提取出视频的场景信息、对象信息、人物表情、运动信息；

三、根据音乐的节奏、声纹信息自动分类；具体方法是使用GRU(Gated RecurrentUnit)网络识别音乐的旋律节奏、情感、流派、声纹特征，并按照不同的特征对其分类；

四、从音乐中分离出人声、乐器、伴奏以及歌词；具体方法是使用LSTM(LongShort-Term Memory)长短期记忆网络，基于音乐时间序列中的间隔和延迟，将人声、乐器、伴奏、歌词信息从音乐中分离出来；

五、由视频文件中的时间戳同步音视频相关特征信息；

六、由音乐特征学习对应的视频信息，形成音乐和视频的映射关系；具体方法是根据步骤三和步骤四得到的不同的音乐特征，使用RNN(Recurrent NeuralNetwork)网络来学习对应的视频信息，从而形成音乐和视频的映射关系；

七、输入任何一段音乐，合成相应的视频MV：先根据步骤三的方法，对输入的音乐进行分类；再根据步骤六得到的音乐和视频映射关系，从素材库中选择合适的视频片段，合成相应的视频MV。

以上所述，仅用以说明本发明的技术方案,而非限制本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于自监督学习的音乐合成视频MV的方法，其特征在于它包含如下步骤：

一、从已有的素材库中，分离出音频和视频流；

三、根据音乐的节奏、声纹信息自动分类；

四、从音乐中分离出人声、乐器、伴奏以及歌词；

五、由视频文件中的时间戳同步音视频相关特征信息；

七、输入任何一段音乐，合成相应的视频MV。

2.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法，其特征在于步骤二的具体方法是：使用深度3D卷积神经网络提取视频的时空信息，进行场景识别、动作捕捉、情感分析，提取出视频的场景信息、对象信息、人物表情、运动信息。

3.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法，其特征在于步骤三的具体方法是：使用GRU(Gated Recurrent Unit)网络识别音乐的旋律节奏、情感、流派、声纹特征，并按照不同的特征对其分类。

4.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法，其特征在于步骤四的具体方法是：使用LSTM(Long Short-Term Memory)长短期记忆网络，基于音乐时间序列中的间隔和延迟，将人声、乐器、伴奏、歌词信息从音乐中分离出来。

5.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法，其特征在于步骤六的具体方法是：根据步骤三和步骤四得到的不同的音乐特征，使用RNN(RecurrentNeuralNetwork)网络来学习对应的视频信息，从而形成音乐和视频的映射关系。

6.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法，其特征在于步骤七的具体方法是：首先根据步骤三的方法，对输入的音乐进行分类；再根据步骤六得到的音乐和视频映射关系，从素材库中选择合适的视频片段，合成相应的视频MV。