CN111339865A - 一种基于自监督学习的音乐合成视频mv的方法 - Google Patents

一种基于自监督学习的音乐合成视频mv的方法 Download PDF

Info

Publication number
CN111339865A
CN111339865A CN202010097990.0A CN202010097990A CN111339865A CN 111339865 A CN111339865 A CN 111339865A CN 202010097990 A CN202010097990 A CN 202010097990A CN 111339865 A CN111339865 A CN 111339865A
Authority
CN
China
Prior art keywords
video
music
information
synthesizing
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010097990.0A
Other languages
English (en)
Inventor
康洪文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Hangzhou Huichuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huichuan Intelligent Technology Co ltd filed Critical Hangzhou Huichuan Intelligent Technology Co ltd
Priority to CN202010097990.0A priority Critical patent/CN111339865A/zh
Publication of CN111339865A publication Critical patent/CN111339865A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于自监督学习的音乐合成视频MV的方法,它包含以下步骤:一、从已有的素材库中,分离出音频和视频流;二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;三、根据音乐的节奏、声纹信息自动分类;四、从音乐中分离出人声,乐器,伴奏以及歌词;五、由视频文件中的时间戳同步音视频相关特征信息;六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;七、输入任何一段音乐,合成相应的视频MV;本发明可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音乐映射生成相应的短视频MV,给用户更直观的视觉冲击力和更加生动的听觉体验。

Description

一种基于自监督学习的音乐合成视频MV的方法
技术领域
本发明涉及媒资管理技术领域,具体涉及一种基于自监督学习的音乐合成视频MV的方法。
背景技术
在移动互联网、大数据、AI智能的技术驱动下,短视频正以其自身优势,打破内容行业的传统思路。短视频平台能够基于用户的兴趣偏好,实现精准匹配、智能导流,并通过短视频内容,智能辐射多元分发渠道,精准触达多级用户,使用户低成本理解视频主题并引起共鸣,获得更多的认可和转发。随着5G技术的发展,平台运营成本降低,移动端网速大幅提升,短视频井喷的流量和突出的营销效应,使得用户的社交活跃性和使用黏性大大提升,越来越符合移动用户时间碎片化的体验。
音乐与短视频MV同时具有娱乐属性,但由于其语音特性,无法向用户提供直观、丰满的画面信息,而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据,再从中选出一些跟音乐节奏等信息相匹配的片段来,耗费了巨大的时间与精力。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于自监督学习的音乐合成视频MV的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音乐映射生成相应的短视频MV,给用户更直观的视觉冲击力和更加生动的听觉体验。
为实现上述目的,本发明采用的技术方案是:它包含如下步骤:
一、从已有的素材库中,分离出音频和视频流;
二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;
三、根据音乐的节奏、声纹信息自动分类;
四、从音乐中分离出人声、乐器、伴奏以及歌词;
五、由视频文件中的时间戳同步音视频相关特征信息;
六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;
七、输入任何一段音乐,合成相应的视频MV。
进一步地,步骤二的具体方法是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息;
进一步地,步骤三的具体方法是:使用GRU(Gated Recurrent Unit)网络识别音乐的旋律节奏、情感、流派、声纹特征,并按照不同的特征对其分类;
进一步地,步骤四的具体方法是:使用LSTM(Long Short-Term Memory)长短期记忆网络,基于音乐时间序列中的间隔和延迟,将人声、乐器、伴奏、歌词信息从音乐中分离出来;
进一步地,步骤六的具体方法是:根据步骤三和步骤四得到的不同的音乐特征,使用RNN(Recurrent NeuralNetwork)网络来学习对应的视频信息,从而形成音乐和视频的映射关系;
进一步地,步骤七的具体方法是:首先根据步骤三的方法,对输入的音乐进行分类;再根据步骤六得到的音乐和视频映射关系,从素材库中选择合适的视频片段,合成相应的视频MV。
采用上述方案后,本发明有益效果为:本发明所述的一种基于自监督学习的音乐合成视频MV的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音乐映射生成相应的短视频MV,给用户更直观的视觉冲击力和更加生动的听觉体验。
具体实施方式
下面对本发明作进一步的说明。
本具体实施方式采用的技术方案是:它包含如下步骤:
一、从已有的素材库中,分离出音频和视频流;
二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;具体方法是使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息;
三、根据音乐的节奏、声纹信息自动分类;具体方法是使用GRU(Gated RecurrentUnit)网络识别音乐的旋律节奏、情感、流派、声纹特征,并按照不同的特征对其分类;
四、从音乐中分离出人声、乐器、伴奏以及歌词;具体方法是使用LSTM(LongShort-Term Memory)长短期记忆网络,基于音乐时间序列中的间隔和延迟,将人声、乐器、伴奏、歌词信息从音乐中分离出来;
五、由视频文件中的时间戳同步音视频相关特征信息;
六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;具体方法是根据步骤三和步骤四得到的不同的音乐特征,使用RNN(Recurrent NeuralNetwork)网络来学习对应的视频信息,从而形成音乐和视频的映射关系;
七、输入任何一段音乐,合成相应的视频MV:先根据步骤三的方法,对输入的音乐进行分类;再根据步骤六得到的音乐和视频映射关系,从素材库中选择合适的视频片段,合成相应的视频MV。
以上所述,仅用以说明本发明的技术方案,而非限制本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于自监督学习的音乐合成视频MV的方法,其特征在于它包含如下步骤:
一、从已有的素材库中,分离出音频和视频流;
二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;
三、根据音乐的节奏、声纹信息自动分类;
四、从音乐中分离出人声、乐器、伴奏以及歌词;
五、由视频文件中的时间戳同步音视频相关特征信息;
六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;
七、输入任何一段音乐,合成相应的视频MV。
2.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法,其特征在于步骤二的具体方法是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息。
3.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法,其特征在于步骤三的具体方法是:使用GRU(Gated Recurrent Unit)网络识别音乐的旋律节奏、情感、流派、声纹特征,并按照不同的特征对其分类。
4.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法,其特征在于步骤四的具体方法是:使用LSTM(Long Short-Term Memory)长短期记忆网络,基于音乐时间序列中的间隔和延迟,将人声、乐器、伴奏、歌词信息从音乐中分离出来。
5.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法,其特征在于步骤六的具体方法是:根据步骤三和步骤四得到的不同的音乐特征,使用RNN(RecurrentNeuralNetwork)网络来学习对应的视频信息,从而形成音乐和视频的映射关系。
6.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法,其特征在于步骤七的具体方法是:首先根据步骤三的方法,对输入的音乐进行分类;再根据步骤六得到的音乐和视频映射关系,从素材库中选择合适的视频片段,合成相应的视频MV。
CN202010097990.0A 2020-02-17 2020-02-17 一种基于自监督学习的音乐合成视频mv的方法 Pending CN111339865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097990.0A CN111339865A (zh) 2020-02-17 2020-02-17 一种基于自监督学习的音乐合成视频mv的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097990.0A CN111339865A (zh) 2020-02-17 2020-02-17 一种基于自监督学习的音乐合成视频mv的方法

Publications (1)

Publication Number Publication Date
CN111339865A true CN111339865A (zh) 2020-06-26

Family

ID=71185293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097990.0A Pending CN111339865A (zh) 2020-02-17 2020-02-17 一种基于自监督学习的音乐合成视频mv的方法

Country Status (1)

Country Link
CN (1) CN111339865A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022005442A1 (ru) * 2020-07-03 2022-01-06 Назар Юрьевич ПОНОЧЕВНЫЙ Система (варианты) для гармоничного объединения видеофайлов и аудиофайлов и соответствующий способ
CN114339423A (zh) * 2021-12-24 2022-04-12 咪咕文化科技有限公司 短视频生成方法、装置、计算设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901595A (zh) * 2010-05-05 2010-12-01 北京中星微电子有限公司 一种根据音频音乐生成动画的方法和系统
CN108305605A (zh) * 2018-03-06 2018-07-20 吟飞科技(江苏)有限公司 基于计算机音视频的人机交互数字乐器系统
CN110602550A (zh) * 2019-08-09 2019-12-20 咪咕动漫有限公司 一种视频处理方法、电子设备及存储介质
CN110782915A (zh) * 2019-10-31 2020-02-11 广州艾颂智能科技有限公司 一种基于深度学习的波形音乐成分分离方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901595A (zh) * 2010-05-05 2010-12-01 北京中星微电子有限公司 一种根据音频音乐生成动画的方法和系统
CN108305605A (zh) * 2018-03-06 2018-07-20 吟飞科技(江苏)有限公司 基于计算机音视频的人机交互数字乐器系统
CN110602550A (zh) * 2019-08-09 2019-12-20 咪咕动漫有限公司 一种视频处理方法、电子设备及存储介质
CN110782915A (zh) * 2019-10-31 2020-02-11 广州艾颂智能科技有限公司 一种基于深度学习的波形音乐成分分离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHAODA YE ET AL.: "《Sequential Cross-Modal Hashing Learning via Multi-scale Correlation Mining》", 《中国工程科技知识中心》, pages 22 - 20 *
李伟: "《音频音乐与计算机的交融 音频音乐技术》", 上海:复旦大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022005442A1 (ru) * 2020-07-03 2022-01-06 Назар Юрьевич ПОНОЧЕВНЫЙ Система (варианты) для гармоничного объединения видеофайлов и аудиофайлов и соответствующий способ
CN114339423A (zh) * 2021-12-24 2022-04-12 咪咕文化科技有限公司 短视频生成方法、装置、计算设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Wu et al. Wav2clip: Learning robust audio representations from clip
CN102799605B (zh) 一种广告监播方法和系统
CN105120304B (zh) 信息显示方法、装置及系统
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
Huang et al. Integration of multimodal features for video scene classification based on HMM
CN108833973A (zh) 视频特征的提取方法、装置和计算机设备
CN103823867A (zh) 一种基于音符建模的哼唱式音乐检索方法及系统
CN108288468A (zh) 语音识别方法及装置
CN108920648B (zh) 一种基于音乐-图像语义关系的跨模态匹配方法
CN105224581B (zh) 在播放音乐时呈现图片的方法和装置
WO2023197979A1 (zh) 一种数据处理方法、装置、计算机设备及存储介质
TW201717062A (zh) 基於多模態融合之智能高容錯視頻識別系統及其識別方法
CN104506947B (zh) 一种基于语义内容的视频快进/快退速度自适应调整方法
CN109005451B (zh) 基于深度学习的视频拆条方法
CN110019852A (zh) 多媒体资源搜索方法和装置
CN111083393A (zh) 一种智能化制作短视频的方法
CN105788610A (zh) 音频处理方法及装置
CN112511854A (zh) 一种直播视频精彩片段生成方法、装置、介质和设备
CN111147871B (zh) 直播间歌唱识别方法、装置及服务器、存储介质
CN111339865A (zh) 一种基于自监督学习的音乐合成视频mv的方法
CN110019962A (zh) 一种视频文案信息的生成方法及装置
CN107679196A (zh) 一种多媒体识别方法、电子设备及存储介质
Blanchard et al. Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
Ajayakumar et al. Predominant instrument recognition in polyphonic music using gmm-dnn framework
CN104882146A (zh) 音频推广信息的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210223

Address after: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: 310012 no.2-10, north of building 13, 199 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Huichuan Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200626