CN103793446B

CN103793446B - 音乐视频的生成方法和系统

Info

Publication number: CN103793446B
Application number: CN201310142642.0A
Authority: CN
Inventors: 汤晓鸥; 吴希宣; 徐冰; 乔宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-10-29
Filing date: 2013-04-23
Publication date: 2019-03-01
Anticipated expiration: 2033-04-23
Also published as: CN103793446A

Abstract

本发明提供一种基于音乐图像之间联系的自动音乐视频的生成方法和系统。所述方法包括：获取用于生成音乐视频的音乐；根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段；获取图片，分析音乐片段与图片之间的相关性，得到与音乐片段对应的相关图片；以所述音乐片段和相关图片为材料生成音乐视频。上述方法和系统根据音乐的纹理特征对音乐进行时序分割，然后通过分析图像与音乐之间的相识程度，并对对图像的内容进行质量和美学评价，在此基础上，对每段音乐自动选取和推荐图像内容，并配以动画效果，自动生成音乐视频。该方法和系统使得无专业知识的业余人员也可以方便的制作音乐视频，提高了音乐视频的制作质量和效率。

Description

音乐视频的生成方法和系统

技术领域

本发明涉及视频处理技术，特别是涉及一种音乐视频的生成方法和系统。

背景技术

人的视觉和听觉有相通之处，人们在聆听音乐和欣赏图片或者视频时会感受到相似的感觉和情感体验。音乐和图片的关系在音乐视频制作中起到关键的作用，同时海量的视频和图像数据库使得音乐视频制作者往往需要花费大量的时间和精力去寻找或是制作与音乐相关的图像或视频，十分浪费人力物力，并需要专业知识，业余人员往往很难制作出自己期望的高质量音乐视频。另一方面，现有对音乐与图像之间语义联系的空白使得现有MV（Music Video，音乐视频）自动生成系统无法准确的寻找到与音乐关联度高的图片，从而令生成的MV质量通常比较低。

发明内容

基于此，有必要针对生成的MV质量较低和效率比较低的问题，提供一种能够提高生成MV的质量和效率的音乐视频的生成方法。

此外，还有必要提供一种能够提高生成MV的质量和效率的音乐视频的生成系统。

一种音乐视频的生成方法，包括如下步骤：

获取用于生成音乐视频的文件；

根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段；

获取图片，分析音乐片段与图片之间的相关性，得到与音乐片段对应的相关图片；

以所述音乐片段和相关图片为材料生成音乐视频。

一种音乐视频的生成系统，包括：

音乐获取模块，用于获取用于生成音乐视频的音乐；

分割模块，用于根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段；

图片获取模块，用于获取图片，分析音乐与图像之间的相关性，得到与音乐片段对应的相关图片；

生成模块，用于以所述音乐片段和相关图片为材料生成音乐视频。

上述音乐视频的生成方法和系统，通过获取用于生成音乐视频的音乐，根据音乐的纹理特征对音乐进行分割得到音乐片段，获取图片，对每段音乐及图片分析相关性，得到与音乐片段对应的相关图片，然后以所述音乐片段和相关图片为材料生成音乐视频，自动根据音乐筛选相关图片来制作音乐视频，减少了音乐视频制作者劳动，提高了制作MV的效率，且生成的MV的质量相比于非专业人员制作的MV的质量要高，提高了MV的质量。

附图说明

图1为一个实施例中一种音乐视频的生成方法流程图；

图2为另一个实施例中图1中步骤S150的具体流程图；

图3为另一个实施例中一种音乐视频的生成方法的流程图；

图4为一个实施例中图1中步骤S170的具体流程图；

图5为一个实施例中获取图片的具体流程图；

图6为一个实施例中音乐视频的生成系统的结构示意图图；

图7为一个实施例中图片获取模块的内部结构示意图；

图8为另一个实施例中音乐视频的生成系统的结构示意图；

图9为另一个实施例中图7中生成模块170的具体结构示意图；

图10为另一个实施例中音乐视频的生成系统的结构示意图。

具体实施方式

如图1所示，在一个实施例中，一种音乐视频的生成方法，包括如下步骤：

步骤S110，获取用于生成音乐视频的音乐。

本实施例中，该音乐可以是用户上传的音乐，或者是通过用户输入歌手名和歌曲名所对应的音乐，可以自动通过歌手名和歌曲名从互联网或者音乐数据库中查找对应的音乐。用于生成音乐视频的音乐还可以是来自用户输入的音乐的网络地址，也可以是从网络地址自动下载所得到的音乐。

步骤S130，根据音乐的纹理特征对音乐进行时序分割得到音乐片段。

本实施例中，音乐中通常包含有人的感情、情绪、感觉或者语言等，通过统计分析可以知道，带有不同的感情、情绪、感觉或者语言的音乐具有不同的纹理特征，该纹理特征可以是音乐的频谱特征，根据频谱特征分析音乐的音调、音色或者音量等，从而得知音乐中包含的感情、情绪或者语言等，继而得出音乐包含的语义，该语义可以以词语的形式表示。例如，音乐的每种调式都与一固定的表达方式相联系（质朴的、严峻的、得意的、强劲的、庄重的、威严的、尚武的、有教育意义的、崇高的、华丽的、忧郁的、谦恭的、放纵的、色情的）。

本实施例中，采用根据动态纹理模型分割音乐为音乐片段。动态纹理模型即表达特定语义的声音纹理模型，通过动态纹理模型对音乐片段的纹理再进行细分。

步骤S150，获取图片，分析音乐片段与图片之间的相关性，得到与音乐片段对应的相关图片。

本实施例中，获取图片可从图片数据库中获取，或从互联网上搜索等。在图片数据库中包括有大量被人工标记的图片，该标记可以是与图片的中的语义相关的词语。除了从图片数据库中搜索相似的图片外，还可以从互联网上搜索相似的图片，互联网上的图片大都有标题或者描述，根据该标题或者描述即可搜索到图片。需对每个音乐片段分别分析与图片之间的相关性。

步骤S170，以音乐片段和相关图片为材料生成音乐视频。

本实施例中，将获取的音乐片段和相关图片合成为音乐视频，合成的过程中可以设置每张图片的显示时间，以及图片之间的动画效果和切换效果等。

上述音乐视频的生成方法，通过获取用于生成音乐视频的音乐，根据音乐的纹理特征对音乐进行分割得到音乐片段，根据音乐片段获取对应的图片，然后以所述音乐片段和相关图片为材料生成音乐视频，自动根据音乐筛选相关图片来制作音乐视频，减少了音乐视频制作者劳动，提高了MV的制作效率，且生成的MV的质量相比于非专业人员制作的MV的质量要高，提高了MV的质量。

上述音乐视频的生成方法利用已有图像视频，用户上传图像视频，以及由歌词作为关键词从互联网检索而来的图像视频，作为生成音乐视频时候选视觉数据材料；对给定用于生成音乐视频的音乐，根据音乐的纹理特征对音乐进行时序分割。然后通过分析图像视频与音乐之间的相识程度，并对图像视频的内容进行质量和美学评价，在此基础上，对每段音乐自动选取和推荐图像视频内容，并配以动画效果，自动生成音乐视频。

进一步的，在一个实施例中，可根据语义函数计算音乐片段的语义特征向量。本实施例中，语义函数为对人工标记的音乐进行统计得出的语义函数，用向量表示音乐片段的语义可以表示得更全面，因为向量可以是多维的，每一维都表达一个不同的语义。具体的，每一维的语义可以用语义概率来表示，该概率可以是后验概率，使用后验概率可以表示得更准确。语义概率即音乐片段中的声学特征与语义之间的匹配程度。

如图2所示，在一个实施例中，上述步骤150包括：

步骤151，获取图片。

步骤153，根据预先构建的相似度估计函数计算音乐片段和相关图片之间的相似度。

步骤155，输出预设数量的相似度最高的相关图片作为候选图片。

本实施例中，相似度估计函数是预先通过对音乐-图片数据库中经过标记的音乐-图片对进行统计得到的。对音乐片段和对应的各个相似图片进行相似度计算，并根据相似度对相似图片进行排序。将排序靠前且相似度最高的一定数量图片筛选出来作为音乐片段的候选图片，该数量可以是用户或者系统预设的。按相似度从高到低对图片进行排序，并按相似度从高到低选取一定数量的图片。

在一个实施例中，上述步骤S153之前还包括构建相似度估计函数的步骤。相似度估计函数是对音乐图片数据库中的音乐-图片匹配关系进行统计得出的。根据音乐的声学特征计算音乐特征向量，对图片的内容进行分析计算图片特征向量，构建具有对应关系的音乐图片匹配的数据库，用归一切割算法对所述数据库中音乐进行聚类，并根据音乐图片的对应关系确定图像的类别，对所述对应类别的音乐特征向量和图片特征向量进行排序典型相关分析，获取音乐与图像间的相似度估计函数。可知，音乐和图片的特征空间都有很高的维度和复杂的结构，而且音乐和图像的关系是多对多关系，而不是一对一关系。与图片的特征空间相比，音乐的空间有较少的变化性并且有更简单的类别结构。因此，采用normalized cut（归一切割）算法来对音乐进行聚类，将图片相应地分割为对应类别，使用V₁,V₂,…,V_C来标记这些类别。

由于音乐和图像的特征向量长度相差很大，利用DtRT（Distance to ReferenceTransformation，距离参照转换）将音乐和图片的原始特征向量转换为新的DtRT表述。在每个类别V_C的优化阶段，建立R-CCA)(ranking Canonical Correlation Analysis，排序典型相关分析)来利用数据库中成对的排序信息。采用V_c＝{x_i,y_i}指代一组类别V_C中的训练对，引入投影矩阵：

A＝[a₁;a₂;…;a_J],B＝[b₁;b₂;…;b_J]。

引入如下R-CCA相似度估计函数：

R-CCA有如下目标函数：

其中f是一个hinge惩罚函数。假设在等式（1）中Σ是对角矩阵，由于通过CCA得到的映射是非相关的，设W＝[w₁,w₂,…,w_J]为Σ的对角元素，那么式（1）可以被写为：

目标函数简化为优化W：

经过结合所有类别，MR-CCA（Multiple Ranking CanonicalCorrelationAnalysis，多元排序典型相关分析）的相似度估计函数定义为

其中Cc是类别数目，d_c代表音乐图片对(x,y)(x，y)与第c个类别的距离，σ是一个标准化参数。等式（5）可以建立音乐和图片的非线性关系。相似度值越高表示图片与音乐片段的相关性越高。

如图3所示，在一个实施例中，一种音乐视频的生成方法，在步骤S155之后，还包括如下步骤：

步骤S157，根据图片之间的相似度对候选图片进行过滤处理。

本实施例中，对相邻图片的相似度设有限制要求，以此来保证音乐视频有局部的风格稳定性。通过计算图片特征向量的距离，衡量相邻图片的相似度，并去除与相邻图片相似度过低的图片，以此来对候选图片进行过滤处理。该相似度的衡量可以是针对音乐片段的候选图片，也可以是针对音乐的相似图片。

步骤S159，计算过滤后的剩余图片的质量，将图像质量最高的作为默认展示图片。

本实施例中，利用基于内容的图像质量评估技术对图片进行质量评估，首先提取图片的前景和背景，从前景和背景分别提取区域特征，根据区域特征和全局特征结合分析图像质量，如分析图片是素描图片、涂鸦图片或者彩色图片等，通常彩色图片的图像质量更高。根据图像质量得分对候选图片重新排序，得分高的图片有更高的几率被选为默认展示图片。图像质量最高的图片被选为当前音乐片段的默认展示图片。

在一个实施例中，上述步骤S159之后还包括获取用户上传的个人图片，判断到个人图片和默认展示图片之间的相似度超过预设值，则将个人图片替换默认展示图片的步骤。

本实施例中，允许用户上传个人图片，将个人图片作为生成音乐视频的图片材料，获取用户上传的个人图片后，比较个人图片和默认展示图片之间的相似度，如果相似度超过预设值，则将个人图片替换默认展示图片。该预设值可以是系统预设的，也可以是用户设置的。

如图4所示，在一个实施例中，上述步骤170包括：

步骤S171，动态化展示默认展示图片。

本实施例中，默认图片之间动态连接，之间相互独立，这样便于用于修改。将动态连接的默认图片动态画展示，展示出动画效果，如淡入、淡出、平移或者覆盖等效果。该效果有默认的设置，也可以根据用户的设置进行调整。可以将和音乐一起播放，将图片的动态化展示效果看作音乐视频的预期播放效果。

步骤S173，当用户修改音乐片段的默认展示图片时，根据相邻两帧默认展示图片的相似度联系，选取后续默认展示图片。

本实施例中，如果用户对默认展示图片不满意，并选择了另外的候选图片，则将用户选中的候选图片替换默认展示图片。当发现用户要替换默认展示图片时，如获取用户的鼠标点击操作或者键盘操作，停止默认展示图片的动态化展示，并提供用户要修改的默认展示图片的候选图片，供用户选择，把用户选中的候选图片作为默认展示图片。修改完成后可以根据用户的键盘操作或者鼠标操纵继续动态化展示默认展示图片。

用户修改音乐片段的默认展示图片后，自动选取后续音乐片段的默认展示图片。具体的，根据图片特征在默认展示图片之间建立相似度联系，如设置默认展示图片之间的相似度间距值，图片特征可以是图片的语义特征向量。当替换其中的某张默认展示图片时，将未播放的后续音乐片段的默认展示图片自动修改，如从候选图片中选择相似度联系更紧密的图片替换默认候选图片，从而保证生成的视频有比较稳定一致的风格。

步骤S175，根据音乐的音乐片段和选取的音乐片段对应的默认展示图片生成音乐视频。

本实施例中，可以以音乐的时间为顺序，排列音乐片段以及对应的默认展示图片，默认展示图片的展示时间根据相应音乐片段的时间长度而定。可以依据步骤S171中的动态化展示效果，最后将排列好的音乐片段和默认展示图片结合动画效果合成为音乐视频。

如图5所示，在一个实施例中，所述获取图片的步骤包括如下：

步骤S210，获取与音乐对应的歌词。

本实施例中，通过获取用户输入的歌手名和歌曲名搜索音乐对应的歌词，或者对音乐进行识别，然后搜索歌词。

步骤S230，对歌词提取关键词。

本实施例中，采用斯坦福语义分析程式对歌词提取关键词。斯坦福语义分析程式（Stanford Parser）是一种优化的基于概率规则集和词汇化依存句法分析方法，是一个词汇化的概率上下文无关语法分析器，同时也使用了依存分析。使用斯坦福语义分析程式可以根据不同的语法观点输出不同的分析结果，所以比较方便歌词进行关键词的提取。

步骤S250，以动名词组、名词词组、名词的优先级顺序选择最终关键词。

步骤S270，以最终关键词从互联网搜索图片。

本实施例中，因为歌曲语义信息能从歌词中直接反映出来，但是根据观察统计，直接用名词或者动词作为关键词不能返回让人满意的图片集合。这是因为动词反应的动作比较难由图像反映出来，而名词代表的具体物体过于明确，以至于不能传达任何情感信息，而音乐视频中使用具有感情信息的画面效果更好。所以优先选择动名词结合的词组作为最佳的关键词，因为动名词组可以较好地传达情感信息，当歌词中没有动名词词组时，选择名词词组作为关键词，最后的优先级是名词。以这种优先级顺序选择最终关键词来搜索图片，可以搜索到与音乐相关的图片。

在一个实施例中，上述步骤S170之后，还包括：根据相关图片搜索相似视频片段，展示动态连接的相似视频片段，根据用户的修改以音乐片段和相似视频片段为材料生成音乐视频的步骤。

本实施例中，在生成的音乐视频的材料中，除了图片和音乐，还可以包括视频片段，该视频片段是通过音乐的相关图片进行搜索得到的相似视频片段，该搜索可以是根据相关图片的语义或者语义特征向量进行搜索，搜索的对象可以是互联网，也可以是经过标记的视频数据库。搜索到的相似度最高的视频片段以动态连接的方式展示给用户，方便用户对视频片段进行修改，最后将用户确认的视频片段以及音乐合成处理，生成音乐视频，最后用于生成音乐的视频片段应该是无声的，生成的音乐视频选择音乐作为音频来源。在视频片段之间，用户可以选择保留或者删除音乐的相似图片，即以图片、音乐和视频片段为材料生成音乐视频。

如图6所示，在一个实施例中，一种音乐视频的生成方法包括音乐获取模块110、分割模块130、图片获取模块150和生成模块170。

音乐获取模块110，用于获取用于生成音乐视频的音乐。

本实施例中，该音乐可以是用户上传的音乐，或者是通过用户输入歌手名和歌曲名所对应的音乐，音乐获取模块110可以自动通过歌手名和歌曲名从互联网或者音乐数据库中查找对应的音乐。用于生成音乐视频的音乐还可以是来自用户输入的音乐的网络地址，音乐获取模块110可以自动下载网络地址所对应的音乐。

分割模块130，用于根据音乐的纹理特征对音乐进行时序分割得到音乐片段。

本实施例中，音乐中通常包含有人的感情、情绪、感觉或者语言等，通过统计分析可以知道，带有不同的感情、情绪、感觉或者语言的音乐具有不同的纹理特征，该纹理特征可以是音乐的频谱特征，分析模块130根据频谱特征分析音乐的音调、音色或者音量等，从而得知音乐中包含的感情、情绪或者语言等，继而得出音乐包含的语义，该语义可以以词语的形式表示。例如，音乐的每种调式都与一固定的表达方式相联系（质朴的、严峻的、得意的、强劲的、庄重的、威严的、尚武的、有教育意义的、崇高的、华丽的、忧郁的、谦恭的、放纵的、色情的）。

图片获取模块150，用于获取图片，分析音乐与图像之间的相关性，得到与音乐片段对应的相关图片。

本实施例中，图片获取模块150用于获取图片，可从图片数据库中获取，或从互联网上搜索等。在图片数据库中包括有大量被人工标记的图片，该标记可以是与图片的中的语义相关的词语。图片获取模块150除了从图片数据库中搜索相似的图片外，还可以从互联网上搜索相似的图片，互联网上的图片大都有标题或者描述，根据该标题或者描述即可搜索到图片。需对每个音乐片段分别分析与图片之间的相关性。

生成模块170，用于以音乐片段和相关图片为材料生成音乐视频。

本实施例中，生成模块170将获取的音乐片段和相关图片合成为音乐视频，合成的过程中可以设置每张图片的显示时间，以及图片之间的动画效果和切换效果等。

上述音乐视频的生成系统，通过获取用于生成音乐视频的音乐，根据音乐的纹理特征对音乐进行分割得到音乐片段，根据音乐片段获取对应的图片，然后以所述音乐和相关图片为材料生成音乐视频，自动根据音乐筛选相关图片来制作音乐视频，减少了音乐视频制作者劳动，提高了MV的制作效率，且生成的MV的质量相比于非专业人员制作的MV的质量要高，提高了MV的质量。

在一个实施例中，上述音乐视频的生成系统，还包括分析模块，还用于根据语义函数计算音乐片段的语义特征向量。

本实施例中，语义函数为对人工标记的音乐进行统计得出的语义函数，用向量表示音乐片段的语义可以表示得更全面，因为向量可以是多维的，每一维都表达一个不同的语义。具体的，每一维的语义可以用语义概率来表示，该概率可以是后验概率，使用后验概率可以表示得更准确。语义概率即音乐片段中的声学特征与语义之间的匹配程度。

如图7所示，在一个实施例中，上述图片获取模块150包括：

计算单元151，用于根据相似度估计函数计算音乐片段和相关图片之间的相似度。

输出单元153，用于输出预设数量的相似度最高的相关图片作为候选图片。

本实施例中，相似度估计函数是预先通过对音乐-图片数据库中经过标记的音乐-图片对进行统计得到的。计算单元151对音乐片段和对应的各个相似图片进行相似度计算，并根据相似度对相似图片进行排序。输出单元153将排序靠前的且相似度最高的一定数量图片筛选出来作为音乐片段的候选图片，该数量可以是用户或者系统预设的。按相似度从高到低对图片进行排序，并按相似度从高到低选取一定数量的图片。

在一个实施例中，上述系统还包括相似度估计函数构建模块，用于根据音乐的声学特征计算音乐特征向量，根据对图片的内容进行分析计算图片特征向量，构建具有对应关系的音乐图片匹配数据库，用归一切割算法对所述数据库中所述音乐特征向量进行聚类，并根据音乐图片的对应关系确定图像的类别，对所述对应类别的音乐特征向量和图片特征向量进行排序典型相关分析，获取音乐与图像间的相似度估计函数，根据所述排序典型相关分析函数构建相似度估计函数。

本实施例中，相似度估计函数是对音乐图片数据库中的音乐-图片匹配关系进行统计得出的。根据音乐的纹理特征计算音乐特征向量，根据图片文件的纹理特征计算图片特征向量，可知，音乐和图片的特征空间都有很高的维度和复杂的结构，而且音乐和图像的关系是多对多关系，而不是一对一关系。与图片的特征空间相比，音乐的空间有较少的变化性并且有更简单的类别结构。因此，采用normalized cut(归一切割)算法来对音乐进行聚类，将图片相应地分割为对应类别，使用V₁,V₂,…,V_C来标记这些类别。

由于音乐和图像的特征向量长度相差很大，利用DtRT（Distance to ReferenceTransformation，距离参照转换）将音乐和图片的原始特征向量转换为新的DtRT表述。在每个类别V_C的优化阶段，建立R-CCA)(ranking CanonicalCorrelation Analysis，排序典型相关分析)来利用数据库中成对的排序信息。采用V_c＝{x_i,y_i}指代一组类别V_C中的训练对，引入投影矩阵：

A＝[a₁;a₂;...;a_J],B＝[b₁;b₂;...;b_J]。

引入如下R-CCA相似度估计函数：

R-CCA有如下目标函数：

其中f是一个hinge惩罚函数。假设在等式（1）中Σ是对角矩阵，由于通过CCA得到的映射是非相关的，设W＝[w₁,w₂,...,w_J]为Σ的对角元素，那么式（1）可以被写为

目标函数简化为优化W

经过结合所有类别，MR-CCA（Multiple Ranking Canonical CorrelationAnalysis，多元排序典型相关分析）的相似度估计函数定义为

其中c是类别数目，d_c代表音乐图片对(x,y)与第c个类别的距离，σ是一个标准化参数。等式（5）可以建立音乐和图片的非线性关系。相似度值越高表示图片与音乐片段的相关性越高。

如图8所示，在一个实施例中，一种音乐视频的生成系统还包括：

过滤模块157，用于根据图片之间的相似度对候选图片进行过滤处理。

本实施例中，对相邻图片的相似度设有限制要求，以此来保证音乐视频有局部的风格稳定性。过滤模块157通过计算图片特征向量的距离，衡量相邻图片的相似度，并去除与相邻图片相似度过低的图片，以此来对候选图片进行过滤处理。该相似度的衡量可以是针对音乐片段的候选图片，也可以是针对音乐的相似图片。

质量估计模块159，用于利用基于内容的图像质量评估技术对过滤后的剩余图片进行质量评估，将图像质量最高的作为默认展示图片。

本实施例中，质量估计模块159利用基于内容的图像质量评估技术对图片进行质量评估，首先提取图片的前景和背景，从前景和背景分别提取区域特征，根据区域特征和全局特征结合分析图像质量，如分析图片是素描图片、涂鸦图片或者彩色图片等，通常彩色图片的图像质量更高。质量估计模块159根据图像质量得分对候选图片重新排序，得分高的图片有更高的几率被选为默认展示图片。图像质量最高的图片被选为当前音乐片段的默认展示图片。

在一个实施例中，上述系统还包括判断模块，用于获取用户上传的个人图片，判断到个人图片和默认展示图片之间的相似度超过预设值，则将个人图片替换默认展示图片。

本实施例中，允许用户上传个人图片，将个人图片作为生成音乐视频的图片材料，获取用户上传的个人图片后，判断模块比较个人图片和默认展示图片之间的相似度，如果相似度超过预设值，则将个人图片替换默认展示图片。该预设值可以是系统预设的，也可以是用户设置的。

如图9所示，在一个实施例中，上述生成模块170包括：

展示单元171，用于动态化展示默认展示图片。

本实施例中，默认图片之间动态连接，之间相互独立，这样便于用于修改。将动态连接的默认图片动态画展示，展示出动画效果，如淡入、淡出、平移或者覆盖等效果。该效果有默认的设置，也可以根据用户的设置进行调整。可以和音乐一起播放，将图片的动态化展示效果看作音乐视频的预期播放效果。

选取单元173，用于当用户修改音乐片段的默认展示图片时，根据相邻两帧默认展示图片的相似度联系，选取后续默认展示图片。

本实施例中，如果用户对默认展示图片不满意，并选择了另外的候选图片，选取单元173则将用户选中的候选图片替换默认展示图片。当发现用户要替换默认展示图片时，如获取用户的鼠标点击操作或者键盘操作，展示单元171停止默认展示图片的动态化展示，并提供用户要修改的默认展示图片的候选图片，供用户选择，选取单元173把用户选中的候选图片作为默认展示图片。修改完成后展示单元171可以根据用户的键盘操作或者鼠标操纵继续动态化展示默认展示图片。

生成单元175，用于根据音乐的音乐片段和音乐片段对应的默认展示图片生成音乐视频。

本实施例中，生成单元175可以以音乐的时间为顺序，排列音乐片段以及对应的默认展示图片，默认展示图片的展示时间根据相应音乐片段的时间长度而定。生成单元175可以依据展示单元171中的动态化展示效果，最后将排列好的音乐片段和默认展示图片结合动画效果合成为音乐视频。

在一个实施例中，图片获取模块150还用于获取与音乐对应的歌词，对歌词提取关键词，以动名词组、名词词组、名词的优先级顺序选择最终关键词，以最终关键词从互联网搜索图片。

本实施例中，图片获取模块150通过获取用户输入的歌手名和歌曲名搜索音乐对应的歌词，或者对音乐进行识别，然后搜索歌词。采用斯坦福语义分析程式对歌词提取关键词。斯坦福语义分析程式（Stanford Parser）是一种优化的基于概率规则集和词汇化依存句法分析方法，是一个词汇化的概率上下文无关语法分析器，同时也使用了依存分析。使用斯坦福语义分析程式可以根据不同的语法观点输出不同的分析结果，所以比较方便歌词进行关键词的提取。因为歌曲语义信息能从歌词中直接反映出来，但是根据观察统计，直接用名词或者动词作为关键词不能返回让人满意的图片集合。这是因为动词反应的动作比较难由图像反映出来，而名词代表的具体物体过于明确，以至于不能传达任何情感信息，而音乐视频中使用具有感情信息的画面效果更好。所以歌词处理模块优先选择动名词结合的词组作为最佳的关键词，因为动名词组可以较好地传达情感信息，当歌词中没有动名词词组时，选择名词词组作为关键词，最后的优先级是名词。图片获取模块150以这种优先级顺序选择最终关键词来搜索图片，可以搜索到与音乐相关的图片。

在一个实施例中，如图10所示，上述系统还包括：搜索模块190用于根据相关图片搜索相似视频片段；生成模块170用于展示动态连接的所述相似视频片段，根据用户的修改以音乐片段和相似视频片段为材料生成音乐视频。

本实施例中，在生成的音乐视频的材料中，除了图片和音乐，还可以包括视频片，该视频片段是视频单元通过音乐的相关图片进行搜索得到的相似视频片段，该搜索可以是根据相似图片的语义或者语义特征向量进行搜索，搜索的对象可以是互联网，也可以是经过标记的视频数据库。搜索到的相似度最高的视频片段以动态连接的方式展示给用户，方便用户对视频片段进行修改，视频单元最后将用户确认的视频片段以及音乐合成处理，生成音乐视频，最后用于生成音乐的视频片段应该是无声的，生成的音乐视频选择音乐作为音频来源。在视频片段之间，用户可以选择保留或者删除音乐的相关图片，即以图片、音乐和视频片段为材料生成音乐视频。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种音乐视频的生成方法，包括以下步骤：

获取用于生成音乐视频的音乐；

根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段及所述音乐片段包含的语义，所述纹理特征是音乐的频谱特征；

获取图片，根据所述音乐片段包含的语义分析音乐片段与图片之间的相关性，得到与音乐片段对应的相关图片；

根据预先构建的相似度估计函数计算所述音乐片段和相关图片之间的语义相似度；

输出预设数量的相似度最高的所述相关图片作为候选图片；

以所述音乐片段和候选图片为材料生成音乐视频；

所述根据预先构建的相似度估计函数计算所述音乐片段和相关图片之间的语义相似度的步骤之前还包括：

根据音乐的声学特征计算音乐特征向量，根据对图片的内容进行分析计算图片特征向量；

构建具有对应关系的音乐图片匹配的数据库；

用归一切割算法对所述数据库中音乐进行聚类，并根据音乐图片的对应关系确定图像的类别；

对所述对应类别的音乐特征向量和图片特征向量进行排序典型相关分析，获取音乐与图像间的相似度估计函数。

2.根据权利要求 1所述的音乐视频的生成方法，其特征在于，在所述输出预设数量的相似度最高的所述相关图片作为候选图片的步骤之后，还包括：

根据图片之间的相似度对所述候选图片进行过滤处理；

计算过滤后的剩余图片的质量，将图像质量最高的作为默认展示图片。

3.根据权利要求2所述的音乐视频的生成方法，其特征在于，还包括：

获取用户上传的个人图片；

判断到所述个人图片和默认展示图片之间的相似度超过预设值，则将所述个人图片替换默认展示图片。

4.根据权利要求2所述的音乐视频的生成方法，其特征在于，所述以所述音乐和相关图片为材料生成音乐视频的步骤包括：

动态化展示所述默认展示图片；

当获取到用户修改音乐片段的默认展示图片时，根据相邻两帧默认展示图片的相似度联系，选取后续默认展示图片；

根据所述音乐的音乐片段和选取的所述音乐片段对应的默认展示图片生成音乐视频。

5.根据权利要求1所述的音乐视频的生成方法，其特征在于，所述获取图片的步骤包括：

获取与音乐对应的歌词；

对所述歌词提取关键词；

以动名词组、名词词组、名词的优先级顺序选择最终关键词；

以所述最终关键词从互联网搜索图片。

6.根据权利要求1所述的音乐视频的生成方法，其特征在于，所述以所述音乐和相关图片为材料生成音乐视频的步骤之后，还包括：

根据所述相关图片搜索相似视频片段；

展示动态连接的所述相似视频片段；

根据用户的修改以所述音乐片段和相似视频片段为材料生成音乐视频。

7.一种音乐视频的生成系统，包括：

音乐获取模块，用于获取用于生成音乐视频的音乐；

分割模块，用于根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段及所述音乐片段包含的语义，所述纹理特征是音乐的频谱特征；

图片获取模块，用于获取图片，根据所述音乐片段包含的语义分析音乐与图片之间的相关性，得到与音乐片段对应的相关图片；

所述图片获取模块包括：

计算单元，用于根据预先构建的相似度估计函数计算所述音乐片段和相关图片之间的相似度；

输出单元，用于输出预设数量的相似度最高的所述相似图片作为候选图片；

生成模块，用于以所述音乐片段和候选图片为材料生成音乐视频；

所述系统还包括：

相似度估计函数构建模块，用于根据音乐的声学特征计算音乐特征向量，根据对图片的内容进行分析计算图片特征向量，构建具有对应关系的音乐图片匹配的数据库，用归一切割算法对所述数据库中所述音乐特征向量进行聚类，并根据音乐图片的对应关系确定图像的类别，对所述对应类别的音乐特征向量和图片特征向量进行排序典型相关分析，获取音乐与图像间的相似度估计函数，根据所述排序典型相关分析函数构建相似度估计函数。

8.根据权利要求7所述的音乐视频的生成系统，其特征在于，所述系统还包括：

过滤模块，用于根据图片之间的相似度对所述候选图片进行过滤处理；

质量估算模块，用于计算过滤后的剩余图片的质量，将图像质量最高的作为默认展示图片。

9.根据权利要求8所述的音乐视频的生成系统，其特征在于，还包括：

判断模块，用于获取用户上传的个人图片，判断到所述个人图片和默认展示图片之间的相似度超过预设值，则将所述个人图片替换默认展示图片。

10.根据权利要求8所述的音乐视频的生成系统，其特征在于，所述生成模块包括：

展示单元，用于动态化展示所述默认展示图片；

选取单元，用于当获取到用户修改音乐片段的默认展示图片时，根据相邻两帧默认展示图片的相似度联系，选取后续默认展示图片；

生成单元，用于根据所述音乐的音乐片段和选取的所述音乐片段对应的默认展示图片生成音乐视频。

11.根据权利要求7所述的音乐视频的生成系统，其特征在于，所述图片获取模块还用于获取与音乐对应的歌词，对所述歌词提取关键词，以动名词组、名词词组、名词的优先级顺序选择最终关键词，以所述最终关键词从互联网搜索图片。

12.根据权利要求7所述的音乐视频的生成系统，其特征在于，还包括：

搜索模块，用于根据所述相关图片搜索相似视频片段；

所述生成模块还用于展示动态连接的所述相似视频片段，并根据用户的修改以所述音乐片段和相似视频片段为材料生成音乐视频。