CN111753127B

CN111753127B - 音乐信息处理、推荐方法及装置

Info

Publication number: CN111753127B
Application number: CN201910250318.8A
Authority: CN
Inventors: 解霆驰; 唐磊
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2024-05-07
Anticipated expiration: 2039-03-29
Also published as: CN111753127A

Abstract

本申请实施例公开了音乐信息处理、推荐方法及装置，其中，所述方法包括：获得包括有多个基准音乐的第一音乐库，并确定场景信息与能够与该场景搭配的基准音乐之间的对应关系；获得第二音乐库；分别对所述第一音乐库以及第二音乐库中的音乐进行音乐特征提取；通过特征比对的方式，确定所述第二音乐库中的音乐与所述基准音乐之间的相似度；根据所述相似度，生成所述场景信息与音乐集合之间的对应关系，以用于向对应场景中的音乐搭配需求进行音乐推荐。通过本申请实施例，能够为商品对象信息的视频内容制作、审核等方面的工作提供更便利和高效的帮助。

Description

音乐信息处理、推荐方法及装置

技术领域

本申请涉及视频内容制作处理技术领域，特别是涉及音乐信息处理、推荐方法及装置。

背景技术

信息媒介是信息传播的载体，更便捷的承载更大信息量的新型媒介形式的出现，为信息的传播和人们的生活提供了很大的便利。其中，音乐与图像相结合的视频信息媒介，以其生动的表现力，包含内容的丰富性，给受众带来多重感官的冲击力等优势，在各种信息媒介形式中占据了不可动摇的地位，在社会生活各领域有着广泛的应用。例如，在商品对象信息服务系统中，商品对象信息提供方用户可以发布商品对象信息，在发布信息的过程中，会使用到多种信息媒介载体，例如文字，图片，图表等，当然，也常常使用到视频这种信息媒介，借助视频媒介的优势，可以更有效的表达产品应用场景，更高效的向需求方用户传递产品服务信息内容等等。

在传统的商品对象相关视频媒介的提供方式中，视频内容主要由商品对象信息的提供方提供到商品对象信息服务系统，经系统平台审核确定合规后，在相应的商品对象页面的特定位置发布和展示。但在实际应用中，信息媒介的应用趋势对视频内容制作提出了新的需求。一方面，在质量上，需求方用户越来越期待表现力更好，音画融合更贴切的视频内容，而缺乏经验的制作者往往难以制作出令人满意的内容；另一方面，在效率和成本上，受限于经验和工具等因素，部分视频内容制作工作难以满足行业需求，而专业制作的应用虽然能够带来高效的制作和高质量的视频内容，但同时也难免带来了额外的开销，尤其对于一些商品对象信息类型，例如时装，消费电子等，其在商品对象信息服务系统中的商品对象信息换代，上新的频度更高，在加之视频内容的使用也很频繁，这可能会给相应的提供方用户带来一定的成本支出。

综上可见，如何为商品对象信息的视频内容制作、审核等方面的工作提供更便利和高效的帮助，是需要本领域技术人员解决的问题。

发明内容

本申请提供了音乐信息处理、推荐方法及装置，能够为商品对象信息的视频内容制作、审核等方面的工作提供更便利和高效的帮助。

本申请提供了如下方案：

一种音乐信息处理方法，包括：

获得第一音乐库，所述第一音乐库中包括能够与目标场景搭配的至少一个基准音乐；

获得第二音乐库，所述第二音乐库中包括多个待推荐音乐；

分别对所述第一音乐库以及第二音乐库中的音乐进行音乐特征提取；

通过特征比对的方式，确定所述第二音乐库中的音乐与所述基准音乐之间的相似度；

根据所述相似度，为所述目标场景确定音乐集合，以用于向与所述目标场景相关的音乐搭配需求进行音乐推荐。

一种提取音乐特征信息的方法，包括：

确定目标音乐中的每分钟节拍数BPM信息，并确定其中包括的BPM时间点；

根据所述BPM时间点确定采样时间点，并确定每个采样时间点上包括的至少一种声音的频率以及对应的强度信息；

根据所述采样点上包括的声音的频率以及强度信息，确定所述目标音乐中的多种频率类别的出现比率信息；

根据所述采样点上包括的声音的频率，确定根音频率，并根据所述根音频率，确定所述目标音乐的和弦走向信息；

将所述BPM信息、多种频率类别的出现比率信息以及和弦走向信息，作为所述目标音乐的音乐特征信息。

一种音乐信息推荐方法，包括：

服务端接收客户端提交的视频内容制作请求；

确定所述请求关联的目标场景信息；

根据所述目标场景信息对应的音乐集合进行提供推荐的音乐信息，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的。

一种音乐信息推荐方法，包括：

客户端提供用于提交视频制作请求的操作选项；

通过所述操作选项接收到操作指令后，向服务端提交视频制作请求，并在所述请求中携带关联的目标场景信息；

接收所述服务端返回的音乐推荐信息，所述音乐推荐信息是根据所述目标场景信息对应的音乐集合确定的，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的。

一种视频内容审核方法，包括：

接收待发布的视频内容，并从中提取搭配的目标音乐，对所述目标音乐进行音乐特征提取；

确定所述视频内容关联的目标场景信息；

确定能够与目标场景搭配的基准音乐，以及所述基准音乐对应的音乐特征信息；

通过将所述目标音乐的音乐特征与所述基准音乐的音乐特征进行比对，确定所述目标音乐与所述目标场景的搭配度，以用于输出审核结果。

一种音乐信息处理方法，包括：

获得第一音乐库，所述第一音乐库中包括与目标场景搭配的至少一个基准音乐；

对所述基准音乐进行音乐特征提取，得到基准音乐特征；

获得第二音乐库，所述第二音乐库中包括多个待选音乐；

对所述第二音乐库中的待选音乐进行音乐特征提取，得到待选音乐特征；

比对所述待选音乐特征与所述基准音乐特征，得到所述待选音乐与所述基准音乐的相似度；

将所述相似度满足预设条件的待选音乐确定为与所述目标场景搭配的音乐。

一种音乐信息处理装置，包括：

第一音乐库获得单元，用于获得第一音乐库，所述第一音乐库中包括能够与目标场景搭配的至少一个基准音乐；

第二音乐库获得单元，用于获得第二音乐库，所述第二音乐库中包括多个待推荐音乐；

特征提取单元，用于分别对所述第一音乐库以及第二音乐库中的音乐进行音乐特征提取；

相似度确定单元，用于通过特征比对的方式，确定所述第二音乐库中的音乐与所述基准音乐之间的相似度；

音乐集合确定单元，用于根据所述相似度，为所述目标场景确定音乐集合，以用于向与所述目标场景相关的音乐搭配需求进行音乐推荐。

一种提取音乐特征信息的装置，包括：

BPM信息确定单元，用于确定目标音乐中的每分钟节拍数BPM信息，并确定其中包括的BPM时间点；

采样点确定单元，用于根据所述BPM时间点确定采样时间点，并确定每个采样时间点上包括的至少一种声音的频率以及对应的强度信息；

比率信息确定单元，用于根据所述采样点上包括的声音的频率以及强度信息，确定所述目标音乐中的多种频率类别的出现比率信息；

和弦走向信息确定单元，用于根据所述采样点上包括的声音的频率，确定根音频率，并根据所述根音频率，确定所述目标音乐的和弦走向信息；

特征信息获得单元，用于将所述BPM信息、多种频率类别的出现比率信息以及和弦走向信息，作为所述目标音乐的音乐特征信息。

一种音乐信息推荐装置，包括：

请求接收单元，用于接收客户端提交的视频内容制作请求；

场景信息确定单元，用于确定所述请求关联的目标场景信息；

音乐推荐单元，用于根据所述目标场景信息对应的音乐集合进行提供推荐的音乐信息，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的。

一种音乐信息推荐装置，包括：

操作选项提供单元，用于提供用于提交视频制作请求的操作选项；

请求提交单元，用于通过所述操作选项接收到操作指令后，向服务端提交视频制作请求，并在所述请求中携带关联的目标场景信息；

推荐信息接收单元，用于接收所述服务端返回的音乐推荐信息，所述音乐推荐信息是根据所述目标场景信息对应的音乐集合确定的，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的。

一种视频内容审核装置，包括：

视频内容接收单元，用于接收待发布的视频内容，并从中提取搭配的目标音乐，对所述目标音乐进行音乐特征提取；

场景信息确定单元，用于确定所述视频内容关联的目标场景信息；

基准音乐确定单元，用于确定能够与目标场景搭配的基准音乐，以及所述基准音乐对应的音乐特征信息；

搭配度确定单元，用于通过将所述目标音乐的音乐特征与所述基准音乐的音乐特征进行比对，确定所述目标音乐与所述目标场景的搭配度，以用于输出审核结果。

一种音乐信息处理装置，包括：

第一音乐库获得单元，用于获得第一音乐库，所述第一音乐库中包括与目标场景搭配的至少一个基准音乐；

第一特征提取单元，用于对所述基准音乐进行音乐特征提取，得到基准音乐特征；

第二音乐库获得单元，用于获得第二音乐库，所述第二音乐库中包括多个待选音乐；

第二特征提取单元，用于对所述第二音乐库中的待选音乐进行音乐特征提取，得到待选音乐特征；

特征比对单元，用于比对所述待选音乐特征与所述基准音乐特征，得到所述待选音乐与所述基准音乐的相似度；

音乐确定单元，用于将所述相似度满足预设条件的待选音乐确定为与所述目标场景搭配的音乐。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，能够提供基于场景的音乐推荐，并且基于场景提供能够与具体场景信息搭配的基准音乐，然后，通过提取不同音乐中的音乐特征计算音乐之间的相似度，使得能够与同一场景搭配的音乐数量得到扩充，从而在基于场景的推荐过程中可以实现可选音乐的多样化。

其中，在对音乐特征进行提取时，可以在对音乐中的BPM信息进行确定的基础上，确定出音乐中各种频率类别的出现比率，以此代表音乐中具有各种不同频率类别的乐器的参与度，另外还可以确定出和弦走向信息，以此代表音乐的主旋律信息，通过上述几个维度上的音乐特征，对具体的音乐进行表达。由于上述几个维度上的信息能够大致反映一段音乐的听觉感受，因此，可以有效的用于进行音乐相似度的对比，另外，由于主要依据音乐中声音的频率、强度信息进行判断，不需要识别出具体使用的乐器的名称等信息，因此，特征提取会比较简单，效率高。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的应用架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的第二方法的流程图；

图4是本申请实施例提供的第三方法的流程图；

图5是本申请实施例提供的第四方法的流程图；

图6是本申请实施例提供的第五方法的流程图；

图7是本申请实施例提供的第六方法的流程图；

图8是本申请实施例提供的第一装置的示意图；

图9是本申请实施例提供的第二装置的示意图；

图10是本申请实施例提供的第三装置的示意图；

图11是本申请实施例提供的第四装置的示意图；

图12是本申请实施例提供的第五装置的示意图；

图13是本申请实施例提供的第六装置的示意图；

图14是本申请实施例提供的计算机系统的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，为了帮助商品对象信息服务系统中的商家用户或者系统的后台工作人员用户对具体进行视频内容的制作或者审核等工作，提供了相应的解决方案。在该方案中，首先可以针对商品对象信息服务系统中常用的场景等信息进行统计，其中，具体的场景可以按照具体关联的商品对象的类目等进行划分，例如，美妆、美食、电子产品等可以对应不同的场景；或者，还可以按照所关联的促销活动主题的类型进行划分，例如，年终促销、店庆促销对应不同的场景；或者，按照关联的节日气氛的类型进行划分，例如，圣诞节、春节对应不同的场景，等等。总之，可以根据具体的需求划分出多种不同的场景，并且，可以为各个场景设定一些基准音乐，例如，每个场景可以对应一段或者几段基准音乐，等等。这些基准音乐的设置可以是根据一些音乐方面的专家经验等进行设定。这样，可以根据具体的场景关联的基准音乐相商家用户或者系统工作人员等进行配乐的推荐，或者，还可以根据场景关联的基准音乐对商家等用户提交的视频内容中已经搭配的配乐进行审核，判断其音画融合度情况，等等，如果音画融合度不高，则还可以基于具体视频内容对应的场景，以及场景关联的基准音乐进行配乐的推荐。

其中，在进行配乐推荐的过程中，由于系统中的商家数量众多，所需要发布的具体视频内容数量更是非常多，如果仅仅是按照对应的场景配备对应的少数几个基准音乐，则可能会使得系统中出现很多重复配乐的情况，例如，不同商家为同一类目商品对象制作的视频内容的配乐全都相同，或者，重复率非常高。因此，在具体实现时，还可以预先对更多的音乐进行分析，并进行特征标定，符合相同特征的音乐可以为同一场景进行配乐。

现有技术中也存在一些对音乐进行特征标定的实现方案。例如，通过一些音乐方面的专家等对音乐的风格、类别等进行标定，例如，摇滚、爵士、民谣、欢快、伤感，等等。但是，这种标定过程具有一定的主观性，不同的人对同一段音乐可能标注成不同的风格，甚至即使是同一个人，也可能会随着标注者当时感受等的不同，而对同一音乐给出不同的标定结果。再者，标定结果的准确性也会依赖标注者的专业程度，大部分没有乐理知识的人是无法准确的形容出一段音乐的特征的，因此，成本会比较高。另外，音乐风格的概念本身就是一种文化概念而并非科学概念，所以通过这些主观标签来进行推荐，多数会出现不准确，不匹配等问题。

另一种相对比较客观的标注方式可以是，对音乐中所可能使用的乐器进行采样，获得所有种类的钢琴的音色采样结果。比如爵士钢琴，三角钢琴，布鲁斯钢琴，等等。然后再用这些音色与一段具体的音乐里面的音色进行对比，判断是否包含此种乐器，确定出一段音乐中主要使用的乐器的信息。然后，再将使用的乐器种类、比例相似的音乐归为一类进行推荐。上述方案虽然能够实现比较高的精确度，但是，由于同一段音乐通常是由多种乐器相互配合来完成的，在同一个时间点，都可能包括了多种不同的乐器同时发音，因此，在此基础上进行音色识别是比较困难的，也使得该方案实现的复杂度一般都比较高，需要通过复杂的数学建模才能够进行乐器音色的识别。

针对上述问题，在本申请实施例中，还提供了另一种实现方案，在该方案中，首先可以对具体音乐中的BMP(Beat Per Minute，每分钟节拍数)信息进行计算，然后，根据BMP信息对音乐中节拍进行采样，并对每个采样点中包括的中高低音信息进行提取，最终确定出音乐中包含的中高低音的比率，和/或，根据BMP信息确定音乐的和弦走向信息。由于中高低音比例、音乐和弦走向都是与音乐中所使用的乐器的种类、配比等相关的，例如，低音对应的乐器通常是贝斯，或者低音提琴等，其中，中高低音比率可以反映出一段音乐中乐器的使用情况，和音乐的风格，比如低音特别重的，很可能是电子乐，比率平均的，很可能是交响乐，等等。而同一段音乐中，不同的乐器是按照和弦规律进行配合演奏，音乐的主旋律也是遵循和弦走向的。因此，如果两段音乐中，BMP相同或相似，高低音比例和/或和弦走向也都大致相似，则可以确定两段音乐给听者的感觉是大体一致的，因此，可以归为一类。

通过这种方式，由于音乐的BMP信息是比较容易识别的，而每个节拍时间点上的频率等信息，相对于音色识别等也是非常容易识别的，因此，最终可以提高音乐比对的效率，降低算法的复杂度。具体的，可以将基准音乐库中的音乐分别进行上述特征的提取，并对规模更大的目标音乐库中的音乐也分别进行上述特征的提取，然后，将目标音乐库中的音乐与基准音乐库中的音乐进行特征比对，由此可以为基准音乐确定对应的相似音乐集合。而基准音乐又是与场景相对应的，因此，在针对某场景进行推荐时，就可以根据场景对应的基准音乐所关联的相似音乐集合进行推荐，从而在提高视频内容中音画融合度的同时，实现配乐的多样性。

具体实现时，从系统架构角度而言，本申请实施例首先可以用于对音乐进行音乐特征提取的工具，另外还可以提供针对基于场景的音乐集合的生成功能的工具。具体到商品对象信息服务系统中，如图1所示，上述工具可以运行在系统的服务器端，可以为各种可能出现的场景信息提供适合与该场景下的图像内容进行搭配的音乐集合。另外，在确定出这种场景信息与音乐集合之间的对应关系后，具体可以在多种不同的应用场景中进行应用。例如，一种方式下，可以为系统中的第一用户(商家用户、卖家用户等)提供第一客户端，在需要向系统中发布一些视频内容时，例如，需要向其店铺首页中发布一条视频内容，或者，需要向具体商品对象的详情页面中发布视频内容，或者，需要为所参加的促销活动发布一条视频内容，等等，都可以通过该第一客户端提交具体的请求。在提交请求的过程中，可以对具体所需场景等信息进行选择，例如，可以选择具体关联的商品对象的类目信息，或者，具体所需参加的促销活动的类型信息，或者，具体所需发布的内容板块的主题信息，等等，相应的，第一服务器便可以向该第一客户端返回与具体场景对应的音乐集合的信息，第一用户便可以从该集合中选择自己感兴趣的音乐，以用于进行制作具体的视频内容。

或者，另外一种应用方式下，商品对象信息服务系统中还可以包括第二用户(买家用户、消费者用户等)，这种第二用户可能具有发布“买家秀”的需求，此时，也可以为第二用户提供第二客户端，在需要进行相关视频内容的发布时，可以通过该第二客户端提交请求，相应的，第二服务器可以为第二用户进行配乐的推荐，第二用户便可以从该集合中选择自己感兴趣的音乐，以用于进行制作具体的“买家秀”内容。

下面对具体的实现方案进行详细介绍。

实施例一

首先，该实施例一提供了音乐信息处理方法，该方法的执行主题可以是具体应用程序服务端中运行的“工具”，具体的应用程序可以有多种，只要需要按照场景进行音乐的推荐，都可以使用该工具对预先获得的音乐库中的音乐进行处理，已得到与具体场景对应的音乐集合，进而利用该音乐集合中的音乐向对应场景中的音乐搭配需求进行推荐，以搭配出音画融合度较高的视频内容。具体的，参见图2，该方法具体可以包括：

S210：获得第一音乐库，所述第一音乐库中包括能够与目标场景搭配的至少一个基准音乐；

其中，第一音乐库中包括的音乐数量会比较少，具体可以是由具体的音乐专家或者音乐方面的工作者针对具体所需的场景所搭配的典型的音乐。由于本申请实施例中的目的是，根据这些音乐，发现更多可以与对应场景进行搭配的音乐，因此，将这种第一音乐库中的音乐称为“基准音乐”。

S220：获得第二音乐库，所述第二音乐库中包括多个待推荐音乐；

第二音乐库可以是包含有更多段音乐的数据库，具体的来源可以有多种，例如，可以从具有合作关系的音乐平台系统中拉取相关的数据库，等等。或者，也可以通过从多个数据源进行音乐的收集，生成所述第二音乐库。需要说明的是，在具体实现时，可以是在获得版权信息的基础上进行音乐的收集。

S230：分别对所述第一音乐库以及第二音乐库中的音乐进行音乐特征提取；

在确定了第一音乐库以及第二音乐库之后，可以分别对其中的音乐进行特征提取。其中，在本申请实施例中，音乐特征包括以下所列的一种或多种结合：音乐的每分钟节拍数BPM信息、多种频率类别的出现比率信息、和弦走向信息。在其中一种具体的实现方式下，如前文所述，可以通过以下方式进行音乐特征提取：

首先，确定出目标音乐中的每分钟节拍数BPM信息，并确定其中包括的BPM时间点；然后，根据所述BPM时间点确定采样时间点，并确定每个采样时间点上包括的至少一种声音的频率以及对应的强度信息；之和，再根据所述采样点上包括的声音的频率以及强度信息，确定所述目标音乐中的多种频率类别的出现比率信息；根据所述采样点上包括的声音的频率，确定根音频率，并根据所述根音频率，确定所述目标音乐的和弦走向信息；然后，可以将所述BPM信息、多种频率类别的出现比率信息以及和弦走向信息，作为所述目标音乐的音乐特征信息。

其中，所述BPM具体是指每分钟包含的节拍数，例如，某音乐的BPM为120时，就说明该段音乐每分钟内有120个节拍，每0.5S为一拍。其中，BPM数量的多少对应中音乐节奏的快慢，因此，在判断两段音乐之间的相似度时，首先就可以根据节奏的快慢进行判断，如果节奏快慢明显不同，则说明是完全不同的两段音乐，其他的特征可以不必再考虑。如果两段音乐之间的节奏相同或者相似，再进行其他特征的比对。

在本申请实施例中，所谓的其他特征就可以包括音乐中所包含的各种不同频率类型的声音的出现比率，以及音乐的和弦走向信息。下面分别对这两个特征进行介绍。

首先需要说明的是，对于一段音乐而言，由于通常是通过多种不同的乐器相互配合演奏完成，因此，每个时间点上都可能包括多种不同乐器同时发出的不同声音。而不同乐器对应发出的声音的频率范围通常是不同的，分为重低音乐器、低音乐器、中音乐器、高音乐器等等，通过各种不同频率类型的乐器的搭配使用，演奏出完整的一段音乐。在本申请实施例中，关于对各种不同频率类型的声音的出现比率的提取，主要就是为了大致判断出这段音乐中可能包括几种频率类型的乐器，以及各类乐器的参与度，而如果两段音乐中使用的乐器类型相似，且每种乐器的参与度相似，则两段音乐在听起来的感受就会比较相似。另外，关于音乐的和弦走向信息的提取，是因为在通过多种不同乐器进行音乐的演奏的过程中，为了使得演奏出的音乐比较和谐，通常需要预先设定“根音”，各种不同乐器在同时发声时，需要根据该根音进行发声，根音的音符通常是旋律组成中的和弦根音的音符，相应的，音乐的主旋律也是要遵循和弦的走向。因此，对和弦走向信息的提取，是为了确定出音乐的主旋律变化情况，如果两段音乐之间的主旋律相似，则听起来的感受也会比较相似。

在具体确定采样点时，可以分别以每个BMP时间点作为采样点进行采样。其中，所谓的BMP时间点也就是每一拍的时间点，例如，假设某段音乐的BMP是120，则每0.5S为一拍，具体就可以每0.5S做一个采样。或者，由于本申请实施例中最主要的目的是大致确定出音乐中包含哪些频率类型的乐器，以及各自的参与度，和弦走向等信息，而在一段音乐中通常还可以划分为多个小节，每个小节的不同拍上各个乐器的参与度可能不同，但是，每个小节的第一拍，基本上是所有乐器共同发声，或者，有更多的乐器共同发声。因此，每小节第一拍上的声音，基本上可以代表整段音乐中各种乐器的参与情况，以及和弦走向。因此，为了减少运算量，还可以进行更稀疏的采样，也即，在每小节的第一拍作为采样点进行采样。其中，由于多数的音乐都是每四拍为一个小节，因此，本申请实施例中就可以每隔3拍作为一个采样点进行采样。

其中，关于不同频率类型的声音的出现比率，所述不同频率类型通常可以包括高中低音等，可以预先对不同频率类型对应的频率范围信息进行定义。例如，重低音:音乐频谱中的100hz以下的震动。低音:音乐频谱中的100-300hz的震动。中音:音乐频谱中300hz-10khz的震动。高音:音乐频谱中10khz以上的震动。其中，不同频率类型的声音通常可以是由不同的乐器发出的。然后，可以根据所述采样点上包括的声音的频率所属的频率区间，确定所属的频率类别，并根据该声音的频率与对应的强度之间的乘积，确定该采样点上该频率类别的声音参与度。也就是说，在同一采样点上，可能有多种不同的乐器同时发声，通过对不同频率的声音的识别，可以识别出这些乐器的高、中、低音类别。例如，在某时间点上，可能包括一个180hz的声音，一个1khz的声音，分别属于低音频谱范围，以及中音的频谱范围，则证明该时间点上，至少有一种低音乐器发声，以及至少一种中音乐器发声。另外，同一个采样点上还可以采集到各种频率的声音对应的强度信息，其中，强度的不同，可能是由于弹奏的力度不同，或者，同类乐器的参与数量不同，例如，共有8把向提琴，在某时刻，只有其中4把发声，则对应频率上的声音的强度，肯定低于8把小提琴在同样弹奏力度下同时发声时的强度，等等。总之，可以将同一采样点上，同一种频率与对应的强度之间的乘积，作为该采样点上该频率类别的声音参与度。需要说明的是，在同一个采样点上，同一频率类别中可能包括多种不同的频率的声音，此时，可以将该频率类别中的频率峰值作为该频率类别的代表进行该频率类别参与度的计算。

在获得多个采样点上的各种频率类别的声音参与度信息后，可以确定出各频率类别的分别对应的声音参与度之和，并进而确定各种频率类别的出现比率。例如，假设某段音乐中包括100个采样点，其中：

第一个采样点上采集到3种频率类别的声音，包括低音：频率1×强度1＝参与度1，中音：频率2×强度2＝参与度2，高音：频率3×强度3＝参与度3；

第二个采样点上也采集到3种频率类别的声音，包括低音：频率4×强度4＝参与度4，中音：频率5×强度5＝参与度5，高音：频率6×强度6＝参与度6；

以此类推，直到确定出全部100个采样点中包括的声音的频率类别，以及各自对应的参与度之和，可以将其汇总到一起，分别计算出各个频率类别对应的参与度总合，包括，低音的参与度总和、中音的参与度总和、高音的参与度总和，然后，可以将三者再相加，即可计算出每种频率类别对应的出现比率。

可见，在本申请实施例中，不需要根据音色等信息识别出具体的乐器的名称，例如，到底是钢琴还是小提琴等，而只需要识别出各种乐器所发出声音的不同频率类别，通过各种频率类别声音的出现比率，即可大致确定音乐中各种乐器的参与度。

而关于目标音乐的和弦走向信息，如前文所述，由于和弦走向代表着音乐的主旋律，因此，只要能够提取出和弦走向信息，则可以便于对音乐进行对比。其中，关于和弦走向信息又是与音乐中的根音相关的，而根音通常是由同一种乐器发出的，例如，在有贝斯参与的情况下，通常是由贝斯发出的声音作为根音。而贝斯发出的声音通常属于第二低的频率的声音，因此，具体实现时，就可以首先确定所述采样点上采集到的多种声音分别对应的频率信息；然后，将每个采样点上采集到的第二低的频率确定为根音频率；最后，再根据所述多个采样点上的根音频率在时间维度上的变化关系，确定根音频率走向曲线。

S240：通过特征比对的方式，确定所述第二音乐库中的音乐与所述基准音乐之间的相似度；

具体在根据前述提取出的特征进行音乐相似度的比对时可以有多种方式，例如，首先根据BPM之间的相似度进行第一轮比对，将BPM相似度低的音乐过滤掉，再在剩余的音乐中根据多种频率类别的出现比率信息以及和弦走向信息进行比对。或者，在另一种实现方式下，还可以首先分别在BPM信息、多种频率类别的出现比率信息以及和弦走向信息维度上，对第二音乐库中的音乐与所述基准音乐之间的相似度分量进行计算，然后，再根据BPM信息、多种频率类别的出现比率信息以及和弦走向信息维度分别对应的相似度分量，以及各维度分别对应的权重信息，计算相似度信息。

S250：根据所述相似度，为所述目标场景确定音乐集合，以用于向与所述目标场景相关的音乐搭配需求进行音乐推荐。

在完成相似度计算后，则可以生成所述场景信息与音乐集合之间的对应关系，此时的音乐集合中，由于包括了第二音乐库中的部分音乐，因此，会使得能够与同一场景搭配的音乐数量得到扩充。

其中，在不同的应用系统中，具体的场景可以有多种不同的定义。例如，在商品对象信息服务系统中，所述场景信息具体可以根据以下信息确定：待发布的视频内容对应的不同商品对象类目，不同促销活动类型，或不同板块主题，等等。

总之，通过本申请实施例，首先能够基于场景提供能够与具体场景信息搭配的基准音乐，然后，通过提取不同音乐中的音乐特征计算音乐之间的相似度，使得能够与同一场景搭配的音乐数量得到扩充，从而在基于场景的推荐过程中可以实现可选音乐的多样化。

实施例二

该实施例二是对实施例一中所使用到的对音乐特征进行提取的工具进行保护，也即，该实施例二具体提供了一种提取音乐特征信息的方法，参见图3，该方法具体可以包括：

S310：确定目标音乐中的每分钟节拍数BPM信息，并确定其中包括的BPM时间点；

S320：根据所述BPM时间点确定采样时间点，并确定每个采样时间点上包括的至少一种声音的频率以及对应的强度信息；

具体实现时，可以将每个BPM时间点分别确定为采样点。或者，还可以确定所述目标音乐中每个小节包括的节拍数；然后，根据所述每个小节包括的节拍数确定每个小节的第一拍，并将所述每个小节的第一拍对应的BPM时间点确定为采样时间点。当然，具体实现时，为了简化计算，还可以默认为四拍为一个小节，以每隔3拍作为一个采样点进行采样，等等。

S330：根据所述采样点上包括的声音的频率以及强度信息，确定所述目标音乐中的多种频率类别的出现比率信息；

具体实现时，可以首先预先确定多种频率类别分别对应的频率区间信息；然后，根据所述采样点上包括的声音的频率所属的频率区间，确定所属的频率类别，并根据该声音的频率与对应的强度之间的乘积，确定该采样点上该频率类别的声音参与度；最后，再综合多个采样点上的各种频率类别的声音参与度，确定各频率类别的分别对应的声音参与度之和，并进而确定各种频率类别的出现比率。

S340：根据所述采样点上包括的声音的频率，确定根音频率，并根据所述根音频率，确定所述目标音乐的和弦走向信息；

具体的，可以确定所述采样点上采集到的多种声音分别对应的频率信息；然后，将每个采样点上采集到的第二低的频率确定为根音频率；再根据所述多个采样点上的根音频率在时间维度上的变化关系，确定根音频率走向曲线。

S350：将所述BPM信息、多种频率类别的出现比率信息以及和弦走向信息，作为所述目标音乐的音乐特征信息。

通过该实施例二，可以在对音乐中的BPM信息进行确定的基础上，确定出音乐中各种频率类别的出现比率，以此代表音乐中具有各种不同频率类别的乐器的参与度，另外还可以确定出和弦走向信息，以此代表音乐的主旋律信息，通过上述几个维度上的音乐特征，对具体的音乐进行表达。由于上述几个维度上的信息能够大致反映一段音乐的听觉感受，因此，可以有效的用于进行音乐相似度的对比，另外，由于主要依据音乐中声音的频率、强度信息进行判断，不需要识别出具体使用的乐器的名称等信息，因此，特征提取会比较简单，效率高。

实施例三

该实施例三主要对前述实施例一中生成的与场景信息对应的音乐集合进行应用的实现方式进行介绍。在该方法中，可以为具体应用程序提供服务端以及客户端，其中，可以预先在服务端保存具体的场景信息与音乐集合之间的对应关系，具体的音乐集合中可以包括能够与所述目标场景搭配的多段音乐。客户端则主要可以用于向服务端提交具体的视频制作请求，在提交的同时还可以提交与所需要投放的场景相关的信息，例如，关联的商品对象的类目，促销活动的类型，内容板块的主题，等等。这样，服务端便可以为其推荐与该场景相匹配的音乐信息，供用户进行选择使用。

具体的，参见图4，该实施例三提供了一种音乐信息推荐方法，该方法具体可以包括：

S410：接收客户端提交的视频内容制作请求；

服务端可以接收客户端提交的视频内容制作请求。具体的，可以是在商品对象信息服务系统中提供所述服务端以及客户端，其中，由于商品对象信息服务系统中还包括第一用户(商家用户、卖家用户等)以及第二用户(买家用户、消费者用户等)，并且两种用户都可能具有视频内容制作的需求，因此，还可以分别为第一用户提供第一客户端，为第二用户提供第二客户端。在第一用户需要制作视频内容时，可以通过关联的第一客户端提交视频内容制作请求，其中，第一用户所需制作的视频内容具体可以是对具体商品对象的展示视频，或者，对某新品发布会的实况视频，等等，通常是用于发布到第一目标页面中进行展示。其中，在这种情况下，所述第一目标页面可以包括所述第一用户关联的店铺页面，所述第一用户关联的商品对象详情页面，或者，指定促销活动的活动页面，或者，指定主题板块的内容页面，等等。

类似的，第二用户如果需要进行视频制作，也可以通过关联的第二客户端向服务器提交视频内容制作请求，第二用户作为具体的服务使用方，其所制作的视频内容通常可以是用于对通过所述商品对象信息服务系统购买的目标商品对象对应的实物信息进行展示的内容，例如，俗称的“买家秀”等，并且可以发布到第二目标页面中，此时，所述第二目标页面可以包括所述目标商品对象的评论信息页面，或者，用于对多种商品对象对应的所述视频内容进行聚合展示的页面，等等。

S420：确定所述请求关联的目标场景信息；

关于请求关联的目标场景的信息可以有多种，例如，对于第一用户需要制作的视频内容而言，关联的目标场景信息可以根据以下信息确定：待发布的视频内容对应的不同商品对象类目，不同促销活动类型，或不同板块主题，等等。对于第二用户需要制作的视频内容，通常主要根据需要“秀”的商品对象的类目信息进行确定。具体实现时，可以由具体的用户在通过客户端提交请求之前，对具体的场景相关的信息进行选择，例如，具体关联的商品对象的类目信息，具体需要投放到哪个促销活动的活动页面中，或者具体需要投放到哪个主题的板块中进行展示，等等。或者，服务端也可以根据相关联的信息进行自行提取，等等。例如，某第一用户提交了视频内容请求后，可以根据该第一用户主营商品对象的类目等信息，来确定场景信息，等等。

S430：根据所述目标场景信息对应的音乐集合进行提供推荐的音乐信息，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的。

在具体确定出目标场景后，就可以根据所述目标场景信息对应的音乐集合进行提供推荐的音乐信息。具体的，由于同一场景对应的音乐集合中包括的音乐数量可能会非常多，因此，具体实现时，可以有多种具体的推荐方式。例如，一种方式下，可以直接将音乐集合中的多个音乐都返回进行推荐，由用户分别进行试听后，根据自己的喜好选择其中一段音乐进行搭配。或者，也可以从音乐集合中随机选择一段音乐进行推荐，等等。

总之，通过该实施例三，在用户需要进行视频内容制作时，可以通过本申请实施例提供的工具，确定出具体的场景信息，并推荐出能够与该场景进行搭配使用的音乐，这样，用户无需自行对音乐进行判断，不需要懂得乐理知识，即可实现图像与配乐之间的相互融合，制作出高质量的视频内容。

实施例四

该实施例四是与实施例三相对应的，从客户端的角度进行介绍。其中，在商品对象信息服务系统中，具体的客户端可以包括提供给第一用户使用的第一客户端，或者，也可以包括提供给第二用户使用的第二客户端，等等。具体的，该实施例三提供了一种音乐信息推荐方法，参见图5，该方法具体可以包括：

S510：客户端提供用于提交视频制作请求的操作选项；

S520：通过所述操作选项接收到操作指令后，向服务端提交视频制作请求，并在所述请求中携带关联的目标场景信息；

S530：接收所述服务端返回的音乐推荐信息，所述音乐推荐信息是根据所述目标场景信息对应的音乐集合确定的，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的。

实施例五

在前述实施例三以及实施例四中，都是在进行视频内容制作之前，向用户推荐可以与具体场景搭配的音乐，而在该实施例五提供的应用场景中，还可以在对用户提交的已经制作好的视频内容进行审核的过程中，对具体搭配的音乐与画面的搭配度进行判断，如果搭配度不高，可以进行提示，或者，还可以推荐出能够搭配的音乐供用户进行选择，等等。具体的，该实施例五提供了一种视频内容审核方法，参见图6，该方法具体可以包括：

S610：接收待发布的视频内容，并从中提取搭配的目标音乐，对所述目标音乐进行音乐特征提取；

具体实现时，用户可以通过其他工具进行视频内容的制作，并提交到服务器进行发布，此时，在接收到视频内容后，还可以进行审核，其中一项审核内容就可以包括对视频内容的图像与搭配的目标音乐之间的搭配度进行判断，如果搭配度不高，可以提示用户进行修改，以使得发布到服务器中的视频内容的质量得到提升。

因此，在本申请实施例中，在收到具体的视频内容后，就可以首先进行目标音乐的提取，以及音乐中的音乐特征的提取。具体实现时，具体提取的音乐特征以及提取方式，可以如前文实施例二中所述，这里不再赘述。

S620：确定所述视频内容关联的目标场景信息；

其中，关于视频内容关联的目标场景信息可以通过多种方式进行确定，例如，可以将场景信息携带在视频内容中；或者，还可以通过对视频内容中关联商品对象对应类目的识别来进行确定；或者，在提交视频内容时，还可能会携带需要投放到的目标页面等信息，因此，也可以通过这些目标页面信息进行场景的判断，等等。

S630：确定能够与目标场景搭配的基准音乐，以及所述基准音乐对应的音乐特征信息；

关于场景与基准音乐之间的对应关系，如前文实施例一中所述，这里不再赘述。

S640：通过将所述目标音乐的音乐特征与所述基准音乐的音乐特征进行比对，确定所述目标音乐与所述目标场景的搭配度，以用于输出审核结果。

具体对音乐特征的比对方式也可以参见前述实施例一中的记载，这里不再赘述。

具体实现时，如果所述搭配度低于阈值，则还可以根据所述基准音乐关联的音乐集合中与该基准音乐相似的音乐，提供推荐信息。

通过该实施例五，可以针对用户提交的待发布的视频内容进行审核，审核的内容包括，对视频内容中使用的目标音乐进行提取，并进行音乐特征的提取，还可以确定出对应的目标场景信息，以及能够与目标场景搭配的基准音乐信息及对应的音乐特征信息，这样，可以通过将目标音乐与基准音乐之间的音乐特征进行比对的方式，判断当前视频内容中使用的目标音乐与目标场景的搭配度，以用于输出审核结果，如果比较低，则可以提示用户进行修改，或者推荐更多能够搭配的音乐，等等。因此，可以帮助用户提高发布的视频内容的质量。

实施例六

该实施例六提供了另一种音乐信息处理方法，参见图7，该方法具体可以包括：

S710：获得第一音乐库，所述第一音乐库中包括与目标场景搭配的至少一个基准音乐；

S720：对所述基准音乐进行音乐特征提取，得到基准音乐特征；

S730：获得第二音乐库，所述第二音乐库中包括多个待选音乐；

S740：对所述第二音乐库中的待选音乐进行音乐特征提取，得到待选音乐特征；

S750：比对所述待选音乐特征与所述基准音乐特征，得到所述待选音乐与所述基准音乐的相似度；

S760：将所述相似度满足预设条件的待选音乐确定为与所述目标场景搭配的音乐。

其中，所述进行音乐特征提取，具体可以包括以下所列的至少一种：

确定音乐的每分钟节拍数BPM信息；确定音乐的多种频率类别的出现比率信息；或者，确定音乐的和弦走向信息。

具体实现时，所述目标场景包括：根据商品对象信息服务系统中待发布的视频内容对应的不同商品对象类目，不同促销活动类型，或不同板块主题确定的场景。

其中，所述基准音乐包括：已知可与所述目标场景进行搭配的音乐。

关于实施例二至六中的未详述部分，可以参照实施例一中的记载，这里不再赘述。

与实施例一相对应，本申请实施例还提供了一种音乐信息处理装置，参见图8，该装置可以包括：

第一音乐库获得单元810，用于获得第一音乐库，所述第一音乐库中包括能够与目标场景搭配的至少一个基准音乐；

第二音乐库获得单元820，用于获得第二音乐库，所述第二音乐库中包括多个待推荐音乐；

特征提取单元830，用于分别对所述第一音乐库以及第二音乐库中的音乐进行音乐特征提取；

相似度确定单元840，用于通过特征比对的方式，确定所述第二音乐库中的音乐与所述基准音乐之间的相似度；

音乐集合确定单元850，用于根据所述相似度，为所述目标场景确定音乐集合，以用于向与所述目标场景相关的音乐搭配需求进行音乐推荐。

其中，所述音乐特征包括以下所列的一种或多种结合：音乐的每分钟节拍数BPM信息、多种频率类别的出现比率信息、和弦走向信息。

具体实现时，可以通过以下方式进行音乐特征提取：

BPM确定单元，用于确定目标音乐中的每分钟节拍数BPM信息，并确定其中包括的BPM时间点；

采样时间点确定单元，用于根据所述BPM时间点确定采样时间点，并确定每个采样时间点上包括的至少一种声音的频率以及对应的强度信息；

音乐特征获得单元，用于将所述BPM信息、多种频率类别的出现比率信息以及和弦走向信息，作为所述目标音乐的音乐特征信息。

其中，所述比率信息确定单元具体包括：

频率区间确定子单元，用于预先确定多种频率类别分别对应的频率区间信息；

声音参与度确定子单元，用于根据所述采样点上包括的声音的频率所属的频率区间，确定所属的频率类别，并根据该声音的频率与对应的强度之间的乘积，确定该采样点上该频率类别的声音参与度；

比率确定子单元，用于综合多个采样点上的各种频率类别的声音参与度，确定各频率类别的分别对应的声音参与度之和，并进而确定各种频率类别的出现比率。

所述和弦走向信息确定单元具体可以包括：

频率信息确定子单元，用于确定所述采样点上采集到的多种声音分别对应的频率信息；

根音频率确定子单元，用于将每个采样点上采集到的第二低的频率确定为根音频率；

频率走向曲线确定单元，用于根据所述多个采样点上的根音频率在时间维度上的变化关系，确定根音频率走向曲线。

其中，所述相似度确定单元具体可以用于：

分别在BPM信息、多种频率类别的出现比率信息以及和弦走向信息维度上，对第二音乐库中的音乐与所述基准音乐之间的相似度分量进行计算；

根据BPM信息、多种频率类别的出现比率信息以及和弦走向信息维度分别对应的相似度分量，以及各维度分别对应的权重信息，计算相似度信息。

其中，在商品对象信息服务系统中，所述场景信息根据以下信息确定：待发布的视频内容对应的不同商品对象类目，不同促销活动类型，或不同板块主题。

与实施例二相对应，本申请实施例还提供了一种提取音乐特征信息的装置，参见图9，该装置可以包括：

BPM信息确定单元910，用于确定目标音乐中的每分钟节拍数BPM信息，并确定其中包括的BPM时间点；

采样点确定单元920，用于根据所述BPM时间点确定采样时间点，并确定每个采样时间点上包括的至少一种声音的频率以及对应的强度信息；

比率信息确定单元930，用于根据所述采样点上包括的声音的频率以及强度信息，确定所述目标音乐中的多种频率类别的出现比率信息；

和弦走向信息确定单元940，用于根据所述采样点上包括的声音的频率，确定根音频率，并根据所述根音频率，确定所述目标音乐的和弦走向信息；

特征信息获得单元950，用于将所述BPM信息、多种频率类别的出现比率信息以及和弦走向信息，作为所述目标音乐的音乐特征信息。

其中，所述比率信息确定单元具体包括：

所述和弦走向信息确定单元具体可以包括：

所述采样点确定单元具体可以用于：

将每个BPM时间点分别确定为采样点。

或者，所述采样点确定单元也可以用于：

确定所述目标音乐中每个小节包括的节拍数；

根据所述每个小节包括的节拍数确定每个小节的第一拍，并将所述每个小节的第一拍对应的BPM时间点确定为采样时间点。

与实施例三相对应，本申请实施例还提供了一种音乐信息推荐装置，参见图10，该装置可以包括：

请求接收单元1010，用于接收客户端提交的视频内容制作请求；

场景信息确定单元1020，用于确定所述请求关联的目标场景信息；

音乐推荐单元1030，用于根据所述目标场景信息对应的音乐集合进行提供推荐的音乐信息，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的。

其中，所述请求接收单元具体可以用于：接收商品对象信息服务系统中的第一用户关联的第一客户端提交的视频内容制作请求，所述视频内容用于发布到第一目标页面中进行展示，所述第一目标页面包括所述第一用户关联的店铺页面，所述第一用户关联的商品对象详情页面，或者，指定促销活动的活动页面，或者，指定主题板块的内容页面。

其中，所述目标场景信息根据以下信息确定：待发布的视频内容对应的不同商品对象类目，不同促销活动类型，或不同板块主题。

其中，所述请求接收单元具体还可以用于：

接收商品对象信息服务系统中的第二用户关联的第二客户端提交的视频内容制作请求，所述视频内容用于对通过所述商品对象信息服务系统购买的目标商品对象对应的实物信息进行展示，并发布到第二目标页面中，所述第二目标页面包括所述目标商品对象的评论信息页面，或者，用于对多种商品对象对应的所述视频内容进行聚合展示的页面。

与实施例四相对应，本申请实施例还提供了一种音乐信息推荐装置，参见图11，该装置可以包括：

操作选项提供单元1110，用于提供用于提交视频制作请求的操作选项；

请求提交单元1120，用于通过所述操作选项接收到操作指令后，向服务端提交视频制作请求，并在所述请求中携带关联的目标场景信息；

推荐信息接收单元1130，用于接收所述服务端返回的音乐推荐信息，所述音乐推荐信息是根据所述目标场景信息对应的音乐集合确定的，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的。

与实施例五相对应，本申请实施例还提供了一种视频内容审核装置，参见图12，该装置可以包括：

视频内容接收单元1210，用于接收待发布的视频内容，并从中提取搭配的目标音乐，对所述目标音乐进行音乐特征提取；

场景信息确定单元1220，用于确定所述视频内容关联的目标场景信息；

基准音乐确定单元1230，用于确定能够与目标场景搭配的基准音乐，以及所述基准音乐对应的音乐特征信息；

搭配度确定单元1240，用于通过将所述目标音乐的音乐特征与所述基准音乐的音乐特征进行比对，确定所述目标音乐与所述目标场景的搭配度，以用于输出审核结果。

另外，还可以包括：推荐单元，用于如果所述搭配度低于阈值，则根据所述基准音乐关联的音乐集合中与该基准音乐相似的音乐，提供推荐信息。

与实施例六相对应，本申请实施例还提供了一种音乐信息处理装置，参见图13，该装置可以包括：

第一音乐库获得单元1310，用于获得第一音乐库，所述第一音乐库中包括与目标场景搭配的至少一个基准音乐；

第一特征提取单元1320，用于对所述基准音乐进行音乐特征提取，得到基准音乐特征；

第二音乐库获得单元1330，用于获得第二音乐库，所述第二音乐库中包括多个待选音乐；

第二特征提取单元1340，用于对所述第二音乐库中的待选音乐进行音乐特征提取，得到待选音乐特征；

特征比对单元1350，用于比对所述待选音乐特征与所述基准音乐特征，得到所述待选音乐与所述基准音乐的相似度；

音乐确定单元1360，用于将所述相似度满足预设条件的待选音乐确定为与所述目标场景搭配的音乐。

其中，可以通过以下方式进行音乐特征提取：

具体实现时，目标场景可以包括根据待发布内容确定的目标场景，具体的，可以是根据与待发布视频内容相关联的项目所确定的目标场景；其中，视频内容用于在商品对象信息服务系统中发布；相关联的项目包括：商品对象信息服务系统中的商品对象类目，例如商品对象的所属分类；平台活动信息，例如促销活动信息或展示会活动信息等等，或者也可以是商品对象信息服务系统中的板块主题项目等。

其中，所述基准音乐包括：已知可与所述目标场景进行搭配的音乐。具体实现时，可以提供相应的计算机系统，该系统可以包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述实施例一至实施例六任一项的方法。

其中，图14示例性的展示出了计算机系统的架构，具体可以包括处理器1410，视频显示适配器1411，磁盘驱动器1412，输入/输出接口1413，网络接口1414，以及存储器1420。上述处理器1410、视频显示适配器1411、磁盘驱动器1412、输入/输出接口1413、网络接口1414，与存储器1420之间可以通过通信总线1430进行通信连接。

其中，处理器1410可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1420可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1420可以存储用于控制计算机系统1400运行的操作系统1421，用于控制计算机系统1400的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1423，数据存储管理系统1424，以及图标字体处理系统1425等等。上述图标字体处理系统1425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1420中，并由处理器1410来调用执行。

输入/输出接口1413用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1414用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1430包括一通路，在设备的各个组件(例如处理器1410、视频显示适配器1411、磁盘驱动器1412、输入/输出接口1413、网络接口1414，与存储器1420)之间传输信息。

另外，该计算机系统1400还可以从虚拟资源对象领取条件信息数据库1441中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1410、视频显示适配器1411、磁盘驱动器1412、输入/输出接口1413、网络接口1414，存储器1420，总线1430等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的音乐信息处理、推荐方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音乐信息处理方法，其特征在于，包括：

获得第二音乐库，所述第二音乐库中包括多个待推荐音乐；

分别对所述第一音乐库以及第二音乐库中的音乐进行音乐特征提取；其中，在对音乐特征进行提取时，在对音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息；

2.根据权利要求1所述的方法，其特征在于，

通过以下方式进行音乐特征提取：

根据所述采样时间点上包括的声音的频率以及强度信息，确定所述目标音乐中的多种频率类别的出现比率信息；

根据所述采样时间点上包括的声音的频率，确定根音频率，并根据所述根音频率，确定所述目标音乐的和弦走向信息；

3.根据权利要求2所述的方法，其特征在于，

所述根据所述采样时间点上包括的声音的频率以及强度信息，确定所述目标音乐中的多种频率类别的出现比率信息，包括：

预先确定多种频率类别分别对应的频率区间信息；

根据所述采样时间点上包括的声音的频率所属的频率区间，确定所属的频率类别，并根据该声音的频率与对应的强度之间的乘积，确定该采样时间点上该频率类别的声音参与度；

综合多个采样时间点上的各种频率类别的声音参与度，确定各频率类别的分别对应的声音参与度之和，并进而确定各种频率类别的出现比率。

4.根据权利要求2所述的方法，其特征在于，

所述根据所述采样时间点上包括的根音的频率，确定所述目标音乐的和弦走向信息，包括：

确定所述采样时间点上采集到的多种声音分别对应的频率信息；

将每个采样时间点上采集到的第二低的频率确定为根音频率；

根据所述多个采样时间点上的根音频率在时间维度上的变化关系，确定根音频率走向曲线。

5.根据权利要求2所述的方法，其特征在于，

所述通过特征比对的方式，确定所述第二音乐库中的音乐与所述基准音乐之间的相似度，包括：

6.根据权利要求1所述的方法，其特征在于，

在商品对象信息服务系统中，所述场景信息根据以下信息确定：待发布的视频内容对应的不同商品对象类目，不同促销活动类型，或不同板块主题。

7.一种提取音乐特征信息的方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，

所述根据所述采样时间点上包括的声音的频率以及强度信息，确定所述目标音乐中的高中低音的出现比率，包括：

预先确定多种频率类别分别对应的频率区间信息；

9.根据权利要求7所述的方法，其特征在于，

根据所述根音频率在时间维度上的变化关系，确定根音频率走向曲线。

10.根据权利要求7所述的方法，其特征在于，

所述根据所述BPM时间点确定采样时间点，包括：

将每个BPM时间点分别确定为采样时间点。

11.根据权利要求7所述的方法，其特征在于，

所述根据所述BPM时间点确定采样时间点，包括：

确定所述目标音乐中每个小节包括的节拍数；

12.一种音乐信息推荐方法，其特征在于，包括：

服务端接收客户端提交的视频内容制作请求；

确定所述请求关联的目标场景信息；

根据所述目标场景信息对应的音乐集合进行提供推荐的音乐信息，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的；其中，在对音乐特征进行提取时，在对音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息。

13.根据权利要求12所述的方法，其特征在于，

所述接收客户端提交的视频内容制作请求，包括：

接收商品对象信息服务系统中的第一用户关联的第一客户端提交的视频内容制作请求，所述视频内容用于发布到第一目标页面中进行展示，所述第一目标页面包括所述第一用户关联的店铺页面，所述第一用户关联的商品对象详情页面，或者，指定促销活动的活动页面，或者，指定主题板块的内容页面。

14.根据权利要求13所述的方法，其特征在于，

所述目标场景信息根据以下信息确定：待发布的视频内容对应的不同商品对象类目，不同促销活动类型，或不同板块主题。

15.根据权利要求12所述的方法，其特征在于，

所述接收客户端提交的视频内容制作请求，包括：

16.一种音乐信息推荐方法，其特征在于，包括：

客户端提供用于提交视频制作请求的操作选项；

接收所述服务端返回的音乐推荐信息，所述音乐推荐信息是根据所述目标场景信息对应的音乐集合确定的，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的；其中，在对音乐特征进行提取时，在对音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息。

17.一种视频内容审核方法，其特征在于，包括：

确定所述视频内容关联的目标场景信息；

确定能够与目标场景搭配的基准音乐，以及所述基准音乐对应的音乐特征信息；其中，在对音乐特征进行提取时，在对基准音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息；

18.根据权利要求17所述的方法，其特征在于，还包括：

如果所述搭配度低于阈值，则根据所述基准音乐关联的音乐集合中与该基准音乐相似的音乐，提供推荐信息。

19.一种音乐信息处理方法，其特征在于，包括：

对所述基准音乐进行音乐特征提取，得到基准音乐特征；

获得第二音乐库，所述第二音乐库中包括多个待选音乐；

比对所述待选音乐特征与所述基准音乐特征，得到所述待选音乐与所述基准音乐的相似度；其中，在对音乐特征进行提取时，在对音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息；

20.根据权利要求19所述的方法，其特征在于，所述进行音乐特征提取，包括以下所列的至少一种：

确定音乐的每分钟节拍数BPM信息；

确定音乐的多种频率类别的出现比率信息；或者，

确定音乐的和弦走向信息。

21.根据权利要求19所述的方法，其特征在于，

所述目标场景包括：根据待发布内容确定的目标场景。

22.根据权利要求21所述的方法，其特征在于，

所述根据待发布内容确定的目标场景，包括：

根据与待发布视频内容相关联的项目所确定的目标场景；其中，所述视频内容用于在商品对象信息服务系统中发布；所述相关联的项目包括：商品对象信息服务系统中的商品对象类目，平台活动信息，或板块主题。

23.根据权利要求19所述的方法，其特征在于，

所述基准音乐包括：已知可与所述目标场景进行搭配的音乐。

24.一种音乐信息处理装置，其特征在于，包括：

特征提取单元，用于分别对所述第一音乐库以及第二音乐库中的音乐进行音乐特征提取；其中，在对音乐特征进行提取时，在对音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息；

25.一种提取音乐特征信息的装置，其特征在于，包括：

比率信息确定单元，用于根据所述采样时间点上包括的声音的频率以及强度信息，确定所述目标音乐中的多种频率类别的出现比率信息；

和弦走向信息确定单元，用于根据所述采样时间点上包括的声音的频率，确定根音频率，并根据所述根音频率，确定所述目标音乐的和弦走向信息；

26.一种音乐信息推荐装置，其特征在于，包括：

请求接收单元，用于接收客户端提交的视频内容制作请求；

音乐推荐单元，用于根据所述目标场景信息对应的音乐集合进行提供推荐的音乐信息，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的；其中，在对音乐特征进行提取时，在对音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息。

27.一种音乐信息推荐装置，其特征在于，包括：

推荐信息接收单元，用于接收所述服务端返回的音乐推荐信息，所述音乐推荐信息是根据所述目标场景信息对应的音乐集合确定的，其中，所述音乐集合中包括能够与所述目标场景搭配的多段音乐，所述多段音乐是通过对第二音乐库中的音乐与所述目标场景对应的基准音乐之间的音乐特征对比确定的；其中，在对音乐特征进行提取时，在对音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息。

28.一种视频内容审核装置，其特征在于，包括：

基准音乐确定单元，用于确定能够与目标场景搭配的基准音乐，以及所述基准音乐对应的音乐特征信息；其中，在对音乐特征进行提取时，在对基准音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息；

29.一种音乐信息处理装置，其特征在于，包括：

特征比对单元，用于比对所述待选音乐特征与所述基准音乐特征，得到所述待选音乐与所述基准音乐的相似度；其中，在对音乐特征进行提取时，在对音乐中的每分钟节拍数BPM信息进行确定的基础上，确定出音乐中多种频率类别的出现比率，以提取音乐中具有多种不同频率类别的乐器的参与度特征信息，并确定和弦走向信息，以提取音乐的主旋律特征信息；