CN111625685A

CN111625685A - 音乐电台呈现方法与装置、视频数据分类方法与装置

Info

Publication number: CN111625685A
Application number: CN201910147130.0A
Authority: CN
Inventors: 陈燕青; 孙浩华; 张启晟; 郑梓瑄; 陈雪; 肖鑫鹏; 苏通; 高书恒; 徐帅; 熊安; 李敬; 叶阳天; 陈林; 张宏吉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-09-04
Anticipated expiration: 2039-02-27
Also published as: CN111625685B

Abstract

公开了一种音乐电台呈现方法以及相应的数据分类方法。该呈现方法包括：获取当前用户收听音乐电台时所处场景的场景参数；根据所述场景参数选择具有对应场景标签的待播放音乐数据；获取所述待播放音乐数据的特征参数；根据所述场景参数以及所述音乐数据的特征参数，选择具有对应场景标签和特征标签的视频数据；以及在播放所述音乐数据的同时呈现所述视频数据。本发明通过在音乐电台模式下播放音乐数据的同时，呈现贴合电台场景和音乐数据两者的背景视频数据，提升用户的场景沉浸式体验。

Description

音乐电台呈现方法与装置、视频数据分类方法与装置

技术领域

本发明涉及音频播放领域，尤其涉及一种音乐电台呈现方法与装置、以及一种视频数据分类方法与装置。

背景技术

用户使用音乐播放软件收听音乐时，除了播放自行创建或选择的歌单或专辑里的歌曲之外，往往还会把歌曲的推送权交给音乐播放软件本身，选择各类的“音乐电台”进行收听。在此，“音乐电台”指在线向用户推送音乐作品的服务或应用。

在现有技术中，曲库会根据用户选择的音乐电台频道以及用户在前的听歌记录生成推荐的歌曲或是歌单，并且在播放歌曲时会配上专辑封面以及根据旋律变化的各类可视化模板。图1示出了现有音乐电台中的主要画面呈现的例子。如图1所示，屏幕显示通常包括专辑封面1和旋律可视化显示2。显然音乐电台的上述呈现缺乏对听歌场景的确切反映，通常也就无法很好地贴合用户收听音乐电台时的心境。

为此，需要一种能够更好贴合收听场景本身的音乐电台呈现方案。

发明内容

有鉴于此，本发明通过在音乐电台模式下播放音乐数据的同时，呈现贴合电台场景和音乐数据两者的背景视频数据，提升用户的场景沉浸式收听体验。

根据本发明的一个方面，提出了一种音乐电台呈现方法，包括：获取当前用户收听音乐电台时所处场景的场景参数；根据所述场景参数选择具有对应场景标签的待播放音乐数据；获取所述待播放音乐数据的特征参数；根据所述场景参数以及所述音乐数据的特征参数，选择具有对应场景标签和特征标签的视频数据；以及在播放所述音乐数据的同时呈现所述视频数据。由此，能够根据用户所处的特定情境选择音乐以及情境和音乐都相配合的背景视频，提升音乐电台的收听感受。

优选地，获取当前用户收听音乐电台时所处场景的场景参数包括如下至少一项：获取当前用户选择的音乐电台场景参数；以及自动读取当前用户收听时所处场景的场景参数。由此，能够更为全面准确地获取描述当前情境的场景参数，以便为后续音乐和视频数据的准确匹配提供前提。

优先地，获取当前用户收听音乐电台时所处场景的场景参数包括：获取当前用户收听音乐电台时所处场景的多个场景参数，多个场景参数之间具有相同或不同的权重，并且根据所述场景参数选择具有对应场景标签的待播放音乐数据包括：至少基于对应场景标签与高权重的场景参数的匹配选择待播放的音乐数据，并且根据所述场景参数以及所述音乐作品的特征参数，选择具有对应场景参数和特征参数标签的视频数据包括：至少基于对应场景标签与高权重的场景参数的匹配选择所述视频数据。由此，通过对多个参数及参数权重的全方位考虑，实现更为精确贴合的呈现数据匹配。

所述场景参数可以包括如下至少一项：所属时刻；所处位置；当前心情；当前状况；强推荐模式；和/或冷门推荐模式。由此，从不同维度对用户当前所处场景进行准确描述。

优选地，所述音乐数据具有一个或多个场景标签，所述音乐数据的一个或多个场景标签之间具有相同或不同的权重，和/或所述视频数据具有一个或多个场景标签以及一个或多个特征标签，所述视频数据的一个或多个场景标签之间具有相同或不同的权重，所述视频数据的一个或多个特征标签之前具有相同或不同的权重。由此，通过标签的权重化进一步实现后续的精确匹配。

优选地，音乐数据和/或所述视频数据的标签是基于如下至少一项获取或更新的：经由机器学习(ML)分类器对所述数据进行分类打标；用户在特定电台下播放所述数据时进行的操作。由此，提升标签获取的准确性和效率。

优选地，经由ML分类器对所述数据进行分类打标包括：将所述音乐数据经频谱变换转换为音频频谱图；以及将音频频谱图输入场景ML图像分类器以添加相应的场景参数标签。由此，通过音频数据的图像化，大幅提升音频数据的分类客观性和效率。

优选地，经由ML分类器对所述数据进行分类打标包括：选取所述视频数据的封面帧或关键帧作为视频代表帧；将所述视频代表帧输入相应场景或特征的ML图像分类器进行打标。由此，通过对视频数据进行ML图像分类，提升视频打标的准确性和效率。

优选地，所述视频数据的场景标签和特征标签是基于如下获取或更新的：用户在上传所述视频数据时进行的操作。由此，通过引入用户上传渠道，进一步丰富素材库并且能够更为准确的把握视频数据的主题特征。

优选地，所述音乐数据的特征参数包括元数据参数，所述元数据参数包括如下的至少一项：语种；歌手；专辑；发行年代；音乐风格；音乐速度。由此，方便从另一角度实现对音乐数据的客观描述。

优选地，在播放所述音乐数据的同时呈现所述视频数据还包括：基于所述特征参数和/或场景参数调整所述视频数据的播放效果。由此，进一步提升背景视频对音乐氛围呈现的促进作用。

优选地，该呈现方法，还可以包括：在所述视频数据上显示其他用户在相同场景参数下对所述音乐数据做出的评论，例如，以弹幕形式。由此提升用户的参与性。

根据本发明的另一个方面，提出了一种视频数据分类方法，包括：选取所述视频数据的封面帧或关键帧作为视频代表帧；将所述视频代表帧输入相应的ML图像分类器进行打标，所述打标包括使用相应的场景ML图像分类器和特征ML图像分类器进行场景和特征的打标；以及根据打标结果向所述视频数据分配对应的场景标签和特征标签，以使得所述视频数据用于在具有相应场景参数的音乐电台下配合具有相应特征标签的音乐数据进行播放。由此，通过视频图像化，以及后续的ML图像分类打标，能够为视频数据高效准确地分配场景和特征标签。

优选地，该方法可以还包括：至少部分基于用户在特定音乐电台下配合特定音乐作品播放所述视频数据时进行操作的操作数据，添加或更新所述视频数据针对所述特定音乐电台和所述特定音乐作品的标签和/或标签权重。由此，通过引入基于用户操作的打标，能够利用大数据对ML打标进行补充和更新。

优选地，该方法可以还包括：至少部分基于用户上传所述视频数据时所处场景的场景参数、所播放音乐数据的特征参数，和/或用户自行添加的标签数据，生成所述视频数据的标签和/或标签权重。

优选地，该方法可以还包括：基于用户上传视频数据时、用户收听特定电台时、以及ML打标的标签和/或标签权重，加权求取或更新所述视频数据的标签和/或标签权重。由此，能够充分考虑获取的各类打标数据，提升最终标签对视频数据进行描述的准确性。

根据本发明的又一个方面，提出了一种音乐电台呈现装置，包括：场景参数获取单元，用于获取当前用户收听音乐电台时所处场景的场景参数；音乐数据选择单元，用于根据所述场景参数选择具有对应场景标签的待播放音乐数据；特征参数获取单元，用于获取所述待播放音乐数据的特征参数；视频数据选择单元，用于根据所述场景参数以及所述音乐数据的特征参数，选择具有对应场景标签和特征标签的视频数据；以及并行播放单元，用于在播放所述音乐数据的同时呈现所述视频数据。

优选地，所述场景参数获取单元可以包括：用户操作获取单元，用于获取当前用户选择的音乐电台场景参数；以及场景参数读取单元，用于自动读取当前用户收听时所处场景的场景参数。

优选地该分类装置还可以包括：分类打标单元，用于对所述音乐数据和/或所述视频数据进行分类打标，其中所述分类打标单元进一步包括：ML分类打标单元：用于经由机器学习(ML)分类器对所述数据进行分类打标；以及操作分类打标单元，用于根据用户在特定电台下播放所述数据时进行的操作对所述数据进行分类打标。

优选地，所述ML分类打标单元包括音乐数据ML分类打标单元，用于：将所述音乐数据经频谱变换转换为音频频谱图；将音频频谱图输入场景ML图像分类器以添加相应的场景参数标签。

优选地，所述ML分类打标单元包括视频数据ML分类打标单元，用于：选取所述视频数据的封面帧或关键帧作为视频代表帧；将所述视频代表帧输入相应场景或特征的ML图像分类器进行打标。

优选地该分类装置还可以包括：播放调整单元，用于基于所述特征参数和/或场景参数调整所述视频数据的播放效果。

优选地，所述并行播放单元还可以用于：在所述视频数据上显示其他用户在相同场景参数下对所述音乐数据做出的评论。

根据本发明的再一个方面，提出了一种视频数据分类装置，包括：代表帧选取单元，用于选取所述视频数据的封面帧或关键帧作为视频代表帧；

打标单元，用于将所述视频代表帧输入相应的ML图像分类器进行打标，所述打标包括使用相应的场景ML图像分类器和特征ML图像分类器进行场景和特征的打标；以及标签分配单元，用于根据打标结果向所述视频数据分配对应的场景标签和特征标签，以使得所述视频数据用于在具有相应场景参数的音乐电台下配合具有相应特征标签的音乐数据进行播放。

优选地，所述打标装置还可以用于：至少部分基于用户在特定音乐电台下配合特定音乐作品播放所述视频数据时进行操作的操作数据，添加或更新所述视频数据针对所述特定音乐电台和所述特定音乐作品的标签和/或标签权重。

优选地，所述打标装置还可以用于：至少部分基于用户上传所述视频数据时所处场景的场景参数、所播放音乐数据的特征参数，和/或用户自行添加的标签数据，生成所述视频数据的标签和/或标签权重。

优选地，所述标签分配单元还可以用于：基于用户上传视频数据时、用户收听特定电台时、以及ML打标的标签和/或标签权重，加权求取或更新所述视频数据的标签和/或标签权重。

根据本发明的再一个方面，提出了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的音乐电台呈现和/或视频数据分类方法。

根据本发明的又一个方面，提出了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的音乐电台呈现和/或视频数据分类方法。

上文中已经参考附图详细描述了根据本发明的音乐电台呈现及其所涉及的相应视频数据分类方案。本发明所提出的音乐电台呈现方案借助机器学习或是大用户分析等数据手段，为音乐数据和背景视频添加合适的标签，并基于用户收听电台时的具体情境，挑选与之匹配的音乐，并进一步挑选场景和音乐两者都匹配的背景视频进行一并呈现，由此提供一种浸入式的听歌体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了现有音乐电台中的主要画面呈现的例子。

图2示出了根据本发明一个实施例的音乐电台呈现方法的流程示意图。

图3示出了根据本发明一个实施例的视频数据分类方法的流程图。

图4示出了根据本发明一个实施例的音乐电台呈现装置的组成示意图。

图5示出了根据本发明的视频数据分类装置的组成示意图。

图6A-6E示出了根据本发明的音乐电台呈现例。

图7示出了根据本发明一个实施例可用于实现上述音乐电台呈现和/或视频数据分类方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在个性化需求日益高涨的现今，用户听歌越来越需要“感觉”。例如，在看书时喜欢聆听舒缓的爵士乐，在运动时希望听到节奏强劲的流行乐，在下雨天则希望听到符合自己“雨天心境”的歌曲。虽然用户会自行创建歌单，并选择符合自己心情的歌单进行收听，但更多时候，用户会将歌曲的推送权交给音乐播放软件本身，选择各类的“音乐电台”进行收听。在此，“音乐电台”指在线向用户推送音乐作品的服务或应用。

在现有技术中，曲库会根据用户选择的音乐电台频道以及用户在前的听歌记录生成推荐的歌曲或是歌单，并且在播放歌曲时会配上专辑封面以及根据旋律变化的各类可视化模板，如图1的可视化部分2所示。但是音乐电台的上述呈现缺乏对听歌场景的准确反映，通常也就无法很好地贴合用户收听音乐电台时的心境。

为此，本发明提供了一种能够更好贴合收听场景本身的音乐电台呈现方案。该方案选择与收听场景相应的音乐数据和视频数据进行播放，从而能够更为贴切地进行相应场景的内容呈现。

图2示出了根据本发明一个实施例的音乐电台呈现方法的流程示意图。在步骤S210，获取当前用户收听音乐电台时所处场景的场景参数。在步骤S220，根据所述场景参数选择具有对应场景标签的待播放音乐数据。在步骤S230，获取所述待播放音乐数据的特征参数。在步骤S240，根据所述场景参数以及所述音乐作品的特征参数，选择具有对应场景标签和特征标签的视频数据。在步骤S250，在播放所述音乐数据的同时呈现所述视频数据。

在此，不同于现有技术中根据各类模板基于播放音乐的频率信息实时生成的可视化图像(例如，图1的部分2)，本发明中的“视频数据”指的是系统内预先存储且已被分类的，表现内容固定的连续变化的图像数据(不包含音频数据)。例如，本发明中随着音乐数据的播放一同呈现的“视频数据”可以是一段海浪的视频录像，一个人在雨中行走的视频录像，或是例如由动画师制作上传并由系统分类的动画。不同于表现力相对单调的、基于旋律生成视频的现有可视化模板，本发明的上述视频数据是真正的视频数据，可以具有各种主题、隐喻或是表现形式，更能贴合特定场景氛围的需要。在本发明中，上述视频数据可作为音乐播放时的背景，因此也可被称为“背景视频”或“背景视频数据”。

在步骤S210中需要获取当前用户收听音乐电台时所处场景的场景参数。在此，“场景”可以指代用户收听音乐电台时的情境。上述情境可以是用户主动选择的，也可以是应用自动获取的。通过对场景参数的综合考虑，能够更为准确地获知用户在收听音乐电台时的情境，从而能够基于对情境的判断，给出更符合用户需要的呈现。

在一个实施例中，步骤S210可以包括如下至少一项：获取当前用户选择的音乐电台场景参数；以及自动读取当前用户收听时所处场景的场景参数。

具体地，用户可以选取不同电台分类下的不同频道，并由此获取不同的场景参数。在一个应用例中，可以提供时刻电台、心情电台、猜你喜欢、听见不同和场景电台这五大类电台。用户在点击上述任一类电台后，可以自动进行相应的电台频道或是继续进行频道的选择。

时刻电台可以分为入眠0:00-6:00，早安6:00-10:00，时光10:00-11:00，午安11:00-14:00，时光14:00-15:00，小憩15:00-17:00，日落17:00-20：00，晚安20:00-24:00。在用户点击时刻电台后，可以基于当前的时间自动进入相应的时刻频道。作为替换或者补充，用户也可以自行选择相应的时刻频道，例如，用户在14:30时想进行小憩，则可直接选取对应时间段为15:00-17:00的小憩频道。作为替换或者补充，时刻电台还可以包括城市定位。应用可以根据系统的位置信息自动进行城市定位，或由用户进行手动城市选择，以获取城市信息作为场景参数。作为替换或者补充，时刻电台还可以包括实时天气功能。实时天气可以包括晴、多云、阴、雨、雪、雾和沙尘等。上述天气信息可由应用自行获取作为场景参数。在其他实施例中，上述城市和天气信息可以作为独立的城市电台和天气电台，也可以与其他的电台分类相结合，例如下述的心情电台和状态电台。

心情电台可以包括6种心情频道：平静、心动、高兴、宣泄、伤感、疲倦。用户可以点击选择相应的心情频道，以方便应用根据心情推介歌曲。

状态电台用来应对用户听歌时所处的状态，例如可以包括：读书学习，跑起来，骑行中，瑜伽时刻，打鸡血，宅在家中，假期旅行，无聊寂寞，慵懒阳光等。与心情电台类似，用户可以点击选择相应的状态频道，以方便应用根据状态推介歌曲。

电台还可以包括“猜你喜欢”和“听见不同”。“猜你喜欢”电台可以例如由AI根据用户的听歌历史猜测用户喜欢的推介歌曲，并且强推荐模式向用户显示(如下图6C例中突出显示的“红心”收藏按钮和“不喜欢”按钮)。另外，在着重于推荐新曲的强推荐模式中，通常不会选择用户曾经听过或起码是最近听过的音乐作品。“听见不同”电台可以推荐冷门但是用户可能喜欢的歌曲。虽然各大电台都会例如根据用户的听歌历史猜测用户喜欢的歌曲，但这“猜你喜欢”和“听见不同”受到当前情境的影响相对较小，更多地是根据用户的口味生成歌单，尤其是包括用户未曾听过的音乐作品的歌单。

应该理解的是，如上五大电台的划分是为了说明不同场景维度和进入该场景的方式的例子。在其他实施例中，音乐电台也可以具有其他划分和进入的方式，本发明对此不做限制。例如，用户可以在自己的红心歌单中通过在播放顺序按钮(常规的播放顺序按钮包括歌单循环、单曲循环和随机)上点选电台模式而直接进入音乐电台收听场景。此时，则可以根据用户创建的当前歌单(例如，由当前歌单反映出的用户喜好)进行参数的获取以及后续的推荐。

在前例中，时刻电台、心情电台、猜你喜欢、听见不同和场景电台这五大电台实际提供了用于描述用户所处情境的不同维度。在一个实施例中，用户可以选择某类电台下的某一频道，并且直接使用该频道的频道名称作为场景参数。例如，用户选择了状态电台下的“读书学习”频道，为此，音乐电台就可以仅根据上述频道的场景参数进行后续音乐和视频的推送。在其他实施例中，可以包括从不同维度来描述用户所处场景的场景参数。用户可以同时选择多于一个频道，或是在某一频道下进一步选择不同的限定参数。例如，用户选择了心情电台下的“高兴”频道，这时，用户还可以在此频道下进一步选择“听见不同”选项，由此，音乐电台就会基于“高兴”和“冷门”这两个参数推荐贴合当前愉快心情的冷门歌曲。此外，还可以根据用户选择的一个频道以及自动采集到的情境信息来获取多个场景参数。例如，用户进入了时刻电台，系统可以自动读取当前时刻(例如，19:30)，以进入对应的频道(即，日落频道)，同时读取用户的城市定位信息和天气信息，例如，城市上海，天气小雨，并根据“日落”、“上海”和“小雨”这三个场景参数进行后续的音乐推荐。进一步地，场景参数可以根据用户所处情境的变化而变化，比如半小时后随着时间达到晚上八点而自动进入“晚安”频道，并且随着雨停云散而将天气场景参数从“小雨”改为“晴朗”。

应该理解的是，可以为获取到的场景参数分配权重(也可理解为优先级)，尤其是在获取到多个场景参数的情况下。在上述获取到“高兴”和“冷门”这两个参数的例子中，这两个参数可以具有相同的权重，以表示后续的音乐和视频推荐的需要同等考虑这两个场景。而在上述获取到“日落”、“上海”和“小雨”这三个参数的例子中，由于用户主动选择了时刻电台，“上海”和“小雨”则是应用自行读取的，因此可以向“日落”分配较高的权重(例如，权重1)，并向“上海”和“小雨”分配较低的权重(例如，分别为0.3和0.5)，以表示在后续的音乐和视频推荐中，需要首先考虑“日落”这个参数。可以基于参数的获取方式(是用户主动选择的还是系统自动获取的)、用户的听歌历史、热门歌曲或是热门事件的发生等来调节各类场景参数的权重。上述场景参数的权重分配可用于后续更为贴切的音乐和视频推荐。

具体地，在选择待播放音乐数据的步骤S220中，可以充分利用在前获取的场景参数。为了进行场景匹配，可以预先对曲库内的音乐进行分类和打标。

首先，音乐作品在被收录进曲库时，通常就已包括元数据参数。元数据是用于描述音乐作品的基础信息，例如对于歌唱作品，可以包括该作品的演唱者、语种、专辑名称、发行年代、音乐风格和音乐速度，例如BPM(beats per minute，每分钟节拍数)。而对于纯音乐作品(或是人声仅作为辅助的作品)，其演唱者和语种参数则可被替换为演奏者和国别(例如，演奏者和乐团所属的国家)信息。上述元数据参数能够从更为基础的角度上描述一首音乐作品的特征，因此可以看作是该音乐作品的特征参数。上述特征参数是音乐作品自带的，通常无需经过特殊处理而获得。例如，卡朋特乐队的经典歌曲《昨日重现》(Yesterday OnceMore)可以具有“英语”、“卡朋特乐队”或“Carpenters”、“1970年代”、“流行”或“Pop”等元数据，上述元数据可以作为该音乐作品的特征参数，以便用于后续的场景打标或是与视频的匹配。

虽然现有的音乐作品通常包括例如上述元数据的特征参数，但一首歌曲整体上呈现的“氛围”通常很难用现有的歌曲特征参数(例如，演唱者、年代、语种、甚至是曲风)准确呈现，而根据音乐编辑人工归类所生成的歌单也很难总是符合当前用户的听歌口味。换句话说，现有技术缺乏一种能够以相对客观且高效的分类方法对“歌曲气氛”从各个方面进行整体把握的高效技术方案。

为此，在本发明中，需要为音乐作品打上恰当的场景标签。在一个实施例中，音乐数据可以经由机器学习(Machine Learning，ML)分类器进行分类打标。在此，“机器学习”指代一种使用大量数据进行算法模型训练，以便从数据中习得规律并对真实世界中的事件做出决策和预测的实现人工智能的方法。现有的ML分类器模型包括相对较为简单的Softmax、SVM分类器以及更为复杂的人工神经网络(ANN)模型。在此，可以通过训练使得ML分类器学习到贴合各种场景的音乐，并使用经训练的ML分类器对音乐作品进行分类。

在一个优选实施例中，可以充分利用ML分类器在图像分类上的良好表现(例如，尤其是卷积神经网络(CNN)模型在广泛的图片分类上取得了良好的效果)，通过将音频进行频谱可视化，利用ANN(尤其是CNN模型)在图像特征提取上的优势，实现对音频的客观分类打标，从而提升基于分类打标的歌曲推荐的准确性。

为此，经由ML分类器对所述数据进行分类打标可以包括：将所述音乐数据经频谱变换转换为音频频谱图；将音频频谱图输入场景ML图像分类器以添加相应的场景参数标签。例如可以首先根据例如基于现有人工分类的音频作为分类样本训练用于分类的ML模型，该ML模型在训练过程中通过迭代收敛习得样本图像中的体现分类特征的频谱分类规律。在优选实施例中，上述音频频谱图可以是经降维的频谱图(例如，经由自编码器简化)，和/或可以是对应一定长度(例如，5s)的拼接频谱图。随后，可以将待分类音频的频谱图送入上述经训练的ML模型进行分类，并根据图像分类的结果确定音频的所属分类。进一步地，还可以收集例如一段时间内多个待分类音频的音频频谱图及其所属分类结果，并且基于多个待分类音频的音频频谱图及其所属分类结果重训用于进行分类的上述ML图像分类器。在一个实施例中，收集的实际音频分类结果可以是后续经过修正的分类结果，例如，在分类器是如下所述用于进行打标的二分类分类器时，对于那些被分类器打标为0.5附近概率的音频，可经由其他方式(例如，人工确认)来进行该音频是否应被打标的最终确认。

根据不同的实现，使用的ML图像分类器可以是相对较为简单的Softmax分类器或是SVM分类器，也可以是ANN，尤其可以是CNN分类器。可以训练不同深度(例如，隐藏层数不同)、不同复杂度的CNN分类器。例如，可以基于大量精确分类代表的样本训练能够进行多种分类的CNN分类器。例如，包括十种甚至更多标签分类的分类器。在一个实施例中，也可以训练较为简单的分类器。分类器例如可以是用于判定输入图片是否属于某一风格的二分类器。在不同的实现中，可以将音乐数据或其片段送入一个大型分类器，以基于分类概率的高低，一次性对多个场景标签的添加与否进行确定；也可以将音乐数据或其片段分别送入多个小型分类器，每个小型分类器例如都是针对某个场景标签的二分类器，由此能够分别判断该音乐数据能否打上相应的场景标签。应该理解的是，同一音乐作品可以被打上多个标签，这多个标签可以是从不同维度上描述场景的标签(例如，分属心情和状态电台的“高兴”和“骑行中”标签)，也可以是相同维度上类似情境的标签(例如，同属状态电台下的“跑起来”和“打鸡血”标签)。

作为替换或者补充，音乐数据的场景标签还可以基于用户在特定电台下播放所述数据时进行的操作而被获取或是更新。换句话说，应用可以对获取的用户操作数据，尤其是大量用户的操作数据进行统计、分析和处理来实现对音乐数据的打标或是标签的更新。在此，可以将用户在特定电台下简单地视作用户当前选择的电台频道下(例如，仅对应一个场景参数)，也可以视作在其获取的全部场景参数下。用户在该电台下针对播放歌曲的的“红心”或是切歌操作可被用来评价针对该歌曲的当前标签是否准确，并作为后续更新的标准。进一步地，用户甚至可以该播放的歌曲提供其他的场景标签选项，例如，点击其他分类按钮并输入自己喜欢的分类。

在音乐作品获取了场景标签之后，就可以根据其场景标签与获取的当前用户的场景参数的匹配度进行推荐。在一个较为简单的例子中，仅基于一个场景参数(例如，“读书学习”频道)来进行音乐作品匹配。这时，可以选择具有“读书学习”标签的音乐作品，并例如基于用户的在前听歌习惯进行音乐推荐。

如果在步骤S210获取到了多个场景参数，并且多个场景参数之间具有相同或不同的权重时，可以利用更复杂的匹配规则来进行步骤S220的音乐作品匹配。例如，在一个实施例中，可以至少基于对应场景标签与高权重的场景参数的匹配选择待播放的音乐数据。例如，在如上权重分别为1、0.3和0.5的“日落”、“上海”和“小雨”的场景参数下，可以首先基于最重要的标签“日落”进行音乐筛选，以使得选择的音乐作品必须具有“日落”标签，且最好同时具有“上海”和“小雨”标签，并且可以优先播放例如同时具有上述三个标签的音乐数据。例如，可以通过重合场景的加权值确定某一音乐作品与当前场景的匹配度。

在一个更为复杂的实施例中，音乐数据所具有的标签例如也可以具有权重。上述权重例如可由ML分类时的概率高低或是用户的例如“红心”或切歌操作所决定的。音乐数据的标签权重值例如尤其可以确定该音乐数据在对应电台下的播放优先级。例如，某一音乐作品由于在心情电台“伤感”频道下获得了很多用户的点赞，因此使得该音乐作品的“伤感”标签具有极高的权重。为此，当某一用户点击进入“伤感”频道时，可以优先为其播放此音乐作品。在其他情况下，例如可以重合的场景参数和场景标签双方的加权值来确定音乐作品与场景的匹配程度。

在选定了音乐数据之后，还需在步骤S230获取该音乐数据的特征参数。如上所述，“特征参数”是用于表明该音乐固有且明确的特征的参数，并且尤其可以实现为元数据参数(例如，演唱者、语种、专辑名称、发行年代和曲风等)。音乐数据的上述固有的特征参数通常在音乐数据被收入曲库时就以具备，并且可以用于后续步骤中对视频数据的选择。

在本发明中，为了提升音乐电台的场景呈现效果，还会为推荐的音乐配上视频一起播放。于是在步骤S240中，视频数据的选取需要考虑到跟场景及音乐两者的匹配。

与音乐数据类似，上述匹配同样需要预先对视频数据进行分类打标操作。于是，在一个实施例中，所述视频数据的标签(包括场景标签和音乐特征标签)可以基于如下至少一项获取或更新的：经由机器学习(ML)分类器对所述数据进行分类打标；用户在特定电台下播放所述数据时进行的操作。在进行ML分类时，具体可以包括：选取视频数据的封面帧或关键帧；将封面帧或关键帧输入相应场景或特征的ML图像分类器进行打标。例如，可以训练针对特定曲风和年代的特征ML图像分类器，以方便对视频数据进行基于歌曲特征的打标。视频数据关于ML图像分类和用户操作的打标在总体上与如上针对音乐数据的操作类似，在此不再赘述。

不同于版权信息明确且绝大部分由系统更新进曲库的音乐数据，用来与音乐数据配合播放的视频数据可以是由用户自行上传的数据。例如，用户可以自行拍摄一段短视频，或是制作一段动画以作为视频数据进行上传。此时，可以获取用户上传视频时的信息用来进行分类打标。例如，用户可以为自己上传的视频添加相应的标签，例如，匹配的场景或是曲风。在视频主题明确时(例如，针对某一歌手的特定纪念视频)，该主题标签(例如，歌手名)可以作为该视频的主标签，使其仅在符合该特定主题的音乐作品(例如，该歌手的作品)播放时播放(同时需要满足其他的匹配条件，例如，场景匹配)。在其他实施例中，可以根据用户上传视频时所处的场景以及播放的歌曲，自动获取相应的场景和歌曲特征信息，作为该视频的初始场景和特征标签。

在用户可以上传背景视频的实施例中，针对用户上传的视频，可以首先获取用户主动标注的标签信息或是上传动作发生时的场景信息。随后，该视频进行审核(可以是人工和/或自动审核)阶段。随后，经过审核的视频可以下放给少量其他用户，并且根据其他用户行为(点赞，切歌率等)进行评分，评分高的进入素材库，以面向更大范围的用户。其他用户除了对视频进行评分外，也可以对其进行能够其他打标相关操作，例如主动添加场景、曲风或是主题标签等。

在为视频数据进行打标的过程中，由于每个ML分类器通常被训练用于针对特定的一个或多个标签进行分类，因此尤其适用于针对有限的标签类型进行打标。例如，ML分类器可以针对总频道数有限的场景标签进行打标，或是针对语种或是曲风这种可选项有限的特征标签进行打标。相应地，大数据用户和上传用户的操作可以用于针对各类标签进行打标，尤其是对于针对演唱者或是专辑这种分类不固定(因此通常不适于ML分类)的标签的打标。

在涉及带权重匹配时，针对场景参数与视频数据的场景标签的匹配与在前音乐数据的场景权重匹配类似。而对于特征标签和特征参数的匹配，由于音乐数据本次通常带有项目固定的多个特征参数，而视频数据所具有特征标签则通常较少，因此通常基于视频数据的特征标签来确定音乐数据的特征参数。例如，音乐数据需要包含视频数据的至少一个(优选为全部的)特征标签所对应的特征，才能认定该音乐数据与该视频数据相匹配。

进一步地，在用于匹配的场景参数具有多个且音乐数据的场景标签仅与之部分匹配的情况下，对视频数据的选取还可以考虑音乐数据与场景参数的具体匹配情况。例如，在获取的场景参数包括“日落”、“上海”和“小雨”三个场景参数的情况下，对于视频数据在场景标签维度上的选取可以直接考虑这三个场景参数，也可以根据实际匹配的音乐数据的场景标签进行进一步调整。例如，在选取的音乐数据仅包括“日落”和“上海”两个标签时，对于视频数据在场景标签维度上的选取可以仅考虑“日落”和“上海”，以便与音乐数据更加贴合；也可以加重“小雨”的权重进行考虑，以便弥补音乐数据未能体验“小雨”情境的不足。

在选定了视频数据之后，就可以在步骤S250中，对音乐数据和视频数据进行一并呈现。由于每个音乐数据的时长不定，且视频数据通常是几秒或是十几秒的短视频，因此可以在例如一首歌的播放时长中重复视频数据的播放。进一步地，可以基于特征参数和/或场景参数调整视频数据的播放效果。可以根据电台场景，或是音乐数据的曲风或是场景标签，更改选定视频数据的播放参数。例如可以基于音乐数据的音乐速度调整视频数据的播放速度。这类调整尤其适用于动画类的视频数据。例如，可以根据音乐数据的BPM调整动画的播放帧率。在其他实施例中，可以根据场景和/或曲风，为视频播放应用各种对应的视效。例如，为连同1960或1970年代的音乐数据一起呈现的视频添加怀旧滤镜等。

在连同音乐进行视频呈现之外，还可以对符合当时情境的音乐评论进行突出显示，例如，将其作为弹幕显示在视频画面之上。为此，本发明的呈现方法还包括在所述视频数据上显示其他用户在相同场景参数下对所述音乐数据做出的评论。例如，当前用户在“宅在家中”电台频道中收听某歌曲A，除了为歌曲A选择相应的视频数据B之外，还可以在视频数据上显示用户评论C。此用户评论C可以是在前用户同样在“宅在家中”电台频道中收听到歌曲A时对该歌曲A添加的评论。要显示的评论可以基于点赞数多少、场景匹配程度(在涉及多场景标签的情况下)等进行选择。例如，针对同样在“宅在家中”频道下针对歌曲A进行的多条评论，可以进一步选择同时段或是在同一城市做出的评论进行显示。

如上已结合图2描述了根据本发明的音乐电台呈现方法及其优选实施例。上述音乐电台的完整呈现需要预先对曲库内的音乐数据以及素材库内的视频数据进行分类打标。

为此，本发明还可以包括一种视频数据分类方法。图3示出了根据本发明一个实施例的视频数据分类方法的流程图。经过该方法分类的视频数据被用于进行根据本发明的音乐电台呈现。

在步骤S310，选取视频数据的封面帧或关键帧作为视频代表帧。在视频数据具有封面的情况下，可以直接选择封面作为视频代表帧。作为替换或者补充，也可以使用已知的关键帧选取算法(例如，ffmpeg)选取视频中的某一帧作为代表该视频的关键帧。

在步骤S320，将所述视频代表帧输入相应的ML图像分类器进行打标，所述打标包括使用相应的场景ML图像分类器和特征ML图像分类器进行场景和特征的打标。在此，场景ML分类器优选可以是包含所有场景分类项的多个场景分类器。特征ML分类器则优选可以是针对曲风、语种等分类项有限的特征维度的分类器。

在步骤S330，根据打标结果向所述视频数据分配对应的场景标签和特征标签，以使得所述视频数据用于在具有相应场景参数的音乐电台下配合具有相应特征标签的音乐数据进行播放。

作为替换或是补充，针对视频数据的分类还可以根据非特定用户的操作数据进行更新或补充。在一个实施例中，该视频分类方法还可以包括：至少部分基于用户在特定音乐电台下配合特定音乐作品播放所述视频数据时进行操作的操作数据，添加或更新所述视频数据针对所述特定音乐电台和所述特定音乐作品的标签和/或标签权重。

作为替换或是补充，针对视频数据的分类还可以根据视频上传用户的操作数据进行。在一个实施例中，该视频分类方法还可以包括：至少部分基于用户上传所述视频数据时所处场景的场景参数、所播放音乐数据的特征参数，和/或用户自行添加的标签数据，生成所述视频数据的标签和/或标签权重。

在一个优选实施例中，可以综合上述ML打标、大数据用户操作和上传用户操作获取的信息，对视频数据的标签或其权重进行获取、更新或是补充。为此，该视频分类方法还可以包括：基于用户上传视频数据时、用户收听特定电台时、以及ML打标的标签和/或标签权重，加权求取或更新所述视频数据的标签和/或标签权重。

针对视频数据分类的部分细节如上在基于图2的描述中已有所阐述，在此不再赘述。

如上以结合图2和图3描述根据本发明的音乐电台呈现方法，以及相应的视频分类方法。进一步地，本发明的上述方案还可以实现对应的呈现和分类装置。

图4示出了根据本发明一个实施例的音乐电台呈现装置的组成示意图。如图4所示，音乐电台呈现装置400可以包括场景参数获取单元410、音乐数据选择单元420、特征参数获取单元430、视频数据选择单元440以及并行播放单元450。

场景参数获取单元410可以用于获取当前用户收听音乐电台时所处场景的场景参数。音乐数据选择单元420可以用于根据所述场景参数选择具有对应场景标签的待播放音乐数据。特征参数获取单元430可以用于获取所述待播放音乐数据的特征参数。视频数据选择单元440可以用于根据所述场景参数以及所述音乐数据的特征参数，选择具有对应场景标签和特征标签的视频数据。并行播放单元450则可用于在播放所述音乐数据的同时呈现所述视频数据。

场景参数可以从用户的主动操作或是对其所处情境的感知而获取。为此，场景参数获取单元410可以进一步包括：用户操作获取单元，用于获取当前用户选择的音乐电台场景参数；以及场景参数读取单元，用于自动读取当前用户收听时所处场景的场景参数。关于获取场景参数的详细描述如上已结合图2做出，在此不再赘述。

为了基于场景对音乐数据和视频数据进行匹配，需要对这些数据进行打标，由此进行参数和标签上的匹配。在本发明中，参数和标签可以具有相同或是相应的表示方式。例如，从当前用户的电台情境中获取的场景参数和音乐/视频数据所包含的场景标签的表现形式可以是相同的，例如，都具有“时刻-午后”、“心情-高兴”、“状态：假期旅行”这样的形式；也可以是不同的，例如，使用不同的字符来各自表示相同的场景状态。在一个实施例中，参数和标签可以不是一一对应的，而是具有其他的相关方式。例如，某一音乐数据可以被分类具有“运动”标签，因此其可以适用于在“跑起来”和“骑行中”这样的运动场景参数下使用。

于是，在一个实施例中，呈现装置400可以包括分类打标单元，用于对所述音乐数据和/或所述视频数据进行分类打标，其中所述分类打标单元进一步包括：ML分类打标单元：用于经由机器学习(ML)分类器对所述数据进行分类打标；以及操作分类打标单元，用于根据用户在特定电台下播放所述数据时进行的操作对所述数据进行分类打标。优选地，操作分类打标单元还可以根据上传视频用户的操作对视频数据进行打标。

针对音乐数据，该ML分类打标单元可以包括音乐数据ML分类打标单元，用于：将所述音乐数据经频谱变换转换为音频频谱图；将音频频谱图输入场景ML图像分类器以添加相应的场景参数标签。

针对视频数据，该ML分类打标单元可以包括视频数据ML分类打标单元，用于：选取所述视频数据的封面帧或关键帧；将所述封面帧或关键帧输入相应场景或特征的ML图像分类器进行打标。

例如，在一个音乐播放系统中，可以包括文件分类打标和音乐电台呈现、常规音乐播放等多种功能。取决于不同的系统设置，分类打标功能可被包含在音乐电台呈现模块之内，也可以是独立的模块或是分属后台的处理模块。因此，在其他实施例中，分类打标的工作也可由音乐电台呈现装置之外的其他模块来完成。

进一步地，本发明的呈现装置400还可以包括：播放调整单元，用于基于所述特征参数和/或场景参数调整所述视频数据的播放效果，例如，基于歌曲BPM调整视频的播放速度。

进一步地，并行播放单元450还可以用于对用户评论的挑选播放，例如，在所述视频数据上显示其他用户在相同场景参数下对所述音乐数据做出的评论。

图5示出了根据本发明的视频数据分类装置的组成示意图。该分类装置500可以是基于图4所述分类打标单元的一部分，并专用于对视频数据的打标。具体地，分类装置500可以包括代表帧选取单元510、打标单元520以及标签分配单元530。

代表帧选取单元510可以用于选取所述视频数据的封面帧或关键帧作为视频代表帧。打标单元520可以用于将所述视频代表帧输入相应的ML图像分类器进行打标，所述打标包括使用相应的场景ML图像分类器和特征ML图像分类器进行场景和特征的打标。标签分配单元530则可用于根据打标结果向所述视频数据分配对应的场景标签和特征标签，以使得所述视频数据用于在具有相应场景参数的音乐电台下配合具有相应特征标签的音乐数据进行播放。

在一个实施例中，打标还可以包括基于大数据用户操作的打标。于是，打标装置520还可以用于：至少部分基于用户在特定音乐电台下配合特定音乐作品播放所述视频数据时进行操作的操作数据，添加或更新所述视频数据针对所述特定音乐电台和所述特定音乐作品的标签和/或标签权重。

在一个实施例中，打标还可以包括基于上传视频的用户的操作进行打标。于是，打标装置520还用于：至少部分基于用户上传所述视频数据时所处场景的场景参数、所播放音乐数据的特征参数，和/或用户自行添加的标签数据，生成所述视频数据的标签和/或标签权重。

在一个实施例中，从上述打标途径所获取的信息可被综合考虑用于标签的最终确定。于是，标签分配单元530可以用于：基于用户上传视频数据时、用户收听特定电台时、以及ML打标的标签和/或标签权重，加权求取或更新所述视频数据的标签和/或标签权重。

如下将结合图6的呈现例进行描述，以进一步加强对本发明原理的理解。图6A-6E示出了根据本发明的音乐电台呈现例。

如图6A所示，用户A选择了早安频道。于是，在“时段电台-早安频道”的播放模式下，结合“城市-杭州”和“天气-晴”获取作为描述当前用户所处情境的场景参数。根据上述参数，选择了相应的音乐数据“Happier”(该音乐数据例如在前可被打标为具有“早安”、“晴天”、“跑步”、“开心”等标签)。在其他实施例中，上述音乐数据的选取还可以进一步参考用户在前的听歌习惯或用户画像。根据上述场景参数和音乐数据的特征(例如，曲风)，选择海浪主题的动画作为背景视频，以结合音乐一起呈现。在海浪背景视频之上，还可以呈现歌曲信息，并进行歌词的同步显示。进一步地，还可以显示可视化旋律、用户点击后可显示为“红心”的标识等。另外，例如6E所示，可以在图6A的呈现上，叠加显示用户的在前评论，例如以“弹幕”的形式，以进一步提升场景的沉浸度。

如图6B所示，另一用户B选择了跑步频道。于是，获取“状态电台-跑步频道”作为描述情境的场景参数，并同样选择了具有“跑步”标签的相应的音乐数据“Happier”。在其他实施例中，上述音乐数据的选取还可以进一步参考用户在前的听歌习惯或用户画像。根据上述场景参数和音乐数据的特征(例如，BPM)，选择跑步主题的视频作为背景，以结合音乐一起呈现。在跑步的背景视频之上，还可以呈现歌曲信息，并进行歌词的同步显示。进一步地，还可以显示可视化旋律、用户点击后可显示为“红心”的收藏标识等，尤其还可以突出显示用于开启播放的“跑步”按钮。

如图6C所示，用户C选择了“猜你喜欢”频道。于是，获取“猜你喜欢”作为描述情境的场景参数。音乐数据“Happier”由于在前被大量其他用户收藏而被系统添加了“猜你喜欢”标签。通过综合考虑用户C的听歌习惯，向其推荐了该用户C之前尚未听过的音乐数据“Happier”。根据上述场景参数和音乐数据的特征，选择手势主题的动画作为背景视频，以结合音乐一起呈现。在手势背景视频之上，还可以呈现歌曲信息，并进行歌词的同步显示。在此模式下，还可以进一步突出显示用户点击后可显示为“红心”的按钮和对应的“不喜欢”按钮等。

如图6D所示，用户D选择了“心情电台-开心”频道。于是，获取“心情电台-开心”作为描述情境的场景参数。音乐数据“Happier”由于在前被大量其他用户收藏且具有“开心”标签而被优先推荐给了用户D。根据上述场景参数和音乐数据的特征，同样选择了手势主题的动画作为背景视频，以结合音乐一起呈现。在手势背景视频之上，还可以呈现歌曲信息，并进行歌词的同步显示。进一步地，还可以显示可视化旋律、用户点击后可显示为“红心”的收藏标识等。

如图6A-E所示，同一首歌曲可以具备从多个维度加以描述的标签，从而能够在多个电台频道中得到推荐播放。即使针对同一首歌，在不同场景下配合显示的背景视频也可以不同。由此，能够从场景和音乐两个维度，选取背景视频，提升对用户当前所处情境的贴合程度。

图7示出了根据本发明一个实施例可用于实现上述音乐电台呈现和/或视频分类方法的计算设备的结构示意图。

参见图7，计算设备700包括存储器710和处理器720。

处理器720可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器720可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器710可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器710可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器710可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器710上存储有可执行代码，当可执行代码被处理器720处理时，可以使处理器720执行上文述及的音乐电台呈现和/或视频分类方法。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种音乐电台呈现方法，包括：

获取当前用户收听音乐电台时所处场景的场景参数；

根据所述场景参数选择具有对应场景标签的待播放音乐数据；

获取所述待播放音乐数据的特征参数；

根据所述场景参数以及所述音乐数据的特征参数，选择具有对应场景标签和特征标签的视频数据；以及

在播放所述音乐数据的同时呈现所述视频数据。

2.如权利要求1所述的方法，其中，获取当前用户收听音乐电台时所处场景的场景参数包括如下至少一项：

获取当前用户选择的音乐电台场景参数；以及

自动读取当前用户收听时所处场景的场景参数。

3.如权利要求1所述的方法，其中，获取当前用户收听音乐电台时所处场景的场景参数包括：

获取当前用户收听音乐电台时所处场景的多个场景参数，多个场景参数之间具有相同或不同的权重，并且

根据所述场景参数选择具有对应场景标签的待播放音乐数据包括：

至少基于对应场景标签与高权重的场景参数的匹配选择待播放的音乐数据，并且

根据所述场景参数以及所述音乐作品的特征参数，选择具有对应场景参数和特征参数标签的视频数据包括：

至少基于对应场景标签与高权重的场景参数的匹配选择所述视频数据。

4.如权利要求1所述的方法，其中，所述场景参数包括如下至少一项：

所属时刻；

所处位置；

当前心情；

当前状况；

强推荐模式；和/或

冷门推荐模式。

5.如权利要求1所述的方法，其中，所述音乐数据具有一个或多个场景标签，所述音乐数据的一个或多个场景标签之间具有相同或不同的权重，和/或

所述视频数据具有一个或多个场景标签以及一个或多个特征标签，所述视频数据的一个或多个场景标签之间具有相同或不同的权重，所述视频数据的一个或多个特征标签之前具有相同或不同的权重。

6.如权利要求5所述的方法，其中，所述音乐数据和/或所述视频数据的标签是基于如下至少一项获取或更新的：

经由机器学习(ML)分类器对所述数据进行分类打标；

用户在特定电台下播放所述数据时进行的操作。

7.如权利要求6所述的方法，其中，经由ML分类器对所述数据进行分类打标包括：

将所述音乐数据经频谱变换转换为音频频谱图；

将音频频谱图输入场景ML图像分类器以添加相应的场景参数标签。

8.如权利要求6所述的方法，其中，经由ML分类器对所述数据进行分类打标包括：

选取所述视频数据的封面帧或关键帧作为视频代表帧；

将所述视频代表帧输入相应场景或特征的ML图像分类器进行打标。

9.如权利要求6所述的方法，其中，所述视频数据的场景标签和特征标签是基于如下获取或更新的：

用户在上传所述视频数据时进行的操作。

10.如权利要求1所述的方法，其中，所述音乐数据的特征参数包括元数据参数，所述元数据参数包括如下的至少一项：

语种；

歌手；

专辑；

发行年代；

音乐风格；

音乐速度。

11.如权利要求1所述的方法，其中，在播放所述音乐数据的同时呈现所述视频数据还包括：

基于所述特征参数和/或场景参数调整所述视频数据的播放效果。

12.如权利要求1所述的方法，还包括：

在所述视频数据上显示其他用户在相同场景参数下对所述音乐数据做出的评论。

13.一种视频数据分类方法，包括：

选取所述视频数据的封面帧或关键帧作为视频代表帧；

将所述视频代表帧输入相应的ML图像分类器进行打标，所述打标包括使用相应的场景ML图像分类器和特征ML图像分类器进行场景和特征的打标；以及

根据打标结果向所述视频数据分配对应的场景标签和特征标签，以使得所述视频数据用于在具有相应场景参数的音乐电台下配合具有相应特征标签的音乐数据进行播放。

14.如权利要求13所述的方法，还包括：

至少部分基于用户在特定音乐电台下配合特定音乐作品播放所述视频数据时进行操作的操作数据，添加或更新所述视频数据针对所述特定音乐电台和所述特定音乐作品的标签和/或标签权重。

15.如权利要求14所述的方法，还包括：

至少部分基于用户上传所述视频数据时所处场景的场景参数、所播放音乐数据的特征参数，和/或用户自行添加的标签数据，生成所述视频数据的标签和/或标签权重。

16.如权利要求15所述的方法，还包括：

基于用户上传视频数据时、用户收听特定电台时、以及ML打标的标签和/或标签权重，加权求取或更新所述视频数据的标签和/或标签权重。

17.一种音乐电台呈现装置，包括：

场景参数获取单元，用于获取当前用户收听音乐电台时所处场景的场景参数；

音乐数据选择单元，用于根据所述场景参数选择具有对应场景标签的待播放音乐数据；

特征参数获取单元，用于获取所述待播放音乐数据的特征参数；

视频数据选择单元，用于根据所述场景参数以及所述音乐数据的特征参数，选择具有对应场景标签和特征标签的视频数据；以及

并行播放单元，用于在播放所述音乐数据的同时呈现所述视频数据。

18.如权利要求17所述的装置，其中，所述场景参数获取单元进一步包括：

用户操作获取单元，用于获取当前用户选择的音乐电台场景参数；以及

场景参数读取单元，用于自动读取当前用户收听时所处场景的场景参数。

19.如权利要求17所述的装置，还包括：

分类打标单元，用于对所述音乐数据和/或所述视频数据进行分类打标，其中所述分类打标单元进一步包括：

ML分类打标单元：用于经由机器学习(ML)分类器对所述数据进行分类打标；以及

操作分类打标单元，用于根据用户在特定电台下播放所述数据时进行的操作对所述数据进行分类打标。

20.如权利要求19所述的装置，其中，所述ML分类打标单元包括音乐数据ML分类打标单元，用于：

将所述音乐数据经频谱变换转换为音频频谱图；

21.如权利要求19所述的装置，其中，所述ML分类打标单元包括视频数据ML分类打标单元，用于：

选取所述视频数据的封面帧或关键帧作为视频代表帧；

22.如权利要求17所述的装置，还包括：

播放调整单元，用于基于所述特征参数和/或场景参数调整所述视频数据的播放效果。

23.如权利要求17所述的装置，其中，所述并行播放单元还用于：

24.一种视频数据分类装置，包括：

代表帧选取单元，用于选取所述视频数据的封面帧或关键帧作为视频代表帧；

打标单元，用于将所述视频代表帧输入相应的ML图像分类器进行打标，所述打标包括使用相应的场景ML图像分类器和特征ML图像分类器进行场景和特征的打标；以及

标签分配单元，用于根据打标结果向所述视频数据分配对应的场景标签和特征标签，以使得所述视频数据用于在具有相应场景参数的音乐电台下配合具有相应特征标签的音乐数据进行播放。

25.如权利要求24所述的装置，其中，所述打标装置还用于：

26.如权利要求25所述的装置，其中，所述打标装置还用于：

27.如权利要求26所述的装置，其中，所述标签分配单元还用于：

28.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-16中任一项所述的方法。

29.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-16中任一项所述的方法。