CN113486214A

CN113486214A - 音乐匹配方法、装置、计算机设备及存储介质

Info

Publication number: CN113486214A
Application number: CN202110837757.6A
Authority: CN
Inventors: 洛晋申
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-08

Abstract

本申请实施例公开了一种音乐匹配方法、装置、计算机设备及存储介质，属于音乐处理技术领域。该方法包括：获取第一时段内的视频数据，所述视频数据通过对目标对象执行的动作进行拍摄得到；基于所述视频数据预测得到第二时段内所述目标对象的目标动作特征，所述目标动作特征用于指示所述目标对象在所述第二时段内的动作状态，所述第二时段是所述第一时段之后的时段；基于所述目标动作特征进行音乐匹配，得到目标音乐，所述目标音乐用于在所述第二时段内播放，采用该方式可在目标对象执行动作过程中实时预测后续动作的动作特征，并进行音乐的匹配，进而在后续目标对象执行动作时，即可播放该目标音乐，提高音乐匹配的实时性。

Description

音乐匹配方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种音乐匹配方法、装置、计算机设备及存储介质。

背景技术

在进行动作类表演如舞蹈类表演时，通常是获得整段表演，然后针对整段动作配置音乐，最终整合得到动作类表演作品。

发明人在实现本发明的过程中发现，在该过程中需预先获取整段表演，才可完成音乐的匹配，无法在实时动作表演过程中进行配乐，即音乐匹配的实时性较差。

发明内容

本申请实施例提供了一种音乐匹配方法、装置、计算机设备及存储介质，所述技术方案如下：

一方面，本申请实施例提供了一种音乐匹配方法，所述方法包括：

获取第一时段内的视频数据，所述视频数据通过对目标对象执行的动作进行拍摄得到；

基于所述视频数据预测得到第二时段内所述目标对象的目标动作特征，所述目标动作特征用于指示所述目标对象在所述第二时段内的动作状态，所述第二时段是所述第一时段之后的时段；

基于所述目标动作特征进行音乐匹配，得到目标音乐，所述目标音乐用于在所述第二时段内播放。

另一方面，本申请实施例提供了一种音乐匹配装置，所述装置包括：

获取模块，用于获取第一时段内的视频数据，所述视频数据通过对目标对象执行的动作进行拍摄得到；

预测模块，用于基于所述视频数据预测得到第二时段内所述目标对象的目标动作特征，所述目标动作特征用于指示所述目标对象在所述第二时段内的动作状态，所述第二时段是所述第一时段之后的时段；

匹配模块，用于基于所述目标动作特征进行音乐匹配，得到目标音乐，所述目标音乐用于在所述第二时段内播放。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的音乐匹配方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的音乐匹配方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的音乐匹配方法。

本申请实施例提供的技术方案至少包括如下有益效果：

本申请实施例中，计算机设备基于第一时段内对目标对象执行动作拍摄得到的视频数据，预测得到该时段之后的第二时段内目标对象的目标动作特征，从而根据该目标动作特征进行音乐匹配，得到第二时段内与目标对象预计执行动作所匹配的目标音乐，即采用该方式可在目标对象执行动作过程中实时预测后续动作的动作特征，并进行音乐的匹配，进而在后续目标对象执行动作时，即可播放该目标音乐，提高音乐匹配的实时性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的实施环境的示意图；

图2示出了本申请另一个示例性实施例提供的实施环境的示意图；

图3示出了本申请一个示例性实施例提供的音乐匹配方法的流程图；

图4示出了本申请另一个示例性实施例提供的音乐匹配方法的流程图；

图5示出了本申请一个示例性实施例提供的第一时段与第二时段的示意图；

图6示出了本申请另一个示例性实施例提供的第一时段与第二时段的示意图；

图7示出了本申请另一个示例性实施例提供的音乐匹配方法的流程图；

图8示出了本申请一个实施例提供的音乐匹配装置的结构框图；

图9示出了本申请一个示例性实施例提供的计算机设备的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1和图2，其示出了本申请示例性实施例提供的实施环境的示意图。该实施环境中可以包括：计算机设备101与服务器102。

计算机设备101是提供有音乐匹配功能的电子设备。计算机设备101可以为智能手机、平板电脑、智能电视、数码播放器、膝上型便携计算机或台式计算机等等。本申请实施例对计算机设备101的具体类型不做限定。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。

计算机设备101和服务器102间能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一种可能的实施方式中，如图1所示，计算机设备101获取第一时段的视频数据后，将视频数据发送至服务器102，其中，视频数据可由计算机设备中摄像组件拍摄得到，也可由摄像设备拍摄得到，本实施例对此不做限定。服务器102接收到视频数据后，根据该视频数据预测第二时段目标对象的目标动作特征，并基于该目标动作特征进行音乐的匹配，从而得到第二时段对应的目标音乐，并将目标音乐发送至计算机设备101，计算机设备101在第二时段内播放目标音乐，其中，播放目标音乐时，可由计算机设备中音频组件进行播放，也可由计算机设备控制播放设备进行播放，本实施例对此不做限定。

在另一种可能的实施方式中，音乐匹配过程可由计算机设备101执行，如图2所示，计算机设备101根据获取的第一时段的视频数据预测得到第二时段内目标对象的目标动作特征，并根据目标动作特征匹配得到第二时段内的目标音乐，在确定目标音乐后，将向服务器102发送目标音乐获取请求，服务器102查询得到目标音乐后，将目标音乐发送至计算机设备101，计算机设备101在第二时段内播放目标音乐。

即音乐匹配方法既可由服务器102执行，也可由计算机设备101执行，本申请实施例对此不做限定。为了便于表述，下述实施例中将以音乐匹配方法由计算机设备执行为例进行说明。

请参考图3，其示出了本申请一个示例性实施例提供的音乐匹配方法的流程图。本实施例以该方法用于图1所示实施环境中的计算机设备为例进行说明，该方法包括如下步骤：

步骤301，获取第一时段内的视频数据，视频数据通过对目标对象执行的动作进行拍摄得到。

本申请实施例中，第一时段为当前时段，视频数据是对目标对象当前所执行动作拍摄得到的视频数据。其中，目标对象执行动作可为表演类动作，如舞蹈类动作、武术类动作以及杂技类动作等等。示意性的，当目标对象舞蹈时，对目标对象实时的舞蹈动作进行拍摄，得到第一时段的视频数据，如得到1s的视频数据。

可选的，第一时段可为固定时段，或者也可根据不同需求进行调整。第一时段内的视频数据可由计算机设备拍摄得到，或者由独立摄像设备拍摄得到，拍摄完成后再传输至计算机设备。

步骤302，基于视频数据预测得到第二时段内目标对象的目标动作特征，目标动作特征用于指示目标对象在第二时段内的动作状态，第二时段是第一时段之后的时段。

在一种可能的实施方式中，第二时段是指第一时段之后的时段，当获取到第一时段的视频数据时，根据第一时段中目标对象所执行动作预测得到第二时段中目标对象的目标动作特征，即根据目标对象当前执行动作预测未来时段目标对象预计执行动作的动作特征，比如，根据当前1s时长内目标对象的动作预测下一秒内目标对象的动作特征。

可选的，目标动作特征用于指示目标对象预计在第二时段内的动作状态，其中，目标动作特征可包括动作类型、动作节奏以及动作强度等，在预测得到目标动作特征后，计算机设备可基于该目标动作特征进行音乐的匹配。

可选的，第二时段的时长可与第一时段的时长相同，或者，也可根据不同需求对第一时段与第二时段的时长进行调整。且第二时段与第一时段间存在较小的时间差或不存在时间差，从而可基于第一时段的视频数据预测得到第二时段内目标对象的目标动作特征。

步骤303，基于目标动作特征进行音乐匹配，得到目标音乐，目标音乐用于在第二时段内播放。

计算机设备根据目标动作特征进行音乐的匹配，得到第二时段的目标音乐。在达到第二时段时，即可进行目标音乐的播放。其中，目标音乐可由计算机设备播放，或者，计算机设备向独立的音乐播放设备发送播放指令，控制音乐播放设备进行播放，播放指令中携带有播放时间以及目标音乐。

即本申请中，采用循环预测的方式，实现在目标对象执行动作过程中音乐的实时匹配。当利用第一时段的视频数据预测得到第二时段内目标对象的目标动作特征，并基于目标动作特征匹配得到目标音乐后，达到第二时段时，计算机设备继续对第二时段内目标对象实际执行的动作进行拍摄，得到视频数据，即重新得到第一时段的视频数据，根据该视频数据进行下一第二时段内目标对象的目标动作特征的预测，进而进行音乐匹配，得到下一第二时段内的目标音乐。

综上所述，本申请实施例中，计算机设备基于第一时段内对目标对象执行动作拍摄得到的视频数据，预测得到该时段之后的第二时段内目标对象的目标动作特征，从而根据该目标动作特征进行音乐匹配，得到第二时段内与目标对象预计执行动作所匹配的目标音乐，即采用该方式可在目标对象执行动作过程中实时预测后续动作的动作特征，并进行音乐的匹配，进而在后续目标对象执行动作时，即可播放该目标音乐，提高音乐匹配的实时性。

在一种可能的实施方式中，在进行第二时段内目标对象的目标动作特征预测时，可首先对第一时段的视频数据进行特征提取，并利用动作预测模型对提取得到的特征进行预测，从而确保预测得到目标动作特征的准确性。下面将以示例性实施例进行说明。

请参考图4，其示出了本申请一个示例性实施例提供的音乐匹配方法的流程图。本实施例以该方法用于图1所示实施环境中的计算机设备为例进行说明，该方法包括如下步骤：

步骤401，获取第一时段内的视频数据，视频数据通过对目标对象执行的动作进行拍摄得到。

本步骤实施例可参考上述步骤201，本实施例不再赘述。

步骤402，对视频数据进行视频帧分解，得到历史视频帧。

在一种可能的实施方式中，计算机设备获取到第一时段内的视频数据后，将首先提取第一时段内的目标对象的历史动作特征，根据该历史动作特征预测得到目标动作特征。可选的，提取历史动作特征时，首先对该视频数据进行视频帧分解，得到历史视频帧，其中，历史视频帧中包含n帧视频帧。在一种可能的实施方式中，可根据视频帧率对视频数据进行分帧，如视频帧率为60Hz时，可将时长为1s的视频数据分解为60帧视频帧。

步骤403，对历史视频帧进行特征提取，得到历史动作特征。

在分解得到历史视频帧后，对其中n帧视频帧进行特征提取，得到历史动作特征，该历史动作特征指第一时段内目标对象所执行动作的动作特征。

步骤404，输入历史动作特征至动作预测模型，得到目标动作特征。

当提取得到历史动作特征后，将基于历史动作特征预测目标动作特征，在一种可能的实施方式中，利用动作预测模型进行特征预测，即输入历史动作特征至动作预测模型，得到目标动作特征。

其中，历史动作特征与目标动作特征相对应。示意性的，当目标动作特征为动作类型时，则提取的历史动作特征可为目标对象执行动作时的躯体的变化趋势，从而使动作预测模型根据躯体的变化趋势预测得到第二时段内目标对象预计执行动作的动作类型。比如，当动作为舞蹈动作时，可根据第一时段内目标对象舞蹈时的躯体的变化趋势确定舞蹈类型，从而得到第二时段内目标对象所跳舞蹈的舞蹈类型。当目标动作特征为动作节奏时，则提取的历史动作特征可为目标对象执行动作时躯体的变化频率，从而使动作预测模型根据躯体的变化趋势预测得到第二时段内目标对象预计执行动作的动作节奏。

可选的，该动作预测模型基于样本历史动作特征与样本目标动作特征对神经网络训练得到，其中，神经网络可为卷积神经网络(Convolutional neural networks，CNN)、循环神经网络(Recurrent neural networks，RNN)以及深度卷积逆向图网络(Deepconvolutional inverse graphics networks,DCIGN)等。

在一种可能的实施方式中，计算机设备可预先获取多段样本视频数据，其中，不同样本视频数据中包含不同的动作片段。在获取样本视频数据后，可将该视频数据进行分段处理，得到各个视频片段，并提取各个视频片段中动作特征。可选的，可将相邻两段视频片段中的动作特征作为样本历史动作特征以及样本目标动作特征，对动作预测模型进行训练。且在视频数据中，样本历史动作特征对应的动作发生在样本目标动作特征对应的动作之前。

示意性的，获取样本视频数据后，可将样本视频数据分为视频片段A，视频片段B以及视频片段C，且视频片段B与视频片段A中动作相接，视频片段C与视频片段B中动作相接。在得到各视频片段后，对视频片段A进行特征提取，得到动作特征A；对视频片段B进行特征提取，得到动作特征B；再对视频片段C进行特征提取，得到动作特征C。进而可将动作特征A作为样本历史动作特征，动作特征B作为样本目标动作特征对动作预测模型进行训练，相应的，可将动作特征B作为样本历史动作特征，动作特征C作为样本目标动作特征对动作预测模型进行训练，得到优化后的动作预测模型。

在另一种可能的实施方式中，还可在动作预测模型进行特征预测过程中，对该模型进行训练，进一步提升动作预测模型预测特征的准确性。可选的，可基于历史动作特征与实际动作特征对动作预测模型进行训练，其中，实际动作特征是第二时段内目标对象实际执行动作的动作特征。在训练过程中，动作预测模型基于历史动作特征进行预测得到目标动作特征，进而根据目标动作特征与实际动作特征间的差异对动作预测模型进行训练，实时提升动作预测模型预测目标动作特征的准确性，从而提高后续目标音乐的匹配性。

步骤405，响应于目标动作特征与历史动作特征的相似度低于预设阈值，基于目标动作特征进行音乐匹配，得到目标音乐。

在进行音乐匹配的过程中，同一目标动作特征所匹配得到的目标音乐可能不同，若对每一时段均进行音乐的匹配，则可能会造成音乐的不断切换，因此，在一种可能的实施方式中，在基于目标动作特征进行目标音乐的匹配前，计算机设备首先获取目标动作特征与历史动作特征的相似度，并根据相似度与预设阈值的大小关系确定是否进行目标音乐的匹配。当目标动作特征与历史动作特征的相似度低于预设阈值时，则表明目标动作特征与历史动作特征差异较大，需基于目标动作特征重新进行音乐的匹配，得到目标音乐。

可选的，预设阈值可根据目标音乐的匹配需求调整。若对目标音乐的流畅性需求较高，则可将降低预设阈值的大小，若对目标音乐与动作匹配性需求较高，则可提高预设阈值的大小。

示意性的，当动作特征为动作节奏时，则可基于节奏等级确定目标动作节奏与历史动作节奏的相似度。可选的，可预设节奏等级为快节奏、较快节奏、中等节奏、较慢节奏、慢节奏。当目标动作节奏与历史动作节奏属于相同的节奏等级时，则确定相似度为100％，而当目标动作节奏与历史动作节奏属于不同等级时，则根据节奏等级之差确定相似度，其中，节奏等级之差与相似度呈负相关关系。如，当目标动作节奏为快节奏，而历史动作节奏为较快节奏时，二者节奏等级相差一级，确定相似度为75％；而当目标动作特征为快节奏，而历史动作节奏为中等节奏时，二者节奏等级相差两级，确定相似度为50％。当预设阈值为80％时，若目标节奏等级与历史节奏等级不属于相同等级，则确定相似度低于阈值，需重新基于目标动作节奏进行目标音乐的匹配。

可选的，当目标动作特征包含多个特征时，若存在任一特征与历史动作特征的相似度低于预设阈值，即需基于目标动作特征进行音乐匹配。比如，当目标动作特征包括目标动作类型以及目标动作节奏时，若目标动作类型或目标动作节奏任一特征与历史动作特征的相似度低于预设阈值，则需重新进行音乐匹配。

步骤406，响应于目标动作特征与历史动作特征的相似度高于预设阈值，将第一时段的目标音乐确定为目标音乐。

而当目标动作特征与历史动作特征的相似度高于预设阈值时，则表明在第二时段内目标对象所执行动作的动作特征与当前第一时段内所述目标对象所执行动作的动作特征类似，第一时段音乐同样适用于第二时段，因此，无需进行音乐匹配，继续使用第一时段的目标音乐，从而避免每次均进行音乐匹配造成目标对象在执行动作过程中的音乐的频繁切换，影响音乐的流畅性。

结合上述示例，当动作特征为动作节奏时，若目标动作节奏与历史动作节奏属于相同节奏等级，确定相似度高于预设阈值，则将第一时段的目标音乐确定为第二时段的目标音乐，无需再进行音乐的匹配。

本实施例中，通过对第一时段内的视频数据进行视频帧分解，并对分解得到的视频帧进行特征提取，得到第一时段内目标对象的历史动作特征，从而根据历史动作特征预测第二时段内目标对象的目标动作特征，确保预测目标动作特征的准确性。且在此过程中，还基于第二时段内目标对象执行动作的动作特征即样本动作特征对动作预测模型进行训练，提升动作预测模型预测特征的准确性，从而确保目标音乐与第二时段内目标对象预计执行动作的匹配性。

且本实施例中，仅在目标动作特征与历史动作特征的相似度低于预设阈值即差异较大时，才基于目标动作特征进行音乐的匹配，避免多次更换音乐，影响音乐的流畅性。

本申请实施例中，通过第一时段内目标对象的历史动作特征预测第二时段内目标对象的目标动作特征。示意性的，如图5所示，在A时段501内，通过对目标对象执行动作进行拍摄得到第一时段的视频数据，计算机设备对该视频数据进行视频帧分解，并对分解得到的n帧视频帧进行特征提取得到历史动作特征，进而将该历史动作特征输入动作预测模型，得到B时段502即第二时段内目标对象的目标动作特征，计算机设备根据该目标动作特征进行音乐匹配，得到B时段502的目标音乐，在B时段502开始时，即可播放该目标音乐，并继续对B时段502内目标对象所执行动作进行拍摄，重新得到第一时段的视频数据，再次进行特征预测以及音乐匹配，从而得到C时段503的目标音乐。

在一种可能的实施方式中，第一时段的时长与第二时段的时长将影响音乐匹配的即时性以及准确性，当用户存在不同匹配需求时，可根据需求对第一时段的时长以及第二时段的时长进行调整，从而达到不同的即时性需求或准确性需求。

可选的，响应于低延迟设置操作，调整第一时段的时长小于第二时段的时长。由于根据第一时段内的视频数据预测得到第二时段内目标对象的目标动作特征，并根据目标动作特征匹配得到第二时段内的目标音乐，当第一时段的时长小于第二时段的时长时，计算机设备所得到的视频帧数据较少，其进行特征预测以及音乐匹配的速度较快，且计算机设备用于音乐匹配的时间较长，延迟较低。示意性的，如图6所示，A时段601作为第一时段基于该时段内的视频数据匹配得到B时段602即第二时段内的目标音乐A，在目标音乐A播放期间，基于C时段603内视频数据进行D时段604内目标音乐B的预测，可见C时段603的时长小于B时段602的时长，计算机设备在目标音乐B的播放时间内有充足时间进行目标音乐C的匹配，延迟较低。

响应于高精度设置操作，调整第一时段的时长大于第二时段的时长。当第一时段的时长大于第二时段的时长时，计算机设备所得到的视频帧数据较多，其提取得到的历史动作特征较多，即获取第一时段内目标对象动作的信息更多，在基于历史动作特征预测得到目标动作特征时，目标动作特征的准确性更高。示意性的，如图6所示，D时段604作为第一时段基于该时段内的视频数据匹配得到E时段605即第二时段内的目标音乐C，D时段604时长大于E时段605，即计算机设备根据较长一段时间内目标对象的动作特征预测未来较短时间内目标对象的目标动作特征，其预测精度更高，音乐匹配性更高。

在一种可能的实施方式中，计算机设备中设置有匹配需求设置界面，在该界面中包含低延迟与高精度对应的选择控件，当计算机设备接收到对低延迟选择控件的触发操作时，确定接收到低延时设置操作，此时，将根据该操作调整第一时段以及第二时段的时长，使第一时段时长小于或等于第二时段时长；当计算机设备接收到对高精度选择控件的触发操作时，确定接收到高精度设置操作，此时，将根据该操作调整第一时段以及第二时段的时长，使第一时段的时长大于第二时段的时长。

本实施例中，计算机设备可对第一时段时长以及第二时段时长进行不同程度调整，从而满足不同音乐匹配需求，提高音乐匹配功能的适用性。

在一种可能的实施方式中，在进行音乐匹配时，根据动作的动作类型以及动作节奏进行音乐的匹配，下面将以示例性实施例进行说明。

请参考图7，其示出了本申请一个示例性实施例提供的音乐匹配方法的流程图。本实施例以该方法用于图1所示实施环境中的计算机设备为例进行说明，该方法包括如下步骤：

步骤701，获取第一时段内的视频数据，视频数据通过对目标对象执行的动作进行拍摄得到。

本步骤中实施方式可参考上述步骤201，本实施例在此不再赘述。

步骤702，基于视频数据预测得到第二时段内目标对象的目标动作特征，目标动作特征用于指示目标对象在第二时段内的动作状态，第二时段是第一时段之后的时段。

在一种可能的实施方式中，基于视频数据预测得到第二时段内的目标对象的目标动作类型以及目标动作节奏，其中，目标动作类型指动作所属类别，以动作为舞蹈动作为例，可分为民族舞、现代舞、芭蕾舞以及街舞等类型；目标动作节奏用于表示动作的快慢程度，其可根据动作的快慢程度分为快节奏、慢节奏等节奏等级。

当获取到第一时段内的视频数据时，计算机设备将对该视频数据进行视频帧分解，得到历史视频帧，并对该历史视频帧进行特征提取，得到第一时段内目标对象的历史动作特征，进而将历史动作特征输入动作预测模型，得到第二时段内目标对象的目标动作类型以及目标动作节奏，其中，动作预测模型即采用样本历史动作特征以及对应的目标动作类型标签与目标动作节奏标签训练得到。

步骤703，基于目标动作类型，从音乐库中筛选得到候选音乐，候选音乐的适用动作类型与目标动作类型匹配。

当匹配目标音乐时，即可基于预测得到的目标动作类型与目标动作节奏进行音乐的匹配，在一种可能的实施方式中，首先基于目标动作类型在音乐库中进行筛选，得到候选音乐。

可选的，可预先为音乐库中各首音乐设置第一音乐标签，用于指示该音乐所适用的动作类型。基于目标动作类型在音乐库中筛选得到候选音乐过程中，计算机设备可根据音乐库中各首音乐的第一音乐标签筛选得到候选音乐。如对于适用民族舞的音乐可设置第一音乐标签为民族舞。其中，音乐的第一音乐标签可根据音乐历史配乐记录设定，如，A音乐作为民族舞配乐次数最多，则设置A音乐的第一音乐标签为民族舞。

且各首音乐的第一音乐标签可设置多种，如B音乐适用于现代舞以及街舞等，则可将B音乐的第一音乐标签设置为现代舞与街舞。

步骤704，基于目标动作节奏，从候选音乐中筛选得到目标音乐，目标音乐的音乐节奏与目标动作节奏匹配。

在筛选得到候选音乐后，可继续基于目标动作节奏，在候选音乐中筛选出目标音乐。可选的，同样可预先为各首音乐设置第二音乐标签，其中，第二音乐标签用于指示各首音乐的音乐节奏。在一种可能的实施方式中，可预先设置不同音乐节奏等级，如快节奏、慢节奏。且音乐节奏等级与动作节奏等级相对应，从而在基于目标动作节奏进行音乐匹配时，可选择音乐节奏与目标动作节奏相同的音乐。

示意性的，当动作预测模型预测得到目标动作节奏为快节奏时，可在候选音乐中筛选第二音乐标签为快节奏的音乐作为目标音乐。

步骤705，对目标音乐进行分段，得到候选音乐片段，候选音乐片段的片段时长大于第二时段的时长。

在匹配得到的目标音乐后，可能存在目标音乐的时长远大于第二时段的时长，当在第二时段内播放目标音乐时，仅播放目标音乐的部分片段，为使播放的音乐片段与目标动作特征更为匹配，在一种可能的实施方式中，首先将目标音乐进行分段，在分段时，需使各段音乐的音乐时长大于第二时段的时长，得到各个候选音乐片段，各个候选音乐片段的时长可为相同时长，也可为不同时长，本实施例对此不做限定。

步骤706，确定各个候选音乐片段的片段节奏与目标动作节奏之间的节奏相似度，将节奏相似度最高的候选音乐片段确定为目标音乐片段，目标音乐片段用于在第二时段内播放。

在得到各个候选音乐片段后，即确定各个候选音乐片段的片段节奏与目标动作节奏之间的节奏相似度，即确定各个候选音乐片段中音乐的快慢程度，并将各个候选音乐片段的快慢程度与目标动作节奏所指示的动作的快慢程度进行对比，从而确定目标音乐片段，其中，目标音乐片段中音乐的快慢程度与目标动作节奏所指示的动作的快慢程度相似度最高。

本实施例中，根据目标动作类型以及目标动作节奏进行音乐的匹配，从而确保目标音乐与第二时段内目标对象预计执行动作的匹配性，且在确定目标音乐后，根据各音乐片段与目标动作节奏的节奏相似度确定目标音乐片段，从而进一步提高音乐与动作的匹配性。

图8是本申请一个示例性实施例提供的音乐匹配装置的结构框图，该装置包括：

获取模块801，用于获取第一时段内的视频数据，所述视频数据通过对目标对象执行的动作进行拍摄得到；

预测模块802，用于基于所述视频数据预测得到第二时段内所述目标对象的目标动作特征，所述目标动作特征用于指示所述目标对象在所述第二时段内的动作状态，所述第二时段是所述第一时段之后的时段；

匹配模块803，用于基于所述目标动作特征进行音乐匹配，得到目标音乐，所述目标音乐用于在所述第二时段内播放。

可选的，所述预测模块802，包括：

分解单元，用于对所述视频数据进行视频帧分解，得到历史视频帧；

提取单元，用于对所述历史视频帧进行特征提取，得到所述历史动作特征；

预测单元，用于输入所述历史动作特征至动作预测模型，得到所述目标动作特征；其中，所述动作预测模型基于样本历史动作特征与样本目标动作特征训练得到。

可选的，所述装置还包括：

训练模块，用于基于所述历史动作特征与样本动作特征对所述动作预测模型进行训练，所述样本动作特征是所述第二时段内所述目标对象执行动作的动作特征。

可选的，所述目标动作特征包括目标动作类型与目标动作节奏；

可选的，所述匹配模块803，包括：

第一筛选单元，用于基于所述目标动作类型，从音乐库中筛选得到候选音乐，所述候选音乐的适用动作类型与所述目标动作类型匹配；

第二筛选单元，用于基于所述目标动作节奏，从所述候选音乐中筛选得到目标音乐，所述目标音乐的音乐节奏与所述目标动作节奏匹配。

可选的，所述装置还包括：

分段模块，用于对所述目标音乐进行分段，得到候选音乐片段，所述候选音乐片段的片段时长大于所述第二时段的时长；

第一确定模块，用于确定各个所述候选音乐片段的片段节奏与所述目标动作节奏之间的节奏相似度，将所述节奏相似度最高的候选音乐片段确定为目标音乐片段，所述目标音乐片段用于在所述第二时段内播放。

可选的，所述匹配模块803，还用于：

响应于所述目标动作特征与所述历史动作特征相似度低于预设阈值，基于所述目标动作特征进行音乐匹配，得到所述目标音乐；

可选的，所述装置还包括：

第二确定模块，用于响应于所述目标动作特征与所述历史动作特征相似度高于预设阈值，将所述第一时段的目标音乐确定为所述目标音乐。

可选的，所述装置还包括：

第一调整模块，用于响应于低延迟设置操作，调整所述第一时段的时长小于所述第二时段的时长；

第二调整模块，用于响应于高精度设置操作，调整所述第一时段的时长大于所述第二时段的时长。

需要说明的是：上述实施例提供的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

请参考图9，其示出了本申请一个示例性实施例提供的计算机设备的结构框图。该计算机设备可用于实施上述实施例中提供的音乐匹配方法，具体来讲：

所述计算机设备900包括中央处理单元(Central Processing Unit，CPU)901、包括随机存取存储器(Random Access Memory，RAM)902和只读存储器(Read-Only Memory，ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述计算机设备900还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读存储介质为计算机设备900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读存储介质(未示出)。

不失一般性，所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read OnlyMemory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory，EEPROM)、闪存或其他固态存储设备，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元901执行，一个或多个程序包含用于实现上述方法实施例的指令，中央处理单元901执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备900还可以通过诸如因特网等网络连接到网络上的远程服务器运行。也即计算机设备900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程服务器系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的音乐匹配方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的音乐匹配方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音乐匹配方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述视频数据预测得到第二时段内所述目标对象的目标动作特征，包括：

对所述视频数据进行视频帧分解，得到历史视频帧；

对所述历史视频帧进行特征提取，得到历史动作特征；

输入所述历史动作特征至动作预测模型，得到所述目标动作特征；其中，所述动作预测模型基于样本历史动作特征与样本目标动作特征训练得到。

3.根据权利要求2所述的方法，其特征在于，所述输入所述历史动作特征至动作预测模型进行特征预测之后，所述方法还包括：

基于所述历史动作特征与实际动作特征对所述动作预测模型进行训练，所述实际动作特征是所述第二时段内所述目标对象实际执行动作的动作特征。

4.根据权利要求1至3任一所述的方法，其特征在于，所述目标动作特征包括目标动作类型与目标动作节奏；

所述基于所述目标动作特征进行音乐匹配，得到目标音乐，包括：

基于所述目标动作类型，从音乐库中筛选得到候选音乐，所述候选音乐的适用动作类型与所述目标动作类型匹配；

基于所述目标动作节奏，从所述候选音乐中筛选得到目标音乐，所述目标音乐的音乐节奏与所述目标动作节奏匹配。

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标动作节奏，从所述候选音乐中筛选得到目标音乐之后，所述方法还包括：

对所述目标音乐进行分段，得到候选音乐片段，所述候选音乐片段的片段时长大于所述第二时段的时长；

确定各个所述候选音乐片段的片段节奏与所述目标动作节奏之间的节奏相似度，将所述节奏相似度最高的候选音乐片段确定为目标音乐片段，所述目标音乐片段用于在所述第二时段内播放。

6.根据权利要求2所述的方法，其特征在于，所述基于所述目标动作特征进行音乐匹配，得到目标音乐，包括：

响应于所述目标动作特征与所述历史动作特征的相似度低于预设阈值，基于所述目标动作特征进行音乐匹配，得到所述目标音乐；

所述方法还包括：

响应于所述目标动作特征与所述历史动作特征的相似度高于所述预设阈值，将所述第一时段的目标音乐确定为所述目标音乐。

7.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

响应于低延迟设置操作，调整所述第一时段的时长小于所述第二时段的时长；

响应于高精度设置操作，调整所述第一时段的时长大于所述第二时段的时长。

8.一种音乐匹配装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的音乐匹配方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的音乐匹配方法。