CN113473177B

CN113473177B - 音乐推荐方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113473177B
Application number: CN202110587281.5A
Authority: CN
Inventors: 卢家辉
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2023-10-31
Anticipated expiration: 2041-05-27
Also published as: CN113473177A

Abstract

本公开提供了一种音乐推荐方法、装置、电子设备及计算机可读存储介质，属于电子设备技术领域。本公开实施例中，可以获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息，并从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐，最后，根据备选音乐，确定与待编辑视频相适配的至少一条背景音乐，并向用户推荐至少一条背景音乐。这样，通过选择与字幕时间信息相匹配的备选音乐，基于该备选音乐获取背景音乐，可以使得该背景音乐能够与为待编辑视频添加的目标字幕更加适配，进而一定程度上可以确保为待编辑视频添加该背景音乐之后的视频编辑效果。

Description

音乐推荐方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及电子设备技术领域，尤其涉及一种音乐推荐方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，视频剪辑也越来越方便。为了丰富视频内容，用户经常会为视频添加字幕以及背景音乐。

现有技术中，在为待编辑视频选择背景音乐时，往往是用户凭借个人喜好，为待编辑视频选择背景音乐。以这种方式选择的背景音乐，添加至待编辑视频之后，有时会导致视频编辑效果较差。

发明内容

为克服相关技术中存在的问题，本公开提供一种音乐推荐方法、装置、电子设备及计算机可读存储介质，以至少解决相关技术中用户凭借个人喜好选择的背景音乐，添加至待编辑视频之后，有时会导致视频编辑效果较差的问题。

依据本公开的第一方面，提供了一种音乐推荐方法，该方法包括：

获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息；

从音乐库中选择与所述字幕时间信息字幕时间信息相匹配的至少一条音乐，以作为备选音乐；

根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐，并向所述用户推荐所述至少一条背景音乐。

可选的，所述字幕时间信息包括各个所述目标字幕的起始时间点之间的第一时间间隔；所述从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐，包括：

获取所述音乐库中的预设音乐中各个节拍点之间的第二时间间隔；

在所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配的情况下，将所述预设音乐确定为所述备选音乐。

可选的，所述第一时间间隔是相邻的目标字幕的起始时间点之间的时间间隔；

所述方法还包括：

对于任一所述预设音乐，计算连续的M-1个第二时间间隔与M-1个所述第一时间间隔中各个时间间隔之间的差值，得到M-1个差值；所述M为所述目标字幕的数量；

若所述M-1个差值小于预设阈值，则确定所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配。

可选的，所述获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息，包括：

获取每个所述目标字幕的起始文本在所述待编辑视频中对应的时间点，以作为所述目标字幕对应的起始时间点；

根据每个所述目标字幕对应的起始时间点，确定各个所述目标字幕之间的第一时间间隔，以作为所述字幕时间信息。

可选的，所述获取每个所述目标字幕的起始文本在所述待编辑视频中对应的时间点，以作为所述目标字幕对应的起始时间点之前，还包括：

检测所述目标字幕的数量是否小于预设数量N；

若所述数量不小于所述预设数量N时，则执行所述获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息的操作；

若所述数量小于所述预设数量N时，则继续接收所述用户在所述待编辑视频中输入所述目标字幕，直至所述目标字幕的数量大于所述预设数量N。

可选的，所述在所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配的情况下，将所述预设音乐确定为所述备选音乐之前，所述方法还包括：

检测各个所述第一时间间隔是否相同；

若各个所述第一时间间隔相同，则执行所述在所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配的情况下，将所述预设音乐确定为所述备选音乐的操作；

若各个所述第一时间间隔不相同，则继续接收所述用户在所述待编辑视频中输入所述目标字幕，直至出现各个所述第一时间间隔相同。

可选的，所述根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐，包括：

对于任一所述备选音乐，检测所述备选音乐中是否包含第一片段；所述第一片段是与所述字幕时间信息不相匹配的片段；

若所述备选音乐中包含所述第一片段，则提取所述备选音乐中除所述第一片段之外的第二片段，以作为所述背景音乐；

若所述备选音乐中不包含所述第一片段，则直接将所述备选音乐作为所述背景音乐。

可选的，所述向所述用户推荐所述背景音乐，包括：

在所述背景音乐的数量大于1的情况下，按照对应的所述差值由小至大的顺序，对于所述背景音乐的进行排列；

向所述用户输出排列后的所述背景音乐；

所述方法还包括：

接收所述用户针对所述背景音乐的选择输入；

响应于所述选择输入，为所述待编辑视频添加所述选择输入指示的背景音乐。

可选的，所述目标字幕为单字、词语、短语或句子。

依据本公开的第二方面，提供了一种音乐推荐装置，该装置包括：

第一获取模块，被配置为获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息字幕时间信息；

第二获取模块，被配置为从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐字幕时间信息；

推荐模块，被配置为根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐，并向所述用户推荐所述至少一条背景音乐。

可选的，所述字幕时间信息包括各个所述目标字幕的起始时间点之间的第一时间间隔；所述第二获取模块，被具体配置为：

所述装置还包括：

计算模块，被配置为对于任一所述预设音乐，计算连续的M-1个第二时间间隔与M-1个所述第一时间间隔中各个时间间隔之间的差值，得到M-1个差值；所述M为所述目标字幕的数量；

确定模块，被配置为若所述M-1个差值小于预设阈值，则确定所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配。

可选的，所述第一获取模块，被具体配置为：

可选的，所述装置还包括：

第一检测模块，被配置为检测所述目标字幕的数量是否小于预设数量N；

第一执行模块，被配置为若所述数量不小于所述预设数量N时，则执行所述获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息的操作；若所述数量小于所述预设数量N时，则继续接收所述用户在所述待编辑视频中输入所述目标字幕，直至所述目标字幕的数量大于所述预设数量N。

可选的，所述装置还包括：

第二检测模块，被配置为检测各个所述第一时间间隔是否相同；

第二执行模块，被配置为若各个所述第一时间间隔相同，则执行所述在所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配的情况下，将所述预设音乐确定为所述备选音乐的操作；若各个所述第一时间间隔不相同，则继续接收所述用户在所述待编辑视频中输入所述目标字幕，直至出现各个所述第一时间间隔相同。

可选的，所述推荐模块，被具体配置为：

向所述用户输出排列后的所述背景音乐；

所述装置还包括：

接收模块，被配置为接收所述用户针对所述背景音乐的选择输入；

添加模块，被配置为响应于所述选择输入，为所述待编辑视频添加所述选择输入指示的背景音乐。

可选的，所述目标字幕为单字、词语、短语或句子。

依据本公开的第三方面，提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面中任一项所述的音乐推荐方法。

依据本公开的第四方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够如第一方面中任一项所述的音乐推荐方法。

依据本公开的第五方面，提供了一种计算机程序产品，该计算机程序产品包括可读性程序指令，该可读性程序指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一个实施例中的音乐推荐方法中的步骤。

本公开相比于相关技术，具有如下的优点和积极效果：

本公开实施例提供的音乐推荐方法，可以获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息，并从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐，最后，根据备选音乐，确定与待编辑视频相适配的至少一条背景音乐，并向用户推荐至少一条背景音乐。这样，通过选择与字幕时间信息相匹配的备选音乐，基于该备选音乐获取背景音乐，可以使得该背景音乐能够与为待编辑视频添加的目标字幕更加适配，进而一定程度上可以确保为待编辑视频添加该背景音乐之后的视频编辑效果。

同时，本公开实施例中通过自动为用户推荐合适的背景音乐，使得用户无需再进行人工选择背景的操作以及调整字幕和背景音乐同步的操作，进而可以节省人工成本，提高视频编辑的效率。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本公开实施例提供的一种音乐推荐方法的步骤流程图；

图2是本公开实施例提供的一种音乐推荐的流程图；

图3是本公开实施例提供的一种音乐推荐装置的框图；

图4是根据一示例性实施例示出的一种用于音乐推荐的装置的框图；

图5是根据一示例性实施例示出的一种用于音乐推荐的装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是本公开实施例提供的一种音乐推荐方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息。

本公开实施例中，待编辑视频可以是需要添加字幕内容与背景音乐的视频，例如，可以是短视频编辑软件中通过添加字幕与背景音乐生成的短视频，也可以是利用视频剪辑软件在原有视频中通过添加字幕和背景音乐合成的新视频。目标字幕可以是针对待编辑视频输入的字幕，具体的，可以是将针对待编辑视频输入的文本内容作为该待编辑视频的目标字幕，其中，目标字幕可以是一个字，也可以是多个字，对此本公开并不作限制。字幕时间信息可以是目标字幕对应的文本内容、输入时间、输入位置等信息。

本公开实施例中，获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息，可以是在视频编辑软件中读取针对待编辑视频输入每个目标字幕的输入时间，再根据至少三条目标字幕的输入时间之间的间隔时间，确定字幕时间信息。

步骤102、从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐。

本公开实施例中，字幕时间信息可以是字幕输入时间之间的间隔时间，可以根据目标字幕之间的间隔时间来形成节奏，并从音乐库中选择与该节奏相匹配的至少一条音乐，将该音乐作为备选音乐。其中，目标字幕之间形成的节奏可以是将输入目标字幕形成的时间间隔作为目标字幕的节奏，例如，输入4个目标字幕的时间间隔分别是0.1s、0.2s、0.1s、0.2s，则形成的节奏可以是1212；也可以是将目标字幕通过分词得到词组字数形成的节拍作为目标字幕的节奏，比如，“从全世界路过”，通过分词可以得到“从/全/世界/路过”，则形成的节奏可以是1122。

需要说明的是，音乐库中存储的音乐可以是网络上存储的在线音乐，也可以是预先存储在本地的音乐。本步骤中需要获取该音乐的节奏来确定是否与目标字幕之间形成的节奏相匹配，该音乐的节奏可以是通过节拍检测得到的，具体的，第一步可以是对音乐的音频频谱进行数据预处理，比如，可以是先对音频频谱进行差值处理，再进行傅里叶变换将音频频谱的时域信号转换成频域信号，最后，对音频频谱进行差分处理。第二步可以是对预处理后的音频进行数据量化，例如，可以采用移动均线等方法进行量化，通过对音频的采样率进行量化处理，比如，原音频的采样率为44100，设置窗口大小为1024，可以得到1s包含的窗口数为：44100/1024＝43，而一个窗口所代表的时间为：1000/(44100/1024)＝23.21ms，则以0.5s为区间计算均值，需要的窗口数约为22个，可以取前10个窗口与后10个窗口计算均值，得到该1s中量化后的频谱，即可将量化后的频谱作为该音频的节奏。

步骤103、根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐，并向所述用户推荐所述至少一条背景音乐。

本公开实施例中，根据备选音乐，确定与待编辑视频相适配的至少一条背景音乐，可以是直接将备选音乐对应的原音频作为与待编辑视频相适配的背景音乐，也可以是将备选音乐中节奏相匹配的片段作为与待编辑视频相适配的背景音乐。向用户推荐至少一条背景音乐，可以是将至少一条背景音乐以预设显示方式在桌面上显示，以便用户对背景音乐进行试听和选择。其中，预设显示方式可以是以对话框的形式显示、本公开对此不做限制。

综上所述，本公开实施例提供的音乐推荐音乐推荐方法，可以获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息，并从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐，最后，根据备选音乐，确定与待编辑视频相适配的至少一条背景音乐，并向用户推荐至少一条背景音乐。这样，通过选择与字幕时间信息相匹配的备选音乐，基于该备选音乐获取背景音乐，可以使得该背景音乐能够与为待编辑视频添加的目标字幕更加适配，进而一定程度上可以确保为待编辑视频添加该背景音乐之后的视频编辑效果。

可选的，本公开实施例中目标字幕可以是单字、词语、短语或句子。例如，用户输入的是“我已经从你的全世界路过，像一颗流星划过命运的天空。”，则可以将“我”作为目标字幕，也可以将“已经”作为目标字幕，还可以将“从你的全世界路过”作为目标字幕，又可以将“我已经从你的全世界路过，像一颗流星划过命运的天空。”作为目标字幕。

可选的，本公开实施例中字幕时间信息可以包括各个目标字幕的起始时间点之间的第一时间间隔，具体的，可以是根据各个目标字幕输入的起始时间，将每两个起始时间之间的时间差值作为第一时间间隔，其中，第一时间间隔可以是相邻目标字幕之间的时间差值，也可以是不相邻的目标字幕之间的时间差值。相应地，上述从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐的操作，可以具体包括：

步骤1021、获取所述音乐库中的预设音乐中各个节拍点之间的第二时间间隔。

本步骤中，获取预设音乐中各个节拍点可以是通过节拍检测得到预设音乐的节拍点，也可以是将预设音乐中的重音作为该预设音乐的节拍点，比如，可以是将预设音乐中鼓敲击的节拍作为该预设音乐的节拍。第二时间间隔可以是相邻节拍点之间的间隔差值，例如，预设音乐有5个节拍点，分别为0.3s、0.5s、0.7s、0.9s、1.1s，可以得到该预设音乐的第二时间间隔为0.2s、0.2s、0.2s、0.2s。通过将预设音乐节拍点之间的时间间隔作为该预设音乐的节奏，可以节省确定预设音乐节奏的时间，从而一定程度上可以提高处理效率。

步骤1022、在所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配的情况下，将所述预设音乐确定为所述备选音乐。

本步骤中，第二时间间隔与第一时间间隔相匹配，可以是第二时间间隔与第一时间间隔的间隔值相同，也可以是第二时间间隔与第一时间间隔的间隔值等比例相同，例如，第一时间间隔为2s、2s、4s、2s，若第二时间间隔为2s、2s、4s、2s，由于两者间隔值相同，则可以认为第二时间间隔与第一时间间隔相匹配，若第二时间间隔为1s、1s、2s、1s，由于两者间隔值等比例相同，则也可以认为第二时间间隔与第一时间间隔相匹配。将间隔值相匹配的预设音乐作为备选音乐，一定程度上可以确保字幕播放节奏与音乐播放节奏实现同步，从而可以提高视频播放的观赏效果。

本公开实施例中，通过获取预设音乐的第二时间间隔，并选取第二时间间隔与第一时间间隔相匹配的预设音乐作为备选音乐，可以使得备选音乐的节奏与目标字幕的输入节奏同步，从而可以使得显示字幕的节奏与音乐播放的节奏实现同步，提高了视频播放的观赏效果。

可选的，本公开实施例中第一时间间隔可以是相邻的目标字幕的起始时间点之间的时间间隔，相应地，本公开实施例还可以执行以下步骤：

步骤S21、对于任一所述预设音乐，计算连续的M-1个第二时间间隔与M-1个所述第一时间间隔中各个时间间隔之间的差值，得到M-1个差值；所述M为所述目标字幕的数量。

本步骤中，可以根据用户输入目标字幕的数量M，假设M为3时，确定目标字幕中2个第一时间间隔以及预设音乐中2个第二时间间隔，并计算连续的2个第二时间间隔与2个第一时间间隔中各个时间间隔之间的差值，从而得到2个差值。

步骤S22、若所述M-1个差值小于预设阈值，则确定所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配。

本步骤中，当M-1个差值均小于预设阈值时，则可以确定预设音乐对应的第二时间间隔与第一时间间隔相匹配，其中，预设阈值可以是预先设置的，比如，预设阈值可以是0.01s。

本公开实施例中，通过确定第二时间间隔与第一时间间隔中各个时间间隔之间的差值是否满足阈值，来确定预设音乐对应的第二时间间隔与目标字幕的第一时间间隔是否相匹配，从而可以确定预设音乐与目标字幕的节奏是否匹配，进一步可以一定程度上实现同步显示字幕与播放音乐的效果。

可选的，在本公开的一种实现方式中，上述获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息的操作，可以具体包括以下步骤：

步骤1011、获取每个所述目标字幕的起始文本在所述待编辑视频中对应的时间点，以作为所述目标字幕对应的起始时间点。

本步骤中，可以是将用户针对待编辑视频输入起始文本时，在待编辑视频中对应的时间点作为目标字幕的起始时间点。例如，用户在待编辑视频播放到46秒36时输入目标字幕的起始文本，则可以将46秒36作为目标字幕的起始时间点。

步骤1012、根据每个所述目标字幕对应的起始时间点，确定各个所述目标字幕之间的第一时间间隔，以作为所述字幕时间信息。

本步骤中，可以是将相邻的目标字幕对应的起始时间点之间的间隔值，作为该目标字幕的第一时间间隔，并对每个目标字幕依次获取间隔值，可以得到各个目标字幕之间的第一时间间隔，将第一时间间隔作为目标字幕对应的字幕时间信息。

本公开实施例中，将用户输入目标字幕的时间作为起始时间点，并根据每个目标字幕的起始时间点可以得到第一时间间隔，可以通过第一时间间隔确定目标字幕的节奏，以便于之后确定节奏与目标字幕的节奏相匹配的音乐，从而可以提高视频处理的效率。

可选的，本公开实施例在获取每个所述目标字幕的起始文本在所述待编辑视频中对应的时间点，以作为所述目标字幕对应的起始时间点之前，还可以执行以下步骤：

步骤S23、检测所述目标字幕的数量是否小于预设数量N。

由于当目标字幕的数量过小时，比如，目标字幕的数量只有两个，两个目标字幕之间只可以得到一个第一时间间隔，而一个第一时间间隔无法形成节奏，因此，也无法得到节奏与第一时间间隔相匹配的音乐。本步骤中，通过检测目标字幕的数量，可以避免出现由于数量较小而无法确定目标字幕形成的节奏的问题，以保证视频处理的有效性。

步骤S24、若所述数量不小于所述预设数量N时，则执行所述获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息的操作；若所述数量小于所述预设数量N时，则继续接收所述用户在所述待编辑视频中输入所述目标字幕，直至所述目标字幕的数量大于所述预设数量N。

本步骤中，当目标字幕的数量大于或者等于预设数量N时，可以执行获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息的操作，当目标字幕的数量小于预设数量N时，可以继续接收用户针对待编辑视频输入的目标字幕，直到目标字幕的数量大于或者等于预设数量N，其中，预设数量可以是预先确定的，比如，预设数量可以是3，对此本公开不作限制。在数量不小于预设数量时才执行获取目标字幕对应的起始时间点的操作，可以一定程度上确保后续操作的有效性，从而可以提高视频处理的效率。

本公开实施例中，通过检测目标字幕的数量是否小于预设数量，可以避免出现由于数量较小而无法确定目标字幕形成的节奏的问题，从而可以一定程度上确保后续操作的有效性，进而提高视频处理的效率。

可选的，在本公开的一种实现方式中，在预设音乐对应的第二时间间隔与第一时间间隔相匹配的情况下，将预设音乐确定为备选音乐之前，还可以执行以下步骤：

步骤S25、检测各个所述第一时间间隔是否相同。

由于音乐的节奏是有规律的，往往是前几个节拍的时间间隔是相同的，比如，节奏为112112，或者，1122，因此，当目标字幕对应的第一时间间隔不相同时，形成的节拍是杂乱无序的，而无法形成节奏，往往也不存在节奏与第一时间间隔相匹配的音乐。本步骤中，通过检测第一时间间隔是否相同，来避免出现第一时间间隔无法形成节奏的问题，从而可以确保后续操作的有效性。

步骤S26、若各个所述第一时间间隔相同，则执行所述在所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配的情况下，将所述预设音乐确定为所述备选音乐的操作；若各个所述第一时间间隔不相同，则继续接收所述用户在所述待编辑视频中输入所述目标字幕，直至出现各个所述第一时间间隔相同。

本步骤中，当各个第一时间间隔相同时，比如，可以是前x个第一时间间隔相同时，其中，x可以是2，则可以认为各个第一时间间隔之间存在节奏，可以执行在预设音乐对应的第二时间间隔与第一时间间隔相匹配的情况下，将预设音乐确定为备选音乐的操作。当各个第一时间间隔不相同时，可以继续接收输入的目标字幕，直至出现前x个第一时间间隔相同的情况。这样，可以确保目标字幕对应的第一时间间隔可以形成节奏，从而可以查找到节奏相匹配的音乐，提高视频处理的效率。

本公开实施例中，通过检测第一时间间隔是否相同可以避免出现第一时间间隔无法形成节奏，进而无法找到节奏相匹配的音乐的问题，从而可以保证后续操作的有效性，提高视频处理的效率。

可选的，在本公开的一种实现方式中，上述根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐的操作，可以具体包括以下步骤：

步骤1031、对于任一所述备选音乐，检测所述备选音乐中是否包含第一片段；所述第一片段是与所述字幕时间信息不相匹配的片段。

本步骤中，检测备选音乐中是否包含第一片段，可以是检测备选音乐中是否包含与字幕时间信息不相匹配的片段，可以是检测是否包含与目标字幕之间形成的节奏不相匹配的片段，通过检测备选音乐可以避免用户直接使用备选音乐而出现与目标字幕的节奏不匹配的片段，从而可以是提高视频处理的效率。

步骤1032、若所述备选音乐中包含所述第一片段，则提取所述备选音乐中除所述第一片段之外的第二片段，以作为所述背景音乐；若所述备选音乐中不包含所述第一片段，则直接将所述备选音乐作为所述背景音乐。

本步骤中，第二片段可以是备选音乐中节奏与目标字幕之间形成的节奏相匹配的片段。提取备选音乐中的第二片段，可以是将第二片段从备选音乐中截取出来得到的，也可以是将第二片段的音频从备选音乐中复制出来得到的。将节奏相匹配的片段作为目标字幕对应的背景音乐，可以进一步确保背景音乐的节奏与目标字幕的节奏相匹配，从而可以提高视频处理的效率。

本公开实施例中，通过判断备选音乐中是否包含节奏不匹配的片段，并将备选音乐中节奏相匹配的片段作为目标字幕对应的背景音乐，可以一定程度上确保实现按照音乐节奏同步显示字幕的效果，从而可以提高视频处理的效率。

可选的，在本公开的一种实现方式中，上述向用户推荐背景音乐的操作，可以具体包括以下步骤：

步骤1033、在所述背景音乐的数量大于1的情况下，按照对应的所述差值由小至大的顺序，对于所述背景音乐的进行排列。

本步骤中，将第二时间间隔与第一时间间隔的差值越小的在前排显示，而差值越大的在后排显示，可以确保用户优先接收到节奏与目标字幕对应的节奏最相近的音乐，从而可以提高用户选取背景音乐的匹配程度。

步骤1034、向所述用户输出排列后的所述背景音乐。

本步骤中，可以是按照预设对话框形式依次显示排列后的背景音乐，以确保用户可以更便捷的选取到节奏与目标字幕对应的节奏最相近的音乐，提高了选取音乐的效率。

进一步地，本公开实施例中还可以进一步执行下述操作步骤：

步骤S31、接收所述用户针对所述背景音乐的选择输入。

本步骤中，选择输入可以是对显示背景音乐的对话框执行的操作，该选择输入可以是单击、双击、重按、长按等输入。用户可以在需要选择该背景音乐时，执行该选择输入，相应地，终端设备可以接收该选择输入。

步骤S32、响应于所述选择输入，为所述待编辑视频添加所述选择输入指示的背景音乐。

本步骤中，可以是将选择输入指示的背景音乐导入到待编辑视频中，以便可以在待编辑视频播放该背景音乐。通过选择输入可以方便用户选取符合自己需求的背景音乐添加到待编辑视频中，从而可以提高视频处理效率。

本公开实施例中，按照差值由小至大依次显示背景音乐，可以确保用户优先接收到节奏与目标字幕对应的节奏最相近的背景音乐，从而可以提高用户选取背景音乐的匹配程度，进一步地，通过接收用户的选择输入，将选择输入指示的背景音乐添加到待编辑视频中，可以方便用户选取符合自己需求的背景音乐添加到待编辑视频中，从而可以提高视频处理效率。

图2是本公开实施例提供的一种音乐推荐的流程图，如图2所示，第01步，对曲库当中所有的预设音乐进行频谱分析，将音乐节拍的时间点记录在曲库当中；第02步，用户在视频剪辑软件中针对待编辑视频创建和输入字幕；第03步，当用户使用视频剪辑软件创建和输入字幕的时候，可以检测用户创建的字幕是否有节拍；第04步，若用户创建的字幕没有节拍时，则可以继续等待用户创建字幕，返回到第二步；第05步，若用户创建的字幕有节拍时，则利用字幕的节拍去检测与之节拍相同的预设音乐；第06步，将节拍相同的预设音乐段落剪辑好，推荐给用户试听和使用。

进一步地，第三步至第六步可以具体包括如下内容：1)检测字幕创建和输入字幕的数量是否大于等于3个，当用户输入的字幕数量小于3个的时候，则继续等待用户创建和输入字幕；2)当用户创建和输入的字幕数量大于或等于3个的时候，检测用户最近输入的3个字幕的间隔时长是否相同，如果该3个字幕的间隔时长相等，则执行3)，如果不相等，则继续等待用户输入和创建字幕；3)检测用户最近输入的3个字幕的起始点间隔是否相同，例如字幕1，字幕2，字幕3的起始时间分别为t1，t2，t3，即起始点间隔为t2–t1＝t3–t2,如果满足该条件，则告诉认为这三个字幕是有节奏的，从而执行4)；4)利用3)计算得到的起始点间隔，作为节拍差值，在曲库中查找是否有音乐的节拍差值跟该字幕的节拍差值相近，即，节拍差值的误差范围在10ms以内，则认为该音乐在该段时间内的节拍跟字幕的节拍相近，从而可以将该段时间内的音乐剪辑出来；5)如果有多个音乐的节拍差值跟当前字幕的节拍差值相近，则可以按照节拍差值从小到大排列，取前3个音乐显示；6)将剪辑好的背景音乐以对话框的形式推荐给用户，让用户试听和选择使用。

图3是根据一示例性实施例示出的一种音乐推荐装置的框图，如图2所示，该装置30可以包括：

第一获取模块301，被配置为获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息；

第二获取模块302，被配置为从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐；

推荐模块303，被配置为根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐，并向所述用户推荐所述至少一条背景音乐。

本公开实施例提供的音乐推荐装置，可以获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息，并从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐，最后，根据备选音乐，确定与待编辑视频相适配的至少一条背景音乐，并向用户推荐至少一条背景音乐。这样，通过选择与字幕时间信息相匹配的备选音乐，基于该备选音乐获取背景音乐，可以使得该背景音乐能够与为待编辑视频添加的目标字幕更加适配，进而一定程度上可以确保为待编辑视频添加该背景音乐之后的视频编辑效果。

可选的，所述字幕时间信息包括各个所述目标字幕的起始时间点之间的第一时间间隔；所述第二获取模块302，被具体配置为：

所述装置30还包括：

可选的，所述第一获取模块301，被具体配置为：

可选的，所述装置30还包括：

可选的，所述推荐模块303，被具体配置为：

向所述用户输出排列后的所述背景音乐；

所述装置30还包括：

可选的，所述装置30还包括：所述目标字幕为单字、词语、短语或句子。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本公开的一个实施例，提供了一种电子设备，包括：处理器、用于存储处理器可执行指令的存储器，其中，处理器被配置为执行时实现如上述任一个实施例中的音乐推荐方法中的步骤。

根据本公开的一个实施例，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一个实施例中的音乐推荐方法中的步骤。

根据本公开的一个实施例，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码由电子设备的处理器执行时，使得电子设备能够执行如上述任一个实施例中的音乐推荐方法中的步骤。

图4是根据一示例性实施例示出的一种用于音乐推荐的装置的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的音乐推荐方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述音乐推荐方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述音乐推荐方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是根据一示例性实施例示出的一种用于音乐推荐的装置的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述音乐推荐方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音乐推荐方法，其特征在于，包括：

获取每个目标字幕的起始文本在待编辑视频中对应的时间点，以作为所述目标字幕对应的起始时间点；其中，所述待编辑视频中对应的时间点为用户输入所述目标字幕的起始文本时所述待编辑视频播放到的时间点；

根据每个所述目标字幕对应的起始时间点，确定各个所述目标字幕之间的第一时间间隔，以作为字幕时间信息；

从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐；

根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐，并向所述用户推荐所述至少一条背景音乐；

其中，所述从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐，包括：

将目标字幕通过分词得到词组字数形成的节拍作为目标字幕的节奏；

将与所述目标字幕的节奏相匹配的音乐作为所述备选音乐。

2.根据权利要求1所述的方法，其特征在于，所述字幕时间信息包括各个所述目标字幕的起始时间点之间的第一时间间隔；所述从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一时间间隔是相邻的目标字幕的起始时间点之间的时间间隔；

所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述获取每个所述目标字幕的起始文本在所述待编辑视频中对应的时间点，以作为所述目标字幕对应的起始时间点之前，还包括：

检测所述目标字幕的数量是否小于预设数量N；

若所述数量不小于所述预设数量N时，则执行所述获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息的操作；；

5.根据权利要求2所述的方法，其特征在于，所述在所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配的情况下，将所述预设音乐确定为所述备选音乐之前，所述方法还包括：

检测各个所述第一时间间隔是否相同；

6.根据权利要求1所述的方法，其特征在于，所述根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐，包括：：

7.根据权利要求3所述的方法，其特征在于，所述向所述用户推荐所述背景音乐，包括：

向所述用户输出排列后的所述背景音乐；

所述方法还包括：

接收所述用户针对所述背景音乐的选择输入；

8.根据权利要求1至7任一所述的方法，其特征在于，所述目标字幕为单字、词语、短语或句子。

9.一种音乐推荐装置，其特征在于，包括：

第一获取模块，被配置为获取用户针对待编辑视频输入的至少三条目标字幕之间的字幕时间信息；获取每个目标字幕的起始文本在待编辑视频中对应的时间点，以作为所述目标字幕对应的起始时间点；其中，所述待编辑视频中对应的时间点为用户输入所述目标字幕的起始文本时所述待编辑视频播放到的时间点；根据每个所述目标字幕对应的起始时间点，确定各个所述目标字幕之间的第一时间间隔，以作为字幕时间信息；

第二获取模块，被配置为从音乐库中选择与所述字幕时间信息相匹配的至少一条音乐，以作为备选音乐；

推荐模块，被配置为根据所述备选音乐，确定与所述待编辑视频相适配的至少一条背景音乐，并向所述用户推荐所述至少一条背景音乐；

所述第二获取模块还用于将目标字幕通过分词得到词组字数形成的节拍作为目标字幕的节奏；将与所述目标字幕的节奏相匹配的音乐作为所述备选音乐。

10.根据权利要求9所述的装置，其特征在于，所述字幕时间信息包括各个所述目标字幕的起始时间点之间的第一时间间隔；所述第二获取模块，被具体配置为：

11.根据权利要求10所述的装置，其特征在于，所述第一时间间隔是相邻的目标字幕的起始时间点之间的时间间隔；

所述装置还包括：

确定模块，被配置为若所述M-1个差值小于预设阈值，，则确定所述预设音乐对应的第二时间间隔与所述第一时间间隔相匹配。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求9所述的装置，其特征在于，所述推荐模块，被具体配置为：

15.根据权利要求11所述的装置，其特征在于，所述推荐模块，被具体配置为：

向所述用户输出排列后的所述背景音乐；

所述装置还包括：

16.根据权利要求9至15任一所述的装置，其特征在于，所述目标字幕为单字、词语、短语或句子。

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的音乐推荐方法。

18.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至8中任一项所述的音乐推荐方法。