CN113747233B

CN113747233B - 一种音乐替换方法、装置、电子设备及存储介质

Info

Publication number: CN113747233B
Application number: CN202110975308.8A
Authority: CN
Inventors: 张冉; 陈珺闽; 王晓瑞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2023-03-24
Anticipated expiration: 2041-08-24
Also published as: CN113747233A

Abstract

本公开关于一种音乐替换方法、装置、电子设备及存储介质，涉及音频处理技术领域，可以提高音乐替换的效率。该方法包括：获取待处理视频中的音乐片段；在音乐片段不属于预设音乐库的情况下，将音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到音乐片段的风格；从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐；采用目标音乐，对待处理视频中的音乐片段进行替换，得到包括目标音乐的视频。

Description

一种音乐替换方法、装置、电子设备及存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种音乐替换方法、装置、电子设备及存储介质。

背景技术

目前，用户可以在一些多媒体信息(如，视频、短视频)的展示平台上发布自己制作的视频。其中，用户在制作视频的时候，会在视频中配上音乐，以提升该视频的播放效果。然而，用户在一些视频中使用的音乐可能没有获得该音乐所属者的使用许可，则需要将这些视频中的音乐替换掉。

对此，相关方案针对每一个需要替换音乐的视频，采用人工的方式，从可使用的音乐库中选择与该视频中的音乐风格相似的音乐，用于对该视频中的音乐进行替换。这种人工替换的方式，效率低，耗时长。

发明内容

本公开实施例提供一种音乐替换方法、装置、电子设备及存储介质，可以提高音乐替换的效率。

为实现上述技术目的，本公开实施例采用如下技术方案：

第一方面，本公开实施例提供了一种音乐替换方法，该方法包括：先获取待处理视频中的音乐片段；然后，在音乐片段不属于预设音乐库的情况下，将音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到音乐片段的风格；再从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐；最后，采用目标音乐，对待处理视频中的音乐片段进行替换，得到包括目标音乐的视频。

在一种可能的实施方式中，上述将音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到音乐片段的风格，包括：将音乐片段输入到音乐风格识别模型，进行音乐风格的识别，得到音乐风格识别模型中第N个隐藏层输出的目标特征。目标特征用于表征音乐片段的风格，音乐风格识别模型包括M个隐藏层；其中，1＜N≤M，N、M为整数。

另一种可能的实施方式中，上述从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐，包括：确定至少一个热点音乐，热点音乐为预设音乐库中关注度大于第一关注度阈值的音乐；确定每一热点音乐的特征，特征用于表征每一热点音乐的风格；确定每一热点音乐的特征与目标特征之间的相似度；从相似度大于第一相似度阈值的热点音乐中确定目标音乐。

另一种可能的实施方式中，上述从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐，包括：确定预设音乐库中每一音乐的特征；特征用于表征每一音乐的风格；确定每一音乐的特征与目标特征之间的相似度；从相似度大于第二相似度阈值的音乐中，确定目标音乐。

另一种可能的实施方式中，上述从相似度大于第二相似度阈值的音乐中，确定目标音乐，包括：从相似度大于第二相似度阈值的音乐中，确定关注度大于第二关注度阈值的音乐；从关注度大于第二关注度阈值的音乐中确定目标音乐。

另一种可能的实施方式中，上述关注度用于表征播放次数、点赞次数和收藏次数中的至少一项。

另一种可能的实施方式中，上述采用目标音乐，对待处理视频中的音乐片段进行替换，得到包括目标音乐的视频，包括：确定目标音乐中副歌的开始时刻；获取目标音乐中位于开始时刻之后的片段，作为副歌片段；采用副歌片段，对待处理视频中的音乐片段进行替换，得到包括副歌片段的视频。

另一种可能的实施方式中，在上述将音乐片段输入到音乐风格识别模型，进行音乐风格的识别，得到音乐风格识别模型中第N个隐藏层输出的目标特征之前，该方法还包括：获取标记有音乐风格的至少一个音乐样本；利用至少一个音乐样本，对预设神经网络模型进行训练，得到音乐风格识别模型。

另一种可能的实施方式中，上述获取待处理视频中的音乐片段，包括：提取待处理视频中的音频；将音频输入到预设的音乐检测模型，进行音乐检测，得到音频中每一音频片段的类型；根据得到的所有音频片段的类型，获取音乐片段。其中，类型包括音乐或与音乐不同的其他音频类型。音频片段的时长为预设时长。

另一种可能的实施方式中，上述根据得到的所有音频片段的类型，获取音乐片段，包括：确定至少一个目标音频片段；目标音频片段相邻的两个音频片段的类型相同、且目标音频片段的类型和目标音频片段相邻的两个音频片段的类型不同；将目标音频片段的类型修正为目标音频片段相邻的两个音频片段的类型；将修正后类型为音乐的目标音频片段和未被修正类型为音乐的音频片段作为音乐片段。

第二方面，本公开实施例还提供了一种音乐替换装置，该装置包括：音乐提取模块，用于获取待处理视频中的音乐片段；风格识别模块，用于在音乐片段不属于预设音乐库的情况下，将音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到音乐片段的风格；目标确定模块，用于从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐；替换模块，用于采用目标音乐，对待处理视频中的音乐片段进行替换，得到包括目标音乐的视频。

在一种可能的实施方式中，风格识别模块，具体用于：将音乐片段输入到音乐风格识别模型，进行音乐风格的识别，得到音乐风格识别模型中第N个隐藏层输出的目标特征。目标特征用于表征音乐片段的风格。音乐风格识别模型包括M个隐藏层。1＜N≤M，N、M为整数。

另一种可能的实施方式中，目标确定模块，具体用于：确定至少一个热点音乐，热点音乐为预设音乐库中关注度大于第一关注度阈值的音乐；确定每一热点音乐的特征，特征用于表征每一热点音乐的风格；确定每一热点音乐的特征与目标特征之间的相似度；从相似度大于第一相似度阈值的热点音乐中确定目标音乐。

另一种可能的实施方式中，目标确定模块，具体用于：确定预设音乐库中每一音乐的特征；特征用于表征每一音乐的风格；确定每一音乐的特征与目标特征之间的相似度；从相似度大于第二相似度阈值的音乐中，确定目标音乐。

另一种可能的实施方式中，目标确定模块，具体用于：从相似度大于第二相似度阈值的音乐中，确定关注度大于第二关注度阈值的音乐；从关注度大于第二关注度阈值的音乐中确定目标音乐。

另一种可能的实施方式中，关注度用于表征播放次数、点赞次数和收藏次数中的至少一项。

另一种可能的实施方式中，替换模块，具体用于：确定目标音乐中副歌的开始时刻；获取目标音乐中位于开始时刻之后的片段，作为副歌片段；采用副歌片段，对待处理视频中的音乐片段进行替换，得到包括副歌片段的视频。

另一种可能的实施方式中，该装置还包括：训练模块，用于：在将音乐片段输入到音乐风格识别模型，进行音乐风格的识别，得到音乐风格识别模型中第N个隐藏层输出的目标特征之前，获取标记有音乐风格的至少一个音乐样本；利用至少一个音乐样本，对预设神经网络模型进行训练，得到音乐风格识别模型。

另一种可能的实施方式中，音乐提取模块，具体用于：提取待处理视频中的音频；将音频输入到预设的音乐检测模型，进行音乐检测，得到音频中每一音频片段的类型；根据得到的所有音频片段的类型，获取音乐片段。其中，类型包括音乐或与音乐不同的其他音频类型；音频片段的时长为预设时长。

另一种可能的实施方式中，音乐提取模块，具体用于：确定至少一个目标音频片段；目标音频片段相邻的两个音频片段的类型相同、且目标音频片段的类型和目标音频片段相邻的两个音频片段的类型不同；将目标音频片段的类型修正为目标音频片段相邻的两个音频片段的类型；将修正后类型为音乐的目标音频片段和未被修正类型为音乐的音频片段作为音乐片段。

第三方面，本公开实施例还提供了一种电子设备，该电子设备包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，使得电子设备执行如第一方面及其任一种可能的实施方式的音乐替换方法。

第四方面，本公开实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面及其任一种可能的实施方式的音乐替换方法。

第五方面，本公开实施例还提供一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以在电子设备上运行，使得电子设备执行如第一方面及其任一种可能的实施方式的音乐替换方法。

可以理解的是，本公开实施例提供的技术方案，先获取待处理视频中的音乐片段。然后，在该音乐片段不属于音乐库的情况下，表征该待处理视频中的音乐片段需要替换，则对该音乐片段进行音乐风格的识别，得到该音乐片段的风格。再从预设音乐库中选取风格与该音乐片段的风格匹配的目标音乐。其中，该音乐片段的风格和目标音乐的风格匹配，表示该音乐片段的风格和该目标音乐的风格相似。进而，用风格与该音乐片段的风格相似的目标音乐，替换待处理视频中的该音乐片段，得到包括目标音乐的视频(即替换后的视频)。如此，无需人工参与，自动从预设音乐库中确定出目标音乐，用于替换待处理视频中的音乐片段，从而提高了音乐替换的效率。并且，确定的目标音乐与待处理视频中的音乐片段的风格相似，用该目标音乐替换待处理视频中的音乐片段，可以保证替换后的视频的播放效果与替换前的待处理视频的播放效果相似。也就是说，减少了对待检测视频的播放效果的影响。

其次，这种自动替换音乐的方式，可以对一个多媒体信息的展示平台中的多个需要替换音乐的待处理视频批量替换。从而可以提前该展示平台上多个待处理视频的发布时间。

附图说明

图1是本公开实施例提供的一种音乐替换方法所涉及的实施环境示意图；

图2是本公开实施例提供的一种音乐替换方法的一种应用场景示意图；

图3是本公开实施例提供的一种音乐替换方法的另一种应用场景示意图；

图4是本公开实施例提供的一种音乐替换方法的流程图；

图5是本公开实施例提供的一种音乐替换装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

随着自媒体的普遍化，出现了越来越多的多媒体信息(如，视频)的展示平台(如，应用程序)。用户可以在这些多媒体信息的展示平台上发布自己制作的视频(如，短视频)。其中，用户在制作视频的时候，会在视频中配上合适的音乐，以提升该视频的播放效果。

目前，在该展示平台上发布的一些视频中使用的音乐没有获得该音乐所属者的使用许可。如果直接将这些视频从该展示平台中删除，则会给这些视频的制作者或者观看这些视频的其他用户都带来较差的使用体验。因此，相关方案针对这些视频中的每一个视频，采用人工的方式，从预设的音乐库中选择与该视频中的音乐风格相似的音乐，用于对该视频中的音乐进行替换。

但是，这种人工替换的方式，需要先播放这些视频中的每一个视频以确定该视频中的音乐风格；再从音乐库所保存的多个音乐中选出一个风格相似的音乐。这种人工替换的方式，效率低，耗时长。尤其是在任一个多媒体信息的展示平台上需要替换音乐的视频数量较多的情况下，这种人工替换的方式会延迟该展示平台上视频的发布时间。

针对相关方案存在的上述问题，本公开实施例提供一种音乐替换方法，该方法可以采用预设的音乐风格识别模型，识别每一个需要替换音乐的视频中的音乐片段的风格；然后，根据该音乐片段的风格从预设音乐库中获取风格相似的音乐，用于替换该视频中的音乐片段。该方法无需人工参与，自动完成音乐替换工作，从而可以提高音乐替换的效率。

下面将结合附图对本公开实施例的实施方式进行详细描述。

请参考图1，其示出本公开实施例提供的一种音乐替换方法所涉及的实施环境示意图。如图1所示，该实施环境可以包括终端101、数据库102和服务器103。

其中，终端101可以安装有任一个多媒体信息的展示平台，例如，短视频应用程序。数据库102可用于存储有该展示平台的信息，例如，数据库102作为预设音乐库，用于存储该展示平台可使用的多个音乐。服务器103用于管理和处理该展示平台的信息。

在一种应用场景中，如图2所示，用户可以通过终端101在该展示平台上上传视频。终端101将视频发送给该展示平台的服务器103。服务器103可以接收到多个终端101发送的多个视频。服务器103对多个视频中需要替换音乐的视频，识别该视频中的音乐片段的风格。然后，服务器103根据该音乐片段的风格从数据库102中获取风格相似的音乐，并用这个风格相似的音乐替换该视频中的音乐片段。服务器103再将替换后的视频发布在该展示平台上。用户通过终端101可以查看该展示平台中的替换后的视频。

在另一种应用场景中，如图3所示，用户可以通过终端101在该展示平台上上传视频。终端101在确定该视频是需要替换音乐的视频的情况下，识别该视频中的音乐片段的风格。然后，终端101根据该音乐片段的风格从数据库102中获取风格相似的音乐，并用这个风格相似的音乐替换该视频中的音乐片段。终端101再将替换后的视频发布在该展示平台上。用户通过终端101可以查看该展示平台中的替换后的视频。

示例性的，本公开实施例中的终端可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、增强现实设备、虚拟现实设备等，本公开实施例对该终端的具体形态不作特殊限制。

需要说明的是，上述终端和上述服务器可以统称为电子设备，本公开实施例提供的音乐替换方法可以应用于电子设备或音乐替换装置。音乐替换装置可以为上述电子设备。音乐替换装置还可以为该电子设备中安装的提供音乐替换功能的应用程序(application，APP)；或者，可以为该电子设备中的中央处理器(Central ProcessingUnit，CPU)；又或者，可以为该电子设备中的用于执行音乐替换方法的控制模块。下面以电子设备为例，对本公开实施例提供的音乐替换方法进行具体介绍。

请参考图4，为本公开实施例提供的一种音乐替换方法的流程图。如图4所示，该方法可以包括S201-S204。

S201、获取待处理视频中的音乐片段。

电子设备如果从待处理视频中获取到音乐片段，继续对音乐片段进行处理。电子设备如果从待处理视频中没有获取到音乐片段，则结束流程。其中，待处理视频可以是用户在任一个多媒体信息的展示平台上上传的视频，或者是需要替换音乐的视频。需要替换音乐的视频是该视频中的音乐不属于预设音乐库。

在一种实施例中，如果待处理视频是需要替换音乐的视频，则待处理视频可以人工确定的，或者是电子设备根据预设音乐库确定的。

另一种实施例中，如果待处理视频是用户在任一个多媒体信息的展示平台上上传的视频，电子设备可以判断该待处理视频是否需要替换音乐。如果该待处理视频需要替换音乐，电子设备对该待处理视频继续执行音乐替换方法。如果该待处理视频不需要替换音乐，则结束流程。

本公开实施例中，电子可以先获取待处理视频中的音频。电子设备再从该音频中获取音乐片段。其中，电子设备可以使用预设的音乐检测模型，自动对音频包括的各个音频片段识别类型；再由类型为音乐的音频片段组成该音乐片段。

具体地，电子设备可以将该音频输入到预设的音乐检测模型，进行音乐检测，得到音频中每一音频片段的类型。该类型包括表征音乐或与音乐不同的其他音频类型。音频片段的时长为预设时长，例如，预设时长可以为1s、2s、3s、4s等等。然后，电子设备根据得到的所有音频片段的类型，获取音乐片段。

一种实施例中，电子设备可以对得到的所有音频片段的类型进行数值化，得到表征所有音频片段的类型的数字序列。数字序列中每个数字唯一表示一个音频片段的类型。然后，电子设备可以对数字序列进行平滑处理，得到平滑处理后的数字序列。电子设备再根据平滑处理后的数字序列，将所有音频片段中类型为音乐的音乐片段作为音乐片段。

例如，电子设备将所有音频片段的类型中的音乐转换为1，其他音频类型转换为0，得到数字序列。

另一种实施例中，电子设备可以先根据得到的所有音频片段的类型，从所有音频片段中确定至少一个目标音频片段。目标音频片段相邻的两个音频片段的类型相同、且目标音频片段的类型和目标音频片段相邻的两个音频片段的类型不同。然后，电子设备将目标音频片段的类型修正为目标音频片段相邻的两个音频片段的类型。最后，电子设备将修正后类型为音乐的目标音频片段和未被修正类型为音乐的音频片段作为音乐片段。

示例性地，音频中的所有音频片段可以包括第i个片段、第i+1个片段和第i+2个片段。i依次取值为1,2，…，I-2。I为该音频所包括的所有音频片段的总个数。如果第i个音频片段的类型和第i+2个音频片段的类型相同，且第i+1个音频片段的类型与第i个音频片段的类型和第i+2个音频片段的类型都不同，则电子设备可以确定第i+1个音频片段为一个目标音频片段，并将第i+1个音频片段的类型修正为第i个音频片段的类型(或第i+2个音频片段的类型)。

可以理解的是，电子设备利用音乐检测模型对音频中的各个预设时长的音频片段，进行音乐检测，得到每一音频片段的类型。其中，音乐检测模型在检测音乐的过程中可能存在类型检测错误的情况。因此，电子设备可以对音乐检测模型输出的各个音频片段的类型判断是否正确。由于音频中属于音乐的音频片段，或者属于其他音频类型的音频片段往往都是连续的。因此，如果多个连续的音频片段中的某个音频片段的类型与相邻的音频片段的类型不同的话，电子设备可以确定该音频片段的类型不正确，则对该音频片段的类型进行修正。如此，可以保证电子设备准确确定出音频中的音乐片段。

S202、在音乐片段不属于预设音乐库的情况下，将音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到音乐片段的风格。

如果待处理视频是需要替换音乐的视频，则电子设备可以直接确定该音乐片段不属于预设音乐库。如果待处理视频是用户在任一个多媒体信息的展示平台上上传的视频，则电子设备可以将该音乐片段和预设音乐库中的多个音乐进行比较，判断该音乐片段是否属于预设音乐库。

本公开实施例中，音乐风格识别模型具有识别音乐是多种音乐风格中的任一种的能力。多种音乐风格可以包括流行乐、民族乐、民谣和摇滚乐等等。

其中，音乐风格识别模型可以包括M个隐藏层。电子设备将所述音乐片段输入到音乐风格识别模型，进行音乐风格的识别，得到音乐风格识别模型中第N个隐藏层输出的目标特征。目标特征用于表征音乐片段的风格。1＜N≤M，N和M为整数。

其中，目标特征可以是embedding。embedding就是音乐风格识别模型从输入的音乐片段中提取出来的表征该音乐片段的风格的低维度特征。例如，目标特征可以是目标特征图。

可以理解的是，向音乐风格识别模型输入音乐片段后，音乐风格识别模型中位置越靠后的隐藏层输出的特征(如，特征图)，越能够表征该音乐片段的风格的特征。因此，可以取音乐风格识别模型中的倒数几层的隐藏层输出的特征为目标特征(如，目标特征图)。

示例性地，目标特征可以是音乐风格识别模型中的最后一层隐藏层输出的。

S203、从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐。

电子设备可以根据表征该音乐片段的风格的目标特征，从预设音乐库保存的至少一个音乐中确定一个风格与该音乐片段的风格匹配的目标音乐。

本公开实施例中，电子设备可以确定预设音乐库中的每个音乐的特征。每个音乐的特征表征每个音乐的风格。然后，电子设备根据目标特征和预设音乐库中的至少一个音乐的特征，确定每个音乐的特征和目标特征之间的相似度。电子设备再根据相似度，选出目标音乐。

其中，预设音乐库中每个音乐的特征是用音乐风格识别模型对该音乐进行音乐风格的识别，音乐风格识别模型中第N个隐藏层输出的。也就是说，每个音乐的特征和目标特征可以是音乐风格识别模型中的同一层隐藏层输出的。

例如，目标特征可以是音乐风格识别模型中的最后一层隐藏层输出的目标特征图，每个音乐的特征是音乐风格识别模型中的最后一层隐藏层输出的特征图。

其中，预设音乐库可以包括至少一个音乐，还可以包括每个音乐的特征(如，特征图)。

本公开实施例中，电子设备可以从预设音乐库中，确定至少一个热点音乐。热点音乐为预设音乐库中关注度大于第一关注度阈值的音乐。然后，电子设备确定每一热点音乐的特征，该特征用于表征每一热点音乐的风格。电子设备再确定每一热点音乐的特征与目标特征之间的相似度，并从相似度大于第一相似度阈值的热点音乐中确定目标音乐。

其中，目标音乐可以是至少一个热点音乐中相似度最大的。关注度用于表征播放次数、点赞次数和收藏次数等使用信息中的至少一项；例如，关注度可以等于播放次数、点赞次数和收藏次数的加权总和。

进一步地，电子设备在获取至少一个音乐的使用信息之前，用户可以通过电子设备在任一个多媒体信息的展示平台上执行关于任一个音乐的操作，电子设备根据检测到的所有关于任一个音乐的操作，统计每一个音乐的使用信息。

例如，关于任一个音乐的操作可以是播放操作、点赞操作、收藏操作等等。相应地，每一个音乐的使用信息可以包括：播放次数、点赞次数、收藏次数等等。

示例性地，预设音乐库可以包括每个音乐的使用信息。电子设备可以根据预设音乐库中的至少一个音乐的使用信息，确定至少一个音乐的关注度。然后，电子设备可以根据至少一个音乐的关注度从大到小的顺序，从至少一个音乐中确定至少一个热点音乐。其中，每个音乐的关注度等于该音乐的使用信息中的所有数值的加权总和。

示例性地，在预设音乐库可以包括每个音乐的特征的情况下，电子设备可以直接从预设音乐库中获取至少一个热点音乐的特征。在预设音乐库可以不包括每个音乐的特征的情况下，电子设备可以将每个热度音乐输入到音乐风格识别模型中，进行音乐风格的识别，得到每个热点音乐的特征。

可以理解的是，电子设备先从预设音乐库中选出关注度大于第一关注度阈值的热点音乐。热点音乐的关注度大于第一关注度阈值，表征用户对该音乐的喜欢程度比较高。然后，电子设备计算热点音乐的特征与目标特征之间的相似度，相较于计算预设音乐库中的所有音乐的特征与目标特征之间的相似度，减少了工作量。其次，电子设备再从相似度大于第一相似度阈值的热点音乐中确定出目标音乐。由于该目标音乐的特征不仅与目标特征相似，并且，该目标音乐是用户比较喜欢的热点音乐。那么，用该目标音乐替换待处理视频中的所述音乐片段，即保证了替换后的视频的播放效果与替换前的待处理视频的播放效果相似，还提高了用户对替换后的目标音乐的满意度。

另外，播放次数、点赞次数和收藏次数等均能够表征用户对音乐的喜欢程度，因此，可以根据播放次数、点赞次数和收藏次数等确定音乐的关注度。

本公开实施例中，电子设备可以确定预设音乐库中每一音乐的特征。然后，电子设备确定每一音乐的特征与目标特征之间的相似度。电子设备再从相似度大于第二相似度阈值的音乐中，确定目标音乐。

其中，第二相似度阈值可以等于或不等于第一相似度阈值。

示例性地，电子设备可以从相似度大于第二相似度阈值的音乐中，确定相似度最大的音乐为目标音乐。

或者，电子设备可以先从相似度大于第二相似度阈值的音乐中，确定关注度大于第二关注度阈值的音乐；再从关注度大于第二关注度阈值的音乐中确定目标音乐(如，从关注度大于第二关注度阈值的音乐中确定关注度最大的音乐为目标音乐)。第二关注度阈值可以等于或不等于第一关注度阈值。

需要说明的是，电子设备可以确定预设音乐库中每一音乐的特征的具体过程，可以参见上述电子设备获取每个热点音乐的特征的详细介绍，本公开实施例这里不予赘述。

可以理解的是，电子设备可以确定相似度大于第二相似度阈值、且相似度最大的音乐为目标音乐。这样的话，用该目标音乐替换待处理视频中的所述音乐片段，保证了替换后的视频的播放效果与替换前的待处理视频的播放效果相似，并且，该目标音乐不一定是用户点赞、播放或收藏过的音乐。如果该目标音乐是用户没有点赞、播放或收藏过的音乐，用该目标音乐替换待处理视频中的所述音乐片段，可以实现向用户推荐新的风格相似音乐的目的。

或者，电子设备可以先从相似度大于第二相似度阈值的音乐中，确定关注度大于第二关注度阈值的音乐；再从关注度大于第二关注度阈值的音乐中确定目标音乐。这样确定的目标音乐的特征不仅与目标特征相似，并且，该目标音乐是用户比较喜欢的热点音乐。那么，用该目标音乐替换待处理视频中的所述音乐片段，即保证了替换后的视频的播放效果与替换前的待处理视频的播放效果相似，还提高了用户对替换后的目标音乐的满意度。

本公开实施例中，电子设备也可以根据目标特征和至少一个音乐的特征之间的相似度，从至少一个音乐中确定相似度最大的一个音乐为目标音乐。

S204、利用目标音乐，对待处理视频中的音乐片段进行替换，得到包括目标音乐的视频。

电子设备可以用目标音乐替换待处理视频中的音乐片段。或者，电子设备用目标音乐替换待处理视频中的音频，该音频包括该音乐片段。

本公开实施例中，电子设备可以确定目标音乐中副歌的开始时刻。然后，电子设备获取目标音乐中位于开始时刻之后的片段，作为副歌片段。电子设备再采用副歌片段，对待处理视频中的音乐片段进行替换，得到包括副歌片段的视频。

例如，电子设备采用副歌片段替换待处理视频中的音乐片段或音频。

示例性地，电子设备可以获取目标音乐中位于开始时刻之后的、时长该音乐片段的时长的片段，作为副歌片段。然后，电子设备采用副歌片段替换待处理视频中的音乐片段。

或者，电子设备可以获取目标音乐中位于开始时刻之后的、时长该音频的时长的片段，作为副歌片段。然后，电子设备采用副歌片段替换待处理视频中的音频。

可以理解的是，电子设备获取待处理视频中的音乐片段。然后，电子设备在该音乐片段不属于音乐库的情况下，表征该待处理视频中的音乐片段需要替换，则对该音乐片段进行音乐风格的识别，得到该音乐片段的风格。电子设备从预设音乐库中选取风格与该音乐片段的风格匹配的目标音乐。其中，该音乐片段的风格和目标音乐的风格匹配，表示该音乐片段的风格和该目标音乐的风格相似。进而，电子设备用风格与该音乐片段的风格相似的目标音乐，替换待处理视频中的该音乐片段，得到包括目标音乐的视频(即替换后的视频)。如此，电子设备无需人工参与，自动从预设音乐库中确定出目标音乐，用于替换待处理视频中的音乐片段，从而提高了音乐替换的效率。并且，电子设备确定的目标音乐与待处理视频中的音乐片段的风格相似，用该目标音乐替换待处理视频中的音乐片段，可以保证替换后的视频的播放效果与替换前的待处理视频的播放效果相似。也就是说，减少了对待检测视频的播放效果的影响。

另外，电子设备自动从目标音乐中确定出副歌片段，并采样副歌片段替换待处理视频中的音乐片段。由于副歌片段的播放效果，相较于目标音乐中除副歌片段之外的其他片段的播放效果，更具有吸引力。因此，采用副歌片段替换待处理视频中的音乐片段，替换后的视频的播放效果更好，并且，无需用户手动剪辑出副歌片段，可提高音乐替换的便利程度。

本公开实施例中，电子设备在上述S202之前，可以先用标记音乐风格的多个音乐样本训练得到音乐风格识别模型。进而，利用训练得到的音乐风格模型对待处理视频中的音乐片段进行自动识别。

具体地，电子设备可以先获取标记有音乐风格的至少一个音乐样本；音乐风格为流行乐、民族乐、民谣、摇滚乐中的一个。然后，电子设备利用至少一个音乐样本，对预设神经网络模型进行训练，得到音乐风格识别模型。

电子设备将至少一个音乐样本作为模型输入，至少一个音乐样本所标记的音乐风格作为模型输出，并利用该模型输入和该模型输出，对预设神经网络模型进行训练，得到该音乐风格识别模型。

可以理解的是，上述方法可以由音乐替换装置实现。音乐替换装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。

本公开实施例可以根据上述方法示例对上述音乐替换装置等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图5示出了上述实施例中所涉及的音乐替换装置的一种可能的结构示意图，音乐替换装置300包括：音乐提取模块301、风格识别模块302、目标确定模块303和替换模块304。

其中，音乐提取模块301，用于获取待处理视频中的音乐片段；风格识别模块302，用于在音乐片段不属于预设音乐库的情况下，将音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到音乐片段的风格；目标确定模块303，用于从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐；替换模块304，用于采用目标音乐，对待处理视频中的音乐片段进行替换，得到包括目标音乐的视频。

在一种可能的实施方式中，风格识别模块302，具体用于：将音乐片段输入到音乐风格识别模型，进行音乐风格的识别，得到音乐风格识别模型中第N个隐藏层输出的目标特征。目标特征用于表征音乐片段的风格。音乐风格识别模型包括M个隐藏层。1＜N≤M，N、M为整数。

另一种可能的实施方式中，目标确定模块303，具体用于：确定至少一个热点音乐，热点音乐为预设音乐库中关注度大于第一关注度阈值的音乐；确定每一热点音乐的特征，特征用于表征每一热点音乐的风格；确定每一热点音乐的特征与目标特征之间的相似度；从相似度大于第一相似度阈值的热点音乐中确定目标音乐。

另一种可能的实施方式中，目标确定模块303，具体用于：确定预设音乐库中每一音乐的特征；特征用于表征每一音乐的风格；确定每一音乐的特征与目标特征之间的相似度；从相似度大于第二相似度阈值的音乐中，确定目标音乐。

另一种可能的实施方式中，目标确定模块303，具体用于：从相似度大于第二相似度阈值的音乐中，确定关注度大于第二关注度阈值的音乐；从关注度大于第二关注度阈值的音乐中确定目标音乐。

另一种可能的实施方式中，替换模块304，具体用于：确定目标音乐中副歌的开始时刻；获取目标音乐中位于开始时刻之后的片段，作为副歌片段；采用副歌片段，对待处理视频中的音乐片段进行替换，得到包括副歌片段的视频。

另一种可能的实施方式中，音乐替换装置300还包括：训练模块305。训练模块305，用于：在将音乐片段输入到音乐风格识别模型，进行音乐风格的识别，得到音乐风格识别模型中第N个隐藏层输出的目标特征之前，获取标记有音乐风格的至少一个音乐样本；利用至少一个音乐样本，对预设神经网络模型进行训练，得到音乐风格识别模型。

另一种可能的实施方式中，音乐提取模块301，具体用于：提取待处理视频中的音频；将音频输入到预设的音乐检测模型，进行音乐检测，得到音频中每一音频片段的类型；根据得到的所有音频片段的类型，获取音乐片段。其中，类型包括音乐或与音乐不同的其他音频类型；音频片段的时长为预设时长。

另一种可能的实施方式中，音乐提取模块301，具体用于：确定至少一个目标音频片段；目标音频片段相邻的两个音频片段的类型相同、且目标音频片段的类型和目标音频片段相邻的两个音频片段的类型不同；将目标音频片段的类型修正为目标音频片段相邻的两个音频片段的类型；将修正后类型为音乐的目标音频片段和未被修正类型为音乐的音频片段作为音乐片段。

当然，音乐替换装置300包括但不限于上述所列举的单元模块。例如，音乐替换装置300还可以包括存储模块。该存储模块可以用于保存上述音乐风格识别模型等。并且，上述功能单元的具体所能够实现的功能也包括但不限于上述实例所述的方法步骤对应的功能，音乐替换装置300的其他模块的详细描述可以参考其所对应方法步骤的详细描述，本公开实施例这里不再赘述。

在采用集成的单元的情况下，图6示出了上述实施例中所涉及的电子设备的另一种可能的结构示意图。电子设备400可以包括处理器401和存储器402。存储器402用于存储处理器401可执行指令的存储器。处理器401被配置为执行该指令，使得电子设备执行上述方法实施例中的各个功能或者步骤。

具体地，处理器401用于对电子设备的动作进行控制管理。存储器402，用于保存电子设备的程序代码和数据，如音乐替换方法，音乐风格识别模型等。

进一步地，该装置400还可以包括通信模块403。通信模块403用于支持电子设备与其他网络实体的通信，以实现数据交互等功能，如该通信模块403支持电子设备与服务器的通信，以实现数据交互功能。

其中，处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以包括AP，调制解调处理器，GPU，ISP，控制器，存储器，视频编解码器，DSP，基带处理器，和/或NPU等。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本公开实施例提供的音乐替换方法。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当计算机指令在上述电子设备上运行时，使得该电子设备执行上述方法实施例中的各个功能或者步骤。例如，该计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序，当计算机程序在上述电子设备上运行时，使得该电子设备执行上述方法实施例中的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何在本公开揭露的技术范围内的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音乐替换方法，其特征在于，所述方法包括：

提取待处理视频中的音频；

将所述音频输入到预设的音乐检测模型，进行音乐检测，得到所述音频中每一音频片段的类型；其中，所述类型包括音乐或与音乐不同的其他音频类型；所述音频片段的时长为预设时长；

确定至少一个目标音频片段；所述目标音频片段相邻的两个音频片段的类型相同、且所述目标音频片段的类型和所述目标音频片段相邻的两个音频片段的类型不同；

将所述目标音频片段的类型修正为所述目标音频片段相邻的两个音频片段的类型；

将修正后类型为音乐的目标音频片段和未被修正类型为音乐的音频片段作为音乐片段；在所述音乐片段不属于预设音乐库的情况下，将所述音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到所述音乐片段的风格，所述预设音乐库中存储有多个可使用的音乐片段，所述可使用是指具有对所述音乐片段的使用许可；

从所述预设音乐库中选取风格与所述音乐片段的风格匹配的目标音乐；

采用所述目标音乐，对所述待处理视频中的所述音乐片段进行替换，得到包括所述目标音乐的视频。

2.根据权利要求1所述的方法，其特征在于，所述将所述音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到所述音乐片段的风格，包括：

将所述音乐片段输入到所述音乐风格识别模型，进行音乐风格的识别，得到所述音乐风格识别模型中第N个隐藏层输出的目标特征；所述目标特征用于表征所述音乐片段的风格，所述音乐风格识别模型包括M个隐藏层；其中，1＜N≤M，N、M为整数。

3.根据权利要求2所述的方法，其特征在于，所述从所述预设音乐库中选取风格与所述音乐片段的风格匹配的目标音乐，包括：

确定至少一个热点音乐，所述热点音乐为所述预设音乐库中关注度大于第一关注度阈值的音乐；

确定每一热点音乐的特征，所述特征用于表征所述每一热点音乐的风格；

确定所述每一热点音乐的特征与所述目标特征之间的相似度；

从相似度大于第一相似度阈值的热点音乐中确定所述目标音乐。

4.根据权利要求2所述的方法，其特征在于，所述从所述预设音乐库中选取风格与所述音乐片段的风格匹配的目标音乐，包括：

确定所述预设音乐库中每一音乐的特征；所述特征用于表征所述每一音乐的风格；

确定所述每一音乐的特征与所述目标特征之间的相似度；

从相似度大于第二相似度阈值的音乐中，确定所述目标音乐。

5.根据权利要求4所述的方法，其特征在于，所述从相似度大于第二相似度阈值的音乐中，确定所述目标音乐，包括：

从相似度大于第二相似度阈值的音乐中，确定关注度大于第二关注度阈值的音乐；

从所述关注度大于第二关注度阈值的音乐中确定所述目标音乐。

6.根据权利要求3或5所述的方法，其特征在于，所述关注度用于表征播放次数、点赞次数和收藏次数中的至少一项。

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述采用所述目标音乐，对所述待处理视频中的所述音乐片段进行替换，得到包括所述目标音乐的视频，包括：

确定所述目标音乐中副歌的开始时刻；

获取所述目标音乐中位于所述开始时刻之后的片段，作为副歌片段；

采用所述副歌片段，对所述待处理视频中的所述音乐片段进行替换，得到包括所述副歌片段的视频。

8.根据权利要求2-5中任一项所述的方法，其特征在于，在所述将所述音乐片段输入到所述音乐风格识别模型，进行音乐风格的识别，得到所述音乐风格识别模型中第N个隐藏层输出的目标特征之前，所述方法还包括：

获取标记有音乐风格的至少一个音乐样本；

利用所述至少一个音乐样本，对预设神经网络模型进行训练，得到所述音乐风格识别模型。

9.一种音乐替换装置，其特征在于，所述装置包括：

音乐提取模块，用于提取待处理视频中的音频；将所述音频输入到预设的音乐检测模型，进行音乐检测，得到所述音频中每一音频片段的类型；其中，所述类型包括音乐或与音乐不同的其他音频类型；所述音频片段的时长为预设时长；确定至少一个目标音频片段；所述目标音频片段相邻的两个音频片段的类型相同、且所述目标音频片段的类型和所述目标音频片段相邻的两个音频片段的类型不同；将所述目标音频片段的类型修正为所述目标音频片段相邻的两个音频片段的类型；将修正后类型为音乐的目标音频片段和未被修正类型为音乐的音频片段作为音乐片段；

风格识别模块，用于在所述音乐片段不属于预设音乐库的情况下，将所述音乐片段输入到预设的音乐风格识别模型，进行音乐风格的识别，得到所述音乐片段的风格，所述预设音乐库中存储有多个可使用的音乐片段，所述可使用是指具有对所述音乐片段的使用许可；

目标确定模块，用于从所述预设音乐库中选取风格与所述音乐片段的风格匹配的目标音乐；

替换模块，用于采用所述目标音乐，对所述待处理视频中的所述音乐片段进行替换，得到包括所述目标音乐的视频。

10.根据权利要求9所述的装置，其特征在于，

所述风格识别模块，具体用于：

11.根据权利要求10所述的装置，其特征在于，

所述目标确定模块，具体用于：

12.根据权利要求10所述的装置，其特征在于，

所述目标确定模块，具体用于：

确定所述每一音乐的特征与所述目标特征之间的相似度；

13.根据权利要求12所述的装置，其特征在于，

所述目标确定模块，具体用于：

14.根据权利要求11或13所述的装置，其特征在于，所述关注度用于表征播放次数、点赞次数和收藏次数中的至少一项。

15.根据权利要求9-13中任一项所述的装置，其特征在于，

所述替换模块，具体用于：

确定所述目标音乐中副歌的开始时刻；

16.根据权利要求10-13中任一项所述的装置，其特征在于，所述装置还包括：训练模块，用于：

在所述将所述音乐片段输入到所述音乐风格识别模型，进行音乐风格的识别，得到所述音乐风格识别模型中第N个隐藏层输出的目标特征之前，获取标记有音乐风格的至少一个音乐样本；利用所述至少一个音乐样本，对预设神经网络模型进行训练，得到所述音乐风格识别模型。

17.一种电子设备，其特征在于，所述电子设备包括：处理器和用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，使得所述电子设备执行如权利要求1-8中任一项所述的音乐替换方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-8中任一项所述的音乐替换方法。