CN111737516A

CN111737516A - 一种互动音乐生成方法、装置、智能音箱及存储介质

Info

Publication number: CN111737516A
Application number: CN201911341110.3A
Authority: CN
Inventors: 张金晖
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-10-02

Abstract

本发明实施例公开了一种互动音乐生成方法、装置、智能音箱及存储介质，所述方法应用于智能音箱，包括：获取待处理视频，提取所述待处理视频中的图像帧；将所述图像帧输入至预先训练好的音乐生成模型中，获得所述音乐生成模型输出的互动音乐；将所述互动音乐进行播放。本发明实施例提供的互动音乐生成方法通过训练音乐生成模型根据待处理视频生成相应的互动音乐，丰富了智能音箱的互动方式，提高了智能音箱的交互性能。

Description

一种互动音乐生成方法、装置、智能音箱及存储介质

技术领域

本发明实施例涉及智能家居领域，尤其涉及一种互动音乐生成方法、装置、智能音箱及存储介质。

背景技术

随着智能时代的开启，物联网技术越来越受到大家的关注，除了技术本身的前沿性外，最重要的是实现万物互联互通，方便人们的生活体验。智能音箱作为人机智能交互的典型入口，人们可以通过语音与智能音箱间实施交互来满足人们日常生活需求，诸如听歌、打电话、定闹钟、听广播等。最近随着带屏智能音箱的出现，人们除了与智能音箱间实现基本的语音交互外，还能在视觉层面上实现与智能音箱间的多模态交互。

在实现本发明的过程中，发明人发现现有技术中至少存在以下技术问题：智能带屏音箱中除了具有普通音箱所拥有的功能外，还有在视觉上的新体验。目前针对市场上的带屏智能音箱给用户在视频方面的体验仅仅限于通过检索来播放用户所需的网上视频资源(如综艺节目、电视剧、电影、娱乐短视频等)。但随着用户对智能音箱使用次数的增加，可能会大幅降低用户对已熟悉的功能的感兴趣度，如何增加智能音箱的互动性能成为一个亟待解决的技术问题。

发明内容

本发明实施例提供了一种互动音乐生成方法、装置、智能音箱及存储介质，以丰富音箱的互动方式，提高音箱的交互性能。

第一方面，本发明实施例提供了一种互动音乐生成方法，应用于智能音箱，包括：

获取待处理视频，提取所述待处理视频中的图像帧；

将所述图像帧输入至预先训练好的音乐生成模型中，获得所述音乐生成模型输出的互动音乐；

将所述互动音乐进行播放。

第二方面，本发明实施例还提供了一种互动音乐生成装置，包括：

图像帧获取模块，用于获取待处理视频，提取所述待处理视频中的图像帧；

互动音乐生成模块，用于将所述图像帧输入至预先训练好的音乐生成模型中，获得所述音乐生成模型输出的互动音乐；

互动音乐播放模块，用于将所述互动音乐进行播放。

第三方面，本发明实施例还提供了一种智能音箱，所述音箱包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的互动音乐生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的互动音乐生成方法。

本发明实施例通过获取待处理视频，提取所述待处理视频中的图像帧；将所述图像帧输入至预先训练好的音乐生成模型中，获得所述音乐生成模型输出的互动音乐；将所述互动音乐进行播放，通过训练音乐生成模型用于根据待处理视频生成相应的互动音乐并播放，丰富了智能音箱的互动方式，提高了智能音箱的交互性能。

附图说明

图1a是本发明实施例一所提供的一种互动音乐生成方法的流程图；

图1b是本发明实施例一所提供的一种互动音乐生成方法的流程示意图；

图2是本发明实施例二所提供的一种互动音乐生成方法的流程图；

图3是本发明实施例三所提供的一种互动音乐生成方法的流程图；

图4是本发明实施例四所提供的一种互动音乐生成装置的结构示意图；

图5是本发明实施例五所提供的智能音箱的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1a是本发明实施例一所提供的一种互动音乐生成方法的流程图。本实施例可适用于根据视频生成对应的互动音乐的情形。该方法可以由互动音乐生成装置执行，该互动音乐生成装置可以采用软件和/或硬件的方式实现，例如，该互动音乐生成装置可配置于智能音箱中。如图1a所示，所述方法包括：

S110、获取待处理视频，提取待处理视频中的图像帧。

在本实施例中，通过丰富智能带屏音箱中的人机互动功能，提高智能音箱的交互性能。可选的，可以将用户指定的视频作为待处理视频，生成相应的互动音乐作为待处理视频的背景音乐或用户动作的背景音乐。其中，用户指定的视频可以为用户上传的视频、智能音箱摄像头拍摄的视频、智能音箱缓存下载的视频或网络资源中的指定视频等。优选的，用户可以使用智能音箱摄像头拍摄视频，以使智能音箱通过拍摄的视频分析用户的面部表情、口型、肢体动作和所处场景等信息，生成相应的互动音乐进行播放，给用户一种更舒适的娱乐体验。

为了使互动过程中，互动音乐的音乐风格能够随待处理视频的风格进行变化变化，在本实施例中，提取出待处理视频中的图像帧序列，针对提取出的图像帧序列，生成对应的互动音乐。

一个实施例中，所述提取所述待处理视频中的图像帧，包括：按照设定帧数间隔抽取所述待处理视频中的视频帧作为所述图像帧。可选的，可以将连续的待处理视频按照设定的帧数间隔抽取出图像帧。其中，设定帧数间隔可以根据实际需求设定，帧间隔数越小，抽取的帧数越多，对计算机的计算能力要求更高，帧间隔数越大，抽取的帧数越少，获得的视频资源信息越少。可选的，设定帧数间隔可以为固定值，示例性的，可以设定帧数间隔为N，获取到待处理视频后，从待处理视频中每N帧抽取一帧作为图像帧。可选的，设定帧数间隔也可以为动态值，示例性的，可以预先设定帧数间隔与待处理视频帧中总帧数之间的函数关系，如设定函数关系为M＝f(W)，其中，M为帧数间隔，W为待处理视频的总帧数，获取待处理视频后，根据待处理视频的总帧数W以及上述函数关系计算得到待处理视频对应的帧数间隔，基于计算得到的帧数间隔从待处理视频中抽取出图像帧。

上述方式中，设定固定的帧数间隔使得计算简单，但针对不同的待处理视频，生成的互动音乐的效果可能不同，根据待处理视频的总帧数确定帧数间隔使得图像帧的获取更加合理，可以针对不同的待处理视频，均能生成与待处理视频匹配度较高的互动音乐。

S120、将图像帧输入至预先训练好的音乐生成模型中，获得音乐生成模型输出的互动音乐。

在本实施例中，通过预先训练音乐生成模型，使用训练好的音乐生成模型生成与图像帧对应的互动音乐。具体的，可以将提取出的图像帧输入至训练好的音乐生成模型中，获得音乐生成模型输出的互动音乐，并将其作为待处理视频的互动音乐。

在本发明的一种实施方式中，所述音乐生成模型包括特征提取网络模块和音乐生成网络模块，所述将所述图像帧输入至预先训练好的音乐生成模型中，获得所述音乐生成模型输出的互动音乐，包括：将所述图像帧输入至所述特征提取网络模块中，获得所述特征提取网络输出的图像特征向量；将所述图像特征向量输入至所述音乐生成网络模块中，获得所述音乐生成网络输出的互动音乐。

可选的，根据图像帧生成互动音乐的过程可以划分为图像帧特征提取和音乐生成两部分。具体的，通过特征提取网络模块提取图像帧序列的图像特征向量序列，通过音乐生成网络模块根据特征提取网络模块输出的图像特征向量序列生成互动音乐。

在本实施例中，音乐生成模型中的特征提取网络模块和音乐生成网络模块均以神经网络为基础进行构建。可选的，音乐生成网络模块的构建可以为：在循环神经网络与wavenet网络之间添加傅里叶变换模块，得到构建好的音乐生成网络模块。具体的，将循环神经网络、傅里叶变换模块、wavenet网络顺次连接得到构建好的音乐生成网络模块。循环神经网络用于将图像特征向量转换为对应的时域信号并输出至傅里叶变换模块，傅里叶变换模块用于将循环神经网络输出的时域信号转换为频域信号并输出至wavenet网络，wavenet网络用于根据傅里叶变换模块输出的频域信号生成互动音乐。

S130、将互动音乐进行播放。

获取音乐生成模型输出的互动音乐后，将互动音乐进行播放。可选的，可以直接将互动音乐进行播放，也可以将互动音乐与待处理视频合成后，生成包含互动音乐的视频，将包含互动音乐的视频进行播放。

图1b是本发明实施例一所提供的一种互动音乐生成方法的流程示意图。如图1b所示，智能音箱中的摄像头对用户进行拍摄，得到包含互动信息的互动视频流，将互动视频流进行图像帧提取后得到互动视频帧对应的图像帧序列，将图像帧序列输入至卷积神经网络中，得到图像帧序列特征，将图像帧序列特征输入至wavenet网络中，得到互动音乐，并将互动音乐通过智能音箱播放给用户。

实施例二

图2是本发明实施例二所提供的一种互动音乐生成方法的流程图。本实施例中提供了一种音乐生成模型的训练方法。如图2所示，所述方法包括：

S210、获取样本图像帧以及样本图像帧对应的样本音乐。

在本实施例中，可以将音乐生成模型中的特征提取网络模块和音乐生成网络模块作为一个整体进行训练，即先构建特征提取网络模块和音乐生成网络模块，根据构建出的特征提取网络模块和音乐生成网络模块得到构建好的音乐生成模型，使用训练样本集对构建好的音乐生成模型进行训练，得到训练好的音乐生成模型。

可选的，可以获取样本图像帧以及样本图像帧对应的样本音乐。其中，样本音乐可以为样本图像帧所属样本视频中的背景音乐，也可以人工设置的互动音乐。

S220、基于样本图像帧以及样本图像帧对应的样本音乐构建音乐生成模型训练样本对，使用音乐生成模型训练样本对对预先构建的音乐生成模型进行训练，得到训练好的音乐生成模型。

获取大量样本图像帧和样本图像帧对应的样本音乐后，基于样本图像帧以及样本音乐生成大量的音乐生成模型训练样本对，大量的音乐生成模型训练样本对构成音乐生成模型样本训练集合，使用音乐生成模型样本训练集合对构建好的音乐生成模型进行训练，得到训练好的音乐生成模型。

在本发明的一种实施方式中，在使用所述音乐生成模型训练样本对对预先构建的音乐生成模型进行训练之前，还包括：将自编码网络模型中编码网络的卷积层设置参数设置为目标设置参数，得到构建好的特征提取网络模块。

可选的，音乐生成模型中的图像特征提取网络模块可以根据自编码网络中的编码网络构建，例如可以将VGG、Inception、深度残差网络(Deep residual network，ResNet)等模型的特征抽取层作为图像特征提取网络模块的基础结构。考虑到图像帧中的特征提取结果会严重影响到对图像帧的信息抽取能力，可以通过改变编码模型的结构(如增加卷积层、池化层等)和调整所含的超参数(即卷积设置参数，如卷积核的大小、卷积的层数等)来尽可能全面的抽取与互动音乐生成相关性强的特征信息。

S230、获取待处理视频，提取待处理视频中的图像帧。

S240、将图像帧输入至预先训练好的音乐生成模型中，获得音乐生成模型输出的互动音乐。

S250、将互动音乐进行播放。

本发明实施例在上述实施例的基础上，增加了获取样本图像帧以及样本图像帧对应的样本音乐，基于样本图像帧以及样本图像帧对应的样本音乐构建音乐生成模型训练样本对，使用音乐生成模型训练样本对对预先构建的音乐生成模型进行训练，得到训练好的音乐生成模型的操作，通过将音乐生成模型中的特征提取网络模块和音乐生成网络模块作为整体进行训练，简化了音乐生成模型的训练过程及复杂度，提高了音乐生成模型的训练速度。

实施例三

图3是本发明实施例三所提供的一种互动音乐生成方法的流程图。本实施例在上述实施例的基础上提供了另一种音乐生成模型的训练方法。如图3所示，所述方法包括：

S310、获取样本图像帧以及样本图像帧对应的样本音乐。

在本实施例中，可以将音乐生成模型中的特征提取网络模块和音乐生成网络模块分别进行训练，得到训练好的特征提取网络模块和训练好的音乐生成网络模块，将训练好的特征提取网络模块和训练好的音乐生成网络模块组成训练好的音乐生成模型。

特征提取网络模块训练时所需的训练样本集需包含样本图像帧，音乐生成网络模块训练时所需的训练样本集需包含样本图像帧对应的样本图像特征向量以及样本图像帧对应的样本音乐。其中，样本图像帧对应的样本图像特征向量需要通过训练好的特征提取网络模块得到。

在本实施例中，样本音乐可以为样本图像帧所属样本视频中的背景音乐，也可以人工设置的互动音乐。

S320、基于样本图像帧构建自编码网络训练样本集，使用自编码网络训练样本集对预先构建的自编码网络模型进行训练，得到训练好的自编码网络模型，并将训练好的自编码网络模型中的编码网络作为特征提取网络模块。

在本实施例中，首先得到训练好的特征提取网络模块。可选的，可以基于样本图像帧构建自编码网络训练样本集，使用自编码网络训练样本集对预先构建的自编码网络模型进行训练，得到训练好的自编码网络模型，将自编码网络模型中的编码网络作为训练好的特征提取网络模块。

自编码网络模型是利用多层卷积神经网络和反卷积神经网络操作对图像的像素进行操作，通过逐层的特征抽取得到低维的图片向量表示，即图片在低维连续向量空间上的映射表示。在该模型的训练过程中以原始图片作为模型输入，使用交叉熵、作为损失函数使得模型的输出更加逼近于原始图片，进而将低维抽取特征层向量作为原始图片的图像特征信息。因此，可以将训练好的自编码网络模型中的编码网络作为训练好的特征提取网络模块，用于提取图像帧中的图像特征向量。

S330、将样本图像帧输入至特征提取网络模块中，获取特征提取网络模块输出的样本图像特征向量。

在本实施例中，得到训练好的特征提取网络模块后，将样本图像帧序列输入至训练好的特征提取网络模块中，获取训练好的特征提取网络模块输出的样本图像特征向量序列。将样本图像帧序列对应的样本图像特征向量序列以及样本图像帧序列对应的样本音乐作为训练样本，对预先构建的音乐生成网络模块进行训练。

S340、基于样本图像特征向量以及样本图像特征向量对应的样本音乐构建音乐生成网络训练样本对，使用音乐生成网络训练样本对对预先构建的音乐生成网络模块进行训练，得到训练好的音乐生成网络模块。

获取样本图像帧序列对应的样本图像特征向量序列后，基于样本图像帧序列对应的样本图像特征向量序列以及样本图像帧序列对应的样本音乐生成大量的音乐生成网络训练样本对，大量的音乐生成网络训练样本对构成音乐生成网络训练集合，使用音乐生成网络训练集合对构建好的音乐生成网络模块进行训练，得到训练好的音乐生成网络模块。

S350、根据训练好的特征提取网络模块和训练好的音乐生成网络模块得到训练好的音乐生成模型。

在本实施例中，将训练好的特征提取网络模块和训练好的音乐生成网络模块进行拼接，得到训练好的音乐生成模型。

S360、获取待处理视频，提取待处理视频中的图像帧。

S370、将图像帧输入至预先训练好的音乐生成模型中，获得音乐生成模型输出的互动音乐。

S380、将互动音乐进行播放。

本发明实施例在上述实施例的基础上，增加了获取样本图像帧以及样本图像帧对应的样本音乐，基于样本图像帧构建自编码网络训练样本集，使用自编码网络训练样本集对预先构建的自编码网络模型进行训练，得到训练好的自编码网络模型，并将训练好的自编码网络模型中的编码网络作为特征提取网络模块，将样本图像帧输入至特征提取网络模块中，获取特征提取网络模块输出的样本图像特征向量，基于样本图像特征向量以及样本图像特征向量对应的样本音乐构建音乐生成网络训练样本对，使用音乐生成网络训练样本对对预先构建的音乐生成网络模块进行训练，得到训练好的音乐生成网络模块的操作，通过将特征提取网络模块和音乐生成网络模块分别进行训练，使得特征提取网络提取出的图像特征更加全面，从而使音乐生成模型生成的音乐待处理视频更加匹配。

实施例四

图4是本发明实施例四所提供的一种互动音乐生成装置的结构示意图。该互动音乐生成装置可以采用软件和/或硬件的方式实现，例如该互动音乐生成装置可以配置于智能音箱中。如图4所示，所述装置包括图像帧获取模块410、互动音乐生成模块420和互动音乐播放模块430，其中：

图像帧获取模块410，用于获取待处理视频，提取所述待处理视频中的图像帧；

互动音乐生成模块420，用于将所述图像帧输入至预先训练好的音乐生成模型中，获得所述音乐生成模型输出的互动音乐；

互动音乐播放模块430，用于将所述互动音乐进行播放。

本发明实施例通过图像帧获取模块获取待处理视频，提取所述待处理视频中的图像帧；互动音乐生成模块将所述图像帧输入至预先训练好的音乐生成模型中，获得所述音乐生成模型输出的互动音乐；互动音乐播放模块将所述互动音乐进行播放，通过训练音乐生成模型用于根据待处理视频生成相应的互动音乐并播放，丰富了智能音箱的互动方式，提高了智能音箱的交互性能。

可选的，在上述方案的基础上，所述音乐生成模型包括特征提取网络模块和音乐生成网络模块，所述互动音乐生成模块420具体用于：

将所述图像帧输入至所述特征提取网络模块中，获得所述特征提取网络输出的图像特征向量；

将所述图像特征向量输入至所述音乐生成网络模块中，获得所述音乐生成网络输出的互动音乐。

可选的，在上述方案的基础上，所述装置还包括模型训练模块，用于：

获取样本图像帧以及所述样本图像帧对应的样本音乐；

基于所述样本图像帧以及所述样本图像帧对应的样本音乐构建音乐生成模型训练样本对，使用所述音乐生成模型训练样本对对预先构建的音乐生成模型进行训练，得到训练好的音乐生成模型。

可选的，在上述方案的基础上，所述装置还包括特征网络构建模块，用于：

在使用所述音乐生成模型训练样本对对预先构建的音乐生成模型进行训练之前，将自编码网络模型中编码网络的卷积层设置参数设置为目标设置参数，得到构建好的特征提取网络模块。

可选的，在上述方案的基础上，所述模型训练模块还用于：

获取样本图像帧以及所述样本图像帧对应的样本音乐；

基于所述样本图像帧构建自编码网络训练样本集，使用自编码网络训练样本集对预先构建的自编码网络模型进行训练，得到训练好的自编码网络模型，并将训练好的自编码网络模型中的编码网络作为所述特征提取网络模块；

将所述样本图像帧输入至所述特征提取网络模块中，获取所述特征提取网络模块输出的样本图像特征向量；

基于所述样本图像特征向量以及所述样本图像特征向量对应的样本音乐构建音乐生成网络训练样本对，使用所述音乐生成网络训练样本对对预先构建的音乐生成网络模块进行训练，得到训练好的音乐生成网络模块；

根据训练好的特征提取网络模块和训练好的音乐生成网络模块得到训练好的音乐生成模型。

可选的，在上述方案的基础上，所述装置还包括音乐网络构建模块，用于：

在循环神经网络与wavenet网络之间添加傅里叶变换模块，得到构建好的音乐生成网络模块。

可选的，在上述方案的基础上，所述图像帧获取模块410具体用于：

按照设定帧数间隔抽取所述待处理视频中的视频帧作为所述图像帧。

本发明实施例所提供的互动音乐生成装置可执行任意实施例所提供的互动音乐生成方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本发明实施例五所提供的智能音箱的结构示意图。图5示出了适于用来实现本发明实施方式的示例性智能音箱512的框图。图5显示的智能音箱512仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，智能音箱512以通用计算设备的形式表现。智能音箱512的组件可以包括但不限于：一个或者多个处理器516，系统存储器528，连接不同系统组件(包括系统存储器528和处理器516)的总线518。在本实施例中，智能音箱还可以包括图像获取装置(如摄像头)和显示屏，其中，图像获取装置用于对设定区域进行拍摄，获取用户互动视频，显示屏用于播放包含互动音乐的互动视频。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器516或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

智能音箱512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被智能音箱512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)530和/或高速缓存存储器532。智能音箱512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储装置534可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储器528中，这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。

智能音箱512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信，还可与一个或者多个使得用户能与该智能音箱512交互的设备通信，和/或与使得该智能音箱512能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且，智能音箱512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器520通过总线518与智能音箱512的其它模块通信。应当明白，尽管图中未示出，可以结合智能音箱512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器516通过运行存储在系统存储器528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的互动音乐生成方法，该方法包括：

获取待处理视频，提取所述待处理视频中的图像帧；

将所述互动音乐进行播放。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的互动音乐生成方法的技术方案。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的互动音乐生成方法，该方法包括：

获取待处理视频，提取所述待处理视频中的图像帧；

将所述互动音乐进行播放。

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的互动音乐生成方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种互动音乐生成方法，其特征在于，应用于智能音箱，包括：

获取待处理视频，提取所述待处理视频中的图像帧；

将所述互动音乐进行播放。

2.根据权利要求1所述的方法，其特征在于，所述音乐生成模型包括特征提取网络模块和音乐生成网络模块，所述将所述图像帧输入至预先训练好的音乐生成模型中，获得所述音乐生成模型输出的互动音乐，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

获取样本图像帧以及所述样本图像帧对应的样本音乐；

4.根据权利要求3所述的方法，其特征在于，在使用所述音乐生成模型训练样本对对预先构建的音乐生成模型进行训练之前，还包括：

将自编码网络模型中编码网络的卷积层设置参数设置为目标设置参数，得到构建好的特征提取网络模块。

5.根据权利要求2所述的方法，其特征在于，还包括：

获取样本图像帧以及所述样本图像帧对应的样本音乐；

6.根据权利要求2所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，所述提取所述待处理视频中的图像帧，包括：

8.一种互动音乐生成装置，其特征在于，包括：

互动音乐播放模块，用于将所述互动音乐进行播放。

9.一种智能音箱，其特征在于，所述音箱包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的互动音乐生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的互动音乐生成方法。