CN110767201B

CN110767201B - 一种配乐生成方法、存储介质及终端设备

Info

Publication number: CN110767201B
Application number: CN201810833951.5A
Authority: CN
Inventors: 豆泽云
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2023-09-05
Anticipated expiration: 2038-07-26
Also published as: CN110767201A

Abstract

本申请公开了一种配乐生成方法、存储介质及终端设备，所述方法包括：接收用户输入的多媒体文件，其中，所述多媒体文件至少包含视频和/或图像；将所述多媒体文件转换为第一上下文向量；将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息；根据所述音频信息生成所述多媒体文件对应的配乐。本申请通过将多媒体文件对应的第一上下文向量输入预设神经网络中，通过所述神经网络生成所述多媒体文件的音频信息，在根据音频信息生成相应的配乐，以使得通过神经网络为多媒体文件配乐，从而实现了为自动为多媒体文件生成原创音频作为配乐，一方面提高了多媒体文件与配乐的匹配性，另一方面提高为多媒体文件配乐的便捷性和快速性。

Description

一种配乐生成方法、存储介质及终端设备

技术领域

本申请涉及智能终端技术领域，特别涉及一种配乐生成方法、存储介质及终端设备。

背景技术

随着今年人工智能技术的快速发展，其领域内的神经网络技术的应用得到了广泛的研究和运用，从基于神经网络的图像分类，文本分类到文本生成，语音合成等等都体现了神经网络技术的强大能力。而目前为止这项技术多被用于在智能设备上的照相、照片处理以及个人语音助手等领域。但是，在智能设备使用过程中，还有许多功能可以应用神经网络技术。例如，智能终端在播放图像或视频的同时可以为其配置相应的音频文件（即为配乐），以提高图像和视频的播放意境。但是，现有技术中，终端设备在播放图像之前，通常需要人工选择与之相配合的配乐，以在播放图像或视频时同步播放，这种人工选择的处理方式人为主观性比较大，并且容易出现播放图像与配乐不匹配的问题。因此，如何将神经网络技术应用于为图像或视频进行配乐，成为人们关注的焦点。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种配乐生成方法、存储介质及终端设备，以实现通过神经网络为多媒体文件生成配乐。

本申请所采用的技术方案如下：

一种配乐生成方法，其包括：

接收用户输入的多媒体文件，其中，所述多媒体文件至少包含视频和/或图像；

将所述多媒体文件转换为第一上下文向量；

将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息；

根据所述音频信息生成所述多媒体文件对应的配乐。

所述的述配乐生成方法，其中，所述将所述多媒体文件转换为第一上下文向量具体为：

将所述多媒体文件输入预设的第一编码神经网络，通过所述第一编码神经网络编码以得到第一上下文向量。

所述的述配乐生成方法，其中，所述将所述多媒体文件转换为第一上下文向量还包括：

提取所述多媒体文件包含的视频，并在提取到视频时按照预设策略在提取到的各视频中分别抽取若干图像帧；

采用各视频对应的所有图像帧替换相应的视频，以更新所述多媒体文件。

所述的述配乐生成方法，其中，所述采用各视频对应的所有图像帧替换相应的视频，以更新所述多媒体文件具体包括：

获取各视频提取到的所有图像帧在相应的视频中的视频顺序，并根据预设的播放顺序确定各视频所对应的播放顺序；

根据所述视频顺序以及各视频的播放顺序确定各图像帧的播放顺序，并根据所述各图像帧的播放顺序更新所述预设的播放顺序；

将多媒体文件包含的所有图像帧以及图像按照更新后的播放顺序进行拼接以得到图像文件，并采用所述图像文件替换所述多媒体文件以更新所述多媒体文件。

所述配乐生成方法，其中，所述多媒体文件还包括文本信息，所述将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息具体包括：

将所述文本信息转换为第二上下文向量，并根据所述第一上下向量和第二上下文向量更新所述第一上下文向量；

将所述更新后的第一上下文向量输入预设的神经网络以得到其对应的音频信息。

所述配乐生成方法，其中，所述将所述文本信息转换为第二上下文向量，并根据所述第一上下向量和第二上下文向量更新所述第一上下文向量具体包括：

将所述文本信息输入第二编码神经网络编码以得到所述第二上下文向量；

将所述第二上下文向量与所述第一上下文向量进行拼接以得到第三上下文向量，并采用所述第三上下文向量更新所述第一上下文向量。

所述配乐生成方法，其中，所述将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息具体包括：

将所述第一上下文向量分别输入预设的主旋律神经网络和伴奏神经网络；

所述主旋律神经网络和伴奏神经网络分别根据预设目标时长生成相应的主旋律和伴奏旋律，以得到所述第一上下文向量对应的音频信息。

所述配乐生成方法，其中，所述根据所述音频信息生成所述多媒体文件对应的配乐具体为：

将所述主旋律和伴奏旋律进行合成以得到所述多媒体文件对应的配乐。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的配乐生成方法中的步骤。

一种终端设备，其包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的配乐生成方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种配乐生成方法、存储介质及终端设备，所述方法包括：接收用户输入的多媒体文件，其中，所述多媒体文件至少包含视频和/或图像；将所述多媒体文件转换为第一上下文向量；将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息；根据所述音频信息生成所述多媒体文件对应的配乐。本申请通过将多媒体文件对应的第一上下文向量输入预设神经网络中，通过所述神经网络生成所述多媒体文件的音频信息，在根据音频信息生成相应的配乐，以使得通过神经网络为多媒体文件配乐，从而实现了为自动为多媒体文件生成原创音频作为配乐，一方面提高了多媒体文件与配乐的匹配性，另一方面提高为多媒体文件配乐的便捷性和快速性。

附图说明

图1为本申请提供的配乐生成方法的一个实施例的流程图。

图2为本申请提供的配乐生成方法的一个实施例中步骤S20的流程图。

图3为本申请提供的配乐生成方法的一个实施例中步骤S22的流程图。

图4为本申请提供的一种应用自启动的控制系统较佳实施例的结构原理图。

具体实施方式

本申请提供一种配乐生成方法、存储介质及终端设备，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供的一种配乐生成方法，如图1所示，所述方法包括：

S10、接收用户输入的多媒体文件，其中，所述多媒体文件至少包含视频和/或图像。

具体地，所述多媒体文件为用户输入，也可以是用户在终端设备的图像库中选取的。所述多媒体文件至少包括视频和图像中的一种，也就是说，所述多媒体文件不可以为空，至少存在一张图片或者一个视频。当然，所述多媒体文件中可以同时包括视频和图像，并且视频和图像的数量均可以为多个。此外，所述多媒体文件中还可以包括文本信息，所述文本信息用于标示所述配乐的风格，例如，唯美等。并且所述文本信息还可以设置上限值，当接收到文本信息时，获取所述文本信息携带的字节数，并将所述字节数与上限值进行比较，当字节数大于上限值时，提示用户修改或者重新输入所述文本信息。在接收到重新输入或者修改的第一文本信息时，采用第一文本信息替换所述文本信息，在未收到重新输入或者修改的第一文本信息时，将文本信息进行分词和词性标注处理，过滤掉辅助词性，保留指定词性的单词，如名词，形容词等，并根据保留的单词生成更新所述文本信息，如果更新后的文本信息满足上限值要求则保留所述文本信息，而仍不满足上限值要求，则提示用户输入错误。

同时在本实施例中，在接收用户输入的多媒体文件时，记录所述多媒体文件包含的各视频和/或各图像的输入顺序，并将所述输入顺序显示给用户以让确定用户确定各视频和/或各图像的播放顺序。当然，当显示各视频和/或各图像的输入顺序后，可以接收用户对所述播放顺序的调整，并采用调整后的顺序更新所述播放顺序，并将更新后的播放顺序作为所述多媒体文件对应的预设的播放顺序，以便于后续根据所述预设的播放顺序对各视频和/或图像进行排序。在实际应用中，可以将多媒体文件包含的各视频和/或各图像按照输入顺序显示于显示界面，接收用户对各视频和/或各图像执行的拖拽操作，并根据所述拖拽操作更新各视频和/或各图像的显示顺序，并将所述各视频和/图像的最后显示顺序作为所述多媒体文件的预设的播放顺序。

S20、将所述多媒体文件转换为第一上下文向量。

具体地，所述第一上下文向量为根据所述多媒体文件确定所述多媒体文件对应的序列信息，该序列信息包括多媒体文件所有的内容信息，所述第一上下向量为预设的神经网络的输入项，也就是说，将所述第一上下向量作为所述预设的神经网络的输入项输入所述预设神经网络，以通过所述预设的神经网络得到音频信息。其中，所述第一上下文向量可以是通过编码神经网络得到。

示例性的，所述将所述多媒体文件转换为第一上下文向量具体为：将所述多媒体文件输入预设的第一编码神经网络，通过所述第一编码神经网络编码以得到第一上下文向量。其中，所述第一编码神经网络为预先训练得到的，用于将所述多媒体文件转换为第一上下文向量。在本实施例中，所述第一编码神经网络可以采用卷积神经网络CNN，即通过卷积神经网络得到所述多媒体文件对应的第一上下文向量。当然，所述第一编码神经网络的训练过程为通过若干训练样本进行深度学习以生成所述第一编码神经网络模型，并且所述深度学习过程与现有神经网络的深度学习过程相同，这里就不再详细说明。

同时在本实施例中，在获取所述多媒体文件之前，还需要将所述多媒体文件包含的视频转换为图像帧，以使得所述多媒体文件中仅包含图片，并将仅包含有图片的多媒体文件作为第一编码神经网络的输入项。相应的，如图2所示，所述将所述多媒体文件转换为第一上下文向量还包括：

S21、提取所述多媒体文件包含的视频，并在提取到视频时按照预设策略在提取到的各视频中分别抽取若干图像帧；

S22、采用各视频对应的所有图像帧替换相应的视频，以更新所述多媒体文件。

具体地，所述预设策略为预先设置的，根据所述预设策略从各视频抽取其包含的图片帧。所述预设策略可以为随机抽取，也可以为根据图像的对比度和/或亮度确定，例如，提取亮度在预设范围内的图像帧，其还可以根据图像帧携带的内容确定，例如，采用现有的opencv的算法来确定携带人形物体以及建筑型物体等物体的图像帧，这样抽取可以更大概率的抽取到有意义的图像。此外，在根据预设策略抽取图像帧后，可以获取图图像以及抽取到的图像帧的图像数量，并将所述图像数量与图像数量上限值进行比较，如果图像数量大于图像数量上下值，可以对抽取到的图像帧进行筛选以使得所述图像数量满足图像数量上限值。所述筛选可以按照预设筛选条件进行筛选，所述预设筛选条件可以为根据图像帧的图片质量进行筛选，保留图像质量高的图像帧，所述预设筛选条件可以为根据图像帧的色调来确定，例如，将图像帧按照由暖色调向冷色调选取，或者由冷色调向暖色调选取等，其中，所述色调可以根据图像帧中所有像素的黄色成分的平均值来确定等。

另外，在本实施例的变形实施例中，在各视频中抽取图像帧之前，可以根据多媒体文件包含的图像的第一数量和图像数量上限值确定待抽取图像帧的第二数量，根据所述第二数量以及视频数量确定各视频需抽取的图像帧的数量，并按照预设抽取策略在各视频中抽取对应数量的图像帧。例如，在各视频中随机抽取相应数量的图像帧。此外，根据第二数量和视频数量确定各视频需要抽取的图像帧的数量时可以采用等分原则等。

进一步，在抽取到图像帧之后，采用各视频抽取到的图像帧替换其对也得视频，以更新所述多媒体文件，即更新后的多媒体文件中有接收到的图像和/或抽取到图像帧。并且在采用抽取到的图像帧替换其对应的视频后，需要根据预设的播放顺序确定抽取到的图像帧的播放顺序，以便于根据播放顺序对图像和/或图像帧进行排序。相应的，如图3所示，所述采用各视频对应的所有图像帧替换相应的视频，以更新所述多媒体文件具体包括：

S221、获取各视频提取到的所有图像帧在相应的视频中的视频顺序，并根据预设的播放顺序确定各视频所对应的播放顺序；

S222、根据所述视频顺序以及各视频的播放顺序确定各图像帧的播放顺序，并根据所述各图像帧的播放顺序更新所述预设的播放顺序；

S223、将多媒体文件包含的所有图像帧以及图像按照更新后的播放顺序进行拼接以得到图像文件，并采用所述图像文件替换所述多媒体文件以更新所述多媒体文件。

具体地，在各视频抽取到图像帧后，可以根据各图像帧的帧号确定各图像帧在其对应的视频中的播放顺序，在获取该视频在预设的播放顺序中的顺序，将该视频对应的所有图像帧按照帧号依次插入该视频所处位置，也就是说，将抽取到图像帧按照帧号排列生成图像帧列，在采用该图像帧列替换其对应的视频，将所述视频对应的播放顺序记为所述图像帧列的播放顺序，这样根据图像帧列的播放顺序以及图像帧列内各图像帧的帧号可以确定各图像帧的播放顺序，这样就根据确定图像和图像帧构成的多媒体文件的第一播放顺序，在根据所述第一播放顺序将各图像和图像帧拼接为一张图像文件。例如，将图像和/或视频中抽取的各图像帧按第一播放顺序拼接为一张横向的图片，以得到所述图像文件。此外，在获取到该图像文件后，可以获取所述图像文件的长度以确定所述图像文件是否满足第一编码神经网络输入的长度要求，当不满足可以在所述图像文件后添加0像素以其对进行补充，使得补充后的图像文件满足第一编码神经网络的输入要求。

S30、将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息。

具体地，所述第一上下文向量是根据多媒体文件得到，而当所述多媒体文件包含文本信息时，所述第一上下文向量是根据视频和/或图像拼装而成的图像文件对应的上下文向量和文本信息对应的上下文向量得到的。从而，在多媒体文件包含文本信息时，还需要通过文本信息对应的第二编码神经网络确定其对应的上下文向量，并将图像文件对应的上下文向量和文本信息对应的上下文向量进行拼接以得到所述第一上下文向量。相应的，当多媒体文件包括文本信息时，所述将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息具体包括：

具体地，所述文本信息对应的第二上下文向量可以通过预先设置的第二编码神经网络得到，所述第二编码神经网络可以采用循环递归网络RNN，通过所述循环递归网络确定所述文本信息对应的第二上下文向量。需要说明的是，在将文本信息转换为对应的第二上下文向量之前，需要预先建立一个字典/词典，该字典/词典中的每一个字/词具有一个对应的id信息，该id信息为一向量信息，此处的向量信息可以是随机初始化的或者经过大量综合文本语料预训练的“字/词向量”，例如，所述文本信息为“唯美”，其中，所述 “唯”字对应的向量是[0.02, 0.14, 0.45]， “美”字是[0.77, 0.22, 0.11]，那么所述唯美对应的词向量为[0.02, 0.14, 0.45, 0.77, 0.22, 0.11]。

示例性，所述将所述文本信息转换为第二上下文向量，并根据所述第一上下向量和第二上下文向量更新所述第一上下文向量具体包括：

将所述文本信息对应的词向量输入第二编码神经网络编码以得到所述第二上下文向量；

具体地，所述文本信息输入所述第二编码神经网络前，可以根据预设文本字典确定文本信息中各字对应的ID，并根据所述ID生成文本信息对应的向量，将所述向量作为第二编码神经网络的输入项，输入所述第二编码神经网络以得到其对应的第二上下文向量。在获取到第二上下文向量后，可以将所述第二上下文向量与第一上下文向量进行拼接以得到第三上下文向量，并采用所述第三上下文向量更新所述第一上下文向量。在实际应用中，所述第二上下文向量与第一上下文向量进行拼接可以按不同维度来拼接，例如，当第二上下文向量和第一上下文向量分别是m*n的矩阵，拼接后可以是2m*n，m*2n，2*m*n等等。在本实施例中，优选将第二上下文向量和第一上下文向量按照列方向拼接，并且行数较小的上下文向量采用0补齐行数。

同时在本实施例中，所述预设的神经网络可以包括两个神经网络，分别为主旋律神经网络和伴奏神经网络，而将所述第一上下文向量输入预设的神经网络为分别将所述第一上下文向量输入主旋律神经网络和伴奏神经网络。相应的，所述将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息具体包括：

具体地，所述主旋律神经网络和伴奏神经网络为两个神经网络，例如，主旋律神经网络和伴奏神经网络均为RNN类型的神经网络，并且主旋律神经网络和伴奏神经网络可以根据目标时长为所述第一上下文件向量生成主旋律和伴奏旋律。例如，主旋律神经网络和伴奏神经网络均以500ms为间隔的音符，那么120个音符构成一分钟的音乐内容，再根据每小节的音符是否相同或是否为空音符确定音乐内容的节奏，进而得到音频信息。

S40、根据所述音频信息生成所述多媒体文件对应的配乐。

具体地，所述音频信息包括主旋律和伴奏旋律，再将所述主旋律和伴奏旋转进行合成得到多媒体文件对应的配乐。此外，所述音频信息可以为音符信息，也可以是声谱图。如果得到的是音符信息，可以为主旋律和伴奏旋律包含的音符确定其对应的乐器的音色，在根据所述音乐和音符生成所述多媒体文件的配乐；如果得到的是声谱信息，那么可以直接将所述声谱图合成为波形文件以得到所述多媒体文件对应的配乐。在实际应用中，当所述音频信息为音符信息时，为所述音符信息配置乐器音色可以按照预设规则进行选取，所述预设规则为预先设置，例如，当音频信息包含有120个音符，配乐的目标时长为1分钟时，一秒钟需要演奏2个音符，相应的，所述配乐可以为44拍，并且每10个小节使用一种乐器音色。

基于上述配乐生成方法，本申请还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的配乐生成方法中的步骤。

基于上述配乐生成方法，本申请还提供一种终端设备，如图4所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及移动终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种配乐生成方法，其特征在于，其包括：

将所述多媒体文件转换为第一上下文向量；

根据所述音频信息生成所述多媒体文件对应的配乐；

所述将所述多媒体文件转换为第一上下文向量还包括：

采用各视频对应的所有图像帧替换相应的视频，以更新所述多媒体文件；

所述采用各视频对应的所有图像帧替换相应的视频，以更新所述多媒体文件具体包括：

2.根据权利要求1所述配乐生成方法，其特征在于，所述将所述多媒体文件转换为第一上下文向量具体为：

3.根据权利要求1所述配乐生成方法，其特征在于，所述多媒体文件还包括文本信息，所述将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息具体包括：

将所述文本信息转换为第二上下文向量，并根据所述第一上下向量和所述第二上下文向量更新所述第一上下文向量；

4.根据权利要求3所述配乐生成方法，其特征在于，所述将所述文本信息转换为第二上下文向量，并根据所述第一上下向量和第二上下文向量更新所述第一上下文向量具体包括：

5.根据权利要求1-4任一所述的配乐生成方法，其特征在于，所述将所述第一上下文向量输入预设的神经网络以得到所述多媒体文件对应的音频信息具体包括：

6.根据权利要求5所述的配乐生成方法，其特征在于，所述根据所述音频信息生成所述多媒体文件对应的配乐具体为：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-6任意一项所述的配乐生成方法中的步骤。

8.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述通信总线实现处理器和存储器之间的连接通信；所述处理器执行所述计算机可读程序时实现如权利要求1-6任意一项所述的配乐生成方法中的步骤。