CN107239482B

CN107239482B - 一种将图像转换为音乐的处理方法及服务器

Info

Publication number: CN107239482B
Application number: CN201710237025.7A
Authority: CN
Inventors: 吴海涛; 李大朋; 郝巍娜; 李延坤; 张烨; 崔萌萌
Original assignee: Academy of Opto Electronics of CAS
Current assignee: Academy of Opto Electronics of CAS
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2019-11-15
Anticipated expiration: 2037-04-12
Also published as: CN107239482A

Abstract

本发明实施例提供一种将图像转换为音乐的处理方法及服务器，所述方法包括：获取携带有所述图像的情景信息的图像向量；根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合；根据所述音乐向量集合和第二预设规则，生成音乐。所述服务器执行上述方法。本发明实施例提供的将图像转换为音乐的处理方法及服务器，能够转换获得与图像中的情景信息匹配的音乐，实现图像艺术到音乐艺术的转换，以及“视”与“听”的统一。

Description

一种将图像转换为音乐的处理方法及服务器

技术领域

本发明实施例涉及人工智能技术领域，具体涉及一种将图像转换为音乐的处理方法及服务器。

背景技术

随着社会的发展，电影、动漫、插画、广告等都离不开图像与音乐这两种艺术表现形式。图像的优势是能够同时展示全部内容，但是不具有声音的属性，为了更好的满足人们听觉的体验，将图像全部内容转化为相应的音乐风格显得尤为重要。

现有技术可以通过画评的方式将图像转换成文字，而一段音乐可以通过作词家配词解释其意境，从而实现音乐与文字的统一。图像转文字、音乐转文字都可以有效的实现，然而对于图像中所体现的情景信息，却无法将其转化为与该情景信息相匹配的音乐。

因此，如何转换获得与图像中的情景信息匹配的音乐，实现图像艺术到音乐艺术的转换，以及“视”与“听”的统一，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种将图像转换为音乐的处理方法及服务器。

一方面，本发明实施例提供一种将图像转换为音乐的处理方法，所述方法包括：

获取携带有所述图像的情景信息的图像向量；

根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合；

根据所述音乐向量集合和第二预设规则，生成音乐。

另一方面，本发明实施例提供一种将图像转换为音乐的服务器，所述服务器包括：

获取模块，用于获取携带有所述图像的情景信息的图像向量；

第一生成模块，用于根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合；

第二生成模块，用于根据所述音乐向量集合和第二预设规则，生成音乐。

本发明实施例提供的将图像转换为音乐的处理方法及服务器，能够转换获得与图像中的情景信息匹配的音乐，实现图像艺术到音乐艺术的转换，以及“视”与“听”的统一。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例将图像转换为音乐的处理方法流程示意图；

图2为本发明另一实施例将图像转换为音乐的处理方法流程示意图；

图3为本发明实施例将图像转换为音乐的服务器结构示意图；

图4为本发明实施例提供的服务器实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例将图像转换为音乐的处理方法流程示意图，如图1所示，本实施例提供的将图像转换为音乐的处理方法，包括以下步骤：

S1：获取携带有所述图像的情景信息的图像向量。

具体的，服务器获取携带有所述图像的情景信息的图像向量。需要说明的是：图像的情景信息可以理解为图像所体现出的内容，可以是碧海蓝天的景色、其乐融融的一家人等，生成图像向量的方法是本领域比较成熟的技术，可以是基于卷积神经网络(Convolution Neural Networks，以下简称CNN)将一幅图像表示成一个向量，其中CNN可以在Image Net上预先训练，然后将倒数第二层的N维向量作为这个图像的图像向量。

S2：根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合。

具体的，服务器根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合。需要说明的是：第一预设规则可以是递归神经网络(Recurrent NeuralNetworks，以下简称RNN)，通过预先的学习训练，获得针对不同情景信息的样本图像向量与样本音乐向量的映射关系。这种映射关系体现为，一个图像向量映射成一个由多个音乐向量构成的音乐向量集合，其中，音乐向量可以包括有旋律要素、伴奏要素和乐器要素等音乐要素，其中旋律要素可以包括有乐曲趋势，乐曲趋势用于描述乐曲旋律上升或下降的趋势，还可以包括有调式风格(七声音阶、五声音阶、阿拉伯调式等)，调式起始音(C、升C、D、升D、E、F、升F、G、升G、A、升A、B的各个八度)；伴奏要素可以包括打击乐风格、拍速及和声风格(ROCK、POP、BLUES、JAZZ、R&B、COUNTRY等)；乐器要素可以包括有主旋律乐器和辅旋律乐器，主旋律乐器和辅旋律乐器可以从提琴、钢琴、吉他、萨克斯、二胡等中选择其中的一种或多种。

S3：根据所述音乐向量集合和第二预设规则，生成音乐。

具体的，服务器根据所述音乐向量集合和第二预设规则，生成音乐。需要说明的是：第二预设规则可以是层级递归神经网络(Hierarchical Recurrent Neural Networks，以下简称HRNN)，通过预先的学习训练，获得不同的样本音乐向量与不同风格的样本音乐的映射关系。这种映射关系体现为，一个音乐向量映射成一种风格的音乐，其中，样本音乐可以是包含有打击乐、和声、旋律等内容的多轨音乐。

本发明实施例提供的将图像转换为音乐的方法，能够转换获得与图像中的情景信息匹配的音乐，实现图像艺术到音乐艺术的转换，以及“视”与“听”的统一。

在上述实施例的基础上，所述根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合，包括：

将所述图像向量转化为与所述第一预设规则中的样本图像向量维数相同的标准化的图像向量。

具体的，服务器将所述图像向量转化为与所述第一预设规则中的样本图像向量维数相同的标准化的图像向量。例如：图像向量为N维，而第一预设规则中的样本图像向量为D维，则需要一个线性变换将图像向量表示为一个D维图像向量，线性变换的过程就是标准化图像向量的过程。

根据所述第一预设规则中的样本图像向量对应的样本音乐向量，为标准化后的图像向量生成相应的音乐向量。

具体的，服务器根据所述第一预设规则中的样本图像向量对应的样本音乐向量，为标准化后的图像向量生成相应的音乐向量。需要说明的是：根据RNN中的样本图像向量与样本音乐向量的映射关系，将标准化后的图像向量生成相应的音乐向量。一个图像向量可以映射有一个或多个音乐向量。样本音乐向量预先经过神经网络训练，并采用小节窗口内局部音的统计直方图聚类的方法获得样本音乐的乐曲趋势。

将所述音乐向量组成所述音乐向量集合。

具体的，服务器将所述音乐向量组成所述音乐向量集合。使得音乐向量集合汇集有多种的音乐向量。

本发明实施例提供的将图像转换为音乐的方法，通过先对图像向量进行标准化，保证了音乐向量的正常生成。

在上述实施例的基础上，所述第一预设规则为经过学习训练后的递归神经网络。

具体的，服务器所述第一预设规则为经过学习训练后的递归神经网络。可参照上述实施例，不再赘述。

本发明实施例提供的将图像转换为音乐的方法，通过学习训练后的递归神经网络生成音乐向量，使得生成的音乐向量合理地生成了图像向量。

在上述实施例的基础上，所述音乐向量集合中的每个音乐向量包括有旋律要素，所述旋律要素包括有乐曲趋势，相应的，所述根据所述音乐向量集合和第二预设规则，生成音乐，包括：

随机选择所述音乐向量集合中的一个作为目标音乐向量。

具体的，服务器随机选择所述音乐向量集合中的一个作为目标音乐向量。

随机重构所述目标音乐向量中的乐曲趋势。

具体的，服务器随机重构所述目标音乐向量中的乐曲趋势。重构的过程包括：对乐曲趋势进行随机间隔重采样，即每次采样的采样开始时间随机、采样时间段(采样过程的持续时间)也随机、并且可以循环采样。服务器设置有反映采样过程持续时间总和的预设值，该预设值可以根据实际情况自主设置，当服务器判断获知采样过程持续时间总和达到预设值，则终止采样动作，并将此时的已经采样得到的乐曲趋势作为重构后的乐曲趋势。

根据所述第二预设规则中的样本音乐向量对应的样本音乐，为重构乐曲趋势后的目标音乐向量生成相应的音乐。

具体的，服务器根据所述第二预设规则中的样本音乐向量对应的样本音乐，为重构乐曲趋势后的目标音乐向量生成相应的音乐。需要说明的是：根据HRNN中的样本音乐向量与样本音乐的映射关系，将重构乐曲趋势后的目标音乐向量生成相应的音乐。

本发明实施例提供的将图像转换为音乐的方法，通过学习训练后的层级递归神经网络生成音乐，使得生成的音乐更加合理地生成了音乐向量。

在上述实施例的基础上，所述随机重构所述目标音乐向量中的乐曲趋势，包括：

对所述乐曲趋势进行随机间隔重采样。

具体的，服务器对所述乐曲趋势进行随机间隔重采样。可参照上述实施例，不再赘述。

若判断获知所述随机间隔重采样的累积采样时间段达到预设值，则终止随机间隔重采样。

具体的，服务器若判断获知所述随机间隔重采样的累积采样时间段达到预设值，则终止随机间隔重采样。可参照上述实施例，不再赘述。

将终止时刻所获得的随机间隔重采样得到的乐曲趋势作为重构后的乐曲趋势。

具体的，服务器将终止时刻所获得的随机间隔重采样得到的乐曲趋势作为重构后的乐曲趋势。可参照上述实施例，不再赘述。

本发明实施例提供的将图像转换为音乐的方法，通过重构乐曲趋势后的目标音乐向量生成音乐，使得生成的音乐更加多样化。

在上述实施例的基础上，所述第二预设规则为经过学习训练后的层级递归神经网络。

具体的，服务器所述第二预设规则为经过学习训练后的层级递归神经网络。可参照上述实施例，不再赘述。

本发明实施例提供的将图像转换为音乐的方法，通过学习训练后的层级递归神经网络生成音乐，使得生成的音乐合理地生成了目标音乐向量。

图2为本发明另一实施例将图像转换为音乐的处理方法流程示意图，下面结合图2简单说明将图像转换为音乐的处理方法流程：

如图2所示CNN、RNN和HRNN都需要预先进行样本学习训练，为了保证输出结果的准确性，尽量保证较大的样本量。将图像通过训练好的CNN获得图像向量；再将图像向量通过训练好的RNN获得音乐向量集；随机选择音乐向量集中的一个目标音乐向量，再对该目标音乐向量中的乐曲趋势进行重构，将重构后的目标音乐向量通过训练好的HRNN获得音乐。

图3为本发明实施例将图像转换为音乐的服务器结构示意图，如图3所示，本发明实施例提供了一种将图像转换为音乐的服务器，包括获取模块1、第一生成模块2和第二生成模块3，其中：

获取模块1用于获取携带有所述图像的情景信息的图像向量；第一生成模块2用于根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合；第二生成模块3用于根据所述音乐向量集合和第二预设规则，生成音乐。

具体的，获取模块1用于获取携带有所述图像的情景信息的图像向量，获取模块1将图像向量发送给第一生成模块2，第一生成模块2用于根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合，第一生成模块2将音乐向量集合发送给第二生成模块3，第二生成模块3用于根据所述音乐向量集合和第二预设规则，生成音乐。

本发明实施例提供的将图像转换为音乐的服务器，能够转换获得与图像中的情景信息匹配的音乐，实现图像艺术到音乐艺术的转换，以及“视”与“听”的统一。

在上述实施例的基础上，所述第一生成模块2具体用于：

将所述图像向量转化为与所述第一预设规则中的样本图像向量维数相同的标准化的图像向量；根据所述第一预设规则中的样本图像向量对应的样本音乐向量，为标准化后的图像向量生成相应的音乐向量；将所述音乐向量组成所述音乐向量集合。

具体的，所述第一生成模块2具体用于：将所述图像向量转化为与所述第一预设规则中的样本图像向量维数相同的标准化的图像向量；根据所述第一预设规则中的样本图像向量对应的样本音乐向量，为标准化后的图像向量生成相应的音乐向量；将所述音乐向量组成所述音乐向量集合。

本发明实施例提供的将图像转换为音乐的服务器，通过先对图像向量进行标准化，保证了音乐向量的正常生成。

具体的，服务器中的所述第一预设规则为经过学习训练后的递归神经网络。

本发明实施例提供的将图像转换为音乐的服务器，通过学习训练后的递归神经网络生成音乐向量，使得生成的音乐向量合理地生成了图像向量。

在上述实施例的基础上，所述音乐向量集合中的每个音乐向量包括有旋律要素，所述旋律要素包括有乐曲趋势，相应的，所述第二生成模块3具体用于：

随机选择所述音乐向量集合中的一个作为目标音乐向量；随机重构所述目标音乐向量中的乐曲趋势；根据所述第二预设规则中的样本音乐向量对应的样本音乐，为重构乐曲趋势后的目标音乐向量生成相应的音乐。

具体的，所述第二生成模块3具体用于：

本发明实施例提供的将图像转换为音乐的服务器，通过学习训练后的层级递归神经网络生成音乐，使得生成的音乐更加合理地生成了音乐向量。

本发明实施例提供的将图像转换为音乐的服务器具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图4为本发明实施例提供的服务器实体结构示意图，如图4所示，所述服务器包括：处理器(processor)401、存储器(memory)402和总线403；

其中，所述处理器401、存储器402通过总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取携带有所述图像的情景信息的图像向量；根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合；根据所述音乐向量集合和第二预设规则，生成音乐。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取携带有所述图像的情景信息的图像向量；根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合；根据所述音乐向量集合和第二预设规则，生成音乐。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取携带有所述图像的情景信息的图像向量；根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合；根据所述音乐向量集合和第二预设规则，生成音乐。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的服务器等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种将图像转换为音乐的处理方法，其特征在于，包括：

获取携带有所述图像的情景信息的图像向量；

根据所述音乐向量集合和第二预设规则，生成音乐；

所述音乐向量集合中的每个音乐向量包括有旋律要素，所述旋律要素包括有乐曲趋势，相应的，所述根据所述音乐向量集合和第二预设规则，生成音乐，包括：

随机选择所述音乐向量集合中的一个作为目标音乐向量；

随机重构所述目标音乐向量中的乐曲趋势；

2.根据权利要求1所述的方法，其特征在于，所述根据所述图像向量和第一预设规则，生成与所述情景信息对应的音乐向量集合，包括：

将所述图像向量转化为与所述第一预设规则中的样本图像向量维数相同的标准化的图像向量；

根据所述第一预设规则中的样本图像向量对应的样本音乐向量，为标准化后的图像向量生成相应的音乐向量；

将所述音乐向量组成所述音乐向量集合。

3.根据权利要求1所述的方法，其特征在于，所述第一预设规则为经过学习训练后的递归神经网络。

4.根据权利要求1所述的方法，其特征在于，所述随机重构所述目标音乐向量中的乐曲趋势，包括：

对所述乐曲趋势进行随机间隔重采样；

若判断获知所述随机间隔重采样的累积采样时间段达到预设值，则终止随机间隔重采样；

5.根据权利要求1所述的方法，其特征在于，所述第二预设规则为经过学习训练后的层级递归神经网络。

6.一种将图像转换为音乐的服务器，其特征在于，包括：

第二生成模块，用于根据所述音乐向量集合和第二预设规则，生成音乐；

所述音乐向量集合中的每个音乐向量包括有旋律要素，所述旋律要素包括有乐曲趋势，相应的，所述第二生成模块具体用于：

随机选择所述音乐向量集合中的一个作为目标音乐向量；

随机重构所述目标音乐向量中的乐曲趋势；

7.根据权利要求6所述的服务器，其特征在于，所述第一生成模块具体用于：

将所述音乐向量组成所述音乐向量集合。

8.根据权利要求6所述的服务器，其特征在于，所述第一预设规则为经过学习训练后的递归神经网络。