CN110444185A

CN110444185A - 一种音乐生成方法及装置

Info

Publication number: CN110444185A
Application number: CN201910717309.5A
Authority: CN
Inventors: 黄强
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-11-12
Anticipated expiration: 2039-08-05
Also published as: CN110444185B

Abstract

本申请公开了一种音乐生成方法及装置。该方法包括：对目标图像进行特征提取，获得所述目标图像的特征数据；根据预设转换规则获取所述目标图像的特征数据对应的音符数据；基于所述音符数据生成目标音乐数据。还公开了相应的装置。可以基于图像特征生成原创音乐，与原图像的关联性强。

Description

一种音乐生成方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种音乐生成方法及装置。

背景技术

为了增添趣味性，在终端设备显示图像时，可以播放与该图片相关联的音乐。一般而言，终端设备通过分析图像特征，确定图像风格，从而在已有的音乐数据库中获取与该图像风格匹配的音乐，进而可以通过播放器播放本次获取的音乐。

在实现本发明过程中，发明人发现现有技术是在已有的音乐数据库中搜索与图像匹配的音乐，容易出现匹配的音乐和对应的图片关联性较差的情况，也通常需要音乐版权，可见匹配效果差，选择性较低。

发明内容

本申请提供了一种音乐生成方法及装置，可以基于图像生成原创音乐。

第一方面，提供了一种音乐生成方法，包括：对目标图像进行特征提取，获得所述目标图像的特征数据；

根据预设转换规则获取所述目标图像的特征数据对应的音符数据；

基于所述音符数据生成目标音乐数据。

在一种可能的实现方式中，所述根据预设转换规则获取所述目标图像的特征数据对应的音符数据，包括：

根据预设转换规则获取所述目标图像的特征数据对应的单音音符和和弦音符；

所述基于所述音符数据生成目标音乐数据包括：

将所述单音音符依次排列形成的音轨与所述和弦音符依次排列形成的音轨结合，生成所述目标音乐数据。

在另一种可能的实现方式中，所述根据预设转换规则获取所述目标图像的特征数据对应的单音音符和和弦音符，包括：

根据所述预设转换规则确定所述目标图像的特征数据对应的音高和力度，确定所述目标图像的特征数据对应的和弦音符；

获取所述音高和所述力度的单音音符；获取所述目标图像的特征数据对应的和弦音符。

在又一种可能的实现方式中，所述根据所述预设转换规则确定所述目标图像的特征数据对应的单音音符的音高和力度之后，所述方法还包括：

根据所述单音音符的音高和/或力度确定所述单音音符的长度以及所述单音音符之间的间隔。

在又一种可能实现的方式中，所述对目标图像进行特征提取，获得所述目标图像的特征数据包括：

将所述目标图像均等分割为m份区域，再将所述m份区域中的每份区域均等分割为w份，获得m*w个子图像；

获得所述m*w个子图像的亮度特征数据和/或颜色特征数据，其中，所述m和所述w为大于1的整数。

在又一种可能实现的方式中，所述亮度特征数据包含亮度值，所述根据所述预设转换规则确定所述目标图像的特征数据对应的音高和力度包括：

根据预设的亮度值与音高的对应关系，获取第一子图像的亮度值对应的音高，作为所述第一子图像所对应的音高，所述第一子图像为所述m*w个子图像中的一个；

根据预设的音高与力度的对应关系，获取所述第一子图像所对应的音高所对应的力度，作为所述第一子图像所对应的单音音符的力度；

执行上述步骤直到确定全部所述m*w个子图像所对应的音高和所述第一子图像所对应的单音音符的力度。

在又一种可能实现的方式中，所述根据预设的音高与力度的对应关系，获取所述单音音符的音高对应的力度，作为所述第一子图像所对应的单音音符的力度包括：

若所述单音音符的音高属于第一音高区间，根据预设的第一音高区间的音高与力度的对应关系，获取所述单音音符的音高对应的力度，作为所述第一子图像所对应的单音音符的力度；

若所述单音音符的音高属于第二音高区间，根据预设的第二音高区间的音高与力度的对应关系，获取所述单音音符的音高对应的力度，作为所述第一子图像所对应的单音音符的力度。

第二方面，提供了一种音乐生成装置，包括：特征提取单元，用于对目标图像进行特征提取，获得所述目标图像的特征数据；

转换单元，用于根据预设转换规则获取所述目标图像的特征数据对应的音符数据；

生成单元，用于基于所述音符数据生成目标音乐数据。

在一种可能的实现方式中，所述转换单元具体用于，根据预设转换规则获取所述目标图像的特征数据对应的单音音符和和弦音符；

所述生成单元具体用于，将所述单音音符依次排列形成的音轨与所述和弦音符依次排列形成的音轨结合，生成所述目标音乐数据。

在另一种可能的实现方式中，所述转换单元包括：

确定子单元，用于根据所述预设转换规则确定所述目标图像的特征数据对应的音高和力度，确定所述目标图像的特征数据对应的和弦音符；

获取子单元，用于：

获取所述音高和所述力度的单音音符；

获取所述目标图像的特征数据对应的和弦音符。

在又一种可能的实现方式中，所述确定子单元还用于：

在又一种可能的实现方式中，所述特征提取单元包括：

图像处理子单元，用于将所述目标图像均等分割为m份区域，再将所述m份区域中的每份区域均等分割为w份，获得m*w个子图像；

特征获取子单元，用于获得所述m*w个子图像的亮度特征数据和/或颜色特征数据，其中，所述m和所述w为大于1的整数。

在又一种可能的实现方式中，所述亮度特征数据包含亮度值，所述确定子单元具体用于：

第三方面，提供了另一种音乐生成装置，包括：包括处理器、存储器；所述存储器用于存储计算机程序，所述计算机程序被配置成由所述处理器执行，所述处理器用于执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面及其任一种可能的实现方式的方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面及其任一种可能的实现方式的方法。

本申请通过对目标图像进行特征提取，获得所述目标图像的特征数据，再根据预设转换规则获取所述目标图像的特征数据对应的音符数据，基于所述音符数据生成目标音乐数据，可以选择目标图像生成原创音乐并进行播放，不需要依靠音乐库，提高了图像与音乐的关联性。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种音乐生成方法的流程示意图；

图2为本申请实施例提供的另一种音乐生成方法的示意图；

图3为本申请实施例提供的一种目标图像的分割示意图；

图4为本申请实施例提供的一种目标音乐数据的音轨示意图；

图5为本申请实施例提供的一种音乐生成装置的结构示意图；

图6为本申请实施例提供的一种音乐生成装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例提供的一种音乐生成方法的流程示意图。

101、对目标图像进行特征提取，获得上述目标图像的特征数据。

执行本申请实施例步骤的主体可以为音乐生成装置，可以为终端设备或服务器或其它处理设备，其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该音乐生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现，本申请实施例不做限定。

本申请实施例中的目标图像可以为任意风格的图像或者照片，比如可以为终端设备通过摄像头采集的照片，或者从网络上下载的各类图像，本申请实施例不作限制。本申请实施例对目标图像的大小、形状和格式不作限制。

可选的，在步骤101之前，可以获取用户上传的目标图像。用户可以通过终端设备选择目标图像进行音乐生成处理，其中选择图像时具体的交互过程不做限制。

本申请实施例中的特征提取是计算机视觉和图像处理中的一个概念，一般指的是使用计算机提取图像信息，决定图像中的像素点是否属于一个图像特征。

其中，上述特征数据可以理解为反映该图像特征的参数数据，可以包括亮度特征数据和/或颜色特征数据。

对于图像颜色的特征提取，在图像处理中，可以将一个具体的像素点所呈现的颜色分多种方法分析，并提取出其颜色特征分量。比如通过手工标记区域提取一个特定区域(regiom*w)的颜色特征，用该区域在一个颜色空间三个分量各自的平均值表示，或者可以建立三个颜色直方图等方法。

本申请实施例中的颜色直方图，用以反映图像颜色的组成分布，即各种颜色出现的概率。利用颜色空间三个分量的剥离得到颜色直方图，之后通过观察实验数据发现将图像进行旋转变换、缩放变换、模糊变换后图像的颜色直方图改变不大，即图像直方图对图像的物理变换是不敏感的。因此常提取颜色特征并用颜色直方图应用于衡量和比较两幅图像的全局差。另外，如果图像可以分为多个区域，并且前景与背景颜色分布具有明显差异，则颜色直方图呈现双峰形。

可选的，也可以使用主色调直方图，它基于假设少数几个像素的值能够表示图像中的绝大部分像素，即出现频率最高的几个像素被选为主色，仅用主色构成的主色调直方图描述一幅图像。这样的描述子并不会降低通过颜色特征进行匹配的效果。

在一种可选的实施方式中，可以将上述目标图像均等分割为m*w个子图像；

获得上述m*w个子图像的亮度特征数据和/或颜色特征数据，其中，上述m*w为大于1的整数。

具体的，上述特征数据的获取可以是分区域获取的目标图像的多个特征数据，可以将目标图像均等分割为m*w块，获得m*w个子图像，其中，上述m*w为大于1的整数。进一步地，可以分别获取该m*w个子图像的亮度特征数据和/或颜色特征数据，用于执行图像特征数据到音符数据的转换。

在获得上述目标图像的特征数据之后可以执行步骤102。

102、根据预设转换规则获取上述目标图像的特征数据对应的音符数据。

本申请实施例中可以存储有上述预设转换规则，可以理解为图像的特征数据与音符数据的对应关系。通过获取到的上述特征数据，可以从中确定特征数据对应的音符数据，进而可以从预设的音符数据库中获取对应的音符。上述音符数据可以包括多个音符。

在一种可选的实施方式中，上述音符数据可以包括单音音符和和弦音符，其中，单音音符就是单个的音符，比如可以包括“Do”、“Ri”、“Me”、“Fa”、“So”、“La”、“Si”的音符；而和弦(Chord)是乐理上的一个概念，指的是一定音程关系的一组声音，将三个或以上的音，按照三度或非三度的叠置关系，在纵向上加以结合，就成为和弦。上述音符的长度、力度、间隔等可以是不同的。

在一种可选的实施方式中，可以根据上述预设转换规则确定上述目标图像的特征数据对应的音高和力度，以及确定所述目标图像的特征数据对应的和弦音符；

获取上述音高和上述力度的单音音符；获取上述和弦音符。

具体的，上述音高指各种不同高低的声音，即音的高度，音的基本特征的一种。音的高低是由振动频率决定的，两者成正相关关系。频率即单位时间内振动次数的多少，高则音"高"，反之则"低"。

可以预先存储有上述预设转换规则，其中包括预设特征数据与音高、力度的对应关系，即可以根据上述预设特征数据与音高、力度的对应关系确定目标图像的特征数据对应的音高和力度，进一步地，则可以获取确定的上述音高和上述力度的单音音符。

可选的，上述和弦音符的力度可以是固定的，和弦音符的音高可以与确定的单音音符的音高具有对应关系，即确定了单音音符的音高的情况下和弦音符的音高被确定。

可选的，音乐生成装置中可以预先存储有多组上述和弦音符，其音高和力度可以是确定的，并且上述和弦音符可以为多和弦，即一组和弦音符包含至少两个音符，比如音乐生成装置中可以预先存储有多组三和弦音符，即一个和弦有三个音符。

在一种可选的实施方式中，可以根据目标图像的特征数据确定对应的和弦音符。可以预先存储有特征数据与和弦音符的对应关系，即可以根据目标图像的特征数据直接确定对应的和弦音符，其长度和力度都是固定的，进而可以获取上述确定的和弦音符进行音乐合成。

可选的，可以根据上述单音音符的音高和/或力度确定上述单音音符的长度以及上述单音音符之间的间隔。

在一种可选的实施方式中，预先设置的多个单音音符的音高和长度可以是固定匹配的，即确定音高的单音音符其长度可以是固定不变的；也可以是，预先设置的多个单音音符的力度和长度是固定匹配的，即确定力度的单音音符其长度可以是固定不变的。单音音符的音高和/或力度与单音音符之间的间隔也可以存在映射关系，以音高举例来讲，在确定两个单音音符的音高之后，可以确定这两个音高的单音音符之间的间隔，从而可以确定相邻两个单音音符之间的间隔。

上述相邻两个单音音符，指出单音音符还可以存在顺序，即通过对目标图像的分割可以获得多个单音音符，其顺序可以是分割获得的子图像中从左到右、从上到下依次排列的，也可以是其他的顺序，本申请实施例对此不做限制。

本申请实施例中涉及的音符的长度，即音符时值，也称为音符值或音值，在乐谱中用来表达各音符之间的相对持续时间。一个完全音符等于两个二分音符；等于四个四分音符，八个八分音符；十六个十六分音符，三十二个三十二分音符。这只是音符时值的比例。这个是根据一般歌曲听感经验设置的，音符太长或音符间隔太长都会导致歌曲听起来不够丰富。

本申请实施例对音符时值不做限制。

103、基于上述音符数据生成目标音乐数据。

根据获取的音符数据进行音乐合成，可以生成与该目标图像对应的目标音乐数据，还可以进行播放。

其中，在音符合成过程中，基于目标图像确定的上述单音音符和上述和弦音符可以分别组成两种音轨，再进行叠加合成目标音乐数据。

在一种可选的实施方式中，可以将上述单音音符依次排列形成的音轨与上述和弦音符依次排列形成的音轨结合，生成上述目标音乐数据。相比只有单音音符更加流畅，音乐组成更丰富。

在一种可选的实施方式中，若步骤102中将上述目标图像均等分割为m*w个子图像进行特征提取，可以获得的音符数据可包括：m*w个单音音符、m*w组和弦音符，即每一个子图像通过特征转换可以获得对应的一个单音音符以及一组和弦音符。

其中，音符的长度和间隔可以根据一般歌曲听感经验设置，音符太长或音符间隔太长都会导致歌曲听起来不够丰富。和弦音符的之间可以无间隔(可以理解为休止符)，也可以是预先设置的和弦间隔，可以根据需要进行设置和修改，本申请实施例对此不做限制。

在步骤103中，可以将m*w个子图像转换获得的音符数据结合进行音乐合成，即m*w个单音音符连成的音轨和m*w组和弦音符连成的音轨进行纵向叠加，获得上述目标音乐数据。

在本申请实施例中，可选的，可以利用训练后的神经网络对上述目标图像进行特征提取，获得目标图像的特征数据。

进一步可选的，可以利用神经网络根据上述音符数据生成上述目标音乐数据。比如，可以利用长短期记忆网络(Long Short-Term Memory，LSTM)训练作曲，以基于音符数据生成目标音乐数据，机器学习的方法作曲会使生成的目标音乐数据更接近人类作曲，音乐效果和流畅度更高。

可选的，生成的目标音乐数据可以进行播放。在一种可选的实施方式中，该目标音乐数据可以存储为MIDI文件格式，进一步地，可以通过MIDI播放器进行播放。该目标音乐数据可以存储在音乐生成装置中，可以是终端设备(如：MP3、手机、电脑、平板电脑等)本地，即用户可直接从本地获取。该目标音乐数据也可以存储于服务器上，用户可通过终端设备从服务器下载获取。

本申请实施例通过对目标图像进行特征提取，获得上述目标图像的特征数据，根据预设转换规则获取上述目标图像的特征数据对应的音符数据，再基于上述音符数据生成目标音乐数据，可以选择目标图像生成原创音乐并进行播放，不需要依靠音乐库，提高了图像与音乐的关联性。

请参阅图2，图2是本申请实施例提供的另一种音乐生成方法的流程示意图。图2是在图1的基础上进一步优化得到的。执行本申请实施例步骤的主体可以为前述的一种音乐生成装置。如图2所示，该方法包括如下步骤：

201、将目标图像均等分割为m份区域，再将上述m份区域中的每份区域均等分割为w份，获得m*w个子图像，其中，上述m和上述w均为大于1的整数。

具体的，对于目标图像的分割，通常选择均等分割来与音符的节拍匹配。一般的目标图像为矩形，上述m和w的值可以相等或者不等。举例来讲，m＝w＝16，即可以将目标图像均等分割为16份区域，再将上述16份区域中的每份区域均等分割为16份，从而获得m*w＝256个子图像。

上述均等分割，在第一次分割时可以以a行a列的形式进行，第二次分割时可以以一行w列的形式进行。也可以以其他方式对目标图像进行分割以便进行分区域的特征提取，本申请实施例对此不作限制。

请参见图3，图3为本申请实施例中的一种目标图像的分割示意图，按照前述举例来讲，将目标图像A均等分为16份，可以是图中4行4列的排列，从左到右从上到下依次可记为X1～X16。进一步地，以其中一份区域X4为例，可以再将每一份区域横向分为16份，得到16个子图像，即在目标图像A的每一份区域中的子图像排列为一行16个，比如图3中X4区域被均等分为16份，即子图像y1为其中一个子图像，从左到右依次可记为y1～y16，目标图像A可以被分割为总记256个子图像，基于上述分割后的图像可以分区域进行特征提取确定对应的音符数据。以该种方式进行图像分割更适用于矩形的目标图像。

其中，转换后的目标音乐数据的拍数和长度则可以基于上述图像分割方法进行相应的设置。可以参见如图4所示的一种目标音乐数据的音轨示意图，按照前述继续举例，目标音乐数据可以设置为4/4拍，16个全音符长度，对应图3中目标图像的分割的4行4列，即一行区域对应一小节，每一个区域对应一拍。图4显示出了基于目标图像A产生的音轨，可以理解为目标图像A分割获得的子图像，转换后获得的音符可以合成为4/4拍的音乐。由图3可见目标图像A被分割为16个区域，这16个区域产生对应的音轨分别为图4中1～16段，每个区域如前所述包含16个子图像，比如前述X4区域包含的16个子图像分别对应图4中第4段所示的单音音符和和弦音符；图4中第一行音轨1为单音音轨，其中包含多个单音音符，音轨2表示和弦音轨，其中三行是指该和弦有三个音符，是三和弦，本申请实施例的音乐生成装置中可以预置多个三和弦用于与目标图像的特征数据对应，需要注意的是，图4所示的和弦音符的确定，是将目标图像A分成16份区域后，就进行特征提取以及根据提取的特征数据进行和弦音符的确定，与单音音符的图像分割方式是不同的，也可以有其他不同的图像分割方式来进行特征提取和音符确定，此处不作限制。将上述音轨1和音轨2结合可以获得基于该目标图像A生成的目标音乐。

在获得上述m*w个子图像之后，可以执行步骤202。

202、获得上述m*w个子图像的亮度特征数据，上述亮度特征数据包含亮度值。

图像亮度是指画面的明亮程度，单位是堪德拉每平米(cd/m2)或称m*wits。图象亮度是从白色表面到黑色表面的感觉连续体，由反射系数决定，亮度侧重物体，重在“反射”。上述图像亮度值为衡量图像亮度的取值，可以是图像的灰度值、饱和度值或者对比度值等，本申请实施例对此不作限制。

本申请实施例中提到的RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色。

本申请实施例中提到的HSL色彩模式是工业界的一种颜色标准，是通过对色相(H)、饱和度(S)、明度(L)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，HSL即是代表色相，饱和度，明度三个通道的颜色。

在一种可选的实施方式中，可以把上述目标图像的RGB数据转换为HSL数据，得到的H可以作为目标图像的亮度特征数据，其取值0～1在本申请实施例中可以作为亮度值衡量目标图像的亮度。

可选的，也可以使用S或者L作为亮度特征数据，本申请实施例不做限制。

在获得上述亮度特征数据之后，可以执行步骤203。

203、根据预设的亮度值与音高的对应关系，获取第一子图像的亮度值对应的音高，作为上述第一子图像所对应的音高，上述第一子图像为上述m*w个子图像中的一个。

目标图像的亮度特征可以通过对应关系确定音高。需要分别确定上述m*w个子图像的亮度值所对应的音高。具体的，可以存储有预设的亮度值与音高的对应关系，在确定亮度值的情况下，可以基于该对应关系确定所对应的音符的音高，为方便表述，以上述m*w个子图像中的一个第一子图像为例进行描述。

根据上述预设的亮度值与音高的对应关系，可以获取上述第一子图像的亮度值所对应的音高，作为该第一子图像所对应的音高，即以该第一子图像的亮度确定的音符音高。

可选的，当以上述H作为亮度值时，其取值范围可以为0～1，相应的，可以设置对应音高的取值是64～90。具体的，音乐设置可以为4/4拍，16个全音符长度，具体可以参见步骤202中图3的相关描述，此处不再赘述。

204、根据预设的音高与力度的对应关系，获取上述第一子图像所对应的音高所对应的力度，作为上述第一子图像所对应的单音音符的力度。

具体的，可以存储有预设的音高与力度的对应关系，在确定音符音高的情况下，可以基于该对应关系确定该音符的力度。

在一种可选的实施方式中，若上述单音音符的音高属于第一音高区间，根据预设的第一音高区间的音高与力度的对应关系，获取上述单音音符的音高对应的力度，作为上述第一子图像所对应的单音音符的力度；

若上述单音音符的音高属于第二音高区间，根据预设的第二音高区间的音高与力度的对应关系，获取上述单音音符的音高对应的力度，作为上述第一子图像所对应的单音音符的力度。

具体的，上述预设的音高与力度的对应关系可以包括：预设的第一音高区间的音高与力度的对应关系，以及预设的第二音高区间的音高与力度的对应关系。即上述音高可以分区间设置对力度的不同对应关系。

可选的，音符的音高取值范围为64～90，可以设置对应的力度的取值范围是84～120。其中，对应关系的计算如下：音符的音高从64到80时力度步长为-1，音符从80到90时力度步长为-2，可以理解为：音符的音高64对应力度为120，音符的音高90对应力度84。例如音符的音高为64，对应力度为120，音高65时力度-1，为119，以此类推；而音符的音高为80，对应力度104，之后，音高81时力度要-2，为102，以此类推。

本申请实施例中通过分音高区域设置音符的力度衰减，可以使获得的音符及其合成的音乐更加符合听觉感受，更加丰富，避免生成的音乐刺耳或者不流畅。其中，上述各种对应关系是可以根据需求进行多种设置的，本申请实施例对此不做限制。

205、执行上述步骤直到确定全部上述m*w个子图像所对应的音高和上述第一子图像所对应的单音音符的力度。

在确定全部上述m*w个子图像所对应的音高和上述第一子图像所对应的单音音符的力度之后，可以执行步骤206。可选的，也可以一边进行音符的音高和力度的确定，一边获取对应的音符，提高处理效率。

206、获取上述音高和上述力度的单音音符；确定上述目标图像的特征数据对应的和弦音符，获取上述和弦音符。

在确定全部上述m*w个子图像所对应的音高和上述第一子图像所对应的单音音符的力度之后，可以从预设的音符数据库中获取确定的音符，获取已经确定了上述音高和上述力度的单音音符。

对于和弦音轨，和弦音符的长度可以是固定的，比如设定为一个全音符的长度，并且多个和弦音符可以连续，即和弦音符间可以无间隔(休止符)。

本申请实施例中，上述和弦音符的力度可以是固定值，比如设置和弦音符的力度为80；与单音音符对应的，和弦音符的音高也可以根据目标图像的亮度决定，即可以存储有预设的亮度值与和弦音符的音高的对应关系，但与单音音符不同的是其对象和范围可以不一样，这里和亮度值对应的可以是三和弦。具体的，基于上述获取的多个子图像的亮度值，可以分别确定上述目标图像的多个子图像对应的和弦音符的音高，从而获取上述确定的和弦音符，以执行步骤207。

207、将上述单音音符依次排列形成的音轨与上述和弦音符依次排列形成的音轨结合，生成目标音乐数据。

音符是组成音轨的重要元素，音轨表现在音序器软件中为一条一条的平行“轨道”，每条音轨分别定义了该条音轨的属性，如音轨的音色，音色库，通道数，输入/输出端口，音量等。针对特征提取时对目标图像的不同分割方式，在组成音轨时，其最终获得的单音音符和和弦音符可以是不同的排列。具体的，可以是依据分割后的子图像从左到右、从上到下依次处理的，也可是其他的排列方式，本申请实施例对此不做限制。

可选的，上述单音音符的长度以及上述单音音符之间的间隔可以是预先设置的，即规定了不同单音音符的长度以及上述单音音符之间的间隔，也可以是根据上述单音音符的音高和/或力度确定。

在一种可选的实施方式中，预先设置的多个单音音符的音高和长度可以是固定匹配的，即确定音高的单音音符其长度可以是固定不变的；也可以是，预先设置的多个单音音符的力度和长度是固定匹配的，即确定力度的单音音符其长度可以是固定不变的。单音音符的音高和/或力度与单音音符之间的间隔也可以存在映射关系，主要是基于设置的目标音乐数据的节拍确定的，可以理解为在同一个小节中(音乐设置为4/4拍)，确定的四个单音音符之后剩下的时长可以分割为该四个单音音符之间的间隔，可以根据一般歌曲听感经验设置的不同音符之间的间隔，本申请实施例对此不作限制。以音高举例来讲，在确定两个单音音符的音高之后，可以确定这两个音高的单音音符之间的间隔，从而可以确定相邻两个单音音符之间的间隔，以便排列组成音轨。

其中，上述单音音符用于生成单音音轨，上述和弦音符用于生成和弦音轨，而每一个子图像转换获得的单音音符和和弦音符也是对应的，需要叠加进行音乐合成，即可以将上述单音音轨与上述和弦音轨纵向叠加进行结合，从而生成上述目标音乐数据。可选的，可以通过不同的对应关系获得音符，以组成至少两条音轨进行合成，本申请实施例对音轨数量不做限制。

可选的，在生成上述目标音乐数据之后，可以输出上述目标音乐数据。生成的目标音乐数据可以在转换后通过播放器进行播放，也可以在用户浏览目标图像的同时进行播放，使图像与音乐关联，视觉和听觉结合，且关联度较高，可以增加音乐的可玩性和趣味性。

在一种可选的实施方式中，生成的目标音乐数据的格式可以为乐器数字接口(Musical Instrument Digital Interface，MIDI)格式。

其中，MIDI是编曲界最广泛的音乐标准格式，可称为“计算机能理解的乐谱”。它用音符的数字控制信号来记录音乐。一首完整的MIDI音乐只有几十KB大，而能包含数十条音乐轨道。几乎所有的现代音乐都是用MIDI加上音色库来制作合成的。MIDI传输的不是声音信号，而是音符、控制参数等指令,它指示MIDI设备要做什么，怎么做，如演奏哪个音符、多大音量等。它们被统一表示成MIDI消息(MIDI Message)。

可以理解为MIDI格式是基础，通过上述步骤获得的目标音乐数据可以是MDI消息，是以MIDI格式存储的。MIDI格式数据可以通过合成器转换为音频数据(也就是PCM数据)，音频数据再传输于播放器进行播放，实现音乐的输出。

本申请实施例通过将目标图像均等分割为m份区域，再将上述m份区域中的每份区域均等分割为w份，获得m*w个子图像，获得上述m*w个子图像的亮度特征数据，上述亮度特征数据包含亮度值，再根据预设的亮度值与音高的对应关系，获取第一子图像的亮度值对应的音高，作为上述第一子图像所对应的音高，上述第一子图像为上述m*w个子图像中的一个，然后，根据预设的音高与力度的对应关系，获取上述第一子图像所对应的音高所对应的力度，作为上述第一子图像所对应的单音音符的力度，执行上述步骤直到确定全部上述m*w个子图像所对应的音高和上述第一子图像所对应的单音音符的力度，进而获取上述音高和上述力度的单音音符，以及确定上述目标图像的特征数据对应的和弦音符，并获取上述和弦音符，然后将上述单音音符依次排列形成的音轨与上述和弦音符依次排列形成的音轨结合，生成目标音乐数据，可以由目标图像生成原创音乐并进行播放，不需要依靠音乐库，提高了图像与音乐的关联性。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，音乐生成装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对音乐生成装置进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面提供了本申请实施例的装置。

请参阅图5，图5为本申请实施例提供的一种音乐生成装置的结构示意图，该装置500包括：

特征提取单元510，用于对目标图像进行特征提取，获得上述目标图像的特征数据；

转换单元520，用于根据预设转换规则获取上述目标图像的特征数据对应的音符数据；

生成单元530，用于基于上述音符数据生成目标音乐数据。

进一步地，上述转换单元520具体用于，根据预设转换规则获取上述目标图像的特征数据对应的单音音符和和弦音符；

上述生成单元530具体用于，将上述单音音符依次排列形成的音轨与上述和弦音符依次排列形成的音轨结合，生成上述目标音乐数据。

可选的，上述转换单元520包括：

确定子单元521，用于根据上述预设转换规则确定上述目标图像的特征数据对应的音高和力度，确定上述目标图像的特征数据对应的和弦音符；

获取子单元522，用于：

获取上述音高和上述力度的单音音符；

获取上述目标图像的特征数据对应的和弦音符。

可选的，上述确定子单元521还用于：

根据上述单音音符的音高和/或力度确定上述单音音符的长度以及上述单音音符之间的间隔。

可选的，上述特征提取单元510包括：

图像处理子单元511，用于将上述目标图像均等分割为m份区域，再将上述m份区域中的每份区域均等分割为w份，获得m*w个子图像；

特征获取子单元512，用于获得上述m*w个子图像的亮度特征数据和/或颜色特征数据，其中，上述m和上述w为大于1的整数。

在一种可选的实施方式中，上述亮度特征数据包含亮度值，上述确定子单元521具体用于：

根据预设的亮度值与音高的对应关系，获取第一子图像的亮度值对应的音高，作为上述第一子图像所对应的音高，上述第一子图像为上述m*w个子图像中的一个；

根据预设的音高与力度的对应关系，获取上述第一子图像所对应的音高所对应的力度，作为上述第一子图像所对应的单音音符的力度；

执行上述步骤直到确定全部上述m*w个子图像所对应的音高和上述第一子图像所对应的单音音符的力度。

在一种可选的实施方式中，上述确定子单元521具体用于：

若上述单音音符的音高属于第一音高区间，根据预设的第一音高区间的音高与力度的对应关系，获取上述单音音符的音高对应的力度，作为上述第一子图像所对应的单音音符的力度；

实施图5所示的音乐生成装置500，音乐生成装置500可以对目标图像进行特征提取，获得上述目标图像的特征数据，根据预设转换规则获取上述目标图像的特征数据对应的音符数据，再基于上述音符数据生成目标音乐数据，可以选择目标图像生成原创音乐并进行播放，不需要依靠音乐库，提高了图像与音乐的关联性。

请参阅图6，图6是本申请实施例公开的一种电子设备的结构示意图。如图6所示，该音乐生成装置600包括处理器601和存储器602，其中，音乐生成装置600还可以包括总线603，处理器601和存储器602可以通过总线603相互连接，总线603可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线603可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中，音乐生成装置600还可以包括输入输出设备604，输入输出设备604可以包括显示屏，例如液晶显示屏。存储器602用于存储计算机程序；处理器601用于调用存储在存储器602中的计算机程序执行上述图1和图2实施例中提到的部分或全部方法步骤。

实施图6所示的音乐生成装置600，音乐生成装置600可以对目标图像进行特征提取，获得上述目标图像的特征数据，根据预设转换规则获取上述目标图像的特征数据对应的音符数据，再基于上述音符数据生成目标音乐数据，可以选择目标图像生成原创音乐并进行播放，不需要依靠音乐库，提高了图像与音乐的关联性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

Claims

1.一种音乐生成方法，其特征在于，包括：

对目标图像进行特征提取，获得所述目标图像的特征数据；

基于所述音符数据生成目标音乐数据。

2.根据权利要求1所述的方法，其特征在于，所述根据预设转换规则获取所述目标图像的特征数据对应的音符数据，包括：

所述基于所述音符数据生成目标音乐数据包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设转换规则获取所述目标图像的特征数据对应的单音音符和和弦音符，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述预设转换规则确定所述目标图像的特征数据对应的单音音符的音高和力度之后，所述方法还包括：

5.根据权利要求3或4所述的方法，其特征在于，所述对目标图像进行特征提取，获得所述目标图像的特征数据包括：

6.根据权利要求5所述的方法，其特征在于，所述亮度特征数据包含亮度值，所述根据所述预设转换规则确定所述目标图像的特征数据对应的音高和力度包括：

7.根据权利要求6所述的方法，其特征在于，所述根据预设的音高与力度的对应关系，获取所述单音音符的音高对应的力度，作为所述第一子图像所对应的单音音符的力度包括：

8.一种音乐生成装置，其特征在于，包括：

特征提取单元，用于对目标图像进行特征提取，获得所述目标图像的特征数据；

生成单元，用于基于所述音符数据生成目标音乐数据。

9.根据权利要求8所述的装置，其特征在于，所述转换单元具体用于，根据预设转换规则获取所述目标图像的特征数据对应的单音音符和和弦音符；

10.根据权利要求9所述的装置，其特征在于，所述转换单元包括：

获取子单元，用于：

获取所述音高和所述力度的单音音符；

获取所述目标图像的特征数据对应的和弦音符。

11.根据权利要求10所述的装置，其特征在于，所述确定子单元还用于：

12.根据权利要求10或11所述的装置，其特征在于，所述特征提取单元包括：

13.根据权利要求12所述的装置，其特征在于，所述亮度特征数据包含亮度值，所述确定子单元具体用于：

14.一种音乐生成装置，其特征在于，包括：处理器、存储器；所述存储器用于存储计算机程序，所述计算机程序被配置成由所述处理器执行，所述处理器用于执行如权利要求1至7任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1至7任意一项所述的方法。