CN110148393A

CN110148393A - 音乐生成方法、装置和系统以及数据处理方法

Info

Publication number: CN110148393A
Application number: CN201810142360.3A
Authority: CN
Inventors: 孙浩华
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2019-08-20
Anticipated expiration: 2038-02-11
Also published as: CN110148393B

Abstract

本发明公开了一种音乐生成方法、装置和系统以及数据处理方法。其中，该方法包括：采集目标对象的多媒体信息；对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；基于标签生成第一音乐。本发明解决了现有技术的歌曲生成产品中需要人为手动的输入歌曲标签，导致消耗时间过长的技术问题。

Description

音乐生成方法、装置和系统以及数据处理方法

技术领域

本发明涉及数据处理领域，具体而言，涉及一种音乐生成方法、装置和系统以及数据处理方法。

背景技术

在目前的歌曲生成应用程序中，在用户生成歌曲之前，需要通过用户与终端的交互，自行设置初始化信息，例如，用户需要手动填写个人信息，包括性别、年龄、职业等。在生成歌曲时，还需要手动输入或选择速度、心情等标签，才能够生成对应的歌曲。

采用现有技术中的上述方式，存在如下缺陷：(1)上述操作过程耗费的时间较长。用户在进行操作时，需要依次点选每个一级标签下的二级标签，路径较长。例如：用户点击一级标签心情，界面弹出可选的二级标签“开心”、“悲伤”，用户在选择“开心”或“悲伤”后，才能再点击速度，对速度进行选择。为了选择所有的标签，需要耗费较长的时间。(2)上述操作流程不仅耗费时间，且用户与终端的交互过程单一，操作流程复杂枯燥。

针对现有技术的歌曲生成产品中需要人为手动的输入歌曲标签，导致消耗时间过长的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音乐生成方法、装置和系统以及数据处理方法，以至少解决现有技术的歌曲生成产品中需要人为手动的输入歌曲标签，导致消耗时间过长的技术问题。

根据本发明实施例的一个方面，提供了一种音乐生成方法，包括：该方法包括：采集目标对象的多媒体信息；对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；基于标签生成第一音乐。本发明解决了现有技术的歌曲生成产品中需要人为手动的输入歌曲标签，导致消耗时间过长的技术问题。

根据本发明实施例的另一方面，还提供了一种数据处理方法，包括：采集目标对象的图像信息；对图像信息进行图像识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；基于标签生成第一音乐的音乐数据，其中，音乐数据包括乐曲音频信息或歌曲音频信息。

根据本发明实施例的另一方面，还提供了一种数据处理方法，包括：采集目标对象的语音信息；对语音信息进行声音识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；基于标签生成第一音乐的音乐数据，其中，音乐数据包括乐曲音频信息或歌曲音频信息。

根据本发明实施例的另一方面，还提供了一种音乐生成装置，包括：采集模块，用于采集目标对象的多媒体信息；确定模块，用于对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；生成模块，用于基于标签生成第一音乐。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的音乐生成方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，程序运行时执行上述的音乐生成方法。

根据本发明实施例的另一方面，还提供了一种音乐生成方法系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：采集目标对象的多媒体信息；对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；基于标签生成第一音乐。

在本发明实施例中，通过采集目标对象的图像信息来获取用于生成歌曲的标签，从根据标签生成与目标对象对应的歌曲。在这一过程中，无需用户手动的选择标签，从而提高了用户使用的便捷性，并减少了等待接收用户输入的数据时所耗费的时间。

由此，本申请上述实施例现有技术的歌曲生成产品中需要人为手动的输入歌曲标签，导致消耗时间过长的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现音乐生成方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例1的音乐生成方法的流程图；

图3是根据本申请实施例1的一种采集目标对象的图像信息的界面示意图；

图4是根据本申请实施例1的一种生成歌曲的界面示意图；

图5是根据本申请实施例1的一种音乐生成方法的时序图；

图6是根据本申请实施例1的一种乐音生成方法的技术架构图；

图7是根据本申请实施例2的一种音乐生成装置的示意图；

图8是根据本申请实施例3的一种数据处理方法的流程图；

图9是根据本申请实施例4的一种数据处理装置的示意图；

图10是根据本申请实施例5的一种数据处理方法；

图11是根据本申请实施例6的一种数据处理装置的示意图；以及

图12是根据本申请实施例7的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

音乐标签：对音乐进行分类的某种属性特征。标签分类可以分为多级，比如一级标签为音乐风格，二级标签为金属，三级标签为死亡重金属。

人工智能(Artificial Intelligence)：英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人脸识别：是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，通常也叫做人像识别、面部识别。

机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。用于研究计算机怎如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

BPM：Beat Per Minute，即拍子数，释义为每分钟节拍数的单位。

实施例1

根据本发明实施例，还提供了一种音乐生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现音乐生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的音乐生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的音乐生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的音乐生成方法。图2是根据本发明实施例1的音乐生成方法的流程图。

步骤S21，采集目标对象的多媒体信息。

具体的，上述步骤可以由终端的处理器执行。

上述多媒体信息可以为图像信息。目标对象可以为与生成的音乐相关的用户，图3是一种根据本申请实施例1的一种采集目标对象的图像信息的界面示意图，在一种可选的实施例中，以用户使用移动终端生成音乐为例。用户在启动移动终端的音乐生成应用程序后，应用程序在用户允许的情况下，启动移动终端的摄像头，采集用户的图像信息。

在另一种可选的实施例中，仍以用户使用移动终端生成音乐为例。在用户需要生成与其它用户相关的音乐时，可以启动移动终端的摄像头，采集其他用户的图像信息。

在又一种可选的实施例中，目标对象还可以是预定的场景，在用户需要生成与场景相关的音乐时，可以启动移动终端的摄像头，采集场景的图像信息。

仍结合图3所示，除了采用摄像头实时采集图像信息之外，还可以通过点击“从相册获取”导入移动终端中预存的图像信息。

在上述步骤S21中，通过采集目标对象的图像信息，从而能够生成与目标对象相匹配的音乐，并且目标对象可以具有多种选择，例如：人物、风景等，从而能够生成针对不同对象的音乐。

步骤S23，对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一歌曲的属性信息。

具体的，第一音乐的属性信息可以包括如下任意一项或多项：曲风、乐器、节奏、心情和场景。标签即可以为如下任意一项或多项：曲风标签、乐器标签、节奏标签、心情标签和场景标签。

在一种可选的实施例中，上述标签可以分为多级，以属性信息曲风为例，该属性信息对应的第一级标签可以为曲风，对应的第二级标签可以为摇滚，对应的第三级标签可以为民谣摇滚。

仍以多媒体信息为图像信息为例，在上述步骤S23中，图像信息中可以包括用户的面部图像信息以及用户所处的环境的图像信息，可以通过图像识别的方式，识别出图像信息的特征，例如：目标对象的面部特征，目标对象所处环境的环境特征等，再根据图像信息的识别结果，确定第一音乐的标签。

在一种可选的实施例中，对图像信息的识别结果可以包括人物特征和背景特征，例如：人物特征可以包括：性别、表情、年龄等；背景特征可以包括：场景、天气等。人物特征和背景特征都具有对应的标签，其中，多个特征对应一种标签，或一个特征对应一种标签。在得到图像识别结果，即图像信息的特征之后，可以根据特征与标签之间的对应关系，确定歌曲的标签。

步骤S25，基于标签生成第一音乐。

标签用于表征的是第一音乐的属性信息，在上述步骤S25中，可以根据标签生成第一音乐。

具体的，上述步骤S25可以由服务器或服务器寄存执行，在一种可选的实施例中，处理器或处理器集群中预存有乐理数据，能够通过机器学习的方式，基于标签生成与标签对应的第一音乐。由于标签根据目标对象的图像信息生成，因此生成的第一音乐与目标对象向匹配。

需要说明的是，上述实施例生成的第一音乐可以为不包括歌词的乐曲，也可以为包括歌词的歌曲。在第一音乐为包括歌词的歌曲的情况下，歌词可以是由用户输入的。在生成的音乐为歌曲的情况下，图4是根据本申请实施例1的一种生成音乐的界面示意图，在生成标签之后，用户可以试听、演唱、保存至本地或分享至网络等。

在上述方案中，通过采集目标对象的多媒体信息来获取用于生成音乐的标签，从而根据标签生成与目标对象对应的音乐。在这一过程中，无需用户手动的选择标签，从而提高了用户使用的便捷性，并减少了等待用户输入或选择标签所耗费的时间。

图5是根据本申请实施例1的一种音乐生成方法的时序图，下面结合图5所示，按照时序对服务器执行上述音乐生成方法进行说明。歌曲的生成主要分为两部分，第一部分为信息输入与处理，第二部分为智能作曲，分别由前端、服务端、数据库以及算法端执行，其中，前端可以为用户的终端，服务端、数据库和算法端可以为云端的服务器或服务器集群，下面进行详细说明。

在信息输入与处理的步骤中，用户使用移动终端扫脸，服务端通过网络从移动终端处采集扫脸得到的图像信息，并将图像信息进行数据的统计和存储，其中，数据库还存储了如图5中所示的数据映射，即特征和标签的数据映射关系。

算法端预存有用于识别图像信息的信息库，包括：性别、年龄、表情、环境以及发型饰品。算法端将信息库中预存的信息作为参照物输入至人脸识别比对系统中，以使人脸识别比对系统基于信息库中的信息对用户的图像信息进行图像识别，得到用户的图像信息对应的特征，人脸识别比对系统根据用户的图像信息的特征，输出标签化数据。具体的，人脸识别比对系统采用用户的图像信息的特征，通过数据库中的数据映射关系，得到输出的标签化数据(如图5中人脸识别比对系统至数据映射之间的虚线，以及数据映射至标签化数据输出之间的虚线)。

同时，算法端还可以根据信息库和人脸识别比对系统输出的标签化数据，通过机器学习的方式，构建数据映射关系，存储至数据库，并采用构建的数据映射关系，以指导人脸识别比对系统对标签化数据的输出。

再将标签化数据进行结构化处理，例如：将标签化数据处理为行数据、可以用二维表结构进行逻辑表达的数据等，并将结构化处理后的标签化数据输入至标签作曲模型。

算法端的标签作曲模型在接收到信息结构化的标签数据后，进入智能作曲的流程。标签作曲模型根据输入的标签数据智能作曲，将作曲得到的音乐数据通过MiDi(Musical Instrument Digital Interface，乐器数字接口)传输至服务端，由服务端透传至前端，即用户的移动终端，用户即可通过移动终端进行音乐体验。

图6是根据本申请实施例1的一种乐音生成方法的技术架构图，结合图6所示，人脸识别模块采集用户信息，即用户的图像信息，将采集的图像信息与数据特征库底料中的五个特征库分别进行比对，从而确定了用户图像信息的特征信息，再根据标签映射库中预存的映射关系，确定用户图像信息对应的多个标签，基于标签的AI作曲模块(包括图5中的标签作曲模型)根据用户的图像信息对应的标签创作生成音乐，并进行音乐试听。

下面，对一种可选的实施例进行说明。一90后女性用户，发型为短发，淡妆在咖啡馆，时间为冬季的午后，在手机扫脸时为微笑的表情。相关图像特征被分别解析至对应的5个特征库中，从特征库中分离映射出对应的标签，“女人、90s、清新、咖啡、冬天、午后、舒缓、弦乐、萨克斯、爵士”，AI作曲模块会根据输入的标签，通过预先训练好的标签作曲模型，创作出对应的柔和舒缓的，有弦乐器和萨克斯风组合的爵士风格音乐给用户，从用户扫脸结束到音乐生成整个过程只需要2-5秒的时间，省去其他应用中，用户对着上千个标签的点选所浪费掉的至少1分钟甚至更多的选择时间。

本申请提供的一种可选实施例中，所述多媒体信息包括图像信息，对多媒体信息进行图像识别，确定第一音乐的标签，包括：通过对图像信息进行图像识别，得到目标对象的特征信息；根据特征信息确定第一音乐的标签。

在一种可选的实施例中，可以通过特征提取的方式，或与预设图像比对的方式，提取出图像信息中的特征图像，再根据图像信息的特征图像，确定目标对象的特征信息。

在根据特征信息确定第一音乐的标签时，可以根据预定的特征信息与标签的映射关系确定第一音乐的标签。

本申请提供的一种可选的实施例中，通过对图像信息进行图像识别，预测目标对象的特征信息，包括：从预设的特征数据库中获取至少一个第一特征图像，其中，所述特征数据库包括所述至少一个第一特征图像以及所述至少一个第一特征图像对应的特征信息；从所述图像信息中提取所述目标对象的第二特征图像；计算所述第二特征图像与所述至少一个第一特征图像的相似度；确定与所述第二特征图像相似度最高的第一特征图像对应的特征信息为所述目标对象的特征信息。

具体的，上述预设的特征数据中保存的特征图像为第一特征图像，目标对象的特征图像为第二特征图像，多个第一特征图像具有预先已知的特征信息。为了确定图像信息的特征信息，可以计算第二特征图像与多个第一特征图像的相似度，从而根据相似度确定目标对象的特征信息。例如：与第一特征图像相似度最高的第二特征图像的特征信息为“90后，女性、短发、淡妆、微笑、咖啡馆、冬季”，则目标对象的特征信息即为“90后，女性、短发、淡妆、微笑、咖啡馆、冬季”。

本申请提供的一种可选的实施例中，多媒体信息包括语音信息，对多媒体信息进行识别，确定第一音乐的标签，包括：通过对语音信息进行声纹特征识别和/或语义识别，得到目标对象的特征信息；根据特征信息确定第一音乐的标签。

具体的，在同时进行声纹特征识别和语义识别时，声纹识别可以用于确定目标对象的年龄、性别等特征信息，语义识别可以用于获取场景、心情等信息，在根据对语音信息的识别确定特征信息后，可以根据预存的特征信息与标签的映射关系，确定第一音乐的标签。

在一种可选的实施例中，可以使用终端通过语音交互的方式获取用户的语音信息，需要在数据特征底料解析模块中增加声纹及语料特征库内容。90s后年轻女性对终端的麦克风说“今天的摩卡很好喝”。终端将语音信息传输至处理器，处理器基于声纹特征库对用户的语音信息进行声纹识别，别出是年轻女性声音，声音轻细柔和；处理器还基于语料特征库对用户的语音信息进行语义识别，识别出用户的语音信息对应的语料为“我在咖啡厅喝下午茶”。服务器根据识别出的声纹特征和语料特征，基于预设的特征信息与标签的映射关系，既可以确定音乐的标签为“女人、90s、清新、咖啡、冬天、午后、舒缓、弦乐、萨克斯、爵士”，进而AI作曲模块根据标签输入生成对应的符合场景的个性化音乐作品给到用户。

在通过声纹特征识别对用户的语音信息进行识别时，需要在数据特征底料解析模块中增加声纹及语料特征库内容。声纹特征和语料被解析出来对应到5个特征库，声纹识别出是年轻女性声音，即年龄和性别，特征库中对应的语料为“我在咖啡厅喝下午茶”，因此可以映射出特征信息对应的标签。

在通过语义识别对用户的语音信息进行识别时，用户可以说“我坐在咖啡厅，享受冬季午后的阳光”，在对用户的语音信息进行语义识别，则能够得到对应的特征信息，因此能够映射出特征信息对应的标签。

本申请提供的一种可选的实施例中，采集目标对象的多媒体信息，包括：显示提示信息；接收与提示信息对应的语音信息。

具体的，上述显示的提示信息用于提示用户需要说出那些语音信息，例如，在一种可选的实施例中，终端在进行语音信息的采集时，可以显示“你在哪里？”，并等待用户的回答，在采集到用户用于回答上述问题的语音信息后，可以继续显示“在做什么？”，并继续等待用户的回答，从而通过收集用户回答时的语音信息来获取多媒体信息。

在本申请提出的上述方案中，不仅能够节省用户通过手动的方式选择标签所浪费的时间，还能够提高用户在生成音乐的过程中，与终端进行交互的趣味性。

本申请提供的一种可选的实施例中，根据目标特征信息确定第一音乐的标签，包括：获取预设的映射关系，其中，映射关系用于表征特征信息与标签的对应关系；基于映射关系，根据目标对象的特征信息，确定第一音乐的标签。

具体的，上述映射关系可以通过机器学习的方式获取。在一种可选的实施例中，获取用户的特征信息和用户选择的标签，将上述信息作为样本确定特征信息与标签的样本映射关系，并使用初始模型学习样本映射关系，从而得到预设的映射关系。

在上述方案中，根据训练的映射关系，在输入目标对象的特征信息之后，即可得到对应的第一音乐的标签。

本申请提供的一种可选的实施例中，特征包括如下任意一项或多项：性别、年龄、表情、环境和饰品。

本申请提供的一种可选的实施例中，基于映射关系，根据目标对象的特征信息，确定第一音乐的标签，包括：基于性别和年龄映射出曲风、基于性别和年龄映射出乐器、基于性别和年龄映射出节奏、基于表情映射出心情、基于表情映射出场景、环境映射出场景、基于环境映射出节奏、基于饰品映射出曲风以及基于饰品映射出场景。

在一种可选的实施例中，标签可以分为多级，第一级可以为曲风、节奏、心情和场景，二级标签可以为一级标签的具体内容，还可以设置比二级标签更进一步的三级标签，以更细粒度的描述第一音乐的属性信息。

表一示出了一种场景标签，如表一所示，在场景这一一级标签下，包括“工作”、“学习”“运动”等多个二级标签，其中，每个二级标签还可以包括三级标签(表中未示出)。

表一

本申请提供的一种可选的实施例中，基于所述标签生成第一音乐，包括：基于预存的乐理数据和所述第一音乐的标签，通过机器学习生成所述第一音乐。

在上述方案中，由于标签是通过采集的多媒体信息确定的，因此基于标签生成的第一音乐，与发出多媒体信息的对象具有较强的关联性，尤其在多媒体信息为用户的图像信息时，就能够得到与用户本身相关性较强的第一音乐。

在一种可选的实施例中，上述第一音乐可以为不包括歌词的乐曲。在另一种可选的实施例中，上述第一音乐还可以是在接收到用户输入的歌词，并为歌词匹配了旋律的歌曲。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述音乐生成方法的音乐生成装置，如图7所示，该装置700包括：

采集模块702，用于采集目标对象的多媒体信息。

确定模块704，用于对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息。

生成模块706，用于基于标签生成第一音乐。

此处需要说明的是，上述采集模块702、确定模块704和生成模块706对应于实施例1中的步骤S21至步骤S25，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

本申请提供的一种可选的实施例中，多媒体信息包括图像信息，确定模块包括：第一识别子模块，用于通过对图像信息进行图像识别，得到目标对象的特征信息；第一确定子模块，用于根据特征信息确定第一音乐的标签。

本申请提供的一种可选的实施例中，第一识别子模块包括：第一获取单元，包括从预设的特征数据库中获取至少一个第一特征图像，其中，特征数据库包括至少一个第一特征图像以及至少一个第一特征图像对应的特征信息；提取单元，用于从图像信息中提取目标对象的第二特征图像；计算单元，用于计算第二特征图像与至少一个第一特征图像的相似度；第一确定单元，用于确定与第二特征图像相似度最高的第一特征图像对应的特征信息为目标对象的特征信息。

本申请提供的一种可选的实施例中，确定模块包括，第二识别子模块，用于通过对语音信息进行声纹特征识别和/或语义识别，得到目标对象的特征信息；第二确定子模块，用于根据特征信息确定第一音乐的标签。

本申请提供的一种可选的实施例中，采集模块包括：显示子模块，用于显示提示信息；接收子模块，用于接收与提示信息对应的语音信息。

本申请提供的一种可选的实施例中，第一确定子模块或第二确定子模块包括：第二获取单元，用于获取预设的映射关系，其中，映射关系用于表征特征信息与标签的对应关系；第二确定单元，用于基于映射关系，根据目标对象的特征信息，确定第一音乐的标签。

本申请提供的一种可选的实施例中，特征信息包括如下任意一项或多项：性别、年龄、表情、环境和饰品。

本申请提供的一种可选的实施例中，生成模块包括：生成子模块，用于基于预存的乐理数据和第一音乐的标签，通过机器学习生成第一音乐。

实施例3

根据本发明实施例，还提供了一种数据处理方法，图8是根据本申请实施例3的一种数据处理方法的流程图，如图8所示，该方法包括：

步骤S81，采集目标对象的图像信息。

具体的，上述步骤可以由终端执行。上述多媒体信息可以为图像信息。目标对象可以为与生成的歌曲相关的用户，在一种可选的实施例中，以用户使用移动终端生成音乐为例。用户在启动移动终端的音乐生成应用程序后，应用程序在用户允许的情况下，启动移动终端的摄像头，采集用户的图像信息。

在又一种可选的实施例中，目标对象还可以是预定的场景，在用户需要生成与当前场景相关的音乐时，可以启动移动终端的摄像头，采集当前场景的图像信息。

步骤S83，对图像信息进行图像识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息。

步骤S85，基于标签生成第一音乐的音乐数据，其中，音乐数据包括乐曲音频信息或歌曲音频信息。

在上述方案中，通过采集目标对象的图像信息来获取用于生成音乐的标签，从而根据标签生成与目标对象对应的音乐。在这一过程中，无需用户手动的选择标签，从而提高了用户使用的便捷性，并减少了等待用户输入或选择标签所耗费的时间。

实施例4

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，图9是根据本申请实施例4的一种数据处理装置的示意图，如图9所示，该装置900包括：

采集模块902，用于采集目标对象的图像信息。

确定模块904，用于对图像信息进行图像识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息。

生成模块906，用于基于标签生成第一音乐的音乐数据，其中，音乐数据包括乐曲音频信息或歌曲音频信息。

此处需要说明的是，上述采集模块902、确定模块904和生成模块906对应于实施例1中的步骤S81至步骤S85，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例5

根据本发明实施例，还提供了一种数据处理方法，图10是根据本申请实施例5的一种数据处理方法，如图10所示，该方法包括：

步骤S101，采集目标对象的语音信息。

采集目标对象的语音信息可以包括：显示提示信息；接收与提示信息对应的语音信息。

具体的，上述显示的提示信息用于提示用户需要说出那些语音信息，例如，在一种可选的实施例中，终端在进行语音信息的采集时，可以显示“你在哪里？”、“在做什么？”等信息，并等待用户的回到，通过收集用户回答时的语音信息来获取多媒体信息。

在本申请提出的上述方案中，不仅能够节省用户通过手动的方式选择标签所浪费的时间，还能够提高用户生成音乐时与移动终端交互的趣味性。

步骤S103，对所述语音信息进行声音识别，确定第一音乐的标签，其中，所述标签用于表征所述第一音乐的属性信息。

步骤S105，基于所述标签生成所述第一音乐的音乐数据，其中，所述音乐数据包括乐曲音频信息或歌曲音频信息。

在上述方案中，通过采集目标对象的语音信息来获取用于生成歌曲的标签，从根据标签生成与目标对象对应的歌曲。在这一过程中，无需用户手动的选择标签，从而提高了用户使用的便捷性，并减少了等待用户输入或选择标签所耗费的时间。

实施例6

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，图11是根据本申请实施例6的一种数据处理装置的示意图，如图11所示，该装置1100包括：

采集模块1102，用于采集目标对象的语音信息。

确定模块1104，用于对所述语音信息进行声音识别，确定第一音乐的标签，其中，所述标签用于表征所述第一音乐的属性信息。

生成模块1106，用于基于所述标签生成所述第一音乐的音乐数据，其中，所述音乐数据包括乐曲音频信息或歌曲音频信息。

此处需要说明的是，上述采集模块1102、确定模块1104和生成模块1106对应于实施例1中的步骤S101至步骤S105，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例7

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的音乐生成方法中以下步骤的程序代码：采集目标对象的多媒体信息；对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；基于标签生成第一音乐。

可选地，图12是根据本发明实施例7的一种计算机终端的结构框图。如图12所示，该移动终端1200可以包括：一个或多个(图中仅示出一个)处理器1202、存储器1204、以及传输装置1206。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的音乐生成方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音乐生成方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：采集目标对象的多媒体信息；对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；基于标签生成第一音乐。

可选的，上述处理器还可以执行如下步骤的程序代码：通过对图像信息进行图像识别，得到目标对象的特征信息；根据特征信息确定第一音乐的标签。

可选的，上述处理器还可以执行如下步骤的程序代码：从预设的特征数据库中获取至少一个第一特征图像，其中，特征数据库包括至少一个第一特征图像以及至少一个第一特征图像对应的特征信息；从图像信息中提取目标对象的第二特征图像；计算第二特征图像与至少一个第一特征图像的相似度；确定与第二特征图像相似度最高的第一特征图像对应的特征信息为目标对象的特征信息。

可选的，上述处理器还可以执行如下步骤的程序代码：通过对语音信息进行声纹特征识别和/或语义识别，得到目标对象的特征信息；根据特征信息确定第一音乐的标签。

可选的，上述处理器还可以执行如下步骤的程序代码：显示提示信息；接收与提示信息对应的语音信息。

可选的，上述处理器还可以执行如下步骤的程序代码：获取预设的映射关系，其中，映射关系用于表征特征信息与标签的对应关系；基于映射关系，根据目标对象的特征信息，确定第一音乐的标签。

可选的，上述处理器还可以执行如下步骤的程序代码：特征信息包括如下任意一项或多项：性别、年龄、表情、环境和饰品。

可选的，上述处理器还可以执行如下步骤的程序代码：基于性别和年龄映射出曲风、基于性别和年龄映射出乐器、基于性别和年龄映射出节奏、基于表情映射出心情、基于表情映射出场景、环境映射出场景、基于环境映射出节奏、基于饰品映射出曲风以及基于饰品映射出场景。

可选的，上述处理器还可以执行如下步骤的程序代码：基于预存的乐理数据和第一音乐的标签，通过机器学习生成第一音乐。

采用本发明实施例，通过采集目标对象的图像信息来获取用于生成歌曲的标签，从根据标签生成与目标对象对应的歌曲。在这一过程中，无需用户手动的选择标签，从而提高了用户使用的便捷性，并减少了等待接收用户输入的数据时所耗费的时间。

本领域普通技术人员可以理解，图11所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，移动终端1200还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例8

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的音乐生成方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集目标对象的多媒体信息；对多媒体信息进行识别，确定第一音乐的标签，其中，标签用于表征第一音乐的属性信息；基于标签生成第一音乐。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音乐生成方法，其特征在于，包括：

采集目标对象的多媒体信息；

对所述多媒体信息进行识别，确定第一音乐的标签，其中，所述标签用于表征所述第一音乐的属性信息；

基于所述标签生成所述第一音乐。

2.根据权利要求1所述的方法，其特征在于，所述多媒体信息包括图像信息，对所述多媒体信息进行识别，确定第一音乐的标签，包括：

通过对所述图像信息进行图像识别，得到所述目标对象的特征信息；

根据所述特征信息确定所述第一音乐的标签。

3.根据权利要求2所述的方法，其特征在于，通过对所述图像信息进行图像识别，得到所述目标对象的特征信息，包括：

从预设的特征数据库中获取至少一个第一特征图像，其中，所述特征数据库包括所述至少一个第一特征图像以及所述至少一个第一特征图像对应的特征信息；

从所述图像信息中提取所述目标对象的第二特征图像；

计算所述第二特征图像与所述至少一个第一特征图像的相似度；

确定与所述第二特征图像相似度最高的第一特征图像对应的特征信息为所述目标对象的特征信息。

4.根据权利要求1所述的方法，其特征在于，所述多媒体信息包括语音信息，对所述多媒体信息进行识别，确定第一音乐的标签，包括：

通过对所述语音信息进行声纹特征识别和/或语义识别，得到所述目标对象的特征信息；

根据所述特征信息确定所述第一音乐的标签。

5.根据权利要求4所述的方法，其特征在于，采集目标对象的多媒体信息，包括：

显示提示信息；

接收与所述提示信息对应的语音信息。

6.根据权利要求2至5中任意一项所述的方法，其特征在于，根据所述特征信息确定所述第一音乐的标签，包括：

获取预设的映射关系，其中，所述映射关系用于表征所述特征信息与标签的对应关系；

基于所述映射关系，根据所述目标对象的特征信息，确定所述第一音乐的标签。

7.根据权利要求6所述的方法，其特征在于，所述特征信息包括如下任意一项或多项：性别、年龄、表情、环境和饰品。

8.根据权利要求7所述的方法，其特征在于，基于所述映射关系，根据所述目标对象的特征信息，确定所述第一音乐的标签，包括：基于所述性别和所述年龄映射出曲风标签、基于所述性别和所述年龄映射出乐器标签、基于所述性别和所述年龄映射出节奏标签、基于所述表情映射出心情标签、基于所述表情映射出场景标签、所述环境映射出所述场景标签、基于所述环境映射出所述节奏标签、基于所述饰品映射出所述曲风标签以及基于所述饰品映射出所述场景标签。

9.根据权利要求1所述的方法，其特征在于，基于所述标签生成第一音乐，包括：

基于预存的乐理数据和所述第一音乐的标签，通过机器学习生成所述第一音乐。

10.一种数据处理方法，其特征在于，包括：

采集目标对象的图像信息；

对所述图像信息进行图像识别，确定第一音乐的标签，其中，所述标签用于表征所述第一音乐的属性信息；

基于所述标签生成所述第一音乐的音乐数据，其中，所述音乐数据包括乐曲音频信息或歌曲音频信息。

11.一种数据处理方法，其特征在于，包括：

采集目标对象的语音信息；

对所述语音信息进行声音识别，确定第一音乐的标签，其中，所述标签用于表征所述第一音乐的属性信息；

12.一种音乐生成装置，其特征在于，包括：

采集模块，用于采集目标对象的多媒体信息；

确定模块，用于对所述多媒体信息进行识别，确定第一音乐的标签，其中，所述标签用于表征所述第一音乐的属性信息；

生成模块，用于基于所述标签生成所述第一音乐。

13.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的音乐生成方法。

14.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的音乐生成方法。

15.一种音乐生成方法系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

采集目标对象的多媒体信息；

基于所述标签生成所述第一音乐。