CN109413351A

CN109413351A - 一种音乐生成方法及装置

Info

Publication number: CN109413351A
Application number: CN201811257164.7A
Authority: CN
Inventors: 王义文; 刘奡智; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-01
Anticipated expiration: 2038-10-26
Also published as: WO2020082575A1; CN109413351B

Abstract

本发明实施例提供了一种音乐生成方法及装置，本发明涉及人工智能技术领域，该方法包括：获取录制人体动作得到的视频；识别视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标；根据预设的视频分割原则将视频分割为多个帧序列；从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点；获取从每个帧序列中选取的目标特征点的多个坐标，并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码；根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。本发明实施例提供的技术方案能够解决现有技术中作曲模式单一的问题。

Description

一种音乐生成方法及装置

【技术领域】

本发明涉及人工智能技术领域，尤其涉及一种音乐生成方法及装置。

【背景技术】

音乐是时间的艺术，现有的音乐创作模式往往是作曲家通过键盘输入形成音乐，作曲家必须具有一定程度和深度的作曲能力、作曲功底、作曲技术、作曲理论。这使得作曲这件事让大多数人觉得高深莫测，难以得到推广。目前，作曲家一般都是通过键盘或乐器进行作曲，作曲模式单一。

【发明内容】

有鉴于此，本发明实施例提供了一种音乐生成方法及装置，用以解决现有技术中作曲模式单一的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种音乐生成方法，所述方法包括：获取录制人体动作得到的视频；识别所述视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标，所述识别对象包括肢体和/或手部；根据预设的视频分割原则将所述视频分割为多个帧序列；从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点；获取从每个帧序列中选取的所述目标特征点的多个坐标，并根据预设的音乐生成规则将所述多个坐标生成每个帧序列对应的多个音符代码；根据每个帧序列对应的多个音符代码及所述视频播放顺序生成旋律。

进一步地，所述根据预设的视频分割原则将所述视频分割为多个帧序列，包括：获取样本旋律；根据所述样本旋律的节拍分割所述视频得到多个帧序列。

进一步地，所述根据预设的视频分割原则将所述视频分割为多个帧序列，包括：创建视频分割坐标系，其中，所述视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点；按所述视频分割坐标系的原点的移动方向分割所述视频，得到多个帧序列。

进一步地，所述识别所述视频中与识别对象相匹配的多个特征点，并基于预设坐标系及所述视频播放顺序生成各个特征点的多个坐标，包括：按照预设视频帧率和预设采样规则选取多帧图像；识别选取的每帧图像中的所述多个特征点的坐标；按照所述视频播放顺序输出所述选取的每帧图像中的所述多个特征点的坐标。

进一步地，在所述识别所述视频中与识别对象相匹配的多个特征点，并基于预设坐标系及所述视频播放顺序生成各个特征点的多个坐标之后，并在所述根据预设的视频分割原则将所述视频分割为多个帧序列之前，所述方法还包括：将所述多个坐标进行归一化处理，使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。

进一步地，所述从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点，包括：按所述多个特征点的权重比例修正所述坐标；从所述多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为所述目标特征点。

为了实现上述目的，根据本发明的一个方面，提供了一种保险理赔装置，所述装置包括：获取单元，用于获取录制人体动作得到的视频；识别单元，用于识别所述视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标，所述识别对象包括肢体和/或手部；分割单元，用于根据预设的视频分割原则将所述视频分割为多个帧序列；筛选单元，用于从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点；第一生成单元，用于获取从每个帧序列中选取的所述目标特征点的多个坐标，并根据预设的音乐生成规则将所述多个坐标生成每个帧序列对应的多个音符代码；第二生成单元，用于根据每个帧序列对应的多个音符代码及所述视频播放顺序生成旋律。

进一步地，所述装置还包括：处理单元，用于将所述多个坐标进行归一化处理，使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。

进一步地，所述筛选单元包括：修正子单元，用于按所述多个特征点的权重比例修正所述坐标；筛选子单元，用于从所述多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为所述目标特征点。

为了实现上述目的，根据本发明的一个方面，提供了一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的音乐生成方法的步骤。

在本方案中，通过获取人体动作视频，根据人体动作的幅度变化生成相应的音符，进而得到伴随肢体动作的旋律，从而提供了一种新的音乐生成模式，解决了现有技术中作曲模式单一的问题，丰富了作曲模式。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本发明实施例的一种音乐生成方法的流程图；

图2是根据本发明实施例的一种音乐生成装置的示意图；

图3是根据本发明实施例的肢体识别特征点分布图；

图4是根据本发明实施例的手部识别特征点分布图；

图5是根据本发明实施例的音符生成对照图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端，但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一分割子单元也可以被称为第二分割子单元，类似地，第二分割子单元也可以被称为第一分割子单元。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1是根据本发明实施例的一种音乐生成方法的流程图，如图1所示，该方法包括：

步骤S101，获取录制人体动作得到的视频。

步骤S102，识别视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标，识别对象包括肢体和/或手部。

步骤S103，根据预设的视频分割原则将视频分割为多个帧序列。

步骤S104，从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点。

步骤S105，获取从每个帧序列中选取的目标特征点的多个坐标，并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码。

步骤S106，根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。

在本方案中，通过获取人体动作视频，便能够根据人体动作的幅度变化生成相应的音符，进而形成伴随肢体动作的旋律，提供了一种新的音乐生成模式。

可选地，获取录制人体动作得到的视频，可以是通过摄像机拍摄的一段人体舞蹈视频或动作视频。

可选地，如图3所示，当识别对象为肢体时，肢体的多个特征点包括鼻特征点、颈特征点、右肩特征点、右肘特征点、右腕特征点、左肩特征点、左肘特征点、左腕特征点、右髋特征点、右膝特征点、右脚特征点、左髋特征点、左膝特征点、左脚特征点、右眼特征点、左眼特征点、右耳特征点、左耳特征点。

可选地，如图4所示，当识别对象为手部时，手部的多个特征点包括一个手腕特征点及分别分布于对应一个手指上的四个特征点。即每只手共21个特征点。

可选地，识别视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标，包括：按照预设视频帧率和预设采样规则选取多帧图像；识别选取的每帧图像中的多个特征点的坐标；按照视频播放顺序输出选取的每帧图像中的多个特征点的坐标。

比如：预设视频帧率为25帧/秒，可以选取第1、6、11、16、21帧图像。或者预设视频帧率为30帧/秒，可以选取第10、20、30帧图像。进而识别选取的每帧图像中的多个特征点的坐标。可以理解地，选择均匀间隔的多个图像进行识别，可以加快识别速率，选取的图像帧数越多，间隔越短，得到的运动轨迹与越精确，生成的音符也就更多。

可选地，识别视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标的方式也可以调用肢体语言识别模型来进行识别，肢体语言识别模型可以是DensePose、OpenPose、AlphaPose及DeepPose中的任意一种。特征点的坐标包括(x，y，score)，其中，x代表横坐标，y代表纵坐标，score代表预测评分，score的取值经过归一化处理后范围在0～1之间，越接近1的值表示坐标预测值越准确，坐标对应的特征点的还原度就越高，即姿态还原度越高。

可选地，基于预测评分修正特征点的坐标，从而使得姿态还原度高的特征点所生成的音符的准确性越高。进而，根据选取的每帧图像中的多个特征点进行选框，根据选框面积大小改变对应生成的音符的音量大小。

可选地，在识别视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标之后，并在根据预设的视频分割原则将视频分割为多个帧序列之前，方法还包括：将多个坐标进行归一化处理，使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内，在一种实施方式中，使得每个坐标的y值位于[0，2]区间，x值位于[0,12]区间。可选地，根据预设的视频分割原则将视频分割为多个帧序列，具体可以有多种方式，下文给出其中的两种方式。

方式一，获取样本旋律；根据样本旋律的节拍分割视频得到多个帧序列。例如二拍子节奏、四拍子节奏、3/8拍节奏等。从而使得生成的旋律能够根据样本旋律的节拍进行演奏。样本旋律还可以是某段音乐，例如“两只老虎”。

方式二，创建视频分割坐标系，其中，视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点；按视频分割坐标系的原点的移动方向分割视频，得到多个帧序列。通过将视频进行分割成多个帧序列，可以使得生成的音乐更富节奏感。

具体地，当识别对象为肢体时，以多个预设特征点的中点作为视频分割坐标系的原点。多个预设特征点包括鼻特征点、颈特征点、右肩特征点、左肩特征点、右髋特征点、左髋特征点。即人体的胸腔中心位置用于分割每个帧序列的坐标系原点。当识别对象为肢体及手部时，视频分割坐标系的原点与识别对象为肢体时相同。当识别对象为手部时，将手腕特征点的坐标作为视频分割坐标系的原点。

可选地，设定以视频的起始帧的原点为圆心，半径为r的圆形区域，圆形区域包含初始帧上的所有特征点。在视频播放过程中，当原点超出圆形区域后，且原点坐标中的横坐标或竖坐标中有至少一个的值发生反方向运动为止，分割视频得到第一帧序列；再以第一帧序列的结束帧为起始帧，重复上述步骤，从而得到多个帧序列。可以理解地，即人体移动方向参照设定的圆形区域的变化来分割视频。比如，人体往左边走动一段距离后又往回走，则以往回走的那个节点作为视频分割的节点。人体往上跳动又回落至地面，则以往回落的那个节点作为视频分割的节点。

可选地，从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点，包括：按多个特征点的权重比例修正坐标；从多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为目标特征点。比如：多个特征点中手部、腿部的特征点的动作幅度肯定比鼻特征点、眉特征点，因此提高鼻特征点、眉特征点的权重比例，分别修正其坐标，从多个特征点修正后的坐标筛选出坐标变化最大的一个特征点作为目标特征点；可以使得整体动作识别所能选取特征点的覆盖率更高。

可选地，预设的音乐生成规则，如图5所示，选取两个八度的音符即C4～B5,使得每个帧序列中的目标特征点的多个坐标都能一一生成对应一个音符。

可选地，根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律之后，可以通过midi转换器将旋律转换为管乐器、打击乐器、弦乐器中任意一种音色的旋律。或者，以旋律为主旋律，添加多个乐器形成的和弦，使得音乐的更加动听。

本发明实施例提供了一种音乐生成装置，该音乐生成装置用于执行上述音乐生成方法，如图2所示，该装置包括：获取单元10、识别单元20、分割单元30、筛选单元40、第一生成单元50、第二生成单元60。

获取单元10，用于获取录制人体动作得到的视频。

识别单元20，用于识别视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标，识别对象包括肢体和/或手部。

分割单元30，用于根据预设的视频分割原则将视频分割为多个帧序列。

筛选单元40，用于从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点。

第一生成单元50，用于获取从每个帧序列中选取的目标特征点的多个坐标，并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码。

第二生成单元60，用于根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。

可选地，识别单元20包括选取子单元、识别子单元、输出子单元。

选取子单元，用于按照预设视频帧率和预设采样规则选取多帧图像；识别子单元，用于识别选取的每帧图像中的多个特征点的坐标。输出子单元，用于按照视频播放顺序输出选取的每帧图像中的多个特征点的坐标。

可选地，识别单元20也可以是肢体语言识别模型，例如，可以是DensePose、OpenPose、AlphaPose及DeepPose中的任意一种。特征点的坐标包括(x，y，score)，其中，x代表横坐标，y代表纵坐标，score代表预测评分，score的取值经过归一化处理后范围在0～1之间，越接近1的值表示坐标预测值越准确，坐标对应的特征点的还原度就越高，即姿态还原度越高。

可选地，装置还包括处理单元，用于将多个坐标进行归一化处理，使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。在一种实施方式中，使得每个坐标的y值位于[0，2]区间，x值位于[0,12]区间。

可选地，分割单元包括获取子单元、第一分割子单元。

获取子单元，用于获取样本旋律；第一分割子单元，用于根据样本旋律的节拍分割视频得到多个帧序列。例如二拍子节奏、四拍子节奏、3/8拍节奏等。从而使得生成的旋律能够根据样本旋律的节拍进行演奏。样本旋律还可以是某段音乐，例如“两只老虎”。

可选地，分割单元包括创建子单元、第二分割子单元。

创建子单元，用于创建视频分割坐标系，其中，视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点。第二分割子单元，用于按视频分割坐标系的原点的移动方向分割视频，得到多个帧序列。通过将视频进行分割成多个帧序列，可以使得生成的音乐更富节奏感。

可选地，设定以视频的起始帧的原点为圆心，半径为r的圆形区域，圆形区域包含初始帧上的所有特征点。在视频播放过程中，当原点超出圆形区域后，且原点坐标中的横坐标或竖坐标中有至少一个的值发生反方向运动为止，分割视频得到第一帧序列；再以第一帧序列的结束帧为起始帧，重复上述步骤，从而得到多个帧序列。可以理解地，即根据人体移动方向参照设定的圆形区域的变化来分割视频。比如，人体往左边走动一段距离后又往回走，则以往回走的那个节点作为视频分割的节点。

可选地，筛选单元包括修正子单元、筛选子单元。

修正子单元，用于按多个特征点的权重比例修正坐标；筛选子单元，用于从多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为目标特征点。

比如：多个特征点中手部、腿部的特征点的动作幅度肯定比鼻特征点、眉特征点，因此提高鼻特征点、眉特征点的权重比例，分别修正其坐标，从多个特征点修正后的坐标筛选出坐标变化最大的一个特征点作为目标特征点；可以使得整体动作识别所能选取特征点的覆盖率更高。

可选地，装置还包括转换单元，转换单元用于在根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律之后，通过midi转换器将旋律转换为管乐器、打击乐器、弦乐器中任意一种音色的旋律。或者，以旋律为主旋律，添加多个乐器形成的和弦，使得音乐的更加动听。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：

获取录制人体动作得到的视频；识别视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标，识别对象包括肢体和/或手部；根据预设的视频分割原则将视频分割为多个帧序列；从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点；获取从每个帧序列中选取的目标特征点的多个坐标，并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码；根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：获取样本旋律；根据样本旋律的节拍分割视频得到多个帧序列。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：创建视频分割坐标系，其中，视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点；按视频分割坐标系的原点的移动方向分割视频，得到多个帧序列。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：按照预设视频帧率和预设采样规则选取多帧图像；识别选取的每帧图像中的多个特征点的坐标；按照视频播放顺序输出选取的每帧图像中的多个特征点的坐标。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：将多个坐标进行归一化处理，使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：按多个特征点的权重比例修正坐标；从多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为目标特征点。

本发明实施例提供了一种服务器，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：

可选地，程序指令被处理器加载并执行时还实现以下步骤：获取样本旋律；根据样本旋律的节拍分割视频得到多个帧序列。

可选地，程序指令被处理器加载并执行时还实现以下步骤：创建视频分割坐标系，其中，视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点；按视频分割坐标系的原点的移动方向分割视频，得到多个帧序列。

可选地，程序指令被处理器加载并执行时还实现以下步骤：按照预设视频帧率和预设采样规则选取多帧图像；识别选取的每帧图像中的多个特征点的坐标；按照视频播放顺序输出选取的每帧图像中的多个特征点的坐标。

可选地，程序指令被处理器加载并执行时还实现以下步骤：将多个坐标进行归一化处理，使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。

可选地，程序指令被处理器加载并执行时还实现以下步骤：按多个特征点的权重比例修正坐标；从多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为目标特征点。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

可以理解的是，应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本发明实施例对此不进行限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种音乐生成方法，其特征在于，所述方法包括：

获取录制人体动作得到的视频；

识别所述视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标，所述识别对象包括肢体和/或手部；

根据预设的视频分割原则将所述视频分割为多个帧序列；

从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点；

获取从每个帧序列中选取的所述目标特征点的多个坐标，并根据预设的音乐生成规则将所述多个坐标生成每个帧序列对应的多个音符代码；

根据每个帧序列对应的多个音符代码及所述视频播放顺序生成旋律。

2.根据权利要求1所述的方法，其特征在于，所述根据预设的视频分割原则将所述视频分割为多个帧序列，包括：

获取样本旋律；

根据所述样本旋律的节拍分割所述视频得到多个帧序列。

3.根据权利要求1所述的方法，其特征在于，所述根据预设的视频分割原则将所述视频分割为多个帧序列，包括：

创建视频分割坐标系，其中，所述视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点；

按所述视频分割坐标系的原点的移动方向分割所述视频，得到多个帧序列。

4.根据权利要求1所述的方法，其特征在于，所述识别所述视频中与识别对象相匹配的多个特征点，并基于预设坐标系及所述视频播放顺序生成各个特征点的多个坐标，包括：

按照预设视频帧率和预设采样规则选取多帧图像；

识别选取的每帧图像中的所述多个特征点的坐标；

按照所述视频播放顺序输出所述选取的每帧图像中的所述多个特征点的坐标。

5.根据权利要求1-4任意一项所述的方法，其特征在于，在所述识别所述视频中与识别对象相匹配的多个特征点，并基于预设坐标系及所述视频播放顺序生成各个特征点的多个坐标之后，并在所述根据预设的视频分割原则将所述视频分割为多个帧序列之前，所述方法还包括：

将所述多个坐标进行归一化处理，使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。

6.根据权利要求1所述的方法，其特征在于，所述从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点，包括：

按所述多个特征点的权重比例修正所述坐标；

从所述多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为所述目标特征点。

7.一种音乐生成装置，其特征在于，所述装置包括：

获取单元，用于获取录制人体动作得到的视频；

识别单元，用于识别所述视频中与识别对象相匹配的多个特征点，并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标，所述识别对象包括肢体和/或手部；

分割单元，用于根据预设的视频分割原则将所述视频分割为多个帧序列；

筛选单元，用于从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点；

第一生成单元，用于获取从每个帧序列中选取的所述目标特征点的多个坐标，并根据预设的音乐生成规则将所述多个坐标生成每个帧序列对应的多个音符代码；

第二生成单元，用于根据每个帧序列对应的多个音符代码及所述视频播放顺序生成旋律。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

处理单元，用于将所述多个坐标进行归一化处理，使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。

9.根据权利要求7所述的装置，其特征在于，所述筛选单元包括：

修正子单元，用于按所述多个特征点的权重比例修正所述坐标；

筛选子单元，用于从所述多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为所述目标特征点。

10.一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现权利要求1至6任意一项所述的音乐生成方法的步骤。