CN109413351A - 一种音乐生成方法及装置 - Google Patents
一种音乐生成方法及装置 Download PDFInfo
- Publication number
- CN109413351A CN109413351A CN201811257164.7A CN201811257164A CN109413351A CN 109413351 A CN109413351 A CN 109413351A CN 201811257164 A CN201811257164 A CN 201811257164A CN 109413351 A CN109413351 A CN 109413351A
- Authority
- CN
- China
- Prior art keywords
- video
- coordinate
- characteristic point
- coordinates
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 69
- 230000009471 action Effects 0.000 claims abstract description 20
- 238000012216 screening Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 210000003414 extremity Anatomy 0.000 description 19
- 230000033001 locomotion Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 5
- 210000000707 wrist Anatomy 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 210000004709 eyebrow Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 241000282376 Panthera tigris Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 210000002414 leg Anatomy 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 240000006409 Acacia auriculiformis Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000001699 lower leg Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0091—Means for obtaining special acoustic effects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明实施例提供了一种音乐生成方法及装置,本发明涉及人工智能技术领域,该方法包括:获取录制人体动作得到的视频;识别视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标;根据预设的视频分割原则将视频分割为多个帧序列;从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点;获取从每个帧序列中选取的目标特征点的多个坐标,并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码;根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。本发明实施例提供的技术方案能够解决现有技术中作曲模式单一的问题。
Description
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种音乐生成方法及装置。
【背景技术】
音乐是时间的艺术,现有的音乐创作模式往往是作曲家通过键盘输入形成音乐,作曲家必须具有一定程度和深度的作曲能力、作曲功底、作曲技术、作曲理论。这使得作曲这件事让大多数人觉得高深莫测,难以得到推广。目前,作曲家一般都是通过键盘或乐器进行作曲,作曲模式单一。
【发明内容】
有鉴于此,本发明实施例提供了一种音乐生成方法及装置,用以解决现有技术中作曲模式单一的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种音乐生成方法,所述方法包括:获取录制人体动作得到的视频;识别所述视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,所述识别对象包括肢体和/或手部;根据预设的视频分割原则将所述视频分割为多个帧序列;从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点;获取从每个帧序列中选取的所述目标特征点的多个坐标,并根据预设的音乐生成规则将所述多个坐标生成每个帧序列对应的多个音符代码;根据每个帧序列对应的多个音符代码及所述视频播放顺序生成旋律。
进一步地,所述根据预设的视频分割原则将所述视频分割为多个帧序列,包括:获取样本旋律;根据所述样本旋律的节拍分割所述视频得到多个帧序列。
进一步地,所述根据预设的视频分割原则将所述视频分割为多个帧序列,包括:创建视频分割坐标系,其中,所述视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点;按所述视频分割坐标系的原点的移动方向分割所述视频,得到多个帧序列。
进一步地,所述识别所述视频中与识别对象相匹配的多个特征点,并基于预设坐标系及所述视频播放顺序生成各个特征点的多个坐标,包括:按照预设视频帧率和预设采样规则选取多帧图像;识别选取的每帧图像中的所述多个特征点的坐标;按照所述视频播放顺序输出所述选取的每帧图像中的所述多个特征点的坐标。
进一步地,在所述识别所述视频中与识别对象相匹配的多个特征点,并基于预设坐标系及所述视频播放顺序生成各个特征点的多个坐标之后,并在所述根据预设的视频分割原则将所述视频分割为多个帧序列之前,所述方法还包括:将所述多个坐标进行归一化处理,使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。
进一步地,所述从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点,包括:按所述多个特征点的权重比例修正所述坐标;从所述多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为所述目标特征点。
为了实现上述目的,根据本发明的一个方面,提供了一种保险理赔装置,所述装置包括:获取单元,用于获取录制人体动作得到的视频;识别单元,用于识别所述视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,所述识别对象包括肢体和/或手部;分割单元,用于根据预设的视频分割原则将所述视频分割为多个帧序列;筛选单元,用于从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点;第一生成单元,用于获取从每个帧序列中选取的所述目标特征点的多个坐标,并根据预设的音乐生成规则将所述多个坐标生成每个帧序列对应的多个音符代码;第二生成单元,用于根据每个帧序列对应的多个音符代码及所述视频播放顺序生成旋律。
进一步地,所述装置还包括:处理单元,用于将所述多个坐标进行归一化处理,使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。
进一步地,所述筛选单元包括:修正子单元,用于按所述多个特征点的权重比例修正所述坐标;筛选子单元,用于从所述多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为所述目标特征点。
为了实现上述目的,根据本发明的一个方面,提供了一种服务器,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现上述的音乐生成方法的步骤。
在本方案中,通过获取人体动作视频,根据人体动作的幅度变化生成相应的音符,进而得到伴随肢体动作的旋律,从而提供了一种新的音乐生成模式,解决了现有技术中作曲模式单一的问题,丰富了作曲模式。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是根据本发明实施例的一种音乐生成方法的流程图;
图2是根据本发明实施例的一种音乐生成装置的示意图;
图3是根据本发明实施例的肢体识别特征点分布图;
图4是根据本发明实施例的手部识别特征点分布图;
图5是根据本发明实施例的音符生成对照图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一分割子单元也可以被称为第二分割子单元,类似地,第二分割子单元也可以被称为第一分割子单元。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种音乐生成方法的流程图,如图1所示,该方法包括:
步骤S101,获取录制人体动作得到的视频。
步骤S102,识别视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,识别对象包括肢体和/或手部。
步骤S103,根据预设的视频分割原则将视频分割为多个帧序列。
步骤S104,从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点。
步骤S105,获取从每个帧序列中选取的目标特征点的多个坐标,并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码。
步骤S106,根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。
在本方案中,通过获取人体动作视频,便能够根据人体动作的幅度变化生成相应的音符,进而形成伴随肢体动作的旋律,提供了一种新的音乐生成模式。
可选地,获取录制人体动作得到的视频,可以是通过摄像机拍摄的一段人体舞蹈视频或动作视频。
可选地,如图3所示,当识别对象为肢体时,肢体的多个特征点包括鼻特征点、颈特征点、右肩特征点、右肘特征点、右腕特征点、左肩特征点、左肘特征点、左腕特征点、右髋特征点、右膝特征点、右脚特征点、左髋特征点、左膝特征点、左脚特征点、右眼特征点、左眼特征点、右耳特征点、左耳特征点。
可选地,如图4所示,当识别对象为手部时,手部的多个特征点包括一个手腕特征点及分别分布于对应一个手指上的四个特征点。即每只手共21个特征点。
可选地,识别视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,包括:按照预设视频帧率和预设采样规则选取多帧图像;识别选取的每帧图像中的多个特征点的坐标;按照视频播放顺序输出选取的每帧图像中的多个特征点的坐标。
比如:预设视频帧率为25帧/秒,可以选取第1、6、11、16、21帧图像。或者预设视频帧率为30帧/秒,可以选取第10、20、30帧图像。进而识别选取的每帧图像中的多个特征点的坐标。可以理解地,选择均匀间隔的多个图像进行识别,可以加快识别速率,选取的图像帧数越多,间隔越短,得到的运动轨迹与越精确,生成的音符也就更多。
可选地,识别视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标的方式也可以调用肢体语言识别模型来进行识别,肢体语言识别模型可以是DensePose、OpenPose、AlphaPose及DeepPose中的任意一种。特征点的坐标包括(x,y,score),其中,x代表横坐标,y代表纵坐标,score代表预测评分,score的取值经过归一化处理后范围在0~1之间,越接近1的值表示坐标预测值越准确,坐标对应的特征点的还原度就越高,即姿态还原度越高。
可选地,基于预测评分修正特征点的坐标,从而使得姿态还原度高的特征点所生成的音符的准确性越高。进而,根据选取的每帧图像中的多个特征点进行选框,根据选框面积大小改变对应生成的音符的音量大小。
可选地,在识别视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标之后,并在根据预设的视频分割原则将视频分割为多个帧序列之前,方法还包括:将多个坐标进行归一化处理,使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内,在一种实施方式中,使得每个坐标的y值位于[0,2]区间,x值位于[0,12]区间。可选地,根据预设的视频分割原则将视频分割为多个帧序列,具体可以有多种方式,下文给出其中的两种方式。
方式一,获取样本旋律;根据样本旋律的节拍分割视频得到多个帧序列。例如二拍子节奏、四拍子节奏、3/8拍节奏等。从而使得生成的旋律能够根据样本旋律的节拍进行演奏。样本旋律还可以是某段音乐,例如“两只老虎”。
方式二,创建视频分割坐标系,其中,视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点;按视频分割坐标系的原点的移动方向分割视频,得到多个帧序列。通过将视频进行分割成多个帧序列,可以使得生成的音乐更富节奏感。
具体地,当识别对象为肢体时,以多个预设特征点的中点作为视频分割坐标系的原点。多个预设特征点包括鼻特征点、颈特征点、右肩特征点、左肩特征点、右髋特征点、左髋特征点。即人体的胸腔中心位置用于分割每个帧序列的坐标系原点。当识别对象为肢体及手部时,视频分割坐标系的原点与识别对象为肢体时相同。当识别对象为手部时,将手腕特征点的坐标作为视频分割坐标系的原点。
可选地,设定以视频的起始帧的原点为圆心,半径为r的圆形区域,圆形区域包含初始帧上的所有特征点。在视频播放过程中,当原点超出圆形区域后,且原点坐标中的横坐标或竖坐标中有至少一个的值发生反方向运动为止,分割视频得到第一帧序列;再以第一帧序列的结束帧为起始帧,重复上述步骤,从而得到多个帧序列。可以理解地,即人体移动方向参照设定的圆形区域的变化来分割视频。比如,人体往左边走动一段距离后又往回走,则以往回走的那个节点作为视频分割的节点。人体往上跳动又回落至地面,则以往回落的那个节点作为视频分割的节点。
可选地,从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点,包括:按多个特征点的权重比例修正坐标;从多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为目标特征点。比如:多个特征点中手部、腿部的特征点的动作幅度肯定比鼻特征点、眉特征点,因此提高鼻特征点、眉特征点的权重比例,分别修正其坐标,从多个特征点修正后的坐标筛选出坐标变化最大的一个特征点作为目标特征点;可以使得整体动作识别所能选取特征点的覆盖率更高。
可选地,预设的音乐生成规则,如图5所示,选取两个八度的音符即C4~B5,使得每个帧序列中的目标特征点的多个坐标都能一一生成对应一个音符。
可选地,根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律之后,可以通过midi转换器将旋律转换为管乐器、打击乐器、弦乐器中任意一种音色的旋律。或者,以旋律为主旋律,添加多个乐器形成的和弦,使得音乐的更加动听。
本发明实施例提供了一种音乐生成装置,该音乐生成装置用于执行上述音乐生成方法,如图2所示,该装置包括:获取单元10、识别单元20、分割单元30、筛选单元40、第一生成单元50、第二生成单元60。
获取单元10,用于获取录制人体动作得到的视频。
识别单元20,用于识别视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,识别对象包括肢体和/或手部。
分割单元30,用于根据预设的视频分割原则将视频分割为多个帧序列。
筛选单元40,用于从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点。
第一生成单元50,用于获取从每个帧序列中选取的目标特征点的多个坐标,并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码。
第二生成单元60,用于根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。
在本方案中,通过获取人体动作视频,便能够根据人体动作的幅度变化生成相应的音符,进而形成伴随肢体动作的旋律,提供了一种新的音乐生成模式。
可选地,识别单元20包括选取子单元、识别子单元、输出子单元。
选取子单元,用于按照预设视频帧率和预设采样规则选取多帧图像;识别子单元,用于识别选取的每帧图像中的多个特征点的坐标。输出子单元,用于按照视频播放顺序输出选取的每帧图像中的多个特征点的坐标。
比如:预设视频帧率为25帧/秒,可以选取第1、6、11、16、21帧图像。或者预设视频帧率为30帧/秒,可以选取第10、20、30帧图像。进而识别选取的每帧图像中的多个特征点的坐标。可以理解地,选择均匀间隔的多个图像进行识别,可以加快识别速率,选取的图像帧数越多,间隔越短,得到的运动轨迹与越精确,生成的音符也就更多。
可选地,识别单元20也可以是肢体语言识别模型,例如,可以是DensePose、OpenPose、AlphaPose及DeepPose中的任意一种。特征点的坐标包括(x,y,score),其中,x代表横坐标,y代表纵坐标,score代表预测评分,score的取值经过归一化处理后范围在0~1之间,越接近1的值表示坐标预测值越准确,坐标对应的特征点的还原度就越高,即姿态还原度越高。
可选地,基于预测评分修正特征点的坐标,从而使得姿态还原度高的特征点所生成的音符的准确性越高。进而,根据选取的每帧图像中的多个特征点进行选框,根据选框面积大小改变对应生成的音符的音量大小。
可选地,装置还包括处理单元,用于将多个坐标进行归一化处理,使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。在一种实施方式中,使得每个坐标的y值位于[0,2]区间,x值位于[0,12]区间。
可选地,分割单元包括获取子单元、第一分割子单元。
获取子单元,用于获取样本旋律;第一分割子单元,用于根据样本旋律的节拍分割视频得到多个帧序列。例如二拍子节奏、四拍子节奏、3/8拍节奏等。从而使得生成的旋律能够根据样本旋律的节拍进行演奏。样本旋律还可以是某段音乐,例如“两只老虎”。
可选地,分割单元包括创建子单元、第二分割子单元。
创建子单元,用于创建视频分割坐标系,其中,视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点。第二分割子单元,用于按视频分割坐标系的原点的移动方向分割视频,得到多个帧序列。通过将视频进行分割成多个帧序列,可以使得生成的音乐更富节奏感。
具体地,当识别对象为肢体时,以多个预设特征点的中点作为视频分割坐标系的原点。多个预设特征点包括鼻特征点、颈特征点、右肩特征点、左肩特征点、右髋特征点、左髋特征点。即人体的胸腔中心位置用于分割每个帧序列的坐标系原点。当识别对象为肢体及手部时,视频分割坐标系的原点与识别对象为肢体时相同。当识别对象为手部时,将手腕特征点的坐标作为视频分割坐标系的原点。
可选地,设定以视频的起始帧的原点为圆心,半径为r的圆形区域,圆形区域包含初始帧上的所有特征点。在视频播放过程中,当原点超出圆形区域后,且原点坐标中的横坐标或竖坐标中有至少一个的值发生反方向运动为止,分割视频得到第一帧序列;再以第一帧序列的结束帧为起始帧,重复上述步骤,从而得到多个帧序列。可以理解地,即根据人体移动方向参照设定的圆形区域的变化来分割视频。比如,人体往左边走动一段距离后又往回走,则以往回走的那个节点作为视频分割的节点。
可选地,筛选单元包括修正子单元、筛选子单元。
修正子单元,用于按多个特征点的权重比例修正坐标;筛选子单元,用于从多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为目标特征点。
比如:多个特征点中手部、腿部的特征点的动作幅度肯定比鼻特征点、眉特征点,因此提高鼻特征点、眉特征点的权重比例,分别修正其坐标,从多个特征点修正后的坐标筛选出坐标变化最大的一个特征点作为目标特征点;可以使得整体动作识别所能选取特征点的覆盖率更高。
可选地,预设的音乐生成规则,如图5所示,选取两个八度的音符即C4~B5,使得每个帧序列中的目标特征点的多个坐标都能一一生成对应一个音符。
可选地,装置还包括转换单元,转换单元用于在根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律之后,通过midi转换器将旋律转换为管乐器、打击乐器、弦乐器中任意一种音色的旋律。或者,以旋律为主旋律,添加多个乐器形成的和弦,使得音乐的更加动听。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
获取录制人体动作得到的视频;识别视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,识别对象包括肢体和/或手部;根据预设的视频分割原则将视频分割为多个帧序列;从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点;获取从每个帧序列中选取的目标特征点的多个坐标,并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码;根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:获取样本旋律;根据样本旋律的节拍分割视频得到多个帧序列。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:创建视频分割坐标系,其中,视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点;按视频分割坐标系的原点的移动方向分割视频,得到多个帧序列。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:按照预设视频帧率和预设采样规则选取多帧图像;识别选取的每帧图像中的多个特征点的坐标;按照视频播放顺序输出选取的每帧图像中的多个特征点的坐标。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:将多个坐标进行归一化处理,使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:按多个特征点的权重比例修正坐标;从多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为目标特征点。
本发明实施例提供了一种服务器,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现以下步骤:
获取录制人体动作得到的视频;识别视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,识别对象包括肢体和/或手部;根据预设的视频分割原则将视频分割为多个帧序列;从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点;获取从每个帧序列中选取的目标特征点的多个坐标,并根据预设的音乐生成规则将多个坐标生成每个帧序列对应的多个音符代码;根据每个帧序列对应的多个音符代码及视频播放顺序生成旋律。
可选地,程序指令被处理器加载并执行时还实现以下步骤:获取样本旋律;根据样本旋律的节拍分割视频得到多个帧序列。
可选地,程序指令被处理器加载并执行时还实现以下步骤:创建视频分割坐标系,其中,视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点;按视频分割坐标系的原点的移动方向分割视频,得到多个帧序列。
可选地,程序指令被处理器加载并执行时还实现以下步骤:按照预设视频帧率和预设采样规则选取多帧图像;识别选取的每帧图像中的多个特征点的坐标;按照视频播放顺序输出选取的每帧图像中的多个特征点的坐标。
可选地,程序指令被处理器加载并执行时还实现以下步骤:将多个坐标进行归一化处理,使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。
可选地,程序指令被处理器加载并执行时还实现以下步骤:按多个特征点的权重比例修正坐标;从多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为目标特征点。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
可以理解的是,应用可以是安装在终端上的应用程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本发明实施例对此不进行限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种音乐生成方法,其特征在于,所述方法包括:
获取录制人体动作得到的视频;
识别所述视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,所述识别对象包括肢体和/或手部;
根据预设的视频分割原则将所述视频分割为多个帧序列;
从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点;
获取从每个帧序列中选取的所述目标特征点的多个坐标,并根据预设的音乐生成规则将所述多个坐标生成每个帧序列对应的多个音符代码;
根据每个帧序列对应的多个音符代码及所述视频播放顺序生成旋律。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的视频分割原则将所述视频分割为多个帧序列,包括:
获取样本旋律;
根据所述样本旋律的节拍分割所述视频得到多个帧序列。
3.根据权利要求1所述的方法,其特征在于,所述根据预设的视频分割原则将所述视频分割为多个帧序列,包括:
创建视频分割坐标系,其中,所述视频分割坐标系的原点为多个预设特征点的中点或一个预设特征点;
按所述视频分割坐标系的原点的移动方向分割所述视频,得到多个帧序列。
4.根据权利要求1所述的方法,其特征在于,所述识别所述视频中与识别对象相匹配的多个特征点,并基于预设坐标系及所述视频播放顺序生成各个特征点的多个坐标,包括:
按照预设视频帧率和预设采样规则选取多帧图像;
识别选取的每帧图像中的所述多个特征点的坐标;
按照所述视频播放顺序输出所述选取的每帧图像中的所述多个特征点的坐标。
5.根据权利要求1-4任意一项所述的方法,其特征在于,在所述识别所述视频中与识别对象相匹配的多个特征点,并基于预设坐标系及所述视频播放顺序生成各个特征点的多个坐标之后,并在所述根据预设的视频分割原则将所述视频分割为多个帧序列之前,所述方法还包括:
将所述多个坐标进行归一化处理,使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。
6.根据权利要求1所述的方法,其特征在于,所述从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点,包括:
按所述多个特征点的权重比例修正所述坐标;
从所述多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为所述目标特征点。
7.一种音乐生成装置,其特征在于,所述装置包括:
获取单元,用于获取录制人体动作得到的视频;
识别单元,用于识别所述视频中与识别对象相匹配的多个特征点,并基于预设坐标系及视频播放顺序生成各个特征点的多个坐标,所述识别对象包括肢体和/或手部;
分割单元,用于根据预设的视频分割原则将所述视频分割为多个帧序列;
筛选单元,用于从每个帧序列的多个特征点中筛选出坐标变化最大的一个特征点作为目标特征点;
第一生成单元,用于获取从每个帧序列中选取的所述目标特征点的多个坐标,并根据预设的音乐生成规则将所述多个坐标生成每个帧序列对应的多个音符代码;
第二生成单元,用于根据每个帧序列对应的多个音符代码及所述视频播放顺序生成旋律。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
处理单元,用于将所述多个坐标进行归一化处理,使得每个坐标的横坐标的值和纵坐标的值均位于预设区间内。
9.根据权利要求7所述的装置,其特征在于,所述筛选单元包括:
修正子单元,用于按所述多个特征点的权重比例修正所述坐标;
筛选子单元,用于从所述多个特征点修正后的坐标中筛选出坐标变化最大的一个特征点作为所述目标特征点。
10.一种服务器,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于:所述程序指令被处理器加载并执行时实现权利要求1至6任意一项所述的音乐生成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257164.7A CN109413351B (zh) | 2018-10-26 | 2018-10-26 | 一种音乐生成方法及装置 |
PCT/CN2018/123552 WO2020082575A1 (zh) | 2018-10-26 | 2018-12-25 | 一种音乐生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257164.7A CN109413351B (zh) | 2018-10-26 | 2018-10-26 | 一种音乐生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109413351A true CN109413351A (zh) | 2019-03-01 |
CN109413351B CN109413351B (zh) | 2021-07-13 |
Family
ID=65470007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811257164.7A Active CN109413351B (zh) | 2018-10-26 | 2018-10-26 | 一种音乐生成方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109413351B (zh) |
WO (1) | WO2020082575A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827789A (zh) * | 2019-10-12 | 2020-02-21 | 平安科技(深圳)有限公司 | 音乐生成方法、电子装置及计算机可读存储介质 |
WO2023051651A1 (zh) * | 2021-09-28 | 2023-04-06 | 北京字跳网络技术有限公司 | 音乐生成方法、装置、设备、存储介质及程序 |
WO2023121559A3 (en) * | 2021-12-20 | 2023-08-10 | Lemon Inc. | Interactive movement audio engine |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI739675B (zh) * | 2020-11-25 | 2021-09-11 | 友達光電股份有限公司 | 影像辨識方法及裝置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885663A (zh) * | 2014-03-14 | 2014-06-25 | 深圳市东方拓宇科技有限公司 | 一种生成和播放音乐的方法及其对应终端 |
CN107145326A (zh) * | 2017-03-28 | 2017-09-08 | 浙江大学 | 一种基于目标面部表情采集的音乐自动播放系统及方法 |
US10027883B1 (en) * | 2014-06-18 | 2018-07-17 | Amazon Technologies, Inc. | Primary user selection for head tracking |
US10083521B1 (en) * | 2015-12-04 | 2018-09-25 | A9.Com, Inc. | Content recommendation based on color match |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0784587A (ja) * | 1993-09-13 | 1995-03-31 | Pioneer Electron Corp | 表示制御装置 |
CN105786396A (zh) * | 2016-04-22 | 2016-07-20 | 成都涂鸦科技有限公司 | 一种划屏与步态相结合的音乐生成方法 |
CN107995442A (zh) * | 2017-12-21 | 2018-05-04 | 北京奇虎科技有限公司 | 视频数据的处理方法、装置及计算设备 |
-
2018
- 2018-10-26 CN CN201811257164.7A patent/CN109413351B/zh active Active
- 2018-12-25 WO PCT/CN2018/123552 patent/WO2020082575A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885663A (zh) * | 2014-03-14 | 2014-06-25 | 深圳市东方拓宇科技有限公司 | 一种生成和播放音乐的方法及其对应终端 |
US10027883B1 (en) * | 2014-06-18 | 2018-07-17 | Amazon Technologies, Inc. | Primary user selection for head tracking |
US10083521B1 (en) * | 2015-12-04 | 2018-09-25 | A9.Com, Inc. | Content recommendation based on color match |
CN107145326A (zh) * | 2017-03-28 | 2017-09-08 | 浙江大学 | 一种基于目标面部表情采集的音乐自动播放系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827789A (zh) * | 2019-10-12 | 2020-02-21 | 平安科技(深圳)有限公司 | 音乐生成方法、电子装置及计算机可读存储介质 |
WO2021068812A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | 音乐生成方法、装置、电子设备及计算机可读存储介质 |
CN110827789B (zh) * | 2019-10-12 | 2023-05-23 | 平安科技(深圳)有限公司 | 音乐生成方法、电子装置及计算机可读存储介质 |
WO2023051651A1 (zh) * | 2021-09-28 | 2023-04-06 | 北京字跳网络技术有限公司 | 音乐生成方法、装置、设备、存储介质及程序 |
WO2023121559A3 (en) * | 2021-12-20 | 2023-08-10 | Lemon Inc. | Interactive movement audio engine |
Also Published As
Publication number | Publication date |
---|---|
WO2020082575A1 (zh) | 2020-04-30 |
CN109413351B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109413351A (zh) | 一种音乐生成方法及装置 | |
US11670188B2 (en) | Method and apparatus for an adaptive and interactive teaching of playing a musical instrument | |
CN105206258B (zh) | 声学模型的生成方法和装置及语音合成方法和装置 | |
US11972693B2 (en) | Method, device, system and apparatus for creating and/or selecting exercises for learning playing a music instrument | |
US20240054911A2 (en) | Crowd-based device configuration selection of a music teaching system | |
US11893898B2 (en) | Method and apparatus for an adaptive and interactive teaching of playing a musical instrument | |
CN112309365B (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
US11568857B2 (en) | Machine learning method, audio source separation apparatus, and electronic instrument | |
KR20150016225A (ko) | 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환 | |
JP6699677B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
US9601106B2 (en) | Prosody editing apparatus and method | |
CN110364140A (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
CN109346045A (zh) | 基于长短时神经网络的多声部音乐生成方法及装置 | |
CN108986841A (zh) | 音频信息处理方法、装置及存储介质 | |
CN107610691A (zh) | 英语元音发声纠错方法及装置 | |
CN109814541B (zh) | 一种机器人的控制方法、系统及终端设备 | |
JP2020021098A (ja) | 情報処理装置、電子機器及びプログラム | |
CN115083371A (zh) | 驱动虚拟数字形象唱歌的方法及其装置 | |
US11900825B2 (en) | Method and apparatus for an adaptive and interactive teaching of playing a musical instrument | |
CN113196381A (zh) | 音响解析方法以及音响解析装置 | |
US20130231928A1 (en) | Sound synthesizing apparatus, sound processing apparatus, and sound synthesizing method | |
CN117528872B (zh) | 灯光信号律动控制方法、装置、设备及存储介质 | |
Martin | Touchless gestural control of concatenative sound synthesis | |
JP2023124301A (ja) | 教師情報作成システム、教師情報作成方法及び教師情報作成プログラム | |
Perez et al. | Towards realistic and natural synthesis of musical performances: Performer, instrument and sound modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |