CN110827789B - 音乐生成方法、电子装置及计算机可读存储介质 - Google Patents
音乐生成方法、电子装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110827789B CN110827789B CN201910969868.5A CN201910969868A CN110827789B CN 110827789 B CN110827789 B CN 110827789B CN 201910969868 A CN201910969868 A CN 201910969868A CN 110827789 B CN110827789 B CN 110827789B
- Authority
- CN
- China
- Prior art keywords
- video frame
- music
- target video
- position coordinate
- joint part
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000000694 effects Effects 0.000 claims abstract description 53
- 230000009471 action Effects 0.000 claims abstract description 49
- 230000008859 change Effects 0.000 claims abstract description 38
- 238000013507 mapping Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 6
- 210000000707 wrist Anatomy 0.000 description 27
- 210000003127 knee Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Acoustics & Sound (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明涉及数据处理技术领域,揭露了一种音乐生成方法,该方法包括:录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,识别第一目标视频帧中的人体关节部位的ID及位置坐标值并控制播放单元启动,播放按照预设的音乐参数和音效参数的初始值生成的音乐,以第一目标视频帧的读取时间为时间起点,每隔预设时间读取动作视频的当前视频帧作为第二目标视频帧,识别第二目标视频帧中人体关节部位的ID及位置坐标值,根据人体关节部位的位置坐标值的变化量调整音乐参数和音效参数,从而对所述音乐进行调整生成新的音乐。本发明还提出一种电子装置以及一种计算机可读存储介质。本发明解决了音乐创作难、不易扩展的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种音乐生成方法、电子装置及计算机可读存储介质。
背景技术
当今社会,音乐已经深入渗透到人们的生活中,音乐可以调节心情,缓解压力、减少焦虑。传统音乐的生成方式需要创作人具有一定的乐理知识,并结合灵感和创作经验,才能创作出完整的音乐。而对于没有音乐基础的人来说,这些条件限制形成了很高的门槛,让很多热爱音乐的非专业人群都未能参与到创作音乐中。目前,缺少一种创作简单、易扩展的音乐生成方法。
发明内容
鉴于以上内容,有必要提供一种音乐生成方法,旨在解决音乐创作难、不易扩展的问题。
本发明提供的音乐生成方法,包括:
第一识别步骤:利用摄像单元录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,将所述第一目标视频帧输入预先训练好的模型,识别所述第一目标视频帧中用户的关键部位信息,所述关键部位信息包括第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
生成步骤:当识别到第一目标视频帧中所述第一类人体关节部位的位置坐标值和第二类人体关节部位的位置坐标值时,控制播放单元启动并播放根据预设的音乐参数和音效参数的初始值生成的音乐;
第二识别步骤:以第一目标视频帧的读取时间为时间起点,每间隔预设时间,读取所述动作视频的当前视频帧作为第二目标视频帧,将所述第二目标视频帧输入所述预先训练好的模型,识别所述第二目标视频中用户的第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
调整步骤:根据预先确定的第一类人体关节部位与音乐参数的映射关系表、第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表调整音乐参数,根据预先确定的第二类人体关节部位与音效参数的映射关系表、第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表调整音效参数,并根据调整后音乐参数及音效参数对所述音乐进行调整生成新的音乐。
可选的,所述调整步骤包括:
A1、将第一目标视频帧中的人体各关节部位的位置坐标值作为各关节部位的位置初始值;
A2、根据第二目标视频帧中第一类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第一类人体关节部位的位置坐标值的变化量;
A3、根据第二目标视频帧中第二类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第二类人体关节部位的位置坐标值的变化量;
A4、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及预先确定的第一类人体关节部位与音乐参数的映射关系表确定需要调整的音乐参数的名称,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及预先确定的第二类人体关节部位与音效参数的映射关系表确定需要调整的音效参数的名称;
A5、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表对所述需要调整的音乐参数进行调整,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表对所述需要调整的音效参数进行调整;
A6、根据调整后音乐参数及音效参数对所述音乐进行调整生成新的音乐。
可选的,所述方法还包括:
停止步骤:当接收到预设停止信号时,控制播放单元停止播放所述音乐。
可选的,所述第一类人体关节部位为人体左半边关节部位,所述第二类人体关节部位为人体右半边关节部位。
可选的,所述预先训练好的模型为PoseNet模型,所述PoseNet模型的训练过程包括:
B1、获取预设数量的人物动作图片样本,将所述图片样本分为第一比例的训练集和第二比例的验证集;
B2、利用所述训练集训练所述PoseNet模型;
B3、利用所述验证集验证训练后的PoseNet模型的准确率,若所述准确率大于或者等于预设准确率,则训练结束;
B4、若所述准确率小于预设准确率,则按照预设百分比增加所述预设数量的人物动作图片样本的数量,并返回步骤B1。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的音乐生成程序,所述音乐生成程序被所述处理器执行时实现如下步骤:
第一识别步骤:利用摄像单元录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,将所述第一目标视频帧输入预先训练好的模型,识别所述第一目标视频帧中用户的关键部位信息,所述关键部位信息包括第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
生成步骤:当识别到第一目标视频帧中所述第一类人体关节部位的位置坐标值和第二类人体关节部位的位置坐标值时,控制播放单元启动并播放根据预设的音乐参数和音效参数的初始值生成的音乐;
第二识别步骤:以第一目标视频帧的读取时间为时间起点,每间隔预设时间,读取所述动作视频的当前视频帧作为第二目标视频帧,将所述第二目标视频帧输入所述预先训练好的模型,识别所述第二目标视频中用户的第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
调整步骤:根据预先确定的第一类人体关节部位与音乐参数的映射关系表、第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表调整音乐参数,根据预先确定的第二类人体关节部位与音效参数的映射关系表、第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表调整音效参数,并根据调整后的音乐参数及音效参数对所述音乐进行调整生成新的音乐。
可选的,所述调整步骤包括:
A1、将第一目标视频帧中的人体各关节部位的位置坐标值作为各关节部位的位置初始值;
A2、根据第二目标视频帧中第一类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第一类人体关节部位的位置坐标值的变化量;
A3、根据第二目标视频帧中第二类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第二类人体关节部位的位置坐标值的变化量;
A4、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及预先确定的第一类人体关节部位与音乐参数的映射关系表确定需要调整的音乐参数的名称,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及预先确定的第二类人体关节部位与音效参数的映射关系表确定需要调整的音效参数的名称;
A5、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表对所述需要调整的音乐参数进行调整,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表对所述需要调整的音效参数进行调整;
A6、根据调整后音乐参数及音效参数对所述音乐进行调整生成新的音乐。
可选的,所述音乐生成程序被所述处理器执行时还实现如下步骤:
停止步骤:当接收到预设停止信号时,控制播放单元停止播放所述音乐。
可选的,所述第一类人体关节部位为人体左半边关节部位,所述第二类人体关节部位为人体右半边关节部位。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有音乐生成程序,所述音乐生成程序可被一个或者多个处理器执行,以实现上述音乐生成方法的步骤。
相较现有技术,本发明通过读取正在录制的动作视频的当前视频帧作为第一目标视频帧,识别第一目标视频帧中的人体关节部位的ID和位置坐标值并控制播放单元启动,播放按照预设的音乐参数和音效参数的初始值生成的音乐,以第一目标视频帧的读取时间为时间起点,每隔预设时间读取动作视频的当前视频帧作为第二目标视频帧,识别第二目标视频帧中人体关节部位的ID及位置坐标值,根据人体关节部位的位置坐标值的变化量调整音乐参数和音效参数,从而对所述音乐进行调整生成新的音乐,从而解决了音乐创作难、不易扩展的问题。
附图说明
图1为本发明电子装置一实施例的示意图;
图2为图1中的音乐生成程序一实施例的程序模块图;
图3为本发明音乐生成方法一实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,为本发明电子装置1一实施例的示意图。电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子装置1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有音乐生成程序10,所述音乐生成程序10可被所述处理器12执行。图1仅示出了具有组件11-13以及音乐生成程序10的电子装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件,例如存储本发明一实施例中的音乐生成程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行音乐生成程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子装置1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在本发明的一实施例中,所述音乐生成程序10被所述处理器12执行时实现如下第一识别步骤、生成步骤、第二识别步骤及调整步骤。
第一识别步骤:利用摄像单元录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,将所述第一目标视频帧输入预先训练好的模型,识别所述第一目标视频帧中用户的关键部位信息,所述关键部位信息包括第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值。
所述录制用户的动作视频可以是录制用户的舞蹈视频,也可以是录制用户的健身视频、体育训练视频或者其他任意动作视频。
在本发明的一个实施例中,所述预先训练好的模型为PoseNet模型,PoseNet模型是一种卷积神经网络模型,运行在Tensorflow.js(一种深度学习框架)上,可以在浏览器中进行实时人体姿态估计。
PoseNet模型可以识别单人姿态,也可以识别多人姿态。本实施例中,所选用的为用户的单人动作视频。
所述PoseNet模型的训练过程包括:
B1、获取预设数量(例如,1万张)的人物动作图片样本,将所述图片样本分为第一比例的训练集和第二比例的验证集;
B2、利用所述训练集训练所述PoseNet模型;
B3、利用所述验证集验证训练后的PoseNet模型的准确率,若所述准确率大于或者等于预设准确率(例如,95%),则训练结束;
B4、若所述准确率小于预设准确率,则按照预设百分比(例如,15%)增加所述预设数量的人物动作图片样本的数量,并返回步骤B1。
本实施例中,PoseNet模型输出的为用户17个关键关节部位的ID及其位置坐标值。
人体关节部位与其ID关系可以如下表1所示:
表1
本实施例中,按照人体关节部位在人体的位置分布将关键关节部位划分为第一类人体关节部位和第二类人体关节部位。例如,第一类人体关节部位可以为人体上半部关节部位,第二类人体关节部位可以为人体下半部关节部位,或者第一类人体关节部位为人体左半部关节部位,第二类人体节点部位为人体右半部关节部位。
本实施例中,第一类人体关节部位为人体左半部关节部位,例如,左腕、左膝、左肘、左臀等。
第二类人体关节部位为人体右半部关节部位,例如,右腕、右膝、右肘、右臀等。
本实施例中,摄像单元的位置是固定的,所述人体关节部位的位置坐标值为人体关节部位在各视频帧中的二维坐标值(X,Y),所述二维坐标系的X轴为各视频帧的上边框,Y轴为各视频帧的左边框,原点为各视频帧的上边框与左边框的交叉点。
所述关键部位信息还包括人体关节部位的位置精度的置信度分值,所述置信度分值介于0到1.0之间,置信度的分值越高,表明识别出的人体关节部位的位置精确度越高。
生成步骤:当识别到第一目标视频帧中所述第一类和第二类人体关节部位的位置坐标值时,控制播放单元启动并播放根据预设的音乐参数和音效参数的初始值生成的音乐。
所述音乐参数包括音高、音乐速度、音符时值、音区等。
所述音高为声音的高度,包括A,B,C,D四种类型。
所述音乐速度为每分钟的拍数,慢速为每分钟40~69拍,中速为每分钟72~84拍,快速为每分钟108~28拍。
所述音符时值用来表示音符之间的相对持续时间,二分音符的时值为全音符的1/2,四份音符为全音符的1/4,八分音符为全音符的1/8。
所述音区包括高音区、中音区及低音区,数值区域为3~5。
所述音效参数包括响度、延迟时间、左右相位、混响时间等。
所述响度用来描述音量的大小。
所述延迟时间为声音从发出到人耳接收的中间时间段。
所述混响时间是声源停止发声后,声波经过反射和吸收在声音消失前的中间时间段。
所述左右相位为声音的方向,包含左、右、居中三种类型。
例如,预设音乐参数和音效参数的初始值如下:
音高初始值为C,音乐速度初始值为90拍,音符时值初始值为四分之一,音区初始值为4,响度初始值为系统音量的80%,延迟时间初始值为0.6秒,混响时间初始值为1秒,左右相位初始值为居中。
第二识别步骤:以第一目标视频帧的读取时间为时间起点,每间隔预设时间,读取所述动作视频的当前视频帧作为第二目标视频帧,将所述第二目标视频帧输入所述预先训练好的模型,识别所述第二目标视频中用户的第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值。
因动作视频中相邻视频帧的变化较小,且为了减少待处理的数据量,本实施例未读取所有视频帧,而是采用间隔预设时间读取一帧的方式。
调整步骤:根据预先确定的第一类人体关节部位与音乐参数的映射关系表、第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表调整音乐参数,根据预先确定的第二类人体关节部位与音效参数的映射关系表、第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表调整音效参数,并根据调整后的音乐参数及音效参数对所述音乐进行调整生成新的音乐。
在本发明的一个实施例中,所述调整步骤包括:
A1、将第一目标视频帧中的人体各关节部位的位置坐标值作为各关节部位的位置初始值;
例如,第一目标视频帧ID为9的左腕的位置初始值可以表示为(X9-start,Y9-start),ID为10的右腕的位置初始值可以表示为(X10-start,Y10-start)。
A2、根据第二目标视频帧中第一类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第一类人体关节部位的位置坐标值的变化量;
例如,第二目标视频帧中ID为9的左腕的位置坐标值表示为(X9-2,Y9-2),则第二目标视频帧中ID为9的左腕的X轴的位置坐标值的变化量为X9-2start=X9-2-X9-start,Y轴的位置坐标值的变化量为Y9-2start=Y9-2-Y9-start。
A3、根据第二目标视频帧中第二类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第二类人体关节部位的位置坐标值的变化量;
例如,第二目标视频帧中ID为10的右腕的位置坐标值表示为(X10-2,Y10-2),则第二目标视频帧中ID为10的右腕的X轴的位置坐标值的变化量为X10-2start=X10-2-X10-start,Y轴的位置坐标值的变化量为Y10-2start=Y10-2-Y10-start。
A4、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及预先确定的第一类人体关节部位与音乐参数的映射关系表确定需要调整的音乐参数的名称,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及预先确定的第二类人体关节部位与音效参数的映射关系表确定需要调整的音效参数的名称;
所述预先确定的第一类人体关节部位的ID与音乐参数的映射关系表可以用如下表2表示。
ID | 动作姿态 | 有变化的坐标 | 音乐参数 |
9 | 左腕上下移动 | Y | 音高 |
9 | 左腕左右摆动 | X | 音乐速度 |
13 | 左膝左右摆动 | X | 音符时值 |
7 | 左肘上下移动 | Y | 音区 |
… | … | … | … |
表2
所述预先确定的第二类人体关节部位的ID与音效参数的映射关系表可以用如下表3表示。
ID | 动作姿态 | 有变化的坐标 | 音效参数 |
10 | 右腕上下移动 | Y | 响度 |
8 | 右肘左右摆动 | X | 延迟时间 |
6 | 右肩左右摆动 | X | 左右相位 |
14 | 右膝左右摆动 | X | 混响时间 |
… | … | … | … |
表3
例如,根据第二目标视频帧中ID为9的左腕的X轴的位置坐标值的变化量可确定音乐参数中的音乐速度需要调整,根据第二目标视频帧中ID为9的左腕的Y轴的位置坐标值的变化量可确定音乐参数中的音高需要调整。
A5、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表对所述需要调整的音乐参数进行调整,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表对所述需要调整的音效参数进行调整。
第一预设调整幅度表可以用表4表示。
表4
第二预设调整幅度表可以用表5表示。
表5
例如,假如d为5,当第二目标视频帧中ID为9的左腕的X轴的位置坐标值的变化量X9-2start为8时,则音乐速度需调整为110拍。
当第二目标视频帧中ID为10的右腕的Y轴的位置坐标值的变化量Y10-2start为-13时,则响度需调整为系统音量的74%。
A6、根据调整后音乐参数及音效参数对所述音乐进行调整生成新的音乐。
在本发明的一个实施例中,所述音乐生成程序10被所述处理器12执行时还实现如下步骤:
停止步骤:当接收到预设停止信号时,控制播放单元停止播放所述音乐。
本实施例中,所述预设停止信号可以是停止录制用户的动作视频,也可以是音乐播放时间达到预设时间阈值(例如3分钟)。
由上述实施例可知,本发明提出的电子装置1,首先,读取正在录制的动作视频的当前视频帧作为第一目标视频帧,识别第一目标视频帧中的人体关节部位的ID和位置坐标值并控制播放单元启动,播放按照预设的音乐参数和音效参数的初始值生成的音乐;然后,以第一目标视频帧的读取时间为时间起点,每隔预设时间读取动作视频的当前视频帧作为第二目标视频帧,识别第二目标视频帧中人体关节部位的ID及位置坐标值,根据人体关节部位的位置坐标值的变化量调整音乐参数和音效参数,从而对所述音乐进行调整生成新的音乐,从而解决了音乐创作难、不易扩展的问题。
在其他实施例中,音乐生成程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述音乐生成程序10在电子装置1中的执行过程。
如图2所示,为图1中的音乐生成程序10一实施例的程序模块图。
在本发明的一个实施例中,音乐生成程序10包括第一识别模块110、生成模块120、第二识别模块130及调整模块140,示例性地:
所述第一识别模块110,用于利用摄像单元录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,将所述第一目标视频帧输入预先训练好的模型,识别所述第一目标视频帧中用户的关键部位信息,所述关键部位信息包括第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
所述生成模块120,用于当识别到第一目标视频帧中所述第一类人体关节部位的位置坐标值和第二类人体关节部位的位置坐标值时,控制播放单元启动并播放根据预设的音乐参数和音效参数的初始值生成的音乐;
所述第二识别模块130,用于以第一目标视频帧的读取时间为时间起点,每间隔预设时间,读取所述动作视频的当前视频帧作为第二目标视频帧,将所述第二目标视频帧输入所述预先训练好的模型,识别所述第二目标视频中用户的第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
所述调整模块140,用于根据预先确定的第一类人体关节部位与音乐参数的映射关系表、第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表调整音乐参数,根据预先确定的第二类人体关节部位与音效参数的映射关系表、第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表调整音效参数,并根据调整后的音乐参数及音效参数对所述音乐进行调整生成新的音乐。
上述第一识别模块110、生成模块120、第二识别模块130及调整模块140等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
如图3所示,为本发明音乐生成方法一实施例的流程图,该音乐生成方法包括步骤S1-S4。
S1、利用摄像单元录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,将所述第一目标视频帧输入预先训练好的模型,识别所述第一目标视频帧中用户的关键部位信息,所述关键部位信息包括第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值。
所述录制用户的动作视频可以是录制用户的舞蹈视频,也可以是录制用户的健身视频、体育训练视频或者其他任意动作视频。
在本发明的一个实施例中,所述预先训练好的模型为PoseNet模型,PoseNet模型是一种卷积神经网络模型,运行在Tensorflow.js(一种深度学习框架)上,可以在浏览器中进行实时人体姿势估计。
PoseNet模型可以识别单人姿态,也可以识别多人姿态。本实施例中,所选用的为用户的单人动作视频。
所述PoseNet模型的训练过程包括:
B1、获取预设数量(例如,1万张)的人物动作图片样本,将所述图片样本分为第一比例的训练集和第二比例的验证集;
B2、利用所述训练集训练所述PoseNet模型;
B3、利用所述验证集验证训练后的PoseNet模型的准确率,若所述准确率大于或者等于预设准确率(例如,95%),则训练结束;
B4、若所述准确率小于预设准确率,则按照预设百分比(例如,15%)增加所述预设数量的人物动作图片样本的数量,并返回步骤B1。
本实施例中,PoseNet模型输出的为用户17个关键关节部位的ID及其位置坐标值。
人体关节部位与其ID关系可以如上表1所示。
本实施例中,按照人体关节部位在人体的位置分布将关键关节部位划分为第一类人体关节部位和第二类人体关节部位。例如,第一类人体关节部位可以为人体上半部关节部位,第二类人体关节部位可以为人体下半部关节部位,或者第一类关节部位为人体左半部关节部位,第二类节点部位为人体右半部关节部位。
本实施例中,第一类人体关节部位为人体左半部关节部位,例如,左腕、左膝、左肘、左臀等。
第二类人体关节部位为人体右半部关节部位,例如,右腕、右膝、右肘、右臀等。
本实施例中,摄像单元的位置是固定的,所述人体关节部位的位置坐标值为人体关节部位在各视频帧中的二维坐标值(X,Y),所述二维坐标系的X轴为各视频帧的上边框,Y轴为各视频帧的左边框,原点为各视频帧的上边框与左边框的交叉点。
所述关键部位信息还包括人体关节部位的位置精度的置信度分值,所述置信度分值介于0到1.0之间,置信度的分值越高,表明识别出的人体关节部位的位置精确度越高。
S2、当识别到第一目标视频帧中所述第一类和第二类人体关节部位的位置坐标值时,控制播放单元启动并播放根据预设的音乐参数和音效参数的初始值生成的音乐。
所述音乐参数包括音高、音乐速度、音符时值、音区等。
所述音高为声音的高度,包括A,B,C,D四种类型。
所述音乐速度为每分钟的拍数,慢速为每分钟40~69拍,中速为每分钟72~84拍,快速为每分钟108~28拍。
所述音符时值用来表示音符之间的相对持续时间,二分音符的时值为全音符的1/2,四份音符为全音符的1/4,八分音符为全音符的1/8。
所述音区包括高音区、中音区及低音区,数值区域为3~5。
所述音效参数包括响度、延迟时间、左右相位、混响时间等。
所述响度用来描述音量的大小。
所述延迟时间为声音从发出到人耳接收的中间时间段。
所述混响时间是声源停止发声后,声波经过反射和吸收在声音消失前的中间时间段。
所述左右相位为声音的方向,包含左、右、居中三种类型。
例如,预设音乐参数和音效参数的初始值如下:
音高初始值为C,音乐速度初始值为90拍,音符时值初始值为四分之一,音区初始值为4,响度初始值为系统音量的80%,延迟时间初始值为0.6秒,混响时间初始值为1秒,左右相位初始值为居中。
S3、以第一目标视频帧的读取时间为时间起点,每间隔预设时间,读取所述动作视频的当前视频帧作为第二目标视频帧,将所述第二目标视频帧输入所述预先训练好的模型,识别所述第二目标视频中用户的第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值。
因动作视频中相邻视频帧的变化较小,且为了减少待处理的数据量,本实施例未读取所有视频帧,而是采用间隔预设时间读取一帧的方式。
S4、根据预先确定的第一类人体关节部位与音乐参数的映射关系表、第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表调整音乐参数,根据预先确定的第二类人体关节部位与音效参数的映射关系表、第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表调整音效参数,并根据调整后的音乐参数及音效参数对所述音乐进行调整生成新的音乐。
在本发明的一个实施例中,所述调整步骤包括:
A1、将第一目标视频帧中的人体各关节部位的位置坐标值作为各关节部位的位置初始值;
例如,第一目标视频帧ID为9的左腕的位置初始值可以表示为(X9-start,Y9-start),ID为10的右腕的位置初始值可以表示为(X10-start,Y10-start)。
A2、根据第二目标视频帧中第一类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第一类人体关节部位的位置坐标值的变化量;
例如,第二目标视频帧中ID为9的左腕的位置坐标值表示为(X9-2,Y9-2),则第二目标视频帧中ID为9的左腕的X轴的位置坐标值的变化量为X9-2start=X9-2-X9-start,Y轴的位置坐标值的变化量为Y9-2start=Y9-2-Y9-start。
A3、根据第二目标视频帧中第二类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第二类人体关节部位的位置坐标值的变化量;
例如,第二目标视频帧中ID为10的右腕的位置坐标值表示为(X10-2,Y10-2),则第二目标视频帧中ID为10的右腕的X轴的位置坐标值的变化量为X10-2start=X10-2-X10-start,Y轴的位置坐标值的变化量为Y10-2start=Y10-2-Y10-start。
A4、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及预先确定的第一类人体关节部位与音乐参数的映射关系表确定需要调整的音乐参数的名称,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及预先确定的第二类人体关节部位与音效参数的映射关系表确定需要调整的音效参数的名称;
所述预先确定的第一类人体关节部位的ID与音乐参数的映射关系表可以用如上表2表示。
所述预先确定的第二类人体关节部位的ID与音效参数的映射关系表可以用如上表3表示。
例如,根据第二目标视频帧中ID为9的左腕的X轴的位置坐标值的变化量可确定音乐参数中的音乐速度需要调整,根据第二目标视频帧中ID为9的左腕的Y轴的位置坐标值的变化量可确定音乐参数中的音高需要调整。
A5、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表对所述需要调整的音乐参数进行调整,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表对所述需要调整的音效参数进行调整。
第一预设调整幅度表可以用上表4表示。
第二预设调整幅度表可以用上表5表示。
例如,假如d为5,当第二目标视频帧中ID为9的左腕的X轴的位置坐标值的变化量X9-2start为8时,则音乐速度需调整为110拍。
当第二目标视频帧中ID为10的右腕的Y轴的位置坐标值的变化量Y10-2start为-13时,则响度需调整为系统音量的74%。
A6、根据调整后音乐参数及音效参数对所述音乐进行调整生成新的音乐。
在本发明的一个实施例中,所述音乐生成程序10被所述处理器12执行时还实现如下步骤:
停止步骤:当接收到预设停止信号时,控制播放单元停止播放所述音乐。
本实施例中,所述预设停止信号可以是停止录制用户的动作视频,也可以是音乐播放时间达到预设时间阈值(例如3分钟)。
由上述实施例可知,本发明提出的音乐生成方法,首先,读取正在录制的动作视频的当前视频帧作为第一目标视频帧,识别第一目标视频帧中的人体关节部位的ID和位置坐标值并控制播放单元启动,播放按照预设的音乐参数和音效参数的初始值生成的音乐;然后,以第一目标视频帧的读取时间为时间起点,每隔预设时间读取动作视频的当前视频帧作为第二目标视频帧,识别第二目标视频帧中人体关节部位的ID及位置坐标值,根据人体关节部位的位置坐标值的变化量调整音乐参数和音效参数,从而对所述音乐进行调整生成新的音乐,从而解决了音乐创作难、不易扩展的问题。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括音乐生成程序10,所述音乐生成程序10被处理器执行时实现如下操作:
利用摄像单元录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,将所述第一目标视频帧输入预先训练好的模型,识别所述第一目标视频帧中用户的关键部位信息,所述关键部位信息包括第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
当识别到第一目标视频帧中所述第一类人体关节部位的位置坐标值和第二类人体关节部位的位置坐标值时,控制播放单元启动并播放根据预设的音乐参数和音效参数的初始值生成的音乐;
以第一目标视频帧的读取时间为时间起点,每间隔预设时间,读取所述动作视频的当前视频帧作为第二目标视频帧,将所述第二目标视频帧输入所述预先训练好的模型,识别所述第二目标视频中用户的第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
根据预先确定的第一类人体关节部位与音乐参数的映射关系表、第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表调整音乐参数,根据预先确定的第二类人体关节部位与音效参数的映射关系表、第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表调整音效参数,并根据调整后的音乐参数及音效参数对所述音乐进行调整生成新的音乐。
本发明之计算机可读存储介质的具体实施方式与上述音乐生成方法以及电子装置的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种音乐生成方法,应用于电子装置,该电子装置包括摄像单元、播放单元,其特征在于,所述方法包括:
第一识别步骤:利用摄像单元录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,将所述第一目标视频帧输入预先训练好的模型,识别所述第一目标视频帧中用户的关键部位信息,所述关键部位信息包括第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
生成步骤:当识别到第一目标视频帧中所述第一类人体关节部位的位置坐标值和第二类人体关节部位的位置坐标值时,控制播放单元启动并播放根据预设的音乐参数和音效参数的初始值生成的音乐;
第二识别步骤:以第一目标视频帧的读取时间为时间起点,每间隔预设时间,读取所述动作视频的当前视频帧作为第二目标视频帧,将所述第二目标视频帧输入所述预先训练好的模型,识别所述第二目标视频中用户的第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
调整步骤:根据预先确定的第一类人体关节部位与音乐参数的映射关系表、第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表调整音乐参数,根据预先确定的第二类人体关节部位与音效参数的映射关系表、第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表调整音效参数,并根据调整后的音乐参数及音效参数对所述音乐进行调整生成新的音乐。
2.如权利要求1所述的音乐生成方法,其特征在于,所述调整步骤包括:
A1、将第一目标视频帧中的人体各关节部位的位置坐标值作为各关节部位的位置初始值;
A2、根据第二目标视频帧中第一类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第一类人体关节部位的位置坐标值的变化量;
A3、根据第二目标视频帧中第二类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第二类人体关节部位的位置坐标值的变化量;
A4、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及预先确定的第一类人体关节部位与音乐参数的映射关系表确定需要调整的音乐参数的名称,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及预先确定的第二类人体关节部位与音效参数的映射关系表确定需要调整的音效参数的名称;
A5、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表对所述需要调整的音乐参数进行调整,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表对所述需要调整的音效参数进行调整;
A6、根据调整后音乐参数及音效参数对所述音乐进行调整生成新的音乐。
3.如权利要求2所述的音乐生成方法,其特征在于,所述方法还包括:
停止步骤:当接收到预设停止信号时,控制播放单元停止播放所述音乐。
4.如权利要求1所述的音乐生成方法,其特征在于,所述第一类人体关节部位为人体左半边关节部位,所述第二类人体关节部位为人体右半边关节部位。
5.如权利要求1至4中的任意一项所述的音乐生成方法,其特征在于,所述预先训练好的模型为PoseNet模型,所述PoseNet模型的训练过程包括:
B1、获取预设数量的人物动作图片样本,将所述图片样本分为第一比例的训练集和第二比例的验证集;
B2、利用所述训练集训练所述PoseNet模型;
B3、利用所述验证集验证训练后的PoseNet模型的准确率,若所述准确率大于或者等于预设准确率,则训练结束;
B4、若所述准确率小于预设准确率,则按照预设百分比增加所述预设数量的人物动作图片样本的数量,并返回步骤B1。
6.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的音乐生成程序,所述音乐生成程序被所述处理器执行时实现如下步骤:
第一识别步骤:利用摄像单元录制用户的动作视频,读取所述动作视频的当前视频帧作为第一目标视频帧,将所述第一目标视频帧输入预先训练好的模型,识别所述第一目标视频帧中用户的关键部位信息,所述关键部位信息包括第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
生成步骤:当识别到第一目标视频帧中所述第一类人体关节部位的位置坐标值和第二类人体关节部位的位置坐标值时,控制播放单元启动并播放根据预设的音乐参数和音效参数的初始值生成的音乐;
第二识别步骤:以第一目标视频帧的读取时间为时间起点,每间隔预设时间,读取所述动作视频的当前视频帧作为第二目标视频帧,将所述第二目标视频帧输入所述预先训练好的模型,识别所述第二目标视频中用户的第一类人体关节部位的ID及其位置坐标值和第二类人体关节部位的ID及其位置坐标值;
调整步骤:根据预先确定的第一类人体关节部位与音乐参数的映射关系表、第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表调整音乐参数,根据预先确定的第二类人体关节部位与音效参数的映射关系表、第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表调整音效参数,并根据调整后的音乐参数及音效参数对所述音乐进行调整生成新的音乐。
7.如权利要求6所述的电子装置,其特征在于,所述调整步骤包括:
A1、将第一目标视频帧中的人体各关节部位的位置坐标值作为各关节部位的位置初始值;
A2、根据第二目标视频帧中第一类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第一类人体关节部位的位置坐标值的变化量;
A3、根据第二目标视频帧中第二类人体关节部位的位置坐标值及其位置初始值,计算得出第二目标视频帧中第二类人体关节部位的位置坐标值的变化量;
A4、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及预先确定的第一类人体关节部位与音乐参数的映射关系表确定需要调整的音乐参数的名称,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及预先确定的第二类人体关节部位与音效参数的映射关系表确定需要调整的音效参数的名称;
A5、根据第二目标视频帧中第一类人体关节部位的位置坐标值的变化量及第一预设调整幅度表对所述需要调整的音乐参数进行调整,根据第二目标视频帧中第二类人体关节部位的位置坐标值的变化量及第二预设调整幅度表对所述需要调整的音效参数进行调整;
A6、根据调整后音乐参数及音效参数对所述音乐进行调整生成新的音乐。
8.如权利要求7所述的电子装置,其特征在于,所述音乐生成程序被所述处理器执行时还实现如下步骤:
停止步骤:当接收到预设停止信号时,控制播放单元停止播放所述音乐。
9.如权利要求6所述的电子装置,其特征在于,所述第一类人体关节部位为人体左半边关节部位,所述第二类人体关节部位为人体右半边关节部位。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有音乐生成程序,所述音乐生成程序可被一个或者多个处理器执行,以实现如权利要求1至5任一项所述的音乐生成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910969868.5A CN110827789B (zh) | 2019-10-12 | 2019-10-12 | 音乐生成方法、电子装置及计算机可读存储介质 |
PCT/CN2020/119078 WO2021068812A1 (zh) | 2019-10-12 | 2020-09-29 | 音乐生成方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910969868.5A CN110827789B (zh) | 2019-10-12 | 2019-10-12 | 音乐生成方法、电子装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110827789A CN110827789A (zh) | 2020-02-21 |
CN110827789B true CN110827789B (zh) | 2023-05-23 |
Family
ID=69549173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910969868.5A Active CN110827789B (zh) | 2019-10-12 | 2019-10-12 | 音乐生成方法、电子装置及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110827789B (zh) |
WO (1) | WO2021068812A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827789B (zh) * | 2019-10-12 | 2023-05-23 | 平安科技(深圳)有限公司 | 音乐生成方法、电子装置及计算机可读存储介质 |
CN112380362B (zh) * | 2020-10-27 | 2024-06-18 | 脸萌有限公司 | 基于用户交互的音乐播放方法、装置、设备及存储介质 |
CN115881064A (zh) * | 2021-09-28 | 2023-03-31 | 北京字跳网络技术有限公司 | 音乐生成方法、装置、设备、存储介质及程序 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10134421B1 (en) * | 2016-08-04 | 2018-11-20 | Amazon Technologies, Inc. | Neural network based beam selection |
CN109102787A (zh) * | 2018-09-07 | 2018-12-28 | 温州市动宠商贸有限公司 | 一种简易背景音乐自动创建系统 |
CN109325933A (zh) * | 2017-07-28 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 一种翻拍图像识别方法及装置 |
CN109413351A (zh) * | 2018-10-26 | 2019-03-01 | 平安科技(深圳)有限公司 | 一种音乐生成方法及装置 |
CN109618183A (zh) * | 2018-11-29 | 2019-04-12 | 北京字节跳动网络技术有限公司 | 一种视频特效添加方法、装置、终端设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050190199A1 (en) * | 2001-12-21 | 2005-09-01 | Hartwell Brown | Apparatus and method for identifying and simultaneously displaying images of musical notes in music and producing the music |
JP2005328236A (ja) * | 2004-05-13 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 映像監視方法、映像監視装置、および映像監視プログラム |
CN108053815A (zh) * | 2017-12-12 | 2018-05-18 | 广州德科投资咨询有限公司 | 一种机器人的演奏控制方法及机器人 |
CN108415764A (zh) * | 2018-02-13 | 2018-08-17 | 广东欧珀移动通信有限公司 | 电子装置、游戏背景音乐匹配方法及相关产品 |
CN110827789B (zh) * | 2019-10-12 | 2023-05-23 | 平安科技(深圳)有限公司 | 音乐生成方法、电子装置及计算机可读存储介质 |
-
2019
- 2019-10-12 CN CN201910969868.5A patent/CN110827789B/zh active Active
-
2020
- 2020-09-29 WO PCT/CN2020/119078 patent/WO2021068812A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10134421B1 (en) * | 2016-08-04 | 2018-11-20 | Amazon Technologies, Inc. | Neural network based beam selection |
CN109325933A (zh) * | 2017-07-28 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 一种翻拍图像识别方法及装置 |
CN109102787A (zh) * | 2018-09-07 | 2018-12-28 | 温州市动宠商贸有限公司 | 一种简易背景音乐自动创建系统 |
CN109413351A (zh) * | 2018-10-26 | 2019-03-01 | 平安科技(深圳)有限公司 | 一种音乐生成方法及装置 |
CN109618183A (zh) * | 2018-11-29 | 2019-04-12 | 北京字节跳动网络技术有限公司 | 一种视频特效添加方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110827789A (zh) | 2020-02-21 |
WO2021068812A1 (zh) | 2021-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827789B (zh) | 音乐生成方法、电子装置及计算机可读存储介质 | |
CN108615055B (zh) | 一种相似度计算方法、装置及计算机可读存储介质 | |
CN109462776B (zh) | 一种视频特效添加方法、装置、终端设备及存储介质 | |
US9905090B2 (en) | Automatic fitting of haptic effects | |
CN104049721B (zh) | 信息处理方法及电子设备 | |
CN106951881B (zh) | 一种三维场景呈现方法、装置及系统 | |
US20150206523A1 (en) | Method for selecting music based on face recognition, music selecting system and electronic apparatus | |
US11947789B2 (en) | Interactive control method and apparatus, storage medium, and electronic device | |
JP2016524751A (ja) | バイオメトリックアイデンティティに基づくユーザアクションの帰属先の判定 | |
US11511200B2 (en) | Game playing method and system based on a multimedia file | |
CN111312222A (zh) | 一种唤醒、语音识别模型训练方法及装置 | |
US20220414472A1 (en) | Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Audience's Evaluation of Performance Data | |
CN109410972B (zh) | 生成音效参数的方法、装置及存储介质 | |
WO2022252966A1 (zh) | 虚拟乐器的音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
JP2019105932A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
US11775070B2 (en) | Vibration control method and system for computer device | |
CN109523614B (zh) | 一种3d动画导出方法、3d动画播放方法及装置 | |
JP2020201926A (ja) | 視覚的特性に基づいて触覚効果を生成するためのシステムおよび方法 | |
CN115083222B (zh) | 信息交互方法、装置、电子设备及存储介质 | |
US9202447B2 (en) | Persistent instrument | |
CN114693848B (zh) | 一种生成二维动画的方法、装置、电子设备及介质 | |
CN115220686A (zh) | 声音的播放方法、播放装置、电子设备和可读存储介质 | |
CN116468828A (zh) | 虚拟形象情绪特效匹配方法、装置、电子设备及存储介质 | |
JP2024088576A (ja) | プログラム、方法、情報処理装置 | |
CN118283289A (zh) | 音频匹配方法、装置、设备、介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |