CN114707564A - 一种基于机器学习与智能规划的机器人自动编舞系统 - Google Patents
一种基于机器学习与智能规划的机器人自动编舞系统 Download PDFInfo
- Publication number
- CN114707564A CN114707564A CN202011322249.6A CN202011322249A CN114707564A CN 114707564 A CN114707564 A CN 114707564A CN 202011322249 A CN202011322249 A CN 202011322249A CN 114707564 A CN114707564 A CN 114707564A
- Authority
- CN
- China
- Prior art keywords
- action
- music
- dance
- planning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于机器学习与智能规划的机器人自动编舞系统,包括分类器模块、音频处理模块和规划模块。本发明属于机器人和人工智能技术领域,具体是一种基于机器学习与智能规划的机器人自动编舞系统,结合了机器学习与PDDL技术,在有着少量数据集的同时,融入了专家知识,让机器人舞蹈更加的贴近音乐,也更具有观赏性,成功的解决了以往机器人编舞系统所需要的大量数据集和缺少真正专家知识的问题,有效的提高了机器人编舞的观赏性和优美度。
Description
技术领域
本发明属于机器人和人工智能技术领域,具体是指一种基于机器学习与智能规划的机器人自动编舞系统。
背景技术
舞蹈作为一种表演艺术形式,几千年来一直是人类社会交往的一部分。它帮助我们表达情感,交流感情,经常被用作一种娱乐形式。因此,我们可以看到机器人常常尝试模仿这种形式的交互,舞蹈机器人领域也已经看到了各种贡献。机器人编舞工作通常由专业的编舞家完成,专业性强且相当耗时,而科技的发展正在改变艺术创作的方式,机器人自动编舞是人工智能技术在舞蹈方面的应用,一般使用神经网络分析音乐与动作间的关联关系,从而产生一组新舞蹈;当前的研究大部分都是基于深度学习等有监督学习方法,其中需要大量的数据集进行训练,但这样也是远远不足的,同时大部分都没有考虑到专家知识,如果能够将专业舞者的经验融入到机器人的自动编舞中的话,这将大大提高机器人的编舞能力以及观赏性,同时以往的系统通常要不局限于一组预先设定好的舞蹈或音乐,要不在外部刺激方面表现出很少的差异。他们要么只考虑节拍-动作同步和应用有限的姿势关系或很难将人类的知识进行编排,其中所需要的音乐舞蹈数据集也是不容易收集。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供一种基于机器学习与智能规划的机器人自动编舞系统,结合了机器学习与PDDL技术,在有着少量数据集的同时,融入了专家知识,让机器人舞蹈更加的贴近音乐,也更具有观赏性,成功的解决了以往机器人编舞系统所需要的大量数据集和缺少真正专家知识的问题,有效的提高了机器人编舞的观赏性和优美度。
本发明采取的技术方案如下:本发明一种基于机器学习与智能规划的机器人自动编舞系统,包括分类器模块、音频处理模块和规划模块,所述音频处理模块与分类器模块相连,所述规划模块与音频处理模块相连;所述分类器模块包括分类器、舞蹈数据分析单元、训练模型准备单元和类型预测处理单元,所述数据分析单元、训练模型准备单元和类型预测处理单元分别与分类器相连。
进一步地,所述舞蹈数据分析单元对已有的舞蹈数据库进行分析,通过解析机器人动作文件的结构关系,将动作转为PDDL中的动作模型所需要的信息保存;使用聚类对已有的舞蹈数据集中的音乐分析后得到几种舞蹈类型以及能够预测新输入音乐的分类器。
进一步地,所述音频处理模块包括音频处理单元、动作权重管理单元、长期特征提取单元、短期特征提取单元、旋律节拍提取单元和音频分类类型预测单元,所述动作权重管理单元、长期特征提取单元、短期特征提取单元、旋律节拍提取单元和音频分类类型预测单元分别与音频处理单元相连。
进一步地,所述动作权重管理单元根据已有舞蹈中的动作关联关系设置好初始值,然后根据动作重复率进行动态调节,短期特征提取单元对音乐进行固定10ms的切割提取,长期特征提取单元合并部分短期特征单元取平均值,旋律节拍提取单元从短期特征提取单元和长期特征提取单元中获取,音频分类类型预测单元根据上述提取进行类型预测。
进一步地,所述规划模块包括规划单元、规划文件生成单元、规划器求解单元、舞蹈文件生成单元,所述规划文件生成单元、规划器求解单元、舞蹈文件生成单元分别与规划单元相连。
进一步地,所述规划文件生成单元对已有的动作关联关系准备和音频处理模块所提供的音频特征进行规划文件生成,规划器对规划文件进行求解,舞蹈文件生成单元对求解得到的动作序列转化为机器人运行所用的舞蹈文件。
一种基于机器学习与智能规划的机器人自动编舞系统工作方法,包括如下步骤:
1)准备基本动作库:动作库(ML)描述了一个动作集合:ML={m1,m2,...,mT},其中每个动作都可以用一组帧表示:mi={frame1,frame2,...,framemi},每一帧定义了特定时刻的位置:framei=<ti,Gi>,ti表示时间点,Gi定义了机器人的每个舵机角度的位置:[g1,g2,...,gK],ML可以是任意大的,并且在应用中去动态地维护它;算法1流程如下:
Input:
m:输入的音频文件;
δ:时间延迟的容许值;
Output:
ds:机器人的动作脚本;
1:Set PLANS=0;
2:Set pdd=ML_to_Domain(ML);
3:Set{prb1,prb2,...,prbn}=AA.AudioAnalysis(m,δ);
4:for i=1to n do
5:Set PLANS=PLANS∪P.plan(pdd,prbi);
6:end for
7:Set dance_plan=Synthesize(PLANS);
Set ds=MC(dance_plan);
return ds;
算法中的中ML是预定义的动作库,定义了一组基本的舞蹈动作,AA是音乐文件的音频分析模块,P是支持PDDL3语言的规划器,MC是动作解析器,将舞蹈规划转换为机器人动作文件,δ是音乐-动作同步之间的时间延迟的容忍度,在上述动作库定义下可知,舞蹈是由一系列动作的时序变换组成的。
2)音频分析器:一旦音乐文件输入,音频分析模块就会被调用,音乐分析对舞蹈表演来说至关重要,因为它不仅与动作库中舞蹈动作的同步有关,而且与动作的风格或特征有关,其中每个舞蹈动作都考虑了以下特性和设计参数:
①舞蹈动作的起始点和持续时间:通常情况下,一个动作需要从音乐片段的起始点开始,且动作序列(舞蹈片段)应该在音乐片段之前或之后结束;
②振幅检测:音乐的振幅影响运动振幅的同步和速度调节,例如,更强的振幅通常对应更强、更快的动作;
③节拍和节拍检测:节拍定义音乐片段振幅的局部最大值,节拍定义一分钟内的节拍数,与振幅相似,节奏定义了一个音乐片段选择到一个基本动作的可能性;
④音乐的高级特征:音乐的高级特征,如和声、旋律、节奏等,对舞蹈编排也有根本性的影响;
3)音乐分割:在算法2中实现了音乐的分割功能,还有调用AA(算法1中第3行)来处理音乐片段集合seg={seg1,seg2,...,segl},对于每个segi,,T(segi)表示段结束的时间瞬间,在本发明中,音乐分割用于获取音乐的关键时间点,同时获取重要的音乐特征,这对规划中的动作权重设定很重要,并且可以加快规划过程,分治并行计算;算法2流程如下:
Input:
m:输入的音频文件;
δ:时间延迟的容许值;
Output:
规划问题文件集合;
1:Set seg=AA.Segmentation(m,δ);
2:Set actions=AA.ActionWeightDefine(seg);
return PPG(seg,actions);
为了规划中并行计算的需要,本发明将输入音乐切割为音频段进行求解,同时提出了两种音乐分割方法,分别是:
固定大小的分割(FSS):给定一个固定的长度,音乐被切分成这个长度的片段,然后提取短时特征,每50ms段34个特征和中期特征,每1-10秒段37个特征,分别在SVM或HMM等监督模型下进行分类,最后,当相邻的seg文件被分类为相同的类,这些段合并成一个;
基于静默去除的分割(SRS):音乐中的静默是片段的自然分离(音乐转换需要),当静默被检测到并在音乐中移除,剩下的部分就是我们需要规划的部分;
4)基于PDDL3的舞蹈编排:PDDL,算法1中的pdd中的持续动作与ML中的动作是一对一的映射,那么可以很简单生成规划领域中的动作模型(算法1中的ML to Domain(ML);其中,对于每个动作,定义一个不同的常量si,类型状态,来表示动作执行后机器人状态;定义0元谓词is_body_free()来记录机器人的状态,每个动作模型中is_body_free()是一个必要前提,在at-start效果中,is_body_free()变为假,然后在at end效果中变为真,即是当身体空闲的时候才能够执行一个动作;每个动作都有定义一个标准持续时间(sd),定义为:sd=max{ti|<ti,Gi>∈mj,mj∈ML};同时每个动作都可以比标准状态执行得更快或更慢,这就方便了动作的幅度和持续时间可以根据音乐特征信息来进行调整,为了反映出这一点,本发明在领域中定义了一个函数:(action-rate?rate),同时在动作模型中动作持续时间定义为::duration(=?duration(*sd(action-rate?rate)));为了记录从舞蹈开始的总执行时间,定义了函数dance-time(),并在每个动作模型的效果中进行更新:(increase(dance-time)(*sd(action-rate?rate)));哑动作(DA):在舞蹈编排中,有时允许在音乐中存在空动作,缓冲或停顿,为了保持这样的灵活性,我们在领域中定义了一个特别的动作Dummy Action(DA)和一个记录DA执行总时间的函数dummy-total-time,定义在at-end的效果(effects)中被声明;:duration(=?durationδ(increase(dummy-total-time)δ))。
采用上述结构本发明取得的有益效果如下:本方案一种基于机器学习与智能规划的机器人自动编舞系统,结合了机器学习与PDDL技术,在有着少量数据集的同时,融入了专家知识,让机器人舞蹈更加的贴近音乐,也更具有观赏性,成功的解决了以往机器人编舞系统所需要的大量数据集和缺少真正专家知识的问题,有效的提高了机器人编舞的观赏性和优美度。
附图说明
图1为本发明一种基于机器学习与智能规划的机器人自动编舞系统的系统框图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一种基于机器学习与智能规划的机器人自动编舞系统,一种基于机器学习与智能规划的机器人自动编舞系统,包括分类器模块、音频处理模块和规划模块,所述音频处理模块与分类器模块相连,所述规划模块与音频处理模块相连;所述分类器模块包括分类器、舞蹈数据分析单元、训练模型准备单元和类型预测处理单元,所述数据分析单元、训练模型准备单元和类型预测处理单元分别与分类器相连。
所述舞蹈数据分析单元对已有的舞蹈数据库进行分析,通过解析机器人动作文件的结构关系,将动作转为PDDL中的动作模型所需要的信息保存;使用聚类对已有的舞蹈数据集中的音乐分析后得到几种舞蹈类型以及能够预测新输入音乐的分类器。
所述音频处理模块包括音频处理单元、动作权重管理单元、长期特征提取单元、短期特征提取单元、旋律节拍提取单元和音频分类类型预测单元,所述动作权重管理单元、长期特征提取单元、短期特征提取单元、旋律节拍提取单元和音频分类类型预测单元分别与音频处理单元相连。
所述动作权重管理单元根据已有舞蹈中的动作关联关系设置好初始值,然后根据动作重复率进行动态调节,短期特征提取单元对音乐进行固定10ms的切割提取,长期特征提取单元合并部分短期特征单元取平均值,旋律节拍提取单元从短期特征提取单元和长期特征提取单元中获取,音频分类类型预测单元根据上述提取进行类型预测。
所述规划模块包括规划单元、规划文件生成单元、规划器求解单元、舞蹈文件生成单元,所述规划文件生成单元、规划器求解单元、舞蹈文件生成单元分别与规划单元相连。
所述规划文件生成单元对已有的动作关联关系准备和音频处理模块所提供的音频特征进行规划文件生成,规划器对规划文件进行求解,舞蹈文件生成单元对求解得到的动作序列转化为机器人运行所用的舞蹈文件。
一种基于机器学习与智能规划的机器人自动编舞系统工作方法,包括如下步骤:
1)准备基本动作库:动作库(ML)描述了一个动作集合:ML={m1,m2,...,mT},其中每个动作都可以用一组帧表示:mi={frame1,frame2,...,framemi},每一帧定义了特定时刻的位置:framei=<ti,Gi>,ti表示时间点,Gi定义了机器人的每个舵机角度的位置:[g1,g2,...,gK],ML可以是任意大的,并且在应用中去动态地维护它;算法1流程如下:
Input:
m:输入的音频文件;
δ:时间延迟的容许值;
Output:
ds:机器人的动作脚本;
1:Set PLANS=0;
2:Set pdd=ML_to_Domain(ML);
3:Set{prb1,prb2,...,prbn}=AA.AudioAnalysis(m,δ);
4:for i=1to n do
5:Set PLANS=PLANS∪P.plan(pdd,prbi);
6:end for
7:Set dance_plan=Synthesize(PLANS);
Set ds=MC(dance_plan);
return ds;
算法中的中ML是预定义的动作库,定义了一组基本的舞蹈动作,AA是音乐文件的音频分析模块,P是支持PDDL3语言的规划器,MC是动作解析器,将舞蹈规划转换为机器人动作文件,δ是音乐-动作同步之间的时间延迟的容忍度,在上述动作库定义下可知,舞蹈是由一系列动作的时序变换组成的。
2)音频分析器:一旦音乐文件输入,音频分析模块就会被调用,音乐分析对舞蹈表演来说至关重要,因为它不仅与动作库中舞蹈动作的同步有关,而且与动作的风格或特征有关,其中每个舞蹈动作都考虑了以下特性和设计参数:
①舞蹈动作的起始点和持续时间:通常情况下,一个动作需要从音乐片段的起始点开始,且动作序列(舞蹈片段)应该在音乐片段之前或之后结束;
②振幅检测:音乐的振幅影响运动振幅的同步和速度调节,例如,更强的振幅通常对应更强、更快的动作;
③节拍和节拍检测:节拍定义音乐片段振幅的局部最大值,节拍定义一分钟内的节拍数,与振幅相似,节奏定义了一个音乐片段选择到一个基本动作的可能性;
④音乐的高级特征:音乐的高级特征,如和声、旋律、节奏等,对舞蹈编排也有根本性的影响;
3)音乐分割:在算法2中实现了音乐的分割功能,还有调用AA(算法1中第3行)来处理音乐片段集合seg={seg1,seg2,...,segl},对于每个segi,,T(segi)表示段结束的时间瞬间,在本发明中,音乐分割用于获取音乐的关键时间点,同时获取重要的音乐特征,这对规划中的动作权重设定很重要,并且可以加快规划过程,分治并行计算;算法2流程如下:
Input:
m:输入的音频文件;
δ:时间延迟的容许值;
Output:
规划问题文件集合;
1:Set seg=AA.Segmentation(m,δ);
2:Set actions=AA.ActionWeightDefine(seg);
return PPG(seg,actions);
为了规划中并行计算的需要,本发明将输入音乐切割为音频段进行求解,同时提出了两种音乐分割方法,分别是:
固定大小的分割(FSS):给定一个固定的长度,音乐被切分成这个长度的片段,然后提取短时特征,每50ms段34个特征和中期特征,每1-10秒段37个特征,分别在SVM或HMM等监督模型下进行分类,最后,当相邻的seg文件被分类为相同的类,这些段合并成一个;
基于静默去除的分割(SRS):音乐中的静默是片段的自然分离(音乐转换需要),当静默被检测到并在音乐中移除,剩下的部分就是我们需要规划的部分;
4)基于PDDL3的舞蹈编排:PDDL,算法1中的pdd中的持续动作与ML中的动作是一对一的映射,那么可以很简单生成规划领域中的动作模型,算法1中的ML to Domain(ML);其中,对于每个动作,定义一个不同的常量si,类型状态,来表示动作执行后机器人状态;定义0元谓词is_body_free()来记录机器人的状态,每个动作模型中is_body_free()是一个必要前提,在at-start效果中,is_body_free()变为假,然后在at end效果中变为真,即是当身体空闲的时候才能够执行一个动作;每个动作都有定义一个标准持续时间(sd),定义为:sd=max{ti|<ti,Gi>∈mj,mj∈ML};同时每个动作都可以比标准状态执行得更快或更慢,这就方便了动作的幅度和持续时间可以根据音乐特征信息来进行调整,为了反映出这一点,本发明在领域中定义了一个函数:(action-rate?rate),同时在动作模型中动作持续时间定义为::duration(=?duration(*sd(action-rate?rate)));为了记录从舞蹈开始的总执行时间,定义了函数dance-time(),并在每个动作模型的效果中进行更新:(increase(dance-time)(*sd(action-rate?rate)));哑动作(DA):在舞蹈编排中,有时允许在音乐中存在空动作,缓冲或停顿,为了保持这样的灵活性,我们在领域中定义了一个特别的动作Dummy Action(DA)和一个记录DA执行总时间的函数dummy-total-time,定义在at-end的效果(effects)中被声明;:duration(=?durationδ(increase(dummy-total-time)δ))。
具体使用时,用户对已有舞蹈数据集根据基本动作进行切分,然后对切分出来的音频进行聚类分析后得到多种音频类型和分类器,分类器可以预测音频归属于那种音频类型,这样同时也给动作定义好适用的音频类型,一个动作原本在舞蹈数据集可能出现在多种音频类型中,音频分析负责提取输入音乐的短期和长期特征32种,同时进行节拍跟踪,获取到节拍和旋律等信息,选出高匹配度动作从而对基本动作库进行一定的权重分配,新输入的音乐通过分类器切分并预测出每段的音频类型后,通过音频分析得到其每段得特征信息,结合准备好预先从已有舞蹈数据集得到的基本动作模型和通过音乐分析后得到的音乐特征信息两者定义多个规划文件进行并行求解,并且通过专家的经验设置PDDL中的偏好和约束,最终得到有序动作序列,以上便是本发明整体的工作流程,下次使用时重复此步骤即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (7)
1.一种基于机器学习与智能规划的机器人自动编舞系统,其特征在于:包括分类器模块、音频处理模块和规划模块,所述音频处理模块与分类器模块相连,所述规划模块与音频处理模块相连;所述分类器模块包括分类器、舞蹈数据分析单元、训练模型准备单元和类型预测处理单元,所述数据分析单元、训练模型准备单元和类型预测处理单元分别与分类器相连。
2.根据权利要求1所述的一种基于机器学习与智能规划的机器人自动编舞系统,其特征在于:所述舞蹈数据分析单元对已有的舞蹈数据库进行分析,通过解析机器人动作文件的结构关系,将动作转为PDDL中的动作模型所需要的信息保存;使用聚类对已有的舞蹈数据集中的音乐分析后得到几种舞蹈类型以及能够预测新输入音乐的分类器。
3.根据权利要求2所述的一种基于机器学习与智能规划的机器人自动编舞系统,其特征在于:所述音频处理模块包括音频处理单元、动作权重管理单元、长期特征提取单元、短期特征提取单元、旋律节拍提取单元和音频分类类型预测单元,所述动作权重管理单元、长期特征提取单元、短期特征提取单元、旋律节拍提取单元和音频分类类型预测单元分别与音频处理单元相连。
4.根据权利要求3所述的一种基于机器学习与智能规划的机器人自动编舞系统,其特征在于:所述动作权重管理单元根据已有舞蹈中的动作关联关系设置好初始值,然后根据动作重复率进行动态调节,短期特征提取单元对音乐进行固定10ms的切割提取,长期特征提取单元合并部分短期特征单元取平均值,旋律节拍提取单元从短期特征提取单元和长期特征提取单元中获取,音频分类类型预测单元根据上述提取进行类型预测。
5.根据权利要求4所述的一种基于机器学习与智能规划的机器人自动编舞系统,其特征在于:所述规划模块包括规划单元、规划文件生成单元、规划器求解单元、舞蹈文件生成单元,所述规划文件生成单元、规划器求解单元、舞蹈文件生成单元分别与规划单元相连。
6.根据权利要求5所述的一种基于机器学习与智能规划的机器人自动编舞系统,其特征在于:所述规划文件生成单元对已有的动作关联关系准备和音频处理模块所提供的音频特征进行规划文件生成,规划器对规划文件进行求解,舞蹈文件生成单元对求解得到的动作序列转化为机器人运行所用的舞蹈文件。
7.一种基于机器学习与智能规划的机器人自动编舞系统的工作方法,其特征在于,包括如下步骤:
1)准备基本动作库:动作库(ML)描述了一个动作集合:ML={m1,m2,...,mT},其中每个动作都可以用一组帧表示:mi={frame1,frame2,...,framemi},每一帧定义了特定时刻的位置:framei=<ti,Gi>,ti表示时间点,Gi定义了机器人的每个舵机角度的位置:[g1,g2,...,gK],ML可以是任意大的,并且在应用中去动态地维护它;算法1流程如下:
Input:
m:输入的音频文件;
δ:时间延迟的容许值;
Output:
ds:机器人的动作脚本;
1:Set PLANS=0;
2:Set pdd=ML_to_Domain(ML);
3:Set{prb1,prb2,...,prbn}=AA.AudioAnalysis(m,δ);
4:for i=1 to n do
5:Set PLANS=PLANS∪P.plan(pdd,prbi);
6:end for
7:Set dance_plan=Synthesize(PLANS);
Set ds=MC(dance_plan);
return ds;
算法中的中ML是预定义的动作库,定义了一组基本的舞蹈动作,AA是音乐文件的音频分析模块,P是支持PDDL3语言的规划器,MC是动作解析器,将舞蹈规划转换为机器人动作文件,δ是音乐-动作同步之间的时间延迟的容忍度,在上述动作库定义下可知,舞蹈是由一系列动作的时序变换组成的。
音频分析器:一旦音乐文件输入,音频分析模块就会被调用,音乐分析对舞蹈表演来说至关重要,因为它不仅与动作库中舞蹈动作的同步有关,而且与动作的风格或特征有关,其中每个舞蹈动作都考虑了以下特性和设计参数:
①舞蹈动作的起始点和持续时间:通常情况下,一个动作需要从音乐片段的起始点开始,且动作序列,舞蹈片段,应该在音乐片段之前或之后结束;
②振幅检测:音乐的振幅影响运动振幅的同步和速度调节,例如,更强的振幅通常对应更强、更快的动作;
③节拍和节拍检测:节拍定义音乐片段振幅的局部最大值,节拍定义一分钟内的节拍数,与振幅相似,节奏定义了一个音乐片段选择到一个基本动作的可能性;
④音乐的高级特征:音乐的高级特征,如和声、旋律、节奏等,对舞蹈编排也有根本性的影响;
2)音乐分割:在算法2中实现了音乐的分割功能,还有调用AA,算法1中第3行,来处理音乐片段集合seg={seg1,seg2,...,segl},对于每个segi,,T(segi)表示段结束的时间瞬间,在本发明中,音乐分割用于获取音乐的关键时间点,同时获取重要的音乐特征,这对规划中的动作权重设定很重要,并且可以加快规划过程,分治并行计算;算法2流程如下:
Input:
m:输入的音频文件;
δ:时间延迟的容许值;
Output:
规划问题文件集合;
1:Set seg=AA.Segmentation(m,δ);
2:Set actions=AA.ActionWeightDefine(seg);
return PPG(seg,actions);
为了规划中并行计算的需要,本发明将输入音乐切割为音频段进行求解,同时提出了两种音乐分割方法,分别是:
固定大小的分割-FSS:给定一个固定的长度,音乐被切分成这个长度的片段,然后提取短时特征,每50ms段34个特征和中期特征,每1-10秒段37个特征,分别在SVM或HMM等监督模型下进行分类,最后,当相邻的seg文件被分类为相同的类,这些段合并成一个;
基于静默去除的分割-SRS:音乐中的静默是片段的自然分离,音乐转换需要,,当静默被检测到并在音乐中移除,剩下的部分就是我们需要规划的部分;
4)基于PDDL3的舞蹈编排:PDDL,算法1中的pdd中的持续动作与ML中的动作是一对一的映射,那么可以很简单生成规划领域中的动作模型,算法1中的ML to Domain(ML);其中,对于每个动作,定义一个不同的常量si,类型状态,来表示动作执行后机器人状态;定义0元谓词is_body_free()来记录机器人的状态,每个动作模型中is_body_free()是一个必要前提,在at-start效果中,is_body_free()变为假,然后在at end效果中变为真,即是当身体空闲的时候才能够执行一个动作;每个动作都有定义一个标准持续时间(sd),定义为:sd=max{ti|<ti,Gi>∈mj,mj∈ML};同时每个动作都可以比标准状态执行得更快或更慢,这就方便了动作的幅度和持续时间可以根据音乐特征信息来进行调整,为了反映出这一点,本发明在领域中定义了一个函数:(action-rate?rate),同时在动作模型中动作持续时间定义为::duration(=?duration(*sd(action-rate?rate)));为了记录从舞蹈开始的总执行时间,定义了函数dance-time(),并在每个动作模型的效果中进行更新:(increase(dance-time)(*sd(action-rate?rate)));哑动作(DA):在舞蹈编排中,有时允许在音乐中存在空动作,缓冲或停顿,为了保持这样的灵活性,我们在领域中定义了一个特别的动作Dummy Action(DA)和一个记录DA执行总时间的函数dummy-total-time,定义在at-end的效果(effects)中被声明;:duration(=?durationδ(increase(dummy-total-time)δ))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011322249.6A CN114707564A (zh) | 2020-11-23 | 2020-11-23 | 一种基于机器学习与智能规划的机器人自动编舞系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011322249.6A CN114707564A (zh) | 2020-11-23 | 2020-11-23 | 一种基于机器学习与智能规划的机器人自动编舞系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114707564A true CN114707564A (zh) | 2022-07-05 |
Family
ID=82166344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011322249.6A Pending CN114707564A (zh) | 2020-11-23 | 2020-11-23 | 一种基于机器学习与智能规划的机器人自动编舞系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114707564A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861494A (zh) * | 2023-02-20 | 2023-03-28 | 青岛大学 | 一种跨模态变换器模型式自动舞蹈生成方法 |
-
2020
- 2020-11-23 CN CN202011322249.6A patent/CN114707564A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861494A (zh) * | 2023-02-20 | 2023-03-28 | 青岛大学 | 一种跨模态变换器模型式自动舞蹈生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109176541B (zh) | 一种实现机器人跳舞的方法、设备和储存介质 | |
Gouyon et al. | A review of automatic rhythm description systems | |
Widmer et al. | In search of the Horowitz factor | |
Eyben et al. | OpenEAR—introducing the Munich open-source emotion and affect recognition toolkit | |
US7842874B2 (en) | Creating music by concatenative synthesis | |
KR101982345B1 (ko) | 인공지능을 이용한 음악 생성 장치 및 방법 | |
CN106227721B (zh) | 汉语韵律层级结构预测系统 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
Keshet et al. | A large margin algorithm for speech-to-phoneme and music-to-score alignment | |
CN113813609A (zh) | 游戏音乐风格分类方法、装置、可读介质及电子设备 | |
CN114707564A (zh) | 一种基于机器学习与智能规划的机器人自动编舞系统 | |
CN114999441A (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
CN112712783B (zh) | 生成音乐的方法和装置、计算机设备和介质 | |
Cai et al. | Music creation and emotional recognition using neural network analysis | |
CN110136697A (zh) | 一种基于多进程线程并行运算的英语朗读练习系统 | |
CN111402919B (zh) | 一种基于多尺度多视图的戏曲唱腔风格识别方法 | |
Marchetto et al. | A set of audio features for the morphological description of vocal imitations | |
Şimşekli et al. | Real-time recognition of percussive sounds by a model-based method | |
Bogaers et al. | Music-driven animation generation of expressive musical gestures | |
Merer et al. | Semiotics of sounds evoking motions: Categorization and acoustic features | |
Bhowmik et al. | Genre of Bangla music: a machine classification learning approach | |
Oo | Comparative study of MFCC feature with different machine learning techniques in acoustic scene classification | |
CN1113330C (zh) | 语音合成中的语音规整方法 | |
CN112735444B (zh) | 一种具有模型匹配的中华凤头燕鸥识别系统及其模型匹配方法 | |
He et al. | Automatic generation algorithm analysis of dance movements based on music–action association |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |