CN113793582B - 基于动态频域分解的音乐驱动的指挥动作生成方法 - Google Patents

基于动态频域分解的音乐驱动的指挥动作生成方法 Download PDF

Info

Publication number
CN113793582B
CN113793582B CN202111090067.5A CN202111090067A CN113793582B CN 113793582 B CN113793582 B CN 113793582B CN 202111090067 A CN202111090067 A CN 202111090067A CN 113793582 B CN113793582 B CN 113793582B
Authority
CN
China
Prior art keywords
frequency
command
action
representing
command action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111090067.5A
Other languages
English (en)
Other versions
CN113793582A (zh
Inventor
刘凡
陈德龙
周睿志
潘艳玲
许峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202111090067.5A priority Critical patent/CN113793582B/zh
Publication of CN113793582A publication Critical patent/CN113793582A/zh
Application granted granted Critical
Publication of CN113793582B publication Critical patent/CN113793582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/055Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了基于动态频域分解的音乐驱动的指挥动作生成方法,首先通过音乐节奏估计算法动态地计算局部的音乐节奏,从而确定对指挥动作进行高通分解和低通分解的频率阈值,以将动作序列分解为2个动作分量,即高频动作分量和低频动作分量;通过两个卷积神经网络模型分别对高低频动作分量进行独立学习之后,将两个模型的输出合成为最终的指挥动作。该方法通过动态地计算指挥动作高低频分量的频率阈值来分解原动作序列,提高了模型对动作的拟合效果,对音乐风格的多样性和指挥动作的多样性具有很好的鲁棒性,可以生成自然、美观、多样、且与音乐同步的指挥动作。

Description

基于动态频域分解的音乐驱动的指挥动作生成方法
技术领域
本发明基于动态频域分解的音乐驱动的指挥动作生成方法涉及指挥动作生成方法,特别是涉及动态频域分解技术的指挥动作生成,属于计算机技术领域。
背景技术
自中世纪欧洲教堂唱诗班到二十一世纪的现代音乐,指挥技术与艺术不断发展,已经成为一门内容丰富的学科。指挥的肢体语言复杂多变,需要在乐团演奏时实时地传达节拍、力度、情感、演奏法等多种信息,且同时保持一定的风格与美感。近年来,随着深度学习算法理论的发展与计算性能的飞速提升,人工智能领域的学者已经成功地对多种人类艺术进行建模与学习。深度学习已经能生成包括诗歌艺术、绘画艺术、音乐艺术、舞蹈艺术在内的多种人类艺术形式。然而,学界对于指挥艺术的建模研究还比较初步,且主要面向判别类的任务,例如节拍跟踪、拍式识别、演奏法识别、情感识别等。
在众多动作生成的方法中,对训练集中动作的学习尤为关键。与现有方法所面向的舞蹈动作与乐器演奏动作不同,指挥动作同时包含节拍、演奏法、力度以及音乐情感等信息。指挥动作序列可以看作由高频分量与低频分量叠加而成的一种稳定信号,其中高频分量包含了幅值较小但频率较高的节拍、力度等信息,低频分量包含了幅值较大但频率较低的情感以及身体朝向等成分。由于高低频动作分量之间幅值相差较大,模型对低频动作的学习将会占主导地位,这将导致高频动作的学习效果欠佳。
为了同时达到对不同频率的动作的高效学习,目前常用的是动作分解的方法,现有的动作分解方法主要包括时域分解与空间域分解,这些方法的核心动机是人体动作序列是高度复杂的,进行动作分解可以将单个困难问题转化为多个较简单的问题,从而更有效地学习。如图2所示,时域分解与空间域分解可以是将原始动作序列沿时间轴或空间轴的方向切成多个子序列。然而,这些子序列分解之后便互相独立,子序列之间的关系也随着动作分解而丢失。其后果表现为基于时间分解的方法生成的动作协调但不连贯,而基于空间域分解的方法则连贯但不协调。为了解决这一矛盾,本发明提出动作的动态频域分解,在同时保留时域与空间域的上下文信息的前提下,将复杂动作分解为两部分相互独立的较简单动作。此外,对于包含极高频噪声的高频分量还可以再次进行分解,得到噪音与去噪后的高频分量。将原始动作序列分解为高频、低频与噪音分量。
发明内容
本发明所要解决的技术问题是:提供基于动态频域分解的音乐驱动的指挥动作生成方法,为音乐驱动的指挥动作生成问题提供了一种更加精确的解决方案。
本发明为解决上述技术问题采用以下技术方案:
基于动态频域分解的音乐驱动的指挥动作生成方法,包括如下步骤:
步骤1,分别将音频特征序列和指挥动作序列切分为若干个时间片段;
步骤2,对于每一个时间片段的样本对,使用音乐节奏估计算法计算得到该片段的节奏值;
步骤3,根据步骤2中获得的节奏值计算得到对应时间片段的频率阈值;
步骤4,根据各时间片段的频率阈值以及设定的噪音阈值设计滤波器,将指挥动作序列分解为3个动作分量;
步骤5,通过两个以均方根误差MSE作为损失函数的卷积神经网络模型,分别对高低频动作分量进行独立学习;
步骤6,将两个模型的输出合成为最终的指挥动作。
作为本发明的一种优选方案,所述步骤1的具体过程为:
1-1、给定N个样本的数据集
Figure BDA0003267063750000021
其中
Figure BDA0003267063750000022
表示时长为T的音频特征序列,
Figure BDA0003267063750000023
表示时长为T的指挥动作序列样本,xt和yt分别为第t个时间步上的p维音频特征xt∈Rp和q个关键点的2维骨架坐标yt∈R2q
1-2、分别对步骤1-1中的音频特征序列Xi和指挥动作序列Yi进行时域分解,即切分为k个时间片段
Figure BDA0003267063750000024
表示第k个时间片段的音频特征序列,
Figure BDA0003267063750000025
表示第k个时间片段的指挥动作序列。
作为本发明的一种优选方案,所述步骤2的具体过程为:
对于每一个时间片段样本对
Figure BDA0003267063750000026
根据音频特征序列
Figure BDA0003267063750000027
通过音乐节奏估计算法计算出对应该片段的节奏
Figure BDA0003267063750000028
其中
Figure BDA0003267063750000029
表示第k个时间片段的音频特征序列,
Figure BDA00032670637500000210
表示第k个时间片段的指挥动作序列;i取值1~N,表示遍历数据集中所有样本。
作为本发明的一种优选方案,步骤3所述计算高低频动作分量频率阈值的公式为:
Figure BDA0003267063750000031
其中,
Figure BDA0003267063750000032
表示第k个时间片段对应的节奏值,i取值1~N,表示遍历数据集中所有样本。
作为本发明的一种优选方案,所述步骤4的具体过程为:
4-1、根据频率阈值计算低通滤波器归一化截止频率Wl
Figure BDA0003267063750000033
其中,
Figure BDA0003267063750000034
表示第k个时间片段的频率阈值,SR表示采样频率,本发明采用25Hz的采样频率;
4-2、设计低通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率Wn,l和阶数M可构造一个巴特沃斯低通滤波器,二维数组
Figure BDA0003267063750000035
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的低频分量
Figure BDA0003267063750000036
4-3、将所有时间片段上的低频动作分量进行拼接,方式如下:
Figure BDA0003267063750000037
其中,Yl,i表示时长为T的指挥动作低频分量,
Figure BDA0003267063750000038
表示第j个时间片段的指挥动作低频分量,j=1~k;
4-4、根据频率阈值与设定的噪音阈值计算带通滤波器归一化截止频率[Wbl,Wbh]:
Figure BDA0003267063750000039
Wbh=2*fnoise/SR
其中,fnoise表示本发明设定的大小为5Hz的噪音阈值;SR含义和步骤4-1中相同;
4-5、设计带通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率[Wbl,Wbh]和阶数M可构造一个巴特沃斯带通滤波器,二维数组
Figure BDA00032670637500000310
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的高频分量
Figure BDA00032670637500000311
4-6、将所有时间片段上的高频动作分量进行拼接,方式如下:
Figure BDA00032670637500000312
其中,Yh,i表示时长为T的指挥动作高频分量,
Figure BDA00032670637500000313
表示第j个时间片段的指挥动作高频分量;
4-7、根据设定的噪音阈值计算高通滤波器归一化截止频率Wh
Wh=2*fnoise/SR
4-8、设计高通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率Wh和阶数M可构造一个巴特沃斯高通滤波器,二维数组
Figure BDA0003267063750000041
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的噪音分量
Figure BDA0003267063750000042
4-9、将所有时间片段上的噪音动作分量进行拼接,方式如下:
Figure BDA0003267063750000043
其中,Ynoise,i表示时长为T的指挥动作噪音分量,
Figure BDA0003267063750000044
表示第j个时间片段的指挥动作噪音分量。
作为本发明的一种优选方案,所述步骤5的具体过程为:
使用两个以MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行拟合,损失函数如下:
Figure BDA0003267063750000045
Figure BDA0003267063750000046
其中,CNNh(Xi)表示时长为T的指挥动作高频分量预测值,CNNl(Xi)表示时长为T的指挥动作低频分量预测值。
作为本发明的一种优选方案,所述步骤6的具体过程为:
将两个卷积神经网络模型的输出通过如下形式拼接成时长为T的指挥动作序列,即最终的指挥动作:
Yi=Yh,i+Yl,i
其中,Yh,i表示为时长为T的指挥动作高频分量,Yl,i表示为时长为T的指挥动作低频分量。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明提出动作动态频域分解,以音乐节奏为依据将指挥动作分解为高频分量、低频分量和噪音分量,突破了现有动作分解方法中连贯性与协调性不可兼得的局限。
2、本发明使用两个卷积神经网络模型分别对高频分量和低频分量进行独立学习,相比于单模型学习的方法,本发明的动作拟合效果更好,能生成自然、美观、多样、且与音乐同步的指挥动作。
附图说明
图1是本发明基于动态频域分解的音乐驱动的指挥动作生成方法的算法流程图。
图2是时域分解、空间域分解与频域分解示意图。
图3是本发明基于动态频域分解的音乐驱动的指挥动作生成方法模型生成的一段连续指挥动作。其中,第一行是高频动作分量序列,第二行是低频动作分量序列,第三行是高低频动作分量拼接后的指挥动作序列。
具体实施方式
下面参考附图详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
与现有方法所面向的舞蹈动作与乐器演奏动作不同,指挥动作同时包含节拍、演奏法、力度以及音乐情感等信息。指挥动作序列可以看作由高频分量与低频分量叠加而成的一种稳定信号,其中高频分量包含了幅值较小但频率较高的节拍、力度等信息,低频分量包含了幅值较大但频率较低的情感以及身体朝向等成分。但低频指挥动作的幅值要比高频指挥动作大很多,如果使用单个卷积神经网络模型对动作进行拟合,会使得高频动作的拟合效果并不理想,为了解决这一问题,应对指挥动作进行频域分解,最简单且直接的方法是寻找一组合适的频率阈值,从而得到一组高通滤波器与低通滤波器,并以此对原始动作序列进行动作分解。然而,这样的方法并不能够确保分解后的动作成分之间相互独立,在高频分量中也会包含幅值较大频率较低成分,而低频分量中会包含幅值较小频率较高成分。这是因为两种动作分量在频域分布的界限是随时间改变的。当音乐节奏较慢时该界限会下降,而音乐节奏较快时该界限会上升。由于音乐节奏变化幅度很大,很难为所有样本找到一个普适的频率阈值。基于这一问题,本发明提出一种基于动态频域分解的音乐驱动的指挥动作生成方法,以音乐节奏为依据将指挥动作分解为多个分量。
结合图1所示,本发明基于动态频域分解的音乐驱动的指挥动作生成方法,包括以下步骤:
1、分别对音频特征序列和指挥动作序列进行时域分解,即切分为若干个时间片段,具体过程如下:
(1)给定N个样本的数据集
Figure BDA0003267063750000061
其中
Figure BDA0003267063750000062
表示时长为T的音频特征序列,
Figure BDA0003267063750000063
表示时长为T的指挥动作序列样本,xt和yt分别为第t个时间步上的p维音频特征xt∈Rp和q个关键点的2维骨架坐标yt∈R2q
(2)分别对音频特征序列Xi和指挥动作序列Yi进行时域分解,即切分为k个时间片段,
Figure BDA0003267063750000064
表示第k个时间片段的音频特征序列,即帧数为
Figure BDA0003267063750000065
维度为p的二维数组,
Figure BDA0003267063750000066
表示第k个时间片段的指挥动作序列,即帧数为
Figure BDA0003267063750000067
维度为2q的二维数组,其中
Figure BDA0003267063750000068
表示第k个时间片段的帧数。作为本发明的一种优选方案,取
Figure BDA0003267063750000069
为25Hz×30s=750帧,可以有效保证节奏估计结果的稳定性。
2、对于每一个时间片段样本对
Figure BDA00032670637500000610
根据音频特征序列
Figure BDA00032670637500000611
通过音乐节奏估计算法计算出对应该片段的节奏
Figure BDA00032670637500000612
作为本发明的一种优选方案,使用预训练用于节奏估计的卷积神经网络计算
Figure BDA00032670637500000613
可以得到较为准确的节奏值。
3、根据步骤2中获得的节奏
Figure BDA00032670637500000614
计算得到对应于该时间片段的高低频动作分量频率阈值,公式如下:
Figure BDA00032670637500000615
其中,
Figure BDA00032670637500000616
表示第k个时间片段对应的节奏值。
4、根据各时间片段的频率阈值以及设定的噪音阈值设计滤波器,将指挥动作序列分解为3个动作分量,具体过程如下:
(1)根据频率阈值计算低通滤波器归一化截止频率Wl
Figure BDA00032670637500000617
其中,
Figure BDA00032670637500000618
表示第k个时间片段的频率阈值,SR表示采样频率,本发明采用25Hz的采样频率;
(2)设计低通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率Wn,l和阶数M可构造一个巴特沃斯低通滤波器,二维数组
Figure BDA00032670637500000619
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的低频分量
Figure BDA0003267063750000071
(3)将所有时间片段上的低频动作分量进行拼接,方式如下:
Figure BDA0003267063750000072
其中,Yl,i表示时长为T的指挥动作低频分量,
Figure BDA0003267063750000073
表示第j个时间片段的指挥动作低频分量;
(4)根据频率阈值与设定的噪音阈值计算带通滤波器归一化截止频率[Wbl,Wbh]:
Figure BDA0003267063750000074
Wbh=2*fnoise/SR
其中,fnoise表示本发明设定的大小为5Hz的噪音阈值;
(5)设计带通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率[Wbl,Wbh]和阶数M可构造一个巴特沃斯带通滤波器,二维数组
Figure BDA0003267063750000075
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的高频分量
Figure BDA0003267063750000076
(6)将所有时间片段上的高频动作分量进行拼接,方式如下:
Figure BDA0003267063750000077
其中,Yh,i表示时长为T的指挥动作高频分量,
Figure BDA0003267063750000078
表示第j个时间片段的指挥动作高频分量;
(7)根据设定的噪音阈值计算高通滤波器归一化截止频率Wh
Wh=2*fnoise/SR
(8)设计高通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率Wh和阶数M可构造一个巴特沃斯高通滤波器,二维数组
Figure BDA0003267063750000079
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的噪音分量
Figure BDA00032670637500000710
(9)将所有时间片段上的噪音动作分量进行拼接,方式如下:
Figure BDA00032670637500000711
其中,Ynoise,i表示时长为T的指挥动作噪音分量,
Figure BDA00032670637500000712
表示第j个时间片段的指挥动作噪音分量。
5、通过两个以MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行独立学习,损失函数如下:
Figure BDA0003267063750000081
Figure BDA0003267063750000082
其中,CNNh(Xi)表示时长为T的指挥动作高频分量预测值,CNNl(Xi)表示时长为T的指挥动作低频分量预测值。
6、将两个卷积神经网络模型的输出通过如下形式拼接成时长为T的指挥动作序列,即最终的指挥动作:
Yi=Yh,i+Yl,i
其中,Yh,i表示为时长为T的指挥动作高频分量,Yl,i表示为时长为T的指挥动作低频分量。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种基于动态频域分解的音乐驱动的指挥动作生成方法,其特征在于,包括如下步骤:
步骤1,分别将音频特征序列和指挥动作序列切分为若干个时间片段;
步骤2,对于每一个时间片段的样本对,使用音乐节奏估计算法计算得到该片段的节奏值;
步骤3,根据步骤2中获得的节奏值计算得到对应时间片段的频率阈值;
步骤4,根据各时间片段的频率阈值以及设定的噪音阈值设计滤波器,将指挥动作序列分解为3个动作分量;
步骤5,通过两个以均方根误差MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行独立学习;
步骤6,将两个模型的输出合成为最终的指挥动作;
所述步骤4的具体过程为:
4-1、根据频率阈值计算低通滤波器归一化截止频率Wl
Figure FDA0003536644920000011
其中,
Figure FDA0003536644920000012
表示第k个时间片段的频率阈值,SR表示采样频率,采用25Hz的采样频率;
4-2、设计低通滤波器,为了提高滤波的效果,令滤波器阶数M为常数8,根据归一化截止频率Wn,l和阶数M可构造一个巴特沃斯低通滤波器,二维数组
Figure FDA0003536644920000013
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的低频分量
Figure FDA0003536644920000014
4-3、将所有时间片段上的低频动作分量进行拼接,方式如下:
Figure FDA0003536644920000015
其中,Yl,i表示时长为T的指挥动作低频分量,
Figure FDA0003536644920000016
表示第j个时间片段的指挥动作低频分量,j=1~k;
4-4、根据频率阈值计算带通滤波器归一化截止频率[Wbl,Wbh]:
Figure FDA0003536644920000017
Wbh=2*fnoise/SR
其中,fnoise表示本发明设定的大小为5Hz的噪音阈值;SR含义和步骤4-1中相同;
4-5、设计带通滤波器,为了提高滤波的效果,令滤波器阶数M为常数8,根据归一化截止频率[Wbl,Wbh]和阶数M可构造一个巴特沃斯带通滤波器,二维数组
Figure FDA0003536644920000021
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的高频分量
Figure FDA0003536644920000022
4-6、将所有时间片段上的高频动作分量进行拼接,方式如下:
Figure FDA0003536644920000023
其中,Yh,i表示时长为T的指挥动作高频分量,
Figure FDA0003536644920000024
表示第j个时间片段的指挥动作高频分量;
4-7、根据设定的噪音阈值计算高通滤波器归一化截止频率Wh
Wh=2*fnoise/SR
4-8、设计高通滤波器,为了提高滤波的效果,令滤波器阶数M为常数8,根据归一化截止频率Wh和阶数M可构造一个巴特沃斯高通滤波器,二维数组
Figure FDA00035366449200000214
中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的噪音分量
Figure FDA0003536644920000025
4-9、将所有时间片段上的噪音动作分量进行拼接,方式如下:
Figure FDA0003536644920000026
其中,Ynoise,i表示时长为T的指挥动作噪音分量,
Figure FDA0003536644920000027
表示第j个时间片段的指挥动作噪音分量。
2.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法,其特征在于,所述步骤1的具体过程为:
1-1、给定N个样本的数据集
Figure FDA0003536644920000028
其中
Figure FDA0003536644920000029
表示时长为T的音频特征序列,
Figure FDA00035366449200000210
表示时长为T的指挥动作序列样本,xt和yt分别为第t个时间步上的p维音频特征xt∈Rp和q个关键点的2维骨架坐标yt∈R2q
1-2、分别对音频特征序列Xi和指挥动作序列Yi进行时域分解,即切分为k个时间片段
Figure FDA00035366449200000211
Figure FDA00035366449200000212
表示第k个时间片段的音频特征序列,
Figure FDA00035366449200000213
表示第k个时间片段的指挥动作序列。
3.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法,其特征在于,所述步骤2的具体过程为:
对于每一个时间片段样本对
Figure FDA0003536644920000031
根据音频特征序列
Figure FDA0003536644920000032
通过音乐节奏估计算法计算出对应该片段的节奏
Figure FDA0003536644920000033
其中
Figure FDA0003536644920000034
表示第k个时间片段的音频特征序列,
Figure FDA0003536644920000035
表示第k个时间片段的指挥动作序列;i取值1~N,表示遍历数据集中所有样本。
4.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法,其特征在于,步骤3所述高低频动作分量频率阈值的计算公式为:
Figure FDA0003536644920000036
其中,
Figure FDA0003536644920000037
表示第k个时间片段对应的节奏值,i取值1~N,表示遍历数据集中所有样本。
5.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法,其特征在于,所述步骤5的具体过程为:
使用两个以MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行拟合,损失函数如下:
Figure FDA0003536644920000038
Figure FDA0003536644920000039
其中,CNNh(Xi)表示时长为T的指挥动作高频分量预测值,CNNl(Xi)表示时长为T的指挥动作低频分量预测值。
6.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法,其特征在于,所述步骤6的具体过程为:
将两个卷积神经网络模型的输出通过如下形式拼接成时长为T的指挥动作序列,即最终的指挥动作:
Yi=Yh,i+Yl,i
其中,Yh,i表示为时长为T的指挥动作高频分量,Yl,i表示为时长为T的指挥动作低频分量。
CN202111090067.5A 2021-09-17 2021-09-17 基于动态频域分解的音乐驱动的指挥动作生成方法 Active CN113793582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090067.5A CN113793582B (zh) 2021-09-17 2021-09-17 基于动态频域分解的音乐驱动的指挥动作生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090067.5A CN113793582B (zh) 2021-09-17 2021-09-17 基于动态频域分解的音乐驱动的指挥动作生成方法

Publications (2)

Publication Number Publication Date
CN113793582A CN113793582A (zh) 2021-12-14
CN113793582B true CN113793582B (zh) 2022-04-15

Family

ID=79183731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090067.5A Active CN113793582B (zh) 2021-09-17 2021-09-17 基于动态频域分解的音乐驱动的指挥动作生成方法

Country Status (1)

Country Link
CN (1) CN113793582B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615302B (zh) * 2009-07-30 2011-09-07 浙江大学 音乐数据驱动的基于机器学习的舞蹈动作生成方法
CN109176541B (zh) * 2018-09-06 2022-05-06 南京阿凡达机器人科技有限公司 一种实现机器人跳舞的方法、设备和储存介质
CN113365147B (zh) * 2021-08-11 2021-11-19 腾讯科技(深圳)有限公司 基于音乐卡点的视频剪辑方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113793582A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
Ofli et al. Learn2dance: Learning statistical music-to-dance mappings for choreography synthesis
CN109524020B (zh) 一种语音增强处理方法
Ghose et al. Autofoley: Artificial synthesis of synchronized sound tracks for silent videos with deep learning
Aristidou et al. Rhythm is a dancer: Music-driven motion synthesis with global structure
CN113423005B (zh) 一种基于改进神经网络的智能音乐生成方法及系统
Zhang et al. A survey on multimodal-guided visual content synthesis
Lee et al. Robust sound-guided image manipulation
CN113793582B (zh) 基于动态频域分解的音乐驱动的指挥动作生成方法
Zhou et al. Let’s all dance: Enhancing amateur dance motions
Cai et al. Music creation and emotional recognition using neural network analysis
CN113241092A (zh) 基于双注意力机制和多阶段混合卷积网络声源分离方法
Colonel et al. Conditioning autoencoder latent spaces for real-time timbre interpolation and synthesis
Liu et al. Self-supervised music motion synchronization learning for music-driven conducting motion generation
Kim et al. Perceptually motivated automatic dance motion generation for music
Liu et al. Style subspaces for character animation
Moliner et al. Realistic gramophone noise synthesis using a diffusion model
Ma et al. Data‐Driven Computer Choreography Based on Kinect and 3D Technology
CN113806584B (zh) 基于自监督跨模态感知损失的乐队指挥动作生成方法
Ye et al. Music style transfer with vocals based on CycleGAN
Yang et al. Unsupervised Musical Timbre Transfer for Notification Sounds
Ji Design and implementation of virtual host based on machine learning algorithm
Yin et al. The creation of a music-driven digital violinist
Wilson et al. Collaborative human and machine creative interaction driven through affective response in live coding systems
Cang et al. [Retracted] Research on the Application of Intelligent Choreography for Musical Theater Based on Mixture Density Network Algorithm
Dupont Generating 3D Dances From Music Using Deep Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant