CN113793582B

CN113793582B - 基于动态频域分解的音乐驱动的指挥动作生成方法

Info

Publication number: CN113793582B
Application number: CN202111090067.5A
Authority: CN
Inventors: 刘凡; 陈德龙; 周睿志; 潘艳玲; 许峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-04-15
Anticipated expiration: 2041-09-17
Also published as: CN113793582A

Abstract

本发明公开了基于动态频域分解的音乐驱动的指挥动作生成方法，首先通过音乐节奏估计算法动态地计算局部的音乐节奏，从而确定对指挥动作进行高通分解和低通分解的频率阈值，以将动作序列分解为2个动作分量，即高频动作分量和低频动作分量；通过两个卷积神经网络模型分别对高低频动作分量进行独立学习之后，将两个模型的输出合成为最终的指挥动作。该方法通过动态地计算指挥动作高低频分量的频率阈值来分解原动作序列，提高了模型对动作的拟合效果，对音乐风格的多样性和指挥动作的多样性具有很好的鲁棒性，可以生成自然、美观、多样、且与音乐同步的指挥动作。

Description

基于动态频域分解的音乐驱动的指挥动作生成方法

技术领域

本发明基于动态频域分解的音乐驱动的指挥动作生成方法涉及指挥动作生成方法，特别是涉及动态频域分解技术的指挥动作生成，属于计算机技术领域。

背景技术

自中世纪欧洲教堂唱诗班到二十一世纪的现代音乐，指挥技术与艺术不断发展，已经成为一门内容丰富的学科。指挥的肢体语言复杂多变，需要在乐团演奏时实时地传达节拍、力度、情感、演奏法等多种信息，且同时保持一定的风格与美感。近年来,随着深度学习算法理论的发展与计算性能的飞速提升，人工智能领域的学者已经成功地对多种人类艺术进行建模与学习。深度学习已经能生成包括诗歌艺术、绘画艺术、音乐艺术、舞蹈艺术在内的多种人类艺术形式。然而，学界对于指挥艺术的建模研究还比较初步，且主要面向判别类的任务，例如节拍跟踪、拍式识别、演奏法识别、情感识别等。

在众多动作生成的方法中，对训练集中动作的学习尤为关键。与现有方法所面向的舞蹈动作与乐器演奏动作不同，指挥动作同时包含节拍、演奏法、力度以及音乐情感等信息。指挥动作序列可以看作由高频分量与低频分量叠加而成的一种稳定信号，其中高频分量包含了幅值较小但频率较高的节拍、力度等信息，低频分量包含了幅值较大但频率较低的情感以及身体朝向等成分。由于高低频动作分量之间幅值相差较大，模型对低频动作的学习将会占主导地位，这将导致高频动作的学习效果欠佳。

为了同时达到对不同频率的动作的高效学习，目前常用的是动作分解的方法，现有的动作分解方法主要包括时域分解与空间域分解，这些方法的核心动机是人体动作序列是高度复杂的，进行动作分解可以将单个困难问题转化为多个较简单的问题，从而更有效地学习。如图2所示，时域分解与空间域分解可以是将原始动作序列沿时间轴或空间轴的方向切成多个子序列。然而，这些子序列分解之后便互相独立，子序列之间的关系也随着动作分解而丢失。其后果表现为基于时间分解的方法生成的动作协调但不连贯，而基于空间域分解的方法则连贯但不协调。为了解决这一矛盾，本发明提出动作的动态频域分解，在同时保留时域与空间域的上下文信息的前提下，将复杂动作分解为两部分相互独立的较简单动作。此外，对于包含极高频噪声的高频分量还可以再次进行分解，得到噪音与去噪后的高频分量。将原始动作序列分解为高频、低频与噪音分量。

发明内容

本发明所要解决的技术问题是：提供基于动态频域分解的音乐驱动的指挥动作生成方法，为音乐驱动的指挥动作生成问题提供了一种更加精确的解决方案。

本发明为解决上述技术问题采用以下技术方案：

基于动态频域分解的音乐驱动的指挥动作生成方法，包括如下步骤：

步骤1，分别将音频特征序列和指挥动作序列切分为若干个时间片段；

步骤2，对于每一个时间片段的样本对，使用音乐节奏估计算法计算得到该片段的节奏值；

步骤3，根据步骤2中获得的节奏值计算得到对应时间片段的频率阈值；

步骤4，根据各时间片段的频率阈值以及设定的噪音阈值设计滤波器，将指挥动作序列分解为3个动作分量；

步骤5，通过两个以均方根误差MSE作为损失函数的卷积神经网络模型，分别对高低频动作分量进行独立学习；

步骤6，将两个模型的输出合成为最终的指挥动作。

作为本发明的一种优选方案，所述步骤1的具体过程为：

1-1、给定N个样本的数据集

其中

表示时长为T的音频特征序列，

表示时长为T的指挥动作序列样本，x_t和y_t分别为第t个时间步上的p维音频特征x_t∈R^p和q个关键点的2维骨架坐标y_t∈R^2q；

1-2、分别对步骤1-1中的音频特征序列X_i和指挥动作序列Y_i进行时域分解，即切分为k个时间片段

表示第k个时间片段的音频特征序列，

表示第k个时间片段的指挥动作序列。

作为本发明的一种优选方案，所述步骤2的具体过程为：

对于每一个时间片段样本对

根据音频特征序列

通过音乐节奏估计算法计算出对应该片段的节奏

其中

表示第k个时间片段的音频特征序列，

表示第k个时间片段的指挥动作序列；i取值1～N，表示遍历数据集中所有样本。

作为本发明的一种优选方案，步骤3所述计算高低频动作分量频率阈值的公式为：

其中，

表示第k个时间片段对应的节奏值，i取值1～N，表示遍历数据集中所有样本。

作为本发明的一种优选方案，所述步骤4的具体过程为：

4-1、根据频率阈值计算低通滤波器归一化截止频率W_l：

其中，

表示第k个时间片段的频率阈值，SR表示采样频率，本发明采用25Hz的采样频率；

4-2、设计低通滤波器，为了提高滤波的效果，本发明令滤波器阶数M为常数8，根据归一化截止频率W_n,l和阶数M可构造一个巴特沃斯低通滤波器，二维数组

中每一列数据对应一个信号，将所有信号依次输入滤波器，输出的信号按列拼接后即为第k个时间片段指挥动作的低频分量

4-3、将所有时间片段上的低频动作分量进行拼接，方式如下：

其中，Y_l,i表示时长为T的指挥动作低频分量，

表示第j个时间片段的指挥动作低频分量，j＝1～k；

4-4、根据频率阈值与设定的噪音阈值计算带通滤波器归一化截止频率[W_bl,W_bh]：

W_bh＝2*f_noise/SR

其中，f_noise表示本发明设定的大小为5Hz的噪音阈值；SR含义和步骤4-1中相同；

4-5、设计带通滤波器，为了提高滤波的效果，本发明令滤波器阶数M为常数8，根据归一化截止频率[W_bl,W_bh]和阶数M可构造一个巴特沃斯带通滤波器，二维数组

中每一列数据对应一个信号，将所有信号依次输入滤波器，输出的信号按列拼接后即为第k个时间片段指挥动作的高频分量

4-6、将所有时间片段上的高频动作分量进行拼接，方式如下：

其中，Y_h,i表示时长为T的指挥动作高频分量，

表示第j个时间片段的指挥动作高频分量；

4-7、根据设定的噪音阈值计算高通滤波器归一化截止频率W_h：

W_h＝2*f_noise/SR

4-8、设计高通滤波器，为了提高滤波的效果，本发明令滤波器阶数M为常数8，根据归一化截止频率W_h和阶数M可构造一个巴特沃斯高通滤波器，二维数组

中每一列数据对应一个信号，将所有信号依次输入滤波器，输出的信号按列拼接后即为第k个时间片段指挥动作的噪音分量

4-9、将所有时间片段上的噪音动作分量进行拼接，方式如下：

其中，Y_noise,i表示时长为T的指挥动作噪音分量，

表示第j个时间片段的指挥动作噪音分量。

作为本发明的一种优选方案，所述步骤5的具体过程为：

使用两个以MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行拟合，损失函数如下：

其中，CNN_h(X_i)表示时长为T的指挥动作高频分量预测值，CNN_l(X_i)表示时长为T的指挥动作低频分量预测值。

作为本发明的一种优选方案，所述步骤6的具体过程为：

将两个卷积神经网络模型的输出通过如下形式拼接成时长为T的指挥动作序列，即最终的指挥动作：

Y_i＝Y_h,i+Y_l,i

其中，Y_h,i表示为时长为T的指挥动作高频分量，Y_l,i表示为时长为T的指挥动作低频分量。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明提出动作动态频域分解，以音乐节奏为依据将指挥动作分解为高频分量、低频分量和噪音分量，突破了现有动作分解方法中连贯性与协调性不可兼得的局限。

2、本发明使用两个卷积神经网络模型分别对高频分量和低频分量进行独立学习，相比于单模型学习的方法，本发明的动作拟合效果更好，能生成自然、美观、多样、且与音乐同步的指挥动作。

附图说明

图1是本发明基于动态频域分解的音乐驱动的指挥动作生成方法的算法流程图。

图2是时域分解、空间域分解与频域分解示意图。

图3是本发明基于动态频域分解的音乐驱动的指挥动作生成方法模型生成的一段连续指挥动作。其中，第一行是高频动作分量序列，第二行是低频动作分量序列，第三行是高低频动作分量拼接后的指挥动作序列。

具体实施方式

下面参考附图详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

与现有方法所面向的舞蹈动作与乐器演奏动作不同，指挥动作同时包含节拍、演奏法、力度以及音乐情感等信息。指挥动作序列可以看作由高频分量与低频分量叠加而成的一种稳定信号，其中高频分量包含了幅值较小但频率较高的节拍、力度等信息，低频分量包含了幅值较大但频率较低的情感以及身体朝向等成分。但低频指挥动作的幅值要比高频指挥动作大很多，如果使用单个卷积神经网络模型对动作进行拟合，会使得高频动作的拟合效果并不理想，为了解决这一问题，应对指挥动作进行频域分解，最简单且直接的方法是寻找一组合适的频率阈值，从而得到一组高通滤波器与低通滤波器，并以此对原始动作序列进行动作分解。然而，这样的方法并不能够确保分解后的动作成分之间相互独立，在高频分量中也会包含幅值较大频率较低成分，而低频分量中会包含幅值较小频率较高成分。这是因为两种动作分量在频域分布的界限是随时间改变的。当音乐节奏较慢时该界限会下降，而音乐节奏较快时该界限会上升。由于音乐节奏变化幅度很大，很难为所有样本找到一个普适的频率阈值。基于这一问题，本发明提出一种基于动态频域分解的音乐驱动的指挥动作生成方法，以音乐节奏为依据将指挥动作分解为多个分量。

结合图1所示，本发明基于动态频域分解的音乐驱动的指挥动作生成方法，包括以下步骤：

1、分别对音频特征序列和指挥动作序列进行时域分解，即切分为若干个时间片段，具体过程如下：

(1)给定N个样本的数据集

其中

表示时长为T的音频特征序列，

(2)分别对音频特征序列X_i和指挥动作序列Y_i进行时域分解，即切分为k个时间片段，

表示第k个时间片段的音频特征序列，即帧数为

维度为p的二维数组，

表示第k个时间片段的指挥动作序列，即帧数为

维度为2q的二维数组，其中

表示第k个时间片段的帧数。作为本发明的一种优选方案，取

为25Hz×30s＝750帧，可以有效保证节奏估计结果的稳定性。

2、对于每一个时间片段样本对

根据音频特征序列

通过音乐节奏估计算法计算出对应该片段的节奏

作为本发明的一种优选方案，使用预训练用于节奏估计的卷积神经网络计算

可以得到较为准确的节奏值。

3、根据步骤2中获得的节奏

计算得到对应于该时间片段的高低频动作分量频率阈值，公式如下：

其中，

表示第k个时间片段对应的节奏值。

4、根据各时间片段的频率阈值以及设定的噪音阈值设计滤波器，将指挥动作序列分解为3个动作分量，具体过程如下：

(1)根据频率阈值计算低通滤波器归一化截止频率W_l：

其中，

(2)设计低通滤波器，为了提高滤波的效果，本发明令滤波器阶数M为常数8，根据归一化截止频率W_n,l和阶数M可构造一个巴特沃斯低通滤波器，二维数组

(3)将所有时间片段上的低频动作分量进行拼接，方式如下：

其中，Y_l,i表示时长为T的指挥动作低频分量，

表示第j个时间片段的指挥动作低频分量；

(4)根据频率阈值与设定的噪音阈值计算带通滤波器归一化截止频率[W_bl,W_bh]：

W_bh＝2*f_noise/SR

其中，f_noise表示本发明设定的大小为5Hz的噪音阈值；

(5)设计带通滤波器，为了提高滤波的效果，本发明令滤波器阶数M为常数8，根据归一化截止频率[W_bl,W_bh]和阶数M可构造一个巴特沃斯带通滤波器，二维数组

(6)将所有时间片段上的高频动作分量进行拼接，方式如下：

其中，Y_h,i表示时长为T的指挥动作高频分量，

表示第j个时间片段的指挥动作高频分量；

(7)根据设定的噪音阈值计算高通滤波器归一化截止频率W_h：

W_h＝2*f_noise/SR

(8)设计高通滤波器，为了提高滤波的效果，本发明令滤波器阶数M为常数8，根据归一化截止频率W_h和阶数M可构造一个巴特沃斯高通滤波器，二维数组

(9)将所有时间片段上的噪音动作分量进行拼接，方式如下：

其中，Y_noise,i表示时长为T的指挥动作噪音分量，

表示第j个时间片段的指挥动作噪音分量。

5、通过两个以MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行独立学习，损失函数如下：

6、将两个卷积神经网络模型的输出通过如下形式拼接成时长为T的指挥动作序列，即最终的指挥动作：

Y_i＝Y_h,i+Y_l,i

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于动态频域分解的音乐驱动的指挥动作生成方法，其特征在于，包括如下步骤：

步骤5，通过两个以均方根误差MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行独立学习；

步骤6，将两个模型的输出合成为最终的指挥动作；

所述步骤4的具体过程为：

4-1、根据频率阈值计算低通滤波器归一化截止频率W_l，

其中，

表示第k个时间片段的频率阈值，SR表示采样频率，采用25Hz的采样频率；

4-2、设计低通滤波器，为了提高滤波的效果，令滤波器阶数M为常数8，根据归一化截止频率W_n,l和阶数M可构造一个巴特沃斯低通滤波器，二维数组

其中，Y_l,i表示时长为T的指挥动作低频分量，

表示第j个时间片段的指挥动作低频分量，j＝1～k；

4-4、根据频率阈值计算带通滤波器归一化截止频率[W_bl,W_bh]：

W_bh＝2*f_noise/SR

4-5、设计带通滤波器，为了提高滤波的效果，令滤波器阶数M为常数8，根据归一化截止频率[W_bl,W_bh]和阶数M可构造一个巴特沃斯带通滤波器，二维数组

其中，Y_h,i表示时长为T的指挥动作高频分量，

表示第j个时间片段的指挥动作高频分量；

W_h＝2*f_noise/SR

4-8、设计高通滤波器，为了提高滤波的效果，令滤波器阶数M为常数8，根据归一化截止频率W_h和阶数M可构造一个巴特沃斯高通滤波器，二维数组

其中，Y_noise,i表示时长为T的指挥动作噪音分量，

表示第j个时间片段的指挥动作噪音分量。

2.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法，其特征在于，所述步骤1的具体过程为：

1-1、给定N个样本的数据集

其中

表示时长为T的音频特征序列，

1-2、分别对音频特征序列X_i和指挥动作序列Y_i进行时域分解，即切分为k个时间片段

表示第k个时间片段的音频特征序列，

表示第k个时间片段的指挥动作序列。

3.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法，其特征在于，所述步骤2的具体过程为：

对于每一个时间片段样本对

根据音频特征序列

通过音乐节奏估计算法计算出对应该片段的节奏

其中

表示第k个时间片段的音频特征序列，

4.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法，其特征在于，步骤3所述高低频动作分量频率阈值的计算公式为：

其中，

5.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法，其特征在于，所述步骤5的具体过程为：

6.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法，其特征在于，所述步骤6的具体过程为：

Y_i＝Y_h,i+Y_l,i