CN113793582B - 基于动态频域分解的音乐驱动的指挥动作生成方法 - Google Patents
基于动态频域分解的音乐驱动的指挥动作生成方法 Download PDFInfo
- Publication number
- CN113793582B CN113793582B CN202111090067.5A CN202111090067A CN113793582B CN 113793582 B CN113793582 B CN 113793582B CN 202111090067 A CN202111090067 A CN 202111090067A CN 113793582 B CN113793582 B CN 113793582B
- Authority
- CN
- China
- Prior art keywords
- frequency
- command
- action
- representing
- command action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/055—Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了基于动态频域分解的音乐驱动的指挥动作生成方法,首先通过音乐节奏估计算法动态地计算局部的音乐节奏,从而确定对指挥动作进行高通分解和低通分解的频率阈值,以将动作序列分解为2个动作分量,即高频动作分量和低频动作分量;通过两个卷积神经网络模型分别对高低频动作分量进行独立学习之后,将两个模型的输出合成为最终的指挥动作。该方法通过动态地计算指挥动作高低频分量的频率阈值来分解原动作序列,提高了模型对动作的拟合效果,对音乐风格的多样性和指挥动作的多样性具有很好的鲁棒性,可以生成自然、美观、多样、且与音乐同步的指挥动作。
Description
技术领域
本发明基于动态频域分解的音乐驱动的指挥动作生成方法涉及指挥动作生成方法,特别是涉及动态频域分解技术的指挥动作生成,属于计算机技术领域。
背景技术
自中世纪欧洲教堂唱诗班到二十一世纪的现代音乐,指挥技术与艺术不断发展,已经成为一门内容丰富的学科。指挥的肢体语言复杂多变,需要在乐团演奏时实时地传达节拍、力度、情感、演奏法等多种信息,且同时保持一定的风格与美感。近年来,随着深度学习算法理论的发展与计算性能的飞速提升,人工智能领域的学者已经成功地对多种人类艺术进行建模与学习。深度学习已经能生成包括诗歌艺术、绘画艺术、音乐艺术、舞蹈艺术在内的多种人类艺术形式。然而,学界对于指挥艺术的建模研究还比较初步,且主要面向判别类的任务,例如节拍跟踪、拍式识别、演奏法识别、情感识别等。
在众多动作生成的方法中,对训练集中动作的学习尤为关键。与现有方法所面向的舞蹈动作与乐器演奏动作不同,指挥动作同时包含节拍、演奏法、力度以及音乐情感等信息。指挥动作序列可以看作由高频分量与低频分量叠加而成的一种稳定信号,其中高频分量包含了幅值较小但频率较高的节拍、力度等信息,低频分量包含了幅值较大但频率较低的情感以及身体朝向等成分。由于高低频动作分量之间幅值相差较大,模型对低频动作的学习将会占主导地位,这将导致高频动作的学习效果欠佳。
为了同时达到对不同频率的动作的高效学习,目前常用的是动作分解的方法,现有的动作分解方法主要包括时域分解与空间域分解,这些方法的核心动机是人体动作序列是高度复杂的,进行动作分解可以将单个困难问题转化为多个较简单的问题,从而更有效地学习。如图2所示,时域分解与空间域分解可以是将原始动作序列沿时间轴或空间轴的方向切成多个子序列。然而,这些子序列分解之后便互相独立,子序列之间的关系也随着动作分解而丢失。其后果表现为基于时间分解的方法生成的动作协调但不连贯,而基于空间域分解的方法则连贯但不协调。为了解决这一矛盾,本发明提出动作的动态频域分解,在同时保留时域与空间域的上下文信息的前提下,将复杂动作分解为两部分相互独立的较简单动作。此外,对于包含极高频噪声的高频分量还可以再次进行分解,得到噪音与去噪后的高频分量。将原始动作序列分解为高频、低频与噪音分量。
发明内容
本发明所要解决的技术问题是:提供基于动态频域分解的音乐驱动的指挥动作生成方法,为音乐驱动的指挥动作生成问题提供了一种更加精确的解决方案。
本发明为解决上述技术问题采用以下技术方案:
基于动态频域分解的音乐驱动的指挥动作生成方法,包括如下步骤:
步骤1,分别将音频特征序列和指挥动作序列切分为若干个时间片段;
步骤2,对于每一个时间片段的样本对,使用音乐节奏估计算法计算得到该片段的节奏值;
步骤3,根据步骤2中获得的节奏值计算得到对应时间片段的频率阈值;
步骤4,根据各时间片段的频率阈值以及设定的噪音阈值设计滤波器,将指挥动作序列分解为3个动作分量;
步骤5,通过两个以均方根误差MSE作为损失函数的卷积神经网络模型,分别对高低频动作分量进行独立学习;
步骤6,将两个模型的输出合成为最终的指挥动作。
作为本发明的一种优选方案,所述步骤1的具体过程为:
作为本发明的一种优选方案,所述步骤2的具体过程为:
作为本发明的一种优选方案,步骤3所述计算高低频动作分量频率阈值的公式为:
作为本发明的一种优选方案,所述步骤4的具体过程为:
4-1、根据频率阈值计算低通滤波器归一化截止频率Wl:
4-2、设计低通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率Wn,l和阶数M可构造一个巴特沃斯低通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的低频分量
4-3、将所有时间片段上的低频动作分量进行拼接,方式如下:
4-4、根据频率阈值与设定的噪音阈值计算带通滤波器归一化截止频率[Wbl,Wbh]:
Wbh=2*fnoise/SR
其中,fnoise表示本发明设定的大小为5Hz的噪音阈值;SR含义和步骤4-1中相同;
4-5、设计带通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率[Wbl,Wbh]和阶数M可构造一个巴特沃斯带通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的高频分量
4-6、将所有时间片段上的高频动作分量进行拼接,方式如下:
4-7、根据设定的噪音阈值计算高通滤波器归一化截止频率Wh:
Wh=2*fnoise/SR
4-8、设计高通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率Wh和阶数M可构造一个巴特沃斯高通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的噪音分量
4-9、将所有时间片段上的噪音动作分量进行拼接,方式如下:
作为本发明的一种优选方案,所述步骤5的具体过程为:
使用两个以MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行拟合,损失函数如下:
其中,CNNh(Xi)表示时长为T的指挥动作高频分量预测值,CNNl(Xi)表示时长为T的指挥动作低频分量预测值。
作为本发明的一种优选方案,所述步骤6的具体过程为:
将两个卷积神经网络模型的输出通过如下形式拼接成时长为T的指挥动作序列,即最终的指挥动作:
Yi=Yh,i+Yl,i
其中,Yh,i表示为时长为T的指挥动作高频分量,Yl,i表示为时长为T的指挥动作低频分量。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明提出动作动态频域分解,以音乐节奏为依据将指挥动作分解为高频分量、低频分量和噪音分量,突破了现有动作分解方法中连贯性与协调性不可兼得的局限。
2、本发明使用两个卷积神经网络模型分别对高频分量和低频分量进行独立学习,相比于单模型学习的方法,本发明的动作拟合效果更好,能生成自然、美观、多样、且与音乐同步的指挥动作。
附图说明
图1是本发明基于动态频域分解的音乐驱动的指挥动作生成方法的算法流程图。
图2是时域分解、空间域分解与频域分解示意图。
图3是本发明基于动态频域分解的音乐驱动的指挥动作生成方法模型生成的一段连续指挥动作。其中,第一行是高频动作分量序列,第二行是低频动作分量序列,第三行是高低频动作分量拼接后的指挥动作序列。
具体实施方式
下面参考附图详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
与现有方法所面向的舞蹈动作与乐器演奏动作不同,指挥动作同时包含节拍、演奏法、力度以及音乐情感等信息。指挥动作序列可以看作由高频分量与低频分量叠加而成的一种稳定信号,其中高频分量包含了幅值较小但频率较高的节拍、力度等信息,低频分量包含了幅值较大但频率较低的情感以及身体朝向等成分。但低频指挥动作的幅值要比高频指挥动作大很多,如果使用单个卷积神经网络模型对动作进行拟合,会使得高频动作的拟合效果并不理想,为了解决这一问题,应对指挥动作进行频域分解,最简单且直接的方法是寻找一组合适的频率阈值,从而得到一组高通滤波器与低通滤波器,并以此对原始动作序列进行动作分解。然而,这样的方法并不能够确保分解后的动作成分之间相互独立,在高频分量中也会包含幅值较大频率较低成分,而低频分量中会包含幅值较小频率较高成分。这是因为两种动作分量在频域分布的界限是随时间改变的。当音乐节奏较慢时该界限会下降,而音乐节奏较快时该界限会上升。由于音乐节奏变化幅度很大,很难为所有样本找到一个普适的频率阈值。基于这一问题,本发明提出一种基于动态频域分解的音乐驱动的指挥动作生成方法,以音乐节奏为依据将指挥动作分解为多个分量。
结合图1所示,本发明基于动态频域分解的音乐驱动的指挥动作生成方法,包括以下步骤:
1、分别对音频特征序列和指挥动作序列进行时域分解,即切分为若干个时间片段,具体过程如下:
(2)分别对音频特征序列Xi和指挥动作序列Yi进行时域分解,即切分为k个时间片段,表示第k个时间片段的音频特征序列,即帧数为维度为p的二维数组,表示第k个时间片段的指挥动作序列,即帧数为维度为2q的二维数组,其中表示第k个时间片段的帧数。作为本发明的一种优选方案,取为25Hz×30s=750帧,可以有效保证节奏估计结果的稳定性。
4、根据各时间片段的频率阈值以及设定的噪音阈值设计滤波器,将指挥动作序列分解为3个动作分量,具体过程如下:
(1)根据频率阈值计算低通滤波器归一化截止频率Wl:
(2)设计低通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率Wn,l和阶数M可构造一个巴特沃斯低通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的低频分量
(3)将所有时间片段上的低频动作分量进行拼接,方式如下:
(4)根据频率阈值与设定的噪音阈值计算带通滤波器归一化截止频率[Wbl,Wbh]:
Wbh=2*fnoise/SR
其中,fnoise表示本发明设定的大小为5Hz的噪音阈值;
(5)设计带通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率[Wbl,Wbh]和阶数M可构造一个巴特沃斯带通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的高频分量
(6)将所有时间片段上的高频动作分量进行拼接,方式如下:
(7)根据设定的噪音阈值计算高通滤波器归一化截止频率Wh:
Wh=2*fnoise/SR
(8)设计高通滤波器,为了提高滤波的效果,本发明令滤波器阶数M为常数8,根据归一化截止频率Wh和阶数M可构造一个巴特沃斯高通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的噪音分量
(9)将所有时间片段上的噪音动作分量进行拼接,方式如下:
5、通过两个以MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行独立学习,损失函数如下:
其中,CNNh(Xi)表示时长为T的指挥动作高频分量预测值,CNNl(Xi)表示时长为T的指挥动作低频分量预测值。
6、将两个卷积神经网络模型的输出通过如下形式拼接成时长为T的指挥动作序列,即最终的指挥动作:
Yi=Yh,i+Yl,i
其中,Yh,i表示为时长为T的指挥动作高频分量,Yl,i表示为时长为T的指挥动作低频分量。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (6)
1.一种基于动态频域分解的音乐驱动的指挥动作生成方法,其特征在于,包括如下步骤:
步骤1,分别将音频特征序列和指挥动作序列切分为若干个时间片段;
步骤2,对于每一个时间片段的样本对,使用音乐节奏估计算法计算得到该片段的节奏值;
步骤3,根据步骤2中获得的节奏值计算得到对应时间片段的频率阈值;
步骤4,根据各时间片段的频率阈值以及设定的噪音阈值设计滤波器,将指挥动作序列分解为3个动作分量;
步骤5,通过两个以均方根误差MSE作为损失函数的卷积神经网络模型分别对高低频动作分量进行独立学习;
步骤6,将两个模型的输出合成为最终的指挥动作;
所述步骤4的具体过程为:
4-1、根据频率阈值计算低通滤波器归一化截止频率Wl,
4-2、设计低通滤波器,为了提高滤波的效果,令滤波器阶数M为常数8,根据归一化截止频率Wn,l和阶数M可构造一个巴特沃斯低通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的低频分量
4-3、将所有时间片段上的低频动作分量进行拼接,方式如下:
4-4、根据频率阈值计算带通滤波器归一化截止频率[Wbl,Wbh]:
Wbh=2*fnoise/SR
其中,fnoise表示本发明设定的大小为5Hz的噪音阈值;SR含义和步骤4-1中相同;
4-5、设计带通滤波器,为了提高滤波的效果,令滤波器阶数M为常数8,根据归一化截止频率[Wbl,Wbh]和阶数M可构造一个巴特沃斯带通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的高频分量
4-6、将所有时间片段上的高频动作分量进行拼接,方式如下:
4-7、根据设定的噪音阈值计算高通滤波器归一化截止频率Wh:
Wh=2*fnoise/SR
4-8、设计高通滤波器,为了提高滤波的效果,令滤波器阶数M为常数8,根据归一化截止频率Wh和阶数M可构造一个巴特沃斯高通滤波器,二维数组中每一列数据对应一个信号,将所有信号依次输入滤波器,输出的信号按列拼接后即为第k个时间片段指挥动作的噪音分量
4-9、将所有时间片段上的噪音动作分量进行拼接,方式如下:
6.根据权利要求1所述的基于动态频域分解的音乐驱动的指挥动作生成方法,其特征在于,所述步骤6的具体过程为:
将两个卷积神经网络模型的输出通过如下形式拼接成时长为T的指挥动作序列,即最终的指挥动作:
Yi=Yh,i+Yl,i
其中,Yh,i表示为时长为T的指挥动作高频分量,Yl,i表示为时长为T的指挥动作低频分量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090067.5A CN113793582B (zh) | 2021-09-17 | 2021-09-17 | 基于动态频域分解的音乐驱动的指挥动作生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090067.5A CN113793582B (zh) | 2021-09-17 | 2021-09-17 | 基于动态频域分解的音乐驱动的指挥动作生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793582A CN113793582A (zh) | 2021-12-14 |
CN113793582B true CN113793582B (zh) | 2022-04-15 |
Family
ID=79183731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111090067.5A Active CN113793582B (zh) | 2021-09-17 | 2021-09-17 | 基于动态频域分解的音乐驱动的指挥动作生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793582B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101615302B (zh) * | 2009-07-30 | 2011-09-07 | 浙江大学 | 音乐数据驱动的基于机器学习的舞蹈动作生成方法 |
CN109176541B (zh) * | 2018-09-06 | 2022-05-06 | 南京阿凡达机器人科技有限公司 | 一种实现机器人跳舞的方法、设备和储存介质 |
CN113365147B (zh) * | 2021-08-11 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 基于音乐卡点的视频剪辑方法、装置、设备及存储介质 |
-
2021
- 2021-09-17 CN CN202111090067.5A patent/CN113793582B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113793582A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ofli et al. | Learn2dance: Learning statistical music-to-dance mappings for choreography synthesis | |
CN109524020B (zh) | 一种语音增强处理方法 | |
Ghose et al. | Autofoley: Artificial synthesis of synchronized sound tracks for silent videos with deep learning | |
Aristidou et al. | Rhythm is a dancer: Music-driven motion synthesis with global structure | |
CN113423005B (zh) | 一种基于改进神经网络的智能音乐生成方法及系统 | |
Zhang et al. | A survey on multimodal-guided visual content synthesis | |
Lee et al. | Robust sound-guided image manipulation | |
CN113793582B (zh) | 基于动态频域分解的音乐驱动的指挥动作生成方法 | |
Zhou et al. | Let’s all dance: Enhancing amateur dance motions | |
Cai et al. | Music creation and emotional recognition using neural network analysis | |
CN113241092A (zh) | 基于双注意力机制和多阶段混合卷积网络声源分离方法 | |
Colonel et al. | Conditioning autoencoder latent spaces for real-time timbre interpolation and synthesis | |
Liu et al. | Self-supervised music motion synchronization learning for music-driven conducting motion generation | |
Kim et al. | Perceptually motivated automatic dance motion generation for music | |
Liu et al. | Style subspaces for character animation | |
Moliner et al. | Realistic gramophone noise synthesis using a diffusion model | |
Ma et al. | Data‐Driven Computer Choreography Based on Kinect and 3D Technology | |
CN113806584B (zh) | 基于自监督跨模态感知损失的乐队指挥动作生成方法 | |
Ye et al. | Music style transfer with vocals based on CycleGAN | |
Yang et al. | Unsupervised Musical Timbre Transfer for Notification Sounds | |
Ji | Design and implementation of virtual host based on machine learning algorithm | |
Yin et al. | The creation of a music-driven digital violinist | |
Wilson et al. | Collaborative human and machine creative interaction driven through affective response in live coding systems | |
Cang et al. | [Retracted] Research on the Application of Intelligent Choreography for Musical Theater Based on Mixture Density Network Algorithm | |
Dupont | Generating 3D Dances From Music Using Deep Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |