CN116129837B - 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 - Google Patents

一种用于音乐节拍跟踪的神经网络数据增强模块和算法 Download PDF

Info

Publication number
CN116129837B
CN116129837B CN202310384662.2A CN202310384662A CN116129837B CN 116129837 B CN116129837 B CN 116129837B CN 202310384662 A CN202310384662 A CN 202310384662A CN 116129837 B CN116129837 B CN 116129837B
Authority
CN
China
Prior art keywords
audio
music
neural network
data
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310384662.2A
Other languages
English (en)
Other versions
CN116129837A (zh
Inventor
吴德钦
冉启海
王明江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yusi Semiconductor Co ltd
Original Assignee
Shenzhen Yusi Semiconductor Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yusi Semiconductor Co ltd filed Critical Shenzhen Yusi Semiconductor Co ltd
Priority to CN202310384662.2A priority Critical patent/CN116129837B/zh
Publication of CN116129837A publication Critical patent/CN116129837A/zh
Application granted granted Critical
Publication of CN116129837B publication Critical patent/CN116129837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Auxiliary Devices For Music (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本发明一种用于音乐节拍跟踪的神经网络数据增强模块和算法,包括预处理模块和神经网络音乐源分离模块。本发明针对传统数据增强策略的缺陷和不足,转变数据增强的方向,提高整个节拍跟踪系统的性能。提供用一种用于音乐节拍跟踪的神经网络数据增强算法,该算法采用数据增强策略,结合预训练的前端神经网络,实现了一种适用于音乐节拍跟踪系统的前端数据增强算法。

Description

一种用于音乐节拍跟踪的神经网络数据增强模块和算法
技术领域
本发明涉及音乐节拍跟踪技术领域,具体涉及一种用于音乐节拍跟踪的神经网络数据增强模块和算法。
背景技术
现有技术的专利文献CN114882905A,公开了一种基于神经网络的音乐节拍速度检测方法,先检测音乐类型,进行信号滤波后,进行信号分帧,取每一帧最大值合成包络,对包络进行一阶差分、二阶差分,对差分结果进行多次移动均线处理,输入神经网络里进行训练,最后测试得出节拍速度。
专利文献CN114937459A提出的音频数据增强方法,在音乐节拍跟踪时,往往需要先对输入音频信号进行预处理和数据增强,常规的数据增强算法包括插入随即噪音、沿时间轴移动、变速等,这些传统算法过于简单,并不能帮助音乐节拍跟踪模型有效提取特征,对模型性能提升作用不大。
发明内容
为了解决现有技术中的问题,本发明针对传统数据增强策略的缺陷和不足,转变数据增强的方向,提高整个节拍跟踪系统的性能。提供用一种用于音乐节拍跟踪的神经网络数据增强算法,该算法采用数据增强策略,结合预训练的前端神经网络,实现了一种适用于音乐节拍跟踪系统的前端数据增强算法。
实现本发明目的的技术方案为:
一种用于音乐节拍跟踪的神经网络数据增强模块,包括预处理模块和神经网络音乐源分离模块。
一种用于音乐节拍跟踪的神经网络数据增强算法,包括如下步骤:
1)预处理:音乐信号先经过预处理,被转换为适合网络输入的形式;
2)音频源分离:通过训练好的源分离神经网络,分为至少一条音轨;
3)筛选音轨:采取数据筛选策略筛选音轨。
步骤2)中包括音频源分离模型预测和音频源分离模型训练。
步骤1)预处理:对每段数据进行预加重处理,采用的公式为:
y(n)=x(n)-αx(n-1)
其中x为裁剪后的原始音频信号,n和n-1代表信号的相邻两帧,α为高通滤波器系数,这里取0.97,y(n)为预加重后的音频时域信号。
然后对数据进行短时傅里叶变换。
具体操作为:首先进行分帧,将信号分为几十毫秒的小段,算法中采用46ms的帧长和23ms的帧移,相邻两帧重叠率为50%,以保证信号的连续性和可恢复性。然后通过加窗来抑制频谱泄露,采用汉宁窗,窗函数如下:
Figure SMS_1
其中N为窗口长度,这里与帧长对应,可由采样率计算得到;w(m)为第m点处的窗函数值。将窗函数与每帧信号相乘称为加窗,得到加窗后的信号。
然后对每一段音频进行快速傅里叶变换,得到频域特征,并沿时间维度拼接,得到声谱图。最后将声谱图通过梅尔标度滤波器组,将其变为梅尔频谱,得到线性的感知关系。其映射关系如下:
mel(f)=2595log10(1+f/700),
其中f为原始频率,经过变换得到mel(f)为梅尔频率。
步骤1)的预处理,针对不同类型的数据和不同的任务需求采用不同的与预处理方式,其他处理方式包括预滤波——滤去不需要的频率段,保留有效频率;端点检测——检测音频和噪声或无效片段的分界点,筛选有效片段等,预处理方式不限于上述方式。
2)音频源分离
源分离模块采用预训练的分离模型,其预测流程如图2所示。
输入的数据为预处理后的音频梅尔频谱,输出分离后的音轨梅尔频谱。首先根据频谱计算幅度谱,输入到训练好的Unet中,每个Unet的作用是提取出原音频中某一特征,本算法需要分离出5维特征,所以需要5个Unet,分别得到人声、鼓声、贝斯声、钢琴声、其他声音5条音轨。Unet的输出也为幅度谱,将各音轨的幅度谱平方得到其能量,并计算每个时刻各音轨在每个频带上的占比,公式如下:
Figure SMS_2
其中AMPi为第i维特征的幅度谱,MASKi为第i维特征的能量在所有特征能量中的占比。
将输入原音乐的频谱与音轨能量占比相乘得到各音轨频谱,最后使用逆短时傅里叶变换(invertible STFT)即可得到分离出的各音轨音乐,公式如下:
meli(f)=MASKi*mel(f)
其中meli(f)为第i维特征的梅尔频谱。
Figure SMS_3
其中Yt(n)为第t帧频谱的傅里叶逆变换,Xt(f)为第t帧的频谱,H为帧移,M为帧长,j为虚数单位,
Figure SMS_4
X1(n)为逆短时傅里叶变换得到的复原时域信号,ω为使用的窗函数,a为还原参数,这里取a=1,使其等价于Griffin-Lim最优估计。
每个Unet均使用三层双向长短时记忆神经网络(BLSTM,Bidirectional LongShort-Term Memory),每层具有250个正向LSTM单元和250个反向LSTM单元。其训练流程如图3所示。
训练数据为原始音乐及其各音轨,同一数据的多个音轨时间轴需要严格对齐,模型输入为原始音乐的幅度谱,通过Unet后计算与各条音轨幅度谱的L1距离,损失函数(Loss)为5个L1距离的平均值。
3)筛选音轨
为了应对包含多种音乐风格的数据集,防止模型可能会分离出无效的音轨数据对后续的训练效果产生负面影响,需要采取一定的数据筛选策略。本算法的策略是计算音轨在时域内幅度绝对值的平均值(幅度经过归一化),若其小于0.01,则视为无效数据,舍去这条音轨。
最后对算法进行测试,以源分离后经过筛选的音轨数据作为训练数据,训练两种音乐节拍跟踪模型,分别基于双向长短时记忆网络和时间卷积网络(TemporalConvolutional Network,TCN),训练时均使用8-fold验证,使用的数据集为公开数据集Hainsworth、SMC、Ballroom、Harmonix。此外,使用完全不参与训练的GTZAN数据集用作测试。
本发明的有益效果为:
1、本发明的算法所需的神经网络模型可预训练,运算量不大。
2、本发明的算法能帮助节拍跟踪模型进行特征提取,有效提高音乐节拍跟踪系统的整体性能。
3、本发明的算法可以增大训练数据规模,并且改善不良训练数据的质量。
附图说明
图1是用于音乐节拍跟踪的神经网络数据增强模块结构示意图;
图2是音频源分离模型预测流程图;
图3是音频源分离模型训练流程图。
具体实施方式
图1-图3用以解释本发明,但本发明不限于图1-图3所示的范围内。
如图1所示,一种用于音乐节拍跟踪的神经网络数据增强模块,包括预处理模块和神经网络音乐源分离模块。
一种用于音乐节拍跟踪的神经网络数据增强算法,包括如下步骤:
1)预处理:音乐信号先经过预处理,被转换为适合网络输入的形式;
2)音频源分离:通过训练好的源分离神经网络,分为至少一条音轨;
3)筛选音轨:采取一定的数据筛选策略筛选音轨。
1)预处理
为了方便后续的数据处理,首先将输入的音乐信号统一重采样为44.1kHz,然后去除音频的前5s,这是因为音乐数据的特殊性,大部分音乐在5s之后才会开始有声音数据。余下的有效数据裁剪为10s长度的片段,舍去尾部多余不足10s的片段。对每段数据进行预加重处理,目的是补偿高频分量,采用的公式为:
y(n)=x(n)-αx(n-1)
其中x为裁剪后的原始音频信号,n和n-1代表信号的相邻两帧,α为高通滤波器系数,这里取0.97,y(n)为预加重后的音频时域信号。
然后对数据进行短时傅里叶变换(STFT,short-time Fourier transform)。具体操作为首先进行分帧,将信号分为几十毫秒的小段,算法中采用46ms的帧长和23ms的帧移,相邻两帧重叠率为50%,以保证信号的连续性和可恢复性。然后通过加窗来抑制频谱泄露,通常采用汉宁窗,窗函数如下:
Figure SMS_5
其中N为窗口长度,这里与帧长对应,可由采样率计算得到;w(m)为第m点处的窗函数值。将窗函数与每帧信号相乘称为加窗,得到加窗后的信号。
然后对每一段音频进行快速傅里叶变换(Fast Fourier Transform,FFT),得到频域特征,并沿时间维度拼接,得到声谱图。最后将声谱图通过梅尔标度滤波器组(Mel-scaleFilter Banks),将其变为梅尔频谱,得到线性的感知关系。其映射关系如下:
mel(f)=2595log10(1+f/700),
其中f为原始频率,经过变换得到mel(f)为梅尔频率。
步骤1)的预处理,针对不同类型的数据和不同的任务需求采用不同的与预处理方式,其他处理方式包括预滤波——滤去不需要的频率段,保留有效频率;端点检测——检测音频和噪声或无效片段的分界点,筛选有效片段等,预处理方式不限于上述方式。
2)音频源分离
源分离模块采用预训练的分离模型,其预测流程如图2所示。
输入的数据为预处理后的音频梅尔频谱,输出分离后的音轨梅尔频谱。首先根据频谱计算幅度谱,输入到训练好的Unet中,每个Unet的作用是提取出原音频中某一特征,本算法需要分离出5维特征,所以需要5个Unet,分别得到人声、鼓声、贝斯声、钢琴声、其他声音5条音轨。Unet的输出也为幅度谱,将各音轨的幅度谱平方得到其能量,并计算每个时刻各音轨在每个频带上的占比,公式如下:
Figure SMS_6
其中AMPi为第i维特征的幅度谱,MASKi为第i维特征的能量在所有特征能量中的占比。
将输入原音乐的频谱与音轨能量占比相乘得到各音轨频谱,最后使用逆短时傅里叶变换(invertible STFT)即可得到分离出的各音轨音乐,公式如下:
meli(f)=MASKi*mel(f)
其中meli(f)为第i维特征的梅尔频谱。
Figure SMS_7
其中Yt(n)为第t帧频谱的傅里叶逆变换,Xt(f)为第t帧的频谱,H为帧移,M为帧长,j为虚数单位,
Figure SMS_8
X1(n)为逆短时傅里叶变换得到的复原时域信号,ω为使用的窗函数,a为还原参数,这里取a=1,使其等价于Griffin-Lim最优估计。
每个Unet均使用三层双向长短时记忆神经网络(BLSTM,Bidirectional LongShort-Term Memory),每层具有250个正向LSTM单元和250个反向LSTM单元。其训练流程如图3所示。
由图3可见,训练数据为原始音乐及其各音轨,同一数据的多个音轨时间轴需要严格对齐,模型输入为原始音乐的幅度谱,通过Unet后计算与某条音轨幅度谱的L1距离,损失函数(Loss)为5个L1距离的平均值。
3)筛选音轨
为了应对包含多种音乐风格的数据集,防止模型可能会分离出无效的音轨数据对后续的训练效果产生负面影响,需要采取一定的数据筛选策略。本算法的策略是计算音轨在时域内幅度绝对值的平均值(幅度经过归一化),若其小于0.01,则视为无效数据,舍去这条音轨。
最后对算法进行测试,以源分离后经过筛选的音轨数据作为训练数据,训练两种音乐节拍跟踪模型,分别基于双向长短时记忆网络和时间卷积网络(TemporalConvolutional Network,TCN),训练时均使用8-fold验证,使用的数据集为公开数据集Hainsworth、SMC、Ballroom、Harmonix。此外,使用完全不参与训练的GTZAN数据集用作测试。结果如表1所示,其中SMC数据集没有强拍注释,所以没有强拍跟踪得分。
表1 模型测试结果对比表
数据集 模型 F-measure Downbeat F-measure
Hainsworth BLSTMBLSTM AugTCNTCN Aug 0.7580.7930.8810.887 0.5430.6110.6640.706
SMC BLSTMBLSTM AugTCNTCN Aug 0.5160.5500.5690.589
Ballroom BLSTMBLSTM AugTCNTCN Aug 0.9310.9520.9550.962 0.7620.8340.8820.934
Harmonix BLSTMBLSTM AugTCNTCN Aug 0.9120.9390.9330.955 0.7340.8120.8040.900
GTZAN BLSTMBLSTM AugTCNTCN Aug 0.8530.8810.8620.874 0.6080.7400.5680.681
可以看出,加入本发明的数据增强算法后,两种模型的表现均有明显提高。在8-fold验证数据集上,节拍跟踪得分平均提高2.96%,强拍跟踪得分平均提高9.46%。在仅做测试的数据集上,节拍跟踪得分平均提高2.33%,强拍跟踪得分平均提高20.8%。可知该算法能有效帮助节拍跟踪系统提取音乐特征,从而提升整个系统的性能。
上述实施例仅为本发明具体实施例,但并不局限于实施例,凡在不脱离本发明构思的情况下,依本申请所做的等效修饰和现有技术添加均视为本发明技术范畴。

Claims (4)

1.一种用于音乐节拍跟踪的神经网络数据增强算法,其特征在于:包括如下步骤:
1)预处理:音乐信号先经过预处理,被转换为适合网络输入的形式;
2)音频源分离:通过训练好的源分离神经网络,分为至少一条音轨;
3)筛选音轨:采取数据筛选策略筛选音轨,
步骤1)预处理:对每段数据进行预加重处理,采用的公式为:
y(n)=x(n)-αx(n-1)
其中x为裁剪后的原始音频信号,n和n-1代表信号的相邻两帧,α为高通滤波器系数,y(n)为预加重后的音频时域信号;
然后对数据进行短时傅里叶变换,
具体操作为:首先进行分帧,将信号分为几十毫秒的小段,算法中采用46ms的帧长和23ms的帧移,相邻两帧重叠率为50%,以保证信号的连续性和可恢复性;然后通过加窗来抑制频谱泄露,采用汉宁窗,窗函数如下:
Figure QLYQS_1
其中N为窗口长度;w(m)为第m点处的窗函数值,将窗函数与每帧信号相乘称为加窗,得到加窗后的信号;
然后对每一段音频进行快速傅里叶变换,得到频域特征,并沿时间维度拼接,得到声谱图;最后将声谱图通过梅尔标度滤波器组,将其变为梅尔频谱,得到线性的感知关系,其映射关系如下:
mel(f)=2595log10(1+f/700),
其中f为原始频率,mel(f)为梅尔频率,
步骤2)中包括音频源分离模型预测和音频源分离模型训练,
音频源分离模型预测包括如下步骤:
(1)根据频谱计算幅度谱,输入到训练好的Unet中,每个Unet的作用是提取出原音频中某一种或几种特征,Unet的输出也为幅度谱,将各音轨的幅度谱平方得到其能量,并计算每个时刻各音轨在每个频带上的占比,公式如下:
Figure QLYQS_2
其中AMPi为第i维特征的幅度谱,MASKi为第i维特征的能量在所有特征能量中的占比,
(2)将输入原音乐的频谱与音轨能量占比相乘得到各音轨频谱,最后使用逆短时傅里叶变换即可得到分离出的各音轨音乐,公式如下:
meli(f)=MASKi*mel(f)
其中meli(f)为第i维特征的梅尔频谱,
Figure QLYQS_3
其中Yt(n)为第t帧频谱的傅里叶逆变换,Xt(f)为第t帧的频谱,H为帧移,M为帧长,j为虚数单位,
Figure QLYQS_4
X1(n)为逆短时傅里叶变换得到的复原时域信号,ω为使用的窗函数,a为还原参数。
2.根据权利要求1所述的一种用于音乐节拍跟踪的神经网络数据增强算法,其特征在于:
音频源分离模型训练:
每个Unet均使用三层双向长短时记忆神经网络,每层具有250个正向LSTM单元和250个反向LSTM单元;
训练数据为原始音乐及其各音轨,同一数据的多个音轨时间轴需要严格对齐,模型输入为原始音乐的幅度谱,通过Unet后计算与各条音轨幅度谱的L1距离,损失函数为5个L1距离的平均值。
3.根据权利要求2所述的一种用于音乐节拍跟踪的神经网络数据增强算法,其特征在于:
步骤3)筛选音轨:
数据筛选策略是计算音轨在时域内幅度绝对值的平均值,若其小于0.01,则视为无效数据,舍去这条音轨;
对算法进行测试,以源分离后经过筛选的音轨数据作为训练数据,训练两种音乐节拍跟踪模型,分别基于双向长短时记忆网络和时间卷积网络,训练时均使用8-fold验证。
4.应用权利要求1所述的一种用于音乐节拍跟踪的神经网络数据增强算法的模块,其特征在于:包括预处理模块和神经网络音乐源分离模块。
CN202310384662.2A 2023-04-12 2023-04-12 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 Active CN116129837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310384662.2A CN116129837B (zh) 2023-04-12 2023-04-12 一种用于音乐节拍跟踪的神经网络数据增强模块和算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310384662.2A CN116129837B (zh) 2023-04-12 2023-04-12 一种用于音乐节拍跟踪的神经网络数据增强模块和算法

Publications (2)

Publication Number Publication Date
CN116129837A CN116129837A (zh) 2023-05-16
CN116129837B true CN116129837B (zh) 2023-06-20

Family

ID=86295939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310384662.2A Active CN116129837B (zh) 2023-04-12 2023-04-12 一种用于音乐节拍跟踪的神经网络数据增强模块和算法

Country Status (1)

Country Link
CN (1) CN116129837B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120237041A1 (en) * 2009-07-24 2012-09-20 Johannes Kepler Universität Linz Method And An Apparatus For Deriving Information From An Audio Track And Determining Similarity Between Audio Tracks
JP5582915B2 (ja) * 2009-08-14 2014-09-03 本田技研工業株式会社 楽譜位置推定装置、楽譜位置推定方法および楽譜位置推定ロボット
CN109616090B (zh) * 2018-12-24 2020-12-18 北京达佳互联信息技术有限公司 多音轨序列生成方法、装置、设备及存储介质
CN111488486B (zh) * 2020-04-20 2021-08-17 武汉大学 一种基于多音源分离的电子音乐分类方法及系统
CN114882905A (zh) * 2022-04-11 2022-08-09 昆明理工大学 一种基于神经网络的音乐节拍速度检测方法

Also Published As

Publication number Publication date
CN116129837A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
Lv et al. Dccrn+: Channel-wise subband dccrn with snr estimation for speech enhancement
Luo et al. Music source separation with band-split RNN
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Han et al. Deep neural network based spectral feature mapping for robust speech recognition.
Yegnanarayana et al. Processing of reverberant speech for time-delay estimation
CN102792373B (zh) 噪音抑制装置
CN103440872B (zh) 瞬态噪声的去噪方法
CN101872616A (zh) 端点检测方法以及使用该方法的系统
CN104183245A (zh) 一种演唱者音色相似的歌星推荐方法与装置
Roman et al. Pitch-based monaural segregation of reverberant speech
Sainath et al. Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction.
Zhang et al. Complex ratio masking for singing voice separation
Shifas et al. A non-causal FFTNet architecture for speech enhancement
CN113593588B (zh) 一种基于生成对抗网络的多唱歌人歌声合成方法和系统
Shoba et al. Adaptive energy threshold for monaural speech separation
CN116129837B (zh) 一种用于音乐节拍跟踪的神经网络数据增强模块和算法
Le et al. Personalized speech enhancement combining band-split rnn and speaker attentive module
Ouzounov A robust feature for speech detection
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
Strauss et al. Improved normalizing flow-based speech enhancement using an all-pole gammatone filterbank for conditional input representation
Kamble et al. Teager energy subband filtered features for near and far-field automatic speech recognition
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
Li et al. PSD and signal approximation-LSTM based speech enhancement
Jannu et al. Convolutional Transformer based Local and Global Feature Learning for Speech Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant