CN116129837B - 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 - Google Patents
一种用于音乐节拍跟踪的神经网络数据增强模块和算法 Download PDFInfo
- Publication number
- CN116129837B CN116129837B CN202310384662.2A CN202310384662A CN116129837B CN 116129837 B CN116129837 B CN 116129837B CN 202310384662 A CN202310384662 A CN 202310384662A CN 116129837 B CN116129837 B CN 116129837B
- Authority
- CN
- China
- Prior art keywords
- audio
- music
- neural network
- data
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 29
- 238000000926 separation method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000037433 frameshift Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract description 2
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
- Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
Abstract
本发明一种用于音乐节拍跟踪的神经网络数据增强模块和算法,包括预处理模块和神经网络音乐源分离模块。本发明针对传统数据增强策略的缺陷和不足,转变数据增强的方向,提高整个节拍跟踪系统的性能。提供用一种用于音乐节拍跟踪的神经网络数据增强算法,该算法采用数据增强策略,结合预训练的前端神经网络,实现了一种适用于音乐节拍跟踪系统的前端数据增强算法。
Description
技术领域
本发明涉及音乐节拍跟踪技术领域,具体涉及一种用于音乐节拍跟踪的神经网络数据增强模块和算法。
背景技术
现有技术的专利文献CN114882905A,公开了一种基于神经网络的音乐节拍速度检测方法,先检测音乐类型,进行信号滤波后,进行信号分帧,取每一帧最大值合成包络,对包络进行一阶差分、二阶差分,对差分结果进行多次移动均线处理,输入神经网络里进行训练,最后测试得出节拍速度。
专利文献CN114937459A提出的音频数据增强方法,在音乐节拍跟踪时,往往需要先对输入音频信号进行预处理和数据增强,常规的数据增强算法包括插入随即噪音、沿时间轴移动、变速等,这些传统算法过于简单,并不能帮助音乐节拍跟踪模型有效提取特征,对模型性能提升作用不大。
发明内容
为了解决现有技术中的问题,本发明针对传统数据增强策略的缺陷和不足,转变数据增强的方向,提高整个节拍跟踪系统的性能。提供用一种用于音乐节拍跟踪的神经网络数据增强算法,该算法采用数据增强策略,结合预训练的前端神经网络,实现了一种适用于音乐节拍跟踪系统的前端数据增强算法。
实现本发明目的的技术方案为:
一种用于音乐节拍跟踪的神经网络数据增强模块,包括预处理模块和神经网络音乐源分离模块。
一种用于音乐节拍跟踪的神经网络数据增强算法,包括如下步骤:
1)预处理:音乐信号先经过预处理,被转换为适合网络输入的形式;
2)音频源分离:通过训练好的源分离神经网络,分为至少一条音轨;
3)筛选音轨:采取数据筛选策略筛选音轨。
步骤2)中包括音频源分离模型预测和音频源分离模型训练。
步骤1)预处理:对每段数据进行预加重处理,采用的公式为:
y(n)=x(n)-αx(n-1)
其中x为裁剪后的原始音频信号,n和n-1代表信号的相邻两帧,α为高通滤波器系数,这里取0.97,y(n)为预加重后的音频时域信号。
然后对数据进行短时傅里叶变换。
具体操作为:首先进行分帧,将信号分为几十毫秒的小段,算法中采用46ms的帧长和23ms的帧移,相邻两帧重叠率为50%,以保证信号的连续性和可恢复性。然后通过加窗来抑制频谱泄露,采用汉宁窗,窗函数如下:
其中N为窗口长度,这里与帧长对应,可由采样率计算得到;w(m)为第m点处的窗函数值。将窗函数与每帧信号相乘称为加窗,得到加窗后的信号。
然后对每一段音频进行快速傅里叶变换,得到频域特征,并沿时间维度拼接,得到声谱图。最后将声谱图通过梅尔标度滤波器组,将其变为梅尔频谱,得到线性的感知关系。其映射关系如下:
mel(f)=2595log10(1+f/700),
其中f为原始频率,经过变换得到mel(f)为梅尔频率。
步骤1)的预处理,针对不同类型的数据和不同的任务需求采用不同的与预处理方式,其他处理方式包括预滤波——滤去不需要的频率段,保留有效频率;端点检测——检测音频和噪声或无效片段的分界点,筛选有效片段等,预处理方式不限于上述方式。
2)音频源分离
源分离模块采用预训练的分离模型,其预测流程如图2所示。
输入的数据为预处理后的音频梅尔频谱,输出分离后的音轨梅尔频谱。首先根据频谱计算幅度谱,输入到训练好的Unet中,每个Unet的作用是提取出原音频中某一特征,本算法需要分离出5维特征,所以需要5个Unet,分别得到人声、鼓声、贝斯声、钢琴声、其他声音5条音轨。Unet的输出也为幅度谱,将各音轨的幅度谱平方得到其能量,并计算每个时刻各音轨在每个频带上的占比,公式如下:
其中AMPi为第i维特征的幅度谱,MASKi为第i维特征的能量在所有特征能量中的占比。
将输入原音乐的频谱与音轨能量占比相乘得到各音轨频谱,最后使用逆短时傅里叶变换(invertible STFT)即可得到分离出的各音轨音乐,公式如下:
meli(f)=MASKi*mel(f)
其中meli(f)为第i维特征的梅尔频谱。
其中Yt(n)为第t帧频谱的傅里叶逆变换,Xt(f)为第t帧的频谱,H为帧移,M为帧长,j为虚数单位,
X1(n)为逆短时傅里叶变换得到的复原时域信号,ω为使用的窗函数,a为还原参数,这里取a=1,使其等价于Griffin-Lim最优估计。
每个Unet均使用三层双向长短时记忆神经网络(BLSTM,Bidirectional LongShort-Term Memory),每层具有250个正向LSTM单元和250个反向LSTM单元。其训练流程如图3所示。
训练数据为原始音乐及其各音轨,同一数据的多个音轨时间轴需要严格对齐,模型输入为原始音乐的幅度谱,通过Unet后计算与各条音轨幅度谱的L1距离,损失函数(Loss)为5个L1距离的平均值。
3)筛选音轨
为了应对包含多种音乐风格的数据集,防止模型可能会分离出无效的音轨数据对后续的训练效果产生负面影响,需要采取一定的数据筛选策略。本算法的策略是计算音轨在时域内幅度绝对值的平均值(幅度经过归一化),若其小于0.01,则视为无效数据,舍去这条音轨。
最后对算法进行测试,以源分离后经过筛选的音轨数据作为训练数据,训练两种音乐节拍跟踪模型,分别基于双向长短时记忆网络和时间卷积网络(TemporalConvolutional Network,TCN),训练时均使用8-fold验证,使用的数据集为公开数据集Hainsworth、SMC、Ballroom、Harmonix。此外,使用完全不参与训练的GTZAN数据集用作测试。
本发明的有益效果为:
1、本发明的算法所需的神经网络模型可预训练,运算量不大。
2、本发明的算法能帮助节拍跟踪模型进行特征提取,有效提高音乐节拍跟踪系统的整体性能。
3、本发明的算法可以增大训练数据规模,并且改善不良训练数据的质量。
附图说明
图1是用于音乐节拍跟踪的神经网络数据增强模块结构示意图;
图2是音频源分离模型预测流程图;
图3是音频源分离模型训练流程图。
具体实施方式
图1-图3用以解释本发明,但本发明不限于图1-图3所示的范围内。
如图1所示,一种用于音乐节拍跟踪的神经网络数据增强模块,包括预处理模块和神经网络音乐源分离模块。
一种用于音乐节拍跟踪的神经网络数据增强算法,包括如下步骤:
1)预处理:音乐信号先经过预处理,被转换为适合网络输入的形式;
2)音频源分离:通过训练好的源分离神经网络,分为至少一条音轨;
3)筛选音轨:采取一定的数据筛选策略筛选音轨。
1)预处理
为了方便后续的数据处理,首先将输入的音乐信号统一重采样为44.1kHz,然后去除音频的前5s,这是因为音乐数据的特殊性,大部分音乐在5s之后才会开始有声音数据。余下的有效数据裁剪为10s长度的片段,舍去尾部多余不足10s的片段。对每段数据进行预加重处理,目的是补偿高频分量,采用的公式为:
y(n)=x(n)-αx(n-1)
其中x为裁剪后的原始音频信号,n和n-1代表信号的相邻两帧,α为高通滤波器系数,这里取0.97,y(n)为预加重后的音频时域信号。
然后对数据进行短时傅里叶变换(STFT,short-time Fourier transform)。具体操作为首先进行分帧,将信号分为几十毫秒的小段,算法中采用46ms的帧长和23ms的帧移,相邻两帧重叠率为50%,以保证信号的连续性和可恢复性。然后通过加窗来抑制频谱泄露,通常采用汉宁窗,窗函数如下:
其中N为窗口长度,这里与帧长对应,可由采样率计算得到;w(m)为第m点处的窗函数值。将窗函数与每帧信号相乘称为加窗,得到加窗后的信号。
然后对每一段音频进行快速傅里叶变换(Fast Fourier Transform,FFT),得到频域特征,并沿时间维度拼接,得到声谱图。最后将声谱图通过梅尔标度滤波器组(Mel-scaleFilter Banks),将其变为梅尔频谱,得到线性的感知关系。其映射关系如下:
mel(f)=2595log10(1+f/700),
其中f为原始频率,经过变换得到mel(f)为梅尔频率。
步骤1)的预处理,针对不同类型的数据和不同的任务需求采用不同的与预处理方式,其他处理方式包括预滤波——滤去不需要的频率段,保留有效频率;端点检测——检测音频和噪声或无效片段的分界点,筛选有效片段等,预处理方式不限于上述方式。
2)音频源分离
源分离模块采用预训练的分离模型,其预测流程如图2所示。
输入的数据为预处理后的音频梅尔频谱,输出分离后的音轨梅尔频谱。首先根据频谱计算幅度谱,输入到训练好的Unet中,每个Unet的作用是提取出原音频中某一特征,本算法需要分离出5维特征,所以需要5个Unet,分别得到人声、鼓声、贝斯声、钢琴声、其他声音5条音轨。Unet的输出也为幅度谱,将各音轨的幅度谱平方得到其能量,并计算每个时刻各音轨在每个频带上的占比,公式如下:
其中AMPi为第i维特征的幅度谱,MASKi为第i维特征的能量在所有特征能量中的占比。
将输入原音乐的频谱与音轨能量占比相乘得到各音轨频谱,最后使用逆短时傅里叶变换(invertible STFT)即可得到分离出的各音轨音乐,公式如下:
meli(f)=MASKi*mel(f)
其中meli(f)为第i维特征的梅尔频谱。
其中Yt(n)为第t帧频谱的傅里叶逆变换,Xt(f)为第t帧的频谱,H为帧移,M为帧长,j为虚数单位,
X1(n)为逆短时傅里叶变换得到的复原时域信号,ω为使用的窗函数,a为还原参数,这里取a=1,使其等价于Griffin-Lim最优估计。
每个Unet均使用三层双向长短时记忆神经网络(BLSTM,Bidirectional LongShort-Term Memory),每层具有250个正向LSTM单元和250个反向LSTM单元。其训练流程如图3所示。
由图3可见,训练数据为原始音乐及其各音轨,同一数据的多个音轨时间轴需要严格对齐,模型输入为原始音乐的幅度谱,通过Unet后计算与某条音轨幅度谱的L1距离,损失函数(Loss)为5个L1距离的平均值。
3)筛选音轨
为了应对包含多种音乐风格的数据集,防止模型可能会分离出无效的音轨数据对后续的训练效果产生负面影响,需要采取一定的数据筛选策略。本算法的策略是计算音轨在时域内幅度绝对值的平均值(幅度经过归一化),若其小于0.01,则视为无效数据,舍去这条音轨。
最后对算法进行测试,以源分离后经过筛选的音轨数据作为训练数据,训练两种音乐节拍跟踪模型,分别基于双向长短时记忆网络和时间卷积网络(TemporalConvolutional Network,TCN),训练时均使用8-fold验证,使用的数据集为公开数据集Hainsworth、SMC、Ballroom、Harmonix。此外,使用完全不参与训练的GTZAN数据集用作测试。结果如表1所示,其中SMC数据集没有强拍注释,所以没有强拍跟踪得分。
表1 模型测试结果对比表
数据集 | 模型 | F-measure | Downbeat F-measure |
Hainsworth | BLSTMBLSTM AugTCNTCN Aug | 0.7580.7930.8810.887 | 0.5430.6110.6640.706 |
SMC | BLSTMBLSTM AugTCNTCN Aug | 0.5160.5500.5690.589 | |
Ballroom | BLSTMBLSTM AugTCNTCN Aug | 0.9310.9520.9550.962 | 0.7620.8340.8820.934 |
Harmonix | BLSTMBLSTM AugTCNTCN Aug | 0.9120.9390.9330.955 | 0.7340.8120.8040.900 |
GTZAN | BLSTMBLSTM AugTCNTCN Aug | 0.8530.8810.8620.874 | 0.6080.7400.5680.681 |
可以看出,加入本发明的数据增强算法后,两种模型的表现均有明显提高。在8-fold验证数据集上,节拍跟踪得分平均提高2.96%,强拍跟踪得分平均提高9.46%。在仅做测试的数据集上,节拍跟踪得分平均提高2.33%,强拍跟踪得分平均提高20.8%。可知该算法能有效帮助节拍跟踪系统提取音乐特征,从而提升整个系统的性能。
上述实施例仅为本发明具体实施例,但并不局限于实施例,凡在不脱离本发明构思的情况下,依本申请所做的等效修饰和现有技术添加均视为本发明技术范畴。
Claims (4)
1.一种用于音乐节拍跟踪的神经网络数据增强算法,其特征在于:包括如下步骤:
1)预处理:音乐信号先经过预处理,被转换为适合网络输入的形式;
2)音频源分离:通过训练好的源分离神经网络,分为至少一条音轨;
3)筛选音轨:采取数据筛选策略筛选音轨,
步骤1)预处理:对每段数据进行预加重处理,采用的公式为:
y(n)=x(n)-αx(n-1)
其中x为裁剪后的原始音频信号,n和n-1代表信号的相邻两帧,α为高通滤波器系数,y(n)为预加重后的音频时域信号;
然后对数据进行短时傅里叶变换,
具体操作为:首先进行分帧,将信号分为几十毫秒的小段,算法中采用46ms的帧长和23ms的帧移,相邻两帧重叠率为50%,以保证信号的连续性和可恢复性;然后通过加窗来抑制频谱泄露,采用汉宁窗,窗函数如下:
其中N为窗口长度;w(m)为第m点处的窗函数值,将窗函数与每帧信号相乘称为加窗,得到加窗后的信号;
然后对每一段音频进行快速傅里叶变换,得到频域特征,并沿时间维度拼接,得到声谱图;最后将声谱图通过梅尔标度滤波器组,将其变为梅尔频谱,得到线性的感知关系,其映射关系如下:
mel(f)=2595log10(1+f/700),
其中f为原始频率,mel(f)为梅尔频率,
步骤2)中包括音频源分离模型预测和音频源分离模型训练,
音频源分离模型预测包括如下步骤:
(1)根据频谱计算幅度谱,输入到训练好的Unet中,每个Unet的作用是提取出原音频中某一种或几种特征,Unet的输出也为幅度谱,将各音轨的幅度谱平方得到其能量,并计算每个时刻各音轨在每个频带上的占比,公式如下:
其中AMPi为第i维特征的幅度谱,MASKi为第i维特征的能量在所有特征能量中的占比,
(2)将输入原音乐的频谱与音轨能量占比相乘得到各音轨频谱,最后使用逆短时傅里叶变换即可得到分离出的各音轨音乐,公式如下:
meli(f)=MASKi*mel(f)
其中meli(f)为第i维特征的梅尔频谱,
其中Yt(n)为第t帧频谱的傅里叶逆变换,Xt(f)为第t帧的频谱,H为帧移,M为帧长,j为虚数单位,
X1(n)为逆短时傅里叶变换得到的复原时域信号,ω为使用的窗函数,a为还原参数。
2.根据权利要求1所述的一种用于音乐节拍跟踪的神经网络数据增强算法,其特征在于:
音频源分离模型训练:
每个Unet均使用三层双向长短时记忆神经网络,每层具有250个正向LSTM单元和250个反向LSTM单元;
训练数据为原始音乐及其各音轨,同一数据的多个音轨时间轴需要严格对齐,模型输入为原始音乐的幅度谱,通过Unet后计算与各条音轨幅度谱的L1距离,损失函数为5个L1距离的平均值。
3.根据权利要求2所述的一种用于音乐节拍跟踪的神经网络数据增强算法,其特征在于:
步骤3)筛选音轨:
数据筛选策略是计算音轨在时域内幅度绝对值的平均值,若其小于0.01,则视为无效数据,舍去这条音轨;
对算法进行测试,以源分离后经过筛选的音轨数据作为训练数据,训练两种音乐节拍跟踪模型,分别基于双向长短时记忆网络和时间卷积网络,训练时均使用8-fold验证。
4.应用权利要求1所述的一种用于音乐节拍跟踪的神经网络数据增强算法的模块,其特征在于:包括预处理模块和神经网络音乐源分离模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310384662.2A CN116129837B (zh) | 2023-04-12 | 2023-04-12 | 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310384662.2A CN116129837B (zh) | 2023-04-12 | 2023-04-12 | 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116129837A CN116129837A (zh) | 2023-05-16 |
CN116129837B true CN116129837B (zh) | 2023-06-20 |
Family
ID=86295939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310384662.2A Active CN116129837B (zh) | 2023-04-12 | 2023-04-12 | 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129837B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120237041A1 (en) * | 2009-07-24 | 2012-09-20 | Johannes Kepler Universität Linz | Method And An Apparatus For Deriving Information From An Audio Track And Determining Similarity Between Audio Tracks |
JP5582915B2 (ja) * | 2009-08-14 | 2014-09-03 | 本田技研工業株式会社 | 楽譜位置推定装置、楽譜位置推定方法および楽譜位置推定ロボット |
CN109616090B (zh) * | 2018-12-24 | 2020-12-18 | 北京达佳互联信息技术有限公司 | 多音轨序列生成方法、装置、设备及存储介质 |
CN111488486B (zh) * | 2020-04-20 | 2021-08-17 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN114882905A (zh) * | 2022-04-11 | 2022-08-09 | 昆明理工大学 | 一种基于神经网络的音乐节拍速度检测方法 |
-
2023
- 2023-04-12 CN CN202310384662.2A patent/CN116129837B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116129837A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
Lv et al. | Dccrn+: Channel-wise subband dccrn with snr estimation for speech enhancement | |
Luo et al. | Music source separation with band-split RNN | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Han et al. | Deep neural network based spectral feature mapping for robust speech recognition. | |
Yegnanarayana et al. | Processing of reverberant speech for time-delay estimation | |
CN102792373B (zh) | 噪音抑制装置 | |
CN103440872B (zh) | 瞬态噪声的去噪方法 | |
CN101872616A (zh) | 端点检测方法以及使用该方法的系统 | |
CN104183245A (zh) | 一种演唱者音色相似的歌星推荐方法与装置 | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
Sainath et al. | Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction. | |
Zhang et al. | Complex ratio masking for singing voice separation | |
Shifas et al. | A non-causal FFTNet architecture for speech enhancement | |
CN113593588B (zh) | 一种基于生成对抗网络的多唱歌人歌声合成方法和系统 | |
Shoba et al. | Adaptive energy threshold for monaural speech separation | |
CN116129837B (zh) | 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 | |
Le et al. | Personalized speech enhancement combining band-split rnn and speaker attentive module | |
Ouzounov | A robust feature for speech detection | |
Zhao et al. | Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding. | |
Strauss et al. | Improved normalizing flow-based speech enhancement using an all-pole gammatone filterbank for conditional input representation | |
Kamble et al. | Teager energy subband filtered features for near and far-field automatic speech recognition | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
Li et al. | PSD and signal approximation-LSTM based speech enhancement | |
Jannu et al. | Convolutional Transformer based Local and Global Feature Learning for Speech Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |