CN112199548A - 一种基于卷积循环神经网络的音乐音频分类方法 - Google Patents

一种基于卷积循环神经网络的音乐音频分类方法 Download PDF

Info

Publication number
CN112199548A
CN112199548A CN202011038361.7A CN202011038361A CN112199548A CN 112199548 A CN112199548 A CN 112199548A CN 202011038361 A CN202011038361 A CN 202011038361A CN 112199548 A CN112199548 A CN 112199548A
Authority
CN
China
Prior art keywords
music
convolution
audio
sequence
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011038361.7A
Other languages
English (en)
Other versions
CN112199548B (zh
Inventor
王振宇
高雨轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011038361.7A priority Critical patent/CN112199548B/zh
Publication of CN112199548A publication Critical patent/CN112199548A/zh
Application granted granted Critical
Publication of CN112199548B publication Critical patent/CN112199548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于卷积循环神经网络的音乐音频分类方法,所述方法包括以下步骤:S1、对音乐的音频进行标注得到音乐标注数据集;S2、对数据集采用音乐数据增强方法对训练数据进行增强;S3、将数据集中音乐的音频信号进行分帧与加窗,通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱;S4、构建基于卷积循环神经网络的音乐音频分类模型;S5、将训练数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练;S6、输入音乐对应的梅尔声谱,对音乐的标签进行预测。本发明所述的方法能提高网络对声谱特征的提取能力,得到更好的音乐整体特征表示,从而提高音乐音频分类的准确性。

Description

一种基于卷积循环神经网络的音乐音频分类方法
技术领域
本发明涉及音乐分类领域,更具体地,涉及一种基于卷积循环神经网络的音乐音频分类方法。
背景技术
随着多媒体与数字技术的迅猛发展,网上的数字音乐资源越来越多,消费者的音乐消费习惯从实体音乐转向了在线音乐平台。海量的音乐资源和巨大的在线曲库,激发着用户产生各种各样复杂的音乐检索的需求,如用户在某一时刻渴望收听某种流派或具有某种情感的歌曲,此时音乐标签就对音乐检索的质量至关重要。除了音乐检索以外,许多推荐、订阅场景也需要歌曲的类别信息,为用户提供更精准的内容。
目前对音乐类别的标注主要还是通过人工和社会化标注。人工标注对标注者的音乐知识与音乐素养有一定的要求,音乐媒体平台通常聘用音乐专家进行标签标注,虽然能保证音乐标签具有很高的准确性,但是成本也会很高。社会化标注通常指通过开放的方式,允许非专业的普通用户对标签进行标注,通过对标注数据的统计生成最终的音乐标签,但是这些标签存在很多类别标记错误的情况。传统音乐分类方法使用的是手工提取的特征,这些特征往往需要专业软件进行提取,往往不具有普适性,而且传统机器学习算法又难以应对现今海量的音乐数据。基于深度学习方法通过网络自动学习音频特征表示,其中常用卷积神经网络进行声谱特征提取。
现如今,学者们只是将神经网络当作分类器来使用,网络的输入还是一些手工音频特征。如Weninger等人(Weninger F,Eyben F,Schuller B.On-line continuous-timemusic mood regression with deep recurrent neural networks[C]//2014 IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014:5412- 5416.)从声谱上以一秒为间隔提取底层特征,以这些底层特征为基础计算回归系数、百分位数等统计特征作为循环神经网络的输入,实验表明基于循环神经网络的模型优于支持向量机与多层感知机;Sigtia等人(Sigtia S,Dixon S.Improved musicfeature learning with deep neural networks[C]//2014 IEEE internationalconference on acoustics,speech and signal processing(ICASSP).IEEE,2014:6959-6963.)首先对频谱进行一些预处理抽取统计特征,然后输入神经网络进行音乐分类,同时测试了不同激活函数与优化算法对分类性能的影响;Arjun等人提出了一种采用流形学习技术的两层神经网络用于音乐流派分类,得出当数据以丰富的特征空间作为表示时,神经网络的分类效果可与经典机器学习模型相当的结论。这些方法仍然依赖于手工选取特征,无法发挥深度神经网络的强大学习能力。
在分类方法的选择上,大多数学者将循环神经网络和卷积神经网络相结合进行实验。例如,Choi(Choi K,Fazekas G,Sandler M,et al.Convolutional recurrent neuralnetworks for music classification[C].international conference on acoustics,speech,and signal processing,2017:2392-2396.)等人首先提出将卷积神经网络和循环神经网络结合进行音乐分类,在实验中对比了不同循环神经网络的结构对音乐分类性能的影响; Wang等人在卷积循环神经网络上进行了改进,首先使用卷积神经网络抽取声谱的深层抽象特征,然后对产生的特征图进行多方向地扫描生成多个特征序列,将这些特征序列输入到多个 LSTM网络中进行音乐标注。Dong等人提出了一种双向卷积递归稀疏网络用于音乐情感分类,该网络能够自适应地从声谱中学习到包含时序信息的情感显著性特征。上述方法存在的不足是没有对卷积结构进行有效设计,模型的卷积网络部分较为简单,局部特征提取能力较弱。
综上所述,目前方法存在的问题是:手工特征的设计需要音乐领域的背景知识,不同分类任务的特征往往并不通用。因为音乐本身具有版权的问题,标注音乐标签又需要一定的音乐背景知识,标注数据稀缺。目前的网络模型设计也存在不足,缺少针对音频特点的有效设计。
发明内容
本发明针对上述现有技术的不足,提供了一种基于卷积循环神经网络的音乐音频分类方法,能够有效提高音乐音频分类的准确性。
本发明至少通过如下技术方案之一实现。
一种基于卷积循环神经网络的音乐音频分类方法,所述方法包括以下步骤:
S1、对音乐的音频进行标注以得到带有音乐标签的音乐标注数据集,将音乐标注数据集分为划分为训练集、验证集和测试集;
S2、采用包括音频叠加、音频调速、音强调节、音调调节的音乐数据增强方法对训练集的数据进行增强;
S3、将音乐标注数据集中音乐的音频信号进行分帧与加窗,通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱;
S4、构建基于卷积循环神经网络的音乐音频分类模型,包括基于结合通道注意力机制的一维残差门控卷积神经网络的音乐表示学习、基于双向LSTM网络的音乐序列建模与基于注意力机制的序列特征聚合;
S5、将经过步骤3处理的训练集的数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练;
S6、输入音乐对应的梅尔声谱至训练获得的基于卷积循环神经网络的音乐音频分类模型,对音乐的标签进行预测。
优选的,步骤S2所述的音乐数据增强方法是对音乐的原始音频信号进行增强,其中音频叠加是所需音频为同类别下的两首不同音乐的音频,设一首音乐的原始信号为S1,同类别下的另一首音乐的原始信号为S2,经过音频叠加后的增强音频Sa由下式得到:
Sa=αS1+(1-α)S2
上式为音频叠加的计算过程,两段音乐以α的比例进行混合,其中α的值在α∈(0,1)的均匀分布中随机选取;
所述的音频调速是对原始音乐的速度进行加速或变慢至原来的α倍,α的值在α∈(0.9,1.)1的均匀分布中随机选取,对多出或缩短的时长进行剪切或填补;
所述的音强调节是指对原始音乐的响度做改变,将原始音频的响度增加或减少|α|dB,其中α的值在α∈[-10,10]的非零整数区间内随机选取;
所述的音调调节是指对音频增加或降低|α|个半音(semitone),其中α的值在α∈[-1,1]的非零整数区间内随机选取。
优选的,步骤S3中所述的梅尔声谱在响度上进行对数据进行处理,将步骤S3的梅尔声谱的响度值通过使用非线性函数log(1+C|A|)对频谱图振幅进行压缩,其中A是音频振幅,C 是声谱图序列中最大数值的倒数,并在其后进行归一化,解决因为不同音乐音频的格式存在异构问题,所导致的深度学习模型在训练时收敛速度缓慢的问题。
优选的,步骤S4所述的基于卷积循环神经网络的音乐音频分类模型主要由音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层构成;
其中,音乐表示学习层包括若干个结合通道注意力机制的一维残差门控卷积块(RGLU- SE block),第一最大池化层和一维卷积层组成,其通过卷积神经网络对声谱中的光谱描述符 (spectro-temporal descriptors)进行学习,通过堆叠若干个结合通道注意力机制的一维残差门控卷积网络(RGLU-SE block)进行声谱局部特征的提取,配合池化操作进行特征降维,最后音乐表示学习层的一维卷积层输出的卷积特征图中包含音频信号中的高层抽象特征图;
音乐表示学习层中的结合通道注意力机制的一维残差门控卷积块(RGLU-SEblock)主要由两个残差门控卷积单元、SE结构与第二最大池化层组成,其中残差门控卷积单元一维卷积层(Conv1D)中的感受野覆盖整个声谱的频率范围,将其与残差连接相结合,网络信息的流向为下式:
Figure BDA0002705847290000041
σ=σ(Conv1D2(X))
上式的σ表示Sigmoid激活函数,信息的流向有以下两种方向:
(1)以1-σ的概率不经过任何变换直接通过,对应中的
Figure RE-GDA0002796643050000042
部分,其中X为声谱序列,
Figure RE-GDA0002796643050000043
表示按位相乘;
(2)以σ的概率经过网络变换通过,对于卷积神经网络来说就是会进行卷积操作,与式中的
Figure RE-GDA0002796643050000044
相对应,其中Conv1D1(X)、Conv1D2(X)表示两个相同的一维卷积,但 是权值不共享,σ(Conv1D2(X))表示对Conv1D1(X)进行sigmoid激活操作;
音乐序列建模与序列特征聚合层对卷积学习到的特征图进行进一步的学习,音乐序列建模与序列特征聚合层使用双向长短期记忆网络(LSTM)对卷积特征图进行序列建模,得到不同时刻的声谱序列特征;在该层中使用注意力机制对不同时刻的声谱序列特征进行聚合,音乐表示学习层的一维卷积层输出的卷积特征图经过音乐序列建模与序列特征聚合层将会得到音乐整体特征;
全连接层对音乐整体特征包含的信息进行进一步的整合和筛选,通过基于多层感知机 (MLP)的前馈神经网络(FNN)学习特征间的高阶交互关系,最终得到音乐音频的分类结果。
优选的,步骤S5所述的梅尔声谱不经过步骤S2,即输入网络的梅尔声谱是原始音频经过步骤S3所得。
优选的,步骤S5所述的迭代训练包括以下步骤:
步骤S51、利用步骤S1音频数据集通过结合通道注意力机制的一维残差门控卷积块 (RGLU-SE block)的堆叠学习得到声谱卷积特征图;
步骤S52、将声谱卷积特征图按照时间方向扫描生成时域特征序列;
步骤S53、时域特征序列经过双向长短期记忆网络(LSTM)学习得到音乐序列特征;
步骤S54、计算每个时刻音乐序列特征的注意力权重,注意力权重的计算为:
a=softmax(W2φ(W1XT))
其中W1为声谱序列的权重矩阵,W2是经过非线性变换后序列的权重矩阵,X为双向LSTM网络的输出序列,Softmax函数保证所有特征序列的注意力权重加起来等于1,φ表示Tanh激活函数,得到注意力权重向量a之后,序列特征的整体特征表示v如下:
Figure BDA0002705847290000051
步骤S55、用注意力权重对每个时刻的音乐序列特征进行加权求和,得到音乐整体特征表示;
步骤S56、将音乐整体特征表示输入全连接网络进一步学习,在输出层得到音乐音频分类结果。
优选的,步骤S51具体如下:
Figure BDA0002705847290000052
其中ai,j为音频数据集中特征图的宽与高,i与j分别表示声谱卷积特征图的宽与高,h 表示卷积层采用的激活函数,fw表示卷积核的宽,fh表示卷积核的高,b为卷积的偏置,wm,n和xi+m,j+n分别表示卷积核的权重矩阵与数据输入,其中m和n表示卷积核的高度和宽度;在基于声谱的一维卷积操作中,fh与声谱的频率范围l有如下关系:
l=fh
即一维卷积中卷积核的高度等于声谱中频率的范围,卷积核的感受野覆盖整个频率轴,以便于捕捉特定的频率模式,卷积运算表示为:
Figure BDA0002705847290000053
其中X表示第二一维卷积层的输入声谱序列,W为卷积层的权值矩阵,设卷积核的输出为R,偏置矩阵为B,声谱中频率最大值为L,那么卷积运算表示成:
R=conv(X,W)+B
R的宽度Rw由下式得到:
Figure BDA0002705847290000054
t表示声谱时间轴上的长度,即声谱的宽度,p表示填充的大小,fw表示卷积核的宽,s 表示卷积的步长,由于一维卷积只在声谱的时间维度上进行平移,所以输出的特征图R的高度Rh为:
Rh=1
即Rh与声谱的频率范围l和卷积核的高fh无关,声谱经过一维卷积之后维度变为1。
优选的,步骤S6所述的对音乐的标签进行预测具体包括:通过音乐表示学习层提取出声谱的局部卷积特征图、通过基于双向LSTM网络对卷积特征图进行音乐序列建模、通过RGLU- SE block进行聚合、通过全连接网络进行信息整合、通过输出神经元得到音频类别的预测值。
本发明与现有技术相比,具有的优点和有益效果是:
1.本发明将音乐的音频信号转换成声谱作为统一表示,避免了手工选取特征存在的问题。音乐的标注工作难度较大,有限的标注数据不利于深度学习模型的训练,对此本发明结合音乐信号的特点采用了多种音乐数据增强方法对音乐数据进行增强。
2.本发明根据声谱的特点,提出了结合通道注意力机制的一维残差门控卷积结构。残差结构与门控机制的结合,不仅能缓解网络的退化问题,还能进一步提高门控单元对信息流的选择能力,基于通道的注意力机制使得模型可以学习到不同通道声谱特征的重要程度,本发明将该结构用于音乐表示学习。
3.本发明将提出的结合通道注意力机制的一维残差门控卷积结构与双向LSTM网络和注意力机制结合,其中卷积结构用于提取声谱深层次的局部特征,双向LSTM网络进行时域信息的总结,使得模型能够学习到音乐中的时序信息,同时使用注意力机制为不同时刻循环神经网络的输出分配不同的注意力权重,从而得到更好的音乐整体特征表示,提高音乐音频分类的性能。
附图说明
图1为本发明实施例的整体流程图;
图2为本发明实施例的基于卷积循环神经网络的音乐音频分类模型的整体架构图;
图3为本发明实施例的基于RGLU-SE block的音乐表示学习层的架构图;
图4为本发明实施例的基于通道注意力机制的一维SE结构图;
图5为本发明实施例的通过卷积特征图构造时域特征序列的过程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案做进一步的说明,但本发明的实施方式不限于此。
如图1所示,本实施例提供了一种基于卷积循环神经网络的音乐音频分类方法,包括以下步骤:
S1、对音乐的音频进行标注以得到带有音乐标签的音乐标注数据集。此处标注的数据集大小为1000;使用的音乐标注数据集有两种,分别是GTZAN数据集和MagnaTagATune数据集;将GTZAN数据集按照8:1:1比例分别划分为训练集、验证集和测试集,而MagnaTagTune 数据集包含从0~f的16个子目录,将0~b目录中的数据用作训练集,c目录中的数据集作为验证集,最后剩下的d~f目录中的数据作为测试集。
S2、对音乐标注数据集采用音频叠加、音频调速、音强调节、音调调节的音乐数据增强方法对训练数据进行增强。本实施例设置音频叠加的音乐样本占步骤S1中的总训练样本的 50%;
S3、将音乐标注数据集中音乐的音频信号进行分帧与加窗,通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱。本实施例设置采样率为16kHz,转梅尔声谱时采用的傅立叶变换窗口长度为512,窗口跳跃大小为256,频率分箱数为128;
S4、构建基于卷积循环神经网络的音乐音频分类模型,包括基于结合通道注意力机制的一维残差门控卷积神经网络的音乐表示学习、基于双向LSTM网络的音乐序列建模与基于注意力机制的序列特征聚合。
S5、将训练数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练。
S6、输入音乐对应的梅尔声谱,利用训练获得的基于卷积循环神经网络的音乐音频分类模型对音乐的标签进行预测。
其中,步骤S2所述的音频叠加是所需音频为同类别下的两首不同音乐的音频,设一首音乐的原始信号为S1,同类别下的另一首音乐的原始信号为S2,经过音频叠加后的增强音频Sa可由下式得到:
Sa=αS1+(1-α)S2
上式展示了音频叠加的计算过程,两段音乐以α的比例进行混合,其中α的值在α∈(0,1) 的均匀分布中随机选取。
其中,步骤S2所述的音频调速是对原始音乐的速度进行轻微地加速或变慢至原来的α倍,α的值在α∈(0.9,1.1)的均匀分布中随机选取,对多出或缩短的时长进行剪切或填补。
其中,步骤S2所述的音强调节是指对原始音乐的响度做轻微的改变,将原始音频的响度增加或减少|α|dB,其中α的值在α∈[-10,10]的非零整数区间内随机选取。
其中,步骤S2所述的音调调节是指对音频增加或降低|α|个半音(semitone),其中α的值在α∈[-1,1]的非零整数区间内随机选取。
其中,步骤S3中所述的梅尔声谱在响度上进行了对数处理,将梅尔声谱的响度值通过使用非线性函数log(1+C|A|)对频谱图振幅进行压缩,其中A是音频振幅,C是声谱图序列中最大数值的倒数,并在其后进行归一化,解决因为不同音乐音频的格式存在异构问题,所导致的深度学习模型在训练时收敛速度缓慢的问题。此处归一化的区间为[0,1],振幅压缩的具体公式如下,其中S表示梅尔声谱计算结果,topDb为最大分贝:
P=max(20log10(S))-topDb
其中,步骤S4所述的基于卷积循环神经网络的音乐音频分类模型其整体架构如图2所示,主要由音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层三个主要层次构成。
音乐表示学习层通过卷积神经网络对声谱中的光谱描述符(spectro-temporaldescriptors)进行学习,输出包含声谱中高层抽象信息的特征图(Feature map)。该层通过堆叠多个结合通道注意力机制的一维残差门控卷积网络(RGLU-SE block)进行声谱局部特征的提取,配合池化操作进行特征降维,最后卷积网络层输出的特征图中包含了音频信号中的高层抽象特征。表 1为音乐表示学习层的具体参数配置。
结合通道注意力机制的一维残差门控卷积(RGLU-SE)结构如图3所示,主要由两个残差门控卷积单元、一个压缩-激发网络(SE)与一个最大池化层(MaxPooling)组成。其中一维卷积(Conv1D)的感受野覆盖整个声谱的频率范围,将其与残差连接相结合,网络信息的流向为下式:
Figure BDA0002705847290000081
σ=σ(Conv1D2(X))
上式的σ表示Sigmoid激活函数,信息的流向有以下两种方向:(1)以1-σ的概率不经过 任何变换直接通过,对应中的
Figure RE-GDA0002796643050000082
部分,其中X为声谱序列,
Figure RE-GDA0002796643050000083
表示按位相乘;(2) 以σ的概率经过网络变换通过,对于卷积神经网络来说就是会进行卷积操作,与式中的
Figure RE-GDA0002796643050000084
相对应。其中Conv1D1(X)、Conv1D2(X)表示两个相同的一维卷积,但是权 值不共享,σ(Conv1D2(X))表示对Conv1D1(X)进行sigmoid激活操作
图3中的批量归一化(BN)层表示能够起到加速训练、降低网络过拟合风险等作用;压缩-激发网络(SE)对其进行一维化处理,其结构如图4所示,最大池化层(MaxPooling)用于减特征图的大小。
图4展示了一维SE结构图,主要由压缩(Squeeze)和激发(Excitation)两个模块组成。压缩模块对应于图中的全局平均池化(Global pooling),将时间维度的大小压缩为1,每个通道被转换为一个实数,通过池化操作计算每个通道对应的统计信息,完成时域特征的总结。激发模块的主要作用是抓取通道之间的关系,实现了门控机制的效果,图中C是特征数量,r是缩放比例。两个全连接层(FC)对压缩操作得到的每个通道的统计信息进行学习,在两个全连接层中加入修正线性单元(ReLu),显式地建模特征通道间的相关性,能够捕捉不同通道之间潜在的非线性关系。SE结构的最后是一个重新加权的操作,将激发模块输出的权重当作对应特征通道的重要程度,通过Sigmoid的输出值与原本的输入对应通道(Scale)相乘,实现特征的加权,最终实现基于通道的注意力机制。
表1音乐表示学习层的具体参数配置为:
Figure BDA0002705847290000091
其中F表示卷积核的个数,K表示卷积核的大小,S表示卷积步长。
音乐序列建模与序列特征聚合层对卷积学习到的特征图进行进一步学习,在该层中使用双向长短期记忆网络(LSTM)对卷积输出的特征图进行序列建模,得到不同时刻的声谱序列特征;在该层中使用注意力机制对不同时刻的声谱序列特征进行聚合,卷积特征图经过该层将会得到音乐的整体特征表示。
全连接层对音乐整体特征包含的信息进行进一步的整合和筛选,通过基于多层感知机 (MLP)的前馈神经网络(FNN)学习特征间的高阶交互关系,最终得到音乐音频的分类结果。
对于本实施例,将音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层结合后的网络具体参数如表2,其中F表示卷积核的个数,K表示卷积核的大小,S表示卷积步长, U表示隐藏层神经元的个数:
表2各层具体参数
Figure BDA0002705847290000101
其中,步骤S5中所述的迭代训练包括以下步骤:
步骤S51、利用步骤S1的两个训练集均通过结合通道注意力机制的一维残差门控卷积块 (RGLU-SE block)的堆叠学习得到声谱卷积特征图。此处本实施例得到的卷积特征图大小为 (22,256)。
步骤S52、将声谱卷积特征图按照时间方向扫描生成时域特征序列,如图4和图5所示。此处本实施例得到的时域特征序列长度为22,每个时刻的特征长度为256。
步骤S53、时域特征序列经过双向长短期记忆网络(LSTM)学习得到音乐序列特征;
步骤S54、计算每个时刻音乐序列特征的注意力权重,注意力权重的计算公式为:
a=softmax(W2φ(W1XT))
其中W1为声谱序列的权重矩阵,W2是经过非线性变换后序列的权重矩阵,X为双向LSTM网络的输出序列,归一化指函数(Softmax)保证所有特征序列的注意力权重加起来等于1,φ表示Tanh激活函数,t表示声谱时间轴上的长度,即声谱的宽度,得到注意力权重向量a之后,序列特征的整体特征表示v的计算方式如下:
Figure BDA0002705847290000111
步骤S55、用计算出的注意力权重对每个时刻的音乐序列特征进行加权求和,得到音乐整体特征表示。此处本实施例得到的音乐整体特征表示长度为256。
步骤S56、将音乐整体特征表示输入全连接网络进一步学习,在输出层得到音乐音频分类结果。此处本实施例采用的优化算法为自适应矩估计(Adam),训练时的批大小为16,采用提前停止(Early Stopping)的停止轮次为5。
其中,步骤S6所述的利用训练获得的基于卷积循环神经网络的音乐音频分类模型对音乐的标签进行预测具体包括:通过音乐表示学习层提取出声谱的局部卷积特征图、通过基于长短期记忆网络(LSTM)对卷积特征图进行音乐序列建模、通过注意力机制序列特征进行聚合、通过全连接网络进行信息聚合、通过输出神经元得到音频类别的预测值。
本实施例采用keras 2.2.4开源平台,其中Tensorflow的版本为1.10.0,编程语言Python3.6, GPU加速组件是CUDA 9.0、cuDNN 7.0.5构建和训练模型,本实施例在运行时显卡需有6G 以上可分配的显存。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于卷积循环神经网络的音乐音频分类方法,其特征在于,所述方法包括以下步骤:
S1、对音乐的音频进行标注以得到带有音乐标签的音乐标注数据集,将音乐标注数据集分为划分为训练集、验证集和测试集;
S2、采用包括音频叠加、音频调速、音强调节、音调调节的音乐数据增强方法对训练集的数据进行增强;
S3、将音乐标注数据集中音乐的音频信号进行分帧与加窗,通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱;
S4、构建基于卷积循环神经网络的音乐音频分类模型,包括基于结合通道注意力机制的一维残差门控卷积神经网络的音乐表示学习、基于双向LSTM网络的音乐序列建模与基于注意力机制的序列特征聚合;
S5、将经过步骤3的训练集的数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练;
S6、输入音乐对应的梅尔声谱至训练获得的基于卷积循环神经网络的音乐音频分类模型,对音乐的标签进行预测。
2.根据权利要求1所述的一种基于卷积循环神经网络的音乐音频分类方法,其特征在于,步骤S2所述的音乐数据增强方法是对音乐的原始音频信号进行增强,其中音频叠加是所需音频为同类别下的两首不同音乐的音频,设一首音乐的原始信号为S1,同类别下的另一首音乐的原始信号为S2,经过音频叠加后的增强音频Sa由下式得到:
Sa=αS1+(1-α)S2
上式为音频叠加的计算过程,两段音乐以α的比例进行混合,其中α的值在α∈(0,1)的均匀分布中随机选取;所述的音频调速是对原始音乐的速度进行加速或变慢至原来的α倍,α的值在α∈(0.9,1.1)的均匀分布中随机选取,对多出或缩短的时长进行剪切或填补;
所述的音强调节是指对原始音乐的响度做改变,将原始音频的响度增加或减少|α|dB,其中α的值在α∈[-10,10]的非零整数区间内随机选取;
所述的音调调节是指对音频增加或降低|α|个半音(semitone),其中α的值在α∈[-1,1]的非零整数区间内随机选取。
3.根据权利要求2所述的一种基于卷积循环神经网络的音乐音频分类方法,其特征在于,步骤S3中所述的梅尔声谱在响度上进行对数据进行处理,将步骤S3的梅尔声谱的响度值通过使用非线性函数log(1+C|A|)对频谱图振幅进行压缩,其中A是音频振幅,C是声谱图序列中最大数值的倒数,并在其后进行归一化,解决因为不同音乐音频的格式存在异构问题,所导致的深度学习模型在训练时收敛速度缓慢的问题。
4.根据权利要求3所述的一种基于卷积循环神经网络的音乐音频分类方法,其特征在于,步骤S4所述的基于卷积循环神经网络的音乐音频分类模型主要由音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层构成;
其中,音乐表示学习层包括若干个结合通道注意力机制的一维残差门控卷积块(RGLU-SE block),第一最大池化层和一维卷积层组成,其通过卷积神经网络对声谱中的光谱描述符(spectro-temporal descriptors)进行学习,通过堆叠若干个结合通道注意力机制的一维残差门控卷积网络(RGLU-SE block)进行声谱局部特征的提取,配合池化操作进行特征降维,最后音乐表示学习层的一维卷积层输出的卷积特征图中包含音频信号中的高层抽象特征图;
音乐表示学习层中的结合通道注意力机制的一维残差门控卷积块(RGLU-SE block)主要由两个残差门控卷积单元、SE结构与第二最大池化层组成,其中残差门控卷积单元一维卷积层(Conv1D)中的感受野覆盖整个声谱的频率范围,将其与残差连接相结合,网络信息的流向为下式:
Figure RE-FDA0002796643040000021
σ=σ(Conv1D2(X))
上式的σ表示Sigmoid激活函数,信息的流向有以下两种方向:
(1)以1-σ的概率不经过任何变换直接通过,对应中的
Figure RE-FDA0002796643040000022
部分,其中X为声谱序列,
Figure RE-FDA0002796643040000023
表示按位相乘;
(2)以σ的概率经过网络变换通过,对于卷积神经网络来说就是会进行卷积操作,与式中的
Figure RE-FDA0002796643040000024
相对应,其中Conv1D1(X)、Conv1D2(X)表示两个相同的一维卷积,但是权值不共享,σ(Conv1D2(X))表示对Conv1D1(X)进行sigmoid激活操作;
音乐序列建模与序列特征聚合层对卷积学习到的特征图进行进一步的学习,音乐序列建模与序列特征聚合层使用双向长短期记忆网络(LSTM)对卷积特征图进行序列建模,得到不同时刻的声谱序列特征;在该层中使用注意力机制对不同时刻的声谱序列特征进行聚合,音乐表示学习层的一维卷积层输出的卷积特征图经过音乐序列建模与序列特征聚合层将会得到音乐整体特征;
全连接层对音乐整体特征包含的信息进行进一步的整合和筛选,通过基于多层感知机(MLP)的前馈神经网络(FNN)学习特征间的高阶交互关系,最终得到音乐音频的分类结果。
5.根据权利要求4所述的一种基于卷积循环神经网络的音乐音频分类方法,其特征在于,步骤S5所述的迭代训练包括以下步骤:
步骤S51、利用步骤S1音频数据集通过结合通道注意力机制的一维残差门控卷积块(RGLU-SE block)的堆叠学习得到声谱卷积特征图;
步骤S52、将声谱卷积特征图按照时间方向扫描生成时域特征序列;
步骤S53、时域特征序列经过双向长短期记忆网络(LSTM)学习得到音乐序列特征;
步骤S54、计算每个时刻音乐序列特征的注意力权重,注意力权重的计算为:
a=softmax(W2φ(W1XT))
其中W1为声谱序列的权重矩阵,W2是经过非线性变换后序列的权重矩阵,X为双向LSTM网络的输出序列,Softmax函数保证所有特征序列的注意力权重加起来等于1,φ表示Tanh激活函数,得到注意力权重向量a之后,序列特征的整体特征表示v如下:
Figure RE-FDA0002796643040000031
步骤S55、用注意力权重对每个时刻的音乐序列特征进行加权求和,得到音乐整体特征表示;
步骤S56、将音乐整体特征表示输入全连接网络进一步学习,在输出层得到音乐音频分类结果。
6.根据权利要求5所述的一种基于卷积循环神经网络的音乐音频分类方法,其特征在于,
步骤S51具体如下:
Figure RE-FDA0002796643040000032
其中ai,j为音频数据集中特征图的宽与高,i与j分别表示声谱卷积特征图的宽与高,h表示卷积层采用的激活函数,fw表示卷积核的宽,fh表示卷积核的高,b为卷积的偏置,wm,n和xi+m,j+n分别表示卷积核的权重矩阵与数据输入,其中m和n表示卷积核的高度和宽度;在基于声谱的一维卷积操作中,fh与声谱的频率范围l有如下关系:
l=fh
即一维卷积中卷积核的高度等于声谱中频率的范围,卷积核的感受野覆盖整个频率轴,以便于捕捉特定的频率模式,卷积运算表示为:
Figure RE-FDA0002796643040000033
其中X表示第二一维卷积层的输入序列,W为卷积层的权值矩阵,设卷积核的输出为R,偏置矩阵为B,声谱中频率最大值为L,那么卷积运算表示成:
R=conv(X,W)+B
R的宽度Rw由下式得到:
Figure RE-FDA0002796643040000041
t表示声谱时间轴上的长度,即声谱的宽度,p表示填充的大小,fw表示卷积核的宽,s表示卷积的步长,由于一维卷积只在声谱的时间维度上进行平移,所以输出的特征图R的高度Rh为:
Rh=1
即Rh与声谱的频率范围l和卷积核的高fh无关,声谱经过一维卷积之后维度变为1。
7.根据权利要求6所述的一种基于卷积循环神经网络的音乐音频分类方法,其特征在于,步骤S6所述的对音乐的标签进行预测具体包括:通过音乐表示学习层提取出声谱的局部卷积特征图、通过基于双向LSTM网络对卷积特征图进行音乐序列建模、通过RGLU-SEblock进行聚合、通过全连接网络进行信息整合、通过输出神经元得到音频类别的预测值。
CN202011038361.7A 2020-09-28 2020-09-28 一种基于卷积循环神经网络的音乐音频分类方法 Active CN112199548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011038361.7A CN112199548B (zh) 2020-09-28 2020-09-28 一种基于卷积循环神经网络的音乐音频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011038361.7A CN112199548B (zh) 2020-09-28 2020-09-28 一种基于卷积循环神经网络的音乐音频分类方法

Publications (2)

Publication Number Publication Date
CN112199548A true CN112199548A (zh) 2021-01-08
CN112199548B CN112199548B (zh) 2024-07-19

Family

ID=74007590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011038361.7A Active CN112199548B (zh) 2020-09-28 2020-09-28 一种基于卷积循环神经网络的音乐音频分类方法

Country Status (1)

Country Link
CN (1) CN112199548B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599123A (zh) * 2021-03-01 2021-04-02 珠海亿智电子科技有限公司 轻量级语音关键词识别网络、方法、设备及存储介质
CN112667912A (zh) * 2021-01-14 2021-04-16 广东工业大学 一种边缘服务器的任务量预测方法
CN112905835A (zh) * 2021-02-26 2021-06-04 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN112948623A (zh) * 2021-02-25 2021-06-11 杭州网易云音乐科技有限公司 音乐热度预测方法、装置、计算设备以及介质
CN113240083A (zh) * 2021-05-11 2021-08-10 北京搜狗科技发展有限公司 一种数据处理方法、装置、电子设备及可读介质
CN113327621A (zh) * 2021-06-09 2021-08-31 携程旅游信息技术(上海)有限公司 模型训练方法、用户识别方法、系统、设备及介质
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
CN113506553A (zh) * 2021-06-25 2021-10-15 河海大学 一种基于迁移学习的音频自动标注方法
CN113673561A (zh) * 2021-07-15 2021-11-19 华南理工大学 基于多模态的音乐标签自动分类方法、装置及介质
CN113793580A (zh) * 2021-08-31 2021-12-14 云境商务智能研究院南京有限公司 一种基于深度学习的音乐流派分类方法
CN113808573A (zh) * 2021-08-06 2021-12-17 华南理工大学 基于混合域注意力与时序自注意力的方言分类方法及系统
CN113851115A (zh) * 2021-09-07 2021-12-28 中国海洋大学 一种基于一维卷积神经网络的复杂声音识别方法
CN114333908A (zh) * 2021-12-29 2022-04-12 广州方硅信息技术有限公司 在线音频分类方法、装置及计算机设备
CN114354880A (zh) * 2021-11-26 2022-04-15 国电南瑞南京控制系统有限公司 基于注意力bp神经网络的电缆老化寿命预测方法及系统
CN114627892A (zh) * 2022-03-18 2022-06-14 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法
CN114664316A (zh) * 2022-05-17 2022-06-24 深圳市盛天龙视听科技有限公司 基于自动拾音的音频修复方法、装置、设备及介质
CN115101149A (zh) * 2022-06-30 2022-09-23 曲阜师范大学 材料微观结构总能量预测方法
CN115132183A (zh) * 2022-05-25 2022-09-30 腾讯科技(深圳)有限公司 音频识别模型的训练方法、装置、设备、介质及程序产品
CN115312074A (zh) * 2022-10-10 2022-11-08 江苏米笛声学科技有限公司 一种基于音频处理的云端服务器
CN115346502A (zh) * 2022-08-11 2022-11-15 陕西师范大学 基于密集网络和多头注意力机制的音乐自动生成方法
WO2023000444A1 (zh) * 2021-07-22 2023-01-26 上海闻泰信息技术有限公司 扬声器的杂音检测方法、装置、电子设备和存储介质
CN116561590A (zh) * 2023-07-10 2023-08-08 之江实验室 基于深度学习的微纳光纤负载大小和位置预测方法及装置
CN116576405A (zh) * 2023-07-12 2023-08-11 上海电机学院 一种风管泄漏信号检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918535A (zh) * 2019-01-18 2019-06-21 华南理工大学 基于标签深度分析的音乐自动标注方法
CN109961017A (zh) * 2019-02-26 2019-07-02 杭州电子科技大学 一种基于卷积循环神经网络的心音信号分类方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
EP3608844A1 (en) * 2018-08-10 2020-02-12 Naver Corporation Methods for training a crnn and for semantic segmentation of an inputted video using said crnn
CN110808033A (zh) * 2019-09-25 2020-02-18 武汉科技大学 一种基于双重数据增强策略的音频分类方法
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN111192601A (zh) * 2019-12-25 2020-05-22 厦门快商通科技股份有限公司 音乐标注方法、装置、电子设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3608844A1 (en) * 2018-08-10 2020-02-12 Naver Corporation Methods for training a crnn and for semantic segmentation of an inputted video using said crnn
CN109918535A (zh) * 2019-01-18 2019-06-21 华南理工大学 基于标签深度分析的音乐自动标注方法
CN109961017A (zh) * 2019-02-26 2019-07-02 杭州电子科技大学 一种基于卷积循环神经网络的心音信号分类方法
CN110808033A (zh) * 2019-09-25 2020-02-18 武汉科技大学 一种基于双重数据增强策略的音频分类方法
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN111192601A (zh) * 2019-12-25 2020-05-22 厦门快商通科技股份有限公司 音乐标注方法、装置、电子设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DIPJYOTI BISHARAD ET AL.: "Music genre recognition using convolutional recurrent neural network architecture", 《EXPERT SYSTEMS》, 31 December 2019 (2019-12-31), pages 1 - 13 *
王金甲 等: "基于注意力门控卷积循环神经网络的通用音频标记", 《复旦学报(自然科学版)》, 30 June 2020 (2020-06-30), pages 360 - 367 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667912A (zh) * 2021-01-14 2021-04-16 广东工业大学 一种边缘服务器的任务量预测方法
CN112948623B (zh) * 2021-02-25 2022-08-16 杭州网易云音乐科技有限公司 音乐热度预测方法、装置、计算设备以及介质
CN112948623A (zh) * 2021-02-25 2021-06-11 杭州网易云音乐科技有限公司 音乐热度预测方法、装置、计算设备以及介质
CN112905835A (zh) * 2021-02-26 2021-06-04 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN112905835B (zh) * 2021-02-26 2022-11-11 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN112599123A (zh) * 2021-03-01 2021-04-02 珠海亿智电子科技有限公司 轻量级语音关键词识别网络、方法、设备及存储介质
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
CN113240083A (zh) * 2021-05-11 2021-08-10 北京搜狗科技发展有限公司 一种数据处理方法、装置、电子设备及可读介质
CN113240083B (zh) * 2021-05-11 2024-06-11 北京搜狗科技发展有限公司 一种数据处理方法、装置、电子设备及可读介质
CN113327621A (zh) * 2021-06-09 2021-08-31 携程旅游信息技术(上海)有限公司 模型训练方法、用户识别方法、系统、设备及介质
CN113506553A (zh) * 2021-06-25 2021-10-15 河海大学 一种基于迁移学习的音频自动标注方法
CN113506553B (zh) * 2021-06-25 2023-12-05 河海大学 一种基于迁移学习的音频自动标注方法
CN113673561A (zh) * 2021-07-15 2021-11-19 华南理工大学 基于多模态的音乐标签自动分类方法、装置及介质
CN113673561B (zh) * 2021-07-15 2023-08-25 华南理工大学 基于多模态的音乐标签自动分类方法、装置及介质
WO2023000444A1 (zh) * 2021-07-22 2023-01-26 上海闻泰信息技术有限公司 扬声器的杂音检测方法、装置、电子设备和存储介质
CN113808573B (zh) * 2021-08-06 2023-11-07 华南理工大学 基于混合域注意力与时序自注意力的方言分类方法及系统
CN113808573A (zh) * 2021-08-06 2021-12-17 华南理工大学 基于混合域注意力与时序自注意力的方言分类方法及系统
CN113793580B (zh) * 2021-08-31 2024-05-24 云境商务智能研究院南京有限公司 一种基于深度学习的音乐流派分类方法
CN113793580A (zh) * 2021-08-31 2021-12-14 云境商务智能研究院南京有限公司 一种基于深度学习的音乐流派分类方法
CN113851115A (zh) * 2021-09-07 2021-12-28 中国海洋大学 一种基于一维卷积神经网络的复杂声音识别方法
CN114354880A (zh) * 2021-11-26 2022-04-15 国电南瑞南京控制系统有限公司 基于注意力bp神经网络的电缆老化寿命预测方法及系统
CN114333908A (zh) * 2021-12-29 2022-04-12 广州方硅信息技术有限公司 在线音频分类方法、装置及计算机设备
CN114627892A (zh) * 2022-03-18 2022-06-14 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法
CN114664316A (zh) * 2022-05-17 2022-06-24 深圳市盛天龙视听科技有限公司 基于自动拾音的音频修复方法、装置、设备及介质
CN114664316B (zh) * 2022-05-17 2022-10-04 深圳市盛天龙视听科技有限公司 基于自动拾音的音频修复方法、装置、设备及介质
CN115132183A (zh) * 2022-05-25 2022-09-30 腾讯科技(深圳)有限公司 音频识别模型的训练方法、装置、设备、介质及程序产品
CN115132183B (zh) * 2022-05-25 2024-04-12 腾讯科技(深圳)有限公司 音频识别模型的训练方法、装置、设备、介质及程序产品
CN115101149B (zh) * 2022-06-30 2024-05-24 曲阜师范大学 材料微观结构总能量预测方法
CN115101149A (zh) * 2022-06-30 2022-09-23 曲阜师范大学 材料微观结构总能量预测方法
CN115346502A (zh) * 2022-08-11 2022-11-15 陕西师范大学 基于密集网络和多头注意力机制的音乐自动生成方法
CN115346502B (zh) * 2022-08-11 2024-09-27 陕西师范大学 基于密集网络和多头注意力机制的音乐自动生成方法
CN115312074A (zh) * 2022-10-10 2022-11-08 江苏米笛声学科技有限公司 一种基于音频处理的云端服务器
CN116561590B (zh) * 2023-07-10 2023-10-03 之江实验室 基于深度学习的微纳光纤负载大小和位置预测方法及装置
CN116561590A (zh) * 2023-07-10 2023-08-08 之江实验室 基于深度学习的微纳光纤负载大小和位置预测方法及装置
CN116576405A (zh) * 2023-07-12 2023-08-11 上海电机学院 一种风管泄漏信号检测方法及系统
CN116576405B (zh) * 2023-07-12 2023-10-31 上海电机学院 一种风管泄漏信号检测方法及系统

Also Published As

Publication number Publication date
CN112199548B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
CN112199548B (zh) 一种基于卷积循环神经网络的音乐音频分类方法
Takahashi et al. Mmdenselstm: An efficient combination of convolutional and recurrent neural networks for audio source separation
Zhang Music feature extraction and classification algorithm based on deep learning
WO2024001646A1 (zh) 音频数据的处理方法、装置、电子设备、程序产品及存储介质
CN113903346A (zh) 一种基于深度学习的音域平衡方法、装置及系统
Li et al. An evaluation of deep neural network models for music classification using spectrograms
CN112562741B (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
Pokorny et al. Detection of negative emotions in speech signals using bags-of-audio-words
CN106295717B (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
Fang et al. Fast environmental sound classification based on resource adaptive convolutional neural network
US20220238087A1 (en) Methods and systems for determining compact semantic representations of digital audio signals
CN112466329A (zh) 一种改进dcnn的音乐流派分类方法
Haque et al. An analysis of content-based classification of audio signals using a fuzzy c-means algorithm
CN115602165A (zh) 基于金融系统的数字员工智能系统
Al-Kaltakchi et al. Combined i-vector and extreme learning machine approach for robust speaker identification and evaluation with SITW 2016, NIST 2008, TIMIT databases
EP4196916A1 (en) Method of training a neural network and related system and method for categorizing and recommending associated content
Verma et al. Speaker-independent source cell-phone identification for re-compressed and noisy audio recordings
CN114817622A (zh) 歌曲片段搜索方法及其装置、设备、介质、产品
CN113113048B (zh) 语音情绪识别方法、装置、计算机设备及介质
Chakhtouna et al. Improving speech emotion recognition system using spectral and prosodic features
Chakravarty et al. A lightweight feature extraction technique for deepfake audio detection
Wang Neural Network‐Based Dynamic Segmentation and Weighted Integrated Matching of Cross‐Media Piano Performance Audio Recognition and Retrieval Algorithm
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
Chuchra et al. A deep learning approach for splicing detection in digital audios
Ning et al. Artificial neural network for folk music style classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant