CN111429943A - 音频中音乐及音乐相对响度的联合检测方法 - Google Patents
音频中音乐及音乐相对响度的联合检测方法 Download PDFInfo
- Publication number
- CN111429943A CN111429943A CN202010198682.7A CN202010198682A CN111429943A CN 111429943 A CN111429943 A CN 111429943A CN 202010198682 A CN202010198682 A CN 202010198682A CN 111429943 A CN111429943 A CN 111429943A
- Authority
- CN
- China
- Prior art keywords
- music
- audio
- label
- detection
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 108091026890 Coding region Proteins 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种音频中音乐及音乐相对响度的联合检测方法,其包括获取待检测音频,并对其进行预处理得到音频特征;将音频特征作为网络输入序列输入双任务音乐检测网络模型,输出每个时间步的三个预测分数;基于预测分数≥设定阈值或<设定阈值时标记为1或0,将每个时间步的预测分数转换成大小为(3,)的0‑1预测向量,采用所有时间步的预测向量形成音乐相对响度检测序列;将预测向量的二三位置采用逻辑或运算合并得到大小为(2,)的0‑1预测向量,采用逻辑或运算得到的所有预测向量形成音乐检测序列;将音乐相对响度检测序列和音乐检测序列转为可读的标注,得到音频包括起始时间、结束时间和类别的标注文件。
Description
技术领域
本发明涉及音乐检测技术,具体涉及一种音频中音乐及音乐相对响度的联合检测方法。
背景技术
音乐检测是音乐信息检索任务的一种,音乐检测是指给定一个音频文件,判断其中是否含有音乐片段以及出现音乐片段的起止位置。音乐检测任务的两个主要应用是:(1)基于音频内容对听觉信息进行自动索引和检索;(2)监测音乐以进行版权管理。此外,音乐检测还可以作为其他音乐信息检索任务的中间步骤并提高其他音乐信息检索算法的性能。
音乐检测任务最初仅关注于对音频文件中音乐声和人说话声这两种类别的声音信息进行区分(此外的声音被标注为噪音)。考虑到音乐检测在版权管理方面具有重要的应用意义,工业界已不满足于仅检测出是否存在音乐,还需要算法估计出检测到的音乐是以前景声音出现的还是背景声音出现的。至此,音乐检测任务分化出两个子任务:检测音乐是否存在以及检测音乐的相对响度(相对于其他同时出现的非音乐声音,判断音乐是前景音乐还是背景音乐)。
现有的大部分音乐检测技术仍停留在对人声和音乐声的区分上,并未考虑对音乐的相对响度进行估计,使得音乐检测的效果欠佳。
发明内容
针对现有技术中的上述不足,本发明提供的音频中音乐及音乐相对响度的联合检测方法能够实现音乐及音乐相对响度的同时检测,并能提高检测精度。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种音频中音乐及音乐相对响度的联合检测方法,其包括:
S1、获取待检测音频,并对其进行预处理得到音频特征;
S2、将音频特征作为网络输入序列输入双任务音乐检测网络模型,输出每个时间步的三个预测分数,预测分数分别对应于无音乐、背景音乐和前景音乐;
S3、基于预测分数≥设定阈值或<设定阈值时标记为1或0,将每个时间步的预测分数转换成大小为(3,)的0-1预测向量,采用所有时间步的预测向量形成音乐相对响度检测序列;
S4、将预测向量的二三位置采用逻辑或运算合并得到大小为(2,)的0-1预测向量,采用逻辑或运算得到的所有预测向量形成音乐检测序列;
S5、将音乐相对响度检测序列和音乐检测序列转为可读的标注,得到音频包括起始时间、结束时间和类别的标注文件。
本发明的有益效果为:本方案处理得到的音频特征考虑了时序关系,音频特征输入双任务音乐检测网络模型后得到每个时间步的时频的三个预测分数保持了各时间步长上音频的前后关系;
通过对得到的两个检测序列进行标注,可以得到比较直观表征待检测音频在哪些时段是否存在音乐,且分别为前景音乐还是背景音乐的标注文件,标注文件由于保持了各个时间步长上音频的前后关系,从而使得本方案可以取得更优的检测结果。
附图说明
图1为音频中音乐及音乐相对响度的联合检测方法的流程图。
图2为双任务音乐检测网络的结构示意图。
图3为本方案的音频中音乐及音乐相对响度的联合检测方法标注效果示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了音频中音乐及音乐相对响度的联合检测方法的流程图;如图1所示,该方法S包括步骤S1至步骤S5。
在步骤S1中,获取待检测音频,并对其进行预处理得到音频特征。
在本发明的一个实施例中,对待检测音频进行预处理的方法包括:
S11、判断待检测音频/音频样本是否为单声道,若是直接进入步骤S12,否则将待检测音频/音频样本合并为单声道,之后进入步骤S12;
若待检测音频/音频样本不是单声道,就难以实现音频特征的提取,此处单声道的检测主要目的是方便后续音频特征的顺利提取。
S12、对单声道的音频进行降采样操作,之后进行短时傅里叶变换得到STFT频谱;其中降采样为8000Hz,短时傅里叶变换时设置傅里叶变换的窗口大小为512以及跳长(hoplength)为128。
S13、对STFT频谱进行梅尔滤波处理得到梅尔频谱,梅尔滤波处理时设置每帧128个频率值,每帧也即本申请中提到的时间步;并对其取对数处理转换为分贝尺度的梅尔频谱作为对数梅尔特征。
S14、根据对数梅尔特征和训练集中所有音频样本的对数梅尔特征的均值,对对数梅尔特征进行零均值标准化得到音频特征,音频特征Snorm的计算公式为:
其中,S为对数梅尔特征;Smean为训练集中所有音频样本的对数梅尔特征的均值;Sstd为训练集中所有音频样本的对数梅尔特征标准差。
其中,音频特征的每一帧(frame)频谱即为网络输入序列每个时间步(time-step)的音频特征,网络输入序列的时间维度即为网络输入序列的时间步长(计算得时间步长为3751,即3751个time-step;每个time-step代表0.016秒,是由跳长除以采样率所得到),另一维度作为特征维数(每个时间步长的向量的维数,即一个frame的维数)。
采用上述方式进行音频特征的提取,考虑了待检测音频的时序关系,这样可以保证后续待检测音频检测的准确性。
在步骤S2中,将音频特征作为网络输入序列输入双任务音乐检测网络模型,输出每个时间步的三个预测分数,预测分数分别对应于无音乐、背景音乐和前景音乐。
在本发明的一个实施例中,所述双任务音乐检测网络模型的训练方法包括:
A1、获取具有标注文件的音频样本,并对其进行预处理得到音频特征;本方案的音频样本来源于已做标注且样本数量较大的公开数据集,其可以为该公开数据中的部分音频样本也可以为全部音频样本。
标注文件包括音乐检测标注文件和音乐相对响度标注文件,其中音乐检测标注文件格式为:起始时间(秒)\t结束时间(秒)\t类别(no-music/music);音乐相对响度标注文件格式为:起始时间(秒)\t结束时间(秒)\t类别(no-music/fg-music/bg-music),no-music、fg-music和bg-music分别为无音乐、前景音乐和背景音乐。
为了实现对两个子任务的共同监督,于是将音乐检测子任务和音乐相对响度估计子任务的标注进行合并,构成三分类的类别标签:no-music、fg-music和bg-music。
A2、根据音频样本的标注文件及其对应的音频特征,对音频特征每个时间步的音频的标签进行编码,得到一个大小为(3,)的0-1标签向量;
实施时,本方案优选对音频特征每个时间步的音频的标签进行编码的方法包括:
根据音频特征标签的三种类型,确定标签向量的大小为(3,)的0-1向量,标签向量的每位分别对应于三种类型中无音乐、背景音乐和前景音乐;
判断每个时间步的音频的标签属于无音乐、背景音乐和前景音乐中的哪种类型;
当音频的标签为无音乐、背景音乐或前景音乐时,将标签向量的相应位置标记为1,其他两位标记为0,得到编码完成后的标签向量。
由于本方案的标签类型只有三种,那么确定的标签向量的长度即为3,若签向量的第一位至第三位分别为无音乐、背景音乐和前景音乐,同时假设标注文件中展示在音频的第3秒至第4秒为存在背景音乐,向量标签中的值为1表示属于该类别,值为0表示不属于该类别,那么最终得到的标签向量为010。
A3、将音频样本的音频特征作为的网络输入序列及对应音频特征的所有标签向量构成的标注编码序列作为训练样本集。
A4、构建用于帧特征提取的卷积神经网络、用于时序特征提取的双向长短时记忆网络及用于分类的全连接网络,并将三个网络依次连接构成双任务音乐检测网络(该检测网络的网络结构参见图2)。
实施时,本方案优选用于帧特征提取的卷积神经网络包含4段一维卷积(Conv1d)操作,每段卷积后依次进行批次正则化(Batch Normalization)、线性整流激活(ReLU)和最大池化(MaxPool1d)这三个操作,具体如下表所示:
层数 | 类型 | 输出尺寸 | 卷积核大小 | 卷积核个数 | 步长 |
1 | Conv1d | 64×63 | 3 | 64 | 2 |
2 | Batch Norm | 64×63 | - | - | - |
3 | ReLU | 64×63 | - | - | - |
4 | MaxPool1d | 64×31 | 3 | - | 2 |
5 | Conv1d | 128×15 | 3 | 128 | 2 |
6 | Batch Norm | 128×15 | - | - | - |
7 | ReLU | 128×15 | - | - | - |
8 | MaxPool1d | 128×7 | 3 | - | 2 |
9 | Conv1d | 256×3 | 3 | 256 | 2 |
10 | Batch Norm | 256×3 | - | - | - |
11 | ReLU | 256×3 | - | - | - |
12 | MaxPool1d | 256×1 | 3 | - | 2 |
帧特征提取卷积神经网络的输入为预处理得到的音频特征的一个时间步长的音频,即一帧的特征,因此输入数据为一维,输入数据为1通道(1个卷积核),因此在输入卷积网络之前将输入维数扩展为1×128,输出数据的维数为256×1(通道数为256),压缩输出的维数至(256,);
依次将每帧的特征输入该卷积神经网络(即所有时间步长共享同一个帧特征提取卷积神经网络)会得到一个输出序列,序列维数为3751×256,该序列作为双向长短时记忆网络的输入。
用于时序特征提取的双向长短时记忆网络包含2层双向长短时记忆神经网络(BiLSTM),每个长短时记忆单元的大小设置为50,卷积神经网络的输出作为双向长短时记忆网络的输入,输出为两个方向的LSTM网络输出序列,各自维数均为3751×50,之后将两个方向的输出拼接在一起输出;最后得到的输出维数为3751×100。
用于分类的全连接网络包含1层前馈神经元,神经元的个数设置为3,最后的激活函数采用Sigmoid函数;该部分网络的输入维数为3751×100,输出维数为3751×3,表示每个时间步的音频特征属于三个类别的预测分数。
A5、将训练样本集中的网络输入序列作为双任务音乐检测网络的输入,训练双任务音乐检测网络以最优化代价函数,得到双任务音乐检测网络模型;
所述代价函数为均方误差函数,用于计算双任务音乐检测网络输出的预测分数与标注编码序列之间的误差。
本方案构建的训练双任务音乐检测网络的参数分别设置为:学习率为0.001,批次大小为16,优化函数使用Adam函数,训练迭代次数为30。
在步骤S3中,基于预测分数≥设定阈值或<设定阈值时标记为1或0,1表示存在相应类型,0表示不存在相应类型;将每个时间步的预测分数转换成大小为(3,)的0-1预测向量,采用所有时间步的预测向量形成音乐相对响度检测序列。
本方案三个类型分别对应一个设定阈值,在实施时,优选三个类型的设定阈值都取0.5。
在步骤S4中,将预测向量的二三位置采用逻辑或运算合并得到大小为(2,)的0-1预测向量,采用逻辑或运算得到的所有预测向量形成音乐检测序列;
假如音乐相对响度检测序列中的一个预测向量001(预测向量第一个位置为no-music,第二个位置为bg-music,第三个位置为fg-music),即表示预测向量对应的一帧音频为前景音乐,经过步骤S4的逻辑或运算合并的预测向量为01,对应于检测时该帧音频有音乐。
在步骤S5中,将音乐相对响度检测序列和音乐检测序列转为可读的标注,得到音频包括起始时间、结束时间和类别的标注文件。
实施时,本方案优选将音乐相对响度检测序列和音乐检测序列转为为可读的标注包括:
根据音乐相对响度检测序列/音乐检测序列中每个时间步对应的编码,将序列中连续时间步编码相同的合并在一起,并同时记录连续时间步的起点时间和终点时间及对应编码的类型,完成标注。
假设音乐相对响度检测序列中起始的一小段(前10个时间步的预测向量)为001,001,001,010,010,010,010,010,100,100,每个预测向量第一个位置为no-music,第二个位置为bg-music,第三个位置为fg-music。这里为方便示例假设每个时间步为1秒,那么按照“起始时间(秒)\t结束时间(秒)\t类别(no-music/bg-music/fg-music)”得到的标注文件为:
0 3 fg-music,3 8 bg-music,8 10 no-music。
综上所述,本方案通过对音乐相对响度和音乐进行标注后的标注文件对网络进行训练,使得训练后的网络可以实现音乐相对响度和音乐的检测;在检测时,本方案通过对每个时间步长的音频特征进行学习和建模,而且保持各个时间步长上的特征的前后关系,做到了对时序关系进行建模,使得本发明取得了更优的检测结果。
如图3所示,给定一个长60秒的测试音频,图示(上)为音频的原始波形图,图示(中)为音频的频谱图,图示(下)为标注结果的可视化。对图示(下)进行具体说明如下:reference表示真实的标注,estimated表示本专利计算所得的标注结果;横轴表示时间(秒),纵轴分别表示三个类别(这里仅给出音乐响度估计子任务的三个类别,可通过逻辑或运算合并fg-music和bg-music的标注结果得到音乐检测子任务的music的标注结果)。从图示(下)可看出,本方案所述方法能够较精确地标注出事件类别以及对应的起止时间。
关于本方案提供的方法的准确率的说明
对本方案提供的方法在测试集(含164个长度均为60秒的音频样本及其真实标注文件)上进行评估,评估指标为准确率,准确率的计算过程如下:
用训练好的网络对测试集里164个音频文件进行标注,得到164个预测标注文件。对一个音频样本的预测标注与真实标注均按照10毫秒的长度依次划分为一系列片段(预测标注片段序列与真实标注片段序列一一对应),那么一个音频样本的准确率为:
下面基于上述的试验数据现有技术的“对电视媒体音频:带有相对音乐响度注释的电视广播音频数据集”与本方案所提方法进行对比对比实验,试验结果如下:
音乐检测子任务 | 音乐响度估计子任务 | |
现有技术 | 0.8895 | 0.8271 |
本方案 | 0.9002 | 0.9034 |
其中,对电视媒体音频:带有相对音乐响度注释的电视广播音频数据集为Meléndez-Catalán B,Molina E,Gómez E.Open Broadcast Media Audio from TV:A Datasetof TV Broadcast Audio with Relative Music Loudness Annotations[J].Transactions of the International Society for Music Information Retrieval,2019,2(1)。
通过上述对比分析可知,本方案的方法相对现有技术而言可以实现音乐检测和音乐响度检测时,其准确度更高。
Claims (8)
1.音频中音乐及音乐相对响度的联合检测方法,其特征在于,包括:
S1、获取待检测音频,并对其进行预处理得到音频特征;
S2、将音频特征作为网络输入序列输入双任务音乐检测网络模型,输出每个时间步的三个预测分数,预测分数分别对应于无音乐、背景音乐和前景音乐;
S3、基于预测分数≥设定阈值或<设定阈值时标记为1或0,将每个时间步的预测分数转换成大小为(3,)的0-1预测向量,采用所有时间步的预测向量形成音乐相对响度检测序列;
S4、将预测向量的二三位置采用逻辑或运算合并得到大小为(2,)的0-1预测向量,采用逻辑或运算得到的所有预测向量形成音乐检测序列;
S5、将音乐相对响度检测序列和音乐检测序列转为可读的标注,得到音频包括起始时间、结束时间和类别的标注文件。
2.根据权利要求1所述的音频中音乐及音乐相对响度的联合检测方法,其特征在于,所述双任务音乐检测网络模型的训练方法包括:
A1、获取具有标注文件的音频样本,并对其进行预处理得到音频特征,标注文件包括音乐检测标注文件和音乐相对响度标注文件;
A2、根据音频样本的标注文件及其对应的音频特征,对音频特征每个时间步的音频的标签进行编码,得到一个大小为(3,)的0-1标签向量;
A3、将音频样本的音频特征作为的网络输入序列及对应音频特征的所有标签向量构成的标注编码序列作为训练样本集;
A4、构建用于帧特征提取的卷积神经网络、用于时序特征提取的双向长短时记忆网络及用于分类的全连接网络,并将三个网络依次连接构成双任务音乐检测网络;
A5、将训练样本集中的网络输入序列作为双任务音乐检测网络的输入,训练双任务音乐检测网络以最优化代价函数,得到双任务音乐检测网络模型;
所述代价函数计算双任务音乐检测网络输出的预测分数与标注编码序列之间的误差。
3.根据权利要求2所述的音频中音乐及音乐相对响度的联合检测方法,其特征在于,所述对音频特征每个时间步的音频的标签进行编码的方法包括:
根据音频特征标签的三种类型,确定标签向量的大小为(3,)的0-1向量,标签向量的每位分别对应于三种类型中无音乐、背景音乐和前景音乐;
判断每个时间步的音频的标签属于无音乐、背景音乐和前景音乐中的哪种类型;
当音频的标签为无音乐、背景音乐或前景音乐时,将标签向量的相应位置标记为1,其他两位标记为0,得到编码完成后的标签向量。
4.根据权利要求2所述的音频中音乐及音乐相对响度的联合检测方法,其特征在于,所述用于帧特征提取的卷积神经网络包含4段一维卷积操作,每段卷积后依次进行批次正则化、线性整流激活和最大池化这三个操作;
用于时序特征提取的双向长短时记忆网络包含2层双向长短时记忆神经网络,卷积神经网络的输出作为双向长短时记忆网络的输入,输出为两个方向的LSTM网络输出序列,之后将两个方向的输出拼接在一起输出;
用于分类的全连接网络包含1层前馈神经元,神经元的个数设置为3,最后的激活函数采用Sigmoid函数。
5.根据权利要求4所述的音频中音乐及音乐相对响度的联合检测方法,其特征在于,训练双任务音乐检测网络的参数分别设置为:学习率为0.001,批次大小为16,优化函数使用Adam函数,训练迭代次数为30。
6.根据权利要求1或2所述的音频中音乐及音乐相对响度的联合检测方法,其特征在于,对待检测音频进行预处理得到音频特征的方法包括:
S11、判断待检测音频/音频样本是否为单声道,若是直接进入步骤S12,否则将待检测音频/音频样本合并为单声道,之后进入步骤S12;
S12、对单声道的音频进行降采样操作,之后进行短时傅里叶变换得到STFT频谱;
S13、对STFT频谱进行梅尔滤波处理得到梅尔频谱,并对其取对数处理转换为分贝尺度的梅尔频谱作为对数梅尔特征;
S14、根据对数梅尔特征和训练集中所有音频样本的对数梅尔特征的均值,对对数梅尔特征进行零均值标准化得到音频特征。
8.根据权利要求6所述的音频中音乐及音乐相对响度的联合检测方法,其特征在于,所述将音乐相对响度检测序列和音乐检测序列转为为可读的标注进一步包括:
根据音乐相对响度检测序列/音乐检测序列中每个时间步对应的编码,将序列中连续时间步编码相同的合并在一起,并同时记录连续时间步的起点时间和终点时间及对应编码的类型,完成标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198682.7A CN111429943B (zh) | 2020-03-20 | 2020-03-20 | 音频中音乐及音乐相对响度的联合检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198682.7A CN111429943B (zh) | 2020-03-20 | 2020-03-20 | 音频中音乐及音乐相对响度的联合检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429943A true CN111429943A (zh) | 2020-07-17 |
CN111429943B CN111429943B (zh) | 2022-05-10 |
Family
ID=71548215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010198682.7A Active CN111429943B (zh) | 2020-03-20 | 2020-03-20 | 音频中音乐及音乐相对响度的联合检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429943B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
WO2022188999A1 (en) * | 2021-03-12 | 2022-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for clean dialogue loudness estimates based on deep neural networks |
CN116701921A (zh) * | 2023-08-08 | 2023-09-05 | 电子科技大学 | 多通道时序信号的时频特征提取电路及自适应抑噪电路 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140282664A1 (en) * | 2013-03-15 | 2014-09-18 | Morris Lee | Methods and apparatus to classify audio |
US9613640B1 (en) * | 2016-01-14 | 2017-04-04 | Audyssey Laboratories, Inc. | Speech/music discrimination |
US20170186411A1 (en) * | 2015-12-23 | 2017-06-29 | Harmonix Music Systems, Inc. | Apparatus, systems, and methods for music generation |
CN108280165A (zh) * | 2018-01-18 | 2018-07-13 | 四川大学 | 基于状态转移的奖励值音乐推荐算法 |
CN109616142A (zh) * | 2013-03-26 | 2019-04-12 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
CN110634508A (zh) * | 2018-06-22 | 2019-12-31 | 半导体组件工业公司 | 音乐分类器、相关方法以及助听器 |
US20200075042A1 (en) * | 2018-08-29 | 2020-03-05 | International Business Machines Corporation | Detection of music segment in audio signal |
-
2020
- 2020-03-20 CN CN202010198682.7A patent/CN111429943B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140282664A1 (en) * | 2013-03-15 | 2014-09-18 | Morris Lee | Methods and apparatus to classify audio |
CN109616142A (zh) * | 2013-03-26 | 2019-04-12 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
US20170186411A1 (en) * | 2015-12-23 | 2017-06-29 | Harmonix Music Systems, Inc. | Apparatus, systems, and methods for music generation |
US9613640B1 (en) * | 2016-01-14 | 2017-04-04 | Audyssey Laboratories, Inc. | Speech/music discrimination |
CN108280165A (zh) * | 2018-01-18 | 2018-07-13 | 四川大学 | 基于状态转移的奖励值音乐推荐算法 |
CN110634508A (zh) * | 2018-06-22 | 2019-12-31 | 半导体组件工业公司 | 音乐分类器、相关方法以及助听器 |
US20200075042A1 (en) * | 2018-08-29 | 2020-03-05 | International Business Machines Corporation | Detection of music segment in audio signal |
Non-Patent Citations (5)
Title |
---|
BIJUE JIA ET AL: "Hierarchical Regulated Iterative Network for Joint Task of Music Detection and Music Relative Loudness Estimation", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
BYEONG-YONG JANG ET AL: "Music detection from broadcast contents using convolutional neural networks with a Mel-scale kernel", 《EURASIP JOURNAL ON AUDIO, SPEECH, AND MUSIC PROCESSING》 * |
PABLO GIMENO ET AL: "Multiclass audio segmentation based on recurrent neural networks for broadcast domain data", 《EURASIP JOURNAL ON AUDIO, SPEECH, AND MUSIC PROCESSING》 * |
冀单单: "基于互联网的数字音乐盗版检测技术应用研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
贾碧珏: "音乐检测与生成的神经网络方法", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022188999A1 (en) * | 2021-03-12 | 2022-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for clean dialogue loudness estimates based on deep neural networks |
WO2022189497A1 (en) * | 2021-03-12 | 2022-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for clean dialogue loudness estimates based on deep neural networks |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN112802484B (zh) * | 2021-04-12 | 2021-06-18 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN116701921A (zh) * | 2023-08-08 | 2023-09-05 | 电子科技大学 | 多通道时序信号的时频特征提取电路及自适应抑噪电路 |
CN116701921B (zh) * | 2023-08-08 | 2023-10-20 | 电子科技大学 | 多通道时序信号自适应抑噪电路 |
Also Published As
Publication number | Publication date |
---|---|
CN111429943B (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429943B (zh) | 音频中音乐及音乐相对响度的联合检测方法 | |
CN110852215B (zh) | 一种多模态情感识别方法、系统及存储介质 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN110767218A (zh) | 端到端语音识别方法、系统、装置及其存储介质 | |
CN110890102A (zh) | 一种基于rnn声纹识别的发动机缺陷检测算法 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN111462758A (zh) | 智能会议角色分类的方法、装置、设备及存储介质 | |
WO2020056995A1 (zh) | 语音流利度识别方法、装置、计算机设备及可读存储介质 | |
CN111080109A (zh) | 客服服务质量评价方法、装置及电子设备 | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN114582325A (zh) | 音频检测方法、装置、计算机设备、存储介质 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN113314099B (zh) | 语音识别置信度的确定方法和确定装置 | |
JP2002169592A (ja) | 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム | |
CN113470652A (zh) | 一种基于工业互联网的语音识别及处理方法 | |
Jingzhou et al. | Audio segmentation and classification approach based on adaptive CNN in broadcast domain | |
CN111933153A (zh) | 一种语音分割点的确定方法和装置 | |
Feng et al. | Noise Classification Speech Enhancement Generative Adversarial Network | |
CN111354352A (zh) | 一种用于音频检索的模板自动清洗方法及系统 | |
CN111933187B (zh) | 情感识别模型的训练方法、装置、计算机设备和存储介质 | |
CN113571085B (zh) | 语音分离方法、系统、装置和存储介质 | |
CN111696527B (zh) | 语音质检区域的定位方法、装置、定位设备及存储介质 | |
CN118155623A (zh) | 基于人工智能的语音识别方法 | |
Zhong et al. | A combined feature approach for speaker segmentation using convolution neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |