CN113421585A - 一种音频指纹库生成方法及装置 - Google Patents
一种音频指纹库生成方法及装置 Download PDFInfo
- Publication number
- CN113421585A CN113421585A CN202110506344.XA CN202110506344A CN113421585A CN 113421585 A CN113421585 A CN 113421585A CN 202110506344 A CN202110506344 A CN 202110506344A CN 113421585 A CN113421585 A CN 113421585A
- Authority
- CN
- China
- Prior art keywords
- audio
- spectrogram
- mel
- database
- target audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种音频指纹库生成方法及装置,所述生成方法包括,首先根据歌曲标签创建对应名称的数据库;对目标音频进行预处理;将目标音频从立体声转换为单声道,并对目标音频进行降采样;然后对预处理后的目标音频通过傅里叶变换和梅尔频谱变换,获取目标音频的梅尔频谱图;将梅尔谱图映射到33个频率带中,提取音频特征,对所述音频特征进行编码,生成对应的音频指纹,并存储到相应的数据库中;同时将得到的所述梅尔频谱图分割后投入深度神经网络中进行特征提取,训练神经网络模型,保留最终更新后参数,用于对歌曲进行流派分类;所述装置包括数据库创建模块、数据预处理模块、数据生成模块、音频指纹生成单元和神经网络模块。
Description
技术领域
本发明涉及音频数据处理技术领域,主要涉及一种音频指纹库生成方法及装置。
背景技术
今天,音乐是人们非常重要,也是不可分割的一部分。音乐有很多不同的类型,而这些类型彼此都不相同。可面对海量的音频数据,人们也无法准确地区分音乐的具体类型。然而,随着深度学习技术的日益发展,人们可以借助计算机和深度学习模型更加快速精确的识别目标音频的类型。这也给音频指纹庞大的数据库生成和查找工作带来一丝启发和转机。
现有技术中的音频指纹库生成技术,存在数据库的体积较大,查询时间过长等技术问题,缺少一种高效的音频指纹库生成方法及装置。
发明内容
发明目的:本发明提供了一种音频指纹库生成方法及装置,通过可以在降低数据库大小和搜索时间的基础上有效识别目标音频。
为实现上述目的,本发明采用的技术方案为:
一种音频指纹库生成方法,包括以下步骤:
步骤S1、根据歌曲标签创建对应名称的数据库;根据歌曲标签确定流派,创建相应流派的数据库存储相同流派目标音频的歌曲信息和音频指纹;
步骤S2、对目标音频进行预处理;将目标音频从立体声转换为单声道,并对目标音频进行降采样;
步骤S3、对预处理后的目标音频通过傅里叶变换和梅尔频谱变换,获取目标音频的梅尔频谱图;
以帧为单位对预处理后的目标音频进行分割,按照预设帧重叠率分割为若干音频帧;对每个分割后的音频帧进行短时傅里叶变换,转换为随时间变化的频谱图;对所述频谱图进行梅尔频谱变换,得到所述目标音频的梅尔频谱图,将得到的所有梅尔频谱图整合存储在本地文件中;
步骤S4、根据步骤S3获得的梅尔频谱图,将所述梅尔频谱图映射到33个频率带中,提取音频特征,对所述音频特征进行编码,生成对应的音频指纹,并存储到相应的数据库中;
步骤S5、将得到的所述梅尔频谱图分割后投入深度神经网络中进行特征提取,训练神经网络模型,保留最终更新后的参数,用于对歌曲进行流派分类。
进一步地,所述步骤S3中通过傅里叶变换和梅尔频谱变换,获取目标音频的梅尔频谱图的具体步骤如下:
步骤S3.1、以帧为单位对预处理后的目标音频进行分割,将原始音频中帧的重叠率设为1/2~3/4;
步骤S3.2、对分割后的音频帧进行短时傅里叶变换,对转换后的音频帧进行压缩,并将得到的所述频谱片段整合转换为随时间变化的频谱图;
步骤S3.3、采用梅尔标度的三角形滤波器组转换频谱图,用对数函数对上述转换后的频谱图进行缩放,得到所述目标音频的梅尔频谱图。
进一步地,所述步骤S4中生成对应的音频指纹具体步骤如下:将梅尔频谱图中的频域划分为33个子带,每一帧提取32位的子指纹值,将得到的所述目标音频的音频指纹存入对应标签的数据库中。
一种用于上述音频指纹库生成方法的音频指纹库生成装置,包括数据库创建模块、数据预处理模块、数据生成模块、音频指纹生成单元和神经网络模块;所述数据库创建模块用于创建不同流派标签下对应的数据库,来存储相应流派的歌曲信息和音频指纹;所述数据预处理模块将目标音频由立体声转换为单声道,对目标音频进行降采样;所述数据生成模块接收数据预处理模块降采样后的音频数据,对目标音频进行傅里叶变换生成随时间变化的频谱图,对频谱图进行梅尔频谱变换得到梅尔频谱图;所述音频指纹生成单元对生成的梅尔频谱图映射到33个频率带中,提取指纹后编码,将音频指纹存入相应的数据库;所述神经网络模块将生成的梅尔频谱图分割后投入神经网络中进行训练,保留最终更新后的参数。
有益效果:
本发明运用深度学习网络模型对目标音频进行预识别,确定目标音频所属分类,缩小检测范围。根据目标音频类别创建若干个数据库,使得数据库并行查找成为可能,提高了目标音频指纹匹配的速度。
附图说明
图1是本发明提供的音频指纹库生成方法总体流程图;
图2是本发明提供的音频指纹库生成方法具体流程图;
图3是本发明提供的深度神经网络训练数据方法流程图;
图4是本发明提供的卷积神经网络数据分析流程图;
图5是本发明提供的不同类型的梅尔频谱图像;
图6是本发明提供的深度神经网络训练模型损失和正确率图像。
具体实施方式
下面结合附图提供具体实施例,对本发明作更进一步的说明。
步骤S1、根据已经标签分类创建相应名称的数据库,用来存储相应标签下歌曲的信息和音频指纹。同时,该模块还具备根据新流派创建相应名称新数据库的功能。
步骤S2、对添加标签的源文件进行预处理,得到所述目标音频相关数据。
当人们看到音频时,大多数情况下都是以不规则的波形呈现在人们眼前,而这种不规则波形不利于人们对其的分析和利用。因此人们常常将其转换成光谱图来进行分析和利用。
现实生活中,音频常常以立体声的形式存在。而立体声中包含多余的冗余信息,会给数据的分析和利用带来不必要的麻烦,因此先将立体声转换为单声道。需要说明的是,采样频率,也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。一般来说,采样频率越大,需要进行分析的样本数越大,分析也就更困难,同时,为了更加符合人耳的感知能力,需要对目标音频进行降采样,例如将48000Hz、44100Hz的音频降采样到16000Hz。
步骤S3、对预处理后的目标音频通过傅里叶变换和梅尔频谱变换,获取目标音频的梅尔频谱图。
以帧为单位对原始音频进行分割,由于边界效应的存在,即使是原始的剪切片段,特征提取也会出现错误,因此帧与帧之间的重叠率应该越大越好,即帧移越小越好,以减少边界效应带来的负面影响。音频帧的长度与窗口长度一致,因此窗口长度的重叠率一般设置为1/2到3/4。
每个音频文件都被转换成一个频谱图,这是一个随时间变化的频率频谱的可视化表示。一个规则的频谱图是音频信号的短期傅里叶变换(STFT)的平方幅度。在傅里叶变换中使用的最重要的参数是-窗口长度,它表示进行傅里叶变换的时间窗口和跳长,它是连续帧之间的采样数。这种转换的典型窗口长度为2048,转换为约10ms,这是人类耳朵能够识别的最短合理周期。选择跳长512。研究表明,人们很难在线性尺度上感知频率。我们在低频域比在高频域更善于分辨频率的差异。例如,我们可以很容易地区分500Hz和1000Hz,但是我们很难感觉到10000Hz和10500Hz之间的差异,即使这两对频率之间具有相同的跨度。Mel尺度是一种非线性尺度单位,代表人耳等距离音高变化的感觉。采用梅尔尺度的三角形滤波器组转换频谱图,用对数函数对上述转换后的频谱图进行缩放,得到所述目标音频的梅尔频谱图,将得到的梅尔频谱图保存在本地文件中,为下一步做准备。
步骤S4、根据步骤S3获得的梅尔频谱图,将所述梅尔频谱图映射到33个频率带中,提取音频特征,对所述音频特征进行编码,生成对应的音频指纹,并存储到相应的数据库中。
大多数指纹提取算法都是基于以下方法。首先,音频信号被分割为帧。对于每一帧,计算一组特征,包括傅里叶系数,MEL频率倒频谱系数,谱平坦度,清晰度,线性预测编码系数等。本实施例中还使用了音频特征的导数、平均值和方差等派生量。通常,使用分类算法(例如隐马尔可夫模型或量化)将提取的特征映射成更紧凑的表示。单个帧的紧凑表示将被称为子指纹。整个指纹处理过程就是将音频流转换为子指纹流。由于一个子指纹通常不具备足够的数据识别音频片段,因此采用包含足够识别音频剪辑的数据基本单元,即指纹块来识别音频片段。
对已经生成的梅尔频谱图进行处理。将得到的梅尔频谱图映射到33个频率带中(频率范围为300Hz-2000Hz),每间隔11.6毫秒,提取一个32位的子指纹,指纹块有256个子指纹,对应的粒度就为3秒。生成相应的音频指纹,并根据已知歌曲的标签,将音频指纹存入相应的数据库中。
为了对每帧提取一个32位的子指纹值,在生成梅尔频谱图的过程中需要进行以下操作。选择33个不重叠的频带。这些波段范围在300Hz到2000Hz(最相关的光谱范围),并有对数间距。由于只考虑了低于2kHz的频率,所以接收到的音频首先被采样到采样率为5kHz的单声道音频流中.将第n帧波段m的能量表示为E(n,m),将第n帧的子指纹的第m位表示位F(n,m),那么第n帧的子指纹通常可以定义为:
步骤S5、将得到的所述梅尔频谱图分割后投入深度神经网络中进行特征提取,训练神经网络模型,保留最终更新后的参数,用于对歌曲进行流派分类。
频谱图是音频在频率和时间维度上的视觉表现。神经网络的模型有很多种,如卷积神经网络,循环神经网络等,下面取一个模型进行详细介绍。
梅尔尺度是一种非线性尺度单位,代表人耳等距离音高变化的感觉。因此我们选择梅尔频谱图作为深度神经网络模型的输入。
在模型的选择上,RNN在理解时序数据方面非常出色,而且t时刻的隐藏状态依赖于t-1时刻的隐藏状态,。梅尔频谱图有时间成分,RNNs可以更好地识别歌曲中的短期和长期时间特征。
而一首歌的梅尔频谱图更接近于一幅图像,每一幅都有自己独特的模式,所以选取卷积神经网络来对梅尔频谱图的图像层面进行处理。本实施例中,在得到目标光谱灰度图后,创建固定长度的谱图切片,并将它们作为代表流派的独立样本。为了方便,使用正方形切片,将光谱图切割成N*N像素的切片。例如将光谱图切割成128*128像素的切片,这表示每个切片中有2.56秒的数据值。
对于三维立体梅尔频谱图,可以使用1D或者2D卷积,不同的卷积操作所对应的模型也不一样,这里以1D卷积为例进行说明。模型使用一维CNN在时间维度上执行卷积操作。每个一维卷积层都从MEL谱图的一小片上提取特征。在卷积操作后应用RELU激活。对图像进行批处理归一化,最后进行一维最大池化,降低了图像的空间维数,防止了过拟合。这个操作链即1D卷积-RELU激活-Batch归一化-1D Max Pooling执行了3次。上述操作执行完毕后将一维卷积层的输出信息输入到LSTM中,LSTM需要找到歌曲的短期和长期结构。这里LSTM的结构有很多不同的形式,本实施例中LSTM使用96个隐藏单位。LSTM的输出被传递到一个64个单元的全连接层。模型的最终输出层是一个带有SoftMax激活和若干个个隐藏单元(与训练集中的类型数目相一致)来分配概率的全连接层。所有层之间均使用dropout和L2正则化,以减少模型过拟合。同时,模型可以使用Adam优化器进行训练,学习率为0.001,损失函数为分类交叉熵。
对上述实例中的卷积层的操作进行说明。Conv2D中的卷积核只沿两个维度移动,并且输入和输出数据都是三维的,一般用来处理图像数据。与Conv2D不同的是,Conv1D中的卷积核只沿一个维度移动,一维CNN可用于音频和文本数据,对于音频数据而言,这里我们将其表示为时间序列数据作为输入。一维CNN的输入和输出数据都是二维的,因为处理的对象是梅尔光谱图,所以这里需要三次Conv1D卷积操作。一维卷积核的宽度可以根据实际需要进行设定,例如其高度可以设置为5。而卷积核的高度将与每个时间步骤中的数据点数相同。
本发明在使用时,首先将要匹配的对象投入深度神经网络模型进行音乐流派预测,之后对于生成的音频指纹就可以只在相应的数据库中进行匹配,大大降低了需要分析匹配的数据量。
另外,因为深度神经网络的分类准确率并不能达到百分之百,因此,需要同时进行其余数据库的并行搜索,其结果作为备选结果一同输出。与前者不同的是,后者需要以一定的计算资源为代价来进行并行搜索,但不会耗费更多的时间。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种音频指纹库生成方法,其特征在于,包括以下步骤:
步骤S1、根据歌曲标签创建对应名称的数据库;根据歌曲标签确定流派,创建相应流派的数据库存储相同流派目标音频的歌曲信息和音频指纹;
步骤S2、对目标音频进行预处理;将目标音频从立体声转换为单声道,并对目标音频进行降采样;
步骤S3、对预处理后的目标音频通过傅里叶变换和梅尔频谱变换,获取目标音频的梅尔频谱图;
以帧为单位对预处理后的目标音频进行分割,按照预设帧重叠率将所述音频分割为若干音频帧;对每个分割后的音频帧进行短时傅里叶变换,转换为随时间变化的频谱片段,将所述频谱片段整合成频谱图;对所述频谱图进行梅尔频谱变换,将得到的所有的梅尔频谱图整合存储在本地文件中;
步骤S4、根据步骤S3获得的梅尔频谱图,将其映射到33个频率带中,提取音频特征,对所述音频特征进行编码,生成对应的音频指纹,并存储到相应的数据库中;
步骤S5、将得到的所述梅尔频谱图分割后投入深度神经网络中进行特征提取,训练神经网络模型,保留最终更新后的参数,用于对歌曲进行流派分类。
2.根据权利要求1所述的一种音频指纹库生成方法,其特征在于,所述步骤S3中通过傅里叶变换和梅尔频谱变换,获取目标音频的梅尔频谱图的具体步骤如下:
步骤S3.1、以帧为单位对预处理后的目标音频进行分割,将原始音频中帧的重叠率设为1/2~3/4;
步骤S3.2、对分割后的音频帧进行短时傅里叶变换,对转换后的音频帧进行压缩,并将得到的所述频谱片段整合转换为随时间变化的频谱图;
步骤S3.3、采用梅尔标度的三角形滤波器组转换频谱图,用对数函数对上述转换后的频谱图进行缩放,获取目标音频的梅尔频谱图。
3.根据权利要求1所述的一种音频指纹库生成方法,其特征在于,所述步骤S4中生成对应的音频指纹具体步骤如下:将梅尔频谱图中的频域划分为33个子带,每一帧提取32位的子指纹值,将得到的所述目标音频的音频指纹存入对应标签的数据库中。
4.一种用于权利要求1-3中任一项所述音频指纹库生成方法的音频指纹库生成装置,其特征在于,包括数据库创建模块、数据预处理模块、数据生成模块、音频指纹生成单元和神经网络模块;所述数据库创建模块用于创建不同流派标签下对应的数据库,来存储相应流派的歌曲信息和音频指纹;所述数据预处理模块将目标音频由立体声转换为单声道,对目标音频进行降采样;所述数据生成模块接收数据预处理模块降采样后的音频数据,对目标音频进行傅里叶变换生成随时间变化的频谱图,对频谱图进行梅尔谱图变换得到梅尔频谱图;所述音频指纹生成单元将生成的梅尔频谱图映射到33个频率带中,提取指纹后编码,将音频指纹存入相应的数据库;所述神经网络模块将生成的梅尔频谱图分割后投入神经网络中进行训练,保留最终更新后的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110506344.XA CN113421585A (zh) | 2021-05-10 | 2021-05-10 | 一种音频指纹库生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110506344.XA CN113421585A (zh) | 2021-05-10 | 2021-05-10 | 一种音频指纹库生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113421585A true CN113421585A (zh) | 2021-09-21 |
Family
ID=77712236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110506344.XA Pending CN113421585A (zh) | 2021-05-10 | 2021-05-10 | 一种音频指纹库生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421585A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666653A (zh) * | 2022-03-23 | 2022-06-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐片段的字幕显示方法、设备及可读存储介质 |
CN115410544A (zh) * | 2022-08-26 | 2022-11-29 | 镁佳(北京)科技有限公司 | 一种音效处理方法、装置及电子设备 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100086729A (ko) * | 2009-01-23 | 2010-08-02 | 원광대학교산학협력단 | 오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치 |
CN103403710A (zh) * | 2011-02-10 | 2013-11-20 | 雅虎公司 | 对来自音频信号的特征指纹的提取和匹配 |
CN103729368A (zh) * | 2012-10-13 | 2014-04-16 | 复旦大学 | 一种基于局部频谱图像描述子的鲁棒音频识别方法 |
CN106407960A (zh) * | 2016-11-09 | 2017-02-15 | 浙江师范大学 | 基于多特征音乐体载的分类方法及系统 |
CN108053836A (zh) * | 2018-01-18 | 2018-05-18 | 成都嗨翻屋文化传播有限公司 | 一种基于深度学习的音频自动化标注方法 |
CN109065071A (zh) * | 2018-08-31 | 2018-12-21 | 电子科技大学 | 一种基于迭代k-means算法的歌曲聚类方法 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN110120224A (zh) * | 2019-05-10 | 2019-08-13 | 平安科技(深圳)有限公司 | 鸟声识别模型的构建方法、装置、计算机设备及存储介质 |
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110472097A (zh) * | 2019-07-03 | 2019-11-19 | 平安科技(深圳)有限公司 | 乐曲自动分类方法、装置、计算机设备和存储介质 |
CN110600038A (zh) * | 2019-08-23 | 2019-12-20 | 北京工业大学 | 一种基于离散基尼系数的音频指纹降维方法 |
US20200074989A1 (en) * | 2018-08-28 | 2020-03-05 | International Business Machines Corporation | Low energy deep-learning networks for generating auditory features for audio processing pipelines |
CN111354373A (zh) * | 2018-12-21 | 2020-06-30 | 中国科学院声学研究所 | 一种基于神经网络中间层特征滤波的音频信号分类方法 |
CN111382302A (zh) * | 2018-12-28 | 2020-07-07 | 中国科学院声学研究所 | 一种基于变速模板的音频样例检索方法 |
CN111402919A (zh) * | 2019-12-12 | 2020-07-10 | 南京邮电大学 | 一种基于多尺度多视图的戏曲唱腔风格识别方法 |
CN112199548A (zh) * | 2020-09-28 | 2021-01-08 | 华南理工大学 | 一种基于卷积循环神经网络的音乐音频分类方法 |
CN112732972A (zh) * | 2020-12-24 | 2021-04-30 | 云境商务智能研究院南京有限公司 | 一种音频指纹生成系统及方法 |
CN112767958A (zh) * | 2021-02-26 | 2021-05-07 | 华南理工大学 | 一种基于零次学习的跨语种音色转换系统及方法 |
-
2021
- 2021-05-10 CN CN202110506344.XA patent/CN113421585A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100086729A (ko) * | 2009-01-23 | 2010-08-02 | 원광대학교산학협력단 | 오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치 |
CN103403710A (zh) * | 2011-02-10 | 2013-11-20 | 雅虎公司 | 对来自音频信号的特征指纹的提取和匹配 |
CN103729368A (zh) * | 2012-10-13 | 2014-04-16 | 复旦大学 | 一种基于局部频谱图像描述子的鲁棒音频识别方法 |
CN106407960A (zh) * | 2016-11-09 | 2017-02-15 | 浙江师范大学 | 基于多特征音乐体载的分类方法及系统 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN108053836A (zh) * | 2018-01-18 | 2018-05-18 | 成都嗨翻屋文化传播有限公司 | 一种基于深度学习的音频自动化标注方法 |
US20200074989A1 (en) * | 2018-08-28 | 2020-03-05 | International Business Machines Corporation | Low energy deep-learning networks for generating auditory features for audio processing pipelines |
CN109065071A (zh) * | 2018-08-31 | 2018-12-21 | 电子科技大学 | 一种基于迭代k-means算法的歌曲聚类方法 |
CN111354373A (zh) * | 2018-12-21 | 2020-06-30 | 中国科学院声学研究所 | 一种基于神经网络中间层特征滤波的音频信号分类方法 |
CN111382302A (zh) * | 2018-12-28 | 2020-07-07 | 中国科学院声学研究所 | 一种基于变速模板的音频样例检索方法 |
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110120224A (zh) * | 2019-05-10 | 2019-08-13 | 平安科技(深圳)有限公司 | 鸟声识别模型的构建方法、装置、计算机设备及存储介质 |
CN110472097A (zh) * | 2019-07-03 | 2019-11-19 | 平安科技(深圳)有限公司 | 乐曲自动分类方法、装置、计算机设备和存储介质 |
CN110600038A (zh) * | 2019-08-23 | 2019-12-20 | 北京工业大学 | 一种基于离散基尼系数的音频指纹降维方法 |
CN111402919A (zh) * | 2019-12-12 | 2020-07-10 | 南京邮电大学 | 一种基于多尺度多视图的戏曲唱腔风格识别方法 |
CN112199548A (zh) * | 2020-09-28 | 2021-01-08 | 华南理工大学 | 一种基于卷积循环神经网络的音乐音频分类方法 |
CN112732972A (zh) * | 2020-12-24 | 2021-04-30 | 云境商务智能研究院南京有限公司 | 一种音频指纹生成系统及方法 |
CN112767958A (zh) * | 2021-02-26 | 2021-05-07 | 华南理工大学 | 一种基于零次学习的跨语种音色转换系统及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666653A (zh) * | 2022-03-23 | 2022-06-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐片段的字幕显示方法、设备及可读存储介质 |
CN115410544A (zh) * | 2022-08-26 | 2022-11-29 | 镁佳(北京)科技有限公司 | 一种音效处理方法、装置及电子设备 |
CN115410544B (zh) * | 2022-08-26 | 2024-01-30 | 镁佳(北京)科技有限公司 | 一种音效处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Koduru et al. | Feature extraction algorithms to improve the speech emotion recognition rate | |
Sharma et al. | Trends in audio signal feature extraction methods | |
US11837208B2 (en) | Audio processing techniques for semantic audio recognition and report generation | |
Singh et al. | Multimedia analysis for disguised voice and classification efficiency | |
US20040172411A1 (en) | Method and device for producing a fingerprint and method and method and device for identifying an audio signal | |
Birajdar et al. | Speech/music classification using visual and spectral chromagram features | |
CN110310666B (zh) | 一种基于se卷积网络的乐器识别方法及系统 | |
CN1215491A (zh) | 语言处理 | |
CN109065071B (zh) | 一种基于迭代k-means算法的歌曲聚类方法 | |
KR20070061626A (ko) | 음악 파일 분류 방법 및 그 시스템 | |
CN113421585A (zh) | 一种音频指纹库生成方法及装置 | |
Reddy et al. | Audio compression with multi-algorithm fusion and its impact in speech emotion recognition | |
Birajdar et al. | Speech and music classification using spectrogram based statistical descriptors and extreme learning machine | |
Ghosal et al. | Speech/music classification using empirical mode decomposition | |
Sunija et al. | Comparative study of different classifiers for Malayalam dialect recognition system | |
Stasiak et al. | Analysis of time-frequency representations for musical onset detection with convolutional neural network | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
Ferroudj | Detection of rain in acoustic recordings of the environment using machine learning techniques | |
Yang et al. | Sound event detection in real-life audio using joint spectral and temporal features | |
Patil et al. | Content-based audio classification and retrieval: A novel approach | |
Mahadevaswamy et al. | Robust perceptual wavelet packet features for recognition of continuous Kannada speech | |
Spoorthy et al. | Polyphonic Sound Event Detection Using Mel-Pseudo Constant Q-Transform and Deep Neural Network | |
Thiruvengatanadhan | Music genre classification using mfcc and aann | |
Ghosal et al. | Speech/music discrimination using perceptual feature | |
Therese et al. | A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |