CN108766461A - 音频特征提取方法及装置 - Google Patents

音频特征提取方法及装置 Download PDF

Info

Publication number
CN108766461A
CN108766461A CN201810781268.1A CN201810781268A CN108766461A CN 108766461 A CN108766461 A CN 108766461A CN 201810781268 A CN201810781268 A CN 201810781268A CN 108766461 A CN108766461 A CN 108766461A
Authority
CN
China
Prior art keywords
audio
audio data
network model
neural network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810781268.1A
Other languages
English (en)
Other versions
CN108766461B (zh
Inventor
王辰龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meitu Technology Co Ltd
Original Assignee
Xiamen Meitu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meitu Technology Co Ltd filed Critical Xiamen Meitu Technology Co Ltd
Priority to CN201810781268.1A priority Critical patent/CN108766461B/zh
Publication of CN108766461A publication Critical patent/CN108766461A/zh
Application granted granted Critical
Publication of CN108766461B publication Critical patent/CN108766461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种音频特征提取方法及装置。该方法包括:从目标音频数据中提取低层音频特征;将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征;通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。由此,本申请提供的音频特征提取方法及装置能够从整体上理解音频语义信息,兼顾音频之间的关联性和差异性,同时提高了音频分类检索效率,支持海量数据的实时检索。

Description

音频特征提取方法及装置
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种音频特征提取方法及装置。
背景技术
目前,在音频的分类与检索中,提取音频的共性特征非常重要,这些共性特征既需要相互关联,又需要保持一定的差异性。在分类场景中,需要共性特征的关联性较强,用于区分不同的类别。而在检索场景中,需要共性特征的差异性较强,保证每个样本具有独特的属性,检索出与其相似的样本。
现有的特征提取方法主要是提取音频的低层语义特征,然而,由于音频的低层语义特征的描述性较弱,只能从局部上理解音频信号,无法从整体上理解音频语义信息,因而导致音频的分类与检索不准确。并且,音频的低层语义特征一般以浮点数的形式表示,当计算音频特征之间的相似性时,所需的计算量较大,效率较低,无法支持实时性和海量数据的计算。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种音频特征提取方法及装置,能够从整体上理解音频语义信息,兼顾音频之间的关联性和差异性,同时提高了音频分类检索效率,支持海量数据的实时检索。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种音频特征提取方法,所述方法包括:
从目标音频数据中提取低层音频特征;
将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征;
通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。
可选地,在所述将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征的步骤之前,所述方法还包括:
训练所述深度神经网络模型;
所述训练所述深度神经网络模型的步骤,包括:
获取音频数据样本集,其中,所述音频数据样本集包括多个类别的原始音频样本;
对音频数据样本集进行扩充,得到扩充后的音频数据样本集,所述扩充后的音频数据样本集包括多个类别的音频样本集合,每个类别的音频样本集包括该类别的原始音频样本以及基于该类别的原始音频样本扩充得到的多个扩充音频样本;
基于所述扩充后的音频数据样本集创建多个索引组合矩阵,其中,每个索引组合矩阵包括锚示例、正示例和负示例,所述锚示例和所述正示例来源于同一类别的音频样本集合,所述负示例来源于与所述锚示例和所述正示例不同类别的音频样本集合;
将所述多个索引组合矩阵输入到深度神经网络模型进行训练,并将三元损失函数作为所述深度神经网络模型的损失函数计算得到Loss值;
基于所述Loss值更新所述深度神经网络模型的网络参数并重复上述训练过程,直到满足训练终止条件时输出训练完成的深度神经网络模型。
可选地,所述对音频数据样本集进行扩充,得到扩充后的音频数据样本集的步骤,包括:
针对所述音频数据样本集中的每个类别的原始音频样本,对该类别的原始音频样本进行扩充处理,得到该类别的原始音频样本的多个扩充音频样本;
其中,上述扩充处理的方式包括以下方式中的一种或者多种组合:音频序列剪裁、音频序列重复、音频序列旋转、音频音调提高、音频音调降低、音频高斯噪声、音频数据压缩、音频数据扩展。
可选地,所述基于所述扩充后的音频数据样本集创建多个索引组合矩阵的步骤,包括:
将所述扩充后的音频数据样本集中的每个类别的音频样本集添加为对应的标签并建立每个标签的索引值;
将各个索引值随机打乱,得到打乱顺序后的各个标签;
从同一标签中随机选取锚示例和正示例,并随机从其它标签中选取负示例,创建所述锚示例、正示例和负示例的索引组合矩阵,以此类推,创建多个索引组合矩阵。
可选地,所述将所述多个索引组合矩阵输入到深度神经网络模型进行训练,并将三元损失函数作为所述深度神经网络模型的损失函数计算得到Loss值的步骤,包括:
将每个索引组合矩阵输入到深度神经网络模型中,分别通过所述深度神经网络模型中的卷积神经网络和长短时记忆网络进行特征提取,并采用三元损失函数作为所述深度神经网络模型的损失函数计算得到对应的Loss值;
所述三元损失函数中的公式如下:
其中,L为Loss值,N为索引组合矩阵总数,xi表示第i个索引组合矩阵,为锚示例,为正示例,为负示例,α为超参,用于限定需要优化的正示例和负示例之间的距离。
可选地,所述通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码的步骤,包括:
通过所述sigmoid函数将提取到的高层深度特征的各个特征值映射到0到1的区间,根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成音频深度哈希编码并输出,其中,所述sigmoid函数的公式如下:
其中,x为提取到的高层深度特征的各个特征值。
可选地,所述通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码的步骤之后,所述方法还包括:
计算所述目标音频数据的音频深度哈希编码与检索数据集中的每个音频数据中对应位置的音频深度哈希编码之间的汉明距离;
根据计算得到的汉明距离在所述检索数据集中查询与所述目标音频数据相关的音频数据。
第二方面,本申请实施例还提供一种音频特征提取装置,所述装置包括:
提取模块,用于从目标音频数据中提取低层音频特征;
输入模块,用于将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征;
第一计算模块,用于通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。
第三方面,本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的音频特征提取方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供的音频特征提取方法及装置,通过从目标音频数据中提取低层音频特征,并将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征,最后通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。由此,通过提取音频的高层深度特征,能够从整体上理解音频语义信息,兼顾音频之间的关联性和差异性,同时以哈希编码的方式存储音频特征,支持快速地相似性计算,极大提高了音频分类检索效率,支持海量数据的实时检索。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的音频特征提取方法的一种流程示意图;
图2为本申请实施例提供的音频特征提取方法的另一种流程示意图;
图3为本申请实施例提供的音频特征提取装置的一种功能模块图;
图4为本申请实施例提供的音频特征提取装置的另一种功能模块图;
图5为本申请实施例提供的音频特征提取装置的另一种功能模块图;
图6为本申请实施例提供的用于上述音频特征提取方法的音频特征提取设备的一种结构示意框图。
图标:100-音频特征提取设备;110-总线;120-处理器;130-存储介质;140-总线接口;150-网络适配器;160-用户接口;200-音频特征提取装置;209-训练模块;210-提取模块;220-输入模块;230-第一计算模块;240-第二计算模块;250-查询模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在音频的分类与检索中,提取音频的共性特征非常重要,这些共性特征既需要相互关联,又需要保持一定的差异性。在分类场景中,需要共性特征的关联性较强,用于区分不同的类别,而在检索场景中,需要共性特征的差异性较强,保证每个样本具有独特的属性,检索出与其相似的样本。
提取音频的共性特征的过程,就是特征提取。现有的特征提取方法,包括音频时域特征和音频频域特征两种类型。音频时域特征是在原始信号序列随着时间的变化过程中,提取与时间相关的统计特性,一般使用概率统计的方式,常见有均值、方差、协方差、偏度、峰值等。音频频域特征通常被用来发现信号中的周期性特性,频域分析主要使用傅里叶变换计算,将原始信号转换为频域序列,序列中的值对应于时间区域中频率的能量值。其中,常见的音频特征提取方式,包括梅尔频率倒谱系数(MFCC)、色度特征(Chroma)、短时平均过零率(ZCR)、频谱均方根值、频谱中心矩、频谱单调值、频谱带宽和频谱多项式系数等等,还有这些方式的变种。
经本申请发明人研究发现,上述音频特征提取方式,无论是时域特征,还是频域特征,一般都与音频信号的时序相关,特征的维度与音频的时长成正相关性,即音频越长,所提取的特征维度越多,每个特征值表示一段时间内音频的特性。这些音频特征是音频信号的低层抽象,找到信号数值之间的共性,属于音频的低层语义特征。然而,这些方法具有一些不足:
其一,不同长度的音频提取特征的维度不同,较长音频需要分段,通过局部的相似性计算,度量音频之间的相似关系。
其二,从音频信号中提取的音频特征,与信号数值的相关性较强,属于音频的低层特征,无法描述音频的高层语义,如说话的情感或音乐的旋律等。
其三,音频的低层特征一般以浮点数的形式表示,当计算特征之间的相似性时,所需的计算量较大,效率较低,无法支持实时性和海量数据的计算。
因此,对于不同长度的音频的比较,需要将长音频分段处理,再与短音频进行匹配,这样就会丢失长音频的上下文信息。并且,基于音频信号的音频低层特征,可以抽象信号的一些特性,无法从整体上理解音频的高层语义,在音频的分类和检索任务中,低层特征无法兼顾音频之间的关联性和差异性,导致不同任务之间的效果差距较大,泛化能力不足。
以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
为了解决上述问题,请参阅图1,为本申请实施例提供的音频特征提取方法的一种流程示意图。所应说明的是,本申请实施例提供的音频特征提取方法不以图1及以下所述的具体顺序为限制。所述方法的具体流程如下:
步骤S210,从目标音频数据中提取低层音频特征。
本实施例中,首先从目标音频数据中提取低层音频特征,其中,所述低层音频特征可以包括:短时平均过零率,用于判断音频的清浊音;色度特征,用于模拟音乐中的音阶特性;梅尔频率倒谱系数,用于模拟人类的听觉感知特性;以及频谱均方根值、频谱中心矩、频谱单调值、频谱带宽、频谱多项式系数等频谱相关的特征值,在此不作具体限制。
步骤S220,将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征。
本实施例中,所述预先训练的深度神经网络模型可拥有提取音频内容中高层深度特征的能力。下面首先对所述深度神经网络模型的训练过程进行阐述:
首先,获取音频数据样本集,其中,所述音频数据样本集包括多个类别的原始音频样本,例如情歌、说唱、聊天、催眠、乐曲等类别。为了保证深度神经网络模型能够兼顾音频之间的关联性和差异性,这些原始音频样本的长度可以各不相同,并尽量确保每个音频的内容均不相同,通过收集这些原始音频样本组成音频数据样本集。
接着,对音频数据样本集进行扩充,得到扩充后的音频数据样本集。具体地,可以针对所述音频数据样本集中的每个类别的原始音频样本,对该类别的原始音频样本进行扩充处理,得到该类别的原始音频样本的多个扩充音频样本。其中,上述扩充处理的方式包括以下方式中的一种或者多种组合:音频序列剪裁、音频序列重复、音频序列旋转、音频音调提高、音频音调降低、音频高斯噪声、音频数据压缩、音频数据扩展。由此,所述扩充后的音频数据样本集包括多个类别的音频样本集合,每个类别的音频样本集包括该类别的原始音频样本以及基于该类别的原始音频样本扩充得到的多个扩充音频样本。
接着,基于所述扩充后的音频数据样本集创建多个索引组合矩阵,其中,每个索引组合矩阵包括锚示例、正示例和负示例,所述锚示例和所述正示例来源于同一类别的音频样本集合,所述负示例来源于与所述锚示例和所述正示例不同类别的音频样本集合。作为一种实施方式,可以将所述扩充后的音频数据样本集中的每个类别的音频样本集添加为对应的标签并建立每个标签的索引值,再将各个索引值随机排序,得到随机排序后的各个标签,最后从同一标签中随机选取锚示例和正示例,并随机从其它标签中选取负示例,创建所述锚示例、正示例和负示例的索引组合矩阵,以此类推,创建多个索引组合矩阵。由此,这样所创建的索引组合矩阵,能够保证音频样本的分布均匀,避免音频样本分布集中。
而后,将所述多个索引组合矩阵输入到深度神经网络模型进行训练,并将三元损失函数作为所述深度神经网络模型的损失函数计算得到Loss值。
具体地,所述深度神经网络模型中包括有卷积神经网络和长短时记忆网络,通过将每个索引组合矩阵输入到深度神经网络模型中,分别通过所述深度神经网络模型中的卷积神经网络和长短时记忆网络进行特征提取。其中,在卷积神经网络中,通过将音频特征与卷积核相乘,抽象波形序列,学习空间关系,也起到数据降维的作用。在长短时记忆操作中,通过记忆或遗忘前序状态,学习音频特征之间的时序关系。
接着,采用三元损失函数作为所述深度神经网络模型的损失函数计算得到对应的Loss值,其中,所述三元损失函数中的公式如下:
其中,L为Loss值,N为索引组合矩阵总数,xi表示第i个索引组合矩阵,为锚示例,为正示例,为负示例,α为超参,用于限定需要优化的正示例和负示例之间的距离。
最后,基于所述Loss值更新所述深度神经网络模型的网络参数并重复上述训练过程,直到满足训练终止条件时输出训练完成的深度神经网络模型。其中,所述训练终止条件可以是所述Loss值不再下降,或者训练迭代次数达到预设次数阈值。
由此,训练得到的深度神经网络模型的各层网络参数固定,并拥有提取音频内容中高层深度特征的能力。在应用过程中,通过步骤S210提取到目标音频数据的低层音频特征,并输入到所述深度神经网络模型中,并在网络模型的最后一层输出该目标音频数据的高层深度特征。由此,通过提取高层深度特征能够从整体上理解音频语义信息,并兼顾音频之间的关联性和差异性,使得较长音频不需分段即可直接用于音频分类和检索,避免了将长音频数据分段处理后导致丢失长音频的上下文信息的情况。
步骤S230,通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。
本实施例中,可以通过所述sigmoid函数将提取到的高层深度特征的各个特征值映射到0到1的区间,根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成音频深度哈希编码并输出,其中,所述设定阈值可以是0.5,所述sigmoid函数的公式如下:
其中,x为提取到的高层深度特征的各个特征值,f(x)为各个特征值映射到的0到1的区间,通过将f(x)与设定阈值0.5进行比较,若f(x)大于0.5,则取1,若f(x)不大于于0.5,则取0,由此得到多个0或者1的二进制编码,以形成音频深度哈希编码。由此,所述音频深度哈希编码是音频低层特征的二次抽象,属于音频的高层语义特征,可以从音频的内容上理解音频所要表述的语义信息。同时通过以哈希编码的方式存储音频特征,支持快速地相似性计算,极大提高了音频分类检索效率,支持海量数据的实时检索。
进一步地,在应用层面上,请参阅图2,在步骤S230之后,所述方法还可以包括如下步骤:
步骤S240,计算所述目标音频数据的音频深度哈希编码与检索数据集中的每个音频数据中对应位置的音频深度哈希编码之间的汉明距离。
步骤S250,根据计算得到的汉明距离在所述检索数据集中查询与所述目标音频数据相关的音频数据。
本实施例中,可根据所述目标音频数据的音频深度哈希编码的汉明距离进行相似音频检索的任务,在被检索数据集中只对查询音频中相应的最重要的哈希特征位置进行检索,可以有效提高检索精度。由此,通过计算所述目标音频数据的音频深度哈希编码与检索数据集中的每个音频数据中对应位置的音频深度哈希编码之间的汉明距离,并根据计算得到的汉明距离可以计算到所述目标音频数据与所述检索数据集中各个音频数据的相似性,由于是基于音频深度哈希编码计算的,计算效率极大提高,支持海量数据的实时计算。
进一步地,请参阅图3,本申请实施例还提供一种音频特征提取装置200,所述装置可以包括:
提取模块210,用于从目标音频数据中提取低层音频特征;
输入模块220,用于将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征;
第一计算模块230,用于通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。
可选地,请参阅图4,所述装置还可以包括:
训练模块209,用于训练所述深度神经网络模型。
所述训练所述深度神经网络模型的方式,包括:
获取音频数据样本集,其中,所述音频数据样本集中包括有多个类别的原始音频样本;
对音频数据样本集进行扩充,得到扩充后的音频数据样本集,所述扩充后的音频数据样本集包括多个类别的音频样本集合,每个类别的音频样本集包括该类别的原始音频样本以及基于该类别的原始音频样本扩充得到的多个扩充音频样本;
基于所述扩充后的音频数据样本集创建多个索引组合矩阵,其中,每个索引组合矩阵包括锚示例、正示例和负示例,所述锚示例和所述正示例来源于同一类别的音频样本集合,所述负示例来源于与所述锚示例和所述正示例不同类别的音频样本集合;
将所述多个索引组合矩阵输入到深度神经网络模型进行训练,并将三元损失函数作为所述深度神经网络模型的损失函数计算得到Loss值;
基于所述Loss值更新所述深度神经网络模型的网络参数并重复上述训练过程,直到满足训练终止条件时输出训练完成的深度神经网络模型。
可选地,请参阅图6,所述装置还可以包括:
第二计算模块240,用于计算所述目标音频数据的音频深度哈希编码与检索数据集中的每个音频数据中对应位置的音频深度哈希编码之间的汉明距离;
查询模块250,用于根据计算得到的汉明距离在所述检索数据集中查询与所述目标音频数据相关的音频数据。
可以理解的是,本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述,在此不再重复赘述。
进一步地,请参阅图6,为本申请实施例提供的用于上述音频特征提取方法的音频特征提取设备100的一种结构示意框图。本实施例中,所述音频特征提取设备100可以由总线110作一般性的总线体系结构来实现。根据音频特征提取设备100的具体应用和整体设计约束条件,总线110可以包括任意数量的互连总线和桥接。总线110将各种电路连接在一起,这些电路包括处理器120、存储介质130和总线接口140。可选地,音频特征提取设备100可以使用总线接口140将网络适配器150等经由总线110连接。网络适配器150可用于实现音频特征提取设备100中物理层的信号处理功能,并通过天线实现射频信号的发送和接收。用户接口160可以连接外部设备,例如:键盘、显示器、鼠标或者操纵杆等。总线110还可以连接各种其它电路,如定时源、外围设备、电压调节器或者功率管理电路等,这些电路是本领域所熟知的,因此不再详述。
可以替换的,音频特征提取设备100也可配置成通用处理系统,例如通称为芯片,该通用处理系统包括:提供处理功能的一个或多个微处理器,以及提供存储介质130的至少一部分的外部存储器,所有这些都通过外部总线体系结构与其它支持电路连接在一起。
可替换的,音频特征提取设备100可以使用下述来实现:具有处理器120、总线接口140、用户接口160的ASIC(专用集成电路);以及集成在单个芯片中的存储介质130的至少一部分,或者,音频特征提取设备100可以使用下述来实现:一个或多个FPGA(现场可编程门阵列)、PLD(可编程逻辑器件)、控制器、状态机、门逻辑、分立硬件部件、任何其它适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
其中,处理器120负责管理总线110和一般处理(包括执行存储在存储介质130上的软件)。处理器120可以使用一个或多个通用处理器和/或专用处理器来实现。处理器120的例子包括微处理器、微控制器、DSP处理器和能够执行软件的其它电路。应当将软件广义地解释为表示指令、数据或其任意组合,而不论是将其称作为软件、固件、中间件、微代码、硬件描述语言还是其它。
在图6中存储介质130被示为与处理器120分离,然而,本领域技术人员很容易明白,存储介质130或其任意部分可位于音频特征提取设备100之外。举例来说,存储介质130可以包括传输线、用数据调制的载波波形、和/或与无线节点分离开的计算机制品,这些介质均可以由处理器120通过总线接口140来访问。可替换地,存储介质130或其任意部分可以集成到处理器120中,例如,可以是高速缓存和/或通用寄存器。
所述处理器120可执行上述实施例,具体地,所述存储介质130中可以存储有所述音频特征提取装置200,所述处理器120可以用于执行所述音频特征提取装置200。
综上所述,本申请实施例提供的音频特征提取方法及装置,通过从目标音频数据中提取低层音频特征,并将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征,最后通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。由此,通过提取音频的高层深度特征,能够从整体上理解音频语义信息,兼顾音频之间的关联性和差异性,同时以哈希编码的方式存储音频特征,支持快速地相似性计算,极大提高了音频分类检索效率,支持海量数据的实时检索。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
可以替换的,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的电子设备、服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种音频特征提取方法,其特征在于,所述方法包括:
从目标音频数据中提取低层音频特征;
将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征;
通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。
2.根据权利要求1所述的音频特征提取方法,其特征在于,在所述将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征的步骤之前,所述方法还包括:
训练所述深度神经网络模型;
所述训练所述深度神经网络模型的步骤,包括:
获取音频数据样本集,其中,所述音频数据样本集包括多个类别的原始音频样本;
对音频数据样本集进行扩充,得到扩充后的音频数据样本集,所述扩充后的音频数据样本集包括多个类别的音频样本集合,每个类别的音频样本集包括该类别的原始音频样本以及基于该类别的原始音频样本扩充得到的多个扩充音频样本;
基于所述扩充后的音频数据样本集创建多个索引组合矩阵,其中,每个索引组合矩阵包括锚示例、正示例和负示例,所述锚示例和所述正示例来源于同一类别的音频样本集合,所述负示例来源于与所述锚示例和所述正示例不同类别的音频样本集合;
将所述多个索引组合矩阵输入到深度神经网络模型进行训练,并将三元损失函数作为所述深度神经网络模型的损失函数计算得到Loss值;
基于所述Loss值更新所述深度神经网络模型的网络参数并重复上述训练过程,直到满足训练终止条件时输出训练完成的深度神经网络模型。
3.根据权利要求2所述的音频特征提取方法,其特征在于,所述对音频数据样本集进行扩充,得到扩充后的音频数据样本集的步骤,包括:
针对所述音频数据样本集中的每个类别的原始音频样本,对该类别的原始音频样本进行扩充处理,得到该类别的原始音频样本的多个扩充音频样本;
其中,上述扩充处理的方式包括以下方式中的一种或者多种组合:音频序列剪裁、音频序列重复、音频序列旋转、音频音调提高、音频音调降低、音频高斯噪声、音频数据压缩、音频数据扩展。
4.根据权利要求2所述的音频特征提取方法,其特征在于,所述基于所述扩充后的音频数据样本集创建多个索引组合矩阵的步骤,包括:
将所述扩充后的音频数据样本集中的每个类别的音频样本集添加为对应的标签并建立每个标签的索引值;
将各个索引值随机排序,得到随机排序后的各个标签;
从同一标签中随机选取锚示例和正示例,并随机从其它标签中选取负示例,创建所述锚示例、正示例和负示例的索引组合矩阵,以此类推,创建多个索引组合矩阵。
5.根据权利要求2所述的音频特征提取方法,其特征在于,所述将所述多个索引组合矩阵输入到深度神经网络模型进行训练,并将三元损失函数作为所述深度神经网络模型的损失函数计算得到Loss值的步骤,包括:
将每个索引组合矩阵输入到深度神经网络模型中,分别通过所述深度神经网络模型中的卷积神经网络和长短时记忆网络进行特征提取,并采用三元损失函数作为所述深度神经网络模型的损失函数计算得到对应的Loss值;
所述三元损失函数中的公式如下:
其中,L为Loss值,N为索引组合矩阵总数,xi表示第i个索引组合矩阵,xi a为锚示例,为正示例,xi n为负示例,α为超参,用于限定需要优化的正示例和负示例之间的距离。
6.根据权利要求1所述的音频特征提取方法,其特征在于,所述通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码的步骤,包括:
通过所述sigmoid函数将提取到的高层深度特征的各个特征值映射到0到1的区间,根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成音频深度哈希编码并输出,其中,所述sigmoid函数的公式如下:
其中,x为提取到的高层深度特征的各个特征值。
7.根据权利要求1所述的音频特征提取方法,其特征在于,所述通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码的步骤之后,所述方法还包括:
计算所述目标音频数据的音频深度哈希编码与检索数据集中的每个音频数据中对应位置的音频深度哈希编码之间的汉明距离;
根据计算得到的汉明距离在所述检索数据集中查询与所述目标音频数据相关的音频数据。
8.一种音频特征提取装置,其特征在于,所述装置包括:
提取模块,用于从目标音频数据中提取低层音频特征;
输入模块,用于将所述低层音频特征输入到预先训练的深度神经网络模型中,提取所述目标音频数据的高层深度特征;
第一计算模块,用于通过sigmoid函数对提取到的高层深度特征进行计算,得到所述目标音频数据的音频深度哈希编码,所述音频深度哈希编码作为所述目标音频数据的音频特征表示。
9.根据权利要求8所述的音频特征提取装置,其特征在于,所述装置还包括:
训练模块,用于训练所述深度神经网络模型;
所述训练所述深度神经网络模型的方式,包括:
获取音频数据样本集,其中,所述音频数据样本集包括多个类别的原始音频样本;
对音频数据样本集进行扩充,得到扩充后的音频数据样本集,所述扩充后的音频数据样本集包括多个类别的音频样本集合,每个类别的音频样本集包括该类别的原始音频样本以及基于该类别的原始音频样本扩充得到的多个扩充音频样本;
基于所述扩充后的音频数据样本集创建多个索引组合矩阵,其中,每个索引组合矩阵包括锚示例、正示例和负示例,所述锚示例和所述正示例来源于同一类别的音频样本集合,所述负示例来源于与所述锚示例和所述正示例不同类别的音频样本集合;
将所述多个索引组合矩阵输入到深度神经网络模型进行训练,并将三元损失函数作为所述深度神经网络模型的损失函数计算得到Loss值;
基于所述Loss值更新所述深度神经网络模型的网络参数并重复上述训练过程,直到满足训练终止条件时输出训练完成的深度神经网络模型。
10.根据权利要求8所述的音频特征提取装置,其特征在于,所述装置还包括:
第二计算模块,用于计算所述目标音频数据的音频深度哈希编码与检索数据集中的每个音频数据中对应位置的音频深度哈希编码之间的汉明距离;
查询模块,用于根据计算得到的汉明距离在所述检索数据集中查询与所述目标音频数据相关的音频数据。
CN201810781268.1A 2018-07-17 2018-07-17 音频特征提取方法及装置 Active CN108766461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810781268.1A CN108766461B (zh) 2018-07-17 2018-07-17 音频特征提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810781268.1A CN108766461B (zh) 2018-07-17 2018-07-17 音频特征提取方法及装置

Publications (2)

Publication Number Publication Date
CN108766461A true CN108766461A (zh) 2018-11-06
CN108766461B CN108766461B (zh) 2021-01-26

Family

ID=63974048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810781268.1A Active CN108766461B (zh) 2018-07-17 2018-07-17 音频特征提取方法及装置

Country Status (1)

Country Link
CN (1) CN108766461B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
CN110379419A (zh) * 2019-07-16 2019-10-25 湖南检信智能科技有限公司 基于卷积神经网络的语音特征匹配方法
CN110459209A (zh) * 2019-08-20 2019-11-15 深圳追一科技有限公司 语音识别方法、装置、设备及存储介质
CN110931045A (zh) * 2019-12-20 2020-03-27 重庆大学 基于卷积神经网络的音频特征生成方法
CN111429891A (zh) * 2020-03-30 2020-07-17 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置、设备及可读存储介质
CN112019786A (zh) * 2020-08-24 2020-12-01 上海松鼠课堂人工智能科技有限公司 智能教学录屏方法和系统
CN112035700A (zh) * 2020-08-31 2020-12-04 兰州理工大学 一种基于cnn的语音深度哈希学习方法及系统
CN113567926A (zh) * 2021-09-24 2021-10-29 杭州格物智安科技有限公司 一种设备跟踪方法、系统及装置
CN115376560A (zh) * 2022-08-23 2022-11-22 东华大学 轻度认知障碍早期筛查的语音特征编码模型及其训练方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269065A (ja) * 2007-04-17 2008-11-06 Nippon Telegr & Teleph Corp <Ntt> ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
CN102405495A (zh) * 2009-03-11 2012-04-04 谷歌公司 使用稀疏特征对信息检索进行音频分类
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN106940998A (zh) * 2015-12-31 2017-07-11 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN108053836A (zh) * 2018-01-18 2018-05-18 成都嗨翻屋文化传播有限公司 一种基于深度学习的音频自动化标注方法
CN108122562A (zh) * 2018-01-16 2018-06-05 四川大学 一种基于卷积神经网络和随机森林的音频分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269065A (ja) * 2007-04-17 2008-11-06 Nippon Telegr & Teleph Corp <Ntt> ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
CN102405495A (zh) * 2009-03-11 2012-04-04 谷歌公司 使用稀疏特征对信息检索进行音频分类
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN106940998A (zh) * 2015-12-31 2017-07-11 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN108122562A (zh) * 2018-01-16 2018-06-05 四川大学 一种基于卷积神经网络和随机森林的音频分类方法
CN108053836A (zh) * 2018-01-18 2018-05-18 成都嗨翻屋文化传播有限公司 一种基于深度学习的音频自动化标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭永帅: "基于音频指纹和版本识别的音乐检索技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
CN110379419A (zh) * 2019-07-16 2019-10-25 湖南检信智能科技有限公司 基于卷积神经网络的语音特征匹配方法
CN110459209A (zh) * 2019-08-20 2019-11-15 深圳追一科技有限公司 语音识别方法、装置、设备及存储介质
CN110931045A (zh) * 2019-12-20 2020-03-27 重庆大学 基于卷积神经网络的音频特征生成方法
CN111429891A (zh) * 2020-03-30 2020-07-17 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置、设备及可读存储介质
CN111429891B (zh) * 2020-03-30 2022-03-04 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置、设备及可读存储介质
CN112019786A (zh) * 2020-08-24 2020-12-01 上海松鼠课堂人工智能科技有限公司 智能教学录屏方法和系统
CN112035700A (zh) * 2020-08-31 2020-12-04 兰州理工大学 一种基于cnn的语音深度哈希学习方法及系统
CN112035700B (zh) * 2020-08-31 2022-09-13 兰州理工大学 一种基于cnn的语音深度哈希学习方法及系统
CN113567926A (zh) * 2021-09-24 2021-10-29 杭州格物智安科技有限公司 一种设备跟踪方法、系统及装置
CN115376560A (zh) * 2022-08-23 2022-11-22 东华大学 轻度认知障碍早期筛查的语音特征编码模型及其训练方法

Also Published As

Publication number Publication date
CN108766461B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN108766461A (zh) 音频特征提取方法及装置
Demir et al. Towards the classification of heart sounds based on convolutional deep neural network
Shokoohi-Yekta et al. Discovery of meaningful rules in time series
US10599686B1 (en) Method and system for extracting information from graphs
CN109800720B (zh) 情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质
CN103440313A (zh) 基于音频指纹特征的音乐检索系统
CN106874279A (zh) 生成应用类别标签的方法及装置
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
JP2022046759A (ja) 検索方法、装置、電子機器及び記憶媒体
US20210183526A1 (en) Unsupervised taxonomy extraction from medical clinical trials
CN111782863B (zh) 音频分段方法、装置、存储介质及电子设备
Garland et al. The devil is in the detail: quantifying vocal variation in a complex, multi-levelled, and rapidly evolving display
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
US20180225382A1 (en) System and method for automatic creation of ontological databases and semantic searching
Van Balen et al. Corpus Analysis Tools for Computational Hook Discovery.
CN111462774B (zh) 一种基于深度学习的音乐情感可信分类方法
CN114897157A (zh) 节拍重拍联合检测模型的训练及节拍重拍联合检测方法
Sharma et al. Novel hybrid model for music genre classification based on support vector machine
Wu [Retracted] Research on Automatic Classification Method of Ethnic Music Emotion Based on Machine Learning
CN106407387A (zh) 一种针对医疗诊断文本的概念连接方法
CN112199958A (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN102841932A (zh) 一种基于内容的音频语义特征相似度比较方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
EP3477505B1 (en) Fingerprint clustering for content-based audio recogntion
Pikrakis et al. Unsupervised singing voice detection using dictionary learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant