CN109002529B - 音频检索方法及装置 - Google Patents
音频检索方法及装置 Download PDFInfo
- Publication number
- CN109002529B CN109002529B CN201810781178.2A CN201810781178A CN109002529B CN 109002529 B CN109002529 B CN 109002529B CN 201810781178 A CN201810781178 A CN 201810781178A CN 109002529 B CN109002529 B CN 109002529B
- Authority
- CN
- China
- Prior art keywords
- audio
- feature
- preset
- depth
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 44
- 238000013136 deep learning model Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000007405 data analysis Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种音频检索方法及装置,方法包括:提取目标音频的多个音频特征,得到该目标音频的音频特征组合;将目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量;根据预设阈值对多个深度特征向量进行转化处理,得到与目标音频对应的二进制的特征编码,特征编码的位数为预设数量;根据目标音频的特征编码在预设音频库中进行检索;根据与目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果。如此,使得用于检索的特征更能从整体上反映音频的特性,并且音频的检索不受音频长度的影响,检索效率也更高。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种音频检索方法及装置。
背景技术
在一些音频检索场景中,可能需要根据某段音频在已知的音频库中检索相似或相同的音频。这种情况下,需要基于音频的自身的一些特征进行检索,现有的特征提取方法主要是提取音频中一段时长的底层特征进行比对检索,这些底层特征容易受到提取时长的影响,无法准确反映音频的特征,并且特征数据复杂,极大地影响了检索比对的速度。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种音频检索方法,所述方法包括:
提取目标音频的多个音频特征,得到该目标音频的音频特征组合;
将所述目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量;
根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述目标音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量;
根据所述目标音频的特征编码在预设音频库中进行检索,其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码;
根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果。
可选地,所述方法还包括:
获得多组训练样本,其中,每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合;
将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型,其中,针对每组训练样本,将所述第一音频的音频特征组合作为所述三元损失函数的锚示例,将所述第二音频的音频特征组合作为所述三元损失函数的正示例,将所述第三音频的音频特征组合作为所述三元损失函数的负示例;
提取预设音频库中已知音频的音频特征组合,针对所述预设音频库中的每个已知音频,将所述已知音频的音频特征组合输入所述训练完成的深度学习模型,得到该已知音频对应的预设数量的深度特征向量;
根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述已知音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
可选地,所述根据预设阈值对所述多个深度特征向量进行转化处理的步骤包括:
对所述多个深度特征向量进行归一化处理,使所述多个深度特征向量的值映射至[0,1]的区间;
将归一化后的多个特征向量中,大于所述预设阈值的特征向量的值替换为1,将不大于所述预设阈值的特征向量的值替换为0,得到所述预设数量位的二进制的特征编码。
可选地,所述对所述多个深度特征向量进行归一化处理的步骤,包括:
分别将每个所述深度特征向量的值输入sigmoid函数,得到该深度特征向量在[0,1]区间中的映射值;所述sigmoid函数的公式如下:
其中,x为所述深度特征向量的值。
可选地,所述提取目标音频的多个音频特征的步骤之前,所述方法还包括:
对所述目标音频进行解码,获得目标音频的音频帧序列和音频帧率;
根据所述音频帧序列的值过滤剔除声音强度低于预设分贝值的部分。
可选地,所述多个音频特征包括梅尔频率倒谱系数、色度特征、短时平均过零率、频谱均方根值、频谱中心矩、频谱单调值、频谱带宽或频谱多项式系数。
本申请的另一目的在于提供一种音频检索装置,所述装置包括:
底层特征提取模块,用于提取目标音频的多个音频特征,得到该目标音频的音频特征组合;
深度特征提取模块,用于将所述目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量;
编码模块,用于根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述目标音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量;
检索模块,用于根据所述目标音频的特征编码在预设音频库中进行检索,其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码;
排序模块,用于根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果。
可选地,所述装置还包括:
样本获取模块,用于获得多组训练样本,其中,每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合;
训练模块,用于将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型,其中,针对每组训练样本,将所述第一音频的音频特征组合作为所述三元损失函数的锚示例,将所述第二音频的音频特征组合作为所述三元损失函数的正示例,将所述第三音频的音频特征组合作为所述三元损失函数的负示例;
所述深度特征提取模块,用于提取预设音频库中已知音频的音频特征组合,针对所述预设音频库中的每个已知音频,将所述已知音频的音频特征组合输入所述训练完成的深度学习模型,得到该已知音频对应的预设数量的深度特征向量;
所述装置还包括:
编码模块,用于根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述已知音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
可选地,所述编码模块具体用于对所述多个深度特征向量进行归一化处理,使所述多个深度特征向量的值映射至[0,1]的区间;将归一化后的多个特征向量中,大于所述预设阈值的特征向量的值替换为1,将不大于所述预设阈值的特征向量的值替换为0,得到所述预设数量位的二进制的特征编码。
可选地,所述编码模块具体用于分别将每个所述深度特征向量的值输入sigmoid函数,得到该深度特征向量在[0,1]区间中的映射值;所述sigmoid函数的公式如下:
其中,x为所述深度特征向量的值。
相对于现有技术而言,本申请具有以下有益效果:
本实施例提供的音频检索方法及装置,通过将带检索音频的底层特征在深度学习模型中抽象为高层次的特征向量,再将特征向量转换为统一长度二级制特征编码进行检索。如此,使得用于检索的特征更能从整体上反映音频的特性,并且音频的检索不受音频长度的影响,检索效率也更高。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据分析设备的方框示意图;
图2为本申请实施例提供的音频检索方法的流程示意图之一;
图3为本申请实施例提供的音频检索方法的流程示意图之二;
图4为本申请实施例提供的音频检索装置功能模块示意图。
图标:100-数据分析设备;110-音频检索装置;111-底层特征提取模块;112-深度特征提取模块;113-编码模块;114-检索模块;115-排序模块;116-样本获取模块;117-训练模块;120-存储器;130-处理器。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参照图1,图1是本实施例提供的数据分析设备100的方框示意图。所述数据分析设备100包括音频检索装置110、存储器120及处理器130。
所述存储器120及处理器130相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述音频检索装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据分析设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述音频检索装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
图2为应用于图1所示的数据分析设备100的一种音频检索方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
本实施例提供一种音频检索方法,该方法可以分为准备阶段和应用阶段。
首先,请参照图2,在准备阶段中可以包括对深度学习模型进行训练及对预设音频库中已知音频进行处理的步骤。
步骤S110,获得多组训练样本,其中,每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合。
所述数据分析设备100先对用于训练的音频进行解码,获得的音频帧序列和音频帧率,并根据所述音频帧序列的值过滤剔除声音强度低于预设分贝值的部分。
在本实施例中,所述数据分析设备100对用于训练的音频进行底层特征提取,获得包括多个音频特征的音频特征组合,所述多个音频特征包括梅尔频率倒谱系数(MFCC)、色度特征(Chroma)、短时平均过零率(ZCR)、频谱均方根值、频谱中心矩、频谱单调值、频谱带宽或频谱多项式系数等。
其中,在梅尔频率倒谱系数中,梅尔频率是主观的音高单位,而客观的音高单位是赫兹,梅尔频率是基于人耳听觉特性提出来的属性,与客观的赫兹频率成非线性对应关系,梅尔频率倒谱系数正是利用梅尔和赫兹之间的这种关系,计算得到赫兹的频谱特性。
色度特征是色度向量和色度图谱的统称,色度向量是一个含有12个元素的向量,这些元素分别代表时序区间中12个音级中的能量,把不同八度的同一音级能量累加,色度图谱则是色度向量的序列。
短时平均过零率是语音信号时域分析中的一种特征参数,指每帧内信号通过零值的次数,用于语音信号清浊音的判断,如果过零率高,则语音信号就是清音,反之,则语音信号就是浊音。
其他的音频特征都是关于音频的频谱特性,即频谱均方根值、频谱中心矩、频谱单调值、频谱带宽和频谱多项式系数等。
在获得用于训练的音频特征组合后,将这些音频特征组合按照音频的相似程度分成多组训练样本,每组训练样本中包括作为基准的第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合。
步骤S120,将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型,其中,针对每组训练样本,将所述第一音频的音频特征组合作为所述三元损失函数的锚示例,将所述第二音频的音频特征组合作为所述三元损失函数的正示例,将所述第三音频的音频特征组合作为所述三元损失函数的负示例。
所述深度学习模型中包括有卷积神经网络和长短时记忆网络,通过将每个索引组合矩阵输入到深度学习模型中,分别通过所述深度学习模型中的卷积神经网络和长短时记忆网络进行特征提取。其中,在卷积神经网络中,通过将音频特征与卷积核相乘,抽象波形序列,学习空间关系,也起到数据降维的作用。在长短时记忆操作中,通过记忆或遗忘前序状态,学习音频特征之间的时序关系。
接着,采用三元损失函数作为所述深度学习模型的损失函数计算得到对应的Loss值,其中,所述三元损失函数中的公式如下:
最后,基于所述Loss值更新所述深度神经网络模型的网络参数并重复上述训练过程,直到满足训练终止条件时输出训练完成的深度神经网络模型。其中,所述训练终止条件可以是所述Loss值不再下降,或者训练迭代次数达到预设次数阈值。
步骤S130,提取预设音频库中已知音频的音频特征组合,针对所述预设音频库中的每个已知音频,将所述已知音频的音频特征组合输入所述训练完成的深度学习模型,得到该已知音频对应的预设数量的深度特征向量。
在完成深度学习模型的训练后,将预设音频库中的已知音频输入所述训练完成的深度学习模型进行处理。针对每个所述已知音频,在输入所述深度学习模型后可以获得该音频的多个深度特征向量,其中,在本实施例中,可以将所述深度学习模型配置成输出256个深度特征向量。
步骤S140,根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述已知音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
所述数据分析设备100先对对所述多个深度特征向量进行归一化处理,使所述多个深度特征向量的值映射至[0,1]的区间。例如,分别将每个所述深度特征向量的值输入sigmoid函数,得到该深度特征向量在[0,1]区间中的映射值;所述sigmoid函数的公式如下:
其中,x为所述深度特征向量的值。
然后,将归一化后的多个特征向量中,大于所述预设阈值的特征向量的值替换为1,将不大于所述预设阈值的特征向量的值替换为0,得到所述预设数量位的二进制的特征编码。
通过步骤S130及步骤S140可以获得所述预设音频库中每个已知音频对应的特征编码,并记录这些特征编码与音频的名称的对应关系。
请参照图3,在应用阶段中,可以包括使用所述训练完成的深度学习模型对目标音频进行处理并在所述预设音频库中进行检索的步骤。
步骤S210,提取目标音频的多个音频特征,得到该目标音频的音频特征组合。
与步骤S110的处理方式相似,在步骤S210中,可以先对所述目标音频进行解码,获得目标音频的音频帧序列和音频帧率,并根据所述音频帧序列的值过滤剔除声音强度低于预设分贝值的部分。然后对需要进行检索的目标音频进行特征提取,获得目标音频的音频特征组合。
步骤S220,将所述目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量。
与步骤S130的处理方法相似,在步骤S220中,将所述目标音频的音频特征组合输入到所述训练完成的深度学习模型,得到该目标音频的多个深度特征向量。这些深度特征向量可以从更为抽象的高层次标识该目标音频的特性。
步骤S230,根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述目标音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
与步骤S140的处理方法相似,针对所述目标音频,所述数据分析设备100将所述目标音频的多个深度特征向量转换为二进制的特征编码。
步骤S240,根据所述目标音频的特征编码在预设音频库中进行检索,其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码。
步骤S250,根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果。
本实施例中,可根据所述目标音频的特征编码与已知音频的特征编码之间的汉明距离进行相似音频的检索,通过检测所述目标音频的特征编码与已知音频的特征编码中值不同的位数可以得到汉明距离,得到的汉明距离可以表征所述目标音频与所述已知音频的相似性。即,汉明距离越大,相似度越小。由于在本实施例中是基于特征编码进行比对计算,而不知对特征向量直接进行比对,所以计算比对的效率极大提高,支持海量数据的实时计算。
请参照图4,本实施例还提供一种音乐检索装置110,该装置包括底层特征提取模块111、深度特征提取模块112、编码模块113、检索模块114及排序模块115。
所述底层特征提取模块111用于提取目标音频的多个音频特征,得到该目标音频的音频特征组合。
本实施例中,所述底层特征提取模块111可用于执行图3所示的步骤S210,关于所述底层特征提取模块111的具体描述可参对所述步骤S210的描述。
所述深度特征提取模块112用于将所述目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量。
本实施例中,所述深度特征提取模块112可用于执行图3所示的步骤S220,关于所述深度特征提取模块112的具体描述可参对所述步骤S220的描述。
所述编码模块113用于根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述目标音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
本实施例中,所述编码模块113可用于执行图3所示的步骤S230,关于所述编码模块113的具体描述可参对所述步骤S230的描述。
所述检索模块114用于根据所述目标音频的特征编码在预设音频库中进行检索,其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码。
本实施例中,所述检索模块114可用于执行图3所示的步骤S240,关于所述检索模块114的具体描述可参对所述步骤S240的描述。
所述排序模块115用于根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果。
本实施例中,所述排序模块115可用于执行图3所示的步骤S250,关于所述排序模块115的具体描述可参对所述步骤S250的描述。
可选地,在本实施例中,所述装置还包括样本获取模块116及训练模块117。
所述样本获取模块116用于获得多组训练样本,其中,每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合。
所述训练模块117用于将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型,其中,针对每组训练样本,将所述第一音频的音频特征组合作为所述三元损失函数的锚示例,将所述第二音频的音频特征组合作为所述三元损失函数的正示例,将所述第三音频的音频特征组合作为所述三元损失函数的负示例;
所述深度特征提取模块112,用于提取预设音频库中已知音频的音频特征组合,针对所述预设音频库中的每个已知音频,将所述已知音频的音频特征组合输入所述训练完成的深度学习模型,得到该已知音频对应的预设数量的深度特征向量;
所述编码模块113还用于根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述已知音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
可选地,在本实施例中,所述编码模块113具体用于对所述多个深度特征向量进行归一化处理,使所述多个深度特征向量的值映射至[0,1]的区间;将归一化后的多个特征向量中,大于所述预设阈值的特征向量的值替换为1,将不大于所述预设阈值的特征向量的值替换为0,得到所述预设数量位的二进制的特征编码。
可选地,在本实施例中,所述编码模块113具体用于分别将每个所述深度特征向量的值输入sigmoid函数,得到该深度特征向量在[0,1]区间中的映射值;所述sigmoid函数的公式如下:
其中,x为所述深度特征向量的值。
综上所述,本实施例提供的音频检索方法及装置,通过将带检索音频的底层特征在深度学习模型中抽象为高层次的特征向量,再将特征向量转换为统一长度二级制特征编码进行检索。如此,使得用于检索的特征更能从整体上反映音频的特性,并且音频的检索不受音频长度的影响,检索效率也更高。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种音频检索方法,其特征在于,所述方法包括:
提取目标音频的多个音频特征,得到该目标音频的音频特征组合;
将所述目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量;
根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述目标音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量;
根据所述目标音频的特征编码在预设音频库中进行检索,其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码;
根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果;
其中,所述方法还包括:
获得多组训练样本,其中,每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合;
将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型,其中,针对每组训练样本,将所述第一音频的音频特征组合作为所述三元损失函数的锚示例,将所述第二音频的音频特征组合作为所述三元损失函数的正示例,将所述第三音频的音频特征组合作为所述三元损失函数的负示例;
提取预设音频库中已知音频的音频特征组合,针对所述预设音频库中的每个已知音频,将所述已知音频的音频特征组合输入所述训练完成的深度学习模型,得到该已知音频对应的预设数量的深度特征向量;
根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述已知音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
2.根据权利要求1所述的方法,其特征在于,所述根据预设阈值对所述多个深度特征向量进行转化处理的步骤包括:
对所述多个深度特征向量进行归一化处理,将所述多个深度特征向量的值映射至[0,1]的区间;
将归一化后的多个特征向量中大于所述预设阈值的特征向量的值替换为1,将不大于所述预设阈值的特征向量的值替换为0,得到所述预设数量位的二进制的特征编码。
4.根据权利要求1所述的方法,其特征在于,所述提取目标音频的多个音频特征的步骤之前,所述方法还包括:
对所述目标音频进行解码,获得目标音频的音频帧序列和音频帧率;
根据所述音频帧序列的值过滤剔除声音强度低于预设分贝值的部分。
5.根据权利要求1所述的方法,其特征在于,所述多个音频特征包括梅尔频率倒谱系数、色度特征、短时平均过零率、频谱均方根值、频谱中心矩、频谱单调值、频谱带宽或频谱多项式系数。
6.一种音频检索装置,其特征在于,所述装置包括:
底层特征提取模块,用于提取目标音频的多个音频特征,得到该目标音频的音频特征组合;
深度特征提取模块,用于将所述目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量;
编码模块,用于根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述目标音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量;
检索模块,用于根据所述目标音频的特征编码在预设音频库中进行检索,其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码;
排序模块,用于根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果;
其中,所述装置还包括:
样本获取模块,用于获得多组训练样本,其中,每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合;
训练模块,用于将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型,其中,针对每组训练样本,将所述第一音频的音频特征组合作为所述三元损失函数的锚示例,将所述第二音频的音频特征组合作为所述三元损失函数的正示例,将所述第三音频的音频特征组合作为所述三元损失函数的负示例;
所述深度特征提取模块,用于提取预设音频库中已知音频的音频特征组合,针对所述预设音频库中的每个已知音频,将所述已知音频的音频特征组合输入所述训练完成的深度学习模型,得到该已知音频对应的预设数量的深度特征向量;
所述编码模块还用于根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述已知音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
7.根据权利要求6所述的装置,其特征在于,所述编码模块具体用于对所述多个深度特征向量进行归一化处理,使所述多个深度特征向量的值映射至[0,1]的区间;将归一化后的多个特征向量中,大于所述预设阈值的特征向量的值替换为1,将不大于所述预设阈值的特征向量的值替换为0,得到所述预设数量位的二进制的特征编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810781178.2A CN109002529B (zh) | 2018-07-17 | 2018-07-17 | 音频检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810781178.2A CN109002529B (zh) | 2018-07-17 | 2018-07-17 | 音频检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109002529A CN109002529A (zh) | 2018-12-14 |
CN109002529B true CN109002529B (zh) | 2021-02-02 |
Family
ID=64599431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810781178.2A Active CN109002529B (zh) | 2018-07-17 | 2018-07-17 | 音频检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109002529B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110176250B (zh) * | 2019-05-30 | 2021-05-07 | 哈尔滨工业大学 | 一种基于局部学习的鲁棒声学场景识别方法 |
CN110399521B (zh) * | 2019-06-21 | 2023-06-06 | 平安科技(深圳)有限公司 | 音乐检索方法、系统、计算机设备及计算机可读存储介质 |
CN112035696B (zh) * | 2020-09-09 | 2024-05-28 | 兰州理工大学 | 一种基于音频指纹的语音检索方法及系统 |
CN112104892B (zh) * | 2020-09-11 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种多媒体信息处理方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102405495A (zh) * | 2009-03-11 | 2012-04-04 | 谷歌公司 | 使用稀疏特征对信息检索进行音频分类 |
CN108122562A (zh) * | 2018-01-16 | 2018-06-05 | 四川大学 | 一种基于卷积神经网络和随机森林的音频分类方法 |
CN108170755A (zh) * | 2017-12-22 | 2018-06-15 | 西安电子科技大学 | 基于三元组深度网络的跨模态哈希检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7295977B2 (en) * | 2001-08-27 | 2007-11-13 | Nec Laboratories America, Inc. | Extracting classifying data in music from an audio bitstream |
US10515292B2 (en) * | 2016-06-15 | 2019-12-24 | Massachusetts Institute Of Technology | Joint acoustic and visual processing |
-
2018
- 2018-07-17 CN CN201810781178.2A patent/CN109002529B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102405495A (zh) * | 2009-03-11 | 2012-04-04 | 谷歌公司 | 使用稀疏特征对信息检索进行音频分类 |
CN108170755A (zh) * | 2017-12-22 | 2018-06-15 | 西安电子科技大学 | 基于三元组深度网络的跨模态哈希检索方法 |
CN108122562A (zh) * | 2018-01-16 | 2018-06-05 | 四川大学 | 一种基于卷积神经网络和随机森林的音频分类方法 |
Non-Patent Citations (1)
Title |
---|
《基于音频指纹和版本识别的音乐检索技术研究》;郭永帅;《中国优秀硕士学位论文全文数据库信息科技辑》;20150215(第3期);参见第2,13,14,28,32页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109002529A (zh) | 2018-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002529B (zh) | 音频检索方法及装置 | |
WO2017162017A1 (zh) | 语音数据处理方法、装置和存储介质 | |
CN107369439B (zh) | 一种语音唤醒方法和装置 | |
CN101226743A (zh) | 基于中性和情感声纹模型转换的说话人识别方法 | |
CN106548786B (zh) | 一种音频数据的检测方法及系统 | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
CN110265063B (zh) | 一种基于固定时长语音情感识别序列分析的测谎方法 | |
CN110610722B (zh) | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 | |
CN116580706B (zh) | 一种基于人工智能的语音识别方法 | |
CN118280371B (zh) | 一种基于人工智能的语音交互方法及系统 | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
CN105761728A (zh) | 中国典型听觉文化符号特征选择方法 | |
Kharamat et al. | Durian ripeness classification from the knocking sounds using convolutional neural network | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN110968729A (zh) | 一种基于加性间距胶囊网络的家庭活动声音事件分类方法 | |
CN108564967B (zh) | 面向哭声检测系统的Mel能量声纹特征提取方法 | |
CN109686365A (zh) | 一种语音识别方法和语音识别系统 | |
McInnes et al. | Unsupervised extraction of recurring words from infant-directed speech | |
CN109346104A (zh) | 一种基于谱聚类的音频特征降维方法 | |
CN112035700A (zh) | 一种基于cnn的语音深度哈希学习方法及系统 | |
Wiśniewski et al. | Automatic detection of prolonged fricative phonemes with the hidden Markov models approach | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
Park et al. | Analysis of confidence and control through voice of Kim Jung-un | |
CN111292748B (zh) | 一种可适应多种频率的语音录入系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |