CN113495974B - 一种声音分类处理方法、装置、设备及介质 - Google Patents
一种声音分类处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113495974B CN113495974B CN202110837263.8A CN202110837263A CN113495974B CN 113495974 B CN113495974 B CN 113495974B CN 202110837263 A CN202110837263 A CN 202110837263A CN 113495974 B CN113495974 B CN 113495974B
- Authority
- CN
- China
- Prior art keywords
- encoder
- dimensional
- self
- feature
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 241
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 72
- 238000009826 distribution Methods 0.000 claims description 41
- 238000005070 sampling Methods 0.000 claims description 36
- 238000000605 extraction Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种声音分类处理方法、装置、设备及介质。用于解决现有对声音进行识别分类的方法,数据输入较大,以致对声音分类效率较低的问题。将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量;将所述特征向量输入至预置分类器中;通过所述预置分类器,获取所述特征向量对应的数据排列特征;其中,所述数据排列特征包括,所述特征向量中各数据的大小,以及所述各数据之间的排列顺序;通过所述预置分类器与所述数据排列特征,确定所述特征向量对应的声音类别。通过上述方法,提高对声音分类的效率。
Description
技术领域
本申请涉及语音分类技术领域,尤其涉及一种声音分类处理方法、装置、设备及介质。
背景技术
随着互联网和信息技术的迅速发展,声音信号深深影响着人们的日常生活行为及商业活动,声音通常应用于监视、智能家居、场景分析和机器视听等领域,例如,机器人通过对周围的环境声音进行识别和分类来做出相应判断。
在声音识别和声音分类中,对声音的特征提取极为重要。传统技术中对声音特征提取和分类的方法,通常涉及复杂的数据统计计算。而将声音信号的二维频谱图输入卷积神经网络实现声音分类的方法,分类时需要直接对高维度数据进行计算,增大了运算量。因此,现有对声音进行识别分类的方法,数据输入较大,以致对声音分类效率较低。
发明内容
本申请实施例提供了一种声音分类处理方法、装置、设备及介质,用于解决如下技术问题:现有对声音进行识别分类的方法,数据输入较大,以致对声音分类效率较低。
本申请实施例采用下述技术方案:
本申请实施例提供一种声音分类处理方法。将待测二维频谱图输入预先训练的变分自编码器,并通过变分自编码器中的编码器进行特征提取,确定出相应的特征向量;将特征向量输入至预置分类器中;通过预置分类器,获取特征向量对应的数据排列特征;其中,数据排列特征包括,特征向量中各数据的大小,以及各数据之间的排列顺序;通过预置分类器与数据排列特征,确定特征向量对应的声音类别。
本申请实施例通过将待测二维频谱图输入预先训练的变分自编码器,能够通过变分自编码器将二维频谱图进行特征提取,通过特征向量中不同数据的排列方式,确定待测二维频谱图对应的声音类别。此外,编码器提取出的特征向量为一维向量,因此,输入分类器中的也是一维向量,从而减小输入分类器中的数据的大小。使得分类器在确保较高分类准确率的基础上,提高分类器对声音分类的效率。
在本申请的一种实现方式中,将待测二维频谱图输入预先训练的变分自编码器之前,方法还包括:创建初始的变分自编码器;其中,初始的变分自编码器包括编码器与解码器;获取声音相关的多个二维频谱图,并根据多个二维频谱图构建训练集;根据训练集训练所述初始的变分自编码器,确定出符合要求的变分自编码器。
在本申请的一种实现方式中,根据训练集训练所述初始的变分自编码器,确定出符合要求的变分自编码器,具体包括:将训练集中的二维频谱图,输入初始的变分自编码器中的编码器;通过初始的变分自编码器中的编码器,输出训练集中的二维频谱图对应的一维向量;根据训练集中的二维频谱图对应的一维向量,确定高斯分布;在高斯分布上进行随机采样,并将采样得到的采样向量输入初始的变分自编码器中的解码器;通过解码器与采样向量,获取重建后的二维频谱图,获取重建后的二维频谱图,与训练集中的二维频谱图之间的区别度;在区别度符合预设值时,确定训练后的变分自编码器符合要求。
本申请实施例通过变分自编码器中的编码器,输出训练集中二维频谱图对应的一维向量。并根据该一维向量确定出用于采样的高斯分布,将采样数据输入解码器,以对训练集中的二维频谱图进行重现。通过重现的二维频谱图与训练集中的频谱图进行相似度比较,即可确定训练过程编码器提取的特征向量是否正确,以确定当前训练的变分自编码器是否符合要求。从而确保对待测二维频谱图中特征向量提取的准确性,进而提高对声音分类的准确性。
在本申请的一种实现方式中,通过变分自编码器中的编码器进行特征提取,确定出相应的特征向量,具体包括:通过变分自编码器中的编码器,输出待测二维频谱图对应的两个一维向量;其中,两个一维向量分别表示待测二维频谱图对应的高斯分布的均值与方差;对两个一维向量进行计算,得到特征向量。
本申请实施例通过提取待测二维频谱图中的两个一维向量,并将提取出的一维向量进行计算,最终得到特征向量。最终输入分类器中的特征向量是一维向量,一维向量数据较小,从而提高分类器的工作效率,缩短声音分类的时长。
在本申请的一种实现方式中,对两个一维向量进行计算,得到特征向量,具体包括:计算两个一维向量对应的均值向量,将均值向量作为特征向量;或者计算两个一维向量之和,将向量之和作为特征向量。
在本申请的一种实现方式中,在训练集数据不足的情况下,方法还包括:根据对应的声音类别,获取待测二维频谱图对应的高斯分布;对高斯分布进行随机采样,将采样数据输入预先训练的变分自编码器中的解码器,以获取重建后的待测二维频谱图,并将重建后的待测二维频谱图添加至训练集。
在本申请的一种实现方式中,对高斯分布进行随机采样,具体包括:根据预设向量维度,对高斯分布进行向量随机采样;其中,预设向量维度,与编码器输出的一维向量对应的维度相同。
本申请实施例提供一种声音分类处理装置,包括:特征提取单元,将待测二维频谱图输入预先训练的变分自编码器,并通过变分自编码器中的编码器进行特征提取,确定出相应的特征向量;特征向量输入单元,将特征向量输入至预置分类器中;数据特征获取单元,通过预置分类器,获取特征向量对应的数据排列特征;其中,数据排列特征包括,特征向量中各数据的大小,以及各数据之间的排列顺序;声音类别确定单元,通过预置分类器与数据排列特征,确定特征向量对应的声音类别。
本申请实施例提供一种声音分类处理设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:将待测二维频谱图输入预先训练的变分自编码器,并通过变分自编码器中的编码器进行特征提取,确定出相应的特征向量;将特征向量输入预置分类器中;通过预置分类器,获取特征向量对应的数据排列特征;其中,数据排列特征包括,特征向量中各数据的大小,以及各数据之间的排列顺序;通过预置分类器与数据排列特征,确定特征向量对应的声音类别。
本申请实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:将待测二维频谱图输入预先训练的变分自编码器,并通过变分自编码器中的编码器进行特征提取,确定出相应的特征向量;将特征向量输入预置分类器中;通过预置分类器,获取特征向量对应的数据排列特征;其中,数据排列特征包括,特征向量中各数据的大小,以及各数据之间的排列顺序;通过预置分类器与数据排列特征,确定特征向量对应的声音类别。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本申请实施例通过将待测二维频谱图输入预先训练的变分自编码器,能够通过变分自编码器将二维频谱图进行特征提取,通过特征向量中不同数据的排列方式,确定待测二维频谱图对应的声音类别。此外,编码器提取出的特征向量为一维向量,因此,输入分类器中的也是一维向量,从而减小输入分类器中的数据的大小。使得分类器在确保较高分类准确率的基础上,提高分类器对声音分类的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附
图中:
图1为本申请实施例提供的一种声音分类处理方法流程图;
图2为本申请实施例提供的一种声音分类处理装置结构示意图;
图3为本申请实施例提供的一种声音分类处理设备的结构示意图。
具体实施方式
本申请实施例提供一种声音分类处理方法、装置、设备及介质。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
随着互联网和信息技术的迅速发展,声音信号深深影响着人们的日常生活行为及商业活动,声音通常应用于监视、智能家居、场景分析和机器视听等领域。
在声音识别和声音分类中,对声音的特征提取极为重要。传统技术中对声音特征提取和分类的方法,通常涉及复杂的数据统计计算。
而基于卷积神经网络的方法,虽然可直接将声音信号的二维频谱图作为输入来实现分类,但是二维频谱图作为高维度的输入则增大了运算量。
以此,现有对声音进行识别分类的方法,数据输入较大,以致对声音分类效率较低。
为了解决上述问题,本申请实施例提供了一种声音分类处理方法、装置、设备及介质。通过将待测二维频谱图输入预先训练的变分自编码器,能够通过变分自编码器将二维频谱图进行特征提取,通过不同的特征向量中数据的排列方式,确定待测二维频谱图对应的声音类别。此外,编码器提取出的特征向量为一维向量,因此,输入分类器中的也是一维向量,从而减小输入分类器中的数据的大小。使得分类确保分类准确率的基础上,提高分类器对声音分类的效率。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种声音分类处理方法流程图。如图1所示,声音分类处理方法包括以下步骤:
S101、服务器将训练集中的二维频谱图输入至所述初始的变分自编码器,以训练出符合要求的变分自编码器。
在本申请的一个实施例中,通过服务器创建初始的变分自编码器。其中,初始的变分自编码器包括编码器与解码器。获取声音相关的多个二维频谱图,并根据多个二维频谱图构建训练集。服务器根据训练集训练初始的变分自编码器,确定出符合要求的变分自编码器。
具体的,服务器将声音相关的训练集中的二维频谱图,输入至初始的变分自编码器,变分自编码器中的编码器根据输入的二维频谱图输出相应的一维向量。服务器根据该一维向量确定出高斯分布,并在该高斯分布上进行随机取样。变分自编码器中的解码器在训练过程中,根据采集的高斯白噪声,对训练集中的二维频谱图进行重现。若重现后的二维频谱图与训练集中的二维频谱图相差不大,则说明变分自编码器训练成功。
需要说明的是,本申请实施例可以通过声音频谱仪、或其它现有技术生成训练集中的二维频谱图,本申请实施例对此不做限制。
在本申请的一个实施例中,服务器将训练集中的二维频谱图,输入初始的变分自编码器中的编码器。通过初始的变分自编码器中的编码器,输出训练集中的二维频谱图对应的一维向量。根据训练集中的二维频谱图对应的一维向量,确定高斯分布。
具体的,训练集中包含多个不同的二维频谱图,每个二维频谱图对应的一维向量各不相同。初始的变分自编码器中的编码器,针对不同的二维频谱图可以输出不同的一维向量。其中,每个二维频谱图可以输出两个一维向量,分别可以描述高斯分布的均值与方差。因此,通过编码器输出的两个一维向量,就可以确定出当前二维频谱图对应的高斯分布。
例如,编码器输出的两个一维向量,均值为0.5,方差为1。此时根据均值与方差就可以确定出一个高斯分布。不同类型的二维频谱图对应的高斯分布一样,相同类型的二维频谱图对应的各个高斯分布较为相似,但并不完全相同。
在本申请的一个实施例中,服务器在高斯分布上进行随机采样,并将采样得到的采样向量输入初始的变分自编码器中的解码器。通过解码器与采样向量,获取重建后的二维频谱图,获取重建后的二维频谱图,与训练集中的二维频谱图之间的区别度。在区别度符合预设值时,确定训练后的变分自编码器符合要求。
具体的,在编码器根据训练集中的二维频谱图,输出对应的一维向量后,可以确定出一个具体的高斯分布。服务器在该高斯分布上进行取样,得到采样向量。其中,采样向量又称为隐向量,采样向量的维度与一维向量的维度相同,且该维度为预先设置的超参数。服务器将采样向量输入至初始的变分自编码器中的解码器。解码器用于对输入编码器中的二维频谱图像进行重现。因此,解码器根据输入的采样向量,就可以对训练集中的二维频谱图进行重现。
进一步地,解码器将输入编码器的二维频谱图进行重现后,服务器将重现后的频谱图与输入的频谱图进行比对,以确定二者之间的相似度。在相似度较高,达到预期标准的情况下,确定编码器输出的一维向量符合要求,即,训练后的变分自编码器符合要求。若现后的频谱图与输入的频谱图之间的相似度较低,则说明编码器输出的一维向量不符合要求,训练后的变分自编码器不符合要求,需要重新对变分自编码器进行训练。
本申请实施例通过重现的二维频谱图与训练集中的频谱图进行相似度比较,即可确定出训练过程编码器提取的特征向量是否正确,确定当前训练的变分自编码器是否符合要求。从而确保对待测二维频谱图中特征向量提取的准确性,进而提高对声音分类的准确性。
S102、服务器将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量。
在本申请的一个实施例中,通过变分自编码器中的编码器,输出待测二维频谱图对应的两个一维向量。其中,两个一维向量分别表示待测二维频谱图对应的高斯分布的均值与方差。对两个一维向量进行计算,得到特征向量。
具体的,将待测二维频谱图输入预先训练的变分自编码器,预先训练的变分自编码器中的编码器作为特征提取器,根据输入的待测二维频谱图,输出其对应的两个一维向量。其中,两个一维向量分别是描述高斯分布的均值与方差,根据该均值与方差即可确定出唯一的高斯分布。再对输出的均值与方差进行相应计算,即可得到待测二维频谱图对应的特征向量。
在本申请的一个实施例中,服务器计算两个一维向量对应的均值向量,将均值向量作为特征向量。或者计算两个一维向量之和,将向量之和作为特征向量。
具体的,服务器可以对均值向量与方差向量进行均值计算,得到均值向量,将该均值向量作为特征向量。也可以对均值向量与方差向量进行相加计算,得到向量之和,并将相加后的向量之和作为特征向量。
本申请实施例中的编码器提取出的特征向量为一维向量,因此,输入分类器中的也是一维向量,从而减小输入分类器中的数据的大小。使得分类器在确保分类准确率的基础上,提高分类效率。
S103、服务器将特征向量输入至预置分类器中。
在本申请的一个实施例中,服务器需要对分类器进行训练。将带有声音类别标签的频谱图输入编码器,编码器输出该频谱图对应的特征向量,服务器将该特征向量与声音类别标签输入分类器,即可对分类器进行训练。使得训练后的预置分类器可以根据输入的特征向量,得到该特征向量对应的声音类别。
例如,已预知二维频谱图为气氛鸣笛的声音,将该二维频谱图输入编码器,编码器输出相应的特征向量。可以得知,输出的特征向量对应的声音类别为气氛鸣笛。此时,将该特征向量与气氛鸣笛标签输入至分类器,对分类器进行训练,以获取训练后的预置分类器。
在本申请的一个实施例中,本申请实施例通过预置分类器,对输入的特征向量进行分类,以确定该特征向量的类别,进而确定该特征向量对应的声音的类别。
需要说明的是,本申请实施例中的分类器可以为线性分类器,或者可以是非线性分类器,本申请实施例对此不作限定,在应用中,可以根据实际情况选择合适的分类器。
本申请实施例通过提取待测二维频谱图中的两个一维向量,并将提取出的一维向量进行计算,得到特征向量。因此,最终输入分类器中的是特征向量是一维向量,一维向量数据较小,从而提高分类器的工作效率,缩短声音分类的时长。
S104、预置分类器获取特征向量对应的数据排列特征。
在本申请的一个实施例中,预置分类器对输入的特征向量进行分析,获取特征向量中的各个数据的特征,从而可以根据数据特征确定当前特征向量的类别。
具体的,特征向量有维度,维度即为提前设定的超参数。每一个特征向量里面包含多个数据,每个数据依据其大小,以及排列顺序的不同,所表达的意义不同。因此,可以根据特征向量对应的数据排列特征,对二维频谱图进行声音分类。
S105、预置分类器根据数据排列特征,确定特征向量对应的声音类别。
在本申请的一个实施例中,预置分类器根据当前输入的特征向量中的数据排列的顺序及大小,确定当前特征向量对应的声音类别,即可以确定该特征向量对应的二维频谱图的声音类别。
例如,先确定出当前特征向量的维度,若当前特征量的维度为10,则说明特征向量内有10个数据。再确定这10个数据的排列特征,若前三个数据数值较大,后三个数据的数值较小,而中间的四个数据排列杂乱,无明显顺序。预置分类器可以根据以上数据排列特征,确定该特征向量对应的声音类别,并输出该特征向量对应的声音标签。
在本申请的一个实施例中,在训练集数据不足时,根据对应的声音类别,获取待测二维频谱图对应的高斯分布。服务器对高斯分布进行随机采样,将采样数据输入预先训练的变分自编码器中的解码器,通过解码器以获取重建后的待测二维频谱图,并将重建后的待测二维频谱图添加至所述训练集。
具体的,在编码器输出的两个一维向量确定的情况下,服务器根据待测二维频谱图对应的高斯分布进行随机采样。并将随机取样的高斯白噪声输入至预先训练的变分自编码器中的解码器,解码器随机生成与输入编码器中的待测二维频谱图类似的频谱图。该频谱图即为待测二维频谱图的重现图。其中,重现后的频谱图与训练集二维频谱图的维数相同。在训练集数据不足的情况下,可以将待测二维频谱图的重现图添加至训练集,以扩充训练集数据。
在本申请的一个实施例中,对高斯分布进行随机采样时,根据预设向量维度,对高斯分布进行向量随机采样。其中,预设向量维度,与编码器输出的一维向量对应的维度相同。
具体的,在对高斯分布进行采样时,采样后得到的向量的维度与编码器输出的一维向量的维度相同,也与训练集对应的向量的维度相同。
图2为本申请实施例提供的一种声音分类处理装置结构示意图。装置包括:特征提取单元201、特征向量输入单元202、数据特征获取单元203、声音类别确定单元204。
特征提取单元201,将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量;
特征向量输入单元202,将所述特征向量输入至预置分类器中;
数据特征获取单元203,通过所述预置分类器,获取所述特征向量对应的数据排列特征;其中,所述数据排列特征包括,所述特征向量中各数据的大小,以及所述各数据之间的排列顺序;
声音类别确定单元204,通过所述预置分类器与所述数据排列特征,确定所述特征向量对应的声音类别。
进一步的,装置还包括:
二维频谱图输入单元205,创建初始的变分自编码器;其中,所述初始的变分自编码器包括编码器与解码器;获取声音相关的多个二维频谱图,并根据所述多个二维频谱图构建训练集;根据所述训练集训练所述初始的变分自编码器,确定出符合要求的变分自编码器。
进一步的,装置还包括:
训练单元206,将所述训练集中的二维频谱图,输入所述初始的变分自编码器中的编码器;通过所述初始的变分自编码器中的编码器,输出所述训练集中的二维频谱图对应的一维向量;根据所述训练集中的二维频谱图对应的一维向量,确定高斯分布;在所述高斯分布上进行随机采样,并将采样得到的采样向量输入所述初始的变分自编码器中的解码器;通过所述解码器与所述采样向量,获取重建后的二维频谱图,获取所述重建后的二维频谱图,与所述训练集中的二维频谱图之间的区别度;在所述区别度符合预设值的情况下,确定训练后的变分自编码器符合要求。
进一步的,装置还包括:
一维向量输出单元207,通过所述变分自编码器中的编码器,输出所述待测二维频谱图对应的两个一维向量;其中,所述两个一维向量分别表示所述待测二维频谱图对应的高斯分布的均值与方差;对所述两个一维向量进行计算,得到特征向量。
进一步的,装置还包括:
计算单元208,计算所述两个一维向量对应的均值向量,将所述均值向量作为特征向量;或者计算所述两个一维向量之和,将所述向量之和作为特征向量。
进一步的,装置还包括:
训练集扩充单元209,根据所述对应的声音类别,获取所述待测二维频谱图对应的高斯分布;对所述高斯分布进行随机采样,将采样数据输入所述预先训练的变分自编码器中的解码器,以获取重建后的待测二维频谱图,并将所述重建后的待测二维频谱图添加至所述训练集。
进一步的,装置还包括:
采样单元210,根据预设向量维度,对所述高斯分布进行向量随机采样;其中,所述预设向量维度,与所述编码器输出的一维向量对应的维度相同。
图3为本申请实施例提供的一种声音分类处理设备的结构示意图。设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量;
将所述特征向量输入预置分类器中;
通过所述预置分类器,获取所述特征向量对应的数据排列特征;其中,所述数据排列特征包括,所述特征向量中各数据的大小,以及所述各数据之间的排列顺序;
通过所述预置分类器与所述数据排列特征,确定所述特征向量对应的声音类别。
本申请实施例通过的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量;
将所述特征向量输入预置分类器中;
通过所述预置分类器,获取所述特征向量对应的数据排列特征;其中,所述数据排列特征包括,所述特征向量中各数据的大小,以及所述各数据之间的排列顺序;
通过所述预置分类器与所述数据排列特征,确定所述特征向量对应的声音类别。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (9)
1.一种声音分类处理方法,其特征在于,所述方法包括:
将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量;
将所述特征向量输入至预置分类器中;
通过所述预置分类器,获取所述特征向量对应的数据排列特征;其中,所述数据排列特征包括,所述特征向量中各数据的大小,以及所述各数据之间的排列顺序;
通过所述预置分类器与所述数据排列特征,确定所述特征向量对应的声音类别;
所述将待测二维频谱图输入预先训练的变分自编码器之前,所述方法还包括:
创建初始的变分自编码器;其中,所述初始的变分自编码器包括编码器与解码器;
获取声音相关的多个二维频谱图,并根据所述多个二维频谱图构建训练集;
根据所述训练集训练所述初始的变分自编码器,确定出符合要求的变分自编码器。
2.根据权利要求1所述的一种声音分类处理方法,其特征在于,所述根据所述训练集训练所述初始的变分自编码器,确定出符合要求的变分自编码器,具体包括:
将所述训练集中的二维频谱图,输入所述初始的变分自编码器中的编码器;
通过所述初始的变分自编码器中的编码器,输出所述训练集中的二维频谱图对应的一维向量;
根据所述训练集中的二维频谱图对应的一维向量,确定高斯分布;
在所述高斯分布上进行随机采样,并将采样得到的采样向量输入所述初始的变分自编码器中的解码器;
通过所述解码器与所述采样向量,获取重建后的二维频谱图;
获取所述重建后的二维频谱图,与所述训练集中的二维频谱图之间的区别度;
在所述区别度符合预设值时,训练后的变分自编码器符合要求。
3.根据权利要求1所述的一种声音分类处理方法,其特征在于,所述通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量,具体包括:
通过所述变分自编码器中的编码器,输出所述待测二维频谱图对应的两个一维向量;其中,所述两个一维向量分别表示所述待测二维频谱图对应的高斯分布的均值与方差;
对所述两个一维向量进行计算,得到特征向量。
4.根据权利要求3所述的一种声音分类处理方法,其特征在于,所述对所述两个一维向量进行计算,得到特征向量,具体包括:
计算所述两个一维向量对应的均值向量,将所述均值向量作为特征向量;或者
计算所述两个一维向量之和,将所述向量之和作为特征向量。
5.根据权利要求1所述的一种声音分类处理方法,其特征在于,所述训练集中数据不足的情况下,所述方法还包括:
根据所述对应的声音类别,获取所述待测二维频谱图对应的高斯分布;
对所述高斯分布进行随机采样,将采样数据输入所述预先训练的变分自编码器中的解码器,以获取重建后的待测二维频谱图,并将所述重建后的待测二维频谱图添加至所述训练集。
6.根据权利要求5所述的一种声音分类处理方法,其特征在于,所述对所述高斯分布进行随机采样,具体包括:
根据预设向量维度,对所述高斯分布进行向量随机采样;其中,所述预设向量维度,与所述编码器输出的一维向量对应的维度相同。
7.一种声音分类处理装置,其特征在于,所述装置包括:
特征提取单元,将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量;创建初始的变分自编码器;其中,所述初始的变分自编码器包括编码器与解码器;获取声音相关的多个二维频谱图,并根据所述多个二维频谱图构建训练集;根据所述训练集训练所述初始的变分自编码器,确定出符合要求的变分自编码器;
特征向量输入单元,将所述特征向量输入至预置分类器中;
数据特征获取单元,通过所述预置分类器,获取所述特征向量对应的数据排列特征;其中,所述数据排列特征包括,所述特征向量中各数据的大小,以及所述各数据之间的排列顺序;
声音类别确定单元,通过所述预置分类器与所述数据排列特征,确定所述特征向量对应的声音类别。
8.一种声音分类处理设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量;
将所述特征向量输入预置分类器中;
通过所述预置分类器,获取所述特征向量对应的数据排列特征;其中,所述数据排列特征包括,所述特征向量中各数据的大小,以及所述各数据之间的排列顺序;
通过所述预置分类器与所述数据排列特征,确定所述特征向量对应的声音类别;
所述将待测二维频谱图输入预先训练的变分自编码器之前,还包括:
创建初始的变分自编码器;其中,所述初始的变分自编码器包括编码器与解码器;
获取声音相关的多个二维频谱图,并根据所述多个二维频谱图构建训练集;
根据所述训练集训练所述初始的变分自编码器,确定出符合要求的变分自编码器。
9.一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
将待测二维频谱图输入预先训练的变分自编码器,并通过所述变分自编码器中的编码器进行特征提取,确定出相应的特征向量;
将所述特征向量输入预置分类器中;
通过所述预置分类器,获取所述特征向量对应的数据排列特征;其中,所述数据排列特征包括,所述特征向量中各数据的大小,以及所述各数据之间的排列顺序;
通过所述预置分类器与所述数据排列特征,确定所述特征向量对应的声音类别;
所述将待测二维频谱图输入预先训练的变分自编码器之前,还包括:
创建初始的变分自编码器;其中,所述初始的变分自编码器包括编码器与解码器;
获取声音相关的多个二维频谱图,并根据所述多个二维频谱图构建训练集;
根据所述训练集训练所述初始的变分自编码器,确定出符合要求的变分自编码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110837263.8A CN113495974B (zh) | 2021-07-23 | 2021-07-23 | 一种声音分类处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110837263.8A CN113495974B (zh) | 2021-07-23 | 2021-07-23 | 一种声音分类处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113495974A CN113495974A (zh) | 2021-10-12 |
CN113495974B true CN113495974B (zh) | 2024-02-02 |
Family
ID=77996471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110837263.8A Active CN113495974B (zh) | 2021-07-23 | 2021-07-23 | 一种声音分类处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113495974B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170095582A (ko) * | 2016-02-15 | 2017-08-23 | 한국전자통신연구원 | 뉴럴 네트워크를 이용한 오디오 인식 장치 및 방법 |
CN110120224A (zh) * | 2019-05-10 | 2019-08-13 | 平安科技(深圳)有限公司 | 鸟声识别模型的构建方法、装置、计算机设备及存储介质 |
CN112001270A (zh) * | 2020-08-03 | 2020-11-27 | 南京理工大学 | 基于一维卷积神经网络的地面雷达自动目标分类识别方法 |
CN112329609A (zh) * | 2020-11-03 | 2021-02-05 | 山东大学 | 基于2d心拍的特征融合迁移学习心律失常分类系统 |
CN112992119A (zh) * | 2021-01-14 | 2021-06-18 | 安徽大学 | 基于深度神经网络的口音分类方法及其模型 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501532B2 (en) * | 2019-04-25 | 2022-11-15 | International Business Machines Corporation | Audiovisual source separation and localization using generative adversarial networks |
-
2021
- 2021-07-23 CN CN202110837263.8A patent/CN113495974B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170095582A (ko) * | 2016-02-15 | 2017-08-23 | 한국전자통신연구원 | 뉴럴 네트워크를 이용한 오디오 인식 장치 및 방법 |
CN110120224A (zh) * | 2019-05-10 | 2019-08-13 | 平安科技(深圳)有限公司 | 鸟声识别模型的构建方法、装置、计算机设备及存储介质 |
CN112001270A (zh) * | 2020-08-03 | 2020-11-27 | 南京理工大学 | 基于一维卷积神经网络的地面雷达自动目标分类识别方法 |
CN112329609A (zh) * | 2020-11-03 | 2021-02-05 | 山东大学 | 基于2d心拍的特征融合迁移学习心律失常分类系统 |
CN112992119A (zh) * | 2021-01-14 | 2021-06-18 | 安徽大学 | 基于深度神经网络的口音分类方法及其模型 |
Non-Patent Citations (2)
Title |
---|
An Objective Parameter to Classify Voice Signals Based on Variation in Energy Distribution;Boquan Liu等;《Journal of Voice》;第33卷;591-602 * |
基于声音频谱特征的两层分类方法;吕超;李应;;计算机应用与软件(02);42-46 * |
Also Published As
Publication number | Publication date |
---|---|
CN113495974A (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN110852215B (zh) | 一种多模态情感识别方法、系统及存储介质 | |
CN110047512B (zh) | 一种环境声音分类方法、系统及相关装置 | |
EP3701528B1 (en) | Segmentation-based feature extraction for acoustic scene classification | |
CN109658921B (zh) | 一种语音信号处理方法、设备及计算机可读存储介质 | |
US20240153509A1 (en) | Speaker separation based on real-time latent speaker state characterization | |
CN111444967A (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
CN115497481B (zh) | 一种虚假语音的识别方法、装置、电子设备及存储介质 | |
Battaglino et al. | Acoustic context recognition using local binary pattern codebooks | |
Zhang et al. | Learning audio sequence representations for acoustic event classification | |
CN113421546B (zh) | 基于跨被试多模态的语音合成方法及相关设备 | |
Imran et al. | An analysis of audio classification techniques using deep learning architectures | |
CN114067829A (zh) | 一种电抗器故障诊断方法、装置、计算机设备及存储介质 | |
WO2024093578A1 (zh) | 语音识别方法、装置、电子设备、存储介质及计算机程序产品 | |
CN113495974B (zh) | 一种声音分类处理方法、装置、设备及介质 | |
CN117672202A (zh) | 一种基于深度卷积生成对抗网络的环境声音分类方法 | |
CN107894837A (zh) | 动态情感分析模型样本处理方法及装置 | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 | |
CN115374305A (zh) | 智能音箱的音效调整方法及装置 | |
CN103390404A (zh) | 信息处理装置、信息处理方法和信息处理程序 | |
CN109935234B (zh) | 一种对录音鉴定来源设备的方法 | |
Valanchery | Analysis of different classifier for the detection of double compressed AMR audio | |
Ghosal et al. | Speech/music discrimination using perceptual feature | |
Akhtar et al. | Improved audio-visual laughter detection via multi-scale multi-resolution image texture features and classifier fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |