CN113889077A - 声音识别方法、装置、电子设备及存储介质 - Google Patents
声音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113889077A CN113889077A CN202111109192.6A CN202111109192A CN113889077A CN 113889077 A CN113889077 A CN 113889077A CN 202111109192 A CN202111109192 A CN 202111109192A CN 113889077 A CN113889077 A CN 113889077A
- Authority
- CN
- China
- Prior art keywords
- sound
- sample
- feature information
- perceptron model
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 76
- 230000004927 fusion Effects 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 230000003595 spectral effect Effects 0.000 claims abstract description 22
- 238000010606 normalization Methods 0.000 claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 14
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种声音识别方法、装置、电子设备及存储介质,声音识别方法包括:获取声音样本;对声音样本进行特征提取,得到声音样本的多维特征信息,并将多维特征信息进行融合,得到声音样本的融合特征,其中,多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。本发明能够通过对声音多特征提取和融合及多层感知器模型提高声音识别的准确度。
Description
技术领域
本发明涉及声音信号处理与识别技术领域,尤其涉及一种声音识别方法、装置、电子设备及存储介质。
背景技术
随着深度学习在计算机视觉领域的广泛运用,基于人工智能方法的声音识别技术也应运而生。但是声音识别的环境复杂多变,信号本身具有非周期性、非平稳、低信噪比的特性,而且大多数音频数据都包含着噪声的干扰,给声音信号分类带来了很大的难度和挑战,使用传统的声谱特征分析方法进行声音信号的识别效果并不理想,识别准确度较低。
因此,本发明需要解决的技术问题是:在声音识别过程中,如何提高对声音识别的准确度。
发明内容
本发明提供一种声音识别方法、装置、电子设备及存储介质,用以解决现有技术中声音识别度较差的缺陷,提高对声音识别的准确度。
本发明提供一种声音识别方法,包括:
获取声音样本;
对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。
根据本发明提供的一种声音识别方法,所述声音样本包括训练集和测试集;
其中,所述对所述声音样本进行特征提取,包括:
对所述训练集进行特征提取;
所述方法还包括:
获取多个训练周期,在各个训练周期分别得到所述训练集的识别结果及对应训练所述多层感知器模型得到的中间权重模型;
将所述测试集输入到各所述中间权重模型中,得到测试结果;
从各所述测试结果中选取目标测试结果,所述目标测试结果高于各所述测试结果中的其他测试结果,将所述目标测试结果所对应的中间权重模型作为训练好的所述多层感知权重模型。
根据本发明提供的一种声音识别方法,所述测试结果包括:准确率、平均精确率、召回率及F-score。
根据本发明提供的一种声音识别方法,在对所述声音样本进行特征提取,得到所述声音样本的多个特征信息之前,所述方法还包括:
对所述声音样本进行预处理,包括但不限于:调整样本时长一致、按声音种类将样本分类、样本数据归一化以及样本数据增强;
对所述声音样本进行特征提取,得到所述声音样本的多个特征信息,包括:
对预处理得到的声音样本进行特征提取,得到所述声音样本的多个特征信息。
根据本发明提供的一种声音识别方法,包括:
获取待识别的声音数据;
对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用如上述任一所述声音识别方法训练得到的。
本发明还提供一种声音识别装置,包括:
获取模块,用于获取声音样本;
特征融合模块,用于对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
训练模块,用于获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。
本发明还提供一种声音识别装置,包括:
获取模块,用于获取待识别的声音数据;
特征融合模块,用于对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
识别模块,用于将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用如上述任一所述声音识别方法训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述声音识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述声音识别方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述声音识别方法的步骤。
本发明提供的声音识别方法、装置及电子设备,利用了多特征融合训练技术对用于声音识别的多层感知器模型进行训练,通过将声音样本进行特征提取,将提取到的多维特征进行融合,再将融合特征输入至多层感知器模型中进行训练。训练得到的多层感知器模型用于声音识别时,由于将提取的声音样本的多维特征进行融合因此能够提高对待识别声音数据的特征表征能力,并进一步通过多层感知器模型本征的泛化性来提升声音区分能力,从而提高识别的准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的声音识别方法的流程示意图之一;
图2是本发明提供的声音识别方法的流程示意图之二;
图3是本发明提供的声音识别方法的流程示意图之三;
图4是本发明提供的声音识别方法的流程示意图之四;
图5是本发明提供的声音识别装置的结构示意图之一;
图6是本发明提供的声音识别装置的结构示意图之二;
图7是本发明提供的声音识别装置的结构示意图之三;
图8是本发明提供的声音识别装置的结构示意图之四;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明提供的声音识别方法。
如图1所示,本发明提供的声音识别方法包括以下步骤:
步骤110:获取声音样本;
步骤120:对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
步骤130:获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。
具体地,本实施例中的声音样本中的声音是来自于各种环境背景下的声音经过处理得到的语音数据。
本实施例中对声音样本进行多维度的特征提取,获取多个维度的特征信息。特征信息包括:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征。
本实施例中,将提取到的声音样本的多维特征进行融合,将声音样本的多种特征向量融合为一个新的一维特征向量,输入多层感知器模型中去表征不同声音目标。
多层感知器模型用于将声音样本的融合特征进行识别,进而得到声音样本的识别结果。在训练过程中,多层感知器模型输出的识别结果产生误差值,可根据误差值对多层感知器模型的参数进行调整。当目标准确度达到预期值时,保持此时的多层感知器模型。其中,目标准确度达到预期指的是多层感知器模型收敛,具体表现为:声音的识别结果的误差小于预设阈值,表示模型训练完成。
本实施例提供的声音识别方法,利用了多特征融合训练技术对用于声音识别的多层感知器模型进行训练,通过将声音样本进行特征提取,将提取到的多维特征进行融合,再将融合特征输入至多层感知器模型中进行训练。训练得到的多层感知器模型用于声音识别时,由于将提取的声音样本的多维特征进行融合因此能够提高对待识别声音数据的特征表征能力,并进一步通过多层感知器模型本征的泛化性来提升声音区分能力,从而提高识别的准确度。
可选的,所述声音样本包括训练集和测试集。
如图2所示,本发明提供的声音识别方法还包括以下步骤:
步骤210:对所述训练集进行特征提取;
步骤220:获取多个训练周期,在各个训练周期分别得到所述训练集的识别结果及对应训练所述多层感知器模型得到的中间权重模型;
步骤230:将所述测试集输入到各所述中间权重模型中,得到测试结果;
步骤240:从各所述测试结果中选取目标测试结果,所述目标测试结果高于各所述测试结果中的其他测试结果,将所述目标测试结果所对应的中间权重模型作为训练好的所述多层感知器模型。
其中,所述测试结果包括:准确率、平均精确率、召回率及F-score。
具体地,训练集和测试集分别用于多层感知器模型的训练和测试。本实施例中,多层感知器模型的训练过程可分为多个训练周期,设置固定的训练周期之后便保存一次中间权重模型,训练到最后也保存最终的多层感知器模型。由此能够根据训练次数的增加,尽可能地提高多层感知器模型的参数准确度。
获取多个中间权重模型是为了得到最适合声音样本的参数,这个参数可能在训练过程中获得,也可能在训练结束后获得。可能是中间某个迭代过程中的模型,其准确率更高,更适合模型的部署需要。
本实施例将测试集输入到多个中间权重模型中,得到测试结果,根据测试结果从多个中间权重模型中挑选出最优的模型作为训练好的多层感知器模型。
测试结果包括:准确率、平均精确率、召回率及F-score。根据这四个数据判断如何挑选出最优的模型。具体包括:以准确率优先,其次为平均精确率,然后根据这四个参数的平均值进行判断。若测试的结果以上三种判断方式的指标都一样,则选择训练周期最大的中间权重模型作为训练好的多层感知器模型。
如图3所示,可选的,在对所述声音样本进行特征提取,得到所述声音样本的多个特征信息之前,所述方法还包括以下步骤:
步骤310:对所述声音样本进行预处理,包括但不限于:调整样本时长一致、按声音种类将样本分类、样本数据归一化以及样本数据增强;
步骤320:对预处理得到的声音样本进行特征提取,得到所述声音样本的多个特征信息。
具体地,对声音样本进行预处理,使声音样本的时长一致,对声音种类进行分类,对声音样本进行数据归一化处理以及对样本数据进行增强处理。
其中,样本数据增强包括混合噪声数据增强、时间偏移数据增强、同种类的声音剪切填充数据增强等。通过数据增强,能够扩充声音样本,提升声音样本在不同环境中的鲁棒性。
如图4所示,在一可选的实施例中,本发明还提供一种声音识别方法,本实施例为训练完成的神经网络的应用过程,包括以下步骤:
步骤410:获取待识别的声音数据;
步骤420:对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
步骤430:将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用如上述任一实施例所述的声音识别方法训练得到的。
本实施例提供的声音识别方法利用了多特征融合训练技术通过将待识别的声音数据进行特征提取,将提取到的多维特征进行融合,再将融合特征输入至多层感知器模型中进行识别。多层感知器模型对融合后的多维特征进行声音识别,由于将提取的声音数据的多维特征进行融合因此能够提高对待识别声音数据的特征表征能力,并进一步通过多层感知器模型本征的泛化性来提升声音区分能力,从而提高识别的准确度。
以下对本发明进行详细描述:
声音样本预处理,本发明中以样本狗叫声为例。包括将狗叫声目标样本切片时长都统一到4s,如有些样本低于4s时长,该切片末尾进行补0,直到数据长度除以采样率fs为4s即可;狗叫声样本的切片数据归一到[-1,1]之间;狗叫声样本数据增强中,随机选取两个狗叫声样本,各取2s时长,组合成一个狗叫声样本;或随机选则一个样本,将其开头1秒覆盖一些非常接近于0的随机数,在拼接上该样本3s的数据,组合成一个新样本。
声音样本的特征提取和融合。选取该对应场景下合适的多种特征提取,如对于一个音频切片样本,将时域数据转换成一维的色谱能量归一化特征向量1*12,一维的常熟Q特征向量1*12,一维的色谱特征向量1*12,一维的谱对比度特征向量1*7,一维梅尔频率倒谱系数特征向量1*40,一维梅尔频谱特征向量1*129,将该6种特征向量融合为一个新的一维特征向量1*211,输入特征训练网络中去表征不同声音目标。
本发明中的多层感知器模型包括:Input输入层1层,Dense隐藏层2层,激活层2层,Dropout池化层2层,softmax分类输出层1层;Input输入尺寸为1*211,每层Dense隐藏层采用512个感知器单元,激活层采用ReLU激活函数,Dropout池化层池化率为0.5,softmax分类输出层为多种目标声音的各自预测的最大概率分值。其中,softmax分类输出层的维度大小可根据声音目标样本种类的数量确定,在此不做具体限定。
声音样本包括输入集和测试集。将声音样本按8:2的比例随机分为输入集与测试集数据,将输入集数据再次按照8:2比例随机分为训练集与验证集。模型训练时将训练集与验证集按照小批次特征送入模型中进行训练,通过损失函数,计算该批次参数下的损失,使其最大限度地减少损失的模型,将损失(Loss)最小化,迭代几个周期(epoch)后就保存一次模型;根据每一次训练结束后的损失函数值及验证集准确率不断更新网络参数,不断提高模型的精度,直至得到一个准确度较高的模型。
本发明的声音识别的应用过程为:根据训练完成的多层感知器模型,输入该场景下未知类型的目标声音,并计算和得到一维的融合特征,将其传入到该权重模型内进行分类识别,输出一个组1*N(目标声音总类数量)的预测概率向量,在该向量中的最大值则为该未知声音的预测得分,对应最大概率的索引序号ID在加1则为未知声音的类别。
下面对本发明提供的声音识别装置进行描述,下文描述的声音识别装置与上文描述的声音识别方法可相互对应参照。
如图5所示,本发明提供一种声音识别装置,包括以下模块:
获取模块510,用于获取声音样本;
特征融合模块520,用于对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
训练模块530,用于获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。
如图6所示,可选的,声音识别装置还包括以下模块:
中间权重模型获取模块610,用于获取多个训练周期,在各个训练周期分别得到所述训练集的识别结果及对应训练所述多层感知器模型得到的中间权重模型;
测试模块620,用于将所述测试集输入到各所述中间权重模型中,得到测试结果;
选取模块630,用于从各所述测试结果中选取目标测试结果,所述目标测试结果高于各所述测试结果中的其他测试结果,将所述目标测试结果所对应的中间权重模型作为训练好的所述多层感知器模型。
如图7所示,可选的,声音识别装置还包括以下模块:
预处理模块710,用于对所述声音样本进行预处理,包括但不限于:调整样本时长一致、按声音种类将样本分类、样本数据归一化以及样本数据增强。
特征提取模块720,用于对预处理得到的声音样本进行特征提取,得到所述声音样本的多个特征信息。
如图8所示,本发明还提供一种声音识别装置,包括以下模块:
获取模块810,用于获取待识别的声音数据;
特征融合模块820,用于对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
识别模块930,用于将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用如上述任一所述声音识别方法训练得到的。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行声音识别方法,该方法包括:
获取声音样本;
对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。
或者,该方法还包括:
获取待识别的声音数据;
对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用如上述任一所述声音识别方法训练得到的。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的声音识别方法,该方法包括:
获取声音样本;
对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标;
或者,该方法还包括:
获取待识别的声音数据;
对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用如上述任一所述声音识别方法训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的声音识别方法,该方法包括:
获取声音样本;
对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。
或者,该方法还包括:
获取待识别的声音数据;
对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用如上述任一所述声音识别方法训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种声音识别方法,其特征在于,包括:
获取声音样本;
对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。
2.根据权利要求1所述的声音识别方法,其特征在于,所述声音样本包括训练集和测试集;
其中,所述对所述声音样本进行特征提取,包括:
对所述训练集进行特征提取;
所述方法还包括:
获取多个训练周期,在各个训练周期分别得到所述训练集的识别结果及对应训练所述多层感知器模型得到的中间权重模型;
将所述测试集输入到各所述中间权重模型中,得到测试结果;
从各所述测试结果中选取目标测试结果,所述目标测试结果高于各所述测试结果中的其他测试结果,将所述目标测试结果所对应的中间权重模型作为训练好的所述多层感知器模型。
3.根据权利要求2所述的声音识别方法,其特征在于,所述测试结果包括:准确率、平均精确率、召回率及F-score。
4.根据权利要求1所述的声音识别方法,其特征在于,在对所述声音样本进行特征提取,得到所述声音样本的多个特征信息之前,所述方法还包括:
对所述声音样本进行预处理,包括但不限于:调整样本时长一致、按声音种类将样本分类、样本数据归一化以及样本数据增强;
对所述声音样本进行特征提取,得到所述声音样本的多个特征信息,包括:
对预处理得到的声音样本进行特征提取,得到所述声音样本的多个特征信息。
5.一种声音识别方法,其特征在于,包括:
获取待识别的声音数据;
对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用权利要求1至4中任一项所述声音识别方法训练得到的。
6.一种声音识别装置,其特征在于,包括:
获取模块,用于获取声音样本;
特征融合模块,用于对所述声音样本进行特征提取,得到所述声音样本的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
训练模块,用于获取待训练的多层感知器模型,并将所述融合特征输入至所述多层感知器模型中迭代训练,反复迭代和调整所述多层感知器模型的训练参数,直至所述多层感知器模型的损失值收敛至第一目标,以及在验证集上对准确率评估达到第二目标。
7.一种声音识别装置,其特征在于,包括:
获取模块,用于获取待识别的声音数据;
特征融合模块,用于对所述声音数据进行特征提取,得到所述声音数据的多维特征信息,并将所述多维特征信息进行融合,得到所述声音样本的融合特征,其中,所述多维特征信息包括但不限于:色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征;
识别模块,用于将所述融合信息输入多层感知器模型中,得到所述声音数据的识别结果;
其中,所述多层感知器模型是采用权利要求1至4中任一项所述声音识别方法训练得到的。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述声音识别方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述声音识别方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述声音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111109192.6A CN113889077A (zh) | 2021-09-22 | 2021-09-22 | 声音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111109192.6A CN113889077A (zh) | 2021-09-22 | 2021-09-22 | 声音识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113889077A true CN113889077A (zh) | 2022-01-04 |
Family
ID=79009867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111109192.6A Pending CN113889077A (zh) | 2021-09-22 | 2021-09-22 | 声音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113889077A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217589A1 (en) * | 2009-02-20 | 2010-08-26 | Nuance Communications, Inc. | Method for Automated Training of a Plurality of Artificial Neural Networks |
CN109036382A (zh) * | 2018-08-15 | 2018-12-18 | 武汉大学 | 一种基于kl散度的音频特征提取方法 |
CN109785850A (zh) * | 2019-01-18 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法、装置和存储介质 |
US10388276B2 (en) * | 2017-05-16 | 2019-08-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for waking up via speech based on artificial intelligence and computer device |
CN110290280A (zh) * | 2019-05-28 | 2019-09-27 | 同盾控股有限公司 | 一种终端状态的识别方法、装置及存储介质 |
CN111105812A (zh) * | 2019-12-31 | 2020-05-05 | 普联国际有限公司 | 一种音频特征提取方法、装置、训练方法及电子设备 |
-
2021
- 2021-09-22 CN CN202111109192.6A patent/CN113889077A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217589A1 (en) * | 2009-02-20 | 2010-08-26 | Nuance Communications, Inc. | Method for Automated Training of a Plurality of Artificial Neural Networks |
US10388276B2 (en) * | 2017-05-16 | 2019-08-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for waking up via speech based on artificial intelligence and computer device |
CN109036382A (zh) * | 2018-08-15 | 2018-12-18 | 武汉大学 | 一种基于kl散度的音频特征提取方法 |
CN109785850A (zh) * | 2019-01-18 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法、装置和存储介质 |
CN110290280A (zh) * | 2019-05-28 | 2019-09-27 | 同盾控股有限公司 | 一种终端状态的识别方法、装置及存储介质 |
CN111105812A (zh) * | 2019-12-31 | 2020-05-05 | 普联国际有限公司 | 一种音频特征提取方法、装置、训练方法及电子设备 |
Non-Patent Citations (1)
Title |
---|
李弼程等: "《德语语音合成:语言学与计算机处理的结合》", 西安电子科技大学出版社, pages: 232 - 234 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
US11862176B2 (en) | Reverberation compensation for far-field speaker recognition | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
CN109902833B (zh) | 机器学习模型解释方法以及装置 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN110047512B (zh) | 一种环境声音分类方法、系统及相关装置 | |
CN109326299B (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
CN110428842A (zh) | 语音模型训练方法、装置、设备及计算机可读存储介质 | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN111916111A (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN114220458B (zh) | 基于阵列水听器的声音识别方法和装置 | |
CN106971724A (zh) | 一种防干扰声纹识别方法和系统 | |
KR101542294B1 (ko) | 캐스케이드된 오버-컴플리트 딕셔너리들에 기초한 이미지 인식 시스템 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
KR102241364B1 (ko) | 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 | |
CN113889077A (zh) | 声音识别方法、装置、电子设备及存储介质 | |
CN112614510B (zh) | 一种音频质量评估方法及装置 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |