CN109522448A - 一种基于crbm和snn进行鲁棒性语音性别分类的方法 - Google Patents

一种基于crbm和snn进行鲁棒性语音性别分类的方法 Download PDF

Info

Publication number
CN109522448A
CN109522448A CN201811212763.7A CN201811212763A CN109522448A CN 109522448 A CN109522448 A CN 109522448A CN 201811212763 A CN201811212763 A CN 201811212763A CN 109522448 A CN109522448 A CN 109522448A
Authority
CN
China
Prior art keywords
crbm
neuron
pulse
tempotron
snn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811212763.7A
Other languages
English (en)
Other versions
CN109522448B (zh
Inventor
于强
王龙标
姚艳丽
党建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811212763.7A priority Critical patent/CN109522448B/zh
Publication of CN109522448A publication Critical patent/CN109522448A/zh
Application granted granted Critical
Publication of CN109522448B publication Critical patent/CN109522448B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,包括以下步骤:步骤一,语音数据集预处理:选择语音数据,并将语音数据转换为语谱图,再将语谱图进行预处理降维操作;步骤二,数据特征编码:以CRBM作为特征提取器来提取特征,进一步通过脉冲时滞编码将提取到的特征转化为脉冲序列;步骤三,tempotron神经元的训练:通过脉冲神经网络结合tempotron学习算法处理脉冲序列;步骤四,读出部分:采用分组设计,最终决策采用了投票法来对分类结果进行判定。本发明在噪声环境下可以有效的对性别进行分类。

Description

一种基于CRBM和SNN进行鲁棒性语音性别分类的方法
技术领域
本发明属于类脑计算领域,具体涉及一种基于CRBM和SNN进行鲁棒性语音性别分类的方法。
背景技术
脉冲神经网络由于更加具有生物可塑性而受到越来越多的关注。传统的人工神经网络和脉冲神经网络的主要不同点在于编码方式和处理方式的不同,传统的人工神经网络通过脉冲触发的平均速率来编码,而脉冲神经网络采用脉冲触发的时序进行编码。脉冲神经网络能够处理带有时间序列信息的能力,使得它比传统的人工神经网络更能处理带有时间结构的数据。
应用脉冲神经网络处理分类的任务,有两个主要的挑战:信息编码和脉冲学习。信息编码指如何将外界刺激(如声音)转换成脉冲序列。不同的编码方式对学习性能有不同的影响,因此需要一个有效的编码方式来加速学习,提高神经网络的性能。有研究表明,卷积受限玻尔兹曼机(CRBM)能够有效地提取声音特征,在性别分类上优于传统的MFCC方法。因此,CRBM作为特征提取器来提取特征,然后又采用了脉冲时滞编码将提取到的特征转换成带有时间结构的脉冲序列。
发明内容
针对以上技术问题,本发明提出了一种基于CRBM和SNN的系统方法来进行性别分类的任务,将脉冲神经网络应用在语音处理领域,丰富了脉冲神经网络的应用研究。
本发明的技术方案为:一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,包括以下步骤:
步骤一,语音数据集预处理:从语音数据库中选择若干句不同信噪比的语音数据并随机分为训练集和测试集两组;将所述语音数据通过快速傅里叶变换转换为语谱图,再经过PCA操作对语谱图进行预处理降维操作;
步骤二,数据特征编码:
1)特征提取:运用无监督方法CRBM进行特征提取,选择500组滤波器进行训练,CRBM训练得到的特征值进行从大到小排序,特征值的大小代表了脉冲传播的顺序;
2)脉冲序列生成:根据所提取特征值的大小和产生脉冲的时间成反比的原则生成脉冲图,每个神经元在编码时间窗内只产生一个脉冲;
步骤三,tempotron神经元的训练:
通过脉冲神经网络结合tempotron学习算法处理脉冲序列,计算神经元后突触膜电位,膜电位的计算如公式(1)-(2):
其中,K(t-ti)代表在t时间下ti时间点传入的脉冲的贡献,
当膜电位V(t)超过一个固定的阈值时,神经元就会发放一个脉冲,并很快地降至复位点位并维持一小段时间,然后接受前段突触的输入脉冲重新升高膜电位;
步骤四,读出部分:
采用分组设计,根据学习神经元的响应对刺激信号进行分类,具体为将tempotron神经元分为激活或者不激活两种状态,使所有状态下的tempotron神经元都响应它们对应的目标类别,同时对不属于目标类别的神经元保持不变,最终根据投票法来对分类结果进行判定。
进一步地,所述步骤一中预处理降维操作的具体方法为:对每句话提取语谱图时,窗长设置为16ms,窗移设置为8ms,窗函数使用的是汉明窗,PCA组分设置为80。
进一步地,所述步骤一中训练集和测试集的语句一半来自于男性,一半来自于女性,并且训练集和测试集来自于不同的说话人。
进一步地,步骤二中CRBM训练时主要包括前向计算和反向计算过程,概率分布的定义如公式(3)-(4):
P(vi|h)=Normal(∑k(Wk*hk)i+c,1) (4)
进一步地,步骤三中所述Tempotron是一个梯度下降学习算法,在处理性别分类问题时,每一个输入模式属于男女两类当中的一类,分别通过P+和P-表示,神经元通过激活或者不激活来做决策,当P+模式出现时神经元应该激活,P-模式出现时不应该激活,如果出现其他情况,tempotron规则将调整突触权重以得到更合适的值;tempotron学习规则如公式(5):
其中,tmax表示在一个时间窗内该输出层神经元达到电压最大值的时刻,λ代表学习率;如果在P+模式神经元没有发放脉冲,则增加突触权重,相反,如果在P-模式神经元错误发放脉冲,则减少突触权重。
进一步地,所述步骤四中每一类采用分组设计,使得在一定时间窗内获得更多的特征信息,其中每50个神经元组成一组代表一类,以提高性别分类的性能。
与现有技术相比,本发明的有益效果为:与传统的人工神经网络相比,脉冲神经网络具有时间信息处理特性,更加适合处理带有时间结构的语音信号。本发明利用CRBM来作为特征提取器提取特征,再利用脉冲迟滞编码层将特征转化为脉冲图,然后通过tempotron学习规则来学习,最后读出分类。结果表明本发明提出的方法在噪声环境下可以有效的对性别进行分类。
附图说明
图1是本发明提出的基于CRBM和SNN进行鲁棒性语音性别分类的方法架构图;
图2是本发明实施例中显示了一个编码的脉冲图。
具体实施方式
为了更好地理解本发明的技术方案,现结合附图及具体实施方式来对本发明进行更进一步详细的描述。
图1是本发明的基于CRBM和SNN进行鲁棒性语音性别分类的方法架构图,主要包含以下步骤:
步骤一,语音数据集预处理:从TIMIT数据库中选择训练集700句话,测试集100句话,其中一半来自于男性,一半来自于女性,并且训练集和测试集来自于不同的说话人。如表2所示,为了证明本发明的鲁棒性,分别采用了干净以及20dB、10dB、0dB的信噪比的语音数据,将这些语音数据首先通过快速傅里叶变换转换为语谱图,再经过PCA操作对语谱图进行预处理降维操作。其中,对于每个句子,音频的采样率是16000Hz,对每句话提取语谱图时,窗长设置为16ms,窗移设置为8ms,窗函数使用的是汉明窗,PCA组分设置为80。
步骤二,数据特征编码:特征提取采用的是CRBM方法,CRBM是一种无监督学习方法,由可见层和隐藏层两部分组成,CRBM训练时主要包括前向计算和反向计算过程,概率分布的定义如公式(3)-(4):
P(vi|h)=Normal(∑k(Wk*hk)i+c,1) (4)
CRBM训练完之后,将提取到的特征通过脉冲时滞编码转换为带有时序的脉冲图,即将CRBM训练得到的特征值进行从大到小排序,值的大小代表了脉冲传播的顺序,根据值的大小和产生脉冲的时间成反比的原则生成脉冲图,每个神经元在编码时间窗内只产生一个脉冲,一个编码的脉冲图如图2所示。
步骤三,tempotron神经元的训练:
通过脉冲神经网络结合tempotron学习算法处理脉冲序列,计算神经元后突触膜电位,膜电位的计算如公式(1)-(2):
其中,K(t-ti)代表在t时间下ti时间点传入的脉冲的贡献,
当膜电位V(t)超过一个固定的阈值时,神经元就会发放一个脉冲,并很快地降至复位点位并维持一小段时间,然后接受前段突触的输入脉冲重新升高膜电位。
Tempotron是一个梯度下降学习算法,在处理性别分类问题时,每一个输入模式属于男女两类当中的一类(P+和P-)。神经元通过激活或者不激活来做决策。当P+模式出现时神经元应该激活,P-模式出现时不应该激活,如果出现其他情况,tempotron规则将调整突触权重以得到更合适的值。tempotron学习规则如公式(5):
其中,tmax表示在一个时间窗内该输出层神经元达到电压最大值的时刻,λ代表学习率;如果在P+模式神经元没有发放脉冲,则增加突触权重,相反,如果在P-模式神经元错误发放脉冲,则减少突触权重。
步骤四,读出部分:根据学习神经元的响应对刺激信号进行分类,对每一类采用分组设计,使得在一定时间窗内获得更多的特征信息。每50个神经元组成一组代表一类,以提高性别分类的性能。具体为将tempotron神经元分为激活或者不激活两种状态,使所有状态下的tempotron神经元都响应它们对应的目标类别,同时对不属于目标类别的神经元保持不变,最终根据投票法来对分类结果进行判定。
如表1所示,使用SNN模型对性别进行分类相对于使用SVM准确率有了一定的提高。
表1在干净环境下不同方法性别分类的准确率
Methods Accuracy
CRBM+SVM 96.7%
CRBM+SNN 98.0%
表2展示了不同信噪比下SNN和DNN对于性别分类的不同结果。
表2在不同信噪比下分类准确率
Methods CRBM+SNN CRBM+DNN
Clean 98% 99%
20dB 98% 99%
10dB 97% 93%
0dB 83% 73%
average 94% 91%
通过表2可以看出,随着噪声的增加,使用CRBM+SNN方法得到的性别分类的准确率要优于使用CRBM+DNN,说明了使用基于CRBM和SNN的方法对于性别分类任务具有更好的鲁棒性。
上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也将落入本发明权利要求的保护范围内。

Claims (7)

1.一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,包括以下步骤:
步骤一,语音数据集预处理:从语音数据库中选择若干句不同信噪比的语音数据并随机分为训练集和测试集两组;将所述语音数据通过快速傅里叶变换转换为语谱图,再经过PCA操作对语谱图进行预处理降维操作;
步骤二,数据特征编码:
1)特征提取:运用无监督方法CRBM进行特征提取,选择500组滤波器进行训练,CRBM训练得到的特征值进行从大到小排序,特征值的大小代表了脉冲传播的顺序;
2)脉冲序列生成:根据所提取特征值的大小和产生脉冲的时间成反比的原则生成脉冲图,每个神经元在编码时间窗内只产生一个脉冲;
步骤三,tempotron神经元的训练:
通过脉冲神经网络结合tempotron学习算法处理脉冲序列,计算神经元后突触膜电位,膜电位的计算如公式(1)-(2):
其中,K(t-ti)代表在t时间下ti时间点传入的脉冲的贡献,
当膜电位V(t)超过一个固定的阈值时,神经元就会发放一个脉冲,并很快地降至复位点位并维持一小段时间,然后接受前段突触的输入脉冲重新升高膜电位;
步骤四,读出部分:
采用分组设计,根据学习神经元的响应对刺激信号进行分类,具体为将tempotron神经元分为激活或者不激活两种状态,使所有状态下的tempotron神经元都响应它们对应的目标类别,同时对不属于目标类别的神经元保持不变,最终根据投票法来对分类结果进行判定。
2.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,所述步骤一中预处理降维操作的具体方法为:对每句话提取语谱图时,窗长设置为16ms,窗移设置为8ms,窗函数使用的是汉明窗,PCA组分设置为80。
3.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,所述步骤一中预处理降维操作的具体方法为:对每句话提取语谱图时,窗长设置为16ms,窗移设置为8ms,窗函数使用的是汉明窗,PCA组分设置为80。
4.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,所述步骤一中训练集和测试集的语句一半来自于男性,一半来自于女性,并且训练集和测试集来自于不同的说话人。
5.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,步骤二中CRBM训练时主要包括前向计算和反向计算过程,概率分布的定义如公式(3)-(4):
P(vi|h)=Normal(∑k(Wk*hk)i+c,1) (4)
6.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,步骤三中所述Tempotron是一个梯度下降学习算法,在处理性别分类问题时,每一个输入模式属于男女两类当中的一类,分别通过P+和P-表示,神经元通过激活或者不激活来做决策,当P+模式出现时神经元应该激活,P-模式出现时不应该激活,如果出现其他情况,tempotron规则将调整突触权重以得到更合适的值;tempotron学习规则如公式(5):
其中,tmax表示在一个时间窗内该输出层神经元达到电压最大值的时刻,λ代表学习率;如果在P+模式神经元没有发放脉冲,则增加突触权重,相反,如果在P-模式神经元错误发放脉冲,则减少突触权重。
7.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,所述步骤四中每一类采用分组设计,使得在一定时间窗内获得更多的特征信息,其中每50个神经元组成一组代表一类,以提高性别分类的性能。
CN201811212763.7A 2018-10-18 2018-10-18 一种基于crbm和snn进行鲁棒性语音性别分类的方法 Expired - Fee Related CN109522448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811212763.7A CN109522448B (zh) 2018-10-18 2018-10-18 一种基于crbm和snn进行鲁棒性语音性别分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811212763.7A CN109522448B (zh) 2018-10-18 2018-10-18 一种基于crbm和snn进行鲁棒性语音性别分类的方法

Publications (2)

Publication Number Publication Date
CN109522448A true CN109522448A (zh) 2019-03-26
CN109522448B CN109522448B (zh) 2021-07-13

Family

ID=65772141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811212763.7A Expired - Fee Related CN109522448B (zh) 2018-10-18 2018-10-18 一种基于crbm和snn进行鲁棒性语音性别分类的方法

Country Status (1)

Country Link
CN (1) CN109522448B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458136A (zh) * 2019-08-19 2019-11-15 广东工业大学 一种交通标志识别方法、装置和设备
CN112201258A (zh) * 2020-10-15 2021-01-08 杭州电子科技大学 一种基于ambp的噪声鲁棒性伪装语音检测方法
CN114220036A (zh) * 2020-09-04 2022-03-22 四川大学 基于音视频感知的人物性别识别技术

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871413A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 基于svm和hmm混合模型的男女说话声音分类方法
CN106845541A (zh) * 2017-01-17 2017-06-13 杭州电子科技大学 一种基于生物视觉与精确脉冲驱动神经网络的图像识别方法
CN108445752A (zh) * 2018-03-02 2018-08-24 北京工业大学 一种自适应选择深度特征的随机权神经网络集成建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871413A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 基于svm和hmm混合模型的男女说话声音分类方法
CN106845541A (zh) * 2017-01-17 2017-06-13 杭州电子科技大学 一种基于生物视觉与精确脉冲驱动神经网络的图像识别方法
CN108445752A (zh) * 2018-03-02 2018-08-24 北京工业大学 一种自适应选择深度特征的随机权神经网络集成建模方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QIANG YU.ET-AL: "A Spiking Neural Network System for Robust Sequence Recognition", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
TIMOTHY J. SHIELDS.ET-AL: "Action-Affect-Gender Classification Using Multi-task Representation Learning", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS 》 *
周立军等: "基于竞争学习的稀疏受限玻尔兹曼机机制", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458136A (zh) * 2019-08-19 2019-11-15 广东工业大学 一种交通标志识别方法、装置和设备
CN110458136B (zh) * 2019-08-19 2022-07-12 广东工业大学 一种交通标志识别方法、装置和设备
CN114220036A (zh) * 2020-09-04 2022-03-22 四川大学 基于音视频感知的人物性别识别技术
CN112201258A (zh) * 2020-10-15 2021-01-08 杭州电子科技大学 一种基于ambp的噪声鲁棒性伪装语音检测方法

Also Published As

Publication number Publication date
CN109522448B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Chang et al. Learning representations of emotional speech with deep convolutional generative adversarial networks
Sailor et al. Unsupervised Filterbank Learning Using Convolutional Restricted Boltzmann Machine for Environmental Sound Classification.
Zhu et al. Learning environmental sounds with multi-scale convolutional neural network
CN105047194B (zh) 一种用于语音情感识别的自学习语谱图特征提取方法
Zhang et al. Boosted deep neural networks and multi-resolution cochleagram features for voice activity detection
CN104268568B (zh) 基于独立子空间网络的行为识别方法
Wu et al. Reducing model complexity for DNN based large-scale audio classification
CN110070895B (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
Lakomkin et al. Reusing neural speech representations for auditory emotion recognition
Qian et al. Wavelets revisited for the classification of acoustic scenes
CN102890930A (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN109522448A (zh) 一种基于crbm和snn进行鲁棒性语音性别分类的方法
CN111783534A (zh) 一种基于深度学习的睡眠分期方法
Kumar et al. On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification.
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN110414367A (zh) 一种基于gan和ssn的时序行为检测方法
CN104077598A (zh) 一种基于语音模糊聚类的情感识别方法
CN105139856A (zh) 基于先验知识规整协方差的概率线性鉴别说话人识别方法
CN112580555A (zh) 一种自发微表情识别方法
CN110246509B (zh) 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
Khandelwal et al. A multi-task learning framework for sound event detection using high-level acoustic characteristics of sounds
CN109903749A (zh) 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法
CN110085236B (zh) 一种基于自适应语音帧加权的说话人识别方法
Zhu et al. A bayesian attention neural network layer for speaker recognition
CN115326398B (zh) 一种基于模糊宽度学习模型的轴承故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210713