CN109616104B - 基于关键点编码和多脉冲学习的环境声音识别方法 - Google Patents

基于关键点编码和多脉冲学习的环境声音识别方法 Download PDF

Info

Publication number
CN109616104B
CN109616104B CN201910101670.5A CN201910101670A CN109616104B CN 109616104 B CN109616104 B CN 109616104B CN 201910101670 A CN201910101670 A CN 201910101670A CN 109616104 B CN109616104 B CN 109616104B
Authority
CN
China
Prior art keywords
pulse
key point
neuron
learning
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910101670.5A
Other languages
English (en)
Other versions
CN109616104A (zh
Inventor
于强
姚艳丽
王龙标
党建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huiyan Technology Tianjin Co ltd
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910101670.5A priority Critical patent/CN109616104B/zh
Publication of CN109616104A publication Critical patent/CN109616104A/zh
Application granted granted Critical
Publication of CN109616104B publication Critical patent/CN109616104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Neurology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于关键点编码和多脉冲学习的环境声音识别方法,通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,使用RWCP数据库作为处理对象,整个系统包括以下三个部分:数据预处理、特征提取和分类器分类。本发明提出了一种基于稀疏关键点编码结合脉冲神经网络的方法,利用离散的脉冲进行声音的识别。为了充分利用整个时间窗内的有效信息,本发明采用多脉冲输出的学习算法,使用特定区间的脉冲数来引导神经元学习。

Description

基于关键点编码和多脉冲学习的环境声音识别方法
技术领域
本发明属于新一代信息技术中的类脑计算、声音识别技术领域,尤其是涉及一种基于关键点编码和多脉冲学习的环境声音识别方法。
背景技术
环境声音识别是个人从周围环境中快速掌握有用信息的重要能力,其成功识别可以在潜在危险发生之前迅速采取行动,以避免突发事件产生。鉴于其重要性,越来越多的研究者开始关注鲁棒的环境声音识别任务。与语音或音乐识别等任务类似,声音识别旨在从环境中自动识别特定声音。不同的是,声音信号是非结构的,而且环境声音中往往伴随着背景噪声,如何在真实的噪声环境下准确地识别一个突发声音是一个具有挑战性的任务。
模式识别任务的一般方法可以用于声音识别,主要分为信号预处理、特征提取和分类器分类三个部分。传统的声音识别方法,例如基于帧的梅尔频率倒谱系数(MFCC)作为特征提取器,隐马尔科夫模型(HMM)作为分类器的方法,这种方法很容易受到噪声的干扰,在噪声增加时识别性能会迅速下降。为了提高声音识别的鲁棒性,又有研究者提出了更加复杂的特征提取方法(例如语谱图图像特征spectrogram image features和匹配追踪matching pursuit方法)结合比较先进的机器学习方法(例如深度神经网络deep neuralnetwork(DNN)和卷积神经网络convolutional neural network(CNN))。然而以上方法的生物置信度比较低,和人脑的信息处理方式相差甚远。
发明内容
为了解决以上问题,本发明提出了一种更加接近于生物神经系统处理方式的方法,利用离散的脉冲进行信息传递与学习。以前的方法采用Tempotron学习算法,在鲁棒性的声音识别任务中取得了比较出色的识别率。但是,Tempotron学习算法仅仅通过整合利用有限的局部时空信息,来通过发放脉冲或保持静默这两种状态输出二值决策,并不能有效充分利用脉冲神经元的时间信息维度。生物神经元往往是在时间维度上连续不断地接受信息并发放脉冲信号。一旦神经元达到发放条件,其就会输出一个脉冲,因而神经元展现出多脉冲发放的状态。为了充分利用脉冲神经网络中的时间信息,本发明提出了一种基于关键点编码和多脉冲学习的环境声音识别方法。
本发明提出一种基于关键点编码和多脉冲学习的环境声音识别方法,技术方案是通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,使用RWCP数据库作为处理对象,整个系统包括以下三个部分:数据预处理、特征提取和分类器分类。为了应用脉冲神经网络进行环境声音识别,声音编码和脉冲学习算法是两个主要需要解决的问题。具体的技术方案如下:
步骤一,音频数据预处理。首先将环境声音信号进行分帧、加窗、短时傅里叶变换、归一化,得到归一化的能量语谱图S’(t,f),之后通过log(S'(t,f)+∈)-log(∈)(∈表示调控基准参数)计算对数能量语谱图,最后将对数能量语谱图进行归一化,用S(t,f)来表示音频数据预处理得到的归一化的对数能量语谱图。
步骤二,稀疏关键点编码:
对预处理得到的语谱图S(t,f)的局部时域和频域分别提取关键点,关键点通过以下公式(1)表示:
Figure GDA0003929773490000021
其中,dt和df分别表示时域和频域的局部区域大小。
为了得到稀疏的关键点编码,本发明利用了两种掩码机制:基于相对值的掩码方法和基于绝对值的掩码方法。
1)基于相对值的掩码机制:本发明将每个关键点和其对应局部区域的平均能量值做对比,如果P(t,f)*βr<mean(S(t±dt,f±df)),则此关键点被视为背景噪声删除掉。
2)基于绝对值的掩码机制:如果P(t,f)<βa,则该关键点被视为不重要的信息删除掉。
其中βr和βa是两个超参数,通过对其数值的不同设定可调控编码的稀疏程度。
将通过两种掩码机制之后得到的关键点信息做映射处理,得到稀疏的时空脉冲图,完成稀疏关键点编码。
步骤三,多脉冲学习算法:
基于包括Tempotron学习算法在内的当前一些学习算法的不足,本发明充分利用脉冲神经网络的时间处理优势,设计多脉冲学习算法,充分结合整个时间窗内的有效信息,通过神经元发放脉冲的数量对环境声音做出鲁棒性决策。
1)神经元模型
本发明采用简单易处理的基于电流的泄露整合激活神经元模型(leakyintegrate-and-fire neuron model)。在神经元模型中,每当有输出脉冲产生,神经元都会发生相应的复位动态响应。神经元的膜电位V(t)是通过整合来自N个传入神经元的突触电流得到的:
Figure GDA0003929773490000031
其中,
Figure GDA0003929773490000032
是到达突触i的第j个脉冲时间,
Figure GDA0003929773490000033
代表第j个输出脉冲的时间,θ表示神经元激活阈值。每一个传入脉冲都对突触后电位做出贡献,其峰值振幅和形状分别由突触权重wi和归一化核函数K决定。核函数K定义为:
Figure GDA0003929773490000034
在这里,τm表示膜电位的时间常数,τs表示突触电流的时间常数。V0是一个常数因子。
神经元以事件驱动的方式连续整合输入脉冲。当没有输入脉冲的时候,神经元的膜电位会逐渐衰减至静息电位。当膜电位超过阈值的时候就会发放输出脉冲,膜电位再根据公式(2)的最后一部分复位。
2)学习规则
神经元输出脉冲的数量与其阈值之间的关系由脉冲阈值表面spike-threshold-surface(STS)表征。因此可以导出学习规则以修改突触权重,使得新的STS可以得到期望数量的脉冲。本发明采用TDP1(阈值驱动可塑性学习算法)作为多脉冲学习规则,临界阈值
Figure GDA0003929773490000036
相对于权重wi的梯度表示为:
Figure GDA0003929773490000035
其中,m表示在临界阈值的时间t*出现之前输出脉冲的数量。
定义目标输出脉冲个数为d,实际输出脉冲个数为o,通过在每一个错误步骤之后根据单个临界阈值
Figure GDA0003929773490000041
改变权重来训练的原则,相对学习规则如下:
Figure GDA0003929773490000042
η>0为学习率来控制每次更新的步长。如果神经元激活脉冲的个数少于目标个数,则增加输出脉冲的个数,否则减少输出脉冲的个数。
有益效果
针对传统声音识别的方法缺乏生物可塑性的问题,提出了一种基于稀疏关键点编码结合脉冲神经网络的方法,利用离散的脉冲进行声音的识别。
为了充分利用整个时间窗内的有效信息,本发明采用多脉冲输出的学习算法,使用特定区间的脉冲数来引导神经元学习。
本发明仿脑信息处理机制提出了一个基于脉冲神经网络的鲁棒环境声音识别系统。该系统简化了关键点编码方法,使得编码更加高效、简便、稀疏,充分利用了脉冲神经网络的时域信息处理优势,采用了多脉冲学习算法,该方法提高了环境声音识别的鲁棒性。
附图说明
图1是本发明提出的基于稀疏关键点编码和脉冲神经网络的系统框架图;(a)为信息处理流程框图;(b)-(e)为各部分信息处理示例图;(b)和(c)分别对应语谱图信息;(d)为脉冲编码图;(e)为脉冲神经元动态响应图。
图2是本系统分别在干净(a-d)和信噪比为0dB的背景噪声(e-h)下演示神经元对不同声音样本(所示三种:buzzer,horn和ring声音示例)的响应图:
(a)和(e)为音频图;
(b)和(f)为相应的时频语谱图;
(c)和(g)为神经元在单脉冲学习算法训练下的识别示例图;
(d)和(h)为神经元在多脉冲学习算法训练下的识别示例图,即本发明所提出的方法。
具体实施方式
下面结合附图及具体实验对本发明做进一步详细地描述。
如图1所示,本发明所涉及的基于稀疏关键点编码和脉冲神经网络的系统框架图,主要包含以下步骤:
步骤一,RWCP数据库预处理:从RWCP数据库中选取10类不同的声音进行识别,分别为铃声(bells5)、瓶子声(bottle1)、蜂鸣器声音(buzzer)、大镲声(cymbals)、喇叭声(horn)、卡拉(kara)、金属(metal15);所有音频采样频率为16KHz,每一段音频样本时长约0.5-3秒。每一类选取前80个文件作为实验的数据库,其中在每一类的80个文件中随机选取40个作为训练集,另外40个作为测试集。另外,从NOISEX’92数据库中选取“speech babble”噪声用来评估系统的鲁棒性。如表1和表2所示,系统分别在干净条件下和带噪条件下进行训练,训练之后分别在干净以及20dB、10dB、0dB、-5dB的信噪比条件下进行测试。
每一个音频信号经过分帧、加窗、短时傅里叶变换、归一化,FFT点数设为256,窗长设为256,窗移设为96,得到归一化的能量语谱图,接下来对语谱图取对数操作,参数∈设置为10-5。再通过归一化操作得到预处理的归一化对数语谱图。
步骤二,稀疏关键点编码:
在预处理得到的语谱图的局部区域提取关键点,其中dt和df都设置为4。采用掩码机制得到更加稀疏的关键点,其中βr设置为0.85,βa设置为0.15。最终通过映射将关键点映射成稀疏的时空脉冲图。
步骤三,多脉冲学习:
在通过关键点编码得到稀疏时空脉冲图之后,运用多脉冲学习算法,通过调整权重使其产生指定数量范围的脉冲个数来训练模型。对应于本系统中每个类别的神经元进行训练,使其至少发射20个脉冲来响应它们的各自所对应的目标类别并对其它类别保持静默。最终决策是由输出脉冲数量最多的神经元投票决定的。图2展示了本系统分别在干净(a-d)和信噪比为0dB的背景噪声(e-h)条件下演示神经元对不同声音样本的输出响应图。
表1列出了在没有噪声条件下训练,然后分别在干净以及信噪比20dB、10dB、0dB、-5dB带噪条件下测试的不匹配情况下的评估结果。从表1中可以看出,传统的机器学习方法在干净环境下可以得到超过99%的准确率,但是,随着噪声的增加,其识别性能迅速下降,其平均准确率分别为47.3%(MFCC-HMM)、68.74%(SPEC-DNN)、88.07%(SPEC-CNN)。
表1在不匹配条件下的实验评估准确率
Figure GDA0003929773490000061
表2在带噪条件下训练,不同测试条件下实验的评估准确率
Figure GDA0003929773490000062
值得注意的是,当关键点编码结合卷积神经网络(CNN)时,其识别性能有所提升,这反应了本系统中稀疏关键点编码的有效性。另一方面,基于生物置信度高的脉冲方法架构下的方法中,除了SOM-SNN之外,其它的基于脉冲神经网络的方法都得到了平均准确率超过90%的结果。本系统采用多脉冲的学习算法,其性能明显优于其它的方法,得到了98.68%的平均准确率,即使在信噪比为-5dB的强噪声情况下,也得到了97.13%的识别准确率。
带噪训练可以有效地进一步提升每个系统的识别性能。本系统随机选择干净以及加20dB、10dB噪声的声音数据来训练,之后在不同实验条件下测。表2列出了不同方法在带噪条件下训练,不同噪声环境下测试的实验结果。结果显示,本系统提出的方法在信噪比为-5dB时准确率达到98.95%,优于其他的方法。

Claims (2)

1.基于关键点编码和多脉冲学习的环境声音识别方法,其特征在于,通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,其使用RWCP数据库作为处理对象,整个系统包括以下三个部分:数据预处理、特征提取和分类器分类,具体的步骤如下:
步骤一,音频数据预处理:
首先将环境声音信号进行分帧、加窗、短时傅里叶变换、归一化,得到归一化的能量语谱图S’(t,f),之后通过log(S’(t,f)+∈)-log(∈),∈表示调控基准参数,计算对数能量语谱图,最后将对数能量语谱图进行归一化,用S(t,f)来表示音频数据预处理得到的归一化的对数能量语谱图;
步骤二,稀疏关键点编码:
(1)对预处理得到的语谱图S(t,f)的局部时域和频域分别提取关键点,关键点通过以下公式(1)表示:
Figure FDA0003929773480000011
其中,dt和df分别表示时域和频域的局部区域大小;
(2)利用基于相对值的掩码方法和基于绝对值的掩码方法,得到稀疏的关键点编码:通过两种掩码机制之后得到的关键点信息做映射处理,得到稀疏的时空脉冲图,完成稀疏关键点编码;
步骤三,多脉冲学习算法:利用脉冲神经网络的时间处理优势,设计多脉冲学习算法,充分结合整个时间窗内的有效信息,通过神经元发放脉冲的数量对环境声音做出鲁棒性决策;
所述步骤二中基于相对值的掩码机制,将每个关键点和其对应局部区域的平均能量值做对比,如果P(t,f)*βr<mean(S(t±dt,f±df)),则此关键点被视为背景噪声删除掉;
基于绝对值的掩码机制:如果P(t,f)<βα,则该关键点被视为不重要的信息删除掉;
其中βr和βα是两个超参数,通过对其数值的不同设定可调控编码的稀疏程度;所述步骤三具体包括:
(1)神经元模型
采用简单易处理的基于电流的泄露整合激活神经元模型;
在神经元模型中,每当有输出脉冲产生,神经元都会发生相应的复位动态响应;
神经元的膜电位V(t)是通过整合来自N个传入神经元的突触电流得到的:
Figure FDA0003929773480000021
其中,
Figure FDA0003929773480000022
是到达突触i的第j个脉冲时间,
Figure FDA0003929773480000023
代表第j个输出脉冲的时间,θ表示神经元激活阈值;每一个传入脉冲都对突触后电位做出贡献,其峰值振幅和形状分别由突触权重wi和归一化核函数K决定;
核函数K定义为:
Figure FDA0003929773480000024
在这里,τm表示膜电位的时间常数,τs表示突触电流的时间常数,V0是一个常数因子;
神经元以事件驱动的方式连续整合输入脉冲;当没有输入脉冲的时候,神经元的膜电位会逐渐衰减至静息电位;当膜电位超过阈值的时候就会发放输出脉冲,膜电位再根据公式(2)的最后一部分复位;
(2)学习规则
采用TDP1作为多脉冲学习规则,临界阈值
Figure FDA0003929773480000025
相对于权重wi的梯度表示为:
Figure FDA0003929773480000026
其中,m表示在临界阈值的时间t*出现之前输出脉冲的数量;
定义目标输出脉冲个数为d,实际输出脉冲个数为o,通过在每一个错误步骤之后根据单个临界阈值
Figure FDA0003929773480000027
改变权重来训练的原则,相对学习规则如下:
Figure FDA0003929773480000031
η>0为学习率来控制每次更新的步长。
2.根据权利要求1所述的基于关键点编码和多脉冲学习的环境声音识别方法,其特征在于,如果神经元激活脉冲的个数少于目标个数,则增加输出脉冲的个数,否则减少输出脉冲的个数。
CN201910101670.5A 2019-01-31 2019-01-31 基于关键点编码和多脉冲学习的环境声音识别方法 Active CN109616104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910101670.5A CN109616104B (zh) 2019-01-31 2019-01-31 基于关键点编码和多脉冲学习的环境声音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910101670.5A CN109616104B (zh) 2019-01-31 2019-01-31 基于关键点编码和多脉冲学习的环境声音识别方法

Publications (2)

Publication Number Publication Date
CN109616104A CN109616104A (zh) 2019-04-12
CN109616104B true CN109616104B (zh) 2022-12-30

Family

ID=66019509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910101670.5A Active CN109616104B (zh) 2019-01-31 2019-01-31 基于关键点编码和多脉冲学习的环境声音识别方法

Country Status (1)

Country Link
CN (1) CN109616104B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028861B (zh) * 2019-12-10 2022-02-22 思必驰科技股份有限公司 频谱掩码模型训练方法、音频场景识别方法及系统
CN111310816B (zh) * 2020-02-07 2023-04-07 天津大学 基于无监督匹配追踪编码的仿脑架构图像识别方法
CN111681648A (zh) * 2020-03-10 2020-09-18 天津大学 基于增强脉冲的声音识别方法
CN112749637B (zh) * 2020-12-29 2023-09-08 电子科技大学 一种基于snn的分布式光纤传感信号识别方法
CN112734012B (zh) * 2021-01-07 2024-03-05 北京灵汐科技有限公司 脉冲神经网络训练方法、数据处理方法、电子设备和介质
CN113257282B (zh) * 2021-07-15 2021-10-08 成都时识科技有限公司 语音情感识别方法、装置、电子设备以及存储介质
CN113974607B (zh) * 2021-11-17 2024-04-26 杭州电子科技大学 一种基于脉冲神经网络的睡眠鼾声检测系统
CN115906960A (zh) * 2022-11-18 2023-04-04 天津大学 基于生物学习神经网络的声音识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709997A (zh) * 2016-04-29 2017-05-24 电子科技大学 基于深度神经网络和稀疏自编码器的三维关键点检测方法
CN106845541A (zh) * 2017-01-17 2017-06-13 杭州电子科技大学 一种基于生物视觉与精确脉冲驱动神经网络的图像识别方法
CN108596195A (zh) * 2018-05-09 2018-09-28 福建亿榕信息技术有限公司 一种基于稀疏编码特征提取的场景识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709997A (zh) * 2016-04-29 2017-05-24 电子科技大学 基于深度神经网络和稀疏自编码器的三维关键点检测方法
CN106845541A (zh) * 2017-01-17 2017-06-13 杭州电子科技大学 一种基于生物视觉与精确脉冲驱动神经网络的图像识别方法
CN108596195A (zh) * 2018-05-09 2018-09-28 福建亿榕信息技术有限公司 一种基于稀疏编码特征提取的场景识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《A Spiking Neural Network System for Robust Sequence Recognition》;Qiang Yu et al.;《IEEE Transactions on Neural Networks and Learning Systems》;20150414;第27卷(第3期);全文 *
《A Supervised Multi-Spike Learning Algorithm for Spiking Neural Networks》;Yu Miao et al.;《2018 International Joint Conference on Neural Networks (IJCNN)》;20181014;全文 *
《Combining robust spike coding with spiking neural networks for sound event classification》;Jonathan Dennis et al.;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20150806;第176-179页 *
《Spike Timing or Rate? Neurons Learn to Make Decisions for Both Through Threshold-Driven Plasticity》;Qiang Yu et al.;《 IEEE Transactions on Cybernetics》;20180427;第49卷(第6期);第2178-2188页 *
《基于视觉分层的前馈多脉冲神经网络算法研究》;金昕;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第01期);全文 *

Also Published As

Publication number Publication date
CN109616104A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109616104B (zh) 基于关键点编码和多脉冲学习的环境声音识别方法
Sarangi et al. Optimization of data-driven filterbank for automatic speaker verification
Shahamiri et al. Real-time frequency-based noise-robust Automatic Speech Recognition using Multi-Nets Artificial Neural Networks: A multi-views multi-learners approach
US11694696B2 (en) Method and apparatus for implementing speaker identification neural network
Verma et al. Frequency Estimation from Waveforms Using Multi-Layered Neural Networks.
CN113571067B (zh) 一种基于边界攻击的声纹识别对抗样本生成方法
CN109448749A (zh) 基于有监督学习听觉注意的语音提取方法、系统、装置
Song et al. A machine learning-based underwater noise classification method
CN109903749B (zh) 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法
CN115424620A (zh) 一种基于自适应触发器的声纹识别后门样本生成方法
Alamsyah et al. Speech gender classification using bidirectional long short term memory
Sertsi et al. Robust voice activity detection based on LSTM recurrent neural networks and modulation spectrum
Shi et al. Deep neural network and noise classification-based speech enhancement
Tan et al. Digit recognition using neural networks
Tawaqal et al. Recognizing five major dialects in Indonesia based on MFCC and DRNN
Kato et al. Statistical regression models for noise robust F0 estimation using recurrent deep neural networks
Nicolson et al. Sum-product networks for robust automatic speaker identification
CN115602156A (zh) 一种基于多突触连接光脉冲神经网络的语音识别方法
Bourouba et al. Feature extraction algorithm using new cepstral techniques for robust speech recognition
Nayem et al. Incorporating intra-spectral dependencies with a recurrent output layer for improved speech enhancement
Malekzadeh et al. Persian vowel recognition with MFCC and ANN on PCVC speech dataset
Mendelev et al. Robust voice activity detection with deep maxout neural networks
Wu et al. Audio-based expansion learning for aerial target recognition
Shanmugapriya et al. Deep neural network based speaker verification system using features from glottal activity regions
Gade et al. Hybrid Deep Convolutional Neural Network based Speaker Recognition for Noisy Speech Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231008

Address after: 14th, 15th, 16th, and 17th floors, 18th floor, Building 1, Nord Center, No. 168 Luwei Road, Hongshunli Street, Hebei District, Tianjin, 300000

Patentee after: HUIYAN TECHNOLOGY (TIANJIN) Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right
CP02 Change in the address of a patent holder

Address after: No.14,15,16,17, 18th Floor, Building 1, Nord Center, No. 168 Luwei Road, Hongshunli Street, Hebei District, Tianjin, 300000

Patentee after: HUIYAN TECHNOLOGY (TIANJIN) Co.,Ltd.

Address before: 14th, 15th, 16th, and 17th floors, 18th floor, Building 1, Nord Center, No. 168 Luwei Road, Hongshunli Street, Hebei District, Tianjin, 300000

Patentee before: HUIYAN TECHNOLOGY (TIANJIN) Co.,Ltd.

CP02 Change in the address of a patent holder