CN110991633B - 一种基于忆阻网络的残差神经网络模型及其应用方法 - Google Patents

一种基于忆阻网络的残差神经网络模型及其应用方法 Download PDF

Info

Publication number
CN110991633B
CN110991633B CN201911228365.9A CN201911228365A CN110991633B CN 110991633 B CN110991633 B CN 110991633B CN 201911228365 A CN201911228365 A CN 201911228365A CN 110991633 B CN110991633 B CN 110991633B
Authority
CN
China
Prior art keywords
neural network
memristor
model
network model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911228365.9A
Other languages
English (en)
Other versions
CN110991633A (zh
Inventor
于永斌
汤亦凡
邓权芯
戚敏惠
买峰
唐浩文
尼玛扎西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911228365.9A priority Critical patent/CN110991633B/zh
Publication of CN110991633A publication Critical patent/CN110991633A/zh
Application granted granted Critical
Publication of CN110991633B publication Critical patent/CN110991633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于忆阻网络的残差神经网络模型及其应用方法,基于忆阻器构建的忆阻网络结构,能够进行大规模并行处理,同时拥有巨大的存储量。忆阻器可通过调节两端的施加电压,灵活地改变其阻值状态,从而实现突触可塑性。基于忆阻器的忆阻网络具有功耗低,速度快和模块化等优势,可根据开发者的需求构建多种神经网络。由忆阻器所搭建的忆阻网络作为残差神经网络的硬件支撑,在此基础之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能,通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。

Description

一种基于忆阻网络的残差神经网络模型及其应用方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于忆阻网络的残差神经网络模型及其在用于语音识别中的应用方法。
背景技术
忆阻器是一种新型的非线性两端电路元件,其天然的记忆功能、连续的输入输出特性和非易失性,使其在人工神经网络、模式识别和图像处理等方面有着巨大的应用潜能。忆阻器不仅具有很好的兼容性,而且都具有功耗低、高可靠性和可扩展性等优势。忆阻器构建神经元使得神经网络电路设计更加优越可靠。
大规模深度卷积神经网络的计算需要大量的计算资源,目前的通用计算平台难以满足神经网络计算对计算能力与计算功耗的需求。忆阻器作为第四种基本电路元件,具有存储密度高、功耗低等优点,并且忆阻器阵列可以模拟矩阵向量乘计算。采用忆阻器加速大规模深度神经网络,将有效提高深度神经网络计算的性能与能效比。
在语音识别领域,传统的算法GMM-UBM声学模型一直占据的主导地位,但由于GMM-UBM声学模型本身的特点,其对数据量要求较高,并且在操作过程中计算量大、运行速度缓慢,导致模型的训练时间较长,因此在实际应用过程中有一定的缺陷。近年来,随着神经网络的飞速发展,CNN、ResNet、VggNet等性能优异的神经网络模型被提出,并被应用到端到端语音识别方法中,表现出杰出的效果。
由此可见,运用忆阻器来实现一种以语音识别为目标的神经网络是有必要的,其结合了忆阻器在功耗、性能等方面的优越性和神经网络在语音识别领域的优势。
发明内容
基于上述技术问题,本发明提出了一种基于忆阻网络的残差神经网络模型,并探索了其在语音识别中的应用方法。在硬件上,基于忆阻器构建的忆阻网络结构,能够进行大规模并行处理,同时拥有巨大的存储量。忆阻器可通过调节两端的施加电压,灵活地改变其阻值状态,从而实现突触可塑性。基于忆阻器的忆阻网络模型具有功耗低,速度快和模块化等优势,可根据开发者的需求构建多种神经网络,如利用忆阻器构建卷积神经网络、残差网络、BP神经网络等。由忆阻器所搭建的忆阻网络作为残差神经网络的硬件支撑,在此基础之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能。通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。
本发明提出了一种基于忆阻网络的残差神经网络模型,该残差神经网络模型基于卷积神经网络和残差神经网络,其更加擅长提取局部特征,模型的复杂度高,更容易拟合复杂的数据,泛化性能更佳,能够广泛应用到各种语音识别的场景中。
一种基于忆阻网络的残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,在此基础上构建所述残差神经网络模型,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作可以通过以下公式表示:
Figure BDA0002302858200000021
其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关。
一种基于上述残差神经网络模型的应用方法,包括以下步骤:
S1)基于Python下的Keras库构建上述残差神经网络模型作为声学模型;
S2)获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来;并输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号;
S3)所述残差神经网络模型提取步骤S2)中获取的所述经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,保存所述语音信号特征向量到特定文件,所述所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量;
S4)将步骤S3)提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型;
S5)保存所述训练完成的残差神经网络模型及其相关参数;
S6)将步骤S3)中测试集中待测试样本的语音信号特征向量输入到步骤S5)中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
本发明基于忆阻网络构建残差神经网络模型,克服了软件实现神经网络存在的运算速度低、稳定性差等缺点,具体地,基于忆阻器的残差神经网络模型在语音识别方面具有以下优点:1)分类精度高:通过神经网络进行训练,可以达到高精度的分类效果;2)分类效率高:采用硬件实现神经网络,从而大幅度降低了神经网络训练时间。并且本发明所构建的声学模型基于ResNet模型和GRU模型,将二者融合为一体进行语音识别,在其中某一模型产生较大预测偏差时能够借助另外一个模型来保证模型的准确率有一个较高的下限,使得整体模型具有良好的泛化性能和鲁棒性。
附图说明
图1为本发明的基于忆阻网络的残差神经网络模型
图2为本发明的语音识别流程图
图3为本发明的残差神经网络模型的工作流程图
图4为本发明的ResNet模型结构图
图5为本发明的GRU模型结构图
图6为本发明的ResNet模型的残差块结构图
图7为本发明的GRU模型的残差块结构图
图8为本发明的ResNet模型训练过程中的准确率-损失图
图9为本发明的GRU模型训练过程中的准确率-损失图
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数,通过忆阻网络中的忆阻器的阻值来模拟忆阻网络中的权重,电压模拟神经元的输入,电流模拟神经元的输出。由忆阻器所搭建的忆阻网络作为残差神经网络模型的硬件支撑,在此基础之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能。通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。
如图1所示为本发明的基于忆阻网络的残差神经网络模型,将基于忆阻器的忆阻网络结构作为残差神经网络的权值矩阵,忆阻网络可以有效的模拟矩阵向量乘操作,下图中Vo=(Vo,0,Vo,1,...,Vo,M)为神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)为神经元的输入向量,输出向量与输入向量之间的函数关系可以通过以下公式表示:
Figure BDA0002302858200000041
公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定。ci,j指的是矩阵中的第i行、第j列的元素,gs应该是一个额外的电阻值,与矩阵中的i、j位置无关,更详细地说,ci,j是忆阻器对应的一个属性值,由gi,j和gs计算得来。通过对忆阻器两端施加不同的电压可以灵活改变忆阻器的阻值,从而有效实现所述残差神经网络模型中的各种计算。
如图1所示为本发明的基于忆阻网络的残差神经网络模型,所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层。由于忆阻器具有阻值可变性和可存储性,在本发明的残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和。
如图2所示,为本发明实现的一种基于忆阻网络的残差神经网络模型的应用方法,包括以下步骤:
S1:基于Python下的Keras库构建如图1所示的残差神经网络模型作为声学模型。
S2:获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来,便于训练时需要。输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号。
S3:所述残差神经网络模型提取S2中获取的经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,所述所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量,保存所述语音信号特征向量到特定文件。
S4:将S3提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型。
S5:保存所述训练完成的残差神经网络模型及其相关参数。
S6:将S3中测试集中待测试样本的语音信号特征向量输入到S5中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
步骤1所构建的残差神经网络模型的工作流程图如图3所示,特征提取模块对由输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述残差神经网络模型包含两部分:ResNet模型和GRU模型,左右两个模型ResNet模型和GRU模型都采用了相同的得到的语音信号特征向量作为所述残差神经网络模型的输入,并且分别由ResNet输出模块和GRU输出模块输出的语音分类结果为统一的格式,最后通过分类结果整合模块将ResNet模型和GRU模型两个模型输出的语音分类结果进行整合,按照各占0.5权重的方式进行加权求和,并由最终结果输出模块输出最终的语音分类结果。
如图4所示,为图3中ResNet模型的结构图,第一层为卷积层,即输入层,包含64个相同的大小为5×5的卷积核。接着是一层批量归一化层,Relu激活函数以及大小为2×2的最大池化层。最大池化层后面依次连接的是三层相同的小残差块和四层相同的大残差块。四层大残差块后面是一层卷积层,该层卷积层包含512个相同的大小为9×1的卷积核。卷积层后面是一层包含512个神经元的全连接层,最后以Softmax激活函数作为输出。
如图5所示,为图3中GRU模型的结构图,前三层均为卷积层,分别为一层输入层和两层隐藏层,第一、二层卷积层均包含64个相同的大小为3×3的卷积核,第三层卷积层包含128个相同的大小为5×5的卷积核,这三层卷积层每层后面都紧跟着一个大小为2×2的最大池化层。该三层卷积层后面连接三层残差块。该三层残差块后面是三层包含512个神经元的循环门控单元层,其中前两层循环门控单元层返回的是该层所有神经元的输出向量,第三层循环门控单元层返回的是该层最后一个神经元的输出向量,便于与全连接层进行连接;;该循环门控单元层之后紧接着是一层包含512个神经元的全连接层,全连接层的激活函数为El u,最后是Softmax激活函数作为输出。
如图6所示为图4中ResNet模型的残差块结构图,小残差块和大残差块都包含连续的三个卷积层(分别为输入层、隐藏层和输出层)和一个作为恒等映射的卷积层,分别用于提取语音特征向量和缓解由于网络过深所造成的网络退化问题。ResNet模型中的每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,其中图4中的小残差块中的四个卷积层的卷积核的数量分别为64、64、256、256,大残差块中的四个卷积层的卷积核的数量分别为128、128、512、512,卷积核的大小均为1×1。所述恒等映射的卷积层作用是越级传递信息,防止网络的退化/过拟合。
如图7所示为图5中GRU模型的残差块结构图,所述残差块包含两个含有128个相同的大小为3×3的卷积核的卷积层,分别为输入层和输出层,每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,GRU模型的残差块的恒等映射为残差块的输入直接映射到输出。
步骤2的预处理包括以下过程:VAD去静音、语音填充、语音截断。VAD去静音根据语音信号中的能量大小和过零率检测语音中的静音片段并去除,保证输入的音频尽可能地有效,从而神经网络能够学习到有用的特征;语音填充和截断都是通过判断语音的长度是否符合预设的要求来对音频信号进行处理,通常将音频文件的长度设置为3s,填充时进行零值填充,从而保证了输入的音频文件都具有相同的规格,便于统一处理。
步骤3提取的语音信号特征为40位滤波的logFilterBank特征,提取特征过程中采用了语音加重、分帧、加窗,其中帧长为25ms,帧移为10ms,窗函数使用汉明窗,之后进行快速傅立叶变换,将语音信号由时域信号转化为频域信号,然后使用梅尔滤波器组,最后取对数得到logFilterBank特征。最后将提取到的音频文件保存在后缀为.npy的文件中,便于特征向量的存储和读取。相比于梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC)特征,logFilterBank特征具有特征相关性更高的优点。
步骤4在训练过程中采用的优化函数为随机梯度下降,损失函数为交叉熵,评价标准为分类准确率,并且在训练过程中进行分批次输入音频文件,并且在每一轮的迭代结束后使用验证集进行测试,得到当前模型的准确率,通过比较每一轮训练得到的模型的准确率,保存当前的最优模型的权重,在整个训练过程完成后,保存最终的模型权重到后缀为.h5的文件中。在训练过程中,每一轮训练完成后,将该轮训练所得模型在验证集上进行测试,并计算的准确率和损失值。如图8,9所示。所述训练轮数不少于五十轮。
步骤6加载步骤5中保存的残差神经网络模型及其权重,输入步骤3中的测试集中待测试样本的语音信号特征向量,输出该待测试样本的语音分类识别结果,并计算分类的准确率。
基于Python的学习库Keras搭建残差神经网络模型,在计算机CPU型号i7-8700、显卡GTX-1070、内存大小16GB的实验环境下,使用的数据集是LibriSpeech数据集,对上述残差神经网络模型进行训练、验证和测试,所得的结果如下表1所示:
表1测试结果
Figure BDA0002302858200000061
Figure BDA0002302858200000071
从表中可见,本发明所提出的残差神经网络模型在语音识别中的准确率均高于单独使用ResNet模型或GRU模型的准确率,说明所述残差神经网络模型在语音识别方面表现优异。
本发明公开了一种基于忆阻网络的残差神经网络模型及其应用,涉及人工智能技术领域。基于忆阻器实现突触的可塑性,搭建忆阻网络,进而设计实现残差神经网络,并由此提出其在语音识别中的应用。其在硬件上提高了计算精度和训练效率,在软件上实现了更高级的残差神经网络,更擅长提取局部特征,同时结合了卷积神经网络和残差网络,使模型具有更好的泛化能力和鲁棒性,并且对于复杂的数据具有较强的拟合能力,在复杂应用场景下具有良好的适应能力。与传统卷积神经网络相比,本发明使用忆阻网络设计的残差神经网络模型具有优良的性能,可将其用于语音识别等领域。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。

Claims (14)

1.一种基于忆阻网络的残差神经网络模型,其特征在于,该残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,在此基础上构建所述残差神经网络模型,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
具体地,所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作通过以下公式表示:
Figure FDA0003687434920000011
其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关。
2.根据权利要求1所述的基于忆阻网络的残差神经网络模型,其特征在于,所述残差神经网络模型包括输入模块、特征提取模块、ResNet模型、GRU模型、ResNet输出模块、GRU输出模块、分类结果整合模块和最终结果输出模块;所述特征提取模块对由所述输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述ResNet模型和所述GRU模型均采用相同的语音信号特征向量作为所述残差神经网络模型的输入,由所述ResNet输出模块和所述GRU输出模块分别输出所述ResNet模型和所述GRU模型的语音分类结果,然后通过所述分类结果整合模块将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行整合,按照各占0.5权重的方式将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行加权求和,并由所述最终结果输出模块输出最终的语音分类结果,其中,分别由所述ResNet输出模块和所述GRU输出模块输出的语音分类结果为统一的格式。
3.根据权利要求2所述的基于忆阻网络的残差神经网络模型,其特征在于,所述ResNet模型的结构为:第一层是卷积层,即输入层,包含64个相同的大小为5×5的卷积核;紧接着是一层批量归一化层、Relu激活函数以及一个大小为2×2的最大池化层;最大池化层后面依次连接的是三层相同的小残差块和四层相同的大残差块;该四层相同的大残差块后面是一层卷积层,该层卷积层包含512个相同的大小为9×1的卷积核;该层卷积层后面是一层包含512个神经元的全连接层,最后以Softmax激活函数作为输出。
4.根据权利要求2所述的基于忆阻网络的残差神经网络模型,其特征在于,所述GRU模型的结构为:前三层均为卷积层,分别作为一层输入层和两层隐藏层,第一、二层卷积层均包含64个相同的大小为3×3的卷积核,第三层卷积层包含128个相同的大小为5×5的卷积核,这三层卷积层每层后面都紧跟着一个大小为2×2的最大池化层,该三层卷积层后面连接三层残差块,该三层残差块后面是三层包含512个神经元的循环门控单元层,其中前两层循环门控单元层返回的是该层所有神经元的输出向量,第三层循环门控单元层返回的是该层最后一个神经元的输出向量,便于与全连接层进行连接;该三层循环门控单元层之后紧接着是一层包含512个神经元的全连接层,该全连接层的激活函数为Elu,最后是Softmax激活函数作为输出。
5.根据权利要求3所述的基于忆阻网络的残差神经网络模型,其特征在于,所述ResNet模型的残差块结构为:所述小残差块和所述大残差块都包含连续的三个卷积层和一个作为恒等映射的卷积层,所述连续的三个卷积层分别作为输入层、隐藏层和输出层,所述连续的三个卷积层用于提取语音特征向量,所述作为恒等映射的卷积层用于缓解由于网络过深所造成的网络退化问题;所述ResNet模型中的每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,其中所述小残差块中的四个卷积层的卷积核的数量分别为64、64、256、256,所述大残差块中的四个卷积层的卷积核的数量分别为128、128、512、512,这四个卷积层分别为所述ResNet模型中输入层、隐藏层、输出层和作为恒等映射的卷积层,所述小残差块和所述大残差块中所有卷积核的大小均为1×1。
6.根据权利要求4所述的基于忆阻网络的残差神经网络模型,其特征在于,所述GRU模型的残差块结构为:所述残差块包含两个含有128个相同的大小为3×3的卷积核的卷积层,分别作为输入层和输出层,每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,并且所述GRU模型的残差块的恒等映射为残差块的输入直接映射到输出。
7.一种基于忆阻网络的残差神经网络模型的应用方法,其特征在于,该方法包括如下步骤:
S1)基于Python下的Keras库构建残差神经网络模型作为声学模型,该残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
具体地,所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作通过以下公式表示:
Figure FDA0003687434920000031
其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关;
S2)获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来;并输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号;
S3)所述残差神经网络模型提取步骤S2)中获取的所述经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,保存所述语音信号特征向量到特定文件,所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量;
S4)将步骤S3)提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型;
S5)保存所述训练完成的残差神经网络模型及其相关参数;
S6)将步骤S3)中测试集中待测试样本的语音信号特征向量输入到步骤S5)中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
8.根据权利要求7所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S1)中所构建的残差神经网络模型包括输入模块、特征提取模块、ResNet模型、GRU模型、ResNet输出模块、GRU输出模块、分类结果整合模块和最终结果输出模块;所述特征提取模块对由所述输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述ResNet模型和所述GRU模型均采用相同的语音信号特征向量作为所述残差神经网络模型的输入,由所述ResNet输出模块和所述GRU输出模块分别输出所述ResNet模型和所述GRU模型的语音分类结果,然后通过所述分类结果整合模块将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行整合,按照各占0.5权重的方式将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行加权求和,并由所述最终结果输出模块输出最终的语音分类结果,其中,分别由所述ResNet输出模块和所述GRU输出模块输出的语音分类结果为统一的格式。
9.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S2)对所述原始音频文件的语音信号进行预处理包括以下过程:VAD去静音、语音填充和语音截断,其中,VAD去静音是根据语音信号中的能量大小和过零率检测语音中的静音片段并去除,保证输入的音频尽可能地有效,从而使得所述残差神经网络模型能够学习到有用的特征;语音填充和截断都是通过判断语音信号的长度是否符合预设的要求来对音频文件进行处理,将音频文件的长度设置为3s,填充时进行零值填充,从而保证输入的音频文件都具有相同的规格,便于统一处理。
10.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S3)中提取的语音信号的特征为40位滤波的logFilterBank特征,提取特征过程中采用了语音加重、分帧、加窗,其中帧长为25ms,帧移为10ms,窗函数使用汉明窗,之后进行快速傅立叶变换,将语音信号由时域信号转化为频域信号,然后使用梅尔滤波器组,最后取对数得到logFilterBank特征。
11.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S4)中在训练所述残差神经网络模型的过程中采用的优化函数为随机梯度下降,损失函数为交叉熵,评价标准为分类准确率,并且在训练过程中进行分批次输入训练集的语音信号特征向量,并且在每一轮的迭代结束后使用验证集的语音信号特征向量进行测试,得到当前残差神经网络模型的准确率,通过比较每一轮迭代训练得到的残差神经网络模型的准确率,并在所述步骤S5)中保存当前的最优残差神经网络模型的权重,在整个训练过程完成后,保存最终的残差神经网络模型权重到后缀为.h5的文件中,在训练过程中,每一轮训练完成后,将该轮训练所得模型在验证集上进行测试,并计算准确率和损失值。
12.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S3)中所述特定文件为后缀为.npy的文件,以便于语音信号特征向量的存储和读取。
13.根据权利要求11所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述训练轮数不少于50轮。
14.根据权利要求7-13任意一项所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S1)中基于Python下的Keras库构建的残差神经网络模型是在计算机CPU型号i7-8700、显卡GTX-1070、内存大小16GB的实验环境下,使用的原始音频文件是LibriSpeech数据集,对所述残差神经网络模型进行训练、验证和测试。
CN201911228365.9A 2019-12-04 2019-12-04 一种基于忆阻网络的残差神经网络模型及其应用方法 Active CN110991633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911228365.9A CN110991633B (zh) 2019-12-04 2019-12-04 一种基于忆阻网络的残差神经网络模型及其应用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911228365.9A CN110991633B (zh) 2019-12-04 2019-12-04 一种基于忆阻网络的残差神经网络模型及其应用方法

Publications (2)

Publication Number Publication Date
CN110991633A CN110991633A (zh) 2020-04-10
CN110991633B true CN110991633B (zh) 2022-11-08

Family

ID=70089919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911228365.9A Active CN110991633B (zh) 2019-12-04 2019-12-04 一种基于忆阻网络的残差神经网络模型及其应用方法

Country Status (1)

Country Link
CN (1) CN110991633B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695678B (zh) * 2020-06-01 2022-05-03 电子科技大学 一种基于忆阻模块阵列的图像标题生成方法
CN111785262B (zh) * 2020-06-23 2022-08-05 电子科技大学 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN111833886B (zh) * 2020-07-27 2021-03-23 中国科学院声学研究所 全连接多尺度的残差网络及其进行声纹识别的方法
CN111950719B (zh) * 2020-08-14 2024-06-04 清华大学 基于忆阻器的信息处理电路以及信息处理方法
CN112199888B (zh) * 2020-09-30 2021-08-27 太原理工大学 一种基于深度残差网络的旋转设备故障诊断方法、系统及可读存储介质
CN112308223A (zh) * 2020-12-30 2021-02-02 成都科睿埃科技有限公司 一种基于忆阻器的深度神经网络
CN112494063B (zh) * 2021-02-08 2021-06-01 四川大学 一种基于注意力机制神经网络的腹部淋巴结分区方法
CN112926733B (zh) * 2021-03-10 2022-09-16 之江实验室 一种语音关键词检测专用芯片
CN113570048B (zh) * 2021-06-17 2022-05-31 南方科技大学 基于电路仿真的忆阻器阵列神经网络的构建及优化方法
CN113516138B (zh) * 2021-07-21 2022-07-29 中国民航大学 一种基于双模式忆阻桥突触电路的图像处理方法
CN114241245B (zh) * 2021-12-23 2024-05-31 西南大学 一种基于残差胶囊神经网络的图像分类系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038542A (zh) * 2017-12-27 2018-05-15 宁波山丘电子科技有限公司 一种基于神经网络的存储模块、模组及数据处理方法
CN109121435A (zh) * 2017-04-19 2019-01-01 上海寒武纪信息科技有限公司 处理装置和处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9152827B2 (en) * 2012-12-19 2015-10-06 The United States Of America As Represented By The Secretary Of The Air Force Apparatus for performing matrix vector multiplication approximation using crossbar arrays of resistive memory devices
US10810492B2 (en) * 2017-01-27 2020-10-20 Hewlett Packard Enterprise Development Lp Memory side acceleration for deep learning parameter updates

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109121435A (zh) * 2017-04-19 2019-01-01 上海寒武纪信息科技有限公司 处理装置和处理方法
CN108038542A (zh) * 2017-12-27 2018-05-15 宁波山丘电子科技有限公司 一种基于神经网络的存储模块、模组及数据处理方法

Also Published As

Publication number Publication date
CN110991633A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991633B (zh) 一种基于忆阻网络的残差神经网络模型及其应用方法
CN112288086B (zh) 一种神经网络的训练方法、装置以及计算机设备
Tavanaei et al. Bio-inspired multi-layer spiking neural network extracts discriminative features from speech signals
US10339041B2 (en) Shared memory architecture for a neural simulator
CN111785301A (zh) 一种基于残差网络的3dacrnn语音情感识别方法及存储介质
CN110309911A (zh) 神经网络模型验证方法、装置、计算机设备和存储介质
CN114241245B (zh) 一种基于残差胶囊神经网络的图像分类系统
CN112990444B (zh) 一种混合式神经网络训练方法、系统、设备及存储介质
WO2021127982A1 (zh) 语音情感识别方法、智能装置和计算机可读存储介质
CN108171319A (zh) 网络连接自适应深度卷积模型的构建方法
CN113177559A (zh) 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质
CN108879732A (zh) 电力系统暂态稳定评估方法及装置
CN112507947A (zh) 基于多模态融合的手势识别方法、装置、设备及介质
CN113449840A (zh) 神经网络训练方法及装置、图像分类的方法及装置
CN113326383B (zh) 一种短文本实体链接方法、装置、计算设备与存储介质
CN116882469B (zh) 用于情感识别的脉冲神经网络部署方法、装置及设备
CN113420870A (zh) 用于水声目标识别的U-Net结构生成对抗网络及方法
CN114626500A (zh) 一种神经网络计算方法及相关设备
CN116705073A (zh) 一种基于双模态与注意力机制的语音情感识别方法
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN117035038A (zh) 模型剪枝方法、装置、设备及存储介质
Lu et al. NVMLearn: a simulation platform for non-volatile-memory-based deep learning hardware
Hu et al. 3DACRNN Model Based on Residual Network for Speech Emotion Classification.
Shen et al. A fast learning algorithm of neural network with tunable activation function
Gillela Design of hardware CNN accelerators for audio and image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant