CN110991633B - 一种基于忆阻网络的残差神经网络模型及其应用方法 - Google Patents
一种基于忆阻网络的残差神经网络模型及其应用方法 Download PDFInfo
- Publication number
- CN110991633B CN110991633B CN201911228365.9A CN201911228365A CN110991633B CN 110991633 B CN110991633 B CN 110991633B CN 201911228365 A CN201911228365 A CN 201911228365A CN 110991633 B CN110991633 B CN 110991633B
- Authority
- CN
- China
- Prior art keywords
- neural network
- memristor
- model
- network model
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 230000008859 change Effects 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 58
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 26
- 210000002569 neuron Anatomy 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 25
- 230000008901 benefit Effects 0.000 abstract description 6
- 230000003956 synaptic plasticity Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种基于忆阻网络的残差神经网络模型及其应用方法,基于忆阻器构建的忆阻网络结构,能够进行大规模并行处理,同时拥有巨大的存储量。忆阻器可通过调节两端的施加电压,灵活地改变其阻值状态,从而实现突触可塑性。基于忆阻器的忆阻网络具有功耗低,速度快和模块化等优势,可根据开发者的需求构建多种神经网络。由忆阻器所搭建的忆阻网络作为残差神经网络的硬件支撑,在此基础之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能,通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于忆阻网络的残差神经网络模型及其在用于语音识别中的应用方法。
背景技术
忆阻器是一种新型的非线性两端电路元件,其天然的记忆功能、连续的输入输出特性和非易失性,使其在人工神经网络、模式识别和图像处理等方面有着巨大的应用潜能。忆阻器不仅具有很好的兼容性,而且都具有功耗低、高可靠性和可扩展性等优势。忆阻器构建神经元使得神经网络电路设计更加优越可靠。
大规模深度卷积神经网络的计算需要大量的计算资源,目前的通用计算平台难以满足神经网络计算对计算能力与计算功耗的需求。忆阻器作为第四种基本电路元件,具有存储密度高、功耗低等优点,并且忆阻器阵列可以模拟矩阵向量乘计算。采用忆阻器加速大规模深度神经网络,将有效提高深度神经网络计算的性能与能效比。
在语音识别领域,传统的算法GMM-UBM声学模型一直占据的主导地位,但由于GMM-UBM声学模型本身的特点,其对数据量要求较高,并且在操作过程中计算量大、运行速度缓慢,导致模型的训练时间较长,因此在实际应用过程中有一定的缺陷。近年来,随着神经网络的飞速发展,CNN、ResNet、VggNet等性能优异的神经网络模型被提出,并被应用到端到端语音识别方法中,表现出杰出的效果。
由此可见,运用忆阻器来实现一种以语音识别为目标的神经网络是有必要的,其结合了忆阻器在功耗、性能等方面的优越性和神经网络在语音识别领域的优势。
发明内容
基于上述技术问题,本发明提出了一种基于忆阻网络的残差神经网络模型,并探索了其在语音识别中的应用方法。在硬件上,基于忆阻器构建的忆阻网络结构,能够进行大规模并行处理,同时拥有巨大的存储量。忆阻器可通过调节两端的施加电压,灵活地改变其阻值状态,从而实现突触可塑性。基于忆阻器的忆阻网络模型具有功耗低,速度快和模块化等优势,可根据开发者的需求构建多种神经网络,如利用忆阻器构建卷积神经网络、残差网络、BP神经网络等。由忆阻器所搭建的忆阻网络作为残差神经网络的硬件支撑,在此基础之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能。通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。
本发明提出了一种基于忆阻网络的残差神经网络模型,该残差神经网络模型基于卷积神经网络和残差神经网络,其更加擅长提取局部特征,模型的复杂度高,更容易拟合复杂的数据,泛化性能更佳,能够广泛应用到各种语音识别的场景中。
一种基于忆阻网络的残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,在此基础上构建所述残差神经网络模型,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作可以通过以下公式表示:
其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关。
一种基于上述残差神经网络模型的应用方法,包括以下步骤:
S1)基于Python下的Keras库构建上述残差神经网络模型作为声学模型;
S2)获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来;并输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号;
S3)所述残差神经网络模型提取步骤S2)中获取的所述经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,保存所述语音信号特征向量到特定文件,所述所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量;
S4)将步骤S3)提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型;
S5)保存所述训练完成的残差神经网络模型及其相关参数;
S6)将步骤S3)中测试集中待测试样本的语音信号特征向量输入到步骤S5)中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
本发明基于忆阻网络构建残差神经网络模型,克服了软件实现神经网络存在的运算速度低、稳定性差等缺点,具体地,基于忆阻器的残差神经网络模型在语音识别方面具有以下优点:1)分类精度高:通过神经网络进行训练,可以达到高精度的分类效果;2)分类效率高:采用硬件实现神经网络,从而大幅度降低了神经网络训练时间。并且本发明所构建的声学模型基于ResNet模型和GRU模型,将二者融合为一体进行语音识别,在其中某一模型产生较大预测偏差时能够借助另外一个模型来保证模型的准确率有一个较高的下限,使得整体模型具有良好的泛化性能和鲁棒性。
附图说明
图1为本发明的基于忆阻网络的残差神经网络模型
图2为本发明的语音识别流程图
图3为本发明的残差神经网络模型的工作流程图
图4为本发明的ResNet模型结构图
图5为本发明的GRU模型结构图
图6为本发明的ResNet模型的残差块结构图
图7为本发明的GRU模型的残差块结构图
图8为本发明的ResNet模型训练过程中的准确率-损失图
图9为本发明的GRU模型训练过程中的准确率-损失图
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数,通过忆阻网络中的忆阻器的阻值来模拟忆阻网络中的权重,电压模拟神经元的输入,电流模拟神经元的输出。由忆阻器所搭建的忆阻网络作为残差神经网络模型的硬件支撑,在此基础之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能。通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。
如图1所示为本发明的基于忆阻网络的残差神经网络模型,将基于忆阻器的忆阻网络结构作为残差神经网络的权值矩阵,忆阻网络可以有效的模拟矩阵向量乘操作,下图中Vo=(Vo,0,Vo,1,...,Vo,M)为神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)为神经元的输入向量,输出向量与输入向量之间的函数关系可以通过以下公式表示:
公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定。ci,j指的是矩阵中的第i行、第j列的元素,gs应该是一个额外的电阻值,与矩阵中的i、j位置无关,更详细地说,ci,j是忆阻器对应的一个属性值,由gi,j和gs计算得来。通过对忆阻器两端施加不同的电压可以灵活改变忆阻器的阻值,从而有效实现所述残差神经网络模型中的各种计算。
如图1所示为本发明的基于忆阻网络的残差神经网络模型,所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层。由于忆阻器具有阻值可变性和可存储性,在本发明的残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和。
如图2所示,为本发明实现的一种基于忆阻网络的残差神经网络模型的应用方法,包括以下步骤:
S1:基于Python下的Keras库构建如图1所示的残差神经网络模型作为声学模型。
S2:获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来,便于训练时需要。输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号。
S3:所述残差神经网络模型提取S2中获取的经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,所述所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量,保存所述语音信号特征向量到特定文件。
S4:将S3提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型。
S5:保存所述训练完成的残差神经网络模型及其相关参数。
S6:将S3中测试集中待测试样本的语音信号特征向量输入到S5中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
步骤1所构建的残差神经网络模型的工作流程图如图3所示,特征提取模块对由输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述残差神经网络模型包含两部分:ResNet模型和GRU模型,左右两个模型ResNet模型和GRU模型都采用了相同的得到的语音信号特征向量作为所述残差神经网络模型的输入,并且分别由ResNet输出模块和GRU输出模块输出的语音分类结果为统一的格式,最后通过分类结果整合模块将ResNet模型和GRU模型两个模型输出的语音分类结果进行整合,按照各占0.5权重的方式进行加权求和,并由最终结果输出模块输出最终的语音分类结果。
如图4所示,为图3中ResNet模型的结构图,第一层为卷积层,即输入层,包含64个相同的大小为5×5的卷积核。接着是一层批量归一化层,Relu激活函数以及大小为2×2的最大池化层。最大池化层后面依次连接的是三层相同的小残差块和四层相同的大残差块。四层大残差块后面是一层卷积层,该层卷积层包含512个相同的大小为9×1的卷积核。卷积层后面是一层包含512个神经元的全连接层,最后以Softmax激活函数作为输出。
如图5所示,为图3中GRU模型的结构图,前三层均为卷积层,分别为一层输入层和两层隐藏层,第一、二层卷积层均包含64个相同的大小为3×3的卷积核,第三层卷积层包含128个相同的大小为5×5的卷积核,这三层卷积层每层后面都紧跟着一个大小为2×2的最大池化层。该三层卷积层后面连接三层残差块。该三层残差块后面是三层包含512个神经元的循环门控单元层,其中前两层循环门控单元层返回的是该层所有神经元的输出向量,第三层循环门控单元层返回的是该层最后一个神经元的输出向量,便于与全连接层进行连接;;该循环门控单元层之后紧接着是一层包含512个神经元的全连接层,全连接层的激活函数为El u,最后是Softmax激活函数作为输出。
如图6所示为图4中ResNet模型的残差块结构图,小残差块和大残差块都包含连续的三个卷积层(分别为输入层、隐藏层和输出层)和一个作为恒等映射的卷积层,分别用于提取语音特征向量和缓解由于网络过深所造成的网络退化问题。ResNet模型中的每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,其中图4中的小残差块中的四个卷积层的卷积核的数量分别为64、64、256、256,大残差块中的四个卷积层的卷积核的数量分别为128、128、512、512,卷积核的大小均为1×1。所述恒等映射的卷积层作用是越级传递信息,防止网络的退化/过拟合。
如图7所示为图5中GRU模型的残差块结构图,所述残差块包含两个含有128个相同的大小为3×3的卷积核的卷积层,分别为输入层和输出层,每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,GRU模型的残差块的恒等映射为残差块的输入直接映射到输出。
步骤2的预处理包括以下过程:VAD去静音、语音填充、语音截断。VAD去静音根据语音信号中的能量大小和过零率检测语音中的静音片段并去除,保证输入的音频尽可能地有效,从而神经网络能够学习到有用的特征;语音填充和截断都是通过判断语音的长度是否符合预设的要求来对音频信号进行处理,通常将音频文件的长度设置为3s,填充时进行零值填充,从而保证了输入的音频文件都具有相同的规格,便于统一处理。
步骤3提取的语音信号特征为40位滤波的logFilterBank特征,提取特征过程中采用了语音加重、分帧、加窗,其中帧长为25ms,帧移为10ms,窗函数使用汉明窗,之后进行快速傅立叶变换,将语音信号由时域信号转化为频域信号,然后使用梅尔滤波器组,最后取对数得到logFilterBank特征。最后将提取到的音频文件保存在后缀为.npy的文件中,便于特征向量的存储和读取。相比于梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC)特征,logFilterBank特征具有特征相关性更高的优点。
步骤4在训练过程中采用的优化函数为随机梯度下降,损失函数为交叉熵,评价标准为分类准确率,并且在训练过程中进行分批次输入音频文件,并且在每一轮的迭代结束后使用验证集进行测试,得到当前模型的准确率,通过比较每一轮训练得到的模型的准确率,保存当前的最优模型的权重,在整个训练过程完成后,保存最终的模型权重到后缀为.h5的文件中。在训练过程中,每一轮训练完成后,将该轮训练所得模型在验证集上进行测试,并计算的准确率和损失值。如图8,9所示。所述训练轮数不少于五十轮。
步骤6加载步骤5中保存的残差神经网络模型及其权重,输入步骤3中的测试集中待测试样本的语音信号特征向量,输出该待测试样本的语音分类识别结果,并计算分类的准确率。
基于Python的学习库Keras搭建残差神经网络模型,在计算机CPU型号i7-8700、显卡GTX-1070、内存大小16GB的实验环境下,使用的数据集是LibriSpeech数据集,对上述残差神经网络模型进行训练、验证和测试,所得的结果如下表1所示:
表1测试结果
从表中可见,本发明所提出的残差神经网络模型在语音识别中的准确率均高于单独使用ResNet模型或GRU模型的准确率,说明所述残差神经网络模型在语音识别方面表现优异。
本发明公开了一种基于忆阻网络的残差神经网络模型及其应用,涉及人工智能技术领域。基于忆阻器实现突触的可塑性,搭建忆阻网络,进而设计实现残差神经网络,并由此提出其在语音识别中的应用。其在硬件上提高了计算精度和训练效率,在软件上实现了更高级的残差神经网络,更擅长提取局部特征,同时结合了卷积神经网络和残差网络,使模型具有更好的泛化能力和鲁棒性,并且对于复杂的数据具有较强的拟合能力,在复杂应用场景下具有良好的适应能力。与传统卷积神经网络相比,本发明使用忆阻网络设计的残差神经网络模型具有优良的性能,可将其用于语音识别等领域。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。
Claims (14)
1.一种基于忆阻网络的残差神经网络模型,其特征在于,该残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,在此基础上构建所述残差神经网络模型,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
具体地,所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作通过以下公式表示:
其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关。
2.根据权利要求1所述的基于忆阻网络的残差神经网络模型,其特征在于,所述残差神经网络模型包括输入模块、特征提取模块、ResNet模型、GRU模型、ResNet输出模块、GRU输出模块、分类结果整合模块和最终结果输出模块;所述特征提取模块对由所述输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述ResNet模型和所述GRU模型均采用相同的语音信号特征向量作为所述残差神经网络模型的输入,由所述ResNet输出模块和所述GRU输出模块分别输出所述ResNet模型和所述GRU模型的语音分类结果,然后通过所述分类结果整合模块将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行整合,按照各占0.5权重的方式将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行加权求和,并由所述最终结果输出模块输出最终的语音分类结果,其中,分别由所述ResNet输出模块和所述GRU输出模块输出的语音分类结果为统一的格式。
3.根据权利要求2所述的基于忆阻网络的残差神经网络模型,其特征在于,所述ResNet模型的结构为:第一层是卷积层,即输入层,包含64个相同的大小为5×5的卷积核;紧接着是一层批量归一化层、Relu激活函数以及一个大小为2×2的最大池化层;最大池化层后面依次连接的是三层相同的小残差块和四层相同的大残差块;该四层相同的大残差块后面是一层卷积层,该层卷积层包含512个相同的大小为9×1的卷积核;该层卷积层后面是一层包含512个神经元的全连接层,最后以Softmax激活函数作为输出。
4.根据权利要求2所述的基于忆阻网络的残差神经网络模型,其特征在于,所述GRU模型的结构为:前三层均为卷积层,分别作为一层输入层和两层隐藏层,第一、二层卷积层均包含64个相同的大小为3×3的卷积核,第三层卷积层包含128个相同的大小为5×5的卷积核,这三层卷积层每层后面都紧跟着一个大小为2×2的最大池化层,该三层卷积层后面连接三层残差块,该三层残差块后面是三层包含512个神经元的循环门控单元层,其中前两层循环门控单元层返回的是该层所有神经元的输出向量,第三层循环门控单元层返回的是该层最后一个神经元的输出向量,便于与全连接层进行连接;该三层循环门控单元层之后紧接着是一层包含512个神经元的全连接层,该全连接层的激活函数为Elu,最后是Softmax激活函数作为输出。
5.根据权利要求3所述的基于忆阻网络的残差神经网络模型,其特征在于,所述ResNet模型的残差块结构为:所述小残差块和所述大残差块都包含连续的三个卷积层和一个作为恒等映射的卷积层,所述连续的三个卷积层分别作为输入层、隐藏层和输出层,所述连续的三个卷积层用于提取语音特征向量,所述作为恒等映射的卷积层用于缓解由于网络过深所造成的网络退化问题;所述ResNet模型中的每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,其中所述小残差块中的四个卷积层的卷积核的数量分别为64、64、256、256,所述大残差块中的四个卷积层的卷积核的数量分别为128、128、512、512,这四个卷积层分别为所述ResNet模型中输入层、隐藏层、输出层和作为恒等映射的卷积层,所述小残差块和所述大残差块中所有卷积核的大小均为1×1。
6.根据权利要求4所述的基于忆阻网络的残差神经网络模型,其特征在于,所述GRU模型的残差块结构为:所述残差块包含两个含有128个相同的大小为3×3的卷积核的卷积层,分别作为输入层和输出层,每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,并且所述GRU模型的残差块的恒等映射为残差块的输入直接映射到输出。
7.一种基于忆阻网络的残差神经网络模型的应用方法,其特征在于,该方法包括如下步骤:
S1)基于Python下的Keras库构建残差神经网络模型作为声学模型,该残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
具体地,所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作通过以下公式表示:
其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关;
S2)获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来;并输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号;
S3)所述残差神经网络模型提取步骤S2)中获取的所述经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,保存所述语音信号特征向量到特定文件,所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量;
S4)将步骤S3)提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型;
S5)保存所述训练完成的残差神经网络模型及其相关参数;
S6)将步骤S3)中测试集中待测试样本的语音信号特征向量输入到步骤S5)中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
8.根据权利要求7所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S1)中所构建的残差神经网络模型包括输入模块、特征提取模块、ResNet模型、GRU模型、ResNet输出模块、GRU输出模块、分类结果整合模块和最终结果输出模块;所述特征提取模块对由所述输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述ResNet模型和所述GRU模型均采用相同的语音信号特征向量作为所述残差神经网络模型的输入,由所述ResNet输出模块和所述GRU输出模块分别输出所述ResNet模型和所述GRU模型的语音分类结果,然后通过所述分类结果整合模块将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行整合,按照各占0.5权重的方式将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行加权求和,并由所述最终结果输出模块输出最终的语音分类结果,其中,分别由所述ResNet输出模块和所述GRU输出模块输出的语音分类结果为统一的格式。
9.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S2)对所述原始音频文件的语音信号进行预处理包括以下过程:VAD去静音、语音填充和语音截断,其中,VAD去静音是根据语音信号中的能量大小和过零率检测语音中的静音片段并去除,保证输入的音频尽可能地有效,从而使得所述残差神经网络模型能够学习到有用的特征;语音填充和截断都是通过判断语音信号的长度是否符合预设的要求来对音频文件进行处理,将音频文件的长度设置为3s,填充时进行零值填充,从而保证输入的音频文件都具有相同的规格,便于统一处理。
10.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S3)中提取的语音信号的特征为40位滤波的logFilterBank特征,提取特征过程中采用了语音加重、分帧、加窗,其中帧长为25ms,帧移为10ms,窗函数使用汉明窗,之后进行快速傅立叶变换,将语音信号由时域信号转化为频域信号,然后使用梅尔滤波器组,最后取对数得到logFilterBank特征。
11.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S4)中在训练所述残差神经网络模型的过程中采用的优化函数为随机梯度下降,损失函数为交叉熵,评价标准为分类准确率,并且在训练过程中进行分批次输入训练集的语音信号特征向量,并且在每一轮的迭代结束后使用验证集的语音信号特征向量进行测试,得到当前残差神经网络模型的准确率,通过比较每一轮迭代训练得到的残差神经网络模型的准确率,并在所述步骤S5)中保存当前的最优残差神经网络模型的权重,在整个训练过程完成后,保存最终的残差神经网络模型权重到后缀为.h5的文件中,在训练过程中,每一轮训练完成后,将该轮训练所得模型在验证集上进行测试,并计算准确率和损失值。
12.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S3)中所述特定文件为后缀为.npy的文件,以便于语音信号特征向量的存储和读取。
13.根据权利要求11所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述训练轮数不少于50轮。
14.根据权利要求7-13任意一项所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S1)中基于Python下的Keras库构建的残差神经网络模型是在计算机CPU型号i7-8700、显卡GTX-1070、内存大小16GB的实验环境下,使用的原始音频文件是LibriSpeech数据集,对所述残差神经网络模型进行训练、验证和测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911228365.9A CN110991633B (zh) | 2019-12-04 | 2019-12-04 | 一种基于忆阻网络的残差神经网络模型及其应用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911228365.9A CN110991633B (zh) | 2019-12-04 | 2019-12-04 | 一种基于忆阻网络的残差神经网络模型及其应用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110991633A CN110991633A (zh) | 2020-04-10 |
CN110991633B true CN110991633B (zh) | 2022-11-08 |
Family
ID=70089919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911228365.9A Active CN110991633B (zh) | 2019-12-04 | 2019-12-04 | 一种基于忆阻网络的残差神经网络模型及其应用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991633B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695678B (zh) * | 2020-06-01 | 2022-05-03 | 电子科技大学 | 一种基于忆阻模块阵列的图像标题生成方法 |
CN111785262B (zh) * | 2020-06-23 | 2022-08-05 | 电子科技大学 | 一种基于残差网络及融合特征的说话人年龄性别分类方法 |
CN111833886B (zh) * | 2020-07-27 | 2021-03-23 | 中国科学院声学研究所 | 全连接多尺度的残差网络及其进行声纹识别的方法 |
CN111950719B (zh) * | 2020-08-14 | 2024-06-04 | 清华大学 | 基于忆阻器的信息处理电路以及信息处理方法 |
CN112199888B (zh) * | 2020-09-30 | 2021-08-27 | 太原理工大学 | 一种基于深度残差网络的旋转设备故障诊断方法、系统及可读存储介质 |
CN112308223A (zh) * | 2020-12-30 | 2021-02-02 | 成都科睿埃科技有限公司 | 一种基于忆阻器的深度神经网络 |
CN112494063B (zh) * | 2021-02-08 | 2021-06-01 | 四川大学 | 一种基于注意力机制神经网络的腹部淋巴结分区方法 |
CN112926733B (zh) * | 2021-03-10 | 2022-09-16 | 之江实验室 | 一种语音关键词检测专用芯片 |
CN113570048B (zh) * | 2021-06-17 | 2022-05-31 | 南方科技大学 | 基于电路仿真的忆阻器阵列神经网络的构建及优化方法 |
CN113516138B (zh) * | 2021-07-21 | 2022-07-29 | 中国民航大学 | 一种基于双模式忆阻桥突触电路的图像处理方法 |
CN114241245B (zh) * | 2021-12-23 | 2024-05-31 | 西南大学 | 一种基于残差胶囊神经网络的图像分类系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038542A (zh) * | 2017-12-27 | 2018-05-15 | 宁波山丘电子科技有限公司 | 一种基于神经网络的存储模块、模组及数据处理方法 |
CN109121435A (zh) * | 2017-04-19 | 2019-01-01 | 上海寒武纪信息科技有限公司 | 处理装置和处理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9152827B2 (en) * | 2012-12-19 | 2015-10-06 | The United States Of America As Represented By The Secretary Of The Air Force | Apparatus for performing matrix vector multiplication approximation using crossbar arrays of resistive memory devices |
US10810492B2 (en) * | 2017-01-27 | 2020-10-20 | Hewlett Packard Enterprise Development Lp | Memory side acceleration for deep learning parameter updates |
-
2019
- 2019-12-04 CN CN201911228365.9A patent/CN110991633B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109121435A (zh) * | 2017-04-19 | 2019-01-01 | 上海寒武纪信息科技有限公司 | 处理装置和处理方法 |
CN108038542A (zh) * | 2017-12-27 | 2018-05-15 | 宁波山丘电子科技有限公司 | 一种基于神经网络的存储模块、模组及数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110991633A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991633B (zh) | 一种基于忆阻网络的残差神经网络模型及其应用方法 | |
CN112288086B (zh) | 一种神经网络的训练方法、装置以及计算机设备 | |
Tavanaei et al. | Bio-inspired multi-layer spiking neural network extracts discriminative features from speech signals | |
US10339041B2 (en) | Shared memory architecture for a neural simulator | |
CN111785301A (zh) | 一种基于残差网络的3dacrnn语音情感识别方法及存储介质 | |
CN110309911A (zh) | 神经网络模型验证方法、装置、计算机设备和存储介质 | |
CN114241245B (zh) | 一种基于残差胶囊神经网络的图像分类系统 | |
CN112990444B (zh) | 一种混合式神经网络训练方法、系统、设备及存储介质 | |
WO2021127982A1 (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN108171319A (zh) | 网络连接自适应深度卷积模型的构建方法 | |
CN113177559A (zh) | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 | |
CN108879732A (zh) | 电力系统暂态稳定评估方法及装置 | |
CN112507947A (zh) | 基于多模态融合的手势识别方法、装置、设备及介质 | |
CN113449840A (zh) | 神经网络训练方法及装置、图像分类的方法及装置 | |
CN113326383B (zh) | 一种短文本实体链接方法、装置、计算设备与存储介质 | |
CN116882469B (zh) | 用于情感识别的脉冲神经网络部署方法、装置及设备 | |
CN113420870A (zh) | 用于水声目标识别的U-Net结构生成对抗网络及方法 | |
CN114626500A (zh) | 一种神经网络计算方法及相关设备 | |
CN116705073A (zh) | 一种基于双模态与注意力机制的语音情感识别方法 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN117035038A (zh) | 模型剪枝方法、装置、设备及存储介质 | |
Lu et al. | NVMLearn: a simulation platform for non-volatile-memory-based deep learning hardware | |
Hu et al. | 3DACRNN Model Based on Residual Network for Speech Emotion Classification. | |
Shen et al. | A fast learning algorithm of neural network with tunable activation function | |
Gillela | Design of hardware CNN accelerators for audio and image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |