CN111695678A - 一种基于忆阻模块阵列的图像标题生成方法 - Google Patents
一种基于忆阻模块阵列的图像标题生成方法 Download PDFInfo
- Publication number
- CN111695678A CN111695678A CN202010493422.2A CN202010493422A CN111695678A CN 111695678 A CN111695678 A CN 111695678A CN 202010493422 A CN202010493422 A CN 202010493422A CN 111695678 A CN111695678 A CN 111695678A
- Authority
- CN
- China
- Prior art keywords
- memristor
- layer
- output
- network
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000010410 layer Substances 0.000 claims description 90
- 238000012549 training Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000005669 field effect Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 239000002356 single layer Substances 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 210000004027 cell Anatomy 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 229910000906 Bronze Inorganic materials 0.000 claims description 2
- 239000010974 bronze Substances 0.000 claims description 2
- KUNSUQLRTQLHQQ-UHFFFAOYSA-N copper tin Chemical compound [Cu].[Sn] KUNSUQLRTQLHQQ-UHFFFAOYSA-N 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 17
- 238000005265 energy consumption Methods 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000019692 hotdogs Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/955—Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于忆阻模块阵列的图像标题生成方法,涉及人工智能技术领域。该方法基于忆阻器的阻值可塑性,设计忆阻模块构成忆阻阵列,搭载多层卷积网络模型VGG‑16,并将其与片外LSTM连接,实现图像标题生成。该方法搭载卷积网络解决了普通忆阻阵列的权值不连续问题,可以实现高精度的图像特征识别,同时,采用硬件实现神经网络,大幅度降低了神经网络的处理时间和能耗,效率高。本发明提出的忆阻模块阵列,为大规模神经网络提供了一种硬件解决方案的思路,使得大规模神经网络系统可以高速、低能耗地解决现实问题。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于忆阻模块阵列的图像标题生成方法。
背景技术
图像标题生成是一种融合计算机视觉和自然语言处理的综合问题,即为一张图像生成一个标题,以此描述图像中包含的信息。
目前,图像标题生成的方法大致有两类:一类是结合视觉检测器和语言模型的方法,该方法根据视觉检测器检测图像中的目标,得到一组单词,再根据语言模型生成图像标题。另一类采用神经网络中的编码器-解码器框架,其中编码器一般为卷积神经网络,一般选取网络中的全连接层或卷积层的输出作为编码结果,解码器一般采用循环神经网络(RNN),主要采用长短期记忆网络(LSTM)这种RNN结构,用于生成图像标题。
忆阻器是一种非线性、非易失性的两端电路元件,具有能耗低、响应速度快、与CMOS器件兼容性好等特点,其在卷积神经网络和图像处理等方面有着巨大的应用潜能。
利用忆阻器及CMOS等元件设计出的多层神经网络模型,具有大规模并行处理的能力,且在对连续的神经网络权值的储存上有巨大优势。另外,改变网络两端的施加信号,可以精确地改变网络中单个忆阻器的阻值状态,从而实现阻值可塑性。现有的忆阻型神经网络所采用的单个忆阻器单元构成忆阻阵列的设计法,存在无法很好地利用忆阻器连续可调优势的问题,故无法运行大参数量的卷积神经网络,更无法很好地完成图像标题生成的工作。所设计的由忆阻模块构成忆阻阵列的方法,搭载的多层卷积网络模型具有功耗低,速度快和权值连续可调等优势,解决了上述问题,并且,其不仅可以和片外搭载的神经网络相连,也可以单独作为高精度的卷积神经网络运算模块工作。
发明内容
本发明公开了一种基于忆阻模块阵列的图像标题生成网络设计方法。图像标题生成应用中,网络模型采用神经网络中的编码器-解码器框架,其中编码器为基于忆阻模块阵列的卷积神经网络,解码器为片外循环神经网络。该网络模型的卷积神经网络部分采用串联的忆阻模块构成,该模块具有很强的信息处理、存储能力和灵活性,可通过不断地重复连接构建出完整的硬件卷积神经网络。
其中,基于忆阻器的忆阻模块包括:一个忆阻器、一个电压电流转换器、一个场效应管和四个引脚。忆阻器与电压电流转换器、场效应管并联;忆阻器一端为输入,一端为连接端,连接端后接同级忆阻模块的输入端;电压电流转换器的输出为输出端,后接后级忆阻模块输出端;场效应管的栅极为控制端。基于忆阻模块的控制器,如图9所示包括:一根控制总线和一个片选器;控制总线与控制端和片选器相连。
对忆阻模块卷积神经网络提供权值设计方法。所述权值的改变可以通过写入模块施加正负电流脉冲来实现。具体地,该权值与忆阻器中掺杂层与未掺杂层的宽度比例线性对应。
一种基于忆阻模块阵列的图像标题生成方法,包括以下步骤:
1)获取图像标题数据集,将其分为训练集、验证集及测试集。
2)构建基于编码器-解码器框架的图像标题生成网络。
3)对于编码器部分加载模型在ImageNet上的预训练参数。
4)在步骤3)的基础上根据训练集训练图像标题生成网络,保存网络训练中产生的模型。
5)在验证集上评估步骤4)中保存好的模型,得到评估分数,并在测试集上进行测试。
进一步地,上述图像标题生成网络中编码器为VGG-16网络,解码器为LSTM网络。
具体地,一层卷积层加上一个relu激活函数视为模块1、两个模块1相连再加上一个最大池化层视为模块2,三个模块1相连再加上一个最大池化层视为模块3,VGG-16可视为两个模块2相连,再连接三个模块3,最后连接三层全连接层,每层全连接层后也都接有relu激活函数。
具体地,LSTM网络由三个门控单元控制:遗忘门、输入门及输出门。
具体地,VGG-16网络的第二个全连接层作为图像提取的最终特征,作为LSTM网络的输入生成图像标题。
本发明基于忆阻模块阵列构建卷积神经网络,克服了软件实现神经网络存在的运算速度慢、能耗高等缺点,具体地,基于忆阻模块阵列的神经网络模型在图文标题转换方面具有以下优点:1)精度高:本发明所构建的忆阻模块阵列解决了普通忆阻阵列的权值不连续问题,可以实现高精度的图像特征识别;2)效率高:采用硬件实现神经网络,大幅度降低了神经网络的处理时间和能耗。为大规模神经网络提供了一种硬件解决方案的思路,使得大规模神经网络系统可以高速、低能耗地解决现实问题。
附图说明
图1为本发明的基于忆阻模块阵列的图像标题生成网络
图2为本发明的图像标题生成方法流程图
图3为本发明的VGG-16结构图
图4为本发明的LSTM结构图
图5为本发明提供的忆阻模块示意图
图6为本发明的基于忆阻模块阵列的单个卷积核模型
图7为本发明的基于忆阻模块阵列的单层卷积网络模型
图8为本发明的基于忆阻模块阵列的池化层模型
图9位本发明的基于忆阻模块阵列的单层卷积网络权重值写入示意图
图10为本发明模型、软件实现模型、传统64位忆导权值忆阻网络模型的测试结果
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
图1为本发明的基于忆阻模块阵列卷积神经网络的图像标题生成网络,如图1所示,网络结构由两部分组成,第一部分为编码器:基于忆阻模块阵列的VGG-16网络,第二部分为解码器:LSTM网络。VGG-16网络用于提取图像的特征,将其第二个全连接层的输出作为图像部分的最终输出,作为LSTM的第一个输入。具体地,若定义I为输入的图像,S=(S0,...,Sn)为描述图像的句子,其中Si(i=0,...,n)为句子中每个单词,用one-hot向量表示,则训练时:X-1=VGG16(I),Xt=WeSt(t=0,...,n-1),pt+1=LSTM(Xt),其中X-1为VGG-16提取的图像特征,图像特征只在t=-1时输入到LSTM一次,We为词嵌入向量的权值,Xt为输入LSTM的词向量,pt+1为t+1时刻预测到St+1的概率,图像标题生成网络的损失函数定义如下:在测试时,输入图像后得到图像的特征作为LSTM的第一个输入,预测第一个单词,然后将这个单词作为下一时刻的输入预测下一个单词,直到预测结束,最终输出一个完整的图像标题描述语句。
如图2所示,本发明实现的图像标题生成方法流程为:
1)获取MSCOCO图像标题数据集,按预设比例将数据集划分为训练集、验证集和测试集。
2)使用Tensorflow搭建图像标题生成网络,其结构为VGG16-LSTM网络。
3)搭建基于忆阻模块阵列的VGG-16网络并将其与片外LSTM网络连接。
4)获取VGG-16在ImageNet的预训练权重。
5)将预训练权重写入忆阻模块阵列搭载的VGG-16网络。
6)训练模型并保存。
7)使用验证集进行评估,输出评估结果,使用测试集进行测试,输出生成的图像标题。
步骤2)中VGG-16结构如图3所示,输入为224×224×3的图像,第一层为卷积层,有64个3×3×3的卷积核,第二层为卷积层,有64个3×3×64的卷积核,第三层为2×2的最大池化层,输出的特征图大小为112×112×64,第四层为卷积层,有128个3×3×64的卷积核,第五层为卷积层,有128个3×3×128的卷积核,第六层为2×2的最大池化层,输出的特征图大小为56×56×128,第七层为卷积层,有256个3×3×128的卷积核,第八、九层为卷积层,均有256个3×3×256的卷积核,第十层为2×2的最大池化层,输出的特征图大小为28×28×256,第十一层为卷积层,有512个3×3×256的卷积核,第十二、十三层为卷积层,均有512个3×3×512的卷积核,第十四层为2×2的最大池化层,输出的特征图大小为14×14×512,第十五、十六、十七层为卷积层,均有512个3×3×512的卷积核,第十八层为2×2的最大池化层,输出的特征图大小为7×7×512,第十九、二十、二十一层为全连接层,分别有4096、4096、1000个神经元,在此结构中,除池化层外,每层后都接有relu激活函数,本发明中采用第二个全连接层的输出作为最终输出,并将其输入到LSTM网络中。
步骤2)中LSTM网络结构如图4所示,其核心为记忆细胞C,它的状态由三个门控制:遗忘门、输入门和输出门。对于遗忘门ft,ft=σ(Wf·[ht-1,xt]+bf),它控制遗忘的内容,其中Wf是遗忘门的权重,bf是遗忘门的偏置,ht-1是上一输出门的输出,xt是此时的输入,σ为sigmoid函数。
对于输入门it,it=σ(Wi·[ht-1,xt]+bi),它决定将要读取什么样的新值进行更新,其中Wi为输入门的权重,bi是输入门的偏置,读取新的值后,产生一个新的更新候选值其中WC为候选值的权重,bC为候选值的偏置,更新记忆细胞C的状态,
对于输出门ot,ot=σ(Wo·[ht-1,xt]+b0),选择将要输出的值,其中Wo为输出门权重,bo为输出门偏置,最后基于新的记忆细胞状态确定单元最终输出的值ht,ht=ot×tanh(Ct)。
图5所示为本发明提供的VGG-16网络中的忆阻模块示意图,包括:一个忆阻器、一个电压电流转换器、一个场效应管和四个引脚。忆阻器与电压电流转换器、场效应管并联;忆阻器一端为输入,一端为连接端,连接端后接同级忆阻模块的输入端;电压电流转换器的输出为输出端,后接后级忆阻模块的输出端;场效应管的栅极为控制端。其中输入端接收的输入形式为电流,输出端的输出形式为电流。其中忆阻器使用惠普实验室给出的忆阻器模型,电压电流转换器为高线性器件。其中同级忆阻模块为储存卷积神经网络同一个卷积层中不同卷积核的相同索引下的权重值的忆阻模块,后级忆阻模块为储存卷积神经网络同一个卷积层中同一个卷积核中不同索引权重值的忆阻模块。忆阻模块输出公式为Iout=Iin×p×w×k×Roff,式中Iout为输出电流值,Iin为输入电流值,p为输入电流系数,w为忆阻器储存的VGG-16网络权重值,k为电压电流转换器线性系数,Roff为忆阻器最大忆阻值。
图6所示为本发明提供的基于忆阻模块阵列的VGG-16网络的单个卷积核模型,其使用的忆阻模块为图5所示的忆阻模块。若单个卷积核中所包含的权重值数量为n,则阵列中所包含的忆阻模块数量为2n+1,其中n个忆阻模块用于储存卷积核中的正权重值,n个忆阻模块用于储存卷积核中的负权重值,储存卷积核中的正权重值的忆阻模块与储存卷积核中的负权重值的忆阻模块间隔排列,1个忆阻模块用于储存该卷积核的偏置。其将所包含的忆阻模块的输出端串联,并在输出的末端串联relu激活函数模块,将其输出与输出的取反送往CM OS存储器进行储存,其存储的值将通过数模转换器转换为电流后输入至下一层。
图7所示为本发明提供的单层卷积网络模型示意图,其将图6所示的基于忆阻模块阵列的单个卷积核模型串联。串联形式为多个图6中所示单个卷积核模型之间所有连接端和输入端对应相连,第一个卷积核模型阵列的所有输入端与数模转换器的输出相连。若单层卷积网络模型所包含的卷积核数量为n,则控制总线的线宽为n,控制总线接译码器来控制总线中每一位的导通状态。该译码器的输入为二进制数,输入数S为输出为总线一位低电平,总线其余位高电平,输出数为n。每一个卷积核的输出单独输入至CMOS存储器进行储存。
图9所示为本发明提供的基于忆阻模块阵列的单层卷积网络权重值写入示意图。其中控制总线完成列选,输入完成行选。图9中给出了控制总线的列选方式,将所选忆阻模块所在的总线一位置为低电平,场效应管截止,其余总线位置为高电平,场效应管导通,忆阻模块进入短路状态,完成列选。图9同时也给出了输入的行选方式,所选忆阻模块接恒定的电流脉冲输入,其余忆阻模块的输入置为0,输出端与外部的写入模块相连。当输出端电流低于写入模块要求的电流范围时,对忆阻模块施加正向电流增加其忆阻值,否则施加负向电流,处于其要求范围内则停止写入。
步骤6)训练时,图像生成标题最大长度设置为20,batchsize为32,学习率为0.001,优化器使用Adam,每十分钟自动保存当前模型,训练20epochs。
步骤7)采用的评估准则为机器翻译评估标准:BLEU,包括BLEU-1,BLEU-2,BLEU-3,BLEU-4。
基于Tensorflow搭建VGG-LSTM网络,在计算机CPU为Intel至强铜牌3106,显卡2080TI×2、内存32G的实验条件下,使用MSCOCO数据集,对于软件实现的VGG16-L STM网络模型、以及传统64位忆导权重忆阻网络模型、本发明模型,各自得到以下BLEU分数:
表1
在图10a)中,对于本发明实施例的测试图片一,上述三种网络结构得到的图像生成标题分别为:本发明网络:a man is holding a cake with a knife;传统64位忆导权重忆阻网络:a man is holding a hot dog in a hand;软件实现的网络:a woman sittingat a tabl e with a plate of food。在图10b)中,对于本发明实施例的测试图片二,上述三种模型得到的图像生成标题分别为:本发明网络:a man riding a surfboard on awave;传统64位忆导权重忆阻网络:a man riding a wave on a surfboard;软件实现的网络:a man riding a wave on top of a surfboard。
本发明基于忆阻模块阵列卷积神经网络的图像标题生成网络的BLEU分数与软件实现的网络模型非常接近,相比于传统64位的忆导权重忆阻网络有更高的精度。如图10为上述三种模型的测试结果,可以看出软件实现的网络模型和本发明的网络模型产生的图像标题比传统64位的忆导权重忆阻网络产生的图像标题更能准确地描述图像。所以本发明的忆阻模块阵列比传统忆导权重忆阻网络模型精度更高,且硬件实现使得模型的速度更快,能耗更低。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合;本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。
Claims (5)
1.一种基于忆阻模块阵列的图像标题生成方法,其特征在于,该方法包括以下步骤:
步骤1)获取MSCOCO图像标题数据集,按预设比例将获取的MSCOCO图像标题数据集划分为训练集、验证集和测试集;
步骤2)使用Tensorflow搭建图像标题生成网络,其结构为基于编码器-解码器框架的VGG16-LSTM网络;
步骤3)搭建基于忆阻模块阵列的VGG-16网络并将其与片外LSTM网络连接;
步骤4)获取VGG-16在ImageNet的预训练权重;
步骤5)将预训练权重写入基于忆阻模块阵列的VGG-16网络;
步骤6)训练图像标题生成网络模型并保存训练好的图像标题生成网络模型;
步骤7)使用验证集对步骤6)保存的训练好的图像标题生成网络模型采用评估准则进行评估,输出评估结果,并使用测试集进行测试,输出生成的图像标题;
其中,所述图像标题生成网络包括两部分:第一部分为编码器:基于忆阻模块阵列的VGG-16网络,第二部分为解码器:LSTM网络;VGG-16网络用于提取图像的特征,将其第二个全连接层的输出作为图像部分的最终输出,作为LSTM的第一个输入;具体地,若定义I为输入的图像,S=(S0,...,Sn)为描述图像的句子,其中Si(i=0,...,n)为句子中每个单词,用one-hot向量表示,则训练所述图像标题生成网络时:X-1=VGG16(I),Xt=WeSt(t=0,...,n-1),pt+1=LSTM(Xt),其中X-1为VGG-16提取的图像特征,图像特征只在t=-1时输入到LSTM一次,We为词嵌入向量的权值,Xt为输入LSTM的词向量,pt+1为t+1时刻预测到St+1的概率,所述图像标题生成网络的损失函数定义如下:
在测试时,输入图像后得到图像的特征作为LSTM的第一个输入,预测第一个单词,然后将这个单词作为下一时刻的输入预测下一个单词,直到预测结束,最终输出一个完整的图像标题描述语句;
所述步骤2)中VGG-16结构为,输入为224×224×3的图像,第一层为卷积层,有64个3×3×3的卷积核,第二层为卷积层,有64个3×3×64的卷积核,第三层为2×2的最大池化层,输出的特征图大小为112×112×64,第四层为卷积层,有128个3×3×64的卷积核,第五层为卷积层,有128个3×3×128的卷积核,第六层为2×2的最大池化层,输出的特征图大小为56×56×128,第七层为卷积层,有256个3×3×128的卷积核,第八、九层为卷积层,均有256个3×3×256的卷积核,第十层为2×2的最大池化层,输出的特征图大小为28×28×256,第十一层为卷积层,有512个3×3×256的卷积核,第十二、十三层为卷积层,均有512个3×3×512的卷积核,第十四层为2×2的最大池化层,输出的特征图大小为14×14×512,第十五、十六、十七层为卷积层,均有512个3×3×512的卷积核,第十八层为2×2的最大池化层,输出的特征图大小为7×7×512,第十九、二十、二十一层为全连接层,分别有4096、4096、1000个神经元,在此结构中,除池化层外,每层后都接有relu激活函数,并采用第二个全连接层的输出作为最终输出,并将其输入到LSTM网络中;
所述步骤2)中LSTM网络结构为,其核心为记忆细胞C,它的状态由三个门控制:遗忘门、输入门和输出门;对于遗忘门ft,ft=σ(Wf·[ht-1,xt]+bf),它控制遗忘的内容,其中Wf是遗忘门的权重,bf是遗忘门的偏置,ht-1是上一输出门的输出,xt是此时的输入,σ为sigmoid函数;
对于输入门it,it=σ(Wi·[ht-1,xt]+bi),它决定将要读取什么样的新值进行更新,其中Wi为输入门的权重,bi是输入门的偏置,读取新的值后,产生一个新的更新候选值其中WC为候选值的权重,bC为候选值的偏置,更新记忆细胞C的状态,
对于输出门ot,ot=σ(Wo·[ht-1,xt]+b0),选择将要输出的值,其中Wo为输出门权重,bo为输出门偏置,最后基于新的记忆细胞状态确定单元最终输出的值ht,ht=ot×tanh(Ct)。
2.根据权利要求1所述的基于忆阻模块阵列的图像标题生成方法,其特征在于,所述步骤3)中基于忆阻模块阵列的VGG-16网络具体为,所述VGG-16网络中的忆阻模块包括:一个忆阻器、一个电压电流转换器、一个场效应管和四个引脚;忆阻器与电压电流转换器、场效应管并联;忆阻器一端为输入,一端为连接端,连接端后接同级忆阻模块的输入端;电压电流转换器的输出为输出端,后接后级忆阻模块的输出端;场效应管的栅极为控制端;其中输入端接收的输入形式为电流,输出端的输出形式为电流,其中忆阻器使用惠普实验室给出的忆阻器模型,电压电流转换器为高线性器件;其中同级忆阻模块为储存卷积神经网络同一个卷积层中不同卷积核的相同索引下的权重值的忆阻模块,后级忆阻模块为储存卷积神经网络同一个卷积层中同一个卷积核中不同索引权重值的忆阻模块,忆阻模块输出公式为Iout=Iin×p×w×k×Roff,式中Iout为输出电流值,Iin为输入电流值,p为输入电流系数,w为忆阻器储存的VGG-16网络权重值,k为电压电流转换器线性系数,Roff为忆阻器最大忆阻值;
基于忆阻模块阵列的VGG-16网络的单个卷积核模型,其使用所述VGG-16网络中的忆阻模块,若单个卷积核中所包含的权重值数量为n,则阵列中所包含的忆阻模块数量为2n+1,其中n个忆阻模块用于储存卷积核中的正权重值,n个忆阻模块用于储存卷积核中的负权重值,储存卷积核中的正权重值的忆阻模块与储存卷积核中的负权重值的忆阻模块间隔排列,1个忆阻模块用于储存该卷积核的偏置,其将所包含的忆阻模块的输出端串联,并在输出的末端串联relu激活函数模块,将其输出与输出的取反送往CMOS存储器进行储存,其存储的值将通过数模转换器转换为电流后输入至下一层;
基于忆阻模块阵列的单层卷积网络模型将所述基于忆阻模块阵列的VGG-16网络的单个卷积核模型串联,串联形式为多个所述基于忆阻模块阵列的VGG-16网络的单个卷积核模型之间所有连接端和输入端对应相连,第一个卷积核模型阵列的所有输入端与数模转换器的输出相连;若单层卷积网络模型所包含的卷积核数量为n,则控制总线的线宽为n,控制总线接译码器来控制总线中每一位的导通状态,该译码器的输入为二进制数,输入数S为输出为总线一位低电平,总线其余位高电平,输出数为n;每一个卷积核的输出单独输入至CMOS存储器进行储存;
基于忆阻模块阵列的VGG-16网络的池化层由四个所述VGG-16网络中的忆阻模块以输出端串联连接,所述VGG-16网络中的忆阻模块储存权重值0.25,输出电流为:x表示第x个输入,Iinx表示第x个输入对应的电流大小;
基于忆阻模块阵列的单层卷积网络模型权重值写入时,其中控制总线完成列选,输入完成行选;在控制总线的列选方式中,将所选忆阻模块所在的总线一位置为低电平,场效应管截止,其余总线位置为高电平,场效应管导通,忆阻模块进入短路状态,完成列选;在输入的行选方式中,所选忆阻模块接恒定的电流脉冲输入,其余忆阻模块的输入置为0,输出端与外部的写入模块相连;当输出端电流低于写入模块要求的电流范围时,对忆阻模块施加正向电流增加其忆阻值,否则施加负向电流,处于其要求范围内则停止写入。
3.根据权利要求2所述的基于忆阻模块阵列的图像标题生成方法,其特征在于,所述步骤6)中训练所述图像标题生成网络模型时,图像生成标题最大长度设置为20,batchsize为32,学习率为0.001,优化器使用Adam,每十分钟自动保存当前模型,训练20epochs。
4.根据权利要求3所述的基于忆阻模块阵列的图像标题生成方法,其特征在于,所述步骤7)中采用的评估准则为机器翻译评估标准:BLEU,其中,BLEU包括BLEU-1,BLEU-2,BLEU-3,BLEU-4。
5.根据权利要求1-4任意一项所述的基于忆阻模块阵列的图像标题生成方法,其特征在于,所述基于Tensorflow搭建图像标题生成网络是在计算机CPU为Intel至强铜牌3106,显卡2080TI×2、内存32G的实验条件下进行的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010493422.2A CN111695678B (zh) | 2020-06-01 | 2020-06-01 | 一种基于忆阻模块阵列的图像标题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010493422.2A CN111695678B (zh) | 2020-06-01 | 2020-06-01 | 一种基于忆阻模块阵列的图像标题生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695678A true CN111695678A (zh) | 2020-09-22 |
CN111695678B CN111695678B (zh) | 2022-05-03 |
Family
ID=72478801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010493422.2A Expired - Fee Related CN111695678B (zh) | 2020-06-01 | 2020-06-01 | 一种基于忆阻模块阵列的图像标题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695678B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186667A (zh) * | 2021-12-07 | 2022-03-15 | 华中科技大学 | 一种循环神经网络权重矩阵向忆阻阵列的映射方法 |
WO2023158023A1 (ko) * | 2022-02-15 | 2023-08-24 | 서울시립대학교 산학협력단 | 용량성 커플링 기반의 인공 신경망 시스템 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160401A (zh) * | 2015-08-27 | 2015-12-16 | 电子科技大学 | 一种基于忆阻器阵列的wta神经网络及其应用 |
CN107123648A (zh) * | 2017-04-12 | 2017-09-01 | 复旦大学 | 一种面内读/写操作铁电忆阻器及其制备方法 |
CN107241080A (zh) * | 2017-05-15 | 2017-10-10 | 东南大学 | 一种基于忆阻器的可编程iir滤波器模拟硬件实现方法 |
CN108268938A (zh) * | 2018-01-24 | 2018-07-10 | 清华大学 | 神经网络及其信息处理方法、信息处理系统 |
CN109063826A (zh) * | 2018-03-19 | 2018-12-21 | 重庆大学 | 一种基于忆阻器的卷积神经网络实现方法 |
CN110797062A (zh) * | 2019-09-17 | 2020-02-14 | 华中科技大学 | 忆阻器的读写电路及读写方法 |
CN110837253A (zh) * | 2019-10-31 | 2020-02-25 | 华中科技大学 | 一种基于忆阻突触的智能寻址系统 |
CN110991633A (zh) * | 2019-12-04 | 2020-04-10 | 电子科技大学 | 一种基于忆阻网络的残差神经网络模型及其应用方法 |
-
2020
- 2020-06-01 CN CN202010493422.2A patent/CN111695678B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160401A (zh) * | 2015-08-27 | 2015-12-16 | 电子科技大学 | 一种基于忆阻器阵列的wta神经网络及其应用 |
CN107123648A (zh) * | 2017-04-12 | 2017-09-01 | 复旦大学 | 一种面内读/写操作铁电忆阻器及其制备方法 |
CN107241080A (zh) * | 2017-05-15 | 2017-10-10 | 东南大学 | 一种基于忆阻器的可编程iir滤波器模拟硬件实现方法 |
CN108268938A (zh) * | 2018-01-24 | 2018-07-10 | 清华大学 | 神经网络及其信息处理方法、信息处理系统 |
CN109063826A (zh) * | 2018-03-19 | 2018-12-21 | 重庆大学 | 一种基于忆阻器的卷积神经网络实现方法 |
CN110797062A (zh) * | 2019-09-17 | 2020-02-14 | 华中科技大学 | 忆阻器的读写电路及读写方法 |
CN110837253A (zh) * | 2019-10-31 | 2020-02-25 | 华中科技大学 | 一种基于忆阻突触的智能寻址系统 |
CN110991633A (zh) * | 2019-12-04 | 2020-04-10 | 电子科技大学 | 一种基于忆阻网络的残差神经网络模型及其应用方法 |
Non-Patent Citations (4)
Title |
---|
SOROUSH GHODRATI等: ""Mixed-Signal Charge-Domain Acceleration of Deep Neural networks through interleaved Bit-Partitioned Arithmetic"", 《ARXIV》 * |
YU YONGBIN等: ""Study on Active Filter Based on Memristor and Memcapacitor"", 《2018 FIFTEENTH INTERNATIONAL CONFERENCE ON WIRELESS AND OPTICAL COMMUNICATIONS NETWORKS》 * |
刘琦等: ""一种基于忆阻交叉阵列的自适应三高斯模型及其在图像增强中的应用"", 《物理学报》 * |
李楚曦等: ""基于忆阻器的PIM结构实现深度卷积神经网络近似计算"", 《计算机研发与发展》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186667A (zh) * | 2021-12-07 | 2022-03-15 | 华中科技大学 | 一种循环神经网络权重矩阵向忆阻阵列的映射方法 |
WO2023158023A1 (ko) * | 2022-02-15 | 2023-08-24 | 서울시립대학교 산학협력단 | 용량성 커플링 기반의 인공 신경망 시스템 |
Also Published As
Publication number | Publication date |
---|---|
CN111695678B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183739B (zh) | 基于忆阻器的低功耗脉冲卷积神经网络的硬件架构 | |
CN109460817B (zh) | 一种基于非易失存储器的卷积神经网络片上学习系统 | |
US20210027165A1 (en) | Neural network training method and apparatus, computer device, and storage medium | |
CN109597891B (zh) | 基于双向长短时记忆神经网络的文本情感分析方法 | |
WO2021088248A1 (zh) | 基于忆阻器的神经网络的并行加速方法及处理器、装置 | |
CN110991633B (zh) | 一种基于忆阻网络的残差神经网络模型及其应用方法 | |
CN109165730B (zh) | 交叉阵列神经形态硬件中状态量化网络实现方法 | |
CN107562784A (zh) | 基于ResLCNN模型的短文本分类方法 | |
US11989644B2 (en) | Three-dimensional convolution operation device and method based on three-dimensional phase change memory | |
CN111695678B (zh) | 一种基于忆阻模块阵列的图像标题生成方法 | |
CN110119760B (zh) | 一种基于层次化多尺度循环神经网络的序列分类方法 | |
CN108879732B (zh) | 电力系统暂态稳定评估方法及装置 | |
CN112990444B (zh) | 一种混合式神经网络训练方法、系统、设备及存储介质 | |
CN114595874A (zh) | 一种基于动态神经网络的超短期电力负荷预测方法 | |
CN111275168A (zh) | 基于卷积全连接的双向门控循环单元的空气质量预测方法 | |
CN110334196B (zh) | 基于笔画和自注意力机制的神经网络中文问题生成系统 | |
CN113591728A (zh) | 基于集成深度学习的电能质量扰动分类方法 | |
WO2023217021A1 (zh) | 基于忆阻器阵列的数据处理方法和数据处理装置 | |
CN112364652A (zh) | 基于多通道卷积的文本实体关系抽取方法及系统 | |
Sun et al. | Low-consumption neuromorphic memristor architecture based on convolutional neural networks | |
Du et al. | Efficient network construction through structural plasticity | |
CN112989843B (zh) | 意图识别方法、装置、计算设备及存储介质 | |
CN114004152A (zh) | 基于图卷积和循环神经网络的多风场风速时空预测方法 | |
CN113239678A (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220503 |
|
CF01 | Termination of patent right due to non-payment of annual fee |