CN111695678A

CN111695678A - 一种基于忆阻模块阵列的图像标题生成方法

Info

Publication number: CN111695678A
Application number: CN202010493422.2A
Authority: CN
Inventors: 于永斌; 唐倩; 杨岱锦; 彭辰辉; 陆瑞军; 戚敏惠; 邓权芯; 买峰; 汤亦凡; 梁守一
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-09-22
Anticipated expiration: 2040-06-01
Also published as: CN111695678B

Abstract

本发明公开了一种基于忆阻模块阵列的图像标题生成方法，涉及人工智能技术领域。该方法基于忆阻器的阻值可塑性，设计忆阻模块构成忆阻阵列，搭载多层卷积网络模型VGG‑16，并将其与片外LSTM连接，实现图像标题生成。该方法搭载卷积网络解决了普通忆阻阵列的权值不连续问题，可以实现高精度的图像特征识别，同时，采用硬件实现神经网络，大幅度降低了神经网络的处理时间和能耗，效率高。本发明提出的忆阻模块阵列，为大规模神经网络提供了一种硬件解决方案的思路，使得大规模神经网络系统可以高速、低能耗地解决现实问题。

Description

一种基于忆阻模块阵列的图像标题生成方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于忆阻模块阵列的图像标题生成方法。

背景技术

图像标题生成是一种融合计算机视觉和自然语言处理的综合问题，即为一张图像生成一个标题，以此描述图像中包含的信息。

目前，图像标题生成的方法大致有两类：一类是结合视觉检测器和语言模型的方法，该方法根据视觉检测器检测图像中的目标，得到一组单词，再根据语言模型生成图像标题。另一类采用神经网络中的编码器-解码器框架，其中编码器一般为卷积神经网络，一般选取网络中的全连接层或卷积层的输出作为编码结果，解码器一般采用循环神经网络(RNN)，主要采用长短期记忆网络(LSTM)这种RNN结构，用于生成图像标题。

忆阻器是一种非线性、非易失性的两端电路元件，具有能耗低、响应速度快、与CMOS器件兼容性好等特点，其在卷积神经网络和图像处理等方面有着巨大的应用潜能。

利用忆阻器及CMOS等元件设计出的多层神经网络模型，具有大规模并行处理的能力，且在对连续的神经网络权值的储存上有巨大优势。另外，改变网络两端的施加信号，可以精确地改变网络中单个忆阻器的阻值状态，从而实现阻值可塑性。现有的忆阻型神经网络所采用的单个忆阻器单元构成忆阻阵列的设计法，存在无法很好地利用忆阻器连续可调优势的问题，故无法运行大参数量的卷积神经网络，更无法很好地完成图像标题生成的工作。所设计的由忆阻模块构成忆阻阵列的方法，搭载的多层卷积网络模型具有功耗低，速度快和权值连续可调等优势，解决了上述问题，并且，其不仅可以和片外搭载的神经网络相连，也可以单独作为高精度的卷积神经网络运算模块工作。

发明内容

本发明公开了一种基于忆阻模块阵列的图像标题生成网络设计方法。图像标题生成应用中，网络模型采用神经网络中的编码器-解码器框架，其中编码器为基于忆阻模块阵列的卷积神经网络，解码器为片外循环神经网络。该网络模型的卷积神经网络部分采用串联的忆阻模块构成，该模块具有很强的信息处理、存储能力和灵活性，可通过不断地重复连接构建出完整的硬件卷积神经网络。

其中，基于忆阻器的忆阻模块包括：一个忆阻器、一个电压电流转换器、一个场效应管和四个引脚。忆阻器与电压电流转换器、场效应管并联；忆阻器一端为输入，一端为连接端，连接端后接同级忆阻模块的输入端；电压电流转换器的输出为输出端，后接后级忆阻模块输出端；场效应管的栅极为控制端。基于忆阻模块的控制器，如图9所示包括：一根控制总线和一个片选器；控制总线与控制端和片选器相连。

对忆阻模块卷积神经网络提供权值设计方法。所述权值的改变可以通过写入模块施加正负电流脉冲来实现。具体地，该权值与忆阻器中掺杂层与未掺杂层的宽度比例线性对应。

一种基于忆阻模块阵列的图像标题生成方法，包括以下步骤：

1)获取图像标题数据集，将其分为训练集、验证集及测试集。

2)构建基于编码器-解码器框架的图像标题生成网络。

3)对于编码器部分加载模型在ImageNet上的预训练参数。

4)在步骤3)的基础上根据训练集训练图像标题生成网络，保存网络训练中产生的模型。

5)在验证集上评估步骤4)中保存好的模型，得到评估分数，并在测试集上进行测试。

进一步地，上述图像标题生成网络中编码器为VGG-16网络，解码器为LSTM网络。

具体地，一层卷积层加上一个relu激活函数视为模块1、两个模块1相连再加上一个最大池化层视为模块2，三个模块1相连再加上一个最大池化层视为模块3，VGG-16可视为两个模块2相连，再连接三个模块3，最后连接三层全连接层，每层全连接层后也都接有relu激活函数。

具体地，LSTM网络由三个门控单元控制：遗忘门、输入门及输出门。

具体地，VGG-16网络的第二个全连接层作为图像提取的最终特征，作为LSTM网络的输入生成图像标题。

本发明基于忆阻模块阵列构建卷积神经网络，克服了软件实现神经网络存在的运算速度慢、能耗高等缺点，具体地，基于忆阻模块阵列的神经网络模型在图文标题转换方面具有以下优点：1)精度高：本发明所构建的忆阻模块阵列解决了普通忆阻阵列的权值不连续问题，可以实现高精度的图像特征识别；2)效率高：采用硬件实现神经网络，大幅度降低了神经网络的处理时间和能耗。为大规模神经网络提供了一种硬件解决方案的思路，使得大规模神经网络系统可以高速、低能耗地解决现实问题。

附图说明

图1为本发明的基于忆阻模块阵列的图像标题生成网络

图2为本发明的图像标题生成方法流程图

图3为本发明的VGG-16结构图

图4为本发明的LSTM结构图

图5为本发明提供的忆阻模块示意图

图6为本发明的基于忆阻模块阵列的单个卷积核模型

图7为本发明的基于忆阻模块阵列的单层卷积网络模型

图8为本发明的基于忆阻模块阵列的池化层模型

图9位本发明的基于忆阻模块阵列的单层卷积网络权重值写入示意图

图10为本发明模型、软件实现模型、传统64位忆导权值忆阻网络模型的测试结果

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

图1为本发明的基于忆阻模块阵列卷积神经网络的图像标题生成网络，如图1所示，网络结构由两部分组成，第一部分为编码器：基于忆阻模块阵列的VGG-16网络，第二部分为解码器：LSTM网络。VGG-16网络用于提取图像的特征，将其第二个全连接层的输出作为图像部分的最终输出，作为LSTM的第一个输入。具体地，若定义I为输入的图像，S＝(S₀，...，S_n)为描述图像的句子，其中S_i(i＝0,...,n)为句子中每个单词，用one-hot向量表示，则训练时：X_-1＝VGG16(I)，X_t＝W_eS_t(t＝0,...,n-1)，p_t+1＝LSTM(X_t),其中X_-1为VGG-16提取的图像特征，图像特征只在t＝-1时输入到LSTM一次，W_e为词嵌入向量的权值，X_t为输入LSTM的词向量，p_t+1为t+1时刻预测到S_t+1的概率，图像标题生成网络的损失函数定义如下：

在测试时，输入图像后得到图像的特征作为LSTM的第一个输入，预测第一个单词，然后将这个单词作为下一时刻的输入预测下一个单词，直到预测结束，最终输出一个完整的图像标题描述语句。

如图2所示，本发明实现的图像标题生成方法流程为：

1)获取MSCOCO图像标题数据集，按预设比例将数据集划分为训练集、验证集和测试集。

2)使用Tensorflow搭建图像标题生成网络，其结构为VGG16-LSTM网络。

3)搭建基于忆阻模块阵列的VGG-16网络并将其与片外LSTM网络连接。

4)获取VGG-16在ImageNet的预训练权重。

5)将预训练权重写入忆阻模块阵列搭载的VGG-16网络。

6)训练模型并保存。

7)使用验证集进行评估，输出评估结果，使用测试集进行测试，输出生成的图像标题。

步骤2)中VGG-16结构如图3所示，输入为224×224×3的图像，第一层为卷积层，有64个3×3×3的卷积核，第二层为卷积层，有64个3×3×64的卷积核，第三层为2×2的最大池化层，输出的特征图大小为112×112×64，第四层为卷积层，有128个3×3×64的卷积核，第五层为卷积层，有128个3×3×128的卷积核，第六层为2×2的最大池化层，输出的特征图大小为56×56×128，第七层为卷积层，有256个3×3×128的卷积核，第八、九层为卷积层，均有256个3×3×256的卷积核，第十层为2×2的最大池化层，输出的特征图大小为28×28×256，第十一层为卷积层，有512个3×3×256的卷积核，第十二、十三层为卷积层，均有512个3×3×512的卷积核，第十四层为2×2的最大池化层，输出的特征图大小为14×14×512，第十五、十六、十七层为卷积层，均有512个3×3×512的卷积核，第十八层为2×2的最大池化层，输出的特征图大小为7×7×512，第十九、二十、二十一层为全连接层，分别有4096、4096、1000个神经元，在此结构中，除池化层外，每层后都接有relu激活函数，本发明中采用第二个全连接层的输出作为最终输出，并将其输入到LSTM网络中。

步骤2)中LSTM网络结构如图4所示，其核心为记忆细胞C，它的状态由三个门控制：遗忘门、输入门和输出门。对于遗忘门f_t，f_t＝σ(W_f·[h_t-1,x_t]+b_f)，它控制遗忘的内容，其中W_f是遗忘门的权重，b_f是遗忘门的偏置，h_t-1是上一输出门的输出，x_t是此时的输入，σ为sigmoid函数。

对于输入门i_t，i_t＝σ(W_i·[h_t-1,x_t]+b_i)，它决定将要读取什么样的新值进行更新，其中W_i为输入门的权重，b_i是输入门的偏置，读取新的值后，产生一个新的更新候选值

其中W_C为候选值的权重，b_C为候选值的偏置，更新记忆细胞C的状态，

对于输出门o_t，o_t＝σ(W_o·[h_t-1,x_t]+b₀)，选择将要输出的值，其中W_o为输出门权重，b_o为输出门偏置，最后基于新的记忆细胞状态确定单元最终输出的值h_t，h_t＝o_t×tanh(C_t)。

图5所示为本发明提供的VGG-16网络中的忆阻模块示意图，包括：一个忆阻器、一个电压电流转换器、一个场效应管和四个引脚。忆阻器与电压电流转换器、场效应管并联；忆阻器一端为输入，一端为连接端，连接端后接同级忆阻模块的输入端；电压电流转换器的输出为输出端，后接后级忆阻模块的输出端；场效应管的栅极为控制端。其中输入端接收的输入形式为电流，输出端的输出形式为电流。其中忆阻器使用惠普实验室给出的忆阻器模型，电压电流转换器为高线性器件。其中同级忆阻模块为储存卷积神经网络同一个卷积层中不同卷积核的相同索引下的权重值的忆阻模块，后级忆阻模块为储存卷积神经网络同一个卷积层中同一个卷积核中不同索引权重值的忆阻模块。忆阻模块输出公式为I_out＝I_in×p×w×k×R_off，式中I_out为输出电流值，I_in为输入电流值，p为输入电流系数，w为忆阻器储存的VGG-16网络权重值，k为电压电流转换器线性系数，R_off为忆阻器最大忆阻值。

图6所示为本发明提供的基于忆阻模块阵列的VGG-16网络的单个卷积核模型，其使用的忆阻模块为图5所示的忆阻模块。若单个卷积核中所包含的权重值数量为n，则阵列中所包含的忆阻模块数量为2n+1，其中n个忆阻模块用于储存卷积核中的正权重值，n个忆阻模块用于储存卷积核中的负权重值，储存卷积核中的正权重值的忆阻模块与储存卷积核中的负权重值的忆阻模块间隔排列，1个忆阻模块用于储存该卷积核的偏置。其将所包含的忆阻模块的输出端串联，并在输出的末端串联relu激活函数模块，将其输出与输出的取反送往CM OS存储器进行储存，其存储的值将通过数模转换器转换为电流后输入至下一层。

图7所示为本发明提供的单层卷积网络模型示意图，其将图6所示的基于忆阻模块阵列的单个卷积核模型串联。串联形式为多个图6中所示单个卷积核模型之间所有连接端和输入端对应相连，第一个卷积核模型阵列的所有输入端与数模转换器的输出相连。若单层卷积网络模型所包含的卷积核数量为n，则控制总线的线宽为n，控制总线接译码器来控制总线中每一位的导通状态。该译码器的输入为二进制数，输入数S为

输出为总线一位低电平，总线其余位高电平，输出数为n。每一个卷积核的输出单独输入至CMOS存储器进行储存。

图8所示为本发明提供的基于忆阻模块阵列的池化层设计示意图。池化层由四个忆阻模块以输出端串联连接，忆阻模块储存权重值0.25。输出电流为：

x表示第x个输入，I_in表示第x个输入对应的电流大小。

图9所示为本发明提供的基于忆阻模块阵列的单层卷积网络权重值写入示意图。其中控制总线完成列选，输入完成行选。图9中给出了控制总线的列选方式，将所选忆阻模块所在的总线一位置为低电平，场效应管截止，其余总线位置为高电平，场效应管导通，忆阻模块进入短路状态，完成列选。图9同时也给出了输入的行选方式，所选忆阻模块接恒定的电流脉冲输入，其余忆阻模块的输入置为0，输出端与外部的写入模块相连。当输出端电流低于写入模块要求的电流范围时，对忆阻模块施加正向电流增加其忆阻值，否则施加负向电流，处于其要求范围内则停止写入。

步骤6)训练时，图像生成标题最大长度设置为20，batchsize为32，学习率为0.001，优化器使用Adam，每十分钟自动保存当前模型，训练20epochs。

步骤7)采用的评估准则为机器翻译评估标准：BLEU，包括BLEU-1，BLEU-2，BLEU-3，BLEU-4。

基于Tensorflow搭建VGG-LSTM网络，在计算机CPU为Intel至强铜牌3106，显卡2080TI×2、内存32G的实验条件下，使用MSCOCO数据集，对于软件实现的VGG16-L STM网络模型、以及传统64位忆导权重忆阻网络模型、本发明模型，各自得到以下BLEU分数：

表1

在图10a)中，对于本发明实施例的测试图片一，上述三种网络结构得到的图像生成标题分别为：本发明网络：a man is holding a cake with a knife；传统64位忆导权重忆阻网络：a man is holding a hot dog in a hand；软件实现的网络：a woman sittingat a tabl e with a plate of food。在图10b)中，对于本发明实施例的测试图片二，上述三种模型得到的图像生成标题分别为：本发明网络：a man riding a surfboard on awave；传统64位忆导权重忆阻网络：a man riding a wave on a surfboard；软件实现的网络：a man riding a wave on top of a surfboard。

本发明基于忆阻模块阵列卷积神经网络的图像标题生成网络的BLEU分数与软件实现的网络模型非常接近，相比于传统64位的忆导权重忆阻网络有更高的精度。如图10为上述三种模型的测试结果，可以看出软件实现的网络模型和本发明的网络模型产生的图像标题比传统64位的忆导权重忆阻网络产生的图像标题更能准确地描述图像。所以本发明的忆阻模块阵列比传统忆导权重忆阻网络模型精度更高，且硬件实现使得模型的速度更快，能耗更低。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合；本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种基于忆阻模块阵列的图像标题生成方法，其特征在于，该方法包括以下步骤：

步骤1)获取MSCOCO图像标题数据集，按预设比例将获取的MSCOCO图像标题数据集划分为训练集、验证集和测试集；

步骤2)使用Tensorflow搭建图像标题生成网络，其结构为基于编码器-解码器框架的VGG16-LSTM网络；

步骤3)搭建基于忆阻模块阵列的VGG-16网络并将其与片外LSTM网络连接；

步骤4)获取VGG-16在ImageNet的预训练权重；

步骤5)将预训练权重写入基于忆阻模块阵列的VGG-16网络；

步骤6)训练图像标题生成网络模型并保存训练好的图像标题生成网络模型；

步骤7)使用验证集对步骤6)保存的训练好的图像标题生成网络模型采用评估准则进行评估，输出评估结果，并使用测试集进行测试，输出生成的图像标题；

其中，所述图像标题生成网络包括两部分：第一部分为编码器：基于忆阻模块阵列的VGG-16网络，第二部分为解码器：LSTM网络；VGG-16网络用于提取图像的特征，将其第二个全连接层的输出作为图像部分的最终输出，作为LSTM的第一个输入；具体地，若定义I为输入的图像，S＝(S₀，...，S_n)为描述图像的句子，其中S_i(i＝0,...,n)为句子中每个单词，用one-hot向量表示，则训练所述图像标题生成网络时：X_-1＝VGG16(I)，X_t＝W_eS_t(t＝0,...,n-1)，p_t+1＝LSTM(X_t)，其中X_-1为VGG-16提取的图像特征，图像特征只在t＝-1时输入到LSTM一次，W_e为词嵌入向量的权值，X_t为输入LSTM的词向量，p_t+1为t+1时刻预测到S_t+1的概率，所述图像标题生成网络的损失函数定义如下：

在测试时，输入图像后得到图像的特征作为LSTM的第一个输入，预测第一个单词，然后将这个单词作为下一时刻的输入预测下一个单词，直到预测结束，最终输出一个完整的图像标题描述语句；

所述步骤2)中VGG-16结构为，输入为224×224×3的图像，第一层为卷积层，有64个3×3×3的卷积核，第二层为卷积层，有64个3×3×64的卷积核，第三层为2×2的最大池化层，输出的特征图大小为112×112×64，第四层为卷积层，有128个3×3×64的卷积核，第五层为卷积层，有128个3×3×128的卷积核，第六层为2×2的最大池化层，输出的特征图大小为56×56×128，第七层为卷积层，有256个3×3×128的卷积核，第八、九层为卷积层，均有256个3×3×256的卷积核，第十层为2×2的最大池化层，输出的特征图大小为28×28×256，第十一层为卷积层，有512个3×3×256的卷积核，第十二、十三层为卷积层，均有512个3×3×512的卷积核，第十四层为2×2的最大池化层，输出的特征图大小为14×14×512，第十五、十六、十七层为卷积层，均有512个3×3×512的卷积核，第十八层为2×2的最大池化层，输出的特征图大小为7×7×512，第十九、二十、二十一层为全连接层，分别有4096、4096、1000个神经元，在此结构中，除池化层外，每层后都接有relu激活函数，并采用第二个全连接层的输出作为最终输出，并将其输入到LSTM网络中；

所述步骤2)中LSTM网络结构为，其核心为记忆细胞C，它的状态由三个门控制：遗忘门、输入门和输出门；对于遗忘门f_t，f_t＝σ(W_f·[h_t-1,x_t]+b_f)，它控制遗忘的内容，其中W_f是遗忘门的权重，b_f是遗忘门的偏置，h_t-1是上一输出门的输出，x_t是此时的输入，σ为sigmoid函数；

2.根据权利要求1所述的基于忆阻模块阵列的图像标题生成方法，其特征在于，所述步骤3)中基于忆阻模块阵列的VGG-16网络具体为，所述VGG-16网络中的忆阻模块包括：一个忆阻器、一个电压电流转换器、一个场效应管和四个引脚；忆阻器与电压电流转换器、场效应管并联；忆阻器一端为输入，一端为连接端，连接端后接同级忆阻模块的输入端；电压电流转换器的输出为输出端，后接后级忆阻模块的输出端；场效应管的栅极为控制端；其中输入端接收的输入形式为电流，输出端的输出形式为电流，其中忆阻器使用惠普实验室给出的忆阻器模型，电压电流转换器为高线性器件；其中同级忆阻模块为储存卷积神经网络同一个卷积层中不同卷积核的相同索引下的权重值的忆阻模块，后级忆阻模块为储存卷积神经网络同一个卷积层中同一个卷积核中不同索引权重值的忆阻模块，忆阻模块输出公式为I_out＝I_in×p×w×k×R_off，式中I_out为输出电流值，I_in为输入电流值，p为输入电流系数，w为忆阻器储存的VGG-16网络权重值，k为电压电流转换器线性系数，R_off为忆阻器最大忆阻值；

基于忆阻模块阵列的VGG-16网络的单个卷积核模型，其使用所述VGG-16网络中的忆阻模块，若单个卷积核中所包含的权重值数量为n，则阵列中所包含的忆阻模块数量为2n+1，其中n个忆阻模块用于储存卷积核中的正权重值，n个忆阻模块用于储存卷积核中的负权重值，储存卷积核中的正权重值的忆阻模块与储存卷积核中的负权重值的忆阻模块间隔排列，1个忆阻模块用于储存该卷积核的偏置，其将所包含的忆阻模块的输出端串联，并在输出的末端串联relu激活函数模块，将其输出与输出的取反送往CMOS存储器进行储存，其存储的值将通过数模转换器转换为电流后输入至下一层；

基于忆阻模块阵列的单层卷积网络模型将所述基于忆阻模块阵列的VGG-16网络的单个卷积核模型串联，串联形式为多个所述基于忆阻模块阵列的VGG-16网络的单个卷积核模型之间所有连接端和输入端对应相连，第一个卷积核模型阵列的所有输入端与数模转换器的输出相连；若单层卷积网络模型所包含的卷积核数量为n，则控制总线的线宽为n，控制总线接译码器来控制总线中每一位的导通状态，该译码器的输入为二进制数，输入数S为

输出为总线一位低电平，总线其余位高电平，输出数为n；每一个卷积核的输出单独输入至CMOS存储器进行储存；

基于忆阻模块阵列的VGG-16网络的池化层由四个所述VGG-16网络中的忆阻模块以输出端串联连接，所述VGG-16网络中的忆阻模块储存权重值0.25，输出电流为：

x表示第x个输入，I_inx表示第x个输入对应的电流大小；

基于忆阻模块阵列的单层卷积网络模型权重值写入时，其中控制总线完成列选，输入完成行选；在控制总线的列选方式中，将所选忆阻模块所在的总线一位置为低电平，场效应管截止，其余总线位置为高电平，场效应管导通，忆阻模块进入短路状态，完成列选；在输入的行选方式中，所选忆阻模块接恒定的电流脉冲输入，其余忆阻模块的输入置为0，输出端与外部的写入模块相连；当输出端电流低于写入模块要求的电流范围时，对忆阻模块施加正向电流增加其忆阻值，否则施加负向电流，处于其要求范围内则停止写入。

3.根据权利要求2所述的基于忆阻模块阵列的图像标题生成方法，其特征在于，所述步骤6)中训练所述图像标题生成网络模型时，图像生成标题最大长度设置为20，batchsize为32，学习率为0.001，优化器使用Adam，每十分钟自动保存当前模型，训练20epochs。

4.根据权利要求3所述的基于忆阻模块阵列的图像标题生成方法，其特征在于，所述步骤7)中采用的评估准则为机器翻译评估标准：BLEU，其中，BLEU包括BLEU-1，BLEU-2，BLEU-3，BLEU-4。

5.根据权利要求1-4任意一项所述的基于忆阻模块阵列的图像标题生成方法，其特征在于，所述基于Tensorflow搭建图像标题生成网络是在计算机CPU为Intel至强铜牌3106，显卡2080TI×2、内存32G的实验条件下进行的。