CN109447251B

CN109447251B - 一种具有新型内存模块的神经图灵机模型及其设置方法

Info

Publication number: CN109447251B
Application number: CN201811138467.7A
Authority: CN
Inventors: 罗光春; 段贵多; 张栗粽; 赵太银; 吴佳炯
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2021-09-24
Anticipated expiration: 2038-09-28
Also published as: CN109447251A

Abstract

本发明公开了一种具有新型内存模块的神经图灵机模型及其设置方法，属于神经网络领域。本发明在神经图灵机模型的内存模块中增加双螺旋DNA结构；同时对神经图灵机模型的读写头进行改进，使其适应内存模块中的双螺旋DNA结构的存储数据：神经网络控制器动态读写双螺旋DNA结构中存储的时序数据，将双螺旋DNA结构的当前子代数据作为下一层神经元的输入，结合当前从内存矩阵中的读取的内容得到下一层神经元的激活值，并将其重新写入到双螺旋DNA结构中，替换当前子代数据，而替换前的当前子代数据便转换为替换后的当前子代数据的父代数据。同时本发明还公开了其对应的训练设置方法。本发明使得内存模块的记忆矩阵的更新更加细致，提高模型的稳定性。

Description

一种具有新型内存模块的神经图灵机模型及其设置方法

技术领域

本发明属于神经网络领域，具体涉及以一种具有新型内存模块的神经图灵机模型。

背景技术

神经网络图灵机(Neural Turing Machines，NTM)作为一个新的机器学习模型，其本质是基于递归神经网络额外增加了一个可寻址的外部存储器，以此提高神经网络的性能和解决递归神经网络的一些缺陷。传统的机器学习算法或神经网络面对行为检测中样本数据少，传感器种类组合繁多，高层数据与底层逻辑难以关联等问题，都表现出一些局限性。另一方面，人工智能的发展在未来会面临极大的瓶颈，以下三点必定是首当其冲要接受挑战的：样本量不足，泛化能力不足，可解释性不够。传统的神经网络，神经元间的权值信息既承担计算的任务，又要负担记忆的任务，这就会导致上述的问题：记忆很容易被新的知识覆盖，多任务难以实现导致泛化能力不强；记忆是一种隐式信息，隐含在权值对人类而言不够直观，模型的解释性弱。同时，传统算法在处理长时序列数据时，往往表现较差。

最开始在神经网络的基础上创新是一种记忆网络，通过把传统的机器学习算法中的学习方法和可读可写的内存模块相结合，来解决大部分机器学习算法中没有内存模块可以用来读写长期信息的问题。之后，为了解决记忆网络中不能输入端到输出端进行训练的问题，在递归神经网络基础上进行改进，又产生了一种端到端的记忆网络，在输出结果前，网络从外部内存模块迭代读取，这种连续读取的方式使得模型可以从输入端到输出端训练，提高了算法的适应性。

在基于神经网络图灵机上，另一种改进方式是动态神经网络图灵机。其网络的外部存储模块可以训练，这种训练方式中存储模块的每个单元都有内容和地址这两个独立向量，这使该网络可以学习线性和非线性等多种寻找策略。更进一步，专家们发明了一种神经GPU模型，用来解决NTM中神经元不平行，并且在深度上训练难度过大的问题。神经GPU利用卷积门控循环单元，实现了NTM的通用计算特性，同时其神经元平行，使得其训练难度非常低。同时，神经GPU在长短序列问题上也有很好的表现。

除此之外，通过将NTM中的学习模型和离散接口进行交互，并使用强化学习代替可微分读写操作进行算法的训练，来处理算法任务，这种算法被称为RL-NTM。还有一些专家对神经网络图灵机中的读写操作进行改进，例如在NTM中加入了指针操作，研究并提出了一种神经随机访问模型，这种模型可以移动和删除指向外部随机内存块地址的指针。神经随机访问模型可以解决一些需要指针操作的任务，同时，还可以在列表和树等数据结构上进行数据处理，指针对随机内存块的读写可以较快地完成。

发明内容

本发明的发明目的在于：针对上述存在的问题，本发明提供了一种具有新型内存模块的神经图灵机模型。

本发明的神经图灵机模型为：将现有的NTM模型中内存模块中的二维记忆矩阵利用双螺旋DNA结构进行改进，减少模型的读写参数数量，使得记忆矩阵的更新更加细致，提高模型的稳定性；同时，需要对NTM模型中的读写头进行改进，使其适应记忆矩阵中的双螺旋DNA结构的存储数据，即NTM模型的神经网络控制器动态读写双螺旋DNA结构中存储的时序数据，以及动态读写内存矩阵中存储的数据；将双螺旋DNA结构的当前子代数据M_update作为下一层神经元的输入，结合当前从内存矩阵中的读取的内容(即内存矩阵的当前输出)得到下一层神经元的激活值，并将其重新写入到双螺旋DNA结构中，替换对应的子代数据M_update，而替换前的M_update便转换为当前子代数据的父代数据M_before。将当前子代数据M_update作为下一层神经元的输入，结合内存矩阵的输出得到下一层神经元的激活值，并将其重新写入到双螺旋DNA结构中，替换对应的子代数据M_update，而原来的M_update便转换为当前子代数据的父代数据M_before。

同时，本发明还公开了关于本发明的神经图灵机模型的设置方法，包括下列步骤：

步骤1：设置待训练的新型内存模块的神经图灵机模型的结构：在神经图灵机模型的内存模块中增加双螺旋DNA结构；以及设置其数据结构和神经网络控制器中的激活函数；

步骤2：对训练数据集进行预处理：

通过中值滤波和低通滤波对训练数据集进行滤波处理；

再对滤波处理后的数据集进行修正处理，使得修正后的数据集的数据结构匹配所述新型内存模块的神经图灵机模型的数据结构，修正后的数据集的数据标签的值域与所述新型内存模块的神经图灵机模型的激活函数相匹配；

步骤3：将预处理后的数据集分割为多个数据块，采用滑动窗口，基于预设的步长进行滑窗分割，每个滑动窗口所对应的窗口数据为一个数据块；

其中，采用的滑动窗口的长度为

函数ceil()用于返回大于或等于指定表达式的最小整数，f表示采样频率；

滑动窗口的窗口重叠为50％；

步骤4：基于预设的特征提取方式，对每个滑动窗口的数据库进行特征提取，得到特征数据集；

步骤5：将特征数据集输入到所述新型内存模块的神经图灵机模型的神经网络控制器中，实现神经网络控制器与内存模块的数据交互：

神经图灵机模型的神经网络控制器动态读写双螺旋DNA结构中存储的时序数据，以及动态读写内存矩阵中存储的数据；

将双螺旋DNA结构的当前子代数据M_update作为下一层神经元的输入，结合当前从内存矩阵中的读取的内容得到下一层神经元的激活值，并将其重新写入到双螺旋DNA结构中，替换对应的子代数据M_update，而替换前的M_update便转换为当前子代数据的父代数据M_before

步骤6：对所述新型内存模块的神经图灵机模型进行反向传播训练：基于预设的损失函数，反向传播计算每个参数对应的梯度并更新权重，当损失函数值满足训练精度时，得到训练好的神经图灵机模型。

进一步的步骤6中，采用的损失函数为传播损失函数，计算对应第i个神经元(输出层的神经元)的激活值x_i的传播损失L_i：L_i＝(max(0,m-(x_t-x_i))²,i≠t，其中，x_t表示目标类的激活值，m表示调节因子，在模型训练初期，m的取值远离数值1(m与1的差值大于预设阈值T1)；在模型训练中后期，m的取值接近数值1(m与1的差值小于预设阈值T2)；基于所有传播损失L_i得到总损失值

综上所述，由于采用了上述技术方案，本发明的有益效果是：减少模型的读写参数数量，使得记忆矩阵的更新更加细致，提高模型的稳定性。

附图说明

图1为本发明的新型神经网络图灵机网络结构示意图；

图2双螺旋DNA数据结构示意图；

图3为设置本发明的新型神经网络图灵机过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明将NTM模型中的内存模块中的二维记忆矩阵利用双螺旋DNA结构进行改进，减少模型的读写参数数量，使得内存模块的记忆矩阵的更新更加细致，提高模型的稳定性；同时，需要对NTM模型中的读写头进行改进，使其适应记忆矩阵中的双螺旋DNA结构的存储数据。从而得到本发明的具有新型内存模块的神经图灵机模型。

其中，惯用的神经网络图灵机总体网络包括神经网络控制器(Controlle)和内存模块，如图2所示，其中神经网络控制器通过输入输出向量与外界交互，同时还与一个带有选择性读写操作的记忆矩阵(内存矩阵)进行交互，通常将执行读写操作的网络输出称为“头”heads(也称指针)，读写头上的特定输出决定了代表注意力焦点的内存地址，即所述网络输出其实就是一个代表在内存矩阵上的各行归一化权重的表示(也称为内存“地址集合”)。每个读写头都有一个权重列表，这个权重列表代表了它的读写头在各个地址的读写比重。

神经网络控制器与记忆矩阵的读写交互具体描述为：

神经网络控制器中的当前层(用j表示，其中j≥2)的各神经元会接受上一层(用i表示)的多个神经元的输出标量s_i，以及内存矩阵的输出R作为其自身的输入进行线性转换(线性变换)，获取当前层的线性变换值：

其中，k表示第j层的神经元，n表示第i层的神经元，

表示预设的层间线性变换函数，

表示第j层的神经元k关于第i层的神经元n的线性变换值，

表示第i层的神经元n的输出，b^j表示第j层的偏置项。

然后进行加权、求和，得到

其中，I表示单位向量；

最后进行非线性激活，得到当前层第k个神经元的激活值

其中激活函数f选择为Sigmoid非线性函数。同时当前层的各神经元会将其激活值写入到内存模块，进行更新。

用M_t表示t时刻的内存矩阵数据，其大小为N×M，其中N是内存地址数量或行数，M是每个地址的数据大小，即每个地址的数据维度。用W_t表示读写头在t时刻的记忆存矩阵的读写权重，其中W_t为长度为N的指针向量，W_t的各内部元素W_t(i)满足

对于记忆矩阵的读操作，定义R_t表示t时刻的读取内容(即记忆矩阵在t时刻的输出)，则

其中M_t(i)表示记忆矩阵的每个内存地址(每行)的数据。

记忆矩阵写操作包含擦除和添加两个步骤，其借鉴了LSTM中的门。在时刻t写的权重为W_t，擦除向量为E_t，则内存矩阵的各内部元素M_t(i)更新为：M_t(i)←M_t(i)[I-W_t(i)E_t]；当E_t为零向量时对应地址的内存会全部重置为零。读写头可有多个，当同时进行写操作时，这些操作会按顺序叠加。

本发明中，内存模块中增加了双螺旋DNA结构，双螺旋DNA结构如图2、3所示，其包含了更新前的父代数据M_before和更新后的子代数据M_update，即通过父代数据M_before存储上一层的神经元的激活值，通过子代数据M_update存储当前层的神经元的激活值，从而使得整体数据更为完整精确，提高模型的准确度，即在神经网络控制与记忆矩阵进行交互时，动态读写双螺旋DNA结构中存储的时序数据，将当前的子代数据作为下一层神经元的输入，而下一层的神经元则基于该输入和内存矩阵的输出R，经过线性转换、加权求和、非线性激活等操作后，得到其下一层神经元的激活值，并重新写入到双螺旋DNA结构中，替换当前子代数据M_update，而原来的M_update便转换为父代数据M_before，新的子代数据M_update将会作为下一层神经元的输入。

参见图1，本发明的新型内存模块的神经图灵机模型的训练过程如下：

S1.数据输入和预处理。

输入数据集D_origin并进行预处理，用以对本发明的NTM模型进行训练，主要包含两个步骤。

S11.使用中值滤波对输入数据集D_origin进行噪声滤除，中值滤波主要为了过滤数据本身存在的噪声。

中值滤波将信号序列中某个信号点的值用该点的两边窗口所有的点的中值取代，使其近似化靠近较为真实的值，来达到滤除噪声点、平滑信号曲线的效果。假设一个窗口长度是奇数L，其中L＝2N+1。经过反复验证最终中值滤波器的窗口大小设置为L＝3。假设某一时刻窗口内的信号序列为：t_i-N,t_i-N+1...,t_i,...t_i+N-1,t_i+N，其中t_i是信号窗口的中心点，通过对L长度序列中的样本值进行排序，其中值就是中值滤波的输出。中值滤波器的具体计算方法如下：

w＝med(t_i-N,t_i-N+1...,t_i,...t_i+N-1,t_i+N)

数据集D_origin经过滤波处理后得到噪声较少的数据集D_filter。

S12.为了使得输入的训练样本符合本发明神经网络图灵机的数据结构，并使标签的值域和激活函数相匹配，修正数据集D_filter的结构和标签，得到数据集D′_filter，以便于让训练更容易收敛。

即修正方式可采用任一惯用方式，只要满足修正后的数据结构匹配神经网络图灵机的数据结构，修正后的标签的值域和激活函数相匹配即可。

S2.滑动窗口：经过预处理的数据集D′_filter中序列长度往往很长，需要进行分割，可以利用滑动窗口来划分。其主要包含以下步骤。

S21.制定滑动窗口的大小和步长，考虑模型的效率和准确性，选择合适的窗口长度和步长，制定相应划分方案。

滑动窗口由两个关键变量组成：窗口长度(size)和滑动步长(step)。窗口长度的选择非常重要，窗口长度过短，导致算法运算频率增加，降低模型的运行效率；窗口长度过长则可能导致序列丢失动作的转换过程，导致模型的准确率下降。假设传感器采样频率为fHz，那么窗口大小一般设定为2f，步长为f。

当需要提取频域特征时，为了使傅里叶变换可计算，窗口长度的计算公式调整为：

其中函数ceil()用于返回大于或等于指定表达式(log₂(2*f))的最小整数。

S22.根据窗口长度(size)和滑动步长(step)对数据集D′_filter进行切分，其中滑动窗口之间有所重叠，避免每个窗口丢失重要信息。为了使每个窗口都尽可能的准确，本具体实施方式中，使用了50％的窗口重叠，使窗口能包含运动状态转变。进行窗口划分后，得到时间长度较短的数据集D_window。

S3.特征提取：制定特征提取方案，然后对数据集D_window进行特征提取。对于时序数据，主要提取平均值、标准差、中位数绝对偏差、最大值与最小值、信号幅度区域、能量衡量、四分位间距、信号熵、幅度最大的频率分量的索引、获得平均频率的频率分量的加权平均值、偏度、峰度、每个窗口的FFT(离散傅氏变换)的64个区间内的频率间隔的能量、矢量之间的角度等时域和频域特征等特征，输出特征数据集D_feature。

S4.输入到NTM的神经网络控制器：将特征数据集D_feature输入到神经网络图灵机的控制器中；

S5.神经网络控制器与内存模块的交互：

神经网络控制器动态读写双螺旋DNA结构中存储的时序数据，将其作为下一层神经元的输入，结合内存矩阵的输出得到下一层神经元的激活值，并将其重新写入到双螺旋DNA结构中，替换对应的子代数据M_update，而原来的M_update便转换为当前子代数据的父代数据M_before。

S6.模型训练和反向传播：定义合适的损失函数，反向传播计算每个参数对应的梯度并更新权重，使得损失函数取得最小值优化神经网络模型。

在整个神经网络图灵机中，包括读写头的权重参数，参数都需要利用损失函数来反向迭代更新。为了降低模型的训练对其初始化以及参数的设定的依赖程度，本发明采用传播损失(Spread Loss)函数，最大化目标类与非目标类之间的间距。传播损失表示如下：

其中L_i表示对应第i个激活值(神经网络的输出层)的传播损失，L表示总传播损失，x_t表示目标类的激活值，x_i表示神经元中第i(i≠t)个的激活值，m是调节因子。在模型训练初期，大部分神经元对网络的影响较小，x_t和x_i差距不大，若此时参数m采用较大值会导致x_t-x_i在损失函数中的作用甚微，使模型的训练难度增大，因此需要将m设置的较小(远离1)使得x_t-x_i能起到较好的作用。而在模型训练中后期，x_i比较小而x_t比较大，此时需要将m设置为接近1的数值。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种具有新型内存模块的神经图灵机模型，其特征在于，在神经图灵机模型的内存模块中增加双螺旋DNA结构；

同时对神经图灵机模型的读写头进行改进，使其适应内存模块中的双螺旋DNA结构的存储数据：神经图灵机模型的神经网络控制器动态读写双螺旋DNA结构中存储的时序数据，以及动态读写内存矩阵中存储的数据；将双螺旋DNA结构的当前子代数据作为下一层神经元的输入，结合当前从内存矩阵中的读取的内容得到下一层神经元的激活值，并将其重新写入到双螺旋DNA结构中，替换当前子代数据，而替换前的当前子代数据便转换为当前子代数据的父代数据。

2.一种具有新型内存模块的神经图灵机模型的设置方法，包括下列步骤：

步骤2：对训练数据集进行预处理：

通过中值滤波和低通滤波对训练数据集进行滤波处理；

其中，采用的滑动窗口的长度为

滑动窗口的窗口重叠为50％；

步骤4：基于预设的特征提取方式，对每个滑动窗口的数据块进行特征提取，得到特征数据集；

神经网络控制器动态读写双螺旋DNA结构中存储的时序数据，以及动态读写内存矩阵中存储的数据；

将双螺旋DNA结构的当前子代数据作为下一层神经元的输入，结合当前从内存矩阵中的读取的内容得到下一层神经元的激活值，并将其重新写入到双螺旋DNA结构中，替换对应的子代数据，而替换前的子代数据便转换为当前子代数据的父代数据；

3.如权利要求2所述的方法，其特征在于，步骤6中，采用的损失函数为传播损失函数，计算对应第i个神经元的激活值x_i的传播损失L_i：L_i＝(max(0,m-(x_t-x_i))²,i≠t，其中，x_t表示目标类的激活值，m表示调节因子，在模型训练初期，m的取值远离数值1；在模型训练中后期，m的取值接近数值1；

基于所有传播损失L_i得到总损失值

4.如权利要求2所述的方法，其特征在于，步骤2中，中值滤波器的窗口的长度的值为3。