CN113610220A

CN113610220A - 神经网络模型的训练方法、应用方法及装置

Info

Publication number: CN113610220A
Application number: CN202110994807.1A
Authority: CN
Inventors: 刘海军; 李清江; 李智炜; 黄力行; 于红旗; 徐晖; 刁节涛; 王义楠; 陈长林; 刘森; 宋兵; 王伟; 步凯; 王琴; 王玺; 曹荣荣
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-05
Anticipated expiration: 2041-08-27
Also published as: CN113610220B

Abstract

本申请实施例提供一种神经网络模型的训练方法、应用方法及装置，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；能够将忆阻器的非理想特性使用高斯噪声代替，通过向由0，1构成的权重矩阵中施加高斯噪声来模拟具有非理想特性的二值忆阻器，利用施加噪声后的权重矩阵对二值化卷积神经网络进行训练，在解决使用忆阻器所面临的阵列良率、阻值波动以及器件噪声所引起的卷积神经网络数据不可靠的问题中，可以通过直接在忆阻器阵列中进行在线训练的方式(直接将忆阻器的非理想特性包含在网络的训练过程中)以增强神经网络的鲁棒特性和收敛准确特性。

Description

神经网络模型的训练方法、应用方法及装置

技术领域

本发明涉及网络模型训练的技术领域，尤其是涉及一种神经网络模型的训练方法、应用方法及装置。

背景技术

卷积神经网络是用于解决视觉问题的最优秀的算法之一，因其在图像分类、目标检测、以及图像识别等各类任务中表现出了的杰出性能而受到研究人员的广泛关注。与此同时，为了加强网络的性能，卷积神经网络架构的深度和宽度也在持续增加，这要求设备必须具备大量的存储单元、强大的中央处理单元以及高带宽。但是这对于面积和系统资源受限的便携式设备而言是不切实际的。因此，将卷积神经网络算法移植到可移动设备当中以实现边缘计算具有很大的挑战。

幸运的是，一种神经形态器件——忆阻器，在实现卷积神经网络算法方面展现了巨大的前景，因为它具有低功耗、优越的非挥发存储性能以及纳米级尺寸等特性。

然而，由于忆阻器的制造工艺还不成熟，忆阻器阵列中具有的低阵列良率和阻值波动等非理想特性阻碍了卷积神经网络的发展。虽然将忆阻器作为二值器件使用以构建二值化卷积神经网络能够在一定程度上消除器件缺陷对基于忆阻器的卷积神经网络性能的影响，但是，低阵列良率和高的阻值波动特性严重降低了网络的识别率，进而降低了网络的收敛准确度和网络鲁棒性。

发明内容

有鉴于此，本发明的目的在于提供一种神经网络模型的训练方法、应用方法及装置，有效缓解了低阵列良率和高的阻值波动，从而提高了网络的收敛准确度和网络鲁棒性。

第一方面，本发明实施例提供了一种神经网络模型的训练方法，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；上述方法包括：对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到神经网络模型对应的权重矩阵；其中，权重矩阵包括多个网络节点对应的权重值；对权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵；其中，改写权重矩阵中的每个权重值为-1或1；将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵；其中，第一权重矩阵中的第一权重值与改写权重矩阵中的权重值相同，第二权重矩阵中的第二权重值与改写权重矩阵中的权重值互为相反数；基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵；基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵；根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵；基于第三新权重矩阵和训练样本对神经网络模型继续进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。

结合第一方面，本发明实施例提供了第一方面的一种可能的实施方式，其中，对权重矩阵中的每个权重值进行改写操作的步骤，包括：将权重矩阵中的每个权重值作为目标权重值，对于每个目标权重值均执行以下操作：判断目标权重值是否小于或等于第一预设值；如果是，将目标权重值改写为-1；如果否，将目标权重值改写为1。

结合第一方面，本发明实施例提供了第一方面的二种可能的实施方式，其中，基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵的步骤，包括：利用预设的第一转换函数对第一权重矩阵进行转换，得到第一转换权重矩阵，其中，第一转换权重矩阵中的每个权重值为0或1；将高斯噪声函数生成的高斯噪声值添加至第一转换权重矩阵中，得到第一新权重矩阵。

结合第一方面，本发明实施例提供了第一方面的三种可能的实施方式，其中，第一转换函数为：若数值小于或等于第二预设值时，将数值转换成0；若数值大于第二预设值时，将数值转换成1。

结合第一方面，本发明实施例提供了第一方面的四种可能的实施方式，其中，基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵的步骤，包括：利用预设的第二转换函数对第二权重矩阵进行转换，得到第二转换权重矩阵，其中，第二转换权重矩阵中的每个权重值为0或1；将高斯噪声函数生成的高斯噪声值添加至第二转换权重矩阵中，得到第二新权重矩阵。

结合第一方面，本发明实施例提供了第一方面的五种可能的实施方式，其中，第二转换函数为：若数值小于第二预设值时，将数值转换成0；若数值大于或等于第二预设值时，将数值转换成1。

结合第一方面，本发明实施例提供了第一方面的六种可能的实施方式，其中，根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵的步骤，包括：将第一新权重矩阵减去第二新权重矩阵，得到第三新权重矩阵。

第二方面，本发明实施例还提供一种神经网络模型的应用方法，其中，神经网络模型为基于忆阻器的二值化卷积神经网络；该方法包括：基于当前任务获取待处理的目标图像；其中，当前任务包括针对目标对象的检测任务、识别任务或跟踪任务；目标对象包括以下之一：行人、人体部位、车辆或车牌；将目标图像输入预先训练好的神经网络模型，得到神经网络模型输出的目标图像对应的结果；其中，神经网络模型为应用上述训练方法训练得到的模型。

第三方面，本发明实施例还提供一种神经网络模型的训练装置，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；上述装置包括：预训练模型，用于对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到神经网络模型对应的权重矩阵；其中，权重矩阵包括多个网络节点对应的权重值；改写模型，用于对权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵；其中，改写权重矩阵中的每个权重值为-1或1；拆分模型，用于将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵；其中，第一权重矩阵中的第一权重值与改写权重矩阵中的权重值相同，第二权重矩阵中的第二权重值与改写权重矩阵中的权重值互为相反数；第一转换模型，用于基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵；第二转换模型，用于基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵；计算模型，用于根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵；训练模型，用于基于第三新权重矩阵和训练样本对神经网络模型继续进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。

第四方面，本发明实施例还提供一种神经网络模型的应用装置，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；该装置包括：目标图像获取模型，用于基于当前任务获取待处理的目标图像；其中，当前任务包括针对目标对象的检测任务、识别任务或跟踪任务；目标对象包括以下之一：行人、人体部位、车辆或车牌；模型处理模型，用于将目标图像输入预先训练好的神经网络模型，得到神经网络模型输出的目标图像对应的结果；其中，神经网络模型为应用上述训练方法训练得到的模型。

本发明实施例带来了以下有益效果：

本申请实施例提供一种神经网络模型的训练方法、应用方法及装置，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到神经网络模型对应的权重矩阵，对权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵，将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵，基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵；基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵；根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵；基于第三新权重矩阵和训练样本对神经网络模型进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。本申请能够将忆阻器的非理想特性使用高斯噪声代替，通过向由0，1构成的权重矩阵中施加高斯噪声来模拟具有非理想特性的二值忆阻器，利用施加噪声后的权重矩阵对二值化卷积神经网络进行训练，在解决使用忆阻器所面临的阵列良率、阻值波动以及器件噪声所引起的卷积神经网络数据不可靠的问题中，可以通过直接在忆阻器阵列中进行在线训练的方式(直接将忆阻器的非理想特性包含在网络的训练过程中)以增强神经网络的鲁棒特性和收敛准确特性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种神经网络模型的训练方法的流程图；

图2为本发明实施例提供的另一种神经网络模型的训练方法的流程图；

图3为本发明实施例提供的一种设备缺陷与神经网络模型性能的关系示意图；

图4为本发明实施例提供的另一种设备缺陷与神经网络模型性能的关系示意图；

图5为本发明实施例提供的一种神经网络模型识别结果的示意图；

图6为本发明实施例提供的一种神经网络模型的训练装置的结构示意图；

图7为本发明实施例提供的一种神经网络模型的应用方法的流程图；

图8为本发明实施例提供的一种神经网络模型的应用装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有忆阻器的制造工艺还不成熟，忆阻器阵列中具有的低阵列良率和阻值波动等非理想特性容易降低卷积神经网络的收敛准确度和网络鲁棒性，影响卷积神经网络的发展和应用；本发明实施例提供的一种神经网络模型的训练方法、应用方法及装置，能够将忆阻器的非理想特性使用高斯噪声代替，通过向由0，1构成的权重矩阵中施加高斯噪声来模拟具有非理想特性的二值忆阻器，利用施加噪声后的权重矩阵对二值化卷积神经网络进行训练，在解决使用忆阻器所面临的阵列良率、阻值波动以及器件噪声所引起的卷积神经网络数据不可靠的问题中，可以通过直接在忆阻器阵列中进行在线训练的方式(直接将忆阻器的非理想特性包含在网络的训练过程中)以增强神经网络的鲁棒特性和收敛准确特性。

本实施例提供了一种神经网络模型的训练方法，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；参见图1所示的一种神经网络模型的训练方法的流程图，该方法具体包括如下步骤：

步骤S102，对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到神经网络模型对应的权重矩阵；其中，权重矩阵包括多个网络节点对应的权重值；

训练样本中的样本可以是预先采集到的，也可以是从第三方网站中得到。在进行每次训练时，可以将整个训练样本中的样本作为本次训练周期的样本，或者，随机选取训练样本中的部分样本作为本次训练周期的样本，其中，当前训练周期的样本的数量可以根据实际需要进行选取，在此不进行限定。

经过预训练后的神经网络模型中的每个网络节点都有对应的权重值，由各个权重值构成上述权重矩阵。

步骤S104，对权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵；其中，改写权重矩阵中的每个权重值为-1或1；

改写操作可理解为是将权重矩阵中的每个权重值进行重新赋值，使得改写权重矩阵中的每个权重值不是-1就是1。

步骤S106，将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵；

其中，第一权重矩阵中的第一权重值与改写权重矩阵中的权重值相同，第二权重矩阵中的第二权重值与改写权重矩阵中的权重值互为相反数。

为了便于理解，比如改写权重矩阵为：

由于第一权重矩阵中的第一权重值与改写权重矩阵中的权重值相同，所以，第一权重矩阵为：

由于第二权重矩阵中的第二权重值与改写权重矩阵中的权重值互为相反数，所以第二权重矩阵为：

并且，将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵的过程是在基于改写权重矩阵和训练样本对神经网模型继续进行训练，对于继续训练过程中的训练周期的前向传播过程中进行的。

步骤S108，基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵；

该转换过程同样是在训练周期的前向传播过程中进行的，其中，上述步骤S108的实现过程可由步骤A1至步骤A2实现：

步骤A1，利用预设的第一转换函数对第一权重矩阵进行转换，得到第一转换权重矩阵；其中，第一转换权重矩阵中的每个权重值为0或1；

上述第一转换函数为：若数值小于或等于第二预设值时，将数值转换成0；若数值大于第二预设值时，将数值转换成1。

在本实施例中，上述第二预设值为0，即第一转换函数用公式可表示为：

其中，x表示第一权重矩阵中的权重值。

可理解为，应用上述第一转换函数对第一权重矩阵进行转换时，第一权重矩阵中的权重值小于或等于0时，将该权重值转换成0；若第一权重矩阵中的权重值大于0时，将该权重值转换成1，转换的目的是将第一权重矩阵中的权重值转换成分别代表忆阻器高低阻态的逻辑值0和1。

续接前例，由于第一权重矩阵为：

所以经第一转换函数对第一权重矩阵进行转换，得到第一转换权重矩阵为：

步骤A2，将高斯噪声函数生成的高斯噪声值添加至第一转换权重矩阵中，得到第一新权重矩阵。

续接前例，由于第一转换权重矩阵为：

所以经步骤A2向该矩阵中每个权重值添加高斯噪声值得到的第一新权重矩阵为：

其中，N1至N9表示高斯噪声值；由于高斯噪声函数符合高斯分布，因此，添加至权重矩阵中的多个高斯噪声值的数值可能互不相同。

步骤S110，基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵；

该转换过程同样是在训练周期的前向传播过程中进行的，其中，上述步骤S110的实现过程可由步骤B1至步骤B2实现：

步骤B1，利用预设的第二转换函数对第二权重矩阵进行转换，得到第二转换权重矩阵，其中，第二转换权重矩阵中的每个权重值为0或1；

上述第二转换函数为：若数值小于第二预设值时，将数值转换成0；若数值大于或等于第二预设值时，将数值转换成1。

在本实施例中，上述第二预设值为0，即第二转换函数用公式可表示为：

其中，x表示第二权重矩阵中的权重值。

可理解为，应用上述第二转换函数对第二权重矩阵进行转换时，第二权重矩阵中的权重值小于0时，将该权重值转换成0；若第一权重矩阵中的权重值大于或等于0时，将该权重值转换成1，转换的目的是将第二权重矩阵中的权重值转换成分别代表忆阻器高低阻态的逻辑值0和1。

续接前例，由于第二权重矩阵为：

所以经第二转换函数对第二权重矩阵进行转换，得到第二转换权重矩阵为：

步骤B2，将高斯噪声函数生成的高斯噪声值添加至第二转换权重矩阵中，得到第二新权重矩阵。

续接前例，由于第二转换权重矩阵为：

所以经步骤B2向该矩阵中每个权重值添加高斯噪声值得到的第二新权重矩阵为：

其中，N₁₀至N18表示高斯噪声值；由于高斯噪声函数符合高斯分布，因此，添加至权重矩阵中的多个高斯噪声值的数值可能互不相同。

步骤S112，根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵；

其中，将第一新权重矩阵减去第二新权重矩阵，得到上述第三新权重矩阵。

续接前例，用

即两矩阵对应位置的权重值进行减法计算得到第三新权重矩阵。

步骤S114，基于第三新权重矩阵和训练样本对神经网络模型继续进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。

对于继续训练过程中的每个训练周期的前向传播过程，训练样本与第三新权重矩阵进行卷积或向量-矩阵乘法运算以得到神经网络模型相应层的输出结果，在实际应用时，可循环执行步骤S102至步骤S114的过程，直至循环的次数达到预设值，或者，训练损失值达到预设训练损失阈值时，停止神经网络模型的训练，利用训练好的神经网络模型进行应用。

本申请实施例提供一种神经网络模型的训练方法，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到神经网络模型对应的权重矩阵，对权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵，将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵，基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵；基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵；根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵；基于第三新权重矩阵和训练样本对神经网络模型进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。本申请能够将忆阻器的非理想特性使用高斯噪声代替，通过向由0，1构成的权重矩阵中施加高斯噪声来模拟基于忆阻器的二值化卷积神经网络的在线训练过程，在解决使用忆阻器所面临的阵列良率、阻值波动以及器件噪声所引起的卷积神经网络数据不可靠的问题中，可以通过直接在忆阻器阵列中进行在线训练的方式(直接将忆阻器的非理想特性包含在网络的训练过程中)以增强神经网络的鲁棒特性和收敛准确特性。

本实施例提供了另一种神经网络模型的训练方法，该方法在上述实施例的基础上实现；本实施例重点描述对权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵的具体实施方式。如图2所示的另一种神经网络模型的训练方法的流程图，本实施例中的神经网络模型的训练方法包括如下步骤：

步骤S202，对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到神经网络模型对应的权重矩阵；其中，权重矩阵包括多个网络节点对应的权重值；

步骤S204，将权重矩阵中的每个权重值作为目标权重值，对于每个目标权重值均执行步骤S206-步骤S210：

步骤S206，判断目标权重值是否小于或等于第一预设值；

如果是，执行步骤S208，如果否，执行步骤S210。

步骤S208，将目标权重值改写为-1；

步骤S210，将目标权重值改写为1；

步骤S212，将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵；其中，第一权重矩阵中的第一权重值与改写权重矩阵中的权重值相同，第二权重矩阵中的第二权重值与改写权重矩阵中的权重值互为相反数；

步骤S214，基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵；

步骤S216，基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵；

步骤S218，根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵；

步骤S220，基于第三新权重矩阵和训练样本对神经网络模型继续进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。

为了充分说明采用本实施例中方法能够提高神经网络模型的性能进行了仿真实验，在仿真过程中，考虑了一个在MNIST数据集上的两层二值化卷积神经网络，该神经网络的输入和输出均为0或1，而权值参数为±1的形式。首先，为了使神经网络在阵列中不具备任何非理想特性时在分类任务中能够具有良好的识别精度，在训练中使用了预训练方法来改善网络的识别性能。与此同时，由于在训练过程中，二值化卷积神经网络的训练算法是对32位浮点精度的权值进行更新，因此在网络完成预训练过程之后，32位高精度权值和±1形式的二值权值都能够被获取到。表1展示了在训练过程中，使用32位高精度权值对网络进行初始化和使用二值权值对网络进行初始化时网络的性能进行的比较结果。需要注意的时，在训练过程中，需要迭代训练100次，并且存储了最后10个模型以供测试。最终，10个模型中最好的识别性能被视为网络的最终识别率。表1中的参数σ表示高斯噪声的标准差，其取值范围为0.1～0.5，保证了采用预训练和二值初始化方法的网络识别率达到97％以上。

表1

从表1中可以看出，预处理方法可以有效提高网络性能的结果。另一个可以注意到的现象是，在训练过程中，使用二进制权值进行初始化的网络性能比使用32位高精度权值进行初始化的网络性能要好一些。因此，在接下来的实验仿真过程中，将使用预训练和二值初始化方法的网络来验证我们所提出的训练策略的性能。为了展示所提出的训练方法能够提高基于双层记忆电阻器的二值化卷积神经网络的鲁棒性的效果，在本实施例中，以高阻状态、低阻状态分别为1MΩ、1KΩ的平均记忆电阻进行了仿真。关于器件阻值波动的问题，值为+1的权值被编程到忆阻器阵列当中后，不再对应一个完美的逻辑权值“1”。

基于上述修改后的忆阻器进行仿真实验，使用由忆阻器变化或阵列良率问题产生的真实权值进行正向推理，以显示设备缺陷对基于忆阻器的二值化卷积神经网络性能的影响，为了便于说明，图3示出了一种设备缺陷与神经网络模型性能的关系示意图，图3的a图中示出了不同噪声参数下卷积神经网络识别精度与忆阻器的波动参数的关系，图3的b图示出了不同噪声参数下卷积神经网络性能与阵列良率的关系。

由图3可知看出，随着训练方法中高斯噪声值的标准差σ的增大，使用本实施例训练方法训练好的神经网络模型对设备缺陷的容忍度变得更高。特别是当器件变化的参数为28％时，训练方法对网络性能有明显的改善，当忆阻器的阵列良率为60％时，对网络性能也有很好的改善。但是随着神经网络容错能力的提高，两层忆阻器的二值化卷积神经网络的理想识别率不断下降。因此，需要找到一个合理的参数σ来均衡网络的鲁棒性和网络的理想性能。

图4示出了另一种设备缺陷与神经网络模型性能的关系示意图，图4的a图中示出了高斯噪声值的标准差σ为0.35时阵列良率与神经网络模型的识别率的关系，图4的b图中示出了高斯噪声值的标准差σ为0.35时波动参数与神经网络模型的识别率的关系。

由图4可知，在高斯噪声值的标准差σ为0.35时，该二值化卷积神经网络的理想识别率为97.92％，与没有训练方法的神经网络模型相比仅降低了0.3％。当忆阻器的阵列良率为60％时，该网络的平均分类准确率为91.19％，比没有训练方法的神经网络模型相比提高了5.3％左右。当器件变化为28％时，基于忆阻器的二值化卷积神经网络的平均识别率为91.53％，比未采用该训练方法的神经网络模型相比提高了3.2％。

本实施例中对于每个阵列良率重复训练了多次，因此，经过再训练方法训练的二值化神经网络模型的平均识别性能如图5所示，图5的a图示出了采用或不采用再训练方法进行训练时，神经网络模型的平均识别性能与阵列良率的关系，图5的b图示出了神经网络模型识别性能结果的分布图，由图5中的a图可以看出，当忆阻器阵列中存在阵列良率问题时，通过再训练方法可以很好地提高基于忆阻器的二值化卷积神经网络的识别性能。从图5中的b图还可以看出，当忆阻器中存在损坏器件时，基于忆阻器的二值化卷积神经网络的识别性能(在阵列良率为88％时约为98％)超过了未损坏器件时的识别性能(97.92％)。这主要是因为神经网络模型的训练过程中没有注入噪声干扰。此外，当忆阻器中存在损坏的器件时，相应的权值会出现三种值，即+1、-1和0，这可能会提高神经网络的泛化能力。

为了提高基于忆阻器的二值化卷积神经网络的鲁棒性，本实施例提供的神经网络模型的训练方法，能够把权值矩阵分成两个部分以更好地模拟高(由逻辑值“0”)和低(由逻辑值“1”)忆阻器的电阻,并且忆阻器的非理想特性则通过向这两个部分添加高斯噪声值来模拟。通过上述仿真实验结果可以看出，该训练方法对提高忆阻器的二值化卷积神经网络的鲁棒性有显著的效果，当忆阻器的阵列良率为60％时，二值化卷积神经网络的识别率达到91.19％左右。当设备参数变化为28％时，网络识别率也达到接近91.53％。

对应于上述神经网络模型的训练方法实施例，本发明实施例提供了一种神经网络模型的训练装置，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；图6示出了一种神经网络模型的训练装置的结构示意图，如图6所示，该装置包括：

预训练模型602，用于对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到神经网络模型对应的权重矩阵；其中，权重矩阵包括多个网络节点对应的权重值；

改写模型604，用于对权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵；其中，改写权重矩阵中的每个权重值为-1或1；

拆分模型606，用于将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵；其中，第一权重矩阵中的第一权重值与改写权重矩阵中的权重值相同，第二权重矩阵中的第二权重值与改写权重矩阵中的权重值互为相反数；

第一转换模型608，用于基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵；

第二转换模型610，用于基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵；

计算模型612，用于根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵；

训练模型614，用于基于第三新权重矩阵和训练样本对神经网络模型继续进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。

本申请实施例提供一种神经网络模型的训练装置，其中，该神经网络模型为基于忆阻器的二值化卷积神经网络；对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到神经网络模型对应的权重矩阵，对权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵，将改写权重矩阵拆分成第一权重矩阵和第二权重矩阵，基于预设的第一转换函数和高斯噪声函数对第一权重矩阵进行转换，得到第一新权重矩阵；基于预设的第二转换函数和高斯噪声函数对第二权重矩阵进行转换，得到第二新权重矩阵；根据第一新权重矩阵和第二新权重矩阵计算得到第三新权重矩阵；基于第三新权重矩阵和训练样本对神经网络模型进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。本申请能够将忆阻器的非理想特性使用高斯噪声代替，通过向由0，1构成的权重矩阵中施加高斯噪声来模拟基于忆阻器的二值化卷积神经网络的在线训练过程，在解决使用忆阻器所面临的阵列良率、阻值波动以及器件噪声所引起的卷积神经网络数据不可靠的问题中，可以通过直接在忆阻器阵列中进行在线训练的方式(直接将忆阻器的非理想特性包含在网络的训练过程中)以增强神经网络的鲁棒特性和收敛准确特性。

本发明实施例提供的神经网络模型的训练装置，与上述实施例提供的神经网络模型的训练方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

对应于上述神经网络模型的训练方法实施例，本发明实施例提供了一种神经网络模型的应用方法，其中，神经网络模型为基于忆阻器的二值化卷积神经网络；参见图7所示的一种神经网络模型的应用方法的流程图，该方法具体包括如下步骤：

步骤S702，基于当前任务获取待处理的目标图像；

其中，当前任务包括针对目标对象的检测任务、识别任务或跟踪任务；目标对象包括以下之一：行人、人体部位、车辆或车牌；上述目标图像可以是利用电子设备预先采集到的，也可以是上述电子设备从第三方设备中得到的包含有目标对象的图像。

步骤S704，将目标图像输入预先训练好的神经网络模型，得到神经网络模型输出的目标图像对应的结果。

其中，神经网络模型为应用上述训练方法训练得到的模型。利用上述训练方法有效提升了神经网络模型的网络性能，进而保障了模型使用过程中对目标图像进行预测时的准确度。

对应于上述神经网络模型的应用方法实施例，本发明实施例还提供一种神经网络模型的应用装置，该神经网络模型为基于忆阻器的二值化卷积神经网络；图8示出了一种神经网络模型的应用装置的结构示意图，如图8所示，该装置包括：

目标图像获取模型802，用于基于当前任务获取待处理的目标图像；其中，当前任务包括针对目标对象的检测任务、识别任务或跟踪任务；目标对象包括以下之一：行人、人体部位、车辆或车牌；

模型处理模型804，用于将目标图像输入预先训练好的神经网络模型，得到神经网络模型输出的目标图像对应的结果；其中，神经网络模型为应用上述训练方法训练得到的模型。

本申请实施例还提供了一种电子设备，如图9所示，为该电子设备的结构示意图，其中，该电子设备包括处理器121和存储器120，该存储器120存储有能够被该处理器121执行的计算机可执行指令，该处理器121执行该计算机可执行指令以实现上述方法。

在图9示出的实施方式中，该电子设备还包括总线122和通信接口123，其中，处理器121、通信接口123和存储器120通过总线122连接。

其中，存储器120可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口123(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线122可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线122可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器121可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器121中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器121可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模型组合执行完成。软件模型可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器121读取存储器中的信息，结合其硬件完成前述实施例的方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述方法，具体实现可参见前述方法实施例，在此不再赘述。

本申请实施例所提供的神经网络模型的训练方法、应用方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种神经网络模型的训练方法，其特征在于，所述神经网络模型为基于忆阻器的二值化卷积神经网络；所述方法包括：

对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到所述神经网络模型对应的权重矩阵；其中，所述权重矩阵包括多个网络节点对应的权重值；

对所述权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵；其中，所述改写权重矩阵中的每个权重值为-1或1；

将所述改写权重矩阵拆分成第一权重矩阵和第二权重矩阵；其中，所述第一权重矩阵中的第一权重值与所述改写权重矩阵中的权重值相同，所述第二权重矩阵中的第二权重值与所述改写权重矩阵中的权重值互为相反数；

基于预设的第一转换函数和高斯噪声函数对所述第一权重矩阵进行转换，得到第一新权重矩阵；

基于预设的第二转换函数和高斯噪声函数对所述第二权重矩阵进行转换，得到第二新权重矩阵；

根据所述第一新权重矩阵和所述第二新权重矩阵计算得到第三新权重矩阵；

基于所述第三新权重矩阵和所述训练样本对所述神经网络模型继续进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。

2.根据权利要求1所述的方法，其特征在于，对所述权重矩阵中的每个权重值进行改写操作的步骤，包括：

将所述权重矩阵中的每个权重值作为目标权重值，对于每个所述目标权重值均执行以下操作：

判断所述目标权重值是否小于或等于第一预设值；

如果是，将所述目标权重值改写为-1；

如果否，将所述目标权重值改写为1。

3.根据权利要求1所述的方法，其特征在于，基于预设的第一转换函数和高斯噪声函数对所述第一权重矩阵进行转换，得到第一新权重矩阵的步骤，包括：

利用预设的第一转换函数对所述第一权重矩阵进行转换，得到第一转换权重矩阵，其中，所述第一转换权重矩阵中的每个权重值为0或1；

将所述高斯噪声函数生成的高斯噪声值添加至所述第一转换权重矩阵中，得到第一新权重矩阵。

4.根据权利要求1所述的方法，其特征在于，所述第一转换函数为：

若数值小于或等于第二预设值时，将所述数值转换成0；

若数值大于第二预设值时，将所述数值转换成1。

5.根据权利要求1所述的方法，其特征在于，基于预设的第二转换函数和高斯噪声函数对所述第二权重矩阵进行转换，得到第二新权重矩阵的步骤，包括：

利用预设的第二转换函数对所述第二权重矩阵进行转换，得到第二转换权重矩阵，其中，所述第二转换权重矩阵中的每个权重值为0或1；

将所述高斯噪声函数生成的高斯噪声值添加至所述第二转换权重矩阵中，得到第二新权重矩阵。

6.根据权利要求1所述的方法，其特征在于，所述第二转换函数为：

若数值小于第二预设值时，将所述数值转换成0；

若数值大于或等于第二预设值时，将所述数值转换成1。

7.根据权利要求1所述的方法，其特征在于，根据所述第一新权重矩阵和所述第二新权重矩阵计算得到第三新权重矩阵的步骤，包括：

将所述第一新权重矩阵减去所述第二新权重矩阵，得到第三新权重矩阵。

8.一种神经网络模型的应用方法，其特征在于，所述神经网络模型为基于忆阻器的二值化卷积神经网络；所述方法包括：

基于当前任务获取待处理的目标图像；其中，所述当前任务包括针对目标对象的检测任务、识别任务或跟踪任务；所述目标对象包括以下之一：行人、人体部位、车辆或车牌；

将所述目标图像输入预先训练好的神经网络模型，得到所述神经网络模型输出的所述目标图像对应的结果；其中，所述神经网络模型为应用权利要求1-7任一项所述训练方法训练得到的模型。

9.一种神经网络模型的训练装置，其特征在于，所述神经网络模型为基于忆阻器的二值化卷积神经网络；所述装置包括：

预训练模型，用于对于每个训练周期，利用训练样本对神经网络模型进行预训练，得到所述神经网络模型对应的权重矩阵；其中，所述权重矩阵包括多个网络节点对应的权重值；

改写模型，用于对所述权重矩阵中的每个权重值进行改写操作，得到改写权重矩阵；其中，所述改写权重矩阵中的每个权重值为-1或1；

拆分模型，用于将所述改写权重矩阵拆分成第一权重矩阵和第二权重矩阵；其中，所述第一权重矩阵中的第一权重值与所述改写权重矩阵中的权重值相同，所述第二权重矩阵中的第二权重值与所述改写权重矩阵中的权重值互为相反数；

第一转换模型，用于基于预设的第一转换函数和高斯噪声函数对所述第一权重矩阵进行转换，得到第一新权重矩阵；

第二转换模型，用于基于预设的第二转换函数和高斯噪声函数对所述第二权重矩阵进行转换，得到第二新权重矩阵；

计算模型，用于根据所述第一新权重矩阵和所述第二新权重矩阵计算得到第三新权重矩阵；

训练模型，用于基于所述第三新权重矩阵和所述训练样本对所述神经网络模型继续进行训练，直到本轮训练周期的次数达到预设值或者训练损失值达到预设训练损失阈值为止。

10.一种神经网络模型的应用装置，其特征在于，所述神经网络模型为基于忆阻器的二值化卷积神经网络；所述装置包括：

目标图像获取模型，用于基于当前任务获取待处理的目标图像；其中，所述当前任务包括针对目标对象的检测任务、识别任务或跟踪任务；所述目标对象包括以下之一：行人、人体部位、车辆或车牌；

模型处理模型，用于将所述目标图像输入预先训练好的神经网络模型，得到所述神经网络模型输出的所述目标图像对应的结果；其中，所述神经网络模型为应用权利要求1-7任一项所述训练方法训练得到的模型。