CN117687861A

CN117687861A - 内存计算的仿真器的设定方法

Info

Publication number: CN117687861A
Application number: CN202211048663.1A
Authority: CN
Inventors: 李可瀚; 许之凡; 林裕盛; 陈维超
Original assignee: Inventec Pudong Technology Corp; Inventec Corp
Current assignee: Inventec Pudong Technology Corp; Inventec Corp
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-03-12
Also published as: US20240078170A1

Abstract

本发明提供一种内存计算的仿真器的设定方法，包括：以内存计算装置运行多个测试组合，并记录分别对应于所述测试组合的多个第一评估指标，其中每个测试组合包含多个神经网络模型中的一个及多个数据集中的一个，以处理装置依据所述测试组合运行一仿真器，并记录分别对应于所述测试组合的多个第二评估指针，其中仿真器具有可调整的多个设定，以处理装置依据这些第一评估指标及这些第二评估指标计算一关联度总和，以及以处理装置执行一优化算法以在这些设定构成的设定空间中搜索一最佳配置使关联度总和具有最大值。

Description

内存计算的仿真器的设定方法

技术领域

发明涉及人工智能、机器学习与内存计算，特别是一种用于内存计算的仿真器的设定方法。

背景技术

机器学习(machine learning，ML)技术经常在训练和推理(inference)期间，在处理器和储存装置(如：内存)之间移动和存取数据。因此，使用内存计算(in-memorycomputing，IMC)有机会减少这些移动和存取操作产生的能耗成本和计算延迟，从而加速ML技术的输出效率。

然而，在硬件层面上具有变异性(variability)的内存使得IMC的输出不可避免地具有不确定性，例如电导变化(conductance variation)、记忆保持力(retention)。不确定性会导致不稳定的计算结果，并成为将IMC技术用于ML服务或商业产品上的障碍。

因此，掌握IMC硬件的输入输出行为是利用硬件满足商业需求的起点。在这种情况下，需要一个复杂的IMC硬件仿真器(simulator)来探索IMC硬件的行为。然而，仿真IMC硬件的行为相当困难，因为行为高度取决于所用的材料和实作方式。因此，现有的硬件用户只能等待硬件开发商提供仿真器。另外，不同的开发商提供的仿真器通常具有不同的设定方式。因此，使用者无法轻易地使用甲方提供的仿真器去仿真乙方的IMC硬件。

发明内容

有鉴于此，本发明提出一种内存计算的仿真器的设定方法，让使用者将现有的IMC仿真器调校成任意的IMC硬件，节省厂商开发硬件仿真器的成本或是用户被动等待的时间。

依据本发明一实施例的一种内存计算的仿真器的设定方法，包括：以一内存计算装置运行多个测试组合，并记录分别对应于所述测试组合的多个第一评估指标，其中所述测试组合各包含多个神经网络模型中的一个及多个数据集中的一个；以一处理装置依据所述测试组合运行一仿真器，并记录分别对应于所述测试组合的多个第二评估指针，其中该仿真器具有可调整的多个设定；以该处理装置依据所述第一评估指标及所述第二评估指标计算一关联度总和；以及以该处理装置执行一优化算法以在所述设定构成的设定空间中搜索一最佳配置使该关联度总和具有最大值。

依据本发明一实施例的一种内存计算的仿真器的设定方法，包括以一处理装置执行：依据多个测试组合运行一第一仿真器，并记录分别对应于所述测试组合的多个第一评估指标，其中所述测试组合各包含多个神经网络模型中的一个及多个数据集中的一个；依据所述测试组合运行一第二仿真器，并记录分别对应于所述测试组合的多个第二评估指针，其中该仿真器具有可调整的多个设定；依据所述第一评估指标及所述第二评估指标计算一关联度总和；以及执行一优化算法以在所述设定构成的设定空间中搜索一最佳配置使该关联度总和具有最大值。

综上所述，本发明一实施例的目的是使用现有的仿真器去仿真任意的IMC硬件或是IMC仿真器，以节省开发一个新仿真器的时间。本发明一实施例将硬件与仿真器的匹配问题转换为在设定空间中寻找最佳配置的优化问题。本发明一实施例计算在目标硬件和具有设定的仿真器之间于每个类别的测试精确度的关联度，并透过多个实验结果展示本发明一实施例的有效性。本发明一实施例中，在寻找最佳配置的步骤可以采用任何现有的优化算法，这展示了本发明一实施例在实作上的弹性。

以上之关于本揭露内容之说明及以下之实施方式之说明系用以示范与解释本发明之精神与原理，并且提供本发明之专利申请范围更进一步之解释。

附图说明

图1A是依据本发明一实施例的内存计算的仿真器的设定方法的流程图；

图1B是依据本发明另一实施例的内存计算的仿真器的设定方法的流程图；以及

图2至图11是依据本发明一实施例的内存计算的仿真器的设定方法的实验图。

具体实施方式

以下在实施方式中详细叙述本发明之详细特征以及特点，其内容足以使任何熟习相关技艺者了解本发明之技术内容并据以实施，且根据本说明书所揭露之内容、申请专利范围及图式，任何熟习相关技艺者可轻易地理解本发明相关之构想及特点。以下之实施例系进一步详细说明本发明之观点，但非以任何观点限制本发明之范畴。

本发明的实施例的详细说明中包含多个技术名词，以下为这些技术名词的定义：

内存计算(In-Memory Computing，IMC)：以储存在随机存取内存中的数据进行计算的技术。

随机存取内存(random-access memory，RAM)：一种可用任意顺序读取和更改的计算机内存的形式，它是计算机中的主存储器。

机器学习(Machine Learning,ML)：一个研究领域，使计算机能够在没有明确编写程序的情况下学习。

优化问题(Optimization problem)：从所有可行解中找到最佳解的问题。

损失函数，距离函数(Loss function,distance function)：优化过程的目标函数。

本发明的目的包括：(1)使用现有的任意一种IMC仿真器去仿真任意的IMC硬件，以及(2)使用现有的任意一种IMC仿真器仿真另一种IMC仿真器。对于前者而言，IMC开发商在制造硬件时采用的内部参数通常无法被外界得知，而透过本发明提出的方法，可让第三方仿真器仿真出IMC硬件的行为。对于后者而言，应先理解：不同IMC开发者所产生的IMC仿真器通常具有不全相同的多个设定。因此，无法轻易地将某个IMC仿真器的配置沿用于另一个IMC仿真器。

图1A是依据本发明一实施例的内存计算的仿真器的设定方法的流程图，包括步骤11至步骤40。图1A的实施例用于实现本发明第一个目的：以IMC仿真器仿真IMC硬件。

在步骤11中，内存计算装置运行多个测试组合。所述内存内装置为仿真目标。在一实施例中，内存计算装置是实际硬件，例如为芯片的形式。所述硬件可采用ISAAC架构(AliShafiee et.al,ISAAC:A Convolutional Neural Network Accelerator with In-SituAnalog Arithmetic in Crossbars)或是PRIME架构(Ping Chi,et.al,PRIME:A NovelProcessing-in-memory Architecture for Neural Network Computation in ReRAM-based Main Memory)。请注意：上述硬件架构只是范例，本发明不限制内存内装置的硬件架构。

所述多个测试组合由多个神经网络模型及多个数据集构成。在一实施例中，所述多个神经网络模型可采用不同层数的视觉几何组(visual geometry group,VGG)，例如VGG8、VGG13。本发明不限制神经网络模型的种类及其超参数。在一实施例中，所述多个数据集可采用CIFAR-10(Canadian Institute For Advanced Research)以及EMNIST字母(Extension of National Institute of Standards and Technology,EMNIST Letters)。每个数据集中具有多个类别，如CIFAR-10数据集包括10种不同类别的彩色图像，EMNIST字母包括26个类别。本发明不限制数据集的种类以及类别的数量。

测试组合的数量是神经网络模型的数量和数据集的数量的乘积。例如：神经网络模型包括M1、M2及M3；数据集包括D1、D2。在步骤11的一实施例中，内存计算装置依据D1执行M1，然后依据D2执行M1，然后依据D1执行M2，然后依据D2执行M2，然后依据D1执行M3，最后依据D2执行M3。内存计算装置总共执行(3×2)个测试组合，本发明不限制所述测试组合的执行顺序。

在步骤11中，可将内存计算装置电性连接至处理装置，以透过处理装置控制内存计算装置的输入并接收其输出。所述处理装置例如是可执行IMC仿真器的通用(generalpurpose)计算机或任何电子装置。

在步骤12中，处理装置依据测试组合运行仿真器。仿真器具有可调整的多个设定。在一实施例中，仿真器是下列开源(open-source)的IMC仿真器的其中一个：NeuroSim、MemTorch以及国际商业机器公司(International Business Machines Corporation，IBM)推出的仿真硬件加速套件(Analog Hardware Acceleration Kit,aihwkit)。然而，可应用于本发明的仿真器并不仅限于上述范例，任何现有的仿真器或未来释出的IMC仿真器皆适用于本发明一实施例提出的方法。值得注意的是，不同仿真器的设定通常不相同，例如NeuroSim包含保留时间(retention time)、飘移系数(drift coefficient)、权重精确度(weight precision)、电导变化(conductance variation)等设定；MemTorch包含交叉开关分块形状(crossbar tile shape)、权重精确度等设定；aihwkit包含推论时间(time ofinference)、重新映射权重(remap weight)等设定。不同的仿真器的参数即使名称相同，对于装置输出结果的影响也有可能不同。另外，设定的数量可以是一个或多个，以下皆采用多个设定为例说明。

在步骤21中，由电性连接至内存计算装置的处理装置记录分别对应于所述测试组合的多个第一评估指标。在步骤22中，处理装置记录分别对应于所述测试组合的多个第二评估指标。第一评估指标及第二评估指标是用来反映测试组合中的神经网络模型的效能。在一实施例中，第一评估指标及第二评估指标为准确度(accuracy)、精确度(precision)、召回率(recall)及F1分数(F1-score)中的一个。然而，评估指针并不仅限于上述范例，但凡用于评估神经网络模型效能的参数，皆应被视为本发明所述的第一评估指标和第二评估指标的一种实施例。

在步骤30中，处理装置依据多个第一评估指标及多个第二评估指标计算关联度总和。在一实施例中，关联度总和系多个关联度的加总，且这些关联度的每一个为皮尔森相关系数(Pearson correlation coefficient)、L1损失函数、L2损失函数、余弦相似度(cosinesimilarity)及欧几里得距离(Euclidean distance)中的一个。然而，关联度的计算方式并不仅限于上述范例，但凡用于计算第一评估指标和第二评估指针之间相似程度的函数，皆应被视为本发明所述的关联度的一种实施例。

在步骤30的一实施例，处理装置计算一目标函数(objective function)的输出作为所述关联度总和。本发明基于以下假设提出此目标函数：在两个IMC装置(仿真器)上运行的神经网络具有相似的输出，等价于(若且唯若)这两个IMC装置(仿真器)是相似的。进一步而言，本发明期望每个类别的准确度应该是相似的，如下方式一所示：

其中F(·)代表目标函数，F(H，S_θ)代表关联度总和，H代表内存计算装置，S代表仿真器，θ代表多个设定构成的设定空间中的一候选者，S_θ代表以该候选者设定的仿真器，|D|代表数据集的数量，|M|代表神经网络模型的数量，代表关联度，/>代表多个第一评估指标的一个，/>代表多个第二评估指标中的一个。

关于设定空间及候选者，举例说明如下：多个设定包括P及Q，其中P有p种设定值、Q有q种设定值。因此，P及Q构成的设定空间将包括(p×q)个元素，每个元素对应到P的一种设定值和Q的一种设定值，而所述候选者是这(p×q)个元素中的一个。

在一实施例中，数据集的数量|D|至少为1，神经网络模型的数量|M|至少为1。

在一实施例中，是皮尔森相关系数。此系数是依据内存计算装置H在每个类别的评估指针的平均/>以及仿真器S_θ在每个类别的评估指针的平均/>计算得到。此处采用的评估指标为准确度，而准确度可以从混淆矩阵(confusion matrix)的对角线计算得到。皮尔森相关系数/>的计算方式如下方式三所示，其中为了简洁而省略用于指示数据集d和模型m的上标代号。

其中|C|代表每个数据集的多个类别的数量，代表内存计算装置H在|C|个类别中的第c个类别的评估指标，/>代表以候选者θ设定的仿真器S_θ在|C|个类别中的第c个类别的评估指标，/>代表内存计算装置H在|C|个类别对应的多个评估指针的平均，/>代表以候选者θ设定的仿真器S_θ在|C|个类别对应的多个评估指针的平均。

在一实施例中，硬件H或仿真器S_θ在多个评估指标a^c的平均的计算方式，如下式四所示：

在步骤40中，处理装置执行优化算法(optimization algorithm)在多个设定构成的设定空间中搜索最佳配置使该关联度总和具有最大值。在一实施例中，所述优化算法是仿真退火法(Simulated annealing)及基因算法中的一个。然而，优化算法并不仅限于上述范例，但凡任何在高维向量空间中计算一最佳向量的算法，皆应被视为本发明所述的优化算法的一种实施例。

图1B是依据本发明一实施例的内存计算的仿真器的设定方法的流程图，包括步骤11’至步骤40。图1B的实施例用于实现本发明第二个目的：以IMC仿真器仿真IMC仿真器。图1B与图1A仅有两个步骤不同，因此以下仅说明具有差异的这两个步骤。

在步骤11’中，处理装置依据多个测试组合运行第一仿真器。第一仿真器是仿真目标，等同于图1A实施例中的内存计算装置。第一仿真器可采用NeuroSIM、aihwkit与MemTorch中的任一个，并且具有未知且固定的一组设定。因此，步骤11与步骤11’二者基本上运作相同，差别在于执行主体从内存计算装置更改为仿真器。

在步骤12’中，处理装置依据多个测试组合运行第二仿真器。第二仿真器等同于图1B实施例中所述的仿真器。第二仿真器可采用NeuroSIM、aihwkit与MemTorch中的任一个，并且具有可调整的多个设定。

整体来说，本发明一实施例提出的内存计算的仿真器的设定方法可将仿真器与硬件的匹配问题转换为优化问题，如下方式五所示：

θ^*＝argmax_θ F(H，S_θ)， (式五)

其中θ^*代表优化算法搜索到的最佳配置，F代表目标函数，其用于测量内存计算装置H及以候选者θ设定的仿真器S_θ之间于输入输出行为的相关性。在前文已详细说明目标函数F的一实施例。在其他实施例中，F(H，S_θ)也可以采用任何用来反映内存计算装置H及以候选者θ设定的仿真器S_θ之间的输出差异的距离函数或损失函数，例如L1损失函数、L2损失函数、余弦相似度及欧几里得距离中的一个。

为了验证本发明提出的内存计算的仿真器的设定方法，采用三个开源的IMC仿真器：NeuroSIM、aihwkit与MemTorch、两个常见的影像分类数据集CIFAR-10与EMNIST字母、两个神经网络模型VGG8与VGG13综合进行了三个不同的实验，藉此展现本发明的有效性，即：本发明可以真正获得最佳配置，让IMC仿真器得以仿真未知的IMC硬件或甚至是另一个具有未知设定的IMC仿真器。另外，所述实验采用单一参数(对于输出影响最大的参数)的设定，以便于可视化的呈现本发明提出的目标函数的趋势(landscape)。

实验一：相同仿真器内(intra-simulator)的实验。

在实验一中，将具有默认设定的仿真器作为内存计算装置(以下简称为硬件)，然后应用本发明一实施例提出的方法改变另一个仿真器(与内存计算装置采用同一种仿真器)的设定。图2是在NeuroSim上的实验结果，其中横轴代表电导变化。图3是在aihwkit上的实验结果，其中横轴代表推论时间。图2及图3中的纵轴皆代表相关系数，数值愈高代表硬件与仿真器的匹配程度愈高。在图2及图3中可观察VGG8、VGG13以及两者平均的趋势(landscape)，图2及图3中的▲符号代表应用本发明的方法找到的最佳配置θ^*。在图2的实验中，应用本发明的方法找到的最佳配置θ^*＝0.15。在图3的实验中，应用本发明的方法找到的最佳配置θ^*＝150。图2及图3中的虚线代表左右两图(不同数据集之实验)的两条实线(平均值线)取平均后得到的数据集实验平均线的最大值。

由图2及图3可观察到：最佳配置θ^*对应的相关系数完全相等于最大值，这展示了本发明的有效性。此外还可观察到：趋势是平滑(smooth)的，整体没有剧烈的震荡或连续起伏的状况。这意味着▲符号代表的最大值具有较高机会成为特定数据集的全局最大值而非局部最大值。

实验二：不同仿真器之间(inter-simulator)的实验。

在实验二中，使用三个不同的仿真器NeuroSim、MemTorch以及aihwkit进一步测试本发明提出的方法。一个仿真器代表具有未知设定的硬件H，另一个仿真器代表具有设定θ的仿真器S_θ。对于NeuroSim、MemTorch以及aihwkit仿真器，本发明分别选择电导变化、推理时间以及飘移系数作为设定。图4及图5是硬件采用NeuroSim，仿真器采用MemTorch的实验图。图6及图7分别为用NeuroSim和MemTorch模拟aihwkit的实验图。

须注意的是，即使三个仿真器彼此的设定不相同，使得实验二没有基准真相(ground truth)可供参照。然而，本发明提出的方法仍然可以从图4至图7呈现的趋势中搜索到最佳配置θ^*。

实验三：硬件与仿真器之间的实验。

在实验三中，使用aihwkit的四种默认配置：aihwkit-GoKm(GokmenVlasovPreset)、aihwkit-Tiki (TikiTakaEcRamPreset)、aihwkit-Mixand(MixedPrecisionEcRamPreset)以及aihwkit-Ideal (Idealized4Preset)作为硬件，这四种配置是IBM依据其生产的真实硬件装置提供的仿真器设定。另外，选择NeuroSim作为仿真器。图8至图11分别展示了硬件为aihwkit-GoKm、aihwkit-Tiki、aihwkit-Mix及aihwkit-Ideal，且仿真器采用NeuroSim的实验结果。整体而言，本发明提出的目标函数在硬件的输入输出行为建构了平滑的趋势，这代表本发明提出的方法在解决IMC硬件-仿真器匹配问题上相当具有潜力。

综上所述，本发明的目的是使用现有的仿真器去仿真任意的IMC硬件或IMC仿真器，以避免从头建立一个新仿真器所耗费的开发成本，例如时间。藉由假设存在与硬件行为匹配的指定仿真器的最佳配置设定，本发明将硬件仿真器的匹配问题转换为在设定空间中寻找最佳配置的优化问题。本发明设计了一个目标函数，该函数计算在目标硬件和具有设定的仿真器之间于每个类别的测试精确度的皮尔森相关系数。实验结果展示本发明提出的目标函数所建构的设定空间的趋势，这显示本发明提出的方法可以被现有的优化算法解决的潜力。

虽然本发明以前述之实施例揭露如上，然其并非用以限定本发明。在不脱离本发明之精神和范围内，所为之更动与润饰，均属本发明之专利保护范围。关于本发明所界定之保护范围请参考所附之申请专利范围。

Claims

1.一种内存计算的仿真器的设定方法，包括：

以一内存计算装置运行多个测试组合，并记录分别对应于所述测试组合的多个第一评估指标，其中所述测试组合各包含多个神经网络模型中的一个及多个数据集中的一个；

以一处理装置依据所述测试组合运行一仿真器，并记录分别对应于所述测试组合的多个第二评估指针，其中该仿真器具有可调整的多个设定；

以该处理装置依据所述第一评估指标及所述第二评估指标计算一关联度总和；以及

以该处理装置执行一优化算法以在所述设定构成的设定空间中搜索一最佳配置使该关联度总和具有最大值。

2.根据权利要求1所述的内存计算的仿真器的设定方法，其中依据所述第一评估指标及所述第二评估指标计算该关联度总和系依据下式：

其中F(H，S_θ)代表该关联度总和，H代表该内存计算装置，S代表该仿真器，θ代表所述设定构成的设定空间中的一候选者，S_θ代表以该候选者设定的该仿真器，|D|代表所述数据集的数量，|M|代表所述神经网络模型的数量，代表/>及/>所述第一评估指标及所述第二评估指标的一关联度，/>代表所述第一评估指标中的一个，/>代表所述第二评估指标中的一个。

3.根据权利要求2所述的内存计算的仿真器的设定方法，其中该关联度系依据下式计算：

其中|C|代表所述数据集的每一个的多个类别的数量，代表该该内存计算装置在所述类别中的第c个类别的评估指标，/>代表以该候选者设定的该仿真器在所述类别中的第c个类别的评估指标，/>代表该该内存计算装置在所述类别中的评估指针的平均以及/>代表以该候选者设定的该仿真器在所述类别中的评估指针的平均。

4.根据权利要求1所述的内存计算的仿真器的设定方法，其中该关联度总和系多个关联度的加总，且所述关联度的每一个为皮尔森相关系数、L1损失函数、L2损失函数、余弦相似度及欧几里得距离中的一个。

5.根据权利要求1所述的内存计算的仿真器的设定方法，其中该优化算法为仿真退火法及基因算法中的一个。

6.根据权利要求1所述的内存计算的仿真器的设定方法，其中所述第一评估指标及所述第二评估指标各为准确度、精确度、召回率及F1分数中的一个。

7.根据权利要求1所述的内存计算的仿真器的设定方法，其中所述神经网络模型为VGG8及VGG13。

8.根据权利要求1所述的内存计算的仿真器的设定方法，其中所述数据集为CIFAR-10以及EMNIST。

9.根据权利要求1所述的内存计算的仿真器的设定方法，其中该仿真器为NeuroSIM、aihwkit以及MemTorch中的一个。

10.一种内存计算的仿真器的设定方法，包括以一处理装置执行：

依据多个测试组合运行一第一仿真器，并记录分别对应于所述测试组合的多个第一评估指标，其中所述测试组合各包含多个神经网络模型中的一个及多个数据集中的一个；

依据所述测试组合运行一第二仿真器，并记录分别对应于所述测试组合的多个第二评估指针，其中该仿真器具有可调整的多个设定；

依据所述第一评估指标及所述第二评估指标计算一关联度总和；以及

执行一优化算法以在所述设定构成的设定空间中搜索一最佳配置使该关联度总和具有最大值。