CN113537453A

CN113537453A - 存储器内运算方法及装置

Info

Publication number: CN113537453A
Application number: CN202110369585.4A
Authority: CN
Inventors: 王韦程; 何建忠; 张原豪; 郭大维
Original assignee: Macronix International Co Ltd
Current assignee: Macronix International Co Ltd
Priority date: 2020-04-15
Filing date: 2021-04-06
Publication date: 2021-10-22
Also published as: US12050888B2; TW202141305A; US20210326114A1; TWI792247B

Abstract

本发明公开了一种存储器内运算方法及装置，适于由处理器对存储器执行MAC运算。在所述方法中，通过截断权重的二进制数据的至少一部分分数位及计算剩余位的补码，将二进制数据的格式自浮点格式变换成量化格式，且将经过变换的二进制数据编程至存储器的单元中。通过将输入信号的二进制数据迭代地输入至存储器中、对存储器的输出进行整合以及基于整合的输出来调整编程至单元的权重来执行调整程序。基于减少每一权重的二进制数据中值为一的位的几率来重塑权重的二进制数据。重复调整程序，直至满足结束条件为止。

Description

存储器内运算方法及装置

技术领域

本发明是关于计算方法及计算装置，且更特定而言，是关于一种存储器内运算方法及装置。

背景技术

相较于传统机器学习方法，循环神经网络(Recurrent neural network；简称RNN)已展示其在诸如图像识别及语音增强的若干领域上达成较大准确度的能力。然而，在当前范纽曼(Von-Neumann)架构上进行RNN 时已出现若干挑战。举例而言，在全连接状神经网络中，在进行RNN时处理单元与芯片外存储器单元之间的过度数据移动，将引发效能限制及高功率消耗。

为桥接计算单元与存储器单元之间的隔阂，存储器内计算的概念被广泛地提出，且具有电阻性随机存取存储器(Resistive Random-Access Memory；ReRAM)的忆阻器为最密集研究的解决方案之一。ReRAM(新兴的非易失性存储器(non-volatile memory；简称NVM)之一)通过改变单元的电阻来存储数据，且经过证明拥有计算及存储的两种能力。具体而言，忆阻器通过设定不同输入电压及电阻值以分别表示输入值及权重值，而对模拟态样进行数字RNN运算，亦即乘加(Multiply-and-Accumulate；简称MAC)运算。

举例而言，图1绘示通过使用忆阻器进行MAC运算的计算的实例，此实例旨在计算∑(V_n×G_n)的结果。在此实例中，每一字线通过位在3D 空间中交叉点处的ReRAM单元连接至每一位线。通过克希荷夫电流定律 (Kirchhoffs current law；简称KCL)，在给定对应字线的电压V1及V2的情况下，每一ReRAM单元的通过电导G1、G2、G3、G4感应的出现的电流I1、I2、I3、I4瞬时地与对应位在线的电流I5及I6相加。通过感测每一位在线的电流同时撷取MAC运算的结果，其中I5的值等于V1×G1+ V2×G2且I6的值等于V1×G3+V2×G4。

然而，归因于忆阻器中总电流的重叠分布，RNN的准确度显著降低。

举例而言，图2绘示忆阻器中的所有单元的输出电流的分布。当将预定义电压施加至输入线时，所有单元的输出电流的可能分布所绘示的x轴指示电流且y轴指示频率的图2中。当更多单元用于MAC运算时，分布变得更宽。如图2中所绘示，当16个单元用于MAC运算时，如图2中所绘示的分布，将呈现输入值的17个可能组合，其中绘示于图2左侧的分布22可代表零值，此分布在总电流变得更大时会变得更宽。因此，重叠变化误差的几率变得更高。

发明内容

鉴于上述内容，本发明提供一种能够减少重叠变化误差且增大计算的准确度的存储器内运算方法及存储器内运算装置。

本发明提供一种存储器内运算方法，适于处理器对具有交叉开关架构的存储器进行乘加(MAC)运算。所述存储器包括彼此交叉的多个输入线及多个输出线，多个单元分别配置于输入线及输出线的相交点处，且多个感测放大器分别连接至输出线。在所述方法中，通过截断多个权重的二进制数据的分数位的至少一部分及计算二进制数据的剩余位的补码，将二进制数据的格式自浮点格式变换成量化格式，且将多个权重的经过变换的二进制数据编程至多个单元中。接着执行调整程序，其中包括将多个输入信号的二进制数据迭代地输入至多个输入线中，对由感测放大器感测到的输出进行整合，以及基于整合的输出来调整编程至单元中的多个权重的二进制数据，持续多个迭代。在多个迭代之后，基于减少每一权重的二进制数据中值为一的位的几率来重塑(reshaping)多个权重的二进制数据，且重复调整程序直至满足结束条件为止。

在本发明的一实施例中，计算二进制数据的剩余位的补码的步骤包括计算剩余位的2的补码且反转所计算出的2的补码的值。

在本发明的一实施例中，基于所整合的输出来调整编程至单元中的多个权重的二进制数据的步骤包括计算所整合的输出与输入信号的参考信号之间的差，且根据所述差来调整待编程至单元中的多个权重的经过变换的二进制数据。

在本发明的一实施例中，基于减少每一权重的二进制数据中值为一的位的几率来重塑多个权重的二进制数据的步骤包括根据所整合的输出与输入信号的参考信号之间的差来计算准确度，并响应于所计算出的准确度大于第一阈值而提前重塑。

在本发明的一实施例中，基于减少每一权重的二进制数据中值为一的位的几率来重塑多个权重的二进制数据的步骤包括计算多个权重的二进制数据中值为一的位与值为零的位的比，并响应于所计算出的比大于第二阈值而提前重塑。

在本发明的一实施例中，基于减少每一权重的二进制数据中的值为一的位的几率来重塑多个权重的二进制数据的步骤包括通过将每一权重的十进制值移位任意数以最大化权重的二进制数据中值为一的位的减少与所移位的数的商，且将此商除以基于多个权重的数据分布所判定的因子，以计算器率，以及回应于所述商大于或等于阈值而根据所计算出的几率将每一权重的十进制值移位。

本发明提供一种存储器内运算装置，其包括存储器及处理器。所述存储器具有交叉开关架构，其中包括彼此交叉的多个输入线及多个输出线、分别配置于输入线及输出线的相交点处的多个单元，以及分别连接至输出线的多个感测放大器。所述处理器耦接至存储器且经配置以通过截断多个权重的二进制数据的分数位的至少一部分及计算二进制数据的剩余位的补码，将二进制数据的格式自浮点格式变换成量化格式，且将多个权重的经过变换的二进制数据编程至多个单元中，并执行调整程序，其中包括将多个输入信号的二进制数据迭代地输入至多个输入线中，对由感测放大器感测到的输出进行整合，以及基于整合的输出来调整编程至所述单元中的多个权重的二进制数据，持续多个迭代，以及在多个迭代之后，基于减少每一权重的二进制数据中值为一的位的几率来重塑多个权重的二进制数据，且重复调整程序直至满足结束条件为止。

在本发明的一实施例中，处理器计算剩余位的2的补码且反转所计算出的2的补码的值。

在本发明的一实施例中，处理器计算整合的输出与输入信号的参考信号之间的差，且根据所述差来调整待编程至单元中的多个权重的经过变换的二进制数据。

在本发明的一实施例中，处理器根据所述整合的输出与输入信号的参考信号之间的差来计算准确度，且响应于所计算出的准确度大于第一阈值而提前重塑。

在本发明的一实施例中，处理器计算多个权重的二进制数据中值为一的位与值为零的位的比，且响应于所计算出的比大于第二阈值而提前重塑。

在本发明的一实施例中，处理器通过将每一权重的十进制值移位任意数以最大化权重的二进制数据中值为一的位的减少与所移位的数的商，且将所述商除以基于多个权重的数据分布所判定的因子，且响应于所述商大于或等于阈值而根据所计算出的几率将每一权重的十进制值移位，以计算器率。

在本发明的一实施例中，所述调整程序包括神经网络的训练，其中将多个输入信号的二进制数据设定为神经网络的输入，将多个权重设定为神经网络中的多个计算层中的权重，且将整合的输出设定为神经网络的输出。

在本发明的一实施例中，每一权重的具有浮点格式的二进制数据在32 位二进制数据中包括一个符号位、八个指数位以及二十三个分数位。

为使本发明的前述特征及优势更可理解，下文详细描述随附附图的实施例。

附图说明

图1绘示通过使用忆阻器进行MAC运算的计算的实例。

图2绘示忆阻器中的所有单元的输出电流的分布。

图3为根据本发明的实施例的存储器内运算装置的示意图。

图4为根据本发明的实施例的存储器内运算方法的流程图。

图5为根据本发明的实施例的二进制数据的浮点格式。

图6A及图6B为分别绘示根据本发明的实施例的在量化9位二进制数据中及在反转的量化9位二进制数据中的位「0」与位「1」的比的示意图。

图7为示出根据本发明的实施例的神经网络的训练的示意图。

图8为示出根据本发明的实施例的数据重塑的示意图。

图9为根据本发明的实施例的存储器内运算方法的流程图。

【符号说明】

20：图

22：分布

30：计算装置

32：存储器

34：处理器

50：浮点格式

52：符号位

54：指数位

56：分数位

70：神经网络

72：语音信号

74：增强语音信号

76：干净语音信号

G1、G2、G3、G4：电导

I1、I2、I3、I4、I5、I6、I_j：电流

IL_i：输入线

OL_j：输出线

R_ij：电阻

S402、S404、S406、S902、S904、S906、S908、S910、S912、S914、 S916：步骤

SA：感测放大器

V1、V2：电压

X：阈值

具体实施方式

归因于电阻编程的变化，忆阻器在其在每一MAC运算中将输出电流转换成数字输出时，会受到重叠变化误差的影响。如图2中所绘示，当输出电流变得更大时，输出电流的分布变得更宽，且因此重叠变化误差的几率变得更高。因此，较佳的作法是减少输出电流以便使得分布彼此更可区别。减少输出电流的一种方式为增加待编程至忆阻器的单元中的位「0」的数目(或减少位「1」的数目)。

基于上述内容，在本发明的实施例中，提出自适应性计算方法以将待编程至忆阻器的权重的二进制数据的格式自浮点格式变换成量化格式，且在执行多个迭代的权重调整程序之后进一步重塑权重的二进制数据，以减少每一权重的二进制数据中的位「1」的数目且显著减少重叠变化误差。

图3为根据本发明的实施例的存储器内运算装置的示意图。参考图3，实施例的存储器内运算装置30为例如忆阻器，所述忆阻器经配置以实现存储器内处理(process-in-memory；简称PIM)以便减少由忆阻器的单元输出的总电流。计算装置30包括存储器32及处理器34。

存储器32为例如与非门(NAND)闪存、或非门(NOR)闪存、相变存储器(phasechange memory；简称PCM)、自旋转移矩随机存取存储器(spin-transfer torque random-access memory；简称STT-RAM)，或2D 或3D结构的电阻式随机存取存储器(ReRAM)，此在本发明中不受限制。在一些实施例中，可整合各种易失性存储器(诸如静态随机存取存储器(random access memory；简称RAM)、动态RAM)及各种非易失性存储器(诸如ReRAM、PCM、快闪、磁阻性RAM、铁电RAM)以进行存储器内运算，此在本发明中不受限制。

存储器32包括彼此交叉的多个输入线IL_i及多个输出线OL_j、分别配置于输入线IL_i与输出线OL_j的相交点处的多个单元(由电阻R_ij表示)，以及分别连接至输出线OL_j以用于感测自输出线OL_j输出的电流I_j的多个感测放大器SA。在一些实施例中，输入线IL_i为字线而输出线OL_j为位线，且在一些实施例中，输入线IL_i为位线而输出线OL_j为字线，此在本发明中不受限制。

处理器34为例如中央处理单元(central processing unit；简称CPU) 或其他可编程的通用或专用微处理器、微控制器(microcontroller；简称 MCU)、可编程控制器、特殊应用集成电路(application specific integrated circuit；简称ASIC)、可编程逻辑设备(programmable logic device；简称 PLD)或其他类似装置或此等装置的组合，本实施例不对其限制。在本实施例中，处理器34经配置以执行用于进行存储器内运算的指令，如下文所描述。存储器内运算可实施至各种人工智能(artificial intelligent；简称 AI)应用，诸如全连接层、卷积层(convolution layer)、多层感知、支持向量机或使用忆阻器实施的其他应用，此在本发明中不受限制。

图4为根据本发明的实施例的存储器内运算方法的流程图。参看图3 及图4，本实施例的方法适合于上述计算装置30，且将在下文参考计算装置30的各种装置及元件描述本实施例的存储器内运算方法的详细步骤。

首先，在步骤S402中，处理器34通过截断多个权重的二进制数据的分数位的至少一部分及计算所述二进制数据的剩余位的补码，将所述二进制数据的格式自浮点格式变换成量化格式，且将多个权重的经过变换的二进制数据编程至多个单元中。在一些实施例中，每一权重的具有浮点格式的二进制数据在32位二进制数据中包括一个符号位、八个指数位以及二十三个分数位，且处理器34可截断所有二十三个分数位或是仅截断这些分数位的一部分，以便减少位「1」的数目。

在一些实施例中，处理器34可在截断之后计算剩余位的2的补码，并反转所计算的2的补码的值，以便减少位「1」的数目且最大化位「0」的数目，且因此减少重叠变化误差。

举例而言，图5为根据本发明的实施例的二进制数据的浮点格式。参考图5，32位二进制数据X的浮点格式50为通过IEEE组织标准化的格式，且包含一个符号位52、八个指数位54以及二十三个分数位56。详言之，32位二进制数据的正负号由单一位表示，其中位「0」指示负数，且位「1」指示正数。32位二进制数据的指数存储为具有127的偏置的8位无正负号整数。32位二进制数据的浮点数(mantissa)存储为23位无正负号整数。以1.101×2⁵的数目作为实例，正负号为正，浮点数为「1.101」，且指数为「5」。

在一些实施例中，在全精度训练中，位「0」的比接近位「1」的比。当将二进制数据量化至9位(亦即截断所有分数位)时，位「0」的比减小，而位「1」的比升高，但训练误差未显著受量化影响。由于当量化二进制数据时会增加位「1」的比，故提出用于翻转位「1」的值的方法，以减少位「1」的数目且最大化位「0」的数目，以便减少重叠变化误差且增加训练的准确度。

在一些实施例中，进行称为「反转2的补码」的方法，其中计算出浮点格式的二进制数据中的8位指数的2的补码且反转所计算出的2的补码的值。举例而言，对于十进制值「-1」，「-1」的指数的2的补码为「01111110」，且反转后的2的补码为「00000001」，其包含更少的位「1」。

图6A及图6B为分别绘示根据本发明的实施例的在量化9位二进制数据中及在反转的量化9位二进制数据中的位「0」与位「1」的比的示意图。图6A绘示量化9位二进制数据中的每一位的位「0」与位「1」的比，其中，在量化9位二进制数据的大部分位中，位「1」的比大于位「0」的比，尤其在位2至位5中。参考图6B，由于图6A中的量化9位二进制数据的位反转，故位「0」的比变为大于位「1」的比，尤其在位2至位5中。关于位6至位8，本发明实施例提出数据重塑的方法，以进一步减小位「1」的比，其将稍后示出。

返回图4的流程，在步骤S404中，处理器34通过以下操作来进行调整程序：将多个输入信号的二进制数据迭代地输入至多个输入线IL_i中；对由感测放大器SA感测到的输出(亦即电流I_j)进行整合；以及基于整合的输出来调整编程至单元中的多个权重的二进制数据，持续多个迭代。

在一些实施例中，调整程序包括神经网络的训练，其中将多个输入信号的二进制数据设定为神经网络的输入，将多个权重设定为神经网络中的多个计算层中的权重，且将整合的输出设定为神经网络的输出。

举例而言，图7为示出根据本发明的实施例的神经网络的训练的示意图。参考图7，本实施例创建全连接的神经网络80，诸如循环神经网络 (RNN)、深度神经网络(deepneural network；简称DNN)或全卷积网络 (fully convolutional network；简称FCN)，其中包括在输入层与输出层之间设置多个中间层，并为这些层设置多个权重。根据上文所示出的计算方法，将神经网络80中的权重的格式变换成量化格式且接着编程至存储器的单元。将充当输入信号的多个噪声语音信号82输入至存储器的输入线以在神经网络中进行正向传播。经神经网络80处理的语音信号82将作为增强语音信号84输出，且与充当语音信号82的参考信号的干净语音信号 86相比较以计算损失函数(loss function)，诸如均方误差(mean square error，简称MSE)。接着，在神经网络80中进行反向传播以调整神经网络80的计算层中的权重。将调整后的权重编程至存储器的单元以用于下一迭代的训练。在一些实施例中，训练将持续许多迭代，以便使由神经网络80 输出的增强语音信号84接近于干净语音信号86，而经过训练的神经网络 80可在实际实施时用于对输入至神经网络80的任何语音信号进行噪声过滤。

返回至图4的流程，在步骤S406中，处理器34在多个迭代之后将基于减少每一权重的二进制数据中值为一的位的几率，来重塑多个权重的二进制数据，且重复调整程序直至满足结束条件为止。

在一些实施例中，处理器34通过将每一权重的十进制值移位任意数以最大化权重的二进制数据中值为一的位的减少与移位的数的商，且将所述商除以基于多个权重的数据分布来判定的因子，以计算器率，且回应于权重的所计算出的几率大于阈值而将权重的十进制值移位。

举例而言，图8为示出根据本发明的实施例的数据重塑的示意图。参考图8，假定十进制值120为在调整程序的迭代之后获得的权重的指数值，则可将所述指数值移位任意数(例如，小于阈值X的整数)以获得诸如 117或123的移位值。因此，分别计算出在移位指数值的二进制数据中的位「1」的减少数r及在十进制中的指数值的移位数x，且如下计算权重的二进制数据中的位「1」的减少数r与移位数x的商y。

y＝r/x. (1)

举例而言，对于等于3的阈值X，可将指数值120(二进制中的「00000110」)移位至122(二进制中的「00000100」)。其中位「1」的减少数r等于1而指数值的移位数x等于2，因此，商y等于「1/2」。

为了尽可能地减少位「1」，应最大化商y，且将其与阈值比较以便判定是否触发数据重塑。在一些实施例中，如下基于通过将所计算出的商y 除以基于多个权重的数据分布来判定的因子α而计算出的可能性P来进行数据重塑。

P＝y×100％/α (2)

对于以上将指数值120(二进制中的「00000110」)移位至122(二进制中的「00000100」)的实例，商y等于1/2，且可能性P＝0.5×100％/5 ＝10％，其表示进行数据重塑的可能性为10％且不进行数据重塑的可能性为90％。当基于可能性进行数据重塑时，可很好地实现神经网络的效能与准确度的权衡。

图9为根据本发明的实施例的存储器内运算方法的流程图。参考图3 及图9，本实施例的方法适合于上述计算装置30，且将在下文参考计算装置30的各种装置及元件描述本实施例的存储器内运算方法的详细步骤。

在步骤S1002中，处理器34创建具有多个层的神经网络且将具有如上述实施例中所示出的量化格式的权重设定至这些层。

在步骤S1004中，处理器34通过将语音信号变换成数字数据且将经过变换的数字数据输入至存储器32的输入线ILi而将噪声或干净语音信号输入至神经网络。

在步骤S1006中，处理器34通过进行神经网络的正向传播来增强语音信号。将输入至存储器32的输入线ILi的经过变换的数字数据乘以编程至存储器32的单元(由电阻R_ij表示)的权重，且输出由存储器32的感测放大器SA感测到的总电流且将其变换成增强语音信号。

在步骤S1008中，处理器34通过进行神经网络的反向传播来微调神经网络。在一些实施例中，处理器34基于增强语音信号与参考干净语音信号之间的比较来调整编程至存储器32的单元中的权重。

在步骤S1010中，处理器34判定通过使用上文所示出的方程式(1) 计算出的商y是否大于或等于阈值。

响应于商y大于或等于阈值，在步骤S1012中，处理器34使用通过上文所示出的方程式(2)所计算出的可能性，来重塑编程至存储器32的单元中的权重。

回应于商y未大于或等于阈值或权重的重塑完成，在步骤S1014中，处理器34将判定微调是否完成。响应于判定微调尚未完成，处理器返回至步骤S1004，而持续输入语音信号以训练神经网络。另一方面，响应于判定微调完成，处理器继续进行步骤S1016以结束训练。

在一些实施例中，处理器34可根据当前进行的迭代次数来判定微调是否完成，且在迭代次数达到预定数目时判定微调完成。在一些实施例中，处理器34可根据基于输出的增强语音信号与参考干净语音信号之间的差所计算出的准确度，来判定微调是否完成，且在所计算出的准确度达到预定阈值时，判定微调完成。

在一些实施例中，处理器34可响应于满足一些条件而提前重塑。在一些实施例中，处理器34可根据整合的输出与输入信号的参考信号之间的差来计算准确度，且响应于所计算出的准确度大于第一阈值而提前重塑。在一些实施例中，处理器34可计算多个权重的二进制数据中的位「1」与位「0」的比，且回应于所计算出的比大于第二阈值而提前重塑。

经由上文所描述的方法，可在对模型准确度的影响有限的情况下减小重叠变化误差的几率。

综上所述，根据本发明的实施例，提出一种存储器内运算方法以权衡神经网络或实施忆阻器的其他应用的效能、准确度以及数据形式。因此，可缩减神经网络的模型大小或应用程序的计算，以使神经网络或这些应用更可实作在边缘装置或其他资源有限的硬件上。

至此，已经结合附图对本公开实施例进行了详细描述。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种存储器内运算方法，适于处理器对具有交叉开关架构的存储器进行乘加运算，其中，所述存储器包括彼此交叉的多个输入线及多个输出线，多个单元分别配置于所述输入线及所述输出线的相交点处，且多个感测放大器分别连接至所述输出线，所述方法包括：

通过截断多个权重的二进制数据的分数位的至少一部分及计算所述二进制数据的剩余位的补码，将所述二进制数据的格式自浮点格式变换成量化格式，且将所述多个权重的经过变换的二进制数据编程至所述多个单元中；

执行调整程序，其中包括将多个输入信号的二进制数据迭代地输入至所述多个输入线中，对由所述感测放大器感测到的输出进行整合，以及基于整合的输出来调整编程至所述单元中的所述多个权重的所述二进制数据，持续多个迭代；以及

在所述多个迭代之后，基于减少每一所述权重的所述二进制数据中值为一的位的几率来重塑所述多个权重的所述二进制数据，且重复所述调整程序直至满足结束条件为止。

2.根据权利要求1所述的存储器内运算方法，其中，所述计算所述二进制数据的剩余位的补码的步骤包括：

计算所述剩余位的2的补码且反转所计算出的所述2的补码的值。

3.根据权利要求1所述的存储器内运算方法，其中，所述调整程序包括神经网络的训练，其中将所述多个输入信号的所述二进制数据设定为所述神经网络的输入，将所述多个权重设定为所述神经网络中的多个计算层中的权重，且将所述整合的输出设定为所述神经网络的输出。

4.根据权利要求3所述的存储器内运算方法，其中，所述基于所述整合的输出来调整编程至所述单元中的所述多个权重的所述二进制数据的步骤包括：

计算所述整合的输出与所述输入信号的参考信号之间的差，且根据所述差来调整待编程至所述单元中的所述多个权重的所述经过变换的二进制数据。

5.根据权利要求4所述的存储器内运算方法，其中，所述基于减少每一所述权重的所述二进制数据中值为一的所述位的几率来重塑所述多个权重的所述二进制数据的步骤包括：

根据所述整合的输出与所述输入信号的参考信号之间的所述差来计算准确度；以及

回应于所计算出的所述准确度大于第一阈值而提前所述重塑。

6.根据权利要求1所述的存储器内运算方法，其中，所述基于减少每一所述权重的所述二进制数据中值为一的所述位的几率来重塑所述多个权重的所述二进制数据的步骤包括：

计算所述多个权重的所述二进制数据中值为一的所述位与值为零的所述位的比；以及

回应于所计算出的所述比大于第二阈值而提前所述重塑。

7.根据权利要求1所述的存储器内运算方法，其中，所述基于减少每一所述权重的所述二进制数据中的值为一的所述位的几率来重塑所述多个权重的所述二进制数据的步骤包括：

通过将每一所述权重的十进制值移位任意数以最大化所述权重的所述二进制数据中值为一的位的减少与所移位的数的商，且将所述商除以基于所述多个权重的数据分布所判定的因子，以计算所述几率；以及

响应于所述商大于或等于阈值而根据所计算出的所述几率将每一所述权重的所述十进制值移位。

8.根据权利要求1所述的存储器内运算方法，其中，每一所述权重的具有所述浮点格式的所述二进制数据在32位二进制数据中包括一个符号位、八个指数位以及二十三个分数位。

9.一种存储器内运算装置，其中，包括：

存储器，具有交叉开关架构，所述存储器包括：

彼此交叉的多个输入线及多个输出线；

多个单元，分别配置于所述输入线及所述输出线的相交点处；以及

多个感测放大器，分别连接至所述输出线；

处理器，耦接至所述存储器且经配置以：

10.根据权利要求9所述的存储器内运算装置，其中，所述处理器计算所述剩余位的2的补码且反转所计算出的所述2的补码的值。

11.根据权利要求9所述的存储器内运算装置，其中，所述调整程序包括神经网络的训练，其中将所述多个输入信号的所述二进制数据设定为所述神经网络的输入，将所述多个权重设定为所述神经网络中的多个计算层中的权重，且将所述整合的输出设定为所述神经网络的输出。

12.根据权利要求11所述的存储器内运算装置，其中，所述处理器计算所述整合的输出与所述输入信号的参考信号之间的差，且根据所述差来调整待编程至所述单元中的所述多个权重的所述经过变换的二进制数据。

13.根据权利要求12所述的存储器内运算装置，其中，所述处理器根据所述整合的输出与所述输入信号的参考信号之间的所述差来计算准确度，且响应于所计算出的所述准确度大于第一阈值而提前所述重塑。

14.根据权利要求9所述的存储器内运算装置，其中，所述处理器计算所述多个权重的所述二进制数据中值为一的所述位与值为零的所述位的比，且响应于所计算出的所述比大于第二阈值而提前所述重塑。

15.根据权利要求9所述的存储器内运算装置，其中，所述处理器通过将每一所述权重的十进制值移位任意数以最大化所述权重的所述二进制数据中值为一的位的减少与所移位的数的商，且将所述商除以基于所述多个权重的数据分布所判定的因子，且响应于所述商大于或等于阈值而根据所计算出的所述几率将每一所述权重的所述十进制值移位，以计算所述几率。

16.根据权利要求9所述的存储器内运算装置，其中，每一所述权重的具有所述浮点格式的所述二进制数据在32位二进制数据中包括一个符号位、八个指数位以及二十三个分数位。