CN110991639A

CN110991639A - 贝叶斯深度学习内存优化方法

Info

Publication number: CN110991639A
Application number: CN201911211743.2A
Authority: CN
Inventors: 贾小涛; 杨建磊; 马宝健; 赵巍胜
Original assignee: Beihang University Qingdao Research Institute
Current assignee: Beihang University Qingdao Research Institute
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-10

Abstract

本发明涉及内存优化方法，尤其是一种基于分解与存储策略的贝叶斯深度学习内存优化方法。将特征矩阵β的维度由M×N变为αM×N，0＜α≤1，此时的特征矩阵β被分成β¹、

针对采样出的T个不确定性矩阵H_i(i＝1,2,3,…T)，每一个不确定性矩阵H_i被分为

部分，包括

将上述每一部分不确定性矩阵

分别与对应的β做内积，从而得到z₁至z_T共T个完整的输出向量。可以有效减小存储特征矩阵的空间，存储空间由原来的M×N变为αM×N，通过该方法可以将分解与存储策略带来的额外内存开销从50％降为α·50％。

Description

贝叶斯深度学习内存优化方法

技术领域

本发明涉及内存优化方法，尤其是一种基于分解与存储策略的贝叶斯深度学习内存优化方法。

背景技术

贝叶斯方法与深度学习的结合，被称为贝叶斯深度学习或贝叶斯深度神经网络。其中，深度神经网络旨在构建不同类型的学习模型，而贝叶斯推断旨在关注训练的方法。贝叶斯深度神经网络并不是一种新型的网络架构，而是提供一种新的神经网络训练算法。它既具有神经网络强大的拟合能力，也具有贝叶斯方法强大的不确定信息表征能力，同时也拥有完善的数学理论支持、良好的抗过拟合能力。

深度学习与贝叶斯深度学习使用相同的网络结构，但参数表现形式不同，如图1(a)和图1(b)所示。深度学习的网络参数是固定的数值，而贝叶斯深度学习的网络参数是固定参数的概率分布，通常选用高斯分布。在贝叶斯深度学习推理过程中，需要对贝叶斯神经网络的权重进行采样，得到一组参数，然后采用与非贝叶斯神经网络相同的推理算法。如图2所示，基于分解与存储策略的贝叶斯深度学习推理过程中，每一次推理过程均包含“预处理”，“采样”与“前馈传播”三个阶段。对于某一层神经网络，假定其输入神经元数量为N，其输出神经元数量为M。通常，贝叶斯神经网络需要进行多次推理过程，记为T。

由于计算平台硬件资源的限制，不可能并行地执行T个神经网络的前向传播。假设硬件平台的计算资源可以支持αT个神经网络的前向传播并行执行，其中0＜α≤1。也就是说，硬件平台每一次最多可以产生αTMN个随机数。在每一次运算中，硬件平台会采样出αT个不确定形矩阵(H∈R^M×N)，并产生αT个输出(y∈R^M)。经过α^-1次迭代，我们可以得到T个输出向量。

如图3所示，以

为例，在计算过程中，每次可以支持

个神经网络的计算，所以 T个神经网络的前向传播需要分为4次。硬件平台每次会产生

个随机数，这里的

个随机数组成了

个规模为M×N的不确定性矩阵。图中特征矩阵β的维度为M×N，分别与产生的

个不确定性矩阵

相乘，并得到αT个输出，经过α^-1即4次迭代后，得到T个输出，即图中的Z₁～Z_T。

由于不确定性矩阵的规模是M×N，因此需要开辟同样大小的内存空间用以存储特征矩阵β，这样使得内存开销增加了约50％。

发明内容

本发明的目的在于解决现有技术中存在的上述问题，提出了一种贝叶斯深度学习内存优化方法，通过改变由随机数组成的不确定性子矩阵的数量和规模，减小了由分解与存储策略带来的额外内存开销。

本发明的技术方案是：一种贝叶斯深度学习内存优化方法，包括以下步骤：

将特征矩阵β的维度由M×N变为αM×N，0＜α≤1，此时的特征矩阵β被分成

并满足以下关系式：

部分，包括

将上述每一部分不确定性矩阵

分别与对应的β，通过下述公式做内积，

z＝<H,B>_L

得到：

其中i＝1,2,3,…,T，从而得到z₁至z_T共T个完整的输出向量。

本发明中，通过下述公式得到β，

β^ij＝σ^ijx^j(i＝1,2,…,M；j＝1,2,…,N)

其中，σ为标准方差，x为输入向量。

本发明的有益效果：

传统的预处理过程需要存储特征矩阵β和特征向量η，由于特征矩阵β具有与σ和μ相同的维度(均为M×N)，因此现有的分解与存储策略会使得内存开销增加约50％；

而采用本发明所述的贝叶斯深度学习内存优化方法，可以有效减小存储特征矩阵的空间，存储空间由原来的M×N变为αM×N，通过该方法可以将分解与存储策略带来的额外内存开销从50％降为a·50％。

附图说明

图1(a)是神经网络示意图；

图1(b)是贝叶斯神经网络示意图；

图2是基于分解与存储策略的贝叶斯深度学习推理过程的数据流图；

图3是基于分解与存储策略的贝叶斯神经网络标准计算流程；

图4是实施例1中基于分解与存储策略的贝叶斯神经网络内存友好型计算流程。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

本发明所述的基于分解与存储策略的贝叶斯深度学习内存优化方法包括以下步骤：

计算平台硬件资源的限制决定了可以支持αT个神经网络前向传播并行执行，其中0＜α≤1。在计算过程中，每次可以支持

个神经网络的计算，所以T个神经网络的前向传播需要分为α次,硬件平台每次会产生αTMN个随机数。

因此，在本方法中，首先，经下述公式(1)得到β，

β^ij＝σ^ijx^j(i＝1,2,…,M；j＝1,2,…,N) (1)。

将特征矩阵β的维度由M×N变为αM×N，此时的特征矩阵β被分成了

并满足以下关系式：

同时，针对采样出的T个不确定性矩阵H_i(i＝1,2,3,…T)，每一个不确定性矩阵H_i可以被分为

即

部分。

第二步，将上述每一部分不确定性矩阵

分别与对应的β，即

通过公式(2)做内积，

z＝<H,B>_L (2)

得到：

其中i＝1,2,3,…,T，因此可以得到z₁至z_T这T个完整的输出向量。在该方法中，β的维度始终为αM×N，并不是现有技术中采用的M×N维度。

与现有的方法在于，该内存优化方法中每一轮计算产生T个规模为

的子向量，经过

次迭代后，得到T个完整的输出向量。在本方法中，我们只要开辟αM×N大小的空间存储特征矩阵，从而可以将分解与存储策略带来的额外内存开销从50％降为α*50％。

本专利基于单层神经网络进行分析，但同样可以应用到多层神经网络中，在Hybrid-BNN 和DM-BNN两种深度学习方法中，该方法均可以起到效果。

实施例1

如图4所示，本实施例中，

特征矩阵β的维度由原来的M×N变成了

此时的特征矩阵β被分成了β¹，β²，β³，β⁴四部分，满足以下关系式；

同时，采样出的T个不确定性矩阵H_i(i＝1,2,…,T)，每一个不确定性矩阵也可以被分为

四部分,每一部分分别与对应的β做内积，

便可得到z₁至z_T这T个相对应的输出。与现有的方法不同，该方法中每一轮计算产生T 个规模为

的子向量，经过4次迭代后，得到T个完整的输出向量。