CN109472345A

CN109472345A - 一种权重更新方法、装置、计算机设备和存储介质

Info

Publication number: CN109472345A
Application number: CN201811137906.2A
Authority: CN
Inventors: 辛泉预; 杨政
Original assignee: Shenzhen Bainuo Famous Medical Network Technology Co Ltd
Current assignee: Shenzhen Bainuo Famous Medical Network Technology Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-03-15

Abstract

本发明公开了一种权重更新方法、装置、计算机设备和存储介质，通过本发明可根据神经网络的各类训练样本的数量比例计算各类训练样本对应的均衡因子；在一次训练结束后，获取神经网络的输出；根据神经网络的损失函数，计算神经网络的各输出的偏导数；根据各类训练样本对应的均衡因子对各输出的偏导数进行修正得到各输出的修正偏导数；根据链式求导法则、各输出的修正偏导数以及各神经元的输出，对权重进行更新，本实施例中将基于各类训练样本的比例得到的均衡因子用来平衡各类训练样本对训练结果的贡献度，由此，神经网络基于更新后的权重得到的训练结果，越来越接近训练样本数据均衡时的训练结果，有效降低了数据不均衡对训练结果的不利影响。

Description

一种权重更新方法、装置、计算机设备和存储介质

技术领域

本发明涉及深度学习领域，尤其涉及一种权重更新方法、装置、计算机设备和存储介质。

背景技术

不管是在学术界还是工业界，不平衡学习已经吸引了越来越多的关注，不均衡数据造成的影响通常是发生在分类问题中。例如，现在有一个包含了100行数据的二项分类问题(两类数据)。其中有90行数据代表的是第一类，其余10行代表的是数据第二类。这就是一个不均衡数据(不平衡类数据)，它的第一类数据和第二类数据比是9:1。当处理这个数据集的时候，建立了一个分类模型并且它的精确度达到了90％，但是当继续更深地挖掘数据时会发现这个90％的精确度只是一类数据的精确度。不平衡类问题可能发生在二项分类问题或者多项分类问题中。

对于神经网络而言，在其训练过程中，若是训练样本中各类样本的比例不平衡，往往会导致训练结果的准确性不足，甚至训练失败的后果。目前，对于训练数据不平衡的情况，有些方案会重新设置均衡的训练数据训练神经网络，但是在不能或不方便更改原始的训练数据时，这种方案不能发挥作用。

发明内容

本发明实施例的主要目的在于提供一种权重更新方法、装置、计算机设备和存储介质，通过本发明实施例的实施，可以降低训练数据不均衡对训练效果的影响，提升数据不平衡状态下训练结果的准确性。

为实现上述目的，本发明实施例第一方面提供一种权重更新方法，该权重更新方法包括：

计算神经网络的各类训练样本的数量比例；

根据所述数量比例计算所述各类训练样本对应的均衡因子，所述均衡因子用于平衡所述各类训练样本的数量对所述神经网络的分类结果的影响度；

在一次训练结束后，获取所述神经网络的输出层的输出，其中，一个训练样本对应的所述输出表明所述训练样本为所述各类训练样本的概率，一个训练样本的所述概率之和为1；

根据所述神经网络的损失函数，计算所述神经网络的各输出的偏导数；

根据所述各类训练样本对应的均衡因子对所述各输出的偏导数进行修正得到所述各输出的修正偏导数；

根据链式求导法则、所述各输出的修正偏导数以及所述各神经元的输出，对所述神经网络的输出层和隐藏层的各权重进行更新。

为实现上述目的，本发明实施例第二方面提供一种权重更新装置，该解决数据不均衡的装置包括：

比例计算模块，用于计算神经网络的各类训练样本的数量比例；

均衡因子计算模块，用于根据所述数量比例计算所述各类训练样本对应的均衡因子，所述均衡因子用于平衡所述各类训练样本的数量对所述神经网络的分类结果的影响度；

获取模块，用于在一次训练结束后，获取所述神经网络的输出层的输出，其中，一个训练样本对应的所述输出表明所述训练样本为所述各类训练样本的概率，一个训练样本的所述概率之和为1；

偏导数计算模块，用于根据所述神经网络的损失函数，计算所述神经网络的各输出的偏导数；

修正模块，用于根据所述各类训练样本对应的均衡因子对所述各输出的偏导数进行修正得到所述各输出的修正偏导数；

权重更新模块，用于根据链式求导法则、所述各输出的修正偏导数以及所述各神经元的输出，对所述神经网络的输出层和隐藏层的各权重进行更新。

为实现上述目的，本发明实施例第三方面提供一种计算机设备，该计算机设备包括处理器、存储器及通信总线；所述通信总线用于实现所述处理器和所述存储器之间的连接通信；

所述存储器用于存储一个或多个程序，所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现如上所述的权重更新方法的步骤。

为实现上述目的，本发明实施例第四方面提供一种存储介质，该存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的权重更新方法的步骤。

本发明实施例提出了一种权重更新方法、装置、计算机设备和存储介质，通过本发明可根据神经网络的各类训练样本的数量比例计算各类训练样本对应的均衡因子；在一次训练结束后，获取神经网络的输出层的输出；根据神经网络的损失函数，计算神经网络的各输出的偏导数；根据各类训练样本对应的均衡因子对各输出的偏导数进行修正得到各输出的修正偏导数；根据链式求导法则、各输出的修正偏导数以及各神经元的输出，对神经网络的输出层和隐藏层的各权重进行更新，本实施例中在进行权重修正时，将各类型的训练样本的比例作为修正权重的一个因素，通过各类训练样本的比例得到均衡因子，利用均衡因子平衡各类训练样本对训练结果的贡献度，由此，神经网络基于修正后的权重得到的训练结果，接近于训练样本数据均衡的情况下得到的训练结果，有效降低了数据不均衡对训练结果的不利影响，提升了神经网络的训练结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种权重更新方法的流程示意图；

图2为本发明实施例中一种权重更新装置的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，不均衡的训练数据会降低神经网络的训练结果的准确度，为了在数据不均衡的情况下，避免出现上述的问题，本实施例提出了一种权重更新方法，可以解决数据不均衡的问题。

参见图1，本实施例提出的权重更新方法包括：

步骤101、计算神经网络的各类训练样本的数量比例；

本实施例中对神经网络的类型没有限制，对训练样本的类型的数量也没有限制，例如，神经网络可以是Faster Rcnn网络等等。其中在上述步骤101中的训练样本上标注有类别标签。

假设神经网络的训练样本中有A、B、C三类训练样本，A的数量为100，B的数量为200，C的数量为700，则神经网络的训练样本的数量比例为A:B:C＝1:2:7。

在本实施例中，在计算神经网络的各类训练数量的数量比例之后，可以根据各类训练样本的数量比例判断各类训练样本的数量是否不均衡，在判断结果为是时，才执行后续的步骤102-106更新权重，在判断结果为否时，可以按照现有技术中的权重更新方法来更新神经网络中的权重。

其中，可以采用以下方式中的任一种判断各类训练样本的数量是否不均衡：

方式1、将各类训练样本的数量除以各类训练样本中某一类训练样本的数量，若是得到的结果都在某个预设范围内，就认为各类训练样本的数量均衡，否则各类训练样本的数量不均衡；其中，预设范围可以根据作为除数的训练样本数量在各类训练样本的数量中的排位来确定，例如作为除数的训练样本的数量最小，预设范围设置为[1，2.5]，当然，若对神经网络的训练结果的准确度要求高，则可以缩小预设范围。

方式2、比较各类训练样本中数量最多的那一类训练样本和数量最小的那一类训练样本的数量，若两类训练样本的数量差(一般取正数)超过阈值，则各类训练样本的数量是不均衡，否则各类训练样本的数量均衡。其中，阈值可根据数量最小的那一类训练样本的数量确定。

步骤102、根据数量比例计算各类训练样本对应的均衡因子，其中，均衡因子用于平衡各类训练样本的数量对神经网络的分类结果的影响度；

对于各类训练样本而言，其数量越多，神经网络对其特征的学习就越多，神经网络的学习就越偏向于数量多的那一类训练样本，本实施例中根据各类训练样本的数量比例计算得到的均衡因子，旨在均衡各类样本对神经网络的贡献度(也即各类样本对神经网络的训练结果的影响程度)，例如，通过均衡因子提升数量较少的训练样本的贡献度，和/或降低数量较多的训练样本的贡献度等等。

可选的，根据数量比例计算各类训练样本对应的均衡因子包括：

根据所述各类训练样本的数量比例，分别计算各类训练样本的Pi，其中，i＝1······N(可以理解的是，本实施例中训练样本的一共有N类)，P_i为N个类型的训练样本中第i个类型的训练样本的数量与训练样本总数量的比例；

根据公式：均衡因子＝1-Pi，得到各类训练样本对应的均衡因子。

当然，可以理解的是，上述的均衡因子的具体求解方式仅作示例说明，并没有限定本实施例中求得均衡因子的方法。

例如，对于上述A、B、C三类训练样本，A类训练样本的均衡因子GA＝1-A/(A+B+C)＝0.9，B类训练样本的均衡因子GB＝1-B/(A+B+C)＝0.8，C类训练样本的均衡因子GC＝1-C/(A+B+C)＝0.3。

步骤103、在一次训练结束后，获取神经网络的输出层的输出，其中，一个训练样本对应的输出表明训练样本为各类训练样本的概率，一个训练样本的所述概率之和为1；

神经网络一般包括输入层input layer，隐藏层hidden layer以及输出层outputlayer，其中，隐藏层的层数在本实施例中没有限制。本实施例的神经网络中隐藏层的神经元使用的激活函数可以为softmax激活函数，但是这里需要说明的是，隐藏层的神经元使用的激活函数，并不限于softmax激活函数，还可以Sigmod函数，以及现在深度学习常用的ReLU(Rectified Linear Unit)等等，本实施例的神经网络中输出层的神经元使用的激活函数为softmax激活函数。

步骤103中输出层的输出表示一个训练样本为某个类型的训练样本的概率。以上述的A、B、C三类训练样本为例，在该示例中，神经网络的输出张量维度为(BATCH_SIZE，3)，假设BATCH_SIZE＝1，输出张量维度为(1，3)，经过softmax激活函数，output输出张量表示为[[Pa，Pb，Pc]]，其中，Pa表示该训练样本为A类训练样本的概率，Pb表示该训练样本为B类训练样本的概率，Pc表示该训练样本为C类训练样本的概率，对于一个训练样本而言，其Pa+Pb+Pc＝1。将该训练样本的lable进行onehot处理，属于A类的表示为[1，0，0]，属于B类的表示为[0，1，0]，属于C类的表示为[0，0，1]，可以得到该训练样本的预期输出。

步骤104、根据神经网络的损失函数，计算神经网络的各输出的偏导数；

目前，常见的损失函数有如下3类：

(1)0-1损失函数(0-1loss function)：

(2)绝对损失函数(absolute loss function)

(3)平方损失函数(quadratic loss function)

损失函数值越小，说明实际输出和预期输出的差值就越小，也就说明构建的模型越好。本实施例中，对于损失函数的类型没有限定，可以根据实际需要进行选择。

假设本实施例中神经网络的损失函数为loss＝f(Y，Y’)，在这里Y和Y’，分别表示的是神经网络的输出值向量和期望值向量，它们分别包括多个不同训练样本的实际输出值和期望值。

还是以上述的A、B、C三类训练样本为例，根据神经网络的损失函数，计算神经网络的各输出的偏导数，实际上就是根据loss函数计算输出层的偏导数，即[[dPa，dPb，dPc]]。

步骤105、根据各类训练样本对应的均衡因子对各输出的偏导数进行修正得到各输出的修正偏导数；

本实施例中，为了平衡各类训练样本的贡献度，会基于均衡因子调节各输出的偏导数对权重的影响。可选的，本实施例中根据各类训练样本对应的均衡因子对各输出的偏导数进行修正得到各输出的修正偏导数包括：

将各输出的偏导数与各输出对应的训练样本类型对应的均衡因子相乘，得到各输出的修正偏导数。

还是以上述的A、B、C三类训练样本为例，对神经网络的各输出的偏导数[[dPa，dPb，dPc]]，分别与A、B、C类训练样本的均衡因子相乘，得到各输出的修正偏导数[[dPa*GA，dPb*GB，dPc*GC]]。

上述的步骤103的顺序可以更改，可选的，步骤103可以在步骤104或步骤105之后进行，步骤103中的神经网络的输出层中各神经元的输出理解为具体的概率值。例如以上述的A、B、C三类训练样本为例，对一个训练样本，神经网络的输出层的输出的是该训练样本分别为A、B、C类的概率。对于步骤104中描述的神经网络的各输出的偏导数中的输出，应当理解变量，而不应理解为具体的概率值。

步骤106、根据链式求导法则、各输出的修正偏导数以及各神经元的输出，对神经网络的输出层和隐藏层的各权重进行更新。

对神经网络的权重进行更新时，常用的一种是“误差反向传播(Error Backpropagation，简称BP)”方法，计算当前神经网络的输出，然后根据神经网络的实际输出与预期输出之间的差值，采用迭代的算法，反方向地去改变前面各层的参数(如权重)，直至网络收敛稳定。这也是本实施例中采用的误差更新的方法。

可选的，根据链式求导法则、各输出的修正偏导数以及各神经元的输出，对神经网络的输出层和隐藏层的各权重进行更新包括：

根据链式求导法则，确定神经网络的输出层和隐藏层的各权重的权重更新公式；

将权重更新公式中各输出的偏导数，替换为对应的修正偏导数；

按照各权重的权重更新公式对神经网络的输出层和隐藏层的权重进行更新。

本实施例中，采用的权重更新公式为：W＝w-Δw*L，其中L为神经网络的学习率，w为本次更新前神经网络中某神经元的权重，W为本次更新后神经网络中该神经元的新权重，Δw为本次更新时该神经元的权重的校正幅度。

上述L是神经网络用来控制权重和偏置变化的幅度，如果太大，网络的参数收敛速度快，但是可能出现来回震荡的情况，如果太小，网络收敛速度太慢，训练时间长。本实施例中，可以根据实际需要对神经网络的学习率进行设置，例如设置为0.5。

上述的步骤：按照各权重的权重更新公式对神经网络的输出层和隐藏层的权重进行更新包括：根据权重更新公式W＝w-Δw*L，更新神经网络的输出层和隐藏层的各权重。其中，可以理解的是，w是更新前的权重，该值是一个具体的值，Δw的算式中才含有输出的偏导数。将权重更新公式中各输出的偏导数，替换为对应的修正偏导数，实际上就是将Δw的算式中的各输出的偏导数替换为经均衡因子修正后的各输出的修正偏导数，例如在Δw的式子中将上述的dPa替换为dPa*GA，dPb替换为dPb*GB等，对于权重更新公式，仅仅只有各输出的偏导数发生了上述的替换，公式的结构和其它的变量不变，在偏导数替换之后，根据新的权重更新公式可以计算各个新权重以及更新神经网络的权重。

可以理解的是，本实施例中，在神经网络的训练中，权重的更新会发生多次，当前更新后的权重会参与下一次的权重更新，直到权重符合要求为止。

可选的，在根据链式求导法则、各输出的修正偏导数以及各神经元的输出，对神经网络的输出层和隐藏层的各权重进行更新后，还包括：

判断更新后的权重是否满足要求，若是，则停止权重的更新，否则重复步骤101-106更新神经网络的权重；

或者，累计神经网络的权重更新次数；判断累计的权重更新次数是否超过预设次数阈值，是，则停止权重的更新，否则，重复步骤101-106更新神经网络的权重。

进一步的，为了解决现有技术中存在的问题，本实施例还提出一种权重更新装置，该权重更新装置包括：

比例计算模块21，用于计算神经网络的各类训练样本的数量比例；

均衡因子计算模块22，用于根据数量比例计算各类训练样本对应的均衡因子，均衡因子用于平衡各类训练样本的数量对神经网络的分类结果的影响度；

获取模块23，用于在一次训练结束后，获取所述神经网络的输出层的输出，其中，一个训练样本对应的所述输出表明所述训练样本为所述各类训练样本的概率，一个训练样本的所述概率之和为1；

偏导数计算模块24，用于根据神经网络的损失函数，计算神经网络的各输出的偏导数；

修正模块25，用于根据各类训练样本对应的均衡因子对各输出的偏导数进行修正得到各输出的修正偏导数；

权重更新模块26，用于根据链式求导法则、各输出的修正偏导数以及各神经元的输出，对神经网络的输出层和隐藏层的各权重进行更新。

可选的，均衡因子计算模块22，用于根据所述各类训练样本的数量比例，分别计算各类训练样本的P_i，其中，i＝1····N，所述P_i为N个类型的训练样本中第i个类型的训练样本的数量与训练样本总数量的比例；根据公式：均衡因子＝1-P_i，得到所述各类训练样本对应的均衡因子。

可选的，修正模块25，用于将各输出的偏导数与各输出对应的训练样本类型对应的均衡因子相乘，得到各输出的修正偏导数。

可选的，权重更新模块26，用于根据链式求导法则，确定神经网络的输出层和隐藏层的各权重的权重更新公式；将权重更新公式中各输出的偏导数，替换为对应的修正偏导数；按照各权重的权重更新公式对神经网络的输出层和隐藏层的权重进行更新。

可选的，权重更新模块26，用于根据权重更新公式：W＝w-Δw*L，更新神经网络的输出层和隐藏层的各权重；其中，L为神经网络的学习率，w为本次更新前神经网络中某神经元的权重，W为本次更新后神经网络中该神经元的新权重，Δw为本次更新时该神经元的权重的校正幅度。

进一步的，为了解决现有技术中存在的问题，本实施例还提出一种计算机设备，该计算机设备包括处理器、存储器及通信总线；

所述通信总线用于实现所述处理器和所述存储器之间的连接通信；

进一步的，为了解决现有技术中存在的问题，本实施例还提出一种存储介质，该存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的权重更新方法的步骤。

通过本实施例可根据神经网络的各类训练样本的数量比例计算各类训练样本对应的均衡因子；在一次训练结束后，获取神经网络的输出层的输出；根据神经网络的损失函数，计算神经网络的各输出的偏导数；根据各类训练样本对应的均衡因子对各输出的偏导数进行修正得到各输出的修正偏导数；根据链式求导法则、各输出的修正偏导数以及各神经元的输出，对神经网络的输出层和隐藏层的各权重进行更新，本实施例中在进行权重修正时，将各类型的训练样本的比例作为修正权重的一个因素，通过各类训练样本的比例得到均衡因子，利用均衡因子平衡各类训练样本对训练结果的贡献度，由此，神经网络基于修正后的权重得到的训练结果，一次比一次更接近训练样本数据均衡的情况下得到的训练结果，有效降低了数据不均衡对训练结果的影响程度，提升了数据不平衡情况下神经网络的训练结果的准确度。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种权重更新方法、装置、计算机设备和存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种权重更新方法，其特征在于，包括：

计算神经网络的各类训练样本的数量比例；

2.如权利要求1所述的权重更新方法，其特征在于，所述根据所述数量比例计算所述各类训练样本对应的均衡因子包括：

根据所述各类训练样本的数量比例，分别计算所述各类训练样本的P_i，其中，i＝1····N，所述P_i为N个类型的训练样本中第i个类型的训练样本的数量与训练样本总数量的比例；

根据公式：均衡因子＝1-P_i，得到所述各类训练样本对应的均衡因子。

3.如权利要求1所述的权重更新方法，其特征在于，所述根据所述各类训练样本对应的均衡因子对所述各输出的偏导数进行修正得到所述各输出的修正偏导数包括：

将所述各输出的偏导数与所述各输出对应的训练样本类型对应的均衡因子相乘，得到所述各输出的修正偏导数。

4.如权利要求1-3所述的权重更新方法，其特征在于，所述根据链式求导法则、所述各输出的修正偏导数以及所述各神经元的输出，对所述神经网络的输出层和隐藏层的各权重进行更新包括：

根据链式求导法则，确定所述神经网络的输出层和隐藏层的各权重的权重更新公式；

将所述权重更新公式中所述各输出的偏导数，替换为对应的修正偏导数；

按照所述各权重的权重更新公式对所述神经网络的输出层和隐藏层的权重进行更新。

5.如权利要求4所述的权重更新方法，其特征在于，所述按照所述各权重的权重更新公式对所述神经网络的输出层和隐藏层的权重进行更新包括：

根据权重更新公式：W＝w-Δw*L，更新所述神经网络的输出层和隐藏层的各权重；

其中，所述L为神经网络的学习率，所述w为本次更新前所述神经网络中某神经元的权重，所述W为本次更新后所述神经网络中所述神经元的新权重，所述Δw为本次更新时所述神经元的权重的校正幅度。

6.一种权重更新装置，其特征在于，包括：

7.一种计算机设备，其特征在于，包括处理器、存储器及通信总线；

所述存储器用于存储一个或多个程序，所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现如权利要求1-5中任一项所述的权重更新方法的步骤。

8.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-5中任一项所述的权重更新方法的步骤。