CN114358284A

CN114358284A - 一种基于类别信息对神经网络分步训练的方法、装置、介质

Info

Publication number: CN114358284A
Application number: CN202210031259.7A
Authority: CN
Inventors: 袁泉; 陈子沣; 魏超; 朱海勇; 齐战胜; 李铭
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-15
Anticipated expiration: 2042-01-12
Also published as: CN114358284B

Abstract

本发明提出了一种基于类别信息对神经网络分步训练的方法、装置及存储介质，该方法包括：获取步骤，获取所述神经网络的初始权重数据，并将所述初始权重数据存储在一指定存储区中；选择步骤，从待训练的N个类别训练样本集合中选择n个未标记类别样本集合；训练步骤，使用所述选择n个未标记类别样本集合对所述神经网络进行迭代计算得到训练后的神经网络；更新步骤，将训练后神经网络模型的权重数据更新所述指定存储区中的初始权重数据；本发明中，从N个类别中选择n个类别未标记样本集合标记后进行神经网络的训练，在训练过程中充分利用样本的类别信息，提高了神经网络的训练精度，提高了更新效率，保证了神经网络的训练速度。

Description

一种基于类别信息对神经网络分步训练的方法、装置、介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于类别信息对神经网络分步训练的方法、装置、设备及存储介质。

背景技术

神经网络中常需要含有类别信息以完成如分类、对不同类别检测或回归等针对多类别的任务。经常的，这些类别信息也是未确定的，需要在训练过程中最优化。这些类别信息常常作为网络权重存储在神经网络特定的层中，参与训练与推理。类别数越多，所需的权重也就越多，这些层的训练与推理也就越慢。或者每次使用限定类别数的样本对神经网络分步训练。

采用固定类别数目的方法(如softmax loss)训练神经网络时，如果类别过多(如数百万类)，在含有类别信息这一层会占用大量计算、存储资源，有时甚至会由于需求资源过多而无法训练。而不需要固定类别数目的方法(如triplet loss)往往收敛困难，需要较长的训练时间，且无法训练出类别权重。

针对上述问题，之前的申请201910538093.6解决了部分缺陷，但带了新的问题，即在训练过程中，若是每次使用限定类别数的样本对神经网络分步训练，选取样本时，采用随机的方法，并不能完全利用类别信息，导致训练后的神经网络精度还是不够高，这是其一；其二，目前所采用的神经网络规模较大，如果每次训练都全部更新权重数据，对存储区的读写耗时较大。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种基于类别信息对神经网络分步训练的方法，该方法包括：

获取步骤，获取所述神经网络的初始权重数据，并将所述初始权重数据存储在一指定存储区中；

选择步骤，从待训练的N个类别训练样本集合中选择n个未标记类别样本集合；

训练步骤，使用所述选择n个未标记类别样本集合对所述神经网络进行迭代计算得到训练后的神经网络；

更新步骤，将训练后神经网络模型的权重数据更新所述指定存储区中的初始权重数据；

其中，N远大于n，n大于或等于2。

更进一步地，所述样本集合为图像样本集合、文本样本集合或语音样本集合。

更进一步地，所述选择步骤的操作为：从待训练的N个类别训练样本集合中的所有未标记的类别训练样本集合中随机选取一个类别训练样本集合，然后在其余的未标记的类别训练样本集合中选取与选定的类别训练样本集合相似度最近的n-1个类别训练样本集合，然后标记所述n个类别训练样本集合，并将所述n个类别训练样本集合中的样本乱序排列。

更进一步地，如果N个类别训练样本集合中的所有类别均被标记，则将所有标记重置为未标记。

更进一步地，所述更新步骤的操作为：所述初始权重数据按照所述神经网络的层存储在所述指定存储区中，获取训练后神经网络模型的权重数据，确定变化超过第一阈值的权重数据及对应的神经网络的层，基于变化超过第一阈值的权重数据及对应的神经网络的层更新所述指定存储区中的初始权重数据。

本发明还提出了一种基于类别信息对神经网络分步训练的装置，该装置包括：

获取单元，获取所述神经网络的初始权重数据，并将所述初始权重数据存储在一指定存储区中；

选择单元，从待训练的N个类别训练样本集合中选择n个未标记类别样本集合；

训练单元，使用所述选择n个未标记类别样本集合对所述神经网络进行迭代计算得到训练后的神经网络；

更新单元，将训练后神经网络模型的权重数据更新所述指定存储区中的初始权重数据；

其中，N远大于n，n大于或等于2。

更进一步地，所述选择单元的操作为：从待训练的N个类别训练样本集合中的所有未标记的类别训练样本集合中随机选取一个类别训练样本集合，然后在其余的未标记的类别训练样本集合中选取与选定的类别训练样本集合相似度最近的n-1个类别训练样本集合，然后标记所述n个类别训练样本集合，并将所述n个类别训练样本集合中的样本乱序排列。

更进一步地，所述更新单元的操作为：所述初始权重数据按照所述神经网络的层存储在所述指定存储区中，获取训练后神经网络模型的权重数据，确定变化超过第一阈值的权重数据及对应的神经网络的层，基于变化超过第一阈值的权重数据及对应的神经网络的层更新所述指定存储区中的初始权重数据。

本发明还提出了一种基于类别信息对神经网络分步训练的设备，所述设备包括处理器和存储器，所述处理器与所述处理器通过总线连接，所述存储器上存储有计算机程序，所述处理器执行所述存储器上的计算机程序时实现上述之任一的方法。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种基于类别信息对神经网络分步训练的方法、装置、设备及存储介质，该方法包括：获取步骤，获取所述神经网络的初始权重数据，并将所述初始权重数据存储在一指定存储区中；选择步骤，从待训练的N个类别训练样本集合中选择n个未标记类别样本集合；训练步骤，使用所述选择n个未标记类别样本集合对所述神经网络进行迭代计算得到训练后的神经网络；更新步骤，将训练后神经网络模型的权重数据更新所述指定存储区中的初始权重数据；本发明中，从N个类别中选择n个类别未标记样本集合标记后进行神经网络的训练，在训练过程中充分利用样本的类别信息，提高了神经网络的训练精度，本发明中，通过从N个类别的样本集合中选择n个相似度最近的类别样本集合进行训练，由于n个类别样本集合相似度较高，由于样本相似度较高，其主要影响神经网络的相应层的权重，即可以实现部分层权重的更新，而不是整个神经网络权重的更新，提高了更新存储区的速度，本发明中，神经网络的权重数据是按照对应的层存储在存储区中，当采用n个相似度最近的类别样本集合进行训练后，只有部分层的权重变化较大，因此，将该变化较大的权重数据挑选出来进行更新，其余数据不更新，比如设定第一阈值为5％，即将变化超过5％的权重数据挑选出来，然后确定其对应的层，从而可以基于变化超过第一阈值的权重数据及对应的神经网络的层更新所述指定存储区中的初始权重数据，节约了更新时间，提高了更新效率，保证了神经网络的训练速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于类别信息对神经网络分步训练的方法的流程图。

图2是根据本发明的实施例的一种基于类别信息对神经网络分步训练的装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于类别信息对神经网络分步训练的方法，该方法包括：

获取步骤S101，获取所述神经网络的初始权重数据，并将所述初始权重数据存储在一指定存储区中；

选择步骤S102，从待训练的N个类别训练样本集合中选择n个未标记类别样本集合；

训练步骤S103，使用所述选择n个未标记类别样本集合对所述神经网络进行迭代计算得到训练后的神经网络；所述的抵达计算至少计算一次，一般来说需要迭代计算多次，才能满足训练的需求。

更新步骤S104，将训练后神经网络模型的权重数据更新所述指定存储区中的初始权重数据；其中，N远大于n，n大于或等于2，比如N为数百万或数千万的数量级，比如，N＝1000000，比如，n为数万的数量级，比如，n＝10000。

在一个实施例中，所述样本集合为图像样本集合、文本样本集合或语音样本集合，比如，用于以具体是图像识别，如通过图像中的人脸识别人的身份，或通过图像中的物品的图像特征识别物品的种类，或通过图像中的人的特征识别人的行为等等，将待识别图像的图像特征输入图像识别模型即可得到相应的图像识别结果，如人的身份，物品的种类，人的行为等等。类似地，文本识别、语音识别也是类似的处理操作。

本发明中，从N个类别中选择n个类别未标记样本集合标记后进行神经网络的训练，在训练过程中充分利用样本的类别信息，提高了神经网络的训练精度，解决了现有技术中的缺陷，这是本发明中的一个重要发明点。

在一个实施例，所述选择步骤S102的操作为：从待训练的N个类别训练样本集合中的所有未标记的类别训练样本集合中随机选取一个类别训练样本集合，然后在其余的未标记的类别训练样本集合中选取与选定的类别训练样本集合相似度最近的n-1个类别训练样本集合，然后标记所述n个类别训练样本集合，并将所述n个类别训练样本集合中的样本乱序排列。如果N个类别训练样本集合中的所有类别均被标记，则将所有标记重置为未标记。相似度计算可以是余弦距离等，当然也可以是其他计算相似度的方法，比如，文本可以采用汉明距离相似度等，还可以将每个样本集合中的样本进行聚类后得到每个类别的代表元，通过每个集合中的代表元计算集合之间的相似度。

本发明中，通过从N个类别的样本集合中选择n个相似度最近的类别样本集合进行训练，由于n个类别样本集合相似度较高，由于样本相似度较高，其主要影响神经网络的相应层的权重，即可以实现部分层权重的更新，而不是整个神经网络权重的更新，提高了更新存储区的速度，这是本发明的重要发明点之另一。

在一个实施例中，所述更新步骤S104的操作为：所述初始权重数据按照所述神经网络的层存储在所述指定存储区中，获取训练后神经网络模型的权重数据，确定变化超过第一阈值的权重数据及对应的神经网络的层，基于变化超过第一阈值的权重数据及对应的神经网络的层更新所述指定存储区中的初始权重数据。

本发明中，神经网络的权重数据是按照对应的层存储在存储区中，当采用n个相似度最近的类别样本集合进行训练后，只有部分层的权重变化较大，因此，将该变化较大的权重数据挑选出来进行更新，其余数据不更新，比如设定第一阈值为5％，即将变化超过5％的权重数据挑选出来，然后确定其对应的层，从而可以基于变化超过第一阈值的权重数据及对应的神经网络的层更新所述指定存储区中的初始权重数据，节约了更新时间，提高了更新效率，保证了神经网络的训练速度，这是本发明的一个重要发明点，当N个类别的样本都训练完后，实现了整个神经网络权重数据的更新。

图2示出了本发明的一种基于类别信息对神经网络分步训练的装置，该装置包括：

获取单元201，获取所述神经网络的初始权重数据，并将所述初始权重数据存储在一指定存储区中；

选择单元202，从待训练的N个类别训练样本集合中选择n个未标记类别样本集合；

训练单元203，使用所述选择n个未标记类别样本集合对所述神经网络进行迭代计算得到训练后的神经网络；所述的抵达计算至少计算一次，一般来说需要迭代计算多次，才能满足训练的需求。

更新单元204，将训练后神经网络模型的权重数据更新所述指定存储区中的初始权重数据；其中，N远大于n，n大于或等于2，比如N为数百万或数千万的数量级，比如，N＝1000000，比如，n为数万的数量级，比如，n＝10000。

在一个实施例，所述选择单元202的操作为：从待训练的N个类别训练样本集合中的所有未标记的类别训练样本集合中随机选取一个类别训练样本集合，然后在其余的未标记的类别训练样本集合中选取与选定的类别训练样本集合相似度最近的n-1个类别训练样本集合，然后标记所述n个类别训练样本集合，并将所述n个类别训练样本集合中的样本乱序排列。如果N个类别训练样本集合中的所有类别均被标记，则将所有标记重置为未标记。相似度计算可以是余弦距离等，当然也可以是其他计算相似度的方法，比如，文本可以采用汉明距离相似度等，还可以将每个样本集合中的样本进行聚类后得到每个类别的代表元，通过每个集合中的代表元计算集合之间的相似度。

在一个实施例中，所述更新单元204的操作为：所述初始权重数据按照所述神经网络的层存储在所述指定存储区中，获取训练后神经网络模型的权重数据，确定变化超过第一阈值的权重数据及对应的神经网络的层，基于变化超过第一阈值的权重数据及对应的神经网络的层更新所述指定存储区中的初始权重数据。

本发明一个实施例中提出了一种基于类别信息对神经网络分步训练的设备，所述设备包括处理器和存储器，所述处理器与所述处理器通过总线连接，所述存储器上存储有计算机程序，所述处理器执行所述存储器上的计算机程序时实现上述的方法，该设备可以是台式计算机、服务器、笔记本、智能终端等等。

本发明一个实施例中提出了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，当所述计算机存储介质上的计算机程序被处理器执行时实现上述的方法，该计算机存储介质可以是硬盘、DVD、CD、闪存等等存储器。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于类别信息对神经网络分步训练的方法，其特征在于，该方法包括：

其中，N远大于n，n大于或等于2。

2.根据权利要求1所述的方法，其特征在于，所述样本集合为图像样本集合、文本样本集合或语音样本集合。

3.根据权利要求2所述的方法，其特征在于，所述选择步骤的操作为：从待训练的N个类别训练样本集合中的所有未标记的类别训练样本集合中随机选取一个类别训练样本集合，然后在其余的未标记的类别训练样本集合中选取与选定的类别训练样本集合相似度最近的n-1个类别训练样本集合，然后标记所述n个类别训练样本集合，并将所述n个类别训练样本集合中的样本乱序排列。

4.根据权利要求3所述的方法，其特征在于，如果N个类别训练样本集合中的所有类别均被标记，则将所有标记重置为未标记。

5.根据权利要求4所述的方法，其特征在于，所述更新步骤的操作为：所述初始权重数据按照所述神经网络的层存储在所述指定存储区中，获取训练后神经网络模型的权重数据，确定变化超过第一阈值的权重数据及对应的神经网络的层，基于变化超过第一阈值的权重数据及对应的神经网络的层更新所述指定存储区中的初始权重数据。

6.一种基于类别信息对神经网络分步训练的装置，其特征在于，该装置包括：

其中，N远大于n，n大于或等于2。

7.根据权利要求6所述的装置，其特征在于，所述选择单元的操作为：从待训练的N个类别训练样本集合中的所有未标记的类别训练样本集合中随机选取一个类别训练样本集合，然后在其余的未标记的类别训练样本集合中选取与选定的类别训练样本集合相似度最近的n-1个类别训练样本集合，然后标记所述n个类别训练样本集合，并将所述n个类别训练样本集合中的样本乱序排列。

8.根据权利要求7所述的装置，其特征在于，如果N个类别训练样本集合中的所有类别均被标记，则将所有标记重置为未标记。

9.根据权利要求8所述的装置，其特征在于，所述更新单元的操作为：所述初始权重数据按照所述神经网络的层存储在所述指定存储区中，获取训练后神经网络模型的权重数据，确定变化超过第一阈值的权重数据及对应的神经网络的层，基于变化超过第一阈值的权重数据及对应的神经网络的层更新所述指定存储区中的初始权重数据。

10.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，当所述计算机存储介质上的计算机程序被处理器执行时实现权利要求1-5任一项的方法。