CN110414618A

CN110414618A - 一种动态平衡分类数据的神经网络训练系统、方法及存储介质

Info

Publication number: CN110414618A
Application number: CN201910715172.XA
Authority: CN
Inventors: 王梓里
Original assignee: Shanghai Tuqu Information Technology Co Ltd
Current assignee: Shanghai Tuqu Information Technology Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-11-05
Anticipated expiration: 2039-08-05
Also published as: CN110414618B

Abstract

本发明公开了一种动态平衡分类数据的神经网络训练系统、方法及存储介质，方案主要包括：输入单元根据预设数据分类方式存储初选数据，优化器获取该初选数据，经处理后获取数据向量以计算各初选数据的重要性分数I并排序，该优化器根据预设筛选比M剔除部分初选数据获取精选数据，输出单元汇总精选数据，组成数据训练模型，向目标神经网络输入供其训练，从而能够实现自动筛除对训练作用小的数据，提高了神经网络的训练效率。

Description

一种动态平衡分类数据的神经网络训练系统、方法及存储介质

技术领域

本发明涉及神经网络训练技术领域，尤其涉及动态平衡分类数据的神经网络训练系统、方法及存储介质。

背景技术

人工神经网络（Artificial Neural Networks，简写为ANNs）也简称为神经网络（NNs）或称作连接模型（Connection Model），它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

而分类神经网络是指用来给需要处理的信息进行分类的人工神经网络，如图像分类神经网络，其用于识别不同的植物，动物等图片。而该图像分类神经网络经过训练模型初次训练并上线后，使用中还会产生新的标签数据，这些数据会用来继续优化训练模型，以逐渐提高分类神经网络的学习效率。

而在这个训练过程中，发明人发现了一个问题：不同类别图像的数量差异随着分类神经网络的训练进度会越来越大，在没有合理筛除数据机制的情况下，将会最终导致训练模型数据量无限增加，从而造成此类神经网络训练的效率越来越低。

发明内容

本发明实施例公开了一种动态平衡分类数据的神经网络训练系统、方法及存储介质，以实现自动筛除对训练作用小的数据，提高神经网络的训练效率。

根据本发明的第一方面，公开了一种动态平衡分类数据的神经网络训练系统，其包括：输入单元根据预设数据分类方式存储初选数据，优化器获取该初选数据，经处理后获取数据向量以计算各初选数据的重要性分数I并排序，该优化器根据预设筛选比M剔除部分初选数据获取精选数据，输出单元汇总精选数据，组成数据训练模型，向目标神经网络输入供其训练。

结合本发明的第一方面，在可能的实施方式中，该输出单元包括：分类文件池及列队组，该分类文件池汇总该优化器传输的精选数据，以供列队组持续抽取并组成数据训练模型。

结合本发明的第一方面，在可能的实施方式中，该预设数据分类方式包括根据数据的：组成特征、表达内容、名称分类标签中任一或其组合的方式进行分类。

结合本发明的第一方面，在可能的实施方式中，该数据向量为三维向量，该重要性分数I计算公式为I =sum((t-out)*out)，其中out为输出的三维数据向量，t为对应数据标签标准向量。

结合本发明的第一方面，在可能的实施方式中，该预设筛选比M为排序后筛除重要性分数较低的M个数的初选数据。

结合本发明的第一方面，在可能的实施方式中，该列队组包括：第一线程列队及第二线程列队，该第一线程列队预加载分类文件池中的精选数据，以当第二线程列队中的精选数据被组成训练模型留出空缺时持续填补。

结合本发明的第一方面，在可能的实施方式中，该优化器及目标神经网络为卷积神经网络，且该优化器的卷积层数低于该目标神经网络。

根据本发明的第二方面，公开了一种动态平衡分类数据的神经网络训练系统，其包括：输入单元根据关键词从英特网爬取对象数据，经预设数据分类方式存储为初选数据，优化器获取该初选数据，经处理后获取数据向量以计算各初选数据的重要性分数并排序，该优化器根据预设筛选比剔除部分初选数据获取精选数据，并向分类文件池中汇总，输出单元抽取分类文件池中的精选数据，组成数据训练模型，以向目标神经网络输入供其训练。

根据本发明的第三方面，公开了一种动态平衡分类数据的神经网络训练方法，步骤包括：输入单元根据预设数据分类方式存储初选数据；优化器获取该初选数据，经处理后获取数据向量；优化器计算各初选数据的重要性分数I并排序；优化器根据预设筛选比M剔除部分初选数据获取精选数据，输出单元汇总精选数据，组成数据训练模型，向目标神经网络输入。

根据本发明的第四方面，公开了一种存储介质，以供计算机读取，该存储介质上存储有指令，该指令用于使得计算机执行权利要求9该的动态平衡分类数据的神经网络训练方法。为了实现上述目的，

通过本发明公开的一种动态平衡分类数据的神经网络训练系统、方法及存储介质，能够实现自动筛除对训练作用小的数据，提高了神经网络的训练效率。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为小规模神经网络数据识别判断概念示意图；

图2为大规模神经网络数据识别判断概念示意图；

图3为本发明的动态平衡分类数据的神经网络训练系统概念示意图；

图4为本发明的动态平衡分类数据的神经网络训练系统结构图；

图5为本发明的动态平衡分类数据的神经网络训练系统结构图；

图6为本发明的动态平衡分类数据的神经网络训练方法流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本领域的技术人员更好的理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

本发明公开的动态平衡分类数据的神经网络训练技术，实现方式上，主要提供了一个比使用的目标神经网络更小规模的优化器，来对数据进行分选处理，使得目标神经网络能够获得更有价值的学习数据。

其中该优化器与目标神经网络在本发明实施例中优选为卷积神经网络，且该优化器优选通过减少神经网络的网络层数，使用系数更高的正则化等手段生成。

这么做的原因在于，小规模的神经网络优化器，虽然在数据分类精度上会下降，但是能够使用更少的数据和更快的速度训练得到大概正确的答案。

如图1所示，黑实线代表两个类别（圆形和三角）的分界线，这个分界线的位置主要由在两条虚线之间的数据决定，而远离该两条虚线的黑实色三角或圆形数据则属于低重要性数据，因为识别率很高从而学习的价值偏低，因此该分界线两侧实色数据对分界线的位置的影响不大。

从而小规模的神经网络的优势在于，因为只需判断数据是否在类别边界附近即可。所以使用小规模的神经网路就已足够，从而能够使用更少的数据和更快的速度得到大概正确的答案。

而如图2所示，虽然大规模的神经网（目标神经网络）络能够得到更精确的分类边界（黑实线的曲线代表），但是小规模的神经网络已经能够有效的判断数据的重要性，而且更加准确，从而可以更好的提高数据分类的效率，籍此挑选出更有价值的数据供目标神经网络学习，由此提高了神经网络的整体训练效率。

其中在优选方案中，如图3所示，该优化器可用已有的数据来训练。因为网络规模小，所以很快就能完成训练，直至训练集的误差不能继续降低。然后使用该优化器来分类所有的训练数据。最后把分类结果确信度高（即神经网络输出的误差小）并且分类正确的数据丢弃。

具体做法包括对所有数据按照确信度排序，只保留确信度最小的一定量的数据。这样就能保证训练数据的数量不会无限增大。并且，当某些类别因为训练数据量太小而被神经网络忽略的时候，这些数据对应的确信度偏低，从而更容易被保留下来。这样不同类别数据的比例也能动态的保持最佳的比例。

因此请参阅图4至图5，根据上述方案，本发明第一方面公开了一种动态平衡分类数据的神经网络训练系统，其包括：输入单元根据预设数据分类方式存储初选数据，优化器获取所述初选数据，经处理后获取数据向量以计算各初选数据的重要性分数I并排序，所述优化器根据预设筛选比M剔除部分初选数据获取精选数据，而输出单元汇总精选数据，组成数据训练模型，向目标神经网络输入供其训练。此外在本实施例方案中，该优化器及目标神经网络优选为卷积神经网络，且所述优化器的卷积层数低于所述目标神经网络。

其中，在优选实施方式中，所述预设数据分类方式包括根据数据的：组成特征、表达内容、名称分类标签中任一或其组合的方式进行分类，例如以菜品图为例，该组成特征可以是组成该菜品的食材特征，比如土豆，鸡肉，大葱等，而名称分类标签可以是菜名，例如：番茄炒蛋，宫保鸡丁，鱼香肉丝等，而该表达内容则范围可以更广泛，例如菜系：粤菜，川菜，本帮菜等；例如图片表达分类：人物，风景，菜品等。

其中所述数据向量为三维向量，所述重要性分数I计算公式为I =sum((t-out)*out)，其中out为输出的三维数据向量，t为对应数据标签标准向量，而所述预设筛选比M为排序后筛除重要性分数较低的M个数的初选数据。

此外本实施例中，该输出单元主要包括：分类文件池及列队组，所述分类文件池汇总所述优化器传输的精选数据，以供列队组持续抽取并组成数据训练模型。

而优选实施方式下，所述列队组包括：第一线程列队及第二线程列队，所述第一线程列队预加载分类文件池中的精选数据，以当第二线程列队中的精选数据被组成训练模型留出空缺时持续填补。

为进一步说明上述实施例的实施方式，举例来说，本实施例中以识别菜品图为例，但并未进行限制，本领域技术人员在理解本发明实施例的基础上，提出其他等同替换实施方式也皆属于在本发明的揭露范围。在本实施例中如有3个菜品：青椒肉丝，土豆烧牛肉，番茄炒蛋。各菜品可用一个三维向量来代表一种菜品：青椒肉丝（1，0，0），土豆烧牛肉（0，1，0），番茄炒蛋（0，0，1）。

而本实施例中的优化器及目标神经网络输入为图像的像素数据，假如菜品图片的分辨率为256*256，那么优化器接收的数据为256*256*3。经过处理后是一个3维的向量：out，这个向量的每一位代表一个分类。每一位的取值在0到1之间。越靠近1，代表图像属于这一类的可能性越大。并且要求向量out的模为1。假如一张图片通过优化器后得到的向量是（0.7, 0.3, 0.03）。则说明有70%的可能性这张图片是青椒肉丝。

而在本实施例下，由于优化器与目标神经网络构架相似，都采用神经网络由多层CNN组成，但优化器的层数本实施例中优选为目标神经网络的四分之一。

当设置好该优化器和目标神经网络的构架后，将搜集到一定量的新的带有标注的初选数据（如每张图片都标注了属于什么菜名的菜品）后。

步骤一：用新得到的数据加上已有的初选数据来训练优化器；

步骤二：在优化器收敛后（神经网路的训练误差不再下降的时候），用优化器对所有初选数据进行分类。假设训练集中有4张图片，分别为：

青椒肉丝A，青椒肉丝B，土豆烧牛肉，番茄炒蛋，每张图片通过优化器处理后，得到4个向量：青椒肉丝A（0.7, 0.3, 0.03），青椒肉丝B（0.9, 0.3, 0.3），土豆烧牛肉（0.2, 0.5,0.84），番茄炒蛋（0.56, 0.2, 0.8）。其中需要说明的是该土豆烧牛肉在本实施例中是以被优化器错误判断为例示出，以代表可能性；

步骤三：计算每个初选数据的重要性分数I，即I =sum((t-out)*out)。out是神经网络输出的向量，t是这个数据的标签对应的向量，*代表向量的点乘，sum代表把向量的所有元素求和。比如第三步中的第一张图片（青椒肉丝A）的重要性分数为：I =sum（（1,0,0）-（0.7,0.3, 0.03）*（1,0,0））=0.3，依此同样可计算得到其他三张图片的重要性分数为：青椒肉丝B（0.1），土豆烧牛肉（0.5），番茄炒蛋（0.2）；

步骤四：计算所有初选数据的重要性分数I并排序。在菜品识别的例子中得到初选数据的排序为：土豆烧牛肉（0.5），青椒肉丝A（0.3），番茄炒蛋（0.2），青椒肉丝B（0.1）

步骤五：将重要性分数I最大的M个数据以外的数据丢弃。剩下的数据则为精选数据，继续用来训练目标神经网络。

在本菜品识别的例子中，为了去除已经高识别率的初选数据，则在本实施例中优选设定M为2，但本领域技术人员可以根据上述实施例理解，该M可以根据当前I的设定值范围动态调节，从而筛除对训练作用小的数据，提高后续目标神经网络的训练效率。

由此，该番茄炒蛋（0.2），和青椒肉丝B（0.1）两份数据就会被抛弃，而青椒肉丝A（0.3）与土豆烧牛肉（0.5）会被保留，从而成为精选数据，并进入分类文件池汇总，以供列队组持续抽取并组成数据训练模型。

其中值得一提的是，本发明的另一种优选实施可能性中，该输出单元，由于采用内存循环加载方案，因此为了不间断的使该目标神经网络获得训练模型，持续进行学习，则该列队组包括：第一线程列队及第二线程列队，所述第一线程列队预加载分类文件池中的精选数据，以当第二线程列队中的精选数据被组成训练模型留出空缺时持续加载填补。从而进一步提高了神经网络的训练效率。

此外请参阅图6，为配合上述动态平衡分类数据的神经网络训练系统，本发明还公开了一种动态平衡分类数据的神经网络训练方法，步骤包括：输入单元根据预设数据分类方式存储初选数据；优化器获取所述初选数据，经处理后获取数据向量；优化器计算各初选数据的重要性分数I并排序；优化器根据预设筛选比M剔除部分初选数据获取精选数据，输出单元汇总精选数据，组成数据训练模型，向目标神经网络输入。

另一方面本发明还公开了一种存储介质，以供计算机读取，所述存储介质上存储有计算机可读指令，所述指令用于使得计算机执行上述动态平衡分类数据的神经网络训练方法。

在另一种优选实施可能性中，本发明还公开了一种动态平衡分类数据的神经网络训练系统，其包括：输入单元根据关键词从英特网爬取对象数据，经预设数据分类方式存储为初选数据，优化器获取所述初选数据，经处理后获取数据向量以计算各初选数据的重要性分数I并排序，所述优化器根据预设筛选比M剔除部分初选数据获取精选数据，并向分类文件池中汇总，输出单元抽取分类文件池中的精选数据，组成数据训练模型，以向目标神经网络输入供其训练。

其中，在优选实施方式中，所述输入单元例如根据关键词，青椒肉丝，土豆烧牛肉，番茄炒蛋等关键词，从英特网中爬取对象图片数据作为初选数据，此外所述预设数据分类方式包括根据数据的：组成特征、表达内容、名称分类标签中任一或其组合的方式进行分类，例如以菜品图为例，该组成特征可以是组成该菜品的食材特征，比如土豆，鸡肉，大葱等，而名称分类标签可以是菜名，例如：番茄炒蛋，宫保鸡丁，鱼香肉丝等，而该表达内容则范围可以更广泛，例如菜系：粤菜，川菜，本帮菜等；例如图片表达分类：人物，风景，菜品等。而本实施例中则放入到菜名分类文件中。

步骤一：用新爬取的数据加上已有的初选数据来训练优化器；

步骤三：计算每个初选数据的重要性分数I，即：I =sum((t-out)*out)。out是神经网络输出的向量，t是这个数据的标签对应的向量，*代表向量的点乘，sum代表把向量的所有元素求和。比如第三步中的第一张图片（青椒肉丝A）的重要性分数为：I =sum（（1,0,0）-（0.7,0.3, 0.03）*（1,0,0））=0.3，依此同样可计算得到其他三张图片的重要性分数为：青椒肉丝B（0.1），土豆烧牛肉（0.5），番茄炒蛋（0.2）；

步骤五：将重要性分数I最大的M个数据以外的数据丢弃。剩下的数据则为精选数据，继续用来训练目标神经网络。在本菜品识别的例子中，为了去除已经高识别率的初选数据，则在本实施例中优选设定M为2，但本领域技术人员可以根据上述实施例理解，该M可以根据当前I的设定值范围动态调节，从而筛除对训练作用小的数据，提高后续目标神经网络的训练效率。

由此，该番茄炒蛋（0.2），和青椒肉丝B（0.1）两份数据就会被抛弃，而青椒肉丝A（0.3）与土豆烧牛肉（0.5）会被保留，从而成为精选数据，并由优化器传输至分类文件池汇总，以供输出单元抽取分类文件池中的精选数据，组成数据训练模型，以向目标神经网络输入供其训练。

综上所述，通过本发明公开的一种动态平衡分类数据的神经网络训练系统、方法及存储介质，能够实现自动筛除对训练作用小的数据，提高了神经网络的训练效率。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种动态平衡分类数据的神经网络训练系统，其包括：输入单元根据预设数据分类方式存储初选数据，优化器获取所述初选数据，经处理后获取数据向量以计算各初选数据的重要性分数I并排序，所述优化器根据预设筛选比M剔除部分初选数据获取精选数据，输出单元汇总精选数据，组成数据训练模型，向目标神经网络输入供其训练。

2.根据权利要求1所述的动态平衡分类数据的神经网络训练系统，其中所述输出单元包括：分类文件池及列队组，所述分类文件池汇总所述优化器传输的精选数据，以供列队组持续抽取并组成数据训练模型。

3.根据权利要求1所述的动态平衡分类数据的神经网络训练系统，其中所述预设数据分类方式包括根据数据的：组成特征、表达内容、名称分类标签中任一或其组合的方式进行分类。

4.根据权利要求1所述的动态平衡分类数据的神经网络训练系统，其中所述数据向量为三维向量，所述重要性分数I计算公式为I =sum((t-out)*out)，其中out为输出的三维数据向量，t为对应数据标签标准向量。

5.根据权利要求1所述的动态平衡分类数据的神经网络训练系统，所述预设筛选比M为排序后筛除重要性分数较低的M个数的初选数据。

6.根据权利要求1所述的动态平衡分类数据的神经网络训练系统，其中所述列队组包括：第一线程列队及第二线程列队，所述第一线程列队预加载分类文件池中的精选数据，以当第二线程列队中的精选数据被组成训练模型留出空缺时持续填补。

7.根据权利要求1所述的动态平衡分类数据的神经网络训练系统，所述优化器及目标神经网络为卷积神经网络，且所述优化器的卷积层数低于所述目标神经网络。

8.一种动态平衡分类数据的神经网络训练系统，其包括：输入单元根据关键词从英特网爬取对象数据，经预设数据分类方式存储为初选数据，优化器获取所述初选数据，经处理后获取数据向量以计算各初选数据的重要性分数I并排序，所述优化器根据预设筛选比M剔除部分初选数据获取精选数据，并向分类文件池中汇总，输出单元抽取分类文件池中的精选数据，组成数据训练模型，以向目标神经网络输入供其训练。

9.一种动态平衡分类数据的神经网络训练方法，步骤包括：

输入单元根据预设数据分类方式存储初选数据；

优化器获取所述初选数据，经处理后获取数据向量；

优化器计算各初选数据的重要性分数I并排序；

优化器根据预设筛选比M剔除部分初选数据获取精选数据，

输出单元汇总精选数据，组成数据训练模型，向目标神经网络输入。

10.一种存储介质，以供计算机读取，所述存储介质上存储有指令，所述指令用于使得计算机执行权利要求9所述的动态平衡分类数据的神经网络训练方法。