CN113361551A

CN113361551A - 图像识别网络训练方法、装置及终端设备

Info

Publication number: CN113361551A
Application number: CN202010145380.3A
Authority: CN
Inventors: 吴涛; 胡文泽; 王孝宇
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2021-09-07

Abstract

本申请适用于数据处理技术领域，提供了图像识别网络训练方法、装置及终端设备，该方法包括：获取初始图像样本数据；基于初始图像样本数据中的各个类别的图像样本数据的第一样本数量，确定在每个训练周期中需从各个类别的图像样本数据中对应抽取的图像样本数据的目标数量；每个类别的图像样本数据对应一个目标数量，且各个目标数量的比值位于预设范围内；每个训练周期中，在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，并基于训练图像样本数据对图像识别网络进行训练。本申请采用各个类别相对较为均衡的图像样本数据训练网络，能够提高召回率且训练后的网络在小样本类别上的性能也较好。

Description

图像识别网络训练方法、装置及终端设备

技术领域

本申请属于数据处理技术领域，尤其涉及图像识别网络训练方法、装置及终端设备。

背景技术

卷积神经网络已经在各大视觉任务中取得了非常优秀的成绩，其能够成功的一个关键因素就是使用了海量干净的标注图像样本数据。然而标注海量的图像样本数据是一项十分耗时耗力的工作，因此标注后的图像样本数据往往存在多个类别的图像样本数据之间较为不均衡的情况，即存在样本数量较多的大样本类别和样本数量较少的小样本类别。而采用上述不均衡的类别分布的图像样本数据训练卷积神经网络，容易导致网络在小样本类别上的低召回率，使得训练出的网络在小样本类别上的性能较差。

发明内容

为克服上述问题，本申请实施例提供了图像识别网络训练方法、装置及终端设备。

本申请是通过如下技术方案实现的：

第一方面，本申请实施例提供了一种图像识别网络训练方法，包括：

获取初始图像样本数据，所述初始图像样本数据包括多个类别的图像样本数据；

基于各个类别的图像样本数据的第一样本数量，确定在每个训练周期中需从各个类别的图像样本数据中对应抽取的图像样本数据的目标数量；其中，每个类别的图像样本数据对应一个目标数量，且各个目标数量的比值位于预设范围内；

每个训练周期中，在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，并基于所述训练图像样本数据对所述图像识别网络进行训练。

可选的，基于各个所述第一样本数量中的最小值对各个类别的图像样本数据进行分组，包括：

确定各个类别的第一样本数量与上述最小值的比例系数；其中，每个所述比例系数对应一个类别的图像样本数据；

基于各个所述比例系数，对各个类别的图像样本数据进行分组。

可选的，确定所述损失函数阈值的过程包括：

确定所述训练图像样本数据中所有图像样本的损失函数值服从的分布，其中噪声样本的损失函数值对应一正态分布，非噪声样本对应一正态分布；

将两个正态分布的交叉点对应的损失函数值作为所述损失函数阈值。

第二方面，本申请实施例提供了一种图像识别网络训练装置，包括：

获取模块，用于获取初始图像样本数据，所述初始图像样本数据包括多个类别的图像样本数据；

数量确定模块，用于基于各个类别的图像样本数据的第一样本数量，确定在每个训练周期中需从各个类别的图像样本数据中对应抽取的图像样本数据的目标数量；其中，每个类别的图像样本数据对应一个目标数量，且各个目标数量的比值位于预设范围内；

训练模块，用于每个训练周期中，在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，并基于所述训练图像样本数据对所述图像识别网络进行训练。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的图像识别网络训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的图像识别网络训练方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的图像识别网络训练方法。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例，获取包括多个类别的图像样本数据的初始图像样本数据，根据各个类别的图像样本数据的第一样本数量，确定在每个训练周期中需从各个类别的图像样本数据中对应抽取的图像样本数据的目标数量，且每个类别的图像样本数据的目标数量的比值位于预设范围内，在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，并基于训练图像样本数据对图像识别网络进行训练，因此在每个训练周期中，从每个类别的图像样本数据中抽取的图像样本数据之间的比例不超出预设范围，使得训练图像样本数据中各个类别的图像样本数据之间不会存在重度不均衡的情况，采用各个类别相对较为均衡的图像样本数据训练图像识别网络能够改善或解决采用不均衡的类别分布的图像样本数据训练图像识别网络所导致的低召回率的问题，而且训练后的图像识别网络在小样本类别上的性能也较好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的图像识别网络训练方法的应用场景示意图；

图2是本申请一实施例提供的图像识别网络训练方法的流程示意图；

图3是本申请一实施例提供的图像识别网络训练方法的流程示意图；

图4是本申请一实施例提供的图像识别网络训练方法的流程示意图；

图5是本申请一实施例提供的过滤噪声样本阈值选取示意图；

图6是本申请一实施例提供的图像识别网络训练方法的流程示意图；

图7是本申请一实施例提供的图像识别网络训练方法的流程示意图；

图8是本申请一实施例提供的图像识别网络训练装置的结构示意图；

图9是本申请一实施例提供的图像识别网络训练装置的结构示意图；

图10是本申请一实施例提供的终端设备的结构示意图；

图11是本申请一实施例提供的图像识别网络训练方法所适用于的计算机的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

卷积神经网络已经在各大视觉任务中取得了非常优秀的成绩，其能够成功的一个关键因素就是使用了海量干净的标注图像样本数据。然而标注海量的图像样本数据是一项十分耗时耗力的工作，因此标注后的图像样本数据往往存在多个类别的图像样本数据之间重度不均衡的情况，即存在样本数量较多的大样本类别和样本数量较少的小样本类别。而采用上述不均衡的类别分布的图像样本数据训练卷积神经网络，容易导致网络在小类别样本上的低召回率，训练出的网络在小样本类别上的性能较差。

基于上述问题，本申请实施例提供一种图像识别网络训练方法、装置及终端设备，获取包括多个类别的图像样本数据的初始图像样本数据，根据各个类别的图像样本数据的样本数量，确定在每个训练周期中需从各个类别的图像样本数据中对应抽取的图像样本数据的目标数量，且每个类别的图像样本数据的目标数量的比值位于预设范围内，在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，并基于训练图像样本数据对图像识别网络进行训练，因此在每个训练周期中，从每个类别的图像样本数据中抽取的图像样本数据之间的比例不超出预设范围，使得每个训练周期的训练图像样本数据中各个类别的图像样本数据之间不会存在重度不均衡的情况，采用各个类别相对较为均衡的图像样本数据训练图像识别网络能够改善或解决采用不均衡的类别分布的图像样本数据训练图像识别网络所导致的低召回率的问题，使得训练后的图像识别网络在小样本类别上的性能也较好。

举例说明，本申请实施例可以应用到如图1所示的示例性场景中。在该场景中，用户可以通过终端10将初始图像样本数据发送给服务器20，例如初始图像样本数据可以与存在终端10中，或者用户通过终端10从其他终端中获取初始图像样本数据，本申请实施例对此不予限定。服务器20在接收到终端10发送的初始图像样本数据后，可以根据各个类别的图像样本数据的样本数量，确定在每个训练周期中需从各个类别的图像样本数据中对应抽取的图像样本数据的目标数量，且每个类别的图像样本数据的目标数量的比值位于预设范围内，在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，并基于训练图像样本数据对图像识别网络进行训练。

以下结合图1，对本申请实施例中的技术方案进行说明。

图2是本申请一实施例提供的图像识别网络训练方法的示意性流程图，参照图2，对该图像识别网络训练方法的详述如下：

在步骤101中，获取初始图像样本数据。

其中，上述初始图像样本数据可以包括多个类别的图像样本数据。

示例性的，初始图像样本数据N可以包括c个类别的图像样本数据N₁,N₂,…,N_c，各个类别的图像样本数据的样本数量分别为n₁,n₂,…,n_c。其中，n₁,n₂,…,n_c通常不同，且可能存在相差较大的情况，即多个类别的图像样本数据之间较为不均衡的情况。

对于上述的不均衡具体可以为两个类别的图像样本数据的样本数量的比值大于或等于不均衡阈值，例如该不均衡阈值可以为50。具体地，在以上c个类别的图像样本数据中，若存在图像样本数据N_i和N_j的样本数量的比值大于或等于50，则图像样本数据N_i和N_j之间为重度不均衡，上述初始图像样本数据为重度不均衡的图像样本数据，其中，1≤i,j≤c，且i≠j。

需要说明的是，上述不均衡阈值以50为例仅为示例性说明，并不以此为限，在其他实施例中不均衡阈值还可以取其他能够表征重度不均衡的数值，例如10、20、30、40、60等任意数值。而且本申请实施例不限于各个类别的图像样本数据的样本数量之间相差加大的情况，本申请实施例也可以用于各个类别的图像样本数据的样本数量之间相差较小的情况。

在步骤102中，基于各个类别的图像样本数据的第一样本数量，确定在每个训练周期中需从各个类别的图像样本数据中对应抽取的图像样本数据的目标数量。

其中，每个类别的图像样本数据对应一个目标数量，且各个目标数量的比值位于预设范围内。该预设范围可以基于上述不均衡阈值进行设定，例如该预设范围的下限可以为该不均衡阈值的倒数，该预设范围的上限可以为该不均衡阈值。由于任意两个目标数量之间的比值均位于该预设范围内，因此基于各个目标数量从各个类别的图像样本数据中抽取对应数量的图像样本数据对图像识别网络进行训练，能够采用各个类别相对较为均衡的图像样本数据训练图像识别网络，改善或避免图像识别网络倾向于大样本数据方向，进而改善或解决采用不均衡的类别分布的图像样本数据训练图像识别网络所导致的低召回率的问题，而且训练后的图像识别网络在小样本类别上的性能也较好。

作为一种可实施方式，步骤102中可以通过对各个类别的图像样本数据进行分组的方式，确定各个类别的图像样本数据对应的目标数量。

具体地，参见图3，步骤102可以包括：

在步骤1021中，基于各个类别的图像样本数据的第一样本数量，对各个类别的图像样本数据进行分组。

其中，每个类别的图像样本数据对应至少一组图像样本数据，且各个类别的图像样本数据对应的组数可以不同。可选的，第一样本数量较大的类别的图像样本数据对应的组数可以较多，第一样本数量较小的类别的图像样本数据对应的组数可以较少，从而能够通过分组的形式对各个类别的图像样本数据之间的不均衡度至少在一定程度上进行改善或解决。

示例性的，可以基于各个第一样本数量中的最小值对各个类别的图像样本数据进行分组。具体地，可以根据n₁,n₂,…,n_C中的最小值n_min为分组基数，对各个类别的图像样本数据进行分组，将每个类别的图像样本数据分为至少一组图像样本数据。

在一种实施例中，可以以n_min为一组图像样本数据的样本数量基数，对各个类别的图像样本数据进行分组。具体地，可以确定各个类别的第一样本数量与上述最小值的比例系数；其中，每个所述比例系数对应一个类别的图像样本数据；然后基于各个所述比例系数，对各个类别的图像样本数据进行分组。

示例性的，以上述c个类别的图像样本数据N₁,N₂,…,N_c为例进行说明，其中n₁≤n₂≤…≤n_c，即样本数量n₁为最小值，计算第一样本数量n_i相对于样本数量n₁的比例系数r_i：

其中，ceil(·)表示向上取整，1≤i≤c。在得到比例系数r_i后，根据比例系数r_i对图像样本数据N_i进行分组，例如可以将图像样本数据N_i分为r_i组图像样本数据，从而使得各个图像样本数据N_i的大部分组的图像样本数据的样本数量都相同。

在另一种实施例中，可以以n_min与预设整数的商为一组图像样本数据的样本数量，对各个类别的图像样本数据进行分组，其分组过程可以参考上述以n_min为一组图像样本数据的样本数量对各个类别的图像样本数据进行分组的过程。

在另一种实施例中，可以对不同类别的图像样本数据采用不同的分组数量进行分组，即第一样本数量较大的类别的图像样本数据对应的组数较多、第一样本数量较小的类别的图像样本数据对应的组数较少即可，通过分组的形式对各个类别的图像样本数据之间的不均衡度至少在一定程度上进行缓解或解决。

在步骤1022中，确定在每个训练周期中需从各个类别的图像样本数据中抽取的图像样本数据的组数。

其中，各个类别的图像样本数据对应抽取的样本数量之间的比值位于所述预设范围内，即每个训练周期中用于训练图像识别网络的各个类别的图像样本数据的样本数量之间的比值位于上述预设范围内。

例如，以n_min为一组图像样本数据的样本数量，对各个类别的图像样本数据进行分组，则步骤1022中各个类别的图像样本数据中抽取的图像样本数据的组数之间的比值位于上述预设范围内；以n_min与预设整数的商为一组图像样本数据的样本数量，对各个类别的图像样本数据进行分组，则步骤1022中各个类别的图像样本数据中抽取的图像样本数据的组数之间的比值位于上述预设范围内。

需要说明的是，步骤102中也可以不对各个类别的图像样本数据进行分组，可以直接确定各个类别的图像样本数据对应的目标数量，各个目标数量的比值位于预设范围内即可，本申请实施例对此不予限定。

在步骤103中，每个训练周期中，在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，并基于所述训练图像样本数据对所述图像识别网络进行训练。

作为一种可实施方式，步骤103中所述的在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，具体可以为：

对于每个类别的图像样本数据，按照各组图像样本数据在当前类别的图像样本数据中的顺序，依次抽取至少一组图像样本数据与其他每个类别的图像样本数据的至少一组图像样本数据构成每个训练周期的训练图像样本数据。

其中，对于各个类别的图像样本数据，抽取的组数均为至少一组，如前所述内容可知，抽取的组数可以相同也可以不同，以下以对各个类别的图像样本数据均抽取一组图像样本数据为例进行示例性说明，但不以此为限。

对于图像样本数据N₁,N₂,…,N_c，按照比例系数r_i分别切分为r_i组图像样本数据

1≤i≤c，1≤j≤r_i。对于图像样本数据N_i，按照图像样本数据

在图像样本数据N_i的顺序，依次抽取一组图像样本数据

与其他每个类别的图像样本数据的一组图像样本数据构成每个训练周期的训练图像样本数据。

具体地，在上一训练周期中，对于图像样本数据N_i，抽取图像样本数据

与其他每个类别的图像样本数据的一组图像样本数据构成每个训练周期的训练图像样本数据；在当前训练周期中，对于图像样本数据N_i，抽取图像样本数据

与其他每个类别的图像样本数据的一组图像样本数据构成每个训练周期的训练图像样本数据；在下一训练周期中，对于图像样本数据N_i，抽取图像样本数据

其中，在当前训练周期中，若图像样本数据

为图像样本数据N_i的最后一组图像样本数据，则在下一训练周期中，对于图像样本数据N_i从头抽取图像样本数据，即抽取图像样本数据

而对于只有一组图像样本数据的图像样本数据N_i，在每个训练周期中，可以将图像样本数据N_i与其他每个类别的图像样本数据的一组图像样本数据构成每个训练周期的训练图像样本数据。

本申请实施例，对每个类别的图像样本数据，按照各组图像样本数据在当前类别的图像样本数据中的顺序，依次抽取至少一组图像样本数据与其他每个类别的图像样本数据的至少一组图像样本数据构成每个训练周期的训练图像样本数据，能够通过所有的图像样本数据对图像识别网络进行训练，增加网络训练的准确性。

另外，以上以正序为例进行说明，在其他实施例中，也可以按照倒序依此从图像样本数据N_i中抽取图像样本数据

本申请实施例对此不予限定。

一些实施例中，各个类别的图像样本数据中可能包含一些噪声样本，而在噪声样本所占的比例较大时，基于包含较大比例的噪声样本的训练图像样本数据对图像识别网络进行训练，可能会导致训练出的图像识别网络对噪声样本过度拟合。其中，噪声样本所占的比例超过比例阈值，可能会出现上述过渡拟合的情况，示例性的，该比例阈值可以为10％、20％、30％、40％等任意数值，本申请实施例对此不予限定。

基于上述噪声样本所占的比例较大可能导致的过度拟合的问题，可以在对所述图像识别网络进行训练中过滤掉噪声样本得到有效训练图像样本数据，再基于有效训练图像样本数据对图像识别网络进行训练，从而能够减轻噪声样本导致的过度拟合的问题。

具体地，参见图4，步骤103中所述的基于所述训练图像样本数据对所述图像识别网络进行训练，可以包括：

在步骤201中，计算所述训练图像样本数据中每个图像样本的损失函数值。

在步骤202中，基于各个图像样本的损失函数值的分布，确定损失函数阈值。

在步骤203中，基于有效训练图像样本数据对所述图像识别网络进行训练。

其中，上述有效训练图像样本数据为将上述训练图像样本数据中除去损失函数值大于上述损失函数阈值的噪声样本，得到的图像样本数据。

本实施例中，该训练图像样本数据中包括由各个类别的图像样本数据构成的多组图像样本数据，每组图像样本数据中包括多个图像样本，在计算得出每个图像样本的损失函数值后，可以确定所有图像样本的损失函数值的分布情况，根据该分布情况确定一损失函数阈值，大于该损失函数阈值的图像样本为噪声样本，因此可以将大于该损失函数阈值的图像样本过滤掉，得到有效训练图像样本数据。

示例性的，确定上述损失函数阈值的过程可以为：

确定上述训练图像样本数据中所有图像样本的损失函数值服从的分布，其中噪声样本的损失函数值对应一正态分布，非噪声样本的损失函数值对应另一正态分布；将两个正态分布的交叉点对应的损失函数值作为上述损失函数阈值。

具体地，对于存在较大比例的噪声样本的情况，所有图像样本的损失函数值的分布对应两个正态分布，如图5所示，噪声样本的损失函数值的分布对应右侧的正态分布，非噪声样本的损失函数值的分布对应左侧的正态分布，而两个正态分布之间具有交叉，可以将该交叉点对应的损失函数值作为上述损失函数阈值。

示例性的，过滤噪声样本的方式具体可以为：在反向传播损失函数的过程中，不回传噪声样本的损失，从而避免这些噪声样本对网络训练带来的影响。

可以理解的，在过滤掉噪声样本后，各个类别的图像样本数据的样本数量可能不同，甚至可能出现部分类别的图像样本数据的样本数量之间差异较大的情况，因此为了保证当前训练周期中的各个类别的图像样本数据的样本数量较为均衡，可以对各个类别的图像样本数据进行加权处理，从而使得有效训练图像样本数据中的各个类别的图像样本数据之间更加均衡。

具体地，参见图6，步骤203可以包括：

在步骤2031中，基于所述有效训练图像样本数据中的各个类别的图像样本数据的第二样本数量，生成多个加权系数。

其中，每个加权系数对应一个类别的图像样本数据，且上述加权系数与上述第二样本数量成反比。即，第二样本数量越大的一个类别的图像样本数据，其对应的加权系数越小；而第二样本数量越小的一个类别的图像样本数据，其对应的加权系数越大，从而达到均衡各组图像样本数据的效果。

示例性的，步骤2031的实现过程可以包括：

获取所述有效训练图像样本数据中各个类别的图像样本数据的第二样本数量，并计算各个所述第二样本数量的总和；

将各个所述第二样本数量与所述总和的比值作为预设函数的自变量，生成对应的加权系数；其中，所述预设函数的因变量与自变量成反比关系。

具体地，可以通过因变量与自变量成反比关系的预设函数，根据各个第二样本数量与总和的比值确定对应的加权系数。其中，本申请实施例对该预设函数的具体形式不予限定，其因变量与自变量成反比关系从而能够均衡各组图像样本数据即可。

一些实施例中，该预设函数可以为指数函数。示例性的，加权系数w_i可以为：

其中，w_i为第i个类别的图像样本数据的加权系数，m₁,m₂,…,m_c为在所述有效训练图像样本数据中各个类别的图像样本数据的第二样本数量，1≤i≤c。

需要说明的是，在其他实施例中，加权系数还可以为其他指数函数，或为其他函数，上述指数函数仅为示例性说明。

一个实施例中，在每个训练周期中从各个类别的图像样本数据抽取一组图像样本数据的情况，可以基于所述有效训练图像样本数据中各组图像样本数据的第二样本数量生成多个加权系数，每个加权系数对应一组图像样本数据。具体地，获取所述有效训练图像样本数据中各组图像样本数据的样本数量，并计算各组图像样本数据的样本数量的总和；将各组图像样本数据的样本数量与上述总和的比值作为预设函数的自变量，生成对应的加权系数；其中，上述预设函数的因变量与自变量成反比关系。

在步骤2032中，基于所述多个加权系数，对所述有效训练图像样本数据进行加权处理。

在步骤2033中，基于经过所述加权处理后的有效训练图像样本数据，对所述图像识别网络进行训练。

其中，步骤2031中得出的加权系数与上述第二样本数量成反比，因此可以根据各个加权系数与有效训练图像样本数据中对应类别的图像样本数据进行加权处理，从而保证当前训练周期中的各个类别的图像样本数据的样本数量较为均衡。

示例性的，可以将各个类别的图像样本数据的损失函数与对应的加权系数相乘，将乘积回传给神经网络，此时不回传噪声样本对应的损失函数，计算神经网络的全连接层、下采样层、卷积层等层基于该乘积的损失，基于各层的损失对各层的参数进行更新。

上述图像识别网络训练方法，能够采用各个类别相对较为均衡的图像样本数据训练图像识别网络，改善或避免网络倾向于大样本数据方向，进而能够改善或解决采用不均衡的类别分布的图像样本数据训练图像识别网络所导致的低召回率的问题，而且训练后的图像识别网络在小样本类别上的性能也较好；同时对训练图像样本数据中的噪声样本进行过滤，能够改善或解决网络对噪声样本过度拟合的情况；而且在过滤噪声样本后，对各个类别的图像样本数据进行加权处理，从而使得各个类别的图像样本数据之间更加均衡；而且在提升小样本类别上的召回率和改善噪声样本的过度拟合问题的同时，能够有效改善网络的泛化性能。

图7是本申请一实施例提供的图像识别网络训练方法的示意性流程图，参照图7，对该图像识别网络训练方法的详述如下：

在步骤301中，获取初始图像样本数据N，所述初始图像样本数据包括C个类别的图像样本数据N₁,N₂,…,N_C，各个类别的图像样本数据的样本数量分别为n₁,n₂,…,n_c，且n₁≤n₂≤…≤n_c。

在步骤302中，基于各个类别的图像样本数据的第一样本数量中的最小值n₁，对各个类别的图像样本数据进行分组，将各个类别的图像样本数据分为至少一组图像样本数据。

在步骤303中，在对图像识别网络进行训练的当前训练周期中，在各个类别的图像样本数据中分别抽取一组图像样本数据组成当前训练周期的训练图像样本数据。

在步骤304中，计算上述训练图像样本数据中每个图像样本的损失函数值。

在步骤305中，基于各个图像样本的损失函数值的分布，确定损失函数阈值，并根据损失函数阈值确定有效训练图像样本数据；其中，该有效训练图像样本数据为所述训练图像样本数据中除去损失函数值大于所述损失函数阈值的噪声样本，得到的图像样本数据。

在步骤306中，基于上述有效训练图像样本数据中的各组图像样本数据的第二样本数量，生成多个加权系数；其中，每个加权系数对应上述有效训练图像样本数据中的一组图像样本数据，且加权系数与第二样本数量成反比。

在步骤307中，基于上述多个加权系数，对上述有效训练图像样本数据进行加权处理。

在步骤308中，基于经过加权处理后的有效训练图像样本数据，对图像识别网络进行训练。

在步骤309中，检测当前训练周期数是否达到预设训练周期数，若当前训练周期数达到预设训练周期数，结束对图像识别网络的训练；若当前训练周期数未达到预设训练周期数，执行步骤303，对图像识别网络进行下一次训练。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的图像识别网络训练方法，图8至图9示出了本申请实施例提供的图像识别网络训练装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参见图8，本申请实施例中的图像识别网络训练装置可以包括获取模块401、分组模块402和训练模块403。

其中，获取模块401，用于获取初始图像样本数据，所述初始图像样本数据包括多个类别的图像样本数据；

数量确定模块402，用于基于各个类别的图像样本数据的第一样本数量，确定在每个训练周期中需从各个类别的图像样本数据中对应抽取的图像样本数据的目标数量；其中，每个类别的图像样本数据对应一个目标数量，且各个目标数量的比值位于预设范围内；

训练模块403，用于每个训练周期中，在各个类别的图像样本数据中分别抽取对应目标数量的图像样本数据组成当前训练周期的训练图像样本数据，并基于所述训练图像样本数据对所述图像识别网络进行训练。

参见图9，一些实施例中，数量确定模块402可以包括：

分组单元4021，用于基于各个类别的图像样本数据的第一样本数量，对各个类别的图像样本数据进行分组；其中，每个类别的图像样本数据对应至少一组图像样本数据；

组数确定单元4022，用于确定在每个训练周期中需从各个类别的图像样本数据中抽取的图像样本数据的组数；其中，各个类别的图像样本数据对应的组数的比值位于所述预设范围内。

可选的，分组单元4021具体可以用于：

获取各个类别的图像样本数据的第一样本数量；

基于各个所述第一样本数量中的最小值对各个类别的图像样本数据进行分组。

一些实施例中，训练模块403具体可以用于：

参见图9，一些实施例中，训练模块403具体可以包括：

计算单元4031，用于计算所述训练图像样本数据中每个图像样本的损失函数值；

确定单元4032，用于基于各个图像样本的损失函数值的分布，确定损失函数阈值；

训练单元4033，用于基于有效训练图像样本数据对所述图像识别网络进行训练；其中，所述有效训练图像样本数据为所述训练图像样本数据中除去损失函数值大于所述损失函数阈值的噪声样本，得到的图像样本数据。

可选的，训练单元4033具体可以用于：

基于所述有效训练图像样本数据中的各个类别的图像样本数据的第二样本数量，生成多个加权系数；其中，每个加权系数对应一个类别的图像样本数据，且所述加权系数与所述第二样本数量成反比；

基于所述多个加权系数，对所述有效训练图像样本数据进行加权处理；

基于经过所述加权处理后的有效训练图像样本数据，对所述图像识别网络进行训练。

示例性的，上述基于所述有效训练图像样本数据中的各个类别的图像样本数据的第二样本数量，生成多个加权系数，具体可以包括：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，参见图10，该终端设备500可以包括：至少一个处理器510、存储器520以及存储在所述存储器520中并可在所述至少一个处理器510上运行的计算机程序，所述处理器510执行所述计算机程序时实现上述任意各个方法实施例中的步骤，例如图2所示实施例中的步骤101至步骤103。或者，处理器510执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块401至403的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器520中，并由处理器510执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段，该程序段用于描述计算机程序在终端设备500中的执行过程。

本领域技术人员可以理解，图10仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

处理器510可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器520可以是终端设备的内部存储单元，也可以是终端设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。所述存储器520用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器520还可以用于暂时地存储已经输出或者将要输出的数据。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请实施例提供的图像识别网络训练方法可以应用于智能手机、计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

以所述终端设备为计算机为例。图11示出的是与本申请实施例提供的计算机的部分结构的框图。参考图11，计算机包括：通信电路610、存储器620、输入单元630、显示单元640、音频电路650、无线保真(wireless fidelity，WiFi)模块660、处理器670以及电源680等部件。本领域技术人员可以理解，图11中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对计算机的各个构成部件进行具体的介绍：

通信电路610可用于收发信息或通话过程中信号的接收和发送，给处理器670处理。通常，通信电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，通信电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(GeneralPacket Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long TermEvolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器670通过运行存储在存储器620的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与计算机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器670，并能接收处理器670发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及计算机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器670以确定触摸事件的类型，随后处理器670根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图11中，触控面板631与显示面板641是作为两个独立的部件来实现计算机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现计算机的输入和输出功能。

音频电路650可提供用户与计算机之间的音频接口。音频电路650可将接收到的音频数据转换后的电信号，传输到扬声器由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路650接收后转换为音频数据，再将音频数据输出处理器670处理后，经通信电路610以发送给比如另一计算机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，计算机通过WiFi模块660可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块660，但是可以理解的是，其并不属于计算机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器670是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器670可包括一个或多个处理单元；优选的，处理器670可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器670中。

计算机还包括给各个部件供电的电源680(比如电池)，优选的，电源680可以通过电源管理系统与处理器670逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述图像识别网络训练方法各个实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述图像识别网络训练方法各个实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，所揭露的装置/和方法仅仅是示意性的，可以通过其它的方式实现。例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中部分或者全部单元来实现本实施例方案。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别网络训练方法，其特征在于，包括：

2.如权利要求1所述的图像识别网络训练方法，其特征在于，所述基于各个类别的图像样本数据的第一样本数量，确定在每个训练周期中需从各个类别的图像样本数据中抽取的图像样本数据的目标数量，包括：

基于各个类别的图像样本数据的第一样本数量，对各个类别的图像样本数据进行分组；其中，每个类别的图像样本数据对应至少一组图像样本数据；

确定在每个训练周期中需从各个类别的图像样本数据中抽取的图像样本数据的组数。

3.如权利要求2所述的图像识别网络训练方法，其特征在于，所述基于各个类别的图像样本数据的第一样本数量，对各个类别的图像样本数据进行分组，包括：

获取各个类别的图像样本数据的第一样本数量；

4.如权利要求2所述的图像识别网络训练方法，其特征在于，所述在各个类别的图像样本数据中分别抽取目标数量的图像样本数据组成当前训练周期的训练图像样本数据，包括：

5.如权利要求1至4任一项所述的图像识别网络训练方法，其特征在于，所述基于所述训练图像样本数据对所述图像识别网络进行训练，包括：

计算所述训练图像样本数据中每个图像样本的损失函数值；

基于各个图像样本的损失函数值的分布，确定损失函数阈值；

基于有效训练图像样本数据对所述图像识别网络进行训练；其中，所述有效训练图像样本数据为所述训练图像样本数据中除去损失函数值大于所述损失函数阈值的噪声样本，得到的图像样本数据。

6.如权利要求5所述的图像识别网络训练方法，其特征在于，所述基于有效训练图像样本数据对所述图像识别网络进行训练，包括：

7.如权利要求6所述的图像识别网络训练方法，其特征在于，所述基于所述有效训练图像样本数据中的各个类别的图像样本数据的第二样本数量，生成多个加权系数，包括：

8.一种图像识别网络训练装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。