CN111046959A

CN111046959A - 模型训练方法、装置、设备和存储介质

Info

Publication number: CN111046959A
Application number: CN201911292758.6A
Authority: CN
Inventors: 周康明; 胡威
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-21

Abstract

本申请涉及一种模型训练方法、装置、设备和存储介质，计算机设备获取计算机视觉任务的训练样本集，训练样本集包括多个训练样本和每个训练样本的识别标签，并将多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，以基于平均绝对误差函数MAE和交叉熵函数CCE进行融合后得到的目标损失函数的值，对初始神经网络模型进行训练，得到目标神经网络模型，也即是说，本申请所提供的模型训练方法，通过MAE提高了神经网络模型对错误样本的鲁棒性，同时通过CCE提高了根据目标损失函数得到的神经网络模型的准确度，使得训练样本集中存在错误样本时，通过目标损失函数得到的神经网络模型的识别准确度。

Description

模型训练方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及了一种模型训练方法、装置、设备和存储介质。

背景技术

计算机设备视觉任务中，通常采用神经网络模型进行数据处理。

在执行计算机设备视觉任务时，以训练用于识别图像的神经网络为例，通常是将待识别图像输入神经网络模型中，通过神经网络模型输出图像的识别结果。在通过神经网络模型处理视觉任务之前时，通常会先将大量的样本数据作为神经网络模型的输入，将样本数据对应的标签作为神经网络模型的参考输出，进而根据样本数据的标签与神经网络模型输出的结果之间的偏差，调整神经网络模型的参数，得到最终的神经网络模型，该过程被称为训练神经网络模型。

然而，上述训练过程所训练的神经网络模型在执行例如图像识别的任务时，其识别准确度不高。

发明内容

基于此，有必要针对传统方法所训练的神经网络模型识别准确度不高的问题，提供了一种模型训练方法、装置、设备和存储介质。

第一方面，一种模型训练方法，该方法包括：

计算机设备获取计算机视觉任务的训练样本集，训练样本集包括多个训练样本和每个训练样本的识别标签；

计算机设备将多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，以目标损失函数的值对初始神经网络模型进行训练，得到目标神经网络模型；

其中，目标损失函数为基于平均绝对误差函数MAE和分类交叉熵函数CCE进行融合后得到的函数。

在其中一个实施例中，上述目标损失函数的获取方法，包括：

计算机设备基于训练样本集，获取训练样本集中错误样本的占比信息；

计算机设备根据占比信息确定与错误样本数量有关的权重因子；

计算机设备根据权重因子、MAE和CCE确定目标损失函数。

在其中一个实施例中，上述权重因子为q，q的范围为不小于0且不大于1，计算机设备根据权重因子、MAE和CCE确定目标损失函数，包括：

根据公式q*MAE+(1-q)*CCE确定目标损失函数。

在其中一个实施例中，上述占比信息所指示的错误样本的占比越大，则权重因子越大；占比信息所指示的错误样本的占比越小，则权重因子越小。

在其中一个实施例中，上述计算机设备根据占比信息确定与错误样本数量有关的权重因子，包括：

计算机设备根据占比信息自适应确定多个权重因子；

对应的，计算机设备根据权重因子、MAE和CCE确定目标损失函数，包括:

计算机设备根据多个权重因子、MAE和CCE确定多个候选损失函数；

计算机设备根据每个候选损失函数对应的神经网络模型与计算机设备的计算资源匹配度，确定目标损失函数；目标损失函数对应的神经网络模型与计算机设备的计算资源的匹配度最高。

在其中一个实施例中，上述计算机设备基于训练样本集，获取训练样本集中错误样本的占比信息，包括：

计算机设备采用样本遗忘工具处理训练样本集，筛选出训练样本集中的错误样本；

计算机设备基于错误样本的个数计算训练样本集中错误样本的占比信息。

在其中一个实施例中，上述计算机设备采用样本遗忘工具处理训练样本集，筛选出训练样本集中的错误样本，包括：

计算机设备采用样本遗忘工具动态统计每个训练样本在每次训练过程中的累积遗忘次数；

计算机设备基于累积遗忘次数和预设的遗忘阈值列表，确定训练样本是否为错误样本；

其中，遗忘阈值列表包括多个遗忘阈值，每个遗忘阈值与当前的训练次数有关。

在其中一个实施例中，上述计算机设备基于累积遗忘次数和预设的遗忘阈值列表，确定训练样本是否为错误样本，包括：

计算机设备基于当前的训练日志获取当前的训练进度；

计算机设备基于当前的训练进度自适应调整遗忘阈值列表中的每个遗忘阈值，并基于遗忘阈值确定当前训练过程中训练样本是否为错误样本。

第二方面，一种模型训练装置，该装置包括：

获取模块，用于获取计算机视觉任务的训练样本集，训练样本集包括多个训练样本和每个训练样本的识别标签；

训练模块，用于将多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，以目标损失函数的值对初始神经网络模型进行训练，得到目标神经网络模型；

其中，目标损失函数为基于平均绝对误差函数MAE和交叉熵函数CCE进行融合后得到的函数。

第三方面，一种计算机设备设备，包括存储器和处理器，所述存储器存储有计算机设备程序，所述处理器执行所述计算机设备程序时实现上述模型训练方法所述的方法步骤。

第四方面，一种计算机设备可读存储介质，其上存储有计算机设备程序，所述计算机设备程序被处理器执行时实现上述模型训练方法所述的方法步骤。

上述模型训练方法、装置、设备和存储介质，计算机设备获取计算机视觉任务的训练样本集，训练样本集包括多个训练样本和每个训练样本的识别标签，并将多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，以基于平均绝对误差函数MAE和交叉熵函数CCE进行融合后得到的目标损失函数的值，对初始神经网络模型进行训练，得到目标神经网络模型，也即是说，本申请所提供的模型训练方法，通过MAE提高了神经网络模型对错误样本的鲁棒性，同时通过CCE提高了根据目标损失函数得到的神经网络模型的准确度，使得训练样本集中存在错误样本时，通过目标损失函数得到的神经网络模型的识别准确度。

附图说明

图1为一个实施例中模型训练方法的应用环境的示意图；

图2为一个实施例中模型训练方法的流程示意图；

图3为另一个实施例中模型训练方法的流程示意图；

图4为另一个实施例中模型训练方法的流程示意图；

图5为另一个实施例中模型训练方法的流程示意图；

图6为另一个实施例中模型训练方法的流程示意图；

图7为另一个实施例中模型训练方法的流程示意图；

图8为一个实施例中提供的模型训练装置的结构示意图；

图9为另一个实施例中提供的模型训练装置的结构示意图；

图10为一个实施例中计算机设备设备的内部结构图。

具体实施方式

本申请提供的模型训练方法、装置、设备和存储介质，旨在解决传统方法所训练的神经网络模型识别准确度不高的问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

本实施例提供的模型训练方法，可以适用于如图1所示的应用环境中。其中，计算机设备100可以对待识别图像110进行识别，得到识别结果。待识别图像110可以是通过图像采集设备获取的图像，也可以是预存的图像，本申请实施例对此不做限制。计算机设备100可以但不限于为智能手机、平板电脑、笔记本电脑、台式电脑或个人数字助理等具有数据处理功能的电子设备，本实施例对计算机设备100的具体形式不做限定，图像采集设备可以但不限于摄像头、相机和带拍摄功能的电子设备。需要说明的是，本申请实施例所述的模型训练方法，还适用于声音识别任务。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

图2为一个实施例中模型训练方法的流程示意图。该方法应用与图1中所示的计算机设备中。如图2所示，该方法包括以下步骤：

S101、计算机设备获取计算机视觉任务的训练样本集，训练样本集包括多个训练样本和每个训练样本的识别标签。

其中，计算机视觉任务可以通过计算机设备对图像进行检测、识别或分类的任务，例如，计算机视觉任务可以是目标检测任务、图像识别任务或目标分类任务，本申请实施例对此不做限制。训练样本集中可以包括多个训练样本和每个训练样本的识别标签，其中训练样本可以是用于训练初始神经网络模型的训练图像，例如，当计算机视觉任务是图像识别任务时，训练样本可以是用于训练图像识别模型的待识别样本图像。训练样本的识别标签可以指示该训练样本实际指示的结果，其可以是在训练之前，对训练样本进行标注得到的识别标签。继续以计算机视觉任务是图像识别任务为例，训练样本的识别标签可以是对上述待识别样本图像的识别目标进行标记得到的标签信息。在具体获取计算机视觉任务的训练样本集时，可以调用预存在计算机设备中的训练样本集获取，也可以先获取训练样本，然后接受用户输入的指令，根据用户的指令，确定每个训练样本的识别标签，以获取训练样本集。需要说明的是，在获取训练样本的过程中，当训练样本为图像时，可以将各个图像进行剪裁，得到统一尺寸的图像，作为训练样本。

S102、计算机设备将多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，以目标损失函数的值对初始神经网络模型进行训练，得到目标神经网络模型；其中，目标损失函数为基于平均绝对误差函数MAE和交叉熵函数CCE进行融合后得到的函数。

其中，神经网络模型可以是用于执行上述计算机视觉任务的神经网络模型，通过向上述神经网络模型输入待识别的计算机视觉任务的图像，并通过上述神经网络模型输出计算机视觉任务的结果。计算机设备可以将上述训练样本集中的多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，根据目标损失函数的值，对初始神经网络模型的参数进行调整，实现对初始神经网络模型进行训练，得到目标神经网络模型。该目标神经网络对应的目标损失函数是基于平均绝对误差函数(Mean Absolute Error,MAE)和分类交叉熵函数(Categorical Cross entropy，CCE)进行融合后得到的函数。其中，平均绝对误差MAE是一种用于回归模型的损失函数，MAE是目标值和预测值之差的绝对值之和，只衡量了预测值误差的平均模长，而不考虑方向，取值范围也是从0到正无穷。也即是说，在根据MAE确定损失函数的值，受错误样本的影响较小，对错误样本的鲁棒性高。分类交叉熵函数CCE是针对多类分类任务的损失函数，通过CCE，输出节点的数量必须与类的数量相同,最后一层输出应通过分类器激活，以便每个节点输出范围在(0-1)之间的概率值。例如，目标分类的神经网络模型，其对应的分类结果包括猫或狗。如果猫节点具有高概率得分，则图像被分类为猫，否则为狗。在训练过程中，必须对它们进行独热编码，如果图像是猫，则目标向量将是(1,0)，如果图像是狗，则目标向量将是(0,1)。目标损失函数可以是结合上述MAE和CCE得到的损失函数，也即是说，目标损失函数通过MAE提高了神经网络模型对错误样本的鲁棒性，同时，通过CCE使得根据目标损失函数得到的神经网络模型的准确度在预设的准确度范围内。

上述模型训练方法，计算机设备获取计算机视觉任务的训练样本集，训练样本集包括多个训练样本和每个训练样本的识别标签，并将多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，以基于平均绝对误差函数MAE和交叉熵函数CCE进行融合后得到的目标损失函数的值，对初始神经网络模型进行训练，得到目标神经网络模型，也即是说，本申请所提供的模型训练方法，通过MAE提高了神经网络模型对错误样本的鲁棒性，同时通过CCE提高了根据目标损失函数得到的神经网络模型的准确度，使得训练样本集中存在错误样本时，通过目标损失函数得到的神经网络模型的识别准确度。

在一个实施例中，上述目标损失函数可以通过图3所示实施例来获取。如图3所示，上述目标损失函数的获取方法包括以下步骤：

S201、计算机设备基于训练样本集，获取训练样本集中错误样本的占比信息。

其中，错误样本可以是训练样本集中识别标签标注错误的训练样本。例如，训练样本为图片，该图片实际为一个苹果的图片，而识别标签标注该图片为栗子的图片，则该训练样本为错误样本。占比信息可以用于指示训练样本集中错误样本占训练样本的比例，其可以通过百分比来表示，也可以通过小数位来表示，例如，占比信息可以用5％来表示，也可以用0.05来表示，本申请实施例对此不做限制。计算结设备可以根据训练样本集，获取训练样本集中错误样本的个数，并根据训练样本集中训练样板的总数量，确定训练样本集中错误样本的占比信息。例如，训练样本集中存在100个训练样本，被确定为错误样本的训练样本为10个，则训练样本集中的错误样本的占比为10％。

S202、计算机设备根据占比信息确定与错误样本数量有关的权重因子。

在上述实施例的基础上，当计算机设备获取了训练样本集中错误样本的占比信息之后，可以根据上述占比信息确定权重因子，该权重因子是与错误样本数量相关的。可选地，上述占比信息所指示的错误样本的占比越大，则权重因子越大；占比信息所指示的错误样本的占比越小，则权重因子越小。

S203、计算机设备根据权重因子、MAE和CCE确定目标损失函数。

可选地，上述权重因子为q，q的范围为不小于0且不大于1，根据公式q*MAE+(1-q)*CCE确定目标损失函数。

由上述实施例的描述可知，占比信息所指示的错误样本的占比越大，则权重因子越大；占比信息所指示的错误样本的占比越小，则权重因子越小，也即是说，当占比信息所指示的错误样本的占比越大，q的值越大，则目标损失函数中MAE的权重越高，MAE的权重越高，目标损失函数对错误样本的鲁棒性越高，在一种极端的情况下，当占比信息所指示的错误样本的占比为100％时，q＝1，此时目标损失函数为MAE函数，对错误样本的鲁棒性最高。当占比信息所指示的错误样本的占比越小，q的值越小，则目标损失函数中CCE的权重越高，CCE的权重越高，通过目标损失函数对初始神经网络模型训练得到目标神经网络模型的准确度越高，在一种极端的情况下，当占比信息所指示的错误样本的占比为0％时，q＝0，此时目标损失函数为CCE函数，目标神经网络模型的准确度最高。

上述模型训练方法，计算机设备基于训练样本集，获取训练样本集中错误样本的占比信息，根据占比信息确定与错误样本数量有关的权重因子，进而根据权重因子、MAE和CCE确定目标损失函数，使得目标损失函数是根据训练样本集中错误样本的占比信息，调整MAE和CCE的权重得到的，进而使得当训练样本集中错误样本占比较大时，通过调大目标损失函数中MAE权重，提高目标神经网络模型对错误样本的鲁棒性；当训练样本集中错误样本占比较小时，通过调小目标损失函数中CCE权重，提高目标神经网络模型的准确度。

在一个实施例中，计算机设备还可以设置多个权重因子，以得到多个候选损失函数，进而从各候选损失函数中确定一个与计算机设备的计算资源匹配度高的候选损失函数作为目标损失函数。下面通过图4所示实施例来详细说明。

图4为另一个实施例中模型训练方法的流程示意图，如图4所示，该方法还包括以下步骤：

S301、计算机设备根据占比信息自适应确定多个权重因子。

其中，计算机设备可以根据训练样本集中错误样本的占比信息，确定多个权重因子，其可以是根据占比信息，先确定出一个权重因子，进而根据预设的步进，调整改权重因子，得到多个权重因子；也可以是根据占比信息，直接确定出多个权重因子；本申请实施例对此不做限制。需要说明的是，上述多个权重因子两两之间的差值可以是固定值，也可以不是固定值，本申请实施例对此不做限制。

S302、计算机设备根据多个权重因子、MAE和CCE确定多个候选损失函数。

其中，计算机设备根据多个权重因子、MAE和CCE确定多个候选损失函数的过程，其可以是将各权重因子代入上述公式q*MAE+(1-q)*CCE，得到多个候选损失函数。

S303、计算机设备根据每个候选损失函数对应的神经网络模型与计算机设备的计算资源匹配度，确定目标损失函数；目标损失函数对应的神经网络模型与计算机设备的计算资源的匹配度最高。

在上述实施例的基础上，当确定多个候选损失函数时，可以根据多个候选损失函数确定多个候选神经网络模型，并在当前计算机设备的计算资源的前提下，通过单位时间内并行执行各候选神经网络模型的运算，得到行各候选神经网络模型的识别结果，进而获取各识别结果的准确度。识别结果的准确度越高，则该候选神经网络模型与计算机设备的计算资源的匹配度越高。进而计算机设备将识别结果的准确度信息最高的候选神经网络模型对应的候选损失函数，确定为目标损失函数。其中，计算资源包括cpu内存空间、gpu显存空间和硬盘存储空间。

上述模型训练方法，计算机设备根据占比信息自适应确定多个权重因子，并根据多个权重因子、MAE和CCE确定多个候选损失函数，进而根据每个候选损失函数对应的神经网络模型与计算机设备的计算资源匹配度，确定目标损失函数，其中目标损失函数对应的神经网络模型与计算机设备的计算资源的匹配度最高，使得在确定目标损失函数的过程中，不仅考虑了对错误样本的敏感度，同时还结合了计算机设备的计算资源，使得根据目标损失函数训练得到的目标神经网络模型的实用性更高。

上述实施例重点描述了计算机设备是如何确定目标损失函数的，下面通过图5所示实施例来详细说明计算机设备是如何确定训练样本集中错误样本的占比信息的。

图5为另一个实施例中模型训练方法的流程示意图，本实施例涉及的是计算机设备如何基于训练样本集，获取训练样本集中错误样本的占比信息的具体过程，如图5所示，上述S201“计算机设备基于训练样本集，获取训练样本集中错误样本的占比信息”一种可能的实现方法包括以下步骤：

S401、计算机设备采用样本遗忘工具处理训练样本集，筛选出训练样本集中的错误样本。

其中，样本遗忘工具可以用于从训练样本集中筛选出错误样本。在具体的通过样本遗忘工具筛选出错误样本的过程中，样本遗忘工具可以获取训练样本集中各训练样本在神经网络模型训练过程中，每轮训练输出的训练结果的准确度信息，上述准确度信息用于指示训练样本通过训练中的初始神经网络模型输出的结果是否与训练样本的识别标签一致。同时样本遗忘工具记录各训练样本的准确度信息发生变化的次数，并将变化次数超过预设阈值的训练样本筛选出来，作为错误样本。例如，准确度信息可以通过1或0来表示，当准确度信息标记为1时，表示该训练样本通过训练中的初始神经网络模型输出的结果与训练样本的识别标签一致，当准确度信息标记为0时，表示该训练样本通过训练中的初始神经网络模型输出的结果与训练样本的识别标签不一致。样本遗忘工具统计训练样本在各轮训练准确度信息的差值绝对值为1的个数，并当该差值绝对值大于预设阈值时，将该训练样本确定为错误样本。

可选地，计算机设备可以通过图6所示实施例来筛选出训练样本集中的错误样本的。如图6所示，上述S401“计算机设备采用样本遗忘工具处理训练样本集，筛选出训练样本集中的错误样本”一种可能的实现方法包括以下步骤：

S501、计算机设备采用样本遗忘工具动态统计每个训练样本在每次训练过程中的累积遗忘次数。

其中，累积遗忘次数可以是当前训练过程及之前的训练过程中，训练样本出现准确度变化的次数之和。样本遗忘工具可以通过记录指示本轮训练时通过训练中的初始神经网络模型得到的结果的准确度，与上一轮训练时通过训练中的初始神经网络模型得到的结果的准确度不一致的数量，确定当前训练过程中的累积遗忘次数，得到各轮训练过程中的累计遗忘次数。例如，当初始神经网络模型进行第10轮训练时，训练样本A出现过3次结果的准确度发生变化的情况，则第10轮训练过程中的累计遗忘次数为3；当初始神经网络模型进行第30轮训练时，训练样本A出现过6次结果的准确度发生变化的情况，则第30轮训练过程中的累计遗忘次数为6。计算机设备采用样本遗忘工具动态统计出训练样本A在第10轮训练过程的累计遗忘次数为3，在第30轮训练过程的累计遗忘次数为6。需要说明的是，当一个训练样本的准确度信息始终指示通过训练中的初始神经网络模型输出的结果与训练样本的识别标签不一致，可以将该训练样本的训练次数作为该训练样本的遗忘次数。

S502、计算机设备基于累积遗忘次数和预设的遗忘阈值列表，确定训练样本是否为错误样本；其中，遗忘阈值列表包括多个遗忘阈值，每个遗忘阈值与当前的训练次数有关。

其中，预设的遗忘阈值列表可以是预存的一组遗忘阈值，也可以是根据训练进度动态调整的一组遗忘阈值，本申请对此不做限制。其中预设的遗忘阈值列表包括多个遗忘阈值，每个遗忘阈值是与当前的训练次数相关的。例如，预设的遗忘阈值列表中可以包括：第10轮训练的遗忘阈值为3，第20轮训练的遗忘阈值为5，第30轮训练的遗忘阈值为8……在上述实施例的基础上，计算机设备基于累积遗忘次数和预设的遗忘阈值列表，将训练样本在各轮的累计遗忘次数大于对应的遗忘阈值的训练样本确定为错误样本。例如，训练样本A在各轮的累积遗忘次数分别为，在第10轮训练时的累积遗忘次数为2，在第50轮训练时的累积遗忘次数为6，在第100轮训练时的累积遗忘次数为10……，对应地，预设的遗忘阈值列表中可以包括：第10轮训练的遗忘阈值为4，第20轮训练的遗忘阈值为7，第30轮训练的遗忘阈值为9……，在第30轮训练时，训练样本A的累积遗忘次数10大于遗忘阈值，则在第30轮训练时，将训练样本A确定为错误样本。

S402、计算机设备基于错误样本的个数计算训练样本集中错误样本的占比信息。

上述模型训练方法，计算机设备采用样本遗忘工具处理训练样本集，筛选出训练样本集中的错误样本，并基于错误样本的个数计算训练样本集中错误样本的占比信息，进而使得根据占比信息确定的权重因子是与训练样本集中错误样本的个数确定的，使得当训练样本集中错误样本较多时，通过调整权重因子提高MAE在目标损失函数中的权重，以提高目标损失函数对错误样本的鲁棒性，并在训练样本集中错误样本较少时，通过调整权重因子提高CCE在目标损失函数中的权重，以提高通过目标损失函数训练得到的目标神经网络模型的准确度。

在上述实施例的基础上，计算机设备还可以根据神经网络模型的训练进度，自适应的调整遗忘阈值列表中的每个遗忘阈值，以使基于遗忘阈值确定错误样本的智能性更高，下面通过图7所示实施例来详细描述。

图7为另一个实施例中模型训练方法的流程示意图，本实施例涉及的是述计算机设备如何基于累积遗忘次数和预设的遗忘阈值列表，确定训练样本是否为错误样本的具体过程，如图7所示，上述S502“计算机设备基于累积遗忘次数和预设的遗忘阈值列表，确定训练样本是否为错误样本”一种可能的实现方法包括以下步骤：

S601、计算机设备基于当前的训练日志获取当前的训练进度。

S602、计算机设备基于当前的训练进度自适应调整遗忘阈值列表中的每个遗忘阈值，并基于遗忘阈值确定当前训练过程中训练样本是否为错误样本。

其中，计算机设备可以读取当前的训练日志，该当前的训练日志可以用于指示当前训练的神经网络模型的收敛速率。当收敛速率越快，指示当前训练处于训练前期，当收敛速率越慢，则指示当前训练处于训练中后期。当前训练处于训练前期时，参数变化较大，出现本轮训练的准确度信息与上一轮训练的准确度信息不一致的概率较大，则可以适当的设置较大的遗忘阈值；当前训练处于训练中后期时，参数变化较小，出现本轮训练的准确度信息与上一轮训练的准确度信息不一致的概率较小，则可以适当的设置较小的遗忘阈值。也即是说，计算机设备是基于当前的训练进度，自适应的调整遗忘阈值列表中每个遗忘阈值的。计算机设备可以基于自适应调整得到的遗忘阈值列表中的各遗忘阈值，将当前训练过程中累积遗忘次数大于对应的遗忘阈值的训练样本作为错误样本。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示，依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图8为一个实施例中提供的模型训练装置的结构示意图，如图8所示，该模型训练装置包括：获取模块10和训练模块20，其中：

获取模块10，用于获取计算机视觉任务的训练样本集，训练样本集包括多个训练样本和每个训练样本的识别标签；

训练模块20，用于将多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，以目标损失函数的值对初始神经网络模型进行训练，得到目标神经网络模型；

本申请实施例提供的模型训练装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

图9为另一个实施例中提供的模型训练装置的结构示意图，在图8所示实施例的基础上，如图9所示，该模型训练装置还包括确定模块30，确定模块30包括：提取单元301、第一确定单元302和第二确定单元303，其中：

提取单元301，用于基于训练样本集，获取训练样本集中错误样本的占比信息；

第一确定单元302，用于根据占比信息确定与错误样本数量有关的权重因子；

第二确定单元303，用于根据权重因子、MAE和CCE确定目标损失函数。

在一个实施例中，上述权重因子为q，q的范围为不小于0且不大于1，第二确定单元303具体用于根据公式q*MAE+(1-q)*CCE确定目标损失函数。

在一个实施例中，上述占比信息所指示的错误样本的占比越大，则权重因子越大；占比信息所指示的错误样本的占比越小，则权重因子越小。

在一个实施例中，第一确定单元302具体用于根据占比信息自适应确定多个权重因子；

第二确定单元303具体用于根据多个权重因子、MAE和CCE确定多个候选损失函数；根据每个候选损失函数对应的神经网络模型与计算机设备的计算资源匹配度，确定目标损失函数；目标损失函数对应的神经网络模型与计算机设备的计算资源的匹配度最高。

在一个实施例中，提取单元301具体用于采用样本遗忘工具处理训练样本集，筛选出训练样本集中的错误样本；基于错误样本的个数计算训练样本集中错误样本的占比信息。

在一个实施例中，提取单元301具体用于采用样本遗忘工具动态统计每个训练样本在每次训练过程中的累积遗忘次数；基于累积遗忘次数和预设的遗忘阈值列表，确定训练样本是否为错误样本；其中，遗忘阈值列表包括多个遗忘阈值，每个遗忘阈值与当前的训练次数有关。

在一个实施例中，提取单元301具体用于基于当前的训练日志获取当前的训练进度；基于当前的训练进度自适应调整遗忘阈值列表中的每个遗忘阈值，并基于遗忘阈值确定当前训练过程中训练样本是否为错误样本。

关于一种模型训练装置的具体限定可以参见上文中对模型训练方法的限定，在此不再赘述。上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端设备，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取计算机视觉任务的训练样本集，训练样本集包括多个训练样本和每个训练样本的识别标签；

将多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为初始神经网络模型的参考输出，以目标损失函数的值对初始神经网络模型进行训练，得到目标神经网络模型；其中，目标损失函数为基于平均绝对误差函数MAE和分类交叉熵函数CCE进行融合后得到的函数。

在一个实施例中，处理器执行计算机程序时实现以下步骤：基于训练样本集，获取训练样本集中错误样本的占比信息；根据占比信息确定与错误样本数量有关的权重因子；根据权重因子、MAE和CCE确定目标损失函数。

在一个实施例中，上述权重因子为q，q的范围为不小于0且不大于1，处理器执行计算机程序时实现以下步骤：根据公式q*MAE+(1-q)*CCE确定目标损失函数。

在一个实施例中，处理器执行计算机程序时实现以下步骤：备根据占比信息自适应确定多个权重因子；根据多个权重因子、MAE和CCE确定多个候选损失函数；根据每个候选损失函数对应的神经网络模型与计算机设备的计算资源匹配度，确定目标损失函数；目标损失函数对应的神经网络模型与计算机设备的计算资源的匹配度最高。

在一个实施例中，处理器执行计算机程序时实现以下步骤：采用样本遗忘工具处理训练样本集，筛选出训练样本集中的错误样本；基于错误样本的个数计算训练样本集中错误样本的占比信息。

在一个实施例中，处理器执行计算机程序时实现以下步骤：采用样本遗忘工具动态统计每个训练样本在每次训练过程中的累积遗忘次数；基于累积遗忘次数和预设的遗忘阈值列表，确定训练样本是否为错误样本；其中，遗忘阈值列表包括多个遗忘阈值，每个遗忘阈值与当前的训练次数有关。

在一个实施例中，处理器执行计算机程序时实现以下步骤：基于当前的训练日志获取当前的训练进度；基于当前的训练进度自适应调整遗忘阈值列表中的每个遗忘阈值，并基于遗忘阈值确定当前训练过程中训练样本是否为错误样本。

本实施例提供的终端设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时实现以下步骤：基于训练样本集，获取训练样本集中错误样本的占比信息；根据占比信息确定与错误样本数量有关的权重因子；根据权重因子、MAE和CCE确定目标损失函数。

在一个实施例中，上述权重因子为q，q的范围为不小于0且不大于1，计算机程序被处理器执行时实现以下步骤：根据公式q*MAE+(1-q)*CCE确定目标损失函数。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：备根据占比信息自适应确定多个权重因子；根据多个权重因子、MAE和CCE确定多个候选损失函数；根据每个候选损失函数对应的神经网络模型与计算机设备的计算资源匹配度，确定目标损失函数；目标损失函数对应的神经网络模型与计算机设备的计算资源的匹配度最高。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：采用样本遗忘工具处理训练样本集，筛选出训练样本集中的错误样本；基于错误样本的个数计算训练样本集中错误样本的占比信息。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：采用样本遗忘工具动态统计每个训练样本在每次训练过程中的累积遗忘次数；基于累积遗忘次数和预设的遗忘阈值列表，确定训练样本是否为错误样本；其中，遗忘阈值列表包括多个遗忘阈值，每个遗忘阈值与当前的训练次数有关。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：基于当前的训练日志获取当前的训练进度；基于当前的训练进度自适应调整遗忘阈值列表中的每个遗忘阈值，并基于遗忘阈值确定当前训练过程中训练样本是否为错误样本。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

计算机设备获取计算机视觉任务的训练样本集，所述训练样本集包括多个训练样本和每个训练样本的识别标签；

所述计算机设备将所述多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为所述初始神经网络模型的参考输出，以目标损失函数的值对所述初始神经网络模型进行训练，得到目标神经网络模型；

其中，所述目标损失函数为基于平均绝对误差函数MAE和分类交叉熵函数CCE进行融合后得到的函数。

2.根据权利要求1所述方法，其特征在于，所述目标损失函数的获取方法，包括：

所述计算机设备基于所述训练样本集，获取所述训练样本集中错误样本的占比信息；

所述计算机设备根据所述占比信息确定与所述错误样本数量有关的权重因子；

所述计算机设备根据所述权重因子、所述MAE和所述CCE确定所述目标损失函数。

3.根据权利要求2所述方法，其特征在于，所述权重因子为q，所述q的范围为不小于0且不大于1，所述计算机设备根据所述权重因子、所述MAE和所述CCE确定所述目标损失函数，包括：

根据公式q*MAE+(1-q)*CCE确定所述目标损失函数。

4.根据权利要求2或3所述方法，其特征在于，所述占比信息所指示的错误样本的占比越大，则所述权重因子越大；所述占比信息所指示的错误样本的占比越小，则所述权重因子越小。

5.根据权利要求3所述方法，其特征在于，所述计算机设备根据所述占比信息确定与所述错误样本数量有关的权重因子，包括：

所述计算机设备根据所述占比信息自适应确定多个权重因子；

对应的，所述计算机设备根据所述权重因子、所述MAE和所述CCE确定所述目标损失函数，包括:

所述计算机设备根据所述多个权重因子、所述MAE和所述CCE确定多个候选损失函数；

所述计算机设备根据每个候选损失函数对应的神经网络模型与所述计算机设备的计算资源匹配度，确定所述目标损失函数；所述目标损失函数对应的神经网络模型与所述计算机设备的计算资源的匹配度最高。

6.根据权利要求2-5任一项所述方法，其特征在于，所述计算机设备基于所述训练样本集，获取所述训练样本集中错误样本的占比信息，包括：

所述计算机设备采用样本遗忘工具处理所述训练样本集，筛选出所述训练样本集中的错误样本；

所述计算机设备基于所述错误样本的个数计算所述训练样本集中错误样本的占比信息。

7.根据权利要求6所述方法，其特征在于，所述计算机设备采用样本遗忘工具处理所述训练样本集，筛选出所述训练样本集中的错误样本，包括：

所述计算机设备采用所述样本遗忘工具动态统计每个训练样本在每次训练过程中的累积遗忘次数；

所述计算机设备基于所述累积遗忘次数和预设的遗忘阈值列表，确定所述训练样本是否为错误样本；

其中，所述遗忘阈值列表包括多个遗忘阈值，每个遗忘阈值与当前的训练次数有关。

8.根据权利要求7所述方法，其特征在于，所述计算机设备基于所述累积遗忘次数和预设的遗忘阈值列表，确定所述训练样本是否为错误样本，包括：

所述计算机设备基于当前的训练日志获取当前的训练进度；

所述计算机设备基于当前的训练进度自适应调整所述遗忘阈值列表中的每个遗忘阈值，并基于所述遗忘阈值确定当前训练过程中所述训练样本是否为所述错误样本。

9.一种模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取计算机视觉任务的训练样本集，所述训练样本集包括多个训练样本和每个训练样本的识别标签；

训练模块，用于将所述多个训练样本作为初始神经网络模型的输入，将对应的训练样本的识别标签作为所述初始神经网络模型的参考输出，以目标损失函数的值对所述初始神经网络模型进行训练，得到目标神经网络模型；

其中，所述目标损失函数为基于平均绝对误差函数MAE和交叉熵函数CCE进行融合后得到的函数。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法的步骤。