CN109190676A

CN109190676A - 模型训练方法、装置、设备及存储介质

Info

Publication number: CN109190676A
Application number: CN201810886239.1A
Authority: CN
Inventors: 杨少雄; 赵晨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-01-11
Anticipated expiration: 2038-08-06
Also published as: CN109190676B

Abstract

本申请实施例提供一种模型训练方法、装置、设备及存储介质，通过获取样本数据集和预设模型，其中，样本数据集中包括N类特征数据，预设模型至少包括N个部分；针对所述N类特征数据，基于一类特征数据训练预设模型的一个部分，得到能够识别全部N类特征数据的目标模型。本发明实施例能够充分不完整的样本来训练模型，避免数据浪费，降低了模型的训练成本，提高模型训练效率。

Description

模型训练方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种模型训练方法、装置、设备及存储介质。

背景技术

在现有技术中，对于模型训练的样本数据要求非常高，一般要求所有样本数据必须格式统一、内容完整(比如在分类模型中需要样本数据中包括预先标定的标签，像素分割模型需要样本数据中包括每个像素值的类别信息等等)。然而对于那些不完整的数据则无法用来训练模型，通常的做法是直接抛弃掉这部分数据。比如，在训练一个用于检测图片上物体位置和类别的模型时，需要样本数据中同时包括物体的位置信息和类别信息，若样本数据中缺少二者任意一个则无法用来训练模型，将会被抛弃掉。但是实际上这些不完整的数据同样也包括了部分有用的信息，若是抛弃掉不用，则会造成资源浪费，提高成本。

发明内容

本申请实施例提供一种模型训练方法、装置、设备及存储介质，用以充分利用不完整的数据，提高数据利用率，降低模型训练成本。

本申请实施例第一方面提供一种模型训练方法，包括：获取样本数据集和预设模型，所述样本数据集中包括N类特征数据，所述预设模型至少包括N个部分；针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型；其中，N为大于或等于2的正整数。

本申请实施例第二方面提供一种模型训练装置，包括：获取模块，用于获取样本数据集和预设模型，所述样本数据集中包括N类特征数据，所述预设模型至少包括N个部分；训练模块，用于针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型；其中，N为大于或等于2的正整数。

本申请实施例第三方面提供一种计算机设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面所述的方法。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的方法。

基于以上各方面，本申请实施例通过获取样本数据集和预设模型，样本数据集包括N类特征数据，预设模型至少包括N个部分，针对样本数据集中的N类特征数据，基于其中一类特征数据训练预设模型的一个部分，得到能够识别全部N类特征数据的目标模型。由于在本申请实施例中预设模型包括多个部分，在训练预设模型时，是通过将样本数据集中的特征数据分类，依据各类特征数据训练预设模型中的各个部分的，因此，即使样本数据集中存在不完整的单个样本不完整，即单个样本中不包括全部的N类特征数据，也能够利用这些不完整的样本训练获得准确的模型，从而提高了数据利用率，降低了模型训练成本。

应当理解，上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。

附图说明

图1是现有技术中模型训练的示意图；

图2是本申请实施例提供的一种模型训练场景示意图；

图3是本申请实施例提供的一种模型训练方法的流程图；

图4是本申请实施例提供的一种模型训练方法的流程图；

图5是本申请实施例提供的一种模型训练方法的流程图；

图6是本申请实施例提供的一种模型训练装置的结构示意图；

图7是本申请实施例提供的一种模型训练装置的结构示意图；

图8是本申请实施例提供的一种模型训练装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是现有技术中模型训练的示意图。现有技术中，在训练N分类模型时，通常需要参与训练的每个样本必须包括全部的N类特征数据，这些包括全部N类特征数据的样本称为完整样本，若样本中不包括全部的N类特征数据，则样本就会被抛弃掉，不能用于训练模型，这种不包括全部N类特征数据的样本称为不完全样本。比如在图1中，c1表示不完全样本，c2表示完整样本，c0表示带训练的模型，则按照现有技术需要将不完全样本c1去掉，仅利用完整样本c2训练模型c0，然而不完全样本c1虽然数据特征不完整，但是其仍旧包括部分有用的特征数据，若完全将不完全样本c1抛弃掉，则会损失这部分特征数据，造成资源浪费。

针对现有技术存在的上述问题，本申请实施例提供了一种模型训练方法。如图2所示，图2是本申请实施例提供的一种模型训练场景示意图。在图2中，模型b0包括n个部分b01到b0n，此时样本数据集中包括n类特征数据，利用样本数据集中的一类特征数据训练模型b0的一个部分，比如在图2中利用a类特征数据训练部分b01，利用b类特征数据训练部分b0n，这样就可以充分利用不完全样本中的特征数据来训练样本，避免资源浪费。当然这里仅是以图2所示的场景为例来说明本申请的技术方案，但是并不是对本申请场景的唯一限定。

图3是本申请实施例提供的一种模型训练方法的流程图，该方法可以由一种模型训练装置来执行。参见图3，该方法包括步骤S11-S12：

S11、获取样本数据集和预设模型，所述样本数据集中包括N类特征数据，所述预设模型至少包括N个部分，其中，N为大于或等于2的正整数。

现有技术中，在训练N分类模型时，通常需要参与训练的每个样本必须包括全部的N类特征数据，这些包括全部N类特征数据的样本称为完整样本，若样本中不包括全部的N类特征数据，则样本就会被抛弃掉，不能用于训练模型，这种不包括全部N类特征数据的样本称为不完全样本。

本实施例涉及的样本数据集中包括完全样本和/或不完全样本，样本数据集中可以包括多个子集，同一子集中包含的样本其包含的特征数据的类型相同，如果样本数据集中包括N类特征数据，那么样本数据集中至少包括N个子集。或者，本实施例中获取到的样本数据集也可以是样本没有经过分类的样本数据集，即所有样本混杂的存储在样本数据集中。在这种情况下，在获得样本数据集后，本实施例还可以先根据样本数据集中各样本的标注信息(一个样本可以包括一个或多个标注信息)，确定每个样本包含的特征数据的类型，再针对每个类型，从相应的样本上提取获得该类型的特征数据。比如，样本数据集中包括10个图像，其中5个图像中对物体位置进行了标注，则从这5个图像中提取物体位置的特征信息。当然这里仅为示例说明而不是唯一限定。

本实施例中涉及的预设模型可以是多分类模型也可以是其他模型。预设模型按照功能至少被划分为N个部分，一个部分可以实现一种功能。举例来说，假设需要训练一个模型，使得模型能够对图像中物体的位置和类型进行识别，那么预设模型至少包括两个部分，一个部分训练后用于识别物体的位置，另一部分用于识别物体的类别。当然此处举例仅为了能够方便理解本申请的技术方案，而不是对本申请的唯一限定。

S12、针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型。

在实际情况中，虽然不完整的样本不包括全部类型的数据，但是实际上其仍然包括部分有用的数据。仍以上例为例，假设要训练一个能够对图像中物体位置和类型进行识别的模型，按照现有技术其每个训练样本中必须包括对物体位置的标注信息和对物体类别的标注信息，缺少二者中的任意一个则样本不完整，不能用于训练模型，但是实际上即使样本上只包括二者中的一种，其包括的部分信息仍然也是有价值的，如果抛弃到则会造成资源浪费。

因此，为了有效利用不完整样本中的数据，本实施例将预设模型按照功能分成多个部分，基于一类特征数据训练预设模型的一个部分，依次类推，若样本数据集中包括N类特征数据，那么基于N类特征数据就能对预设模型的N个部分进行训练使得每个部分均能识别N类中的一种特征数据，从而得到能够识别全部N类特征的目标模型。

本实施例通过获取样本数据集和预设模型，样本数据集包括N类特征数据，预设模型至少包括N个部分，针对样本数据集中的N类特征数据，基于其中一类特征数据训练预设模型的一个部分，得到能够识别全部N类特征数据的目标模型。由于在本实施例中预设模型包括多个部分，在训练预设模型时，是通过将样本数据集中的特征数据分类，依据各类特征数据训练预设模型中的各个部分的，因此，即使样本数据集中存在不完整的单个样本不完整，即单个样本中不包括全部的N类特征数据，也能够利用这些不完整的样本训练获得准确的模型，从而提高了数据利用率，降低了模型训练成本。

下面结合示例性的实施例对上述实施例进行进一步的扩展和优化：

图4是本申请实施例提供的一种模型训练方法的流程图，如图4所示，在图3实施例的基础上，该方法包括步骤S21-S22：

S21、获取样本数据集和预设模型，所述样本数据集中包括N类特征数据，所述预设模型至少包括N个部分，其中，N为大于或等于2的正整数。

S22、针对所述N类特征数据，在将一类特征数据输入预设模型，训练得到所述预设模型能够识别该类特征数据的部分后，再将下一类特征数据输入所述预设模型训练所述预设模型的另一部分，直至得到能够识别全部所述N类特征数据的目标模型为止。

假设样本数据集中包括两类特征数据，一类是物体在图像中的位置数据，一类是物体的类型数据，那么示例性的可以先将样本数据集中物体在图像中的位置数据输入预设模型中，训练模型用于识别物体在图像中位置的部分，在这部分训练收敛后，再将样本数据集中物体类型数据输入预设模型中，训练模型中用于识别物体类型的部分，并在这部分训练收敛后，停止训练，这样就能够得到用于识别物体位置和物体类别的目标模型。

本领域技术人员应该了解的是，上述举例仅是了清楚说明本实施例执行方式而做的示例性说明，并不是对本申请的唯一限定。

本实施例通过将预设模型按照功能划分为多个部分，并以一类特征数据训练预设模型的一个部分，当一个部分训练收敛后，再基于另一类特征数据训练预设模型的另一部分，直至训练获得能够识别全部类型特征数据的目标模型为止，由于模型中一个功能对应一个部分，这样在训练每个部分时，只需要一种类型的特征数据就可以了，从而即使样本中特征数据的类型不完全，也能够充分利用不完整样本中的可用数据训练模型，提高了数据的利用率，避免了资源浪费，降低了模型的训练成本。

图5是本申请实施例提供的一种模型训练方法的流程图，如图5所示，在图3实施例的基础上，该方法包括步骤S31-S32：

S31、获取样本数据集和预设模型，所述样本数据集中包括N类特征数据，所述预设模型至少包括N个部分，其中，N为大于或等于2的正整数。

S32、对所述预设模型进行多轮训练，直至得到能够识别全部所述N类特征数据的目标模型为止，其中，在每轮训练中，基于一个类别的特征数据对所述预设模型的一个部分进行一次训练，直至所述N类特征数据均完成一次训练之后进行下一轮训练。

假设样本数据集中包括两类特征数据，一类是物体在图像中的位置数据，一类是物体的类型数据，那么示例性的可以先将样本数据集中物体在图像中的位置数据输入预设模型中，训练模型用于识别物体在图像中位置的部分，在训练一次后，将样本数据集中物体类型数据输入预设模型中，对模型中用于识别物体类型的部分进行一次训练，训练完成后，再重复上述两个训练过程，直至模型收敛后，停止训练，这样就能够得到用于识别物体位置和物体类别的目标模型。

本实施例将预设模型按照功能划分为多个部分，通过对模型进行多轮训练，在每轮训练中基于一种类型的特征数据训练模型中的相应部分一次，在所有类型特征数据完成一次训练之后，进行下一轮训练，直至模型收敛得到目标模型为止。由于模型中一个功能对应一个部分，这样在训练每个部分时，只需要一种类型的特征数据就可以了，从而即使样本中特征数据的类型不完全，也能够充分利用不完整样本中的可用数据训练模型，提高了数据的利用率，避免了资源浪费，降低了模型的训练成本。

图6是本申请实施例提供的一种模型训练装置的结构示意图，如图6所示，装置40包括：

获取模块41，用于获取样本数据集和预设模型，所述样本数据集中包括N类特征数据，所述预设模型至少包括N个部分；

训练模块42，用于针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型；

其中，N为大于或等于2的正整数。

在一种可能的设计中，所述装置还包括

确定模块，用于根据所述样本数据集中样本的标注信息，确定每个样本上包含的特征数据的类型；

提取模块，用于针对每个类型，从相应的样本上提取获得所述类型的特征数据。

本实施例提供的装置能够用于执行图3实施例的方法，其执行方式和有益效果类似在，在这里不再赘述。

图7是本申请实施例提供的一种模型训练装置的结构示意图，如图7所示，在图6实施例的基础上，训练模块42，包括：

第一训练子模块421，用于针对所述N类特征数据，在将一类特征数据输入预设模型，训练得到所述预设模型能够识别该类特征数据的部分后，再将下一类特征数据输入所述预设模型训练所述预设模型的另一部分，直至得到能够识别全部所述N类特征数据的目标模型为止。

本实施例提供的装置能够用于执行图4实施例的方法，其执行方式和有益效果类似在，在这里不再赘述。

图8是本申请实施例提供的一种模型训练装置的结构示意图，如图8所示，在图6实施例的基础上，训练模块42，包括：

第二训练子模块422，用于对所述预设模型进行多轮训练，直至得到能够识别全部所述N类特征数据的目标模型为止，其中，在每轮训练中，基于一个类别的特征数据对所述预设模型的一个部分进行一次训练，直至所述N类特征数据均完成一次训练之后进行下一轮训练。

本实施例提供的装置能够用于执行图5实施例的方法，其执行方式和有益效果类似在，在这里不再赘述。

本申请实施例还提供一种计算机设备，包括：一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一实施例所述的方法。

本申请实施例还提供在一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种模型训练方法，其特征在于，包括：

获取样本数据集和预设模型，所述样本数据集中包括N类特征数据，所述预设模型至少包括N个部分；

针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型；

其中，N为大于或等于2的正整数。

2.根据权利要求1所述的方法，其特征在于，所述针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型，包括：

针对所述N类特征数据，在将一类特征数据输入预设模型，训练得到所述预设模型能够识别该类特征数据的部分后，再将下一类特征数据输入所述预设模型训练所述预设模型的另一部分，直至得到能够识别全部所述N类特征数据的目标模型为止。

3.根据权利要求1所述的方法，其特征在于，所述针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型，包括：

对所述预设模型进行多轮训练，直至得到能够识别全部所述N类特征数据的目标模型为止，其中，在每轮训练中，基于一个类别的特征数据对所述预设模型的一个部分进行一次训练，直至所述N类特征数据均完成一次训练之后进行下一轮训练。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型之前，所述方法还包括：

根据所述样本数据集中样本的标注信息，确定每个样本上包含的特征数据的类型；

针对每个类型，从相应的样本上提取获得所述类型的特征数据。

5.一种模型训练装置，其特征在于，包括：

获取模块，用于获取样本数据集和预设模型，所述样本数据集中包括N类特征数据，所述预设模型至少包括N个部分；

训练模块，用于针对所述N类特征数据，基于一类特征数据训练所述预设模型的一个部分，得到能够识别全部所述N类特征数据的目标模型；

其中，N为大于或等于2的正整数。

6.根据权利要求5所述的装置，其特征在于，所述训练模块，包括：

第一训练子模块，用于针对所述N类特征数据，在将一类特征数据输入预设模型，训练得到所述预设模型能够识别该类特征数据的部分后，再将下一类特征数据输入所述预设模型训练所述预设模型的另一部分，直至得到能够识别全部所述N类特征数据的目标模型为止。

7.根据权利要求5所述的装置，其特征在于，所述训练模块，包括：

第二训练子模块，用于对所述预设模型进行多轮训练，直至得到能够识别全部所述N类特征数据的目标模型为止，其中，在每轮训练中，基于一个类别的特征数据对所述预设模型的一个部分进行一次训练，直至所述N类特征数据均完成一次训练之后进行下一轮训练。

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述装置还包括

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。