CN115130574A

CN115130574A - 模型训练方法、装置、存储介质、处理器及电子装置

Info

Publication number: CN115130574A
Application number: CN202210737197.1A
Authority: CN
Inventors: 刘朋; 林熙东; 杨青
Original assignee: Du Xiaoman Technology Beijing Co Ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-30

Abstract

本发明公开了一种模型训练方法、装置、存储介质、处理器及电子装置。其中，该方法包括：获取目标样本数据；对目标样本数据进行格式化处理，得到中间处理结果；基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练，得到目标分类模型。本发明解决了相关技术中由于训练样本规模小而导致的模型训练成本高以及模型性能较差的技术问题。

Description

模型训练方法、装置、存储介质、处理器及电子装置

技术领域

本发明涉及机器学习领域，具体而言，涉及一种模型训练方法、装置、存储介质、处理器及电子装置。

背景技术

在金融风控领域中，尤其是信贷业务需要进行风险控制，因此需要不断优化风控模型，提升模型的性能和效果。

相关技术中，通过综合各种类型的数据源并拼接标签信息，组合成建模数据，并选择合适的机器学习算法进行模型训练。但是，在实际制定建模方案时，常常出现训练样本规模较小的情况。现有技术中针对规模较小样本的训练主要有以下两种方案，分别为抽象统计变量和简单模型算法。

抽象统计变量方法，首先将样本数据初步分成小类，接着抽象归纳成大类，并进行分类统计，随后进行变量的衍生，最后基于衍生后变量的统计特征，应用较简单的算法进行建模。但是，在对大量复杂数据进行变量加工及衍生时，不仅要求工程师有丰富的数据挖掘经验，而且要通过不断地优化变量衍生方案，才能挖掘出有效的变量。同时，抽象统计变量方法受限于较小的可用样本规模，实际用于建模的变量不能太多，因此需要反复筛选建模变量，由此导致抽象统计变量方法投入的人工成本高。

针对规模较小的样本进行建模方案的设计时，由于样本量过少，因此应用复杂算法会导致模型过拟合严重，而简单模型算法利用简单的算法对样本数据进行挖掘，可以训练出一个能达到业务基本要求的模型，但是模型性能较差。

因此，在训练样本规模较小的情况下，利用现有技术中抽象统计变量方法或简单模型算法进行模型训练时，会导致数据挖掘成本过高、模型效果较差等问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种模型训练方法、装置、存储介质、处理器及电子装置，以至少解决相关技术中由于训练样本规模小而导致的模型训练成本高以及模型性能较差的技术问题。

根据本发明实施例的一个方面，提供了一种模型训练方法，包括：

获取目标样本数据，其中，目标样本数据包括第一样本数据和第二样本数据，第一样本数据的样本数量大于预设阈值，第二样本数据的样本数量小于预设阈值；对目标样本数据进行格式化处理，得到中间处理结果；基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练，得到目标分类模型，其中，第一分类模型包括初始编码器和第一分类器，第二分类模型包括目标编码器和第二分类器，第一分类器用于对第一样本数据进行分类处理，第二分类器用于对第二样本数据进行分类处理。

可选地，获取目标样本数据包括：获取第一分类标签对应的第一样本数据，以及获取第二分类标签对应的第二样本数据，其中，第一分类标签用于训练第一分类器，第二分类标签用于训练第二分类器，第一分类标签与第二分类标签相关联。

可选地，对目标样本数据进行格式化处理，得到中间处理结果包括：获取初始编码器的类型信息；基于初始编码器的类型信息确定目标样本数据对应的目标处理方式；利用目标处理方式对目标样本数据进行格式化处理，得到中间处理结果。

可选地，基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练包括：对于第一分类模型，重复执行如下操作：基于第一样本数据对应的中间处理结果训练第一分类模型以及记录第一损失误差，其中，第一损失误差用于确定目标编码器；对于第二分类模型，重复执行如下操作：基于第二样本数据对应的中间处理结果训练第二分类模型以及记录第二损失误差，其中，第二损失误差用于确定目标分类模型。

可选地，模型训练方法还包括：获取测试样本数据和业务评价指标；利用目标分类模型对测试样本数据进行分类处理，得到分类结果；基于业务评价指标对于分类结果进行预测评分，得到评分结果，其中，评分结果用于确定分类结果是否准确。

可选地，模型训练方法还包括：目标样本数据包括数值字段和/或非数值字段。

根据本发明实施例的另一方面，还提供了一种模型训练装置，包括：

获取模块，用于获取目标样本数据，其中，目标样本数据包括第一样本数据和第二样本数据，第一样本数据的样本数量大于预设阈值，第二样本数据的样本数量小于预设阈值；处理模块，用于对目标样本数据进行格式化处理，得到中间处理结果；训练模块，用于基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练，得到目标分类模型，其中，第一分类模型包括初始编码器和第一分类器，第二分类模型包括目标编码器和第二分类器，第一分类器用于对第一样本数据进行分类处理，第二分类器用于对第二样本数据进行分类处理。

可选地，获取模块还用于获取目标样本数据包括：获取第一分类标签对应的第一样本数据，以及获取第二分类标签对应的第二样本数据，其中，第一分类标签用于训练第一分类器，第二分类标签用于训练第二分类器，第一分类标签与第二分类标签相关联。

可选地，处理模块还用于对目标样本数据进行格式化处理，得到中间处理结果包括：获取初始编码器的类型信息；基于初始编码器的类型信息确定目标样本数据对应的目标处理方式；利用目标处理方式对目标样本数据进行格式化处理，得到中间处理结果。

可选地，训练模块还用于基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练包括：对于第一分类模型，重复执行如下操作：基于第一样本数据对应的中间处理结果训练第一分类模型以及记录第一损失误差，其中，第一损失误差用于确定目标编码器；对于第二分类模型，重复执行如下操作：基于第二样本数据对应的中间处理结果训练第二分类模型以及记录第二损失误差，其中，第二损失误差用于确定目标分类模型。

可选地，获取模块还用于获取测试样本数据和业务评价指标；模型训练装置还包括：分类模块，利用目标分类模型对测试样本数据进行分类处理，得到分类结果；评分模块，基于业务评价指标对于分类结果进行预测评分，得到评分结果，其中，评分结果用于确定分类结果是否准确。

可选地，目标样本数据包括数值字段和/或非数值字段。

根据本发明其中一实施例，还提供了一种非易失性存储介质，存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述任一项中的模型训练方法。

根据本发明其中一实施例，还提供了一种处理器，处理器用于运行程序，其中，程序被设置为运行时执行上述任一项中的模型训练方法。

根据本发明其中一实施例，还提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一项中的模型训练方法。

在本发明实施例中，通过获取样本数量大于预设阈值的第一样本数据和样本数量小于预设阈值的第二样本数据，并对两个样本数据进行格式化处理，基于格式化后的结果对包含初始编码器和第一分类器的第一分类模型以及包含目标编码器和第二分类器的第二分类模型进行机器学习训练，得到目标分类模型，达到了对规模较小的样本数据进行复杂数据建模的目的，从而实现了降低模型训练成本、提升模型性能的技术效果，进而解决了相关技术中由于训练样本规模小而导致的模型训练成本高以及模型性能较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明其中一实施例的模型训练方法的流程图；

图2是根据本发明其中一可选实施例的模型训练过程的示意图；

图3是根据本发明其中一可选实施例的模型测试过程的示意图；

图4是根据本发明其中一可选实施例的模型训练系统的示意图；

图5是根据本发明其中一实施例的模型训练装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中针对规模较小样本的训练主要有以下两种方案，分别为抽象统计变量和简单模型算法。

抽象统计变量方法包括以下几个步骤：首先，对样本数据进行初步精细分类，分成小类别后进行数值计算，包括求和、求差、求商等；接着，将分成小类别后的样本数据抽象归纳成大类别，并进行不同精细水平的分类统计，在分类统计结束后通过各种类别的交叉进行变量的衍生，其中，最极端的衍生方式是各个类别间的暴力组合，衍生后的变量特征维度可达到原始统计特征维度的几十倍甚至上百倍；最后，基于衍生后变量的统计特征，可以应用较简单的算法进行建模。但是，在对大量复杂数据进行变量加工及衍生时，不仅要求工程师有丰富的数据挖掘经验，而且要通过不断地优化变量衍生方案，才能挖掘出有效的变量。同时，抽象统计变量方法受限于较小的可用样本规模，实际用于建模的变量不能太多，因此需要反复筛选建模变量，由此导致抽象统计变量方法投入的人工成本高。

由此可知，在训练样本规模较小的情况下，利用现有技术中抽象统计变量方法或简单模型算法进行模型训练时，会导致数据挖掘成本过高、模型效果较差等问题。因此，本申请提出一种针对训练样本规模较小的模型训练方法。

根据本发明实施例，提供了一种模型训练方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

该方法实施例可以在包含存储器和处理器的电子装置或者类似的运算装置中执行。以运行在计算机终端上为例，计算机终端可以包括一个或多个处理器(处理器可以包括但不限于中央处理器(CPU)、图形处理器(GPU)、数字信号处理(DSP)芯片、微处理器(MCU)、可编程逻辑器件(FPGA)、神经网络处理器(NPU)、张量处理器(TPU)、人工智能(AI)类型处理器等的处理装置)和用于存储数据的存储器。可选地，上述计算机终端还可以包括用于通信功能的传输设备、输入输出设备以及显示设备。本领域普通技术人员可以理解，上述结构描述仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比上述结构描述更多或者更少的组件，或者具有与上述结构描述不同的配置。

存储器可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的信息处理方法对应的计算机程序，处理器通过运行存储在存储器内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的信息处理方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

显示设备可以例如触摸屏式的液晶显示器(LCD)和触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。该液晶显示器可使得用户能够与移动终端的用户界面进行交互。在一些实施例中，上述移动终端具有图形用户界面(GUI)，用户可以通过触摸触敏表面上的手指接触和/或手势来与GUI进行人机交互，此处的人机交互功能可选的包括如下交互：创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。

在本实施例中提供了一种运行于上述计算机终端的模型训练方法，图1是根据本发明其中一实施例的模型训练方法的流程图，如图1所示，该流程包括如下步骤：

步骤S12，获取目标样本数据，其中，目标样本数据包括第一样本数据和第二样本数据，第一样本数据的样本数量大于预设阈值，第二样本数据的样本数量小于预设阈值；

步骤S14，对目标样本数据进行格式化处理，得到中间处理结果；

步骤S16，基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练，得到目标分类模型，其中，第一分类模型包括初始编码器和第一分类器，第二分类模型包括目标编码器和第二分类器，第一分类器用于对第一样本数据进行分类处理，第二分类器用于对第二样本数据进行分类处理。

上述目标样本数据包括数值字段和/或非数值字段。具体的，目标样本数据可以包括数值字段，也可以包括非数值字段，也可以同时包括数值字段和非数值字段。例如，数值字段可以为用户的工资收入金额、工作年限等字段；非数值字段可以为征信中的工作单位、职业信息以及手机中的应用列表等字段。目标样本数据包括第一样本数据和第二样本数据，第一样本数据表示数量大于预设阈值的样本数据，第二样本数据表示数量小于预设阈值的样本数量。

对于第一样本数据的选取有两个原则，一个原则是第一样本数据对应的分类任务应与第二样本数据对应的分类任务相近，保证两个样本数据对应的分类任务相近可以在一定程度上解决第二样本数据学习不充分的问题；另一个原则是第一样本数据的量级应该足够大。例如，在预设阈值为20万时，数量大于20万的样本数据为第一样本数据，数量小于20万的样本数据为第二样本数据。

具体的，上述对目标样本数据进行格式化处理表示将目标样本数据以预设方式进行格式化，可以根据目标样本数据的特点和编码器的类型进行格式化。目标样本数据的特点表示目标数样本数据的数据格式，可以包括：数值字段和/或非数值字段。在根据目标样本数据的特点和自定义的编码器结构进行格式化时，则需要将目标样本数据处理成编码器结构要求的格式。

具体的，上述第一分类模型包括初始编码器和第一分类器，其中，初始编码器可以根据目标样本数据的数据类型进行选择，例如，在目标样本数据是自然语言类型时，则可以选择自然语言处理(Natural Language Processing，NLP)中预训练的模型，比如常见的双向传递的编码器(Bidirectional Encoder Representation from Transformers，BERT)及其变种的预训练模型；在目标样本数据是枚举类型的非数值数据时，则可以自定义对应的神经网络结构。其中，第一分类器用于对第一样本数据进行分类处理，例如，根据第一样本数据中是否有工商注册记录对第一样本数据进行分类处理，将第一样本数据分成有工商注册记录和没有工商注册记录的两个类别。

具体的，上述第二分类模型包括目标编码器和第二分类器，其中，目标编码器是对第一分类模型的训练结果。其中，第二分类器用于对第二样本数据进行分类处理，例如，根据第二样本数据中是否有从事经营活动对第二样本数据进行分类处理，将第二样本数据分成有从事经营活动和没有从事经营活动的两个类别。

基于上述步骤S12至步骤S16，通过获取样本数量大于预设阈值的第一样本数据和样本数量小于预设阈值的第二样本数据，并对两个样本数据进行格式化处理，基于格式化后的结果对包含初始编码器和第一分类器的第一分类模型以及包含目标编码器和第二分类器的第二分类模型进行机器学习训练，得到目标分类模型，达到了对规模较小的样本数据进行复杂数据建模的目的。

可选地，在步骤S12中，获取目标样本数据还包括：获取第一分类标签对应的第一样本数据，以及获取第二分类标签对应的第二样本数据，其中，第一分类标签用于训练第一分类器，第二分类标签用于训练第二分类器，第一分类标签与第二分类标签相关联。

具体的，上述第一分类标签可以为“标签1”，“标签1”定义为是否有工商注册记录。根据“标签1”可以选取有注册工商记录的数据(即，正例)和没有注册工商记录的数据(即，负例)作为第一样本数据；上述第二分类标签可以为“标签2”，“标签2”定义为是否有从事经营活动。根据“标签2”可以选取有从事经营活动的数据(即，正例)和没有从事经营活动的数据(即，负例)作为第二样本数据，该样本数据为人工收集，样本量较小。由于第一分类标签对应的分类任务与第二分类标签对应的分类任务相近，因此第一分类标签与第二分类标签相关联。

具体的，上述第一分类器用于对第一样本数据进行分类，例如，根据第一样本数据中是否有工商注册记录对第一样本数据进行分类处理，将第一样本数据分成有工商注册记录和没有工商注册记录的两个类别。第二分类器用于对第二样本数据进行分类。例如，根据第二样本数据中是否有从事经营活动对第二样本数据进行分类处理，将第二样本数据分成有从事经营活动和没有从事经营活动的两个类别。

通过获取相关联的第一分类标签与第二分类标签对应的第一样本数据和第二样本数据，可以解决在数量较少的样本上学习知识覆盖不全的问题。

可选地，在步骤S14中，对目标样本数据进行格式化处理，得到中间处理结果包括：

步骤S141，获取初始编码器的类型信息；

步骤S142，基于初始编码器的类型信息确定目标样本数据对应的目标处理方式；

步骤S143，利用目标处理方式对目标样本数据进行格式化处理，得到中间处理结果。

具体的，上述初始编码器可以包括自定义的编码器结构、开源的模型、预训练模型中的一项或多项。例如，初始编码器的类型是自然语言处理类，根据这种类型信息确定的目标处理方式为：将目标样本数据处理成每条目标样本数据对应一行文本记录的格式，利用这种处理方式对目标样本数据进行格式化处理，能够得到每条目标样本数据对应一行文本记录格式的中间处理结果。再例如，初始编码器的类型是自定义类型，根据这种类型信息确定的目标处理方式为：将目标样本数据按照自定义字典进行索引数值转换，利用这种处理方式对目标样本数据进行格式化处理，能够得到数值型的中间处理结果。

基于上述步骤S141至步骤S143，通过获取初始编码器的类型信息，并基于此类型信息确定目标样本数据对应的目标处理方式，利用此目标处理方式对目标样本数据进行格式化处理，得到中间处理结果，可以使目标样本数据在编码器中进行机器学习时更加充分与便捷。

可选地，在步骤S16中，基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练包括：

对于第一分类模型，重复执行如下操作：

步骤S161，基于第一样本数据对应的中间处理结果训练第一分类模型以及记录第一损失误差，其中，第一损失误差用于确定目标编码器；

对于第二分类模型，重复执行如下操作：

步骤S162，基于第二样本数据对应的中间处理结果训练第二分类模型以及记录第二损失误差，其中，第二损失误差用于确定目标分类模型。

具体的，上述对第一分类模型进行机器学习训练可以基于第一样本数据对应的中间处理结果对初始编码器和第一分类器进行n1轮的训练，并将每一轮训练对应的损失误差存储在第一损失误差loss_n中，例如，第n1轮的训练对应的损失误差为loss_n1，将这个误差进行记录。重复以上步骤，当第一损失误差loss_n中误差不再明显下降时，则停止n1轮的训练，并保存此时的编码器作为目标编码器。

具体的，上述对第二分类模型进行机器学习训练可以基于第二样本数据对应的中间处理结果对第一分类模型训练得到的目标编码器和第二分类器进行m1轮的训练，并将每一轮训练对应的损失误差存储在第二损失误差loss_m中，例如，第m1轮的训练对应的损失误差为loss_m1，将这个误差进行记录。当第二损失误差loss_m中误差不再有明显下降时，则保留目标编码器和第二分类器作为目标分类模型，停止整个训练流程。

基于上述步骤S161至步骤S162，通过对第一分类模型进行机器学习训练，确定了目标编码器，利用此目标编码器对第二分类模型进行机器学习训练，最终确定了目标分类模型，由此可以利用目标分类模型对测试样本数据进行预测评分，达到了对规模较小的样本数据进行复杂数据建模的目的，从而实现了当训练样本规模较小时能够进行合理分类的技术效果。

图2是根据本发明其中一可选实施例的模型训练过程的示意图。针对第一分类模型和第二分类模型的整个训练流程可以如图2所示。

针对第一分类模型的训练可以包含以下过程：

首先，对目标样本数据进行预处理，包括对目标样本数据的格式化和引入标签。对目标样本数据进行预处理可以通过对目标样本数据进行索引数值转换来完成，例如，当目标样本数据为手机应用列表[手机应用1，手机应用2，手机应用3，…]时，对该手机应用列表进行索引数值转换，可得到手机应用索引列表[200001，200002，200003，…]。

其次，选择第一分类模型训练中的初始编码器和第一分类器，其中，采用长短期记忆网络(Long Short-Term Memory，LSTM)和融合注意力结构(attention)的自定义网络结构作为初始编码器(编码器n1，编码器n2，…，编码器nx，…，编码器ny)，其中，第一分类器可以包括线性层、激活函数层、遗忘层、全连接层和分类层。

随后，利用第一分类模型对“标签1”对应的格式化后的第一样本数据进行机器学习训练，包括：基于第一样本数据对应的中间处理结果对初始编码器和第一分类器进行n1轮的训练，并将每一轮训练对应的损失误差存储在第一损失误差loss_n中。重复以上步骤，当第一损失误差loss_n中误差不再明显下降时，则停止n1轮的训练，并保存此时的编码器作为目标编码器。

最后，利用训练后的第一分类模型对第一样本数据进行预测评分。

针对第二分类模型的训练可以包含以下过程：

接着，利用第二分类模型对“标签2”对应的格式化后的第二样本数据进行机器学习训练，包括：基于第二样本数据对应的中间处理结果对第一样本数据训练后得到的目标编码器和第二分类器进行m1轮的训练，并将每一轮训练对应的损失误差存储在第二损失误差loss_m中。重复以上步骤，当第二损失误差loss_m中误差不再有明显下降时，保留此时的目标编码器和第二分类器作为最终的目标分类模型，停止m1轮的训练。

最后，利用训练后的第二分类模型对第二样本数据进行预测评分。

在上述模型训练过程中，通过利用第一分类模型对格式化后的第一样本数据进行机器学习训练以及利用第二分类模型对格式化后的第二样本数据进行机器学习训练，得到目标分类模型，达到了对规模较小的样本数据进行复杂数据建模的目的，从而实现了降低模型训练成本、提升模型性能的技术效果，进而解决了相关技术中由于训练样本规模小而导致的模型训练成本高以及模型性能较差的技术问题。

可选地，本发明实施例的模型训练方法还包括：

步骤S181，获取测试样本数据和业务评价指标；

步骤S182，利用目标分类模型对测试样本数据进行分类处理，得到分类结果；

步骤S183，基于业务评价指标对于分类结果进行预测评分，得到评分结果，其中，评分结果用于确定分类结果是否准确。

图3是根据本发明其中一可选实施例的模型测试过程的示意图。

通过基于第一样本数据和第二样本数据对第一分类模型和第二分类模型的训练得到目标编码器和第二分类器，将目标分类模型和第二分类器作为最终模型进行存储得到目标分类模型，并利用目标分类模型对测试样本数据进行预测评分。其中，模型测试过程包含以下过程：

首先，获取测试样本数据和业务评价指标，并通过对手机应用列表[手机应用1，手机应用2，手机应用3，…]进行索引数值转换，得到手机应用索引列表[200001，200002，200003，…]的方式来完成对测试样本数据的格式化处理。其次，利用包含目标编码器和第二分类器的目标样本模型对格式化后的测试样本数据进行分类处理，得到分类结果。最后，基于业务评价指标对于分类结果进行预测评分，得到评分结果，以确定分类结果是否准确。

上述模型测试过程中，通过将目标分类模型和第二分类器作为最终模型进行存储得到目标分类模型，并利用目标分类模型对测试样本数据进行预测评分，确定了最终需要的目标分类模型，达到了对规模较小的样本数据进行复杂数据建模的目的，从而实现了降低模型训练成本、提升模型性能的技术效果，进而解决了相关技术中由于训练样本规模小而导致的模型训练成本高以及模型性能较差的技术问题。

图4是根据本发明其中一可选实施例的模型训练系统的示意图。如图4所示，模型训练系统将对样本数据进行N轮训练，这里以第1轮训练为例对训练过程进行描述，其余第2轮至第N轮的训练过程与第1轮训练类似。

如图4所示，第1轮训练主要包含三个部分：数据预处理、模型训练、模型存储及预测评分。

数据预处理部分，这部分主要负责定义标签、样本准备以及对源数据进行格式化处理，其中，定义标签和样本准备包括选取第二分类标签对应的第二样本数据，选取与第二样本数据对应的分类任务相近的第二分类标签及其对应的第一样本数据；对样本数据进行格式化处理包括根据样本数据的特点和编码器的类型对样本数据进行格式化。模型训练部分，这部分主要负责基于第一样本数据和第二样本数据的模型训练，其中，基于第一样本数据对初始编码器和第一分类器进行训练，得到目标编码器和第二分类器；并基于第二样本数据对目标编码器和第二分类器进行训练，得到目标分类模型，包括目标编码器和第二分类器。模型存储及预测评分部分，这部分主要负责对目标分类模型的存储以及利用目标分类模型对测试样本数据进行预测评分。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种模型训练装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明其中一实施例的一种模型训练装置的结构框图，如图5所示，该模型训练装置包括：获取模块501，用于获取目标样本数据，其中，目标样本数据包括第一样本数据和第二样本数据，第一样本数据的样本数量大于预设阈值，第二样本数据的样本数量小于预设阈值；处理模块502，用于对目标样本数据进行格式化处理，得到中间处理结果；训练模块503，用于基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练，得到目标分类模型，其中，第一分类模型包括初始编码器和第一分类器，第二分类模型包括目标编码器和第二分类器，第一分类器用于对第一样本数据进行分类处理，第二分类器用于对第二样本数据进行分类处理。

可选地，获取模块501还用于：获取第一分类标签对应的第一样本数据，以及获取第二分类标签对应的第二样本数据，其中，第一分类标签用于训练第一分类器，第二分类标签用于训练第二分类器，第一分类标签与第二分类标签相关联。

可选地，处理模块502还用于：获取初始编码器的类型信息；基于初始编码器的类型信息确定目标样本数据对应的目标处理方式；利用目标处理方式对目标样本数据进行格式化处理，得到中间处理结果。

可选地，训练模块503还用于：对于第一分类模型，重复执行如下操作：基于第一样本数据对应的中间处理结果训练第一分类模型以及记录第一损失误差，其中，第一损失误差用于确定目标编码器；对于第二分类模型，重复执行如下操作：基于第二样本数据对应的中间处理结果训练第二分类模型以及记录第二损失误差，其中，第二损失误差用于确定目标分类模型。

可选地，获取模块501还用于获取测试样本数据和业务评价指标；模型训练装置还包括：分类模块504，利用目标分类模型对测试样本数据进行分类处理，得到分类结果；评分模块505，基于业务评价指标对于分类结果进行预测评分，得到评分结果，其中，评分结果用于确定分类结果是否准确。

可选地，目标样本数据包括数值字段和/或非数值字段。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

步骤S1，获取目标样本数据，其中，目标样本数据包括第一样本数据和第二样本数据，第一样本数据的样本数量大于预设阈值，第二样本数据的样本数量小于预设阈值；

步骤S2，对目标样本数据进行格式化处理，得到中间处理结果；

步骤S3，基于中间处理结果对第一分类模型和第二分类模型进行机器学习训练，得到目标分类模型，其中，第一分类模型包括初始编码器和第一分类器，第二分类模型包括目标编码器和第二分类器，第一分类器用于对第一样本数据进行分类处理，第二分类器用于对第二样本数据进行分类处理。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种模型训练方法，其特征在于，包括：

获取目标样本数据，其中，所述目标样本数据包括第一样本数据和第二样本数据，所述第一样本数据的样本数量大于预设阈值，所述第二样本数据的样本数量小于所述预设阈值；

对所述目标样本数据进行格式化处理，得到中间处理结果；

基于所述中间处理结果对第一分类模型和第二分类模型进行机器学习训练，得到目标分类模型，其中，所述第一分类模型包括初始编码器和第一分类器，所述第二分类模型包括目标编码器和第二分类器，所述第一分类器用于对所述第一样本数据进行分类处理，所述第二分类器用于对所述第二样本数据进行分类处理。

2.根据权利要求1所述的模型训练方法，其特征在于，获取所述目标样本数据包括：

获取第一分类标签对应的第一样本数据，以及获取第二分类标签对应的第二样本数据，其中，所述第一分类标签用于训练所述第一分类器，所述第二分类标签用于训练所述第二分类器，所述第一分类标签与所述第二分类标签相关联。

3.根据权利要求1所述的模型训练方法，其特征在于，对所述目标样本数据进行格式化处理，得到所述中间处理结果包括：

获取所述初始编码器的类型信息；

基于所述初始编码器的类型信息确定所述目标样本数据对应的目标处理方式；

利用所述目标处理方式对所述目标样本数据进行格式化处理，得到中间处理结果。

4.根据权利要求1所述的模型训练方法，其特征在于，基于所述中间处理结果对所述第一分类模型和所述第二分类模型进行机器学习训练包括：

对于所述第一分类模型，重复执行如下操作：基于所述第一样本数据对应的中间处理结果训练所述第一分类模型以及记录第一损失误差，其中，所述第一损失误差用于确定所述目标编码器；

对于所述第二分类模型，重复执行如下操作：基于所述第二样本数据对应的中间处理结果训练所述第二分类模型以及记录第二损失误差，其中，所述第二损失误差用于确定所述目标分类模型。

5.根据权利要求1所述的模型训练方法，其特征在于，所述方法还包括：

获取测试样本数据和业务评价指标；

利用所述目标分类模型对所述测试样本数据进行分类处理，得到分类结果；

基于所述业务评价指标对于所述分类结果进行预测评分，得到评分结果，其中，所述评分结果用于确定所述分类结果是否准确。

6.根据权利要求1所述的模型训练方法，其特征在于，所述目标样本数据包括数值字段和/或非数值字段。

7.一种模型训练装置，其特征在于，包括：

获取模块，用于获取目标样本数据，其中，所述目标样本数据包括第一样本数据和第二样本数据，所述第一样本数据的样本数量大于预设阈值，所述第二样本数据的样本数量小于所述预设阈值；

处理模块，用于对所述目标样本数据进行格式化处理，得到中间处理结果；

训练模块，用于基于所述中间处理结果对第一分类模型和第二分类模型进行机器学习训练，得到目标分类模型，其中，所述第一分类模型包括初始编码器和第一分类器，所述第二分类模型包括目标编码器和第二分类器，所述第一分类器用于对所述第一样本数据进行分类处理，所述第二分类器用于对所述第二样本数据进行分类处理。

8.一种非易失性存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的模型训练方法。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至6任一项中所述的模型训练方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的模型训练方法。