CN105046366A

CN105046366A - 模型训练方法及装置

Info

Publication number: CN105046366A
Application number: CN201510456763.1A
Authority: CN
Inventors: 金涬; 李毅; 邹永强; 郭志懋; 薛伟; 肖磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2015-07-29
Filing date: 2015-07-29
Publication date: 2015-11-11
Anticipated expiration: 2035-07-29
Also published as: CN105046366B

Abstract

本发明公开了一种模型训练方法及装置，属于计算机技术领域。所述方法包括：构造代价函数为非凸函数的模型；获取训练样本集，所述训练样本集包括用于训练所述模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；根据所述训练样本集对所述模型进行训练，得到n个候选模型，n为大于1的正整数；将所述n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型。本发明解决了代价函数为非凸函数的预估模型的模型质量波动大的问题，达到了提高最终训练得到的预估模型的模型质量的效果。

Description

模型训练方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种模型训练方法及装置。

背景技术

内容点击率预估用于预估用户点击一个内容的概率。内容点击率的影响因素包括用户特征和内容特征，即，用户的喜好、不同内容的投放位置、展现形式、内容素材等会影响内容点击率的预估值，因此，可以根据内容被用户点击和未被用户点击的历史数据来训练预估模型，通过预估模型来预估内容点击率。

现有的一种模型训练方法包括：构造深度神经网络；获取历史数据，并将历史数据中的每个用户特征、与每个用户特征对应的内容特征、用户对内容采取的实际行为确定为一个训练样本；从各个训练样本中学习非线性信息；通过对非线性信息设置固定的迭代轮数来训练深度神经网络，得到预估模型。

由于深度神经网络的代价函数是非凸函数，因此，该预估模型在训练过程中的模型质量的波动较大，最终训练得到的预估模型的模型质量不稳定。

发明内容

为了解决代价函数是非凸函数的预估模型的模型质量波动大，最终训练得到的预估模型的模型质量不稳定的问题，本发明实施例提供了一种模型训练方法及装置。所述技术方案如下：

第一方面，提供了一种模型训练方法，所述方法包括：

构造代价函数为非凸函数的模型；

获取训练样本集，所述训练样本集包括用于训练所述模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；

根据所述训练样本集对所述模型进行训练，得到n个候选模型，n为大于1的正整数；

将所述n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型。

第二方面，提供了一种模型训练装置，所述装置包括：

模型构造模块，用于构造代价函数为非凸函数的模型；

样本集获取模块，用于获取训练样本集，所述训练样本集包括用于训练所述模型构造模块构造的所述模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；

候选模型获取模块，用于根据所述样本集获取模块得到的所述训练样本集对所述模型进行训练，得到n个候选模型，n为大于1的正整数；

预估模型确定模块，用于将所述候选模型获取模块得到的所述n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型。

本发明实施例提供的技术方案的有益效果是：

通过构造代价函数为非凸函数的模型；获取训练样本集，该训练样本集包括用于训练模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；根据训练样本集对模型进行训练，得到n个候选模型；将n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型，解决了代价函数是非凸函数的预估模型的模型质量波动大，最终训练得到的预估模型的模型质量不稳定的问题，达到了提高最终训练得到的预估模型的模型质量的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的模型训练方法的方法流程图；

图2是本发明另一实施例提供的模型训练方法的方法流程图；

图3是本发明一个实施例提供的模型训练装置的结构框图；

图4是本发明再一实施例提供的模型训练装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1，其示出了本发明一个实施例提供的模型训练方法的方法流程图，该模型训练方法可以应用于服务器中。该模型训练方法，包括：

步骤101，构造代价函数为非凸函数的模型。

步骤102，获取训练样本集，该训练样本集包括用于训练模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值。

步骤103，根据该训练样本集对模型进行训练，得到n个候选模型，n为大于1的正整数。

步骤104，将n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型。

综上所述，本发明实施例提供的模型训练方法，通过构造代价函数为非凸函数的模型；获取训练样本集，该训练样本集包括用于训练模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；根据训练样本集对模型进行训练，得到n个候选模型；将n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型，解决了代价函数是非凸函数的预估模型的模型质量波动大，最终训练得到的预估模型的模型质量不稳定的问题，达到了提高最终训练得到的预估模型的模型质量的效果。

请参考图2，其示出了本发明另一实施例提供的模型训练方法的方法流程图，该模型训练方法可以应用于服务器中。该模型训练方法，包括：

步骤201，构造代价函数为非凸函数的模型。

本实施例中的模型用于预估用户对某一个内容所采取的实际行为，该实际行为为点击行为或非点击行为，该内容可以是广告、文本、图片、视频、音频等等，本实施例不作限定。由于模型需要根据用户特征和内容特征对实际行为进行预估，而用户特征和内容特征包括非线性信息，因此，服务器构造的模型需要能够从用户特征和内容特征中学习非线性信息。即，服务器构造的模型应该是非线性模型。

本实施中的用户特征可以有多种表达方式，此处以用户特征用向量表示来举例说明，则该向量中的每个分量对应于一个特征，当用户具有某一个特征时，该特征所对应的分量值为1；当用户不具有某一个特征时，该特征所对应的分量值为0。同样，内容特征也可以这样表示，本实施例不作赘述。

在一种可能的实现方式中，服务器构造的模型可以是深度神经网络。其中，深度神经网络中包括一个或多个隐藏在输入和输出神经节点之间的层，且每层中的每个神经节点模型包含一个可微的非线性激活函数。

由于深度神经网络的代价函数是非凸函数，且当代价函数为非凸函数时，模型在训练过程中的模型质量的波动较大，因此，最后训练得到的模型不一定有最好的模型质量，此时需要选择模型质量最好的模型。其中，凸函数是指定义在某个向量空间的凸子集上的实值函数，非凸函数是指不满足上述特征的函数。代价函数用于度量模型的预估值与实际值之间的某种距离。代价函数的函数值越小，预估值与实际值之间的距离越小，预估值越准确，此时模型的模型质量越高。

步骤202，获取构造的模型的上线时间；根据在上线时间之前的预定时段内的样本生成测试样本集，该预定时段的结束时间与上线时间之间的差值小于预定阈值；根据在预定时段外的样本生成训练样本集。

样本用于表示历史时刻的用户与内容之间的关系，每个样本包括用户特征、内容特征和用户对内容采取的实际行为所对应的操作值。比如，当用户点击内容时，操作值为1；当用户未点击内容时，操作值为0。

本实施例中，将用于训练模型的样本称为训练样本，将各个训练样本所组成的集合称为训练样本集。将用于测试模型的样本称为测试样本，将各个测试样本所组成的集合称为测试样本集。其中，每个测试样本与每个训练样本不同，以保证测试的准确性。

在通过模型预估在线内容点击率时，最好的测试样本集是该模型上线后的实际的数据集，显然这个数据集在训练模型时还没来得及产生，因此，无法使用该数据集来测试模型。本实施例中，服务器先确定结束时间与上线时间之间的差值小于预定阈值的预定时段，将该预定时段内的各个样本确定为测试样本，得到测试样本集；将剩余的样本确定为训练样本，得到训练样本集。由于预定时段离上线时间较近，因此，得到的测试样本集与上线后的实际的样本特征较接近，当使用该测试样本集对该预估模型的测试通过时，预估模型对上线后的样本特征的预估的准确性较高。其中，样本特征包括用户特征和内容特征。

比如，模型的上线时间是8点，且模型的训练时间为半小时，则可以将7点到7点半之间的各个样本确定为测试样本，得到测试样本集；将剩余时间的各个样本确定为训练样本，得到训练样本集。其中，模型的上线时间可以人为设置。

可选的，服务器还可以生成多个测试样本集，比如，根据将7点到7点半之间的各个样本生成第一个测试样本集，根据6点到6点半之间的各个样本生成第二个测试样本集，根据5点到5点半之间的各个样本生成第三个测试样本集等等，本实施例不限定各个测试样本集的生成方式。

步骤203，获取训练样本集，该训练样本集包括用于训练模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值。

服务器可以读取步骤202中生成的训练样本集。

步骤204，将训练样本集在模型中迭代m轮；将其中最后n轮迭代得到的n个模型确定为n个候选模型，n为大于1的正整数，m＞n且m为正整数。

在训练模型时，服务器可以将训练样本集在模型中迭代m轮。在每一轮的迭代过程中，服务器将第i个训练样本的用户特征和内容特征输入该模型，将该模型的输出值与该训练样本的操作值比较，根据比较结果调整与该训练样本相关的特征的权重；将第i+1个训练样本的用户特征和内容特征输入调整后的模型，直至训练完最后一个训练样本后结束本轮的迭代。其中，当操作值为1时，代价函数的偏导越大，权重的正向调整幅度越大；代价函数的偏导越小，权重的正向调整幅度越小。当操作值为0时，代价函数的偏导越大，权重的反向调整幅度越大；代价函数的偏导越小，权重的反向调整幅度越小。

在最后的n轮迭代时，每次迭代后都会生成一个模型，将每个模型确定为一个候选模型，得到n个候选模型。其中，n可以是经验值。

比如，m为20，n为3，则将第18轮迭代后得到的模型确定为一个候选模型，将第19轮迭代后得到的模型确定为一个候选模型，将第20轮迭代后得到的模型确定为一个候选模型，得到3个候选模型。

步骤205，获取测试样本集，测试样本集包括用于测试候选模型的各个测试样本，每个测试样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值。

服务器可以读取步骤202中生成的测试样本集。

步骤206，对于每个候选模型，将测试样本集中的每个测试样本的用户特征和内容特征输入候选模型，根据候选模型的每个输出值和对应的操作值计算模型质量参数。

其中，模型质量参数可以是AUC(AreaUnderReceiverOperatingCharacteristicCurve，受试者工作特征曲线下面积)或代价函数的函数值，下面分别对这两种模型质量参数的计算过程进行说明。

第一，当模型质量参数是AUC时，服务器将一个测试样本集中的每个测试样本的用户特征和内容特征输入候选模型，得到每个测试样本的输出值；计算该测试样本集中，操作值为1的测试样本所对应的输出值大于操作值为0的测试样本所对应的输出值的概率，将该概率确定为该候选模型的AUC的数值。

当存在多个测试样本集时，可以计算多个AUC的数值加权平局值，将该加权平均值确定为该候选模型的AUC的数值。

第二，当模型质量参数是代价函数的函数值时，对于一个测试样本集中的每个测试样本，服务器将该测试样本集的用户特征和内容特征输入候选模型，得到该测试样本的输出值；当该测试样本的操作值为1时，将该输出值带入公式一，得到一个数值；当该测试样本的操作值是0时，将该输出值带入公式二，得到一个数值；计算该测试样本集中每个测试样本所对应的数值的加权平均值，将该加权平均值确定为该候选模型的代价函数的函数值。其中，公式一为LogLoss＝-log(h(x))，公式二为LogLoss＝-log(1-h(x))，h(x)为候选模型的输出值。

当存在多个测试样本集时，可以计算多个函数值的加权平局值，将该加权平均值确定为该候选模型的代价函数的函数值。

步骤207，根据得到的n个模型质量参数选择质量最好的候选模型，将候选模型确定为本次训练得到的预估模型。

其中，根据得到的n个模型质量参数选择质量最好的候选模型，包括：

1)当模型质量参数是AUC时，选择数值最大的AUC所对应的候选模型；

2)当模型质量参数是代价函数的函数值时，选择数值最小的函数值所对应的候选模型。

当模型质量参数是AUC，服务器可以比较n个AUC的数值，将最大的数值所对应的候选模型确定为预估模型；当模型质量参数是代价函数的函数值时，服务器可以比较n个函数值，将最大的函数值所对应的候选模型确定为预估模型。

需要说明的是，由于测试样本集的数据量远小于训练样本集的数据量，因此，检测多个候选模型的时间成本大幅小于一轮迭代的时间成本，可保证本方法的实用性。

另外，通过获取构造的模型的上线时间；根据在上线时间之前的预定时段内的样本生成测试样本集，该预定时段的结束时间与上线时间之间的差值小于预定阈值，由于离上线时间较近的测试样本集与上线后的实际的样本特征较接近，因此，当使用测试样本集对该预估模型的测试通过时，预估模型对上线后的样本特征的预估的准确性较高。

请参考图3，其示出了本发明一个实施例提供的模型训练装置的结构框图，该模型训练装置可以应用于服务器中。该模型训练装置，包括：

模型构造模块310，用于构造代价函数为非凸函数的模型；

样本集获取模块320，用于获取训练样本集，训练样本集包括用于训练模型构造模块310构造的模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；

候选模型获取模块330，用于根据样本集获取模块320得到的训练样本集对模型进行训练，得到n个候选模型，n为大于1的正整数；

预估模型确定模块340，用于将候选模型获取模块330得到的n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型。

综上所述，本发明实施例提供的模型训练装置，通过构造代价函数为非凸函数的模型；获取训练样本集，该训练样本集包括用于训练模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；根据训练样本集对模型进行训练，得到n个候选模型；将n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型，解决了代价函数是非凸函数的预估模型的模型质量波动大，最终训练得到的预估模型的模型质量不稳定的问题，达到了提高最终训练得到的预估模型的模型质量的效果。

请参考图4，其示出了本发明再一实施例提供的模型训练装置的结构框图，该模型训练装置可以应用于服务器中。该模型训练装置，包括：

模型构造模块410，用于构造代价函数为非凸函数的模型；

样本集获取模块420，用于获取训练样本集，训练样本集包括用于训练模型构造模块410构造的模型的各个训练样本，每个训练样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；

候选模型获取模块430，用于根据样本集获取模块420得到的训练样本集对模型进行训练，得到n个候选模型，n为大于1的正整数；

预估模型确定模块440，用于将候选模型获取模块430得到的n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型。

可选的，候选模型获取模块430，包括：

样本集迭代单元431，用于将训练样本集在模型中迭代m轮，m＞n且m为正整数；

候选模型确定单元432，用于将其中最后n轮迭代得到的n个模型确定为n个候选模型。

可选的，预估模型确定模块440，包括：

样本集获取单元441，用于获取测试样本集，测试样本集包括用于测试候选模型的各个测试样本，每个测试样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；

参数获取单元442，用于对于每个候选模型，将样本集获取单元441得到的测试样本集中的每个测试样本的用户特征和内容特征输入候选模型，根据候选模型的每个输出值和对应的操作值计算模型质量参数；

预估模型确定单元443，用于根据参数获取单元442得到的n个模型质量参数选择质量最好的候选模型，将候选模型确定为本次训练得到的预估模型。

可选的，预估模型确定单元443，包括：

第一确定子单元4431，用于当模型质量参数是受试者工作特征曲线下面积AUC时，选择数值最大的AUC所对应的候选模型；

第二确定子单元4432，用于当模型质量参数是代价函数的函数值时，选择数值最小的函数值所对应的候选模型。

可选的，本实施例提供的模型训练装置，还包括：

时间获取模块450，用于获取构造的模型的上线时间；

测试样本集生成模块460，用于根据在上线时间之前的预定时段内的样本生成测试样本集，预定时段的结束时间与上线时间之间的差值小于预定阈值；

训练样本集生成模块470，用于根据在预定时段外的样本生成训练样本集。

需要说明的是：上述实施例提供的模型训练装置在进行模型训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将模型训练装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

构造代价函数为非凸函数的模型；

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本集对所述模型进行训练，得到n个候选模型，包括：

将所述训练样本集在所述模型中迭代m轮，m＞n且m为正整数；

将其中最后n轮迭代得到的n个模型确定为所述n个候选模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述n个候选模型中质量最好的候选模型确定为本次训练得到的预估模型，包括：

获取测试样本集，所述测试样本集包括用于测试所述候选模型的各个测试样本，每个测试样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；

对于每个候选模型，将所述测试样本集中的每个测试样本的用户特征和内容特征输入所述候选模型，根据所述候选模型的每个输出值和对应的操作值计算模型质量参数；

根据得到的n个模型质量参数选择质量最好的候选模型，将所述候选模型确定为本次训练得到的预估模型。

4.根据权利要求3所述的方法，其特征在于，所述根据得到的n个模型质量参数选择质量最好的候选模型，包括：

当所述模型质量参数是受试者工作特征曲线下面积AUC时，选择数值最大的AUC所对应的候选模型；

当所述模型质量参数是代价函数的函数值时，选择数值最小的函数值所对应的候选模型。

5.根据权利要求1至4任一所述的方法，其特征在于，所述方法，还包括：

获取构造的所述模型的上线时间；

根据在所述上线时间之前的预定时段内的样本生成测试样本集，所述预定时段的结束时间与所述上线时间之间的差值小于预定阈值；

根据在所述预定时段外的样本生成所述训练样本集。

6.一种模型训练装置，其特征在于，所述装置包括：

模型构造模块，用于构造代价函数为非凸函数的模型；

7.根据权利要求6所述的装置，其特征在于，所述候选模型获取模块，包括：

样本集迭代单元，用于将所述训练样本集在所述模型中迭代m轮，m＞n且m为正整数；

候选模型确定单元，用于将其中最后n轮迭代得到的n个模型确定为所述n个候选模型。

8.根据权利要求6所述的装置，其特征在于，所述预估模型确定模块，包括：

样本集获取单元，用于获取测试样本集，所述测试样本集包括用于测试所述候选模型的各个测试样本，每个测试样本包括用户特征、内容特征和用户对内容所采取的实际行为所对应的操作值；

参数获取单元，用于对于每个候选模型，将所述样本集获取单元得到的所述测试样本集中的每个测试样本的用户特征和内容特征输入所述候选模型，根据所述候选模型的每个输出值和对应的操作值计算模型质量参数；

预估模型确定单元，用于根据所述参数获取单元得到的n个模型质量参数选择质量最好的候选模型，将所述候选模型确定为本次训练得到的预估模型。

9.根据权利要求8所述的装置，其特征在于，所述预估模型确定单元，包括：

第一确定子单元，用于当所述模型质量参数是受试者工作特征曲线下面积AUC时，选择数值最大的AUC所对应的候选模型；

第二确定子单元，用于当所述模型质量参数是代价函数的函数值时，选择数值最小的函数值所对应的候选模型。

10.根据权利要求6至9任一所述的装置，其特征在于，所述装置，还包括：

时间获取模块，用于获取构造的所述模型的上线时间；

测试样本集生成模块，用于根据在所述上线时间之前的预定时段内的样本生成测试样本集，所述预定时段的结束时间与所述上线时间之间的差值小于预定阈值；

训练样本集生成模块，用于根据在所述预定时段外的样本生成所述训练样本集。