CN114912030A

CN114912030A - 权益模型训练方法、推荐方法及电子终端和计算机介质

Info

Publication number: CN114912030A
Application number: CN202210740749.4A
Authority: CN
Inventors: 惠禧宝
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-08-16

Abstract

本申请公开了权益模型训练方法、推荐方法及电子终端和计算机介质，该权益模型训练方法包括：获取权益推荐训练集，其中，权益推荐训练集包括权益推荐正样本和权益推荐负样本；将权益推荐训练集输入待训练权益模型进行训练；利用第一预设权重调整权益推荐训练集中权益推荐正样本和权益推荐负样本的比例，直至待训练权益模型的训练效果满足预设条件。通过本申请的方法，能够利用第一预设权重均衡权益推荐正样本和权益推荐负样本的比例，缓解权益正负样本不均的问题，提高权益模型的训练效果，进而提高权益模型的预测精准性。

Description

权益模型训练方法、推荐方法及电子终端和计算机介质

技术领域

本申请涉及人工智能技术领域，特别是涉及权益模型训练方法、推荐方法及电子终端和计算机介质。

背景技术

近年来，人工智能领域中的以预训练为代表的自然语言处理技术获得了爆发式发展，新技术和新模型层出不穷。在当前背景下，如何将多样化的先进的自然语言处理领域科研成果高效地应用到产业实践中并解决实际问题，是自然语言处理领域中的核心问题。机器学习模型是人工智能领域中的关键技术，研发人员通常基于机器学习框架来开展相关工作。

然而，在将模型应用到产业实践的过程中，复杂的应用场景导致正负样本数目相差大，影响模型的训练效果。

发明内容

本申请提供了权益模型训练方法、推荐方法及电子终端和计算机介质，以解决现有技术中正负样本数目相差大的技术问题。

为解决上述问题，本申请提供第一种技术方案：提供一种权益模型训练方法，包括：获取权益推荐训练集，其中，所述权益推荐训练集包括权益推荐正样本和权益推荐负样本；将所述权益推荐训练集输入待训练权益模型进行训练；利用第一预设权重调整所述权益推荐训练集中权益推荐正样本和权益推荐负样本的比例，直至所述待训练权益模型的训练效果满足预设条件。

其中，所述待训练权益模型的损失函数设置有所述第一预设权重。

其中，所述待训练权益模型的损失函数还设置有第二预设权重，所述第二预设权重用于调整预测结果中权益推荐难分样本和权益推荐易分样本的比例。

其中，所述待训练权益模型包括至少一个专家共享层、第一任务专家层、第二任务专家层、输入层、第一任务输出层以及第二任务输出层；所述将所述权益推荐训练集输入待训练权益模型进行训练，包括：将所述权益推荐训练集通过所述输入层分别输入到所述至少一个专家共享层、所述第一任务专家层和所述第二任务专家层；按照第一训练权重将所述至少一个专家共享层的特征输出和所述第一任务专家层的特征输出进行加权求和，得到第一任务输出特征；按照第二训练权重将所述至少一个专家共享层的特征输出和所述第二任务专家层的特征输出进行加权求和，得到第二任务输出特征；基于所述第一任务输出特征，输出第一任务的预测权益推荐方案，基于所述第二任务输出特征，输出第二任务的预测权益推荐方案；按照所述第一任务的预测权益推荐方案和所述第二任务的预测权益推荐方案对所述待训练权益模型进行训练。

其中，所述按照所述第一任务的预测权益推荐方案和所述第二任务的预测权益推荐方案对所述待训练权益模型进行训练，包括：设置所述待训练权益模型的目标权重值，所述目标权重值包括所述第一任务的第一目标权重值和所述第二任务的第二目标权重值；计算所述第一任务的预测权益推荐方案与标准权益推荐方案的第一损失值，计算所述第二任务的预测权益推荐方案与所述标准权益推荐方案的第二损失值；利用所述第一损失值对所述第一目标权重值进行更新；利用所述第二损失值对所述第二目标权重值进行更新。

其中，所述按照所述第一任务的预测权益推荐方案和所述第二任务的预测权益推荐方案对所述待训练权益模型进行训练，包括：设置多个不同的权重边界值超参；根据每一个所述权重边界值超参执行一次待训练权益模型训练，并计算所述待训练权益模型的训练精准率；将所述训练精准率最高的权益模型作为最终训练的结果。

其中，所述权益推荐正样本包括显式反馈权益推荐正样本和隐式反馈权益推荐正样本。

为解决上述问题，本申请提供第二种技术方案：提供一种权益推荐方法，包括：获取用户信息；将所述用户信息输入上述权益模型训练方法预先训练的权益模型中，获取所述权益模型针对所述用户信息输出的权益推荐信息；基于所述权益推荐信息向用户提供权益组合。

为解决上述问题，本申请提供第三种技术方案：提供一种电子终端，所述电子终端包括处理器以及与所述处理器连接的存储器，其中，所述存储器中存储有程序数据，所述处理器调取所述存储器存储的所述程序数据，以执行如上所述的权益模型训练方法和/或权益推荐方法。

为解决上述问题，本申请提供第四种技术方案：提供一种计算机存储介质，存储有程序指令，所述程序指令被执行以实现如上所述的权益模型训练方法和/或权益推荐方法。

本申请提出了权益模型训练方法、推荐方法及电子终端和计算机介质，该权益模型训练方法包括：获取权益推荐训练集，其中，权益推荐训练集包括权益推荐正样本和权益推荐负样本；将权益推荐训练集输入待训练权益模型进行训练；利用第一预设权重调整权益推荐训练集中权益推荐正样本和权益推荐负样本的比例，直至待训练权益模型的训练效果满足预设条件。通过本申请的方法，能够利用第一预设权重均衡权益推荐正样本和权益推荐负样本的比例，缓解权益正负样本不均的问题，提高权益模型的训练效果，进而提高权益模型的预测精准性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的权益模型训练方法第一实施例的流程图；

图2是本申请提供的待训练权益模型一实施例的框架图；

图3是本申请提供的权益模型训练方法第二实施例的流程图；

图4是本申请提供的权益模型训练方法第三实施例的流程图；

图5是本申请提供的权益推荐方法一实施例的流程图；

图6是本申请提供的电子终端一实施例的框架图；

图7为本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动情况下所获得的所有其他实施例，均属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

CTR预估模型通过学习和预测用户的反馈，对于个性化推荐、信息检索和在线广告等业务场景都有着极其重要的作用。多任务(Multi Task Learning，MTL)是CTR预估中非常普遍的建模方式，能够同时对多个任务进行学习，在推荐、搜索、广告等领域有非常广泛的应用。在个性化推荐等业务场景中，经常面临既要又要的多任务问题，而多个任务常常会有冲突。如何使多个任务同时得到提升，是MPL在真实业务场景中存在的意义。

CTR预估的数据具有高维、稀疏、多类别的特点，现有技术通过构建多任务学习模型(Entire Space Multi-task Model，ESMM)解决真实场景中CVR预估面临的数据稀疏以及样本选择偏差这两个关键问题。然而，ESMM模型是基于用户行为的序列依赖进行建模，其前提是用户的转化行为发生在用户点击行为之后，因此ESMM模型更注重点击和用户互动的优化，当ESMM模型应用于银行等互动行为稀疏的业务场景时，则难以平衡业务场景中点击和转化的任务，容易出现点击和转化的任务一涨一跌的现象，不利于提升银行的业务效果。

因此，本申请提出了一种权益模型训练方法，该权益模型训练方法应用于一种用于权益推荐的电子终端中，具体的，该电子终端应用于银行的信用卡权益推荐场景，能够根据用户的个性化行为推荐适合的信用卡权益，提高权益页面的用户体验以及权益使用率。其中，本申请的电子终端可以为服务器，也可以为由服务器和本地终端相互配合的系统。相应地，电子终端包括的各个部分，例如各个单元、子单元、模块、子模块可以全部设置于服务器中，也可以分别设置于服务器和本地终端中。

进一步地，上述服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块，例如用来提供分布式服务器的软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。在一些可能的实现方式中，本申请实施例的权益模型训练方法和权益推荐方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参见图1，图1是本申请提供的权益模型训练方法第一实施例的流程图。如图1所示，本实施例的权益模型训练方法包括以下步骤：

步骤S11：获取权益推荐训练集，其中，权益推荐训练集包括权益推荐正样本和权益推荐负样本。

在本实施例中，通过获取权益推荐训练集对权益模型进行训练。具体的，权益推荐训练集可以通过对银行信用卡用户的历史数据进行数据挖掘获得。例如，在对银行信用卡用户的历史数据进行梳理时，可以对用户的历史权益点击数据和权益使用数据进行整理，并从浏览情况、使用情况、使用期限等多维度刻画权益，提高权益推荐训练集的数据准确性。

其中，权益推荐训练集包括权益推荐正样本和权益推荐负样本。通过对银行信用卡用户的历史权益数据进行选择分类，以获得权益推荐正样本和权益推荐负样本。权益推荐正样本为权益推荐与真值对应的样本数据，权益推荐负样本为权益推荐与真值不对应的样本数据。可以理解的，权益推荐正样本和权益推荐负样本为权益推荐方案的样本数据，具体的，应为权益的集合数据。

进一步地，权益推荐与真值是否对应可以由用户历史反馈确定，例如，用户的历史权益推荐方案为加油优惠、机场接待、超市优惠等，若用户的历史权益点击顺序为超市优惠、代驾权益、机场接待等，则该权益推荐样本数据为负样本；若用户的历史权益点击顺序与历史权益推荐方案相同或大部分重合，则该权益推荐样本数据为正样本。权益推荐与真值是否对应还可以由多个相似用户的历史反馈确定或由人工标签选择，在此对权益推荐正样本和权益推荐负样本不做具体限定。

步骤S12：将权益推荐训练集输入待训练权益模型进行训练。

在获取权益推荐训练集后，将权益推荐训练集输入至待训练的权益模型中，以对待训练权益模型进行训练。

步骤S13：利用第一预设权重调整权益推荐训练集中权益推荐正样本和权益推荐负样本的比例，直至待训练权益模型的训练效果满足预设条件。

具体的，在信用卡权益场景中，权益推荐负样本通常会更多，导致在权益推荐训练集中权益推荐正样本和权益推荐负样本的比例失衡，进而导致损失函数的分布发生倾斜，权益模型训练过程中会倾向于权益推荐负样本，权益模型对权益推荐正样本的学习效果差。

因此，在使用权益推荐训练集对待训练权益模型进行训练时，利用第一预设权重调整权益推荐正样本和权益推荐负样本的比例，以均衡训练过程中权益推荐正样本和权益推荐负样本的比例，直至待训练权益模型的训练效果满足预设条件。其中，模型训练效果是否满足预设条件可以通过训练过程中验证集性能的变化趋势、损失变化趋势等进行判断。

在本实施例中，权益模型训练方法包括：获取权益推荐训练集，其中，权益推荐训练集包括权益推荐正样本和权益推荐负样本；将权益推荐训练集输入待训练权益模型进行训练；利用第一预设权重调整权益推荐训练集中权益推荐正样本和权益推荐负样本的比例，直至待训练权益模型的训练效果满足预设条件。本实施例能够利用第一预设权重均衡权益推荐正样本和权益推荐负样本的比例，缓解权益正负样本不均的问题，提高权益模型的训练效果，进而提高权益模型的预测精准性。

可选地，待训练权益模型的损失函数设置有第一预设权重。

具体的，利用第一预设权重调整权益推荐训练集中权益推荐正样本和权益推荐负样本的比例的方法是通过在损失函数中添加第一预设权重，以提高权益推荐正样本和权益推荐负样本中的少数样本在损失函数中的权重。第一预设权重的大小可以根据权益推荐正样本和权益推荐负样本的分布进行设置。

可选地，待训练权益模型的损失函数还设置有第二预设权重，第二预设权重用于调整预测结果中权益推荐难分样本和权益推荐易分样本的比例。

在待训练权益模型的训练过程中，待训练权益模型根据每个权益推荐训练集的样本输出对应的预测结果，预测结果中包括权益推荐难分样本和权益推荐易分样本。具体的，权益推荐难分样本又包括权益推荐难分正样本和权益推荐难分负样本，权益推荐易分样本又包括权益推荐易分正样本和权益推荐易分负样本。

例如，待训练权益模型在对权益推荐正样本进行预测时，其预测结果为该权益推荐正样本与真值对应的概率很小，则该权益推荐正样本为权益推荐难分正样本，相反则为权益推荐易分正样本；待训练权益模型在对权益推荐负样本进行预测时，其预测结果为该权益推荐正样本与真值对应的概率很大，则该权益推荐正样本为权益推荐难分负样本，相反则为权益推荐易分负样本。可以理解的，权益推荐难分样本和权益推荐易分样本为待训练权益模型根据每个样本的正确分类的难易程度进行划分的，权益推荐难分样本和权益推荐易分样本可以表达待训练权益模型学习样本的难易程度。

在权益模型训练过程中，由于待训练权益模型更容易学习权益推荐易分样本，单个权益推荐易分样本的损失小于单个权益推荐难分样本的损失，如果权益推荐易分样本的数量远远多于权益推荐难分样本，则权益推荐难分样本的学习难度更高，所有样本的损失可能会被大量权益推荐易分样本的损失主导，导致权益推荐难分样本无法得到充分学习。

为了缓解待训练权益模型中权益推荐易分样本和权益推荐难分样本的学习难度不平衡的问题，在待训练权益模型的损失函数中引入第二预设权重，第二预设权重用于调整预测结果中权益推荐难分样本和权益推荐易分样本的比例，如下式所示：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)；

其中，FL(p_t)为待训练权益模型的损失函数；α_t为第一预设权重，用于调整权益推荐训练集中权益推荐正样本和权益推荐负样本的比例； p_t为待训练权益模型的分类置信度，p_t的值越大，待训练权益模型分类越准确，样本也越易分；γ为第二预设权重，用于调整预测结果中权益推荐难分样本和权益推荐易分样本的比例。

在待训练权益模型的损失函数中使用第二预设权重γ对学习难度不同的权益推荐难分样本和权益推荐易分样本的损失赋予不同的重要程度，第二预设权重越小，则权益推荐难分样本的损失越重要、权益推荐易分样本的损失越不重要，因此学习过程更加聚焦权益推荐难分样本，有助于提高待训练权益模型的学习效果，提高待训练权益模型的准确度。

进一步地，在信用卡权益场景中，权益模型需平衡权益场景中多个任务，以使得权益模型预测的权益推荐方案能够满足多个任务。然而，在真实场景中，不同任务间常常存在冲突，以使得不同任务的相关性较差，多个任务的转化效果不好。因此，在本实施例中，通过构建不同任务之间共享的专家共享层和每个任务特有的任务专家层对待训练权益模型进行训练，以使得待训练权益模型更易于学习不同任务的特性。

请参见图2-3，图2是本申请提供的待训练权益模型一实施例的框架图，图3是本申请提供的权益模型训练方法第二实施例的流程图。如图2-3所示，本实施例的待训练权益模型包括至少一个专家共享层、第一任务专家层、第二任务专家层、输入层、第一任务输出层以及第二任务输出层。步骤S12还包括以下步骤：

步骤S21：将权益推荐训练集通过输入层分别输入到至少一个专家共享层、第一任务专家层和第二任务专家层。

具体的，输入的权益推荐训练集映射到至少一个专家共享层、第一任务专家层和第二任务专家层中。其中，专家共享层用于提取权益推荐训练集中不同任务之间共享的特征，专家共享层为激活函数的全连接层，不同的专家共享层对应不同维度的特征子空间。

根据待训练权益模型的任务数，至少设置有用于学习第一任务的第一任务专家层和用于学习第二任务的第二任务专家层，用于提取权益推荐训练集中每个任务特有的特征。为了提升待训练权益模型的学习效果，专家共享层的数量可以适当增加，优选地，专家共享层的数量可以在任务数的1倍-2倍区间。例如，如图2所示，对于第一任务和第二任务，设置有第一专家共享层、第二专家共享层和第三专家共享层。

步骤S22：按照第一训练权重将至少一个专家共享层的特征输出和第一任务专家层的特征输出进行加权求和，得到第一任务输出特征。

将权益推荐训练集通过输入层分别输入到至少一个专家共享层、第一任务专家层和第二任务专家层后，获取至少一个专家共享层和第一任务专家层的特征输出，并按照第一训练权重对各层的特征输出进行加权求和，以获得第一任务专家层的第一任务输出特征。

其中，在第一任务专家层引入第一门网络，第一门网络用于学习第一任务对第一专家共享层、第二专家共享层和第三专家共享层的权重，以获得第一训练权重。具体的，第一专家共享层、第二专家共享层和第三专家共享层的特征输出会传入至第一门网络，第一门网络学习第一任务对不同专家共享层的响应并输出一个概率分布，以控制每个专家共享层对第一任务的贡献程度。例如，第一任务的第一门网络的输出为(0.1, 0.2,0.7)，则代表第一专家共享层、第二专家共享层和第三专家共享层对第一任务的贡献程度分别为0.1、0.2和0.7。

步骤S23：按照第二训练权重将至少一个专家共享层的特征输出和第二任务专家层的特征输出进行加权求和，得到第二任务输出特征。

同理，在第二任务专家层引入第二门网络，以获得第二训练权重，并按照第二训练权重将至少一个专家共享层的特征输出和第二任务专家层的特征输出进行加权求和，得到第二任务输出特征。

其中，当待训练权益模型具有多个任务时，门网络的数目与任务数对应，每个任务专家层对应设置有一个门网络，以使得待训练权益模型能够学习不同任务之间的关系。

步骤S24：基于第一任务输出特征，输出第一任务的预测权益推荐方案，基于第二任务输出特征，输出第二任务的预测权益推荐方案。

待训练权益模型同时输出第一任务的预测权益推荐方案和第二任务的预测权益推荐方案，由于第一任务的预测权益推荐方案与第一任务的目标对应，第二任务的预测权益推荐方案与第二任务的目标对应，二者的预测权益推荐方案存在差异，但第一任务的预测权益推荐方案在考虑第一任务的前提下，会优先把满足第二任务的权益排序调前，以使得预测权益推荐方案能够同时满足不同任务。

例如，当第一任务的目标为点击率，第二任务的目标为浏览时长，第一任务的预测权益推荐方案会把满足点击率的正例中浏览时长更长的权益排在前列，以使得用户在阅读权益推荐方案时能够优先看到点击率高、浏览时长长的权益列表，提高用户的使用率。

步骤S25：按照第一任务的预测权益推荐方案和第二任务的预测权益推荐方案对待训练权益模型进行训练。

在输出待训练权益模型输出第一任务的预测权益推荐方案和第二任务的预测权益推荐方案后，继续按照第一任务的预测权益推荐方案和第二任务的预测权益推荐方案训练，直至待训练权益模型的训练效果满足预设条件。

在本实施例中，待训练权益模型进行训练的方法包括：将权益推荐训练集通过输入层分别输入到至少一个专家共享层、第一任务专家层和第二任务专家层；按照第一训练权重将至少一个专家共享层的特征输出和第一任务专家层的特征输出进行加权求和，得到第一任务输出特征；按照第二训练权重将至少一个专家共享层的特征输出和第二任务专家层的特征输出进行加权求和，得到第二任务输出特征；基于第一任务输出特征，输出第一任务的预测权益推荐方案，基于第二任务输出特征，输出第二任务的预测权益推荐方案；按照第一任务的预测权益推荐方案和第二任务的预测权益推荐方案对待训练权益模型进行训练。本实施例的方法通过构建不同任务之间共享的专家共享层和每个任务特有的任务专家层对待训练权益模型进行训练，以使得待训练权益模型更易于学习不同任务的特性，提高权益模型的预测精准性。

进一步地，在使用第一训练权重获取第一任务专家层的输出特征、使用第二训练权重获取第二任务专家层的输出特征后，按照待训练权益模型的目标权重值计算第一任务和第二任务的损失值，进而对第一任务和第二任务的训练权重进行更新，直至所述待训练权益模型的训练效果满足预设条件。

请参见图4，图4是本申请提供的权益模型训练方法第三实施例的流程图。如图4所示，在第三实施例中，步骤S25还包括以下步骤：

步骤S31：设置待训练权益模型的目标权重值，目标权重值包括第一任务的第一目标权重值和第二任务的第二目标权重值。

具体的，在初次对待训练权益模型进行训练时，均匀设置待训练权益模型的目标权重，目标权重为人工定义的权重值，包括第一任务的第一目标权重值和第二任务的第二目标权重值，可以根据第一任务和第二任务的重要性进行定义。

并且，针对不同的任务目标，存在不同的损失函数，损失函数包括第一任务的第一损失函数和第二任务的第二损失函数，在获取目标权重值后，通过目标权重值对第一损失函数和第二损失函数进行聚合，以获得合并任务的损失函数，如下式所示：

F(θ)＝ω₁F₁(θ)+ω₂F₂(θ)； (1)

其中，θ为待训练权益模型的参数；F(θ)为合并任务的损失函数；ω₁为第一任务的第一目标权重值，F₁(θ)为第一任务的第一损失函数；ω₂为第二任务的第二目标权重值，F₂(θ)为第二任务的第二损失函数。

本实施例通过目标权重值将第一任务和第二任务合并成单个任务，并对单个任务进行优化。

步骤S32：计算第一任务的预测权益推荐方案与标准权益推荐方案的第一损失值，计算第二任务的预测权益推荐方案与标准权益推荐方案的第二损失值。

在每次训练的迭代过程中，按照合并任务的损失函数F(θ)计算出合并任务的损失值。其中，损失值包括第一任务的预测权益推荐方案与标准权益推荐方案的第一损失值和第二损失函数计算第二任务的预测权益推荐方案与标准权益推荐方案的第二损失值。

步骤S33：利用第一损失值对第一目标权重值进行更新。

在获取第一损失值和第二损失值后，利用本次迭代过程的第一损失值对第一目标权重值进行更新。具体的，可以通过判断梯度方向或者其他优化算法来最小化第一损失函数，以获得新的第一目标权重值，第一损失函数的优化问题如下式所示：

其中，θ为待训练权益模型的参数；K为待训练权益模型的任务数； F_i(θ)为第i个任务的损失函数；ω_i为第i个任务的目标权重值。

步骤S34：利用第二损失值对第二目标权重值进行更新。

同理，与步骤S34类似，利用本次迭代过程的第二损失值对第二目标权重值进行更新，并根据新的第一目标权重值和第二目标权重值对合并任务的损失函数F(θ)进行更新，以进行下一次训练任务。

在根据目标权重值对待训练权益模型进行训练的过程中，对待训练权益模型的第一任务和第二任务进行同时优化，以获取优化效果最好的目标权重值。

在本实施例中，对待训练权益模型进行训练的步骤包括：设置待训练权益模型的目标权重值，目标权重值包括第一任务的第一目标权重值和第二任务的第二目标权重值；计算第一任务的预测权益推荐方案与标准权益推荐方案的第一损失值，计算第二任务的预测权益推荐方案与标准权益推荐方案的第二损失值；利用第一损失值对第一目标权重值进行更新；利用第二损失值对第二目标权重值进行更新。本实施例通过目标权重值聚合多任务的损失函数，以将多任务转化为单个任务的优化问题，并通过设置目标权重值的约束条件(如公式2)，保证目标权重值有效，能够至少优化单个目标，而不损害其他目标，不会出现目标一涨一跌的现象，提高待训练权益模型的训练效果。

进一步地，在设置目标权重值的约束条件保证目标权重值有效后，为了使待训练权益模型能够生成合适的预测权益推荐方案，使用权重边界值超参对待模型的训练参数进行约束，以优化待训练权益模型的训练效果。

步骤S25还包括以下步骤：设置多个不同的权重边界值超参；根据每一个权重边界值超参执行一次待训练权益模型训练，并计算待训练权益模型的训练精准率；将训练精准率最高的权益模型作为最终训练的结果。

具体的，权重边界值超参为人工定义的多个对训练参数有影响的参数，由于权重边界值超参对模型效果影响较大，需要对每个权重边界值超参依次训练，以进行多次调优，确定出训练精准率最高的权益模型作为效果最好的模型，以获得最终训练完成的权益模型。

可选地，权益推荐正样本包括显式反馈权益推荐正样本和隐式反馈权益推荐正样本。

具体的，基于用户页面反馈，用户行为可以包括显式反馈行为和隐式反馈行为；显式反馈行为是能够明确表示用户对权益喜好的行为，例如评分数据、使用行为、点击行为等均可以明确表示用户喜爱或不喜爱该权益；隐式反馈行为是不能明确反映用户喜好的行为，例如浏览时长等。

根据用户行为的反馈程度，权益推荐正样本包括显式反馈权益推荐正样本和隐式反馈权益推荐正样本，权益推荐负样本包括显式反馈权益推荐负样本和隐式反馈权益推荐负样本。其中，由于隐式反馈行为不能明确区分用户是否不喜欢该权益，隐式反馈权益推荐负样本是通过对用户没有过行为的权益进行采样获取的，以均衡正负样本的比例。

其中，通过显式反馈行为对样本进行划分，能够表示用户对于权益的偏好程度；通过隐式反馈行为对样本进行划分，能够表示权益的置信度，即显式反馈权益推荐正样本为权益模型根据用户偏好程度判定应当被推荐的样本数据，隐式反馈权益推荐正样本为权益模型根据置信度判定应当被推荐的样本数据。本实施例根据用户行为的反馈程度对样本数据进行划分，能显著提高权益模型的推荐准确率。

请参见图5，图5是本申请提供的权益推荐方法一实施例的流程图。

如图5所示，本申请还提出了一种权益推荐方法，包括以下步骤：

步骤S41：获取用户信息。

其中，用户信息可以根据用户的权益点击和使用情况获取，并可以根据权益的类别进行多维度划分，例如，从到期权益、转增权益、新上权益、派发权益、最近浏览、常用权益等维度刻画用户的权益画像，进而根据用户的权益画像获取用户信息。

步骤S42：将用户信息输入预先训练的权益模型，获取权益模型针对用户信息输出的权益推荐信息。

将获取的用户信息输入预先训练的权益模型，其中，该权益模型为经过如上任一实施例所述的权益模型训练方法所训练得到的权益模型。权益模型根据输入的用户信息输出对应的权益推荐信息，权益推荐信息为权益模型根据第一任务和第二任务进行优化所获得的推荐方案，权益推荐信息可以为权益以及权益推荐顺序的组合。

步骤S43：基于权益推荐信息向用户提供权益组合。

基于权益模型输出的权益推荐信息，向用户提供权益组合，权益组合包括按照权益推荐顺序排列的权益集，以使得用户在进入权益页面时能够根据用户信息的差异获取个性化的权益推荐方案，提高用户的权益使用率。

在本实施例中，权益推荐方法包括：获取用户信息；将用户信息输入预先训练的权益模型，获取权益模型针对用户信息输出的权益推荐信息；基于权益推荐信息向用户提供权益组合。通过本实施例的推荐方法，用户可以获取个性化的权益推荐方案，提升权益页面的用户体验，进而提高用户的权益使用率。

请参见图6，图6是本申请提供的电子终端一实施例的框架图。如图6所示，该电子终端100包括处理器101以及与处理器101连接的存储器102，其中，存储器102中存储有程序数据，处理器101调取存储器102存储的程序数据，以执行上述的权益模型训练方法和/或权益推荐方法。

可选地，在一实施例中，处理器101用于执行程序数据以实现如下方法：获取权益推荐训练集，其中，权益推荐训练集包括权益推荐正样本和权益推荐负样本；将权益推荐训练集输入待训练权益模型进行训练；利用第一预设权重调整权益推荐训练集中权益推荐正样本和权益推荐负样本的比例，直至待训练权益模型的训练效果满足预设条件。

可选地，在另一实施例中，处理器101用于执行程序数据以实现如下方法：获取用户信息；将用户信息输入预先训练的权益模型，获取权益模型针对用户信息输出的权益推荐信息；基于权益推荐信息向用户提供权益组合。

其中，处理器101还可以称为CPU(Central Processing Unit，中央处理单元)。处理器101可能是一种电子芯片，具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器102可以为内存条、TF卡等，可以存储电子终端100中的全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器102中。它根据处理器101指定的位置存入和取出信息。有了存储器102，电子终端100才有记忆功能，才能保证正常工作。电子终端100的存储器102按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

请参见图7，图7为本申请提供的计算机可读存储介质一实施例的结构示意图。如图7所示，该计算机可读存储介质110中存储有能够实现上述所有方法的程序指令111。

在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读存储介质110中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机可读存储介质110在一个程序指令111 中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)、电子设备(例如MP3、MP4等，也可以是手机、平板电脑、可穿戴设备等移动终端，也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质110(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可读存储介质 110实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可读存储介质110 到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令111产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机可读存储介质110也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储介质110中的程序指令111产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机可读存储介质110也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的程序指令111提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种权益模型训练方法，其特征在于，所述权益模型训练方法包括：

获取权益推荐训练集，其中，所述权益推荐训练集包括权益推荐正样本和权益推荐负样本；

将所述权益推荐训练集输入待训练权益模型进行训练；

利用第一预设权重调整所述权益推荐训练集中权益推荐正样本和权益推荐负样本的比例，直至所述待训练权益模型的训练效果满足预设条件。

2.根据权利要求1所述的权益模型训练方法，其特征在于，

所述待训练权益模型的损失函数设置有所述第一预设权重。

3.根据权利要求2所述的权益模型训练方法，其特征在于，

所述待训练权益模型的损失函数还设置有第二预设权重，所述第二预设权重用于调整预测结果中权益推荐难分样本和权益推荐易分样本的比例。

4.根据权利要求1所述的权益模型训练方法，其特征在于，

所述待训练权益模型包括至少一个专家共享层、第一任务专家层、第二任务专家层、输入层、第一任务输出层以及第二任务输出层；

所述将所述权益推荐训练集输入待训练权益模型进行训练，包括：

将所述权益推荐训练集通过所述输入层分别输入到所述至少一个专家共享层、所述第一任务专家层和所述第二任务专家层；

按照第一训练权重将所述至少一个专家共享层的特征输出和所述第一任务专家层的特征输出进行加权求和，得到第一任务输出特征；

按照第二训练权重将所述至少一个专家共享层的特征输出和所述第二任务专家层的特征输出进行加权求和，得到第二任务输出特征；

基于所述第一任务输出特征，输出第一任务的预测权益推荐方案，基于所述第二任务输出特征，输出第二任务的预测权益推荐方案；

按照所述第一任务的预测权益推荐方案和所述第二任务的预测权益推荐方案对所述待训练权益模型进行训练。

5.根据权利要求4所述的权益模型训练方法，其特征在于，

所述按照所述第一任务的预测权益推荐方案和所述第二任务的预测权益推荐方案对所述待训练权益模型进行训练，包括：

设置所述待训练权益模型的目标权重值，所述目标权重值包括所述第一任务的第一目标权重值和所述第二任务的第二目标权重值；

计算所述第一任务的预测权益推荐方案与标准权益推荐方案的第一损失值，计算所述第二任务的预测权益推荐方案与所述标准权益推荐方案的第二损失值；

利用所述第一损失值对所述第一目标权重值进行更新；

利用所述第二损失值对所述第二目标权重值进行更新。

6.根据权利要求5所述的权益模型训练方法，其特征在于，

设置多个不同的权重边界值超参；

根据每一个所述权重边界值超参执行一次待训练权益模型训练，并计算所述待训练权益模型的训练精准率；

将所述训练精准率最高的权益模型作为最终训练的结果。

7.根据权利要求1所述的权益模型训练方法，其特征在于，所述权益推荐正样本包括显式反馈权益推荐正样本和隐式反馈权益推荐正样本。

8.一种权益推荐方法，其特征在于，所述权益推荐方法包括：

获取用户信息；

将所述用户信息输入如权利要求1-7任一项所述权益模型训练方法所训练的权益模型，获取所述权益模型针对所述用户信息输出的权益推荐信息；

基于所述权益推荐信息向用户提供权益组合。

9.一种电子终端，其特征在于，所述电子终端包括处理器以及与所述处理器连接的存储器，其中，所述存储器中存储有程序数据，所述处理器调取所述存储器存储的所述程序数据，以执行如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有程序指令，所述程序指令被执行以实现如权利要求1-8任一项所述的方法。