CN111931062A

CN111931062A - 一种信息推荐模型的训练方法和相关装置

Info

Publication number: CN111931062A
Application number: CN202010887619.4A
Authority: CN
Inventors: 郝晓波; 葛凯凯; 刘雨丹; 唐琳瑶; 谢若冰; 张旭; 林乐宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-11-13
Anticipated expiration: 2040-08-28
Also published as: WO2022041979A1; US20230009814A1; CN111931062B

Abstract

本申请实施例公开一种基于人工智能的信息推荐模型的训练方法和相关装置，获取多个产品领域的历史用户行为数据，采用生成对抗网络中的生成模型，根据历史用户行为数据生成多个产品领域中的待扩充产品领域中每个产品领域的候选样本数据，以便生产伪样本来扩充用户行为数据。将多个产品领域中每个产品领域分别作为目标产品领域，通过生成对抗网络中的判别模型，对目标产品领域的候选样本数据和用户点击样本数据进行判别，得到判别结果，根据判别结果对生成模型的和判别模型进行对抗训练，得到训练后的生成对抗网络。训练后的生成对抗网络用于确定信息推荐模型。该方法可以提升生成模型的训练效果，提升生成伪样本的准确性，从而进一步提升推荐效果。

Description

一种信息推荐模型的训练方法和相关装置

技术领域

本申请涉及计算机领域，特别是涉及一种信息推荐模型的训练方法和相关装置。

背景技术

随着互联网的发展，信息快速增长，如何对信息进行有效的筛选和过滤，将用户感兴趣的信息，比如电影、商品或者食物等信息，准确地推荐给用户是一个重要的研究题目。

目前的推荐方法通常是基于某一个具体产品或者具体应用程序(Application，APP)下的，其用户往往是该产品或APP的目标用户，因此用户圈层是受限的。另外，即使考虑到基于多个产品或APP实现推荐方法，由于不同产品的用户行为日志的数量差别很大，如果将不同数量的用户行为日志放一起训练一个多目标模型，也无法得到有效的模型训练。

因此，目前用于信息推荐的推荐模型的训练效果比较差，进而导致信息推荐效果并不好，尤其是小数据量产品的信息推荐效果难以满足用户的需求。

发明内容

为了解决上述技术问题，本申请提供了一种基于人工智能的信息推荐模型的训练方法，该方法可以实现跨产品领域推荐，由于生成模型生成更多样本数据来平衡不同产品领域的样本比例，进而提升判别模型的训练效果，提升小样本产品领域的推荐效果。由于判别模型和生成模型通过互相博弈学习可以产生相当好的输出，所以该生成模型预测准确率较高，从而生成的伪样本效果更好，在信息推荐时进一步提升推荐效果。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种信息推荐模型的训练方法，所述方法包括：

获取多个产品领域的历史用户行为数据；

采用生成对抗网络中的生成模型，根据所述历史用户行为数据生成所述多个产品领域中的待扩充产品领域中每个产品领域的候选样本数据；

将所述多个产品领域中每个产品领域分别作为目标产品领域，通过所述生成对抗网络中的判别模型，对所述目标产品领域的候选样本数据和采集到的用户点击样本数据进行判别，得到判别结果；

根据所述判别结果对所述生成模型的和所述判别模型进行对抗训练，得到训练后的生成对抗网络，所述生成对抗网络用于确定信息推荐模型。

另一方面，本申请实施例提供一种信息推荐模型的训练装置，所述装置包括获取单元、生成单元、判别单元和训练单元：

所述获取单元，用于获取多个产品领域的历史用户行为数据；

所述生成单元，用于采用生成对抗网络中的生成模型，根据所述历史用户行为数据生成所述多个产品领域中的待扩充产品领域中每个产品领域的候选样本数据；

所述判别单元，用于将所述多个产品领域中每个产品领域分别作为目标产品领域，通过所述生成对抗网络中的判别模型，对所述目标产品领域的候选样本数据和采集到的用户点击样本数据进行判别，得到判别结果；

所述训练单元，用于根据所述判别结果对所述生成模型的和所述判别模型进行对抗训练，得到训练后的生成对抗网络；所述训练后的生成对抗网络用于确定信息推荐模型。

另一方面，本申请实施例提供一种信息推荐模型的训练设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行前述任一项所述的信息推荐模型的训练方法。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述任一项所述的信息推荐模型的训练方法。

由上述技术方案可以看出，在训练过程中，可以获取多个产品领域的历史用户行为数据，由于用户同时使用多个产品的可能性较小，因此多产品领域的用户行为特征是稀疏的，多个产品领域的用户行为数据的信息量不够充分，尤其是对于用户行为数据较少的产品领域，其难以训练得到有效的信息推荐模型，因此，采用生成对抗网络中的生成模型，根据历史用户行为数据生成多个产品领域中的待扩充产品领域中每个产品领域的候选样本数据，以便生产伪样本来扩充用户行为数据的数量。将多个产品领域中每个产品领域分别作为目标产品领域，通过生成对抗网络中的判别模型，对目标产品领域的候选样本数据和采集到的用户点击样本数据进行判别，得到判别结果，进而根据判别结果对生成模型的和判别模型进行对抗训练，得到训练后的生成对抗网络。训练后的生成对抗网络可以用于确定信息推荐模型。该方法将生成对抗网络引入到跨产品领域的信息推荐，通过多个产品领域的用户行为数据对生成对抗网络中的判别模型和生成模型进行对抗训练，由于判别模型和生成模型通过互相博弈学习可以产生相当好的输出，所以该生成模型预测准确率较高，从而生成的伪样本效果更好，在信息推荐时进一步提升推荐效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信息推荐模型的训练方法的应用场景示意图；

图2为本申请实施例提供的一种信息推荐模型的训练方法的流程图；

图3为本申请实施例提供的用于信息推荐方法的整体框架图；

图4a为本申请实施例提供的AFT模型中生成模型的模型结构示意图；

图4b为本申请实施例提供的AFT模型中判别模型的模型结构示意图；

图5为本申请实施例提供的AFT模型的联合模型结构示意图；

图6a为本申请实施例提供的某APP的“看一看”的推荐界面示意图；

图6b为本申请实施例提供的一种读书APP的推荐界面示意图；

图7为本申请实施例提供的一种跨领域信息推荐方法的流程图；

图8为本申请实施例提供的一种信息推荐模型的训练装置的结构图；

图9为本申请实施例提供的一种终端设备的结构图；

图10为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

在兴趣推荐系统中，传统的推荐方法是基于某一个具体产品或者具体APP下的，其用户往往是该产品的目标用户，因此用户圈层是受限的。

例如，用户在某一个APP下，往往只会表达出和该APP自身内容有关的兴趣点，比如，用户在视频APP下，喜欢看综艺、影视剧等视频内容，但是用户在读书APP下，用户可能对书籍感兴趣，而对综艺、电影等反而是没有兴趣的。因此，某一个产品下的用户行为，往往只能描述用户在某一限定场景下的兴趣，很难覆盖用户的全部兴趣，例如，在视频APP下，向用户推荐的往往是用户可能喜爱的电视剧等视频内容，并不会向用户推荐电视剧的原著小说，然而用户对电视剧感兴趣，那么也可能对其原著小说感兴趣，但是，传统推荐方法难以覆盖用户的全部兴趣。

另外，由于不同产品领域下的日活用户量差别大，导致不同产品领域下的用户行为数据的数量差别很大，比如产品领域A的用户行为数据的量级是产品领域B(例如读书APP)的100倍以上。如果将不同数量的用户行为数据放一起训练一个多目标模型，那么数量少的用户行为数据会淹没在大量的其它用户行为数据下，无法得到有效的模型训练，即使考虑到跨领域推荐，但是信息推荐效果并不好，尤其是小数据量产品的信息推荐效果难以满足用户的需求。

为此，本申请实施例提供一种基于人工智能的信息推荐模型的训练方法，该方法将生成对抗网络应用到跨产品领域推荐中，从而实现跨产品领域推荐。由于生成模型生成更多样本数据来平衡不同产品领域的样本比例，进而提升判别模型的训练效果，提升小样本产品领域的推荐效果。由于判别模型和生成模型通过互相博弈学习可以产生相当好的输出，所以该生成模型预测准确率较高，从而生成的伪样本效果更好，在信息推荐时进一步提升推荐效果。

本申请实施例所提供的方法涉及到云技术领域，例如涉及大数据(Big data)，大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。例如挖掘用户在各个产品领域的历史用户行为数据。

本申请实施例所提供的方法还涉及人工智能领域。人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，可以涉及的人工智能技术包括的自然语言处理、机器学习等方向。自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neuralnetwork)，例如卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

在本实施例中，可以利用机器学习训练生成对抗网络(Generative AdversarialNetworks，GAN)，生成对抗网络包括生成模型和判别模型，由于用户点击样本数据可以体现用户兴趣、爱好，训练得到的判别模型可以识别出这样的数据，即可以识别用户兴趣，因此，训练得到的判别模型可以作为信息推荐模型，以在线上向用户推荐信息。生成模型生成更多样本数据来平衡不同产品领域的样本比例，进而提升判别模型的训练效果，判别模型反过来可以进一步提升生成模型的训练效果，二者互相对抗提升，进一步提升跨产品领域推荐效果。

本申请实施例提供的方法可以应用到各种推荐系统中，从而实现跨产品领域的信息推荐，例如，用户可以在某产品的“看一看”小程序和“读书”小程序的界面中浏览到推荐系统推荐的公众号平台和视频平台收录的文章和视频等。推荐系统以用户年龄、性别、文章类别、关键词等特征以及历史用户行为数据作为依据推荐内容，实现“千人千面”的个性化信息推荐。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的基于人工智能的信息推荐模型的训练方法进行介绍。

参见图1，图1为本申请实施例提供的信息推荐模型的训练方法的应用场景示意图。该应用场景中包括终端设备101和服务器102，终端设备101上可以安装一种或多种产品，例如安装有读书APP，当终端设备101打开读书APP时，服务器102可以通过推荐系统向终端设备101返回目标推荐信息，以实现向用户跨领域推荐内容。例如，在读书APP中可以向用户推荐小说等书籍，还可以向用户推荐根据小说改编的影视剧等。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

为了实现跨领域推荐，服务器102可以获取多个产品领域的历史用户行为数据，以实现不同产品领域下的用户行为互相补充，进而训练信息推荐模型。其中，历史用户行为数据可以体现用户在各个产品领域的内容点击情况，进而体现用户的兴趣、爱好。

本申请将生成对抗网络应用到跨产品领域推荐场景中，由于用户同时使用多个产品的可能性较小，因此多产品领域的用户行为特征是稀疏的，历史用户行为数据的信息量不够充分，尤其是对于历史用户行为数据较少的产品领域，其难以训练得到有效的推荐模型，因此，服务器102可以通过生成对抗网络中的生成模型生产伪样本来扩充用户行为数据的数量。

将多个产品领域中的待扩充产品领域分别作为目标产品领域，服务器102通过该生成模型，根据历史用户行为数据生成目标产品领域的候选样本数据。服务器102通过生成对抗网络中的判别模型，对目标产品领域的候选样本数据和采集到的用户点击样本数据进行判别，得到判别结果。判别结果可以体现判别模型的识别能力，也可以进一步体现生成模型生成的伪样本的可信程度，因此，服务器102可以根据判别结果对生成模型的和判别模型进行对抗训练，互相对抗提升，得到训练后的生成对抗网络。

接下来，将以服务器作为执行主体，结合附图对本申请实施例提供的信息推荐模型的训练方法进行介绍。

参见图2，图2示出了一种信息推荐模型的训练方法的流程图，所述方法包括：

S201、获取多个产品领域的历史用户行为数据。

服务器可以获取多个产品领域的历史用户行为数据，历史用户行为数据可以有多种表示方式，在一种可能的实现方式中，历史用户行为数据可以通过三元组关系数据结构表示，三元组关系数据结构表征产品领域、用户与用户点击内容之间的对应关系，可以表示为(User，Domain，Item)，其中，User表示用户，Domain表示产品领域，Item表示对应Domain下的用户点击内容。

通过三元组关系数据结构可以将跨产品领域的历史用户行为数据做形式化的定义，便于后续训练生成对抗网络。

参见图3所示，图3示出了用于信息推荐方法的整体框架图，主要包括离线训练过程和在线服务过程。其中，离线训练过程指的是离线训练生成对抗网络的过程，在线服务过程指的是利用训练得到的判别模型，在用户使用某一产品或APP时，向用户推荐信息的过程。

在离线训练过程中，服务器可以通过多产品领域用户行为处理模块从用户点击日志中获取多个产品领域的历史用户行为数据(参见图3中S301所示)。

在获取历史用户行为时，多产品领域用户行为处理模块开将用户在各个产品领域的在线用户行为数据进行汇总，构建(domain，items，label)三维的候选集，其中，Domain表示产品领域，Item表示对应Domain下的用户点击内容，label包含曝光点击和曝光未点击两种行为，作为标签，以便训练用户生成伪样本的生成模型。

在一些情况下，获取的历史用户行为数据中可能存在一些无用数据，这些无用数据难以反映出用户的兴趣，例如，用户对浏览到的所有内容逐个点击，从而难以分析出用户的兴趣。因此，在一些可能的实现方式中，可以对多个产品领域的在线用户行为数据进行数据清洗和极端行为过滤等数据处理操作，得到历史用户行为数据。

S202、采用生成对抗网络中的生成模型，根据所述历史用户行为数据生成所述多个产品领域中的待扩充产品领域中每个产品领域的候选样本数据。

获取到的多个产品领域的历史用户行为数据可以用于训练跨产品领域的信息推荐模型。然而，由于用户同时使用多个产品的可能性较小，因此多产品领域的用户行为特征是稀疏的，历史用户行为数据的信息量不够充分，尤其是对于历史用户行为数据较少的产品领域，其难以训练得到有效的信息推荐模型。因此，为了扩充小样本产品领域的数据量，平衡不同产品领域的样本比例，可以利用生成模型生成伪样本，即候选样本数据。

在本实施例中，可以对多个产品领域中的历史用户行为数据都进行扩充，即待扩充产品领域为该多个产品领域，从而既可以提升小数据量产品领域的推荐效果，也可以提升大数据量产品领域的推荐效果。

然而，对于一些大数据量的产品领域，由于该产品领域的数据量已经非常多且覆盖全面，即使再扩充用户行为数据也难以提升推荐效果，或者推荐效果提升不明显。在这种情况下，为了减少计算量，可以仅对小数据量的产品领域通过生成伪样本的方式扩充用户行为数据。此时，待扩充产品领域为该多个产品领域中的小数据量产品领域，例如可以是多个产品领域中用户行为数据的数量少于预设阈值的产品领域。

在本实施例中，使用的生成对抗网络可以是面向多任务推荐的对抗性翻译(Adversarial Feature Translation For Multi-task Recommendation，AFT)模型，当然也可以是其他生成对抗网络，本申请实施例对此不做限定。接下来，将主要以生成对抗网络是AFT模型进行介绍。

在一些情况下，AFT模型包括的生成模型和判别模型的模型结构可以分别参见图4a和图4b所示。该生成模型可以包括每个产品领域对应的域编码器(Domain Encoder)、掩膜(mask)模块、变形器(transformer)计算层和快速最近的邻居服务器(fast nearestneighbor server)。在图4a中，产品领域1、……产品领域N分别对应一个Domain Encoder，每个产品领域的历史用户行为数据经过对应的Domain Encoder得到编码后的用户行为特征向量，编码后的用户行为特征向量可以是与该产品领域最相关的用户行为特征向量。

目标产品领域的历史用户行为数据经过掩膜模块后，与编码后的用户行为特征向量进行transformer计算，得到多组每个产品领域的编码后的用户行为特征向量对目标产品领域的影响权重，即实现保留多头向量，尽可能完整地保留用户的多产品领域信息，在放大跨产品领域的用户行为特征向量的有效信息的同时，减少信息传递损失。将影响权重和目标产品领域的编码后的用户行为特征向量做乘法attention，提取用户跨域特征信息中与目标产品领域最相关的表达，过滤无关信息，抽象为用户在目标产品领域下的目标用户行为向量。进而根据目标用户行为向量生成每个产品领域的候选样本数据。其中，每个产品领域的候选样本数据可以是通过K最邻近(k-Nearest Neighbor，KNN)算法，从生成模型生成的样本数据中选择的前k个样本数据。

S203、将所述多个产品领域中每个产品领域分别作为目标产品领域，通过所述生成对抗网络中的判别模型，对所述目标产品领域的候选样本数据和采集到的用户点击样本数据进行判别，得到判别结果。

生成模型生成候选样本数据后，判别模型可以对生成的候选样本数据和采集到的用户点击样本数据进行判别，得到判别结果。判别结果可以包括判别模型对候选样本数据的第一判别得分和对用户点击样本数据的第二判别得分，由于候选样本数据是生成模型生成的伪样本，用户点击样本数据是采集到的真实样本，因此，判别模型期望第一判别得分越低越好，第二判别得分越高越好，即可以更好的区分真假样本。

判别模型的模型结构可以参见图4b所示，判别模型包括Domain Encoder、transformer计算层、卷积层和softmax损失层，每个产品领域的历史用户行为数据通过分别对应的Domain Encoder，以及transformer计算层得到用户行为特征向量。产品领域的域标识例如身份标识号(Identity，ID)通过Domain Encoder和transformer计算层，得到域向量。域向量和用户行为特征向量通过卷积层得到有效用户特征向量，有效用户特征向量和目标产品领域的信息通过卷积层得到用户在目标领域下的目标用户行为特征向量，进而通过softmax损失层进行预测，得到预测结果(例如判别结果)和对应的损失函数。

在一些情况下，判别结果包括第一判别得分和第二判别得分，生成模型和判别模型还包括全连接层，生成模型包括的全连接层可以称为第一全连接层，判别模型包括的全连接层可以称为第二全连接层。此时，S203的实现方式可以是将生成模型的第一全连接层输出的候选样本数据输入至判别模型的第二全连接层，通过第二全连接层对候选样本数据进行判别，得到第一判别得分。将用户点击样本数据输入至第二全连接层，通过第二全连接层对用户点击样本数据进行判别，得到第二判别得分。

S204、根据所述判别结果对所述生成模型的和所述判别模型进行对抗训练，得到训练后的生成对抗网络。

生成对抗网络中的生成模型产出伪样本，期望判别模型难以区分真实样本和伪样本；判别模型需要尽量区分真实样本和伪样本，通过对抗训练，达到生成模型和判别模型的对抗性平衡，提升两个模型的效果。其中，生成对抗网络可以用于确定信息推荐模型。

生成模型和判别模型具有各自损失(Loss)函数计算，可以通过AFT的Loss计算公式做联合，进行联合模型训练，并分别对两个模型具体参数进行优化，提升每个模型的效果。最终达到判别模型难以区分生成模型生成的样本，而生成模型生成的样本又以假乱真的平衡情况。

在本实施例中，对生成对抗网络进行对抗训练的方式可以是生成模型和判别模型交替训练，交替训练可以是固定生成模型的网络参数，采用目标损失函数对判别模型的网络参数进行训练，得到训练后的判别模型。再固定判别模型的网络参数，采用目标损失函数对生成模型的网络参数进行训练，得到训练后的生成模型。在未满足训练结束条件时，交替执行上述两个训练步骤。其中，训练结束条件可以是目标损失函数收敛，例如目标损失函数达到最小值，或者是训练次数达到预设次数。

其中，生成模型和判别模型具有各自损失(Loss)函数计算可以是基于判别结果得到的，因此，S204的可能实现方式是根据判别结果构建生成模型的第一损失函数和判别模型的第二损失函数，然后，根据第一损失函数和所述第二损失函数构建目标损失函数。由于AFT具有对应的Loss计算公式，故可以根据AFT的Loss计算公式，利用第一损失函数和第二损失函数构建目标损失函数。之后，根据目标损失函数进行对抗训练，直到目标损失函数最小，得到训练后的生成对抗网络。

本申请实施例提供的生成对抗网络可以是利用历史用户行为数据训练得到的(参见图3中S302所示)。在一种可能的实现方式中，由于在信息推荐的应用场景中，所采用是离散的用户行为数据，而离散值是有限的候选空间，因此难以通过连续的向量表达用户行为数据，需要通过产出可能的样本数据进行表征。因此，生成模型在训练收敛的状态下，有可能产出和真实样本一样的样本数据。为了规避生成这种无效的样本数据，保证生成模型生成的伪样本和真实样本的差异，在目标损失函数中引入了样本分布损失函数，样本分布损失函数是根据用户点击样本数据的第一分布和候选样本数据的第二分布构建的，样本分布损失函数的值越小表征第一分布和所述第二分布的分布差距越大，期望分布差距越大越好。然后，根据第一损失函数、第二损失函数和样本分布损失函数，构建目标损失函数。

目标损失函数可以通过公式(1)表示：

L＝λ_DL_D+λ_GL_G+λ_SL_S (1)

其中，L表示目标损失函数，L_G表示第一损失函数，L_D表示第二损失函数，L_S表示样本分布损失函数。λ_D、λ_G、λ_S为超参数，可以根据实际需求进行设定，通常情况下，λ_D、λ_G、λ_S分别可以设定为0.2，1.0，0.2。

在本实施例中，AFT模型通过引入样本分布损失函数，控制生成模型生成的伪样本和真实样本不能完全一致，达到信息增量的目的，并能更好的训练联合模型效果。

在一些情况下，若判别结果为判别模型对候选样本数据的第一判别得分和对用户点击样本数据的第二判别得分，第一损失函数和第二损失函数的构建方式可以是：获取生成模型对所述候选样本数据的置信得分，根据第一判别得分和置信得分构建所述第一损失函数，以及根据第一判别得分和第二判别得分构建第二损失函数。

基于上述构建方法，L_D的计算公式可以如公式(2)所示：

其中，Pd(e_i|u)表示的是在用户特征u下判别模型对用户行为数据e_i的判别得分；S_c是采集到的用户点击样本数据(即真实样本)，也就是说，“+”左侧的求和运算是对处理后的第二判别得分进行的求和运算；S_g是生成模型产生的候选样本数据(即伪样本)，也就是说，“+”右侧的求和运算是对处理后的第一判别得分进行的求和运算。

AFT的判别模型期望对真实样本判别得分(第二判别得分)越高越好，对生成模型生成的伪样本判别得分(第一判别得分)越低越好。因为是最小化期望的学习方式，所以在公式前面添加负号，并对所有样本损失和进行求平均计算。

L_G的计算公式可以如公式(3)所示：

L_G的计算公式和传统的GAN不同，针对推荐系统的离散候选样本数据进行了改良。其中p_g(e_i|u)表示的是在用户特征u下生成模型对生成的候选样本数据e_i的置信得分。Q(e_i，u)表示的是在用户特征u下判别模型对候选样本数据的第一判别得分，表达了判别模型能否正确识别生成模型生成的伪样本，进而联合判别模型和生成模型。生成模型期望判别模型对候选样本数据的第一判别得分越高越好，相当于欺骗判别模型。因为是最小化期望的学习方式，所以在公式前面添加负号，并对所有样本损失和进行求和计算。

通过上述的L_D和L_G计算公式，可以看到针对离散的候选样本数据e_i，判别模型和生成模型都可以对其进行置信计算。并且AFT的判别模型期望对真实样本判别得分(第二判别得分)越高越好，对生成模型生成的候选样本数据判别得分(第一判别得分)越低越好，区分真假样本；生成模型期望判别模型对候选样本数据的第一判别得分越高越好，欺骗判别模型。因此生成模型和判别模型的各自Loss计算，可以通过AFT的Loss计算公式做联合，进行联合模型训练，并分别对两个模型具体参数进行优化，提升每个模型的效果。

样本分布损失函数表示的是第一分布与第二分布之间的分布差距，而分布差距可以通过第一分布与第二分布之间的距离表示，距离计算方式可以包括多种，例如欧式距离计算、相对熵(relative entropy)计算(又称KL散度计算)或最大均值差异(Maximum meandiscrepancy，MMD)。因此，在一些可能的实施例中，可以对第一分布和所述第二分布进行欧式距离计算、相对熵计算或最大均值差异计算，构建样本分布损失函数。

L_S的计算公式可以如公式(4)所示：

其中，e_j表示的是第二分布，e_k表示的是第一分布。L_S表达了真实样本和伪样本的分布差距，期望分布差距越大越好。因为是最小化期望的学习方式，所以在公式前面添加负号，并进行求和计算。

基于上述介绍，AFT模型的联合模型结构可以参见图5所示，多个产品领域的历史用户行为数据经过生成模型的Domain Encoder、transformer计算层和全连接层(fullyconnected layers，FC)，结合目标产品领域的用户的特征向量得到候选样本数据P1、P2、……Pn。结合目标产品领域的用户点击样本数据计算MMD，以便构建目标损失函数。判别模型根据生成模型生成的候选样本数据P1、P2、……Pn，以及输入的目标产品领域的用户点击样本数据(通过T表示)、多产品领域(通过D表示)的历史用户行为数据(通过I表示)，进行多产品领域学习，通过激活函数和FC之后进行判别打分得到第一判别得分和第二判别得分，从而结合MMD构建目标损失函数，以便对生成模型和判别模型进行对抗训练。

基于上述训练过程，可以得到训练好的生成对抗网络，将训练好的生成对抗网络进行保存(参见图3中S303所示)，例如保存在数据库中，以便将训练好的生成对抗网络中的判别模型提供给在线的跨产品领域推荐系统，实现跨产品领域推荐。在训练过程中，可以生成候选样本数据的向量形式，因此，可以候选样本数据的向量存入各产品的数据库中，参见图3所示，以便在在线服务过程用于信息推荐。其中，各产品的数据库可以是键-值(Key-Value，KV)数据库。

另外，通过本申请实施例提供的方法可以达到对某些产品领域用户冷启动效果的提升。

由于历史用户行为数据、用户点击样本数据可以体现用户兴趣、爱好，训练得到的判别模型可以识别出这样的数据，即可以识别用户兴趣、爱好，因此，训练后的生成对抗网络中的判别模型可以将训练后的生成对抗网络中的判别模型提供给线上推荐服务，在线上推荐服务过程中，将判别模型作为目标产品领域的信息推荐模型，用于向用户推荐信息。训练好的生成对抗网络中的判别模型可以作为目标产品领域的信息推荐模型，提供给在线的跨产品领域推荐系统，实现跨产品领域推荐。当某一用户例如目标用户通过某一产品浏览内容时，可以触发推荐请求，服务器可以获取该目标用户的推荐请求，根据该推荐请求确定目标用户对应的候选样本数据，进而根据目标用户对应的候选样本数据，通过目标产品领域的信息推荐模型确定待推荐内容(例如图3所示)，根据待推荐内容返回目标推荐信息。

在一些可能的实现方式中，可以将待推荐内容直接作为目标推荐信息，返回至终端设备，推荐给目标用户。

在一些情况下，待推荐内容可能非常多，可能难以将全部待推荐内容推荐给目标用户，或者，即使推荐给目标用户，也可能由于待推荐内容过多，而给目标用户带来不好的体验。因此，在另一些可能的实现方式中，根据待推荐内容返回目标推荐信息的方式可以是对待推荐内容按照推荐优先级从高到低的顺序进行排序，将排序在前预设数量的待推荐内容确定为目标推荐信息，返回所述目标推荐信息。其中，预设数量可以用K表示，前预设数量可以表示为top-k。

需要说明的是，在本实施例中，可以采用K最近邻(k-Nearest Neighbor，KNN)分类算法对待推荐内容进行排序，进而确定目标推荐信息。例如图3中所示，待推荐内容通过KNN服务，得到排序在top-k的待推荐内容作为目标推荐信息，向目标用户推荐。

以目标产品领域是某APP的“看一看”或读书APP为例，在该目标产品领域进行信息推荐，其推荐界面分别可以参见图6a和图6b所示，该推荐界面上展示了向用户推荐的信息，例如“***创业：创办民宿品牌××”。若该目标产品领域对应的信息推荐模型是通过S201-S204训练得到的，其中，信息推荐模型是基于多个产品领域(例如公众号平台和视频平台)的历史用户行为数据训练的，那么，在某APP的“看一看”或读书APP上可以浏览公众号平台和视频平台收录的文章和视频。

当服务器向终端设备返回目标推荐信息后，终端设备可以向目标用户展示该目标推荐信息。目标用户可以在目标推荐信息中点击自己感兴趣的信息进行查看，终端设备可以接收到目标推荐信息的点击产生点击行为数据，服务器从终端设备获取到目标用户针对目标推荐信息的点击行为数据，以便多产品领域用户行为处理模块可以收集该点击行为数据，利用点击行为数据更新历史用户行为数据，并根据更新后的历史用户行为数据，重新训练生成对抗网络，以更新生成对抗网络，使得生成对抗网络能够适应用户兴趣的变化，进一步提升判别模型的推荐效果。

接下来，将结合实际应用场景对本申请实施例提供的信息推荐模型的训练进行介绍。该应用场景可以是用户浏览读书APP时，读书APP根据用户的年龄、性别、以及历史用户行为数据向用户推荐信息。为了实现跨领域推荐，满足用户的需求，本申请实施例提供一种跨领域信息推荐方法，参见图7，所述方法包括离线训练过程和线上服务过程，其中，离线训练过程主要是用于训练生成对抗网络，以生成对抗网络是AFT模型为例，线上服务过程主要是利用AFT模型中的判别模型作为信息推荐模型，向用户推荐信息。所述方法包括：

S701、多产品领域用户行为处理模块将用户在各个产品领域的在线用户行为数据进行汇总，获取历史用户行为数据。

S702、将历史用户行为数据输入至AFT模型，对AFT模型中包括的生成模型和判别模型进行对抗训练。

S703、保存AFT模型。

S704、将训练好的AFT模型中的判别模型提供给线上服务过程。

S705、用户打开终端设备上的读书APP。

S706、服务器利用判别模型确定目标推荐信息。

S707、终端设备获取到服务器返回的目标推荐信息。

S708、终端设备向用户显示该目标推荐信息。

其中，S701-S703为离线训练过程，S704-S708线上服务过程。

基于前述图2所对应的实施例，本申请实施例还提供一种信息推荐模型的训练装置800，参见图8，所述装置800包括获取单元801、生成单元802、判别单元803和训练单元804：

所述获取单元801，用于获取多个产品领域的历史用户行为数据；

所述生成单元802，用于采用生成对抗网络中的生成模型，根据所述历史用户行为数据生成所述多个产品领域中的待扩充产品领域中每个产品领域的候选样本数据；

所述判别单元803，用于将所述多个产品领域中每个产品领域分别作为目标产品领域，通过所述生成对抗网络中的判别模型，对所述目标产品领域的候选样本数据和采集到的用户点击样本数据进行判别，得到判别结果；

所述训练单元804，用于根据所述判别结果对所述生成模型的和所述判别模型进行对抗训练，得到训练后的生成对抗网络；所述训练后的生成对抗网络用于确定信息推荐模型。

在一种可能的实现方式中，所述训练单元804，用于：

固定所述生成模型的网络参数，采用目标损失函数对所述判别模型的网络参数进行训练，得到训练后的所述判别模型；

固定所述判别模型的网络参数，采用所述目标损失函数对所述生成模型的网络参数进行训练，得到训练后的所述生成模型；

在未满足训练结束条件时，交替执行上述两个训练步骤。

在一种可能的实现方式中，所述训练单元804，用于：

根据所述判别结果构建所述生成模型的第一损失函数和所述判别模型的第二损失函数；

根据所述第一损失函数和所述第二损失函数构建所述目标损失函数。

在一种可能的实现方式中，所述训练单元804，用于：

根据所述用户点击样本数据的第一分布和所述候选样本数据的第二分布构建样本分布损失函数；所述样本分布损失函数的值越小表征所述第一分布和所述第二分布的分布差距越大；

根据所述第一损失函数、所述第二损失函数和所述本分布损失函数，构建所述目标损失函数。

在一种可能的实现方式中，所述训练单元804，用于：

对所述第一分布和所述第二分布进行欧式距离计算、相对熵计算或最大均值差异计算，构建所述样本分布损失函数。

在一种可能的实现方式中，所述判别结果包括第一判别得分和第二判别得分，所述判别单元803，用于：

将所述生成模型的第一全连接层输出的候选样本数据输入至所述判别模型的第二全连接层，通过所述第二全连接层对所述候选样本数据进行判别，得到所述第一判别得分；

将所述用户点击样本数据输入至所述第二全连接层，通过所述第二全连接层对所述用户点击样本数据进行判别，得到所述第二判别得分。

在一种可能的实现方式中，所述训练单元804，还用于：

获取所述生成模型对所述候选样本数据的置信得分；

根据所述第一判别得分和所述置信得分构建所述第一损失函数；

根据所述第一判别得分和所述第二判别得分构建所述第二损失函数。

在一种可能的实现方式中，所述装置还包括确定单元：

所述确定单元，用于将所述训练后的生成对抗网络中的判别模型提供给线上推荐服务；

在所述线上推荐服务过程中，将所述判别模型作为所述目标产品领域的信息推荐模型。

在一种可能的实现方式中，所述装置还包括返回单元：

所述返回单元，用于获取目标用户的推荐请求；根据所述推荐请求确定所述目标用户对应的候选样本数据；根据所述目标用户对应的候选样本数据，通过所述目标产品领域的信息推荐模型确定待推荐内容；

根据所述待推荐内容返回目标推荐信息。

在一种可能的实现方式中，所述返回单元，用于：

对所述待推荐内容按照推荐优先级从高到低的顺序进行排序；

将排序在前预设数量的待推荐内容确定为所述目标推荐信息；

返回所述目标推荐信息。

在一种可能的实现方式中，所述获取单元801还用于：

获取所述目标用户针对所述目标推荐信息的点击行为数据；

所述训练单元804还用于：

利用所述点击行为数据更新所述历史用户行为数据；

根据更新后的所述历史用户行为数据，重新训练所述生成对抗网络，以更新所述生成对抗网络。

在一种可能的实现方式中，所述待扩充产品领域为所述多个产品领域中所述历史用户行为数据的数量少于预设阈值的产品领域。

本申请实施例还提供了一种信息推荐模型的训练设备，该设备用于执行本申请实施例提供的信息推荐模型的训练方法。下面结合附图对该设备进行介绍。请参见图9所示，该设备可以是终端设备，以终端设备为智能手机为例：

图9示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图9，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器990是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

在本实施例中，所述终端设备(例如上述智能手机)中的处理器980可以执行以下步骤；

获取多个产品领域的历史用户行为数据；

本申请实施例提供的信息推荐模型的训练方法设备还可以是服务器，请参见图10所示，图10为本申请实施例提供的服务器1000的结构图，服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在本实施例中，服务器中的中央处理器1022可以执行以下步骤：

获取多个产品领域的历史用户行为数据；

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的信息推荐模型的训练方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信息推荐模型的训练方法，其特征在于，所述方法包括：

获取多个产品领域的历史用户行为数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述判别结果对所述生成模型的和所述判别模型进行对抗训练，得到训练后的生成对抗网络，包括：

在未满足训练结束条件时，交替执行上述两个训练步骤。

3.根据权利要求2所述的方法，其特征在于，所述目标损失函数的构建方式包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一损失函数和所述第二损失函数构建所述目标损失函数，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述用户点击样本数据的第一分布和所述候选样本数据的第二分布构建样本分布损失函数，包括：

6.根据权利要求3-5任一项所述的方法，其特征在于，所述判别结果包括第一判别得分和第二判别得分，所述通过所述生成对抗网络中的判别模型，对所述目标产品领域的候选样本数据和采集到的用户点击样本数据进行判别，得到判别结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述判别结果构建所述生成模型的第一损失函数和所述判别模型的第二损失函数，包括：

获取所述生成模型对所述候选样本数据的置信得分；

8.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

将所述训练后的生成对抗网络中的判别模型提供给线上推荐服务；

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取目标用户的推荐请求；

根据所述推荐请求确定所述目标用户对应的候选样本数据；

根据所述目标用户对应的候选样本数据，通过所述目标产品领域的信息推荐模型确定待推荐内容；

根据所述待推荐内容返回目标推荐信息。

10.根据权利要求9所述的方法，其特征在于，根据所述待推荐内容返回目标推荐信息，包括：

返回所述目标推荐信息。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取所述目标用户针对所述目标推荐信息的点击行为数据；

利用所述点击行为数据更新所述历史用户行为数据；

12.根据权利要求9所述的方法，其特征在于，所述待扩充产品领域为所述多个产品领域中所述历史用户行为数据的数量少于预设阈值的产品领域。

13.一种信息推荐模型的训练装置，其特征在于，所述装置包括获取单元、生成单元、判别单元和训练单元：

14.一种信息推荐模型的训练设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-12任一项所述的方法。