CN117251632A

CN117251632A - 信息推荐模型的训练方法、信息推荐方法及装置

Info

Publication number: CN117251632A
Application number: CN202311212849.0A
Authority: CN
Inventors: 陈皓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-19

Abstract

本申请公开信息推荐模型的训练方法、信息推荐方法及装置，本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，该方法中，获取N个对象各自关联的样本站点特征序列，并基于获取的N个样本站点特征序列，对待训练的信息推荐模型进行迭代训练，获得信息推荐模型，其中每次迭代过程中，执行以下操作：基于一个样本站点特征序列和待推荐站点的推荐站点特征，获得预测操作特征；基于预测操作特征，结合从一个样本站点特征序列中选取的L个样本站点特征，获得相应对象针对待推荐多媒体信息的预估触发概率；基于预估触发概率，结合一个样本站点特征序列关联的真实触发概率，获得损失值，并对待训练的信息推荐模型进行调参。

Description

信息推荐模型的训练方法、信息推荐方法及装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种信息推荐模型的训练方法、信息推荐方法及装置。

背景技术

目前，随着多媒体信息规模的迅猛增长，为了对待推荐的目标多媒体信息实现有效感知，通常是构建推荐模型，根据对象关于各个多媒体信息的历史触发行为，判定是否向该使用对象推荐目标多媒体信息。

相关技术下，将深层结构语音模型(Deep Structured Semantic Model，DSSM)应用于信息推荐领域；具体地，在模型训练过程中，基于对象针对各个多媒体信息的历史触发行为序列，来学习对象触发目标多媒体信息的倾向程度，获得信息推荐模型。

然而，在上述模型的训练过程中，历史触发行为序列中的每个历史触发行为，对于对象触发目标多媒体信息的倾向程度，都起到等同的影响作用，简单来说，相关方案是基于对象的整体历史行为训练模型的；但是，只针对整体历史行为进行模型训练，会造成信息推荐模型学习到的信息过于单一，影响信息推荐模型的推荐准确度，导致模型推荐效果不佳。

发明内容

本申请提供一种信息推荐模型的训练方法、信息推荐方法及装置，用以挺高信息推荐模型的精准度。

第一方面，本申请提供了一种信息推荐模型的训练方法，包括：

获取N个对象各自关联的样本站点特征序列；每个样本站点特征序列包含：基于相应对象的触发次序获得的多个历史站点各自的样本站点特征，每个样本站点特征包含：相应历史站点承载的历史多媒体信息的语义特征；

基于获取的N个样本站点特征序列，对待训练的信息推荐模型进行迭代训练，获得信息推荐模型，其中，每次迭代过程中，执行以下操作：

基于一个样本站点特征序列和待推荐站点的推荐站点特征，获得预测操作特征；所述推荐站点特征包含：所述待推荐站点承载的待推荐多媒体信息的语义特征，所述预测操作特征表征相应对象对所述待推荐多媒体信息的触发倾向；

基于所述预测操作特征，结合从所述一个样本站点特征序列中选取的L个样本站点特征，获得所述相应对象针对所述待推荐多媒体信息的预估触发概率；所述L个样本站点特征的触发时间符合预设的时间筛选条件；

基于所述预估触发概率，结合所述一个样本站点特征序列关联的真实触发概率，获得损失值，并采用所述损失值对所述待训练的信息推荐模型进行调参。

第二方面，本申请提供了一种信息推荐模型的训练装置，包括：

获取模块，获取N个对象各自关联的样本站点特征序列；每个样本站点特征序列包含：基于相应对象的触发次序获得的多个历史站点各自的样本站点特征，每个样本站点特征包含：相应历史站点承载的历史多媒体信息的语义特征；

训练模块，基于获取的N个样本站点特征序列，对待训练的信息推荐模型进行迭代训练，获得信息推荐模型，其中，每次迭代过程中，执行以下操作：

第三方面，本申请提供了一种信息推荐方法，包括：

响应于信息推荐请求，获取至少一个候选对象，和所述至少一个候选对象各自关联的候选站点特征序列；

将至少一个候选站点特征序列，分别输入基于第一方面任一所述的方法训练得到的信息推荐模型中；

基于所述信息推荐模型，获得所述至少一个候选对象各自针对所述待推荐多媒体信息的预估触发概率；

基于获得的各个预估触发概率，从所述至少一个候选对象中，选取待推荐的目标对象。

第四方面，本申请提供了一种信息推荐装置，包括：

获取模块，响应于信息推荐请求，获取至少一个候选对象，和所述至少一个候选对象各自关联的候选站点特征序列；

输入模块，将至少一个候选站点特征序列，分别输入基于第三方面任一所述的方法训练得到的信息推荐模型中；

获得模块，基于所述信息推荐模型，获得所述至少一个候选对象各自针对所述待推荐多媒体信息的预估触发概率；

选取模块，基于获得的各个预估触发概率，从所述至少一个候选对象中，选取待推荐的目标对象。

第五方面，本申请提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面/第三方面中任意一种信息推荐模型的训练方法。

第六方面，本申请提供了一种计算机存储介质，所述计算机可读存储介质内存储有计算机程序指令，所述计算机程序指令被处理器执行上述第一方面/第三方面中任意一种信息推荐模型的训练方法。

第七方面，本申请实施例提供的一种计算机程序产品，包括计算机程序指令，所述计算机程序指令被处理器执行时实现上述第一方面/第三方面中任意一种信息推荐模型的训练方法。

本申请有益效果如下：

本申请实施例中，提供一种信息推荐模型的训练方法，设备获取N个对象各自关联的样本站点特征序列，N为正整数；每个样本站点特征序列包含：基于相应对象的触发次序获得的多个历史站点各自的样本站点特征，每个样本站点特征包含：相应历史站点承载的历史多媒体信息的语义特征。在此，N个样本站点特征序列为信息推荐模型的训练数据，由于将多媒体信息抽离为历史站点，实现将多媒体信息的推荐问题转换为历史站点的推荐问题，以及，将对象关于多媒体信息的触发行为转换为对象关于历史站点的触发行为，进一步，还根据对象的触发次序，将对象关于历史站点的触发行为抽象表示为一个样本站点特征序列，这样，有助于提升待信息推荐模型的训练效率。

具体来说，设备基于获取的N个样本站点特征序列，对待训练的信息推荐模型进行迭代训练，获得信息推荐模型，其中，每次迭代过程中，执行以下操作：

首先，基于一个样本站点特征序列和待推荐站点的推荐站点特征，获得预测操作特征，该推荐站点特征包含：待推荐站点承载的待推荐多媒体信息的语义特征，该预测操作特征表征相应对象对所述待推荐多媒体信息的触发倾向。在此，由于一个样本站点特征序列可表征相应对象关于历史站点的触发行为，如此获得的预测操作特征是基于相应对象关于历史站点的触发行为，结合待推荐站点的推荐站点特征获得的，这样的预测操作特征一定程度上能够反应出相应对象关于待推荐站点的整体触发倾向。

然后，基于预测操作特征，结合从一个样本站点特征序列中选取的L个样本站点特征，获得相应对象针对待推荐多媒体信息的预估触发概率，其中L个样本站点特征的触发时间符合预设的时间筛选条件。在此，由于预测操作特征用以反应相关对象关于待推荐站点的整体触发倾向，并且L个样本站点特征表征相应对象关于符合时间筛选条件的部分历史站点的触发行为，则前述二者结合获得的预估触发概率，是在相关对象关于待推荐站点的整体触发倾向的基础上，侧重挖掘相应对象在相应触发时间的局部触发倾向，这样的预估触发倾向，对于相关对象关于待推荐站点具有更加的多维度的触发倾向的关注性，进而通过这样训练出的信息推荐模型也可以获得多维度的有效信息，从而提高推荐准确度，提高模型推荐效率。

最后，基于预估触发概率，结合一个样本站点特征序列关联的真实触发概率，获得损失值，并采用损失值对待训练的信息推荐模型进行调参。由此，将监督学习引入信息推荐模型的训练过程中，能够加快信息推荐模型关于有效信息的快速学习和模型收敛，进而，本方案提出的训练思想，不仅将多媒体信息推荐问题转换为站点推荐信息，还结合相应对象的整体样本站点特征序列和局部样本站点特征序列这两种维度，在挖掘对象整体触发倾向的同时，侧重挖掘对象的局部触发倾向，也即将表征对象整体触发倾向的预测操作特征，结合对象的L个样本站点特征，获得对象针对待推荐多媒体信息的预估触发概率，以提高信息推荐模型的推荐精度；例如，在一些高时效多媒体信息的投放场景下，本方案可解决由对象的短期兴趣偏移导致信息推荐模型的推荐精度低的问题。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中可选的应用场景的示意图；

图2为本申请实施例提供的信息推荐模型的训练方法的流程示意图；

图3为本申请实施例中预设的站点特征库的示意图；

图4为本申请实施例中获取样本站点特征的流程示意图；

图5为本申请实施例中一个历史站点的初始站点特征的更新示意图；

图6A为本申请实施例中针对多媒体信息的预测操作特征的获得示意图；

图6B为本申请实施例中针对多媒体信息的评估操作特征的获得示意图；

图7为本申请实施例中获得L个样本站点特征的过程示意图；

图8为本申请实施例提供的信息推荐方法的流程示意图；

图9为本申请实施例中推荐模型的完整训练方式的流程示意图；

图10为本申请实施例中待推荐站点的相似站点示意图；

图11为本申请实施例中的模型架构的完整示意图；

图12为本申请实施例提供的信息推荐模型的训练装置的结构示意图；

图13为本申请实施例提供的信息推荐装置的结构示意图；

图14为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

为便于理解本申请实施例提供的技术方案，首先对本申请实施例使用的一些关键名词进行解释。

多媒体信息：可以为图片、电视剧、音乐、电子书、广告等。另外，对象可与多媒体信息进行互动，以广告为例，广告可通过网页页面或者应用界面内的广告展示位进行展示，对象可点击广告进入相应页面，并进行相应的操作，如下载应用或者购买下单等。

注意力(Attension)机制：一种通过使用高级信息来衡量网络中间特征，使得模型关注于可以辅助判断的部分信息，忽略不相关信息。注意力机制的本质来自于人类视觉注意力机制，人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分，而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。因此，注意力机制实质上是从大量信息中筛选出高价值信息的手段，在大量信息中，不同信息对于结果的重要性是不同的，这种重要性可以通过赋予不同大小的权值来体现，换言之，注意力机制可以理解成对多个来源进行合成时分配权重的一种规则。

其中，自注意力机制：是注意力机制的一种变体，其本质原理是与注意力机制是相同的，区别在于，例如注意力机制关注不同序列之间的关联关系，而自注意力机制则更为关注一个序列内的内在联系。

嵌入(Embedding)：深度学习的任务就是把高维原始数据(如历史站点、推荐站点等)映射到低维流形，使得高维的原始数据被映射到低维流形之后变得可分，这个映射就叫嵌入(Embedding)。

例如，Embedding可以用一个低维的向量表示一个物体(如一个词，或是一个站点等)，这个Embedding向量的性质是能使距离相近的向量对应的物体有相近的含义，比如医疗类站点的Embedding和诊所类站点的Embedding之间的距离就会很接近，但是医疗类站点的Embedding和通信类站点的Embedding的距离就会远一些。除此之外，在一些场景下，Embedding还可以具有数学运算的关系，比如马德里的Embedding-西班牙的Embedding+法国的Embedding≈巴黎的Embedding。

点击率(Click-Through-Rate，CTR)：可用于衡量多媒体信息的展示效果，也可以称为点击到达率。以多媒体信息是广告为例，点击率可以是广告实际点击次数除以广告的展现量。

转化率(Conversion Rate，CVR)：衡量多媒体信息展示效果的一个指标。以多媒体信息是广告为例，转化率可以是对象点击广告到成为一个有效激活或者注册甚至付费对象的转化率。

千次展示收益(effective cost per mille，ECPM)：反映多媒体信息盈利能力的参数。以多媒体信息是广告为例，ECPM可以表示每一千次展示所可以获得的转化资源，ECPM可以是只用来反映多媒体信息的盈利能力的参数，不代表实际转化资源。

每行动成本(Cost Per Action，CPA)：每行动成本就是多媒体信息的投放对象为每个投放行动所付出的成本，也称按效果付费成本。是指按多媒体信息投放实际效果，即按回应的有效问卷或定单来计费，而不限多媒体信息的投放量。具体地，每行动成本的计算方式计算公式可表示为：CPA＝总成本/转化次数。

Area Under the Curve(AUC)：是衡量推荐模型优劣的一种评价指标。AUC被定义为Receiver Operating Characteristic(ROC)曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y＝x这条直线的上方，AUC的取值范围在0.5和1之间。AUC越接近1.0，推荐模型确定的预估概率的真实性越高；AUC等于0.5时，则真实性最低，无应用价值。

其中，ROC曲线是一个画在二维平面上的曲线，平面的横坐标是false positiverate(FRP)，纵坐标是true positive rate(TPR)。

本申请实施例涉及人工智能技术，主要涉及人工智能技术中的自然语言处理技术。

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

自然语言处理(Nature Language processing,NLP)：是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

机器学习：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

下面对本申请实施例的设计思想进行简要介绍。

目前，在多媒体信息的推荐场景下，为实现对待推荐的目标多媒体信息的有效感知，通常构建推荐模型，根据对象关于各个多媒体信息的历史触发行为，判定是否向该使用对象推荐目标多媒体信息。

相关技术下，基于深层结构语音模型构建推荐模型，在模型训练过程中，基于对象针对各个多媒体信息的历史触发行为序列，来学习对象触发目标多媒体信息的倾向程度，获得信息推荐模型。

然而，一方面，在上述模型的训练过程中，历史触发行为序列中的每个历史触发行为，对于对象触发目标多媒体信息的倾向程度，都起到等同的影响作用，简单来说，相关方案是基于对象的整体历史行为训练模型的；但是，只针对整体历史行为进行模型训练，会造成信息推荐模型学习到的信息过于单一，影响信息推荐模型的推荐准确度，导致模型推荐效果不佳。

另一方面，上述模型是基于深层结构语音模型构建获得的，受深层结构语音模型的模型结构限制，在上述模型的训练过程中，需要对每个历史触发行为和目标媒体信息各自对应的特征，分别进行高度的降维浓缩处理，这样，将损害对象关于各个多媒体信息的触发信息的深层语义信息，导致训练获得的信息推荐模型的精准度不佳。

考虑到多媒体信息通常投放在一些高时效应用场景，例如各种各样的营销场景(如电商类、医疗类、通信类、保险类、游戏类等)，因此，本方案对现有推荐模型的模型结构进行改进，以提高信息推荐模型的准确性和时效性。

具体来说，本申请实施例提供了一种信息推荐模型的训练方法，在该方法中，基于提出的一种改进结构的推荐模型，来充分利用N个对象关于各个历史站点的历史触发(交互)行为，也即N个对象各自关联的样本站点特征序列，在模型训练过程中，首先，使用长期注意力机制，基于每个样本站点特征序列，获得相应对象针对待推荐站点的推荐站点特征的预测操作特征，也即每个对象对待推荐多媒体信息的整体触发倾向，其次，使用短期注意力机制，基于每个对象基于预测操作特征，以及相应样本站点特征序列中的L个样本站点特征，获得相应对象针对待推荐站点的推荐站点特征的评估站点特征，也即每个对象对待推荐多媒体信息的多维度触发倾向，从而充分捕捉每个对象关于各个多媒体信息的触发倾向的演化过程，关于对象的触发倾向获得更加精准的触发表达，提升最终获得信息推荐模型的推荐准确性和时效性。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面对本申请提供的信息推荐模型的训练方法的应用场景进行说明。

请参考图1，其为本申请提供的一种应用场景示意图。该应用场景中包括客户端101和服务端102。客户端101和服务端102之间可以通信。通信方式可以是采用有线通信技术进行通信，例如，通过连接网线或串口线进行通信；也可以是采用无线通信技术进行通信，例如，通过蓝牙或无线保真(wireless fidelity，WIFI)等技术进行通信，具体不作限制。

客户端101泛指可以向服务端102提供样本数据或可以使用已训练完毕的推荐模型的设备，例如，终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。终端设备包括但不限于用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。服务端102泛指可以训练推荐模型的设备，例如，终端设备或服务器等。服务器包括但不限于云服务器、本地服务器或关联的第三方服务器等。客户端101和服务端102均可以采用云计算，以减少本地计算资源的占用；同样也可以采用云存储，以减少本地存储资源的占用。

在一种可能的实施方式中，客户端101和服务端102可以是同一个设备，具体不作限制。本申请实施例中，以客户端101和服务端102分别为不同的设备为例进行介绍。

此外，本申请实施例可应用于各种场景，不仅包括广告推荐、视频推荐等多媒体信息推荐场景，还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。

需要说明的是，图1所示只是举例说明，实际上客户端和服务端的数量在本申请实施例中不做具体限定。上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

另外，本申请实施例中的推荐模型训练方法可以由电子设备执行，该电子设备可以为服务端102或者客户端101，即，该方法可以由服务端102或者客户端101单独执行，也可以由服务端102和客户端101共同执行。下面基于图1，以服务端102为服务器，以服务器为执行主体，由服务器单独执行本申请实施例中的推荐模型训练方法为例，对本申请实施例提供的推荐模型训练方法进行具体介绍。

请参考图2，其为本申请实施例提供的一种推荐模型训练方法的实施流程示意图，该方法的具体实施流程如下：

步骤201：获取N个对象各自关联的样本站点特征序列；每个样本站点特征序列包含：基于相应对象的触发次序获得的多个历史站点各自的样本站点特征，每个样本站点特征包含：相应历史站点承载的历史多媒体信息的语义特征。

其中，N为正整数，可根据实际情况进行设定。多媒体信息指任一类信息流，例如：广告、文章、资讯、视频、音乐等。站点指多媒体信息的载体。

在本申请实施例中，经发明人创造性劳动发现，同一历史站点承载的各多媒体信息存在关联性，这种关联性可以帮助推荐模型学习到更加多维且准确的有效信息，并且，多媒体信息的更替速度是很快的，而历史站点的更替则相对缓慢，因此，将多媒体信息抽象为其载体的站点，这样获得的推荐模型在高时效场景下具有更强的稳定性。

具体地，上述站点可以是互联网专业术语，也即是easySite内容管理平台主要管理的逻辑单元。一个站点是一个存储区，它存储了一个网站包含的所有文件，通俗一点的说，一个站点就是一个网站所有内容所存放的文件夹。在计算机上，站点是指在物理上具有较好的线路连接的能实现较快通信速率的计算机的集合(一般是指一个局域网)；站点之间一般是通过慢速连接来实现信息通信(一般是指广域网)；站点是对网上计算机的实际的物理分布的一种客观反映。

上述高时效应用场景，可以是各种各样的服务平台/服务软件的运行环境，例如，电商服务平台的运行环境、社交平台的运行环境、游戏软件的运行环境等。可选的，各平台或软件可以采用开放独立的站点服务，例如，针对跨境电商服务平台，考虑到全球各地之间的网络环境以及各商家之间的独立性，为每个商家的店铺配置为一个个的独立站点，从而使电商服务平台服务于大量的此类独立站点。

在一种可能的实现方式中，预设的站点特征库中存储各历史站点与其各自对应的样本站点特征，则为获得N个对象各自关联的样本特征序列，设备首先是获取N个对象各自关联的历史站点序列，其中每个历史站点序列包括：按照相应对象的触发次序所排列的多个历史站点，然后针对N个历史站点序列中的每个历史站点序列，从预设的站点特征库中，获取一个历史站点序列中的各个历史站点各自对应的样本站点特征，并获得一个历史站点序列对应的样本站点特征序列；其中，站点特征库中的每个样本站点特征：是对相应历史站点与其所属的至少一个历史站点序列，进行相关性分析处理获得的。

换言之，预设的站点特征库中存储的每个样本站点特征，都是对各相关的历史站点序列进行关联分析处理获得的，每个相关的历史站点序列都包含有相应的历史站点，则每个历史站点与相应样本站点特征之间的关联关系可参考图3所示。

在图3中，可以看到预设的站点特征库中包含若干的历史站点与其相应的样本站点特征，以历史站点1对应的样本站点特征1为例，历史站点1相关的各历史站点序列有历史站点序列1、历史站点序列4、历史站点序列6等等，每个相关的历史站点序列中都包含有历史站点1，通过对各相关的历史站点序列进行关联性分析，获得历史站点1对应的样本站点特征1。

进一步，在一种可能的实现方式中，参见图4所示，为站点特征库中的每个样本站点特征的获取方式，具体包括如下步骤4001～步骤4004。

步骤4001：获取多个样本对象各自关联的样本历史站点序列；其中，多个样本历史站点序列共包含：不相同的K个历史站点。

具体地，可以基于每个对象的历史站点访问记录，获取相应对象的样本历史站点序列。以对象u为例，对象u的样本历史站点序列可表示为：[s₁,s₂,s₃,…,s_T]，其中，s₁、s₂、s₃、…、s_T分别为对象u历史访问过的站点，若将该样本历史站点序列可视为一个文本句子，则其中的每个站点s₁、s₂、s₃、…、s_T可被视为组成该文本语句的各个单次。

基于上述类似的思想，可获取多个样本对象各自关联的样本历史站点序列，这些样本历史站点序列共包含若干的历史站点，在此，如果共包含K个历史站点，则通过后续步骤处理可获得这K个历史站点各自对应的样本站点特征。

需要说明的是，本申请实施例不对获取样本历史站点序列的数量作具体限制，也不对获取样本历史序列各自所属对象作具体限定，可以根据实际应用情况来确定。当然，为了提高后续获得样本站点特征的准确性，以及保证预设的站点特征库中存储数据的完善性，一般会针对海量样本历史站点序列进行处理，其中共包含的K个历史站点也将涵盖实际应用场景中可能涉及的推荐站点。

步骤4002：分别针对K个历史站点设置相应的初始站点特征；其中，K个初始站点特征各不相同。

具体地，针对K个历史站点，在第i个历史站点特征对应的初始站点特征中，该初始站点特征的第i维编码为第一指定数值，除第i维以外的维度编码为第二指定数值，第一指定数值与第二指定数值不同。

可选的，采用独热(One-hot)编码方式，针对K个历史站点，设置第i个历史站点的独热编码为：[0,0,0,1…,0]，也即第i个位置为1，其他位置全为0。这样，保证每个初始站点特征各不相同，且各自编码为1所在的维度也各不相同，该独热编码表征历史站点的嵌入向量，也即初始站点特征。

然后，将K个历史站点各自的初始站点特征进行存储，由于其编码特点，后续只需要根据查表就可获取到所需历史站点的初始站点特征，相当于做了一次快速的全连接层。

这样，基于K个历史站点各自的初始站点特征，获得K个历史站点的初始化词向量空间，该初始化词向量空间可表示为X∈R^(K×D)，其中，K表示历史站点的个数，D表征每个初始站点特征的维度。相应的，为了便于进行后续步骤的处理，针对站点设置初始站点特征时，将同时生成两个初始站点特征，例如历史站点s_i对应两个初始站点特征，其一表示为v_i∈R^D，可用于作为历史站点s_i作为中心站点时的表示形式，其二表示为u_i∈R^D，可用于作为历史站点s_i作为上下文站点时的表示形式。

步骤4003：基于K个初始站点特征，对每个样本历史站点序列中的各个历史站点，分别执行以下操作：在一个样本历史站点序列中，根据一个历史站点与除一个历史站点以外的其他历史站点之间的相关性，更新一个历史站点对应的初始站点特征。

为便于理解，首先阐述本步骤的处理思想，本申请实施例中，一个样本历史站点序列可表征一个对象关于各历史站点的触发情况，此外，由前文赘述的，一个样本历史站点序列可理解为一个文本语句，且其中的每个历史站点可理解为一个文本语句中的各个词语，则可将对于一个对象的行为分析问题，转换为对一个对象的样本历史站点序列的文本分析问题。其中，一个对象对于各历史站点的触发行为的演变过程，也就是一个对象的样本历史站点序列中各历史站点之间的文本相关性，换言之，一个文本语句中具有上下文的词语具有相似的语义，一个样本历史站点序列如果包含多个历史站点，则其中任一历史站点与同序列中的其他历史站点之间具有相似的语义。

在介绍了上述经发明人创造性劳动所构的处理思想后，下面针对每个样本历史站点序列分别执行的操作，作如下展开论述。

在一个样本历史站点序列中，依次针对其中包含的各个历史站点，根据一个历史站点与除一个历史站点以外的其他历史站点之间的相关性，更新一个历史站点对应的初始站点特征。

具体来说，参加图5所示，以一个样本历史站点序列中一个历史站点为例，将一个历史站点作为条件A，将除一个历史站点以外的其他历史站点作为条件B，获得条件A发生情况下，条件B发生的条件概率，然后基于该条件概率，获得表征其他历史站点出现概率最大的最大似然估计值，再基于最大似然估计值，更新一个历史站点的初始站点特征。

作为一种可能的实现方式，一个历史站点s_i对应两个初始站点特征：表征为中心站点的初始站点特征v_i∈R^D，表征为上下文站点的初始站点特征u_i∈R^D。将选定的一个历史站点作为中心站点，其作为中心站点时对应初始站点特征表示为v_c，其作为上下文站点时对应的初始站点特征表示为u_o，并将同序列中的其他历史站点分别作为上下文站点，并获取相应的初始站点特征u_i，其中，i∈V，则除一个历史站点s_i以外的其他历史站点出现的条件概率，与前述中心站点与上下文站点之间存在如下关联关系：

其中，符号·表征特征向量之间的内积，v_c是一个历史站点表征为中心站点时的初始站点特征，u_o是一个历史站点表征为上下文站点时的初始站点特征，u_i是一个历史站点的同序列其他站点表征为上下文站点时的初始站点特征，V可以根据实际情况进行设定，比如V为一个历史站点的同序列其他站点的站点集合。

进一步，在获得一个历史站点的条件概率后，基于该条件概率，获得表征其他历史站点出现概率最大的最大似然估计值，再基于最大似然估计值，更新一个历史站点表征为中心站点的初始站点特征。

针对上述最大似然估计值，与中心站点s_t与其他站点s_t+j之间存在如下关联关系：

其中，L为最大似然估计值，T为一个历史站点所属的样本历史站点序列中的所包含历史站点的总数，1≤t≤T，c为滑动窗口大小，p(s_t+j|s_t)为基于中心站点s_t其他站点s_t+j出现的条件概率。

在获得最大似然估计值后，采用最大似然估计值，更新相应中心站点的初始站点特征。

可选的，上述过程还可通过构建预设的词向量模型，通过词向量模型的内部训练过程获得，相应的，上述最大似然估计值可作为词向量模型的损失函数，以更新词向量模型的内部模型参数。

步骤4004：获得更新的K个初始站点特征，并分别作为K个历史站点各自对应的样本站点特征。

基于前面步骤，依次对每个样本历史站点序列各自的各个历史站点进行相关性分析处理，更新每个历史站点各自的初始站点特征，进而获得K个历史站点各自更新的初始站点特征，并分别作为相应历史站点对应的样本站点特征。

综上所述，本申请实施例中，为提高信息推荐模型的训练效率，将样本站点特征的获取方式抽象为上游处理，而将信息推荐模型的训练过程抽象为下游处理，这样上下游相辅相成又互不干扰，避免将样本站点特征提取糅合到推荐模型内部，导致信息推荐模型的训练效率低下的问题，以及有利于降低训练推荐模型所需的计算开销。

其次，为了提高训练获得的信息推荐模型的准确度，还提出一种获取样本站点特征的方式，通过分析各对象各自关联的样本历史站点序列，学习各样本历史站点序列中各历史站点之间的相关性，生成样本站点特征，这样获得的样本站点特征由于关注其所属序列的内部联系，因此可用于表征对象关于各历史站点的关联触发的整体情况，在用于后续训练推荐模型，将有利于提升信息推荐模型的准确度。

另外，本申请实施例还以预设的站点特征库存储这些样本站点特征，以便于后续训练推荐模型直接使用，由于站点在时间周期的变换情况较小，而使用对象的个体触发行为的周期变化情况较大，换言之，下游处理相对上游处理对于时效性要求更高，因此，上游站点特征库中的样本站点特征可按较长预设周期更新一次，而下游信息推荐模型的训练可按较短预设周期更新一次，当然，本申请对此不作具体限定。

步骤202：基于获取的N个样本站点特征序列，对待训练的信息推荐模型进行迭代训练，获得信息推荐模型，其中，每次迭代过程中，至少执行步骤203～步骤205。

需要说明的是，训练的终止条件可以包括如下一种或多种：确定模型收敛、迭代次数满足预设的迭代阈值、当前迭代或得的损失值满足预设的损失阈值。在这里，本申请不对此作具体限定。

步骤203：基于一个样本站点特征序列和待推荐站点的推荐站点特征，获得预测操作特征；推荐站点特征包含：待推荐站点承载的待推荐多媒体信息的语义特征，预测操作特征表征相应对象对待推荐多媒体信息的触发倾向。

本申请实施例中，待训练的信息推荐模型包括：基于长期注意力机制构建的长期注意力网络。

具体来说，长期注意力网络通过对象的长期行为(对象关联的样本站点特征序列)和待推荐多媒体信息(待推荐站点的推荐站点特征)之间的相关性，挖掘各对象针对待推荐多媒体信息的触发倾向，获得相应的预测操作特征。

例如，参见图6A所示，对象1关联样本站点特征序列1，针对样本站点特征序列1和推荐站点特征进行关联性分析处理，获得对象1针对待推荐多媒体信息的预测操作特征1，其他对象的预测操作特征也是同理可得。

在一种可能的实现方式中，获取一个样本站点特征序列中各个样本站点特征各自的操作预测参数，每个操作预测参数表征：相应样本站点特征与待推荐站点的推荐站点特征之间的相关度，然后，将获取的各个操作预测参数作为权重，对一个样本站点特征序列中的各个样本站点特征进行加权求和，获得预测操作特征。

其中，上述操作预测参数表征：在一个样本站点特征序列中，一个样本站点特征，相比于，除一个样本站点特征以外的其他样本站点特征，与推荐站点特征之间的相对关联性。

示例性的，以l为一个样本站点特征序列/>的长度为例，则操作预测参数α_i,t与各样本站点特征(如：第i个样本站点特征/>推荐站点特征e_t、其他样本站点特征/>)之间的关联关系可参见如下：

其中，α_i,t为第i个样本站点特征的操作预测参数，1≤j′≤l，为第i个样本站点特征，e_t为推荐站点特征，/>为其他样本站点特征。

进一步，将获取的各个操作预测参数作为权重，对一个样本站点特征序列中的各个样本站点特征进行加权求和，获得预测操作特征；则预测操作特征b_u，与各个样本站点特征之间的关联关系，可参见如下。

其中，b_u为预测操作特征，1≤i≤l，α_i,t为一个样本站点特征序列中第i个样本站点特征的操作预测参数，为一个样本站点特征序列中第i个样本站点特征。

综上所述，通过对一个样本站点特征中的各个样本站点特征进行相关分析处理，获得相应对象针对待推荐多媒体信息的预测操作特征，也即关于对象长期行为的预测结果。

步骤204：基于预测操作特征，结合从一个样本站点特征序列中选取的L个样本站点特征，获得相应对象针对待推荐多媒体信息的预估触发概率；L个样本站点特征的触发时间符合预设的时间筛选条件。

本申请实施例中，基于预测操作特征，结合从一个样本站点特征序列中选取的L个样本站点特征，分析他们与推荐站点特征之间相关性，获得评估操作特征，然后基于预设的触发预估参数，对评估操作特征进行特征分析处理，获得相应对象针对所述待推荐多媒体信息的预估触发概率。

作为一种可能的实现方式，待训练的信息推荐模型包括：基于短期注意力机制构建的短期注意力网络。

其中，短期注意力网络将对象长期行为的预测结果(对象的长期行为获得的预测操作特征)、对象的短期行为(对象关联的样本站点特征序列中的L个样本站点特征)作为一个整体，通过该整体和待推荐多媒体信息(待推荐站点的推荐站点特征)之间的相关性，挖掘各对象针对待推荐多媒体信息的触发倾向，获得相应的预测操作特征。

例如，参见图6B所示，基于对象1针对多媒体信息的预测操作特征1，结合对象1关联的样本站点特征序列1中的2个样本站点特征(样本站点特征1和样本站点特征3)，获得对象1的拼接特征序列1，然后针对拼接特征序列1和推荐站点特征进行关联性分析处理，获得对象1针对待推荐多媒体信息的评估操作特征1，其他对象的评估操作特征也是同理可得，在此不做重复赘述。

在一种可能的实现方式中，将预测操作特征，和从所述一个样本站点特征序列中选取的L个样本站点特征，分别作为待评估站点特征，并获得由各个待评估站点特征拼接生成的拼接特征序列，以及获取所述拼接特征序列中各个待评估操作特征各自的操作评估参数，每个操作评估参数表征：相应待评估站点特征与推荐站点特征之间的相关度，然后，基于获取的各个操作评估参数，对拼接特征序列中的各个待评估操作特征进行加权求和，获得评估操作特征。

其中，上述操作评估参数表征：在一个样本站点特征序列中，一个待评估站点特征，相比除一个待评估站点特征以外的其他待评估站点特征，与推荐站点特征之间的相对关联性。

示例性的，第i个样本站点特征的操作评估参数c_j,t与短期注意力网络的参数h,W₁,b₁之间的关联关系，可参见如下：

β_i,t＝h^T tanh(W₁[c_i,e_t]+b₁)#(公式6)

其中，c_j,t为第i个样本站点特征的操作评估参数，h,W₁,b₁为短期注意力网络的参数，为神经网络的激活函数，也可以用其他激活函数替代，在此不对激活函数的类型做具体限定，1≤j≤L+1，[·]表示向量拼接操作

进一步，将获取的各个操作评估参数作为权重，对一个拼接特征序列中的各个待评估站点特征进行加权求和，获得评估操作特征。

示例性的，e_u评估操作特征与一个拼接特征序列中各个待评估站点特征之间的关联关系，具体参见如下：

其中，e_u为评估操作特征，1≤j≤L+1，c_j,t为一个拼接特征序列中第i个待评估站点特征的操作评估参数，c_j为一个拼接特征序列中第i个待评估站点特征。

在获得相应对象的评估操作特征后，基于预设的触发预估参数，对评估操作特征进行特征分析处理，获得相应对象针对待推荐多媒体信息的预估触发概率，该触发预估参数表征：相应对象与所述待推荐多媒体信息之间的相关程度。

具体而言，上述预设的触发评估参数为待训练的信息推荐模型的模型参数(如：短期注意力网络的网络参数)，则可采用全连接层，计算获得上述预估触发概率。

示例性的，相应对象针对待推荐多媒体信息的预估触发概率与短期注意力网络的参数W₂,b₂之间的关联关系，具体可参见如下：

/>

其中，为相应对象针对待推荐多媒体信息的预估触发概率，W₂,b₂为短期注意力网络的参数，/>为神经网络的激活函数，也可以用其他激活函数替代，在此不对激活函数的类型做具体限定。

需要说明的是，上述预估触发概率的取值范围为[0,1]，其取值越大表征对象触发待推荐多媒体信息的可能性越大，其取值越小表征对象触发待推荐多媒体信息的可能性越小。

综上所述，本申请实施例中，在模型训练过程中，首先采用长期注意力机制，基于模型的长期注意力网络，学习各对象的长期行为，获得各对象各自针对待推荐多媒体信息的预测操作特征，也即各对象的长期偏好。然后，在长期偏好的基础上，结合各对象的局部行为(如：短期行为、近期行为等)，获得个对象各自针对待推荐多媒体信息的评估操作特征，也即各对象的综合偏好，并基于此，获得各对象各自触发待推荐多媒体信息的预估触发概率。

另外，本申请实施例中，不完全隔离对象的长期偏好和短期偏好，能够使得最终的综合偏好中，个关于长期偏好的影响更加平滑，同时，由于处理过程中，无需将一个对象的样本站点特征序列分为分别对应长期偏好和短期偏好的两个子序列来处理，减少了数据处理的复杂度。

步骤205：基于预估触发概率，结合一个样本站点特征序列关联的真实触发概率，获得损失值，并采用损失值对待训练的信息推荐模型进行调参。

具体地，获取一个样本站点特征序列关联的真实触发概率，然后，采用交叉熵方式，计算预估触发概率和真实触发概率之间的差异，获得损失值。

示例性的，损失值L，相较于，相应对象针对待推荐多媒体信息的预估触发概率与对应的真实触发概率y_i之间的关联关系，具体可参见如下：

其中，L为损失值，N表示输入待训练的信息推荐模型的样本站点特征序列的总数，为相应对象针对待推荐多媒体信息的预估触发概率，y_i为一个样本站点特征序列关联的真实触发概率，其中，y_i为1表征：相应对象真实触发了待推荐多媒体信息，y_i为0表征：相应对象未触发待推荐多媒体信息。

需要说明的是，采用交叉熵方式计算损失值是本文提供的一种可能的计算方式，还可以采用机器学习中其他分类任务的损失函数进行计算，在此不做过多赘述。

综上所述，提出一种改进结构的推荐模型，以充分利用N个对象关于各个历史站点的历史触发(交互)行为，也即N个对象各自关联的样本站点特征序列，在模型训练过程中，首先，使用长期注意力机制，基于每个样本站点特征序列，获得相应对象针对待推荐站点的推荐站点特征的预测操作特征，也即每个对象对待推荐多媒体信息的整体触发倾向，其次，使用短期注意力机制，基于每个对象基于预测操作特征，以及相应样本站点特征序列中的L个样本站点特征，获得相应对象针对待推荐站点的推荐站点特征的评估站点特征，也即每个对象对待推荐多媒体信息的多维度触发倾向，从而充分捕捉每个对象关于各个多媒体信息的触发倾向的演化过程，关于对象的触发倾向获得更加精准的触发表达，提升最终获得信息推荐模型的推荐准确性和时效性。

在一种可选的实现方式中，为了进一步提升信息推荐模型的训练效率，以及信息推荐模型的推荐准确性，还对输入待推荐的推荐模型的N各样本站点特征序列做如下设计：由N1个第一样本站点特征序列和N2个第二样本站点特征序列组成N个样本站点特征序列，其中，N＝N1+N2，且N1小于N2。

上述第一样本站点序列为推荐模型的正样本数据，其关联的对象对待推荐多媒体信息(如：广告、商品等)具有正向触发行为(如：点击、下载、支付等)，则每个第一样本站点特征序列各自关联的真实触发概率表征：相应对象真实触发了所述待推荐多媒体信息，每个第一样本站点特征序列各自关联的真实触发概率为1。

上述第二样本站点序列为推荐模型的负样本数据，其关联的对象对待推荐多媒体信息(如：广告、商品等)具有负向触发行为(如：未点击、未下载、未支付等)，则每个第二样本站点特征序列各自关联的真实触发概率表征：相应对象未真实触发待推荐多媒体信息，每个第二样本站点特征序列各自关联的真实触发概率为0。

需要说明的是，发明人经过创造性劳动发现，在实际推荐场景下，正样本数据远远小于负样本数据，因此上述关于N1小于N2的设计，有助于模型获得更多更准确的训练样本，尤其是面对海量数据时，能够提升信息推荐模型的训练准确性。可选地，发明人经创造性实践发现，当N1：N2＝1:3时，训练获得信息推荐模型的效果(AUC)越好，且投放实际应用场景下，实现待推荐多媒体信息的交互转化效果(CPA)也越好。

如前文所赘述，输入待训练的信息推荐模型的样本数据的数量关系到最终训练生成的信息推荐模型的模型性能，为了拓展样本数据，本申请实施例还提出一种拓展样本数据的方式，下面以从所述一个样本站点特征序列中选取的L个样本站点特征为例，作如下详细阐述，本领域技术人员当知，可基于相同思想，对一个样本站点特征序列进行样本数据的拓展。

在一种可选的实现方式中，本申请实施例提出一种拓展样本数据的方式，用以应对样本数据有限的场景。具体地，按照预设的时间筛选条件，从一个样本站点序列中，确定L+1个原始的样本站点特征，然后，针对这L+1个原始的样本站点特征，随机筛除一个原始的样本站点特征，获得针对一个样本站点序列选取的L个样本站点特征。

上述时间筛选条件可以根据实际应用情况进行设定；例如，按照时间倒叙确定L+1个原始的样本站点特征；再例如，按照指定的预设时段确定L+1个原始的样本站点特征，等。

参见图7所示，为获得L个样本站点特征的示意图，如图所示，确定样本站点特征序列1中的五个原始按序排列的样本站点特征：样本站点特征1、样本站点特征2、样本站点特征3、样本站点特征4、样本站点特征5；其中，将这五个样本站点特征进行随机打乱，获得打乱后的样本站点特征：样本站点特征3、样本站点特征5、样本站点特征2、样本站点特征1、样本站点特征4，再从中随机筛除一个样本站点特征，则可以获得如下五种情况，情况1：样本站点特征3、样本站点特征5、样本站点特征2、样本站点特征1；情况2：样本站点特征3、样本站点特征5、样本站点特征2、样本站点特征4；情况3：样本站点特征3、样本站点特征5、样本站点特征1、样本站点特征4；情况4：样本站点特征3、样本站点特征2、样本站点特征1、样本站点特征4；情况5：样本站点特征5、样本站点特征2、样本站点特征1、样本站点特征4。这样，基于5个的原本的样本站点特征，可基于五种不同情况选取出4个样本站点特征，作为模型的样本数据，也就实现了对于样本数据的拓展，充分发挥了训练数据的能力。

需要说明的是，该方式还可解决实际应用中正样本数据较少的问题，在此不做展开阐述。

另外，本申请实施例提出的拓展样本数据的方式，可针对L+1个原始的样本站点特征扩充出L种情况，每种情况都可获得L个样本站点特征，这L个样本站点特征表示对象的局部行为(如：短期行为、近期行为)，若基于L种情况，都执行前述步骤204～步骤205的方法，则可加强推荐模型对于局部行为的挖掘和学习，这样获得的信息推荐模型在应用于高时效场景，也能获得更佳的推荐准确度。

进一步，参见图8所示，基于训练好的信息推荐模型，本申请还提出一种信息推荐方法，具体包括如下步骤801～步骤804。

步骤801：响应于信息推荐请求，获取至少一个候选对象，和至少一个候选对象各自关联的候选站点特征序列。

其中，信息推荐请求可以通过通信交互、人机交互等方式获得；信息推荐请求中可携带如下信息中的一种或组合：至少一个候选对象、至少一个候选对象各自关联的候选站点特征序列、至少一个候选对象的标识信息、至少一个候选对象各自关联的候选站点特征序列的标识信息；本申请实施例对此不作具体限制。

具体地，设备在接收到信息推荐请求后，直接获得其中携带至少一个候选对象，或者设备可基于接收的信息推荐请求中携带的关于至少一个候选对象的指示信息，从内部/外部数据库中获取至少一个候选对象。同理，获得至少一个候选对象各自关联的候选站点特征序列，当然，此处候选站点特征序列，还可以基于一个候选对象与一个候选站点特征序列之间的对应关系，从外部设备或内部数据库中获取得到。

步骤802：将至少一个候选站点特征序列，分别输入本申请实施例中训练好的信息推荐模型中。

其中，信息推荐模型的训练过程可参见步骤201～步骤205，在此不做重复赘述。

步骤803：基于信息推荐模型，获得至少一个候选对象各自针对待推荐多媒体信息的预估触发概率。

本申请实施例中，信息推荐模型由于结合对象的长期行为和短期行为训练得到，并在训练过程中，主要关注对象的短期行为，次要关注对象的长期行为，因此，这样获得的各候选对象各自的预估触发概率更逼近相应对象实际的真实触发概率，从而能够为各候选对象实现精准推荐，即将待推荐多媒体信息推荐给对其具有需求的目标对象。

步骤804：基于获得的各个预估触发概率，从至少一个候选对象中，选取待推荐的目标对象。

在一种可能的实现方式中，基于预估触发概率的数值大小，对获得的各个预估触发概率进行按序排列，获得预估触发概率序列，然后，从预估触发概率序列中，按序选取指定数目的预估触发概率，并将选取的各预估触发概率各自对应的候选对象，作为待推荐的目标对象。

需要说明的是，本申请实施例中，还可以按照分值截断的方式选取指定数据的预估触发概率，在此不对选取方式做具体限定。此外，上述指定数目可以根据实际应用情况来确定。

综上所述，本申请实施例提供一种信息推荐模型的训练方法及信息推荐方法，用以提高信息推荐模型的精准度，为便于本领域技术人员更好理解本方案，下面结合实际应用场景，对本申请提供的一种信息推荐模型的训练方式做进一步的整体阐述。

参见图9所示，信息推荐模型的完整训练方式可大致分为如下两个部分。

第一部分：训练各样本站点特征。

步骤911：预处理，获得多个样本历史站点序列作为待训练数据。

具体地，获取若干样本历史站点序列，并基于预设的序列长度阈值(如：5000)，在若干样本历史站点序列中，过滤部分过长的样本历史站点序列；以及基于预设的站点访问次数阈值(如：100)，分别在各个样本历史站点序列中，过滤访问次数过少的历史站点；在进行过滤处理后，获得多个样本历史站点序列。

步骤912：采用词向量模型对待训练数据进行训练数据，得到每个历史站点各自的样本站点特征，存储到预设带的站点特征库中。

其中，词向量模型可以基于Spark中的Word2vec(word to vector)实现。Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。Word2vec是一个将单词转换成向量形式的工具，通过转换，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

步骤913：分析各个样本站点特征的训练情况。

具体地，可以使用待推荐站点去召回指定数目(如：100)个最相似(如：使用余弦相似度来度量相似情况)的站点，以便于使用对象分析各个样本站点特征的训练情况。

例如，参见图10，为待推荐站点的相似站点示意图。其中，预设待推荐站点为：包含医疗保险类多媒体信息的历史站点wxpt.taikang.com，则基于该历史站点召回的相似历史站点数据可参见图10所示，其中，左边是该历史站点的各个相似历史站点，右边是相似概率，可以看到，召回的相似历史站点基本都包含医疗保险类多媒体信息，这样，也就说明词向量模型已经从待训练数据中各历史站点相关的语义信息，这样，用于后续信息推荐模型的训练，也有助于提高训练的准确度。

第二部分：训练信息推荐模型。

步骤921：获取N个样本站点特征序列，其中正样本数量与负样本数量的比值符合1:3。

具体地，将具有转换触发行为的对象关联的样本站点特征序列作为正样本，反之作为负样本，对获取的若干样本站点特征序列进行筛选，按照正负样本1:3的比例获取N个样本站点特征序列。

步骤922：将N个样本站点特征序列输入长期注意力网络，获得N个预测操作特征。

具体地，参见步骤203的方式，在此不做重复赘述。

步骤923：在每个样本站点特征序列中，采用扩充样本数据的方式，选取L个样本站点特征，并将基于相应预测操作特征和L个样本站点特征生成的拼接特征序列，输入短期注意力网络，获得N个评估操作特征。

具体地，扩充样本数据的方式可参见图7及相关文字描述，短期注意力网络的处理机制可参见步骤204的方式，在此不做重复赘述。

步骤924：基于N个评估操作特征，获得N个对象针对待推荐多媒体信息的预估触发概率，并基于各预估触发概率，结合相应的真实触发概率，获得损失值，采用损失值对待训练的信息推荐模型进行调参。

具体地，预估触发概率的获得可参见步骤204的方式，模型调参可参见步骤205的方式，在此不做重复赘述。

更清晰的，参见图11所示，为本申请实施例中的模型架构的完整示意图，其中，引入上下游处理概念，上述第一部分的处理为上游部分，上述第二部分为下游部分，其中下游的训练方案采用了长短期注意力机制的策略，将各对象的样本历史站点序列作为长期注意力网络的输入数据，且分别选取各对象最近访问的L个历史站点作为短期注意力网络的输入数据，其中，通过上游处理获得各样本站点的样本站点特征，从而获得各对象针对待推荐多媒体信息的预估触发概率。这里不完全隔离长期注意力网络的输入数据和短期注意力网络的输入数据，是为了让对象的长期兴趣更平滑，同时在实际处理的时候不用将一个样本历史站点序列分成两个不同的序列来处理，减少了数据处理的复杂度。

此外，本申请实施例在训练推荐模型的时候，提出构造更多的样本数据的方式，不仅充分利用了训练数据，还有效避免了信息泄露。

参见如下表1～表2所示，为发明人经创造性实验获得的本方案训练获得信息推荐模型的模型性能数据，具体如下。

表1离线测试对比

模型名称	AUC提升
		word2vec+xgboost	-
DIN	2.28％
		Bert4Rec	2.73％
信息推荐模型(L＝10)	3.76％
		信息推荐模型(L＝20)	3.89％
信息推荐模型(L＝100)	3.73％

表2在线测试对比

模型名称	CPA降低
		word2vec+xgboost	-
DIN	3.50％
		Bert4Rec	3.81％
信息推荐模型(L＝10)	5.70％
		信息推荐模型(L＝20)	5.89％
信息推荐模型(L＝100)	5.64％

其中，表1展示了本方案和已有方案离线测试效果对比(测试5次，取平均值)，以word2vec+xgboost为基线。表2展示了本方案和已有方案在线投放待推荐多媒体信息(如：医疗保险类的广告)时CPA的对比(测试5次，取平均值)，以word2vec+xgboost为基线。同时也对比了不同短期行为序列长度对模型的效果影响，即从一个样本站点特征序列中，选取20个样本站点特征的时候，模型效果最优。

参见图12所述，基于同一发明构思，本申请实施例还提供了一种信息推荐模型的训练装置1200，包括：

获取模块1201，获取N个对象各自关联的样本站点特征序列；每个样本站点特征序列包含：基于相应对象的触发次序获得的多个历史站点各自的样本站点特征，每个样本站点特征包含：相应历史站点承载的历史多媒体信息的语义特征；

训练模块1202，基于获取的N个样本站点特征序列，对待训练的信息推荐模型进行迭代训练，获得信息推荐模型，其中，每次迭代过程中，执行以下操作：

可选的，所述获取模块1201，具体用于：

获取N个对象各自关联的历史站点序列，其中，每个历史站点序列包含：按照相应对象的触发次序排列的多个历史站点；

针对获得的N个历史站点序列，分别执行以下操作：从预设的站点特征库中，获取一个历史站点序列中的各个历史站点各自对应的样本站点特征，并获得所述一个历史站点序列对应的样本站点特征序列；其中，所述站点特征库中的每个样本站点特征：是对相应历史站点与其所属的至少一个历史站点序列，进行相关性分析处理获得的；

将所述N个历史站点序列各自对应给的样本站点特征序列，作为所述N个对象各自关联的样本站点特征序列。

可选的，所述用于站点特征库中的每个样本站点特征，是采用以下方式获得的则所述获取模块1201，还用于：

获取多个样本对象各自关联的样本历史站点序列；其中，多个样本历史站点序列共包含：不相同的K个历史站点；

分别针对所述K个历史站点设置相应的初始站点特征；其中，K个初始站点特征各不相同；

基于所述K个初始站点特征，对每个样本历史站点序列中的各个历史站点，分别执行以下操作：在一个样本历史站点序列中，根据一个历史站点与除所述一个历史站点以外的其他历史站点之间的相关性，更新所述一个历史站点对应的初始站点特征；

获得更新的K个初始站点特征，并分别作为所述K个历史站点各自对应的样本站点特征。

可选的，所述获取模块1201，用于在一个样本历史站点序列中，根据一个历史站点与除所述一个历史站点以外的其他历史站点之间的相关性，更新所述一个历史站点对应的初始站点特征，具体用于：

在一个样本历史站点序列中，基于所述一个历史站点，获得除所述一个历史站点以外的其他历史站点出现的条件概率；

基于所述条件概率，获得表征所述其他历史站点出现概率最大的最大似然估计值；

基于所述最大似然估计值，更新所述一个历史站点的初始站点特征。

可选的，所述训练模块1202，用于基于一个样本站点特征序列和待推荐站点的推荐站点特征，获得预测操作特征，具体用于：

获取一个样本站点特征序列中各个样本站点特征各自的操作预测参数，每个操作预测参数表征：相应样本站点特征与待推荐站点的推荐站点特征之间的相关度；

将获取的各个操作预测参数作为权重，对所述一个样本站点特征序列中的各个样本站点特征进行加权求和，获得所述预测操作特征。

可选的，所述获取模块1201，用于基于所述预测操作特征，结合从所述一个样本站点特征序列中选取的L个样本站点特征，获得所述相应对象针对所述待推荐多媒体信息的预估触发概率，具体用于：

将所述预测操作特征，和从所述一个样本站点特征序列中选取的L个样本站点特征，分别作为待评估站点特征，并获得由各个待评估站点特征拼接生成的拼接特征序列；

获取所述拼接特征序列中各个待评估操作特征各自的操作评估参数，每个操作评估参数表征：相应待评估站点特征与所述推荐站点特征之间的相关度；

基于获取的各个操作评估参数，对所述拼接特征序列中的各个待评估操作特征进行加权求和，获得评估操作特征；

基于预设的触发预估参数，对所述评估操作特征进行特征分析处理，获得所述相应对象针对所述待推荐多媒体信息的预估触发概率；其中，所述触发预估参数表征：所述相应对象与所述待推荐多媒体信息之间的相关程度。

可选的，所述获取模块1201，用于基于所述预估触发概率，结合所述一个样本站点特征序列关联的真实触发概率，获得损失值，具体用于：

获取所述一个样本站点特征序列关联的真实触发概率；

采用交叉熵方式，计算所述预估触发概率和所述真实触发概率之间的差异，获得损失值。

可选的，所述N个样本站点特征序列由N1个第一样本站点特征序列和N2个第二样本站点特征序列组成，N＝N1+N2，且N1小于N2；

其中，每个第一样本站点特征序列各自关联的真实触发概率表征：相应对象真实触发了所述待推荐多媒体信息；

每个第二样本站点特征序列各自关联的真实触发概率表征：相应对象未真实触发所述待推荐多媒体信息。

可选的，所述从所述一个样本站点特征序列中选取的L个样本站点特征，是通过以下方式获取的，则所述获取模块1201，还用于：

按照预设的时间筛选条件，从所述一个样本站点序列中，确定L+1个原始的样本站点特征；

针对所述L+1个原始的样本站点特征，随机筛除一个原始的样本站点特征，获得针对所述一个样本站点序列选取的L个样本站点特征。

该装置可以用于执行本申请各实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述，不多赘述。

参见图13所述，基于同一发明构思，本申请实施例还提供了一种信息推荐装置1300，装置包括：

获取模块1301，响应于信息推荐请求，获取至少一个候选对象，和所述至少一个候选对象各自关联的候选站点特征序列；

输入模块1302，将至少一个候选站点特征序列，分别输入基于权利要求1～9任一所述的方法训练得到的信息推荐模型中；

获得模块1303，基于所述信息推荐模型，获得所述至少一个候选对象各自针对所述待推荐多媒体信息的预估触发概率；

选取模块1304，基于获得的各个预估触发概率，从所述至少一个候选对象中，选取待推荐的目标对象。

可选的，所述选取模块1304，具体用于：

基于预估触发概率的数值大小，对获得的各个预估触发概率进行按序排列，获得预估触发概率序列；

从所述预估触发概率序列中，按序选取指定数目的预估触发概率，并将选取的各预估触发概率各自对应的候选对象，作为待推荐的目标对象。

请参见图14所示，基于同一技术构思，本申请实施例还提供了一种计算机设备1400，该计算机设备1400可以为图1所示的终端设备或服务器，该计算机设备1400可以包括存储器1401和处理器1402。

存储器1401，用于存储处理器1402执行的计算机程序。存储器1401可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1402，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器1401和处理器1402之间的具体连接介质。本申请实施例在图14中以存储器1401和处理器1402之间通过总线1403连接，总线1403在图14中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1403可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1401可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1401也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1401可以是上述存储器的组合。

处理器1402，用于调用存储器1401中存储的计算机程序时执行本申请各实施例中设备所执行的方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，计算机设备可以执行本申请各实施例中设备所执行的方法。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种信息推荐模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取N个对象各自关联的样本站点特征序列，包括：

3.如权利要求2所述的方法，其特征在于，所述站点特征库中的每个样本站点特征，是采用以下方式获得的：

4.如权利要求3所述的方法，其特征在于，所述在一个样本历史站点序列中，根据一个历史站点与除所述一个历史站点以外的其他历史站点之间的相关性，更新所述一个历史站点对应的初始站点特征，包括：

5.如权利要求1所述的方法，其特征在于，所述基于一个样本站点特征序列和待推荐站点的推荐站点特征，获得预测操作特征，包括：

6.如权利要求1所述的方法，其特征在于，所述基于所述预测操作特征，结合从所述一个样本站点特征序列中选取的L个样本站点特征，获得所述相应对象针对所述待推荐多媒体信息的预估触发概率，包括：

7.如权利要求1所述的方法，其特征在于，所述基于所述预估触发概率，结合所述一个样本站点特征序列关联的真实触发概率，获得损失值，包括：

获取所述一个样本站点特征序列关联的真实触发概率；

8.如权利要求1～7任一项所述的方法，其特征在于，所述N个样本站点特征序列由N1个第一样本站点特征序列和N2个第二样本站点特征序列组成，N＝N1+N2，且N1小于N2；

9.如权利要求1～7任一项所述的方法，其特征在于，所述从所述一个样本站点特征序列中选取的L个样本站点特征，是通过以下方式获取的：

10.一种信息推荐方法，其特征在于，所述方法包括：

将至少一个候选站点特征序列，分别输入基于权利要求1～9任一所述的方法训练得到的信息推荐模型中；

11.一种信息推荐模型的训练装置，其特征在于，包括：

12.一种信息推荐装置，其特征在于，所述装置包括：

输入模块，将至少一个候选站点特征序列，分别输入基于权利要求1～9任一所述的方法训练得到的信息推荐模型中；

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1至10任一项所述方法的步骤。

14.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，

所述计算机程序指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。

15.一种计算机程序产品，包括计算机程序指令，其特征在于，