CN115455306B

CN115455306B - 推送模型训练、信息推送方法、装置和存储介质

Info

Publication number: CN115455306B
Application number: CN202211411630.9A
Authority: CN
Inventors: 苏鑫; 陈谦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-02-07
Anticipated expiration: 2042-11-11
Also published as: CN115455306A

Abstract

本申请涉及一种推送模型训练、信息推送方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括：获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的。将训练推送对象和训练推送信息输入到待训练推送模型中，通过当前推送模型计算得到当前匹配程度，并通过指导推送模型计算得到指导匹配程度；基于当前匹配程度和指导匹配程度计算得到指导损失信息，并基于当前匹配程度和训练标签计算得到推送损失信息。基于指导损失信息和推送损失信息进行模型的迭代训练，并基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型。采用本方法能够提高信息推送的准确性。

Description

推送模型训练、信息推送方法、装置和存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及一种推送模型训练、信息推送方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展，出现了信息智能推送技术，该信息智能推送技术可以是通过推送模型优先向用户推送感兴趣的信息。目前，通常通过流式增量微调的方法对推送模型持续不断的更新，以满足应用场景的时效性和准确性要求。然而，目前在对推送模型微调更新时，使用的数据样本流分布很不平衡，使得新数据进行训练的过程中，过去学到的知识和映射结果被完全打乱，导致推送模型在历史数据分布上的准确性严重下降，即存在灾难性遗忘的问题，使推送模型的信息推送准确性降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够避免灾难性遗忘，进而提高信息推送准确性的推送模型训练、信息推送方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种推送模型训练方法。所述方法包括：

获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的；

获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；

基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息；

基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型；

基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型，目标推送模型用于向目标推送对象对应的终端推送目标信息。

第二方面，本申请还提供了一种推送模型训练装置。所述装置包括：

模型获取模块，用于获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的；

匹配模块，用于获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；

损失计算模块，用于基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息；

迭代更新模块，用于基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型；

模型得到模块，用于基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型，目标推送模型用于向目标推送对象对应的终端推送目标信息。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述推送模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的；获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息；基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型；基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型，目标推送模型用于向目标推送对象对应的终端推送目标信息。其中，通过使用当前推送模型和对应的指导推送模型建立的待训练推送模型，然后在使用训练数据进行训练的同时，将指导推送模型的输出作为控制监督，即计算推送损失信息和指导损失信息对待训练推送模型中的当前推送模型进行训练，从而能够最小化训练数据误差损失，同时保留历史数据分布上的已学习结果，从而能够避免灾难性遗忘，进而提高信息推送准确性。

第一方面，本申请提供了一种信息推送方法。所述方法包括：

接收信息推送请求，信息推送请求携带待推送对象，基于信息推送请求获取各个待推送信息；

将待推送对象和各个待推送信息输入到目标推送模型中进行匹配，得到待推送对象与各个待推送信息的待推送匹配程度，目标推送模型是基于训练完成的待训练推送模型中的当前推送模型得到的，训练完成的待训练推送模型是通过获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时得到的；

基于待推送匹配程度从各个待推送信息中筛选得到目标推送信息，并将目标推送信息返回待推送对象对应的终端。

第二方面，本申请还提供了一种信息推送装置。所述装置包括：

请求接收模块，用于接收信息推送请求，信息推送请求携带待推送对象，基于信息推送请求获取各个待推送信息；

匹配模块，用于将待推送对象和各个待推送信息输入到目标推送模型中进行匹配，得到待推送对象与各个待推送信息的待推送匹配程度，目标推送模型是基于训练完成的待训练推送模型中的当前推送模型得到的，训练完成的待训练推送模型是通过获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时得到的；

推送模块，用于基于待推送匹配程度从各个待推送信息中筛选得到目标推送信息，并将目标推送信息返回待推送对象对应的终端。

上述信息推送方法、装置、计算机设备、存储介质和计算机程序产品，通过在接收信息推送请求，将待推送对象和各个待推送信息输入到目标推送模型中进行匹配，得到待推送对象与各个待推送信息的待推送匹配程度，该目标推送模型是基于训练完成的待训练推送模型中的当前推送模型得到的，训练完成的待训练推送模型是通过获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时得到的。由于目标推送模型避免了灾难性遗忘，从而能够提高得到的待推送匹配程度的准确性，然后使用待推送匹配程度从各个待推送信息中筛选得到目标推送信息，并将目标推送信息返回待推送对象对应的终端，从而提高了信息推送的准确性。

附图说明

图1为一个实施例中推送模型训练方法的应用环境图；

图2为一个实施例中推送模型训练方法的流程示意图；

图3为一个实施例中得到待训练推送模型的流程示意图；

图4为一个具体实施例中待训练推送模型的框架示意图；

图5为一个实施例中得到指导匹配程度的流程示意图；

图6为一个实施例中得到对象待训练推送模型的流程示意图；

图7为一个具体实施例中得到对象待训练推送模型的框架示意图；

图8为一个实施例中得到信息待训练推送模型的流程示意图；

图9为一个具体实施例中得到信息待训练推送模型的框架示意图；

图10为一个实施例中信息推送方法的流程示意图；

图11为一个具体实施例中推送模型训练方法的流程示意图；

图12为一个实施例中推送模型训练装置的结构框图；

图13为一个实施例中信息推送装置的结构框图；

图14为一个实施例中计算机设备的内部结构图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的语义理解和迁移学习等技术，具体通过如下实施例进行说明：

本申请实施例提供的推送模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104接收到终端102发送的模型训练指令，服务器104根据模型训练指令从数据存储系统获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的；服务器104从数据存储系统中获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；服务器104基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息；服务器104基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型；服务器104基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型，目标推送模型用于向目标推送对象对应的终端推送目标信息。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

在一个实施例中，如图2所示，提供了一种推送模型训练方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤202，获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的。

其中，待训练推送模型是训练对象，该待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，即待训练推送模型包括当前推送模型的模型结构和模型参数以及指导推送模型的模型结构和模型参数。当前推送模型是指当前要进行训练的推送模型，可以是使用人工智能算法建立的模型，比如，可以是使用神经网络算法建立的模型，也可以是使用逻辑回归、随机森林树算法等等。指导推送模型是指对当前推送模型进行指导训练的推送模型。该指导推送模型的模型结构和模型参数与当前推送模型一致。

具体地，服务器可以从数据库中获取到当前推送模型的模型结构和模型参数，然后使用当前推送模型的模型结构和模型参数建立指导推送模型，再通过当前推送模型的模型结构和模型参数和指导推送模型的模型结构和模型参数共同得到待训练推送模型的模型结构和模型参数，从而得到待训练推送模型。

在一个实施例中，当前推送模型是使用历史训练样本，即历史训练推送对象、历史训练推送信息和历史训练标签进行训练得到的。即将历史训练推送对象、历史训练推送信息和历史训练标签输入到要训练的初始推送模型中进行训练，当训练完成时，得到当前推送模型。

在一个实施例中，当前推送模型是对历史推送模型使用历史训练样本进行微调迭代得到的，该历史推送模型是使用历史训练样本对初始推送模型进行训练得到的。或者该历史推送模型也可以是使用新增训练样本对待更新的推送模型进行训练得到的。

在一个实施例中，当前推送模型也可以是使用历史待训练推送模型进行训练得到的。该历史待训练推送模型包括历史推送模型和对应的历史指导推送模型。然后使用历史指导推送模型进行指导，并训练历史推送模型得到训练完成的历史待训练推送模型，并将训练完成的历史待训练推送模型中历史推送模型作为当前推送模型。

步骤204，获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度。

其中，训练推送对象是指训练时的推送对象，该推送对象是指能够接收推送信息的对象信息，该对象可以是虚拟对象和真实对象，真实对象可以是指人。虚拟对象可以是指虚拟人物等。对象信息是指用于表征对象的具体信息，可以包括对象的基础属性信息、对象的行为信息等等。训练推送信息是指训练时的推送信息，该推送信息是指向训练推送对象进行推送的信息，该信息包括但不限于文本信息、视频信息、图像信息、语音信息等等。训练标签是指训练时的标签，用于表征训练推送信息是否被推送到训练推送对象。该训练标签包括训练推送标签和训练未推送标签，训练推送标签用于标注推送信息被推送到训练推送对象，训练未推送标签用于标注推送信息未被推送到训练推送对象。训练推送对象、训练推送信息和训练标签是指在当前推送模型训练完成后得到的新增的训练样本。当前匹配程度是指待训练推送模型中的当前推送模型计算的匹配程度，用于表征向训练推送对象推送该训练推送信息的当前可能性，该当前可能性是更新后的可能性，在训练过程中是持续不断变化的。指导匹配程度是指待训练推送模型中的指导推送模型计算的匹配程度，用于表征向训练推送对象推送该训练推送信息的历史可能性，该可能性在训练过程中是保持不变的。

具体地，服务器可以从数据库中获取训练推送对象、训练推送信息和训练标签。服务器也可以从业务服务方获取到训练推送对象、训练推送信息和训练标签。服务器还可以从终端获取到上传的训练推送对象、训练推送信息和训练标签。然后，服务器使用训练推送对象、训练推送信息和训练标签对待训练推送模型进行训练。即将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度。

步骤206，基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息。

其中，指导损失信息用于表征当前匹配程度和指导匹配程度之间的误差，通过不断的训练，使该误差越来越小，从而能够使更新后的当前推送模型依然能够保留过去已学知识和映射能力。推送损失信息是指用于表征当前匹配程度和训练标签之间的误差，通过不断的训练，使该误差越来越小，从而能够使更新后的当前推送模型学习到新增样本信息，提高对新样本的推送准确性。

具体地，服务器使用损失函数计算当前匹配程度与指导匹配程度之间的误差，得到指导损失信息，其中，该损失函数可以是相似度量损失函数，比如，距离损失函数、余弦损失函数等等。然后服务器使用推送任务损失函数计算当前匹配程度和训练标签之间的误差，得到推送损失信息，该推送任务损失函数可以是多推送目标损失函数，也可以是二分类损失函数等，其中，多推送目标损失函数可以是点击率目标损失函数、时长消费损失函数和互动目标损失函数等等。

步骤208，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型。

其中，更新待训练推送模型是指更新了当前推送模型的模型参数，并保持指导推送模型的模型参数不变后得到待训练推送模型。训练完成条件是指得到训练完成的待训练推送模型的条件，该条件包括但不限于训练达到最大迭代次数、模型参数不再发生变化以及模型损失信息达到预设阈值等。

具体地，服务器计算指导损失信息和推送损失信息的损失信息总和，然后服务器先判断是否达到训练完成条件，当未达到训练完成条件时，使用该损失信息总和来反向更新待训练推送模型中的当前推送模型的模型参数，并保持待训练推送模型中指导推送模型的模型参数不变，得到更新后的待训练推送模型。其中，可以使用梯度下降算法来反向更新模型参数，该梯度下降算法可以是随机梯度下降算法、批量梯度下降算法、小批量梯度下降算法、全梯度下降算法等。然后将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型。

步骤210，基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型，目标推送模型用于向目标推送对象对应的终端推送目标信息。

其中，目标推送模型是指最终训练完成的推送模型。目标推送对象是指要推送目标信息的推送对象。目标信息是指要推送的信息，该信息可以是文本信息、视频信息、语音信息和图片信息等等。

具体地，服务器将训练完成的待训练推送模型中的当前推送模型作为最终训练得到的目标推送模型。然后可以直接将目标推送模型进行部署并使用。即目标推送模型可以用于向目标推送对象对应的终端推送目标信息，该目标信息是与目标推送对象匹配的信息。

在一个实施例中，服务器可以按照预设时间周期时间点对推送模型进行不断的迭代更新，从而使当前推送模型能够不断累积所学习到的信息，避免遗忘性偏差，从而提高训练得到的当前推送模型的准确性，进而提高信息推送的准确性。

上述推送模型训练方法，通过获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的；获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息；基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型；基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型，目标推送模型用于向目标推送对象对应的终端推送目标信息。其中，通过使用当前推送模型和对应的指导推送模型建立的待训练推送模型，然后在使用训练数据进行训练的同时，将指导推送模型的输出作为控制监督，即计算推送损失信息和指导损失信息对待训练推送模型中的当前推送模型进行训练，从而能够最小化训练数据误差损失，同时保留历史数据分布上的已学习结果，从而能够避免灾难性遗忘，进而提高信息推送准确性。

在一个实施例中，如图3所示，步骤202，即获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，包括：

步骤302，获取当前时间点，当当前时间点为预设更新周期时间点时，获取当前推送模型。

其中，预设更新周期时间点是指预先设置好的对推送模型进行更新的周期时间点，该周期时间点可以是以预设时间周期来确定的，该预设时间周期可以是一个月、一周、两个月等等。当前时间点是指服务器中的当前时间点。

具体地，服务器获取系统时间点，根据系统时间点确定当前时间点，并将当前时间点与预设更新周期时间点进行比较，当时间点一致时，服务器需要对当前推送模型进行迭代更新，此时，服务器可以获取到当前推送模型。

步骤304，将当前推送模型的模型结构作为指导推送模型的模型结构，并将当前推送模型的模型参数作为指导推送模型的模型参数。

步骤306，基于指导推送模型的模型结构和指导推送模型的模型参数得到指导推送模型，并基于当前推送模型和指导推送模型得到待训练推送模型。

其中，模型结构是指为解决推送问题而提出的模型中各种要素之间的相互关联和相互作用的方式。比如，该模型结构可以是神经网络结构、随机森林树结构等等。模型参数是指模型内部的配置变量，可以根据训练数据来估计该模型参数，比如，神经网络结构的模型中，模型参数可以包括权重参数和偏置参数。

具体地，服务器在建立指导推送模型时，可以直接将当前推送模型的模型结构作为指导推送模型的模型结构，并将当前推送模型的模型参数作为指导推送模型的模型参数，即服务器可以直接将当前推送模型作为指导推送模型。然后将当前推送模型和指导推送模型共同作为待训练推送模型。

在一个具体的实施例中，如图4所示，提供一种待训练推送模型的架构示意图，具体来说：该待训练推送模型中包括指导推送模型和当前推送模型，该指导推送模型的模型参数和模型结构与当前推送模型一致。当服务器获取到训练样本时，该训练样本包括有训练推送对象和训练推送信息，将训练样本分别输入到待训练推送模型中的指导推送模型和当前推送模型中，得到待训练推送模型输出的指导匹配程度和当前匹配程度，然后就可以计算指导损失信息和推送损失信息来更新当前推送模型的模型参数，并保持指导推送模型的模型参数不变。然后不断地进行循环迭代，直到达到训练完成条件时，得到训练完成的待训练推送模型。

在上述实施例中，通过直接将当前推送模型作为指导推送模型，然后再根据指导推送模型和当前推送模型作为待训练推送模型，提高了得到待训练推送模型的效率。

在一个实施例中，如图5所示，步骤204，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度，包括：

步骤502，通过待训练推送模型中的当前推送模型提取训练推送对象的语义表征，得到当前对象语义表征，并提取训练推送信息的语义表征，得到当前信息语义表征。

步骤504，计算当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度。

其中，当前对象语义表征是指当前推送模型提取得到的训练推送对象的语义表征。当前信息语义表征是指当前推送模型提取得到训练推送信息的语义表征。该语义表征可以用向量进行表示。

具体地，服务器将训练推送对象和训练推送信息输入到待训练推送模型中的当前推送模型中，当前推送模型通过对训练推送对象进行语义表征，得到输出的当前对象语义表征，同时对训练推送信息进行语义表征，得到输出的当前信息语义表征。然后使用距离相似度算法计算当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度。

步骤506，通过待训练推送模型中的指导推送模型提取训练推送对象的语义表征，得到指导对象语义表征，并提取训练推送信息的语义表征，得到指导信息语义表征。

步骤508，计算指导对象语义表征与指导信息语义表征之间的距离，得到指导匹配程度。

其中，指导对象语义表征是指导推送模型提取得到的训练推送对象的语义表征，指导信息语义表征是指导推送模型提取得到的训练推送信息的语义表征，该语义表征也可以使用向量进行表示。

具体地，服务器将训练推送对象和训练推送信息输入到待训练推送模型中的指导推送模型中，指导推送模型通过对训练推送对象进行语义表征，得到输出的指导对象语义表征，同时对训练推送信息进行语义表征，得到输出的指导信息语义表征。然后使用距离相似度算法计算指导对象语义表征与指导信息语义表征之间的距离，得到指导匹配程度。

在上述实施例中，通过指导推送模型和当前推送模型分别提取训练推送对象和语义表征和训练推送信息的语义表征，然后计算语义表征直接的距离，得到指导匹配程度和当前匹配程度，从而提高了得到的匹配程度的准确性。

在一个实施例中，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，包括：

获取比重控制参数，基于比重控制参数对指导损失信息进行加权，得到加权损失信息；计算加权损失信息与推送损失信息的信息总和，得到目标损失信息；基于目标损失信息更新待训练推送模型中当前推送模型的模型参数，并保持待训练推送模型中指导推送模型的模型参数不变，得到更新待训练推送模型。

其中，比重控制参数是指控制指导损失信息的参数，用于控制指导损失信息在目标损失信息中的比重。加权损失信息是指加权后的指导损失信息。目标损失信息是指待训练推送模型在训练时得到的总损失信息。

具体地，服务器可以从数据库中获取到比重控制参数，也可以获取到预先设置好的比重控制参数，然后使用比重控制参数对指导损失信息进行加权，得到加权损失信息。最后计算加权损失信息与推送损失信息的信息总和，得到目标损失信息。然后使用梯度下降算法反向更新待训练推送模型中当前推送模型的模型参数，并保持待训练推送模型中指导推送模型的模型参数不变，当模型参数更新完成时，得到更新待训练推送模型。

在一个具体的实施例中，可以使用如下公式（1）计算得到目标损失信息。

公式（1）

其中，

表示目标损失信息，

表示推送损失信息，

表示指导损失信息，

表示比重控制参数。通过计算指导损失信息与比重控制参数的乘积，然后再加上推送损失信息，从而得到目标损失信息。

在上述实施例中，通过使用比重控制参数对指导损失信息进行控制，从而得到加权损失信息，然后再计算得到目标损失信息，从而提高了目标损失信息的准确性，然后再使用目标损失信息更新待训练推送模型，从而提高了得到的更新待训练推送模型的准确性。

在一个实施例中，当前推送模型包括当前对象语义表征网络和当前信息语义表征网络；

如图6所示，步骤202，获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，包括：

步骤602，获取当前时间点，当当前时间点为预设更新周期时间点时，获取当前推送模型。

步骤604，将当前推送模型中当前对象语义表征网络的网络结构作为对象指导推送模型的模型结构。

步骤606，将当前对象语义表征网络的网络参数作为对象指导推送模型的模型参数。

其中，当前对象语义表征网络是指当前推送模型中用于提取推送对象的语义表征的神经网络。当前信息语义表征网络是指当前推送模型中用于提取推送信息的语义表征的神经网络。对象指导推送模型是指使用当前对象语义表征网络的网络结构和网络参数得到的神经网络模型。

具体地，服务器获取当前时间点，然后检测当前时间点是否与预设更新周期时间点一致，当当前时间点与预设更新周期时间点未一致时，说明当前时间点不需要对当前推送模型进行更新。当当前时间点与预设更新周期时间点一致时，说明需要对当前推送模型进行更新。此时，服务器获取到要微调更新的当前推送模型。然后服务器可以将当前推送模型中当前对象语义表征网络的网络结构作为对象指导推送模型的模型结构，并将当前对象语义表征网络的网络参数作为对象指导推送模型的模型参数。即服务器将当前推送模型中当前对象语义表征网络作为对象指导推送模型。该对象指导推送模型用于控制对象语义表征的偏移程度，使训练完成后的推送模型能够有效缓解新训练过程中对过去已学知识的遗忘程度，从而提高训练的准确性。

步骤608，基于对象指导推送模型的模型结构和对象指导推送模型的模型参数得到对象指导推送模型，并基于当前推送模型和对象指导推送模型得到对象待训练推送模型。

其中，对象待训练推送模型是指以当前推送模型中的当前对象语义表征网络作为指导推送模型，并结合当前推送模型得到的。

具体地，服务器根据对象指导推送模型的模型结构和对象指导推送模型的模型参数得到对象指导推送模型，然后再将当前推送模型和对象指导推送模型得到对象待训练推送模型。

在上述实施例中，通过使用当前推送模型中的当前对象语义表征网络作为指导推送模型，并基于当前推送模型和对象指导推送模型得到对象待训练推送模型，从而能够控制对象语义表征的偏移程度，进而使训练完成的待训练推送模型有效缓解新训练过程中对过去已学知识的遗忘程度，从而提高训练的准确性。

在一个实施例中，步骤204，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度，包括步骤：

通过当前对象语义表征网络提取训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取训练推送信息的语义表征，得到当前信息语义表征；计算当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度；通过对象指导推送模型提取训练推送对象的语义表征，得到指导对象语义表征。

其中，指导对象语义表征是指使用对象指导推送模型中的对象语义表征参数提取得到的训练推送对象的语义表征。对象语义表征参数与当前推送模型中对象语义表征网络的网络参数一致。

具体地，服务器将训练推送对象和训练推送信息输入到对象待训练推送模型中，对象待训练推送模型将训练推送对象和训练推送信息输入到当前推送模型中，通过当前对象语义表征网络提取训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取训练推送信息的语义表征，得到当前信息语义表征，再使用距离相似度算计算出当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度。然后对象待训练推送模型将训练推送对象输入到对象指导推送模型中使用对象语义表征参数进行语义表征提取，得到输出的指导对象语义表征。

步骤206，即基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，包括步骤：

基于当前对象语义表征和指导对象语义表征进行指导损失计算，得到对象指导损失信息。

其中，对象指导损失信息用于表征当前对象语义表征和指导对象语义表征之间的误差。

具体地，服务器使用损失函数计算当前对象语义表征和指导对象语义表征之间的误差，得到对象指导损失信息。

在一个具体的实施例中，可以使用知识蒸馏损失函数来计算对象指导损失信息。比如，可以使用如下所示的公式（2）计算对象指导损失信息。

公式（2）

其中，t是指当前时间点为预设更新周期时间点时，预设更新周期时间点与下一个预设更新周期时间点之间的任意时间点。

是指t时刻的推送对象特征，比如推送对象基础属性特征、推送对象行为属性特征等等。

是指t时刻的推送信息特征。

是指训练标签。

是指对象指导损失信息。L2是指L2距离度量损失函数。

是指t时刻的指导对象语义表征，

是指t时刻的当前对象语义表征。

在上述实施例中，通过对象指导推送模型提取训练推送对象的语义表征，得到指导对象语义表征，该对象指导推送模型不需要提取训练推送信息的语义信息，从而能够节省计算资源，提高训练效率。然后再计算当前对象语义表征和指导对象语义表征进行指导损失计算，得到对象指导损失信息，提高了得到的对象指导损失的效率。

在一个实施例中，步骤208，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，包括步骤：

计算对象指导损失信息和推送损失信息的信息总和，得到对象目标损失信息；基于对象目标损失信息更新对象待训练推送模型中当前推送模型的模型参数，并保持对象待训练推送模型中对象指导推送模型的模型参数不变，得到更新待训练推送模型。

其中，对象目标损失信息是指训练对象待训练推送模型时得到的模型总损失。

具体地，服务器计算对象指导损失信息和推送损失信息的信息总和，得到对象目标损失信息。然后使用对象目标损失信息更新对象待训练推送模型中当前推送模型的模型参数，该当前推送模型的模型参数包括当前对象语义表征网络的网络参数和当前信息语义表征网络的网络参数。同时保持对象待训练推送模型中对象指导推送模型的模型参数不变，即保持指导的对象语义表征网络的网络参数不变，从而得到更新待训练推送模型。

在一个具体的实施例中，可以使用如下所示的公式（3）计算得到对象目标损失信息。

公式（3）

其中，

是指对象目标损失信息，

是指对象指导损失信息。其中，通过计算比重控制参数与对象指导损失信息的乘积，然后再计算与推送损失信息的总和，从而得到对象目标损失信息，能够使得到的对象目标损失信息更加的准确。

在上述实施例中，通过计算得到对象目标损失信息，然后使用对象目标损失信息对对象待训练推送模型进行更新并不断迭代训练，从而能够在保证训练准确性的基础上节省计算资源，提高训练效率。

在一个具体的实施例中，如图7所示，为对象待训练推送模型的架构示意图，具体来说：当前对象语义表征网络中包括有BERT（Bidirectional Encoder Representationsfrom Transformers，一种预训练的语言模型）映射网络和Dense（密集）映射网络；当前信息语义表征网络是由信息映射网络（feed，mapping）构成的。该对象指导推送模型与当前对象语义表征网络的网络结构和网络参数相同，并且在训练的过程中对象指导推送模型的模型参数保持不变，并对当前推送模型包括的当前对象语义表征网络和当前信息语义表征网络的网络参数进行更新迭代。具体来说：当前时间点

为预设更新周期时间点时，将当前对象语义表征网络的网络结构和网络参数

作为对象指导推送模型的模型结构和模型参数。即对象指导推送模型的模型参数

。当

时，

为下一个预设更新周期时间点，即在t时间点获取到新的训练样本，即推送对象和推送信息的交互反馈

时，

是指t时刻的推送信息特征。

是指训练标签。将

和

输入到对象待训练推送模型中，对象指导推送模型输出指导对象语义表征向量

。通过当前推送模型包括的当前对象语义表征网络和当前信息语义表征网络输出当前对象语义表征向量

和当前信息语义表征向量

。然后根据指导对象语义表征向量和当前对象语义表征向量使用L2距离算法来计算对象指导损失信息，然后再根据当前对象语义表征向量和当前信息语义表征向量使用点距离算法计算当前匹配程度，根据当前匹配程度和训练标签来计算推送损失信息。最后计算所有损失信息的总和，使用该损失信息总和反向更新当前推送模型的模型参数，并不断循环迭代，直到训练完成时，将训练完成的当前推送模型作为目标推送模型。

如图8所示，步骤202，获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，包括：

步骤802，获取当前时间点，当当前时间点为预设更新周期时间点时，获取当前推送模型。

步骤804，将当前推送模型中当前信息语义表征网络的网络结构作为信息指导推送模型的模型结构，将当前信息语义表征网络的网络参数作为信息指导推送模型的模型参数。

其中，信息指导推送模型是指使用当前信息语义表征网络的网络结构和网络参数得到的神经网络模型。

具体地，服务器获取当前时间点，然后检测当前时间点是否与预设更新周期时间点一致，当当前时间点与预设更新周期时间点未一致时，说明当前时间点不需要对当前推送模型进行更新。当当前时间点与预设更新周期时间点一致时，说明需要对当前推送模型进行更新。此时，服务器获取到要微调更新的当前推送模型。然后服务器可以将当前推送模型中当前信息语义表征网络的网络结构作为信息指导推送模型的模型结构，并将当前信息语义表征网络的网络参数作为信息指导推送模型的模型参数。即服务器将当前推送模型中当前信息语义表征网络作为信息指导推送模型。该信息指导推送模型用于控制信息语义表征的偏移程度，使训练完成后的推送模型能够有效缓解新训练过程中对过去已学知识的遗忘程度，从而提高训练的准确性。

步骤806，基于信息指导推送模型的模型结构和信息指导推送模型的模型参数得到信息指导推送模型，并基于当前推送模型和信息指导推送模型得到信息待训练推送模型。

其中，信息待训练推送模型是指以当前推送模型中的当前信息语义表征网络作为指导推送模型，并结合当前推送模型得到的。

具体地，服务器根据信息指导推送模型的模型结构和信息指导推送模型的模型参数得到信息指导推送模型，然后再将当前推送模型和信息指导推送模型得到信息待训练推送模型。

在上述实施例中，通过使用当前推送模型中的当前信息语义表征网络作为信息指导推送模型，并基于当前推送模型和信息指导推送模型得到信息待训练推送模型，从而能够控制信息语义表征的偏移程度，进而使训练完成的待训练推送模型有效缓解新训练过程中对过去已学知识的遗忘程度，从而提高训练的准确性。

通过当前对象语义表征网络提取训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取训练推送信息的语义表征，得到当前信息语义表征；计算当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度；通过信息指导推送模型提取训练推送信息的语义表征，得到指导信息语义表征。

其中，指导信息语义表征是指使用信息指导推送模型中的信息语义表征参数提取得到的训练推送信息的语义表征。信息语义表征参数与当前推送模型中信息语义表征网络的网络参数一致。

具体地，服务器将训练推送对象和训练推送信息输入到信息待训练推送模型中，信息待训练推送模型将训练推送对象和训练推送信息输入到当前推送模型中，通过当前对象语义表征网络提取训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取训练推送信息的语义表征，得到当前信息语义表征，再使用距离相似度算计算出当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度。然后信息待训练推送模型将训练推送信息输入到信息指导推送模型中使用信息语义表征参数进行语义表征提取，得到输出的指导信息语义表征。

步骤206，基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，包括步骤：

基于当前信息语义表征和指导信息语义表征进行指导损失计算，得到信息指导损失信息。

其中，信息指导损失信息用于表征当前信息语义表征和指导信息语义表征之间的误差。

具体地，服务器使用损失函数计算当前信息语义表征和指导信息语义表征之间的误差，得到信息指导损失信息。

在一个具体的实施例中，可以使用知识蒸馏损失函数来计算信息指导损失信息。比如，可以使用如下所示的公式（4）计算信息指导损失信息。

公式（4）

是指t时刻的推送信息特征。

是指训练标签。

是指信息指导损失信息。L2是指L2距离度量损失函数。

是指t时刻的指导信息语义表征，

是指t时刻的当前信息语义表征。

在上述实施例中，通过信息指导推送模型提取训练推送信息的语义表征，得到指导信息语义表征，该信息指导推送模型不需要提取训练推送对象的语义信息，从而能够节省计算资源，提高训练效率。然后再计算当前信息语义表征和指导信息语义表征进行指导损失计算，得到信息指导损失信息，提高了得到的信息指导损失的效率。

计算信息指导损失信息和推送损失信息的信息总和，得到信息目标损失信息；基于信息目标损失信息更新信息待训练推送模型中当前推送模型的模型参数，并保持信息待训练推送模型中信息指导推送模型的模型参数不变，得到更新待训练推送模型。

其中，信息目标损失信息是指训练信息待训练推送模型时得到的模型总损失。

具体地，服务器计算信息指导损失信息和推送损失信息的信息总和，得到信息目标损失信息。然后使用信息目标损失信息更新信息待训练推送模型中当前推送模型的模型参数，该当前推送模型的模型参数包括当前对象语义表征网络的网络参数和当前信息语义表征网络的网络参数。同时保持信息待训练推送模型中信息指导推送模型的模型参数不变，即保持指导的信息语义表征网络的网络参数不变，从而得到更新待训练推送模型。

在一个具体的实施例中，可以使用如下所示的公式（5）计算得到信息目标损失信息。

公式（5）

其中，

是指信息目标损失信息，

是指信息指导损失信息。其中，通过计算比重控制参数与信息指导损失信息的乘积，然后再计算与推送损失信息的总和，从而得到信息目标损失信息，能够使得到的信息目标损失信息更加的准确。

在一个具体的实施例中，如图9所示，为信息待训练推送模型的架构示意图，具体来说：当前对象语义表征网络中包括有BERT（Bidirectional Encoder Representationsfrom Transformers，一种预训练的语言模型）映射网络和Dense（密集）映射网络，当前信息语义表征网络是由信息映射网络（feed，mapping）构成的。该信息指导推送模型与当前信息语义表征网络的网络结构和网络参数相同，并且在训练的过程中信息指导推送模型的模型参数保持不变，并对当前推送模型包括的当前对象语义表征网络和当前信息语义表征网络的网络参数进行更新迭代。具体来说：当前时间点

为预设更新周期时间点时，将当前信息语义表征网络的网络结构和网络参数

作为信息指导推送模型的模型结构和模型参数。即信息指导推送模型的模型参数

。当

时，

时，

是指t时刻的推送信息特征。

是指训练标签。将

和

输入到信息待训练推送模型中，信息指导推送模型输出指导信息语义表征向量

和当前信息语义表征向量

。然后根据指导信息语义表征向量和当前信息语义表征向量使用L2距离算法来计算信息指导损失信息，然后再根据当前对象语义表征向量和当前信息语义表征向量使用点距离算法计算当前匹配程度，根据当前匹配程度和训练标签来计算推送损失信息。最后计算所有损失信息的总和，使用该损失信息总和反向更新当前推送模型的模型参数，并不断循环迭代，直到训练完成时，将训练完成的当前推送模型作为目标推送模型。

在一个实施例中，步骤206，即获取训练推送对象、训练推送信息和训练标签，包括步骤：

获取历史更新时间点，历史更新时间点为训练得到当前推送模型的时间点；获取当前时间点，基于历史更新时间点和当前时间点确定时间段，并获取时间段内的历史推送对象、历史推送信息和历史推送结果；基于历史推送对象、历史推送信息和历史推送结果得到训练推送对象、训练推送信息和训练标签。

其中，历史更新时间点是指训练得到当前推送模型的时间点，当前时间点可以是指在历史更新时间点过后的时间点。历史推送对象是指在历史更新时间点和当前时间点之间的时间段中需要进行信息推送的对象。历史推送信息是指在历史更新时间点和当前时间点之间的时间段中需要判断是否向历史推送对象进行推送的信息。历史推送结果是指历史推送信息是否被推送到历史推送对象对应的终端中的结果，包括历史推送结果和历史未推送结果。

具体地，服务器可以从数据库中获取到训练得到当前推送模型的时间点，将该时间点作为历史更新时间点，然后获取系统当前时间，得到当前时间点。再根据历史更新时间点和当前时间点确定获取新增训练样本的时间段。然后可以从数据库中获取到该时间点内保存的历史推送对象、历史推送信息和对应的历史推送结果。服务器将历史推送对象、历史推送信息和对应的历史推送结果作为对当前推送模型进行训练的训练样本，即得到训练推送对象、训练推送信息和训练标签。

在一个实施例中，服务器在得到当前推送模型后，不断获取到新的训练样本，然后将新的训练样本划分为不同的批次，使用每个批次的训练样本作为训练推送对象、训练推送信息和训练标签。

在上述实施例中，通过获取到在训练得到当前推送模型后的新增训练样本来得到训练推送对象、训练推送信息和训练标签。然后使用训练推送对象、训练推送信息和训练标签进行训练，从而可以使训练完成后的推送模型进一步学习到新的知识，从而提高了信息推送的准确性。

在一个实施例中，如图10所示，提供了一种信息推送方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤1002，接收信息推送请求，信息推送请求携带待推送对象，基于信息推送请求获取各个待推送信息。

其中，信息推送请求用于请求推送感兴趣的信息，该信息包括但不限于文本信息、视频信息、图像信息和语音信息等等。待推送对象是指需要推送感兴趣的信息的对象，该对象包括但不限于真实对象和虚拟对象。待推送信息是指需要判断是否能够推送的信息。

具体地，当待推送对象通过终端向服务器发送信息推送请求时，服务器接收到终端发送的信息推送请求，解析该信息推送请求，得到待推送对象。然后可以根据待推送对象从数据库中获取到待推送对象的信息，并根据信息推送请求从数据库中获取到各个待推送信息。

步骤1004，将待推送对象和各个待推送信息输入到目标推送模型中进行匹配，得到待推送对象与各个待推送信息的待推送匹配程度，目标推送模型是基于训练完成的待训练推送模型中的当前推送模型得到的，训练完成的待训练推送模型是通过获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时得到的。

其中，待推送匹配程度用于表征待推送信息与待推送对象的匹配程度，待推送匹配程度越高，说明该待推送对象对该待推送信息的兴趣就越高。目标推送模型可以识别能够向推送对象对应的终端推送的信息，可以是使用上述信息推送模型训练方法中任意一实施例的方法进行训练得到的。

具体地，服务器将待推送对象的信息分别与各个待推送信息输入到目标推送模型中进行匹配，得到待推送对象分别与每个待推送信息的待推送匹配程度。其中，目标推送模型可以是使用上述信息推送模型训练方法中任意一实施例的方法进行训练得到的。

步骤1006，基于待推送匹配程度从各个待推送信息中筛选得到目标推送信息，并将目标推送信息返回待推送对象对应的终端。

其中，目标推送信息是指向待推送对象对应的终端进行推送的信息，该目标推送信息可以包括多个。

具体地，服务器比较各个待推送信息的待推送匹配程度，然后选取最大待推送匹配程度对应的待推送信息作为目标推送信息，并将目标推送信息返回待推送对象对应的终端。

在一个实施例中，服务器按照待推送对象分别与每个待推送信息的待推送匹配程度的大小将各个待推送信息进行排序，得到待推送信息序列，然后可以从待推送信息序列中由大到小依次选取预设数量的待推送信息，得到预设数量的目标推送信息，并将预设数量的目标推送信息返回待推送对象对应的终端。

上述信息推送方法，通过在接收信息推送请求，将待推送对象和各个待推送信息输入到目标推送模型中进行匹配，得到待推送对象与各个待推送信息的待推送匹配程度，该目标推送模型是基于训练完成的待训练推送模型中的当前推送模型得到的，训练完成的待训练推送模型是通过获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时得到的。由于目标推送模型避免了灾难性遗忘，从而能够提高得到的待推送匹配程度的准确性，然后使用待推送匹配程度从各个待推送信息中筛选得到目标推送信息，并将目标推送信息返回待推送对象对应的终端，从而提高了信息推送的准确性。

在一个具体的实施例中，如图11所示，提供一种推送模型训练方法，并具体包括以下步骤：

步骤1102，获取当前时间点，当当前时间点为预设更新周期时间点时，获取当前推送模型。

步骤1104，将当前推送模型中当前对象语义表征网络的网络结构作为对象指导推送模型的模型结构，并将当前对象语义表征网络的网络参数作为对象指导推送模型的模型参数。

步骤1106，基于对象指导推送模型的模型结构和对象指导推送模型的模型参数得到对象指导推送模型，并基于当前推送模型和对象指导推送模型得到对象待训练推送模型。

步骤1108，获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过当前对象语义表征网络提取训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取训练推送信息的语义表征，得到当前信息语义表征，计算当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度，通过对象指导推送模型提取训练推送对象的语义表征，得到指导对象语义表征。

步骤1110，基于当前对象语义表征和指导对象语义表征进行指导损失计算，得到对象指导损失信息。基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息，并计算对象指导损失信息和推送损失信息的信息总和，得到对象目标损失信息。

步骤1112，基于对象目标损失信息更新对象待训练推送模型中当前推送模型的模型参数，并保持对象待训练推送模型中对象指导推送模型的模型参数不变，得到更新待训练推送模型。

步骤1114，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型。

步骤1116，基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型，目标推送模型用于向目标推送对象对应的终端推送目标信息。

在一个具体的实施例中，该信息推送模型训练方法和信息推送方法应用到视频推送平台中，具体来说：在视频推送平台中，视频推送模型在使用的过程中是不断更新迭代的。即检测到当前时间点与预设更新周期时间点一致时，使用当前视频推送模型建立对应的指导推送模型，并根据当前视频推送模型和指导推送模型建立待训练视频推送模型，然后获取到新增的训练样本，将训练样本中的训练推送对象和训练推送视频输入到待训练视频推送模型进行训练，得到输出的当前匹配程度和指导匹配程度，然后计算指导损失信息和推送损失信息，使用指导损失信息和推送损失信息对待训练视频推送模型中的当前视频推送模型的模型参数进行更新，并保持待训练视频推送模型中指导推送模型的模型参数不变，得到更新待训练视频推送模型，然后不断的进行循环迭代，直到达到训练完成条件时，得到训练完成的待训练视频推送模型，将训练完成的待训练视频推送模型中的当前视频推送模型作为最终训练得到的目标视频推送模型。从而使得到的目标视频推送模型能够控制在新训练过程中模型参数的偏移程度，有效缓解新训练过程中对过去已学知识的遗忘程度，进而提高了训练的准确性，提升推送质量。同时通过控制语义特征向量空间的一致性，提高了视频推送模型的鲁棒性。

使用者通过终端登录到视频平台中观看视频时，可以通过终端向视频平台服务器发送视频推荐请求，服务器接收到视频推荐请求时，获取到使用者的特征信息，并获取到各个待推荐视频，将使用者的特征信息和各个待推荐视频输入到目标视频推送模型中进行计算，得到各个待推荐视频对应的匹配程度，然后根据各个待推荐视频对应的匹配程度筛选预设数量的目标视频，将预设数量的目标视频返回给使用者的终端并通过视频平台进行展示。

在一个具体的实施例中，该信息推送方法应用到直播平台中，具体来说：使用者通过终端登录到直播平台中观看直播时，可以通过终端向直播平台服务器发送直播推荐请求，服务器接收到直播推荐请求时，获取到使用者的特征信息，并获取到各个待推荐直播，将使用者的特征信息和各个待推荐直播输入到目标直播推送模型中进行计算，得到各个待推荐直播对应的匹配程度，然后根据各个待推荐直播对应的匹配程度筛选预设数量的目标直播，将预设数量的目标直播返回给使用者的终端并通过直播平台进行展示。

该信息推荐方法也可以应用到新闻平台中，进行感兴趣的新闻推送，也可以应用到语音平台中，进行感兴趣的语音推送。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的推送模型训练方法的推送模型训练装置以及信息推送方法的信息推送装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个推送模型训练装置以及信息推送装置实施例中的具体限定可以参见上文中对于推送模型训练方法以及信息推送方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种推送模型训练装置，包括：模型获取模块1202、匹配模块1204、损失计算模块1206、迭代更新模块1208和模型得到模块1210，其中：

模型获取模块1202，用于获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的；

匹配模块1204，用于获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；

损失计算模块1206，用于基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息；

迭代更新模块1208，用于基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型；

模型得到模块1210，用于基于训练完成的待训练推送模型中的当前推送模型得到目标推送模型，目标推送模型用于向目标推送对象对应的终端推送目标信息。

在一个实施例中，模型获取模块1202还用于获取当前时间点，当当前时间点为预设更新周期时间点时，获取当前推送模型；将当前推送模型的模型结构作为指导推送模型的模型结构，并将当前推送模型的模型参数作为指导推送模型的模型参数；基于指导推送模型的模型结构和指导推送模型的模型参数得到指导推送模型，并基于当前推送模型和指导推送模型得到待训练推送模型。

在一个实施例中，匹配模块1204还用于通过待训练推送模型中的当前推送模型提取训练推送对象的语义表征，得到当前对象语义表征，并提取训练推送信息的语义表征，得到当前信息语义表征；计算当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度；通过待训练推送模型中的指导推送模型提取训练推送对象的语义表征，得到指导对象语义表征，并提取训练推送信息的语义表征，得到指导信息语义表征；计算指导对象语义表征与指导信息语义表征之间的距离，得到指导匹配程度。

在一个实施例中，迭代更新模块1208还用于获取比重控制参数，基于比重控制参数对指导损失信息进行加权，得到加权损失信息；计算加权损失信息与推送损失信息的信息总和，得到目标损失信息；基于目标损失信息更新待训练推送模型中当前推送模型的模型参数，并保持待训练推送模型中指导推送模型的模型参数不变，得到更新待训练推送模型。

模型获取模块1202还用于获取当前时间点，当当前时间点为预设更新周期时间点时，获取当前推送模型；将当前推送模型中当前对象语义表征网络的网络结构作为对象指导推送模型的模型结构；将当前对象语义表征网络的网络参数作为对象指导推送模型的模型参数；基于对象指导推送模型的模型结构和对象指导推送模型的模型参数得到对象指导推送模型，并基于当前推送模型和对象指导推送模型得到对象待训练推送模型。

在一个实施例中，匹配模块1204还用于通过当前对象语义表征网络提取训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取训练推送信息的语义表征，得到当前信息语义表征；计算当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度；通过对象指导推送模型提取训练推送对象的语义表征，得到指导对象语义表征；

损失计算模块1206还用于基于当前对象语义表征和指导对象语义表征进行指导损失计算，得到对象指导损失信息。

在一个实施例中，迭代更新模块1208还用于计算对象指导损失信息和推送损失信息的信息总和，得到对象目标损失信息；基于对象目标损失信息更新对象待训练推送模型中当前推送模型的模型参数，并保持对象待训练推送模型中对象指导推送模型的模型参数不变，得到更新待训练推送模型。

模型获取模块1202还用于获取当前时间点，当当前时间点为预设更新周期时间点时，获取当前推送模型；将当前推送模型中当前信息语义表征网络的网络结构作为信息指导推送模型的模型结构；将当前信息语义表征网络的网络参数作为信息指导推送模型的模型参数；基于信息指导推送模型的模型结构和信息指导推送模型的模型参数得到信息指导推送模型，并基于当前推送模型和信息指导推送模型得到信息待训练推送模型。

在一个实施例中，匹配模块1204还用于通过当前对象语义表征网络提取训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取训练推送信息的语义表征，得到当前信息语义表征；计算当前对象语义表征与当前信息语义表征之间的距离，得到当前匹配程度；通过信息指导推送模型提取训练推送信息的语义表征，得到指导信息语义表征；

损失计算模块1206还用于基于当前信息语义表征和指导信息语义表征进行指导损失计算，得到信息指导损失信息。

在一个实施例中，迭代更新模块1208还用于计算信息指导损失信息和推送损失信息的信息总和，得到信息目标损失信息；基于信息目标损失信息更新信息待训练推送模型中当前推送模型的模型参数，并保持信息待训练推送模型中信息指导推送模型的模型参数不变，得到更新待训练推送模型。

在一个实施例中，匹配模块1204还用于获取历史更新时间点，历史更新时间点为训练得到当前推送模型的时间点；获取当前时间点，基于历史更新时间点和当前时间点确定时间段，并获取时间段内的历史推送对象、历史推送信息和历史推送结果；基于历史推送对象、历史推送信息和历史推送结果得到训练推送对象、训练推送信息和训练标签。

在一个实施例中，如图13所示，提供了一种信息推送装置1300，包括：请求接收模块1302、匹配模块1304和推送模块1306，其中：

请求接收模块1302，用于接收信息推送请求，信息推送请求携带待推送对象，基于信息推送请求获取各个待推送信息；

匹配模块1304，用于将待推送对象和各个待推送信息输入到目标推送模型中进行匹配，得到待推送对象与各个待推送信息的待推送匹配程度，目标推送模型是基于训练完成的待训练推送模型中的当前推送模型得到的，训练完成的待训练推送模型是通过获取待训练推送模型，待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，指导推送模型是基于当前推送模型建立的，获取训练推送对象、训练推送信息和训练标签，将训练推送对象和训练推送信息输入到待训练推送模型中，通过待训练推送模型中的当前推送模型计算训练推送对象和训练推送信息的匹配程度，得到当前匹配程度，并通过待训练推送模型中的指导推送模型计算训练推送对象和训练推送信息的匹配程度，得到指导匹配程度；基于当前匹配程度和指导匹配程度进行指导损失计算，得到指导损失信息，并基于当前匹配程度和训练标签进行推送损失计算，得到推送损失信息，基于指导损失信息和推送损失信息对待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时得到的；

推送模块1306，用于基于待推送匹配程度从各个待推送信息中筛选得到目标推送信息，并将目标推送信息返回待推送对象对应的终端。

上述推送模型训练和信息推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储当前推送模型、训练样本以及对象数据等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种推送模型训练方法以及信息推送方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种推送模型训练方法以及信息推送方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14或者15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。推送的信息，用户可以拒绝或可以便捷拒绝推送的信息等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种推送模型训练方法，其特征在于，所述方法包括：

获取待训练推送模型，所述待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，所述当前推送模型包括当前对象语义表征网络和当前信息语义表征网络，所述指导推送模型是使用所述当前推送模型中的当前对象语义表征网络和/或当前信息语义表征网络的网络结构以及网络参数建立的；

获取训练推送对象、训练推送信息和训练标签，将所述训练推送对象和所述训练推送信息输入到所述待训练推送模型中，通过所述待训练推送模型中的当前推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到当前匹配程度，并通过所述待训练推送模型中的指导推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到指导匹配程度；

基于所述当前匹配程度和所述指导匹配程度进行指导损失计算，得到指导损失信息，并基于所述当前匹配程度和所述训练标签进行推送损失计算，得到推送损失信息；

基于所述指导损失信息和所述推送损失信息对所述待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将所述更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型；

基于所述训练完成的待训练推送模型中的当前推送模型得到目标推送模型，所述目标推送模型用于向目标推送对象对应的终端推送目标信息。

2.根据权利要求1所述的方法，其特征在于，所述获取待训练推送模型，所述待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，所述指导推送模型是基于所述当前推送模型建立的，包括：

获取当前时间点，当所述当前时间点为预设更新周期时间点时，获取所述当前推送模型；

将所述当前推送模型的模型结构作为所述指导推送模型的模型结构，并将所述当前推送模型的模型参数作为所述指导推送模型的模型参数；

基于所述指导推送模型的模型结构和所述指导推送模型的模型参数得到所述指导推送模型，并基于所述当前推送模型和所述指导推送模型得到所述待训练推送模型。

3.根据权利要求1所述的方法，其特征在于，所述通过所述待训练推送模型中的当前推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到当前匹配程度，并通过所述待训练推送模型中的指导推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到指导匹配程度，包括：

通过所述待训练推送模型中的当前推送模型提取所述训练推送对象的语义表征，得到当前对象语义表征，并提取所述训练推送信息的语义表征，得到当前信息语义表征；

计算所述当前对象语义表征与所述当前信息语义表征之间的距离，得到所述当前匹配程度；

通过所述待训练推送模型中的指导推送模型提取所述训练推送对象的语义表征，得到指导对象语义表征，并提取所述训练推送信息的语义表征，得到指导信息语义表征；

计算所述指导对象语义表征与所述指导信息语义表征之间的距离，得到所述指导匹配程度。

4.根据权利要求1所述的方法，其特征在于，所述基于所述指导损失信息和所述推送损失信息对所述待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，包括：

获取比重控制参数，基于所述比重控制参数对所述指导损失信息进行加权，得到加权损失信息；

计算所述加权损失信息与所述推送损失信息的信息总和，得到目标损失信息；

基于所述目标损失信息更新所述待训练推送模型中当前推送模型的模型参数，并保持所述待训练推送模型中指导推送模型的模型参数不变，得到更新待训练推送模型。

5.根据权利要求1所述的方法，其特征在于，所述当前推送模型包括当前对象语义表征网络和当前信息语义表征网络；

所述获取待训练推送模型，所述待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，所述指导推送模型是基于所述当前推送模型建立的，包括：

将所述当前推送模型中当前对象语义表征网络的网络结构作为对象指导推送模型的模型结构；

将所述当前对象语义表征网络的网络参数作为所述对象指导推送模型的模型参数；

基于所述对象指导推送模型的模型结构和所述对象指导推送模型的模型参数得到对象指导推送模型，并基于所述当前推送模型和所述对象指导推送模型得到对象待训练推送模型。

6.根据权利要求5所述的方法，其特征在于，所述通过所述待训练推送模型中的当前推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到当前匹配程度，并通过所述待训练推送模型中的指导推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到指导匹配程度，包括：

通过所述当前对象语义表征网络提取所述训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取所述训练推送信息的语义表征，得到当前信息语义表征；

通过所述对象指导推送模型提取所述训练推送对象的语义表征，得到指导对象语义表征；

所述基于所述当前匹配程度和所述指导匹配程度进行指导损失计算，得到指导损失信息，包括：

基于所述当前对象语义表征和所述指导对象语义表征进行指导损失计算，得到对象指导损失信息。

7.根据权利要求6所述的方法，其特征在于，所述基于所述指导损失信息和所述推送损失信息对所述待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，包括：

计算所述对象指导损失信息和所述推送损失信息的信息总和，得到对象目标损失信息；

基于所述对象目标损失信息更新所述对象待训练推送模型中当前推送模型的模型参数，并保持所述对象待训练推送模型中对象指导推送模型的模型参数不变，得到更新待训练推送模型。

8.根据权利要求1所述的方法，其特征在于，所述当前推送模型包括当前对象语义表征网络和当前信息语义表征网络；

将所述当前推送模型中当前信息语义表征网络的网络结构作为信息指导推送模型的模型结构；

将所述当前信息语义表征网络的网络参数作为所述信息指导推送模型的模型参数；

基于所述信息指导推送模型的模型结构和所述信息指导推送模型的模型参数得到信息指导推送模型，并基于所述当前推送模型和所述信息指导推送模型得到信息待训练推送模型。

9.根据权利要求8所述的方法，其特征在于，所述通过所述待训练推送模型中的当前推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到当前匹配程度，并通过所述待训练推送模型中的指导推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到指导匹配程度，包括：

通过所述信息指导推送模型提取所述训练推送信息的语义表征，得到指导信息语义表征；

基于所述当前信息语义表征和所述指导信息语义表征进行指导损失计算，得到信息指导损失信息。

10.根据权利要求9所述的方法，其特征在于，所述基于所述指导损失信息和所述推送损失信息对所述待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，包括：

计算所述信息指导损失信息和所述推送损失信息的信息总和，得到信息目标损失信息；

基于所述信息目标损失信息更新所述信息待训练推送模型中当前推送模型的模型参数，并保持所述信息待训练推送模型中信息指导推送模型的模型参数不变，得到更新待训练推送模型。

11.根据权利要求1所述的方法，其特征在于，所述获取训练推送对象、训练推送信息和训练标签，包括：

获取历史更新时间点，所述历史更新时间点为训练得到所述当前推送模型的时间点；

获取当前时间点，基于所述历史更新时间点和所述当前时间点确定时间段，并获取所述时间段内的历史推送对象、历史推送信息和历史推送结果；

基于所述历史推送对象、历史推送信息和历史推送结果得到所述训练推送对象、所述训练推送信息和所述训练标签。

12.一种信息推送方法，其特征在于，所述方法包括：

接收信息推送请求，所述信息推送请求携带待推送对象，基于所述信息推送请求获取各个待推送信息；

将所述待推送对象和所述各个待推送信息输入到目标推送模型中进行匹配，得到所述待推送对象与所述各个待推送信息的待推送匹配程度，所述目标推送模型是基于训练完成的待训练推送模型中的当前推送模型得到的，所述训练完成的待训练推送模型是通过获取待训练推送模型，所述待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，所述当前推送模型包括当前对象语义表征网络和当前信息语义表征网络，所述指导推送模型是使用所述当前推送模型中的当前对象语义表征网络和/或当前信息语义表征网络的网络结构以及网络参数建立的，获取训练推送对象、训练推送信息和训练标签，将所述训练推送对象和所述训练推送信息输入到所述待训练推送模型中，通过所述待训练推送模型中的当前推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到当前匹配程度，并通过所述待训练推送模型中的指导推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到指导匹配程度；基于所述当前匹配程度和所述指导匹配程度进行指导损失计算，得到指导损失信息，并基于所述当前匹配程度和所述训练标签进行推送损失计算，得到推送损失信息，基于所述指导损失信息和所述推送损失信息对所述待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将所述更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时得到的；

基于所述待推送匹配程度从所述各个待推送信息中筛选得到目标推送信息，并将所述目标推送信息返回所述待推送对象对应的终端。

13.一种推送模型训练装置，其特征在于，所述装置包括：

模型获取模块，用于获取待训练推送模型，所述待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，所述当前推送模型包括当前对象语义表征网络和当前信息语义表征网络，所述指导推送模型是使用所述当前推送模型中的当前对象语义表征网络和/或当前信息语义表征网络的网络结构以及网络参数建立的；

匹配模块，用于获取训练推送对象、训练推送信息和训练标签，将所述训练推送对象和所述训练推送信息输入到所述待训练推送模型中，通过所述待训练推送模型中的当前推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到当前匹配程度，并通过所述待训练推送模型中的指导推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到指导匹配程度；

损失计算模块，用于基于所述当前匹配程度和所述指导匹配程度进行指导损失计算，得到指导损失信息，并基于所述当前匹配程度和所述训练标签进行推送损失计算，得到推送损失信息；

迭代更新模块，用于基于所述指导损失信息和所述推送损失信息对所述待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将所述更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时，得到训练完成的待训练推送模型；

模型得到模块，用于基于所述训练完成的待训练推送模型中的当前推送模型得到目标推送模型，所述目标推送模型用于向目标推送对象对应的终端推送目标信息。

14.根据权利要求13所述的装置，其特征在于，所述模型获取模块还用于获取当前时间点，当所述当前时间点为预设更新周期时间点时，获取所述当前推送模型；将所述当前推送模型的模型结构作为所述指导推送模型的模型结构，并将所述当前推送模型的模型参数作为所述指导推送模型的模型参数；基于所述指导推送模型的模型结构和所述指导推送模型的模型参数得到所述指导推送模型，并基于所述当前推送模型和所述指导推送模型得到所述待训练推送模型。

15.根据权利要求13所述的装置，其特征在于，所述匹配模块还用于通过所述待训练推送模型中的当前推送模型提取所述训练推送对象的语义表征，得到当前对象语义表征，并提取所述训练推送信息的语义表征，得到当前信息语义表征；计算所述当前对象语义表征与所述当前信息语义表征之间的距离，得到所述当前匹配程度；通过所述待训练推送模型中的指导推送模型提取所述训练推送对象的语义表征，得到指导对象语义表征，并提取所述训练推送信息的语义表征，得到指导信息语义表征；计算所述指导对象语义表征与所述指导信息语义表征之间的距离，得到所述指导匹配程度。

16.根据权利要求13所述的装置，其特征在于，所述迭代更新模块还用于获取比重控制参数，基于所述比重控制参数对所述指导损失信息进行加权，得到加权损失信息；计算所述加权损失信息与所述推送损失信息的信息总和，得到目标损失信息；基于所述目标损失信息更新所述待训练推送模型中当前推送模型的模型参数，并保持所述待训练推送模型中指导推送模型的模型参数不变，得到更新待训练推送模型。

17.根据权利要求13所述的装置，其特征在于，所述当前推送模型包括当前对象语义表征网络和当前信息语义表征网络；

所述模型获取模块还用于获取当前时间点，当所述当前时间点为预设更新周期时间点时，获取所述当前推送模型；将所述当前推送模型中当前对象语义表征网络的网络结构作为对象指导推送模型的模型结构；将所述当前对象语义表征网络的网络参数作为所述对象指导推送模型的模型参数；基于所述对象指导推送模型的模型结构和所述对象指导推送模型的模型参数得到对象指导推送模型，并基于所述当前推送模型和所述对象指导推送模型得到对象待训练推送模型。

18.根据权利要求17所述的装置，其特征在于，所述匹配模块还用于通过所述当前对象语义表征网络提取所述训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取所述训练推送信息的语义表征，得到当前信息语义表征；计算所述当前对象语义表征与所述当前信息语义表征之间的距离，得到所述当前匹配程度；通过所述对象指导推送模型提取所述训练推送对象的语义表征，得到指导对象语义表征；

所述损失计算模块还用于基于所述当前对象语义表征和所述指导对象语义表征进行指导损失计算，得到对象指导损失信息。

19.根据权利要求18所述的装置，其特征在于，所述迭代更新模块还用于计算所述对象指导损失信息和所述推送损失信息的信息总和，得到对象目标损失信息；基于所述对象目标损失信息更新所述对象待训练推送模型中当前推送模型的模型参数，并保持所述对象待训练推送模型中对象指导推送模型的模型参数不变，得到更新待训练推送模型。

20.根据权利要求13所述的装置，其特征在于，所述当前推送模型包括当前对象语义表征网络和当前信息语义表征网络；

所述模型获取模块还用于获取当前时间点，当所述当前时间点为预设更新周期时间点时，获取所述当前推送模型；将所述当前推送模型中当前信息语义表征网络的网络结构作为信息指导推送模型的模型结构；将所述当前信息语义表征网络的网络参数作为所述信息指导推送模型的模型参数；基于所述信息指导推送模型的模型结构和所述信息指导推送模型的模型参数得到信息指导推送模型，并基于所述当前推送模型和所述信息指导推送模型得到信息待训练推送模型。

21.根据权利要求20所述的装置，其特征在于，所述匹配模块还用于通过所述当前对象语义表征网络提取所述训练推送对象的语义表征，得到当前对象语义表征，并通过当前信息语义表征网络提取所述训练推送信息的语义表征，得到当前信息语义表征；计算所述当前对象语义表征与所述当前信息语义表征之间的距离，得到所述当前匹配程度；通过所述信息指导推送模型提取所述训练推送信息的语义表征，得到指导信息语义表征；

所述损失计算模块还用于基于所述当前信息语义表征和所述指导信息语义表征进行指导损失计算，得到信息指导损失信息。

22.根据权利要求21所述的装置，其特征在于，所述迭代更新模块还用于计算所述信息指导损失信息和所述推送损失信息的信息总和，得到信息目标损失信息；基于所述信息目标损失信息更新所述信息待训练推送模型中当前推送模型的模型参数，并保持所述信息待训练推送模型中信息指导推送模型的模型参数不变，得到更新待训练推送模型。

23.根据权利要求13所述的装置，其特征在于，所述匹配模块还用于获取历史更新时间点，所述历史更新时间点为训练得到所述当前推送模型的时间点；获取当前时间点，基于所述历史更新时间点和所述当前时间点确定时间段，并获取所述时间段内的历史推送对象、历史推送信息和历史推送结果；基于所述历史推送对象、历史推送信息和历史推送结果得到所述训练推送对象、所述训练推送信息和所述训练标签。

24.一种信息推送装置，其特征在于，所述装置包括：

请求接收模块，用于接收信息推送请求，所述信息推送请求携带待推送对象，基于所述信息推送请求获取各个待推送信息；

匹配模块，用于将所述待推送对象和所述各个待推送信息输入到目标推送模型中进行匹配，得到所述待推送对象与所述各个待推送信息的待推送匹配程度，所述目标推送模型是基于训练完成的待训练推送模型中的当前推送模型得到的，所述训练完成的待训练推送模型是通过获取待训练推送模型，所述待训练推送模型是通过当前推送模型和对应的指导推送模型建立的，所述当前推送模型包括当前对象语义表征网络和当前信息语义表征网络，所述指导推送模型是使用所述当前推送模型中的当前对象语义表征网络和/或当前信息语义表征网络的网络结构以及网络参数建立的，获取训练推送对象、训练推送信息和训练标签，将所述训练推送对象和所述训练推送信息输入到所述待训练推送模型中，通过所述待训练推送模型中的当前推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到当前匹配程度，并通过所述待训练推送模型中的指导推送模型计算所述训练推送对象和所述训练推送信息的匹配程度，得到指导匹配程度；基于所述当前匹配程度和所述指导匹配程度进行指导损失计算，得到指导损失信息，并基于所述当前匹配程度和所述训练标签进行推送损失计算，得到推送损失信息，基于所述指导损失信息和所述推送损失信息对所述待训练推送模型中的当前推送模型进行更新，得到更新待训练推送模型，将所述更新待训练推送模型作为待训练推送模型，并返回获取训练推送对象、训练推送信息和训练标签的步骤迭代执行，直到达到训练完成条件时得到的；

推送模块，用于基于所述待推送匹配程度从所述各个待推送信息中筛选得到目标推送信息，并将所述目标推送信息返回所述待推送对象对应的终端。

25.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

26.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

27.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。