CN111476622B

CN111476622B - 一种物品推送方法及装置、计算机可读存储介质

Info

Publication number: CN111476622B
Application number: CN201911149083.XA
Authority: CN
Inventors: 姜允执; 易津锋; 张伯雷; 秦熔均; 周伯文
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2021-05-25
Anticipated expiration: 2039-11-21
Also published as: CN111476622A

Abstract

本发明实施例公开了一种物品推送方法及装置、计算机可读存储介质；方法包括：获取物品推送平台上真实对象的真实对象信息；利用物品推送模型，对真实对象信息进行推送策略模拟，得到与真实对象信息对应的模拟推送策略；利用模拟平台模型，对模拟推送策略进行推送目标评估，得到模拟推送策略的评估值，模拟平台模型用于模拟与物品推送平台相似的平台环境；根据评估值对物品推送模型进行迭代更新，直至评估值达到预设推送目标时，得到目标推送策略；在物品推送平台上，向真实对象推送目标推送策略。通过本发明实施例，能够提高物品推送的个性化程度和准确性。

Description

一种物品推送方法及装置、计算机可读存储介质

技术领域

本发明涉及智能学习领域，尤其涉及一种物品推送方法及装置、计算机可读存储介质。

背景技术

智能营销的目标是辅助零售商根据用户的历史消费习惯和生活水平制定个性化的营销方案。目前，部分智能营销策略引入机器学习的方法，通过大量采集用户在面对不同营销策略下的行为数据，利用监督学习方法训练模型，使模型能够模仿专家进行策略的制定和设计。但这种学习过程需要通过模型与环境不断交互试错，以提升智能体自身的决策水平，在实际的电商营销场景中进行学习可能会导致较多次的错误推送；并且，实际的电商营销场景中的数据量虽然很大，却仍缺乏极端情况下的数据，导致最终学习生成的模型缺乏对陌生用户和商品的应对能力，在面对陌生用户和商品时无法进行个性化的物品推送，个性化程度较低。

发明内容

为解决上述技术问题，本发明实施例期望提供一种物品推送方法及装置、计算机可读存储介质，能够提高物品推送的个性化程度和准确性。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种物品推送方法，包括：

获取物品推送平台上真实对象的真实对象信息，所述真实对象信息表征所述真实对象的个人相关信息；

利用物品推送模型，对所述真实对象信息进行推送策略模拟，得到与所述真实对象信息对应的模拟推送策略，所述物品推送模型用于生成向所述真实对象推荐虚拟物品信息的模拟推送策略；

利用模拟平台模型，对所述模拟推送策略进行推送目标评估，得到所述模拟推送策略的评估值，所述模拟平台模型用于模拟与所述物品推送平台相似的平台环境；

根据所述评估值对所述物品推送模型进行迭代更新，直至所述评估值达到预设推送目标时，得到目标推送策略；

在所述物品推送平台上，向所述真实对象推送所述目标推送策略。

第二方面，本发明实施例提供了一种物品推送装置，包括获取单元，处理单元和推送单元，其中，

所述获取单元，用于获取物品推送平台上真实对象的真实对象信息，所述真实对象信息表征所述真实对象的个人相关信息；

所述处理单元，用于利用物品推送模型，对所述真实对象信息进行推送策略模拟，得到与所述真实对象信息对应的模拟推送策略，所述物品推送模型用于生成向所述真实对象推荐虚拟物品信息的模拟推送策略；

所述处理单元，还用于利用模拟平台模型，对所述模拟推送策略进行推送目标评估，得到所述模拟推送策略的评估值，所述模拟平台模型用于模拟与所述物品推送平台相似的平台环境；

所述处理单元，还用于根据所述评估值对所述物品推送模型进行迭代更新，直至所述评估值达到预设推送目标时，得到目标推送策略；

所述推送单元，用于在所述物品推送平台上，向所述真实对象推送所述目标推送策略。

第三方面，本发明实施例提供了一种物品推送装置，所述物品推送装置包括处理器、存储器以及通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的一个或者多个程序，当所述一个或者多个程序被执行时，所述处理器执行如上述任一项所述的物品推送方法。

第四方面，本发明实施例提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述任一项所述的物品推送方法。

本发明实施例提供了一种物品推送方法及装置、计算机可读存储介质，该方法包括：获取物品推送平台上真实对象的真实对象信息，真实对象信息表征真实对象的个人相关信息；利用物品推送模型，对真实对象信息进行推送策略模拟，得到与真实对象信息对应的模拟推送策略，物品推送模型用于生成向真实对象推荐虚拟物品信息的模拟推送策略；利用模拟平台模型，对模拟推送策略进行推送目标评估，得到模拟推送策略的评估值，模拟平台模型用于模拟与物品推送平台相似的平台环境；根据评估值对物品推送模型进行迭代更新，直至评估值达到预设推送目标时，得到目标推送策略；在物品推送平台上，向真实对象推送目标推送策略。通过本发明实施例中的方法，物品推送装置可以将物品推送模型生成的模拟推送策略先在模拟平台模型中进行推送目标的评估，在评估值达到预期推送目标后，再将得到的目标模拟推送策略向真实对象进行物品推送，可以直接达到预期的推送目标，从而避免了在真实应用场景的物品推送平台中逐步更新模拟推送策略的学习过程中的不准确推送，提高了物品推送的准确性，进一步的，由于模拟平台模型可以模拟出真实环境中不易遇到的极端条件下的数据，因此在模拟平台模型中得到的目标推送策略能够适应更多的物品推送场景，在面对陌生物品和对象时仍然可以生成个性化的目标推送策略，从而提高了物品推送的个性化程度。

附图说明

图1为本发明实施例提供的一种物品推送系统架构一；

图2为本发明实施例提供的一种物品推送系统架构二；

图3为本发明实施例提供的一种物品推送方法流程示意图一；

图4为本发明实施例提供的一种物品推送方法流程示意图二；

图5为本发明实施例提供的一种物品推送方法流程示意图三；

图6为本发明实施例提供的一种物品推送方法流程示意图四；

图7为本发明实施例提供的一种物品推送方法流程示意图五；

图8为本发明实施例提供的一种物品推送装置结构示意图一；

图9为本发明实施例提供的一种物品推送装置结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提供的一种物品推送系统架构如图1所示，包括：物品推送平台100，其中，物品推送平台100包含真实对象110_2、模拟平台模型400、物品推送模型500，基于图1所示的物品推送系统架构，物品推送装置获取物品推送平台100上真实对象110_2的真实对象信息，并使用物品推送模型500根据真实对象信息进行策略模拟，生成模拟推送策略，物品推送装置使用模拟平台模型400对模拟推送策略进行推送目标评估，得到评估值，并根据评估值对物品推送模型500进行迭代更新，当评估值达到预设推送目标时，得到目标推送策略，并将目标推送策略推送给物品推送平台上的真实对象110_2。

需要说明的是，图1中的模拟平台模型400为预先训练好的智能模型，用于模拟与物品推送平台相似的平台环境。为了训练出模拟平台模型400，本发明实施例还提供一种物品推送系统架构，如图2所示。在图2中，物品推送系统架构还可以包括物品推送平台100中的真实历史对象110_1、已经向真实历史对象110_1推送过的真实历史推送数据120、虚拟对象生成模型200和判别器300，其中，模拟平台模型400包含虚拟对象策略子模型410和平台推荐策略子模型420。基于图2所示的物品推送系统架构，为了训练模拟平台模型，物品推送装置从物品推送平台100中获取真实历史对象110_1的对象信息和真实历史推送数据120，使用真实历史对象110_1的对象信息训练虚拟对象生成模型200，以使虚拟对象生成模型200生成虚拟对象；物品推送装置利用模拟平台模型400中的平台推荐策略子模型420输出的虚拟推送数据，以及虚拟对象策略子模型410输出的虚拟对象行为，使用虚拟对象对虚拟对象策略子模型410和平台推荐策略子模型420进行组合训练，得到虚拟数据集，物品推送装置将真实历史对象信息与真实历史推送数据作为真实历史数据集，通过判别器300与模拟平台模型400输出的虚拟数据集进行对比，当判别器300可以区分真实历史数据集与虚拟数据集时，物品推送装置对模拟平台模型400进行迭代更新，直至判别器300无法区分真实历史数据集与虚拟数据集时，完成对模拟平台模型400的训练。

本发明实施例中，基于图2，当物品推送平台100是真实电商平台时，真实历史对象110_1可以是电商平台的真实历史用户；虚拟对象生成模型用于通过模拟真实历史对象110_1的个人信息和历史行为来生成虚拟用户；模拟平台模型400用于通过模拟真实电商平台和真实用户之间的交互数据生成虚拟数据集，其中，平台推荐策略子模型用于根据虚拟用户生成为虚拟用户推送的虚拟推送数据，包括虚拟商品和虚拟商品价格；虚拟对象策略子模型用于模拟虚拟用户在针对虚拟推送数据时会采取的虚拟用户行为，如下单，浏览，离开等；模拟平台模型400输出的虚拟数据集可以包含使用该虚拟对象训练过程中生成的全部虚拟推送数据和虚拟用户行为；判别器300用于将真实电商平台的真实历史数据集与模拟平台模型生成的虚拟数据集区分开；当判别器300无法区分真实历史数据集与虚拟数据集时，结束对模拟平台模型400的训练。

本发明实施例中，基于图1，当物品推送平台100是真实电商平台时，真实对象110_2可以是电商平台正在登录中的真实用户，物品推送模型500根据营销目标设置营销策略的底价、目标销量、促销方式等指标，根据真实当前对象110_2模拟出可以使营销目标达到最优化的模拟推送策略，示例性的，给用户A推荐A价格商品，给用户B推荐同类的B价格商品，并在预先训练完成的模拟平台模型400中进行模拟推送策略的评估，得到评估值，当评估值达到预设推送目标时，物品推送装置将得到的目标推送策略推送给电商平台正在登录中的真实用户，完成物品推送的过程。

基于图1的物品推送系统架构，本发明实施例提供一种物品推送方法，如图3所示，包括：

S101、获取物品推送平台上真实对象的真实对象信息，真实对象信息表征真实对象的个人相关信息。

本发明实施例提供的物品推送方法适用于为电商平台智能制定营销策略的场景，也适用于其他物品推送策略制定的场景，本发明实施例不做限定。

本发明实施例中，物品推送装置首先获取物品推送平台上真实对象的真实对象信息。

本发明实施例中，物品推送平台为物品推送策略应用的实际场景，在一些实施例中，物品推送平台可以是电商购物平台。

本发明实施例中，真实对象为物品推送平台上可以接收到物品推送的真实存在的实体对象。

在一些实施例中，当物品推送平台是电商购物平台时，真实对象可以是电商购物平台上登录的真实用户。

本发明实施例中，真实对象信息表征真实对象的个人相关信息，真实对象信息可以是真实对象的静态属性和动态的历史行为。

在一些实施例中，当真实对象为电商购物平台上登录的真实用户时，真实对象信息可以是真实用户的用户资料相关的年龄、性别、地区以及经常浏览的商品种类和历史购买记录等信息。

S102、利用物品推送模型，对真实对象信息进行推送策略模拟，得到与真实对象信息对应的模拟推送策略，物品推送模型用于生成向真实对象推荐虚拟物品信息的模拟推送策略。

本发明实施例中，物品推送装置在得到真实对象信息之后，会利用物品推送模型，针对真实对象信息，模拟出为该真实对象制定的推送策略，从而得到与对象信息对应的模拟推送策略。

本发明实施例中，物品推送模型用于生成向真实对象推荐虚拟物品信息的模拟推送策略。

本发明实施例中，模拟推送策略为根据真实对象信息制定出的，向真实对象进行虚拟物品信息推荐的推送策略。

本发明实施例中，虚拟物品信息包含虚拟物品和虚拟物品价格。

在一些实施例中，当真实对象为电商平台的真实用户时，物品推送装置在得到用户的年龄、性别、地区和经常浏览的商品种类和历史购买记录等真实对象信息后，示例性的，该用户处于地区A，喜欢购买低价的消费类生活用品，物品推送装置则可以利用物品推送模型，根据上述真实对象信息，生成对应的模拟推送策略，该模拟推送策略中可以包含需要在地区A处进行促销的某消费类生活商品C，该用户可能接受的并能保证利润的商品C虚拟的价格，以及作为推送对象的该用户。

S103、利用模拟平台模型，对模拟推送策略进行推送目标评估，得到模拟推送策略的评估值，模拟平台模型用于模拟与物品推送平台相似的平台环境。

本发明实施例中，物品推送装置利用物品推送模型生成模拟推送策略之后，物品推送装置利用模拟平台模型，将得到的模拟推送策略在与物品推送平台相似的平台环境运行，以此对模拟推送策略进行推送目标评估。

本发明实施例中，模拟平台模型为预先训练好的智能模型，用于模拟出与真实的物品推送平台相似的仿真平台环境，以使在模拟平台模型中运行模拟推送策略可以起到与在物品推送模型中运行模拟推送策略相近似的推送效果。

本发明实施例中，推送目标评估是为了检验模拟推送策略是否能够达到预期的推送目标，在一些实施例中，当模拟推送策略为电商平台的模拟推送策略时，物品推送装置可以设置营销的目标，示例性的，销量最大化或利润最大化等，作为预设推送目标，然后在模拟平台模型中对模拟推送策略进行推送目标评估，得到模拟推送策略的评估值。

本发明实施例中，物品推送装置对模拟推送策略进行推送目标评估，得到模拟推送策略的评估值可以包括S1031-S1032，如下：

S1031、根据模拟推送策略，在模拟平台模型中进行物品推送，得到推送结果，推送结果为模拟平台模型输出的与推送目标相关的数据。

本发明实施例中，物品推送装置在模拟平台模型中根据模拟推送策略进行物品推送，对应获取模拟平台模型输出的与推送目标相关的数据，作为推送结果。

在一些实施例中，当推送目标为利润时，物品推送装置在模拟平台模型中进行物品推送之后，可以对应获取模拟平台模型输出的不同下单价格，以及每种下单价格对应的下单率等数据，作为推送结果。

S1032、将推送结果作为参数，通过预设评估函数计算出模拟推送策略的评估值。

本发明实施例中，物品推送装置得到推送结果之后，会将推送结果作为参数，通过预设评估函数计算出模拟推送策略的评估值。

本发明实施例中，预设评估函数用于对每轮训练输出的推送策略进行打分。

在一些实施例中，当物品推送装置用于为电商平台制定营销策略时，预设推送目标可以为制定可以使得利润最大化的营销策略；其中，某类物品成本50元，模拟推送策略可以根据不同的用户的特点，向不同用户推荐不同的价格，当模拟推送策略在模拟平台模型中进行物品推送之后，模拟平台模型输出推送结果为：A用户在价格为85元时下单概率为80％，B用户在价格为75元时下单概率为90％，则物品推送装置将能够根据以上推送结果计算出总利润的函数作为预设评估函数，将预设评估函数的计算结果(85-50)*80％+(75-50)*90％作为模拟推送策略的评估值。

可以理解的是，本发明实施例中，评价函数的打分结果可以表征物品推送模型训练的效果，即物品推送模型训练生成的模拟推送策略是否可以达到预设的训练目标。

可以理解的是，本发明实施例中，由于真实的物品推送平台可能会缺乏极端情况下的数据，在真实的物品推送平台中对模拟推送策略进行推送目标评估可能会影响推送目标评估的准确性和适用性，因此物品推送装置使用模拟平台模型模拟出与物品推送平台相似的模拟环境，在模拟环境中对模拟推送策略进行推送目标评估，可以提高推送目标评估的准确性，最终提高物品推送的准确性。

S104、根据评估值对物品推送模型进行迭代更新，直至评估值达到预设推送目标时，得到目标推送策略。

本发明实施例中，由于评估值表征了物品推送模型训练的效果，物品推送模型可以根据第一次得到评估值调整物品推送模型参数，使得物品推送模型使用新的模型参数模拟出下一个模拟推送策略，物品推送装置重复上述迭代更新过程，直至评估值达到预设推送目标时，得到目标推送策略。

本发明实施例中，物品推送装置可以使用神经网络作为物品推送模型，将神经网络节点之间的连接权值作为物品推送模型的初始参数。

本发明实施例中，物品推送模型的初始模型参数可以是随机化的初始值。

本发明实施例中，物品推送模型可以提高评估值为目标对物品推送模型进行迭代更新。

本发明实施例中，物品推送装置根据评估值对物品推送模型进行迭代更新的过程可以使用演化算法，也可以使用强化学习算法，本发明实施例不做限定。

本发明实施例中，当评估值达到预设推送目标时，物品推送模型结束对物品推送模型的迭代更新，将最后一次更新对应的模拟推送策略作为目标推送策略。

在一些实施例中，预设推送目标为在保证销量的基础上将利润最大化，物品推送装置设置营销策略的底价、目标销量、促销方式等指标作为物品推送模型参数，在模拟平台模型中对物品推送模型进行训练，并通过预设评估函数计算物品推送模型每次更新后输出的模拟推送策略所对应的利润和销量，得到对应的评估值；物品推送装置基于评估值对物品推送模型进行调整，当销量达到预期销量，并且利润达到利润空间内的最大时，物品推送装置将最后一次更新得到的模拟推送策略作为目标推送策略。

可以理解的是，本发明实施例中，物品推送装置根据评估值更新物品推送模型的过程，即为在物品推送模型的参数空间中寻找可以将评估值最大化的物品推送模型参数的过程。

可以理解的是，本发明实施例中，物品推送装置使用机器学习方法，在物品推送模型的参数中搜索最优化指标对应的个性化营销策略，最后得到的目标推送策略即为可以达到预设推送目标的模拟推送策略，从而提高了物品推送的准确性。

S105、在物品推送平台上，向真实对象推送目标推送策略。

本发明实施例中，物品推送模型得到目标推送策略之后，在物品推送平台上，向真实对象推送目标推送策略，从而将模拟出的推送策略应用到实际场景中，完成物品推送的过程。

可以理解的是，本发明实施例中，物品推送装置可以将物品推送模型生成的模拟推送策略先在模拟平台模型中进行推送目标的评估，在评估值达到预期推送目标后，再将得到的目标模拟推送策略向真实对象进行物品推送，可以直接达到预期的推送目标，从而避免了在真实应用场景的物品推送平台中逐步更新模拟推送策略的学习过程中的不准确推送，提高了物品推送的准确性，进一步的，由于模拟平台模型可以模拟出真实环境中不易遇到的极端条件下的数据，因此在模拟平台模型中得到的目标推送策略个性化程度更高，能够适应更多的物品推送场景，从而提高了物品推送的个性化程度。

本发明实施例还提供了一种物品推送方法，用于训练模拟平台模型，基于图3中的方法流程，在S103之前，还包括S201-S202，如图4所示，如下：

S201、获取物品推送平台中的真实历史数据集，真实历史数据集包含真实历史对象信息与真实历史推送数据，真实历史对象信息表征真实历史对象的个人相关信息，真实历史推送数据包括向真实历史对象已推送的真实物品信息。

本发明实施例中，为了训练模拟平台模型，物品推送装置首先获取真实的图片推送平台上的真实历史数据集。

本发明实施例中，真实历史数据集包含真实的历史对象信息与真实历史推送数据，其中，真实历史对象信息表征真实历史对象的个人相关信息，可以包括真实历史对象的静态属性和历史行为，真实历史推送数据包括向真实历史对象已推送的真实物品信息。

在一些实施例中，当真实场景为真实电商平台时，物品推送装置从真实电商平台采集真实历史用户在电商平台上注册的用户信息，以及真实电商平台曾经向不同真实历史用户推荐的不同物品和物品价格，以及真实历史用户对于所推荐的物品和价格采取的下单，浏览，比价，离开页面等历史操作，作为真实历史数据集。

S202、根据真实历史数据集，对初始模拟平台模型进行持续训练，得到模拟平台模型。

本发明实施例中，物品推送装置获取真实历史数据集之后，会根据真实历史数据集，对初始模拟平台模型进行持续训练，得到模拟平台模型。

本发明实施例中，模拟平台模型包含平台推荐策略子模型和虚拟对象策略子模型。其中，平台推荐策略子模型用于模拟真实的物品推送平台生成用于推荐的物品信息，虚拟对象策略子模型用于模拟物品推送平台中的真实历史对象生成对应于推荐的物品信息会采取的对象行为。

本发明实施例中，物品推送装置根据真实历史数据集，对初始模拟平台模型进行持续训练，得到模拟平台模型可以包括S2021-S2024，基于图4，可以得到如图5所示的方法流程，如下：

S2021、利用虚拟对象生成模型对真实历史对象信息进行模拟，生成虚拟对象。

本发明实施例中，物品推送装置使用模拟出与真实历史对象信息相似的虚拟对象。

本发明实施例中，虚拟对象生成模型用于生成在训练中可以替代真实对象达到训练效果的虚拟对象。

本发明实施例中，虚拟对象生成模型是物品推送装置根据真实数据训练出的智能模型，虚拟对象生成模型经过训练后，可以输出与真实对象的特征数据相接近的虚拟对象。

本发明实施例中，虚拟对象包含虚拟对象信息与虚拟对象行为，其中，虚拟对象信息可以是根据真实历史对象信息生成的虚拟对象的静态属性，虚拟对象行为可以是根据真实历史对象信息生成的虚拟对象的动态属性。

在一些实施例中，物品推送装置可以根据真实电商平台的用户数据建立虚拟对象生成模型，使用虚拟对象模型生成虚拟电商平台的用户，作为虚拟对象，其中，虚拟对象信息可以包含虚拟用户的性别，地区，年龄等静态属性，虚拟对象行为可以为虚拟用户前三个月的购买量等动态属性。虚拟电商平台的用户的虚拟对象信息与虚拟对象行为等数据都与真实电商平台的用户数据接近，可以达到与使用真实电商平台的用户数据一样的训练效果。

S2022、使用虚拟对象，对初始平台推荐策略子模型和初始虚拟对象策略子模型进行组合训练，得到虚拟数据集。

本发明实施例中，物品推送装置得到虚拟对象之后，使用虚拟对象，对初始平台推荐策略子模型和初始虚拟对象策略子模型进行组合训练，得到虚拟数据集。

本发明实施例中，虚拟数据集为初始平台推荐策略子模型和初始虚拟对象策略子模型在训练中输出数据的集合，虚拟数据集可以包含虚拟对象、虚拟推送数据以及虚拟对象行为，虚拟推送数据包含向虚拟对象推荐的物品信息。

本发明实施例中，物品推送装置用虚拟对象，对初始平台推荐策略子模型和初始虚拟对象策略子模型进行组合训练，得到虚拟数据集可以包括S301-S306，如下：

S301、将虚拟对象输入初始平台推荐策略子模型，进行对初始平台推荐策略子模型的训练，输出初始虚拟推送数据；初始平台策略子模型用于根据虚拟对象信息与虚拟对象行为生成初始虚拟推送数据，初始虚拟推送数据包含向虚拟对象推荐的虚拟物品信息。

本发明实施例中，物品推送装置将虚拟对象作为样本数据，输入模拟平台模型中的初始平台推荐策略子模型，开始对平台推荐策略子模型的训练。

本发明实施例中，初始平台策略子模型收到虚拟对象之后，会根据虚拟对象中的虚拟对象信息与虚拟对象行为，生成为该虚拟对象进行物品推荐的初始虚拟推送数据。

本发明实施例中，初始平台策略子模型生成的初始虚拟推送数据包含向虚拟对象推荐的虚拟物品信息，其中，虚拟物品信息可以包含推荐的虚拟物品和虚拟物品价格。

本发明实施例中，初始平台策略子模型可以根据不同虚拟对象的特点生成不同的虚拟推送数据，并可以根据虚拟对象对应于虚拟推送数据的虚拟对象行为，对虚拟推荐策略进行调整，从而根据不同的虚拟对象信息与不同的虚拟对象行为进行持续学习。

在一些实施例中，当虚拟对象为虚拟电商平台用户时，初始平台策略子模型可以根据虚拟用户的年龄和经常购买的品牌等数据，选择推荐该用户可能感兴趣的物品和合适的促销价格，并根据该用户对所推荐的物品和价格的不同行为反应，更新下一次推荐的物品和促销价格，以找到最适合于该虚拟用户的虚拟推送数据。

S302、将初始虚拟推送数据作为样本数据输入初始虚拟对象策略子模型，进行对初始虚拟对象策略子模型的训练，输出初始虚拟对象行为；初始虚拟对象策略子模型用于输出与初始虚拟推送数据对应的初始虚拟对象行为。

本发明实施例中，物品推送装置得到初始平台策略子模型生成的初始虚拟推送数据之后，将初始虚拟推送数据作为样本数据输入初始虚拟对象策略子模型，开始对虚拟对象策略子模型的训练。

本发明实施例中，初始虚拟对象策略子模型会根据初始虚拟推送数据中包含的虚拟物品信息，生成对应的中间虚拟对象行为。

本发明实施例中，初始虚拟对象策略子模型可以根据虚拟对象以及不同虚拟推送数据中的虚拟物品信息，生成该虚拟对象面对虚拟推送数据中的虚拟物品信息时会采取的虚拟用户行为，并可以根据下次收到的虚拟推送数据，对虚拟用户行为进行调整，从而根据不同的虚拟对象与不同的虚拟推送数据进行持续学习。

在一些实施例中，当虚拟对象为虚拟电商平台用户时，虚拟推荐策略为向虚拟电商平台用户推荐的物品和物品价格时，初始虚拟对象策略子模型可以根据推荐的物品和物品价格，生成推荐该用户可能采取的行为，如下单，离开，或比较其他物品，并根据不同的虚拟对象和不同虚拟推送数据，更新下一次的虚拟用户行为，以模仿出与真实历史用户最相似的行为模式。

S303、根据初始虚拟对象行为，对初始平台策略子模型进行更新，得到第一中间平台策略子模型。

本发明实施例中，物品推送装置得到初始虚拟对象行为之后，根据初始虚拟对象行为，对初始平台策略子模型进行更新，得到第一中间平台策略子模型，以使第一中间平台策略子模型在下一次训练中，可以更准确的根据虚拟对象行为生成更新的虚拟推送数据。

S304、将虚拟对象与初始虚拟对象行为输入第一中间平台策略子模型，输出更新的第一虚拟推送数据。

本发明实施例中，物品推送装置根据初始虚拟对象行为和虚拟对象信息，使用第一中间平台策略子模型生成更新的第一虚拟推送数据。

S305、根据更新的第一虚拟推送数据，对初始虚拟对象策略子模型进行更新，得到第一中间虚拟对象策略子模型，第一中间虚拟对象策略子模型用于输出与更新的第一虚拟推送数据对应的更新的虚拟对象行为。

本发明实施例中，物品推送装置再根据更新的第一虚拟推送数据对初始虚拟对象策略子模型进行更新，得到第一中间虚拟对象策略子模型。

本发明实施例中，第一中间虚拟对象策略子模型可以在下一次训练中，更准确的根据更新的第一虚拟推送数据生成更新的虚拟对象行为。

可以理解的是，由于虚拟对象行为和虚拟推荐策略之间是互相影响的，对于不同的推荐策略，虚拟对象可能会采取不同的行为，因此物品推送装置在对模拟训练平台进行训练时，会将对推荐策略和虚拟对象的对象行为模型的训练组合起来，同时对二者进行迭代训练，可以起到更好的训练效果，从而更好的模拟真实场景。

S306、持续对第一中间平台策略子模型与第一中间虚拟对象策略子模型进行训练，直至更新的虚拟对象行为达到预设行为条件时，将每次训练中的输出数据和对应的虚拟对象，作为虚拟数据集。

本发明实施例中，对于一次迭代训练，物品推送装置以S301-S305中的强化学习方法对初始平台策略子模型与初始虚拟对象策略子模型进行组合训练，得到第一中间平台策略子模型与第一中间虚拟对象策略子模型；对于多次迭代训练，物品推送装置以相同的方法对第一中间平台策略子模型与第一中间虚拟对象策略子模型进行持续组合训练。

本发明实施例中，当更新的虚拟对象行为满足预设条件时，物品推送装置结束对第一中间平台策略子模型与第一中间虚拟对象策略子模型的组合训练，将每次训练中的输出数据和对应的虚拟对象，作为虚拟数据集。

本发明实施例中，预设条件可以是更新的虚拟对象行为为“离开”行为，当更新的虚拟对象行为为“离开”行为时，物品推送装置结束组合训练，得到虚拟数据集。

本发明实施例中，虚拟数据集包含全部训练过程中所产生的，与至少一条虚拟对象对应的虚拟物品信息以及中间虚拟对象行为。物品推送装置使用虚拟对象持续对平台策略子模型和虚拟对象策略子模型进行组合训练，每次训练都产生一条(虚拟对象，物品，物品价格，虚拟对象行为)的虚拟数据，当虚拟对象选择离开时，物品推送装置将至少一条(虚拟对象，物品，物品价格，虚拟对象行为)的数据作为虚拟数据集。

需要说明的是，本发明实施例中，对于一个虚拟对象，物品推送装置根据一个虚拟对象进行S301-S306方法的训练，得到该虚拟对象对应的虚拟数据集。

在一些实施例中，当物品推送装置为真实电商平台训练营销策略时，物品推送装置可以首先获取真实电商平台的真实历史推送数据与真实历史用户交互产生的数据，作为真实历史数据集D，真实历史数据集D包含真实历史用户，真实历史推送数据，以及真实历史用户针对真实历史推送数据的真实历史用户行为，真实历史推送数据包含曾经向真实历史用户推荐的商品和价格；物品推送装置根据真实历史用户，使用虚拟对象生成模型生成虚拟用户1；物品推送装置将虚拟用户作为样本数据输入初始平台推荐策略子模型，得到初始虚拟推送数据(物品1，物品价格1)；物品推送装置将初始虚拟推送数据输入初始虚拟对象策略子模型，得到虚拟对象行为1，物品推送装置可以得到一条(虚拟用户1，物品1，物品价格1，虚拟对象行为1)的虚拟数据1，物品推送装置根据虚拟对象行为1对初始平台推荐策略子模型进行更新，得到第一中间平台推荐策略子模型，并使用第一中间平台推荐策略子模型根据虚拟对象1生成更新的第一虚拟推送数据(物品2，物品价格2)；物品推送装置根据更新的第一虚拟推送数据对初始虚拟对象策略子模型进行更新，并根据虚拟对象1和更新的第一虚拟推送数据得到更新的虚拟对象行为即虚拟对象行为2，至此，物品推送装置又可以得到一条虚拟数据2(虚拟用户1，物品2，物品价格2，虚拟对象行为2)，物品推送装置持续进行上述组合训练，当更新的虚拟对象行为为“离开”时，物品推送装置将训练过程中生成的全部虚拟数据的集合(虚拟用户1，物品1，物品价格1，虚拟对象行为1)；(虚拟用户1，物品2，物品价格2，虚拟对象行为2)等作为虚拟数据集。

S2023、根据真实历史数据集与虚拟数据集，对初始模拟平台模型进行迭代更新，得到训练中的模拟平台模型。

本发明实施例中，物品推送装置通过对初始平台推荐策略子模型和初始虚拟对象策略子模型的组合训练，得到虚拟数据集之后，物品推送装置根据真实历史数据集与虚拟数据集，对初始模拟平台模型进行迭代更新，得到训练中的模拟平台模型。

本发明实施例中，物品推送装置可以采用对抗学习的方法对初始模拟平台模型进行迭代更新，可以包括S401-S402，如下：

S401、利用判别器对真实历史数据集与虚拟数据集进行区分。

本发明实施例中，物品推送装置将真实历史数据集与模拟平台模型输出的虚拟数据集输入判别器，该判别器用于对真实数据与虚拟数据进行区分。

本发明实施例中，由于模拟平台模型的训练目标是模拟出与真实的物品推送平台基本一致的模拟环境，因此物品推送装置会使用判别器对虚拟数据集与真实历史数据集的相似性进行检查。

S402、当判别器可以区分真实历史数据集与虚拟数据集时，对初始模拟平台模型进行更新，得到训练中的模拟平台模型。

本发明实施例中，当判别器可以区分真实历史数据集与虚拟数据集时，说明初始模拟平台模型输出的虚拟数据集与真实历史数据集的误差较为明显，物品推送装置根据判别器的判别结果，对初始模拟平台模型进行参数更新。

本发明实施例中，物品推送装置每次使用一个虚拟对象对初始平台推荐策略子模型和初始虚拟对象策略子模型进行组合训练，得到该虚拟对象对应的虚拟数据集，当判别器可以区分真实历史数据集与虚拟数据集时，物品推送装置对初始模拟平台模型进行更新，得到训练中的模拟平台模型，在对训练中的模拟平台模型进行下一次更新时，物品训练装置采用虚拟对象模型生成新的虚拟对象，通过对第一中间平台推荐策略子模型和第一中间虚拟对象策略子模型的组合训练得到新的虚拟对象对应的新的虚拟数据集，通过判别器对新的虚拟数据集与真实历史数据集之间的数据进行区分。

本发明实施例中，物品推送装置根据判别器的判别结果，对模拟平台模型进行参数更新，包括对第一中间平台推荐策略子模型的更新，以及对第一中间虚拟对象策略子模型的参数更新。

S2024、持续更新直至真实历史数据集与虚拟数据集满足预设条件时，结束更新，得到模拟平台模型。

本发明实施例中，物品推送装置以上出方法对训练中的模拟平台模型进行持续更新，当将真实历史数据集与虚拟数据集满足预设条件时，结束更新，得到模拟平台模型。

本发明实施例中，当训练达到预定训练目标时，示例性的，判别器无法区分真实历史数据集与虚拟数据集，说明虚拟数据集与真实历史数据集之间的差别已经很小，已经达到了预期的训练效果，物品推送装置结束对训练中的模拟平台模型的更新，得到模拟平台模型。

可以理解的是，物品推送装置通过生成模拟平台模型，并使用真实场景中的数据对模拟平台模型进行训练，可以得到与真实场景接近的模拟训练平台，使得物品推送模型可以在模拟环境中得到训练，减少了物品推送模型直接在物品推送平台上的学习过程可能会造成的错误推送，降低了训练成本，并且可以通过模拟环境模拟出极端情况下的数据，使样本数据更加全面，提高了物品推送模型训练的准确性和个性化程度。

在本发明的一些实施例中，物品推送装置也可以采用监督学习的方法生成模拟训练平台，可以包括S501-S505，如图6所示，如下：

S501、将真实历史对象信息作为样本数据，将真实历史推送数据作为第一预期训练结果，以监督学习的方法对初始模拟平台模型中的初始平台推荐策略子模型进行训练，得到第二中间平台推荐策略子模型，第二中间平台推荐策略子模型用于根据真实历史对象输出更新的第二虚拟推送数据。

在本发明的一些实施例中，当真实的物品推送平台为电商平台时，真实历史数据集D可以包含电商平台的真实历史用户，真实历史推送数据，以及真实历史用户针对真实历史推送数据采取过的的真实历史用户的历史行为，真实历史推送数据包含曾经向真实历史用户推荐过的商品和价格。物品推送装置可以建立第一神经网络作为平台推荐策略子模型；物品推送装置将真实历史数据集D中的真实历史用户作为样本数据输入初始模拟训练平台，将真实电商平台的真实历史推送数据作为第一预期训练结果，使用监督学习方法训练初始平台推荐策略子模型，得到第二中间平台推荐策略子模型。

S502、持续训练直至更新的第二虚拟推送数据达到第一预期训练结果时，结束训练，得到平台推荐策略子模型，第一预期训练结果表征更新的第二虚拟推送数据与真实历史推送数据相接近。

本发明的实施例中，物品推送装置以S501中的方法持续对第二中间平台推荐策略子模型进行训练，当第二中间平台推荐策略子模型输出的更新的第二虚拟推送数据达到第一预期训练结果时，说明更新的第二虚拟推送数据与真实历史推送数据相接近，物品推送装置结束训练，得到平台推荐策略子模型。

S503、将真实历史对象个人信息与真实历史推送数据作为样本数据，将真实历史对象的历史行为作为第二预期训练结果，以监督学习的方法对初始模拟平台模型中的初始虚拟对象策略子模型进行训练，得到第二中间虚拟对象策略子模型，第二中间虚拟对象策略子模型用于根据真实历史推送数据生成真实历史对象的虚拟行为。

在本发明的一些实施例中，物品推送装置得到平台推荐策略子模型之后，当真实的物品推送平台为电商平台时，真实历史数据集D可以包含电商平台的真实历史用户，真实历史推送数据，以及真实历史用户针对真实历史推送数据采取过的的真实历史用户的历史行为，真实历史推送数据包含曾经向真实历史用户推荐过的商品和价格。物品推送装置可以建立第二神经网络作为初始虚拟对象策略子模型；物品推送装置再将真实数据集D中的真实历史用户与真实电商平台的真实历史推送数据作为样本数据，输入初始虚拟对象策略子模型，物品推送装置将真实历史用户的历史行为作为第二预期训练结果，使用监督学习的方法训练初始虚拟对象策略子模型，得到第二中间虚拟对象策略子模型。

本发明实施例中，第二中间虚拟对象策略子模型用于根据真实历史推送数据生成真实历史对象的虚拟行为。

S504、持续训练直至真实历史对象的虚拟行为达到第二预期训练结果时，结束训练，得到虚拟对象策略子模型，第二预期训练结果表征真实历史对象的虚拟行为与真实历史对象的历史行为相接近。

本发明实施例中，物品推送装置使用S503中监督学习的方法持续对第二中间虚拟对象策略子模型进行训练，直至真实历史对象的虚拟行为达到第二预期训练结果时，说明真实历史对象的虚拟行为与真实历史对象的历史行为相接近，物品推送装置结束训练，得到虚拟对象策略子模型。

S505、将平台推荐策略子模型与虚拟对象策略子模型作为模拟平台模型。

本发明实施例中，物品推送装置训练完成得到的平台推荐策略子模型与虚拟对象策略子模型作为模拟平台模型。

需要说明的是，S2021-S2024与S501-S505是S201之后两个并列的方案，具体的根据实际情况进行选择执行，本发明实施例不做限定。

本发明实施例还提供了一种物品推送方法，用于训练虚拟对象生成模型，基于图5中所示的方法流程，在S2021之前，还包括S601-S605，如图7所示：

S601、将真实历史对象信息中包含的真实历史对象的历史行为按时间段进行划分，得到至少一个历史行为序列，至少一个历史行为序列中的每个序列至少包含一个真实历史对象的历史行为。

本发明实施例中，真实历史对象的历史行为可以包括真实历史对象在物品推送平台上的操作记录，在一些实施例中，当真实历史对象为真实电商平台历史用户时，真实历史对象的历史行为可以是真实历史用户浏览记录、前三个月的购买量等。

本发明实施例中，为了对真实历史对象的历史行为进行归类和属性划分，物品推送装置可以按时间段对真实历史对象的历史行为进行划分，得到至少一个历史行为序列。

本发明实施例中，至少一个历史行为序列中的每个序列至少包含一个真实历史对象的历史行为。

在一些实施例中，真实历史对象的历史行为可以包含电商平台至少一名真实历史用户曾经的操作记录，示例性的，一些用户浏览过物品A，一些用户购买过物品B，一些用户在看到推荐的物品C时会选择离开不进行点击等等，为了在多个用户的操作中找到规律并进行属性划分，物品推送装置可以根据时间段对这些真实历史对象的历史行为进行划分，得到以时间段进行区分的至少一个个历史行为序列。

S602、对每个序列内的真实历史对象的历史行为进行聚类，得到至少一个历史行为序列对应的至少一个动态类别。

本发明实施例中，物品推送装置得到至少一个历史行为序列之后，物品推送装置对每个历史行为序列内的至少一个历史行为进行聚类，作为每个历史行为序列的动态类别，从而得到至少一个历史行为序列对应的至少一个动态类别。

在一些实施例中，物品推送装置得到前半年，前三个月，前一个月的三个历史行为序列之后，可以对前半年序列内的至少一个历史行为进行聚类，将前半年内最主要的历史行为的类别作为前半年序列的动态类别，示例性的，针对某物品A，真实历史用户前半年的最多的历史行为是浏览，则前半年序列的动态类别为浏览行为，以此类推，物品推送装置前三个月，前一个月的历史行为序列对应的动态类别，物品推送装置将前半年，前三个月，前一个月分别对应的动态类别作为至少一个动态类别。

S603、根据真实历史对象的个人信息，得到真实历史对象的至少一个静态属性。

本发明实施例中，真实历史对象的个人信息也可以归纳为至少一个静态属性与历史行为，在一些实施例中，当真实历史对象为真实电商平台用户时，真实历史对象的个人信息可以是男、常住某城市、本科、28岁、则至少一个静态属性可以对应划分为性别、地区、学历、年龄四个静态属性。

S604、根据至少一个动态类别与至少一个静态属性生成初始虚拟对象生成模型，并采用对抗学习的方式对初始虚拟对象生成模型进行迭代训练，得到每次训练输出的初始虚拟对象。

本发明实施例中，物品推送装置得到真实历史对象信息对应的至少一个动态类别和至少一个静态属性之后，将至少一个动态类别与至少一个静态属性作为样本数据，使用对抗学习的方法对初始虚拟对象生成模型进行迭代训练，并获取初始虚拟对象生成模型在每次训练中，根据至少一个动态类别与至少一个静态属性模拟出的初始虚拟对象。

S605、持续训练直至真实历史对象信息和初始虚拟对象满足预设条件时，结束训练，得到虚拟对象生成模型。

本发明实施例中，物品推送装置会在每轮训练后比较真实历史对象与初始虚拟对象的差距，根据真实历史对象与初始虚拟对象的差距对初始虚拟对象生成模型进行参数更新，并以同样的方法持续进行训练。

本发明实施例中，当初始虚拟对象和真实历史对象信息之间满足预设条件时，示例性的，初始虚拟对象和真实历史对象信息之间的误差小与预设阈值时，物品推送装置结束训练，得到虚拟对象生成模型。

可以理解的是，物品推送装置通过训练虚拟对象生成模型，保证了虚拟对象与真实对象的数据相接近，并且可以模拟出极端情况下的特殊对象用于训练，提高了模拟平台模型训练样本数据的全面性，提高了训练的准确性和个性化程度。

在本发明的一些实施例中，本发明实施例还提供一种物品推送方法，在S105之后，还可以包括S106-S107，如下：

S106、获取真实对象对于目标推送策略的真实当前行为，目标推送策略包含对真实对象推送的物品信息。

本发明实施例中，物品推送装置将目标推送策略推送至真实的物品推送平台中的真实对象之后，会获取真实对象对于目标推送策略的真实当前行为。

本发明实施例中，目标推送策略包含对真实对象推送的物品信息，真实对象在接收到目标推送策略中推送的物品和物品价格时，会对应产生真实当前行为，物品推送装置获取真实对象对于目标推送策略的真实当前行为，以对目标推送策略在真实应用场景中的适用性做出评估。

在一些实施例中，真实对象为真实电商平台上的当前用户A和用户B，物品推送装置得到的目标推送策略包含向用户A推荐物品1和价格1，向用户B推荐物品1和价格2，物品推送装置根据目标推送策略向用户A和用户B进行对应的物品和价格推送之后，物品推送装置获取用户A和B产生的真实用户行为，如用户A购买或用户B离开等操作。

S107、基于真实当前行为，进一步更新物品推送模型。

本发明实施例中，物品推送装置会基于真实当前行为，对物品推送模型进一步更新，以完善物品推送模型，使得物品推送模型后续搜索出的目标推送策略可以更加适用于真实应用场景。

可以理解的是，本发明实施例中，物品推送装置在真实场景中应用目标推送策略并对物品推送模型进行更新，完成了在模拟平台模型上训练出的物品推送模型到真实应用场景上的迁移，并可以根据真实对象的真实当前行为对物品推送模型进行更新，进一步提高了物品推送的准确性。

在本发明的一些实施例中，本发明实施例还提供一种物品推送方法，在S104之后，在S105之前，还可以包括S701-S703，如下：

S701、在物品推送平台上执行预设动作序列，得到真实状态数组，预设动作序列包含至少一个预设动作，真实状态数组中包含至少一个真实状态数据项，至少一个真实状态数据项与至少一个预设动作一一对应，真实状态数据项为每个预设动作执行后物品推送平台上对应更新的数据。

本发明实施例中，物品推送装置会在真实的物品推送平台上执行预设动作序列，得到预设动作序列对应的真实状态数组。

本发明实施例中，预设动作序列包含至少一个预设动作，至少一个预设动作中的每个预设动作在物品推送平台上执行之后，物品推送平台上对应更新的数据会对应更新的数据项与每个预设动作一一对应，物品推送平台将每次对应更新的数据项作为真实状态数据项，将至少一个预设动作执行后得到的至少一个真实状态数据项作为真实状态数组。

本发明实施例中，预设动作序列中包含的预设动作可以由预设的控制策略来生成，物品推送装置首先获取物品推送平台的初始真实状态数据项，初始真实状态数据项可以包含(真实对象、真实物品、真实物品价格、真实对象行为)，在初始真实状态数据项的基础上，控制策略生成预设动作1并在物品推送平台上执行，得到物品推送平台上对应预设动作1更新的数据，作为真实状态数据项1，控制策略基于真实状态数据项1生成预设动作2，并获取预设动作2对应的真实状态数据项1，以此类推，物品推送装置将获取的至少一个真实状态数据项作为真实状态数组。

在一些实施例中，物品推送装置在真实电商平台上执行一系列预设动作序列(a1,a2,a3,…,an)，示例性的，下单，浏览，离开操作等，在执行完预设动作序列(a1,a2,a3,…,an)中的每个动作后，真实电商平台上对应更新了数据(s0,s1,s2,s3,…,sn)作为真实状态数组，其中，s0为预设动作序列执行之前真实电商平台的初始数据，s1为a1执行后真实电商平台的更新的数据，以此类推。其中，s是包含(真实历史用户，真实物品和真实价格)的三元数据组。

S702、根据真实状态数组对模拟平台模型进行修正，得到修正后的模拟平台模型。

本发明实施例中，物品推送装置在得到真实状态数组之后，会根据真实状态数组对模拟平台模型进行修正，得到修正后的模拟平台模型。

本发明实施例中，物品推送装置根据真实状态数组对模拟平台模型进行修正，得到修正后的模拟平台模型可以包括S7021-S7024，如下：

S7021、在模拟平台模型中增加修正参数，修正参数用于根据至少一个真实状态数据项对至少一个预设行为进行修正，对应输出至少一个修正预设行为。

本发明实施例中，为了进一步缩小模拟平台模型和物品推送平台之间的差距，物品推送装置可以在模拟平台模型中增加修正参数，用于对模拟平台模型输出的数据进行修正。

本发明实施例中，修正参数用于根据至少一个真实状态数据项对至少一个预设行为进行修正，对应输出至少一个修正预设行为。

本发明实施例中，修正参数可以是转移修正函数，当修正参数是转移修正函数g时，预设行为a对应的修正预设行为a’可以是a’＝g(s,π(s))，其中s代表真实状态数组，π代表预设的控制策略。

S7022、在模拟平台模型中执行至少一个修正预设行为，得到至少一个修正预设行为对应的虚拟状态数组，虚拟状态数组为至少一个修正预设行为在模拟平台模型执行后对应输出的数据。

本发明实施例中，物品推送装置得到至少一个修正预设行为之后，会在在模拟平台模型中执行至少一个修正预设行为，得到至少一个修正预设行为对应的虚拟状态数组，虚拟状态数组为至少一个修正预设行为在模拟平台模型执行后对应输出的数据。

S7023、根据真实状态数组与虚拟状态数组，对修正参数进行迭代更新，直至真实状态数组与虚拟状态数组之间的误差小于预设误差阈值时，得到修正后的模拟平台模型。

本发明实施例中，物品推送装置得到真实状态数组与虚拟状态数组之后，可以根据真实状态数组与虚拟状态数组之间的误差，采用演化算法或强化学习方法，对模拟平台模型中的修正参数进行迭代更新，以逐步减小真实状态数组与虚拟状态数组之间的误差。

本发明实施例中，当真实状态数组与虚拟状态数组之间的误差小于预设误差阈值时，得到修正后的模拟平台模型。

在一些实施例中，当∑_i(s_i-u_i)²小于预设误差阈值时，物品推送装置得到训练后的误差修正模型，其中s_i为真实状态数组中的真实状态数据项，u_i为虚拟状态数组中的虚拟状态数据项。

可以理解的是，本发明实施例中，物品推送装置使用修正参数对模拟平台模型进行修正，可以进一步减少模拟平台模型与修正后的模拟平台模型的之间的差距。

S703、利用修正后的模拟平台模型更新目标推送策略。本发明实施例中，物品推送装置使用修正后的模拟平台模型，采用S103-S104中的方法得到新的目标推送策略，以对目标推送策略进行更新。

本发明实施例中，物品推送装置使用修正后的模拟平台模型更新的目标推送策略可以直接用于向物品推送平台上的真实对象进行物品推送。

可以理解的是，本发明实施例中，物品推送装置通过使用修正后的模拟平台模型对目标推送策略进行更新，可以进一步提高目标推送策略在实际用于真实场景下物品推送时的准确性。

本发明实施例提供了一种物品推送装置，对应于一种物品推送方法，图8为本发明实施例提供的一种物品推送装置结构示意图一，如图8所示，该物品推送装置800包括：获取单元10、处理单元11和推送单元12，其中，

所述获取单元10，用于获取物品推送平台上真实对象的真实对象信息，所述真实对象信息表征所述真实对象的个人相关信息；

所述处理单元11，用于利用物品推送模型，对所述真实对象信息进行推送策略模拟，得到与所述真实对象信息对应的模拟推送策略，所述物品推送模型用于生成向所述真实对象推荐虚拟物品信息的模拟推送策略；

所述处理单元11，还用于利用模拟平台模型，对所述模拟推送策略进行推送目标评估，得到所述模拟推送策略的评估值，所述模拟平台模型用于模拟与所述物品推送平台相似的平台环境；

所述处理单元11，还用于根据所述评估值对所述物品推送模型进行迭代更新，直至所述评估值达到预设推送目标时，得到目标推送策略；

所述推送单元12，用于在所述物品推送平台上，向所述真实对象推送所述目标推送策略。

在本发明的一些实施例中，所述处理单元11，具体用于根据所述模拟推送策略，在所述模拟平台模型中进行物品推送，得到推送结果，所述推送结果为所述模拟平台模型输出的与所述推送目标相关的数据；将所述推送结果作为参数，通过预设评估函数计算出所述模拟推送策略的评估值。

在本发明的一些实施例中，所述处理单元11，还用于获取所述物品推送平台中的真实历史数据集，所述真实历史数据集包含真实历史对象信息与真实历史推送数据，所述真实历史对象信息表征真实历史对象的个人相关信息，所述真实历史推送数据包括向所述真实历史对象已推送的真实物品信息；根据所述真实历史数据集，对初始模拟平台模型进行持续训练，得到所述模拟平台模型。

在本发明的一些实施例中，所述处理单元11，具体用于利用所述虚拟对象生成模型对所述真实历史对象信息进行模拟，生成虚拟对象；使用所述虚拟对象，对初始平台推荐策略子模型和初始虚拟对象策略子模型进行组合训练，得到虚拟数据集；根据所述真实历史数据集与所述虚拟数据集，对所述初始模拟平台模型进行迭代更新，得到训练中的模拟平台模型；持续更新直至所述真实历史数据集与所述虚拟数据集满足预设条件时，结束更新，得到所述模拟平台模型。

在本发明的一些实施例中，所述虚拟对象包含虚拟对象信息与虚拟对象行为；所述虚拟数据集包含所述虚拟对象、虚拟推送数据以及虚拟对象行为，所述虚拟推送数据包含向所述虚拟对象推荐的物品信息；所述处理单元11，具体用于将所述虚拟对象输入所述初始平台推荐策略子模型，进行对所述初始平台推荐策略子模型的训练，输出初始虚拟推送数据；所述初始平台策略子模型用于根据所述虚拟对象信息与虚拟对象行为生成初始虚拟推送数据，所述初始虚拟推送数据包含向所述虚拟对象推荐的虚拟物品信息；将所述初始虚拟推送数据作为样本数据输入所述初始虚拟对象策略子模型，进行对所述初始虚拟对象策略子模型的训练，输出初始虚拟对象行为；所述初始虚拟对象策略子模型用于输出与所述初始虚拟推送数据对应的初始虚拟对象行为；根据所述初始虚拟对象行为，对所述初始平台策略子模型进行更新，得到第一中间平台策略子模型；将所述虚拟对象与所述初始虚拟对象行为输入所述第一中间平台策略子模型，输出更新的第一虚拟推送数据；根据所述更新的第一虚拟推送数据，对所述初始虚拟对象策略子模型进行更新，得到第一中间虚拟对象策略子模型，所述第一中间虚拟对象策略子模型用于输出与所述更新的第一虚拟推送数据对应的更新的虚拟对象行为；持续对所述第一中间平台策略子模型与所述第一中间虚拟对象策略子模型进行训练，直至所述更新的虚拟对象行为达到预设行为条件时，将每次训练中的输出数据和对应的虚拟对象，作为所述虚拟数据集。

在本发明的一些实施例中，所述真实历史对象信息包含真实历史对象的个人信息与历史行为，所述处理单元11，还用于将所述真实历史对象信息中包含的真实历史对象的历史行为按时间段进行划分，得到至少一个历史行为序列，所述至少一个历史行为序列中的每个序列至少包含一个所述真实历史对象的历史行为；对所述每个序列内的真实历史对象的历史行为进行聚类，得到所述至少一个历史行为序列对应的至少一个动态类别；根据所述真实历史对象的个人信息，得到所述真实历史对象的至少一个静态属性；根据所述至少一个动态类别与所述至少一个静态属性生成初始虚拟对象生成模型，并采用对抗学习的方式对所述初始虚拟对象生成模型进行迭代训练，得到每次训练输出的初始虚拟对象；持续训练直至所述真实历史对象信息和所述初始虚拟对象满足预设条件时，结束训练，得到所述虚拟对象生成模型。

在本发明的一些实施例中，所述真实历史对象信息包含真实历史对象的个人信息与历史行为，所述处理单元11，具体用于将所述真实历史对象信息作为样本数据，将所述真实历史推送数据作为第一预期训练结果，以监督学习的方法对所述初始模拟平台模型中的初始平台推荐策略子模型进行训练，得到第二中间平台推荐策略子模型，所述第二中间平台推荐策略子模型用于根据所述真实历史对象输出更新的第二虚拟推送数据；持续训练直至所述更新的第二虚拟推送数据达到所述第一预期训练结果时，结束训练，得到所述平台推荐策略子模型，所述第一预期训练结果表征所述更新的第二虚拟推送数据与所述真实历史推送数据相接近；将所述真实历史对象个人信息与所述真实历史推送数据作为样本数据，将所述真实历史对象的历史行为作为第二预期训练结果，以监督学习的方法对所述初始模拟平台模型中的初始虚拟对象策略子模型进行训练，得到第二中间虚拟对象策略子模型，所述第二中间虚拟对象策略子模型用于根据所述真实历史推送数据生成所述真实历史对象的虚拟行为；持续训练直至所述真实历史对象的虚拟行为达到所述第二预期训练结果时，结束训练，得到所述虚拟对象策略子模型，所述第二预期训练结果表征所述真实历史对象的虚拟行为与所述真实历史对象的历史行为相接近；将所述平台推荐策略子模型与所述虚拟对象策略子模型作为所述模拟平台模型。

在本发明的一些实施例中，所述处理单元11，具体用于利用判别器对所述真实历史数据集与所述虚拟数据集进行区分；当所述判别器可以区分所述真实历史数据集与所述虚拟数据集时，对所述初始模拟平台模型进行更新，得到所述训练中的模拟平台模型。

在本发明的一些实施例中，所述处理单元11，还用于获取所述真实对象对于所述目标推送策略的真实当前行为，所述目标推送策略包含对所述真实对象推送的物品信息；基于所述真实当前行为，进一步更新所述物品推送模型。

在本发明的一些实施例中，所述处理单元11，还用于在所述物品推送平台上执行预设行为序列，得到真实状态数组，所述预设行为序列包含至少一个预设行为，所述真实状态数组中包含至少一个真实状态数据项，所述至少一个真实状态数据项与所述至少一个预设行为一一对应，所述真实状态数据项为每个预设行为执行后所述物品推送平台上对应更新的数据；根据所述真实状态数组对所述模拟平台模型进行修正，得到修正后的模拟平台模型；利用所述修正后的模拟平台模型更新所述目标推送策略。

在本发明的一些实施例中，所述处理单元11，具体用于在所述模拟平台模型中增加修正参数，所述修正参数用于根据至少一个真实状态数据项对所述至少一个预设行为进行修正，对应输出至少一个修正预设行为；在所述模拟平台模型中执行所述至少一个修正预设行为，得到所述至少一个修正预设行为对应的虚拟状态数组，所述虚拟状态数组为所述至少一个修正预设行为在所述模拟平台模型执行后对应输出的数据；根据所述真实状态数组与所述虚拟状态数组，对所述修正参数进行迭代更新，直至所述真实状态数组与所述虚拟状态数组之间的误差小于预设误差阈值时，得到修正后的模拟平台模型。

本发明实施例提供了一种物品推送装置，对应于一种物品推送方法，图9为本发明实施例提供的一种物品推送装置结构示意图二，如图9所示，该物品推送装置700包括：处理器715、存储器716和通信总线717，所述存储器716通过所述通信总线717与所述处理器715进行通信，所述存储器716存储所述处理器715可执行的指令，当所述指令被执行时，通过所述处理器715执行如前述实施例的任意一种物品推送方法。

本发明实施例提供了一种计算机可读存储介质，应用于物品推送装置，存储介质存储有可执行指令，当所述可执行指令被执行时，用于引起处理器715执行如上述的物品推送方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种物品推送方法，其特征在于，包括：

2.根据权利要求1所述的方法，所述利用模拟平台模型，对所述模拟推送策略进行推送目标评估，得到所述模拟推送策略的评估值，包括：

根据所述模拟推送策略，在所述模拟平台模型中进行物品推送，得到推送结果，所述推送结果为所述模拟平台模型输出的与所述推送目标相关的数据；

将所述推送结果作为参数，通过预设评估函数计算出所述模拟推送策略的评估值。

3.根据权利要求1所述的方法，其特征在于，所述利用模拟平台模型，对所述模拟推送策略进行推送目标评估，得到所述模拟推送策略的评估值之前，所述方法还包括：

获取所述物品推送平台中的真实历史数据集，所述真实历史数据集包含真实历史对象信息与真实历史推送数据，所述真实历史对象信息表征真实历史对象的个人相关信息，所述真实历史推送数据包括向所述真实历史对象已推送的真实物品信息；

根据所述真实历史数据集，对初始模拟平台模型进行持续训练，得到所述模拟平台模型。

4.根据权利要求3所述的方法，其特征在于，所述模拟平台模型包含平台推荐策略子模型和虚拟对象策略子模型，所述根据所述真实历史数据集，对初始模拟平台模型进行持续训练，得到所述模拟平台模型，包括：

利用虚拟对象生成模型对所述真实历史对象信息进行模拟，生成虚拟对象；

使用所述虚拟对象，对初始平台推荐策略子模型和初始虚拟对象策略子模型进行组合训练，得到虚拟数据集；

根据所述真实历史数据集与所述虚拟数据集，对所述初始模拟平台模型进行迭代更新，得到训练中的模拟平台模型；

持续更新直至所述真实历史数据集与所述虚拟数据集满足预设条件时，结束更新，得到所述模拟平台模型。

5.根据权利要求4所述的方法，其特征在于，所述虚拟对象包含虚拟对象信息与虚拟对象行为；所述虚拟数据集包含所述虚拟对象、虚拟推送数据以及虚拟对象行为，所述虚拟推送数据包含向所述虚拟对象推荐的物品信息；所述使用所述虚拟对象，对初始平台推荐策略子模型和初始虚拟对象策略子模型进行组合训练，得到虚拟数据集，包括：

将所述虚拟对象输入所述初始平台推荐策略子模型，进行对所述初始平台推荐策略子模型的训练，输出初始虚拟推送数据；所述初始平台策略子模型用于根据所述虚拟对象信息与虚拟对象行为生成初始虚拟推送数据，所述初始虚拟推送数据包含向所述虚拟对象推荐的虚拟物品信息；

将所述初始虚拟推送数据作为样本数据输入所述初始虚拟对象策略子模型，进行对所述初始虚拟对象策略子模型的训练，输出初始虚拟对象行为；所述初始虚拟对象策略子模型用于输出与所述初始虚拟推送数据对应的初始虚拟对象行为；

根据所述初始虚拟对象行为，对所述初始平台策略子模型进行更新，得到第一中间平台策略子模型；

将所述虚拟对象与所述初始虚拟对象行为输入所述第一中间平台策略子模型，输出更新的第一虚拟推送数据；

根据所述更新的第一虚拟推送数据，对所述初始虚拟对象策略子模型进行更新，得到第一中间虚拟对象策略子模型，所述第一中间虚拟对象策略子模型用于输出与所述更新的第一虚拟推送数据对应的更新的虚拟对象行为；

持续对所述第一中间平台策略子模型与所述第一中间虚拟对象策略子模型进行训练，直至所述更新的虚拟对象行为达到预设行为条件时，将每次训练中的输出数据和对应的虚拟对象，作为所述虚拟数据集。

6.根据权利要求4所述的方法，其特征在于，所述真实历史对象信息包含真实历史对象的个人信息与历史行为，所述利用所述虚拟对象生成模型对所述真实历史对象信息进行模拟，生成虚拟对象之前，所述方法还包括：

将所述真实历史对象信息中包含的真实历史对象的历史行为按时间段进行划分，得到至少一个历史行为序列，所述至少一个历史行为序列中的每个序列至少包含一个所述真实历史对象的历史行为；

对所述每个序列内的真实历史对象的历史行为进行聚类，得到所述至少一个历史行为序列对应的至少一个动态类别；

根据所述真实历史对象的个人信息，得到所述真实历史对象的至少一个静态属性；

根据所述至少一个动态类别与所述至少一个静态属性生成初始虚拟对象生成模型，并采用对抗学习的方式对所述初始虚拟对象生成模型进行迭代训练，得到每次训练输出的初始虚拟对象；

持续训练直至所述真实历史对象信息和所述初始虚拟对象满足预设条件时，结束训练，得到所述虚拟对象生成模型。

7.根据权利要求3所述的方法，其特征在于，所述真实历史对象信息包含真实历史对象的个人信息与历史行为，所述根据所述真实历史数据集，对初始模拟平台模型进行持续训练，得到所述模拟平台模型，包括：

将所述真实历史对象信息作为样本数据，将所述真实历史推送数据作为第一预期训练结果，以监督学习的方法对所述初始模拟平台模型中的初始平台推荐策略子模型进行训练，得到第二中间平台推荐策略子模型，所述第二中间平台推荐策略子模型用于根据所述真实历史对象输出更新的第二虚拟推送数据；

持续训练直至所述更新的第二虚拟推送数据达到所述第一预期训练结果时，结束训练，得到所述平台推荐策略子模型，所述第一预期训练结果表征所述更新的第二虚拟推送数据与所述真实历史推送数据相接近；

将所述真实历史对象个人信息与所述真实历史推送数据作为样本数据，将所述真实历史对象的历史行为作为第二预期训练结果，以监督学习的方法对所述初始模拟平台模型中的初始虚拟对象策略子模型进行训练，得到第二中间虚拟对象策略子模型，所述第二中间虚拟对象策略子模型用于根据所述真实历史推送数据生成所述真实历史对象的虚拟行为；

持续训练直至所述真实历史对象的虚拟行为达到所述第二预期训练结果时，结束训练，得到所述虚拟对象策略子模型，所述第二预期训练结果表征所述真实历史对象的虚拟行为与所述真实历史对象的历史行为相接近；

将所述平台推荐策略子模型与所述虚拟对象策略子模型作为所述模拟平台模型。

8.根据权利要求4所述的方法，其特征在于，所述根据所述真实历史数据集与所述虚拟数据集，对所述初始模拟平台模型进行迭代更新，得到训练中的模拟平台模型，包括：

利用判别器对所述真实历史数据集与所述虚拟数据集进行区分；

当所述判别器可以区分所述真实历史数据集与所述虚拟数据集时，对所述初始模拟平台模型进行更新，得到所述训练中的模拟平台模型。

9.根据权利要求1所述的方法，其特征在于，所述在所述物品推送平台上，向真实对象推送所述目标推送策略之后，所述方法还包括：

获取所述真实对象对于所述目标推送策略的真实当前行为，所述目标推送策略包含对所述真实对象推送的物品信息；

基于所述真实当前行为，进一步更新所述物品推送模型。

10.根据权利要求1所述的方法，其特征在于，所述根据所述评估值对所述物品推送模型进行迭代更新，直至所述评估值达到预设推送目标时，得到目标推送策略之后，所述在所述物品推送平台上，向所述真实对象推送所述目标推送策略之前，所述方法还包括：

在所述物品推送平台上执行预设行为序列，得到真实状态数组，所述预设行为序列包含至少一个预设行为，所述真实状态数组中包含至少一个真实状态数据项，所述至少一个真实状态数据项与所述至少一个预设行为一一对应，所述真实状态数据项为每个预设行为执行后所述物品推送平台上对应更新的数据；

根据所述真实状态数组对所述模拟平台模型进行修正，得到修正后的模拟平台模型；

利用所述修正后的模拟平台模型更新所述目标推送策略。

11.根据权利要求10所述的方法，其特征在于，所述根据所述真实状态数组对所述模拟平台模型进行修正，得到修正后的模拟平台模型，包括：

在所述模拟平台模型中增加修正参数，所述修正参数用于根据至少一个真实状态数据项对所述至少一个预设行为进行修正，对应输出至少一个修正预设行为；

在所述模拟平台模型中执行所述至少一个修正预设行为，得到所述至少一个修正预设行为对应的虚拟状态数组，所述虚拟状态数组为所述至少一个修正预设行为在所述模拟平台模型执行后对应输出的数据；

根据所述真实状态数组与所述虚拟状态数组，对所述修正参数进行迭代更新，直至所述真实状态数组与所述虚拟状态数组之间的误差小于预设误差阈值时，得到修正后的模拟平台模型。

12.一种物品推送装置，其特征在于，所述物品推送装置包括获取单元、处理单元和推送单元，其中，

13.一种物品推送装置，其特征在于，所述物品推送装置包括处理器、存储器以及通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的一个或者多个程序，当所述一个或者多个程序被执行时，所述处理器执行如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-11任一项所述的方法。