CN111401937A

CN111401937A - 数据推送方法、装置及存储介质

Info

Publication number: CN111401937A
Application number: CN202010119662.6A
Authority: CN
Inventors: 陈娴娴; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-07-10
Also published as: WO2021169218A1

Abstract

本发明涉及智能决策领域，提出一种数据推送方法，该方法包括：根据网页浏览信息提取与数据推送相关的个人特征，记录并存储个人行为策略；结合所述个人特征及个人行为策略定义奖励函数；基于所述奖励函数将物品推荐的现实过程抽象为马尔科夫过程；利用所述马尔科夫过程的马尔科夫性简化贝尔曼方程形成可迭代方程式，并求得所述可迭代方程式的最优解，获得数据推送模型；以百万级数据作为数据特征输入数据推送模型进行网络训练形成最优数据推送模型，将数据推送目标用户的个人特征输入最优数据推送模型，所述最优数据推送模型自动化地向目标用户输出推荐信息。

Description

数据推送方法、装置及存储介质

技术领域

本发明涉及智能决策领域，尤其涉及一种数据推送方法、装置及计算机可读存储介质。

背景技术

经典的推荐系统仅依赖于事先存储下来的大数据，却忽略了推荐对象及推荐环境在现实意义中是不断变化的，同时也忽略了系统与推荐对象在交互过程中产生的新的信息，这些被忽略的交互信息及其可能存在的瞬间变化性恰恰是最重要的，因此传统的推荐系统在一定程度上规则固化，客观来说是没有考虑环境及交互因素在内的。因此这一类传统方法在交互层面存在明显的滞后性，无法紧跟推荐对象的最新需求。因此充分考虑系统交互信息的推荐系统框架的搭建成为了热点问题。

推荐系统最怕的是严重的滞后，对用户信息获取、分析的时间滞后，导致延迟了用户的需求分析，推荐给了用户已经不喜欢、已经不需要、或者错误的东西，传统的数据推送主要基于基础的机器学习框架，基于关联规则，如把已购商品作为规则头，规则体为推荐对象，最经典的例子是很多人购买牛奶的同时会购买面包来搭配，推荐繁杂、不准确。

因此，亟需一种提升精确率的数据推送方法。

发明内容

本发明提供一种数据推送方法、电子装置及计算机可读存储介质，其主要目的在于通过根据网页浏览信息提取与数据推送相关的个人特征，记录并存储个人行为策略，结合个人特征及个人行为策略定义奖励函数，然后基于奖励函数将物品推荐的现实过程抽象为马尔科夫过程，进而利用马尔科夫过程的马尔科夫性简化贝尔曼方程，将推送过程转化为可迭代方程式，并求得可迭代方程式的最优解，结合最优解搭建神经网络，持续训练所述神经网络直至神经网络收敛，获得数据推送模型，再以百万级数据作为数据特征输入数据推送模型进行网络训练，并给予给定的Loss function进行误差的回传，形成最优数据推送模型，最后将数据推送目标用户的个人特征输入最优数据推送模型，最优数据推送模型自动化地输出数据推送。

为实现上述目的，本发明提供的数据推送方法，应用于电子装置，所述方法包括：

S110：根据网页浏览信息提取与数据推送相关的个人特征及个人行为信息；

S120：结合所述个人特征及个人行为信息定义奖励函数；

S130：基于所述奖励函数将物品推荐的现实过程抽象为马尔科夫过程；

S140：利用所述马尔科夫过程的马尔科夫性简化贝尔曼方程形成可迭代方程式，并求得所述可迭代方程式的最优解，结合所述最优解搭建神经网络，持续训练所述神经网络直至所述神经网络收敛，获得数据推送模型；

S150：将训练数据特征输入数据推送模型进行网络训练，并给予给定的Lossfunction进行误差的回传，形成最优数据推送模型；

S160：将数据推送目标用户的个人特征输入所述最优数据推送模型，所述最优数据推送模型自动化地向所述目标用户输出推荐信息。

优选地，所述奖励函数为：

若在一个PV中仅发生商品点击，则相应的奖励值为用户点击商品的次数；若在一个PV中发生了用户对商品的购买，那么对应的奖励为用户点击商品的次数加被购买的商品的价格；其他的情况下奖励为0。

优选地，所述马尔科夫过程由四元组<S,A,R,T>表示：

其中，S为所述物品推荐现实过程中页面上待推送数据的状态；

A为所述物品推荐页面产生的所有动作；

R:S×A×S→R，为奖励函数，当用户执行动作A动作，由状态S转移到状态S′时，则S′状态获得奖励值，当用户从点击a转移到点击b时，b获得奖励值；

T:S×A×S→[0,1]，为环境的状态转移函数，T(s,a,s′)表示在状态S上执行动作A，并转移到状态S′的概率。

优选地，求得所述可迭代方程式的最优解为在一个batch中，通过智能体推荐得到的最大累积奖励；

求得可迭代方程最优解的方式为抽样求解，其过程为：首先在一个batch小数据集中进行计算，然后循环取batch、循环计算，直至达到阈值上限，或者结果收敛。

优选地，结合所述最优解搭建神经网络的过程包括：

引入一个动作价值函数的近似表示：

所述近似表示在数学上成立后，结合所述最优解搭建两个结构相同、参数不同的神经网络架构N1、N2；其中，

利用N1进行evaluation value的估计，利用N2进行target value的计算，进而对反向传递进行网络迭代更新，并在k轮迭代后定期将N1的网络参数移植到N2中；

所述N1、N2均为具有神经元的全连接网络，所述神经元个数通过不同的场景发生改变。

优选地，在持续训练所述神经网络直至所述神经网络收敛，获得数据推送模型的过程中，包括：

神经网络中利用Stochastic Gradient Descent进行网络迭代，应用ExperienceReplay的方法，在指定t个需要存储的memory前，对所有涉及的当前S，对应采取的A，得到的延迟R以及对应的下一个S′进行存储。

优选地，在所述最优数据推送模型自动化地输出数据推送的过程中，所推送出的物品为所述最优推送模型中的神经网络经机器学习及反复训练得出的使目标用户购买几率最大的物品。

为实现上述目的，本发明还提供一种数据推送系统，其特征在于，包括：特征提取单元、奖励函数单元、网络训练单元、优化模型单元；

特征提取单元用于根据网页浏览信息提取与数据推送相关的个人特征，记录并存储个人行为策略；

奖励函数单元与特征提取单元相连，用于结合特征提取单元提取的个人特征及个人行为策略定义奖励函数，并基于该奖励函数将物品推荐的现实过程抽象为马尔科夫过程；

网络训练单元奖励函数单元相连，用于利用奖励函数单元输出的马尔科夫过程的马尔科夫性简化贝尔曼方程形成可迭代方程式，并求得可迭代方程式的最优解，结合最优解搭建神经网络，持续训练该神经网络直至该神经网络收敛，获得数据推送模型；

该优化模型单元与网络训练单元相连，用于将训练数据作为数据特征输入通过网络训练单元获得的数据推送模型进行网络训练，并给予给定的Loss function进行误差的回传，形成最优数据推送模型，只要将数据推送目标用户的个人特征输入该最优数据推送模型，该最优数据推送模型即可自动化地输出数据推送。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的数据推送方法中的步骤；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有数据推送程序，所述数据推送程序被处理器执行时，实现前述的数据推送方法的步骤。

本发明提出的数据推送方法、电子装置及计算机可读存储介质，其中，通过提取个人特征，记录并存储个人行为策略，然后基于奖励函数将物品推荐的现实过程抽象为马尔科夫过程，进而利用马尔科夫过程的马尔科夫性简化贝尔曼方程，将推送过程转化为可迭代方程式，并求得可迭代方程式的最优解，结合最优解搭建神经网络，持续训练神经网络直至神经网络收敛，获得数据推送模型，最后将数据推送目标用户的个人特征输入最优数据推送模型，最优数据推送模型自动化地输出数据推送。极大地提高了数据推送的精确率和召回率，提升了推荐的物品与用户需求的满足度，避免了在交互层面存在的滞后性。

附图说明

图1为根据本发明实施例的数据推送方法应用环境示意图；

图2为根据本发明实施例的数据推送方法的流程图；

图3为根据本发明实施例的数据推送电子装置中的系统框架图；

图4为根据本发明实施例的电子装置的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

现有的数据推送方法主要基于基础的机器学习框架，基于关联规则，把已购商品作为规则头，规则体为推荐对象对用户信息获取、分析的时间滞后，导致延迟用户的需求分析，推荐给用户已经不喜欢、已经不需要、或者错误的东西。为了解决现有的数据推送方法中存在的上述问题，本发明从网页浏览信息提取与数据推送相关的个人特征，记录并存储个人行为策略出发，定义奖励函数，将物品推荐的现实过程抽象为马尔科夫过程，求得最优解，持续训练神经网络直至神经网络收敛，获得数据推送模型，只需将数据推送目标用户的个人特征输入最优数据推送模型，最优数据推送模型自动化地输出数据推送。

具体的，根据本发明的一个实施例，提供一种数据推送方法，应用于电子装置40。

图1为根据本发明实施例的数据推送方法应用环境示意图。如图1所示，在本实施例的实施环境为计算机设备110。

其中的计算机设备110为计算机设备，例如电脑等终端设备。

需要说明的是，计算机终端设备110可为平板电脑、笔记本电脑、台式计算机等，其为cenOS(linux)系统，但并不局限于此。计算机设备等终端设备110可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行连接，本发明在此不做限制。

图2为根据本发明实施例的数据推送方法的流程图。如图2所示，在本实施例中，数据推送方法包括如下步骤：

S110：根据网页浏览信息提取与数据推送相关的个人特征及个人行为信息；个人行为信息为个人行为策略；

在用户购物过程中，提取可以根据用户先浏览信息提取的身高、体重、身体状况指标、经济状况等个人特征，记录并存储通常的购物意向、购物的一般时间、购物的具体原因、购物地点、机构选择等个人行为策略；在这里，个人特征和个人行为策略的具体内容可以根据个人的网页浏览主题以及网页浏览过程中发生的电子商务行为确定。

如果用户网页浏览的主题为购物，所提取的个人特征可以包括身高、体重、身体状况指标、经济状况、所处地域等，相应的个人行为策略可以包括通常的购物意向、购物的一般时间、购物的具体原因、购物地点、机构选择等。

如果用户网页浏览的主题为学习、培训，则所提取的个人特征可以包括年龄、学历、身体状况指标、经济状况、所处地域等，相应的个人行为策略可以包括通常的学习需求、学习的时间、学习的具体原因、学习目的、机构选择等；如果用户网页浏览的主题为新闻浏览，则所提取的个人特征可以包括性别、年龄、学历、身体状况指标、经济状况、所处地域等，相应的人行为策略包括：通常的浏览主题、浏览的一般时间以及时常等。

S120：结合个人特征及个人行为信息定义奖励函数；

在进行数据推送(信息推荐)时，以用户网页浏览的主题为购物为例，用户最终是否购买或点击，取决于一连串搜索排序的结果，并不是仅仅基于某一次单纯的搜索或推荐过程，所以需要将搜索引擎作为智能体，将用户看作环境，将物品推荐的问题转化为典型的顺序决策问题。

本实施例中定义的奖励函数是需要预先进行数学定义的，其定义和应用是强化学习算法中必不可少的步骤；若因某个行为策略该奖励函数得到正反馈，则加强此行为策略的趋势，基于强化学习算法持续尝试、持续推荐，在尝试、推荐过程中根据用户反馈累加计算奖励，直至收到环境反馈的奖励函数累加值最大得到局部最优解。

该奖励函数为：若在一个PV(page view页面浏览)中仅发生商品点击，则相应的奖励值为用户点击的商品的数量次数；若在一个PV(page view页面浏览)中发生了用户对商品的购买，那么对应的奖励为用户点击商品的次数加被购买的商品的价格；其他的情况下奖励为零。

在一个实施例中，待推送数据为商品推荐，该奖励函数为：若用户在购物页面中点击某商品，则为该商品增加奖励值，奖励值数为用户点击商品的个数，若用户在购物页面中购买了某商品，则为该商品增加奖励值，奖励值数为该商品的购买价格；其他情况奖励值为零。

在另一个实施例中，待推送数据为培训推荐，该奖励函数为：若用户在培训页面上点击浏览某课程，则为该课程增加奖励值，奖励值数为用户点击浏览该课程的次数，若用户在培训页面上购买了某课程，则为该课程增加奖励值，奖励值数为该课程的购买价格；其他情况奖励值为零。

S130：基于奖励函数将物品推荐的现实过程抽象为马尔科夫过程；

在智能体的某个行为策略导致环境正的奖励(奖励函数值变大)的情况下，智能体产生此行为策略的趋势便会加强，然后将数据推送(物品推荐)的过程抽象为MDP(MarkovDecision Process马尔科夫过程)；

该MDP由四元组<S,A,R,T>表示：

其中，S(StateSpace，状态空间)，为该物品推荐现实过程中页面上待推送数据的状态；

A(Action Space，动作空间)，为该物品推荐页面产生的所有动作；

R:S×A×S→R(Reward Function，奖励函数)，R(s,a,s′)表示在状态s上执行动作a，并转移到状态s′时，Agent从环境获得的奖励值，当用户从点击a转移到点击b时，b获得的奖励值增加；

T:S×A×S→[0,1]为环境的状态转移函数(State Transition Function)，T(s,a,s′)表示在状态S上执行动作A，并转移到状态S′的概率。

抽象为马尔科夫过程中，通过Agent感知整个数据推送的过程所处于的环境状态S，通过Agent采集该个人行为策略，当该个人行为策略中的动作空间A对某物品(点击或浏览某一物品)发生时，该奖励函数R对该物品进行奖励值增加，对该物品点击的概率T越大，奖励值就增加更多。

在一个实施例中，数据推送的过程为商品推荐过程，MDP由四元组<S,A,R,T>表示：

其中，S表示该商品已被点击的次数，或该商品被购买；

A表示用户正在浏览或点击该物品；

R:S×A×S→R为奖励函数，R(s,a,s′)表示在状态S上执行动作A，并转移到状态S′时，该商品获得的奖励值，比如在该商品被点击5次时用户又被点击一次，增加的奖励值为1；

T:S×A×S→[0,1]为状态转移函数，T(3,2,够)表示该商品在已被点击3次时，再点击2次，并转移到状态购买该商品的概率。

在另一个实施例中，数据推送的过程为课程推荐过程，MDP由四元组<S,A,R,T>表示：

其中，S表示该课程已被试看的次数，或该课程被购买；

A表示用户正在浏览或试看该课程；

R:S×A×S→R为奖励函数，R(s,a,s′)表示在状态S上执行动作A，并转移到状态S′时，该物品获得的奖励值，比如在浏览3次该课程时，试看该课程1次，该课程所获得的奖励值为1；

T:S×A×S→[0,1]为状态转移函数，T(3,2,s′)表示该课程在已被浏览或试看3次时，再浏览或试看2次，并转移到购买该课程的概率。

S140：利用该马尔科夫过程的马尔科夫性简化贝尔曼方程形成可迭代方程式，并求得该可迭代方程式的最优解，结合该最优解搭建神经网络，持续训练该神经网络直至该神经网络收敛，获得数据推送模型；

首先，简化贝尔曼方程并把该推送过程转化为可迭代方程，并求得该可迭代方程的最优解；

基于马尔科夫性简化贝尔曼方程，使得其成为一个可迭代的方程式，从而可以通过迭代求解最优解，可迭代方程为：

其中，γ是衰减系数，S、R、t等同上，利用该可迭代方程将奖励累加达到最大；

求解可迭代方程的最优解即求最大目标函数Q，需要在一个batch中，通过智能体推荐拿到最大的累积奖励；其中，该batch为数据集，在求解可迭代方程最优解过程中选择进行抽样求解，即在一个batch小数据集中进行计算，循环取batch、循环计算，直至达到阈值上限，或者结果收敛(得到相对较优结果)。

再引入一个动作价值函数的近似表示，即

然后当近似表示在数学上成立后，结合最优解搭建神经网络DQN model；

搭建两个结构相同、参数不同的神经网络架构N1、N2，N1进行evaluation value的估计，N2进行target value的计算，进而对反向传递进行网络迭代更新，并在k轮迭代后定期将N1的网络参数移植到N2中；该N1、N2均为具有神经元的全连接网络，使用的激活函数为relu输入为特征，输出为action对应的value，其中的神经元个数通过不同的场景发生略微改变；

神经网络初始化出众多参数，令机器持续学习、持续更新该众多参数，直至该神经网络的框架收敛；当神经网络收敛，即得到了上述可迭代方程的最优解，也就是找到了使整个推送过程最优的参数。

具体的，搭建的网络输入是某一个状态St的feature map，通过构建的100个神经元的全连接层通过激活函数tanh，最后通过输出层输出每一个对应action ai的动作价值Vi。神经网络中利用Stochastic Gradient Descent进行网络迭代。算法中应用ExperienceReplay的方法，对在指定t个需要存储的memory前，对所有涉及的当前步state，对应采取的action，得到的延迟reward以及对应的下一个state’进行存储，见如下公式：

存储的每一个experience

e_t＝(s_t,a_t,r_t,s_t+1)

并将其存储于记忆库中

D_t＝{e₁,K,e_t}。

最终进行又放回的均匀抽样。

同时应用fixed q-target方法，Loss function为

在上述公式中，E为期望函数，a为动作空间(Action Space)，r为奖励函数(RewardFunction)，s为环境的状态转移函数(State Transition Function)，其中s’是下一个状态的意思。U(D)随机均匀抽样，γ为衰减系数，Q为累积奖励函数；即以下一步的真实奖励减去Q表中的预测奖励来进行迭代Loss。

S150：以百万级数据作为训练数据特征输入数据推送模型进行网络训练，并给予给定的Loss function进行误差的回传，形成最优数据推送模型；

在形成该数据推送模型后，以百万级数据作为数据特征输入Deep Q Network进行网络训练，并给予给定的Loss function进行误差的回传，并不断训练直至模型收敛已形成完善的数据推送模型，以获得最优数据推送模型。

S160：将数据推送目标用户的个人特征输入该最优数据推送模型，该最优数据推送模型自动化地向目标用户输出推荐信息。

在该最优数据推送模型自动化地输出数据推送的过程中，所推送出的物品为该最优推送模型中的神经网络经机器学习及反复训练得出的使目标用户购买几率最大的物品。

本实施例中的数据推送方法首先在用户在购物过程中提取出与数据推送相关的个人特征，记录并存储个人行为策略，再结合该个人特征及个人行为策略定义奖励函数，并将物品推荐的现实过程抽象为马尔科夫过程，进而利用该马尔科夫过程的马尔科夫性简化贝尔曼方程，将该推送过程转化为可迭代方程式，并求得该可迭代方程式的最优解，获得数据推送模型，只要将用户的特征输入该数据模型，该数据模型即会自动化地推出最适合该用户、且该用户购买几率最大的物品，该方法不仅提高了推荐物品的准确性，也极大地避免了在交互层面存在的滞后性。

另一方面，本发明还提供一种数据推送系统，图3为根据本发明实施例的数据授推送系统框架图，该系统对应于前述数据推送方法，可以设置于数据推送电子装置中。

如图3所示，该数据推送系统300包括特征提取单元310、奖励函数单元320、网络训练单元330、优化模型单元340。

其中，特征提取单元310用于根据网页浏览信息提取与数据推送相关的个人特征，记录并存储个人行为策略；

奖励函数单元320与特征提取单元310相连，用于结合特征提取单元310提取的个人特征及个人行为策略定义奖励函数，并基于该奖励函数将物品推荐的现实过程抽象为马尔科夫过程；

网络训练单元330奖励函数单元320相连，用于利用奖励函数单元320输出的马尔科夫过程的马尔科夫性简化贝尔曼方程形成可迭代方程式，并求得可迭代方程式的最优解，结合最优解搭建神经网络，持续训练该神经网络直至该神经网络收敛，获得数据推送模型；

该优化模型单元340与网络训练单元330相连，用于以百万级数据作为数据特征输入通过网络训练单元330获得的数据推送模型进行网络训练，并给予给定的Loss function进行误差的回传，形成最优数据推送模型，只要将数据推送目标用户的个人特征输入该最优数据推送模型，该最优数据推送模型即可自动化地输出数据推送。

图4为本发明电子装置示意图，在本实施例中，电子装置40可以是服务器、平板计算机、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子装置40包括：处理器41、存储器42、计算机程序43、网络接口及通信总线。

电子装置40可以是平板电脑、台式电脑、智能手机，但不限于此。

存储器42包括至少一种类型的可读存储介质。至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置40的内部存储单元，例如该电子装置40的硬盘。在另一些实施例中，可读存储介质也可以是电子装置40的外部存储器，例如电子装置40上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，存储器42的可读存储介质通常用于存储安装于电子装置40的计算机程序43，密钥生成单元310、密钥管理单元320、传输单元330和告警单元340等。

处理器41在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器42中存储的程序代码或处理数据，例如数据推送程序43等。

网络接口可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置40与其他电子设备之间建立通信连接。

通信总线用于实现这些组件之间的连接通信。

图4仅示出了具有组件41-43的电子装置40，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

在图4所示的电子装置实施例中，作为一种计算机存储介质的存储器42中可以存储操作系统以及数据推送程序43；处理器41执行存储器42中存储的数据推送程序43时实现如下步骤：

S120：结合该个人特征及个人行为信息定义奖励函数；

S130：基于该奖励函数将物品推荐的现实过程抽象为马尔科夫过程；

S140：利用该马尔科夫过程的马尔科夫性简化贝尔曼方程，将该推送过程转化为可迭代方程式，并求得该可迭代方程式的最优解，结合该最优解搭建神经网络，持续训练该神经网络直至该神经网络收敛，获得数据推送模型；

S160：将数据推送目标用户的个人特征输入该最优数据推送模型，该最优数据推送模型自动化地输出推荐信息。

此外，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质中包括数据推送程序，该数据推送程序被处理器执行时实现如下操作：

S120：结合该个人特征及个人行为信息定义奖励函数；

本发明之计算机可读存储介质的具体实施方式与上述数据推送方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据推送方法，应用于电子装置，其特征在于，所述方法包括：

S120：结合所述个人特征及个人行为信息定义奖励函数；

S150：将训练数据特征输入数据推送模型进行网络训练，并给予给定的Loss function进行误差的回传，形成最优数据推送模型；

S160：将数据推送目标用户的个人特征输入所述最优数据推送模型，所述最优数据推送模型向所述目标用户输出推荐信息。

2.根据权利要求1所述的数据推送方法，其特征在于，所述奖励函数为：

3.根据权利要求1所述的数据推送方法，其特征在于，

所述马尔科夫过程由四元组<S,A,R,T>表示：

A为所述物品推荐页面产生的所有动作；

R:S×A×S→R，为奖励函数，当用户执行动作A动作，由状态S转移到状态S′时，则S′状态获得奖励值，当用户从点击a物品转移到点击b物品时，b物品获得奖励值；

4.根据权利要求1所述的数据推送方法，其特征在于，求得所述可迭代方程式的最优解为在一个batch中，通过智能体推荐得到的最大累积奖励；

5.根据权利要求1所述的数据推送方法，其特征在于，结合所述最优解搭建神经网络的过程包括：

引入一个动作价值函数的近似表示：

6.根据权利要求1所述的数据推送方法，其特征在于，在持续训练所述神经网络直至所述神经网络收敛，获得数据推送模型的过程中，包括：

在神经网络中利用Stochastic Gradient Descent进行网络迭代，应用ExperienceReplay的方法，在指定t个需要存储的memory前，对所有涉及的当前S，对应采取的A，得到的延迟R以及对应的下一个S′进行存储。

7.根据权利要求5所述的数据推送方法，其特征在于，在所述最优数据推送模型自动化地输出数据推送的过程中，所推送出的物品为所述最优推送模型中的神经网络经机器学习及反复训练得出的使目标用户购买几率最大的物品。

8.一种数据推送系统，其特征在于，包括：特征提取单元、奖励函数单元、网络训练单元、优化模型单元；

9.一种电子装置，其特征在于，该电子装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的数据推送方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有数据推送程序，所述数据推送程序被处理器执行时，实现如权利要求1至7中任一项所述的数据推送方法的步骤。