CN111104595B - 一种基于文本信息的深度强化学习交互式推荐方法及系统 - Google Patents

一种基于文本信息的深度强化学习交互式推荐方法及系统 Download PDF

Info

Publication number
CN111104595B
CN111104595B CN201911297092.3A CN201911297092A CN111104595B CN 111104595 B CN111104595 B CN 111104595B CN 201911297092 A CN201911297092 A CN 201911297092A CN 111104595 B CN111104595 B CN 111104595B
Authority
CN
China
Prior art keywords
commodity
user
vector
strategy
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911297092.3A
Other languages
English (en)
Other versions
CN111104595A (zh
Inventor
李国徽
王朝阳
李剑军
郭志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911297092.3A priority Critical patent/CN111104595B/zh
Publication of CN111104595A publication Critical patent/CN111104595A/zh
Application granted granted Critical
Publication of CN111104595B publication Critical patent/CN111104595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本信息的深度强化学习交互式推荐方法及系统,属于交互式个性化推荐领域,包括:基于文本信息将商品和用户分别转换为商品向量和用户向量,并对用户进行聚类;基于DDPG为每个用户类别建立推荐模型,并建立全局的环境模拟器;对于任意一个推荐模型,在第t轮交互中,构建动作候选集Can(ui,t);策略网络以当前用户的状态st为输入,得到策略向量pt后,根据pt从Can(ui,t)中选出动作向量at;估值网络以pt和st为输入,计算Q值,用于评价pt的优劣;每一轮交互中,环境模拟器计算反馈奖励值,并更新当前用户的状态;反馈奖励值输出至估值网络,矫正估值网络,Q值反向传导至策略网络,调整策略网络,以获得更优的策略向量。本发明能够提高推荐效率和推荐准确度。

Description

一种基于文本信息的深度强化学习交互式推荐方法及系统
技术领域
本发明属于交互式个性化推荐领域,更具体地,涉及一种基于文本信息的深度强化学习交互式推荐方法及系统。
背景技术
随着互联网信息量的迅速增长,信息之间的差异也在不断增加,与此同时用户对差异信息的不同选择也表现出了明显的聚类特征。为了持续个性化地推荐,出现了一系列交互式推荐系统(Interactive Recommender System,IRS)的研究成果。强化学习可以在动态交互过程中持续学习并使回报最大化,使其最近在IRS中引起了广泛关注。
强化学习是机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习求解最优策略的过程非常类似于人类学习的过程,其通过与环境的交互和试错,不断改进自身策略,获取更大的奖励。强化学习与机器学习中的其他领域的主要区别在于,强化学习是一个主动学习的过程,没有特定的训练数据,智能体需要在不断与环境交互的过程中获得样本;在强化学习中,奖励承担了监督信号的作用,智能体依据奖励进行策略优化。近年来,强化学习与深度神经网络进行了广泛结合,产生了一个交叉领域,被称为深度强化学习(Deep Reinforcement Learning,DRL),由于深度学习对复杂的高维数据具有良好的感知能力,而强化学习适用于进行策略学习,因此将二者结合产生的DRL算法同时具有感知复杂输入和进行决策的能力。
虽然深度强化学习能够在一些任务中取得很好的效果,但是,深度强化学习在IRS下的应用通常面临离散动作空间过大的问题,这使得现在大多数基于强化学习的推荐方法效率低下。此外,随着数据稀疏性的增加,仅使用对稀疏性敏感的评分矩阵或者交互矩阵会使推荐效果急剧下降。总的来说,现有的采用深度强化学习的推荐方法,普遍存在效率低下、推荐效果差的问题。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于文本信息的深度强化学习交互式推荐方法及系统,其目的在于,解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。
为实现上述目的,按照本发明的第一方面,提供了一种基于文本信息的深度强化学习交互式推荐方法,包括:数据预处理阶段和强化学习交互式推荐阶段;
数据预处理阶段包括:
根据商品的描述信息和评论信息将各商品转换为对应的商品向量;
基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量;
根据用户向量对用户进行聚类,得到用户类别信息;
强化学习交互式推荐阶段包括:
基于DDPG为每个用户类别Cl建立推荐模型,并建立一个与各推荐模型进行交互的全局的环境模拟器;
对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t);推荐模型Recl中的策略网络以第t轮交互中用户ui的状态st为输入,得到用于计算商品得分的策略向量pt后,根据pt从动作候选集Can(ui,t)中选取得分最高的部分商品作为动作向量at;推荐模型Recl中的估值网络以策略向量pt和状态st的组合为输入,计算出相应的Q值,用于评价策略向量pt的优劣;
在每一轮交互中,推荐模型通过与环境模拟器交互,使得环境模拟器计算出相应的反馈奖励值,并更新当前用户的状态,作为该用户在下一轮交互中的状态;反馈奖励值输出至估值网络,从而对估值网络进行矫正,使得估值网络输出的Q值与反馈奖励值正相关;估值网络输出的Q值反向传导至策略网络,从而调整策略网络,以获得更优的策略向量;
其中,i为用户编号,ui表示对应的用户;正评分大于预设的评分阈值yb,负评分小于或等于评分阈值yb,正样本和负样本分别对应具有正评分和负评分的商品。
本发明结合大规模离散Top-k推荐的特点,基于文本信息和成熟的DDPG(DeepDeterministic Policy Gradient)强化模型,提出一种新的应用于商品推荐的模型TDDPG-Rec(Text-based Deep Deterministic Policy Gradient for Recommendation);利用词向量处理方法,将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化,并以此为基础,分别构造出商品向量和用户向量,将待推荐的商品和用户映射到同一特征空间,有效缓解了数据稀疏性问题,提高了推荐准确度;通过对用户聚类,在每个聚类内部进行强化学习,并利用正样本、负样本和随机样本构造了动作候选集,有效减小了动作空间的规模,从而能够提高推荐效率。总的来说,本发明能够有效解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。
进一步地,根据商品的描述信息将各商品转换为对应的商品向量,包括:
对于任意第j个商品mj,获得其相关的描述信息和评论信息后,滤除其中的停用词,结合预训练词向量库,获得剩余单词的词向量;
按照
Figure BDA0002319236390000041
计算商品mj的商品向量
Figure BDA0002319236390000043
其中,nd和nr分别代表滤除停用词之后的描述信息和评论信息中包含的单词数量,在单词统计的过程中不作去重处理;wp和wq分别表示描述信息和评论信息中的词向量;β表示商品描述信息所占比重,0<β<1。
本发明将商品的描述信息和评论信息包含的有意义的词进行加权平均,得到了商品向量,词的重复代表某个词的重要程度,在计算商品向量的过程中,不作去重处理,使得所构建的商品向量能够准确地刻画商品属性。
进一步地,基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量,包括:
对于任意第i个用户ui,获得其历史记录具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p;根据商品权重对商品集合Vi p中的商品向量进行加权平均,得到用户ui的用户向量为:
Figure BDA0002319236390000042
其中,n表示商品集合Vi p的大小,
Figure BDA0002319236390000044
表示其中第j个商品mj的商品向量。
本发明使用用户记录中具有正评分的商品的加权平均来代表用户,一方面使用了文本信息(即用户记录),另一方面将商品和用户映射到了同一特征空间。
进一步地,对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t),包括:
从用户ui的历史记录中获得具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p,并从用户ui的历史记录中获得具有负评分的所有商品,利用对应的商品向量构成商品集合Vi n
Figure BDA0002319236390000052
若|Vi p|>np,则从商品集合Vi p中随机选择np个样本作为动作候选集Can(ui,t)中的正样本;否则,将商品集合Vi p中的全部样本作为Can(ui,t)中的正样本,且按照np=|Vi p|对np进行更新;
Figure BDA0002319236390000053
若|Vi n|>nn,则从商品集合Vi n中随机选择nn个样本为动作候选集Can(ui,t)中的负样本;否则,将商品集合Vi n中的全部样本作为Can(ui,t)中的负样本,并对动作候选集Can(ui,t)中的负样本进行补充,直至动作候选集Can(ui,t)中负样本的数目等于nn
令no=nc-np-nn,从剩下的商品向量中随机抽取no个作为动作候选集Can(ui,t)中的随机样本,完成动作候选集的构建;
其中,nc表示预设的动作候选集大小,
Figure BDA0002319236390000051
表示向下取整,α表示动作候选集中正样本的比例上限,|Vi p|和|Vi n|分别表示商品集合Vi p和Vi n的大小。
本发明以正样本、负样本和随机样本混合的方式进行采样,构造候选集,直接缩小了动作空间的规模,有效提高了推荐效率。
进一步地,对动作候选集Can(ui,t)中的负样本进行补充,包括:
获得与用户ui所属的第一用户类别距离最远的第二用户类别,并随机获得第二用户类别中用户的正样本,若该正样本不属于商品集合Vi p,则将其作为用户ui的负样本,加入到动作候选集Can(ui,t)中。
本发明逆向应用协同过滤的思想,在负样本不足时,以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本,能够解决样本数据量不足的问题,同时简化负样本的生成过程。
进一步地,推荐模型中的策略网络包括:第一多层感知机和策略层;
第一多层感知机用于根据当前的用户状态预测用户对商品特征中各个维度的偏好程度,从而得到策略向量;策略层用于根据第一多层感知机输出的策略向量,计算用户候选集中各样本的得分,并按照得分从高到低的顺序选取候选集中得分最高的K个样本,作为动作向量;
推荐模型中的估值网络包括:第二多层感知机;
第二多层感知机用于根据当前的用户状态和第一多层感知机输出的策略向量计算Q值,并根据环境模拟器输出的反馈奖励值调整Q值。
本发明所构建的推荐模型由策略网络产生动作,其动作是连续的,多用于连续动作的强化学习模型,能应对大规模连续动作空间的最优策略学习的问题;本发明设计了策略向量,策略向量的形式不同于其他强化学习的应用,策略向量的维度与单个商品向量的维度一致,其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好,使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量,将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来,能够缓解动作空间庞大且离散的问题;右侧的估值网络,根据该动作作用于环境返回的奖励值调整Q值,用以评估策略网络产生动作的好坏。
进一步地,环境模拟器根据
Figure BDA0002319236390000061
计算反馈奖励值;
其中,
Figure BDA0002319236390000062
表示反馈奖励值;k表示动作向量at中样本得分的排名,wk为对应的样本权重;j为商品编号,mj表示对应的商品,ri,j为用户ui对商品mj的奖励值。
进一步地,wk=1/log2(k+1);
Figure BDA0002319236390000063
其中,正历史记录为商品评分大于评分阈值yb的历史记录,负历史记录为商品评分小于等于评分阈值的历史记录,yi,j为用户ui对商品mj的评分。
进一步地,策略层根据第一多层感知机输出的策略向量,计算动作候选集中样本的得分,包括:
在(0~1)的范围内,随机改变策略向量中部分维度的值;
利用随机改变后的策略向量与样本对应的商品向量点乘,从而得到样本的得分。
本发明在利用策略向量计算候选集中样本的得分之前,先随机改变策略向量的部分维度,增强了泛化能力和不确定性,有利于提高推荐准确度。
进一步地,模拟器通过与推荐模型的交互确定动作向量作用于环境后用户的状态,包括:
将在动作向量at中出现,而未在当前的用户状态st中出现的商品向量定义为向量at′:向量at′中商品向量的相对位置顺序与动作向量at一致;
将向量at′和状态st首尾拼接后,利用预设的滑动窗口从拼接所得向量中截取部分商品向量;
将截取到的商品向量确定为动作向量作用于环境后用户的状态st+1
其中,用户的状态为用户可能感兴趣的一组商品的向量组合。
本发明中,模拟器基于滑动窗口的思想,达到了在用户当前状态和动作向量作用于环境后用户的状态之间进行去重的效果,能够尽可能覆盖用户交互过的所有商品,增强商品的多样性,提高推荐准确度。
按照本发明的第二方面,提供了一种系统,包括:计算机可读存储介质和处理器;
计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行本发明第一方面提供的基于文本信息的深度强化学习交互式推荐方法及系统。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,利用词向量处理方法,将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化,并以此为基础,分别构造出商品向量和用户向量,将待推荐的商品和用户映射到同一特征空间,有效缓解了数据稀疏性问题,提高了推荐准确度;通过对用户聚类,在每个聚类内部进行强化学习,并混合正样本、负样本和随机样本,构造了动作候选集,有效减小了动作空间的规模,从而能够提高推荐效率。总的来说,本发明能够有效解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。
(2)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,以正样本、负样本和随机样本混合的方式进行采样,构造候选集,直接缩小了动作空间的规模,有效提高了推荐效率;在其优选方案中,逆向应用协同过滤的思想,在负样本不足时,以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本,能够解决样本数据量不足的问题,同时简化负样本的生成过程。
(3)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,在所建立的推荐模型中,设计了策略向量,其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好,使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量,将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来,能够缓解动作空间庞大且离散的问题,提高推荐效率。
(4)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,在利用策略向量计算候选集中样本的得分之前,先随机改变策略向量的部分维度,增强了泛化能力和不确定性,有利于提高推荐准确度。
(5)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,模拟器基于滑动窗口的思想,达到了在用户当前状态和动作向量作用于环境后用户的状态之间进行去重的效果,能够尽可能覆盖用户交互过的所有商品,增强商品的多样性,提高推荐准确度。
附图说明
图1为本发明实施例提供的基于文本信息的深度强化学习交互式推荐方法示意图;
图2为本发明实施例提供的推荐模型及模拟器示意图;
图3为本发明实施例提供的策略向量示意图;
图4为本发明实施例提供的模型训练示意图;
图5为本发明实施例提供的状态更新示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在详细解释本发明的技术方案之前,先对DDPG模型进行简要介绍。DDPG模型在传统AC(Actor-Critic)模型的基础上进行了改良,不同于AC模型采用的随机策略梯度的方式,DDPG模型沿用DPG(Deterministic Policy Gradient)的确定策略梯度方法进行策略求解。同时,对深度神经网络进行训练的时假设输入的数据之间是独立同分布的,然而强化学习的数据是顺序采集的,其间存在马尔科夫性,不满足独立同分布的假设。因此,当利用深度神经网络进行函数逼近的时候,强化学习算法稳定性不足。为了打破数据之间的相关性,DQN使用了回放记忆单元和目标网络,DDPG的算法将它们应用到了DPG算法中。此外,为了增强模型的探索能力,DDPG算法加入了随机噪声项,一定程度上防止模型陷入局部最优。总的来说,DDPG算法是一种无模型的、离策略的Actor-Critic算法,它结合了DQN和DPG的优点,可以使用神经网络在高维连续动作空间学习策略的同时逼近Q值函数。
为解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题,本发明提供的基于文本信息的深度强化学习交互式推荐方法,如图1所示,包括:数据预处理阶段和强化学习交互式推荐阶段;
数据预处理阶段包括:
根据商品的描述信息和评论信息将各商品转换为对应的商品向量;
基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量;
根据用户向量对用户进行聚类,得到用户类别信息;
强化学习交互式推荐阶段包括:
基于DDPG为每个用户类别Cl建立推荐模型,并建立一个与各推荐模型进行交互的全局的环境模拟器;
对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t);推荐模型Recl中的策略网络以第t轮交互中用户ui的状态st为输入,得到用于计算商品得分的策略向量pt后,根据pt从动作候选集Can(ui,t)中选取得分最高的部分商品作为动作向量at;推荐模型Recl中的估值网络以策略向量pt和状态st的组合为输入,计算出相应的Q值,用于评价策略向量pt的优劣;
在每一轮交互中,推荐模型通过与环境模拟器交互,使得环境模拟器计算出相应的反馈奖励值,并更新当前用户的状态,作为该用户在下一轮交互中的状态;反馈奖励值输出至估值网络,从而对估值网络进行矫正,使得估值网络输出的Q值与反馈奖励值正相关;估值网络输出的Q值反向传导至策略网络,从而调整策略网络,以获得更优的策略向量;
其中,i为用户编号,ui表示对应的用户;正评分大于预设的评分阈值yb,负评分小于或等于评分阈值yb,正样本和负样本分别对应具有正评分和负评分的商品。
上述基于文本信息的深度强化学习交互式推荐方法,利用词向量处理方法,将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化,并以此为基础,分别构造出商品向量和用户向量,将待推荐的商品和用户映射到同一特征空间,有效缓解了数据稀疏性问题,提高了推荐准确度;通过对用户聚类,在每个聚类内部进行强化学习,并混合正样本、负样本和随机样本构造了动作候选集,有效减小了动作空间的规模,从而能够提高推荐效率。
在一个可选的实施方式中,上述基于文本信息的深度强化学习交互式推荐方法中,根据商品的描述信息将各商品转换为对应的商品向量,包括:
对于任意第j个商品mj,获得其相关的描述信息和评论信息后,滤除其中的停用词,结合预训练词向量库,获得剩余单词的词向量;具体可以结合停用词过滤停用词,词向量可以是从大型语料库中预先训练得到的;针对某个商品,在其相关的描述信息和评论信息中滤除停用词后,剩下的即为有意义的单词;词向量本身支持加减运算,且具有相近词汇欧氏距离更小的特性,因此可以使用某一商品描述信息和评论信息包含的有意义的词进行加和平均;
按照
Figure BDA0002319236390000121
计算商品mj的商品向量
Figure BDA0002319236390000123
其中,nd和nr分别代表滤除停用词之后的描述信息和评论信息中包含的单词数量,在单词统计的过程中不作去重处理,词的重复代表某个词的重要程度,在计算商品向量的过程中,不作去重处理,使得所构建的商品向量能够准确地刻画商品属性;wp和wq分别表示描述信息和评论信息中的词向量;β表示商品描述信息所占比重,0<β<1,β的具体取值可根据商品属性与描述信息和评论信息之间的相关程度灵活调整。
在一个可选的实施方式中,上述基于文本信息的深度强化学习交互式推荐方法中,基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量,包括:
对于任意第i个用户ui,获得其历史记录具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p;根据商品权重对商品集合Vi p中的商品向量进行加权平均,得到用户ui的用户向量为:
Figure BDA0002319236390000122
其中,n表示商品集合Vi p的大小,vmj表示其中第j个商品mj的商品向量;
使用用户记录中具有正评分的商品的加权平均来代表用户,一方面使用了文本信息(即用户记录),另一方面将商品和用户映射到了同一特征空间。
在一个可选的实施方式中,上述基于文本信息的深度强化学习交互式推荐方法中,对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t),包括:
从用户ui的历史记录中获得具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p,并从用户ui的历史记录中获得具有负评分的所有商品,利用对应的商品向量构成商品集合Vi n
Figure BDA0002319236390000131
若|Vi p|>np,则从商品集合Vi p中随机选择np个样本作为动作候选集Can(ui,t)中的正样本;否则,将商品集合Vi p中的全部样本作为Can(ui,t)中的正样本,且按照np=|Vi p|对np进行更新;
Figure BDA0002319236390000133
若|Vi n|>nn,则从商品集合Vi n中随机选择nn个样本为动作候选集Can(ui,t)中的负样本;否则,将商品集合Vi n中的全部样本作为Can(ui,t)中的负样本,并对动作候选集Can(ui,t)中的负样本进行补充,直至动作候选集Can(ui,t)中负样本的数目等于nn
令no=nc-np-nn,从剩下的商品向量中随机抽取no个作为动作候选集Can(ui,t)中的随机样本,完成动作候选集的构建;
其中,nc表示预设的动作候选集大小,
Figure BDA0002319236390000132
表示向下取整,α表示动作候选集中正样本的比例上限,|Vi p|和|Vi n|分别表示商品集合Vi p和Vi n的大小;
以正样本、负样本和随机样本混合的方式进行采样,构造候选集,直接缩小了动作空间的规模,有效提高了推荐效率;
作为一个优选的实施方式,在本实施例中,对候选集中的负样本数量进行补充,包括:
获得与用户ui所属的第一用户类别距离最远的第二用户类别,并随机获得第二用户类别中用户的正样本,若该正样本不属于商品集合Vi p,则将其作为用户ui的负样本,加入到动作候选集Can(ui,t)中;
本实施例以正、负样本混合的方式进行采样,构造候选集,直接缩小了动作空间的规模,有效提高了推荐效率;逆向应用协同过滤的思想,在用户聚类完成之后,对于任意两个用户,其相距越远他们的共同点就越少,那么其中一个用户喜欢的恰恰是另一个用户不喜欢的概率就越大,本实施例基于这一思想,在负样本不足时,以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本,能够解决样本数据量不足的问题,同时简化负样本的生成过程;应当说明的是,这种逆向应用协同过滤思想的负样本填充方法仅为本发明的一种优选实施方式,而不应理解为对本发明的唯一限定,其他的负样本填充方式,例如,基于生成对抗网络(GAN)的模拟器,以生成以假乱真的数据,同样可以应用于本发明。
在本实施例中,结合大规模离散Top-k推荐的特点,基于文本信息和成熟的DDPG强化模型,提出一种新的应用于商品推荐的推荐方法TDDPG-Rec,如图2所示,该推荐模型中的策略网络包括:第一多层感知机和策略层;
第一多层感知机用于根据当前的用户状态预测用户对商品特征中各个维度的偏好程度,从而得到策略向量;策略层用于根据第一多层感知机输出的策略向量,计算用户候选集中各样本的得分,并按照得分从高到低的顺序选取候选集中得分最高的K个样本,作为动作向量;
推荐模型中的估值网络包括:第二多层感知机;
第二多层感知机用于根据当前的用户状态和第一多层感知机输出的策略向量计算Q值,并根据环境模拟器输出的反馈奖励值调整Q值。
本实施例所构建的推荐模型由策略网络产生动作,其动作是连续的,多用于连续动作的强化学习模型,能应对大规模连续动作空间的最优策略学习的问题;本发明设计了策略向量,策略向量的形式不同于其他强化学习的应用,策略向量的维度与单个商品向量的维度一致,其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好,使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量,将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来,能够缓解动作空间庞大且离散的问题;右侧的估值网络,根据该动作作用于环境返回的奖励值调整Q值,用以评估策略网络产生动作的好坏;
可选地,对于候选集中的任意第j的样本(即商品向量
Figure BDA0002319236390000154
),利用策略向量与对应的商品向量作点乘即可得到相应的得分为:
Figure BDA0002319236390000155
,Scorej表示样本得分,pt表示策略向量;
以图3为例,被推荐商品为电影,从描述信息和评论信息中获取到导演、题材、演员相关的单词,并转换为词向量,即将电影映射到特征空间后,得到各电影的商品向量;利用策略网络得到的策略向量与各电影的商品向量进行点乘,即可得到各电影的得分;
为了进一步提高推荐准确度,策略层在计算候选集样本得分之前,还可先在(0~1)的范围内,随机改变策略向量中部分维度的值;之后利用随机改变后的策略向量与样本对应的商品向量点乘,从而得到样本的得分;
在利用策略向量计算候选集中样本的得分之前,先随机改变策略向量的部分维度,增强了泛化能力和不确定性,有利于提高推荐准确度。
在本实施例中,环境模拟器根据
Figure BDA0002319236390000151
计算反馈奖励值;
其中,
Figure BDA0002319236390000152
表示反馈奖励值;k表示动作向量at中样本得分的排名,wk为对应的样本权重;j为商品编号,mj表示对应的商品,ri,j为用户ui对商品mj的奖励值;
权重wk可借鉴DCG方法设计为:wk=1/log2(k+1);同样,此处的权重设计仅为一种示例性说明,实际应用时,也可以采用其他权重设计方式;
则根据用户的历史记录中的商品评分确定,在本实施例中,
Figure BDA0002319236390000153
其中,正历史记录为商品评分大于评分阈值yb的历史记录,负历史记录为商品评分小于等于评分阈值的历史记录,yi,j为用户ui对商品mj的评分。
在本实施例中,对于任意一个用户类别,建立推荐模型后,利用其中各用户的候选集依次对所建立的推荐模型进行训练的具体过程如图4所示,简洁起见,将策略网络(Actor)和估值网络(Critic)合并在一起,将当前的称为主网络,另一个称为目标网络;主网络和目标网络结构一致,两个网络的参数异步更新,每隔n时间步将主网络的参数向目标网络复制一次。基于TDDPG-Rec方法的模型训练依赖存放强化学习历史交互数据的回放记忆单元,首先使用随机的初始参数填充回放记忆单元,然后每次从回放记忆单元选择一个批次的数据进行模型的训练,并更新回放记忆单元。
Critic网络部分致力于缩小当前Q值和预期Q值之间的差距,这个差距通过公式
Figure BDA0002319236390000161
衡量;其中,si和pi分别是当前批次中第i个状态和策略向量,Q是当前估值网络(即主网络中的估值网络),对应的Q'是目标估值网络(即目标网络中的估值网络),θQ和θQ'分别是它们的参数;n′是一次选择的一批数据的数目,yi是期望的累计回报,可以由贝尔曼方程得到,即yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),其中μ是当前策略网络,对应的μ′是目标策略网络,θμ′和θμ′分别是它们的参数,γ是回报递减因子。
Actor网络的目标是通过调整策略向量p,以最大化Q值,使用采样策略梯度的方法,优化函数为
Figure BDA0002319236390000162
其中,
Figure BDA0002319236390000163
Figure BDA0002319236390000164
分别表示优化函数J在参数θμ上的梯度和估值网络Q在策略向量p上的梯度;
基于深度强化学习模型建立的推荐模型经过与模拟器的多轮交互学习,模型损失会逐渐稳定,从而可以获得针对该用户类别的推荐模型,即该用户类别的目标推荐模型。对于其他用户类别,仅需更改数据和重新初始化环境,然后重复训练过程。
在本实施例中,如图5所示,模拟器通过与推荐模型的交互确定动作向量作用于环境后用户的状态,包括:
将在动作向量at中出现,而未在当前的用户状态st中出现的商品向量定义为向量at′:向量at′中商品向量的相对位置顺序与动作向量at一致;
将向量at′和状态st首尾拼接后,利用预设的滑动窗口从拼接所得向量中截取部分商品向量;
将截取到的商品向量确定为动作向量作用于环境后用户的状态st+1
其中,用户的状态为用户最偏好的多个商品向量构成的向量;滑动窗口的长度与用户状态所包含的商品向量个数一致;
模拟器基于滑动窗口的思想,能够在对用户状态进行更新的过程中,对更新前后的状态所包含的商品向量进行去重,从而能够尽可能覆盖用户交互过的所有商品,增强商品的多样性,提高推荐准确度。
本发明还提供了一种系统,包括:计算机可读存储介质和处理器;
计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行上述基于文本信息的深度强化学习交互式推荐方法及系统。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于文本信息的深度强化学习交互式推荐方法,其特征在于,包括:数据预处理阶段和强化学习交互式推荐阶段;
所述数据预处理阶段包括:
根据商品的描述信息和评论信息将各商品转换为对应的商品向量;
基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量;
根据用户向量对用户进行聚类,得到用户类别信息;
所述强化学习交互式推荐阶段包括:
基于DDPG为每个用户类别Cl建立推荐模型,并建立一个与各推荐模型进行交互的全局的环境模拟器;
对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t);推荐模型Recl中的策略网络以第t轮交互中用户ui的状态st为输入,得到用于计算商品得分的策略向量pt后,根据策略向量pt从动作候选集Can(ui,t)中选取得分最高的部分商品作为动作向量at;推荐模型Recl中的估值网络以策略向量pt和状态st的组合为输入,计算出相应的Q值,用于评价策略向量pt的优劣;
在每一轮交互中,推荐模型通过与环境模拟器交互,使得环境模拟器计算出相应的反馈奖励值,并更新当前用户的状态,作为该用户在下一轮交互中的状态;反馈奖励值输出至估值网络,从而对估值网络进行矫正,使得估值网络输出的Q值与反馈奖励值正相关;估值网络输出的Q值反向传导至策略网络,从而调整策略网络,以获得更优的策略向量;
其中,i为用户编号,ui表示对应的用户;正评分大于预设的评分阈值yb,负评分小于或等于评分阈值yb,正样本和负样本分别对应具有正评分和负评分的商品。
2.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,根据商品的描述信息将各商品转换为对应的商品向量,包括:
对于任意第j个商品mj,获得其相关的描述信息和评论信息后,滤除其中的停用词,结合预训练词向量库,获得剩余单词的词向量;
按照
Figure FDA0002319236380000021
计算所述商品mj的商品向量
Figure FDA0002319236380000022
其中,nd和nr分别代表滤除停用词之后的描述信息和评论信息中包含的单词数量,在单词统计的过程中不作去重处理;wp和wq分别表示描述信息和评论信息中的词向量;β表示商品描述信息所占比重,0<β<1。
3.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量,包括:
对于任意第i个用户ui,获得其历史记录具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p;根据商品权重对商品集合Vi p中的商品向量进行加权平均,得到所述用户ui的用户向量为:
Figure FDA0002319236380000023
其中,n表示商品集合Vi p的大小,
Figure FDA0002319236380000024
表示其中第j个商品mj的商品向量。
4.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t),包括:
从用户ui的历史记录中获得具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p,并从用户ui的历史记录中获得具有负评分的所有商品,利用对应的商品向量构成商品集合Vi n
Figure FDA0002319236380000031
若|Vi p|>np,则从商品集合Vi p中随机选择np个样本作为动作候选集Can(ui,t)中的正样本;否则,将商品集合Vi p中的全部样本作为Can(ui,t)中的正样本,且按照np=|Vi p|对np进行更新;
Figure FDA0002319236380000032
若|Vi n|>nn,则从商品集合Vi n中随机选择nn个样本为动作候选集Can(ui,t)中的负样本;否则,将商品集合Vi n中的全部样本作为Can(ui,t)中的负样本,并对动作候选集Can(ui,t)中的负样本进行补充,直至动作候选集Can(ui,t)中负样本的数目等于nn
令no=nc-np-nn,从剩下的商品向量中随机抽取no个作为动作候选集Can(ui,t)中的随机样本,完成动作候选集的构建;
其中,nc表示预设的动作候选集大小,
Figure FDA0002319236380000033
表示向下取整,α表示动作候选集中正样本的比例上限,|Vi p|和|Vi n|分别表示商品集合Vi p和Vi n的大小。
5.如权利要求4所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,对动作候选集Can(ui,t)中的负样本进行补充,包括:
获得与用户ui所属的第一用户类别距离最远的第二用户类别,并随机获得所述第二用户类别中用户的正样本,若该正样本不属于商品集合Vi p,则将其作为用户ui的负样本,加入到动作候选集Can(ui,t)中。
6.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,
推荐模型中的策略网络包括:第一多层感知机和策略层;
所述第一多层感知机用于根据当前的用户状态预测用户对商品特征中各个维度的偏好程度,从而得到策略向量;所述策略层用于根据所述第一多层感知机输出的策略向量,计算用户候选集中各样本的得分,并按照得分从高到低的顺序选取候选集中得分最高的K个样本,作为动作向量;
推荐模型中的估值网络包括:第二多层感知机;
所述第二多层感知机用于根据当前的用户状态和所述第一多层感知机输出的策略向量计算Q值,并根据环境模拟器输出的反馈奖励值调整Q值。
7.如权利要求6所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,所述环境模拟器根据
Figure FDA0002319236380000041
计算反馈奖励值;
其中,
Figure FDA0002319236380000042
表示反馈奖励值;k表示动作向量at中样本得分的排名,wk为对应的样本权重;j为商品编号,mj表示对应的商品,ri,j为用户ui对商品mj的奖励值。
8.如权利要求6所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,所述策略层根据所述第一多层感知机输出的策略向量,计算动作候选集中样本的得分,包括:
在(0~1)的范围内,随机改变策略向量中部分维度的值;
利用随机改变后的策略向量与样本对应的商品向量点乘,从而得到样本的得分。
9.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,模拟器通过与推荐模型的交互确定动作向量作用于环境后用户的状态,包括:
将在动作向量at中出现,而未在当前的用户状态st中出现的商品向量定义为向量at′:向量at′中商品向量的相对位置顺序与动作向量at一致;
将向量at′和状态st首尾拼接后,利用预设的滑动窗口从拼接所得向量中截取部分商品向量;
将截取到的商品向量确定为当前用户在下一轮交互中的状态st+1
其中,用户的状态为用户可能感兴趣的一组商品的向量组合。
10.一种系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行程序;
所述处理器用于读取所述计算机可读存储介质中存储的可执行程序,执行权利要求1-9任一项所述的基于文本信息的深度强化学习交互式推荐方法及系统。
CN201911297092.3A 2019-12-16 2019-12-16 一种基于文本信息的深度强化学习交互式推荐方法及系统 Active CN111104595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911297092.3A CN111104595B (zh) 2019-12-16 2019-12-16 一种基于文本信息的深度强化学习交互式推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911297092.3A CN111104595B (zh) 2019-12-16 2019-12-16 一种基于文本信息的深度强化学习交互式推荐方法及系统

Publications (2)

Publication Number Publication Date
CN111104595A CN111104595A (zh) 2020-05-05
CN111104595B true CN111104595B (zh) 2023-04-07

Family

ID=70423464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911297092.3A Active CN111104595B (zh) 2019-12-16 2019-12-16 一种基于文本信息的深度强化学习交互式推荐方法及系统

Country Status (1)

Country Link
CN (1) CN111104595B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737579B (zh) * 2020-06-28 2024-06-25 北京达佳互联信息技术有限公司 对象推荐方法、装置及电子设备、存储介质
CN113780317A (zh) * 2020-08-27 2021-12-10 北京同邦卓益科技有限公司 行为方式预测方法及装置、存储介质、电子设备
CN112307343B (zh) * 2020-11-05 2023-04-07 重庆邮电大学 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法
CN113763093A (zh) * 2020-11-12 2021-12-07 北京沃东天骏信息技术有限公司 一种基于用户画像的物品推荐方法和装置
CN112837116A (zh) * 2021-01-13 2021-05-25 中国农业银行股份有限公司 一种产品推荐方法及装置
CN112883262B (zh) * 2021-02-04 2022-04-26 西南交通大学 一种基于深度强化学习的日程安排推荐方法
CN113282787B (zh) * 2021-05-24 2022-01-04 暨南大学 一种基于强化学习的个性化短视频推荐方法以及系统
CN113449183B (zh) * 2021-06-18 2022-07-12 华中科技大学 基于离线用户环境和动态奖励的交互式推荐方法和系统
CN113688306A (zh) * 2021-06-29 2021-11-23 中国电信集团系统集成有限责任公司 一种基于强化学习的推荐策略生成方法及装置
CN113505210B (zh) * 2021-07-12 2022-06-14 广东工业大学 一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统
CN114090888B (zh) * 2021-11-19 2022-08-26 恒生电子股份有限公司 服务模型构建方法及相关装置
CN113961674B (zh) * 2021-12-21 2022-03-22 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN115913830A (zh) * 2022-04-21 2023-04-04 东南大学 一种智能反射面辅助的mimo通信系统的信道估计方法
CN114879742B (zh) * 2022-06-17 2023-07-04 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN116452169B (zh) * 2023-06-14 2023-11-24 北京华品博睿网络技术有限公司 一种在线招聘生成式推荐系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515909A (zh) * 2017-08-11 2017-12-26 深圳市耐飞科技有限公司 一种视频推荐方法及系统
CN109062919A (zh) * 2018-05-31 2018-12-21 腾讯科技(深圳)有限公司 一种基于深度强化学习的内容推荐方法及装置
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN109978660A (zh) * 2019-03-13 2019-07-05 南京航空航天大学 一种基于强化学习框架的推荐系统离线训练方法
WO2019164064A1 (ko) * 2018-02-26 2019-08-29 (주)헬스허브 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190272465A1 (en) * 2018-03-01 2019-09-05 International Business Machines Corporation Reward estimation via state prediction using expert demonstrations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515909A (zh) * 2017-08-11 2017-12-26 深圳市耐飞科技有限公司 一种视频推荐方法及系统
WO2019164064A1 (ko) * 2018-02-26 2019-08-29 (주)헬스허브 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
CN109062919A (zh) * 2018-05-31 2018-12-21 腾讯科技(深圳)有限公司 一种基于深度强化学习的内容推荐方法及装置
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN109978660A (zh) * 2019-03-13 2019-07-05 南京航空航天大学 一种基于强化学习框架的推荐系统离线训练方法

Also Published As

Publication number Publication date
CN111104595A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111104595B (zh) 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN110162703B (zh) 内容推荐方法、训练方法、装置、设备及存储介质
US11003994B2 (en) Evolutionary architectures for evolution of deep neural networks
US11250328B2 (en) Cooperative evolution of deep neural network structures
CN107563841B (zh) 一种基于用户评分分解的推荐系统
Lawrence et al. Non-linear matrix factorization with Gaussian processes
CN112967088A (zh) 基于知识蒸馏的营销活动预测模型结构和预测方法
CN114036406A (zh) 一种基于图对比学习和社交网络增强的推荐方法及系统
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
CN109710835B (zh) 一种带有时间权重的异构信息网络推荐方法
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN114202061A (zh) 基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质
CN110222838B (zh) 文档排序方法、装置、电子设备及存储介质
CN116542720B (zh) 一种基于图卷积网络的时间增强信息序列推荐方法及系统
CN110727872A (zh) 基于隐式反馈进行不明确选择行为挖掘的方法及装置
CN114417058A (zh) 一种视频素材的筛选方法、装置、计算机设备和存储介质
CN111984842A (zh) 银行客户数据处理方法及装置
CN111353525A (zh) 一种不均衡不完整数据集的建模及缺失值填补方法
Ho NBDT: Neural-backed decision trees
Liu Restricted Boltzmann machine collaborative filtering recommendation algorithm based on project tag improvement
CN111612572A (zh) 一种基于推荐系统的自适应局部低秩矩阵近似建模方法
Al Ali et al. Enhancing financial distress prediction through integrated Chinese Whisper clustering and federated learning
Poulakis Unsupervised AutoML: a study on automated machine learning in the context of clustering
CN118296222A (zh) 交互参数处理方法、装置、计算机设备和存储介质
Malondkar Extending the Growing Hierarchical Self Organizing Maps for a Large Mixed-Attribute Dataset Using Spark MapReduce

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant