CN111104595B - 一种基于文本信息的深度强化学习交互式推荐方法及系统 - Google Patents
一种基于文本信息的深度强化学习交互式推荐方法及系统 Download PDFInfo
- Publication number
- CN111104595B CN111104595B CN201911297092.3A CN201911297092A CN111104595B CN 111104595 B CN111104595 B CN 111104595B CN 201911297092 A CN201911297092 A CN 201911297092A CN 111104595 B CN111104595 B CN 111104595B
- Authority
- CN
- China
- Prior art keywords
- commodity
- user
- vector
- strategy
- recommendation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000002787 reinforcement Effects 0.000 title claims abstract description 64
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 190
- 230000009471 action Effects 0.000 claims abstract description 85
- 230000003993 interaction Effects 0.000 claims abstract description 24
- 230000000875 corresponding effect Effects 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 6
- 239000000523 sample Substances 0.000 description 47
- 230000000694 effects Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012468 concentrated sample Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本信息的深度强化学习交互式推荐方法及系统,属于交互式个性化推荐领域,包括:基于文本信息将商品和用户分别转换为商品向量和用户向量,并对用户进行聚类;基于DDPG为每个用户类别建立推荐模型,并建立全局的环境模拟器;对于任意一个推荐模型,在第t轮交互中,构建动作候选集Can(ui,t);策略网络以当前用户的状态st为输入,得到策略向量pt后,根据pt从Can(ui,t)中选出动作向量at;估值网络以pt和st为输入,计算Q值,用于评价pt的优劣;每一轮交互中,环境模拟器计算反馈奖励值,并更新当前用户的状态;反馈奖励值输出至估值网络,矫正估值网络,Q值反向传导至策略网络,调整策略网络,以获得更优的策略向量。本发明能够提高推荐效率和推荐准确度。
Description
技术领域
本发明属于交互式个性化推荐领域,更具体地,涉及一种基于文本信息的深度强化学习交互式推荐方法及系统。
背景技术
随着互联网信息量的迅速增长,信息之间的差异也在不断增加,与此同时用户对差异信息的不同选择也表现出了明显的聚类特征。为了持续个性化地推荐,出现了一系列交互式推荐系统(Interactive Recommender System,IRS)的研究成果。强化学习可以在动态交互过程中持续学习并使回报最大化,使其最近在IRS中引起了广泛关注。
强化学习是机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习求解最优策略的过程非常类似于人类学习的过程,其通过与环境的交互和试错,不断改进自身策略,获取更大的奖励。强化学习与机器学习中的其他领域的主要区别在于,强化学习是一个主动学习的过程,没有特定的训练数据,智能体需要在不断与环境交互的过程中获得样本;在强化学习中,奖励承担了监督信号的作用,智能体依据奖励进行策略优化。近年来,强化学习与深度神经网络进行了广泛结合,产生了一个交叉领域,被称为深度强化学习(Deep Reinforcement Learning,DRL),由于深度学习对复杂的高维数据具有良好的感知能力,而强化学习适用于进行策略学习,因此将二者结合产生的DRL算法同时具有感知复杂输入和进行决策的能力。
虽然深度强化学习能够在一些任务中取得很好的效果,但是,深度强化学习在IRS下的应用通常面临离散动作空间过大的问题,这使得现在大多数基于强化学习的推荐方法效率低下。此外,随着数据稀疏性的增加,仅使用对稀疏性敏感的评分矩阵或者交互矩阵会使推荐效果急剧下降。总的来说,现有的采用深度强化学习的推荐方法,普遍存在效率低下、推荐效果差的问题。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于文本信息的深度强化学习交互式推荐方法及系统,其目的在于,解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。
为实现上述目的,按照本发明的第一方面,提供了一种基于文本信息的深度强化学习交互式推荐方法,包括:数据预处理阶段和强化学习交互式推荐阶段;
数据预处理阶段包括:
根据商品的描述信息和评论信息将各商品转换为对应的商品向量;
基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量;
根据用户向量对用户进行聚类,得到用户类别信息;
强化学习交互式推荐阶段包括:
基于DDPG为每个用户类别Cl建立推荐模型,并建立一个与各推荐模型进行交互的全局的环境模拟器;
对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t);推荐模型Recl中的策略网络以第t轮交互中用户ui的状态st为输入,得到用于计算商品得分的策略向量pt后,根据pt从动作候选集Can(ui,t)中选取得分最高的部分商品作为动作向量at;推荐模型Recl中的估值网络以策略向量pt和状态st的组合为输入,计算出相应的Q值,用于评价策略向量pt的优劣;
在每一轮交互中,推荐模型通过与环境模拟器交互,使得环境模拟器计算出相应的反馈奖励值,并更新当前用户的状态,作为该用户在下一轮交互中的状态;反馈奖励值输出至估值网络,从而对估值网络进行矫正,使得估值网络输出的Q值与反馈奖励值正相关;估值网络输出的Q值反向传导至策略网络,从而调整策略网络,以获得更优的策略向量;
其中,i为用户编号,ui表示对应的用户;正评分大于预设的评分阈值yb,负评分小于或等于评分阈值yb,正样本和负样本分别对应具有正评分和负评分的商品。
本发明结合大规模离散Top-k推荐的特点,基于文本信息和成熟的DDPG(DeepDeterministic Policy Gradient)强化模型,提出一种新的应用于商品推荐的模型TDDPG-Rec(Text-based Deep Deterministic Policy Gradient for Recommendation);利用词向量处理方法,将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化,并以此为基础,分别构造出商品向量和用户向量,将待推荐的商品和用户映射到同一特征空间,有效缓解了数据稀疏性问题,提高了推荐准确度;通过对用户聚类,在每个聚类内部进行强化学习,并利用正样本、负样本和随机样本构造了动作候选集,有效减小了动作空间的规模,从而能够提高推荐效率。总的来说,本发明能够有效解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。
进一步地,根据商品的描述信息将各商品转换为对应的商品向量,包括:
对于任意第j个商品mj,获得其相关的描述信息和评论信息后,滤除其中的停用词,结合预训练词向量库,获得剩余单词的词向量;
其中,nd和nr分别代表滤除停用词之后的描述信息和评论信息中包含的单词数量,在单词统计的过程中不作去重处理;wp和wq分别表示描述信息和评论信息中的词向量;β表示商品描述信息所占比重,0<β<1。
本发明将商品的描述信息和评论信息包含的有意义的词进行加权平均,得到了商品向量,词的重复代表某个词的重要程度,在计算商品向量的过程中,不作去重处理,使得所构建的商品向量能够准确地刻画商品属性。
进一步地,基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量,包括:
本发明使用用户记录中具有正评分的商品的加权平均来代表用户,一方面使用了文本信息(即用户记录),另一方面将商品和用户映射到了同一特征空间。
进一步地,对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t),包括:
从用户ui的历史记录中获得具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p,并从用户ui的历史记录中获得具有负评分的所有商品,利用对应的商品向量构成商品集合Vi n;
令若|Vi p|>np,则从商品集合Vi p中随机选择np个样本作为动作候选集Can(ui,t)中的正样本;否则,将商品集合Vi p中的全部样本作为Can(ui,t)中的正样本,且按照np=|Vi p|对np进行更新;
令若|Vi n|>nn,则从商品集合Vi n中随机选择nn个样本为动作候选集Can(ui,t)中的负样本;否则,将商品集合Vi n中的全部样本作为Can(ui,t)中的负样本,并对动作候选集Can(ui,t)中的负样本进行补充,直至动作候选集Can(ui,t)中负样本的数目等于nn;
令no=nc-np-nn,从剩下的商品向量中随机抽取no个作为动作候选集Can(ui,t)中的随机样本,完成动作候选集的构建;
本发明以正样本、负样本和随机样本混合的方式进行采样,构造候选集,直接缩小了动作空间的规模,有效提高了推荐效率。
进一步地,对动作候选集Can(ui,t)中的负样本进行补充,包括:
获得与用户ui所属的第一用户类别距离最远的第二用户类别,并随机获得第二用户类别中用户的正样本,若该正样本不属于商品集合Vi p,则将其作为用户ui的负样本,加入到动作候选集Can(ui,t)中。
本发明逆向应用协同过滤的思想,在负样本不足时,以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本,能够解决样本数据量不足的问题,同时简化负样本的生成过程。
进一步地,推荐模型中的策略网络包括:第一多层感知机和策略层;
第一多层感知机用于根据当前的用户状态预测用户对商品特征中各个维度的偏好程度,从而得到策略向量;策略层用于根据第一多层感知机输出的策略向量,计算用户候选集中各样本的得分,并按照得分从高到低的顺序选取候选集中得分最高的K个样本,作为动作向量;
推荐模型中的估值网络包括:第二多层感知机;
第二多层感知机用于根据当前的用户状态和第一多层感知机输出的策略向量计算Q值,并根据环境模拟器输出的反馈奖励值调整Q值。
本发明所构建的推荐模型由策略网络产生动作,其动作是连续的,多用于连续动作的强化学习模型,能应对大规模连续动作空间的最优策略学习的问题;本发明设计了策略向量,策略向量的形式不同于其他强化学习的应用,策略向量的维度与单个商品向量的维度一致,其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好,使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量,将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来,能够缓解动作空间庞大且离散的问题;右侧的估值网络,根据该动作作用于环境返回的奖励值调整Q值,用以评估策略网络产生动作的好坏。
进一步地,wk=1/log2(k+1);
其中,正历史记录为商品评分大于评分阈值yb的历史记录,负历史记录为商品评分小于等于评分阈值的历史记录,yi,j为用户ui对商品mj的评分。
进一步地,策略层根据第一多层感知机输出的策略向量,计算动作候选集中样本的得分,包括:
在(0~1)的范围内,随机改变策略向量中部分维度的值;
利用随机改变后的策略向量与样本对应的商品向量点乘,从而得到样本的得分。
本发明在利用策略向量计算候选集中样本的得分之前,先随机改变策略向量的部分维度,增强了泛化能力和不确定性,有利于提高推荐准确度。
进一步地,模拟器通过与推荐模型的交互确定动作向量作用于环境后用户的状态,包括:
将在动作向量at中出现,而未在当前的用户状态st中出现的商品向量定义为向量at′:向量at′中商品向量的相对位置顺序与动作向量at一致;
将向量at′和状态st首尾拼接后,利用预设的滑动窗口从拼接所得向量中截取部分商品向量;
将截取到的商品向量确定为动作向量作用于环境后用户的状态st+1;
其中,用户的状态为用户可能感兴趣的一组商品的向量组合。
本发明中,模拟器基于滑动窗口的思想,达到了在用户当前状态和动作向量作用于环境后用户的状态之间进行去重的效果,能够尽可能覆盖用户交互过的所有商品,增强商品的多样性,提高推荐准确度。
按照本发明的第二方面,提供了一种系统,包括:计算机可读存储介质和处理器;
计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行本发明第一方面提供的基于文本信息的深度强化学习交互式推荐方法及系统。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,利用词向量处理方法,将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化,并以此为基础,分别构造出商品向量和用户向量,将待推荐的商品和用户映射到同一特征空间,有效缓解了数据稀疏性问题,提高了推荐准确度;通过对用户聚类,在每个聚类内部进行强化学习,并混合正样本、负样本和随机样本,构造了动作候选集,有效减小了动作空间的规模,从而能够提高推荐效率。总的来说,本发明能够有效解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。
(2)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,以正样本、负样本和随机样本混合的方式进行采样,构造候选集,直接缩小了动作空间的规模,有效提高了推荐效率;在其优选方案中,逆向应用协同过滤的思想,在负样本不足时,以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本,能够解决样本数据量不足的问题,同时简化负样本的生成过程。
(3)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,在所建立的推荐模型中,设计了策略向量,其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好,使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量,将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来,能够缓解动作空间庞大且离散的问题,提高推荐效率。
(4)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,在利用策略向量计算候选集中样本的得分之前,先随机改变策略向量的部分维度,增强了泛化能力和不确定性,有利于提高推荐准确度。
(5)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统,模拟器基于滑动窗口的思想,达到了在用户当前状态和动作向量作用于环境后用户的状态之间进行去重的效果,能够尽可能覆盖用户交互过的所有商品,增强商品的多样性,提高推荐准确度。
附图说明
图1为本发明实施例提供的基于文本信息的深度强化学习交互式推荐方法示意图;
图2为本发明实施例提供的推荐模型及模拟器示意图;
图3为本发明实施例提供的策略向量示意图;
图4为本发明实施例提供的模型训练示意图;
图5为本发明实施例提供的状态更新示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在详细解释本发明的技术方案之前,先对DDPG模型进行简要介绍。DDPG模型在传统AC(Actor-Critic)模型的基础上进行了改良,不同于AC模型采用的随机策略梯度的方式,DDPG模型沿用DPG(Deterministic Policy Gradient)的确定策略梯度方法进行策略求解。同时,对深度神经网络进行训练的时假设输入的数据之间是独立同分布的,然而强化学习的数据是顺序采集的,其间存在马尔科夫性,不满足独立同分布的假设。因此,当利用深度神经网络进行函数逼近的时候,强化学习算法稳定性不足。为了打破数据之间的相关性,DQN使用了回放记忆单元和目标网络,DDPG的算法将它们应用到了DPG算法中。此外,为了增强模型的探索能力,DDPG算法加入了随机噪声项,一定程度上防止模型陷入局部最优。总的来说,DDPG算法是一种无模型的、离策略的Actor-Critic算法,它结合了DQN和DPG的优点,可以使用神经网络在高维连续动作空间学习策略的同时逼近Q值函数。
为解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题,本发明提供的基于文本信息的深度强化学习交互式推荐方法,如图1所示,包括:数据预处理阶段和强化学习交互式推荐阶段;
数据预处理阶段包括:
根据商品的描述信息和评论信息将各商品转换为对应的商品向量;
基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量;
根据用户向量对用户进行聚类,得到用户类别信息;
强化学习交互式推荐阶段包括:
基于DDPG为每个用户类别Cl建立推荐模型,并建立一个与各推荐模型进行交互的全局的环境模拟器;
对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t);推荐模型Recl中的策略网络以第t轮交互中用户ui的状态st为输入,得到用于计算商品得分的策略向量pt后,根据pt从动作候选集Can(ui,t)中选取得分最高的部分商品作为动作向量at;推荐模型Recl中的估值网络以策略向量pt和状态st的组合为输入,计算出相应的Q值,用于评价策略向量pt的优劣;
在每一轮交互中,推荐模型通过与环境模拟器交互,使得环境模拟器计算出相应的反馈奖励值,并更新当前用户的状态,作为该用户在下一轮交互中的状态;反馈奖励值输出至估值网络,从而对估值网络进行矫正,使得估值网络输出的Q值与反馈奖励值正相关;估值网络输出的Q值反向传导至策略网络,从而调整策略网络,以获得更优的策略向量;
其中,i为用户编号,ui表示对应的用户;正评分大于预设的评分阈值yb,负评分小于或等于评分阈值yb,正样本和负样本分别对应具有正评分和负评分的商品。
上述基于文本信息的深度强化学习交互式推荐方法,利用词向量处理方法,将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化,并以此为基础,分别构造出商品向量和用户向量,将待推荐的商品和用户映射到同一特征空间,有效缓解了数据稀疏性问题,提高了推荐准确度;通过对用户聚类,在每个聚类内部进行强化学习,并混合正样本、负样本和随机样本构造了动作候选集,有效减小了动作空间的规模,从而能够提高推荐效率。
在一个可选的实施方式中,上述基于文本信息的深度强化学习交互式推荐方法中,根据商品的描述信息将各商品转换为对应的商品向量,包括:
对于任意第j个商品mj,获得其相关的描述信息和评论信息后,滤除其中的停用词,结合预训练词向量库,获得剩余单词的词向量;具体可以结合停用词过滤停用词,词向量可以是从大型语料库中预先训练得到的;针对某个商品,在其相关的描述信息和评论信息中滤除停用词后,剩下的即为有意义的单词;词向量本身支持加减运算,且具有相近词汇欧氏距离更小的特性,因此可以使用某一商品描述信息和评论信息包含的有意义的词进行加和平均;
其中,nd和nr分别代表滤除停用词之后的描述信息和评论信息中包含的单词数量,在单词统计的过程中不作去重处理,词的重复代表某个词的重要程度,在计算商品向量的过程中,不作去重处理,使得所构建的商品向量能够准确地刻画商品属性;wp和wq分别表示描述信息和评论信息中的词向量;β表示商品描述信息所占比重,0<β<1,β的具体取值可根据商品属性与描述信息和评论信息之间的相关程度灵活调整。
在一个可选的实施方式中,上述基于文本信息的深度强化学习交互式推荐方法中,基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量,包括:
其中,n表示商品集合Vi p的大小,vmj表示其中第j个商品mj的商品向量;
使用用户记录中具有正评分的商品的加权平均来代表用户,一方面使用了文本信息(即用户记录),另一方面将商品和用户映射到了同一特征空间。
在一个可选的实施方式中,上述基于文本信息的深度强化学习交互式推荐方法中,对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t),包括:
从用户ui的历史记录中获得具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p,并从用户ui的历史记录中获得具有负评分的所有商品,利用对应的商品向量构成商品集合Vi n;
令若|Vi p|>np,则从商品集合Vi p中随机选择np个样本作为动作候选集Can(ui,t)中的正样本;否则,将商品集合Vi p中的全部样本作为Can(ui,t)中的正样本,且按照np=|Vi p|对np进行更新;
令若|Vi n|>nn,则从商品集合Vi n中随机选择nn个样本为动作候选集Can(ui,t)中的负样本;否则,将商品集合Vi n中的全部样本作为Can(ui,t)中的负样本,并对动作候选集Can(ui,t)中的负样本进行补充,直至动作候选集Can(ui,t)中负样本的数目等于nn;
令no=nc-np-nn,从剩下的商品向量中随机抽取no个作为动作候选集Can(ui,t)中的随机样本,完成动作候选集的构建;
以正样本、负样本和随机样本混合的方式进行采样,构造候选集,直接缩小了动作空间的规模,有效提高了推荐效率;
作为一个优选的实施方式,在本实施例中,对候选集中的负样本数量进行补充,包括:
获得与用户ui所属的第一用户类别距离最远的第二用户类别,并随机获得第二用户类别中用户的正样本,若该正样本不属于商品集合Vi p,则将其作为用户ui的负样本,加入到动作候选集Can(ui,t)中;
本实施例以正、负样本混合的方式进行采样,构造候选集,直接缩小了动作空间的规模,有效提高了推荐效率;逆向应用协同过滤的思想,在用户聚类完成之后,对于任意两个用户,其相距越远他们的共同点就越少,那么其中一个用户喜欢的恰恰是另一个用户不喜欢的概率就越大,本实施例基于这一思想,在负样本不足时,以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本,能够解决样本数据量不足的问题,同时简化负样本的生成过程;应当说明的是,这种逆向应用协同过滤思想的负样本填充方法仅为本发明的一种优选实施方式,而不应理解为对本发明的唯一限定,其他的负样本填充方式,例如,基于生成对抗网络(GAN)的模拟器,以生成以假乱真的数据,同样可以应用于本发明。
在本实施例中,结合大规模离散Top-k推荐的特点,基于文本信息和成熟的DDPG强化模型,提出一种新的应用于商品推荐的推荐方法TDDPG-Rec,如图2所示,该推荐模型中的策略网络包括:第一多层感知机和策略层;
第一多层感知机用于根据当前的用户状态预测用户对商品特征中各个维度的偏好程度,从而得到策略向量;策略层用于根据第一多层感知机输出的策略向量,计算用户候选集中各样本的得分,并按照得分从高到低的顺序选取候选集中得分最高的K个样本,作为动作向量;
推荐模型中的估值网络包括:第二多层感知机;
第二多层感知机用于根据当前的用户状态和第一多层感知机输出的策略向量计算Q值,并根据环境模拟器输出的反馈奖励值调整Q值。
本实施例所构建的推荐模型由策略网络产生动作,其动作是连续的,多用于连续动作的强化学习模型,能应对大规模连续动作空间的最优策略学习的问题;本发明设计了策略向量,策略向量的形式不同于其他强化学习的应用,策略向量的维度与单个商品向量的维度一致,其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好,使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量,将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来,能够缓解动作空间庞大且离散的问题;右侧的估值网络,根据该动作作用于环境返回的奖励值调整Q值,用以评估策略网络产生动作的好坏;
以图3为例,被推荐商品为电影,从描述信息和评论信息中获取到导演、题材、演员相关的单词,并转换为词向量,即将电影映射到特征空间后,得到各电影的商品向量;利用策略网络得到的策略向量与各电影的商品向量进行点乘,即可得到各电影的得分;
为了进一步提高推荐准确度,策略层在计算候选集样本得分之前,还可先在(0~1)的范围内,随机改变策略向量中部分维度的值;之后利用随机改变后的策略向量与样本对应的商品向量点乘,从而得到样本的得分;
在利用策略向量计算候选集中样本的得分之前,先随机改变策略向量的部分维度,增强了泛化能力和不确定性,有利于提高推荐准确度。
权重wk可借鉴DCG方法设计为:wk=1/log2(k+1);同样,此处的权重设计仅为一种示例性说明,实际应用时,也可以采用其他权重设计方式;
则根据用户的历史记录中的商品评分确定,在本实施例中,
其中,正历史记录为商品评分大于评分阈值yb的历史记录,负历史记录为商品评分小于等于评分阈值的历史记录,yi,j为用户ui对商品mj的评分。
在本实施例中,对于任意一个用户类别,建立推荐模型后,利用其中各用户的候选集依次对所建立的推荐模型进行训练的具体过程如图4所示,简洁起见,将策略网络(Actor)和估值网络(Critic)合并在一起,将当前的称为主网络,另一个称为目标网络;主网络和目标网络结构一致,两个网络的参数异步更新,每隔n时间步将主网络的参数向目标网络复制一次。基于TDDPG-Rec方法的模型训练依赖存放强化学习历史交互数据的回放记忆单元,首先使用随机的初始参数填充回放记忆单元,然后每次从回放记忆单元选择一个批次的数据进行模型的训练,并更新回放记忆单元。
Critic网络部分致力于缩小当前Q值和预期Q值之间的差距,这个差距通过公式衡量;其中,si和pi分别是当前批次中第i个状态和策略向量,Q是当前估值网络(即主网络中的估值网络),对应的Q'是目标估值网络(即目标网络中的估值网络),θQ和θQ'分别是它们的参数;n′是一次选择的一批数据的数目,yi是期望的累计回报,可以由贝尔曼方程得到,即yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),其中μ是当前策略网络,对应的μ′是目标策略网络,θμ′和θμ′分别是它们的参数,γ是回报递减因子。
基于深度强化学习模型建立的推荐模型经过与模拟器的多轮交互学习,模型损失会逐渐稳定,从而可以获得针对该用户类别的推荐模型,即该用户类别的目标推荐模型。对于其他用户类别,仅需更改数据和重新初始化环境,然后重复训练过程。
在本实施例中,如图5所示,模拟器通过与推荐模型的交互确定动作向量作用于环境后用户的状态,包括:
将在动作向量at中出现,而未在当前的用户状态st中出现的商品向量定义为向量at′:向量at′中商品向量的相对位置顺序与动作向量at一致;
将向量at′和状态st首尾拼接后,利用预设的滑动窗口从拼接所得向量中截取部分商品向量;
将截取到的商品向量确定为动作向量作用于环境后用户的状态st+1;
其中,用户的状态为用户最偏好的多个商品向量构成的向量;滑动窗口的长度与用户状态所包含的商品向量个数一致;
模拟器基于滑动窗口的思想,能够在对用户状态进行更新的过程中,对更新前后的状态所包含的商品向量进行去重,从而能够尽可能覆盖用户交互过的所有商品,增强商品的多样性,提高推荐准确度。
本发明还提供了一种系统,包括:计算机可读存储介质和处理器;
计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行上述基于文本信息的深度强化学习交互式推荐方法及系统。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于文本信息的深度强化学习交互式推荐方法,其特征在于,包括:数据预处理阶段和强化学习交互式推荐阶段;
所述数据预处理阶段包括:
根据商品的描述信息和评论信息将各商品转换为对应的商品向量;
基于用户历史记录中具有正评分的商品及其商品向量,将各用户转换为对应的用户向量;
根据用户向量对用户进行聚类,得到用户类别信息;
所述强化学习交互式推荐阶段包括:
基于DDPG为每个用户类别Cl建立推荐模型,并建立一个与各推荐模型进行交互的全局的环境模拟器;
对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t);推荐模型Recl中的策略网络以第t轮交互中用户ui的状态st为输入,得到用于计算商品得分的策略向量pt后,根据策略向量pt从动作候选集Can(ui,t)中选取得分最高的部分商品作为动作向量at;推荐模型Recl中的估值网络以策略向量pt和状态st的组合为输入,计算出相应的Q值,用于评价策略向量pt的优劣;
在每一轮交互中,推荐模型通过与环境模拟器交互,使得环境模拟器计算出相应的反馈奖励值,并更新当前用户的状态,作为该用户在下一轮交互中的状态;反馈奖励值输出至估值网络,从而对估值网络进行矫正,使得估值网络输出的Q值与反馈奖励值正相关;估值网络输出的Q值反向传导至策略网络,从而调整策略网络,以获得更优的策略向量;
其中,i为用户编号,ui表示对应的用户;正评分大于预设的评分阈值yb,负评分小于或等于评分阈值yb,正样本和负样本分别对应具有正评分和负评分的商品。
4.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,对于任意一个推荐模型Recl,在其与环境模拟器的第t轮交互中,从当前用户ui的历史记录中获取正样本、负样本和随机样本,构成动作候选集Can(ui,t),包括:
从用户ui的历史记录中获得具有正评分的所有商品,利用对应的商品向量构成商品集合Vi p,并从用户ui的历史记录中获得具有负评分的所有商品,利用对应的商品向量构成商品集合Vi n;
令若|Vi p|>np,则从商品集合Vi p中随机选择np个样本作为动作候选集Can(ui,t)中的正样本;否则,将商品集合Vi p中的全部样本作为Can(ui,t)中的正样本,且按照np=|Vi p|对np进行更新;
令若|Vi n|>nn,则从商品集合Vi n中随机选择nn个样本为动作候选集Can(ui,t)中的负样本;否则,将商品集合Vi n中的全部样本作为Can(ui,t)中的负样本,并对动作候选集Can(ui,t)中的负样本进行补充,直至动作候选集Can(ui,t)中负样本的数目等于nn;
令no=nc-np-nn,从剩下的商品向量中随机抽取no个作为动作候选集Can(ui,t)中的随机样本,完成动作候选集的构建;
5.如权利要求4所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,对动作候选集Can(ui,t)中的负样本进行补充,包括:
获得与用户ui所属的第一用户类别距离最远的第二用户类别,并随机获得所述第二用户类别中用户的正样本,若该正样本不属于商品集合Vi p,则将其作为用户ui的负样本,加入到动作候选集Can(ui,t)中。
6.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,
推荐模型中的策略网络包括:第一多层感知机和策略层;
所述第一多层感知机用于根据当前的用户状态预测用户对商品特征中各个维度的偏好程度,从而得到策略向量;所述策略层用于根据所述第一多层感知机输出的策略向量,计算用户候选集中各样本的得分,并按照得分从高到低的顺序选取候选集中得分最高的K个样本,作为动作向量;
推荐模型中的估值网络包括:第二多层感知机;
所述第二多层感知机用于根据当前的用户状态和所述第一多层感知机输出的策略向量计算Q值,并根据环境模拟器输出的反馈奖励值调整Q值。
8.如权利要求6所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,所述策略层根据所述第一多层感知机输出的策略向量,计算动作候选集中样本的得分,包括:
在(0~1)的范围内,随机改变策略向量中部分维度的值;
利用随机改变后的策略向量与样本对应的商品向量点乘,从而得到样本的得分。
9.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法,其特征在于,模拟器通过与推荐模型的交互确定动作向量作用于环境后用户的状态,包括:
将在动作向量at中出现,而未在当前的用户状态st中出现的商品向量定义为向量at′:向量at′中商品向量的相对位置顺序与动作向量at一致;
将向量at′和状态st首尾拼接后,利用预设的滑动窗口从拼接所得向量中截取部分商品向量;
将截取到的商品向量确定为当前用户在下一轮交互中的状态st+1;
其中,用户的状态为用户可能感兴趣的一组商品的向量组合。
10.一种系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行程序;
所述处理器用于读取所述计算机可读存储介质中存储的可执行程序,执行权利要求1-9任一项所述的基于文本信息的深度强化学习交互式推荐方法及系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911297092.3A CN111104595B (zh) | 2019-12-16 | 2019-12-16 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911297092.3A CN111104595B (zh) | 2019-12-16 | 2019-12-16 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104595A CN111104595A (zh) | 2020-05-05 |
CN111104595B true CN111104595B (zh) | 2023-04-07 |
Family
ID=70423464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911297092.3A Active CN111104595B (zh) | 2019-12-16 | 2019-12-16 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104595B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737579B (zh) * | 2020-06-28 | 2024-06-25 | 北京达佳互联信息技术有限公司 | 对象推荐方法、装置及电子设备、存储介质 |
CN113780317A (zh) * | 2020-08-27 | 2021-12-10 | 北京同邦卓益科技有限公司 | 行为方式预测方法及装置、存储介质、电子设备 |
CN112307343B (zh) * | 2020-11-05 | 2023-04-07 | 重庆邮电大学 | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 |
CN113763093A (zh) * | 2020-11-12 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种基于用户画像的物品推荐方法和装置 |
CN112837116A (zh) * | 2021-01-13 | 2021-05-25 | 中国农业银行股份有限公司 | 一种产品推荐方法及装置 |
CN112883262B (zh) * | 2021-02-04 | 2022-04-26 | 西南交通大学 | 一种基于深度强化学习的日程安排推荐方法 |
CN113282787B (zh) * | 2021-05-24 | 2022-01-04 | 暨南大学 | 一种基于强化学习的个性化短视频推荐方法以及系统 |
CN113449183B (zh) * | 2021-06-18 | 2022-07-12 | 华中科技大学 | 基于离线用户环境和动态奖励的交互式推荐方法和系统 |
CN113688306A (zh) * | 2021-06-29 | 2021-11-23 | 中国电信集团系统集成有限责任公司 | 一种基于强化学习的推荐策略生成方法及装置 |
CN113505210B (zh) * | 2021-07-12 | 2022-06-14 | 广东工业大学 | 一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统 |
CN114090888B (zh) * | 2021-11-19 | 2022-08-26 | 恒生电子股份有限公司 | 服务模型构建方法及相关装置 |
CN113961674B (zh) * | 2021-12-21 | 2022-03-22 | 深圳市迪博企业风险管理技术有限公司 | 一种关键信息与上市公司公告文本语义匹配方法及装置 |
CN115913830A (zh) * | 2022-04-21 | 2023-04-04 | 东南大学 | 一种智能反射面辅助的mimo通信系统的信道估计方法 |
CN114879742B (zh) * | 2022-06-17 | 2023-07-04 | 电子科技大学 | 基于多智能体深度强化学习的无人机集群动态覆盖方法 |
CN116452169B (zh) * | 2023-06-14 | 2023-11-24 | 北京华品博睿网络技术有限公司 | 一种在线招聘生成式推荐系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515909A (zh) * | 2017-08-11 | 2017-12-26 | 深圳市耐飞科技有限公司 | 一种视频推荐方法及系统 |
CN109062919A (zh) * | 2018-05-31 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 一种基于深度强化学习的内容推荐方法及装置 |
CN109783817A (zh) * | 2019-01-15 | 2019-05-21 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN109978660A (zh) * | 2019-03-13 | 2019-07-05 | 南京航空航天大学 | 一种基于强化学习框架的推荐系统离线训练方法 |
WO2019164064A1 (ko) * | 2018-02-26 | 2019-08-29 | (주)헬스허브 | 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190272465A1 (en) * | 2018-03-01 | 2019-09-05 | International Business Machines Corporation | Reward estimation via state prediction using expert demonstrations |
-
2019
- 2019-12-16 CN CN201911297092.3A patent/CN111104595B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515909A (zh) * | 2017-08-11 | 2017-12-26 | 深圳市耐飞科技有限公司 | 一种视频推荐方法及系统 |
WO2019164064A1 (ko) * | 2018-02-26 | 2019-08-29 | (주)헬스허브 | 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법 |
CN109062919A (zh) * | 2018-05-31 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 一种基于深度强化学习的内容推荐方法及装置 |
CN109783817A (zh) * | 2019-01-15 | 2019-05-21 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN109978660A (zh) * | 2019-03-13 | 2019-07-05 | 南京航空航天大学 | 一种基于强化学习框架的推荐系统离线训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111104595A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104595B (zh) | 一种基于文本信息的深度强化学习交互式推荐方法及系统 | |
CN110162703B (zh) | 内容推荐方法、训练方法、装置、设备及存储介质 | |
US11003994B2 (en) | Evolutionary architectures for evolution of deep neural networks | |
US11250328B2 (en) | Cooperative evolution of deep neural network structures | |
CN107563841B (zh) | 一种基于用户评分分解的推荐系统 | |
Lawrence et al. | Non-linear matrix factorization with Gaussian processes | |
CN112967088A (zh) | 基于知识蒸馏的营销活动预测模型结构和预测方法 | |
CN114036406A (zh) | 一种基于图对比学习和社交网络增强的推荐方法及系统 | |
CN109933720B (zh) | 一种基于用户兴趣自适应演化的动态推荐方法 | |
CN109710835B (zh) | 一种带有时间权重的异构信息网络推荐方法 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN114202061A (zh) | 基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质 | |
CN110222838B (zh) | 文档排序方法、装置、电子设备及存储介质 | |
CN116542720B (zh) | 一种基于图卷积网络的时间增强信息序列推荐方法及系统 | |
CN110727872A (zh) | 基于隐式反馈进行不明确选择行为挖掘的方法及装置 | |
CN114417058A (zh) | 一种视频素材的筛选方法、装置、计算机设备和存储介质 | |
CN111984842A (zh) | 银行客户数据处理方法及装置 | |
CN111353525A (zh) | 一种不均衡不完整数据集的建模及缺失值填补方法 | |
Ho | NBDT: Neural-backed decision trees | |
Liu | Restricted Boltzmann machine collaborative filtering recommendation algorithm based on project tag improvement | |
CN111612572A (zh) | 一种基于推荐系统的自适应局部低秩矩阵近似建模方法 | |
Al Ali et al. | Enhancing financial distress prediction through integrated Chinese Whisper clustering and federated learning | |
Poulakis | Unsupervised AutoML: a study on automated machine learning in the context of clustering | |
CN118296222A (zh) | 交互参数处理方法、装置、计算机设备和存储介质 | |
Malondkar | Extending the Growing Hierarchical Self Organizing Maps for a Large Mixed-Attribute Dataset Using Spark MapReduce |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |