CN114077783A

CN114077783A - 用于基于强化学习的推荐系统的交互仿真方法和装置

Info

Publication number: CN114077783A
Application number: CN202010831934.5A
Authority: CN
Inventors: 郭枝虾; 项超; 王学敏; 李融; 潘轶凡; 孟维业; 王建秀
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2022-02-22

Abstract

本发明至少涉及用于基于强化学习的推荐系统的交互仿真方法和装置。具体公开了一种用于基于强化学习的推荐系统的交互仿真方法，包括：对用户行为的多个历史数据项的向量化表示进行归一化处理，以得到多个单位向量数据；采用空间索引方法基于所述多个单位向量数据构建树状索引结构；在树状索引结构中检索与给定数据项最相似的历史数据项；以及根据所述最相似的历史数据项模拟用户对于给定数据项的反馈。

Description

用于基于强化学习的推荐系统的交互仿真方法和装置

技术领域

本发明涉及强化学习的领域，更具体地涉及用于基于强化学习的推荐系统的交互仿真方法和装置。

背景技术

List-wise推荐系统是基于已有用户的历史数据构建出的一种智能模式，向用户推荐其可能感兴趣的多个物品、套餐、文章、电影等。基于强化学习的List-wise推荐系统，将推荐过程看成一个序列化的存在于用户和推荐系统之间的交互过程，实现根据线上用户实时反馈的行为数据实时更新线上推荐系统模型的操作。

如图1所示，推荐过程可以被看作是用户和搜索引擎之间的顺序交互。如果把搜索引擎看作智能体(Agent)，把用户看作环境(Environment)，则商品的搜索问题可以被视为典型的顺序决策问题：

1)用户每次请求PV(page view，即浏览页面)时，Agent做出相应的排序决策，将商品展示给用户；

2)用户根据搜索引擎的排序结果，给出点击、翻页等反馈信号；

3)搜索引擎接收反馈信号，在新的PV请求时做出新的排序决策；

4)这样的过程将一直持续下去，直到用户购买商品或者退出搜索。

其中强化学习的五个元素分别是：

1)状态空间(state)

状态定义为用户的历史行为，即在推荐之前，用户点击过的最新的N个商品。点击可使得用户能够进行浏览、收藏或购买等操作。

2)动作空间(action)

动作定义为要推荐给用户的商品列表。

3)奖励(reward)

搜索引擎根据当前的状态，采取相应的动作，即推荐K个商品列表给用户之后，根据用户对推荐列表的反馈(忽略、浏览、收藏或购买)来得到当前状态-动作的即时奖励。

4)转移概率

在本发明中，状态的转移定义如下定义，当前的状态是用户最近点击(即，浏览、收藏或购买等)的N个商品，动作是新推荐给用户的K个商品，如果用户忽略了全部的这些商品，那么下一个时刻的状态和当前的状态是一样的，如果用户点击了其中的两个物品，那么下一个时刻的状态是在当前状态的基础上，从前面剔除两个商品同时将点击的这两个物品放在最后得到的。

5)折扣因子Γ

Γ取值范围是[0,1]，定义了在计算待求奖励时候的奖励系数，通俗点解释，表示有多在乎未来的奖励。Γ越大表示越在意未来的奖励，Γ越小，越在乎当下的收益。

在基于强化学习的List-wise推荐系统上线之前，需要进行线下的训练和评估。如何训练推荐系统的参数并离线评估其性能是一项艰巨的任务。用户历史记录中真实(ground-truth)的数据和相应的反馈是有限的，对于整个动作空间来说(也就是所有物品、套餐、文章、电影的可能组合)，数据非常稀疏。这会造成两个问题，首先只能拿到部分的状态-动作数据对进行训练，无法对所有的情况进行建模(可能造成过拟合)，其次会造成线上线下环境的不一致性。

为此，现有技术中提出了一种在线环境仿真器，该仿真器在输入推荐系统选定的状态和动作时输出模拟的在线奖励，从而推荐系统能够根据模拟的奖励离线训练参数。该在线环境仿真器主要基于用户的历史行为数据来构建，其基本思想是给定一个相似的状态和动作，不同的用户也会作出相似的反馈。

然而，这种在线环境仿真器的问题是，需要针对给定的状态-动作，逐一计算其与每条历史数据的相似度，计算量巨大。为了提高计算效率，现有技术中还提出了在计算相似度之前，对历史状态-动作数据进行分组和分层采样，用部分数据来表征全部数据的特性。然而，这样做虽然提高了计算效率，却给仿真器的模拟精度带来了不确定性。

发明内容

鉴于上面的一个或多个技术问题，目前需要一种既能提高计算速度，又能保证仿真器的模拟精度的仿真方法和装置。本发明提出一种用于基于强化学习的推荐系统的优化算法的交互仿真器。本发明针对基于User-Agent算法的历史状态-动作数据与给定状态-动作数据的相似度求解方法进行优化。通过在高维空间中使用空间索引技术对历史状态和动作特征创建动态索引，可以实现快速检索出与给定状态-动作对相似度最大的历史状态-动作对。在提升求解速度的同时，不以牺牲精度为代价。极大的提升了强化学习用户仿真器的处理精度和处理时效。

根据本发明的一个实施例，提出了一种用于基于强化学习的推荐系统的交互仿真方法，包括：对用户行为的多个历史数据项的向量化表示进行归一化处理，以得到多个单位向量数据；采用空间索引方法基于所述多个单位向量数据构建树状索引结构；在树状索引结构中检索与给定数据项最相似的历史数据项；以及根据所述最相似的历史数据项模拟用户对于给定数据项的反馈。

根据一种实施方式，提供了一种用于基于强化学习的推荐系统的交互仿真装置，包括：存储器，存储有计算机可执行指令；处理器，被配置为当执行存储器中存储的计算机可执行指令时，实现如上文所述的方法。

根据一种实施方式，提供了一种用于基于强化学习的推荐系统的交互仿真装置，包括被配置为执行如上文所述的方法的步骤的部件。

根据一种实施方式，提供了一种非瞬态计算机可读存储介质，存储有指令，所述指令当被处理器执行时实现如上文所述的方法。

根据一种实施方式，提供了一种基于强化学习的推荐系统，使用如上文所述的交互仿真装置进行训练。

附图说明

参照附图，根据下面的详细描述，可以更清楚地理解本公开，其中：

图1示出了强化学习过程中搜索引擎和用户之间的交互；

图2示出了根据本发明的一个实施例的交互仿真方法的流程图；

图3示出了根据本发明的另一个实施例的交互仿真方法的流程图；

图4示出了现有技术中仿真方法与本发明的仿真方法的对比。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

为了解决现有user-agent交互仿真器的以上问题，本发明创新性地提出了一种利用动态空间索引方法对历史行为的空间数据构建树状索引结构，并通过在树状索引结构中进行检索来得到与给定的状态和行为数据最相似的历史数据的方法和装置。与现有技术中逐一计算给定数据与每个历史数据(或经采样的历史数据)的余弦距离的方法相比，本发明的方法显著提高了计算效率和精确度。

下面参照图2描述根据本发明的一个实施例的交互仿真方法200。

首先，在步骤201，对用户行为的多个历史数据项的向量化表示进行归一化处理，以得到多个单位向量数据。

用户行为的多个历史数据项的向量化表示是通过对用户行为的历史数据项的特征文本进行向量化，例如通过使用自然语言处理(NLP，Natural Language Processing)来得到的。

根据一个实施方式，每个历史数据项至少包括：

1、在某历史时刻搜索引擎提供的推荐商品列表(即，动作)。该商品列表可包括M个商品。

2、即将进行推荐之前用户最新点击的多个商品(即，状态)。例如，在即将要提供推荐列表之前，用户浏览、收藏或购买等过的最新的N个商品。

3、用户对推荐商品列表的反馈(即，奖励)。也就是用户是否忽略、浏览、收藏或购买了推荐商品列表中的一个或多个商品。

优选地，商品可由商品ID、商品类别、商品属性等多个特征来表征。用户可由用户ID、用户类别、用户偏好等多个特征来表征。因此，所得到的数据项通常为高维向量。

对文本向量进行归一化，将其转变为单位向量的目的是为了使得能够在下一步骤中对其应用空间索引技术来构建树状索引结构。

空间索引技术常规地应用于地理信息系统领域中，在空间索引技术中相似度度量的指标均为欧式距离。这与基于内容的推荐系统完全不同，在基于内容的推荐系统中，相似度度量的指标为余弦距离。因此，现有技术中并没有将空间索引技术应用于基于内容的推荐系统的先例。

在这里简单介绍一下欧式距离和余弦距离的区别。欧氏距离能够体现个体数值特征的绝对差异，所以更多地用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异。余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多地用于使用用户对内容评分来区分兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题。因此，基于内容的推荐系统通常使用余弦距离来判断相似度。

考虑到这一点，为了使得能够将空间索引技术应用于如本发明的基于内容的推荐系统的领域，本发明进一步对文本的向量化表示进行了归一化处理。归一化后的向量的欧氏距离和余弦距离是等价的。因此，对数据进行归一化处理后，以欧式距离为核心的空间索引技术可以运用到本发明的应用场景，即基于内容的推荐系统中用户仿真器的构建。

关于历史数据项，优选地可以从专门存储用户历史行为轨迹的数据库获得，其中每一次的推荐-反馈交互的数据可作为一个历史数据项存储。在调用历史数据时，可以选取特定一段时间(例如1年)内的历史数据；也可以选取最新的特定数量的历史数据项。

在步骤202，使用空间索引技术基于所述多个单位向量构建树状索引结构。

在得到多个历史数据项的单位向量之后，采用空间索引技术构建树状索引结构。

与用于低维数据的普通索引技术(例如，B树)不同，空间索引技术可用于高维数据的索引。本发明中的状态数据和动作数据均为高维数据，因此可以使用空间索引技术来为其构建树状索引结构。

常见的空间索引技术例如包括R*树、R树和R+树等。只要是适合处理高维数据结构的空间索引技术都可以应用于本发明。

在这些空间索引技术中，R*树是特别优选的。R*树的建立、插入、删除和查询算法与R树基本类似，主要区别是R*树在插入对象时引入独特的插入路径选择机制，降低了中间结点目录矩形之间的重叠，以提高其索引性能。另外，R*树在其建树和插入过程中采用强制重新插入技术，有效优化树的结构，较好地解决了因空间对象插入顺序的不合理而导致索引性能下降的问题。因此，R*树特别适合推荐系统中根据转移概率在迭代之后需要更新树结构，即插入和删除节点的场景。

可通过R*树的插入算法和强制重新插入算法来构建R*树索引。R*树的插入算法是构建R*树的基础，R*树的建立就是从空树开始，不断调用插入算法将空间数据集中的空间对象逐个插入R*树，直到生成一棵完整的R*树。因此，R*树的插入算法在其各索引算法中显得至关重要。R*树的强制重新插入算法能够在插入过程中对位置不合适的数据进行重新插入，从而保证每个数据都处于合适的位置。

R*树的插入算法和强制重新插入算法将在下文中介绍，此处不再详述。

在步骤203中，在构建的树状索引结构中检索与给定数据项最相似的历史数据项。

将推荐模型给定的数据项输入树状索引结构中进行检索。根据一个实施方式，给定数据项至少包括：给定的用户最新点击的多个商品(状态)和给定的推荐商品列表(动作)。

与历史数据项类似，商品可由商品ID、商品类别、商品属性等特征来表征。用户可由用户ID、用户类别、用户偏好等特征来表征。为了使得能够将给定数据项输入到使用动态空间索引技术构建的树状索引结构中，也要对给定数据项进行与历史数据类似的预处理，即，将文本转换成向量，再进行归一化处理，从而得到给定数据项的单位向量。

同样，以R*树为例对检索的过程进行描述。如本领域技术人员可以理解的，R*树尽管是优选的，也可以使用其它树结构。

R*树的查询是一个递归过程。从根结点出发，判断根结点的最小外包矩形(MBR，Minimum Bounding Rectangle)是否与查询区域相交，若不相交，则直接返回空集，即此空间数据集中不包含待查的对象。若相交，则与根结点所指的下层各子结点的目录矩形进行匹配，若某一子结点的目录矩形与查询区域有交集，则继续向该结点的下层各结点进行查找匹配。依此类推，直到找出与之相交的叶结点。对所找到的叶结点中各数据项进行判断，看其MBR是否与查询区域相交，相交的则为查询结果。

在步骤204中，根据所述最相似的历史数据项模拟用户对于给定数据项的反馈。

优选地，可以将所述最相似的历史数据项中用户对推荐商品列表的反馈作为用户对于给定数据项的反馈。

如上文所述，用户对于给定数据项的反馈可以至少包括以下一种或多种：忽略、浏览、收藏或购买推荐商品列表中的一个或多个商品。

在向量空间模型中，反馈可以被向量化为奖励序列。例如，推荐两个商品，用户对两个商品的反馈有忽略、浏览、收藏或购买，对应的奖励分别是0、1、3、5，那么用户对推荐的这两个商品的反馈一共有16种可能的奖励序列(0,0),(0,1),(0,3),(0,5),(1,0),(1,1),(1,3),(1,5),(3,0),(3,1),(3,3),(3,5),(5,0),(5,1),(5,3),(5,5)，定义为：

u＝{u₁，…，u₁₆}

然而，由于要被输入推荐系统进行参数训练的奖励必须为一个值，而不是一个向量，因此需要将奖励序列乘以折扣因子，将奖励序列转化为一个具体的奖励值(r_t)。

其中k是推荐列表中的顺序，K是推荐列表的长度，并且Γ∈(0,1]。

在上面描述的实施例中，奖励序列与状态和动作一起存储在树结构的各个节点中。在可选的实施例中，也可以将奖励序列单独存储在另一数据库中，当检索到最相似的历史数据项之后，单独在这个数据库中检索该历史数据项对应的奖励序列。

上述实施例中描述的仿真方法通过对历史行为的高维数据创建动态空间索引的方式，在无需采样的前提下，可以快速检索出与给定数据项相似度最大的历史数据项，极大的提升了强化学习用户仿真器的处理精度和处理时效。

根据一个优选的实施方式，还可以在归一化之前对得到的向量进行降维处理。经自然语言处理得到的向量是高维向量。对高维向量进行降维处理，可以提取有效的信息，摒弃无用信息，确保特征的相互独立性，增强了对象的空间表达，同时提升了相似度的计算处理速度和计算结果精度。优选地，可以使用主成分分析技术(PCA，Principal ComponentsAnalysis)对特征数据进行降维处理。这只是一种示例，也可以使用本领域技术人员所熟知的其它降维技术进行降维。降维处理虽然是优选的，但并不是必须的。降维是本领域中的常用技术手段，此处不再进行详细的说明。

在得到单位向量之后，构建向量空间模型(VSM，Vector Space Model)以便于后续处理。

根据本发明的一个实施例，采用空间索引方法构建的树状索引结构能够根据单次检索动态更新。也就是说，空间索引结构中的检索可与树结构的更新(插入或删除结点)同步进行，而不需要定期地对树结构进行重新组织。下面，参照图3示例说明根据该实施例的交互仿真方法的流程图，该方法与图2所示的方法相比区别在于包括树状索引结构的更新的步骤。

步骤301-305与图2中的步骤202-204类似，在此不作进一步描述。

在步骤306，判断训练过程是否已满足结束条件。结束条件可以例如设定为达到一定的迭代次数，或者本领域中常见的其它结束条件。

如果已满足结束条件，则结束迭代。这表示训练过程已完成，推荐系统可以准备上线使用。

如果未达到结束条件，则前进至步骤307，根据转移概率判断此时的状态和检索给定数据项之前的时刻相比是否已经改变。

如果状态未改变，也就是说，用户忽略了推荐列表中所有的商品，没有点击(即，浏览、收藏或购买等)推荐列表中的任何商品，那么可直接返回到步骤303，在树状索引结构中进行下一给定数据项的检索。

如果状态已改变，也就是说，用户点击了推荐列表中的一个或多个商品，那么过程前进至步骤308，进行树状索引结构的更新。

在一个实施例中，基于给定数据项和模拟的反馈来更新树状索引结构。优选地，更新树状索引结构包括：根据转移概率，在树状索引结构中插入已经完成检索的给定数据项及其模拟的反馈，以及从树状索引结构中删除最早的历史数据项。这样，树状索引结构可以保持一直使用最新的数据，从而提高对用户反馈的模拟的时效性。

转移概率是指，如果用户忽略了全部的推荐商品，那么下一个时刻的状态和当前的状态是一样的，如果用户点击了其中的一个或多个商品，那么下一时刻的状态相对于当前的状态将改变。举例来说，如果用户点击了其中的两个物品，那么下一个时刻的状态是在当前状态的基础上，从前面剔除两个商品同时将点击的这两个物品放在最后得到的。

R*树的更新是通过删除和插入节点实现的。关于R*树的插入算法和删除算法，将在下文介绍，此处不再详述。

然后，过程返回到步骤303，在推荐系统的下一次训练过程中，将推荐系统给定的下一个给定数据项输入至更新的树状索引结构来检索下一个给定数据项的奖励序列。根据转移概率，下一给定数据项中的状态同样要被更新。以上过程对于交互仿真器来说，如果根据转移概率，状态发生了改变，那么下一次迭代输入至交互仿真器的给定数据项中的状态需要被更新。

下面，描述以R*树为例说明在构建和更新树状索引结构时所使用到的插入算法和删除算法。

1、R*树的插入算法

由根结点出发，按以下要求进行插入路径的选择。

a)若当前结点的子结点指向的是叶结点，则选择包含新增数据矩形后，其目录矩形重叠面积增大量最小的索引项；若重叠面积增大量相同，则选择目录矩形面积增大量最小的索引项；若面积增大量也相同，则选择目录矩形面积最小的索引项。

b)若当前结点的子结点指向的是中间结点，则选择包含插入新增数据矩形后，其目录矩形面积增大量最小的索引项；若面积增大量相同，则选择面积最小的索引项。

在将向量空间模型中的所有数据插入到R*树结构中之后，得到了历史数据项的可动态索引的树结构。

另外，R*树在其建树过程中能够采用其独有的强制重新插入技术。在数据被插入的位置不是最优的情况下，可以删除数据并对其进行强制重新插入，从而确保每个数据都处于最佳位置。相比其它空间索引技术，这样构建的树结构更加优化，能够获得更好的查询性能。

2、R*树的强制重新插入算法。

R*树的强制重新插入是对于同一空间目标集合，由于插入的顺序不同，因此构造的R*树不同。先插入的空间目标可能已经在树中引入了“不合适”的目录矩阵，从而导致树的结构不利于查询。因此，R*树在插入的过程中进行“强制重新插入”，获得动态的结构重组。R*树的这个算法的优点在于确保数据在建树和更新时处于最佳位置，从而提高检索性能。

首先，分别计算待分裂结点(node)中包含的M+1索引项或数据项的最小外包矩形(MBR,Minimum Bounding Rectangle)中心到该结点MBR中心的距离，并按距离从大到小排列node中的M+1项。其次，从node结点中去除前T项并对node结点的MBR进行相应调整。最后，从最大距离或最小距离开始，依次调用插入算法将这T项重新插入。

3、R*树的删除算法。

从R*树中删除一个指定的空间对象，先要通过查询算法找出包含待删除空间对象的叶结点，然后将该叶结点中的待删空间对象的数据项信息删除，并从该叶结点开始向上依次调整父结点的索引项的目录矩形，直到根结点为止。若删除该空间对象造成了相应的叶结点下溢，即该叶结点的包含的数据项数小于R*树规定的结点容量下限m，则需将该叶结点的全部数据项重新插入到叶结点层，并将其父结点包含该叶结点的索引项信息删除。此过程一直向上层结点延伸，并需对R*的结构进行相应调整，以保证所有中间结点的索引项数都不少于m。若最终导致根结点中仅余一个子结点时，需删除该根结点，并将其子结点作为R*新的根结点，R*的深度也随之减少一层。

下面，参照图4描述本发明和现有技术的区别。

图4示出了两个流程图，左侧的为现有技术的交互仿真方法的流程图，而右侧为根据本发明一个实施例的交互仿真方法的流程图。

从图中可见，在现有技术的方法是通过逐一计算给定数据项与历史数据项的余弦值来确定其相似度。这样做计算量是巨大的，计算效率低下。为了减少计算量，现有技术还对历史数据项进行分组和分层采样。然而，这样的方法虽然提高了计算效率，却损失了计算精度。因此无法得到令人满意的仿真结果，影响训练效果。

而本发明创造性地提出了在将文本向量归一化处理之后，使用常规用于地理信息系统领域的动态空间索引技术来对高维向量数据构建树状索引结构，实现了快速检索。本发明与现有技术相比消除了计算余弦值的过程，大大减小了计算量。此外，本发明的方法无需对数据采样，仿真精度高，效果好。

根据本发明的另一个实施方式，提供了一种用于基于强化学习的推荐系统的交互仿真装置，包括：存储器，存储有计算机可执行指令；处理器，被配置为当执行存储器中存储的计算机可执行指令时，实现如上文所述的方法。

根据本发明的另一个实施方式，提供了一种用于基于强化学习的推荐系统的交互仿真装置，包括被配置为执行如上文所述的方法的步骤的部件。

应当理解，这里的部件仅是根据其所实现的具体功能所划分的逻辑模块，而不是用于限制具体的实现方式。在实际实现时，所述装置可被实现为独立的物理实体，或者也可由单个实体(例如，处理器(CPU或DSP等)、集成电路等)来实现。

根据本发明的另一个实施方式，提供了一种非瞬态计算机可读存储介质，存储有指令，所述指令当被处理器执行时实现如上文所述的方法。计算机可读存储介质可以为任何类型的存储介质，诸如光学存储装置(例如，光盘、数字多功能光盘、蓝光光盘等)或磁带存储装置(例如，硬盘驱动器)。

根据本发明的另一个实施方式，提供了一种基于强化学习的推荐系统，使用如上文所述的交互仿真装置进行训练。

根据详细的说明书，本发明的许多特征和优点是显而易见的，因此，所附权利要求书旨在涵盖落入本发明的真实精神和范围内的本发明的所有这些特征和优点。此外，由于本领域技术人员将容易想到许多修改和变型，因此不希望将本发明限制于所图示和描述的确切构造和操作，并且相应地，可以采用落入本发明的范围内的所有合适的修改和等效物。

Claims

1.一种用于基于强化学习的推荐系统的交互仿真方法，包括：

对用户行为的多个历史数据项的向量化表示进行归一化处理，以得到多个单位向量数据；

采用空间索引方法基于所述多个单位向量数据构建树状索引结构；

在树状索引结构中检索与给定数据项最相似的历史数据项；以及

根据所述最相似的历史数据项模拟用户对于给定数据项的反馈。

2.如权利要求1所述的方法，其中，采用空间索引方法构建的所述树状索引结构能够根据单次检索动态更新。

3.如权利要求1所述的方法，还包括：在得到模拟的用户对于给定数据项的反馈之后，根据转移概率来判断是否需要更新树状索引结构。

4.如权利要求3所述的方法，还包括：如果需要更新树状索引结构，则基于给定数据项和模拟的反馈更新树状索引结构，然后在更新的树状索引结构中检索与下一给定数据项最相似的历史数据项，直到满足预定的结束条件。

5.如权利要求4所述的方法，其中，更新树状索引结构包括：

在树状索引结构中插入已经完成检索的给定数据项及其模拟的反馈；以及

从树状索引结构中删除最早的历史数据项。

6.如权利要求1所述的方法，其中，在树状索引结构中检索与给定数据项最相似的历史数据项包括：

对给定数据项进行文本向量化，并对所得到的向量化表示进行归一化，从而得到给定数据项的单位向量；以及

将给定数据项的单位向量输入到树状索引结构中进行检索，以获得与给定数据项最相似的历史数据项。

7.如权利要求1所述的方法，还包括：

在归一化之前对历史数据文本向量进行特征数据降维；以及

在归一化之后根据多个单位向量数据构建向量空间模型。

8.如权利要求1所述的方法，其中，根据所述最相似的历史数据项模拟用户对于给定数据项的反馈包括：获得所述最相似的历史数据项中用户对推荐商品列表的反馈作为用户对于给定数据项的反馈。

9.如权利要求1所述的方法，每个所述历史数据项至少包括：在某历史时刻的推荐商品列表、即将进行推荐之前用户最新点击的多个商品以及用户对推荐商品列表的反馈。

10.如权利要求1所述的方法，其中，所述给定数据项至少包括：推荐模型给定的用户最新点击的多个商品以及推荐商品列表。并且其中，模拟的反馈至少包括以下一种或多种：忽略、浏览、收藏或购买推荐商品列表中的一个或多个商品。

11.如权利要求1所述的方法，其中，所述树状索引结构为R*树。

12.一种用于基于强化学习的推荐系统的交互仿真装置，包括：

存储器，存储有计算机可执行指令；以及

处理器，被配置为当执行存储器中存储的计算机可执行指令时，实现如权利要求1-11中任一项所述的方法。

13.一种用于基于强化学习的推荐系统的交互仿真装置，包括被配置为执行如权利要求1-11中任一项所述的方法的步骤的部件。

14.一种非瞬态计算机可读存储介质，存储有指令，所述指令当被处理器执行时实现如权利要求1-11中任一项所述的方法。

15.一种基于强化学习的推荐系统，所述推荐系统是使用如权利要求13所述的交互仿真装置进行训练的。