CN117349335A

CN117349335A - 用于生成信息展示策略的方法和装置

Info

Publication number: CN117349335A
Application number: CN202311297791.4A
Authority: CN
Inventors: 李�浩; 贾荐豪; 刘凯; 刘子奇; 周俊; 唐志皓; 尼克·格拉文
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-01-05

Abstract

本说明书的实施例提供了一种用于生成信息展示策略的方法和装置。在该用于生成信息展示策略的方法中，根据所获取的历史时间段内的请求序列数据中的各个请求对应的相关信息，确定各个请求所属的类别，其中，各个类别的请求分别对应有展示预定信息所需资源量和预期收益值；再基于请求序列数据，确定对应的转移概率矩阵以及与历史时间段对应的预测时间段所对应的请求总量和资源总量；之后基于动态规划方法，确定在预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略，以在满足资源总量的约束条件下最大化请求总量对应的总收益值。

Description

用于生成信息展示策略的方法和装置

技术领域

本说明书实施例通常涉及计算机技术领域，尤其涉及用于生成信息展示策略的方法和装置。

背景技术

随着互联网技术的飞速发展，将网络平台作为信息展示媒介取得越来越广泛的应用。通常，在满足指定信息曝光率的前提下，网络平台往往需要对每个到达的网络请求进行在线决策来确定是否对其展示指定信息，以尽可能实现总收益值的最大化。因此，如何进行上述决策成为需要解决的问题。

发明内容

鉴于上述，本说明书实施例提供了一种用于生成信息展示策略的方法和装置及用于在线决策信息展示的方法和装置。利用该方法、装置，可以实现信息展示策略的生成以及基于此的针对信息展示的在线决策方法，以在满足相关约束的前提下尽可能实现总收益值的最大化，从而更充分地利用网络平台的流量资源。

根据本说明书的实施例的一个方面，提供一种用于生成信息展示策略的方法，包括：获取历史时间段内的请求序列数据，其中，所述请求序列数据中的各个请求对应有相关信息；根据各个请求对应的相关信息，确定所述请求序列数据中的各个请求所属的类别，其中，各个类别分别对应有展示预定信息所需资源量和预期收益值；确定与所述请求序列数据对应的转移概率矩阵，其中，所述转移概率矩阵用于指示请求所属类别之间的转移概率；基于所述请求序列数据，确定与所述历史时间段对应的预测时间段所对应的请求总量和资源总量；以及基于动态规划方法，确定在所述预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略，以在满足所述资源总量的约束条件下最大化所述请求总量对应的总收益值，其中，所述不同状态基于所述资源总量和已决策请求的数量而确定，所述信息展示策略用于指示是否向该类别的请求展示预定信息。

根据本说明书的实施例的另一个方面，提供一种用于在线决策信息展示的方法，包括：响应于接收到目标请求，确定所述目标请求所属的类别；根据当前剩余资源量确定和所述目标请求所属的类别确定相匹配的资源剩余量阈值，其中，与各个类别相匹配的资源剩余量阈值分别与当前剩余资源量相关联，各个资源剩余量阈值基于动态规划方法利用历史时间段内的请求序列数据而得到；根据当前剩余资源量与所述相匹配的资源剩余量阈值的比较，决策是否向所述目标请求展示预定信息。

根据本说明书的实施例的又一个方面，提供一种用于生成信息展示策略的装置，包括：序列获取单元，被配置为获取历史时间段内的请求序列数据，其中，所述请求序列数据中的各个请求对应有相关信息；类别确定单元，被配置为根据各个请求对应的相关信息，确定所述请求序列数据中的各个请求所属的类别，其中，各个类别分别对应有展示预定信息所需资源量和预期收益值；矩阵生成单元，被配置为确定与所述请求序列数据对应的转移概率矩阵，其中，所述转移概率矩阵用于指示请求所属类别之间的转移概率；总量生成单元，被配置为基于所述请求序列数据，确定与所述历史时间段对应的预测时间段所对应的请求总量和资源总量；以及策略生成单元，被配置为基于动态规划方法，确定在所述预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略，以在满足所述资源总量的约束条件下最大化所述请求总量对应的总收益值，其中，所述不同状态基于所述资源总量和已决策请求的数量而确定，所述信息展示策略用于指示是否向该类别的请求展示预定信息。

根据本说明书的实施例的再一个方面，提供一种用于在线决策信息展示的装置，包括：归类单元，被配置为响应于接收到目标请求，确定所述目标请求所属的类别；阈值匹配单元，被配置为根据当前剩余资源量确定和所述目标请求所属的类别确定相匹配的资源剩余量阈值，其中，与各个类别相匹配的资源剩余量阈值分别与当前剩余资源量相关联，各个资源剩余量阈值基于动态规划方法利用历史时间段内的请求序列数据而得到；决策单元，被配置为根据当前剩余资源量与所述相匹配的资源剩余量阈值的比较，决策是否向所述目标请求展示预定信息。

根据本说明书的实施例的另一方面，提供一种用于生成信息展示策略的装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于生成信息展示策略的方法。

根据本说明书的实施例的另一方面，提供一种用于在线决策信息展示的装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于在线决策信息展示的方法。

根据本说明书的实施例的另一方面，提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于生成信息展示策略的方法和/或用于在线决策信息展示的方法。

根据本说明书的实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如上所述的用于生成信息展示策略的方法和/或用于在线决策信息展示的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书的实施例的用于生成信息展示策略的方法和装置、用于在线决策信息展示的方法和装置的示例性架构。

图2示出了根据本说明书的实施例的用于生成信息展示策略的方法的一个示例的流程图。

图3示出了根据本说明书的实施例的请求序列数据中的各个请求所属的类别的确定过程的一个示例的流程图。

图4示出了根据本说明书的实施例的信息展示策略的确定过程的一个示例的流程图。

图5示出了根据本说明书的实施例的资源剩余量阈值的确定过程的一个示例的流程图。

图6示出了根据本说明书的实施例的资源剩余量阈值的确定过程的又一个示例的流程图。

图7示出了根据本说明书的实施例的用于生成信息展示策略的方法的应用场景的一个示例的示意图。

图8示出了根据本说明书的实施例的用于在线决策信息展示的方法的一个示例的流程图。

图9示出了根据本说明书的实施例的目标请求所属的类别的确定过程的一个示例的流程图。

图10示出了根据本说明书的实施例的用于生成信息展示策略的装置的一个示例的方框图。

图11示出了根据本说明书的实施例的用于生成信息展示策略的装置中策略生成单元的一个示例的方框图。

图12示出了根据本说明书的实施例的用于在线决策信息展示的装置中策略生成单元的一个示例的方框图

图13示出了根据本说明书的实施例的用于生成信息展示策略的装置的一个示例的方框图。

图14示出了根据本说明书的实施例的用于在线决策信息展示的装置的一个示例的方框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在本说明书中，术语“曝光率”可以指一段时间内展示指定信息(例如广告)的请求占总请求数的比例。

在本说明书中，术语“动态规划(dynamic programming)”可以指运筹学的一个分支，是求解多阶段决策过程(decision process)最优化问题的数学方法，可以解得期望最优策略。

下面将结合附图来详细描述根据本说明书实施例的用于生成信息展示策略的方法和装置、用于在线决策信息展示的方法和装置。

图1示出了根据本说明书实施例的用于生成信息展示策略的方法和装置、用于在线决策信息展示的方法和装置的示例性架构100。

在图1中，网络110被应用于在终端设备120和应用服务器130之间进行互连。

网络110可以是能够对网络实体进行互连的任何类型的网络。网络110可以是单个网络或各种网络的组合。在覆盖范围方面，网络110可以是局域网(LAN)、广域网(WAN)等。在承载介质方面，网络110可以是有线网络、无线网络等。在数据交换技术方面，网络110可以是电路交换网络、分组交换网络等。

终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如，终端设备120可以是台式计算机、笔记本电脑、平板电脑、智能电话等。尽管在图1中仅示出了一个终端设备，但是应当理解，可以有不同数量的终端设备连接到网络110。

在一种实施方式中，终端设备120可以由用户使用。终端设备120可以包括可为用户提供各种服务的应用客户端(例如应用客户端121)。在一些情况下，应用客户端121可以与应用服务器130进行交互。例如，应用客户端121可以将用户输入的消息传送到应用服务器130，并且从应用服务器130接收与上述消息相关联的响应。然而，应当理解，在其它情况下，应用客户端121也可以在本地生成对用户输入的消息的响应，而不是与应用服务器130进行交互。在本文中，“消息”可以指任何输入信息，例如基于用户点击某网页的链接而生成的网页获取请求等。

应用服务器130可以与数据库140连接。其中，数据库140中可以保存有各个历史时间段内的请求序列数据。在一个示例中，请求序列数据中的各个请求可以对应有所属类别信息和相应的预期收益值。在一个示例中，当所要展示的预定信息为广告时，上述预期收益值可以是CPM(cost per mile，千次展示收益)。在一个示例中，数据库140中还可以保存有待展示的预定信息。

应当理解，图1中所示的所有网络实体都是示例性的，根据具体的应用需求，架构100中可以涉及任何其它网络实体。

图2示出了根据本说明书的实施例的用于生成信息展示策略的方法200的流程图。

如图2所示，在210，获取历史时间段内的请求序列数据。

在本实施例中，历史时间段的长度可以根据实际应用需求而设定，例如前一日、前2小时、前15分钟等。在本实施例中，上述请求序列数据中的各个请求可以对应有各种相关信息。例如，相关信息可以包括请求来源端标识、用户授权的用户信息等。再例如，对于展示了预定信息的请求，上述相关信息中还可以包括用于指示该请求对应的用户是否点击了上述所展示的预定信息的展示结果。

在220，根据各个请求对应的相关信息，确定请求序列数据中的各个请求所属的类别。

在本实施例中，可以根据各个请求对应的相关信息之间的关联，对上述请求序列数据中的请求进行分类，从而可以确定各个请求所属的类别。并且，各个类别可以分别对应有展示预定信息所需资源量和预期收益值。在一个示例中，各个类别所对应的预期收益值可以为属于该类别的所有请求对应的预期收益值的平均值。在一个示例中，各个类别所对应的展示预定信息所需资源量可以根据实际应用场景而灵活设定。例如，展示预定信息所需资源量为展示时间，可以为各个类别的请求设置相应的展示时间，也可以为各个类别的请求设置统一的展示时间(例如15秒)。再例如，展示预定信息所需资源量为所展示的预定信息的次数，可以为各个类别的请求设置相应的所展示的预定信息的次数，也可以为各个类别的请求设置统一的所展示的预定信息的次数(例如1)。

可选地，继续参见图3，图3示出了根据本说明书的实施例的请求序列数据中的各个请求所属的类别的确定过程300的一个示例的流程图。

在310，根据请求序列数据中的各个请求对应的收益反馈信息，生成与各个请求对应的特征向量。

在本实施例中，收益反馈信息可以用于指示用户对所展示的预定信息的反馈。在一个示例中，对于请求序列数据中展示了预定信息的请求，收益反馈信息可以包括用于指示该请求对应的用户是否点击了所展示的预定信息的信息。例如，用“0”表示未点击，用“1”表示点击。在一个示例中，对于请求序列数据中未展示预定信息的请求，收益反馈信息可以包括用于指示该请求对应的用户历史上点击所展示的预定信息的概率的信息。

在一个示例中，各个请求对应的特征向量中可以包括各个请求对应的收益反馈信息。在一个示例中，各个请求对应的特征向量中还可以包括各个请求对应的用户特征。其中，上述用户特征可以是通过对经用户授权获取的用户信息进行特征提取而得到。

在320，根据各个请求对应的特征向量进行聚类，得到各个请求所属的类别。

在本实施例中，可以通过各种方式得到各个请求所属的类别。在一个示例中，特征向量中可以包括各个请求对应的收益反馈信息，可以按照收益反馈信息所指示的收益的大小对各个请求进行聚类，从而得到各个请求所属的类别。例如，将对应的收益属于同一预定区间的请求归属于同一类别。再例如，将对应的收益按照由大至小排列，每20％归属于同一类别。在一个示例中，可以利用各种聚类算法来根据各个请求对应的特征向量得到若干个类簇，从而得到各个请求所属的类别。示例性地，各个类别可以具有相应的标识，例如“类别1”、“类别2”等。

基于此，本方案可以实现根据请求序列中的各个请求对应的收益反馈信息为各个请求归类，从而建立请求所属类别与预期收益值之间的关联，为进一步生成最优化信息展示策略提供技术基础。

回到图2，在230，确定与请求序列数据对应的转移概率矩阵。

在本实施例中，上述转移概率矩阵可以用于指示请求所属类别的请求之间的转移概率。在一个示例中，根据请求序列数据所得到的马尔可夫链可以表示为{s₁,s₂,s₃,…,s_n}。其中，s_i(i＝1,2,…,n)可以用于表示第i个请求所属的类别。与上述请求序列数据对应的转移概率矩阵(例如记为M)中的各个元素可以表示为m_ij。m_ij可以用于表示在上述马尔可夫链中从所属类别s_i至所属类别s_j的转移概率。

在一个示例中，前一日的请求序列数据可以表示为{q₁,q₂,q₃,q₄,q₅}。其中，q₁～q₅可以用于表示接收到的各个请求。对应的马尔可夫链可以表示为{3,1,1,2,3}。其中，“1”、“2”、“3”可以用于表示请求所属类别的索引。从而可以得到与上述请求序列数据对应的3阶转移概率矩阵。

在240，基于请求序列数据，确定与历史时间段对应的预测时间段所对应的请求总量和资源总量。

在一个示例中，可以利用机器学习等方法基于历史时间段内的请求序列数据来确定对应的预测时间段所对应的请求总量。例如，可以根据最近10天中每一天的请求总量预测未来1天的请求总量。之后，可以根据相应的比例来基于请求总量确定资源总量。例如，资源总量可以是预定信息所展示的总次数，从而可以根据预定曝光率乘以所确定的资源总量来得到资源总量。再例如，资源总量可以是预定信息的总展示时间，可以根据历史时间段内的请求序列数据所对应的预定信息的展示时间的总数与请求序列数据中包含的请求数之间的比值和所确定的资源总量来得到资源总量。

在250，基于动态规划方法，确定在预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略，以在满足资源总量的约束条件下最大化请求总量对应的总收益值。

在本实施例中，通常，在线请求流量也服从历史数据中学习到的马尔可夫转移过程。从而可以将在线决策转换成马尔可夫决策过程。上述不同状态可以基于资源总量和已决策请求的数量而确定。可选地，上述不同状态还可以基于资源总量和已决策请求及其对应的展示预定信息所需资源量而确定。上述信息展示策略可以用于指示是否向该类别的请求展示预定信息。

在一个示例中，动态规划方程可以表示为：

其中，s可以用于表示请求所属类别的索引。N可以用于表示由各个请求所属类别形成的集合所包含的元素的总数。r可以用于表示当前剩余资源量，其可以通过资源总量与已决策的各个请求对应的展示预定信息所需资源量来确定。t可以用于表示当前期数，通常可以指已决策请求的数量。T可以用于表示总期数，通常可以指需要决策的请求的总数。v_s可以用于表示类别索引为s的请求对应的预期收益值。c(s)可以用于表示类别索引为s的请求对应的展示预定信息所需资源量。M可以用于表示上述转移概率矩阵。e_s可以用于表示在索引s处为1其他位置为0的列向量。R_s(r,t)可以用于表示给定当前期数为t，剩余资源量为r，起始请求所属类别索引为s时的最优期望收益。x(t)可以用于表示给定当前期数为t时的决策变量，其取值可以为0或1。需要说明的是，上述资源总量、当前剩余资源量和展示预定信息所需资源量可以包括多种(例如m种)资源，从而其表示形式可以为m维向量。C_i可以用于表示第i种资源的资源总量。c_i(s(t))可以用于表示在给定当前期数为t时类别索引为s(t)的请求对应的展示预定信息所需的第i种资源的资源量。从而，第i种资源的当前剩余资源量可以表示为

可选地，继续参见图4，图4示出了根据本说明书的实施例的信息展示策略的确定过程400的一个示例的流程图。

在410，基于动态规划方法，确定在预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值。

在一个示例中，对于上述示例的动态规划方程，可以证明最优策略是关于当前剩余资源量和期数的阈值策略。具体地，对于属于索引为s的类别的请求，在当前剩余资源量为k和期数为t时的阈值可以表示为τ_s(k，t)。可以证明：1)R_s(k，t)是关于k的单调递增的上凸(concave)函数；2)τ_s(k，t)关于k单调递减。从而可以根据上述动态规划方法，确定相应方程所对应的在预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值，即确定τ_s(k，t)，

可选地，继续参见图5，图5示出了根据本说明书的实施例的资源剩余量阈值的确定过程500的一个示例的流程图。

在510，基于将请求总量转化为每步有相应概率结束，将动态规划方程转化为线性方程组。

在一个示例中，为简化表述，上述资源可以为1种，即属于各个类别的请求对应的展示预定信息所需资源量的维度为1，可表示为并且属于各个类别的请求对应的展示预定信息所需资源量均可以被设置为1(例如资源为所展示的预定信息的次数)，可表示为c(s)＝1。从而上述动态规划方程可以表述为：

在一个示例中，可以将上述动态规划方程的固定期数T转化为每步转移有1/T概率结束，将动态规划方程转化为下述线性方程组(相应符号的含义可以参考前述)：

R(k)＝(R_s(k))_s∈N，δ＝1/T

在520，根据最大的预期收益值对应的类别所对应的资源剩余量阈值为预定下限值，确定动态规划方程组的边界。

在本实施例中，根据最大的预期收益值(例如记为vs)最大的类别(例如记为s^*)所对应的当前资源量阈值为预定下限值(例如“0”、“1”)，可以解得R_s*(1)作为上述动态规划方程组的边界。可选地，当预定下限值为“0”时，决策展示预定信息对应的当前剩余量可以为大于相对应的资源剩余量阈值；当预定下限值为“1”时，决策展示预定信息对应的当前剩余量可以为大于或等于相对应的资源剩余量阈值。

在530，根据边界，基于线性方程组得到在预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值。

在本实施例中，可以将上述步骤520所得到的边界代入上述线性方程组进行迭代，从而可以得到在预测时间段内的不同状态下的最优期望总收益(例如记为R(k))。进而，可以根据上述最优期望总收益所指示的各个状态的决策(例如记为x(t))来确定相应的资源剩余量阈值(例如记为τ_s(k，t))。

基于此，本方案通过上述将求解原始动态规划方程的最优解的问题近似转化为求解转化后的线性方程组的最优解，并且利用上述所发现的阈值函数的性质，进一步将求解转化后的线性方程组的最优解转换为求解对应的资源剩余量阈值，从而可以显著减少计算资源的消耗，降低计算时间。

可选地，在一个示例中，继续参见图6，图6示出了根据本说明书的实施例的资源剩余量阈值的确定过程600的又一个示例的流程图。

如图6所示，在610，根据目标类别集对应的转移概率矩阵和根据请求总量转化的每步概率，得到辅助矩阵。

在一个示例中，目标类别集可以包括初始类别。例如，目标类别集s可以表示为s＝{1}。其中，“1”可以用于表示初始类别的索引。辅助矩阵A可以表示为A＝M_{s}-(1-δ)·M_{s}。其中，M_{s}可以用于表示目标类别集对应的转移概率矩阵。M_{s}中的各个元素可以表示目标类别集s中所包含的类别之间的转移概率。δ可以用于表示根据请求总量转化的每步概率，请求总量可以表示为T，δ＝1/T。

在620，将当前阈值试验值(例如可以表示为x)设置为1。

在630，针对目标类别集中的各个类别，根据该类别对应的预期收益值和该类别对应的转移概率矩阵以及前一轮总预期收益值，得到与目标类别集中的各个类别对应的辅助值。

在一个示例中，与目标类别集中的各个类别对应的辅助值b_i可以表示为b_i＝V_i+(1-δ)·M_[i]·R(x-1)。其中，V_i可以用于表示与索引为i的类别对应的预期收益值。可选地，可以通过矩阵行变换将V₀表示为预期收益值最大的类别所对应的预期收益值。M_[i]可以用于表示上述转移概率矩阵中第i行。R(x-1)可以用于表示前一轮总预期收益值。在一个示例中，R(0)＝0_1×n，τ₀＝0，b＝0_1×n。其他符号的含义可以参见前述。

在640，根据辅助矩阵和各个辅助值，得到当前总预期收益值。

在一个示例中，当前总预期收益值R(x)可以表示为R(x)＝A^-1·b。其中，b可以用于表示根据所形成的辅助向量。

在650，从待决策类别集中选取未被选取过的类别作为待决策类别，判断起始类别为该待决策类别的当前总预期收益值是否小于起始类别为该待决策类别的前一轮总预期收益值与该待决策类别对应的预期收益值之和。

在一个示例中，针对待决策类别可以确定R_j(x)-R_j(x-1)＜V_j是否成立。其中，R_j(x)可以用于表示起始类别为待决策类别j的当前总预期收益值。R_j(x-1)可以用于表示起始类别为待决策类别j的前一轮总预期收益值。其他符号的含义可以参见前述。可选地，可以从待决策类别集中按照类别的索引由小到大的顺序进行选取。

当步骤650的判断结果为是时，执行以下步骤652-658。

在652，将该待决策类别加入目标类别集，得到更新后的目标类别集。

在一个示例中，更新后的目标类别集可以表示为s＝s∪{j}。

在654，将该待决策类别对应的资源剩余量阈值确定为当前阈值试验值。

在一个示例中，待决策类别j对应的资源剩余量阈值τ_j可以表示为τ_j＝x。其中，x可以用于表示当前阈值试验值。

在656，将起始类别为该待决策类别的当前总预期收益值确定为起始类别为该待决策类别的前一轮总预期收益值与该待决策类别对应的预期收益值之和。

在一个示例中，可以将起始类别为待决策类别j的当前总预期收益值确定为R_j(x)＝R_j(x-1)+V_j。相应符号的含义可以参见前述。

在658，根据更新后的目标类别集对应的转移概率矩阵和根据请求总量转化的每步概率，得到更新后的辅助矩阵。

在一个示例中，更新后的辅助矩阵A可以表示为A＝M_{s}-(1-δ)·M_{s}。其中，s可以用于表示更新后的目标类别集。其他符号的含义可以参见前述。

当步骤650的判断结果为否时或步骤658执行完毕后，在660，判断待决策类别集中是否存在未被选取过的待决策类别。

当步骤660的判断结果为是时，继续执行步骤650。

当步骤660的判断结果为否时，在670，判断当前阈值试验值是否等于当前剩余资源量。

在一个示例中，可以确定x＝＝k是否成立。其中，k可以用于表示当前剩余资源量。

当步骤670的判断结果为否时，在680，将当前阈值试验值递增以及继续执行步骤630。

在一个示例中，递增的单位可以与属于各个类别的请求对应的展示预定信息所需资源量相匹配，例如可以以1为单位递增。

当步骤670的判断结果为是时，在690，输出各个类别对应的资源剩余量阈值。

基于此，可以通过当前阈值试验值从初始值递增至当前剩余资源量过程中，得到各个类别的请求分别对应的资源剩余量阈值。可以理解，针对不同的当前剩余资源量，可以得到各个类别的请求分别对应于不同的当前剩余资源量的资源剩余量阈值。

回到图4，在420，针对各个类别的请求，根据当前剩余资源量与该类别的请求对应的资源剩余量阈值的比较，生成用于指示是否向该类别的请求展示预定信息的信息展示策略。

在本实施例中，资源剩余量阈值可以看作与当前剩余资源量和请求所属类别相关联的函数。针对各个类别的请求，可以根据当前剩余资源量确定与该类别的请求对应的资源剩余量阈值。在一个示例中，生成用于指示在当前剩余资源量大于等于该类别的请求对应的资源剩余量阈值时向该类别的请求展示预定信息、在当前剩余资源量小于该类别的请求对应的资源剩余量阈值时拒绝向该类别的请求展示预定信息的信息展示策略。

基于此，本方案可以将直接求解动态规划方程转化为先求解不同状态下所对应的阈值，再根据阈值生成相应的信息展示策略的方法，从而可以大幅提高求解效率。

下面参考图7，图7示出了根据本说明书的实施例的用于生成信息展示策略的方法的应用场景700的一个示例的示意图。

如图7所示，用户可以通过终端设备701、702等设备向服务器710发送请求。在一个示例中，上述请求可以是跳转至指定网页的请求。在一个示例中，上述请求也可以是获取搜索结果的请求。服务器710可以存储过去一天内的请求序列数据(如图中720所示)。其中，请求序列数据720中例如可以包括180个请求数据。根据上述请求序列数据720中的各个请求对应的相关信息，可以确定上述180个请求数据各自所属的类别(如图中730所示)。在一个示例中，各个请求所属的类别可以是“1”、“2”、“3”中的一个。上述“1”、“2”、“3”例如可以指示转化率高、转化率中、转化率低。相应地，上述各个类别对应的展示广告所需资源量可以均为1，预期收益值可以分别为5、3、1。可以确定与请求序列数据720对应的转移概率矩阵(如图中740所示)。基于请求序列数据720，还可以确定当天对应的请求总量(例如200)。还可以根据曝光率(例如可以是60％)进一步确定当天对应的资源总量(例如200×60％＝120)，如图中750所示。进一步地，基于动态规划方法，可以确定在当天的不同状态下针对属于各个类别的请求的信息展示策略(如图中760所示)，以在满足资源总量的约束条件下最大化请求总量对应的总收益值。从而可以在各个状态(即不同的当前剩余资源量)下决策是否对接收到的属于某一类别的请求进行广告展示。

利用图1-图7中公开的用于生成信息展示策略的方法，针对难以准确预测的各个请求，通过历史数据将请求划分为不同的类别并基于此得到转移概率矩阵，进而创造性地将在线流量(例如请求)分布随时间的变化建模为转换为马尔可夫决策过程，通过动态规划方法求解满足资源总量的约束条件下最大化请求总量对应的总收益值的针对属于各个类别的请求的信息展示策略，避免了直接在线进行大规模计算。从而可以为高效地进行信息展示的决策提供技术基础，，有助于更充分地利用网络平台的流量资源。

图8示出了根据本说明书的实施例的用于在线决策信息展示的方法800的流程图。

如图8所示，在810，响应于接收到目标请求，确定目标请求所属的类别。

在本实施例中，目标请求可以对应有各种相关信息。从而可以采用与前述图2实施例中步骤210、220类似的方式确定目标请求所属的类别。

可选地，继续参见图9，图9示出了根据本说明书的实施例的目标请求所属的类别的确定过程900的一个示例的流程图。

如图9所示，在910，从目标请求中提取用户特征。

在一个示例中，可以从目标请求中提取用户标识(例如user_id)。之后，可以在用户授权的前提下获取与上述用户标识相匹配的相关历史记录，进而利用特征提取方法得到用户特征。在一个示例中，可以从目标请求对应的相关信息(例如用户授权的用户信息)中提取用户特征。

在920，将用户特征提供给转化率预测模型，得到对应的转化率预测值。

在本实施例中，上述转化率预测模型可以根据历史时间段内的请求序列数据训练得到。在一个示例中，可以利用历史数据通过有监督训练得到转化率预测模型。

在930，根据转化率预测值确定目标请求所属的类别。

在一个示例中，可以根据转化率预测值与已有类别所对应的转化率区间进行匹配，从而确定目标请求所属的类别。在一个示例中，可以将转化率和所提取的用户特征进行组合，得到目标请求对应的特征向量。再根据所得到目标请求对应的特征向量与各个已有类别对应的特征向量之间的相似度来确定目标请求所属的类别。

基于此，本方案可以实现根据所提取的用户特征对目标请求进行归类，建立了目标请求所属类别与转化率之间的关联，为进一步生成最优化信息展示策略提供技术基础。

回到图8，在820，根据当前剩余资源量确定和目标请求所属的类别确定相匹配的资源剩余量阈值。

在本实施例中，与各个类别相匹配的资源剩余量阈值可以分别与当前剩余资源量相关联。各个资源剩余量阈值可以基于动态规划方法利用历史时间段内的请求序列数据而得到。在一个示例中，与各个类别相匹配的资源剩余量阈值可以是以当前剩余资源量为变量的函数。可以首先确定与目标请求所属的类别确定相匹配的资源剩余量阈值函数。再根据当前剩余资源量确定上述相匹配的资源剩余量阈值函数的函数值作为上述相匹配的资源剩余量阈值。

可选地，与各个类别相匹配的资源剩余量阈值的确定过程可以参考图4至图6实施例中的相关描述。

在830，根据当前资源剩余量与相匹配的资源剩余量阈值的比较，决策是否向目标请求展示预定信息。

在一个示例中，可以在当前剩余资源量大于或等于上述相匹配的资源剩余量阈值的情况下，决策向目标请求展示预定信息；可以在当前剩余资源量小于上述相匹配的资源剩余量阈值的情况下，决策拒绝向目标请求展示预定信息。在一个示例中，可以在当前剩余资源量大于上述相匹配的资源剩余量阈值的情况下，决策向目标请求展示预定信息；可以在当前剩余资源量不大于上述相匹配的资源剩余量阈值的情况下，决策拒绝向目标请求展示预定信息。

基于上述，提供了可以基于与当前剩余资源量相关联的、各个类别相匹配的资源剩余量阈值和当前剩余资源量的相对大小来决策是否向目标请求展示预定信息的方法，从而可以显著减少在线决策的计算量，更为高效。

下面参考图10，图10示出了根据本说明书的实施例的用于生成信息展示策略的装置1000的一个示例的方框图。该装置实施例可以与图2-图7所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图10所示，用于生成信息展示策略的装置1000可以包括序列获取单元1010、类别确定单元1020、矩阵生成单元1030、总量生成单元1040和策略生成单元1050。

序列获取单元1010，被配置为获取历史时间段内的请求序列数据。其中，所述请求序列数据中的各个请求对应有相关信息。序列获取单元1010的操作可以参考上面图2描述的210的操作。

类别确定单元1020，被配置为根据各个请求对应的相关信息，确定所述请求序列数据中的各个请求所属的类别。其中，各个类别分别对应有展示预定信息所需资源量和预期收益值。类别确定单元1020的操作可以参考上面图2描述的220的操作。

在一个示例中，相关信息可以包括收益反馈信息。类别确定单元1020可以被进一步配置为：根据所述请求序列数据中的各个请求对应的收益反馈信息，生成与各个请求对应的特征向量；以及根据各个请求对应的特征向量进行聚类，得到各个请求所属的类别。类别确定单元1020的操作可以参考上面图3描述的相关操作。

矩阵生成单元1030，被配置为确定与所述请求序列数据对应的转移概率矩阵。其中，所述转移概率矩阵用于指示请求所属类别之间的转移概率。矩阵生成单元1030的操作可以参考上面图2描述的230的操作。

总量生成单元1040，被配置为基于所述请求序列数据，确定与所述历史时间段对应的预测时间段所对应的请求总量和资源总量。总量生成单元1040的操作可以参考上面图2描述的240的操作。

策略生成单元1050，被配置为基于动态规划方法，确定在所述预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略，以在满足所述资源总量的约束条件下最大化所述请求总量对应的总收益值。其中，所述不同状态基于所述资源总量和已决策请求的数量而确定，所述信息展示策略用于指示是否向该类别的请求展示预定信息。策略生成单元1050的操作可以参考上面图2描述的250的操作。

可选地，继续参考图11，图11示出了根据本说明书的实施例的用于生成信息展示策略的装置中策略生成单元1100的一个示例的方框图。

如图11所示，策略生成单元1100可以包括：阈值确定模块1110，被配置为基于动态规划方法，确定在所述预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值；策略生成模块1120，被配置为针对属于各个类别的请求，根据当前剩余资源量与属于该类别的请求对应的资源剩余量阈值的比较，生成用于指示是否向属于该类别的请求展示预定信息的信息展示策略。阈值确定模块1110和策略生成模块1120的操作可以参考上面图4描述的410-420的操作。

在一个示例中，阈值确定模块1110可以进一步被配置为：基于将所述请求总量转化为每步有相应概率结束，将动态规划方程转化为线性方程组；根据最大的预期收益值对应的类别所对应的资源剩余量阈值为预定下限值，确定所述动态规划方程组的边界；以及根据所述边界，基于所述线性方程组得到在所述预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值。阈值确定模块1110的操作可以参考上面图5描述的510-530的操作。

下面参考图12，图12示出了根据本说明书的实施例的用于在线决策信息展示的装置1200的一个示例的方框图。该装置实施例可以与图8-图9所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图12所示，用于在线决策信息展示的装置1200可以包括归类单元1210、阈值匹配单元1220和决策单元1230。

归类单元1210，被配置为响应于接收到目标请求，确定所述目标请求所属的类别。归类单元1210的操作可以参考上面图8描述的810的操作。

在一个示例中，归类单元1210可以被进一步配置成：从所述目标请求中提取用户特征；将所述用户特征提供给转化率预测模型，得到对应的转化率预测值，其中，所述转化率预测模型根据所述历史时间段内的请求序列数据训练得到；以及根据所述转化率预测值确定所述目标请求所属的类别。归类单元1210的操作可以参考上面图9描述的910-930的操作。

阈值匹配单元1220，被配置为根据当前剩余资源量确定和所述目标请求所属的类别确定相匹配的资源剩余量阈值。其中，与各个类别相匹配的资源剩余量阈值分别与当前剩余资源量相关联，各个资源剩余量阈值基于动态规划方法利用历史时间段内的请求序列数据而得到。阈值匹配单元1220的操作可以参考上面图8描述的820的操作。

决策单元1230，被配置为根据当前剩余资源量与所述相匹配的资源剩余量阈值的比较，决策是否向所述目标请求展示预定信息。决策单元1230的操作可以参考上面图8描述的830的操作。

以上参照图1到图12，对根据本说明书实施例的用于生成信息展示策略的方法和装置、以及用于在线决策信息展示的方法和装置的实施例进行了描述。

本说明书实施例的用于生成信息展示策略的装置和用于在线决策信息展示的装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中，用于生成信息展示策略的装置和用于在线决策信息展示的装置例如可以利用电子设备实现。

图13示出了本说明书的实施例的用于生成信息展示策略的装置1300的示意图。

如图13所示，用于确定序列数据之间的数据相似度的装置1300可以包括至少一个处理器1310、存储器(例如，非易失性存储器)1320、内存1330和通信接口1340，并且至少一个处理器1310、存储器1320、内存1330和通信接口1340经由总线1350连接在一起。至少一个处理器1310执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1310：获取历史时间段内的请求序列数据，其中，所述请求序列数据中的各个请求对应有相关信息；根据各个请求对应的相关信息，确定所述请求序列数据中的各个请求所属的类别，其中，各个类别分别对应有展示预定信息所需资源量和预期收益值；确定与所述请求序列数据对应的转移概率矩阵，其中，所述转移概率矩阵用于指示请求所属类别之间的转移概率；基于所述请求序列数据，确定与所述历史时间段对应的预测时间段所对应的请求总量和资源总量；以及基于动态规划方法，确定在所述预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略，以在满足所述资源总量的约束条件下最大化所述请求总量对应的总收益值，其中，所述不同状态基于所述资源总量和已决策请求的数量而确定，所述信息展示策略用于指示是否向该类别的请求展示预定信息。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1310进行本说明书的各个实施例中以上结合图1-7描述的各种操作和功能。

图14示出了本说明书的实施例的用于在线决策信息展示的装置1400的示意图。

如图14所示，用于在线决策信息展示的装置1400可以包括至少一个处理器1410、存储器(例如，非易失性存储器)1420、内存1430和通信接口1440，并且至少一个处理器1410、存储器1420、内存1430和通信接口1440经由总线1450连接在一起。至少一个处理器1410执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1410：响应于接收到目标请求，确定所述目标请求所属的类别；根据当前剩余资源量确定和所述目标请求所属的类别确定相匹配的资源剩余量阈值，其中，与各个类别相匹配的资源剩余量阈值分别与当前剩余资源量相关联，各个资源剩余量阈值基于动态规划方法利用历史时间段内的请求序列数据而得到；根据当前剩余资源量与所述相匹配的资源剩余量阈值的比较，决策是否向所述目标请求展示预定信息。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1410进行本说明书的各个实施例中以上结合图9描述的各种操作和功能。

根据一个实施例，提供了一种例如计算机可读介质的程序产品。计算机可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被计算机执行时，使得计算机执行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写，包括面向对象编程语言，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等，常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL 2002、PHP以及ABAP，动态编程语言如Python、Ruby和Groovy，或者其他编程语言等。该程序编码可以在用户计算机上运行，或者作为独立的软件包在用户计算机上运行，或者部分在用户计算机上运行另一部分在远程计算机运行，或者全部在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或者在云计算环境中，或者作为服务使用，比如软件即服务(SaaS)。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本说明书的实施例的可选实施方式，但是，本说明书的实施例并不限于上述实施方式中的具体细节，在本说明书的实施例的技术构思范围内，可以对本说明书的实施例的技术方案进行多种简单变型，这些简单变型均属于本说明书的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于生成信息展示策略的方法，包括：

获取历史时间段内的请求序列数据，其中，所述请求序列数据中的各个请求对应有相关信息；

根据各个请求对应的相关信息，确定所述请求序列数据中的各个请求所属的类别，其中，各个类别分别对应有展示预定信息所需资源量和预期收益值；

确定与所述请求序列数据对应的转移概率矩阵，其中，所述转移概率矩阵用于指示请求所属类别之间的转移概率；

基于所述请求序列数据，确定与所述历史时间段对应的预测时间段所对应的请求总量和资源总量；以及

基于动态规划方法，确定在所述预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略，以在满足所述资源总量的约束条件下最大化所述请求总量对应的总收益值，其中，所述不同状态基于所述资源总量和已决策请求的数量而确定，所述信息展示策略用于指示是否向该类别的请求展示预定信息。

2.如权利要求1所述的方法，其中，所述基于动态规划方法，确定在所述预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略包括：

基于动态规划方法，确定在所述预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值；以及

针对属于各个类别的请求，根据当前剩余资源量与属于该类别的请求对应的资源剩余量阈值的比较，生成用于指示是否向属于该类别的请求展示预定信息的信息展示策略。

3.如权利要求2所述的交互方法，其中，所述基于动态规划方法，确定在所述预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值包括：

基于将所述请求总量转化为每步有相应概率结束，将动态规划方程转化为线性方程组；

根据最大的预期收益值对应的类别所对应的资源剩余量阈值为预定下限值，确定所述动态规划方程组的边界；以及

根据所述边界，基于所述线性方程组得到在所述预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值。

4.如权利要求1到3中任一所述的方法，其中，所述相关信息包括收益反馈信息，

所述确定所述请求序列数据中的各个请求所属的类别包括：

根据所述请求序列数据中的各个请求对应的收益反馈信息，生成与各个请求对应的特征向量；以及

根据各个请求对应的特征向量进行聚类，得到各个请求所属的类别。

5.一种用于在线决策信息展示的方法，包括：

响应于接收到目标请求，确定所述目标请求所属的类别；

根据当前剩余资源量确定和所述目标请求所属的类别确定相匹配的资源剩余量阈值，其中，与各个类别相匹配的资源剩余量阈值分别与当前剩余资源量相关联，各个资源剩余量阈值基于动态规划方法利用历史时间段内的请求序列数据而得到；

根据当前剩余资源量与所述相匹配的资源剩余量阈值的比较，决策是否向所述目标请求展示预定信息。

6.如权利要求5所述的方法，其中，所述确定所述目标请求所属的类别包括：

从所述目标请求中提取用户特征；

将所述用户特征提供给转化率预测模型，得到对应的转化率预测值，其中，所述转化率预测模型根据所述历史时间段内的请求序列数据训练得到；以及

根据所述转化率预测值确定所述目标请求所属的类别。

7.一种用于生成信息展示策略的装置，包括：

序列获取单元，被配置为获取历史时间段内的请求序列数据，其中，所述请求序列数据中的各个请求对应有相关信息；

类别确定单元，被配置为根据各个请求对应的相关信息，确定所述请求序列数据中的各个请求所属的类别，其中，各个类别分别对应有展示预定信息所需资源量和预期收益值；

矩阵生成单元，被配置为确定与所述请求序列数据对应的转移概率矩阵，其中，所述转移概率矩阵用于指示请求所属类别之间的转移概率；

总量生成单元，被配置为基于所述请求序列数据，确定与所述历史时间段对应的预测时间段所对应的请求总量和资源总量；以及

策略生成单元，被配置为基于动态规划方法，确定在所述预测时间段内的不同状态下针对属于各个类别的请求的信息展示策略，以在满足所述资源总量的约束条件下最大化所述请求总量对应的总收益值，其中，所述不同状态基于所述资源总量和已决策请求的数量而确定，所述信息展示策略用于指示是否向该类别的请求展示预定信息。

8.如权利要求7所述的装置，其中，所述策略生成单元包括：

阈值确定模块，被配置为基于动态规划方法，确定在所述预测时间段内的不同状态下与属于各个类别的请求分别对应的资源剩余量阈值；以及

策略生成模块，被配置为针对属于各个类别的请求，根据当前剩余资源量与属于该类别的请求对应的资源剩余量阈值的比较，生成用于指示是否向属于该类别的请求展示预定信息的信息展示策略。

9.如权利要求8所述的装置，其中，所述阈值确定模块进一步被配置为：

10.如权利要求7到9中任一所述的装置，其中，所述相关信息包括收益反馈信息，

所述类别确定单元被进一步配置为：

11.一种用于在线决策信息展示的装置，包括：

归类单元，被配置为响应于接收到目标请求，确定所述目标请求所属的类别；

阈值匹配单元，被配置为根据当前剩余资源量确定和所述目标请求所属的类别确定相匹配的资源剩余量阈值，其中，与各个类别相匹配的资源剩余量阈值分别与当前剩余资源量相关联，各个资源剩余量阈值基于动态规划方法利用历史时间段内的请求序列数据而得到；

决策单元，被配置为根据当前剩余资源量与所述相匹配的资源剩余量阈值的比较，决策是否向所述目标请求展示预定信息。

12.如权利要求11所述的装置，其中，所述归类单元被进一步配置成：

从所述目标请求中提取用户特征；

根据所述转化率预测值确定所述目标请求所属的类别。

13.一种用于生成信息展示策略的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求1至4中任一所述的用于生成信息展示策略的方法。

14.一种用于在线决策信息展示的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求5或6所述的用于在线决策信息展示的方法。