CN111476639A

CN111476639A - 商品推荐策略确定方法、装置、计算机设备及存储介质

Info

Publication number: CN111476639A
Application number: CN202010279804.5A
Authority: CN
Inventors: 曾峰; 黎阳
Original assignee: Shenzhen Wuyu Zhilian Technology Co ltd
Current assignee: Shenzhen Wuyu Zhilian Technology Co ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-07-31

Abstract

本发明属于计算机技术领域，提供了一种商品推荐策略确定方法、装置、计算机设备及存储介质，其中商品推荐策略确定方法包括：确定多个优选离线商品推荐策略；对所述多个优选离线商品推荐策略进行处理确定优选在线商品推荐策略；对所述优选在线商品推荐策略进行优化生成最优在线商品推荐策略。本发明实施例提供的商品推荐策略确定方法通过预先确定出多个优选离线商品推荐策略，并进一步在线上实时对已知的优选离线商品推荐策略进行处理，一方面离线商品推荐策略的确定不会占用线上优化时间，另一方面显著降低线上处理时长，从而有效提高了商品推荐服务的时效性，同时配合后续的对商品推荐策略进行进一步优化，有效提高商品推荐服务的推荐效果。

Description

商品推荐策略确定方法、装置、计算机设备及存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种商品推荐策略确定方法、装置、计算机设备及存储介质。

背景技术

商品推荐服务能够根据商品特征和用户特性信息推荐多个商品。一般来说，线下的商品推荐策略通常都不能直接促进线上推荐的实际效果的提升，所以通常都需要利用线上的实时计算算法对商品推荐策略进行优化，以提高用户点击率。

然而，目前利用线上的实时计算算法对商品推荐策略进行优化往往需要花费大量的优化时间，而考虑到商品推荐服务的时效性，长时间的线上优化过程会影响到用户的商品推荐服务体验，而短时间的线上优化过程则往往起不到较好的策略优化效果，这同样也会影响到用户的商品推荐服务体验。

可见，现有的优化商品推荐策略过程中还存在着难以同时兼顾时效性和优化效果的技术问题，影响用户的商品推荐服务体验。

发明内容

本发明实施例的目的在于提供一种商品推荐策略确定方法、装置、计算机设备及存储介质，旨在解决现有的优化商品推荐策略过程中还存在的难以同时兼顾时效性和优化效果的技术问题，影响用户的商品推荐服务体验。

本发明实施例是这样实现的，一种商品推荐策略确定方法，包括：

确定多个优选离线商品推荐策略；

根据多臂赌博算法对所述多个优选离线商品推荐策略进行处理，并确定优选在线商品推荐策略；

根据零阶优化算法对所述优选在线商品推荐策略进行优化，生成最优在线商品推荐策略。

本发明实施例的另一目的在于提供一种商品推荐策略确定装置，包括：

优选离线商品推荐策略确定模块，用于确定多个优选离线商品推荐策略；

优选在线商品推荐策略确定模块，用于根据预设的基于多臂赌博算法建立的商品推荐模型对所述多个优选离线商品推荐策略进行处理，并确定优选在线商品推荐策略；

在线商品推荐策略优化模块，用于基于零阶优化算法对所述优选在线商品推荐策略进行优化，生成最优在线商品推荐策略。

本发明实施例的另一目的在于提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述所述商品推荐策略确定方法的步骤。

发明实施例的另一目的在于提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述所述商品推荐策略确定方法的步骤。

本发明实施例提供的一种商品推荐策略确定方法中，通过预先确定出多个优选离线商品推荐策略，配合后续的多臂赌博算法能够在线上实时对已知的多个优选离线商品推荐策略进行处理，一方面离线商品推荐策略的确定不会占用线上优化时间，另一方面由于已经预先确定出候选商品推荐策略集合，使得多臂赌博算法的线上处理时长显著降低，即降低了商品推荐策略的线上优化时间，有效提高了商品推荐服务的时效性，同时配合后续的零阶优化算法对商品推荐策略进行进一步优化，弥补了多臂赌博算法因线上优化时间较短而导致的容易陷入局部最优化的问题，有效提高商品推荐服务的推荐效果。

附图说明

图1为本发明实施例提供的一种商品推荐策略确定方法的步骤流程图；

图2为本发明实施例提供的另一种商品推荐策略确定方法的步骤流程图；

图3为本发明实施例提供的又一种商品推荐策略确定方法的步骤流程图；

图4为本发明实施例提供的一种确定优选离线商品推荐策略的步骤流程图；

图5为本发明实施例提供的一种从多个优选离线商品推荐策略中确定优选在线商品推荐策略的步骤流程图；

图6为本发明实施例提供的一种基于收益期望与实际在线收益确定优选在线商品推荐策略的步骤流程图；

图7为本发明实施例提供的一种生成最优在线商品推荐策略的步骤流程图；

图8为本发明实施例提供的一种商品推荐策略确定装置的结构示意图；

图9为本发明实施例提供的一种可用于执行商品推荐策略确定方法的计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明实施例提供的一种商品推荐策略确定方法的步骤流程图，具体包括以下步骤：

步骤S102，确定多个优选离线商品推荐策略。

在本发明实施例中，所述多个优选离线商品推荐策略是预先在离线状态下所确定的商品推荐策略，具体是预先通过用户特征以及商品特征等大数据所确定的商品推荐策略。然而考虑到线上商品推荐策略所用到的日常流量的数据特征和在离线状态下确定商品推荐策略所用到的高并发、超大数据量的数据特征是不同的，因此，在离线状态下确定的具有较好推荐效果的离线商品推荐策略实际运用在线上进行商品推荐时，往往不会取得较好的推荐效果，通常需要进行进一步的优化处理。

在本发明实施例中，其中确定多个优选离线商品推荐策略具体请参阅图4及其解释说明的内容。

步骤S104，根据多臂赌博算法对所述多个优选离线商品推荐策略进行处理，并确定优选在线商品推荐策略。

在本发明实施例中，多臂赌博算法是一种基于线上实时收益计算与预期收益不断更新在线商品推荐策略的一类算法，具体可以参阅图5及其解释说明部分。在商品推荐领域，收益可以简单理解为用户点击了商品推荐，商品推荐策略的收益属于本领域技术人员所能晓得的常规技术手段，在此不再赘述。具体的，对于每个商品推荐策略都可以预先计算出预期收益，然后进行若干轮的线上测试，并根据用户的商品推荐点击信息确定每个商品推荐策略下的实时收益，其中，预期收益和实时收益差距越小表明商品推荐策略的效果越好，通过上述算法能够快速筛选出推荐效果较佳的在线商品推荐策略。

步骤S106，根据零阶优化算法对所述优选在线商品推荐策略进行优化，生成最优在线商品推荐策略。

在本发明实施例中，多臂赌博算法仅仅只是对多个优选离线商品推荐策略进行多轮线上测试，并筛选出其中在线推荐效果最佳的商品推荐策略。其中，多臂赌博算法的处理量越多也就是优选离线商品推荐策略越多、线上测试的轮数越多，则筛选出的商品推荐策略的推荐效果也越理想，但会导致线上优化时间变长，考虑到线上商品推荐服务的时效性，需要降低多臂赌博算法的处理量，因此在一定程度会影响到多臂赌博算法所筛选出的商品推荐策略的推荐效果，此时确定的优选在线商品推荐策略并非是全局意义上最优的在线商品推荐策略，而进一步配合零阶优化算法，能够对筛选出的商品推荐策略快速进行优化，从而在保证商品推荐服务的时效性基础上，进一步提高了商品推荐服务的效果，从而提高用户的商品推荐服务体验。

如图2所示，为本发明实施例提供的另一种商品推荐策略确定方法的步骤流程图，详述如下。

在本发明实施例中，与图1所示出的一种商品推荐策略确定方法的步骤流程图的区别在于，还包括：

步骤S202，根据所述最优在线商品推荐策略进行在线商品推荐。

在本发明实施例中，结合多臂赌博算法和零阶优化算法共同对商品推荐策略进行在线筛选，就能够迅速确定出在当前在线状态下推荐效果好的在线商品推荐策略，利用该在线商品推荐策略，就能够得到较高的商品推荐收益。

在本发明实施例中，需要说明的是，由于线上日常流量的数据特征会不断发生变化，可以理解为不同的用户使用商品推荐服务，当前在线商品推荐策略的推荐效果并不能够始终保持。因此，可以按照预设的规则或者周期，重新进行如图1所示出的商品推荐策略确定方法，以确定新的推荐效果好的商品推荐策略。

如图3所示，为本发明实施例提供的又一种商品推荐策略确定方法的步骤流程图，详述如下。

在本发明实施例中，与图1所示出的一种商品推荐策略确定方法的步骤流程图的区别在于，在所述步骤S104之后，还包括：

步骤S302，判断所述优选在线商品推荐策略是否满足预设的优化条件。当判断所述优选在线商品推荐策略不满足预设的优化条件时，执行步骤S106；当判断所述优选在线商品推荐策略满足预设的优化条件时，执行其他步骤。

在本发明实施例中，当根据多臂赌博算法所筛选出的优选在线商品推荐策略已经具有较高的推荐效果，也就是实际在线收益与预期收益之间的差距足够小时，表明优选在线商品推荐策略可以无需在利用零阶优化算法进行进一步的优化，此时，可以直接根据所述优选在线商品推荐策略进行在线商品推荐。因此，可以理解，满足预设的优化条件通常是指实际在线收益与预期收益之间的差距是否小于预设的阈值，当然也可以是其他判断是否足够优化的条件，而在判断所述优选在线商品推荐策略满足预设的优化条件后，所执行的其他步骤通常是根据所述优选在线商品推荐策略进行在线商品推荐。

如图4所示，为本发明实施例提供的一种确定优选离线商品推荐策略的步骤流程图，具体包括以下步骤：

步骤S402，获取用户的特征信息以及商品的特征信息。

在本发明实施例中，所获取的用户的特征信息以及商品的特征信息是在大数据条件下得到的特征信息，而并非是线上实时获取的用户的特征信息以及商品的特征信息。

步骤S404，根据所述用户的特征信息以及商品的特征信息确定多个优选离线商品推荐策略。

在本发明实施例中，结合前述步骤S102的论述可知，此时获取的特征信息与线上日常流量的数据特征信息并不完全相同，因此此时所确定的商品推荐策略是离线状态下的商品推荐策略，当直接应用在线上环境下进行商品推荐时，并不一定能够取得较好的推荐效果。其中，具体确定出多个优选离线商品推荐策略的规则是可以根据实际情况自行设定，比如优先推荐新上市的商品或者优先推荐打折商品等等。

如图5所示，为本发明实施例提供的一种从多个优选离线商品推荐策略中确定优选在线商品推荐策略的步骤流程图，具体包括以下步骤：

步骤S502，根据预设的收益期望计算规则计算所述多个优选离线商品推荐策略的多轮收益期望。

在本发明实施例中，对于每种商品推荐策略中都包含有收益期望计算规则，这些计算规则往往与用户的特征信息、商品的特征信息关联。因此，利用用户的特征信息、商品的特征信息就可以计算出每轮各个优选离线商品推荐策略的收益期望。当然在每轮测试结束后，都会对商品推荐策略进行参数的更新，因此，每轮测试中每种商品推荐策略中所计算出的收益期望并不相同。

步骤S504，根据所述多个优选离线商品推荐策略进行多轮在线商品推荐，并分别确定所述多个优选离线商品推荐策略的多轮实际在线收益。

在本发明实施例中，对各个优选离线商品推荐策略分别进行多轮在线商品推荐测试，就可以确定出每个优选离线商品推荐策略的在每一轮测试的实际在线收益，而实际在线收益和收益期望的差异可以体现出商品推荐策略的效果。

步骤S506，根据所述多个优选离线商品推荐策略的多轮收益期望以及所述多个优选离线商品推荐策略的多轮实际在线收益确定优选在线商品推荐策略。

在本发明实施例中，具体的根据收益期望以及实际在线收益确定在线商品推荐策略的过程请参阅图6及其解释说明。

如图6所示，为本发明实施例提供的一种基于收益期望与实际在线收益确定优选在线商品推荐策略的步骤流程图，具体包括以下步骤：

步骤S602，根据所述多个优选离线商品推荐策略的多轮收益期望以及所述多个优选离线商品推荐策略的多轮实际在线收益确定所述多个优选离线商品推荐策略的累计遗憾值。

步骤S604，根据所述多个优选离线商品推荐策略的累计遗憾值确定优选在线商品推荐策略。

在本发明实施例中，通过引入收益期望与实际在线收益之间的差异作为遗憾值，并统计多轮测试过程中的累计遗憾值，可以反馈出各个优选离线商品推荐策略的推荐性能，显然累计遗憾值越小，表明收益期望与实际在线收益之间的差异越小，也就是推荐效果越理想，将收益期望与实际在线收益之间累计遗憾值最小的优选离线商品推荐策略确定为优选在线商品推荐策略。

如图7所示，为本发明实施例提供的一种生成最优在线商品推荐策略的步骤流程图，具体包括以下步骤：

步骤S702，确定所述优选在线商品推荐策略中的推荐参数。

在本发明实施例中，零阶优化算法是一种在连续空间上优化参数的优化方法，同样的，在在线商品推荐策略中也会包括的大量推荐参数，零阶优化算法本质上是对在线商品推荐策略中包括的推荐参数进行优化，从而进一步提高在线商品推荐策略的推荐效果。

步骤S704，按照预设的调整规则在连续空间上调整所述优选在线商品推荐策略中的推荐参数，生成多个参数优化后在线商品推荐策略。

在本发明实施例中，将所述优选在线商品推荐策略中的推荐参数作为初始推荐参数，基于预设的步长对优选在线商品推荐策略中的至少一个推荐参数进行调整，生成多个参数优化后在线商品推荐策略。

步骤S706，计算所述多个参数优化后在线商品推荐策略的多轮实际在线收益。

步骤S708，根据所述多个参数优化后在线商品推荐策略的多轮实际在线收益确定最优在线商品推荐策略。

在本发明实施例中，通过对在线商品推荐策略中包含的推荐参数在连续空间上进行调整，并计算参数优化之后在线商品推荐策略的多轮实际在线收益，然后根据多轮实际在线收益确定最优在线商品推荐策略，能够有效降低在线商品推荐策略是局部最优值的风险，提高所确定出的最优在线商品推荐策略的推荐效果。

如图8所示，为本发明实施例提供的一种商品推荐策略确定的结构示意图，详述如下。

在本发明实施例中，所述商品推荐策略确定包括：

优选离线商品推荐策略确定模块810，用于确定多个优选离线商品推荐策略。

优选在线商品推荐策略确定模块820，用于根据预设的基于多臂赌博算法建立的商品推荐模型对所述多个优选离线商品推荐策略进行处理，并确定优选在线商品推荐策略。

在本发明实施例中，多臂赌博算法是一种基于线上实时收益计算与预期收益不断更新在线商品推荐策略的一类算法。在商品推荐领域，收益可以简单理解为用户点击了商品推荐，商品推荐策略的收益属于本领域技术人员所能晓得的常规技术手段，在此不再赘述。具体的，对于每个商品推荐策略都可以预先计算出预期收益，然后进行若干轮的线上测试，并根据用户的商品推荐点击信息确定每个商品推荐策略下的实时收益，其中，预期收益和实时收益差距越小表明商品推荐策略的效果越好，通过上述算法能够快速筛选出推荐效果较佳的在线商品推荐策略。

在线商品推荐策略优化模块830，用于基于零阶优化算法对所述优选在线商品推荐策略进行优化，生成最优在线商品推荐策略。

本发明实施例提供的一种商品推荐策略确定装置中，通过预先确定出多个优选离线商品推荐策略，配合后续的多臂赌博算法能够在线上实时对已知的多个优选离线商品推荐策略进行处理，一方面离线商品推荐策略的确定不会占用线上优化时间，另一方面由于已经预先确定出候选商品推荐策略集合，使得多臂赌博算法的线上处理时长显著降低，即降低了商品推荐策略的线上优化时间，有效提高了商品推荐服务的时效性，同时配合后续的零阶优化算法对商品推荐策略进行进一步优化，弥补了多臂赌博算法因线上优化时间较短而导致的容易陷入局部最优化的问题，有效提高商品推荐服务的推荐效果。

图9示出了一个实施例中计算机设备的内部结构图。如图9所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现商品推荐策略确定方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行商品推荐策略确定方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的商品推荐策略确定装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该商品推荐策略确定装置的各个程序模块，比如，图8所示出的优选离线商品推荐策略确定模块、优选在线商品推荐策略确定模块和在线商品推荐策略优化模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的商品推荐策略确定方法中的步骤。

例如，与9所示的计算机设备可以通过如图8所示的商品推荐策略确定装置中的优选离线商品推荐策略确定模块执行步骤S102；计算机设备可通过优选在线商品推荐策略确定模块执行步骤S104；计算机设备可通过在线商品推荐策略优化模块执行步骤S106。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

确定多个优选离线商品推荐策略；

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

确定多个优选离线商品推荐策略；

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种商品推荐策略确定方法，其特征在于，包括：

确定多个优选离线商品推荐策略；

2.根据权利要求1所述的一种商品推荐策略确定方法，其特征在于，在所述生成最优在线商品推荐策略的步骤之后，还包括：

根据所述最优在线商品推荐策略进行在线商品推荐。

3.根据权利要求1所述的一种商品推荐策略确定方法，其特征在于，在所述确定优选在线商品推荐策略的步骤之后，还包括：

判断所述优选在线商品推荐策略是否满足预设的优化条件；

所述根据零阶优化算法对所述优选在线商品推荐策略进行优化，生成最优在线商品推荐策略的步骤，具体包括：

当判断所述优选在线商品推荐策略不满足预设的优化条件时，根据零阶优化算法对所述优选在线商品推荐策略进行优化，生成最优在线商品推荐策略。

4.根据权利要求1所述的一种商品推荐策略确定方法，其特征在于，所述确定多个优选离线商品推荐策略的步骤，具体包括：

获取用户的特征信息以及商品的特征信息；

根据所述用户的特征信息以及商品的特征信息确定多个优选离线商品推荐策略。

5.根据权利要求1所述的一种商品推荐策略确定方法，其特征在于，所述根据多臂赌博算法对所述多个优选离线商品推荐策略进行处理，并确定优选在线商品推荐策略的步骤，具体包括：

根据预设的收益期望计算规则计算所述多个优选离线商品推荐策略的多轮收益期望；

根据所述多个优选离线商品推荐策略进行多轮在线商品推荐，并分别确定所述多个优选离线商品推荐策略的多轮实际在线收益；

根据所述多个优选离线商品推荐策略的多轮收益期望以及所述多个优选离线商品推荐策略的多轮实际在线收益确定优选在线商品推荐策略。

6.根据权利要求5所述的一种商品推荐策略确定方法，其特征在于，所述根据所述多个优选离线商品推荐策略的多轮收益期望以及所述多个优选离线商品推荐策略的多轮实际在线收益确定优选在线商品推荐策略的步骤，具体包括：

根据所述多个优选离线商品推荐策略的多轮收益期望以及所述多个优选离线商品推荐策略的多轮实际在线收益确定所述多个优选离线商品推荐策略的累计遗憾值；

根据所述多个优选离线商品推荐策略的累计遗憾值确定优选在线商品推荐策略。

7.根据权利要求1所述的商品推荐策略确定方法，其特征在于，所述基于零阶优化算法对所述优选在线商品推荐策略进行优化，生成最优在线商品推荐策略的步骤，具体包括：

确定所述优选在线商品推荐策略中的推荐参数；

按照预设的调整规则在连续空间上调整所述优选在线商品推荐策略中的推荐参数，生成多个参数优化后在线商品推荐策略；

计算所述多个参数优化后在线商品推荐策略的多轮实际在线收益；

根据所述多个参数优化后在线商品推荐策略的多轮实际在线收益确定最优在线商品推荐策略。

8.一种商品推荐策略确定装置，其特征在于，包括：

在线商品推荐策略优化模块，用于基于零阶优化算法对所述优选在线商品推荐策略进行优化，生成最优在线商品推荐策略；

在线商品推荐模块，用于根据所述最优在线商品推荐策略进行在线商品推荐。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至7中任一项权利要求所述商品推荐策略确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至7中任一项权利要求所述商品推荐策略确定方法的步骤。