CN108228579A

CN108228579A - 网络交互系统

Info

Publication number: CN108228579A
Application number: CN201611128672.6A
Authority: CN
Inventors: 黄丕培; 彭鹏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2018-06-29
Also published as: TW201822019A; US20180165746A1; WO2018107102A1

Abstract

本申请实施方式公开了一种网络交互系统，包括：前端服务器和推荐系统；所述前端服务器，用于接收客户端的访问请求；将客户端的用户信息提供给推荐系统；基于推荐系统提供的期望奖励值在推荐系统提供的素材集中筛选得到结果集；将结果集发送给客户端；推荐系统用于获取客户端的用户信息对应的用户特征集；获取包括用于页面显示的素材的素材集，以及素材对应的素材特征集；根据用户特征集和素材的素材特征集生成期望奖励值，其中，期望奖励值为素材在所述预设页面显示且被点击时，推荐系统得到的奖励值；将素材集和期望奖励值提供给前端服务器。所述系统可以提升用户页面浏览效率。

Description

网络交互系统

技术领域

本申请涉及计算机技术领域，特别涉及一种网络交互系统。

背景技术

随着电子商务的不断发展，越来越多的消费者习惯了网上购物。以可以享受到网络购物带来的便捷。

购物网站为了满足不同用户的购买需求，使得购物网站提供的商品和服务种类越来越多。比如家电产品、家居用品。可以将家电产品作为一个大的类别，那么进一步的还有各种产品本身的类别，例如冰箱、洗衣机。在进一步的，产品本身还分为很多的品牌和型号。使得购物网站中提供了非常多的商品和服务。

用户在浏览购物网站时，需要从购物网站提供的大量的商品和服务的信息中，逐渐筛选找到自己想要的商品或服务。现有的购物网站并不能提供很好的措施，以帮助用户可以尽快找到想要的商品或服务。

发明内容

本申请实施方式的目的是提供一种网络交互系统。能够有效帮助用户尽快找到目标商品或者服务。

为实现上述目的，本申请实施方式提供一种网络交互系统，包括：前端服务器和推荐系统；所述前端服务器，用于接收客户端的访问请求；将所述客户端的用户信息提供给所述推荐系统；基于所述推荐系统提供的期望奖励值在所述推荐系统提供的素材集中筛选得到结果集；将所述结果集发送给所述客户端；所述推荐系统，用于获取所述客户端的用户信息对应的用户特征集；获取包括用于页面显示的素材的素材集，以及所述素材对应的素材特征集；根据所述用户特征集和所述素材的素材特征集生成期望奖励值，其中，所述期望奖励值为所述素材在所述预设页面显示且被点击时，所述推荐系统得到的奖励值；将所述素材集和所述期望奖励值提供给所述前端服务器。

由以上本申请实施方式提供的技术方案可见，本申请实施方式提供的网络交互系统可以根据标识用户的用户特征集和标识素材的素材特征集生成对应素材的期望奖励值。使得前端服务器可以有依据在将素材集中的选择素材提供给用户。再者，所述推荐系统可以通过数据训练等，使得期望奖励值的大小可以用于预测用户点击素材的可能性，使得显示给用户的素材。有较大可能引起用户的兴趣，从而实现减少了用户进行挑选的时间，给用户带来了便利。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式提供的一种网络交互系统的工作流程示意图；

图2为本申请实施方式提供的一种网络交互系统提供给客户端显示的页面示意图；

图3为本申请实施方式提供的一种用户使用客户端进行页面流转访问的示意图；

图4为本申请实施方式提供的一种表征向量中用户特征集和素材特征集组合的示意图；

图5为本申请实施方式提供的一种推荐系统运算得出索引量的算法的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

请参阅图1。本申请实施方式提供一种网络交互系统。该网络交互系统包括：前端服务器、推荐系统。

所述前端服务器用于接收客户端的访问请求；将所述客户端的用户信息提供给所述推荐系统；基于所述推荐系统提供的期望奖励值在所述推荐系统提供的素材集中筛选得到结果集；将所述结果集发送给所述客户端。

在本实施方式中，前端服务器可以为一个具有运算和网络交互功能的电子设备；也可以为运行于该电子设备中，为数据处理和网络交互提供支持的软体。

在本实施方式中，前端服务器并不具体限定服务器的数量。前端服务器可以为一个服务器，还可以为几个服务器，或者，若干服务器形成的服务器集群。

在本实施方式中，前端服务器可以为电子商务网站平台的业务服务器。如此，前端服务器可以直接通过网络与客户端进行通信。

在本实施方式中，客户端可以为具有显示、运算和网络访问功能的电子设备。具体的，例如，客户端可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、具有网络访问功能的电视机。或者，客户端也可以为能够运行于上述电子设备中的软体。具体的，例如，客户端可以为购物网站平台提供访问入口，例如当当网站、京东网站、亚马逊网站等；客户端还可以为购物网站平台提供的在智能手机中运行的应用。例如，手机当当、手机京东、手机亚马逊等。

在本实施方式中，访问请求可以为具有指定格式的字符串，其可以表示一个页面的访问地址。或者，访问请求中可以具有页面标识，使得通过页面标识实现访问请求指向一个页面。访问请求的指定格式可以为遵循网络通信协议的格式，如此使得访问请求可以经由互联网传送。具体的，客户端可以依照网络通信协议，例如Http、TCP/IP或者FTP协议等，向前端服务器发出访问请求。

在本实施方式中，用户信息可以为能够标识所述客户端的信息。或者，所述用户信息可以标识使用所述客户端的用户。具体的，用户信息本身可以为预先设定的一个名称，或者，所述客户端的网络地址，或者系统平台为用户分配的编号作为用户信息。具体的，例如用户信息可以为用户登录网站的用户名。

在本实施方式中，前端服务器获得用户信息的方式可以包括但不限于：在客户端的访问请求中附带有用户信息，前端服务器从该访问请求中解析得到所述用户信息；前端服务器根据客户端的访问请求，在本地存储的数据库中得到用户信息，其中访问请求中可以具有用于匹配查找用户信息的标识。

在本实施方式中，前端服务器在推荐系统提供的素材集中进行筛选得到结果集的方式可以包括：所述推荐系统已经根据期望奖励值对反馈的素材集进行筛选，使得前端服务器挑选素材集中的全部素材放入所述结果集；前端服务器从素材集中选择指定数量的素材提供给客户端时，可以根据素材集中素材对应的期望奖励值，从大到小进行选择；前端服务器中可以预先设定有选择素材的优先种类，进而根据素材的种类结合期望奖励值的大小，进行选择素材。具体的，例如，推荐系统提供的素材集中包括有第一素材、第二素材和第三素材，对应的奖励期望值分别为0.5、0.7和0.3。前端服务器可以将第一素材、第二素材和第三素材均提供给客户端。前端服务器可以基于奖励期望值对第一素材、第二素材和第三素材进行排序后，提供给客户端。前端服务器可以选择奖励期望值较大的第二素材和第一素材提供给客户端。进一步的，在一个具体场景示例中，第一素材关于家电，第二素材关于衣服，第三素材关于消防产品，前端服务器中设定有消防产品优先，此时前端服务器可以将第三素材和第二素材提供给客户端。

所述推荐系统,用于获取所述客户端的用户信息对应的用户特征集；获取包括用于页面显示的素材的素材集，以及所述素材对应的素材特征集；根据所述用户特征集和所述素材的素材特征集生成期望奖励值；其中，所述期望奖励值为所述素材在所述预设页面显示且被点击时，所述推荐系统得到的奖励值；将所述素材集和所述期望奖励值提供给所述前端服务器。

在本实施方式中，推荐系统可以为服务器，且并不具体限定服务器的数量。推荐系统可以为一个服务器，还可以为几个服务器，或者，若干服务器形成的服务器集群。

在本实施方式中，用户特征集可以包括多个不同维度的用户属性值。使得用户特征集可以较为全面的表征一个用户。以便于对用户行为进行预测。用户特征集可以包括但不限于用户的账户名、性别、住址、交易信息、指定时间的页面访问记录等。推荐系统中可以对应用户信息存储有所述用户特征集，可以为推荐系统接收到用户信息之后，立即进行信息搜集整理，形成所述用户特征集。

在本实施方式中，素材集可以包括网站平台中全部的数据信息。素材集也可以为包括网站平台中全部数据信息的一部分。可以通过预先设置的处理规则，在网站平台中的数据信息进行筛选得到所述素材集。在本实施方式中，素材集中可以包括至少二个素材。具体的，例如，网站平台举例为“京东”、“亚马逊”、“当当”、“ebay”等等。素材可以包括页面素材和主题素材。其中页面素材可以用于页面的显示，可以包括楼层素材、对象素材等。其中对象素材可以指向网站平台中提供的商品或者服务。楼层素材和对象素材可以具体为图片、文字或视频等。主题素材可以用于约束要显示的对象素材的类型。具体的主题素材可以为坑位素材。在页面中坑位素材可以约束指定位置显示的对象素材的类别。具体的，例如，坑位素材为“小家电”，则在坑位素材指定的位置显示的对象素材为“豆浆机”或“剃须刀”等小家电的图片。

在本实施方式中，在素材集中的素材也可以是商品或者服务的页面本身。也可以为，素材是商品或服务的页面的指向标识。或者，素材指向的页面可以为一类商品或服务的页面，在该页面中具有多个商品或服务的信息。具体的，例如，素材为家电或汽车，该素材指向的页面为“家电会场”页面或“汽车会场”页面。在“家电会场”页面，可以有多个家电产品，或者在“汽车会场”页面，可以有多款汽车。

在本实施方式中，素材特征集可以包括多个不同维度的素材属性值。素材指向的商品或服务，会有其自身的属性。将该些属性的属性值和在一起形成所述素材特征集。该素材特征集可以较为全面的表征素材。具体的，例如，素材特征集中可以包括不限于产品或服务种类、名称、价位、销量、评价、购买人群、适合人群、适合季节、上市时间等等属性信息。

在本实施方式中，每个素材可以对应有一个素材特征集。如此，使得素材特征集可以具有较强的针对性，且较为准确全面的表征所述素材。在一些情况下，也可以多个素材对应一个素材特征集，如此可以减少素材特征集的数量，实现减少存储空间占用。具体的，例如，多个素材指向的商品或服务相同或近似，可以针对该多个素材设置一个素材特征集。

当然，素材集以及素材特征集的内容并不限于在网站平台中获得。素材集和素材特征集的内容来源还可以为第三方提供。可以理解为，第三方可以在网络上搜集整理数据信息，形成该素材集和素材特征集。第三方可以将该素材集和素材特征集提供给网站平台以使网站平台可以保存。第三方也可以向网站平台提供访问入口，可以向网站平台提供索引列表。如此，推荐系统便可以根据该索引列表进行搜索匹配，并可以进一步的根据索引列表从第三方的素材集和素材特征集中拉取结果数据。第三方可以是专门从事数据整理的公司，也可以是专业的电子产品评测网站，还可以是网站平台中的商家。

在本实施方式中，期望奖励值为推荐系统对应素材生成的。期望奖励值是推荐系统对得到的奖励值的预期。当素材在页面显示之后，用户点击该素材向前端服务器发送访问请求时，推荐系统得到的奖励值为所述素材对应的期望奖励值。由于前端服务器根据期望奖励值筛选素材提供给客户端，如此，推荐系统便可以根据获得的奖励值的大小，判断用户是否点击了期望奖励值最大值对应的素材。进而，推荐系统可以判断其对素材生成的期望奖励值是否合理。

在本实施方式中，推荐系统根据用户特征集和素材的素材特征集生成期望奖励值。使得期望奖励值可以一定程度上预测所述素材在页面上显示时，用户点击该素材的可能性。期望奖励值越大，表示推荐系统认为用户有较大可能性点击所述素材，期望奖励值较小，表示推荐系统认为用户有较小可能性点击所述素材。推荐系统可以根据预设的算法生成所述期望奖励值。具体的，例如，推荐系统可以利用强化学习算法(ReinforcementLearning)，将所述用户特征集和所述素材特征集作为输入得出所述期望奖励值。

在本实施方式中，奖励可以理解为在页面发生针对素材的点击事件时，推荐系统得到数值反馈的过程。由于针对不同素材的点击事件，推荐系统得到的数据反馈大小也不相同。如此，推荐系统可以将得到数值反馈的最大值，即得到的奖励值等于最大的期望奖励值，作为推荐系统的目标。推荐系统可以根据得到的奖励值和页面中元素的期望奖励值信息等，对自身的算法进行修正，以使得页面显示的素材更加适合用户，并追求最大期望奖励值对应的素材是用户的兴趣点或关注点。

在本实施方式中，在素材被页面展示后，用户针对素材发生了点击事件，可以表示用户要浏览该素材的详细内容页面。同样，客户端向前端服务器发起访问请求，该访问请求指向所述素材的详细内容页面。此时前端服务器接收到该访问请求之后，通知所述推荐系统得到奖励值，所述奖励值为所述素材对应的期望奖励值。如此，实现了从客户端的页面上接收到用户的操作行为，反馈至推荐系统。进而，推荐系统可以根据反馈的奖励值，进行判断分析针对素材的期望奖励值是否合理，以及是否需要修正算法等。如此可以实现了推荐系统自身的自学习。

本申请实施方式提供的网络交互系统可以根据标识用户的用户特征集和标识素材的素材特征集生成对应素材的期望奖励值。使得前端服务器可以有依据在将素材集中的选择素材提供给用户。再者，所述推荐系统可以通过数据训练等，使得期望奖励值的大小可以用于预测用户点击素材的可能性，使得显示给用户的素材。有较大可能引起用户的兴趣，从而实现减少了用户进行挑选的时间，给用户带来了便利。

在一个具体的场景示例中，用户使用客户端访问某网站的首页。该网站的网络交互系统接收到客户端发出的访问请求。前端服务器接收到访问请求之后，从访问请求中解析得到用户信息“UserID123”。前端服务器将用户信息“UserID123”提供给推荐系统。推荐系统根据用户信息在存储的用户特征集中查找到与“UserID123”对应的用户信息。例如，用户特征集可以包括{用户名：UserID123、性别：女、年龄：29、购买力：中、……}。

在本场景示例中，在反馈给客户端的页面中，可以有楼层素材、坑位素材和对象素材等三种素材。其中楼层素材可以作为一个容器，其具有楼层主题。楼层素材中可以设置多个坑位素材。坑位素材可以具有坑位主题。

在本场景示例中，可以共有4个楼层素材，每个楼层素材的楼层主题可以不同，具体的可以包括智能家电、家居生活、内衣配饰和男女鞋包。每个楼层素材可以有对应的素材特征集。例如，智能家电楼层的素材特征集中可以包括{网络：WIFI、产品词：电视、产品词：电冰箱、输入方式：触摸屏……}，家居生活楼层的素材特征集可以包括{使用环境：室内、适用季节：春季、产品词：睡衣、产品词：拖鞋……}，在此不再列举。同样坑位素材和对象素材也分别有对应的素材特征集，也不再举例。

在本场景示例中，推荐系统可以获取楼层素材对应的素材特征集，分别根据用户特征集和每个楼层的素材特征集，基于强化学习算法生成楼层素材对应的期望奖励值。例如，智能家电楼层的期望奖励值为0.5，内衣配饰的期望奖励值为0.3，家居生活的期望奖励值为0.8，男女鞋包的期望奖励值为0.6。进一步的，推荐系统针对每个楼层素材中的坑位素材计算期望奖励值。以及推线系统对对象素材计算期望奖励值。

在本场景示例中，推荐系统针将完成计算期望奖励值的素材及其期望奖励值提供给前端服务器。前端服务器基于楼层素材的期望奖励值，对楼层素材排序。以及前端服务器在每个楼层素材对应的坑位素材中，按照期望奖励值，选择坑位素材。每个楼层素材可以具有多个坑位素材，而在一次页面显示过程中，仅仅展示部分坑位素材。使得前端服务器选择期望奖励值较大的坑位素材。例如，智能家电楼层中可以显示9个坑位素材，若智能家电楼层对应的坑位素材共有20个，此时前端服务器可以根据该20个坑位素材的期望奖励值大小，挑选前9个坑位素材。同理，前端服务器在推荐系统提供的对象素材中根据期望奖励值，确定每个坑位素材中显示的对象素材。

在本场景示例中，请参阅图2。前端服务器将筛选完成的素材，提供给客户端。使得客户端可以显示所述页面。

在本场景示例中，客户端接收到用户对家居生活楼层中居家百货素材的点击事件。客户端向网络交互系统发出访问请求。此时，前端服务器接收所述访问请求，进而将用户信息提供给推荐系统，再者，所述居家百货素材发生点击事件，所述推荐系统得到奖励值为所述居家百货素材的期望奖励值。

在一个实施方式中，所述结果集中至少包括所述期望奖励值中最大值对应的素材。

在本实施方式中，前端服务器在推荐系统提供的素材集中筛选时，至少将该素材集中期望奖励值中最大值对应的素材放入结果集中。使得，提供给客户端的页面中，会显示期望奖励值中最大值对应的素材。该素材可能会相较于其它素材，更加能够引起用户的注意，而使用户针对该素材发生点击行为，进一步浏览该素材的详细内容页面。在另一个角度，期望奖励值中最大值对应的素材，是推荐系统认为用户最关注的素材，通过将该素材显示给用户，可以减少用户的挑选时间，给用户带来便利。

在一个实施方式中，所述结果集中素材的期望奖励值不小于所述推荐系统提供的素材集中未处于所述结果集的素材的期望奖励值。

在本实施方式中，前端服务器在推荐系统提供的素材集中，可以按照期望奖励值大小选在较大的素材放入结果集。其中，前端服务器可以选择预设数量的素材，如此可以将素材按照期望奖励值从大到小排序，进而可以选择期望奖励值相对较大的素材。再者，前端服务器中也可以预先设置阈值，将期望奖励值大于该阈值的素材放入结果集。

在本实施方式中，推荐系统提供的素材集中，一部分素材处于所述结果集中，一部分素材未处于所述结果集中。处于结果集中素材的期望奖励值大于或等于未处于结果集中的素材的期望奖励值。在一些情况下，前端服务器选择预设数量的素材，当素材集中存在多个素材的期望奖励值相同时，在选择素材放入结果集之后。结果集中部分素材的期望奖励值与未放入结果集中素材的期望奖励值中最大相同。具体的，例如，前端服务器选择二个素材放入结果集，素材集中包括第一素材、第二素材和第三素材，期望奖励值分别为0.7、0.5和0.5。此时第二素材和第三素材的期望奖励值相同。前端服务器可以随机在第二素材和第三素材中选择一个放入结果集。前端服务器还可以为根据第二素材和第三素材的默认排序，选择一个放入结果集。

在一个实施方式中，所述推荐系统将所述用户特征集和所述素材特征集生成表征所述用户信息和所述素材特征集对应素材的表征向量，基于所述表征向量生成所述素材的期望奖励值。

在本实施方式中，表征向量可以包括有很多个维度的属性值。通过属性值取值的不同，使得每个表征向量表示的用户特征集和素材可以不同。在进行运算期望奖励值的过程中，通过输入表征向量，计算素材的期望奖励值，可以减少运算的工作量。

在本实施方式中，可以将用户特征集和素材特征集按照预设算法进行运算得到该表征向量。如此，便可以预先约定生成表征向量的规则，如此用户特征集和不同素材特征集生成的表征向量可以具有较为统一的标准。在该表征向量中，可以存在至少一个维度，该维度的取值表示用户特征集和素材特征集中部分特征的组合。具体的，例如图4所示，可以将用户特征集中的用户账号(user_id)、年龄(age)、性别(gender)、用户设备的操作系统(os)等特征，与素材特征集中的素材编号(content_id)、店铺(shop)、类目(category)、品牌(brand)等特征，并加上时间长度特征：1日(1day)、3日(3day)、7日(7day)、15日(15day)，进行交叉组合，形成表征向量中的一个特征值。具体的，例如，可以采用回归树算法，将用户特征集和素材特征集生成表征向量。例如，回归树算法例如为GBDT(Gradient BoostingDecision Tree)。可以将叶子节点作为用户特征集和素材特征集的表征向量。

当然，本实施方式中仅以回归树算法为例，本申请并不限于回归树算法。在一个具体的实施方式中，可以采用GBDT算法将用户特征集和素材特征集生成表征向量，在采用强化学习算法基于所述表征向量生成所述素材对应的期望奖励值。如此，采用GBDT算法对特征数据进行整理后，作为强化学习算法的输入，可以简化运算过程，提升运算效率。如此加工后的表征向量可以更加准确的表征用户和素材，使得采用强化学习计算得出的期望奖励值可以较为适当。如此前端服务器根据期望奖励值提供给用户的素材，能够比较准确的命中用户的兴趣点。

在一个实施方式中，所述推荐系统将所述前端服务器响应所述客户端多次访问请求过程中，所述推荐系统得到的奖励值形成累计奖励值；当所述累计奖励值不是上述过程中，所述结果集中素材的最大期望奖励值之和时，将得到所述累计奖励值的过程数据记录为偏差信息；根据所述偏差信息修正生成所述期望奖励值的算法。

在本实施方式中，累计奖励值可以是多次页面访问中，推荐系统得到的奖励值的累加值。推荐系统追求的目标可以为，累计奖励值是多次页面访问时结果集中素材的最大期望奖励值之和。即推荐系统追求可以得到最大化的累计奖励值。如此，推荐系统可以根据是否得到了最大的累计奖励值，判断针对素材生成的期望奖励值是否适当。由于前端服务器基于期望奖励值提供给客户端的素材，使得当素材的期望奖励值不适当时，用户并没有点击最大的期望奖励值对应的素材，使得推荐系统得到的奖励值不是最大的期望奖励值。若累计奖励值是多次页面访问中，结果集中最大的期望奖励值之和，可以表示用户在该多次页面中点击了最大的期望奖励值对应的素材。如此，表示推荐系统针对素材生成的期望奖励值是适当的。

在本实施方式中，推荐系统可以根据得到的累计奖励值是否等于最大期望奖励值之和，判断目前的算法是否合理。使得推荐系统可以具有自动学习功能。如此可以减少人工参与，省时省力。再者，推荐系统自动修正算法，使得推荐系统可以较快跟进每个用户的实际访问情况，使得网络交互系统提供的页面更加切合用户的关注点或兴趣点。也节省了用户进行素材筛选的时间，减少了用户进行素材筛选的操作，给用户带来了便利。当然，本申请不限于推荐系统进行自动修正算法，其也可以为推荐系统记录偏差信息后，人工浏览偏差信息并修正推荐系统的算法。

在本实施方式中，推荐系统可以记录偏差信息，该偏差信息作为修正生成期望奖励值算法的依据。偏差信息可以包括不限于用户信息、表征向量、用户特征集、素材特征集、素材的期望奖励值、推荐系统得到的奖励值、累计奖励值和多次页面访问中最大的期望奖励值之和等等。

在本实施方式中，推荐系统生成期望奖励值的算法可以具有多个参数。修正所述算法可以是修改算法中的部分参数取值，使得用户实际点击的素材，具有其所在结果集的最大的期望奖励值。通常情况下，用户点击页面中的素材，可以表示用户实际感兴趣或者关注的内容。以此作为基础，网络交互系统修正生成期望奖励值的算法，使得实际发生点击的素材具有最大的期望奖励值，可以更加准确的匹配用户的实际感兴趣或关注的内容。如此，在用户后续的页面访问中，网络交互系统可以较为准确的提供用户感兴趣或关注的素材，减少用户的筛选时间。

在一个具体的场景示例中，请参阅图3。客户端显示网站首页之后，可以进行进一步的操作。在首页、场景首页、主题页、搜索页、详情页和下单页之间的箭头，表示互相之间可以根据用户的访问行为进行转换。用户在首页点击某一个表示场景首页的素材之后，客户端向网络交互系统发出指向场景首页的访问请求。此时推荐系统会得到奖励值，该奖励值是发生点击事件的素材的期望奖励值，例如期望奖励值为0.7。按照前述介绍，网络交互系统向客户端提供场景首页，例如场景首页会有一些主题商品，用户点击了表示某一主题的素材。客户端向网络交互系统发出指向主题页面的访问请求。此时推荐系统得到奖励值，该奖励值是场景页面发生点击事件的素材的期望奖励值，例如期望奖励值为0.6。此时，推荐系统得到的累计奖励值为1.3。以此类推，用户访问至下单页下达订单信息。在这个过程中，如果用户每次点击的素材，均为该页面中最大的期望奖励值对应的素材，则推荐系统可以得到累计奖励值为最大的期望奖励值之和。这是推荐系统本身的目标。如果，在场景首页中，用户点击的素材不是该页面中最大的期望奖励值对应的素材，此时推荐系统得到的累计奖励值便不是最大的期望奖励值之和，例如场景首页中最大的期望奖励值为0.9，对应的素材为商务手表主题素材，而用户实际点击的是休闲皮鞋主题素材，使得推荐系统得到的奖励值为休闲皮鞋主题素材0.6。此时推荐系统的累计奖励值1.3小于最大期望奖励值之和1.5，认为推荐系统的推荐不够适当，需要记录该偏差信息，作为后续修正的依据。

在一个实施方式中，在所述前端服务器接收到所述客户端发出的订单信息时，所述推荐系统判断得到的所述累计奖励值是否为所述客户端多次访问请求过程中，所述结果集中所述最大期望奖励值之和。

在本实施方式中，推荐系统可以将客户端访问网站首页至最终下达订单之间，多次页面访问行为，作为一个整体计算累计奖励值。判断累计奖励值是否是至下达订单之前，向客户端提供的结果集中素材的最大的期望奖励值之和。

在本实施方式中，网络交互系统的最终目标可以为收到客户端发出的订单信息。若用户每次点击的素材均为最大的期望奖励值对应的素材，此时在客户端初次访问页面至客户端发出订单信息，可以形成一个相对最短的路径。此时，用户可以有相对较少的操作，使用相对较少的时间。由于减少了每个用户的操作行为，使得相对降低了网络交互系统与一个客户端交互的工作量，在网络交互系统的业务承载能力有限的情况下，本实施方式可以使得网络交互系统为更多的客户端服务。

在一个实施方式中，在所述预设页面发生点击事件时，若得到的奖励值不是所述结果集中素材的最大期望奖励值，记录偏差信息；其中所述偏差信息包括所述奖励值对应的素材信息；根据所述偏差信息修正生成所述期望奖励值的算法。

在本实施方式中，所述推荐系统的目标为获得最大的奖励值。即推荐系统的目标是得到的奖励值等于结果集中素材的最大期望奖励值。当推荐系统得到的奖励值不是结果集中素材的最大期望奖励值。可以理解为，推荐系统针对素材生成的期望奖励值是不适当的。推荐系统可以通过修正生成期望奖励值的算法，以使得最大期望奖励值对应的素材更加接近用户的兴趣点或关注点。使得最大期望值对应的素材可以被用户点击。如此推荐系统得到的奖励值便可以等于结果集中素材的最大期望奖励值。

在一个实施方式中，所述推荐系统根据预设时间长度中记录的所述偏差信息修正所述算法。

在本实施方式中，推荐系统可以不是针对记录的偏差信息，立即修正算法。推荐系统可以将一定长度时间中记录的偏差信息，作为一次修正推荐系统的输入。如此，便可以避免一些因用户的误操作导致的推荐系统接收到的奖励值不是前述最大期望奖励值。使得，针对算法的修正更加合理。具体的，预设时间长度可以为1小时、3小时，或者1天、2天，或者1个月等等不再列举。

在一个实施方式中，所述推荐系统在所述偏差信息达到预设数据量时，根据所述偏差信息修正所述算法。

在本实施方式中，预设数据量可以是一个具体的数字。预设数据量可以指推荐系统得到的奖励值与最大期望奖励值不相同的次数。或者，预设数量可以指推荐系统得到的累计奖励值，与相对应的过程中最大奖励值之和不相同的次数。

在本实施方式中，推荐系统可以不是针对记录的偏差信息立即修正生成期望奖励值的算法。避免因用户的误操作，而立即修正生成期望奖励值的算法，导致提供给用户的结果集中，素材更加便宜用户的兴趣点或关注点。

在一个实施方式中，所述推荐系统中包括至少二个期望奖励值运算模型；其中，至少二个期望奖励值运算模型具有相似运算逻辑，但生成所述至少二个期望奖励值运算模型的训练数据集不同。

在本实施方式中，期望奖励值运算模型可以是基于网站平台的历史数据进行训练得到，用于根据输入的用户特征集和素材特征集输出素材的期望奖励值。具体的，例如期望奖励值运算模型可以基于强化学习算法生成。

在本实施方式中，训练数据集可以是网站平台中的历史数据。历史数据可以是网站平台的日志数据。其可以具有网站平台中的素材、素材特征、用户信息、用户访问信息、用户特征集等等。

在本实施方式中，相似运算逻辑可以为至少二个期望奖励值运算模型具有相同的算法基础。具体的，例如至少二个期望奖励值运算模型均基于强化学习算法。由于，采用不同的训练数据集，是的至少二个期望奖励值运算模型在形成过程中，内部的运算参数可以不同。

在本实施方式中，至少二个期望奖励值运算模型的训练数据集不同，可以为期望奖励值运算模型采用不同时间段中，网站平台记录的日志数据。具体的，例如，在基于强化学习算法生成运算模型，首先使用2015年11月21日至2015年11月25日网站平台的日志数据，将训练得到的运算模型作为第一运算模型，接着使用2015年11月26日至2015年11月31日的日志数据，对所述第一运算模型进行训练得到第二运算模型。如此第一运算模型和第二运算模型具有相似的运算逻辑，但采用了不同的训练数据集。

在一个实施方式中，所述期望奖励值为所述至少二个期望奖励值运算模型输出的预测值的加权求和，或者均值。

在本实施方式中，最终输出的期望奖励值可以是至少二个期望奖励值运算模型的输出结果，进行运算得到。每个期望奖励值运算模型可以输出一个预测值。如此，将至少二个期望奖励值输出的预测值进行累加后求均值，可以将均值作为最终输出的期望奖励值。当然，在形成至少二个期望奖励值运算模型过程中，可以为每个期望奖励值运算模型配置权重。如此，在生成最终的期望奖励值时，可以将每个期望奖励值运算模型输出的预测值进行加权求和，将加权求和值作为最终的期望奖励值。具体的，例如，可以采用自适应在线学习算法(Adaptive-Online-Learning)，针对训练得到的运算模型设置权重。本实施方式通过多个期望奖励值运算模型共同作用得到最终的期望奖励值，使得推荐系统可以对各种不同的业务、场景、用户群体，都可以有较佳的适用性。

在一个具体的应用示例中，可以采用下述公式表示期望奖励值。

其中，Q可以表示期望奖励值；s可以表示用户特征集；a可以表示推荐系统针对S表征的用户提供的素材列表；R表示推荐系统预测上述素材提供给客户端之后，客户端发生点击事件时，推荐系统可以得到的奖励值；IE可以表示求取期望奖励值的函数。所述函数可以为线性函数或神经网络。

在本应用示例中，上述公式较为适合单一素材推荐的场景。在一些情况下，可能涉及同时推荐多个素材，本应用示例还提供一种可以针对多个素材推荐的算法。假设用户如果喜欢商品A，用户不会因为在同一推荐列表中见到了他更喜欢的商品B而放弃点击商品A。在这一假设下，对展示每个商品所获得的累积奖励的计算也是独立的。通过推导，可以得到以下函数，实现针对多个素材推荐时，简化运算过程，降低硬件设备的工作负荷。

其中，f(s,i)可以表示对真实值Q(s,i)进行估计；i可以表示素材编号；r_i可以表示用户点击素材i之后，推荐系统获得的奖励值；γ可以表示衰减系数；α_i可以表示推荐系统在用户点击素材i之后推荐给用户的素材列表，j可以表示推荐的素材列表α_i中的其中一个素材。

由以上本申请实施方式提供的技术方案可见，本申请实施方式提供的网络交互系统，实现可以针对客户端提供的访问请求提供页面数据。其中页面数据中的素材会对应一个期望奖励值，在该素材发生点击事件时，推荐系统会得到奖励值，该奖励值等于所述素材的期望奖励值。使得推荐系统可以以获得最大的奖励值为系统设计的目标，进而使得网络交互系统提供给用户的素材，更加倾向于引起用户的兴趣或关注，使得用户进行点击访问。减少了用户进行筛选的时间。再者，由于减少了用户浏览许多网页进行筛选的工作，使得减少了网络交互系统的工作量。在网络交互系统有限的承载能力下，响应单个用户的工作量降低，可以使得网络交互系统可以为更多的用户提供服务。

本申请实施方式还提供一种网络交互系统。该推荐系统包括：前端服务器和推荐系统。

所述前端服务器，用于接收客户端的访问请求；将所述客户端的用户信息提供给所述推荐系统；基于所述推荐系统提供的索引量在所述推荐系统提供的素材集中筛选得到结果集，其中，所述结果集中包括至少一个素材；将所述结果集发送给所述客户端。

所述推荐系统，用于获取所述客户端的用户信息对应的用户特征集；获取包括用于页面显示的素材的素材集，以及所述素材对应的素材特征集；根据所述用户特征集和所述素材特征集生成表征所述用户信息和所述素材的表征向量；基于所述表征向量得出所述素材对应于所述用户信息的索引量；将所述素材集和所述索引量提供给所述前端服务器。

在本实施方式中，索引量可以是一个具体的数据。前端服务器可以根据该索引量针对素材集中的素材进行筛选。具体的，索引量可以是点击率的预测值。如此前端服务器可以根据预测的点击率向客户端反馈素材，使得客户端中显示的素材可以较大的可能被用户浏览访问。具体的，推荐系统基于所述表征向量生成索引量的算法可以为FTRL算法(Follow-The-Regularized-Leader)或者LR算法(Logistic Regression)。

在本实施方式中，推荐系统可以根据用户特征集和素材特征集形成可以表征用户和素材的表征向量。在该表征向量中，可以存在至少一个维度，该维度的取值表示用户特征集和素材特征集中部分特征的组合。具体的，例如图4所示，可以将用户特征集中的用户账号、年龄等特征，与素材特征集中的素材编号、类目等特征，进行交叉组合，形成表征向量中的一个特征值。具体的，可以采用GBDT算法将上述用户特征集和素材特征集进行组合形成表征向量。

所述推荐系统，用于获取所述客户端的用户信息对应的用户特征集；获取包括用于页面显示的素材的素材集，以及所述素材对应的素材特征集；将所述用户特征集和所述素材特征集中的特征划分为离散特征集和连续特征集，并基于基于所述离散特征集和所述连续特征集得出所述素材对应于所述用户信息的索引量；将所述素材集和所述索引量提供给所述前端服务器。

在本实施方式中，离散特征集中包括的特征，可以为相互之间较为独立的特征。离散特征集中包括的每个特征可以单独的表示一个维度的属性。具体的，离散特征集中可以包括作为标识使用的特征。即这些特征本身可以用于标识某一个对象，或者，某一种业务等。例如，离散特征集中可以包括用户名称、客户端网络地址、客户端物理地址、网页标识、素材标识、广告坑位标识、会话标识等等，不再列举。

在本实施方式中，连续特征集中包括的特征，可以为表示一种连续的状态、或者一段时间内统计的数据。具体的，连续特征集中包括的特征，可以用于表示某事物或者数据持续的状态、频率、过程等。例如，连续特征集中可以包括点击率、销售量、成交比例、评价信息等等。

在本实施方式中，计算素材对应的索引量时，可以将该素材的素材特征集和用户特征集进行划分为连续特征集和离散特征集。当涉及多个素材时，可以分别针对每个素材进行上述划分连续特征集和素材特征集的操作。

在本实施方式中，索引量可以是一个具体的数据。前端服务器可以根据该索引量针对素材集中的素材进行筛选。具体的，索引量可以是点击率的预测值。如此前端服务器可以根据预测的点击率向客户端反馈素材，使得客户端中显示的素材可以较大的可能被用户浏览访问。

在一个具体的应用示例中，请参阅图5。推荐系统可以将离散特征集和连续特征集中的一部分特征采用逻辑回归算法(Logistic Regression)进行运算处理，将离散特征集和连续特征集中的一部分特征采用神经网络算法进行运算处理。将逻辑回归算法和神经网络算法的输出，按照一定算法整合处理得到最终的索引量。神经网络算法包括但不限于卷积神经网络(Convolutional Neural Network)、循环神经网络(Recurrent NeuralNetwork)和深度神经网络(Deep Neural Network)等。离散特征集和连续特征集可以分别作为逻辑回归算法和神经网络算法的输入；也可以为，将离散特征集和连续特征集进行混合后，将一部分特征作为逻辑回归算法和神经网络算法的输入。具体的，例如，推荐系统可以根据WDL(Wide&Deep Learning)算法，将逻辑回归算法和神经网络算法的输出进行整合。算法例如。

其中，P可以表示预测点击率；Y可以表示类标(label)；σ可以表示激活函数；W_wide可以表示逻辑回归算法；W_deep可以表示神经网络算法；X可以表示原始样本特征；b可以表示bias项，Φ可以表示交叉相乘操作(Φ(x)就表示将原始样本特征向量进行交叉相乘之后得到的特征)，α^(lf)可以表示神经网络隐层输出。

在一个实施方式中，所述推荐系统中包括至少二个索引量运算模型。其中，至少二个索引量运算模型具有相似运算逻辑，但生成所述至少二个索引量运算模型的训练数据集不同。

在本实施方式中，索引量运算模型可以是基于网站平台的历史数据进行训练得到，用于根据输入的用户特征集和素材特征集输出素材的索引量。具体的，例如索引量运算模型可以基于FTRL算法或者WDL算法。

在本实施方式中，相似运算逻辑可以为至少二个索引量运算模型具有相同的算法基础。具体的，例如至少二个索引量运算模型均基于FTRL算法或者WDL算法。由于，采用不同的训练数据集，是的至少二个索引量运算模型在形成过程中，内部的运算参数可以不同。

在本实施方式中，至少二个索引量运算模型的训练数据集不同，可以为索引量运算模型采用不同时间段中，网站平台记录的日志数据。具体的，例如，在基于FTRL算法或者WDL算法生成运算模型，首先使用2015年11月21日至2015年11月25日网站平台的日志数据，将训练得到的运算模型作为第一运算模型，接着使用2015年11月26日至2015年11月31日的日志数据，对所述第一运算模型进行训练得到第二运算模型。如此第一运算模型和第二运算模型具有相似的运算逻辑，但采用了不同的训练数据集。

在一个实施方式中，本申请实施方式提供的多个网络交互系统可以进行结合。例如，可以采用一个前端服务器，该前端服务器可以根据推荐系统提供的素材的期望奖励值进行筛选素材，也可以根据推荐系统提供的素材的索引量进行筛选素材。如此，前述实施方式提供的推荐系统之间可以为并行关系。前端服务器接收到访问请求之后，可以根据预设的规则，选择一个推荐系统进行响应工作。具体的，例如，前端服务器接收到客户端的访问请求之后，随机选择一个推荐系统，如前述提供期望奖励值的推荐系统，将用户信息提供给该推荐系统。或者，在前端服务器中设置有用户信息与推荐系统的对应关系，即预先建立用户与推荐系统的映射规则，如此前端服务器接收到访问请求之后，根据所述对应关系，调用该推荐系统。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。

本申请实施方式中提及的服务器，可以是具有一定运算处理能力的电子设备。其可以具有网络通信端子、处理器和存储器等。当然，上述服务器也可以是指运行于所述电子设备中的软体。上述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种网络交互系统，其特征在于，包括：前端服务器和推荐系统；

所述前端服务器，用于接收客户端的访问请求；将所述客户端的用户信息提供给所述推荐系统；基于所述推荐系统提供的期望奖励值在所述推荐系统提供的素材集中筛选得到结果集；将所述结果集发送给所述客户端；

所述推荐系统，用于获取所述客户端的用户信息对应的用户特征集；获取包括用于页面显示的素材的素材集，以及所述素材对应的素材特征集；根据所述用户特征集和所述素材的素材特征集生成期望奖励值，其中，所述期望奖励值为所述素材在所述预设页面显示且被点击时，所述推荐系统得到的奖励值；将所述素材集和所述期望奖励值提供给所述前端服务器。

2.根据权利要求1所述的系统，其特征在于，所述结果集中至少包括所述期望奖励值中最大值对应的素材。

3.根据权利要求1所述的系统，其特征在于，所述结果集中包括预设数量个素材；其中，所述结果集中素材的期望奖励值不小于所述推荐系统提供的素材集中未处于所述结果集的素材的期望奖励值。

4.根据权利要求1所述的系统，其特征在于，所述推荐系统将所述用户特征集和所述素材特征集生成表征所述用户信息和所述素材特征集对应素材的表征向量，基于所述表征向量生成所述素材的期望奖励值。

5.根据权利要求1所述的系统，其特征在于，所述推荐系统将所述前端服务器响应所述客户端多次访问请求过程中，所述推荐系统得到的奖励值形成累计奖励值；当所述累计奖励值不是上述过程中，所述结果集中素材的最大期望奖励值之和时，将得到所述累计奖励值的过程数据记录为偏差信息；根据所述偏差信息修正生成所述期望奖励值的算法。

6.根据权利要求5所述的系统，其特征在于，在所述前端服务器接收到所述客户端发出的订单信息时，所述推荐系统判断得到的所述累计奖励值是否为所述客户端多次访问请求过程中，所述结果集中所述最大期望奖励值之和。

7.根据权利要求1所述的系统，其特征在于，在所述预设页面发生点击事件时，若得到的奖励值不是所述结果集中素材的最大期望奖励值，记录偏差信息；其中所述偏差信息包括所述奖励值对应的素材信息；根据所述偏差信息修正生成所述期望奖励值的算法。

8.根据权利要求5或7所述的系统，其特征在于，所述推荐系统根据预设时间长度中记录的所述偏差信息修正所述算法。

9.根据权利要求5或7所述的系统，其特征在于，所述推荐系统在所述偏差信息达到预设数据量时，根据所述偏差信息修正所述算法。

10.根据权利要求1所述的系统，其特征在于，所述推荐系统中包括至少二个期望奖励值运算模型；其中，至少二个期望奖励值运算模型具有相似运算逻辑，但生成所述至少二个期望奖励值运算模型的训练数据集不同。

11.根据权利要求10所述的系统，其特征在于，所述期望奖励值为所述至少二个期望奖励值运算模型输出的预测值的加权求和，或者均值。