CN114547453A

CN114547453A - 一种通用top-n智能推荐系统及方法

Info

Publication number: CN114547453A
Application number: CN202210158498.9A
Authority: CN
Inventors: 朱诚; 张英鹏; 刘大全; 肖宏
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-27

Abstract

本发明公开了一种通用TOP‑N智能推荐系统及方法，包括应用层，服务层，数据层和存储层，推荐方法包括召回（初始化推荐结果生成）、纠正（过滤/补充）、个性化排序（结果排名）、推荐展示（最终推荐结果）。本发明可以支持快速部署各类推荐场景解决方案，通过使用通用的推荐引擎能力，使用引擎为基础的模型构建能力及算法策略配置能力，能够在接入用户数据、用户行为数据及物品数据后形成场景应用层面的推荐模型，并能够通过用户交互界面来进行模型管理及指标观察及分析，选择不同的召回、过滤推荐算法，生成各推荐系统场景的API，供手机APP端或者车载系统使用，实现端到端的推荐管理及应用。

Description

一种通用TOP-N智能推荐系统及方法

技术领域

本发明属于车联网及汽车智能座舱技术领域，更具体涉及一种通用TOP-N智能推荐系统及方法。

背景技术

推荐系统通过分析用户的历史行为，对用户的兴趣进行建模，从而主动给用户推荐可能满足他们需求的信息，在信息过载的时代，推荐系统的任务就是联系用户和信息，帮助用户发现对自己有价值的信息，同时让信息能够展现在对它感兴趣的用户面前，从而实现信息消费者和信息生产者的双赢。汽车作为一个密闭的个人空间，基于千人千面个性化的推荐系统成为汽车智能座舱各业务场景必不可少的一环，如汽车商品推荐、音乐推荐、文章推荐等。部署一套全新智能推荐系统往往需要投入巨大的人力和时间精力，并且目前主流推荐系统不具备通用性，不能满足一套系统，适配多个推荐应用场景的需求。

如我国专利CN201610643458.8公开了一种基于协同过滤的在线打车推荐方法，包括以下步骤：1)原始数据预处理，现实GPS数据需要预处理过程，主要是载客起点与终点的提取；2)网格化，包括区域过滤、网格化分割、用户过滤；3)推荐算法，将协同过滤算法引入，利用taxibased算法和潜在因子模型给出推荐结果，构造出合理的打分矩阵；4)评价与结果应用：利用传统推荐的topN推荐进行检验，指标为准确率和召回率。该发明的目的是实时分析出租车的GPS数据，通过运行状态的分析，构造刻画出租车行为的打分矩阵，给出租车提供个性化的空载寻客地点推荐。本发明的优点在于传统协同过滤方法的引入，推荐具有个性化，并基于移动特性的模型，更符合实际。但其仅单一的应用了一种推荐场景，且推荐算法单一固定不具有灵活性。

再如我国专利CN201610083749.6公开了一种面向社交网络基于云模型的topN推荐方法，属于数据挖掘和信息检索领域。利用社交网络海量数据集收集被推荐用户信息，评分物品信息，推荐用户信息；从被推荐用户信息和推荐用户信息中提取用户属性、获得用户评分，由多维云逆向云发生器生成多维云；通过多维云相似度计算用户属性云相似度；由推荐用户和被推荐用户的评分生成评分云，合并所有评分云生成父云，在父云中生成新的评分；综合相似度和评分生成被推荐用户对新物品的兴趣度，取兴趣度高的前N个物品生成topN推荐集。该方法解决了属性单一或多属性权值设置不确定给推荐系统带来的阻碍，个性化推荐针对不同用户产生不同的推荐集，并将推荐相关信息发送至用户，节省了网络资源。但其未建立推荐系统的后台管理平台，实现算法模型选型、数据训练等界面上的可视化操作。

发明内容

为解决上述问题，本发明提供了一种通用TOP-N智能推荐系统及方法，该系统可以支持快速部署各类推荐场景解决方案，通过使用通用的推荐引擎能力，使用引擎为基础的模型构建能力及算法策略配置能力，能够在接入用户数据、用户行为数据及物品数据后形成场景应用层面的推荐模型，并能够通过用户交互界面来进行模型管理及指标观察及分析，选择不同的召回、过滤推荐算法，生成各推荐系统场景的API，供手机APP端或者车载系统使用，实现端到端的推荐管理及应用。

为了解决上述技术问题，本发明采用的技术方案是这样的：一种通用TOP-N智能推荐系统，包括，

应用层，包括推荐场景模块、用户数据模块、物品数据模块和系统管理模块，用于提供管理平台和可供操作和展示的可视化交互界面；

服务层，包括推荐引擎、模型和算法管理、监控模块；用于通过多种服务对数据处理，并根据该数据处理结果对推荐模型进行训练，提供对应于多个推荐场景的接口，并对推荐模型和算法进行监控管理；

数据层，包括业务数据、模型数据、系统日志、元数据；用于将模型训练数据、模型文件及日志存储在大数据平台；

存储层，用于保存数据。

作为优化，所述推荐场景模块包括数据选择、模型选择、冷启动策略选择、模型管理和模型托管环境，用于推荐场景的搭建和实现；其中，

数据选择，用于通过离线或在线多源的方式选择对应于各推荐场景的推荐模型所需的训练数据，所述训练数据包括用户数据、行为数据、物品数据；

模型选择，用于由算法库中选择对应的算法作为推荐模型的算法，所述推荐算法包括个性化推荐、热门推荐、相似推荐；

冷启动策略选择，用于从冷启动策略中选择推荐模型的策略，所述冷启动策略包括热门推荐策略和时间排序推荐策略；

模型管理，用于对推荐模型的更新周期进行配置，该配置包括立即训练或周期性训练；还用于统计推荐模型的AUC离线指标和曝光量、点击次数、点击率线上指标，统计推荐模型的调用次数和调用成功率；

模型托管环境，用于指定推荐模型所在的服务环境，所述服务环境包括测试环境或正式环境，并根据服务环境配置相关权限。

作为优化，所述用户数据模块包括用户数据单元、用户数据表管理单元、行为数据单元和行为数据表管理单元，用于进行用户信息和行为信息的接入，展示及管理；其中，

用户数据单元，用于用户数据的搜索、查询、预览和可视化；

用户数据表管理单元，用于对用户数据的增删改查；

行为数据单元，用于行为数据的搜索、查询、预览、可视化；

行为数据管理单元，用于对行为数据的增删改查。

作为优化，所述物品数据模块包括物品库列表、物品库管理和物品分类管理，用于进行物品信息的接入，展示及管理；其中，

物品库列表，用于可视化呈现物品库的多级联关系；

物品库管理，用于对物品库的增删改查；

物品分类管理，用于对物品分类的增删改查。

作为优化，所述系统管理模块包括日志管理和告警管理，用于对系统进行运维管理；其中，

日志管理，用于管理系统后端支持系统线上线下服务日志，数据及实例日志的管理；

告警管理，用于对模型训练、数据一致性、推荐系统状态提供告警。

作为优化，所述推荐引擎包括召回服务、过滤/补充服务、排序服务和推荐服务；用于支持模型的周期性训练生成模型，并将该模型应用于对外服务提供的接口；其中，

召回服务，用于对推荐物品进行筛选，生成候选列表；

过滤/补充服务，用于通过黑白名单的设置对召回服务生成的候选列表进行增加和过滤；

排序服务，用于根据用户信息、行为信息和物品信息，生成用户-物品-行为的特征矩阵，并对该特征矩阵进行预测；

推荐服务，用于通过grpc协议调用召回服务、过滤/补充服务、排序服务，并提供HTTP request接口和HTTP response接口给对外服务。

作为优化，所述模型和算法管理包括模型库、算法库和模型生命周期，用于提供模型数据管理、算法管理、已训练模型的生命周期、版本及上下线管理，其中模型库来源于推荐引擎训练生成的模型，算法库来源于算法人员的输入。

作为优化，所述监控模块包括日志抽取、聚合查询和日志管理；用于提供请求接口的性能指标及模型效果指标展示，其数据来源于推荐引擎预测接口的日志采集。

作为优化，所述数据层包括业务数据、模型数据、系统日志、元数据，均储存在大数据平台；

所述业务数据是推荐场景所依赖的训练数据，用于模型训练和生成模型；

所述模型数据为训练后生成的模型文件，用于预测；

所述系统日志是模型的请求及响应日志，用于反馈模型实例性能。

本发明还提供了一种通用TOP-N智能推荐方法，包括以下步骤，

S1、获取用户数据、物品数据和行为数据，并存入数据库；

S2、对S1中所获取的数据进行处理，获取用户数据表、物品数据表和用户-物品交互行为表三张基础数据表；

S3、根据所述基础数据表通过统计的方法生成用户表、物品表、事件-用户表，事件-物品表，并存入数据库形成数据集；

S4、通过多个召回策略对所述数据集进行处理，生成候选物品集合，得到初始化推荐结果；

S5、对该初始化推荐结果进行黑名单过滤和白名单补充；

S6、对过滤和补充后的结果进行排序，并结合用户特征和物品特征，得到推荐结果；

S7、在收到用户请求后，根据用户信息、用户的地理位置信息和IP地址信息返回所述推荐结果。

与现有技术相比，本发明具有如下优点：

本发明采用了通用化的推荐系统技术方案：只需把某一需要TOPN推荐的场景抽象成三张具有指定格式的数据表存放到数据库中，即可在管理后台界面进行可视化操作，进行数据训练，形成该场景业务独有的API，从而获得个性化的推荐服务内容。操作管理平台无需专业技术人员，产品、运营人员皆可按照步骤进行操作。

本发明可灵活配置、自定义添加召回、过滤补充、排序等模块的算法策略；可通过配置文件来灵活调整推荐系统的算法使用策略；可快速完成召回、粗排、精排等服务的部署；可记录对应模块的日志，便于监控、调试。

附图说明

图1为本发明的系统架构图；

图2为本发明的系统流程图。

具体实施方式

下面将结合附图及实施例对本发明作进一步说明。

实施例：参见图1-图2，

一种通用TOP-N智能推荐系统，包括应用层、服务层、数据层、存储层四个部分。

一、应用层，包括推荐场景模块、用户数据模块、物品数据模块和系统管理模块，用于提供管理平台和可供操作和展示的可视化交互界面；具体的，应用层为一个管理平台，支持在交互界面操作后，完成对推荐模型的训练，形成API，可以根据用户信息，物品库ID、物品分类ID、推荐模式获取对应用户的推荐内容，适用于各类推荐场景。

所述推荐场景模块包括数据选择、模型选择、冷启动策略选择、模型管理和模型托管环境，用于推荐场景的搭建和实现；其中，

数据选择，用于通过离线或在线多源的方式选择对应于各推荐场景的推荐模型所需的训练数据，所述训练数据需要归集为三类（即三张表），包括用户数据、行为数据、物品数据。

模型管理，用于对推荐模型的更新周期进行手动配置，该配置包括立即训练或周期性训练；还用于统计推荐模型的AUC离线指标和曝光量、点击次数、点击率线上指标，统计推荐模型的调用次数和调用成功率；

所述用户数据模块包括用户数据单元、用户数据表管理单元、行为数据单元和行为数据表管理单元，用于进行用户信息和行为信息的接入，展示及管理；其中，

用户数据表管理单元，用于对用户数据的增删改查；

行为数据管理单元，用于对行为数据的增删改查。

所述物品数据模块包括物品库列表、物品库管理和物品分类管理，用于进行物品信息的接入，展示及管理；其中，

物品库列表，用于可视化呈现物品库的多级联关系；

物品库管理，用于对物品库的增删改查；

物品分类管理，用于对物品分类的增删改查。

所述系统管理模块包括日志管理和告警管理，用于对系统进行运维管理和对线上服务进行监控及管理；其中，

二、服务层，包括推荐引擎、模型和算法管理、监控模块；用于通过多种服务对数据处理，并根据该数据处理结果对推荐模型进行训练，提供对应于多个推荐场景的接口，并对推荐模型和算法进行监控管理；具体的，服务层主要分为推荐引擎、模型算法管理以及监控三部分。推荐引擎支持模型的周期性训练生成模型、将模型应用于对外服务提供的接口。

所述推荐引擎包括召回服务、过滤/补充服务、排序服务和推荐服务；用于支持模型的周期性训练生成模型，并将该模型应用于对外服务提供的接口。其中，

召回服务，用于对推荐物品进行筛选，生成候选列表；具体的，召回服务负责从海量数据筛选出部分数据，供后面排序阶段使用。加入召回过程，利用少量的特征和简单的模型或规则对全量的推荐物品快速筛选，进一步减少后面排序阶段的时间开销。召回服务的设计需要同时考虑召回率和计算速度，保证召回用户感兴趣的数据和时效性。

过滤/补充服务，用于通过黑白名单的设置对召回服务生成的候选列表进行增加和过滤。

推荐服务，通过grpc协议内部调用召回服务（recall server）、过滤/补充服务（correction server）、排序服务（ranking server）。推荐服务提供一个 HTTP request接口和一个HTTP response接口给对外服务。

所述模型和算法管理包括模型库、算法库和模型生命周期，用于提供模型数据管理、算法管理、已训练模型的生命周期、版本及上下线管理，其中模型库来源于推荐引擎训练生成的模型，算法库来源于算法人员的输入。

所述监控模块包括日志抽取、聚合查询和日志管理；用于提供请求接口的性能指标及模型效果指标展示，其数据来源于推荐引擎预测接口的日志采集。

数据层，包括业务数据、模型数据、系统日志、元数据；用于将模型训练数据、模型文件及日志存储在大数据平台。

所述数据层包括业务数据、模型数据、系统日志、元数据，均储存在大数据平台；

所述业务数据是推荐场景所依赖的训练数据，用于模型训练和生成模型；存储位置是大数据平台（Hive）。

所述模型数据为训练后生成的模型文件，用于预测；存储位置是大数据平台（HDFS）。

所述系统日志是模型的请求及响应日志，用于反馈模型实例性能。存储在大数据平台（ES）。

存储层，用于保存数据。存储层依赖于HDFS分布式文件系统存储、业务元数据在Hive在数仓可用时依赖，前期以文件形式存储在HDFS上；推荐系统本身的用户管理、模型元数据、监控数据存储于Mysql；用户请求特征日志、预测响应日志、训练日志等存储于Elasticsearch。

基于上述系统，本发明还提供了一种通用TOP-N智能推荐方法，包括以下步骤，

S1、获取用户数据、物品数据和行为数据，并存入数据库；

S5、对该初始化推荐结果进行黑名单过滤和白名单补充；

具体的，通用推荐系统主要分解为四个步骤：召回（初始化推荐结果生成）、纠正（过滤/补充）、个性化排序（结果排名）、推荐展示（最终推荐结果）。

如图2中的1-1至1-9所示，为召回步骤的实施方式。

A.用户、物品、行为的原始数据定时按规定的格式推送到制定位置（HDFS/DataBase等）。推送方式为定期批量上传。数据集定时更新的周期频率可从半天至两天不等，具体视业务的需求而定。

B.数据适配模块将上传的原始数据以固定的格式存入数据库中。在推荐的业务场景中因需要进行算法和特征实验，原始数据将进行清洗、补全、标注，形成三张格式固定的基础表，分别是用户数据表、物品数据表、用户-物品交互行为表。

C．数据统计模块基于数据适配器适配好的基础信息三张表,用统计的方法生成用户表、物品表、事件-用户表，事件-物品表,并将处理的结果存入到数据库。

D．上面步骤得到了海量处理好的数据集。召回服务会根据内容召回、相似召回、模型召回等不同的召回策略，从数据集中快速得到相对少量的数据，基于用户id内部调用存储在数据库中的候选物品集合。针对多个召回策略的特性，同时对多源召回的候选列表进行去重，融合，基于用户和物品的实时特征，生成召回候选集合结果。

如图2中的2-1至2-4所示，为过滤补充步骤的实施方式。

A.召回模块对数据进行处理后，得到了初始化推荐结果。由于召回的物品当中会有用户已经处理或者浏览的物品，所以有必要对用户召回的物品集合进行黑名单过滤；同理，对于召回集合为空的用户，需要进行白名单补充。

B.从过滤补充阶段获得少量的物品交给排序阶段，排序阶段融入较多用户特征和产品特征，使用复杂模型，来精确地做个性化推荐。排序强调高效的反馈结果和高精准的推荐结果。

如图2中的3-1至3-8所示，为排序步骤的实施方式。

A.根据物品的转换率、曝光率，定时更新并构造X-Y监督数据集作为排序模型的训练集。

B.生成候选训练集后，排序模型会对生成的候选的对象进行打分和排序，得到最后要推送的列表。推荐系统具有不同来源的召回队列，如矩阵分解模型相关，各类标签下用户相关等。由于多个召回策略召回的推荐的分数不能直接拿来比较，系统将这些不同来源组合成一个通用的候选库，然后由单个模型对其记性打分，结合用户特征、物品特征、环境信息特征对物品列表进行个性化排序。

C.由于排序模型是根据用户的曝光到点击的比例来做排序的，为了提升其它的指标，针对排序的分数乘以一个权重系数来对推荐的物品列表进行排序调整。比如，为了提升新上架物品的点击，对排序的分数乘以一个上架时间负相关的一个系数。

客户端发起请求协议，协议中携带用户ID、地理位置信息、IP地址等信息。结果回传中返回推荐系统的推荐结果。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种通用TOP-N智能推荐系统，其特征在于，包括，

存储层，用于保存数据。

2.根据权利要求1所述的一种通用TOP-N智能推荐系统，其特征在于，所述推荐场景模块包括数据选择、模型选择、冷启动策略选择、模型管理和模型托管环境，用于推荐场景的搭建和实现；其中，

3.根据权利要求1所述的一种通用TOP-N智能推荐系统，其特征在于，所述用户数据模块包括用户数据单元、用户数据表管理单元、行为数据单元和行为数据表管理单元，用于进行用户信息和行为信息的接入，展示及管理；其中，

用户数据表管理单元，用于对用户数据的增删改查；

行为数据管理单元，用于对行为数据的增删改查。

4.根据权利要求1所述的一种通用TOP-N智能推荐系统，其特征在于，所述物品数据模块包括物品库列表、物品库管理和物品分类管理，用于进行物品信息的接入，展示及管理；其中，

物品库列表，用于可视化呈现物品库的多级联关系；

物品库管理，用于对物品库的增删改查；

物品分类管理，用于对物品分类的增删改查。

5.根据权利要求1所述的一种通用TOP-N智能推荐系统，其特征在于，所述系统管理模块包括日志管理和告警管理，用于对系统进行运维管理；其中，

6.根据权利要求5所述的一种通用TOP-N智能推荐系统，其特征在于，所述推荐引擎包括召回服务、过滤/补充服务、排序服务和推荐服务；用于支持模型的周期性训练生成模型，并将该模型应用于对外服务提供的接口；其中，

召回服务，用于对推荐物品进行筛选，生成候选列表；

推荐服务，用于通过grpc协议调用召回服务、过滤/补充服务、排序服务，并提供HTTPrequest接口和HTTP response接口给对外服务。

7.根据权利要求1所述的一种通用TOP-N智能推荐系统，其特征在于，所述模型和算法管理包括模型库、算法库和模型生命周期，用于提供模型数据管理、算法管理、已训练模型的生命周期、版本及上下线管理，其中模型库来源于推荐引擎训练生成的模型，算法库来源于算法人员的输入。

8.根据权利要求1所述的一种通用TOP-N智能推荐系统，其特征在于，所述监控模块包括日志抽取、聚合查询和日志管理；用于提供请求接口的性能指标及模型效果指标展示，其数据来源于推荐引擎预测接口的日志采集。

9.根据权利要求1所述的一种通用TOP-N智能推荐系统，其特征在于，所述数据层包括业务数据、模型数据、系统日志、元数据，均储存在大数据平台；

所述模型数据为训练后生成的模型文件，用于预测；

10.一种通用TOP-N智能推荐方法，其特征在于，包括以下步骤，

S1、获取用户数据、物品数据和行为数据，并存入数据库；

S5、对该初始化推荐结果进行黑名单过滤和白名单补充；