CN113254781A - 推荐系统中的模型确定方法、装置、电子设备和存储介质 - Google Patents
推荐系统中的模型确定方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113254781A CN113254781A CN202110648111.3A CN202110648111A CN113254781A CN 113254781 A CN113254781 A CN 113254781A CN 202110648111 A CN202110648111 A CN 202110648111A CN 113254781 A CN113254781 A CN 113254781A
- Authority
- CN
- China
- Prior art keywords
- recommendation
- model
- recommendation request
- target
- log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种推荐系统中的模型确定方法、装置、电子设备和存储介质,属于沙箱技术领域。所述方法包括:通过推荐引擎获取推荐请求日志,其中,所述推荐请求日志是基于推荐请求事件生成的,所述推荐请求日志中携带有所述推荐请求事件的实时特征;通过所述推荐引擎将所述推荐请求日志送入沙箱,其中,所述沙箱中的业务流程与实际业务流程相同,所述沙箱中的业务流程中包括目标推荐模型;通过所述目标推荐模型对所述实时特征进行分析,得到所述目标推荐模型输出的推荐结果;在确定所述推荐结果的监测指标满足预设条件的情况下,确定所述目标推荐模型能够应用于推荐系统中。本申请通过提高模型推荐结果与线上实际应用效果的一致性。
Description
技术领域
本申请涉及沙箱技术领域,尤其涉及一种推荐系统中的模型确定方法、装置、电子设备和存储介质。
背景技术
在推荐系统的工业场景的应用过程中,出于推荐效果持续优化的需要,业务方往往持续迭代更新模型,目前更新模式是过程为:技术人员进行线上流量的模拟,并将模拟后的流量进行存储,然后由技术人员根据离线存储好的流量数据进行模型流量请求,并记录模型的预测结果,对预测结果进行分析并与线上分析结果进行对比,以确定离线模型的预测效果。若迭代后的模型验证效果优于线上,则进行线上模型的替换。
在离线模型预测过程中,由于实时特征及样本的差异,模型的离线预测结果无法保证与线上的实际应用效果完全一致。若采用离线的模型替换线上模型,并开启线上的小流量测试,会导致线上的实际业务由于模型的不同造成波动。
发明内容
本申请实施例的目的在于提供一种推荐系统中的模型确定方法、装置、电子设备和存储介质,以解决模型预测结果与实际应用效果不一致的问题。具体技术方案如下:
第一方面,提供了一种推荐系统中的模型确定方法,所述方法包括:
通过推荐引擎获取推荐请求日志,其中,所述推荐请求日志是基于推荐请求事件生成的,所述推荐请求日志中携带有所述推荐请求事件的实时特征;
通过所述推荐引擎将所述推荐请求日志送入沙箱,其中,所述沙箱中的业务流程与实际业务流程相同,所述沙箱中的业务流程中包括目标推荐模型;
通过所述目标推荐模型对所述实时特征进行分析,得到所述目标推荐模型输出的推荐结果;
在确定所述推荐结果的监测指标满足预设条件的情况下,确定所述目标推荐模型能够应用于推荐系统中。
可选地,所述通过所述目标推荐模型对所述实时特征进行分析,得到所述目标推荐模型输出的推荐结果包括:
获取所述目标推荐模型基于所述推荐请求日志中的实时特征得到的初始推荐物品列表;
通过运营策略对所述推荐物品列表进行信息分析,得到更新后的第一推荐物品列表,其中,所述信息分析包括查询聚合、重排序、人群定向;
通过处理方案对所述第一推荐物品列表进行处理,得到第二推荐物品列表,其中,所述处理方案包括风险控制、业务兜底和财务分析;
通过所述目标推荐模型输出所述第二推荐物品列表。
可选地,在确定所述推荐结果的监测指标满足预设条件的情况下确定所述目标推荐模型能够应用于推荐系统中包括:
通过监测系统对所述第二推荐物品列表进行数据分析,得到多个监测指标;
在预设时长内所述多个监测指标满足预设指标条件的情况下,对所述目标推荐模型进行标注;
通过标注后的目标推荐模型进行实际业务流程中的AB测试;
在所述标注后的目标推荐模型测试通过的情况下,将所述标注后的目标推荐模型应用于所述推荐系统中。
可选地,通过所述推荐引擎将所述推荐请求日志送入沙箱包括:
通过所述推荐引擎将所述推荐请求日志送入日志聚合系统,得到多个待选推荐请求日志,其中,所述日志聚合系统用于收集、聚合和移动多个推荐请求日志;
通过所述日志聚合系统将所述多个待选推荐请求日志送入消息队列,以通过所述消息队列将所述待选推荐请求日志输入所述沙箱的目标推荐模型中;
配置所述沙箱所使用的流量比例,其中,所述流量比例用于从多个待选推荐请求事件中选取出推荐请求事件。
可选地,通过推荐引擎获取推荐请求日志之前,所述方法还包括:
在监测到推荐请求事件的情况下,对所述推荐请求事件携带的推荐请求数据进行推荐预处理,得到推荐预处理后的推荐请求事件,其中,所述推荐预处理包括风险决策、在线数据组装和模型特征准备;
在所述推荐预处理后的推荐请求事件的流量经过所述推荐引擎的情况下,通过所述推荐引擎采用异步方式获取所述推荐请求日志,其中,所述推荐预处理后的推荐请求事件携带有所述推荐请求日志。
可选地,所述实时特征包括离线特征,通过推荐引擎获取推荐请求日志之前,所述方法还包括:
在监测到推荐请求事件的情况下,对所述推荐请求事件携带的推荐请求数据进行数据预处理,其中,所述数据预处理包括抽取、转换和加载;
提取所述数据预处理后的推荐请求数据中的离线特征,其中,所述离线特征包括消费特征、风险特征、人口学属性和收益特征。
可选地,通过所述目标推荐模型对所述实时特征进行分析之前,所述方法还包括:
将样本实时特征输入初始推荐模型,得到所述初始推荐模型输出的预估推荐物品列表;
在所述预估推荐物品列表与实际物品推荐列表不一致的情况下,调整所述初始推荐模型的参数,直至得到的预估推荐物品列表与所述实际物品推荐列表一致;
将调整参数后的初始推荐模型作为所述目标推荐模型。
第二方面,提供了一种推荐系统中的模型确定装置,所述装置包括:
获取模块,用于通过推荐引擎获取推荐请求日志,其中,所述推荐请求日志是基于推荐请求事件生成的,所述推荐请求日志中携带有所述推荐请求事件的实时特征;
送入模块,用于通过所述推荐引擎将所述推荐请求日志送入沙箱,其中,所述沙箱中的业务流程与实际业务流程相同,所述沙箱中的业务流程中包括目标推荐模型;
分析模块,用于通过所述目标推荐模型对所述实时特征进行分析,得到所述目标推荐模型输出的推荐结果;
确定模块,用于在确定所述推荐结果的监测指标满足预设条件的情况下,确定所述目标推荐模型能够应用于推荐系统中。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的一种推荐系统中的模型确定方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的一种推荐系统中的模型确定方法步骤。
本申请实施例有益效果:
本申请涉及推荐技术中的推荐系统架构领域,本申请实施例提供了一种推荐系统中的模型确定方法,服务器通过推荐引擎获取推荐请求日志,然后通过推荐引擎将推荐请求日志送入沙箱,通过目标推荐模型对实时特征进行分析,得到目标推荐模型输出的推荐结果,最后在确定推荐结果的监测指标满足预设条件的情况下,确定目标推荐模型能够应用于推荐系统中。在本申请中,服务器通过设置沙箱中的业务流程与实际业务流程相同,并采用推荐请求日志,可以使沙箱环境的全部流量来源于线上业务中推荐请求日志实时采集的结果,并在沙箱的模型验证环节使用同线上环境相同的系统处理逻辑,确保沙箱环境的请求数据和业务流程均与线上一致,提高了沙箱环境的模型实验的真实性,提高模型推荐结果与线上实际应用效果的一致性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种推荐系统中的模型确定方法硬件环境示意图;
图2为本申请实施例提供的一种推荐系统中的模型确定的方法流程图;
图3为本申请实施例提供的得到目标推荐模型输出的推荐结果的方法流程图;
图4为本申请实施例提供的一种推荐系统中的模型确定系统示意图;
图5为本申请实施例提供的一种推荐系统中的模型确定装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种推荐系统中的模型确定方法的实施例。
可选地,在本申请实施例中,上述推荐系统中的模型确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种推荐系统中的模型确定方法可以由服务器103来执行,还可以是由终端101执行。
本申请实施例提供了一种推荐系统中的模型确定方法,可以应用于服务器,用于将沙箱中的模型作为推荐系统中的模型。
下面将结合具体实施方式,对本申请实施例提供的一种推荐系统中的模型确定方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:通过推荐引擎获取推荐请求日志。
其中,推荐请求日志是基于推荐请求事件生成的,推荐请求日志中携带有推荐请求事件的实时特征。
在本申请实施例中,用户在app或小程序上的每一次请求行为都作为一个推荐请求事件,每个推荐请求事件都会生成一个推荐请求日志,推荐请求日志记录了推荐请求事件的实时特征,包括用户离线特征、当前环境特征和交易场景等信息。
示例性地,用户每一次点击网页的行为都作为一个推荐请求事件,该推荐请求事件对应的推荐请求日志记录了用户的离线特征、当前环境特征和交易场景,用户的离线特征包括用户的消费特征、信用卡属性、风险特征、人口学属性、财产特征和收益特征等。当前环境特征包括当前网页名称和点击时刻等,交易场景包括交易金额、交易商户信息、交易订单等。
推荐引擎用于主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络,服务器通过推荐引擎获取推荐请求日志,由于推荐请求日志记录了推荐请求事件的实时特征,因此推荐请求日志可以完整的复制真实的推荐请求事件发生的场景。
步骤202:通过推荐引擎将推荐请求日志送入沙箱。
其中,沙箱中的业务流程与实际业务流程相同,沙箱中的业务流程中包括目标推荐模型。
在本申请实施例中,沙箱中的业务流程与实际业务流程相同,即沙箱环境复用了线上环境的推荐流程,因此在沙箱的模型验证环节可以使用同线上环境相同的系统处理逻辑,由于推荐引擎将推荐请求日志送入了沙箱,因此沙箱环境的全部流量来源于线上业务中推荐请求日志实时采集的结果,确保沙箱环境的请求数据与线上业务的请求数据一致,因此推荐请求日志能够完整的复制推荐请求事件发生的场景。最大程度提高了沙箱环境的模型实验的真实性。
实际业务流程包含了推荐模型,因此,沙箱中的业务流程也包括目标推荐模型。
步骤203:通过目标推荐模型对实时特征进行分析,得到目标推荐模型输出的推荐结果。
在本申请实施例中,在实际业务场景中,用户的点击网页行为会得到网站反馈的物品推荐列表,沙箱环境的业务流程与实际业务流程完全相同,因此,沙箱环境也会输出物品推荐列表。
服务器将推荐请求日志送入沙箱后,由于推荐请求日志中携带有推荐请求事件的实时特征,沙箱中的业务流程包括目标推荐模型,因此,服务器可以通过目标推荐模型对实时特征进行分析,得到目标推荐模型输出的推荐结果,其中,推荐结果为物品推荐列表。
步骤204:在确定推荐结果的监测指标满足预设条件的情况下,确定目标推荐模型能够应用于推荐系统中。
在本申请实施例中,服务器通过监测系统分析推荐结果得到多个监测指标,然后服务器判断监测指标是否满足预设条件,若服务器确定监测指标不满足预设条件,表示沙箱环境中的推荐模型还不能应用于推荐系统中,还需要进一步优化。
若服务器确定监测指标满足预设条件,表示沙箱环境中的推荐模型能够应用于推荐系统中,服务器可以采用该推荐模型进行线上的小流量模型实验,以降低模型投产的风险,提升推荐系统的稳定性。
在本申请中,服务器通过设置沙箱中的业务流程与实际业务流程相同,并采用推荐请求日志,可以使沙箱环境的全部流量来源于线上业务中推荐请求日志实时采集的结果,并在沙箱的模型验证环节使用同线上环境相同的系统处理逻辑,确保沙箱环境的请求数据和业务流程均与线上一致,提高了沙箱环境的模型实验的真实性,提高模型推荐结果与线上实际应用效果的一致性。
作为一种可选地实施方式,如图3所示,通过目标推荐模型对实时特征进行分析,得到目标推荐模型输出的推荐结果包括:
步骤301:获取目标推荐模型基于推荐请求日志中的实时特征得到的初始推荐物品列表。
在本申请实施例中,服务器将实时特征输入目标推荐模型,得到目标推荐模型输出的初始推荐物品列表,其中,目标推荐模型可以包括多个子模型,示例性地,包括业务模型1、业务模型2和业务模型3等。目标推荐模型需要提前训练,训练方式可以采用深度学习、图算法、NLP算法、模型评估、机器学习、超参搜索、CV算法和试验管理等方法。
步骤302:通过运营策略对推荐物品列表进行信息分析,得到更新后的第一推荐物品列表。
其中,信息分析包括查询聚合、重排序、人群定向。
在本申请实施例中,服务器得到初始推荐物品列表后,可以采用运营策略对推荐物品列表进行信息分析,信息分析包括查询聚合、重排序、人群定向、指定策略规则等,得到更新后的第一推荐物品列表。重排序是在初始推荐物品列表中推荐物品进行重新排序,以使用户兴趣较大的物品排列靠前。人群定向是将具有相似相同的标签划分到到同一群组,并对每个群组配置对应的推荐物品,若服务器确定发起该推荐请求事件的用户也属于该群组,则将对应的推荐物品纳入推荐物品列表。
步骤303:通过处理方案对第一推荐物品列表进行处理,得到第二推荐物品列表。
其中,处理方案包括风险控制、业务兜底和财务分析。
在本申请实施例中,服务器得到第一推荐物品列表后,通过处理方案对第一推荐物品列表进行处理,处理方案包括风险控制、业务兜底和财务分析,得到第二推荐物品列表。对于金融产品,要进行风险控制,提高用户财产安全。使用FICO(Finance,Controlling,SAP中的财务模块)信用分评价用户的信用值,提高金融安全性。使用业务兜底,为用户提供可靠的推荐物品。
步骤304:通过目标推荐模型输出第二推荐物品列表。
在本申请实施例中,服务器得到第二推荐物品列表后,通过目标推荐模型输出第二推荐物品列表。
在本申请中,服务器得到初始推荐物品列表后,还通过运营策略和处理方案对推荐物品做进一步的优化,使推荐物品既满足用户需求和兴趣,也提高风险安全。
作为一种可选的实施方式,在确定推荐结果的监测指标满足预设条件的情况下确定目标推荐模型能够应用于推荐系统中包括:通过监测系统对第二推荐物品列表进行数据分析,得到多个监测指标;在预设时长内多个监测指标满足预设指标条件的情况下,对目标推荐模型进行标注;通过标注后的目标推荐模型进行实际业务流程中的AB测试;在标注后的目标推荐模型测试通过的情况下,将标注后的目标推荐模型应用于推荐系统中。
在本申请实施例中,服务器得到第二推荐物品列表后,通过监测系统对第二推荐物品列表进行数据分析,可以采用绘制监测图等方式进行分析,得到多个监测指标,监测指标包括但不限于模型效果指标的提升率、推荐效果稳定性、模型分值分布、模型AUC和模型响应时长,然后服务器将监测指标送入Grafana,进行实时的模型效果监控。服务器可以将监测指标与线上模型指标进行横向的对比,便于技术人员直观的对比推荐模型的提升效果。其中,模型效果指标的提升率包括但不限于,点击率、转化率、加购率、复购率和停留时长,推荐效果稳定性包括但不限于模型预测评分的标准差和均值。
其中,Grafana是一款用Go语言开发的开源数据可视化工具,可以做数据监控和数据统计,具有可视化、报警、通知、动态仪表盘、混合数据源、注释和过滤器的特点。
服务器还可以设置预设时长,并观测预设时长内多个监测指标是否满足预设指标条件,若服务器确定监测指标不满足预设指标条件,表示目标推荐模型还不能够用于推荐系统,若服务器确定监测指标满足预设指标条件,则对目标推荐模型进行标注,然后根据实际业务,通过标注后的目标推荐模型进行实际业务流程中的AB测试,在AB测试通过的情况下,确定目标推荐模型稳定,然后采用该目标推荐模型进行线上的小流量模型实验,降低模型投产的风险,提升推荐系统的稳定性。
作为一种可选的实施方式,通过推荐引擎将推荐请求日志送入沙箱包括:通过推荐引擎将推荐请求日志送入日志聚合系统,得到多个待选推荐请求日志,其中,日志聚合系统用于收集、聚合和移动多个推荐请求日志;通过日志聚合系统将多个待选推荐请求日志送入消息队列,以通过消息队列将待选推荐请求日志输入沙箱的目标推荐模型中;配置沙箱所使用的流量比例,其中,流量比例用于从多个待选推荐请求事件中选取出推荐请求事件。
在本申请实施例中,推荐引擎获取推荐请求日志后,将推荐请求日志送入日志聚合系统,得到多个待选推荐请求日志。日志聚合系统可以为Flume,Flume是一种分布式、可靠且可用的服务,用于有效地收集,聚合和移动大量推荐请求日志。它具有基于流数据流的简单灵活的架构,具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力,使用简单的可扩展数据模型,允许在线分析应用程序。
服务器通过日志聚合系统将多个待选推荐请求日志送入消息队列,以通过消息队列将待选推荐请求日志输入沙箱的目标推荐模型中。消息队列可以为kafka,kafka是一个分布式的、可划分的、冗余备份的持久性的日志服务。kafka可以降低系统组网复杂度,降低编程复杂度,承担高速数据总线的作用;同时为发布和订阅提供高吞吐量;可进行持久化操作;分布式系统,易于向外扩展;消息被处理的状态是在consumer端维护,而不是由server端维护,当失败时能自动平衡;支持online和offline的场景。
服务器还配置沙箱所使用的流量比例,流量比例用于从多个待选推荐请求事件中选取出推荐请求事件,选取方式可以为随机选取,也可以为固定时长选取,本申请对选取具体方式不做限定。由于对全部推荐请求事件进行结果预测需要一个强大的服务器,而沙箱环境中无法承载如此大的服务器,因此选取出部分推荐请求事件,减少服务器计算量。
作为一种可选的实施方式,通过推荐引擎获取推荐请求日志之前,方法还包括:在监测到推荐请求事件的情况下,对推荐请求事件携带的推荐请求数据进行推荐预处理,得到推荐预处理后的推荐请求事件,其中,推荐预处理包括风险决策、在线数据组装和模型特征准备;在推荐预处理后的推荐请求事件的流量经过推荐引擎的情况下,通过推荐引擎采用异步方式获取推荐请求日志,其中,推荐预处理后的推荐请求事件携带有推荐请求日志。
在本申请实施例中,服务器在监测到推荐请求事件后,首先对推荐请求事件携带的推荐请求数据进行推荐预处理,包括风险决策、在线数据组装和模型特征准备,得到推荐预处理后的推荐请求事件。风险决策可以降低推荐请求事件的风险,提高模型安全性,由于模型需要提前采用样本特征进行训练,因此服务器根据对推荐请求数据得到样本特征,然后采用该样本特征进行模型训练。然后推荐请求事件的流量经过推荐引擎的情况下,推荐引擎采用异步方式获取推荐请求日志,其中,推荐预处理后的推荐请求事件携带有推荐请求日志。
作为一种可选的实施方式,实时特征包括离线特征,通过推荐引擎获取推荐请求日志之前,方法还包括:在监测到推荐请求事件的情况下,对推荐请求事件携带的推荐请求数据进行数据预处理,其中,数据预处理包括抽取、转换和加载;提取数据预处理后的推荐请求数据中的离线特征,其中,离线特征包括消费特征、风险特征、人口学属性和收益特征。
目标推荐模型采用的实时特征中包括离线特征,离线特征是服务器提前获取到的,具体获取方式为:服务器监测到推荐请求事件后,推荐请求事件携带的推荐请求数据落地后,服务器对推荐请求数据进行数据预处理ETL,数据预处理包括抽取、转换和加载,然后采用数据预处理后的推荐请求数据构建离线特征,采用该离线特征进行后续的离线的模型训练。离线特征包括但不限于消费特征、风险特征、财产特征、人口学属性、信用卡属性和收益特征。
作为一种可选的实施方式,通过目标推荐模型对实时特征进行分析之前,方法还包括:将样本实时特征输入初始推荐模型,得到初始推荐模型输出的预估推荐物品列表;在预估推荐物品列表与实际物品推荐列表不一致的情况下,调整初始推荐模型的参数,直至得到的预估推荐物品列表与实际物品推荐列表一致;将调整参数后的初始推荐模型作为目标推荐模型。
在本申请实施例中,服务器将样本实时特征输入初始推荐模型,得到初始推荐模型输出的预估推荐物品列表,若预估推荐物品列表与实际物品推荐列表不一致,服务器调整初始推荐模型的参数,直至得到的预估推荐物品列表与实际物品推荐列表一致,服务器将调整参数后的初始推荐模型作为目标推荐模型。
可选的,本申请实施例还提供了一种推荐系统中的模型确定示意图,如图4所示,具体步骤如下。
步骤1:用户在app、web或小程序上产生点击行为,服务器监测到推荐请求事件,推荐请求事件携带有推荐请求数据。
步骤2:服务器对推荐请求数据进行推荐预处理,包括风险决策、在线数据组装和模型特征准备。
步骤3:线上流量在经过推荐引擎时,推荐引擎获取推荐请求日志。
步骤4:推荐引擎将推荐请求日志通过Flume和kafka送入沙箱,并在沙箱环境中进行推荐请求日志的异常过滤和流量分配。
步骤5:在沙箱环境中,服务器获取实时特征,并将实时特征输入目标推荐模型,然后将目标推荐模型输出的初始推荐物品列表依次采用运行策略和处理方案,得到第二推荐物品列表。
步骤6:服务器采用监控系统得到将第二推荐物品列表进行数据分析,得到监测指标。
步骤7:服务器确定监测指标满足预设指标条件,则通过目标推荐模型进行实际业务流程中的AB测试,然后采用该目标推荐模型进行线上的小流量模型实验。
现有技术模型的离线评估流程较为复杂,模型验证的周期较长,容易出现纰漏,导致模型验证数据不准确,且不易进行问题的排查。离线模型并不能很好的模拟线上的应用场景,导致估算并不准确。
本申请的沙箱环境可以在不影响线上推荐结果的前提下,最大限度的模拟线上的请求环境,可以实现全面真实的离线模型效果评估,最大限度的降低模型离线评估失真带来的线上实验时的业务损失,提高了推荐系统模型服务的稳定性。同时提高了模型验证效率,减少离线模型验证的工作量,提高准确性。
基于相同的技术构思,本申请实施例还提供了一种推荐系统中的模型确定装置,如图5所示,该装置包括:
第一获取模块501,用于通过推荐引擎获取推荐请求日志,其中,推荐请求日志是基于推荐请求事件生成的,推荐请求日志中携带有推荐请求事件的实时特征;
送入模块502,用于通过推荐引擎将推荐请求日志送入沙箱,其中,沙箱中的业务流程与实际业务流程相同,沙箱中的业务流程中包括目标推荐模型;
分析模块503,用于通过目标推荐模型对实时特征进行分析,得到目标推荐模型输出的推荐结果;
确定模块504,用于在确定推荐结果的监测指标满足预设条件的情况下,确定目标推荐模型能够应用于推荐系统中。
可选地,分析模块503包括:
获取单元,用于获取目标推荐模型基于推荐请求日志中的实时特征得到的初始推荐物品列表;
第一分析单元,用于通过运营策略对推荐物品列表进行信息分析,得到更新后的第一推荐物品列表,其中,信息分析包括查询聚合、重排序、人群定向;
处理单元,用于通过处理方案对第一推荐物品列表进行处理,得到第二推荐物品列表,其中,处理方案包括风险控制、业务兜底和财务分析;
输出单元,用于通过目标推荐模型输出第二推荐物品列表。
可选地,确定模块504包括:
第二分析单元,用于通过监测系统对第二推荐物品列表进行数据分析,得到多个监测指标;
标注单元,用于在预设时长内多个监测指标满足预设指标条件的情况下,对目标推荐模型进行标注;
测试单元,用于通过标注后的目标推荐模型进行实际业务流程中的AB测试;
应用单元,用于在标注后的目标推荐模型测试通过的情况下,将标注后的目标推荐模型应用于推荐系统中。
可选地,送入模块502包括:
第一送入单元,用于通过推荐引擎将推荐请求日志送入日志聚合系统,得到多个待选推荐请求日志,其中,日志聚合系统用于收集、聚合和移动多个推荐请求日志;
第二送入单元,用于通过日志聚合系统将多个待选推荐请求日志送入消息队列,以通过消息队列将待选推荐请求日志输入沙箱的目标推荐模型中;
配置单元,用于配置沙箱所使用的流量比例,其中,流量比例用于从多个待选推荐请求事件中选取出推荐请求事件。
可选地,该装置包括:
第一处理模块,用于在监测到推荐请求事件的情况下,对推荐请求事件携带的推荐请求数据进行推荐预处理,得到推荐预处理后的推荐请求事件,其中,推荐预处理包括风险决策、在线数据组装和模型特征准备;
第二获取模块,用于在推荐预处理后的推荐请求事件的流量经过推荐引擎的情况下,通过推荐引擎采用异步方式获取推荐请求日志,其中,推荐预处理后的推荐请求事件携带有推荐请求日志。
可选地,实时特征包括离线特征,该装置包括:
第二处理模块,用于在监测到推荐请求事件的情况下,对推荐请求事件携带的推荐请求数据进行数据预处理,其中,数据预处理包括抽取、转换和加载;
提取模块,用于提取数据预处理后的推荐请求数据中的离线特征,其中,离线特征包括消费特征、风险特征、人口学属性和收益特征。
可选地,该装置包括:
输入模块,用于将样本实时特征输入初始推荐模型,得到初始推荐模型输出的预估推荐物品列表;
调整模块,用于在预估推荐物品列表与实际物品推荐列表不一致的情况下,调整初始推荐模型的参数,直至得到的预估推荐物品列表与实际物品推荐列表一致;
作为模块,用于将调整参数后的初始推荐模型作为目标推荐模型。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图6所示,包括存储器603、处理器601、通信接口602及通信总线604,存储器603中存储有可在处理器601上运行的计算机程序,存储器603、处理器601通过通信接口602和通信总线604进行通信,处理器601执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码:
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种推荐系统中的模型确定方法,其特征在于,所述方法包括:
通过推荐引擎获取推荐请求日志,其中,所述推荐请求日志是基于推荐请求事件生成的,所述推荐请求日志中携带有所述推荐请求事件的实时特征;
通过所述推荐引擎将所述推荐请求日志送入沙箱,其中,所述沙箱中的业务流程与实际业务流程相同,所述沙箱中的业务流程中包括目标推荐模型;
通过所述目标推荐模型对所述实时特征进行分析,得到所述目标推荐模型输出的推荐结果;
在确定所述推荐结果的监测指标满足预设条件的情况下,确定所述目标推荐模型能够应用于推荐系统中。
2.根据权利要求1所述的方法,其特征在于,所述通过所述目标推荐模型对所述实时特征进行分析,得到所述目标推荐模型输出的推荐结果包括:
获取所述目标推荐模型基于所述推荐请求日志中的实时特征得到的初始推荐物品列表;
通过运营策略对所述推荐物品列表进行信息分析,得到更新后的第一推荐物品列表,其中,所述信息分析包括查询聚合、重排序、人群定向;
通过处理方案对所述第一推荐物品列表进行处理,得到第二推荐物品列表,其中,所述处理方案包括风险控制、业务兜底和财务分析;
通过所述目标推荐模型输出所述第二推荐物品列表。
3.根据权利要求2所述的方法,其特征在于,在确定所述推荐结果的监测指标满足预设条件的情况下确定所述目标推荐模型能够应用于推荐系统中包括:
通过监测系统对所述第二推荐物品列表进行数据分析,得到多个监测指标;
在预设时长内所述多个监测指标满足预设指标条件的情况下,对所述目标推荐模型进行标注;
通过标注后的目标推荐模型进行实际业务流程中的AB测试;
在所述标注后的目标推荐模型测试通过的情况下,将所述标注后的目标推荐模型应用于所述推荐系统中。
4.根据权利要求1所述的方法,其特征在于,通过所述推荐引擎将所述推荐请求日志送入沙箱包括:
通过所述推荐引擎将所述推荐请求日志送入日志聚合系统,得到多个待选推荐请求日志,其中,所述日志聚合系统用于收集、聚合和移动多个推荐请求日志;
通过所述日志聚合系统将所述多个待选推荐请求日志送入消息队列,以通过所述消息队列将所述待选推荐请求日志输入所述沙箱的目标推荐模型中;
配置所述沙箱所使用的流量比例,其中,所述流量比例用于从多个待选推荐请求事件中选取出推荐请求事件。
5.根据权利要求1所述的方法,其特征在于,通过推荐引擎获取推荐请求日志之前,所述方法还包括:
在监测到推荐请求事件的情况下,对所述推荐请求事件携带的推荐请求数据进行推荐预处理,得到推荐预处理后的推荐请求事件,其中,所述推荐预处理包括风险决策、在线数据组装和模型特征准备;
在所述推荐预处理后的推荐请求事件的流量经过所述推荐引擎的情况下,通过所述推荐引擎采用异步方式获取所述推荐请求日志,其中,所述推荐预处理后的推荐请求事件携带有所述推荐请求日志。
6.根据权利要求1所述的方法,其特征在于,所述实时特征包括离线特征,通过推荐引擎获取推荐请求日志之前,所述方法还包括:
在监测到推荐请求事件的情况下,对所述推荐请求事件携带的推荐请求数据进行数据预处理,其中,所述数据预处理包括抽取、转换和加载;
提取所述数据预处理后的推荐请求数据中的离线特征,其中,所述离线特征包括消费特征、风险特征、人口学属性和收益特征。
7.根据权利要求1所述的方法,其特征在于,通过所述目标推荐模型对所述实时特征进行分析之前,所述方法还包括:
将样本实时特征输入初始推荐模型,得到所述初始推荐模型输出的预估推荐物品列表;
在所述预估推荐物品列表与实际物品推荐列表不一致的情况下,调整所述初始推荐模型的参数,直至得到的预估推荐物品列表与所述实际物品推荐列表一致;
将调整参数后的初始推荐模型作为所述目标推荐模型。
8.一种推荐系统中的模型确定装置,其特征在于,所述装置包括:
获取模块,用于通过推荐引擎获取推荐请求日志,其中,所述推荐请求日志是基于推荐请求事件生成的,所述推荐请求日志中携带有所述推荐请求事件的实时特征;
送入模块,用于通过所述推荐引擎将所述推荐请求日志送入沙箱,其中,所述沙箱中的业务流程与实际业务流程相同,所述沙箱中的业务流程中包括目标推荐模型;
分析模块,用于通过所述目标推荐模型对所述实时特征进行分析,得到所述目标推荐模型输出的推荐结果;
确定模块,用于在确定所述推荐结果的监测指标满足预设条件的情况下,确定所述目标推荐模型能够应用于推荐系统中。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648111.3A CN113254781A (zh) | 2021-06-10 | 2021-06-10 | 推荐系统中的模型确定方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648111.3A CN113254781A (zh) | 2021-06-10 | 2021-06-10 | 推荐系统中的模型确定方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113254781A true CN113254781A (zh) | 2021-08-13 |
Family
ID=77187472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648111.3A Pending CN113254781A (zh) | 2021-06-10 | 2021-06-10 | 推荐系统中的模型确定方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254781A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114971747A (zh) * | 2022-07-14 | 2022-08-30 | 广州卓铸网络科技有限公司 | 一种基于大数据商品精准营销的数据分析方法及系统 |
-
2021
- 2021-06-10 CN CN202110648111.3A patent/CN113254781A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114971747A (zh) * | 2022-07-14 | 2022-08-30 | 广州卓铸网络科技有限公司 | 一种基于大数据商品精准营销的数据分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170109657A1 (en) | Machine Learning-Based Model for Identifying Executions of a Business Process | |
CN106980573B (zh) | 一种构建测试用例请求对象的方法、装置及系统 | |
CN110188910B (zh) | 利用机器学习模型提供在线预测服务的方法及系统 | |
US20170109676A1 (en) | Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process | |
CN109120429B (zh) | 一种风险识别方法及系统 | |
CN109344170B (zh) | 流数据处理方法、系统、电子设备及可读存储介质 | |
US20180046956A1 (en) | Warning About Steps That Lead to an Unsuccessful Execution of a Business Process | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN113157545A (zh) | 业务日志的处理方法、装置、设备及存储介质 | |
US20170109636A1 (en) | Crowd-Based Model for Identifying Executions of a Business Process | |
US20170109639A1 (en) | General Model for Linking Between Nonconsecutively Performed Steps in Business Processes | |
CN112491611A (zh) | 故障定位系统、方法、装置、电子设备和计算机可读介质 | |
CN110333995A (zh) | 对工业设备运行状态进行监测的方法及装置 | |
CN111708682B (zh) | 数据预测方法、装置、设备及存储介质 | |
CN113313280B (zh) | 云平台的巡检方法、电子设备及非易失性存储介质 | |
CN111539493A (zh) | 一种告警预测方法、装置、电子设备及存储介质 | |
Braun et al. | Improving card fraud detection through suspicious pattern discovery | |
CN111369344A (zh) | 一种动态生成预警规则的方法和装置 | |
CN111767193A (zh) | 一种服务器数据异常检测方法、装置、存储介质及设备 | |
CN109271495B (zh) | 问答识别效果检测方法、装置、设备及可读存储介质 | |
CN113254781A (zh) | 推荐系统中的模型确定方法、装置、电子设备和存储介质 | |
US11971813B2 (en) | Data driven testing automation using machine learning | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process | |
US20170109670A1 (en) | Crowd-Based Patterns for Identifying Executions of Business Processes | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |