CN116911902A - 目标推荐方法及装置 - Google Patents
目标推荐方法及装置 Download PDFInfo
- Publication number
- CN116911902A CN116911902A CN202311168502.0A CN202311168502A CN116911902A CN 116911902 A CN116911902 A CN 116911902A CN 202311168502 A CN202311168502 A CN 202311168502A CN 116911902 A CN116911902 A CN 116911902A
- Authority
- CN
- China
- Prior art keywords
- score
- mapping
- data
- user
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013507 mapping Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 31
- 238000011156 evaluation Methods 0.000 claims description 27
- 230000006399 behavior Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及计算机技术领域,提供了一种目标推荐方法及装置。该方法包括:获取用户项目数据,用户项目数据包括当前用户的用户特征、历史行为特征以及相对于当前项目的交互特征;将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,目标推荐模型的预测分数划分区间是以项目正常率为调整目标,在对预测分数划分区间的分数段进行映射处理以及逆映射处理后进行调整得到的,项目正常率为符合设定条件的项目的数量与总项目的数量的比值,设定条件包括高分数段的到访数据高于低分数段的到访数据,到访数据包括经过映射处理得到的映射分数对应的样本到访数据。本公开的技术方案可以提高客户推荐方案的预测分数的准确度。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种目标推荐方法及装置。
背景技术
相关技术中,企业的营销业务系统可能积累有大量用户数据,在新增用户遇到瓶颈的情况下,如何充分利用存量用户并发挥存量用户的价值,成为营销业务面临的重要课题。
结合当前营销业务的实际情况,在整个业务流程中,针对每个用户可以通过人工规则打分,分数越高则用户认购转化率越高,从而可以根据分数调整营销业务人员的工作重心,优先跟进认购意向度高的商机,充分利用工作时间,从而提升跟进效率。
但在实际的商机运营业务执行时,人工给予分数的方式准确度不高,使得高分值商机的认购意向度并不是真的高,分数对商机运营各个环节的指导意义失效,导致商机运营的潜力未充分发掘。此外,人工规则的维护成本太高,受人力成本的限制,人工规则的迭代停滞。而分数准确度不高的问题无法解决,营销业务人员通过预测分数优先跟进高认购意向度用户的目的无法达成,工作难度加大。
从业务角度出发,提升预测分数的准确度,可以提高认购召回率和认购召回量,以及高分的认购转化率。如何提高预测分数的准确度是当前亟需解决的技术问题。
发明内容
有鉴于此,本公开实施例提供了一种目标推荐方法、装置、电子设备及计算机可读存储介质,以解决现有技术中客户推荐方案的预测分数的准确度不高的技术问题。
本公开实施例的第一方面,提供了一种目标推荐方法,该方法包括:获取用户项目数据,用户项目数据包括当前用户的用户特征、历史行为特征以及相对于当前项目的交互特征;将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型的预测分数划分区间是以项目正常率为调整目标,在对预测分数划分区间的分数段进行映射处理以及逆映射处理后进行调整得到的,其中项目正常率为符合设定条件的项目的数量与总项目的数量的比值,设定条件包括高分数段的到访数据高于低分数段的到访数据,到访数据包括经过映射处理得到的映射分数对应的样本到访数据。
本公开实施例的第二方面,提供了一种目标推荐装置,该装置包括:获取模块,用于获取用户项目数据,用户项目数据包括当前用户的用户特征、历史行为特征以及相对于当前项目的交互特征;推荐模块,用于将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型的预测分数划分区间是以项目正常率为调整目标,在对预测分数划分区间的分数段进行映射处理以及逆映射处理后进行调整得到的,其中项目正常率为符合设定条件的项目的数量与总项目的数量的比值,设定条件包括高分数段的到访数据高于低分数段的到访数据,到访数据包括经过映射处理得到的映射分数对应的样本到访数据。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:本公开实施例的技术方案以项目正常率为调整目标对目标推荐模型的预测分数划分区间进行调整,通过对预测分数划分区间的分数段进行映射处理以及逆映射处理,可以将预测分数映射为映射分数,从而提升目标推荐模型预测及打分效果与用户需求的匹配度,便于业务运营人员基于分数优先跟进联系,提高人力资源利用效率。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的一种目标推荐方法的流程示意图;
图2是本公开实施例提供的一种调整预测分数划分区间的流程示意图;
图3是本公开实施例提供的另一种目标推荐方法的流程示意图;
图4是本公开实施例提供的一种目标推荐装置的结构示意图;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
在房地产行业,销售人员需要识别并跟进具有高购房意愿的潜在客户,以提高销售业绩。传统的客户推荐方法通常基于人工判断或简单的数据挖掘方法实现,例如规则匹配和统计分析。这些方法可能无法准确评估客户的购房意愿,导致销售资源浪费和潜在客户流失。
近年来出现的一些基于机器学习和数据挖掘技术的客户推荐方案可以为基于协同过滤(Collaborative Filtering)或者基于内容的推荐(Content-based Filtering)的方法。基于协同过滤的方法利用客户的历史行为数据,通过计算客户间的相似度或物品间的相似度,为客户推荐具有相似购买行为的其他客户感兴趣的物品。基于内容的推荐的方法可以根据客户的个人特征和兴趣偏好,为客户推荐与其兴趣相关的物品。
这些基于机器学习和数据挖掘技术的客户推荐方案会自动生成预测分数来预测客户的认购意向。但是当前的基于机器学习和数据挖掘技术的客户推荐方案的预测分数的精确度不能满足业务营销系统的需求。
为解决以上问题,本公开实施例提供一种目标推荐方案,以提高客户推荐方案的预测分数的精确度。
具体地,本公开实施例的技术方案通过分析用户的线上及线下行为,全面掌握用户特点,并基于有效的评估体系不断迭代优化,提升客户成交意愿的预测准确度,并寻求一种合理的概率映射分数的方式,为业务营销人员提供一个更准确、高效且易于理解的商机推荐系统,从而提高业务营销业绩和资源利用效率。
下面将结合附图详细说明根据本公开实施例的目标推荐方法和装置。
图1是本公开实施例提供的一种目标推荐方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图1所示,该目标推荐方法包括:
步骤S101,获取用户项目数据,用户项目数据包括当前用户的用户特征、历史行为特征以及相对于当前项目的交互特征。
步骤S102,将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型的预测分数划分区间是以项目正常率为调整目标,在对预测分数划分区间的分数段进行映射处理以及逆映射处理后进行调整得到的,其中项目正常率为符合设定条件的项目的数量与总项目的数量的比值,设定条件包括高分数段的到访数据高于低分数段的到访数据,到访数据包括经过映射处理得到的映射分数对应的样本到访数据。
如图1所示的是本公开实施例提供的目标推荐模型的应用推理过程,在目标推荐模型进行应用之前,需要确定初始推荐模型的框架,并对该初始推荐模型进行训练,以得到目标推荐模型。
在本公开实施例中,目标推荐模型的训练方法包括:使用分布式梯度提升框架在训练数据的训练集上建立初始推荐模型;使用训练数据的验证集对初始推荐模型进行迭代,直到初始推荐模型的模型评估函数不再提高或者达到设定的迭代次数,得到目标推荐模型。
具体地,分布式梯度提升框架可以为LGBM(Light Gradient Boosting Machine,轻量梯度提升机),且并不局限于此。其中,LGBM是一款基于决策树算法的分布式梯度提升框架。模型评估函数包括PR AUC(Precision -Recall Area Under Curve精准率-召回率曲线下面积)函数或召回率基尼系数(gini_top)函数。
其中,PR AUC是用于分类问题的评估指标,通过绘制不同阈值下的Precision-Recall(精准率-召回率)曲线并计算曲线下的面积来评估模型的性能,相对于简单的准确率等指标更能反映出模型对于正负样本分类的能力,特别是在不平衡数据集的情况下。因此,PR AUC能够更准确地评估模型在全量用户上的性能,可以反映出模型的整体排序效果,即模型能否准确预测用户的偏好,对于考察模型的排序能力和推荐效果具有重要的意义。
基尼(gini)系数在推荐系统中可以用来衡量平等程度,其越接近于0表示个性化程度越高,越接近于1表示马太效应越严重,即少数的物品占据了绝大多数的流量。gini_top函数是一种自定义评估函数,主要用于针对高意向用户的评估,即热门推荐。gini_top函数应用在销售领域,可以优先推荐给那些有购买意愿的用户,以提高销售转化率,提高模型在关键场景下的效果,从而可以针对高意向用户,优先跟进联系。gini_top函数定义如下:将预测值按照从大到小排序,计算前5%的正样本召回率,记为R1。根据以下公式(1)计算基尼系数G:(1)
其中,n为样本总数,i为样本序号,为样本i对应的预测值,最终可以得到gini_top=0.5*(R1+G)。
相关技术中,目标推荐模型通常采用单一的模型评估指标,例如准确率或AUC(Area Under Curve,曲线下面积),这种评估方式无法满足不同的业务场景需求,只看模型的AUC无法确定目标推荐模型的评分效果。本公开实施例的技术方案引入PR AUC和自定义评估指标(如"gini_top")两种模型评估指标,针对不同业务场景的模型评估函数,在定义模型评估函数时可以使用这两种评估方式。其中PR AUC用于针对全量用户评分,自定义的评估函数gini_top针对高意向用户,用于销售顾问优先跟进联系。根据不同业务场景在两种模型评估指标中选择一种对初始推荐模型进行评估,可以提高目标推荐模型的评分效果。
在采用模型评估函数对初始推荐模型进行训练时,初始推荐模型收敛的收敛条件可以为模型评估函数的函数值不再提高或者迭代次数达到一定数量。
具体地,可以给定一个LGBM超参数,通过该LGBM超参数在训练集上建立初始推荐模型,使用验证集作为初始推荐模型的训练迭代的数据样本,如果初始推荐模型的模型评估函数值在验证集上不再提升,则停止训练,记录最终的模型评估函数值。
在确定最终的模型评估函数值后,根据该模型评估函数值调整初始推荐模型的网络参数,即为初始推荐模型的一次调参过程。在实际训练的过程中,会根据训练数据进行多次迭代调参训练,直至初始推荐模型收敛,即可得到目标推荐模型。
在本公开实施例中,使用分布式梯度提升框架在训练数据的训练集上建立初始推荐模型时,可以使用LGBM建立初始推荐模型,也可以使用XGBoost(eXtreme GradientBoosting,极度梯度提升)建立初始推荐模型,还可以使用DeepFM(Deep FactorizationMachine,深度因子分解机)建立初始推荐模型。
在本公开实施例中,对初始推荐模型进行训练之前,首先要获取原始的训练数据。原始的训练数据中包含的特征可以有:到访特征、签约特征、项目特征、用户线上特征、地产会员标签特征、用户活跃度特征、项目活跃度特征以及时间区间特征。其中,用户线上特征、地产会员标签特征为用户特征,用户活跃度特征、项目活跃度特征、时间区间特征为历史行为特征,到访特征、签约特征、项目特征为交互特征。
此外,现有推荐系统通常只利用单一信息源进行特征构造,仅基于客户的历史行为数据或个人特征数据进行推荐,这样可能导致推荐系统无法充分利用多种信息源,从而影响预测准确性。
本公开实施例的技术方案可以使用多信息源。以房地产行业为例,该多信息源可以提供包含用户在商品房购买行为、商场购物行为、租房信息、物业信息等方面的信息。比如通过商场购物行为和物业信息可以判断用户是否为高净值客户;通过物业信息可以知道用户现在户型信息和汽车品牌信息,完善用户画像。因此,本公开实施例可以使用的特征种类如下:判客特征、到访特征、签约特征、项目特征、用户线上特征、地产会员标签特征、商业会员特征、物业会员特征、租售会员特征、用户活跃度特征、项目活跃度特征、时间区间特征统计,其中,判客特征为交互特征,商业会员特征、物业会员特征、租售会员特征为用户特征。
为了更加全面地反映用户在不同时间段内的购房行为和偏好,在本公开实施例中,可以使用时间区间对特征进行统计,例如可以统计1-7天、8-14天、15-30天的情况。例如,用户可能在周末比平日更容易去看房,或者在特定的月份更倾向于购买房屋,这些信息可以为系统提供更全面的用户画像,还可以使系统更加精确地预测用户在不同时间段内的行为和偏好。例如,用户可能在近期内有过一些购房行为,但如果这些行为都发生在较早的时间段内,那么它们的影响力可能已经下降,因此将特征按时间区间统计可以更加准确地反映用户当前的购房意向和行为。
在本公开实施例中,还可以构造用户活跃度特征、项目活跃度特征。用户活跃度特征是指用户最近30天到访次数、最近30天触达次数等特征,这些活跃度特征可以更准确地反映用户的需求强度,如果用户最近30天到访次数较多,那么系统可以将其归为较为活跃的用户,从而提供更加符合其需求的推荐服务。项目活跃度特征是指项目最近30天到访人数、最近30天签约套数等特征,这些特征可以帮助系统更好地理解项目的情况和趋势。
在本公开实施例中,还需要进行数据集构造。选择多天数据集,由于不同时间点的数据分布可能存在一定的差异,拼接多个数据集可以减少总体分布偏差,从而提高模型的泛化能力。在本公开实施例中,可以对数据集按照8:2的比例拆分成训练集、测试集。
在本公开实施例中,可以对训练数据进行增强处理。例如,可以根据交互特征中的当前项目启动时间特征的归一化处理数据,增加训练数据的项目持续时间的特征。
以房地产项目为例,可以将项目开盘至今天的天数进行归一化处理,作为项目新旧特征的描述。其中,归一化操作可以将不同数值范围的数据统一到相同的尺度,避免了不同特征因数据范围不同对目标推荐模型造成的影响。对于购房者而言,购房的决策往往和项目的新旧有关系,新盘一般会比旧盘更受到购房者的青睐。
在本公开实施例的训练数据的增强处理方法中,还可以根据判断用户特征中线上特征是否都为0或空值的判断结果,增加训练数据的是否线上用户的特征。
具体地,可以在线上特征都为0或空值时,设定是否线上用户的特征的特征值为否。在线上特征存在不为0或空值的情况时,设定是否线上用户的特征的特征值为是。
在本公开实施例的训练数据的增强处理方法中,还可以分别对训练数据的特征的离散值空值和连续值空值进行空值填充。
具体地,可以使用“其它”对离散值空值进行填充,使用“0”对连续值空值进行填充。
在本公开实施例的训练数据的增强处理方法中,还可以对训练数据的特征的离散值进行编码。
在本公开实施例的训练数据的增强处理方法中,还可以根据统计得到的不同时间段的用户行为的用户行为时长占总时间段时长的占比,增加训练数据的用户行为时长占比的特征。
仍以房地产项目为例,可以统计不同时间段到访、签约、活跃、判客、项目销售的时间段占总时间段的占比。得到这些事件在不同的时间段内的占比后,使用占比可以让特征的数量更加稳定,不受时间周期的影响,同时能够在不同时间段之间进行比较。
在本公开实施例的训练数据的增强处理方法中,还可以根据按照项目类别统计连续特征得到的方差、最大值、平均值以及统计离散特征出现次数得到的次数,增加训练数据的聚合特征。
如图2所示,在本公开实施例中,在得到目标推荐模型后,还可以根据以下步骤进行预测分数划分区间的调整:
步骤S201,将目标推荐模型输出的处于当前分数段的预测分数进行归一化处理后映射到对应的映射分数。
步骤S202,获取映射分数对应的到访样本数量比值以及累计样本到访数量。
步骤S203,根据到访样本数量比值和累计样本到访数量获取各个映射分数对应的正样本个数。
步骤S204,根据映射分数对应的正样本个数获取自高至低排序后的正样本的预测分数的区间以及区间和映射分数的对应关系。
步骤S205,根据映射分数对应的项目的正常率调整预测分数划分区间。
在本公开实施例中,步骤S201至步骤S205提供了一种自适应打分并且自动生成最优分数划分区间的方案。在该方案中,可以将目标推荐模型的打分结果映射到1至10的映射分数上。具体地,目标推荐模型的打分结果是0至1之间的小数,且不同模型的最终取值范围会不同,例如一个模型中打分结果的取值范围可能为0.1至0.6,另一个模型中打分结果的取值范围可能为0.001至0.3,这样的数值对于一线业务并不直观。在本公开实施例中,可以对这些打分结果的数值进行归一化处理,同时将分数结果映射到1分至10分之间。进一步地,在映射过程中,希望得到的映射结果需要满足业务要求:高分的到访率高于低分到访率,高分到访数高于低分到访数。
在步骤S202中,可以随机选择以下任一种数列类型和对应的数列参数,并根据数列类型和对应的数列参数获取各个映射分数对应的到访样本数量比值:等比数列、等差数列、等比例数列和斐波那契数列,其中,等比数列对应的数列参数包括等比数列的开始值,等差数列对应的数列参数包括等差数列的开始值和差值,等比例数列对应的数列参数包括等比例数列的开始值和比值,斐波那契数列对应的数列参数包括斐波那契数列的开始值和第二个数值。
在步骤S202之前,可以定义每个分数段到访样本数量比值,其中,/>为分数为/>的样本比值,提供等比数列、等差数列、等比例数列和自定义数列等数列类型,并提供开始值、差值或比值、自定义数列的值。
具体地,映射分数为1-10分对应的各个分数的到访数等比例时,给定开开始值为1时,每个映射分数到访样本数量比值可以为:[1,1,1,1,1,1,1,1,1,1]。
映射分数为1-10分对应的各个分数的到访数等差时,给定开始值为6,给定差值为1,每个映射分数到访样本数量比值可以为:[6,7,8,9,10,11,12,13,14,15]。
映射分数为1-10分对应的各个分数的到访数等比时,给定某开始值和某比例,每个映射分数到访样本数量比值可以为:[1,1.2,1.44,1.728,2.0736,2.48832,2.985984,3.5831808,4.29981696,5.15978]。
映射分数为1-10分对应的各个分数的到访数符合斐波那契数列规律,即每个分数到访量为两个向量低分到访量之和时,给定两个开始值,每个映射分数到访样本数量比值可以为:[1,1,2,3,5,8,13,21,34,55]。
在步骤S202之后,将样本按照模型预测分数从大到小排序,关联样本数据对应的到访表,获取设定时间段内是否到访的是否到访数据is_visit。若到访,该数据取值为1,否则为0。之后,计算累计样本到访数量。在本公开实施例中,设定时间段为14天或者30天,且并不局限于此。
在步骤S203中,可以根据以下公式(2)获取各个映射分数对应的正样本个数:
(2)
其中,i为映射分数,为累计样本到访数量,/>为映射分数对应的到访样本数量比值,P为映射分数的数量。
在步骤S204中,可以根据各个映射分数对应的正样本个数获取当前映射对应的正样本的预测分数的最小值和最大值,并根据最小值和最大值获取区间和对应关系。
具体地,在步骤S204中,可以从10分开始,对应每个得分i获取累计到访数等于的最后一个样本预测值,作为得分i的区间下限/>。其中,/>。之后,将预测值在/>区间内的数值转化为i分。
在步骤S205之前,可以统计每个分数段内样本数与样本到访率。统计项目正常率R2,R2=正常项目数/总项目数。满足以下设定条件的项目为正常项目:高分数段的到访数据高于低分数段的到访数据,其中,到访数据包括到访率和到访数。即设定条件为:高分的到访率高于低分到访率,高分到访数高于低分到访数。
在本公开实施例的技术方案中,通过随机指定数列类型与参数,自动生成数列,通过随机搜索,以R2为目标值进行优化,自动生成最优分数划分区间。进一步地,随机搜索方式可以替换为网格搜索或者贝叶斯搜索,且并不局限于此。
如图3所示,本公开实施例中的一种目标推荐方法包括以下步骤:
步骤S311,获取原始特征。
步骤S312,获取多天数据集。
步骤S313,训练集验证集划分。
步骤S321,增加是否线上用户特征。
步骤S322,空值填充。
步骤S323,离散特征编码。
步骤S324,项目分时段活跃度统计。
步骤S325,聚合特征。
步骤S331,评估函数选择。在PR AUC和gini_top中选择一个模型评估函数。
步骤S332,训练模型。
步骤S333,验证集评估是否提升,若是,执行步骤S332,若否,执行步骤S334。
步骤S334,停止训练,获取模型。
步骤S335,是否达到最大超参搜索次数,若是,执行步骤S336,若否,执行步骤S332。
步骤S336,自适应打分。
步骤S341,模型预测。
步骤S342,推送打分结果,具体地,打分结果即为目标推荐模型输出的推荐数据。
本公开实施例的技术方案通过机器学习的方式对用户的购房意愿进行预测,替代了人工打分规则。一方面,考虑更加全面的特征维度,自主挖掘用户行为信息,无需人工维护规则库,有效提升预测效率,降低规则运维成本。另一方面,机器学习算法模型考虑的特征更加全面,且使用的分析样本量远远高于人工,有更高的准确性。
相比于传统的单一信息源的机器学习推荐系统,本公开实施例的技术方案基于用户的线上行为及线下的到访及被业务运营人员跟进的数据实现。通过多方信息源构造特征,业务运营系统可以更全面地了解用户特征和行为,从而提高预测用户成交意愿的准确性。
本公开实施例的技术方案基于业务对分数越高、认购意向度越高的目的,结合召回率和准确率两个指标构建模型评估函数,用于选择符合业务需求的目标推荐模型。并且,合理地将概率值映射为整数1至10,提升目标推荐模型预测及打分效果与用户需求的匹配度,便于业务运营人员基于分数优先跟进联系,提高人力资源利用效率。
本公开实施例的技术方案采用自适应打分方案,通过业务目标自动优化各分数段到访比例,将模型预测分数进行归一化并映射到1分至10分之间,与业务需求和实际使用效果相结合,可以提升分数划分的合理性和可解释性。
根据本公开实施例的目标推荐方法,通过以项目正常率为调整目标对目标推荐模型的预测分数划分区间进行调整,对预测分数划分区间的分数段进行映射处理以及逆映射处理,可以将预测分数映射为映射分数,从而提升目标推荐模型预测及打分效果与用户需求的匹配度,便于业务运营人员基于分数优先跟进联系,提高人力资源利用效率。
进一步地,针对人工打分及现有机器学习评分系统的缺点,本公开实施例提出一种基于多信息源的特征构造方法,以提高目标推荐系统的预测准确性;同时,引入包括PRAUC和自定义评估指标的两种评估指标,并基于该指标将概率值映射为整数1至10,以满足目标推荐系统能够满足线上使用需求。
下述为本公开装置实施例,可以用于执行本公开方法实施例。下文描述的目标推荐装置与上文描述的目标推荐方法可相互对应参照。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是本公开实施例提供的一种目标推荐装置的示意图。如图4所示,该目标推荐装置包括:
获取模块401,用于获取用户项目数据,用户项目数据包括当前用户的用户特征、历史行为特征以及相对于当前项目的交互特征;
推荐模块402,用于将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型的预测分数划分区间是以项目正常率为调整目标,在对预测分数划分区间的分数段进行映射处理以及逆映射处理后进行调整得到的,其中项目正常率为符合设定条件的项目的数量与总项目的数量的比值,设定条件包括高分数段的到访数据高于低分数段的到访数据,到访数据包括经过映射处理得到的映射分数对应的样本到访数据。
在本公开实施例中,目标推荐装置还可以包括训练模块,用于使用分布式梯度提升框架在训练数据的训练集上建立初始推荐模型;使用训练数据的验证集对初始推荐模型进行迭代,直到初始推荐模型的模型评估函数不再提高或者达到设定的迭代次数,得到目标推荐模型。
在本公开实施例中,模型评估函数包括精准率-召回率曲线下面积函数或召回率基尼系数函数。
在本公开实施例中,目标推荐装置还可以包括自适应模块,用于将目标推荐模型输出的处于当前分数段的预测分数进行归一化处理后映射到对应的映射分数;获取映射分数对应的到访样本数量比值以及累计样本到访数量;根据到访样本数量比值和累计样本到访数量获取各个映射分数对应的正样本个数;根据映射分数对应的正样本个数获取自高至低排序后的正样本的预测分数的区间以及区间和映射分数的对应关系;根据映射分数对应的项目的正常率调整预测分数划分区间。
在本公开实施例中,自适应模块还可以用于随机选择以下任一种数列类型和对应的数列参数,并根据数列类型和对应的数列参数获取各个映射分数对应的到访样本数量比值:等比数列、等差数列、等比例数列和斐波那契数列,其中,等比数列对应的数列参数包括等比数列的开始值,等差数列对应的数列参数包括等差数列的开始值和差值,等比例数列对应的数列参数包括等比例数列的开始值和比值,斐波那契数列对应的数列参数包括斐波那契数列的开始值和第二个数值。
在本公开实施例中,自适应模块还可以用于根据以下公式获取各个映射分数对应的正样本个数:
其中,i为映射分数,为累计样本到访数量,/>为映射分数对应的到访样本数量比值,P为映射分数的数量。
在本公开实施例中,自适应模块还可以用于根据各个映射分数对应的正样本个数获取当前映射对应的正样本的预测分数的最小值和最大值;根据最小值和最大值获取区间和对应关系。
由于本公开的示例实施例的目标推荐装置的各个功能模块与上述目标推荐方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的目标推荐方法的实施例。
根据本公开实施例的目标推荐装置,通过以项目正常率为调整目标对目标推荐模型的预测分数划分区间进行调整,对预测分数划分区间的分数段进行映射处理以及逆映射处理,可以将预测分数映射为映射分数,从而提升目标推荐模型预测及打分效果与用户需求的匹配度,便于业务运营人员基于分数优先跟进联系,提高人力资源利用效率。
图5是本公开实施例提供的电子设备5的示意图。如图5所示,该实施例的电子设备5包括:处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块的功能。
电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器501可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器502可以是电子设备5的内部存储单元,例如,电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备,例如,电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (10)
1.一种目标推荐方法,其特征在于,所述方法包括:
获取用户项目数据,所述用户项目数据包括当前用户的用户特征、历史行为特征以及相对于当前项目的交互特征;
将所述用户项目数据输入到预置的目标推荐模型,得到所述当前用户相对于所述当前项目的推荐数据,其中,所述目标推荐模型的预测分数划分区间是以项目正常率为调整目标,在对所述预测分数划分区间的分数段进行映射处理以及逆映射处理后进行调整得到的,其中所述项目正常率为符合设定条件的项目的数量与总项目的数量的比值,所述设定条件包括高分数段的到访数据高于低分数段的到访数据,所述到访数据包括经过所述映射处理得到的映射分数对应的样本到访数据。
2.根据权利要求1所述的方法,其特征在于,所述目标推荐模型的训练方法包括:使用分布式梯度提升框架在训练数据的训练集上建立初始推荐模型;
使用所述训练数据的验证集对所述初始推荐模型进行迭代,直到所述初始推荐模型的模型评估函数不再提高或者达到设定的迭代次数,得到所述目标推荐模型。
3.根据权利要求2所述的方法,其特征在于,所述模型评估函数包括精准率-召回率曲线下面积函数或召回率基尼系数函数。
4.根据权利要求2所述的方法,其特征在于,得到所述目标推荐模型后,所述方法还包括:
将所述目标推荐模型输出的处于当前分数段的预测分数进行归一化处理后映射到对应的映射分数;
获取所述映射分数对应的到访样本数量比值以及累计样本到访数量;
根据所述到访样本数量比值和所述累计样本到访数量获取各个所述映射分数对应的正样本个数;
根据所述映射分数对应的正样本个数获取自高至低排序后的正样本的预测分数的区间以及所述区间和所述映射分数的对应关系;
根据所述映射分数对应的项目的正常率调整所述预测分数划分区间。
5.根据权利要求4所述的方法,其特征在于,获取所述映射分数对应的到访样本数量比值,包括:随机选择以下任一种数列类型和对应的数列参数,并根据所述数列类型和对应的数列参数获取各个所述映射分数对应的到访样本数量比值:
等比数列、等差数列、等比例数列和斐波那契数列,其中,所述等比数列对应的数列参数包括所述等比数列的开始值,所述等差数列对应的数列参数包括所述等差数列的开始值和差值,所述等比例数列对应的数列参数包括所述等比例数列的开始值和比值,所述斐波那契数列对应的数列参数包括所述斐波那契数列的开始值和第二个数值。
6.根据权利要求4所述的方法,其特征在于,根据所述到访样本数量比值和所述累计样本到访数量获取各个所述映射分数对应的正样本个数,包括:根据以下公式获取各个所述映射分数对应的正样本个数:
其中,i为映射分数,为累计样本到访数量,/>为映射分数对应的到访样本数量比值,P为映射分数的数量。
7.根据权利要求4所述的方法,其特征在于,根据所述映射分数对应的正样本个数获取自高至低排序后的正样本的预测分数的区间以及所述区间和所述映射分数的对应关系,包括:
根据各个映射分数对应的正样本个数获取当前映射对应的正样本的预测分数的最小值和最大值;
根据所述最小值和所述最大值获取所述区间和所述对应关系。
8.一种目标推荐装置,其特征在于,所述装置包括:
获取模块,用于获取用户项目数据,所述用户项目数据包括当前用户的用户特征、历史行为特征以及相对于当前项目的交互特征;
推荐模块,用于将所述用户项目数据输入到预置的目标推荐模型,得到所述当前用户相对于所述当前项目的推荐数据,其中,所述目标推荐模型的预测分数划分区间是以项目正常率为调整目标,在对所述预测分数划分区间的分数段进行映射处理以及逆映射处理后进行调整得到的,其中所述项目正常率为符合设定条件的项目的数量与总项目的数量的比值,所述设定条件包括高分数段的到访数据高于低分数段的到访数据,所述到访数据包括经过所述映射处理得到的映射分数对应的样本到访数据。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168502.0A CN116911902A (zh) | 2023-09-12 | 2023-09-12 | 目标推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168502.0A CN116911902A (zh) | 2023-09-12 | 2023-09-12 | 目标推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116911902A true CN116911902A (zh) | 2023-10-20 |
Family
ID=88360608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311168502.0A Pending CN116911902A (zh) | 2023-09-12 | 2023-09-12 | 目标推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116911902A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681067A (zh) * | 2020-04-17 | 2020-09-18 | 清华大学 | 基于图注意力网络的长尾商品推荐方法及系统 |
WO2021169473A1 (zh) * | 2020-02-28 | 2021-09-02 | 深圳前海微众银行股份有限公司 | 模型性能优化方法、装置、设备及存储介质 |
CN116485019A (zh) * | 2023-04-07 | 2023-07-25 | 深圳须弥云图空间科技有限公司 | 一种数据处理方法及装置 |
CN116596576A (zh) * | 2023-07-17 | 2023-08-15 | 深圳须弥云图空间科技有限公司 | 目标推荐方法及装置 |
-
2023
- 2023-09-12 CN CN202311168502.0A patent/CN116911902A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021169473A1 (zh) * | 2020-02-28 | 2021-09-02 | 深圳前海微众银行股份有限公司 | 模型性能优化方法、装置、设备及存储介质 |
CN111681067A (zh) * | 2020-04-17 | 2020-09-18 | 清华大学 | 基于图注意力网络的长尾商品推荐方法及系统 |
CN116485019A (zh) * | 2023-04-07 | 2023-07-25 | 深圳须弥云图空间科技有限公司 | 一种数据处理方法及装置 |
CN116596576A (zh) * | 2023-07-17 | 2023-08-15 | 深圳须弥云图空间科技有限公司 | 目标推荐方法及装置 |
Non-Patent Citations (1)
Title |
---|
李政伟著: "基于机器学习的生物信息数据挖掘", 徐州:中国矿业大学出版社, pages: 79 - 80 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162693B (zh) | 一种信息推荐的方法以及服务器 | |
US10963541B2 (en) | Systems, methods, and apparatuses for implementing a related command with a predictive query interface | |
US20170364933A1 (en) | User maintenance system and method | |
US20220114680A1 (en) | System and method for evaluating the true reach of social media influencers | |
CN107808314B (zh) | 用户推荐方法及装置 | |
WO2023103527A1 (zh) | 一种访问频次的预测方法及装置 | |
CN116244513B (zh) | 随机群组poi推荐方法、系统、设备及存储介质 | |
CN112966189A (zh) | 一种基金产品推荐系统 | |
CN111078997B (zh) | 一种资讯推荐方法及装置 | |
CN115983900A (zh) | 用户营销策略的构建方法、装置、设备、介质和程序产品 | |
CN116739665A (zh) | 信息投放方法、装置、电子设备及存储介质 | |
CN116596576B (zh) | 目标推荐方法及装置 | |
US20200311762A1 (en) | System and method for analyzing the effectiveness and influence of digital online content | |
CN116911902A (zh) | 目标推荐方法及装置 | |
CN110766488A (zh) | 一种自动确定主题场景的方法和装置 | |
CN111400567B (zh) | 一种基于ai的用户数据的处理方法、装置及系统 | |
CN112927050A (zh) | 待推荐金融产品确定方法、装置、电子设备及存储介质 | |
CN110347923B (zh) | 一种可回溯的快速裂变式构建用户画像的方法 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
Xin et al. | Construction of Social E-commerce Merchant Segmentation Model Based on Transaction Data | |
CN117593034B (zh) | 基于计算机的用户分类方法 | |
US20240070743A1 (en) | Systems and methods for recommended sorting of search results for online searching | |
CN115170155A (zh) | 一种客户匹配方法、装置、系统及计算机程序产品 | |
AU2024203218A1 (en) | System and method for evaluating the true reach of social media influencers | |
CN117216387A (zh) | 推送处理方法、相关装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |