CN116596576B - 目标推荐方法及装置 - Google Patents
目标推荐方法及装置 Download PDFInfo
- Publication number
- CN116596576B CN116596576B CN202310871401.3A CN202310871401A CN116596576B CN 116596576 B CN116596576 B CN 116596576B CN 202310871401 A CN202310871401 A CN 202310871401A CN 116596576 B CN116596576 B CN 116596576B
- Authority
- CN
- China
- Prior art keywords
- training data
- training
- user
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 224
- 238000012545 processing Methods 0.000 claims abstract description 74
- 238000012216 screening Methods 0.000 claims abstract description 24
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims description 35
- 230000006399 behavior Effects 0.000 claims description 28
- 238000012360 testing method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000001965 increasing effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000013210 evaluation model Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 14
- 230000002829 reductive effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及计算机技术领域,提供了一种目标推荐方法及装置。该方法包括:获取用户项目数据,用户项目数据包括当前用户的用户特征、按时间区间存储的历史行为特征以及相对于当前项目的交互特征;将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型根据增强处理后的训练数据进行训练得到,训练数据包括用户的用户特征、历史行为特征以及相对于不同项目的交互特征,增强处理包括对训练数据按照时间标识进行处理以及对训练数据的特征进行处理和筛选。本公开的技术方案可以提高客户推荐方案的预测效果。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种目标推荐方法及装置。
背景技术
相关技术中,企业的营销业务系统可能积累有大量用户数据,在新增用户遇到瓶颈的情况下,如何充分利用存量用户并发挥存量用户的价值,成为营销业务面临的重要课题。
传统的客户推荐方法通常基于人工判断或简单的数据挖掘方法,例如规则匹配和统计分析进行。这些方法可能无法准确评估用户的成交意愿,导致销售资源浪费和潜在客户流失。近年来出现的一些基于机器学习和数据挖掘技术的客户推荐方案存在一些弊端,例如容易过拟合、时间敏感性不足、部分特征分布随时间变化大以及特征筛选不够精细的问题。
具体地,在数据量很小的情况下,过拟合问题会较为严重。忽略行业市场的时间敏感性,例如未考虑周末、节假日和月初月末等特殊时段的影响,可能导致客户推荐系统在不同时间段和场景下的泛化能力较差。在部分特征分布随时间变化较大时,模型很容易学习到这些特征与目标变量的关系,但是这种关系并不具有泛化能力,会导致过拟合的问题,部分特征分布随时间变化大还会导致模型的不稳定性,尤其是当数据量较小时,这种影响更加明显。此外,传统特征筛选方法可能无法准确识别出对模型预测性能影响最大的特征,导致模型过于复杂,计算资源需求高,预测效果不理想。
以上客户推荐方案的弊端都将较大地影响客户推荐方案的预测效果,如何提高客户推荐方案的预测效果是当前亟需解决的技术问题。
发明内容
有鉴于此,本公开实施例提供了一种目标推荐方法、装置、电子设备及计算机可读存储介质,以解决现有技术中客户推荐方案预测效果不佳的技术问题。
本公开实施例的第一方面,提供了一种目标推荐方法,该方法包括:获取用户项目数据,用户项目数据包括当前用户的用户特征、按时间区间存储的历史行为特征以及相对于当前项目的交互特征;将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型根据增强处理后的训练数据进行训练得到,训练数据包括用户的用户特征、历史行为特征以及相对于不同项目的交互特征,增强处理包括对训练数据按照时间标识进行处理以及对训练数据的特征进行处理和筛选。
本公开实施例的第二方面,提供了一种目标推荐装置,该装置包括:获取模块,用于获取用户项目数据,用户项目数据包括当前用户的用户特征、按时间区间存储的历史行为特征以及相对于当前项目的交互特征;推荐模块,用于将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型根据增强处理后的训练数据进行训练得到,训练数据包括用户的用户特征、历史行为特征以及相对于不同项目的交互特征,增强处理包括对训练数据按照时间标识进行处理以及对训练数据的特征进行处理和筛选。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:本公开实施例的技术方案通过对训练数据按照时间标识进行处理以及对训练数据的特征进行处理和筛选,实现了对特征数据的增强处理,基于该增强处理后的训练数据训练得到的目标推荐模型具有较好的泛化能力和稳定性,并且具有较高的预测准确性。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的一种目标推荐方法的流程示意图;
图2是本公开实施例提供的一种训练数据的构造日期选取示例的示意图;
图3是本公开实施例提供的另一种目标推荐方法的流程示意图;
图4是本公开实施例提供的一种目标推荐装置的结构示意图;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
相关技术中,当前较为流行的LGBM(LightGradient Boosting Machine,轻量梯度提升机)等分类算法在分类效果上有很好的表现,其中,LGBM是一款基于决策树算法的分布式梯度提升框架。在一些业务领域内,受业务性质的影响,成交用户可能远远小于总体用户,此时,在企业按照项目维度挖掘优质用户时,正负样本不均衡问题可能会导致预测效果不好。此外,用户数量较多会导致训练时间加长,影响迭代速度和训练资源浪费。进一步地,对受时间因素影响较大的业务而言,一年中不同的月份以及每个月是否是节假日等因素都会影响用户的成交行为,如何将时间趋势考虑到客户推荐系统,也是需要解决的问题。
近年来出现的一些基于机器学习和数据挖掘技术的客户推荐方案可以为基于协同过滤(Collaborative Filtering)或者基于内容的推荐(Content-based Filtering)的方法。基于协同过滤的方法利用客户的历史行为数据,通过计算客户间的相似度或物品间的相似度,为客户推荐具有相似购买行为的其他客户感兴趣的物品。基于内容的推荐的方法可以根据客户的个人特征和兴趣偏好,为客户推荐与其兴趣相关的物品。这些基于机器学习和数据挖掘技术的客户推荐方案存在一些弊端,例如容易过拟合、时间敏感性不足、部分特征分布随时间变化大以及特征筛选不够精细的问题,影响客户推荐方案的预测效果。
为解决以上问题,本公开实施例提供一种目标推荐方案,以提高客户推荐方案的预测效果。
具体地,本公开实施例的技术方案提出一种数据增强的方法,以根据数据增强得到的训练数据构建一个能够在不同时间段和场景下保持较高预测准确性的目标推荐模型。同时,本公开实施例的技术方案对模型使用特征的选择方式进行优化,可以选择对模型预测性能影响最大的特征,降低模型复杂性,从而可以在减少计算资源需求的同时,提高目标推荐模型的准确性和效率。
下面将结合附图详细说明根据本公开实施例的目标推荐方法和装置。
图1是本公开实施例提供的一种目标推荐方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图1所示,该目标推荐方法包括:
步骤S101,获取用户项目数据,用户项目数据包括当前用户的用户特征、按时间区间存储的历史行为特征以及相对于当前项目的交互特征;
步骤S102,将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型根据增强处理后的训练数据进行训练得到,训练数据包括用户的用户特征、历史行为特征以及相对于不同项目的交互特征,增强处理包括对训练数据按照时间标识进行处理以及对训练数据的特征进行处理和筛选。
进一步地,训练数据的增强处理方法可以以下任一项或几项内容:对训练数据按照时间标识进行拼接处理以及进行训练集、验证集和测试集划分处理;对训练数据的验证集和训练集中不一致的样本的特征进行分桶调整处理,并对符合设定截断条件的训练数据中的特征进行截断处理;根据训练数据的特征的特征重要性对训练数据的特征进行筛选处理。
具体地,对训练数据按照时间标识进行处理时考虑训练数据的时间敏感性,可以提高目标推荐模型在不同时间段和场景下的泛化能力和稳定性。通过特征分布可视化,选择分布差异较大的特征做分桶调整处理和截断处理,可以让训练集和验证集中特征的分布更加一致,减少目标推荐模型对训练集的过拟合,提高目标推荐模型的泛化能力。对特征进行筛选处理时,可以采用基于真实重要性的特征筛选方法,以精确识别对目标推荐模型预测性能影响最大的特征,降低模型复杂性,减少计算资源需求,提高预测效果。
如图1所示的是本公开实施例提供的目标推荐模型的应用推理过程,在目标推荐模型进行应用之前,需要确定初始推荐模型的框架,并对该初始推荐模型进行训练,以得到目标推荐模型。
在本公开实施例中,目标推荐模型的训练方法包括:使用分布式梯度提升框架在训练数据的训练集上建立初始推荐模型,再使用训练数据的验证集对初始推荐模型进行迭代,直到初始推荐模型的模型评估函数不再提高或者达到设定的迭代次数,得到目标推荐模型。
具体地,分布式梯度提升框架可以为LGBM,且并不局限于此。模型评估函数可以为ROC-AUC(Receiver Operating Characteristics-Area Under Curve,受试者工作特性曲线-曲线下面积)。对于类别不平衡的数据,ROC-AUC相对于其他指标更为稳定,不会受到数据不平衡的影响。受试者工作特性曲线表示的是模型在准确识别正例和不把负例错误地识别成正例这两种能力之间相互制约的关系,AUC-ROC代表一个模型对正负例的区分能力,其值在0和1之间,越大代表模型性能越好。
在采用模型评估函数对初始推荐模型进行训练时,初始推荐模型收敛的收敛条件可以为模型评估函数的函数值不再提高或者迭代次数达到一定数量。
具体地,可以给定一个LGBM超参数,通过该LGBM超参数在训练集上建立初始推荐模型,使用验证集做为初始推荐模型的训练迭代的数据样本,如果初始推荐模型的ROC-AUC在验证集上不再提升,则停止训练,记录最终的ROC-AUC值。
在确定最终的ROC-AUC值后,根据该ROC-AUC值调整初始推荐模型的网络参数,即为初始推荐模型的一次调参过程。在实际训练的过程中,会根据训练数据进行多次迭代调参训练,直至初始推荐模型收敛,即可得到目标推荐模型。
在本公开实施例中,使用分布式梯度提升框架在训练数据的训练集上建立初始推荐模型时,可以使用LGBM建立初始推荐模型,也可以使用XGBoost(eXtreme GradientBoosting,极度梯度提升)建立初始推荐模型,还可以使用DeepFM(Deep FactorizationMachine,深度因子分解机)建立初始推荐模型。
在本公开实施例中,建立分类器可以使用LGBM,也可以决策树、随机森林、XGBoost等基于树的分类器,还可以替换为逻辑回归分类器,如果替换为逻辑回归分类器,则最重要特征为逻辑回归中系数绝对值最大的特征。
在本公开实施例中,对初始推荐模型进行训练之前,首先要获取原始的训练数据。原始的训练数据中包含的特征可以有:到访特征、签约特征、项目特征、用户线上特征、地产会员标签特征、用户活跃度特征、项目活跃度特征以及时间区间特征。其中,用户线上特征、地产会员标签特征为用户特征,用户活跃度特征、项目活跃度特征、时间区间特征为历史行为特征,到访特征、签约特征、项目特征为交互特征。
对训练数据按照时间标识进行拼接处理以及进行训练集、验证集和测试集划分处理时,可以按照时间标识每隔六天选取对应日期的原始的训练数据进行拼接,得到新的训练数据,并按照时间标识将训练数据划分为时间段互不重叠的训练集、验证集和测试集。
对训练数据按照时间标识进行拼接处理时,可以选择多天的原始数据,将原始数据中每隔6天的数据进行拼接,从而可以使得得到的训练数据包含周一至周日,月初与月末等不同日期的数据。
如下图2所示的是本公开实施例中一种训练数据的构造日期选取示例。
对训练数据按照时间标识进行拼接处理,可以增加数据多样性。具体地,由于不同时间点的数据分布可能存在一定的差异,进行数据拼接可以减少总体分布偏差,从而提高模型的泛化能力和稳定性。
此外,对训练数据按照时间标识进行拼接处理,可以更好地反映用户行为规律并提高训练效率。使用包含周一至周日、月初与月末等不同时间点的数据,可以更全面地反映用户的行为规律和习惯。例如,用户在周末可能更容易进行购买决策,而在月初或月末可能更容易关注购买政策等信息。通过每隔6天拼接数据,可以减少数据量并减少重复数据,从而提高数据利用率和训练效率。
按照时间标识将训练数据划分为时间段互不重叠的训练集、验证集和测试集,可以使得训练集、验证集和测试集时间片不重叠,从而有效增加目标推荐模型的泛化能力和避免过拟合。选择不重叠的时间段来构建训练集、验证集、测试集是为了避免目标推荐模型在训练时出现时间泄露问题,即将未来的数据泄露到训练集中,导致目标推荐模型表现过于乐观,但在实际应用中表现较差。通过不重叠的时间段构建数据集可以避免这个问题,该方式可以使得目标推荐模型更好地学习时间序列的变化规律,并且通过验证集的反馈来调整模型参数,最终使得得到的目标推荐模型具有较好的泛化能力。进一步地,训练集、验证集和测试集时间片不重叠可以让目标推荐模型更好地适应新的用户行为和商品信息,从而提高推荐效果。
相关技术中,正样本比例极低,模型不容易学习到规律。在本公开实施例中,可以保留全部正样本,并对负样本进行1/20负采样,以解决数据样本不平衡的问题,提高模型的准确性和泛化能力。进行负采样可以减少训练时间和计算成本,提高模型的训练效率。
在本公开实施例中,可以将训练数据分区存储,在获取训练数据时可以对每个分区的数据并行读取,从而降低预测耗时。
在本公开实施例中,对训练数据的验证集和训练集中不一致的样本的特征进行分桶调整处理时,可以采用k均值聚类算法对训练数据的验证集和训练集中不一致的样本的特征按照特征值从小到大排列后划分到对应的桶内,其中,桶的边界从小到大依次排列,且桶的数量为k,k为自然数且k≥2。之后,调整k的取值,获取调整后的各个桶内的样本。此外,对符合设定截断条件的训练数据中的特征进行截断处理时,可以将特征值大于设定的第一阈值的训练数据中的特征的特征值修改为第一阈值。
在目标推荐系统中,经常会面临数据分布不均衡、样本数量有限等问题。这些问题会导致目标推荐模型在训练集上表现良好,但在真实场景中表现不佳。通过不同时间段的训练数据对比可以有助于发现训练集和测试集之间的差异,进而针对性地调整目标推荐模型,使其更好地适应真实场景中的数据分布和样本数量。根据训练集和测试集之间的差异,针对性地调整目标推荐模型,可以有效提高模型的泛化能力,使其在实际场景中表现更好。
具体地,进行不同时间段训练数据对比时,可以将训练集与验证集的特征的直方图和每桶内正样本比例对比。一些验证集与训练集不一致的样本的特征可以采用k均值聚类(kmeans)算法分为k桶,之后删除旧特征,以k作为超参数,其中,k可以取值为5、7或者10。以“项目-近30天线上活跃人数”特征为例,将分桶数目从30改为5会让训练集与验证集在每桶内到访率更一致。
对符合设定截断条件的训练数据中的特征进行截断处理时,可以将大于第一阈值的特征进行截断。以“项目-近3天到访人数”为例,大于350的特征值可以都修改为350,此时,第一阈值为350。
在本公开实施例中,训练数据的增强处理方法中,可以根据交互特征中的当前项目启动时间特征的归一化处理数据,增加训练数据的项目持续时间的特征。
以房地产项目为例,可以将项目开盘至今天的天数进行归一化处理,作为项目新旧特征的描述。其中,归一化操作可以将不同数值范围的数据统一到相同的尺度,避免了不同特征因数据范围不同对目标推荐模型造成的影响。对于购房者而言,购房的决策往往和项目的新旧有关系,新盘一般会比旧盘更受到购房者的青睐。
训练数据的增强处理方法中,还可以根据判断用户特征中线上特征是否都为0或空值的判断结果,增加训练数据的是否线上用户的特征。
具体地,可以在线上特征都为0或空值时,设定是否线上用户的特征的特征值为否。在线上特征存在不为0或空值的情况时,设定是否线上用户的特征的特征值为是。
训练数据的增强处理方法中,还可以分别对训练数据的特征的离散值空值和连续值空值进行空值填充。
具体地,可以使用“其它”对离散值空值进行填充,使用“0”对连续值空值进行填充。
训练数据的增强处理方法中,还可以对训练数据的特征的离散值进行编码。
训练数据的增强处理方法中,还可以根据统计得到的不同时间段的用户行为的用户行为时长占总时间段时长的占比,增加训练数据的用户行为时长占比的特征。
仍以房地产项目为例,可以统计不同时间段到访、签约、活跃、判客、项目销售的时间段占总时间段的占比。得到这些事件在不同的时间段内的占比后,使用占比可以让特征的数量更加稳定,不受时间周期的影响,同时能够在不同时间段之间进行比较。
训练数据的增强处理方法中,还可以根据按照项目类别统计连续特征得到的方差、最大值、平均值以及统计离散特征出现次数得到的次数,增加训练数据的聚合特征。
在本公开实施例中,根据训练数据的特征的特征重要性对训练数据的特征进行筛选处理时,可以采用原始的训练数据运行预置的重要性评估模型,得到当前特征的第一特征重要性;将原始的训练数据的标签随机打乱后,采用打乱标签后的训练数据运行预置的重要性评估模型,得到当前特征的第二特征重要性;获取第一特征重要性和第二特征重要性的归一化偏离度;在归一化偏离度大于等于预设的第二阈值时,保留当前特征。
具体地,基于真实重要性进行特征筛选时,可以根据给定的第二阈值选择特征。其中/>可以作为超参数进行搜索,以筛选最合适的特征。在进行特征筛选时,可以在原始的训练数据上运行重要性评估模型并且记录每个特征的第一特征重要性actual_gain,以此作为基准;再将训练数据的特征对应的标签随机打乱,计算打乱之后的特征的重要性,在针对每个特征进行多循环操作后,得到多个不同的第二特征重要性shuffle_gain。
在得到第一特征重要性与第二特征重要性之后,可以根据以下公式(1)计算每个特征未打乱标签的第一特征重要性与打乱标签之后的第二特征重要性的偏离度gain_score:
(1);
进一步地,对偏离度进行归一化处理后,可以得到归一化偏离度gain_score1,并根据归一化偏离度进行特征筛选,保留归一化偏离度gain_score1≥/>的特征。
如图3所示,本公开实施例中的一种目标推荐方法包括以下步骤:
步骤S511,获取原始特征。
步骤S512,选择数据日期,以进行数据拼接处理。
步骤S513,训练集验证集划分。
步骤S514,负样本采样。
步骤S521,提取数值型差异特征,具体地,可以根据训练集与验证集的特征的直方图和每桶内正样本比例对比提取数值型差异特征。
步骤S522,kmeans数值特征分桶。
步骤S523,特征的极大值截断。
步骤S524,开盘天数归一化。
步骤S525,增加是否线上用户特征。
步骤S526,空值填充。
步骤S527,离散特征编码。
步骤S528,项目分时段活跃度统计。
步骤S529,聚合特征。
步骤S530,特征筛选。
步骤S531,训练模型。
步骤S532,验证集评估是否提升,若是,执行步骤S531,若否,执行步骤S533。
步骤S533,停止训练获取模型。
步骤S534,是否达到最大超参搜索次数,若是,执行步骤S533,若否,执行步骤S541。
步骤S541,模型预测。
步骤S542,推送打分结果,具体地,打分结果即为目标推荐模型输出的推荐数据。
在本公开实施例的技术方案中,通过每隔6天拼接数据,包含周一至周日,月初与月末,训练集、测试集时间片不重叠,可以帮助模型找到更多可学习的正样本,提升模型学习的能力,可以增强模型的泛化能力和稳定性。此外,针对房地产这种交易周期较长的行业来说,不同的时间有不同的市场规律和用户特点,通过多天的数据拼接可以帮助目标推荐模型更好地学习到不同时间段的正样本,从而有助于提升目标推荐模型在线上环境的泛化能力,确保目标推荐模型在不同时间段和场景下都能保持较高的预测准确性。
在本公开实施例的技术方案中,通过特征工程中训练集与验证集的特征的直方图和每桶内正样本比例对比,针对分布差异大的特征做分桶或者截断处理,可以有效提高目标推荐模型的泛化能力,使其在实际场景中表现更好。
进一步地,本公开实施例的技术方案基于真实重要性的特征筛选,通过给定的第二阈值筛选特征,可以帮助挑选出对目标推荐模型预测性能影响最大的特征,从而提高目标推荐模型的准确性和效率。同时,通过设定第二阈值,可以进一步精简特征集,降低目标推荐模型的复杂性。
根据本公开实施例的目标推荐方法,通过对训练数据按照时间标识进行处理以及对训练数据的特征进行处理和筛选,实现了对特征数据的增强处理,基于该增强处理后的训练数据训练得到的目标推荐模型具有较好的泛化能力和稳定性,并且具有较高的预测准确性。
下述为本公开装置实施例,可以用于执行本公开方法实施例。下文描述的目标推荐装置与上文描述的目标推荐方法可相互对应参照。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是本公开实施例提供的一种目标推荐装置的示意图。如图4所示,该目标推荐装置包括:
获取模块601,用于获取用户项目数据,用户项目数据包括当前用户的用户特征、按时间区间存储的历史行为特征以及相对于当前项目的交互特征。
推荐模块602,用于将用户项目数据输入到预置的目标推荐模型,得到当前用户相对于当前项目的推荐数据,其中,目标推荐模型根据增强处理后的训练数据进行训练得到,训练数据包括用户的用户特征、历史行为特征以及相对于不同项目的交互特征,增强处理包括对训练数据按照时间标识进行处理以及对训练数据的特征进行处理和筛选。
在本公开实施例中,目标推荐装置还可以包括增强处理模块,用于执行以下任一项内容:对训练数据按照时间标识进行拼接处理以及进行训练集、验证集和测试集划分处理;对训练数据的验证集和训练集中不一致的样本的特征进行分桶调整处理,并对符合设定截断条件的训练数据中的特征进行截断处理;根据训练数据的特征的特征重要性对训练数据的特征进行筛选处理。
在本公开实施例中,目标推荐装置还可以包括训练模块,用于:使用分布式梯度提升框架在训练数据的训练集上建立初始推荐模型;使用训练数据的验证集对初始推荐模型进行迭代,直到初始推荐模型的模型评估函数不再提高或者达到设定的迭代次数,得到目标推荐模型。
在本公开实施例中,增强处理模块还可以用于按照时间标识每隔六天选取对应日期的原始的训练数据进行拼接,得到新的训练数据;按照时间标识将训练数据划分为时间段互不重叠的训练集、验证集和测试集。
在本公开实施例中,增强处理模块还可以用于采用k均值聚类算法对训练数据的验证集和训练集中不一致的样本的特征按照特征值从小到大排列后划分到对应的桶内,其中,桶的边界从小到大依次排列,且桶的数量为k;调整k的取值,获取调整后的各个桶内的样本;和/或,对符合设定截断条件的训练数据中的特征进行截断处理,包括:将特征值大于设定的第一阈值的训练数据中的特征的特征值修改为第一阈值。
在本公开实施例中,增强处理模块还可以用于采用原始的训练数据运行预置的重要性评估模型,得到当前特征的第一特征重要性;将原始的训练数据的标签随机打乱后,采用打乱标签后的训练数据运行预置的重要性评估模型,得到当前特征的第二特征重要性;获取第一特征重要性和第二特征重要性的归一化偏离度;在归一化偏离度大于等于预设的第二阈值时,保留当前特征。
在本公开实施例中,增强处理模块还可以用于执行以下任一项内容:根据交互特征中的当前项目启动时间特征的归一化处理数据,增加训练数据的项目持续时间的特征;根据判断用户特征中线上特征是否都为0或空值的判断结果,增加训练数据的是否线上用户的特征;分别对训练数据的特征的离散值空值和连续值空值进行空值填充;对训练数据的特征的离散值进行编码;根据统计得到的不同时间段的用户行为的用户行为时长占总时间段时长的占比,增加训练数据的用户行为时长占比的特征;根据按照项目类别统计连续特征得到的方差、最大值、平均值以及统计离散特征出现次数得到的次数,增加训练数据的聚合特征。
由于本公开的示例实施例的目标推荐装置的各个功能模块与上述目标推荐方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的目标推荐方法的实施例。
根据本公开实施例的目标推荐装置,通过对训练数据按照时间标识进行处理以及对训练数据的特征进行处理和筛选,实现了对特征数据的增强处理,基于该增强处理后的训练数据训练得到的目标推荐模型具有较好的泛化能力和稳定性,并且具有较高的预测准确性。
图5是本公开实施例提供的电子设备7的示意图。如图5所示,该实施例的电子设备7包括:处理器701、存储器702以及存储在该存储器702中并且可在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者,处理器701执行计算机程序703时实现上述各装置实施例中各模块的功能。
电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备7可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解,图5仅仅是电子设备7的示例,并不构成对电子设备7的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器701可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器702可以是电子设备7的内部存储单元,例如,电子设备7的硬盘或内存。存储器702也可以是电子设备7的外部存储设备,例如,电子设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器702还可以既包括电子设备7的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (7)
1.一种目标推荐方法,其特征在于,所述方法包括:
获取用户项目数据,所述用户项目数据包括当前用户的用户特征、按时间区间存储的历史行为特征以及相对于当前项目的交互特征;
将所述用户项目数据输入到预置的目标推荐模型,得到所述当前用户相对于所述当前项目的推荐数据,其中,所述目标推荐模型根据增强处理后的训练数据进行训练得到,所述训练数据包括用户的用户特征、历史行为特征以及相对于不同项目的交互特征,所述增强处理包括对所述训练数据按照时间标识进行处理以及对所述训练数据的特征进行处理和筛选;
所述训练数据的增强处理方法还包括以下任一项内容:
对所述训练数据按照时间标识进行拼接处理以及进行训练集、验证集和测试集划分处理;
对所述训练数据的验证集和训练集中不一致的样本的特征进行分桶调整处理,并对符合设定截断条件的所述训练数据中的特征进行截断处理;
根据所述训练数据的特征的特征重要性对所述训练数据的特征进行筛选处理;
对所述训练数据按照时间标识进行拼接处理以及进行训练集、验证集和测试集划分处理,包括:
按照所述时间标识每隔六天选取对应日期的原始的训练数据进行拼接,得到新的训练数据;
按照所述时间标识将所述训练数据划分为时间段互不重叠的训练集、验证集和测试集;
根据所述训练数据的特征的特征重要性对所述训练数据的特征进行筛选处理,包括:
采用原始的训练数据运行预置的重要性评估模型,得到当前特征的第一特征重要性;
将所述原始的训练数据的标签随机打乱后,采用打乱标签后的所述训练数据运行预置的重要性评估模型,得到当前特征的第二特征重要性;
根据以下公式获取所述第一特征重要性和所述第二特征重要性的归一化偏离度:,其中,gain_score为偏离度,actual_gain为第一特征重要性,shuffle_gain为第二特征重要性,所述归一化偏离度根据所述偏离度得到;
在所述归一化偏离度大于等于预设的第二阈值时,保留所述当前特征。
2.根据权利要求1所述的方法,其特征在于,所述目标推荐模型的训练方法包括:
使用分布式梯度提升框架在所述训练数据的训练集上建立初始推荐模型;
使用所述训练数据的验证集对所述初始推荐模型进行迭代,直到所述初始推荐模型的模型评估函数不再提高或者达到设定的迭代次数,得到所述目标推荐模型。
3.根据权利要求1所述的方法,其特征在于,对所述训练数据的验证集和训练集中不一致的样本的特征进行分桶调整处理,包括:
采用k均值聚类算法对所述训练数据的验证集和训练集中不一致的样本的特征按照特征值从小到大排列后划分到对应的桶内,其中,所述桶的边界从小到大依次排列,且所述桶的数量为k,k为自然数且k≥2;
调整k的取值,获取调整后的各个桶内的样本;和/或,
对符合设定截断条件的所述训练数据中的特征进行截断处理,包括:将特征值大于设定的第一阈值的所述训练数据中的特征的特征值修改为所述第一阈值。
4.根据权利要求1所述的方法,其特征在于,所述训练数据的增强处理方法还包括以下任一项内容:
根据所述交互特征中的当前项目启动时间特征的归一化处理数据,增加所述训练数据的项目持续时间的特征;
根据判断所述用户特征中线上特征是否都为0或空值的判断结果,增加所述训练数据的是否线上用户的特征;
分别对所述训练数据的特征的离散值空值和连续值空值进行空值填充;
对所述训练数据的特征的离散值进行编码;
根据统计得到的不同时间段的用户行为的用户行为时长占总时间段时长的占比,增加所述训练数据的用户行为时长占比的特征;
根据按照项目类别统计连续特征得到的方差、最大值、平均值以及统计离散特征出现次数得到的次数,增加所述训练数据的聚合特征。
5.一种目标推荐装置,其特征在于,所述装置包括:
获取模块,用于获取用户项目数据,所述用户项目数据包括当前用户的用户特征、按时间区间存储的历史行为特征以及相对于当前项目的交互特征;
推荐模块,用于将所述用户项目数据输入到预置的目标推荐模型,得到所述当前用户相对于所述当前项目的推荐数据,其中,所述目标推荐模型根据增强处理后的训练数据进行训练得到,所述训练数据包括用户的用户特征、历史行为特征以及相对于不同项目的交互特征,所述增强处理包括对所述训练数据按照时间标识进行处理以及对所述训练数据的特征进行处理和筛选;
增强处理模块,用于:
对所述训练数据按照时间标识进行拼接处理以及进行训练集、验证集和测试集划分处理;
对所述训练数据的验证集和训练集中不一致的样本的特征进行分桶调整处理,并对符合设定截断条件的所述训练数据中的特征进行截断处理;
根据所述训练数据的特征的特征重要性对所述训练数据的特征进行筛选处理;
对所述训练数据按照时间标识进行拼接处理以及进行训练集、验证集和测试集划分处理,包括:
按照所述时间标识每隔六天选取对应日期的原始的训练数据进行拼接,得到新的训练数据;
按照所述时间标识将所述训练数据划分为时间段互不重叠的训练集、验证集和测试集;
根据所述训练数据的特征的特征重要性对所述训练数据的特征进行筛选处理,包括:
采用原始的训练数据运行预置的重要性评估模型,得到当前特征的第一特征重要性;
将所述原始的训练数据的标签随机打乱后,采用打乱标签后的所述训练数据运行预置的重要性评估模型,得到当前特征的第二特征重要性;
根据以下公式获取所述第一特征重要性和所述第二特征重要性的归一化偏离度:,其中,gain_score为偏离度,actual_gain为第一特征重要性,shuffle_gain为第二特征重要性,所述归一化偏离度根据所述偏离度得到;
在所述归一化偏离度大于等于预设的第二阈值时,保留所述当前特征。
6.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310871401.3A CN116596576B (zh) | 2023-07-17 | 2023-07-17 | 目标推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310871401.3A CN116596576B (zh) | 2023-07-17 | 2023-07-17 | 目标推荐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116596576A CN116596576A (zh) | 2023-08-15 |
CN116596576B true CN116596576B (zh) | 2024-04-16 |
Family
ID=87608361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310871401.3A Active CN116596576B (zh) | 2023-07-17 | 2023-07-17 | 目标推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596576B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911902A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 目标推荐方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944986A (zh) * | 2017-12-28 | 2018-04-20 | 广东工业大学 | 一种o2o商品推荐方法、系统及设备 |
CN110263242A (zh) * | 2019-01-04 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、计算机可读存储介质和计算机设备 |
WO2019205795A1 (zh) * | 2018-04-26 | 2019-10-31 | 腾讯科技(深圳)有限公司 | 兴趣推荐方法、计算机设备及存储介质 |
CN115018081A (zh) * | 2021-11-19 | 2022-09-06 | 荣耀终端有限公司 | 特征选择方法、应用程序预测方法及装置 |
CN115631012A (zh) * | 2022-10-27 | 2023-01-20 | 深圳须弥云图空间科技有限公司 | 目标推荐方法及装置 |
WO2023000491A1 (zh) * | 2021-07-19 | 2023-01-26 | 广东艾檬电子科技有限公司 | 一种应用推荐方法、装置、设备及计算机可读存储介质 |
WO2023065859A1 (zh) * | 2021-10-20 | 2023-04-27 | 华为技术有限公司 | 物品推荐方法、装置及存储介质 |
CN116362823A (zh) * | 2023-02-08 | 2023-06-30 | 北京龙智数科科技服务有限公司 | 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置 |
-
2023
- 2023-07-17 CN CN202310871401.3A patent/CN116596576B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944986A (zh) * | 2017-12-28 | 2018-04-20 | 广东工业大学 | 一种o2o商品推荐方法、系统及设备 |
WO2019205795A1 (zh) * | 2018-04-26 | 2019-10-31 | 腾讯科技(深圳)有限公司 | 兴趣推荐方法、计算机设备及存储介质 |
CN110263242A (zh) * | 2019-01-04 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、计算机可读存储介质和计算机设备 |
WO2023000491A1 (zh) * | 2021-07-19 | 2023-01-26 | 广东艾檬电子科技有限公司 | 一种应用推荐方法、装置、设备及计算机可读存储介质 |
WO2023065859A1 (zh) * | 2021-10-20 | 2023-04-27 | 华为技术有限公司 | 物品推荐方法、装置及存储介质 |
CN115018081A (zh) * | 2021-11-19 | 2022-09-06 | 荣耀终端有限公司 | 特征选择方法、应用程序预测方法及装置 |
CN115631012A (zh) * | 2022-10-27 | 2023-01-20 | 深圳须弥云图空间科技有限公司 | 目标推荐方法及装置 |
CN116362823A (zh) * | 2023-02-08 | 2023-06-30 | 北京龙智数科科技服务有限公司 | 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置 |
Non-Patent Citations (1)
Title |
---|
杨游云;周健.《Python广告数据挖掘与分析实战》.机械工业出版社,2021,196-198. * |
Also Published As
Publication number | Publication date |
---|---|
CN116596576A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia | Data mining and data warehousing: principles and practical techniques | |
WO2019061976A1 (zh) | 基金产品推荐方法、装置、终端设备及存储介质 | |
CN111709812A (zh) | 基于用户动态分类的电商平台商品推荐方法及系统 | |
CN112269805B (zh) | 数据处理方法、装置、设备及介质 | |
CN105225135B (zh) | 潜力客户识别方法以及装置 | |
CN112434151A (zh) | 一种专利推荐方法、装置、计算机设备及存储介质 | |
CN116596576B (zh) | 目标推荐方法及装置 | |
Djurisic et al. | Bank CRM optimization using predictive classification based on the support vector machine method | |
WO2023000491A1 (zh) | 一种应用推荐方法、装置、设备及计算机可读存储介质 | |
CN107247728B (zh) | 文本处理方法、装置及计算机存储介质 | |
CN110782349A (zh) | 一种模型训练方法和系统 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
Kübler et al. | Machine learning and big data | |
US20210357699A1 (en) | Data quality assessment for data analytics | |
Edi Surya et al. | Recommendation System with Content-Based Filtering in NFT Marketplace | |
CN110020118B (zh) | 一种计算用户之间相似度的方法及装置 | |
CN115905648A (zh) | 基于高斯混合模型的用户群和金融用户群分析方法及装置 | |
Azcoitia et al. | What is the price of data? A measurement study of commercial data marketplaces | |
CN112560433B (zh) | 一种信息处理的方法及装置 | |
US11379929B2 (en) | Advice engine | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN111400413B (zh) | 一种确定知识库中知识点类目的方法及系统 | |
CN114529399A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN113792220A (zh) | 一种目标对象推荐方法、装置、计算机设备及存储介质 | |
Wasilewski et al. | Clustering Methods for Adaptive e-Commerce User Interfaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |