CN116503092A - 用户留资意向识别方法、装置、电子设备及存储介质 - Google Patents
用户留资意向识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116503092A CN116503092A CN202310486459.6A CN202310486459A CN116503092A CN 116503092 A CN116503092 A CN 116503092A CN 202310486459 A CN202310486459 A CN 202310486459A CN 116503092 A CN116503092 A CN 116503092A
- Authority
- CN
- China
- Prior art keywords
- feature
- user
- public domain
- intention
- private
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000004891 communication Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种用户留资意向识别方法、装置、电子设备及存储介质,该用户留资意向识别方法包括:获取待进行留资意向识别的目标用户的用户特征数据;将用户特征数据输入预先训练完成的留资意向识别模型,以使留资意向识别模型输出留资意向评分,留资意向识别模型是利用多个用户对应的公域特征和私域特征训练得到的;基于留资意向评分确定目标用户的留资意向分类。本申请实施例通过预先训练完成的留资意向识别模型,基于用户特征数据对目标用户进行留资意向预测,得到留资意向评分,并可以根据留资意向评分确定目标用户的留资意向分类,实现对目标用户进行留资意向识别,最终识别得到的留资意向分类更加准确且识别效率高。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种用户留资意向识别方法、装置、电子设备及存储介质。
背景技术
车企APP是汽车企业为了更好地与用户互动和服务,开发的应用程序。车企APP可以提供多种功能和服务,用户可以通过操作车企APP查看汽车购车攻略、进行车型比较、价格查询等。
然而,目前车企APP仅是为了向用户提供更便捷、快速、个性化的汽车服务和体验,无法进行用户的留资意向识别。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种用户留资意向识别方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种用户留资意向识别方法,包括:
获取待进行留资意向识别的目标用户的用户特征数据;
将所述用户特征数据输入预先训练完成的留资意向识别模型,以使所述留资意向识别模型输出留资意向评分,所述留资意向识别模型是利用多个用户对应的公域特征和私域特征训练得到的;
基于所述留资意向评分确定所述目标用户的留资意向分类。
可选地,所述留资意向识别模型的训练方法包括:
获取关于多个用户的训练样本和样本标签,所述训练样本包括:公域特征和私域特征;
将所述训练样本输入预设留资意向识别模型,得到所述公域特征的第一特征重要性和所述私域特征的第二特征重要性;
按照所述公域特征的第一特征重要性和所述私域特征的第二特征重要性,确定所述公域特征的第一权重和所述私域特征的第二权重;
基于所述第一权重和所述第二权重,将所述公域特征和所述私域特征输入所述预设留资意向识别模型,得到留资意向评分;
基于所述留资意向评分确定留资意向预测结果,若留资意向预测结果与所述样本标签相同,确定模型训练完毕。
可选地,获取关于多个用户的训练样本,包括:
从公域数据源获取多个公域数据,从私域数据源获取多个私域数据;
关联对应同一用户的私域数据和公域数据,得到每个用户对应的私域数据和公域数据;
基于所述公域数据生成所述公域特征,基于所述私域数据生成所述私域特征,以作为所述训练样本。
可选地,关联对应同一用户的私域数据和公域数据,包括:
获取各私域数据所对应的第一联动信息及各所述公域数据所对应的第二联动信息,所述第一联动信息和所述第二联动信息中分别包含至少一个联动字段及所述联动字段对应的联动数据;
若所述第一联动信息和所述第二联动信息中包含相同的联动数据,确定所述私域数据和所述公域数据对应同一用户。
可选地,按照所述公域特征的第一特征重要性和所述私域特征的第二特征重要性,确定所述公域特征的第一权重和所述私域特征的第二权重,包括:
基于所述公域特征的第一特征重要性确定所述公域特征的第一特征重要性合计数;
基于所述私域特征的第二特征重要性确定所述私域特征的第二特征重要性合计数;
将所述公域特征的所述第一特征重要性合计数确定为所述私域特征的第二权重;
将所述私域特征的所述第二特征重要性合计数确定为所述公域特征的第一权重。
可选地,基于所述第一权重和所述第二权重,将所述公域特征和所述私域特征输入所述预设留资意向识别模型,得到留资意向评分,包括:
在所述公域特征中确定显著性超过预设阈值的优选公域特征;
确定所述第一权重与所述优选公域特征的乘积,得到第二输入特征;
确定所述第二权重与所述私域特征的乘积,得到第一输入特征;
将所述第一输入特征和所述第二输入特征输入所述预设留资意向识别模型,得到留资意向评分。
可选地,基于所述留资意向评分确定所述目标用户的留资意向分类,包括:
将所述留资意向评分进行归一化处理,得到归一化评分;
确定所述归一化评分所对应的类别分数范围;
将所述类别分数范围所对应的留资意向分类确定为所述目标用户的留资意向分类。
第二方面,本申请提供了一种用户留资意向识别装置,包括:
第一获取模块,用于获取待进行留资意向识别的目标用户的用户特征数据;
第一输入模块,用于将所述用户特征数据输入预先训练完成的留资意向识别模型,以使所述留资意向识别模型输出留资意向评分,所述留资意向识别模型是利用多个用户对应的公域特征和私域特征训练得到的;
第一确定模块,用于基于所述留资意向评分确定所述目标用户的留资意向分类。
可选地,所述装置还包括:
第二获取模块,用于获取关于多个用户的训练样本和样本标签,所述训练样本包括:公域特征和私域特征;
第二输入模块,用于将所述训练样本输入预设留资意向识别模型,得到所述公域特征的第一特征重要性和所述私域特征的第二特征重要性;
第二确定模块,用于按照所述公域特征的第一特征重要性和所述私域特征的第二特征重要性,确定所述公域特征的第一权重和所述私域特征的第二权重;
第三输入模块,用于基于所述第一权重和所述第二权重,将所述公域特征和所述私域特征输入所述预设留资意向识别模型,得到留资意向评分;
第三确定模块,用于基于所述留资意向评分确定留资意向预测结果,若留资意向预测结果与所述样本标签相同,确定模型训练完毕。
可选地,所述第二获取模块包括:
第一获取单元,用于从公域数据源获取多个公域数据,从私域数据源获取多个私域数据;
关联单元,用于关联对应同一用户的私域数据和公域数据,得到每个用户对应的私域数据和公域数据;
生成单元,用于基于所述公域数据生成所述公域特征,基于所述私域数据生成所述私域特征,以作为所述训练样本。
可选地,所述关联单元包括:
获取子单元,用于获取各私域数据所对应的第一联动信息及各所述公域数据所对应的第二联动信息,所述第一联动信息和所述第二联动信息中分别包含至少一个联动字段及所述联动字段对应的联动数据;
确定子单元,用于若所述第一联动信息和所述第二联动信息中包含相同的联动数据,确定所述私域数据和所述公域数据对应同一用户。
可选地,所述第二确定模块包括:
第一确定单元,用于基于所述公域特征的第一特征重要性确定所述公域特征的第一特征重要性合计数;
第二确定单元,用于基于所述私域特征的第二特征重要性确定所述私域特征的第二特征重要性合计数;
第三确定单元,用于将所述公域特征的所述第一特征重要性合计数确定为所述私域特征的第二权重;
第四确定单元,用于将所述私域特征的所述第二特征重要性合计数确定为所述公域特征的第一权重。
可选地,所述第三输入模块包括:
第五确定单元,用于在所述公域特征中确定显著性超过预设阈值的优选公域特征;
第六确定单元,用于确定所述第一权重与所述优选公域特征的乘积,得到第二输入特征;
第七确定单元,用于确定所述第二权重与所述私域特征的乘积,得到第一输入特征;
输入单元,用于将所述第一输入特征和所述第二输入特征输入所述预设留资意向识别模型,得到留资意向评分。
可选地,所述第一确定模块包括:
归一化单元,用于将所述留资意向评分进行归一化处理,得到归一化评分;
第八确定单元,用于确定所述归一化评分所对应的类别分数范围;
第九确定单元,用于将所述类别分数范围所对应的留资意向分类确定为所述目标用户的留资意向分类。
第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的用户留资意向识别方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有用户留资意向识别方法的程序,所述用户留资意向识别方法的程序被处理器执行时实现第一方面任一所述的用户留资意向识别方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例通过预先训练完成的留资意向识别模型,基于用户特征数据对目标用户进行留资意向预测,得到留资意向评分,并可以根据留资意向评分确定目标用户的留资意向分类,实现对目标用户进行留资意向识别,且最终识别得到的留资意向分类更加准确且识别效率高,避免人为根据经验进行留资意向识别时存在的不准确及效率低的情况。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种用户留资意向识别方法的流程图;
图2为本申请实施例提供的一种留资意向分类的示意图;
图3为本申请实施例提供的一种留资意向识别模型的训练方法的流程图;
图4为本申请实施例提供的一种留资意向识别模型的训练的原理示意图;
图5为本申请实施例提供的一种用户留资意向识别装置的结构图;
图6为本申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于目前车企APP仅是为了向用户提供更便捷、快速、个性化的汽车服务和体验,无法进行用户的留资意向识别。为此,本申请实施例提供一种用户留资意向识别方法、装置、电子设备及存储介质。
其中,用户留资意向识别方法可以应用于服务器中,服务器可以与车企APP通信,如图1所示,本申请实施例提供的用户留资意向识别方法可以包括以下步骤:
步骤S101,获取待进行留资意向识别的目标用户的用户特征数据;
本申请实施例中,留资是指消费者在厂商营销活动的活动页面留下电话号码、意向车型等资料,用户特征数据指目标用户当前最新的特征数据,特征数据是基于公域采集的目标用户的公域数据和/或私域采集的目标用户的私域数据生成的特征向量,以作为实际业务场景中预先训练完成的留资意向识别模型的输入。
步骤S102,将所述用户特征数据输入预先训练完成的留资意向识别模型,以使所述留资意向识别模型输出留资意向评分。
本申请实施例中,所述留资意向识别模型是利用多个用户对应的公域特征和私域特征训练得到的,留资意向识别模型的训练方法可参见后文实施例。
训练完毕的留资意向模型,可以在输入用户特征数据后,输出留资意向识别模型预测得到的与用户特征数据对应的留资意向评分,留资意向评分用于指示目标用户的留资意向情况。
步骤S103,基于所述留资意向评分确定所述目标用户的留资意向分类。
在该步骤中,可以将所述留资意向评分进行归一化处理,得到归一化评分,确定所述归一化评分所对应的类别分数范围,将所述类别分数范围所对应的留资意向分类确定为所述目标用户的留资意向分类。
示例性的,如图2所示,可以将留资意向评分归一化处理为1-100的打分结果。将不同规模和量纲的数据缩放到相同数据区间和范围,以减少规模、特征、分布差异对模型的影响。在使用车企APP的用户中确定有购买意向的用户,针对不同意向的用户制定不同的销售策略,可在车企APP中给用户推荐有购买意向的品牌以及提供线上个性化服务,线下销售4S店可明确了解客户的购买意向,进而为客户提供更优质的服务。结合业务运营策略,一般情况下,打分为50分以下用户的留资意向分类为暂无留资意向用户,可以不用采取相应的运营策略;打分在50-70之间的用户的留资意向分类为低意向留资用户,可以采取中长期维系用户活跃度的手段,促进用户的意向进一步转化;打分在70-90分之间的用户的留资意向分类为中意向留资用户,可以采取活动邀约、品牌推广等策略进行触达,进一步激活用户的意向;打分在90分以上的用户的留资意向分类为高意向用户,可以采用电话主动邀约留资,或者优惠等相关政策的内容进行推送,最终促进用户转化。本申请获得了在公域数据中的潜在消费者群体,以及该群体的留资意向,将公域数据与私域数据相互关联,挖掘潜在的消费者,促成用户留资转化。
本申请实施例通过预先训练完成的留资意向识别模型,基于用户特征数据对目标用户进行留资意向预测,得到留资意向评分,并可以根据留资意向评分确定目标用户的留资意向分类,实现对目标用户进行留资意向识别,且最终识别得到的留资意向分类更加准确且识别效率高,避免人为根据经验进行留资意向识别时存在的不准确及效率低的情况。
在本申请的又一实施例中,如图3所示,所述留资意向识别模型的训练方法包括:
步骤S201,获取关于多个用户的训练样本和样本标签。
由于在仅使用车企APP内有限的数据进行分析时,没有打通其他私域和公域数据,存在数据较少导致分析结果存在盲点以及限制的问题,所以,本申请实施例中,所述训练样本包括:公域特征和私域特征。
本申请实施例中,如图4所示的原理图,可以分别从私域的数据源(如:车企APP等)和公域的数据源(如:自媒体、垂直行业的大数据拥有者、广告技术服务商以及数据交易平台等)中,获取私域数据和公域数据,私域数据包括:性别、年龄、地域、官网行为、商城行为、APP行为、小程序行为等;公域数据包括:广告曝光、广告点击、广告留资等。
在本申请的一种实施方式中,获取关于多个用户的训练样本,包括:从公域数据源获取多个公域数据,从私域数据源获取多个私域数据;关联对应同一用户的私域数据和公域数据,得到每个用户对应的私域数据和公域数据;基于所述公域数据生成所述公域特征,基于所述私域数据生成所述私域特征,以作为所述训练样本。
其中,关联对应同一用户的私域数据和公域数据,包括:获取各私域数据所对应的第一联动信息及各所述公域数据所对应的第二联动信息,所述第一联动信息和所述第二联动信息中分别包含至少一个联动字段及所述联动字段对应的联动数据;若所述第一联动信息和所述第二联动信息中包含相同的联动数据,确定所述私域数据和所述公域数据对应同一用户。
本申请实施例中,第一联动信息和第二联动信息均为用于将私域数据和公域数据打通的信息,第一联动信息和第二联动信息分别包括:设备标识码deviceid(如:Android设备标识码imei、oaid、androidid,IOS设备标识码idfa、idfv),微信小程序标识(openid用户唯一标识,unionid同一用户在不同应用中的唯一标识,appid应用唯一标识),手机号等。
通过第一联动信息和第二联动信息创建用户id匹配联动机制,并对数据进行sha1安全散列算法进行加密,确保双方数据拉通的安全性。
然后,对打通后的公域数据和私域数据进行清洗,剔除异常数据、黑产数据、作弊数据,通过数据挖掘获取可用的数据特征。
具体的,删除/补全有缺失的数据;
例如:计算每个字段的缺失值比例,按照缺失比例和字段的重要性确定是否进行补全数据;
举例而言:重要性高以及缺失率高的策略:使用其他字段通过计算获得,或尝试从其他渠道取数补全,或删除字段;重要性高以及缺失率低的策略:通过计算进行填充,或根据经验以及业务知识进行估计;重要性低以及缺失率低的策略:不作处理,或进行填充;重要性低以及缺失率高的策略:删除字段。
具体的,删除/修改格式或内容错误的数据;
例如,删除字段时,将所要删除的字段进行备份;
例如,补全字段时,若为同一指标,可根据均值、中位数、众数进行填充补全缺失值;若为不同指标,可根据不同指标的计算结果进行填充补全缺失值。
具体的,删除/修改逻辑错误的数据;
例如,删除不合理值,修改矛盾内容,以及去重。
例如,格式内容清洗,在以下情况进行清洗:时间、日期、数值、全角以及半角等显示格式不一致,内容中有不该存在的字符,内容与该字段应有内容不符。
删除不需要的数据;
关联性验证,可将线下或线上数据进行关联,依据具体情况进行调整或删除字段。
例如,在多数据源进行合并时,验证数据之间的关联性确定正确特征属性,举例而言,汽车的线下购买信息以及客服问卷信息之间,可以通过姓名以及手机号码进行关联操作,匹配车辆是否为同一车辆,根据匹配情况调整数据。
本申请实施例中,将用户是否已留资作为训练标签,并对各训练标签对应的公域数据或者私域数据划分正负样本,对正样本(用户已留资)使用留资前数据计算特征向量,如通过用户订单中数据计算特征,对负样本(用户未留资)使用用户的当前最新数据计算特征向量。
步骤S202,将所述训练样本输入预设留资意向识别模型,得到所述公域特征的第一特征重要性和所述私域特征的第二特征重要性;
本申请实施例中,将每个用户的训练样本作为预设留资意向识别模型的输入,对应每个用户的训练标签作为预设留资意向识别模型的输出,也就是,使用历史样本数据训练预设留资意向识别模型,得到一个经过初步训练的留资意向预测模型。这里使用的预设留资意向识别模型是机器学习的二分类模型,推荐使用Random Forest,当然也可以使用同类机器学习模型(例如Xgboost,lightGBM,Catboost等)进行替换。输出用户留资意向预测结果(因准确度不高,后续暂不使用)及特征重要性,即每个公域特征或者私域特征的重要性。
例如,可通过随机森林算法,假设有100条公域数据和私域数据,每创建一棵树随机获取80%的公域数据和/或私域数据,在每个公域数据或者私域数据取60%的公域特征或者私域特征,进行训练,实现数据的分类与回归,其中,分类任务取众数取值,回归任务取平均取值。
步骤S203,按照所述公域特征的第一特征重要性和所述私域特征的第二特征重要性,确定所述公域特征的第一权重和所述私域特征的第二权重;
在本申请的一种实施方式中,按照所述公域特征的第一特征重要性和所述私域特征的第二特征重要性,确定所述公域特征的第一权重和所述私域特征的第二权重,包括:
基于所述公域特征的第一特征重要性确定所述公域特征的第一特征重要性合计数;基于所述私域特征的第二特征重要性确定所述私域特征的第二特征重要性合计数;将所述公域特征的所述第一特征重要性合计数确定为所述私域特征的第二权重;将所述私域特征的所述第二特征重要性合计数确定为所述公域特征的第一权重。
示例性的,可以分析第一次训练输出的模型特征重要性,计算得到私域特征重要性合计数α,计算得到公域特征重要性合计数β,则可以将私域特征权重设置为β,公域特征权重设计为α。
预设留资意向预测模型进行一次训练之后,可以得到特征重要性,以及每个公域特征{α1,v2,…αn}的权重,每个私域特征{β1,β2,…βm}的权重。这里的n代表公域特征的数量,这里的m代表私域特征的数量。
步骤S204,基于所述第一权重和所述第二权重,将所述公域特征和所述私域特征输入所述预设留资意向识别模型,得到留资意向评分;
在本申请的一种实施方式中,基于所述第一权重和所述第二权重,将所述公域特征和所述私域特征输入所述预设留资意向识别模型,得到留资意向评分,包括:
在所述公域特征中确定显著性超过预设阈值的优选公域特征;确定所述第一权重与所述优选公域特征的乘积,得到第二输入特征;确定所述第二权重与所述私域特征的乘积,得到第一输入特征;将所述第一输入特征和所述第二输入特征输入所述预设留资意向识别模型,得到留资意向评分。
通常情况下,m个私域特征在全体样本中的数据填充率为100%,而n个公域特征在全体样本中的数据填充率参差不齐,甚至存在少数数据填充率低于50%的情况。一般情况,可以将低于50%的公域特征进行剔除,原因是低于50%的数据填充率对该特征进行特征填充时其准确率不足。其次,可以对数据填充率超过50%的特征进行最优的筛选。这里考虑到尽可能用较少的公域优质特征加入模型,保证模型的效果同时能够有效地降低公域数据使用的成本。这里采用的方法是逐步训练的方法。其基本思想是将特征一个一个引入,引入的条件是其AUC值是显著的。同时,每引入一个新特征后,对已入选模型的特征逐个进行检验,将经检验认为不显著的特征进行剔除,以保证所得特征子集中每一个特征都是显著的。此过程经过若干步直到不需要再引入新特征为止。最后,根据筛选的最优特征子集{1,2,…αk}(这里的k<=n),加上私域特征进行二次训练。
本申请实施例使用机器学习模型,推荐使用XGBoost(另外可以Random Forest,lightGBM,Catboost)进行二次训练。这里同样是将每个用户的特征向量作为模型的输入,对应每个用户的样本标签作为模型的输出。可以使用另一部分历史样本数据进行测试模型,最终得到用户留资意向预测模型。输出用户留资意向预测结果及特征重要性。
步骤S205,基于所述留资意向评分确定留资意向预测结果,若留资意向预测结果与所述样本标签相同,确定模型训练完毕。
在市场环境或数据情况发生变化时,本申请还可以利用最新的公域数据和私域数据重新训练模型,分析所用模型能够及时发现问题并快速调整应对策略。
本申请实施例通过获取相关的私域和公域的数据源,将获取到的数据进行清洗,剔除异常数据,将清洗后的待分析数据应用于机器学习模型,得到第一次模型训练的结果,结合模型第一次训练得到的特征重要性排序,以及业务层面对于公域特征和私域特征的业务经验进行权重调整,筛选出最终入模的公域特征和私域特征集合,放入机器学习中,进行二次训练,最终完成模型训练。
本申请实施例通过打通公域数据和私域数据全面分析数据,避免因数据少而导致数据分析所得出的结果存在盲点以及限制,根据业务经验,调整公域特征与私域特征的权重,使训练得到的留资意向识别模型更加准确且识别效率高。
在本申请的又一实施例中,还提供一种用户留资意向识别装置,如图5所示,包括:
第一获取模块11,用于获取待进行留资意向识别的目标用户的用户特征数据;
第一输入模块12,用于将所述用户特征数据输入预先训练完成的留资意向识别模型,以使所述留资意向识别模型输出留资意向评分,所述留资意向识别模型是利用多个用户对应的公域特征和私域特征训练得到的;
第一确定模块13,用于基于所述留资意向评分确定所述目标用户的留资意向分类。
可选地,所述装置还包括:
第二获取模块,用于获取关于多个用户的训练样本和样本标签,所述训练样本包括:公域特征和私域特征;
第二输入模块,用于将所述训练样本输入预设留资意向识别模型,得到所述公域特征的第一特征重要性和所述私域特征的第二特征重要性;
第二确定模块,用于按照所述公域特征的第一特征重要性和所述私域特征的第二特征重要性,确定所述公域特征的第一权重和所述私域特征的第二权重;
第三输入模块,用于基于所述第一权重和所述第二权重,将所述公域特征和所述私域特征输入所述预设留资意向识别模型,得到留资意向评分;
第三确定模块,用于基于所述留资意向评分确定留资意向预测结果,若留资意向预测结果与所述样本标签相同,确定模型训练完毕。
可选地,所述第二获取模块包括:
第一获取单元,用于从公域数据源获取多个公域数据,从私域数据源获取多个私域数据;
关联单元,用于关联对应同一用户的私域数据和公域数据,得到每个用户对应的私域数据和公域数据;
生成单元,用于基于所述公域数据生成所述公域特征,基于所述私域数据生成所述私域特征,以作为所述训练样本。
可选地,所述关联单元包括:
获取子单元,用于获取各私域数据所对应的第一联动信息及各所述公域数据所对应的第二联动信息,所述第一联动信息和所述第二联动信息中分别包含至少一个联动字段及所述联动字段对应的联动数据;
确定子单元,用于若所述第一联动信息和所述第二联动信息中包含相同的联动数据,确定所述私域数据和所述公域数据对应同一用户。
可选地,所述第二确定模块包括:
第一确定单元,用于基于所述公域特征的第一特征重要性确定所述公域特征的第一特征重要性合计数;
第二确定单元,用于基于所述私域特征的第二特征重要性确定所述私域特征的第二特征重要性合计数;
第三确定单元,用于将所述公域特征的所述第一特征重要性合计数确定为所述私域特征的第二权重;
第四确定单元,用于将所述私域特征的所述第二特征重要性合计数确定为所述公域特征的第一权重。
可选地,所述第三输入模块包括:
第五确定单元,用于在所述公域特征中确定显著性超过预设阈值的优选公域特征;
第六确定单元,用于确定所述第一权重与所述优选公域特征的乘积,得到第二输入特征;
第七确定单元,用于确定所述第二权重与所述私域特征的乘积,得到第一输入特征;
输入单元,用于将所述第一输入特征和所述第二输入特征输入所述预设留资意向识别模型,得到留资意向评分。
可选地,所述第一确定模块包括:
归一化单元,用于将所述留资意向评分进行归一化处理,得到归一化评分;
第八确定单元,用于确定所述归一化评分所对应的类别分数范围;
第九确定单元,用于将所述类别分数范围所对应的留资意向分类确定为所述目标用户的留资意向分类。
在本申请的又一实施例中,还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现前述任一方法实施例所述的用户留资意向识别方法。
本发明实施例提供的电子设备,处理器通过执行存储器上所存放的程序通过预先训练完成的留资意向识别模型,基于用户特征数据对目标用户进行留资意向预测,得到留资意向评分,并可以根据留资意向评分确定目标用户的留资意向分类,实现对目标用户进行留资意向识别,且最终识别得到的留资意向分类更加准确且识别效率高,避免人为根据经验进行留资意向识别时存在的不准确及效率低的情况。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有用户留资意向识别方法的程序,所述用户留资意向识别方法的程序被处理器执行时实现前述任一方法实施例所述的用户留资意向识别方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种用户留资意向识别方法,其特征在于,包括:
获取待进行留资意向识别的目标用户的用户特征数据;
将所述用户特征数据输入预先训练完成的留资意向识别模型,以使所述留资意向识别模型输出留资意向评分,所述留资意向识别模型是利用多个用户对应的公域特征和私域特征训练得到的;
基于所述留资意向评分确定所述目标用户的留资意向分类。
2.根据权利要求1所述的用户留资意向识别方法,其特征在于,所述留资意向识别模型的训练方法包括:
获取关于多个用户的训练样本和样本标签,所述训练样本包括:公域特征和私域特征;
将所述训练样本输入预设留资意向识别模型,得到所述公域特征的第一特征重要性和所述私域特征的第二特征重要性;
按照所述公域特征的第一特征重要性和所述私域特征的第二特征重要性,确定所述公域特征的第一权重和所述私域特征的第二权重;
基于所述第一权重和所述第二权重,将所述公域特征和所述私域特征输入所述预设留资意向识别模型,得到留资意向评分;
基于所述留资意向评分确定留资意向预测结果,若留资意向预测结果与所述样本标签相同,确定模型训练完毕。
3.根据权利要求2所述的用户留资意向识别方法,其特征在于,获取关于多个用户的训练样本,包括:
从公域数据源获取多个公域数据,从私域数据源获取多个私域数据;
关联对应同一用户的私域数据和公域数据,得到每个用户对应的私域数据和公域数据;
基于所述公域数据生成所述公域特征,基于所述私域数据生成所述私域特征,以作为所述训练样本。
4.根据权利要求3所述的用户留资意向识别方法,其特征在于,关联对应同一用户的私域数据和公域数据,包括:
获取各私域数据所对应的第一联动信息及各所述公域数据所对应的第二联动信息,所述第一联动信息和所述第二联动信息中分别包含至少一个联动字段及所述联动字段对应的联动数据;
若所述第一联动信息和所述第二联动信息中包含相同的联动数据,确定所述私域数据和所述公域数据对应同一用户。
5.根据权利要求2所述的用户留资意向识别方法,其特征在于,按照所述公域特征的第一特征重要性和所述私域特征的第二特征重要性,确定所述公域特征的第一权重和所述私域特征的第二权重,包括:
基于所述公域特征的第一特征重要性确定所述公域特征的第一特征重要性合计数;
基于所述私域特征的第二特征重要性确定所述私域特征的第二特征重要性合计数;
将所述公域特征的所述第一特征重要性合计数确定为所述私域特征的第二权重;
将所述私域特征的所述第二特征重要性合计数确定为所述公域特征的第一权重。
6.根据权利要求2所述的用户留资意向识别方法,其特征在于,基于所述第一权重和所述第二权重,将所述公域特征和所述私域特征输入所述预设留资意向识别模型,得到留资意向评分,包括:
在所述公域特征中确定显著性超过预设阈值的优选公域特征;
确定所述第一权重与所述优选公域特征的乘积,得到第二输入特征;
确定所述第二权重与所述私域特征的乘积,得到第一输入特征;
将所述第一输入特征和所述第二输入特征输入所述预设留资意向识别模型,得到留资意向评分。
7.根据权利要求1所述的用户留资意向识别方法,其特征在于,基于所述留资意向评分确定所述目标用户的留资意向分类,包括:
将所述留资意向评分进行归一化处理,得到归一化评分;
确定所述归一化评分所对应的类别分数范围;
将所述类别分数范围所对应的留资意向分类确定为所述目标用户的留资意向分类。
8.一种用户留资意向识别装置,其特征在于,包括:
第一获取模块,用于获取待进行留资意向识别的目标用户的用户特征数据;
第一输入模块,用于将所述用户特征数据输入预先训练完成的留资意向识别模型,以使所述留资意向识别模型输出留资意向评分,所述留资意向识别模型是利用多个用户对应的公域特征和私域特征训练得到的;
第一确定模块,用于基于所述留资意向评分确定所述目标用户的留资意向分类。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~7任一所述的用户留资意向识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有用户留资意向识别方法的程序,所述用户留资意向识别方法的程序被处理器执行时实现权利要求1-7任一所述的用户留资意向识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310486459.6A CN116503092A (zh) | 2023-04-28 | 2023-04-28 | 用户留资意向识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310486459.6A CN116503092A (zh) | 2023-04-28 | 2023-04-28 | 用户留资意向识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503092A true CN116503092A (zh) | 2023-07-28 |
Family
ID=87319841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310486459.6A Pending CN116503092A (zh) | 2023-04-28 | 2023-04-28 | 用户留资意向识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503092A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333234A (zh) * | 2023-10-25 | 2024-01-02 | 广州渠道无忧网络技术服务有限公司 | 跨平台广告投放访客信息处理方法、装置、设备以及介质 |
-
2023
- 2023-04-28 CN CN202310486459.6A patent/CN116503092A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333234A (zh) * | 2023-10-25 | 2024-01-02 | 广州渠道无忧网络技术服务有限公司 | 跨平台广告投放访客信息处理方法、装置、设备以及介质 |
CN117333234B (zh) * | 2023-10-25 | 2024-04-30 | 广州渠道无忧网络技术服务有限公司 | 跨平台广告投放访客信息处理方法、装置、设备以及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133013B (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
US11676087B2 (en) | Systems and methods for vulnerability assessment and remedy identification | |
CN107885796B (zh) | 信息推荐方法及装置、设备 | |
CN107798579B (zh) | 一种协议文件的生成方法及其终端 | |
CN109274843B (zh) | 按键预测方法、装置及计算机可读存储介质 | |
CN108885762B (zh) | 用于在数据市场中分配价格发现机制的方法和系统 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN110852785B (zh) | 用户分级方法、装置及计算机可读存储介质 | |
CN112163963A (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN113407854A (zh) | 一种应用推荐方法、装置、设备及计算机可读存储介质 | |
CN116503092A (zh) | 用户留资意向识别方法、装置、电子设备及存储介质 | |
CN114116802A (zh) | Flink计算框架的数据处理方法、装置、设备和存储介质 | |
US20230099627A1 (en) | Machine learning model for predicting an action | |
US20220036467A1 (en) | Machine learning system and method for quote generation | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN117437019A (zh) | 信用卡逾期风险预测方法、装置、设备、介质和程序产品 | |
CN113902576A (zh) | 基于深度学习的信息推送方法、装置、电子设备及介质 | |
CN110796379B (zh) | 业务渠道的风险评估方法、装置、设备及存储介质 | |
CN112634061A (zh) | 一种用户数据处理方法及装置 | |
CN112328779A (zh) | 训练样本构建方法、装置、终端设备及存储介质 | |
CN112200602A (zh) | 用于广告推荐的神经网络模型训练方法及装置 | |
CN111882339A (zh) | 预测模型训练及响应率预测方法、装置、设备及存储介质 | |
US11822562B2 (en) | Unstructured text processing for geographical location determination system | |
CN111401395A (zh) | 一种数据处理方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |