CN115760174A - 一种用户职业预测系统 - Google Patents
一种用户职业预测系统 Download PDFInfo
- Publication number
- CN115760174A CN115760174A CN202211175367.8A CN202211175367A CN115760174A CN 115760174 A CN115760174 A CN 115760174A CN 202211175367 A CN202211175367 A CN 202211175367A CN 115760174 A CN115760174 A CN 115760174A
- Authority
- CN
- China
- Prior art keywords
- model
- module
- unit
- user
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种用户职业预测系统,包括:原始数据集构建模块,用于获取原始数据并为原始数据标注职业标签生成原始数据集;模型构建模块,用于构建多个不同类型的分类模型;模型训练模块,包括模型选择单元、迭代训练单元、参数调节单元和模型评估单元;职业预测模块,职业预测模块搭载有用户职业预测模型,用户职业预测模型由多个训练好的分类模型组合得到,每个分类模型用于进行一种职业的预测。与现有技术相比,本发明使用“二元关联”的思路,将每个职业的预测变为一个二分类问题来构建用户职业预测模型,兼顾可解释性和模型的最终效果,同时留出了足够的探索空间,能够解决多标签问题,使用户职业预测得到最有效的分析。
Description
技术领域
本发明涉及用户职业预测方法,尤其是涉及一种针对商品交易的用户职业预 测方法。
背景技术
随着企业平台业务的持续拓展和服务种类的持续增多,平台注册用户数量也日益增加,为使平台更好服务于特定用户,需要尽可能对用户进行职业分类。
用户的职业分类可以方便后期针对不同人群进行精准的消息投放和推荐。在企业当前的消息推送、推荐业务中,消息推送不够精准,这导致有很多用户会收到大 量对自身无用的信息短信。这种类似无差别的全局推送,在业务增长、消息剧增的 情况下,会给用户带来很糟糕的使用体验,让用户反感,进而可能影响用户的交易 行为。
同时,准确的职业分类还可以完成对用户画像的分析,让企业更进一步了解用 户的需求。
在企业当前的职业身份识别中,采用的是关键特征检测的方法来鉴别用户职业身份,例如登录物流平台的是司机和仓储、有大量购买行为的用户可能是采购等等。 但是此方法效果并不好,一来只通过“个别行为敲定身份”必定不适合所有用户, 泛化能力弱,考虑也不周全;二来很多职业身份并没有明确的行为对应,比如老板、 高管。总结来说,此方法有着泛化能力弱、缺乏综合性全面性视角等问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用户职业预 测系统。
本发明的目的可以通过以下技术方案来实现:
一种用户职业预测系统,包括:
原始数据集构建模块,用于获取原始数据并为原始数据标注职业标签生成原始数据集,所述原始数据集由多个样本构成,一个所述样本标注有一个用户的一个职 业标签;
模型构建模块,用于构建多个不同类型的分类模型;
模型训练模块,包括模型选择单元、迭代训练单元、参数调节单元和模型评估 单元;所述模型选择单元用于为每种职业选择分类模型;所述迭代训练单元用于对 每种职业所对应的分类模型进行训练;所述参数调节单元用于设置每个分类模型的 模型参数可选范围;所述模型评估单元用于评估每种职业所对应的分类模型的性能 指标;
职业预测模块,所述职业预测模块搭载有用户职业预测模型,所述用户职业预 测模型由多个训练好的分类模型组合得到,每个分类模型用于进行一种职业的预测。
进一步地,用户职业预测系统还包括:
特征生成模块,用于提取原始数据的特征并对原始数据进行特征挖掘得到新特征;
特征筛选模块,用于对原始特征进行筛选得到有效特征,所述原始特征为原始 数据的特征及挖掘得到的新特征;
所述原始数据集依次经过特征生成模块和特征筛选模块处理后得到特征数据集,所述迭代训练单元使用特征数据集对每种职业所对应的二分类模型进行训练。
进一步地,所述特征生成模块包括基础特征提取单元、特征衍生单元和交叉特 征单元,所述基础特征单元用于提取原始数据的特征,所述特征衍生单元用于根据 预设置的业务规则生成新的特征,所述交叉特征单元用于使用特征交叉法组合原始 数据的特征得到的特征得到新的特征。
进一步地,所述特征筛选模块包括评估单元和多个筛选单元,每个所述筛选单 元搭载有一种特征筛选方式,所述评估单元用于对每个筛选单元的特征筛选结果进 行评估。
进一步地,所述原始数据集构建模块包括数据选择单元、数据预处理单元和数 据标注单元,所述数据选择单元用于获取业务数据并从业务数据中提取原始数据, 每条原始数据对应一个用户;所述数据预处理单元用于对原始数据进行预处理;所 述数据标注单元用于获取用户的职业身份并根据用户的职业身份为原始数据标注 职业标签,每个用户拥有至少一个职业身份。
进一步地,所述模型构建模块中,构建的分类模型包括独立模型和融合模型, 所述融合模型包括权重分配模块和多个独立模型,所述权重分配模块用于为融合模 型中的每个独立模型分配权重,所述独立模型为二分类模型。
进一步地,所述参数调节单元中,分别确定每种分类模型的模型参数,设置各 个模型参数的上下限以及变化步长,基于模型参数的上下限以及变化步长生成每种 分类模型的每个模型参数的参数搜索网格。
进一步地,所述模型选择单元中,为每种职业选择分类模型的依据为:训练分 类模型并基于训练好的分类模型进行职业的预测,记录分类模型的性能,为每种职 业选择性能最优的分类模型。
进一步地,用户职业预测系统还包括用户画像分析模块,所述用户画像分析模 块的输入为职业预测模块中的用户职业预测模型的中间结果,输出为用户画像。
与现有技术相比,本发明具有以下有益效果:
(1)使用“二元关联”的思路,将每个职业的预测变为一个二分类问题来构 建用户职业预测模型,兼顾可解释性和模型的最终效果,同时留出了足够的探索空 间,能够解决多标签问题,使用户职业预测得到最有效的分析。
(2)原始数据只是记录了最基础的用户行为,对于人工智能模型训练而言远 远不够,针对实际大宗商品交易数据中特征挖掘不足的问题,本申请设计了特征生 成模块,一是提取原始数据的特征,二是结合可能出现的业务形态动作深度挖掘了 各种组合特征、分解特征,三是通过特征组合自动生成多种特征,大大丰富了数据 特征。
(3)为避免过多的特征造成噪声的引入,进而影响最终效果,本申请设计了 特征筛选模块,特征筛选模块提供了多种特征筛选方式,从而能全方面考量特征, 筛选出对模型有效的部分特征。
(4)用户职业预测模型的效果实际上是由每个职业的分类模型的表现效果决 定的,通过模型选择单元,为每种职业选择最优的分类模型,通过参数调节单元, 为每个分类模型寻找最优的模型参数,通过两次寻优得到每种职业表现效果最佳的 分类模型,进而融合得到整个用户职业预测模型,保证用户职业预测模型的效果最 佳。
(5)为每种职业选择分类模型时,除了独立模型外,还考虑了多个独立模型 融合后作为一种职业的分类模型,提升了每种职业的预测效果。
(6)系统解耦性很强,各个模块相互独立,后期继续进行优化和迭代非常方 便快捷,而且易于扩展新功能。
(7)利用用户职业预测模型的中间参数进行用户画像分析,为业务工作提供 了分析依据。
附图说明
图1为用户职业预测系统的架构示意图;
图2为用户职业预测系统的搭建与部署示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,显然,所描述的实 施例仅仅是本发明一部分的实施例,而不是全部的实施例,本发明的保护范围不限 于下述的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性 劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包 含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已 列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对 于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1:
在钢铁大宗商品交易中,进行用户职业的预测是企业消息推送的重要一环,本 申请利用会员登录数据、行为数据、交易数据等数据,使用机器学习算法,设计了 一种用户职业预测系统,对用户的职业进行预测。一种用户职业预测系统,如图1 所示,包括:
原始数据集构建模块1,用于获取原始数据并为原始数据标注职业标签生成原 始数据集,原始数据集由多个样本构成,一个样本标注有一个用户的一个职业标签;
模型构建模块2,用于构建多个不同类型的分类模型;
模型训练模块3,包括模型选择单元、迭代训练单元、参数调节单元和模型评 估单元;模型选择单元用于为每种职业选择分类模型;迭代训练单元用于对每种职 业所对应的分类模型进行训练;参数调节单元用于设置每个分类模型的模型参数可 选范围;模型评估单元用于评估每种职业所对应的分类模型的性能指标;
职业预测模块4,职业预测模块4搭载有用户职业预测模型,用户职业预测模 型由多个训练好的分类模型组合得到,每个分类模型用于进行一种职业的预测。
用户职业预测问题看似是多分类问题,实际上是多标签问题,因为根据实际业 务场景,单个用户可能会拥有多个职业(比如销售总监,既是销售,又是高管), 因此用户职业预测模型建模方面需要针对该问题特别进行处理,使模型进行最有效 化的分析。
用户职业预测系统还包括特征生成模块5、特征筛选模块6和用户画像分析模 块7,下面,介绍整个用户职业预测系统的搭建及部署流程,并分别对用户职业预 测系统中的各个模块进行说明。
(1)原始数据集构建模块1,包括数据选择单元、数据预处理单元和数据标 注单元,数据选择单元用于获取业务数据并从业务数据中提取原始数据,每条原始 数据对应一个用户;数据预处理单元用于对原始数据进行预处理;数据标注单元用 于获取用户的职业身份并根据用户的职业身份为原始数据标注职业标签,每个用户 拥有至少一个职业身份。
1.1)在实际应用时,数据选择单元连接企业的平台及数据库,从而获取业务 数据并从业务数据中提取原始数据。在获取业务数据时,首先要明确业务需求,以 及相关的业务行为,大宗B2B业务的复杂度远比传统电商业务复杂度高,涉及到 较长的供应链模块,复杂的业务模块,丰富的需求场景和多元的产品结构;因此, 首先理解大宗商品电商业务中,各种职业属性的日常业务工作(例如销售、采购、 仓储),对业务进行区分和分类(例如上货上架、点击现货等等),再针对应用场景, 明确具体的目标和业务定位,再选择相应的业务数据即可。
获取业务数据后,需要从业务数据中提取原始数据;B2B平台供应链业务链 路很多,包括以会员用户为主的交易数据,包括卖家的挂货数据,平台的功能数据, 金融服务,后期的售后,物流,仓储,票据,大盘数据,天气数据以及工商信息等 等。同样地,明确具体的目标和业务定位后,梳理整个业务流程,从业务数据中提 取原始数据,原始数据里的行为动作有登录行为、上货上架行为、购买行为等。
1.2)数据预处理单元的输入为原始数据,用于对原始数据进行预处理,包括 数据清洗、标准化等等。考虑到后续需要基于人工智能和机器学习进行职业分类预 测,因此,数据应处理为满足训练和分类预测要求的格式,如缺失值填充,异常值 处理,离散值编码,one-hot编码,重复样本冗余处理,日期特征量化等内容。数 据预处理过程是完全非标准化的步骤,需要结果业务数据的质量和分布情况做多轮 的调参和优化,还需要依据业务实际情况和模型最终效果来确定。
1.3)数据标注单元用于获取用户的职业身份并根据用户的职业身份为原始数 据标注职业标签,每个用户拥有至少一个职业身份。
可以理解的是,一个用户关联多项数据,同时可能具有多种职业,如用户的登 录数据、购买数据等等,职业为销售、管理、采购、司机等,为了便于后续分别进 行每个职业的识别,需要对数据进行处理,将多职业用户的数据处理为多个样本, 这些样本的数据项内容一致,但是标签不同。
(2)模型构建模块2,用于构建多个不同类型的分类模型,本申请中,构建 的分类模型包括独立模型和融合模型,融合模型包括权重分配模块和多个独立模型, 权重分配模块用于为融合模型中的每个独立模型分配权重,独立模型为二分类模型, 二分类模型的类型包括但不限于Logistic Regression、GBDT、Xgboost和深度模型 Wide&Deep等。
一方面,使用独立模型可以进行职业预测,完成模型训练后,只需将待预测的 用户的相关数据输入模型中,即可得到分类结果,即该用户是否为该职业,因此, 一个二分类模型即可完成一种职业的判断。
另一方面,考虑到各种二分类模型各有优缺点,对于某些职业可能无法完成很 好地完成准确判断,因此,提出了融合模型。选择2个或多个二分类模型,将待预 测的用户的相关数据分别输入每个二分类模型中,每个二分类模型均输出一个判断 结果,再通过权重分配模块分别为每个二分类模型进行权重分配(可以考虑每个二 分类模型的预测准确性进行权重分配),融合多个二分类模型的判断结果作为最终 的结果。
可以理解的是,模型构建模块2构建得到的分类模型作为基模型,后续在模型 训练模块3中,通过模型选择、迭代训练、参数调节、模型评估,为每个职业分类 确定一个最优基模型,再融合成完整的用户职业预测模型。
(3)模型训练模块3,包括模型选择单元、迭代训练单元、参数调节单元和 模型评估单元。
31)模型选择单元中,为每种职业选择分类模型的依据为:训练分类模型并基 于训练好的分类模型进行职业的预测,记录分类模型的性能,为每种职业选择性能 最优的分类模型。
在进行模型选择时,可以由工作人员根据实践经验为每种职业选择一个分类模型;也可以利用遍历选择的方式,每种职业分别尝试每种分类模型,挑选最优的分 类模型。值得注意的是,对于一个职业而言,可以先尝试所有的独立模型,再根据 独立模型的尝试结果反馈至模型构建模块2,构建融合模型并继续尝试。如果已经 尝试过所有的独立模型,则反馈至模型构建模型,选择表现较佳的独立模型进行融 合得到融合模型,再尝试融合模型的效果,这样缩短了模型选择时间,不需要遍历 所有的融合模型。
职业的种类有多个,每种职业的预测都是一个二分类任务,通过模型选择单元,对于每一个二分类任务都可以选择对自己有益的人工智能模型,保证每种职业预测 的效果,进而保证最后的用户职业预测模型的准确性。
32)迭代训练单元,用于对每种职业所对应的分类模型进行训练;参数调节单 元用于设置每个分类模型的模型参数可选范围;模型评估单元用于评估每种职业所 对应的分类模型的性能指标;
迭代训练单元、参数调节单元和模型评估单元相关联,一般来说,机器学习的 训练过程中需要进行参数调节。但是,由于企业的隐私性和时效性,本地只能获取 一小部分的加密数据,想要本地手动调参是不实际的,泛化性能肯定非常不足。因 此,设计了参数调节单元和模型评估单元,参数调节单元中,分别确定每种分类模 型的模型参数,对于模型参数(例如学习率、正则化参数等),设置各个模型参数 的上下限以及变化步长,基于模型参数的上下限以及变化步长生成每种分类模型的 每个模型参数的参数搜索网格;这样,可以让模型不断尝试,并通过模型评估单元 进行性能评估,直至达到尽可能好的指标,取得最优解。
参数调节单元中,一个具体的参数调节案例如下:在树模型中,模型训练参数 包括树的最大深度和正则化权重,首先确定树最大深度和正则化权重的取值范围, 例如树的最大深度可取集合为{3,5,7,9,11,13}(下限为3,上限为13,步长 为2),正则化权重的可取值集合为{0,0.5,1,1.5,2}(下限为0,上限为2,步 长为0.5),则参数调节单元会对树最大深度和正则化权重所有可能的参数组合进行 模型训练和模型评估单元的评估,最终保留最优的参数组合。
模型评估单元是通过某种指标来对训练好的模型的效果进行量化评估,评估指标包括但不限于损失函数值、AUC、模型准确率、模型召回率、F1-Score等,具体 选择哪种评估指标可根据业务目标接合指标的特点来选择具体的某个评估指标。
可以理解的是,对于融合模型,不能直接使用融合模型所涉及的独立模型的参数,而应当对融合模型中各个独立模型的模型参数再次进行搜索,直至融合模型取 得最优。
以LR模型为例,将本地手动调参的最终模型与上线后自动化构建出的模型比 较,在完整的用户数据集上,后者比前者高出15%的accuracy,同时AUC上升8.3%。
(4)职业预测模块4
职业预测模块4的预测结果可以供前端业务侧调度使用。可以通过配置实现自 动化预测,定期爬取数据输入职业预测模块4,预测的结果自动写入到hive表当中 即可。
用户职业预测的核心是多标签分类问题,为了兼顾可解释性和模型的最终效果,同时也是为了留出足够的探索空间,本申请使用“二元关联”的思路来构建用户职 业预测模型,简单来说就是把每个职业的预测变为一个二分类问题来建模;在每个 职业预测的模型构建上,利用Logistic Regression、GBDT、Xgboost和深度模型 Wide&Deep等进行模型构建。
最终,对于每种职业,都能找到表现效果最佳的分类模型,再将所有职业的分 类模型融合即得到最终的用户职业预测模型。
机器学习的本质是学习样本的特征与标签之间的关联。因此,有效的特征能大 幅提高预测效果。据此,本申请设计了特征生成模块5和特征筛选模块6,通过丰 富特征并筛选有效特征,以提高预测分类效果。
(5)特征生成模块5,用于提取原始数据的特征并对原始数据进行特征挖掘 得到新特征;特征生成模块5包括基础特征提取单元、特征衍生单元和交叉特征单 元,基础特征单元用于提取原始数据的特征,特征衍生单元用于根据预设置的业务 规则生成新的特征,交叉特征单元用于使用特征交叉法组合原始数据的特征得到的 特征得到新的特征。
基础特征提取单元即基于原始数据进行本领域中常用的特征的提取,得到原始数据的特征。
特征衍生单元中根据预设置的业务规则生成新的特征。因为大宗商品交易有其自身的特点,各个职业也有特定的行为,本申请按照基本数据结合实际情况,创造 出了很多业务规则,以衍生得到新的特征,如下:
比如,在点击行为里面有两种:“点击自家货物次数”、“点击所有货物次数”; 我们衍生出新特征:点击自家货物比=(点击自家货物次数/点击所有货物次数); 点击非自家货物比=1-(点击自家货物次数/点击所有货物次数);再如,原始数据 的特征为用户分别在上午、下午及晚上登录平台的次数,则衍生特征可以为用户在 上午、下午及晚上的登录次数比例,如:用户上午的登录次数比例=上午登录次 数/(上午登录次数+下午登录次数+晚上登录次数);
对于销售方而言,肯定很注重自己的货物情况,因此点击自己的货物次数肯定 很多,“点击自家货物比”占比也大;而对于采购方而言,往往公司不存在销售业 务,也就几乎没有点击自己货物这个行为,那么“点击非自家货物比”肯定极大;
再比如,对于老板和高管而言,他们也会在平台上浏览很多的货物、查看很多 的信息,但是由于公司购买程序和财务流程的原因,一般老板不会使用自己的账号 进行交易,而是看好之后让手下的“销售”或“财务”去交易;
基于此,通过特征衍生单元衍生出新特征:浏览交易比=“浏览点击总次 数”/“交易总次数”;老板看得多,买的少,因此浏览交易比很大;而财务销售等, 会有大量交易数据,因此浏览交易比偏小。
同理,可以通过对业务的伸入挖掘得到多种新特征,如“看货购买比”、“上架 购买比”等等,以LR模型为例,加入了这些新特征之后,相比于只使用原始特征, 最终accuracy上升8%,AUC上升5%。
样本以用户为准来构建,一条样本对应一个用户(不排除个别用户拥有两种职业);特征主要是基于用户的原始数据行为来提取的:一方面,用户数据的原始行 为作为基础特征,另一方面针对不同职业的业务形态和行为,我们探索出了更多的 衍生特征(例如,点击自家货物与浏览总量比例),最后我们还是用了特征交叉方 法,让模型自动化组合新的特征;针对特定的业务逻辑、和初步的模型分析,迭代 地进行新特征的挖掘和补充。
(6)特征筛选模块6,用于对原始特征进行筛选得到有效特征,原始特征为 原始数据的特征及挖掘得到的新特征;特征筛选模块6包括评估单元和多个筛选单 元,每个筛选单元搭载有一种特征筛选方式,评估单元用于对每个筛选单元的特征 筛选结果进行评估。
如果直接把所有特征放入模型,并不一定是最优解。因为大量的特征其实会引 入很多的重复信息和噪音,这些反而不利于模型的训练;因此本申请在这一个模块 使用了统计学的方法来筛选部分特征,具体包括方差分析,相关系数法,卡方检验 法,信息熵,基尼系数,过滤法,嵌入法等;最终筛选出一批特征输入模型。
需要注意的是,评估单元可以搭载一个机器学习模型和一个数据集,尝试数据 集选择不同特征时在机器学习模型上的表现,即可以确定筛选单元筛选的特征是否 合适有效。本实施例中,发现相关系数法筛选得到的特征的有效性最好,最后筛选 后的特征在400个以上。
筛选单元中,每种特征筛选方式的相关参数的设置也实现了自动化调参,自动 探索最合适的划分界限,而不是指定一个固定不变的参数。
引入特征生成模块5和特征筛选模块6后,原始数据集依次经过特征生成模块 5和特征筛选模块6处理后得到特征数据集,在迭代训练单元使用特征数据集对每 种职业所对应的二分类模型进行训练。
(7)用户画像分析模块7,用户画像分析模块7的输入为职业预测模块4中 的用户职业预测模型的中间结果,输出为用户画像。
得益于系统的高度模块化,除了部署模型用于用户职业的预测,可以用其中的 中间结果做很多的分析;比如这里本申请使用LR的模型参数结果,来对每个职业 进行统计学分析(包括单个职业权重比重、横向对比其他职业等等),可以得到每 个职业的特征权重(包括正向特征与负面特征),最终得到一个职业较为全面的行 为数据分析报告,这更有利于对于模型预测的可解释性,而且便于非技术的业务人 员来进行数据分析,进行精准的会员运营。
(8)用户职业预测系统还设计了自动迭代机制,如下:
同样,在系统上线得到用户职业预测模型后,需要定期更新迭代(比如两周更 新一次)。本申请中,通过配置实现自动化定期更新。每次迭代时,原始数据集构 建模块1自动获取最新的业务数据以构建数据集,特征生成模块5自动进行特征挖 掘和特征衍生,特征筛选模块6自动进行有效特征筛选,模型训练模块3中,自动 进行模型选择、模型训练、参数调节、模型评估等,整个流程全程自动化实现。
本实施例中,系统定时运行(比如两周更新一次),会自动爬取所需数据,自 动实现特征生成和特征筛选;对于具体的某一个基模型,也是程序根据AUC值来 挑选最佳方案;模型训练时,根据最新的数据,在后端不断进行模型更新,对于模 型参数(包括学习率、正则化参数、树模型的深度与个数等等),进行可选范围的 网格搜索,让模型不断尝试,直到达到尽可能好的指标。
整个用户职业预测系统的模块化高,解耦性好,各模块条理清晰、步骤清楚。 首先,系统维护更方便,可解释性非常好,当系统出现bug时,可以飞快定位出问 题的模块,然后进行修正;其次,系统后期更新迭代更加方便,比如特征生成模块 5添加几个新的特征,或者在模型构建模块2加入一个新的模型(如DCN模型), 只需要按照写好的接口导入即可,而不需要重写整个系统;最后,系统给出了很多 外接接口,可以直接调用中间结果,以此为基础可以添加很多拓展功能,比如本申 请据此实现了用户画像分析功能。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员 无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领 域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的 实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (9)
1.一种用户职业预测系统,其特征在于,包括:
原始数据集构建模块,用于获取原始数据并为原始数据标注职业标签生成原始数据集,所述原始数据集由多个样本构成,一个所述样本标注有一个用户的一个职业标签;
模型构建模块,用于构建多个不同类型的分类模型;
模型训练模块,包括模型选择单元、迭代训练单元、参数调节单元和模型评估单元;所述模型选择单元用于为每种职业选择分类模型;所述迭代训练单元用于对每种职业所对应的分类模型进行训练;所述参数调节单元用于设置每个分类模型的模型参数可选范围;所述模型评估单元用于评估每种职业所对应的分类模型的性能指标;
职业预测模块,所述职业预测模块搭载有用户职业预测模型,所述用户职业预测模型由多个训练好的分类模型组合得到,每个分类模型用于进行一种职业的预测。
2.根据权利要求1所述的一种用户职业预测系统,其特征在于,还包括:
特征生成模块,用于提取原始数据的特征并对原始数据进行特征挖掘得到新特征;
特征筛选模块,用于对原始特征进行筛选得到有效特征,所述原始特征为原始数据的特征及挖掘得到的新特征;
所述原始数据集依次经过特征生成模块和特征筛选模块处理后得到特征数据集,所述迭代训练单元使用特征数据集对每种职业所对应的二分类模型进行训练。
3.根据权利要求2所述的一种用户职业预测系统,其特征在于,所述特征生成模块包括基础特征提取单元、特征衍生单元和交叉特征单元,所述基础特征单元用于提取原始数据的特征,所述特征衍生单元用于根据预设置的业务规则生成新的特征,所述交叉特征单元用于使用特征交叉法组合原始数据的特征得到的特征得到新的特征。
4.根据权利要求2所述的一种用户职业预测系统,其特征在于,所述特征筛选模块包括评估单元和多个筛选单元,每个所述筛选单元搭载有一种特征筛选方式,所述评估单元用于对每个筛选单元的特征筛选结果进行评估。
5.根据权利要求1所述的一种用户职业预测系统,其特征在于,所述原始数据集构建模块包括数据选择单元、数据预处理单元和数据标注单元,所述数据选择单元用于获取业务数据并从业务数据中提取原始数据,每条原始数据对应一个用户;所述数据预处理单元用于对原始数据进行预处理;所述数据标注单元用于获取用户的职业身份并根据用户的职业身份为原始数据标注职业标签,每个用户拥有至少一个职业身份。
6.根据权利要求1所述的一种用户职业预测系统,其特征在于,所述模型构建模块中,构建的分类模型包括独立模型和融合模型,所述融合模型包括权重分配模块和多个独立模型,所述权重分配模块用于为融合模型中的每个独立模型分配权重,所述独立模型为二分类模型。
7.根据权利要求1所述的一种用户职业预测系统,其特征在于,所述参数调节单元中,分别确定每种分类模型的模型参数,设置各个模型参数的上下限以及变化步长,基于模型参数的上下限以及变化步长生成每种分类模型的每个模型参数的参数搜索网格。
8.根据权利要求1所述的一种用户职业预测系统,其特征在于,所述模型选择单元中,为每种职业选择分类模型的依据为:训练分类模型并基于训练好的分类模型进行职业的预测,记录分类模型的性能,为每种职业选择性能最优的分类模型。
9.根据权利要求1所述的一种用户职业预测系统,其特征在于,还包括用户画像分析模块,所述用户画像分析模块的输入为职业预测模块中的用户职业预测模型的中间结果,输出为用户画像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211175367.8A CN115760174A (zh) | 2022-09-26 | 2022-09-26 | 一种用户职业预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211175367.8A CN115760174A (zh) | 2022-09-26 | 2022-09-26 | 一种用户职业预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115760174A true CN115760174A (zh) | 2023-03-07 |
Family
ID=85351988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211175367.8A Pending CN115760174A (zh) | 2022-09-26 | 2022-09-26 | 一种用户职业预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115760174A (zh) |
-
2022
- 2022-09-26 CN CN202211175367.8A patent/CN115760174A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheung et al. | A multi-perspective knowledge-based system for customer service management | |
Radhi et al. | Optimal configuration of remanufacturing supply network with return quality decision | |
US11526695B2 (en) | Evaluating impact of process automation on KPIs | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
Ramos et al. | A Non-Functional Requirements Recommendation System for Scrum-based Projects. | |
KR102520651B1 (ko) | 독립적 상품추천 서비스 구축시스템 및 이를 이용한 상품추천 서비스 제공방법 | |
US20220374814A1 (en) | Resource configuration and management system for digital workers | |
CN115423578A (zh) | 基于微服务容器化云平台的招投标方法和系统 | |
Lutz et al. | Analyzing industry stakeholders using open-source competitive intelligence–a case study in the automotive supply industry | |
CN116663909A (zh) | 供应商风险识别数据处理方法及装置 | |
Gerlich et al. | Artificial intelligence as toolset for analysis of public opinion and social interaction in marketing: identification of micro and nano influencers | |
CN115456745A (zh) | 小微企业画像构建方法及装置 | |
Espadinha-Cruz et al. | Lead management optimization using data mining: A case in the telecommunications sector | |
CN114493686A (zh) | 一种运营内容生成推送方法及装置 | |
Skulimowski | A foresight support system to manage knowledge on information society evolution | |
CN117746546A (zh) | 基于叫号器的服务业务办理方法及系统 | |
CN115760174A (zh) | 一种用户职业预测系统 | |
US20140149186A1 (en) | Method and system of using artifacts to identify elements of a component business model | |
US11270253B2 (en) | Cognitive procurement | |
CN114299350A (zh) | 一种基于机器学习的人工信贷审核信息推荐方法及系统 | |
Roldán Bravo et al. | Supply chain 4.0 ambidexterity and lean supply chain management: interrelationships and effect on the focal firm’s operational performance | |
US20200342302A1 (en) | Cognitive forecasting | |
Mohanta et al. | Performance analysis & evaluation of ERP: a case study of Indian small manufacturing enterprises | |
KR102491666B1 (ko) | 기업-프리랜서의 매칭률 향상을 위한 에이전트 시스템 | |
CN117473457B (zh) | 基于数字化业务的大数据挖掘方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |