CN115760174A

CN115760174A - 一种用户职业预测系统

Info

Publication number: CN115760174A
Application number: CN202211175367.8A
Authority: CN
Inventors: 程夏莹; 易力; 文扬; 黄天立; 付必宇
Original assignee: Ouye Yunshang Co ltd
Current assignee: Ouye Yunshang Co ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-03-07

Abstract

本发明涉及一种用户职业预测系统，包括：原始数据集构建模块，用于获取原始数据并为原始数据标注职业标签生成原始数据集；模型构建模块，用于构建多个不同类型的分类模型；模型训练模块，包括模型选择单元、迭代训练单元、参数调节单元和模型评估单元；职业预测模块，职业预测模块搭载有用户职业预测模型，用户职业预测模型由多个训练好的分类模型组合得到，每个分类模型用于进行一种职业的预测。与现有技术相比，本发明使用“二元关联”的思路，将每个职业的预测变为一个二分类问题来构建用户职业预测模型，兼顾可解释性和模型的最终效果，同时留出了足够的探索空间，能够解决多标签问题，使用户职业预测得到最有效的分析。

Description

一种用户职业预测系统

技术领域

本发明涉及用户职业预测方法，尤其是涉及一种针对商品交易的用户职业预测方法。

背景技术

随着企业平台业务的持续拓展和服务种类的持续增多，平台注册用户数量也日益增加，为使平台更好服务于特定用户，需要尽可能对用户进行职业分类。

用户的职业分类可以方便后期针对不同人群进行精准的消息投放和推荐。在企业当前的消息推送、推荐业务中，消息推送不够精准，这导致有很多用户会收到大量对自身无用的信息短信。这种类似无差别的全局推送，在业务增长、消息剧增的情况下，会给用户带来很糟糕的使用体验，让用户反感，进而可能影响用户的交易行为。

同时，准确的职业分类还可以完成对用户画像的分析，让企业更进一步了解用户的需求。

在企业当前的职业身份识别中，采用的是关键特征检测的方法来鉴别用户职业身份，例如登录物流平台的是司机和仓储、有大量购买行为的用户可能是采购等等。但是此方法效果并不好，一来只通过“个别行为敲定身份”必定不适合所有用户，泛化能力弱，考虑也不周全；二来很多职业身份并没有明确的行为对应，比如老板、高管。总结来说，此方法有着泛化能力弱、缺乏综合性全面性视角等问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用户职业预测系统。

本发明的目的可以通过以下技术方案来实现：

一种用户职业预测系统，包括：

原始数据集构建模块，用于获取原始数据并为原始数据标注职业标签生成原始数据集，所述原始数据集由多个样本构成，一个所述样本标注有一个用户的一个职业标签；

模型构建模块，用于构建多个不同类型的分类模型；

模型训练模块，包括模型选择单元、迭代训练单元、参数调节单元和模型评估单元；所述模型选择单元用于为每种职业选择分类模型；所述迭代训练单元用于对每种职业所对应的分类模型进行训练；所述参数调节单元用于设置每个分类模型的模型参数可选范围；所述模型评估单元用于评估每种职业所对应的分类模型的性能指标；

职业预测模块，所述职业预测模块搭载有用户职业预测模型，所述用户职业预测模型由多个训练好的分类模型组合得到，每个分类模型用于进行一种职业的预测。

进一步地，用户职业预测系统还包括：

特征生成模块，用于提取原始数据的特征并对原始数据进行特征挖掘得到新特征；

特征筛选模块，用于对原始特征进行筛选得到有效特征，所述原始特征为原始数据的特征及挖掘得到的新特征；

所述原始数据集依次经过特征生成模块和特征筛选模块处理后得到特征数据集，所述迭代训练单元使用特征数据集对每种职业所对应的二分类模型进行训练。

进一步地，所述特征生成模块包括基础特征提取单元、特征衍生单元和交叉特征单元，所述基础特征单元用于提取原始数据的特征，所述特征衍生单元用于根据预设置的业务规则生成新的特征，所述交叉特征单元用于使用特征交叉法组合原始数据的特征得到的特征得到新的特征。

进一步地，所述特征筛选模块包括评估单元和多个筛选单元，每个所述筛选单元搭载有一种特征筛选方式，所述评估单元用于对每个筛选单元的特征筛选结果进行评估。

进一步地，所述原始数据集构建模块包括数据选择单元、数据预处理单元和数据标注单元，所述数据选择单元用于获取业务数据并从业务数据中提取原始数据，每条原始数据对应一个用户；所述数据预处理单元用于对原始数据进行预处理；所述数据标注单元用于获取用户的职业身份并根据用户的职业身份为原始数据标注职业标签，每个用户拥有至少一个职业身份。

进一步地，所述模型构建模块中，构建的分类模型包括独立模型和融合模型，所述融合模型包括权重分配模块和多个独立模型，所述权重分配模块用于为融合模型中的每个独立模型分配权重，所述独立模型为二分类模型。

进一步地，所述参数调节单元中，分别确定每种分类模型的模型参数，设置各个模型参数的上下限以及变化步长，基于模型参数的上下限以及变化步长生成每种分类模型的每个模型参数的参数搜索网格。

进一步地，所述模型选择单元中，为每种职业选择分类模型的依据为：训练分类模型并基于训练好的分类模型进行职业的预测，记录分类模型的性能，为每种职业选择性能最优的分类模型。

进一步地，用户职业预测系统还包括用户画像分析模块，所述用户画像分析模块的输入为职业预测模块中的用户职业预测模型的中间结果，输出为用户画像。

与现有技术相比，本发明具有以下有益效果：

(1)使用“二元关联”的思路，将每个职业的预测变为一个二分类问题来构建用户职业预测模型，兼顾可解释性和模型的最终效果，同时留出了足够的探索空间，能够解决多标签问题，使用户职业预测得到最有效的分析。

(2)原始数据只是记录了最基础的用户行为，对于人工智能模型训练而言远远不够，针对实际大宗商品交易数据中特征挖掘不足的问题，本申请设计了特征生成模块，一是提取原始数据的特征，二是结合可能出现的业务形态动作深度挖掘了各种组合特征、分解特征，三是通过特征组合自动生成多种特征，大大丰富了数据特征。

(3)为避免过多的特征造成噪声的引入，进而影响最终效果，本申请设计了特征筛选模块，特征筛选模块提供了多种特征筛选方式，从而能全方面考量特征，筛选出对模型有效的部分特征。

(4)用户职业预测模型的效果实际上是由每个职业的分类模型的表现效果决定的，通过模型选择单元，为每种职业选择最优的分类模型，通过参数调节单元，为每个分类模型寻找最优的模型参数，通过两次寻优得到每种职业表现效果最佳的分类模型，进而融合得到整个用户职业预测模型，保证用户职业预测模型的效果最佳。

(5)为每种职业选择分类模型时，除了独立模型外，还考虑了多个独立模型融合后作为一种职业的分类模型，提升了每种职业的预测效果。

(6)系统解耦性很强，各个模块相互独立，后期继续进行优化和迭代非常方便快捷，而且易于扩展新功能。

(7)利用用户职业预测模型的中间参数进行用户画像分析，为业务工作提供了分析依据。

附图说明

图1为用户职业预测系统的架构示意图；

图2为用户职业预测系统的搭建与部署示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例，本发明的保护范围不限于下述的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1：

在钢铁大宗商品交易中，进行用户职业的预测是企业消息推送的重要一环，本申请利用会员登录数据、行为数据、交易数据等数据，使用机器学习算法，设计了一种用户职业预测系统，对用户的职业进行预测。一种用户职业预测系统，如图1 所示，包括：

原始数据集构建模块1，用于获取原始数据并为原始数据标注职业标签生成原始数据集，原始数据集由多个样本构成，一个样本标注有一个用户的一个职业标签；

模型构建模块2，用于构建多个不同类型的分类模型；

模型训练模块3，包括模型选择单元、迭代训练单元、参数调节单元和模型评估单元；模型选择单元用于为每种职业选择分类模型；迭代训练单元用于对每种职业所对应的分类模型进行训练；参数调节单元用于设置每个分类模型的模型参数可选范围；模型评估单元用于评估每种职业所对应的分类模型的性能指标；

职业预测模块4，职业预测模块4搭载有用户职业预测模型，用户职业预测模型由多个训练好的分类模型组合得到，每个分类模型用于进行一种职业的预测。

用户职业预测问题看似是多分类问题，实际上是多标签问题，因为根据实际业务场景，单个用户可能会拥有多个职业(比如销售总监，既是销售，又是高管)，因此用户职业预测模型建模方面需要针对该问题特别进行处理，使模型进行最有效化的分析。

用户职业预测系统还包括特征生成模块5、特征筛选模块6和用户画像分析模块7，下面，介绍整个用户职业预测系统的搭建及部署流程，并分别对用户职业预测系统中的各个模块进行说明。

(1)原始数据集构建模块1，包括数据选择单元、数据预处理单元和数据标注单元，数据选择单元用于获取业务数据并从业务数据中提取原始数据，每条原始数据对应一个用户；数据预处理单元用于对原始数据进行预处理；数据标注单元用于获取用户的职业身份并根据用户的职业身份为原始数据标注职业标签，每个用户拥有至少一个职业身份。

1.1)在实际应用时，数据选择单元连接企业的平台及数据库，从而获取业务数据并从业务数据中提取原始数据。在获取业务数据时，首先要明确业务需求，以及相关的业务行为，大宗B2B业务的复杂度远比传统电商业务复杂度高，涉及到较长的供应链模块，复杂的业务模块，丰富的需求场景和多元的产品结构；因此，首先理解大宗商品电商业务中，各种职业属性的日常业务工作(例如销售、采购、仓储)，对业务进行区分和分类(例如上货上架、点击现货等等)，再针对应用场景，明确具体的目标和业务定位，再选择相应的业务数据即可。

获取业务数据后，需要从业务数据中提取原始数据；B2B平台供应链业务链路很多，包括以会员用户为主的交易数据，包括卖家的挂货数据，平台的功能数据，金融服务，后期的售后，物流，仓储，票据，大盘数据，天气数据以及工商信息等等。同样地，明确具体的目标和业务定位后，梳理整个业务流程，从业务数据中提取原始数据，原始数据里的行为动作有登录行为、上货上架行为、购买行为等。

1.2)数据预处理单元的输入为原始数据，用于对原始数据进行预处理，包括数据清洗、标准化等等。考虑到后续需要基于人工智能和机器学习进行职业分类预测，因此，数据应处理为满足训练和分类预测要求的格式，如缺失值填充，异常值处理，离散值编码，one-hot编码，重复样本冗余处理，日期特征量化等内容。数据预处理过程是完全非标准化的步骤，需要结果业务数据的质量和分布情况做多轮的调参和优化，还需要依据业务实际情况和模型最终效果来确定。

1.3)数据标注单元用于获取用户的职业身份并根据用户的职业身份为原始数据标注职业标签，每个用户拥有至少一个职业身份。

可以理解的是，一个用户关联多项数据，同时可能具有多种职业，如用户的登录数据、购买数据等等，职业为销售、管理、采购、司机等，为了便于后续分别进行每个职业的识别，需要对数据进行处理，将多职业用户的数据处理为多个样本，这些样本的数据项内容一致，但是标签不同。

(2)模型构建模块2，用于构建多个不同类型的分类模型，本申请中，构建的分类模型包括独立模型和融合模型，融合模型包括权重分配模块和多个独立模型，权重分配模块用于为融合模型中的每个独立模型分配权重，独立模型为二分类模型，二分类模型的类型包括但不限于Logistic Regression、GBDT、Xgboost和深度模型 Wide&Deep等。

一方面，使用独立模型可以进行职业预测，完成模型训练后，只需将待预测的用户的相关数据输入模型中，即可得到分类结果，即该用户是否为该职业，因此，一个二分类模型即可完成一种职业的判断。

另一方面，考虑到各种二分类模型各有优缺点，对于某些职业可能无法完成很好地完成准确判断，因此，提出了融合模型。选择2个或多个二分类模型，将待预测的用户的相关数据分别输入每个二分类模型中，每个二分类模型均输出一个判断结果，再通过权重分配模块分别为每个二分类模型进行权重分配(可以考虑每个二分类模型的预测准确性进行权重分配)，融合多个二分类模型的判断结果作为最终的结果。

可以理解的是，模型构建模块2构建得到的分类模型作为基模型，后续在模型训练模块3中，通过模型选择、迭代训练、参数调节、模型评估，为每个职业分类确定一个最优基模型，再融合成完整的用户职业预测模型。

(3)模型训练模块3，包括模型选择单元、迭代训练单元、参数调节单元和模型评估单元。

31)模型选择单元中，为每种职业选择分类模型的依据为：训练分类模型并基于训练好的分类模型进行职业的预测，记录分类模型的性能，为每种职业选择性能最优的分类模型。

在进行模型选择时，可以由工作人员根据实践经验为每种职业选择一个分类模型；也可以利用遍历选择的方式，每种职业分别尝试每种分类模型，挑选最优的分类模型。值得注意的是，对于一个职业而言，可以先尝试所有的独立模型，再根据独立模型的尝试结果反馈至模型构建模块2，构建融合模型并继续尝试。如果已经尝试过所有的独立模型，则反馈至模型构建模型，选择表现较佳的独立模型进行融合得到融合模型，再尝试融合模型的效果，这样缩短了模型选择时间，不需要遍历所有的融合模型。

职业的种类有多个，每种职业的预测都是一个二分类任务，通过模型选择单元，对于每一个二分类任务都可以选择对自己有益的人工智能模型，保证每种职业预测的效果，进而保证最后的用户职业预测模型的准确性。

32)迭代训练单元，用于对每种职业所对应的分类模型进行训练；参数调节单元用于设置每个分类模型的模型参数可选范围；模型评估单元用于评估每种职业所对应的分类模型的性能指标；

迭代训练单元、参数调节单元和模型评估单元相关联，一般来说，机器学习的训练过程中需要进行参数调节。但是，由于企业的隐私性和时效性，本地只能获取一小部分的加密数据，想要本地手动调参是不实际的，泛化性能肯定非常不足。因此，设计了参数调节单元和模型评估单元，参数调节单元中，分别确定每种分类模型的模型参数，对于模型参数(例如学习率、正则化参数等)，设置各个模型参数的上下限以及变化步长，基于模型参数的上下限以及变化步长生成每种分类模型的每个模型参数的参数搜索网格；这样，可以让模型不断尝试，并通过模型评估单元进行性能评估，直至达到尽可能好的指标，取得最优解。

参数调节单元中，一个具体的参数调节案例如下：在树模型中，模型训练参数包括树的最大深度和正则化权重，首先确定树最大深度和正则化权重的取值范围，例如树的最大深度可取集合为{3，5，7，9，11，13}(下限为3，上限为13，步长为2)，正则化权重的可取值集合为{0，0.5，1，1.5，2}(下限为0，上限为2，步长为0.5)，则参数调节单元会对树最大深度和正则化权重所有可能的参数组合进行模型训练和模型评估单元的评估，最终保留最优的参数组合。

模型评估单元是通过某种指标来对训练好的模型的效果进行量化评估，评估指标包括但不限于损失函数值、AUC、模型准确率、模型召回率、F1-Score等，具体选择哪种评估指标可根据业务目标接合指标的特点来选择具体的某个评估指标。

可以理解的是，对于融合模型，不能直接使用融合模型所涉及的独立模型的参数，而应当对融合模型中各个独立模型的模型参数再次进行搜索，直至融合模型取得最优。

以LR模型为例，将本地手动调参的最终模型与上线后自动化构建出的模型比较，在完整的用户数据集上，后者比前者高出15％的accuracy，同时AUC上升8.3％。

(4)职业预测模块4

职业预测模块4的预测结果可以供前端业务侧调度使用。可以通过配置实现自动化预测，定期爬取数据输入职业预测模块4，预测的结果自动写入到hive表当中即可。

用户职业预测的核心是多标签分类问题，为了兼顾可解释性和模型的最终效果，同时也是为了留出足够的探索空间，本申请使用“二元关联”的思路来构建用户职业预测模型，简单来说就是把每个职业的预测变为一个二分类问题来建模；在每个职业预测的模型构建上，利用Logistic Regression、GBDT、Xgboost和深度模型 Wide&Deep等进行模型构建。

最终，对于每种职业，都能找到表现效果最佳的分类模型，再将所有职业的分类模型融合即得到最终的用户职业预测模型。

机器学习的本质是学习样本的特征与标签之间的关联。因此，有效的特征能大幅提高预测效果。据此，本申请设计了特征生成模块5和特征筛选模块6，通过丰富特征并筛选有效特征，以提高预测分类效果。

(5)特征生成模块5，用于提取原始数据的特征并对原始数据进行特征挖掘得到新特征；特征生成模块5包括基础特征提取单元、特征衍生单元和交叉特征单元，基础特征单元用于提取原始数据的特征，特征衍生单元用于根据预设置的业务规则生成新的特征，交叉特征单元用于使用特征交叉法组合原始数据的特征得到的特征得到新的特征。

基础特征提取单元即基于原始数据进行本领域中常用的特征的提取，得到原始数据的特征。

特征衍生单元中根据预设置的业务规则生成新的特征。因为大宗商品交易有其自身的特点，各个职业也有特定的行为，本申请按照基本数据结合实际情况，创造出了很多业务规则，以衍生得到新的特征，如下：

比如，在点击行为里面有两种：“点击自家货物次数”、“点击所有货物次数”；我们衍生出新特征：点击自家货物比＝(点击自家货物次数/点击所有货物次数)；点击非自家货物比＝1-(点击自家货物次数/点击所有货物次数)；再如，原始数据的特征为用户分别在上午、下午及晚上登录平台的次数，则衍生特征可以为用户在上午、下午及晚上的登录次数比例，如：用户上午的登录次数比例＝上午登录次数/(上午登录次数+下午登录次数+晚上登录次数)；

对于销售方而言，肯定很注重自己的货物情况，因此点击自己的货物次数肯定很多，“点击自家货物比”占比也大；而对于采购方而言，往往公司不存在销售业务，也就几乎没有点击自己货物这个行为，那么“点击非自家货物比”肯定极大；

再比如，对于老板和高管而言，他们也会在平台上浏览很多的货物、查看很多的信息，但是由于公司购买程序和财务流程的原因，一般老板不会使用自己的账号进行交易，而是看好之后让手下的“销售”或“财务”去交易；

基于此，通过特征衍生单元衍生出新特征：浏览交易比＝“浏览点击总次数”/“交易总次数”；老板看得多，买的少，因此浏览交易比很大；而财务销售等，会有大量交易数据，因此浏览交易比偏小。

同理，可以通过对业务的伸入挖掘得到多种新特征，如“看货购买比”、“上架购买比”等等，以LR模型为例，加入了这些新特征之后，相比于只使用原始特征，最终accuracy上升8％，AUC上升5％。

样本以用户为准来构建，一条样本对应一个用户(不排除个别用户拥有两种职业)；特征主要是基于用户的原始数据行为来提取的：一方面，用户数据的原始行为作为基础特征，另一方面针对不同职业的业务形态和行为，我们探索出了更多的衍生特征(例如，点击自家货物与浏览总量比例)，最后我们还是用了特征交叉方法，让模型自动化组合新的特征；针对特定的业务逻辑、和初步的模型分析，迭代地进行新特征的挖掘和补充。

(6)特征筛选模块6，用于对原始特征进行筛选得到有效特征，原始特征为原始数据的特征及挖掘得到的新特征；特征筛选模块6包括评估单元和多个筛选单元，每个筛选单元搭载有一种特征筛选方式，评估单元用于对每个筛选单元的特征筛选结果进行评估。

如果直接把所有特征放入模型，并不一定是最优解。因为大量的特征其实会引入很多的重复信息和噪音，这些反而不利于模型的训练；因此本申请在这一个模块使用了统计学的方法来筛选部分特征，具体包括方差分析，相关系数法，卡方检验法，信息熵，基尼系数，过滤法，嵌入法等；最终筛选出一批特征输入模型。

需要注意的是，评估单元可以搭载一个机器学习模型和一个数据集，尝试数据集选择不同特征时在机器学习模型上的表现，即可以确定筛选单元筛选的特征是否合适有效。本实施例中，发现相关系数法筛选得到的特征的有效性最好，最后筛选后的特征在400个以上。

筛选单元中，每种特征筛选方式的相关参数的设置也实现了自动化调参，自动探索最合适的划分界限，而不是指定一个固定不变的参数。

引入特征生成模块5和特征筛选模块6后，原始数据集依次经过特征生成模块 5和特征筛选模块6处理后得到特征数据集，在迭代训练单元使用特征数据集对每种职业所对应的二分类模型进行训练。

(7)用户画像分析模块7，用户画像分析模块7的输入为职业预测模块4中的用户职业预测模型的中间结果，输出为用户画像。

得益于系统的高度模块化，除了部署模型用于用户职业的预测，可以用其中的中间结果做很多的分析；比如这里本申请使用LR的模型参数结果，来对每个职业进行统计学分析(包括单个职业权重比重、横向对比其他职业等等)，可以得到每个职业的特征权重(包括正向特征与负面特征)，最终得到一个职业较为全面的行为数据分析报告，这更有利于对于模型预测的可解释性，而且便于非技术的业务人员来进行数据分析，进行精准的会员运营。

(8)用户职业预测系统还设计了自动迭代机制，如下：

同样，在系统上线得到用户职业预测模型后，需要定期更新迭代(比如两周更新一次)。本申请中，通过配置实现自动化定期更新。每次迭代时，原始数据集构建模块1自动获取最新的业务数据以构建数据集，特征生成模块5自动进行特征挖掘和特征衍生，特征筛选模块6自动进行有效特征筛选，模型训练模块3中，自动进行模型选择、模型训练、参数调节、模型评估等，整个流程全程自动化实现。

本实施例中，系统定时运行(比如两周更新一次)，会自动爬取所需数据，自动实现特征生成和特征筛选；对于具体的某一个基模型，也是程序根据AUC值来挑选最佳方案；模型训练时，根据最新的数据，在后端不断进行模型更新，对于模型参数(包括学习率、正则化参数、树模型的深度与个数等等)，进行可选范围的网格搜索，让模型不断尝试，直到达到尽可能好的指标。

整个用户职业预测系统的模块化高，解耦性好，各模块条理清晰、步骤清楚。首先，系统维护更方便，可解释性非常好，当系统出现bug时，可以飞快定位出问题的模块，然后进行修正；其次，系统后期更新迭代更加方便，比如特征生成模块 5添加几个新的特征，或者在模型构建模块2加入一个新的模型(如DCN模型)，只需要按照写好的接口导入即可，而不需要重写整个系统；最后，系统给出了很多外接接口，可以直接调用中间结果，以此为基础可以添加很多拓展功能，比如本申请据此实现了用户画像分析功能。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种用户职业预测系统，其特征在于，包括：

模型构建模块，用于构建多个不同类型的分类模型；

2.根据权利要求1所述的一种用户职业预测系统，其特征在于，还包括：

3.根据权利要求2所述的一种用户职业预测系统，其特征在于，所述特征生成模块包括基础特征提取单元、特征衍生单元和交叉特征单元，所述基础特征单元用于提取原始数据的特征，所述特征衍生单元用于根据预设置的业务规则生成新的特征，所述交叉特征单元用于使用特征交叉法组合原始数据的特征得到的特征得到新的特征。

4.根据权利要求2所述的一种用户职业预测系统，其特征在于，所述特征筛选模块包括评估单元和多个筛选单元，每个所述筛选单元搭载有一种特征筛选方式，所述评估单元用于对每个筛选单元的特征筛选结果进行评估。

5.根据权利要求1所述的一种用户职业预测系统，其特征在于，所述原始数据集构建模块包括数据选择单元、数据预处理单元和数据标注单元，所述数据选择单元用于获取业务数据并从业务数据中提取原始数据，每条原始数据对应一个用户；所述数据预处理单元用于对原始数据进行预处理；所述数据标注单元用于获取用户的职业身份并根据用户的职业身份为原始数据标注职业标签，每个用户拥有至少一个职业身份。

6.根据权利要求1所述的一种用户职业预测系统，其特征在于，所述模型构建模块中，构建的分类模型包括独立模型和融合模型，所述融合模型包括权重分配模块和多个独立模型，所述权重分配模块用于为融合模型中的每个独立模型分配权重，所述独立模型为二分类模型。

7.根据权利要求1所述的一种用户职业预测系统，其特征在于，所述参数调节单元中，分别确定每种分类模型的模型参数，设置各个模型参数的上下限以及变化步长，基于模型参数的上下限以及变化步长生成每种分类模型的每个模型参数的参数搜索网格。

8.根据权利要求1所述的一种用户职业预测系统，其特征在于，所述模型选择单元中，为每种职业选择分类模型的依据为：训练分类模型并基于训练好的分类模型进行职业的预测，记录分类模型的性能，为每种职业选择性能最优的分类模型。

9.根据权利要求1所述的一种用户职业预测系统，其特征在于，还包括用户画像分析模块，所述用户画像分析模块的输入为职业预测模块中的用户职业预测模型的中间结果，输出为用户画像。