CN113240213A - 基于神经网络和树模型的人员甄选方法、装置及设备 - Google Patents
基于神经网络和树模型的人员甄选方法、装置及设备 Download PDFInfo
- Publication number
- CN113240213A CN113240213A CN202110778099.8A CN202110778099A CN113240213A CN 113240213 A CN113240213 A CN 113240213A CN 202110778099 A CN202110778099 A CN 202110778099A CN 113240213 A CN113240213 A CN 113240213A
- Authority
- CN
- China
- Prior art keywords
- user data
- field
- historical user
- data
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000003066 decision tree Methods 0.000 claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 101
- 238000012545 processing Methods 0.000 claims description 91
- 238000012216 screening Methods 0.000 claims description 44
- 230000002159 abnormal effect Effects 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 238000010187 selection method Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000003190 augmentative effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于神经网络和树模型的人员甄选方法、装置、设备及介质,涉及人工智能技术,若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至梯度提升决策树模型、卷积神经网络、第一LightGBM模型、第二LightGBM模型进行运算,得到与待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集,有助于对采集到的数据进行加工和分析,全方位地对候选人的特征进行计算和筛选,对合格的代理人进行多维度画像,提高了数据利用率。
Description
技术领域
本发明涉及人工智能的智能决策技术领域,尤其涉及一种基于神经网络和树模型的人员甄选方法、装置、设备及介质。
背景技术
目前,在面试场景下,会基于面试官与面试人员进行的面试交谈、笔试考试、在线考试等环节,收集到与面试人员越多越多维度的用户信息。但是这些面试过程中收集到的用户数据仅仅是存储在服务器实现简单的数据存储,并未基于所收集得到的用户数据进行智能化的深度挖掘以得到更多的用户参考数据,降低了数据的利用率而导致了数据孤岛的现象,而且面试官需要获取面试过程中获取数据后需人工分析计算得到所需结果,降低了数据处理的效率。
发明内容
本发明实施例提供了一种基于神经网络和树模型的人员甄选方法、装置、设备及介质,旨在解决现有技术中在面试场景下未基于所收集得到的用户数据进行智能化的深度挖掘以得到更多的用户参考数据,降低了数据的利用率而导致了数据孤岛的现象,而且面试官需要获取面试过程中获取数据后需人工分析计算得到所需结果,降低了数据处理的效率的问题。
第一方面,本发明实施例提供了一种基于神经网络和树模型的人员甄选方法,其包括:
获取初始历史用户数据集,将所述初始历史用户数据集进行数据预处理、核心字段因子提取及字段因子维度划分,得到与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集,并根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合;其中,所述初始历史用户数据集中包括多条初始历史用户数据,各条初始历史用户数据中包括字段信息的维度及个数均相同;
以各条初始历史用户数据对应的维度划分数据子集及与每一维度划分数据子集分别对应的输出结果取值集合为第一训练集对待训练梯度提升决策树模型进行训练,得到梯度提升决策树模型;
选取各条初始历史用户数据对应的维度划分数据子集中作为输入数据的维度划分数据子集,并输入至所述梯度提升决策树模型进行运算,得到与各条初始历史用户数据对应的多维度输出结果;
以各条初始历史用户数据对应的多维度输出结果为第二训练集对待训练卷积神经网络进行训练,得到卷积神经网络;
以各条初始历史用户数据对应的维度划分数据子集为第三训练集对待训练第一LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第一输出结果的第一LightGBM模型;
以各条初始历史用户数据对应的维度划分数据子集为第四训练集对待训练第二LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第二输出结果的第二LightGBM模型;其中,所述第二输出结果与所述第一输出结果不相同;以及
若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集;其中,每一待分析用户数据分别对应的综合预测结果集包括所述梯度提升决策树模型输出的第一预测结果,所述卷积神经网络输出的第二预测结果,所述第一LightGBM模型输出的第三预测结果和所述第二LightGBM模型输出的第四预测结果。
第二方面,本发明实施例提供了一种基于神经网络和树模型的人员甄选装置,其包括:
维度划分单元,用于获取初始历史用户数据集,将所述初始历史用户数据集进行数据预处理、核心字段因子提取及字段因子维度划分,得到与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集,并根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合;其中,所述初始历史用户数据集中包括多条初始历史用户数据,各条初始历史用户数据中包括字段信息的维度及个数均相同;
第一模型训练单元,用于以各条初始历史用户数据对应的维度划分数据子集及与每一维度划分数据子集分别对应的输出结果取值集合为第一训练集对待训练梯度提升决策树模型进行训练,得到梯度提升决策树模型;
多维度输出结果获取单元,用于选取各条初始历史用户数据对应的维度划分数据子集中作为输入数据的维度划分数据子集,并输入至所述梯度提升决策树模型进行运算,得到与各条初始历史用户数据对应的多维度输出结果;
第二模型训练单元,用于以各条初始历史用户数据对应的多维度输出结果为第二训练集对待训练卷积神经网络进行训练,得到卷积神经网络;
第三模型训练单元,用于以各条初始历史用户数据对应的维度划分数据子集为第三训练集对待训练第一LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第一输出结果的第一LightGBM模型;
第四模型训练单元,用于以各条初始历史用户数据对应的维度划分数据子集为第四训练集对待训练第二LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第二输出结果的第二LightGBM模型;其中,所述第二输出结果与所述第一输出结果不相同;以及
综合预测结果集获取单元,用于若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集;其中,每一待分析用户数据分别对应的综合预测结果集包括所述梯度提升决策树模型输出的第一预测结果,所述卷积神经网络输出的第二预测结果,所述第一LightGBM模型输出的第三预测结果和所述第二LightGBM模型输出的第四预测结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于神经网络和树模型的人员甄选方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于神经网络和树模型的人员甄选方法。
本发明实施例提供了一种基于神经网络和树模型的人员甄选方法、装置、设备及介质,若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至梯度提升决策树模型、卷积神经网络、第一LightGBM模型、第二LightGBM模型进行运算,得到与待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集,有助于对采集到的数据进行加工和分析,全方位地对候选人的特征进行计算和筛选,对合格的代理人进行多维度画像,提高了数据利用率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于神经网络和树模型的人员甄选方法的应用场景示意图;
图2为本发明实施例提供的基于神经网络和树模型的人员甄选方法的流程示意图;
图3为本发明实施例提供的基于神经网络和树模型的人员甄选装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于神经网络和树模型的人员甄选方法的应用场景示意图;图2为本发明实施例提供的基于神经网络和树模型的人员甄选方法的流程示意图,该基于神经网络和树模型的人员甄选方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S107。
S101、获取初始历史用户数据集,将所述初始历史用户数据集进行数据预处理、核心字段因子提取及字段因子维度划分,得到与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集,并根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合;其中,所述初始历史用户数据集中包括多条初始历史用户数据,各条初始历史用户数据中包括字段信息的维度及个数均相同。
在本实施例中,为了更清楚的理解技术方案,下面对所涉及到的执行主体进行详细介绍。其中,本申请是以服务器为执行主体来描述技术方案。
服务器,在服务器可以对初始历史用户数据集进行一系列数据处理(如数据预处理、核心字段因子提取及字段因子维度划分)得到与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集后,以维度划分数据子集为训练集分别训练出梯度提升决策树模型、卷积神经网络、第一LightGBM模型(其中,LightGBM模型也是一种进化版本的决策树模型)、第二LightGBM模型后,可以基于上述几个模型的输出结果综合分析待预测用户的多维度预测结果。而且还可以基于第一LightGBM模型和第二LightGBM模型组成的融合预测模型对待预测用户进行分析预测输出融合预测结果。通过上述多模型预测分析,输出用户在更多维度的预测结果,不仅提高了数据的利用率,而且提升了数据处理的效率。
用户端,用户使用用户端(如智能手机、平板电脑、笔记本电脑等智能终端)均可上传待分析用户数据集至服务器后,可由服务器中存储的多个预测模型进行预测后输出与待分析用户数据集对应的预测输出结果,该预测输出结果由服务器发送至用户端进行查看,也可以保存在服务器本地进行进一步的数据分析。
其中,当服务器接收到了其他服务器上传的用户数据或本地自动收集得到的用户数据形成了初始历史用户数据集后,由于初始历史用户数据集中可能存在缺失值、异常数据、非核心字段太多,字段维度未经过进行更细粒度的划分,此时在服务器中可以先进行数据预处理、核心字段因子提取及字段因子维度划分后再进行后续的其他处理。
在一实施例中,步骤S101包括:
将所述初始历史用户数据集进行缺失值补全及异常数据的预处理,得到初次处理历史用户数据集;
将所述初次处理历史用户数据集依次进行因子显著性检验和共线性检验,得到与所述初次处理历史用户数据集对应的筛选后字段因子集合;
将所述初次处理历史用户数据集中与所述筛选后字段因子集合相同的字段信息及字段取值保留,将所述初次处理历史用户数据集中与所述筛选后字段因子集合不相同的字段信息及字段取值删除,得到二次处理历史用户数据集;
将所述筛选后字段因子集合根据预先设置的字段信息分组策略进行字段因子分组,得到字段因子分组结果;其中,所述字段因子分组结果包括多个子分组结果;
将所述二次处理历史用户数据集中每一个二次处理历史用户数据根据所述字段因子分组结果对应进行字段因子划分,得到与每一个二次处理历史用户数据对应的维度划分数据子集;其中,每一个二次处理历史用户数据包括的维度划分数据子集的总个数与所述字段因子分组结果中包括的子分组结果的总个数相等。
在本实施例中,由于在所述初始历史用户数据集中可能有初始历史用户数据存在缺失值,或是初始历史用户数据为异常数据的情况,此时为了提高所述初始历史用户数据集中的数据有效性,可以进行数据预处理。
在一实施例中,将所述初始历史用户数据集进行缺失值补全及异常数据的预处理,得到初次处理历史用户数据集,包括:
将所述初始历史用户数据集中的缺失字段值根据对应字段平均值进行补缺,得到缺失值补全后用户数据集;
将所述缺失值补全后用户数据集中通过箱线图筛选出异常用户数据并进行删除,得到初次处理历史用户数据集。
在本实施例中,对数据进行预处理及进一步的核心字段提取的具体过程如下:
1)对各条初始历史用户数据先判断是否存在缺失值的情况:
若有初始历史用户数据存在缺失值(即存在某一字段因子取值为空值的情况),先获取该缺失值对应的字段因子,然后获取初始历史用户数据集该字段因子的平均值(或随机值),以该字段因子的平均值(或随机值)填补对应字段因子的缺失值;若无初始历史用户数据存在缺失值,则无需进行缺失值填充的处理,直接进行下一步数据处理。
2)对填补缺失值后的初始历史用户数据集再判断是否存在异常值的情况:
具体实施时可以将填补缺失值后的初始历史用户数据集中每一字段因子对应的字段取值集合通过箱线图法筛选出异常值及其对应的填补缺失值后的初始历史用户数据;当完成了对所有字段因子对应的字段取值异常值检测后,可以根据预先设置的异常数据筛选策略(例如将异常数据筛选策略设置为填补缺失值后的初始历史用户数据中存在1个或多个异常字段取值则可判定该填补缺失值后的初始历史用户数据为一条异常数据)筛选出填补缺失值后的初始历史用户数据集中所有为异常数据所相应填补缺失值后的初始历史用户数据后进行删除,得到初次处理历史用户数据集。
其中,箱线图又称为箱形图、盒式图或盒须图,其绘制方法是先找出一组数据的上边缘、下边缘、中位数和两个四分位数,然后连接两个四分位数画出箱体,最后将上边缘集下边缘分别与箱体连接(此时中位数在箱体中间)即可得到箱线图;将箱线图中的上四分位数线段对应的纵轴取值记为Q3,将箱线图中的下四分位数线段对应的纵轴取值记为Q1,则四分位距IQR=Q3-Q1;在Q3+1.5IQR对应的纵轴取值处沿着平行于横轴的方向绘制一条线段,并在Q1-1.5IQR对应的纵轴取值处沿着平行于横轴的方向绘制另一条线段,若有数据的取值在Q3+1.5IQR对应的线段之上的区域或是在Q1-1.5IQR对应的线段之上的区域,则可判定该数据是异常数据。
3)对所述初次处理历史用户数据集依次进行因子显著性检验和共线性检验,得到对应的筛选后字段因子集合:
当获取了初次处理历史用户数据集后,可以通过对其依次进行因子显著性检验和共线性检验,以得到初次处理历史用户数据集中的核心字段。将初次处理历史用户数据集包括的所有字段因子根据其重要性排序和挑选,也就是分析出初次处理历史用户数据集包括的所有字段因子中较为重要的一些字段,过滤掉一些不重要的字段。
具体的是将初次处理历史用户数据集中包括的所有字段记为字段因子集合,以正负样本为目标进行因子显著性检验和共线性检验,去除掉高相关性的部分因子,以及结果性变量后,选择出对于预测是否会在预设时间段(如半年)内申请入职、是否会在预设时间段(如三个月)内申请转正这几个方面最有效并且易于解释和理解的若干个因子。进行因子处理包括变量分箱,WOE转换(即Weight of Evidence,表示证据权重),信息量计算(即Information value)等。
在一实施例中,所述将所述初次处理历史用户数据集依次进行因子显著性检验和共线性检验,得到与所述初次处理历史用户数据集对应的筛选后字段因子集合,包括:
将所述初次处理历史用户数据集所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
在本实施例中,所述用户行为数据均包括多个字段因子,这些字段因子中有些更重要(即因子显著性更明显)且与其他字段因子不互为相似因子,则这些字段因子则可以被保留。还有一些与其他字段因子互为相似字段因子的,可以参考数据去重的过程,仅保留互为相似字段因子的其中一个即可。
例如,所述字段因子集合为{B1,B2,B3,B4},其中字段因子B1对应的信息量值IV1=0.3,字段因子B2对应的信息量值IV2=0.1,字段因子B3对应的信息量值IV3=0.2,字段因子B4对应的信息量值IV4=0.01,且预设信息量阈值为0.02,由于字段因子B4对应的信息量值IV4是小于预设信息量阈值0.02,其他3个字段因子的信息量值是大于预设信息量阈值0.03,故由字段因子B1、字段因子B2和字段因子B3组成初次筛选后字段因子集合,即初次筛选后字段因子集合={B1,B2,B3}。
之后,计算初次筛选后字段因子集合中各个字段因子之间的皮尔逊相关系数,例如字段因子B1与字段因子B2之间的皮尔逊相关系数为0.4,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.9,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.3,且预设相关系数阈值为0.5,则字段因子B1与字段因子B3之间互为相似字段因子从而视为同类字段因子。此时可以从字段因子B1与字段因子B3中随机选择一个进行删除,例如随机选中了字段因子B3进行删除,则筛选后字段因子集合为{B1,B2}。
在一实施例中,所述将所述初次处理历史用户数据集所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值的步骤,包括:
将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
将初次处理历史用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
计算当前分箱结果中各分组数据对应的分组数据证据权重值;
根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
若序号j未超出A,返回执行将初次处理历史用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
若序号j超出A,获取以各字段因子为主因子对应的信息量值。
在本实施例中,为了对所述字段因子集合中各字段因子进行因子显著性检验,可以对所述字段因子集合中每一个字段因子均计算对应的信息量值。在计算每一个字段因子对应的信息量值时均是依次经过数据分箱、WOE转换和信息量计算。
例如,在以第1号字段因子B1为主因子进行数据分箱时,可以采用有监督的卡方分箱法。卡方分箱是一种自底向上的数据离散化方法,依赖于卡方检验:具有最小卡方值的相邻区间合并到一起,直至满足确定的停止准则。由于卡方分箱法是现有技术,此处不再展开说明。
之后在计算第1号字段因子B1对应的当前分箱结果中各分组数据对应的分组数据证据权重值时,采用如下式(1)的公式:
在计算得到第1号字段因子B1对应的各分组数据证据权重值后,计算第1号字段因子B1的当前分箱结果对应的信息量值时,采用如下式(2)的公式:
其中,第1号字段因子B1对应的当前分箱结果中包括K个分组数据,表示K个分
组数据中第i个分组数据中的正因子占比,表示K个分组数据中第i个分组数据中的负
因子占比,WOEi表示K个分组数据中第i个分组数据中的分组数据证据权重值。通过上述两
个公式的计算,即可获取以各字段因子为主因子对应的信息量值。
当完成了核心字段因子的筛选得到了筛选后字段因子集合后,需要根据筛选后字段因子集合对初次处理历史用户数据集中包括的所有字段因子及对应的字段取值中与所述筛选后字段因子集合相同的字段信息及字段取值保留,将所述初次处理历史用户数据集中与所述筛选后字段因子集合不相同的字段信息及字段取值删除,得到二次处理历史用户数据集。通过这一删除非核心字段的处理方式,有效降低了数据维度。
更具体的,若获取的筛选后字段因子集合包括21个字段因子,且按照每一字段因子的分组数据证据权重值的降序排序,将其中排名前9的字段因子可以视为9大一票否决因子(也就是某一二次处理历史用户数据中这9个字段因子的取值只要有一个具体取值对应是负向因子值,则该二次处理历史用户数据对应的输出结果是负向结果,例如不适合应聘该岗位、或不会再预设时间段内申请入职,或是不会在岗位长期留存),将排名为第10-21位的字段因子视为12大参考因子(这12个字段因子的具体取值不会具有一票否决权,但是对最终的输出结果由重要影响)。
若所述二次处理历史用户数据集中需要作为后续训练集,还需要将所述筛选后字段因子集合进行分组,例如将上述筛选的21个字段因子中划分为至少两大分组,一是基础信息特征群分组,二是增员主体团队信息特征群。这一字段因子的分组过程依靠据预先设置的字段信息分组策略进行,例如字段信息分组策略中设置了两个初始清单分别为基础信息字段清单(包括用户唯一识别ID、用户应聘时间等字段信息)和增员主体团队信息字段清单(包括用户是否有团队项目参加历史等字段信息)。当将每一二次处理历史用户数据对应的所有筛选后字段因子集合进行分组后,每一字段因子分组对应一个维度的输入特征,例如上述将21个字段因子中划分为两大分组后,基础信息特征群分组包括10个字段因子以对应一个1*10的列输入向量,增员主体团队信息特征群包括11个字段因子以对应一个1*11的列输入向量。通过这一字段因子划分处理,得到了与每一个二次处理历史用户数据对应的维度划分数据子集。一般上述筛选得到的维度划分数据子集中并不包括是否会在预设时间段内转正、是否会在预设时间段内申请入职这几个字段因子及对应的字段取值,此时再根据原始的初始历史用户数据集对应补充是否会在预设时间段内转正、是否会在预设时间段内这2个字段因子及其对应的字段取值即可,这样就完成了根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合。
S102、以各条初始历史用户数据对应的维度划分数据子集及与每一维度划分数据子集分别对应的输出结果取值集合为第一训练集对待训练梯度提升决策树模型进行训练,得到梯度提升决策树模型。
在本实施例中,为了获取增员对象在多个维度(这多个维度分别与一个维度划分数据子集相对应)分别对应的评分,此时可以将每一维度划分数据子集对应的列向量输入一个决策树模型,并将该维度划分数据子集对应的输出结果取值集合作为该决策树模型的评分输出结果对该决策树模型进行训练,得到与该维度划分数据子集对应的决策树,这样当获取了与每一维度划分数据子集对应的决策树后,由这多个决策树组成梯度提升决策树模型(也即GBDT模型)。
例如,以某一条二次处理历史用户数据为例,该条数据中由基础信息特征群分组这一维度的维度划分数据子集中包括的10个字段因子的取值对应组成1*10的第一列输入向量,然后将增员主体团队信息特征群分组这一维度的维度划分数据子集中包括的11个字段因子的取值对应组成1*11的第二列输入向量,由是否会在预设时间段内转正对应的字段取值组成与第一列输入向量对应的第一输出结果取值,由是否会在预设时间段内转正、是否会在预设时间段内申请入职分别对应的字段取值组成与第二列输入向量对应的第二输出结果取值集合。以第一列输入向量和第一输出结果取值组成一条训练数据对待训练梯度提升决策树模型中的第一待训练决策树模型进行训练,以第二列输入向量和第一输出结果取值组成另一条训练数据对待训练梯度提升决策树模型中的第二待训练决策树模型进行训练,依次重复上述训练过程直至每一条初始历史用户数据对应的训练数据分别训练完两个决策树模型后即可综合组成梯度提升决策树模型。
之后,例如当其他待预测用户数据对应的第一维度划分数据子集(即基础信息特征群分组这一维度)所相应当前第一列输入向量输入至梯度提升决策树模型后,输出第一维度的评分结果;当其他待预测用户数据对应的第二维度划分数据子集(即增员主体团队信息特征群分组这一维度)所相应当前第二列输入向量输入至梯度提升决策树模型后,输出第二维度的评分结果,将两个维度的评分结果进行决策树对应策略下的融合(例如每一颗决策树的输出对应一个权重值,通过各自决策树输出值乘以对应权重值后再求和),即可输出一个是否会在预设时间段内转正对应的字段取值(例如所输出的字段取值为1则表示增员对象会在员工适合应聘岗位并会在转正期过后正式转正,所输出的字段取值为0则表示增员对象会在员工不适合应聘岗位并会在试用期过后或者未满试用期就离开)。
S103、选取各条初始历史用户数据对应的维度划分数据子集中作为输入数据的维度划分数据子集,并输入至所述梯度提升决策树模型进行运算,得到与各条初始历史用户数据对应的多维度输出结果。
在本实施例中,当获取了各条初始历史用户数据对应的维度划分数据子集后,例如初始历史用户数据AA对应的第一维度划分数据子集(即基础信息特征群分组这一维度)所相应当前第一列输入向量输入至梯度提升决策树模型后,输出第一维度的评分结果;当其他待预测用户数据对应的第二维度划分数据子集(即增员主体团队信息特征群分组这一维度)所相应当前第二列输入向量输入至梯度提升决策树模型后,输出第二维度的评分结果,由第一维度的评分结果和第二维度的评分结果可以组成一个1*2的第三列输入向量,此时第三列输入向量作为一个多维度输出结果。之后将第三列输入向量与之前得到的第一输出结果取值组成一条训练数据以对待训练卷积神经网络进行训练,得到卷积神经网络。
S104、以各条初始历史用户数据对应的多维度输出结果为第二训练集对待训练卷积神经网络进行训练,得到卷积神经网络。
在本实施例中,继续参照步骤S103中的示例,是以第三列输入向量作为待训练卷积神经网络的输入,以对应的第一输出结果取值作为待训练卷积神经网络的输出进行模型参数训练,直至第二训练集所有的训练数据均完成了对待训练卷积神经网络的训练后,最终得到卷积神经网络。此时将任意一个初始历史用户数据BB对应的第三列输入向量输入至卷积神经网络进行运算后,即可得到一个是否会在预设时间段内转正对应的字段取值(例如所输出的字段取值为1则表示增员对象会在员工适合应聘岗位并会在转正期过后正式转正,所输出的字段取值为0则表示增员对象会在员工不适合应聘岗位并会在试用期过后或者未满试用期就离开)。
由于通过训练集得到的两个预测模型(一是梯度提升决策树模型,二是卷积神经网络)均能基于用户数据对应的维度划分数据子集进行模型预测,故可以基于梯度提升决策树模型的输出结果以及卷积神经网络的输出结果来综合判断某一增员对象是否适合应聘岗位并会在转正期过后正式转正。
S105、以各条初始历史用户数据对应的维度划分数据子集为第三训练集对待训练第一LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第一输出结果的第一LightGBM模型。
在本实施例中,当获取了与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集后,一般上述筛选得到的维度划分数据子集中并不包括是否会在预设时间段内转正、是否会在岗位长期留存这几个字段因子及对应的字段取值,此时再根据原始的初始历史用户数据集对应补充是否会在预设时间段内转正、是否会在预设时间段内申请入职这2个字段因子及其对应的字段取值即可,这样就完成了根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合。
其中,具体是以第三列输入向量作为待训练第一LightGBM模型的输入,以对应的第二输出结果取值集合中是否会在预设时间段内申请入职的取值作为待训练第一LightGBM模型的输出进行模型参数训练,直至第三训练集所有的训练数据均完成了对待训练第一LightGBM模型的训练后,最终得到第一LightGBM模型。其中第一LightGBM模型用于基于用户的维度划分数据子集分别对应字段取值所组成的输入向量预测增员对象是否会在预设时间段内申请入职对应的字段取值。
S106、以各条初始历史用户数据对应的维度划分数据子集为第四训练集对待训练第二LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第二输出结果的第二LightGBM模型;其中,所述第二输出结果与所述第一输出结果不相同。
在本实施例中,具体是以第三列输入向量作为待训练第二LightGBM模型的输入,以对应的第二输出结果取值集合中是否会在预设时间段内转正的取值作为待训练第二LightGBM模型的输出进行模型参数训练,直至第四训练集所有的训练数据均完成了对待训练第二LightGBM模型的训练后,最终得到第二LightGBM模型。其中第二LightGBM模型用于基于用户的维度划分数据子集分别对应字段取值所组成的输入向量预测增员对象是否会在预设时间段内申请转正对应的字段取值。其中第二LightGBM模型基于用户输入数据输出的预测结果与神经网络模型以及梯度提升决策树模型基于用户数据输出的预测结果均相同,都是用于输出增员对象否会在预设时间段内转正的字段取值。通过上述多个预测模型进行预测后,能综合分析预测结果后,得到可靠性更高的预测结果。
在一实施例中,步骤S106之后还包括:
获取所述第一LightGBM模型对应的第一权重值,获取所述第二LightGBM模型对应的第二权重值,并对应组成融合预测模型。
在本实施例中,为了基于同一用户数据预测综合维度的输出结果,也可以将两个LightGBM模型按照各自模型的权重值进行模型融合,得到一个融合预测模型。通过融合预测模型实现了单结果输出。
S107、若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集;其中,每一待分析用户数据分别对应的综合预测结果集包括所述梯度提升决策树模型输出的第一预测结果,所述卷积神经网络输出的第二预测结果,所述第一LightGBM模型输出的第三预测结果和所述第二LightGBM模型输出的第四预测结果。
在本实施例中,当获取了所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,即可输入到上述训练的四个预测模型(即所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型)分别进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集。
例如所输出的第一预测结果、第二预测结果及第四预测结果可以反映增员对象是否会在预设时间段内转正,所输出的第三预测结果可以反映增员对象是否会在预设时间段内申请入职。
在一实施例中,步骤S107之后还包括:
若有待分析用户数据对应的综合预测结果集中存在预测结果小于预设的增员对象意愿阈值,将对应的待分析用户数据增加低意愿标签,并将对应的待分析用户数据存储至预先创建的第一数据表。
在本实施例中,可以基于每一待分析用户数据对应的综合预测结果集中的第一预测结果至第四预测结果综合判断是否存在预测结果小于预设的增员对象意愿阈值,若有某一待分析用户数据的第一预测结果至第四预测结果其中任意一个与西侧结果小于预设的增员对象意愿阈值,表示用户入职意愿低,可以对应增加低意愿标签,并将对应的待分析用户数据存储至预先创建的第一数据表。其中,第一数据表中集中存储了标签为低意愿标签的用户数据,从而实现了筛选。
具体实施时,还可以基于每一待分析用户数据对应的综合预测结果集中的第三预测结果和第四预测结果进行加权求和后进行排序,筛选出加权求和值低于预设的增员对象意愿阈值的加权求和值及其对应的待分析用户数据组成第一筛选集,筛选出加权求和值大于或等于预设的增员对象意愿阈值的加权求和值及其对应的待分析用户数据组成第二筛选集,将第一筛选集中每一用户对应进行低意愿用户标签的标注,将第二筛选集中每一用户对应进行高意愿用户标签的标注。
该方法对采集到的数据进行加工和分析,全方位地对候选人的特征进行计算和筛选,对合格的代理人进行多维度画像,提高了数据利用率。
本发明实施例还提供一种基于神经网络和树模型的人员甄选装置,该基于神经网络和树模型的人员甄选装置用于执行前述基于神经网络和树模型的人员甄选方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于神经网络和树模型的人员甄选装置的示意性框图。该基于神经网络和树模型的人员甄选装置100可以配置于服务器中。
如图3所示,基于神经网络和树模型的人员甄选装置100包括:维度划分单元101、第一模型训练单元102、多维度输出结果获取单元103、第二模型训练单元104、第三模型训练单元105、第四模型训练单元106、综合预测结果集获取单元107。
维度划分单元101,用于获取初始历史用户数据集,将所述初始历史用户数据集进行数据预处理、核心字段因子提取及字段因子维度划分,得到与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集,并根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合;其中,所述初始历史用户数据集中包括多条初始历史用户数据,各条初始历史用户数据中包括字段信息的维度及个数均相同。
在本实施例中,当服务器接收到了其他服务器上传的用户数据或本地自动收集得到的用户数据形成了初始历史用户数据集后,由于初始历史用户数据集中可能存在缺失值、异常数据、非核心字段太多,字段维度未经过进行更细粒度的划分,此时在服务器中可以先进行数据预处理、核心字段因子提取及字段因子维度划分后再进行后续的其他处理。
在一实施例中,维度划分单元101包括:
预处理单元,用于将所述初始历史用户数据集进行缺失值补全及异常数据的预处理,得到初次处理历史用户数据集;
核心字段确定单元,用于将所述初次处理历史用户数据集依次进行因子显著性检验和共线性检验,得到与所述初次处理历史用户数据集对应的筛选后字段因子集合;
核心字段保留单元,用于将所述初次处理历史用户数据集中与所述筛选后字段因子集合相同的字段信息及字段取值保留,将所述初次处理历史用户数据集中与所述筛选后字段因子集合不相同的字段信息及字段取值删除,得到二次处理历史用户数据集;
字段因子分组单元,用于将所述筛选后字段因子集合根据预先设置的字段信息分组策略进行字段因子分组,得到字段因子分组结果;其中,所述字段因子分组结果包括多个子分组结果;
字段因子划分单元,用于将所述二次处理历史用户数据集中每一个二次处理历史用户数据根据所述字段因子分组结果对应进行字段因子划分,得到与每一个二次处理历史用户数据对应的维度划分数据子集;其中,每一个二次处理历史用户数据包括的维度划分数据子集的总个数与所述字段因子分组结果中包括的子分组结果的总个数相等。
在本实施例中,由于在所述初始历史用户数据集中可能有初始历史用户数据存在缺失值,或是初始历史用户数据为异常数据的情况,此时为了提高所述初始历史用户数据集中的数据有效性,可以进行数据预处理。
在一实施例中,预处理单元包括:
缺失值补全单元,用于将所述初始历史用户数据集中的缺失字段值根据对应字段平均值进行补缺,得到缺失值补全后用户数据集;
异常值删除单元,用于将所述缺失值补全后用户数据集中通过箱线图筛选出异常用户数据并进行删除,得到初次处理历史用户数据集。
在本实施例中,对数据进行预处理及进一步的核心字段提取的具体过程如下:
1)对各条初始历史用户数据先判断是否存在缺失值的情况:
若有初始历史用户数据存在缺失值(即存在某一字段因子取值为空值的情况),先获取该缺失值对应的字段因子,然后获取初始历史用户数据集该字段因子的平均值(或随机值),以该字段因子的平均值(或随机值)填补对应字段因子的缺失值;若无初始历史用户数据存在缺失值,则无需进行缺失值填充的处理,直接进行下一步数据处理。
2)对填补缺失值后的初始历史用户数据集再判断是否存在异常值的情况:
具体实施时可以将填补缺失值后的初始历史用户数据集中每一字段因子对应的字段取值集合通过箱线图法筛选出异常值及其对应的填补缺失值后的初始历史用户数据;当完成了对所有字段因子对应的字段取值异常值检测后,可以根据预先设置的异常数据筛选策略(例如将异常数据筛选策略设置为填补缺失值后的初始历史用户数据中存在1个或多个异常字段取值则可判定该填补缺失值后的初始历史用户数据为一条异常数据)筛选出填补缺失值后的初始历史用户数据集中所有为异常数据所相应填补缺失值后的初始历史用户数据后进行删除,得到初次处理历史用户数据集。
其中,箱线图又称为箱形图、盒式图或盒须图,其绘制方法是先找出一组数据的上边缘、下边缘、中位数和两个四分位数,然后连接两个四分位数画出箱体,最后将上边缘集下边缘分别与箱体连接(此时中位数在箱体中间)即可得到箱线图;将箱线图中的上四分位数线段对应的纵轴取值记为Q3,将箱线图中的下四分位数线段对应的纵轴取值记为Q1,则四分位距IQR=Q3-Q1;在Q3+1.5IQR对应的纵轴取值处沿着平行于横轴的方向绘制一条线段,并在Q1-1.5IQR对应的纵轴取值处沿着平行于横轴的方向绘制另一条线段,若有数据的取值在Q3+1.5IQR对应的线段之上的区域或是在Q1-1.5IQR对应的线段之上的区域,则可判定该数据是异常数据。
3)对所述初次处理历史用户数据集依次进行因子显著性检验和共线性检验,得到对应的筛选后字段因子集合:
当获取了初次处理历史用户数据集后,可以通过对其依次进行因子显著性检验和共线性检验,以得到初次处理历史用户数据集中的核心字段。将初次处理历史用户数据集包括的所有字段因子根据其重要性排序和挑选,也就是分析出初次处理历史用户数据集包括的所有字段因子中较为重要的一些字段,过滤掉一些不重要的字段。
具体的是将初次处理历史用户数据集中包括的所有字段记为字段因子集合,以正负样本为目标进行因子显著性检验和共线性检验,去除掉高相关性的部分因子,以及结果性变量后,选择出对于预测是否会在预设时间段(如半年)内申请入职、是否会在预设时间段(如三个月)内申请转正这几个方面最有效并且易于解释和理解的若干个因子。进行因子处理包括变量分箱,WOE转换(即Weight of Evidence,表示证据权重),信息量计算(即Information value)等。
在一实施例中,所述核心字段确定单元,包括:
信息量值计算单元,用于将所述初次处理历史用户数据集所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
初筛单元,用于将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
去重单元,用于将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
在本实施例中,所述用户行为数据均包括多个字段因子,这些字段因子中有些更重要(即因子显著性更明显)且与其他字段因子不互为相似因子,则这些字段因子则可以被保留。还有一些与其他字段因子互为相似字段因子的,可以参考数据去重的过程,仅保留互为相似字段因子的其中一个即可。
例如,所述字段因子集合为{B1,B2,B3,B4},其中字段因子B1对应的信息量值IV1=0.3,字段因子B2对应的信息量值IV2=0.1,字段因子B3对应的信息量值IV3=0.2,字段因子B4对应的信息量值IV4=0.01,且预设信息量阈值为0.02,由于字段因子B4对应的信息量值IV4是小于预设信息量阈值0.02,其他3个字段因子的信息量值是大于预设信息量阈值0.03,故由字段因子B1、字段因子B2和字段因子B3组成初次筛选后字段因子集合,即初次筛选后字段因子集合={B1,B2,B3}。
之后,计算初次筛选后字段因子集合中各个字段因子之间的皮尔逊相关系数,例如字段因子B1与字段因子B2之间的皮尔逊相关系数为0.4,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.9,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.3,且预设相关系数阈值为0.5,则字段因子B1与字段因子B3之间互为相似字段因子从而视为同类字段因子。此时可以从字段因子B1与字段因子B3中随机选择一个进行删除,例如随机选中了字段因子B3进行删除,则筛选后字段因子集合为{B1,B2}。
在一实施例中,信息量值计算单元,包括:
标号获取单元,用于将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
标号获取单元,用于将初次处理历史用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
证据权重值计算单元,用于计算当前分箱结果中各分组数据对应的分组数据证据权重值;
分箱信息量值计算单元,用于根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
序号更新单元,用于将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
第一控制单元,用于若序号j未超出A,返回执行将初次处理历史用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
第二控制单元,用于若序号j超出A,获取以各字段因子为主因子对应的信息量值。
在本实施例中,为了对所述字段因子集合中各字段因子进行因子显著性检验,可以对所述字段因子集合中每一个字段因子均计算对应的信息量值。在计算每一个字段因子对应的信息量值时均是依次经过数据分箱、WOE转换和信息量计算。
例如,在以第1号字段因子B1为主因子进行数据分箱时,可以采用有监督的卡方分箱法。卡方分箱是一种自底向上的数据离散化方法,依赖于卡方检验:具有最小卡方值的相邻区间合并到一起,直至满足确定的停止准则。由于卡方分箱法是现有技术,此处不再展开说明。
之后在计算第1号字段因子B1对应的当前分箱结果中各分组数据对应的分组数据证据权重值时,采用如上式(1)的公式。在计算得到第1号字段因子B1对应的各分组数据证据权重值后,计算第1号字段因子B1的当前分箱结果对应的信息量值时,采用如上式(2)的公式。
当完成了核心字段因子的筛选得到了筛选后字段因子集合后,需要根据筛选后字段因子集合对初次处理历史用户数据集中包括的所有字段因子及对应的字段取值中与所述筛选后字段因子集合相同的字段信息及字段取值保留,将所述初次处理历史用户数据集中与所述筛选后字段因子集合不相同的字段信息及字段取值删除,得到二次处理历史用户数据集。通过这一删除非核心字段的处理方式,有效降低了数据维度。
更具体的,若获取的筛选后字段因子集合包括21个字段因子,且按照每一字段因子的分组数据证据权重值的降序排序,将其中排名前9的字段因子可以视为9大一票否决因子(也就是某一二次处理历史用户数据中这9个字段因子的取值只要有一个具体取值对应是负向因子值,则该二次处理历史用户数据对应的输出结果是负向结果,例如不适合应聘该岗位、或不会再预设时间段内申请入职,或是不会在岗位长期留存),将排名为第10-21位的字段因子视为12大参考因子(这12个字段因子的具体取值不会具有一票否决权,但是对最终的输出结果由重要影响)。
若所述二次处理历史用户数据集中需要作为后续训练集,还需要将所述筛选后字段因子集合进行分组,例如将上述筛选的21个字段因子中划分为至少两大分组,一是基础信息特征群分组,二是增员主体团队信息特征群。这一字段因子的分组过程依靠据预先设置的字段信息分组策略进行,例如字段信息分组策略中设置了两个初始清单分别为基础信息字段清单(包括用户唯一识别ID、用户应聘时间等字段信息)和增员主体团队信息字段清单(包括用户是否有团队项目参加历史等字段信息)。当将每一二次处理历史用户数据对应的所有筛选后字段因子集合进行分组后,每一字段因子分组对应一个维度的输入特征,例如上述将21个字段因子中划分为两大分组后,基础信息特征群分组包括10个字段因子以对应一个1*10的列输入向量,增员主体团队信息特征群包括11个字段因子以对应一个1*11的列输入向量。通过这一字段因子划分处理,得到了与每一个二次处理历史用户数据对应的维度划分数据子集。一般上述筛选得到的维度划分数据子集中并不包括是否会在预设时间段内转正、是否会在预设时间段内申请入职这几个字段因子及对应的字段取值,此时再根据原始的初始历史用户数据集对应补充是否会在预设时间段内转正、是否会在预设时间段内这2个字段因子及其对应的字段取值即可,这样就完成了根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合。
第一模型训练单元102,用于以各条初始历史用户数据对应的维度划分数据子集及与每一维度划分数据子集分别对应的输出结果取值集合为第一训练集对待训练梯度提升决策树模型进行训练,得到梯度提升决策树模型。
在本实施例中,为了获取增员对象在多个维度(这多个维度分别与一个维度划分数据子集相对应)分别对应的评分,此时可以将每一维度划分数据子集对应的列向量输入一个决策树模型,并将该维度划分数据子集对应的输出结果取值集合作为该决策树模型的评分输出结果对该决策树模型进行训练,得到与该维度划分数据子集对应的决策树,这样当获取了与每一维度划分数据子集对应的决策树后,由这多个决策树组成梯度提升决策树模型(也即GBDT模型)。
例如,以某一条二次处理历史用户数据为例,该条数据中由基础信息特征群分组这一维度的维度划分数据子集中包括的10个字段因子的取值对应组成1*10的第一列输入向量,然后将增员主体团队信息特征群分组这一维度的维度划分数据子集中包括的11个字段因子的取值对应组成1*11的第二列输入向量,由是否会在预设时间段内转正对应的字段取值组成与第一列输入向量对应的第一输出结果取值,由是否会在预设时间段内转正、是否会在预设时间段内申请入职分别对应的字段取值组成与第二列输入向量对应的第二输出结果取值集合。以第一列输入向量和第一输出结果取值组成一条训练数据对待训练梯度提升决策树模型中的第一待训练决策树模型进行训练,以第二列输入向量和第一输出结果取值组成另一条训练数据对待训练梯度提升决策树模型中的第二待训练决策树模型进行训练,依次重复上述训练过程直至每一条初始历史用户数据对应的训练数据分别训练完两个决策树模型后即可综合组成梯度提升决策树模型。
之后,例如当其他待预测用户数据对应的第一维度划分数据子集(即基础信息特征群分组这一维度)所相应当前第一列输入向量输入至梯度提升决策树模型后,输出第一维度的评分结果;当其他待预测用户数据对应的第二维度划分数据子集(即增员主体团队信息特征群分组这一维度)所相应当前第二列输入向量输入至梯度提升决策树模型后,输出第二维度的评分结果,将两个维度的评分结果进行决策树对应策略下的融合(例如每一颗决策树的输出对应一个权重值,通过各自决策树输出值乘以对应权重值后再求和),即可输出一个是否会在预设时间段内转正对应的字段取值(例如所输出的字段取值为1则表示增员对象会在员工适合应聘岗位并会在转正期过后正式转正,所输出的字段取值为0则表示增员对象会在员工不适合应聘岗位并会在试用期过后或者未满试用期就离开)。
多维度输出结果获取单元103,用于选取各条初始历史用户数据对应的维度划分数据子集中作为输入数据的维度划分数据子集,并输入至所述梯度提升决策树模型进行运算,得到与各条初始历史用户数据对应的多维度输出结果。
在本实施例中,当获取了各条初始历史用户数据对应的维度划分数据子集后,例如初始历史用户数据AA对应的第一维度划分数据子集(即基础信息特征群分组这一维度)所相应当前第一列输入向量输入至梯度提升决策树模型后,输出第一维度的评分结果;当其他待预测用户数据对应的第二维度划分数据子集(即增员主体团队信息特征群分组这一维度)所相应当前第二列输入向量输入至梯度提升决策树模型后,输出第二维度的评分结果,由第一维度的评分结果和第二维度的评分结果可以组成一个1*2的第三列输入向量,此时第三列输入向量作为一个多维度输出结果。之后将第三列输入向量与之前得到的第一输出结果取值组成一条训练数据以对待训练卷积神经网络进行训练,得到卷积神经网络。
第二模型训练单元104,用于以各条初始历史用户数据对应的多维度输出结果为第二训练集对待训练卷积神经网络进行训练,得到卷积神经网络。
在本实施例中,继续参照步骤S103中的示例,是以第三列输入向量作为待训练卷积神经网络的输入,以对应的第一输出结果取值作为待训练卷积神经网络的输出进行模型参数训练,直至第二训练集所有的训练数据均完成了对待训练卷积神经网络的训练后,最终得到卷积神经网络。此时将任意一个初始历史用户数据BB对应的第三列输入向量输入至卷积神经网络进行运算后,即可得到一个是否会在预设时间段内转正对应的字段取值(例如所输出的字段取值为1则表示增员对象会在员工适合应聘岗位并会在转正期过后正式转正,所输出的字段取值为0则表示增员对象会在员工不适合应聘岗位并会在试用期过后或者未满试用期就离开)。
由于通过训练集得到的两个预测模型(一是梯度提升决策树模型,二是卷积神经网络)均能基于用户数据对应的维度划分数据子集进行模型预测,故可以基于梯度提升决策树模型的输出结果以及卷积神经网络的输出结果来综合判断某一增员对象是否适合应聘岗位并会在转正期过后正式转正。
第三模型训练单元105,用于以各条初始历史用户数据对应的维度划分数据子集为第三训练集对待训练第一LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第一输出结果的第一LightGBM模型。
在本实施例中,当获取了与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集后,一般上述筛选得到的维度划分数据子集中并不包括是否会在预设时间段内转正、是否会在岗位长期留存这几个字段因子及对应的字段取值,此时再根据原始的初始历史用户数据集对应补充是否会在预设时间段内转正、是否会在预设时间段内申请入职这2个字段因子及其对应的字段取值即可,这样就完成了根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合。
其中,具体是以第三列输入向量作为待训练第一LightGBM模型的输入,以对应的第二输出结果取值集合中是否会在预设时间段内申请入职的取值作为待训练第一LightGBM模型的输出进行模型参数训练,直至第三训练集所有的训练数据均完成了对待训练第一LightGBM模型的训练后,最终得到第一LightGBM模型。其中第一LightGBM模型用于基于用户的维度划分数据子集分别对应字段取值所组成的输入向量预测增员对象是否会在预设时间段内申请入职对应的字段取值。
第四模型训练单元106,用于以各条初始历史用户数据对应的维度划分数据子集为第四训练集对待训练第二LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第二输出结果的第二LightGBM模型;其中,所述第二输出结果与所述第一输出结果不相同。
在本实施例中,具体是以第三列输入向量作为待训练第二LightGBM模型的输入,以对应的第二输出结果取值集合中是否会在预设时间段内转正的取值作为待训练第二LightGBM模型的输出进行模型参数训练,直至第四训练集所有的训练数据均完成了对待训练第二LightGBM模型的训练后,最终得到第二LightGBM模型。其中第二LightGBM模型用于基于用户的维度划分数据子集分别对应字段取值所组成的输入向量预测增员对象是否会在预设时间段内申请转正对应的字段取值。其中第二LightGBM模型基于用户输入数据输出的预测结果与神经网络模型以及梯度提升决策树模型基于用户数据输出的预测结果均相同,都是用于输出增员对象否会在预设时间段内转正的字段取值。通过上述多个预测模型进行预测后,能综合分析预测结果后,得到可靠性更高的预测结果。
在一实施例中,基于神经网络和树模型的人员甄选装置100还包括:
融合预测模型获取单元,用于获取所述第一LightGBM模型对应的第一权重值,获取所述第二LightGBM模型对应的第二权重值,并对应组成融合预测模型。
在本实施例中,为了基于同一用户数据预测综合维度的输出结果,也可以将两个LightGBM模型按照各自模型的权重值进行模型融合,得到一个融合预测模型。通过融合预测模型实现了单结果输出。
综合预测结果集获取单元107,用于若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集;其中,每一待分析用户数据分别对应的综合预测结果集包括所述梯度提升决策树模型输出的第一预测结果,所述卷积神经网络输出的第二预测结果,所述第一LightGBM模型输出的第三预测结果和所述第二LightGBM模型输出的第四预测结果。
在本实施例中,当获取了所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,即可输入到上述训练的四个预测模型(即所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型)分别进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集。
例如所输出的第一预测结果、第二预测结果及第四预测结果可以反映增员对象是否会在预设时间段内转正,所输出的第三预测结果可以反映增员对象是否会在预设时间段内申请入职。
在一实施例中,基于神经网络和树模型的人员甄选装置100还包括:
低意愿用户筛选单元,用于若有待分析用户数据对应的综合预测结果集中存在预测结果小于预设的增员对象意愿阈值,将对应的待分析用户数据增加低意愿标签,并将对应的待分析用户数据存储至预先创建的第一数据表。
在本实施例中,可以基于每一待分析用户数据对应的综合预测结果集中的第一预测结果至第四预测结果综合判断是否存在预测结果小于预设的增员对象意愿阈值,若有某一待分析用户数据的第一预测结果至第四预测结果其中任意一个与西侧结果小于预设的增员对象意愿阈值,表示用户入职意愿低,可以对应增加低意愿标签,并将对应的待分析用户数据存储至预先创建的第一数据表。其中,第一数据表中集中存储了标签为低意愿标签的用户数据,从而实现了筛选。
具体实施时,还可以基于每一待分析用户数据对应的综合预测结果集中的第三预测结果和第四预测结果进行加权求和后进行排序,筛选出加权求和值低于预设的增员对象意愿阈值的加权求和值及其对应的待分析用户数据组成第一筛选集,筛选出加权求和值大于或等于预设的增员对象意愿阈值的加权求和值及其对应的待分析用户数据组成第二筛选集,将第一筛选集中每一用户对应进行低意愿用户标签的标注,将第二筛选集中每一用户对应进行高意愿用户标签的标注。
该装置对采集到的数据进行加工和分析,全方位地对候选人的特征进行计算和筛选,对合格的代理人进行多维度画像,提高了数据利用率。
上述基于神经网络和树模型的人员甄选装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于神经网络和树模型的人员甄选方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于神经网络和树模型的人员甄选方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于神经网络和树模型的人员甄选方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于神经网络和树模型的人员甄选方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于神经网络和树模型的人员甄选方法,其特征在于,包括:
获取初始历史用户数据集,将所述初始历史用户数据集进行数据预处理、核心字段因子提取及字段因子维度划分,得到与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集,并根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合;其中,所述初始历史用户数据集中包括多条初始历史用户数据,各条初始历史用户数据中包括字段信息的维度及个数均相同;
以各条初始历史用户数据对应的维度划分数据子集及与每一维度划分数据子集分别对应的输出结果取值集合为第一训练集对待训练梯度提升决策树模型进行训练,得到梯度提升决策树模型;
选取各条初始历史用户数据对应的维度划分数据子集中作为输入数据的维度划分数据子集,并输入至所述梯度提升决策树模型进行运算,得到与各条初始历史用户数据对应的多维度输出结果;
以各条初始历史用户数据对应的多维度输出结果为第二训练集对待训练卷积神经网络进行训练,得到卷积神经网络;
以各条初始历史用户数据对应的维度划分数据子集为第三训练集对待训练第一LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第一输出结果的第一LightGBM模型;
以各条初始历史用户数据对应的维度划分数据子集为第四训练集对待训练第二LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第二输出结果的第二LightGBM模型;其中,所述第二输出结果与所述第一输出结果不相同;以及
若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集;其中,每一待分析用户数据分别对应的综合预测结果集包括所述梯度提升决策树模型输出的第一预测结果,所述卷积神经网络输出的第二预测结果,所述第一LightGBM模型输出的第三预测结果和所述第二LightGBM模型输出的第四预测结果。
2.根据权利要求1所述的基于神经网络和树模型的人员甄选方法,其特征在于,所述获取初始历史用户数据集,将所述初始历史用户数据集进行数据预处理、核心字段因子提取及字段因子维度划分,得到与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集,并根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合,包括:
将所述初始历史用户数据集进行缺失值补全及异常数据的预处理,得到初次处理历史用户数据集;
将所述初次处理历史用户数据集依次进行因子显著性检验和共线性检验,得到与所述初次处理历史用户数据集对应的筛选后字段因子集合;
将所述初次处理历史用户数据集中与所述筛选后字段因子集合相同的字段信息及字段取值保留,将所述初次处理历史用户数据集中与所述筛选后字段因子集合不相同的字段信息及字段取值删除,得到二次处理历史用户数据集;
将所述筛选后字段因子集合根据预先设置的字段信息分组策略进行字段因子分组,得到字段因子分组结果;其中,所述字段因子分组结果包括多个子分组结果;
将所述二次处理历史用户数据集中每一个二次处理历史用户数据根据所述字段因子分组结果对应进行字段因子划分,得到与每一个二次处理历史用户数据对应的维度划分数据子集;其中,每一个二次处理历史用户数据包括的维度划分数据子集的总个数与所述字段因子分组结果中包括的子分组结果的总个数相等。
3.根据权利要求2所述的基于神经网络和树模型的人员甄选方法,其特征在于,所述将所述初始历史用户数据集进行缺失值补全及异常数据的预处理,得到初次处理历史用户数据集,包括:
将所述初始历史用户数据集中的缺失字段值根据对应字段平均值进行补缺,得到缺失值补全后用户数据集;
将所述缺失值补全后用户数据集中通过箱线图筛选出异常用户数据并进行删除,得到初次处理历史用户数据集。
4.根据权利要求2所述的基于神经网络和树模型的人员甄选方法,其特征在于,所述将所述初次处理历史用户数据集依次进行因子显著性检验和共线性检验,得到与所述初次处理历史用户数据集对应的筛选后字段因子集合,包括:
将所述初次处理历史用户数据集所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
5.根据权利要求4所述的基于神经网络和树模型的人员甄选方法,其特征在于,所述将所述初次处理历史用户数据集所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值,包括:
将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
将初次处理历史用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
计算当前分箱结果中各分组数据对应的分组数据证据权重值;
根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
若序号j未超出A,返回执行将初次处理历史用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
若序号j超出A,获取以各字段因子为主因子对应的信息量值。
6.根据权利要求1所述的基于神经网络和树模型的人员甄选方法,其特征在于,所述以各条初始历史用户数据对应的维度划分数据子集为第四训练集对待训练第二LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第二输出结果的第二LightGBM模型之后,还包括:
获取所述第一LightGBM模型对应的第一权重值,获取所述第二LightGBM模型对应的第二权重值,并对应组成融合预测模型。
7.根据权利要求1所述的基于神经网络和树模型的人员甄选方法,其特征在于,所述若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集之后,还包括:
若有待分析用户数据对应的综合预测结果集中存在预测结果小于预设的增员对象意愿阈值,将对应的待分析用户数据增加低意愿标签,并将对应的待分析用户数据存储至预先创建的第一数据表。
8.一种基于神经网络和树模型的人员甄选装置,其特征在于,包括:
维度划分单元,用于获取初始历史用户数据集,将所述初始历史用户数据集进行数据预处理、核心字段因子提取及字段因子维度划分,得到与初始历史用户数据集中每一条初始历史用户数据对应的维度划分数据子集,并根据初始历史用户数据集获取与每一维度划分数据子集分别对应的输出结果取值集合;其中,所述初始历史用户数据集中包括多条初始历史用户数据,各条初始历史用户数据中包括字段信息的维度及个数均相同;
第一模型训练单元,用于以各条初始历史用户数据对应的维度划分数据子集及与每一维度划分数据子集分别对应的输出结果取值集合为第一训练集对待训练梯度提升决策树模型进行训练,得到梯度提升决策树模型;
多维度输出结果获取单元,用于选取各条初始历史用户数据对应的维度划分数据子集中作为输入数据的维度划分数据子集,并输入至所述梯度提升决策树模型进行运算,得到与各条初始历史用户数据对应的多维度输出结果;
第二模型训练单元,用于以各条初始历史用户数据对应的多维度输出结果为第二训练集对待训练卷积神经网络进行训练,得到卷积神经网络;
第三模型训练单元,用于以各条初始历史用户数据对应的维度划分数据子集为第三训练集对待训练第一LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第一输出结果的第一LightGBM模型;
第四模型训练单元,用于以各条初始历史用户数据对应的维度划分数据子集为第四训练集对待训练第二LightGBM模型进行训练,得到用于根据用户的维度划分数据子集预测第二输出结果的第二LightGBM模型;其中,所述第二输出结果与所述第一输出结果不相同;以及
综合预测结果集获取单元,用于若接收到用户端上传的待分析用户数据集,获取所述待分析用户数据集中每一待分析用户数据对应的当前维度划分数据子集,将每一待分析用户数据对应各当前维度划分数据子集转化为对应的输入向量集,并将输入向量集分别输入至所述梯度提升决策树模型、所述卷积神经网络、所述第一LightGBM模型、所述第二LightGBM模型进行运算,得到与所述待分析用户数据集中每一待分析用户数据分别对应的综合预测结果集;其中,每一待分析用户数据分别对应的综合预测结果集包括所述梯度提升决策树模型输出的第一预测结果,所述卷积神经网络输出的第二预测结果,所述第一LightGBM模型输出的第三预测结果和所述第二LightGBM模型输出的第四预测结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于神经网络和树模型的人员甄选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于神经网络和树模型的人员甄选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110778099.8A CN113240213B (zh) | 2021-07-09 | 2021-07-09 | 基于神经网络和树模型的人员甄选方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110778099.8A CN113240213B (zh) | 2021-07-09 | 2021-07-09 | 基于神经网络和树模型的人员甄选方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240213A true CN113240213A (zh) | 2021-08-10 |
CN113240213B CN113240213B (zh) | 2021-10-08 |
Family
ID=77135231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110778099.8A Active CN113240213B (zh) | 2021-07-09 | 2021-07-09 | 基于神经网络和树模型的人员甄选方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240213B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907236A (zh) * | 2023-02-17 | 2023-04-04 | 西南石油大学 | 基于改进决策树的井下复杂情况预测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818416A (zh) * | 2017-11-01 | 2018-03-20 | 众安信息技术服务有限公司 | 生成公司财务指标预测模型的方法和装置 |
CN110688429A (zh) * | 2019-08-14 | 2020-01-14 | 中国平安人寿保险股份有限公司 | 目标员工筛选方法、装置、计算机设备及存储介质 |
CN110956497A (zh) * | 2019-11-27 | 2020-04-03 | 桂林电子科技大学 | 一种电子商务平台用户重复购买行为预测方法 |
CN111340069A (zh) * | 2020-02-11 | 2020-06-26 | 大连理工大学 | 基于交替学习的不完整数据精细建模及缺失值填补方法 |
US20200303078A1 (en) * | 2019-03-22 | 2020-09-24 | Inflammatix, Inc. | Systems and Methods for Deriving and Optimizing Classifiers from Multiple Datasets |
CN111950937A (zh) * | 2020-09-01 | 2020-11-17 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN112508118A (zh) * | 2020-12-16 | 2021-03-16 | 平安科技(深圳)有限公司 | 针对数据偏移的目标对象行为预测方法及其相关设备 |
CN112765468A (zh) * | 2021-01-23 | 2021-05-07 | 珠海金智维信息科技有限公司 | 一种个性化用户服务定制方法和装置 |
-
2021
- 2021-07-09 CN CN202110778099.8A patent/CN113240213B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818416A (zh) * | 2017-11-01 | 2018-03-20 | 众安信息技术服务有限公司 | 生成公司财务指标预测模型的方法和装置 |
US20200303078A1 (en) * | 2019-03-22 | 2020-09-24 | Inflammatix, Inc. | Systems and Methods for Deriving and Optimizing Classifiers from Multiple Datasets |
CN110688429A (zh) * | 2019-08-14 | 2020-01-14 | 中国平安人寿保险股份有限公司 | 目标员工筛选方法、装置、计算机设备及存储介质 |
CN110956497A (zh) * | 2019-11-27 | 2020-04-03 | 桂林电子科技大学 | 一种电子商务平台用户重复购买行为预测方法 |
CN111340069A (zh) * | 2020-02-11 | 2020-06-26 | 大连理工大学 | 基于交替学习的不完整数据精细建模及缺失值填补方法 |
CN111950937A (zh) * | 2020-09-01 | 2020-11-17 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN112508118A (zh) * | 2020-12-16 | 2021-03-16 | 平安科技(深圳)有限公司 | 针对数据偏移的目标对象行为预测方法及其相关设备 |
CN112765468A (zh) * | 2021-01-23 | 2021-05-07 | 珠海金智维信息科技有限公司 | 一种个性化用户服务定制方法和装置 |
Non-Patent Citations (1)
Title |
---|
张建彬等: "基于Stacking模型融合的用户购买行为预测研究", 《上海管理科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907236A (zh) * | 2023-02-17 | 2023-04-04 | 西南石油大学 | 基于改进决策树的井下复杂情况预测方法 |
CN115907236B (zh) * | 2023-02-17 | 2023-11-03 | 西南石油大学 | 基于改进决策树的井下复杂情况预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113240213B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549954B (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
CN109034264B (zh) | 交通事故严重性预测csp-cnn模型及其建模方法 | |
CN112241494B (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN112598248B (zh) | 负荷预测方法、装置、计算机设备和存储介质 | |
CN103366367A (zh) | 基于像素数聚类的模糊c-均值灰度图像分割方法 | |
CN114612251A (zh) | 风险评估方法、装置、设备及存储介质 | |
CN110689440A (zh) | 基于图片识别的车险理赔识别方法、装置、计算机设备及存储介质 | |
CN111639607A (zh) | 模型训练、图像识别方法和装置、电子设备及存储介质 | |
CN112803398A (zh) | 基于经验模态分解和深度神经网络的负荷预测方法及系统 | |
CN114022269A (zh) | 一种公共信用领域企业信用风险评估方法 | |
CN115035966B (zh) | 基于主动学习和符号回归的超导体筛选方法、装置及设备 | |
CN113240213B (zh) | 基于神经网络和树模型的人员甄选方法、装置及设备 | |
CN116167850A (zh) | 一种基于农业遥感图像的贷款风险评估方法及装置 | |
CN112217908B (zh) | 基于迁移学习的信息推送方法、装置及计算机设备 | |
CN115034426A (zh) | 一种基于相空间重构与多模型融合Stacking集成学习方式的滚动负荷预测方法 | |
CN110807601A (zh) | 一种基于截尾数据的园区道路劣化分析方法 | |
US20210319269A1 (en) | Apparatus for determining a classifier for identifying objects in an image, an apparatus for identifying objects in an image and corresponding methods | |
CN114169998A (zh) | 一种金融大数据分析与挖掘算法 | |
Pei et al. | Financial trading decisions based on deep fuzzy self-organizing map | |
CN117034110A (zh) | 一种基于深度学习的干细胞外泌体检测方法 | |
CN113824580A (zh) | 一种网络指标预警方法及系统 | |
KR102303111B1 (ko) | 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법 | |
SAN et al. | Efficient Vehicle Recognition and Classification using Convolutional Neural Network | |
CN113379212A (zh) | 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质 | |
CN113591731A (zh) | 一种基于知识蒸馏的弱监督视频时序行为定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |