CN112150094A

CN112150094A - 模型训练方法、基于模型的评估方法及装置

Info

Publication number: CN112150094A
Application number: CN201910583972.0A
Authority: CN
Inventors: 王鹏; 郑志彬; 聂贤政; 黄敬
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-29

Abstract

本申请涉及人工智能/机器学习，尤其模型训练方法、基于模型的评估方法及装置。模型训练方法包括：获取多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；根据样本数据训练用于人才评估的模型；该模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系。评估方法包括：获取待引进人才的多个特征数据，输入到模型，获得待引进人才的预测标签数据，并与人才评估标准作比较得到待引进人才的评估结果。实施本申请能够通过机器学习的方式获得准确的人才评估结果，从而提高人才引进的评估效率和评估准确性。

Description

模型训练方法、基于模型的评估方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及模型训练方法、基于模型的评估方法及装置。

背景技术

现如今，随着科学技术的发展和知识经济的突飞猛进，人才在经济社会发展中的地位和作用日益突出。在知识经济形态中，人才资源已成为重要的战略资源，其数量和质量是经济增长和社会发展的关键因素。

为促进科技与经济的发展，各级地方政府每年引进大量专业技术人才、高技能人才、海外高层次人才、海外留学人才等。政府投入了大量资源，使人才享受住房、医疗、户口、经费等福利政策。为了确保引进人才的质量和竞争力，政府通常对人才设置了一定的引进条件，例如千人计划的引进要就包括“在国外著名高校、科研院所担任相当于教授职务的专家学者；在国际知名企业和金融机构担任高级职务的专业技术人才和经营管理人才；拥有自主知识产权或掌握核心技术，具有海外自主创业经验，熟悉相关产业领域和国际规则的创业人才”等条件。

但是，以往人才引进只注重人才数量、人才政策、引进条件的制定，而难以准确对人才引进效果进行有效预判，即仅依赖人才数量、人才政策、引进条件等难以准确地对人才引进后的发展趋势进行洞察和定位评价。

发明内容

本发明实施例提供了模型训练方法、基于模型的评估方法及装置，能够通过机器学习的方式获得准确的人才评估数据，从而提高人才引进的评估效率和评估准确性。

第一方面，本发明实施例提供了一种模型训练方法，该方法包括：通过数据接入平台获取训练集，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；其中，所述标签数据表示人才引进后的贡献数据的量化值；所述多个特征数据包括以下至少一类：人才引进前的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；通过大数据平台，根据所述训练集训练用于人才评估的模型；所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系。

可以看到，本发明实施例能够通过数据接入平台，利用人才的特征数据(如人才的诸如属性数据、教育背景数据、历史贡献数据、人才政策数据等)和标签数据作为样本数据训练模型，通过大量的模型训练获得较好的模型参数，从而使模型学习(即机器学习)到人才引进前的相关特征和引进后的发展趋势之间的定量关系，且确定了不同特征数据对人才发展趋势的不同影响程度。这样，有利于后续利用该模型实现准确地对待引进人才的发展趋势的预测，即有利于获得而准确的人才评估数据(人才评估结果)，通过机器学习的方式提高了人才引进的评估效率和评估准确性。该人才评估数据可用于指示人才引进后的发展趋势和定位评价，有利于为政府资源投入和政策条件的改进和完善提供依据。

基于第二方面，本发明实施例提供了一种基于模型的评估方法，该方法包括：通过数据接入平台获取待引进人才的多个特征数据；所述多个特征数据包括以下至少一类：所述待引进人才的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；通过大数据平台，将所述多个特征数据输入到用于人才评估的模型，获得预测标签数据；其中，所述预测标签数据表示预测所述待引进人才被引进后的贡献数据的量化值；所述模型是根据训练集进行训练得到的，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系；以及通过所述大数据平台，将所述预测标签数据与人才评估标准作比较，以得到所述待引进人才的评估结果；通过展示平台，对所述评估结果进行可视化呈现。

可以看到，在获得训练好的模型后，当需要进行人才引进评估时，本发明实施例能够通过数据接入平台提取待引进人才的特征数据(如人才的诸如属性数据、教育背景数据、历史贡献数据、人才政策数据等)，通过大数据平台来运行模型，基于待引进人才的特征数据输出待引进人才的预测标签，即利用待引进人才的相关特征来对人才引进后的发展趋势进行模拟/预测，由于模型参数能够表征不同特征数据对人才发展趋势的不同影响程度。所以，一方面基于机器学习的模型输出的人才评估数据(即评估结果)在人才的发展趋势和评价预测上有较高的准确性，另一方面通过模型进行人才评估能够快速地获得评估结果，节省了人力物力，提高了人才引进的评估效率。再一方面，该人才评估数据也有利于为政府资源投入和政策条件的改进和完善提供依据。通过展示平台(例如显示屏、手机、电脑终端等)对所述评估结果进行可视化呈现，方便了用户(例如，政府人才资源部门)及时、清楚地获知待引进人才的评估结果以及进行后续的决策分析，提升用户体验。

基于第一方面和第二方面，在可能的实施例中，所述至少一种人才属性数据表示人才的基本信息，所述基本信息包括人才的年龄、性别、籍贯、房产、婚姻状况、子女数量、子女受教育情况、来本地的时间、离开本地的时间中的至少一种；

所述至少一种教育背景数据表示与人才受教育相关的数据，所述与人才受教育相关的数据包括人才的毕业院校、学历、学位、专业、生源地中的至少一种；

所述至少一种历史贡献数据表示人才曾经取得的工作成就，所述工作成就包括人才的论文发表情况、担任公司法人情况、专利申请情况、人才历史标签中的至少一种；

所述至少一种人才政策数据表示人才引进地对人才的扶持政策，所述扶持政策包括人才资助政策、人才住房政策、人才落户政策、人才福利政策、人才子女教育政策、人才医疗政策中的至少一种。

可以看到，本发明实施例能够挖掘可能会对人才的未来发展趋势造成影响的人才特征数据，这些特征数据遍及人才的自身属性、家庭属性、教育背景、工作经验、甚至政府的人才政策等等，此外，在可能的实施例中，除了上述所列举的特征数据外，还可以包括其他更多的数据，例如还可以包括人才的引进时间、引进数量、人才类型、人才行业等数据。这样，遍历这些特征数据进行模型训练，就能获知哪些特征数据对人才引进后的发展趋势(人才标签)影响较大，哪些特征数据对人才引进后的发展趋势(人才标签)影响较小，从而将影响较大的特征数据予以保留并赋予较高的权重，将影响较小的特征数据赋予较小的权重甚至剔除(可视为权重为0)。这样训练出的模型所指示得人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系就更加准确，这样利用模型进行人才评估的评估结果就更加准确，可信，同时特征数据的排查过程也更加可靠，效率更好。

基于第一方面和第二方面，在可能的实施例中，所述模型例如为回归模型，训练模型所采用的算法例如包括逐步回归算法。

在模型训练中，所述根据所述训练集训练用于人才评估的模型具体包括：根据所述训练集，利用逐步回归算法训练用于人才评估的回归模型；所训练出的回归模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的线性关系。

例如，所述多个特征数据具体为N个特征数据{X₁，X₂，…，X_N}，其中X_i表示任一人才属性数据、或任一教育背景数据、或任一历史贡献数据、或任一人才政策数据，N为大于2的整数；所述标签数据具体为y；那么，可根据各特征数据X₁，X₂，…，X_N对y作用的显著程度值的大小，以降序顺序将各特征数据逐步引入回归方程y＝b₀+b_ix_i，当由于后面的特征数据的引入，而导致先引入的任意特征数据的显著程度值小于某个阈值时，将所述任意特征数据从回归方程中剔除，直到最后再没有显著程度值大于等于某个阈值的特征数据需要被引入，同时也没有显著程度值小于某个阈值的特征数据需要被剔除，从而获得最终的回归模型y＝b₀+b₁x₁+b₂x₂+…+b_px_p；其中，2≤p≤N，x₁，x₂，…，x_p表示被引入到回归方程中的p个特征数据，b₀，b₁，b₂，…，b_p表示线性回归系数，b₀，b₁，b₂，…，b_p也可理解为所对应的各个特征数据x₁，x₂，…，x_p的权重，所以线性回归系数b数值越大，表示其对应的特征数据x的权重越大，即该特征数据对人才的未来发展趋势贡献越大。

可以看到，本发明实施例通过利用逐步回归算法训练回归模型，一方面以降序顺序将各特征数据逐步引入回归方程，对于每一步的引入而言计算过程会非常快速，且能够支持繁杂的特征数据类型的处理、分析，节省了人力物力，模型训练效率高。另一方面，由于不断地验证特征数据对因变量(标签数据y)的贡献程度(即显著程度)，且不断的根据特征数据的引入效果将特征数据进行采取保留或剔除的处理，这样，训练出的回归模型就能够自主识别人才的各特征数据的重要与否，训练效果好，训练出的回归模型较稳定且预测结果准确、可信。

在基于模型的人才评估中，即可相应采用所训练出的回归模型进行人才评估及结果呈现。人才评估结果较为准确、可信，有利于为政府资源投入和政策条件的改进和完善提供较可靠的依据。

基于第一方面和第二方面，在一种可能的实施例中，在模型训练所采用的样本数据中，人才的标签数据具体可为根据人才引进后的商业贡献数据进行量化后得到的商业指标值；商业指标值表示所述人才被引进后在商业上的发展趋势(或定位评价)；所述商业贡献数据可包括人才引进后人才担任公司法人的数量排名分和所对应公司的经营状况排名分。

举例来说，在一些应用场景中，人才引进后具体的商业指标值可通过下式获得：

y1＝A1*W1+B1*W2+B2*W3+B3*W4

其中，y1表示人才引进后具体的商业指标值，A1表示人才引进后担任法人的公司数排名分，B1表示人才引进后担任法人的公司年营收排名分，B2表示人才引进后担任法人的公司年纳税额排名分，B3表示人才引进后担任法人的公司员工数排名分。W1、W2、W3、W4为权重值，且W1+W2+W3+W4＝1；W1～W4可平均设置为0.25，也可视政府对引入人才的关注点而调整，例如更关注公司解决就业的能力，则可将W4设置为0.4，W1～W3均设置为0.2。

这样，在基于模型的人才评估中，待引进人才的预测标签数据就相应可为待引进人才的商业指标值，待引进人才的商业指标值用于预测所述待引进人才被引进后在商业上的发展趋势；用于人才评估的人才评估标准可包括商业指标阈值，商业指标阈值用于评估待引进人才是否为商业型人才；具体评估过程可包括：将所述待引进人才的商业指标值与所述商业指标阈值进行比较，当所述被引进后的商业指标值大于等于所述商业指标阈值时，得出所述待引进人才为商业型人才的评估结果。

在又一种可能的实施例中，在模型训练所采用的样本数据中，人才的标签数据具体为根据人才引进后的科技贡献数据进行量化后得到的科技指标值；科技指标值表示所述人才被引进后在科技上的发展趋势(或定位评价)，所述科技贡献数据可包括人才引进后的年均发明专利数量排名分和所对应发明专利质量排名分。

举例来说，在一些应用场景中，人才引进后具体的科技指标值可通过下式获得：

y2＝C1*W1+D1*W2

其中，y2表示人才引进后具体的科技指标值，C1表示人才引进后年均发明专利数量排名分，D1表示人才引进后发明专利质量排名分。W1、W2为权重值，且W1+W2＝1；W1和W2可平均设置为0.5，也可视政府对引入人才的关注点而调整。例如更关注专利质量，则可将W2设置为0.6，W1设置为0.4。

这样，在基于模型的人才评估中，待引进人才的预测标签数据就相应可为待引进人才的科技指标值，待引进人才的科技指标值用于预测所述待引进人才被引进后在科技上的发展趋势；用于人才评估的人才评估标准可包括科技指标阈值，科技指标阈值用于评估待引进人才是否为商业型人才；具体评估过程可包括：将所述待引进人才的科技指标值与所述科技指标阈值进行比较，当所述被引进后的科技指标值大于等于所述科技指标阈值时，得出所述待引进人才为科技型人才的评估结果。

在又一种可能的实施例中，在模型训练所采用的样本数据中，人才的标签数据具体为根据人才引进后在人才引进地的停留时间排名分确定的迁移指标值。该迁移指标值用于表示所述人才被引进后的迁移趋势(即从长期来看该人才是驻留在人才引进地还是离开人才引进地)。

举例来说，在一些应用场景中，人才引进后具体的迁移指标值可通过下式获得：

y3＝E1

其中，y3表示人才引进后具体的迁移指标值，E1表示人才引进后在本地停留时间长短的排名分。需要说明的是，在其他场景中，迁移指标值还可以受人才的其他迁移因素的影响。

这样，在基于模型的人才评估中，待引进人才的预测标签数据包括所述待引进人才的迁移指标值，所述待引进人才的迁移指标值用于预测所述待引进人才被引进后的迁移趋势；所述人才评估标准包括迁移指标阈值，迁移指标阈值用于评估所述待引进人才是否为迁移型人才。具体评估过程可包括：将所述迁移指标值与所述迁移指标阈值进行比较，当所述被引进后的迁移指标值大于等于所述迁移指标阈值时，得出所述待引进人才为迁移型人才的评估结果。

可以看到，实施本发明具体实施例，能以多个维度(如商业视角，科技视角，迁移外地视角)对人才进行分类。通过对不同的人才类型进行分析，找出影响不同的人才类型的关键特征数据，从而有助于从不同的维度，对未来待引进人才引进的效果和结果进行评估，减少甚至避免引入平庸之辈(既不是商业型人才、又不是科技型人才的那些人才)和迁移型人才(最终远走他乡的那些人才)。弥补了现有人才引进方式的缺陷，满足客户需求，供后续政府制定和优化人才政策作为参考。

基于第一方面和第二方面，进一步地，回归模型还可以写成向量形式，向量形式的回归方程如下式所示：

其中：

可设

为

设

为X，设

为b

在回归模型的训练中，一方面可以根据人才引进后的贡献数据计算y的具体值(参考y1、y2、y3的计算公式)；另一方面可基于训练集中的多个特征数据，利用上述公式计算预测值

然后，根据y的具体值与预测值

计算两者的差值平方和，并选出差值平方和最小的那组线性回归系数作为最终的回归方程的线性回归系数。具体如下所示：

将Q分别对b₀，b₁，b₂，…，b_p求偏导数，令偏导数为0，化简线性回归系数。b₀，b₁，b₂，…，b_p满足如下标准方程组：

……………………………………………

按照一般的线性代数求解方程组的办法就可以解出b₀，b₁，b₂，…，b_p，从而得到最终的回归方程。

在此基础上，还可对回归方程进行显著性检验，检验商业视角(具体如，法人视角)，或科技视角(具体如，专利视角)，或迁移视角(或称人才流失视角)的人才的预测标签数据

的预测值与所选人才特征数据(即p个自变量X)之间是否确实有线性关系。例如可使用F检验法来检验回归方程的显著性。F检验的公式如下式所示：

其中，

为标准化变量回归方差，p为选取的特征数据的个数，n为样本数量。在显著性水平a＝0.05下，若F＞Fa说明该回归方程是显著的，否则说明回归方程不显著，需要重新选取特征数据进行模型训练。

可以看到，实施本发明实施例，能通过数据接入平台获得人才引进相关数据，通过大数据平台进行数学建模和模型训练，识别出影响不同类型人才的关键特征数据，获得后续用以人才引进评估的模型，以对未来引入人才提供参考和预测，指导的未来人才引进政策和引进条件的制定。

第二方面，本发明实施例提供了一种用于模型训练的装置，该装置包括：存储器、通信接口及与所述存储器和通信接口耦合的处理器；所述存储器用于存储指令，所述处理器用于执行所述指令，所述通信接口用于在所述处理器的控制下与其他设备进行通信；所述存储器还用于存储训练集，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；其中，所述标签数据表示人才引进后的贡献数据的量化值；所述多个特征数据包括以下至少一类：人才引进前的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据，所述标签数据表示人才引进后的贡献数据的量化值；

所述处理器执行所述指令时执行如第一方面任意实施例所描述的方法步骤。

第三方面，本发明实施例提供了一种基于模型进行评估的装置，改装置包括：存储器、通信接口及与所述存储器和通信接口耦合的处理器；所述存储器用于存储指令，所述处理器用于执行所述指令，所述通信接口用于在所述处理器的控制下与其他设备进行通信；所述存储器还用于存储待引进人才的多个特征数据；所述多个特征数据包括以下至少一类：所述待引进人才的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；

所述处理器执行所述指令时执行如第二方面任意实施例所描述的方法步骤。

第四方面，本发明实施例提供了一种系统，该系统包括数据接入平台和大数据平台，其中：

所述数据接入平台，用于获取训练集，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；其中，所述标签数据表示人才引进后的贡献数据的量化值；所述多个特征数据包括以下至少一类：人才引进前的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；

所述大数据平台，用于根据所述训练集训练用于人才评估的模型；所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系。

具体的，该系统可用于实现如第一方面任意实施例所描述的方法。

第五方面，本发明实施例提供了又一种系统，该系统包括数据接入平台、大数据平台和展示平台，其中：

所述数据接入平台，用于获取待引进人才的多个特征数据；所述多个特征数据包括以下至少一类：所述待引进人才的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；

所述大数据平台，用于将所述多个特征数据输入到用于人才评估的模型，获得预测标签数据；其中，所述预测标签数据表示预测所述待引进人才被引进后的贡献数据的量化值；所述模型是根据训练集进行训练得到的，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系；

所述大数据平台还用于，将所述预测标签数据与人才评估标准作比较，以得到所述待引进人才的评估结果；

所述展示平台，用于对所述评估结果进行可视化呈现。

具体的，该系统可用于实现如第二方面任意实施例所描述的方法。

第六方面，本发明实施例提供了一种存储计算机指令的可读非易失性存储介质，该可读非易失性存储介质包括计算机指令，其中：

所述计算机指令被执行以实现第一方面描述的方法；或者，

所述计算机指令被执行以实现权利要求第二方面描述的方法。

第七方面，本发明实施例提供了一种计算机程序产品，当计算机程序产品运行于计算机时，被执行以实现第一方面描述的方法，或者，被执行以实现第二方面描述的方法。

可以看到，实施本发明实施例提供的模型训练方法，通过利用人才引进相关数据进行数学建模和模型训练，识别出影响不同类型人才的关键特征数据(即多个特征数据中的两种或两种以上特征数据)，获得后续用以人才引进评估的模型，以便于对未来引入人才提供参考和预测。所以实施本发明实施例能够提高人才引进的评估效率和评估准确性，有利于实现准确地对人才引进后的发展趋势进行洞察和定位评价，有利于为政府资源投入和政策条件的改进和完善提供依据。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种用于人才引进评估的系统架构的示意图；

图2是本发明实施例提供的又一种系统架构的示意图；

图3为本发明实施例提供的一种模型训练场景示意图；

图4为本发明实施例提供的一种人才引进评估场景示意图；

图5是本发明实施例提供的一种用于人才引进评估的模型训练方法的流程示意图；

图6是本发明实施例提供的一种具体的用于人才引进评估的模型训练方法的流程示意图；

图7是本发明实施例提供的一种基于模型进行人才引进评估的方法流程示意图；

图8是本发明实施例提供的一种用于模型训练的装置的结构示意图；

图9是本发明实施例提供的一种用于人才引进评估的装置的结构示意图；

图10是本发明实施例提供的一种计算节点的结构示意图；

图11为本发明实施例提供的一种计算节点与用户及运维人员交互的示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释，而非旨在限定本发明。

首先描述本发明实施例提供的用于人才引进评估的系统架构。参见图1，图1是本发明实施例提供的一种用于人才引进评估的系统架构的示意图。如图1所示，整个系统可以分为三个层次：基础设施层、业务处理层和业务展示层。图1也反映从数据的获取、处理到应用的一系列过程。在这个过程中，数据经历了“数据—信息—知识”的凝练过程，其体现了人工智能的信息技术所带来的价值。下面进一步描述相关概念。

(1)基础设施层：基础设施层可以是基于云化和虚拟化技术，也可以采用非云化技术实现。基础设施层包括了用于提供计算所需的物理环境及所需要的计算、存储、网络等物理资源，为人才引进评估系统的上层(如业务处理层、业务展示层等)提供了计算、存储和网络能力支持，并实现系统与外部设备/网络的连接和沟通。具体的，基础设施层中的硬件呈现形态例如包括通信接口、存储器、智能芯片等。其中，通信接口可连通对接不同的数据源(图未示)，并从数据源获取源数据并存储到存储器；智能芯片(例如CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)可用于提供计算能力以实现对数据的处理、信令的控制等。

具体实现中，基础设施层可包括数据接入平台，数据接入平台负责接入与业务相关的政府职能部门、互联网、其他公开数据等数据源，以获取原始业务数据。数据接入平台可支持各种常用的数据库访问接口或文件传输接口，支持常用的文件与数据格式。数据源的原始业务数据例如可以是文本、表格、图像、视频、音频等等格式。

为支撑本发明实施例实现全面有效的人才引进评估，需要采集关于人才引进的多方面数据。数据源例如包括来自政府的各个委办局、互联网以及业界公开的数据等。数据的内容可分为以下几类数据：

人才属性数据表示人才的基本信息，所述基本信息例如包括人才的年龄、性别、籍贯、房产、婚姻状况、子女数量、子女受教育情况、来本地的时间、离开本地的时间等数据；

教育背景数据表示与人才受教育相关的数据，所述与人才受教育相关的数据例如包括人才的毕业院校、学历、学位、专业、生源地等数据。

历史贡献数据表示人才曾经取得的工作成就，所述工作成就包括、论文发表情况、专利申请情况、担任公司法人情况(如创立公司的基本数据、营收数据、员工数据等)、人才历史标签等数据(例如人才曾被评为创业先锋、科技开拓者、教授、院士等等)。

人才政策数据表示人才引进地对人才的扶持政策，所述扶持政策例如包括人才引进地的人才资助政策、人才住房政策、人才落户政策、人才福利政策、人才子女教育政策、人才医疗政策等数据。

其他人才引进数据，例如还可以包括人才的引进时间、引进数量、人才类型、人才行业等数据。

通过数据接入平台从数据源获得的数据可提供给业务处理层形成归集库，通常一个接入源形成一个归集库，归集库的主要作用是为后续的模型训练/预测提供原始数据。

在本发明的一些具体实施例中，数据接入平台可用于执行图5实施例步骤S101。

在本发明的又一些具体实施例中，数据接入平台可用于执行图7实施例步骤S301。

(2)业务处理层：业务处理层可包括大数据平台和数据资源池，可选的，还包括数据治理平台。其中，数据资源池用于实现对各种数据的分布式存储，可包括多个数据库，如归集库，业务库，可选的，还包括原始库。

数据治理平台可接入到数据资源池，用于将归集库中的数据进行清洗和治理，剔除无效数据、重复数据等，并对数据做归类和整理，确保数据的有效性，形成最终可以使用的数据。经过数据治理平台治理后的数据统一保存到原始库，形成各类库表，如人才引入、奖励、离开等信息对应的人才基础信息库、发明专利信息对应的专利库、企业基本信息对应的企业库、企业缴税数据对应的税收库、企业营收数据对应的营收库、企业员工数据对应员工库等。

大数据平台主要用于完成数学建模、根据获取的数据进行数据挖掘分析、并不断优化和调整模型，以使得人才评估的结果与真实情况最接近，使得制定政策的决策建议更客观、准确。

具体的，大数据平台可包括大数据基础组件、应用使能服务组件、大数据分析引擎和数据实例引擎。其中，大数据基础组件提供对数据的并行计算功能，大数据基础组件还可接入到数据资源池，以实现数据的接入，例如可获取原始库中的数据进行处理，或者将处理后的数据导入到业务库。应用使能服务组件提供面向上层应用(如业务展示层)的数据服务，例如为上层提供业务库中的数据。大数据分析引擎用于根据大量的样本数据进行模型训练(例如数据训练、机器学习训练、深度学习训练等)、模型优化等，其中机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、迭代、搜索、预处理、分类、排序、训练等等中的一项或多项操作。数据实例管理引擎用于利用训练好的模型进行人才引进评估的实例化应用，以提供面向产业人才引进政策评估应用的数据挖掘、特征分析、人才评估、政策分析评估等。

基于数据实例管理引擎的输出结果而形成的业务数据(如人才评估结果)可通过大数据基础组件保存到数据资源池的业务库。业务库还可根据业务需求从不同的原始库中提取不同的数据形成可以支撑上层(如业务展示层)的业务可视化的数据库表。也就是说，业务库的数据来自于原始库和大数据平台。业务库具体用于支撑上层(如业务展示层)的业务可视化呈现。

本发明一些具体实施例中，大数据平台可用于执行图5实施例步骤S102。又一些实施例中，大数据平台可用于执行图6实施例步骤S201-S1207。

本发明又一些具体实施例中，大数据平台可用于执行图7实施例步骤S302、S303。

(3)业务展示层：业务展示层包括展示平台，展示平台用于将大数据分析的结果(如人才评估结果)以合适的方式展示出来。展示平台可基于业务呈现的需要，从业务处理层的业务库获取业务展示所需数据，并按照应用使用者所要求的数据格式(如图表格式)进行组装并进行可视化呈现；呈现方式包括但不限于通过大屏、个人电脑(personalcomputer，PC)、手机、平板电脑(portable android device，PAD)、可穿戴设备、电视机等终端设备进行展示。

此外，在可能的实施例中，业务展示层还可包括决策分析平台，决策分析平台用于获取那些用于洞察、分析、建议类的数据进行展示，例如，可用于展示对政府人才引进政策、人才引进条件等等的建议等。

在本发明的一些具体实施例中，展示平台可用于执行图7实施例步骤S304。

具体实施例中，图1所示的系统可以使用数据接入平台所获得的数据(例如，训练集的样本数据、待引进人才的数据等等)，实现本发明实施例所描述的用于人才引进评估的模型训练方法以及基于模型的人才引进评估方法。

参见图2，图2是本发明实施例提供的又一种系统架构300。系统架构300可包括一个或多个执行设备210、数据存储系统250，以及本地设备(如图示中的本地设备301和本地设备302),其中：

数据存储系统250可用于实现类似图1实施例中数据接入平台的功能，例如接入到与业务相关的政府职能部门、互联网、其他公开数据等数据源，以获取原始业务数据。数据存储系统250还可用于实现类似图1实施例中的数据资源池的功能，例如运行并维护有归集库、原始库、业务库。可选的，数据存储系统250还可用于存储程序代码。

执行设备210由一个或多个服务器实现，可选的，与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备；执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可用于实现类似图1实施例中的数据治理平台和大数据平台的功能。具体的，执行设备210可以使用数据存储系统250中的数据(例如，样本数据、待引进人才的数据等)，或者还可进一步调用数据存储系统250中的程序代码，实现本发明实施例所描述的用于人才引进评估的模型训练方法以及基于模型的人才引进评估方法。

用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备210进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、个人电脑、智能手机、平板电脑、智能汽车、媒体消费设备、可穿戴设备、机顶盒等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。每个用户的本地设备可用于实现类似图1实施例中的展示平台和决策分析平台的功能。

在另一种实现中，执行设备210的一个方面或多个方面可以由每个本地设备实现，例如，本地设备301可以为执行设备210提供本地数据或反馈决策建议。

为了方便，下文主要以图1所示系统框架为例进行本发明的技术方案描述。

下面描述本发明实施例所涉及的模型训练过程。参见图3，图3为本发明实施例提供的一种模型训练场景示意图。如图3所示，用于模型训练的是训练集的N个样本数据{y，X}，N可以是一个较大的数量，例如数万，数十万，数百万等量级，这里不做限定。

本发明一种实施例中，原始的样本数据可以是数据接入平台获取并保存到归集库中，当大数据平台需要进行模型训练时，从归集库中获取用于模型训练的样本数据(即训练集)。

本发明又一种实施例中，原始的样本数据可以是数据接入平台获取并保存到归集库中，数据治理平台再对归集库中的数据进行处理，获得能够用于模型训练的样本数据并保存到原始库，当大数据平台需要进行模型训练时，从原始库中获取用于模型训练的样本数据(即训练集)。

如图3所示，基于训练集的大量样本数据{y，X}，大数据平台可预先构建一个用于人才引进评估的基本模型(存在未知的模型参数W)。基于训练集的大量样本数据{y，X}。模型可用y＝Model(X，W)表征，其中Model表示模型函数，W表示模型参数。然后，可利用训练集对该模型进行模型训练，计算出模型参数W，从而获得训练后的模型。

可选实施例中，模型训练后，还可以利用预设的模型评估指标来评估模型效果，模型评估指标例如可包括但不限于人才预测准确度、查全率、查准率等指标。

对于训练集中的每个样本数据{y，X}，X具体表示任一样本数据中的人才引进前的多个特征数据，y为所述任一样本数据对应的标签数据，y具体表示人才引进后的贡献数据的量化值；

其中，所述多个特征数据包含了人才引进前的一种或多种人才属性数据、一种或多种教育背景数据、一种或多种历史贡献数据、一种或多种人才政策数据中的至少一类(即包括人才属性数据、教育背景数据、历史贡献数据、人才政策数据等这几类数据中的一类或多类)。此外，还可以包括人才其他更多的背景数据(如人才类型(如诺奖人才/两院院士/千人计划/应届毕业生等)、人才所属行业、工作单位性质的)。其中：

所述一种或多种人才属性数据表示人才的基本信息，所述基本信息包括人才的年龄、性别、籍贯、房产、婚姻状况、子女数量、子女受教育情况、来本地的时间、离开本地的时间中的至少一种；

所述一种或多种教育背景数据表示与人才受教育相关的数据，所述与人才受教育相关的数据包括人才的毕业院校、学历、学位、专业、生源地中的至少一种；

所述一种或多种历史贡献数据表示人才曾经取得的工作成就，所述工作成就包括人才的论文发表情况、担任公司法人情况、专利申请情况、人才历史标签中的至少一种；

所述一种或多种人才政策数据表示人才引进地对人才的扶持政策，所述扶持政策包括人才资助政策、人才住房政策、人才落户政策、人才福利政策、人才子女教育政策、人才医疗政策中的至少一种。

此外，可能实施例中，所述多个特征数据中还可能包括其他类型的人才引进数据，其他人才引进数据例如还可以包括人才的引进时间、引进数量、人才类型、人才行业等数据。

举例来说，X可包括32个特征数据{X1，X2，X3…X32}，如下表1所示。

表1

需要说明的是，上述表1仅用于示例性地解释本发明的技术方案而非限定。

其中，标签数据y定义了人才引进后的人才质量，具体的，标签数据可用于表示人才引进后的贡献数据的量化值；

举例来说，可根据人才引进后的人才质量将人才划分为3类：商业型人才、科技型人才、迁移型人才。当然，还可以根据具体的应用需要将人才划分为更多的类或其他类(如，服务型人才，行政型人才等等)，这里不做具体限定。

具体的，商业型人才可表示引入后在本地担任公司法人的那类人才。更进一步的，可根据人才所担任的公司法人的数量，以及所对应公司的经营状况(营收额，纳税额，员工数等)，确定某人才引进后具体的商业指标值；预设一个商业指标阈值，如果被引进后的人才的商业指标值大于等于所述商业指标阈值，则认为该人才为商业型人才；反之，则认为该人才不是商业型人才。

举例来说，在一些应用场景中，人才引进后具体的商业指标值可通过下式(1)获得：

y1＝A1*W1+B1*W2+B2*W3+B3*W4 (1)

需要说明的是，在其他场景中，商业指标值还可以受人才的其他商业因素的影响，式(1)仅用于解释本发明的技术方案而非限定。

进一步地，可将所有人才按照担任法人的公司数量来排名，A1的计算规则例如为下式(2)：

其中，N表示担任公司法人的人才总数量，P1表示人才担任法人的公司数量在所有人才中的排名。

例如基于上式(2)，从有人才引入政策开始共12345名(即N＝12345)人才担任公司法人，则担任法人的公司数量排名第1(即P1＝1)的人才得分为100分(即A1＝100)，排名最后(即P1＝12345)的人才得分为100/12345(即A1＝100/12345)。需要说明的是，公司数量相同的人才得分相同，可都等于排名最靠前的人才的得分，也可都等于排名最靠后的人才的得分。

需要说明的是，对于未担任公司法人的人才，A1为零。

进一步地，可将所有人才按照担任法人的公司年营收来排名，B1的计算规则例如为下式(3)：

其中，N表示担任公司法人的人才总数量，P2表示人才担任法人的公司年营收在所有人才中的排名。

例如基于上式(3)，从有人才引入政策开始共12345名(即N＝12345)人才担任公司法人，则公司年营收排名第1(即P2＝1)的人才得分为100分(即B1＝100)，排名最后的人才(即P2＝12345)得分为100/12345(即B1＝100/12345)。需要说明的是，若人才有多个公司，则人才担任法人的公司年营收为该人才的所有公司年营收总和。

还需要说明的是，对于未担任公司法人的人才，B1为零。

进一步地，可将所有人才按照担任法人的公司年纳税额来排名，B2的计算规则例如为下式(4)：

其中，N表示担任公司法人的人才总数量，P3表示人才担任法人的公司年纳税额在所有人才中的排名。

例如基于上式(4)，从有人才引入政策开始共12345名(即N＝12345)人才担任公司法人，则公司年纳税额排名第1(即P3＝1)的人才得分为100分(即B2＝100)，排名最后的人才(即P3＝12345)得分为100/12345(即B2＝100/12345)。需要说明的是，若人才有多个公司，则人才担任法人的公司年纳税额为该人才的所有公司年营收总和。

还需要说明的是，对于未担任公司法人的人才，B2为零。

进一步地，可将所有人才按照担任法人的公司员工数来排名，B3的计算规则例如为下式(5)：

其中，N表示担任公司法人的人才总数量，P3表示人才担任法人的公司员工数在所有人才中的排名。

例如基于上式(5)，从有人才引入政策开始共12345名(即N＝12345)人才担任公司法人，则公司员工数排名第1(即P4＝1)的人才得分为100分(即B3＝100)，排名最后的人才(即P4＝12345)得分为100/12345(即B3＝100/12345)。需要说明的是，若人才有多个公司，则人才担任法人的公司员工数为该人才的所有公司员工数总和。

还需要说明的是，对于未担任公司法人的人才，B3为零。

在一些应用场景中，人才引进后具体的科技指标值可通过下式(6)获得：

y2＝C1*W1+D1*W2 (6)

才引进后具体的科技指标值，C1表示人才引进后年均发明专利数量排名分，D1表示人才引进后发明专利质量排名分。W1、W2为权重值，且W1+W2＝1；W1和W2可平均设置为0.5，也可视政府对引入人才的关注点而调整。例如更关注专利质量，则可将W2设置为0.6，W1设置为0.4。

需要说明的是，在其他场景中，科技指标值还可以受人才的其他科技因素的影响，式(6)仅用于解释本发明的技术方案而非限定。

进一步地，可将所有人才按照年均发明专利数量来排名，C1的计算规则例如为下式(7)：

其中，M表示有发明专利产生的人才总数量，P5表示人才产生的专利数量在所有人才中的排名。

例如基于上式(7)，从有人才引入政策开始共12345名(即M＝12345)人才有发明专利产生，则发明专利数量排名第1(即P5＝1)的人才得分为100分(即C1＝100)，排名最后(即P5＝12345)的人才得分为100/12345(即C1＝100/12345)。需要说明的是，发明专利数量相同的人才得分相同，可都等于排名最靠前的人才的得分，也可都等于排名最靠后的人才的得分。

需要说明的是，对于未有专利产生的人才，C1为零。

进一步地，可将所有人才按照在本地期间的专利质量来排名，D1的计算规则例如为下式(8)：

其中，M表示有发明专利产生的人才总数量，P6表示人才的专利质量在所有人才中的排名。

例如基于上式(8)，从有人才引入政策开始共12345名(即M＝12345)人才有专利产生，则专利质量排名第1(即P6＝1)的人才得分为100分(即D1＝100)，排名最后(即P6＝12345)的人才得分为100/12345(即D1＝100/12345)。更进一步的，专利质量例如可以通过以下方式确定：“专利质量＝(该人才引入后在本地的发明专利数*0.5+实用新型专利数*0.3+外观专利数*0.2)/该人才引入后在本地的总专利数”。需要说明的是，专利质量相同的人才得分相同，可都等于排名最靠前的人才的得分，也可都等于排名最靠后的人才的得分。

需要说明的是，对于未有专利产生的人才，D1为零。

在一些应用场景中，人才引进后具体的迁移指标值可通过下式(9)获得：

y3＝E1 (9)

其中，y3表示人才引进后具体的迁移指标值，E1表示人才引进后在本地停留时间长短的排名分。需要说明的是，在其他场景中，迁移指标值还可以受人才的其他迁移因素的影响，式(9)仅用于解释本发明的技术方案而非限定。

进一步地，可将所有人才按照引入后在本地停留时间长短来排名，C1的计算规则例如为下式(10)：

其中，K表示人才引入后离开本地的人才总数量，P7表示人才引入后在本地的停留时间在所有人才中的排名。

例如基于上式(9)，从有人才引入政策开始共12345名(即K＝12345)引入的人才最终离开本地，则在本地停留时间最短的人才(即P7＝1)得分为100分(即E1＝100)，在本地停留时间最长(即P7＝12345)的人才得分为100/12345(即E1＝100/12345)。需要说明的是，在本地停留时间相同的人才得分相同，可都等于排名最靠前的人才的得分，也可都等于排名最靠后的人才的得分。针对引入后未离开本地的人才，迁移指标值显然为零。

需要说明的是，对于引入后未离开本地的人才，E1为零。

下面进一步描述本发明实施例所涉及的基于模型的人才引进评估(预测)过程。参见图4，图4为本发明实施例提供的一种人才引进评估场景示意图。如图4所示，预测集包括待引进人才的多个特征数据，将该特征数据输入至完成上述评估的模型，从而输出预测人才被引进后的预测标签数据，所述预测标签数据具体表示预测所述待引进人才被引进后的贡献数据的量化值。

本发明一种实施例中，预测集中的数据可以是数据接入平台获取并保存到归集库中，在基于业务的需要人才引进评估时，大数据平台从归集库中获取用于人才引进评估的数据(即预测集)。

本发明又一种实施例中，预测集中的数据可以是数据接入平台获取并保存到归集库中，数据治理平台再对归集库中的数据进行处理，获得能够用于人才引进评估的数据并保存到原始库，当大数据平台需要进行人才引进评估时，从原始库中获取用于人才引进评估的数据(即预测集)。

本发明实施例中，通过大数据平台所训练出的模型可以是基于逐步回归算法的回归模型。在可能的应用场景中，还可以是其他的模型，例如深度神经网络(Deep NeuralNetwork，DNN)模型、卷积神经网络(Convolutional Neural Networks,CNN)模型、神经分解机(Neural Factorization Machines，NFM)模型、线性回归(Linear Regression，LR)模型、决策树(Decision Tree，DT)模型、因式分解机(factorization machine，FM)模型，等等。具体的，可以是单个模型，也可以是多个独立模型的集合，还可以是将多种模型进行融合后得到的融合模型。后文主要以基于逐步回归算法的回归模型为例进行方案的描述。

下面以基于逐步回归算法的回归模型为例进行技术方案的描述。

本发明实施例中，大数据平台可采用的逐步回归算法获得用于人才引进评估的回归模型，依次选取各个特征数据进行处理，根据人才的分类与具体贡献(如上述商业型、科技型、迁移型等)，分析出影响不同类型人才的发展趋势的关键特征数据，作为将来政府人才引进的参考依据和政策调整的依据。所述关键特征数据即与人才的标签数据相关度大(或称影响较大)的特征数据。保留相关度大的特征数据，丢弃相关度不大的特征数据，最后就可以得出若干关键特征数据。

下文示例性地从三个维度来进行人才画像：法人视角，专利视角，流失视角。基于这三个维度，进一步分别根据引进人才的相关特性将人才分别分成两类：商业型人才与平庸之辈(这里的平庸之辈表示非商业型人才)，科技型人才与平庸之辈(这里的平庸之辈表示非科技型人才)，迁移型人才与扎根本地者。通过算法找出分别对上述三个维度的人才起决定影响的那些特征数据。

例如人才的样本数据{y，X}中，X为自变量，y为因变量，X具体为N个特征数据{X₁，X₂，…，X_N}，示例性地，如上表1所示中N为32。其中X_i表示任一人才属性数据、或任一教育背景数据、或任一历史贡献数据、或任一人才政策数据，N为大于2的整数。利用逐步回归算法训练用于人才评估的回归模型的过程包括：确定各特征数据X₁，X₂，…，X_N对y作用的显著程度值；按所述显著程度值的大小，以降序顺序将各特征数据逐步引入初始回归方程(11)：

当由于后面的特征数据的引入，而导致先引入的任意特征数据的显著程度值小于某个阈值时，将所述任意特征数据从回归方程中剔除，直到最后再没有显著程度值大于等于某个阈值的特征数据需要被引入，同时也没有显著程度值小于某个阈值的特征数据需要被剔除，从而获得最终的回归模型(12)：

其中，2≤p≤N，x₁，x₂，…，x_p表示最终被引入到回归方程中的p个特征数据，b₀，b₁，b₂，…，b_p表示线性回归系数。在回归模型(12)用于人才引进评估(预测)中，

表示预测标签数据，

在训练中，y的具体值表示样本数据中引入人才的标签数据，y具体表示人才引进后的贡献数据的量化值。

示例性地，在法人视角下，y可以用于表示商业指标值，此时y具体可为y1。也就是说，当需要确定y的值时，可以参考根前述公式(1)进行确定。

示例性地，在专利视角下，y可以用于表示科技指标值，此时y具体可为y2。也就是说，当需要确定y的值时，可以参考根前述公式(6)进行确定。

示例性地，在流失视角下，y可以用于表示迁移指标值，此时y具体可为y3。也就是说，当需要确定y的值时，可以参考根前述公式(9)进行确定。

需要说明的是，在y1、y2、y3各自场景下，样本数据中的X的类型和数量可以是各有差异的，这里不做限定。

需要说明的是，为了说明书的简洁，后文将以不对y进行具体的限定的方式进行相关描述。应理解，在具体的实践中，y可以具体在诸如y为y1，y为y2，或y为y3的场景下予以实现。

进一步地，回归模型(12)还可以写成向量形式，向量形式的回归方程如下式(13)所示：

其中：

可设

为

设

为X，设

为b

后续，一方面可以根据人才引进后的贡献数据计算y的具体值，例如根据前文公式(1)(6)(9)描述计算出y1、或y2、或y3的具体值；另一方面可基于训练集中的多个特征数据，利用上述公式(13)计算预测值

然后，根据y的具体值与采用上述公式(13)获得预测值

计算两者的差值平方和，并选出差值平方和最小的那组线性回归系数作为最终的回归方程的线性回归系数。具体如下(14)所示：

将Q分别对b₀，b₁，b₂，…，b_p求偏导数，令偏导数为0，化简线性回归系数。b₀，b₁，b₂，…，b_p满足如下标准方程组(15)：

在此基础上，还可对回归方程进行显著性检验，检验法人视角，或专利视角，或流失视角的人才的预测标签数据

的预测值与所选人才特征数据(即p个自变量X)之间是否确实有线性关系。例如可使用F检验法来检验回归方程的显著性。F检验的公式如下式(16)所示：

其中，

可以看到，实施本发明实施例提供的系统，能通过数据接入平台获得人才引进相关数据，通过大数据平台进行数学建模和模型训练，识别出影响不同类型人才的关键特征数据，获得后续用以人才引进评估的模型，以对未来引入人才提供参考和预测，指导的未来人才引进政策和引进条件的制定。

实施本发明具体实施例，大数据平台能根据所引进人才的贡献数据，以多个维度(如法人视角，专利视角，远走他乡视角)对人才进行分类。使用逐步回归算法对人才类型进行分析，找出影响人才类型的关键特征数据，还可对人才引进的效果和结果进行评估，从而实现为未来引入人才提供参考，减少甚至避免引入平庸之辈(既不是商业型人才、又不是科技型人才的那些人才)和迁移型人才(最终远走他乡的那些人才)。弥补了现有人才引进方式的缺陷，满足客户需求，供后续政府制定和优化人才政策作为参考。

基于上文描述的系统和相关描述，下面进一步描述本发明实施例的相关方法。

请参见图5，图5是本发明实施例提供的一种用于人才引进评估的模型训练方法的流程示意图，该方法包括但不限于如下步骤：

S101：获取训练集，训练集包括多个样本数据{y，X}，每个样本数据{y，X}包括人才引进前的多个特征数据和人才引进后的标签数据。

其中，所述多个特征数据包括以下至少一类：人才引进前的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据，所述标签数据表示人才引进后的贡献数据的量化值；

具体地，所述至少一种人才属性数据表示人才的基本信息，所述基本信息包括人才的年龄、性别、籍贯、房产、婚姻状况、子女数量、子女受教育情况、来本地的时间、离开本地的时间中的至少一种；

所述至少一种历史贡献数据表示人才曾经取得的工作成就，人才的工作成就、所述工作成就包括人才的论文发表情况、担任公司法人情况、专利申请情况、人才历史标签中的至少一种；

所述至少一种人才政策数据表示人才引进地对人才的扶持政策，的人才资助政策所述扶持政策包括人才资助政策、人才住房政策、人才落户政策、人才福利政策、人才子女教育政策、人才医疗政策中的至少一种。

需要说明的是，多个特征数据中还可以包括人才更多的背景数据，如人才类型(如诺奖人才/两院院士/千人计划/应届毕业生等)、人才所属行业、工作单位性质等等。

为了实现对商业型人才的识别(预测)，在法人视角的维度，标签数据可以是根据人才引进后的商业贡献数据进行量化后得到的商业指标值；所述商业贡献数据例如包括人才引进后所担任公司法人的数量排名分和所对应公司的经营状况排名分，相关实现内容可参考前文公式(1)-(5)的描述，这里不再赘述。

为了实现对商业型人才的识别(预测)，在专利视角的维度，标签数据可以是根据人才引进后的科技贡献数据进行量化后得到的科技指标值；科技贡献数据包括人才引进后的年均发明专利数量排名分和所对应专利质量排名分，相关实现内容可参考前文公式(6)-(8)的描述，这里不再赘述。

为了实现对迁移型人才的识别(预测)，在远走他乡视角的维度，所述人才标签数据具体为根据人才引进后在本地停留时间排名分确定的迁移指标值。相关实现内容可参考前文公式(9)、(10)的描述，这里不再赘述。

步骤S202：根据所述训练集训练用于人才评估的模型。具体的，所述模型可以是回归模型，还可以还是其他的机器学习模型，这里不做限定。

所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系。也就是说，所述模型的模型参数是根据人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上特征数据之间的关联关系确定的。

请参见图6，图6是本发明实施例提供的一种具体的用于人才引进评估的模型训练方法的流程示意图，该方法中具体可根据所述训练集，利用逐步回归算法训练用于人才评估的回归模型。该方法具体描述如下：

通过S201，确定人才分类，获取人才引进的背景数据和人才引进后的贡献数据。根据人才引进前的背景数据确定人才的多个特征数据X，根据人才引进后的贡献数据确定人才的标签数据y。

举例来说，为了实现对商业型人才的识别(预测)，人才分类为商业型人才和平庸人才。在一些实施例中，人才引进前的背景数据可以包含了人才引进前的一种或多种人才属性数据、一种或多种教育背景数据、一种或多种历史贡献数据、一种或多种人才政策数据。人才引进后的贡献数据具体为人才引进后的商业贡献数据，对商业贡献数据进行量化处理获得人才的商业指标值(即标签数据)。商业贡献数据例如包括人才引进后所担任公司法人的数量排名分和所对应公司的经营状况排名分，相关实现内容可参考前文公式(1)-(5)的描述，这里不再赘述。

举例来说，为了实现对科技型人才的识别(预测)，人才分类为科技型人才和平庸人才。在一些实施例中，人才引进前的背景数据(可以和商业型人才的识别中所采用的背景数据有差异)可以包含了人才引进前的一种或多种人才属性数据、一种或多种教育背景数据、一种或多种历史贡献数据、一种或多种人才政策数据。人才引进后的贡献数据具体为人才引进后的科技贡献数据，对科技贡献数据进行量化处理获得人才的科技指标值(即标签数据)。科技贡献数据例如包括人才引进后的年均发明专利数量排名分和所对应专利质量排名分，相关实现内容可参考前文公式(6)-(8)的描述，这里不再赘述。

举例来说，为了实现对迁移型人才的识别(预测)，人才分类为迁移型人才和扎根本地者。在一些实施例中，人才引进前的背景数据(可以和科技型人才、商业型人才的识别中所采用的背景数据有差异)可以包含了人才引进前的一种或多种人才属性数据、一种或多种教育背景数据、一种或多种历史贡献数据、一种或多种人才政策数据。人才引进后的贡献数据具体为人才引进后的人才引进后在本地停留时间，对人才引进后在本地停留时间进行量化处理获得人才的迁移指标值(即标签数据)。相关实现内容可参考前文公式(9)、(10)的描述，这里不再赘述。

通过S202，选择特征数据计算特征数据与人才标签数据之间的相关性。通过S203，判断该特征数据的相关程度是否大于预设程度。若该特征数据的相关程度大于预设程度，则后续执行步骤S205和S206，即保留该特征数据及相关模型参数(如该特征数据的线性回归系数)；若该特征数据的相关程度小于等于预设程度，则后续执行步骤S204，即丢弃该样本数据，并返回继续执行S202。

通过S206，判断该特征数据是否为所述多个特征数据中的最后一种特征数据(即是否已经遍历所有的特征数据)。如果还不是最后一种特征数据，则返回继续执行S202。如果已经是最后一种特征数据(即已经遍历了所有的特征数据)，那么可执行S207，输出被确定的回归模型。

具体实现中，例如所述多个特征数据为{X₁，X₂，…，X_N}，可以计算各特征数据X₁，X₂，…，X_N对标签数据y作用的显著程度值；按所述显著程度值的大小，对所述多个特征数据进行排序，并以降序顺序将各特征数据逐步引入回归方程y＝b₀+b_ix_i；当先引入的任意特征数据由于后面的特征数据的引入变得不显著时，将所述任意特征数据从回归方程中剔除，直到最后再没有作用显著的特征数据需要被引入，同时也没有作用不显著的特征数据需要被剔除，从而获得回归模型

其中，2≤p≤N，x₁，x₂，…，x_p表示被引入到回归方程中的p个特征数据，b₀，b₁，b₂，…，b_p表示线性回归系数；后续可可进一步根据用于模型训练的训练集求解所述线性回归系数b₀，b₁，b₂，…，b_p的具体值。

可以看到，实施本发明实施例提供的模型训练方法，可根据所引进人才的具体贡献数据，以多个维度(如法人视角，专利视角，远走他乡视角)对人才进行分类。使用逐步回归算法对人才类型进行分析，找出影响人才类型的关键特征数据，从而确定出能够用于未来的人才引进预测的回归模型。基于该回归模型将可减少甚至避免引入平庸之辈(既不是商业型人才、又不是科技型人才的那些人才)和迁移型人才。所以实施本发明实施例能够提高人才引进的评估效率和评估准确性，有利于实现准确地对人才引进后的发展趋势进行洞察和定位评价，弥补了现有人才引进方式的缺陷，满足了客户需求，有利于为政府资源投入和政策条件的改进和完善提供依据。

请参见图7，图7是本发明实施例提供的一种基于模型的实际应用过程(即实际进行人才引进评估)的方法流程示意图，该方法包括但不限于如下步骤：

S301：获取待引进人才的多个特征数据。具体的，所述多个特征数据包括所述待引进人才的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；

S302：将所述多个特征数据输入到用于人才评估的模型，获得预测标签数据。

所述预测标签数据表示预测所述待引进人才被引进后的贡献数据的量化值；所述模型是根据训练集进行训练得到的，用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系。也就是说，所述模型的模型参数是根据人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的关联关系确定的。

具体的，所述模型可以是回归模型，也可以是其他的机器学习模型。

举例来说，在法人视角下，为了实现对商业型人才的预测，所述模型为根据以往人才引入后担任公司法人的情况训练得到的回归模型。那么，将待引进人才的特征数据输入到该回归模型，可获得该待引进人才的预测的商业指标值。

又举例来说，在专利视角下，为了实现对科技型人才的预测，所述模型为根据以往人才引入后申请专利的情况训练得到的回归模型。那么，将待引进人才的特征数据输入到该回归模型，可获得该待引进人才的预测的科技指标值。

又举例来说，在流失视角下，为了实现对迁移型人才的预测，所述模型为根据以往人才引入后在本地停留时间的情况训练得到的回归模型。那么，将待引进人才的特征数据输入到该回归模型，可获得该待引进人才的预测的迁移指标值。

需要说明的是，上述法人视角，专利视角，流失视角下所对应的回归模型的模型参数可以是各有差异的，各回归模型所输入的待引进人才的特征数据也可以是各有差异的。也就是说，影响人才的商业类型、科技类型、迁移类型的关键特征数据是各有差异的。

还需要说明是，关于法人视角，专利视角，流失视角下回归模型的获得方式还可参考前文的相关描述，这里不再赘述。

S303：根据预测标签数据，获得人才的评估结果。

举例来说，为了实现对商业型人才的预测，针对待引入人才，根据对应的回归模型计算若引入该人才则其未来会获得的商业指标值。商业指标值越大该人才成为商业型人才的可能性越高。进一步地，可将该商业指标值与预设的商业指标阈值进行比较，当该商业指标值大于等于所述商业指标阈值时，可得出所述待引进人才为商业型人才的评估结果(即预测该待引进人才将会成为商业型人才)。当该商业指标值小于所述商业指标阈值时，可得出所述待引进人才为平庸人才的评估结果(即预测该待引进人才不会成为商业型人才)。

又举例来说，为了实现对科技型人才的预测，针对待引入人才，根据对应的回归模型计算若引入该人才则其未来会获得的科技指标值。科技指标值越大该人才成为科技型人才的可能性越高。进一步地，可将该科技指标值与预设的科技指标阈值进行比较，当该科技指标值大于等于所述科技指标阈值时，可得出所述待引进人才为科技型人才的评估结果(即预测该待引进人才将会成为科技型人才)。当该科技指标值小于所述科技指标阈值时，可得出所述待引进人才为平庸人才的评估结果(即预测该待引进人才不会成为科技型人才)。

又举例来说，为了实现对迁移型人才的预测，针对待引入人才，根据对应的回归模型计算若引入该人才则其未来会获得的迁移指标值。迁移指标值越大则该人才远走他乡的可能性越高。进一步地，可将该迁移指标值与预设的迁移指标阈值进行比较，当该迁移指标值大于等于所述迁移指标阈值时，可得出所述待引进人才为迁移型人才的评估结果(即预测该待引进人才将会远走他乡)。当该迁移指标值小于所述迁移指标阈值时，可得出所述待引进人才为扎根本地者的评估结果(即预测该待引进人才不会远走他乡)。

S304：对评估结果进行可视化呈现。具体的，可将所述待引进人才的评估结果通过展示平台进行可视化呈现，呈现方式可以是但不限于通过大屏、个人电脑、手机、平板电脑、可穿戴设备、电视机等终端设备进行展示，以便于实现与用户(如待引进人才的政府部门)的交互，供后续政府部门制定和优化人才政策和人才引进条件作为参考。

可以看到，实施本发明实施例提供的人才评估方法，可根据多个维度(如法人视角，专利视角，远走他乡视角)对人才进行分类。在需要进行人才引进评估时，只要将待引进人才的特征数据输入到预先训练好的模型，就可以获得该待引进人才的评估结果，实现准确地对人才引进后的发展趋势进行洞察和定位评价。基于该回归模型将可减少甚至避免引入平庸之辈(既不是商业型人才、又不是科技型人才的那些人才)和迁移型人才。所以实施本发明实施例能够使人才评估过程更加便捷、高效，人才评估结果更为科学、合理、准确，弥补了现有人才引进方式的缺陷，满足了客户需求，为政府资源投入和政策条件的改进和完善提供了可靠的参考依据。

上文详细阐述了本发明实施例的系统和方法，下面继续提供了本发明实施例的相关装置。

参见图8，图8是本发明实施例提供的一种用于模型训练的装置50的结构示意图，该装置50包括数据获取模块501和模型训练模块502。在一些实施例中，数据获取模块501和模型训练模块502可运行于后续图10中的处理器或图11实施例中的处理器，其中：

数据获取模块501用于获取训练集，训练集包括多个样本数据，每个样本数据包括以下至少一类：人才引进前的多个特征数据和人才引进后的标签数据；其中，所述多个特征数据包括人才引进前的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据，所述标签数据表示人才引进后的贡献数据的量化值；

模型训练模块502用于，根据所述训练集训练用于人才评估的模型；所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系。

装置50的各功能模块具体可用于实现如图5或图6所示的相关方法步骤，为了说明书的简洁，这里不再赘述。

参见图9，图9是本发明实施例提供的一种用于人才引进评估的装置60的结构示意图，该装置60包括数据获取模块601、预测模块602、评估模块603和显示模块604。在一些实施例中，数据获取模块601、预测模块602、评估模块603可运行于后续图10中的处理器或图11实施例中的处理器，显示模块604具体可以是展示平台或显示屏，其中：

数据获取模块601用于，获取待引进人才的多个特征数据；所述多个特征数据包括以下至少一类：所述待引进人才的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；

预测模块602用于，将所述多个特征数据输入到用于人才评估的模型，获得预测标签数据；其中，所述预测标签数据表示预测所述待引进人才被引进后的贡献数据的量化值；所述模型是根据训练集进行训练得到的，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系；

评估模块603用于，根据所述预测标签数据进行评估，获得评估结果；

显示模块604用于，对所述评估结果进行可视化呈现。

装置60的各功能模块具体可用于实现如图7所示的相关方法步骤，为了说明书的简洁，这里不再赘述。

参见图10，图10是本发明实施例提供的一种计算节点800的结构示意图。计算节点800包括一个或多个处理器811、通信接口812和存储器813。其中，处理器811、通信接口812和存储器813之间可以通过总线连接或者耦合在一起。

处理器811包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(Central Processing Unit，CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit，专用集成电路)等等。处理器811执行各种类型的数字存储指令，例如存储在存储器813中的软件或者固件程序，它能使计算节点800提供较宽的多种服务。例如，处理器811能够执行程序或者处理数据，以执行本文讨论的方法的至少一部分。

通信接口812可以为有线接口(例如以太网接口)，用于与其他计算节点或用户进行通信。

存储器813可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-VolatileMemory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)存储器还可以包括上述种类的存储器的组合。存储器813可以存储有程序代码以及数据(例如，训练集、预测集)。其中，程序代码例如包括本文所讨论的方法的代码，和/或，图8或图9所示的各模块的代码，。

在一些可能的实施方式中，计算节点800例如可部署于单个应用服务器或服务器集群之中。

在一些实施例中，当计算节点800用于模型训练时，处理器811中可以运行如图8实施例中所描述的相关功能模块，或者用于执行图5或图6实施例中的模型训练方法步骤。

在一些实施例中，当计算节点800用于进行人才引进评估时，处理器811中可以运行图9实施例中所描述的相关功能模块，或者用于执行图7实施例中的人才引进评估方法步骤。

应当理解，计算节点800仅为本申请实施例提供的一个例子，并且，计算节点800可具有比示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

参见图11，图11为本发明实施例提供的一种计算节点900与用户及运维人员交互的示意图。计算节点900可以包括多个处理器910以及多个存储器920(用于存储程序代码和数据)。计算节点900还提供了两种对外的接口界面，分别是面向人才引进评估系统的维护人员的管理界面940以及面向用户的用户界面950。以实现计算节点900与维护人员的交互，以及计算节点900与用户的交互。其中，接口界面的形态可以是多样的，例如web界面、命令行工具、REST接口等。

在一些实施例中，当计算节点900用于模型训练时，处理器910中可以运行如图8实施例中所描述的相关功能模块，或者用于执行图5或图6实施例中的模型训练方法步骤。

在一些实施例中，当计算节点900用于进行人才引进评估时，处理器910中可以运行图9实施例中所描述的相关功能模块，或者用于执行图7实施例中的人才引进评估方法步骤。

应当理解，计算节点900仅为本申请实施例提供的一个例子，并且，计算节点900可具有比示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者任意组合来实现。当使用软件实现时，可以全部或者部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网络站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、微波等)方式向另一个网络站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，也可以是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD等)、或者半导体介质(例如固态硬盘)等等。

在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

通过数据接入平台获取训练集，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；其中，所述标签数据表示人才引进后的贡献数据的量化值；所述多个特征数据包括以下至少一类：人才引进前的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；

通过大数据平台，根据所述训练集训练用于人才评估的模型；所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系。

2.根据权利要求1所述的方法，其特征在于，

所述至少一种人才属性数据表示人才的基本信息，所述基本信息包括人才的年龄、性别、籍贯、房产、婚姻状况、子女数量、子女受教育情况、来本地的时间、离开本地的时间中的至少一种；

3.根据权利要求1或2所述的方法，其特征在于，所述模型为回归模型；所述根据所述训练集训练用于人才评估的模型具体包括：

根据所述训练集，利用逐步回归算法训练用于人才评估的回归模型；所述回归模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的线性关系。

4.根据权利要求3所述的方法，其特征在于，所述多个特征数据具体为N个特征数据{X₁，X₂，…，X_N}，其中X_i表示任一人才属性数据、或任一教育背景数据、或任一历史贡献数据、或任一人才政策数据，N为大于2的整数；所述标签数据具体为y；

所述利用逐步回归算法训练用于人才评估的回归模型，包括：

根据各特征数据X₁，X₂，…，X_N对y作用的显著程度值的大小，以降序顺序将各特征数据逐步引入回归方程y＝b₀+b_ix_i，从而获得回归模型y＝b₀+b₁x₁+b₂x₂+…+b_px_p；其中，2≤_p≤N，x₁，x₂，…，x_p表示被引入到回归方程中的p个特征数据，b₀，b₁，b₂，…，b_p表示线性回归系数。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述标签数据具体为根据人才引进后的商业贡献数据进行量化后得到的商业指标值；所述商业贡献数据包括人才引进后人才担任公司法人的数量排名分和所对应公司的经营状况排名分。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述标签数据具体为根据人才引进后的科技贡献数据进行量化后得到的科技指标值；所述科技贡献数据包括人才引进后的年均发明专利数量排名分和所对应发明专利质量排名分。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述标签数据具体为根据人才引进后在人才引进地的停留时间排名分确定的迁移指标值。

8.一种基于模型的评估方法，其特征在于，所述方法包括：

通过数据接入平台获取待引进人才的多个特征数据；所述多个特征数据包括以下至少一类：所述待引进人才的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；

通过大数据平台，将所述多个特征数据输入到用于人才评估的模型，获得预测标签数据；其中，所述预测标签数据表示预测所述待引进人才被引进后的贡献数据的量化值；所述模型是根据训练集进行训练得到的，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；所述模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的定量关系；

以及通过所述大数据平台，将所述预测标签数据与人才评估标准作比较，以得到所述待引进人才的评估结果；

通过展示平台，对所述评估结果进行可视化呈现。

9.根据权利要求8所述的方法，其特征在于，

所述至少一种人才属性数据表示所述待引进人才的年龄、性别、籍贯、房产、婚姻状况、子女数量、子女受教育情况、来本地的时间、离开本地的时间中的至少一种；

所述至少一种教育背景数据表示所述待引进人才的毕业院校、学历、学位、专业、生源地中的至少一种；

所述至少一种历史贡献数据表示所述待引进人才的工作成就、论文发表情况、专利申请情况、人才历史标签中的至少一种；

所述至少一种人才政策数据表示人才引进地的人才资助政策、人才住房政策、人才落户政策、人才福利政策、人才子女教育政策、人才医疗政策中的至少一种。

10.根据权利要求8或9所述的方法，其特征在于，所述用于人才评估的模型为回归模型，所述回归模型是根据所述训练集，利用逐步回归算法训练得到的；所述回归模型用于指示人才引进后的标签数据与人才引进前的多个特征数据中的两种或两种以上数据之间的线性关系。

11.根据权利要求8-10任一项所述的方法，其特征在于，所述预测标签数据包括用于预测所述待引进人才被引进后在商业上的发展趋势的商业指标值；所述人才评估标准包括用于评估人才是否为商业型人才的商业指标阈值；

所述将所述预测标签数据与人才评估标准作比较，以得到所述待引进人才的评估结果，包括：

将所述商业指标值与所述商业指标阈值进行比较，当所述被引进后的商业指标值大于等于所述商业指标阈值时，得出所述待引进人才为商业型人才的评估结果。

12.根据权利要求8-11任一项所述的方法，其特征在于，所述预测标签数据包括用于预测所述待引进人才被引进后在科技上的发展趋势的科技指标值；所述人才评估标准包括用于评估人才是否为科技型人才的科技指标阈值；

将所述科技指标值与所述科技指标阈值进行比较，当所述被引进后的科技指标值大于等于所述科技指标阈值时，得出所述待引进人才为科技型人才的评估结果。

13.根据权利要求8-11任一项所述的方法，其特征在于，所述预测标签数据包括用于预测所述待引进人才被引进后的迁移趋势的迁移指标值；所述人才评估标准包括用于评估人才是否为迁移型人才的迁移指标阈值；

将所述迁移指标值与所述迁移指标阈值进行比较，当所述被引进后的迁移指标值大于等于所述迁移指标阈值时，得出所述待引进人才为迁移型人才的评估结果。

14.一种用于模型训练的装置，其特征在于，所述装置包括：存储器、通信接口及与所述存储器和通信接口耦合的处理器；所述存储器用于存储指令，所述处理器用于执行所述指令，所述通信接口用于在所述处理器的控制下与其他设备进行通信；

所述存储器还用于存储训练集，所述训练集包括多个样本数据，每个样本数据包括人才引进前的多个特征数据和人才引进后的标签数据；其中，所述标签数据表示人才引进后的贡献数据的量化值；所述多个特征数据包括以下至少一类：人才引进前的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据，所述标签数据表示人才引进后的贡献数据的量化值；

所述处理器执行所述指令时执行如权利要求1～7任意一项所述方法中的步骤。

15.一种基于模型进行评估的装置，其特征在于，所述装置包括：存储器、通信接口及与所述存储器和通信接口耦合的处理器；所述存储器用于存储指令，所述处理器用于执行所述指令，所述通信接口用于在所述处理器的控制下与其他设备进行通信；

所述存储器还用于存储待引进人才的多个特征数据；所述多个特征数据包括以下至少一类：所述待引进人才的至少一种人才属性数据、至少一种教育背景数据、至少一种历史贡献数据和至少一种人才政策数据；

所述处理器执行所述指令时执行如权利要求8～13任意一项所述方法中的步骤。

16.一种系统，其特征在于，所述系统包括数据接入平台和大数据平台，其中：

17.一种系统，其特征在于，所述系统包括数据接入平台、大数据平台和展示平台，其中：

所述展示平台，用于对所述评估结果进行可视化呈现。