CN113673943B

CN113673943B - 一种基于履历大数据的人员任免辅助决策方法及系统

Info

Publication number: CN113673943B
Application number: CN202110813044.6A
Authority: CN
Inventors: 刘志威; 朱勇赤; 陈褀琪; 李阳; 张�林; 孔德旭; 彭志远; 李可
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2023-02-10
Anticipated expiration: 2041-07-19
Also published as: CN113673943A

Abstract

本发明提出一种基于履历大数据的人员任免辅助决策方法及系统，基于履历大数据的人员任免辅助决策方法具体包括步骤：S1、接收人员简历文本，通过中文简历文本处理算法处理人员简历文本；S2、基于专家规则与知识图谱进行混合短文本多标签分类；S3、基于从简历大数据中提取的组织机构树构建人员的职业社交网络；S4、基于查询条件获取符合要求的人员信息，对人员的职业社交网络进行可视化呈现，本发明能够提高半结构化简历数据中履历经历提取的准确性，结合领域知识与语义信息进行履历经历细粒度多标签分类，并且实现人员职业成长轨迹的可视化分析。

Description

一种基于履历大数据的人员任免辅助决策方法及系统

技术领域

本发明涉及人工智能领域，特别是一种基于履历大数据的人员任免辅助决策方法及系统。

背景技术

在企事业的人事系统中，高层次岗位的任免与培养需要一系列体制机制分析拟任人选的能力与拟任职务的匹配程度，并从发展的角度研判该拟任人选的成长轨迹，实施因人而异的培养和培训方案。

进入信息时代，大量履历数据(如工作经历等)已完成了数字化管理。而现有管理系统的查找功能局限，岗位任免时需要专家手动筛查大量拟候选人数据，结合个人经验分析总结候选人的能力、经历、职业发展轨迹、以及人际关系等特征、耗时耗力。随着人工智能技术的成熟，简历数据分析通过分析大量员工简历数据自动对员工能力进行分类、分级，并通过员工与岗位特征的模式识别实现智能化人岗匹配，现已应用于一些高级人才寻访(猎头)领域。将该技术与履历数据以及党建人才培养的特点、需求相结合，提出客观全面并易于理解的分析报告、可为实现更加高效、精准的岗位任免与培养体质提供辅助作用。

目前人工智能在人岗匹配上的方法主要包含基于内容匹配的推荐算法和基于协同过滤的推荐算法。基于内容匹配的方法是根据用人单位的岗位要求信息和应聘者的简历信息进行匹配。通过对岗位和求职者进行个特征构建，基于特征属性表达方式的构建匹配规则，进行文本内容的匹配。其中最关键的部分是匹配规则的制定，目前的主流方法是通过利用自然语言处理，对长文本特征项的深度语义进行特征匹配。基于协同过滤的推荐算法是通过招聘者和求职者在浏览彼此信息的行为来记录和标记其中的关联程度，从而进行匹配。这些行为记录间接反映了求职者与岗位的匹配意向，因此在此基础上构建了求职者与岗位的行为特征，增强了推荐系统中的推荐功能。此类方法的主要问题仍然集中在少样本训练数据的处理、专家规则与数据驱动如何进行融合、以及能岗匹配方法的设计。

现流行的Text-GCN方法(Graph Convolutional Networks for TextClassification)中，利用短文本及其分词构建了知识连接图，因此可应用于文本样本稀疏的分类任务中，其缺点在于每次处理新的简历，均需从头开始训练，例如：在“适用于人岗匹配推荐系统的职位简历匹配方法及装置(CN111105209A)”中，利用TFIDF算法、低频词过滤、bi-gram互信息计算和人工整合整理职位分类体系预先训练职位职能分类模型，然后对职位文本信息和应聘者简历中的职位名称信息进行分类、匹配和计算；在“基于知识图谱、深度学习的人岗匹配方法、人岗匹配系统(CN111737485A)”中，把简历文本信息和职位描述文本信息转换成文本知识特征和知识图谱的事实与结构知识特征后融入神经网络，然后该神经网络获取已选简历数据的特征，再将该特征与岗位的招聘要求进行匹配计算获取匹配计算，获取匹配分数；在“一种基于NLP和机器学习的智能人才推荐方法(CN111639900A)”中，web服务器通过日志系统对招聘者查阅及浏览等行为数据进行记录并存储，然后推荐系统通过协同过滤算法以行为数据和标签为依据对简历数据库进行筛选，让招聘者在模糊搜索、多条件搜索时可以精准匹配相关简历。但是这些基于监督学习的算法需要大量的预处理数据进行训练，而人工整合标签分类较为粗糙，无法区分总机构的下属机构，导致最后分类的结果不具备一定的体系结构，无法精确到部门等下属机构。

在“基于历史匹配结果的人岗匹配方法、装置及设备(CN112200153A)”中，利用DeepFM模型、TextCNN模型对简历数据和岗位数据进行分类和匹配得到标签信息，然后进行匹配和计算，但在这一方法中，一些误点击后产生的数据会影响最终的匹配结果。

发明内容

为了解决现有的人岗匹配算法需要大量的预处理数据进行训练，并且人工整合标签分类比较粗糙，分类结果不具备体系结构的技术问题，本发明提出一种基于履历大数据的人员任免辅助决策方法及系统。

为此，本发明提出的基于履历大数据的人员任免辅助决策方法具体包括如下步骤：

S1、接收人员简历文本，通过中文简历文本处理算法处理人员简历文本；

S2、基于专家规则与知识图谱进行混合短文本多标签分类；

S3、基于从简历大数据中提取的组织机构树构建人员的职业社交网络；

S4、基于查询条件获取符合要求的人员信息，对人员的职业社交网络进行可视化呈现。

进一步地，所述中文简历文本处理算法具体包括：

S11、对文本进行预处理，去除文本中的规范以外的不规则字符，把文本整理成较为整齐的语句条目形式以便后续的算法分词；

S12、把文本输入到预训练的模型中对词组进行分类以及分词；

S13、对兼职进行处理，将经过处理的结果存入数据库，为后续处理做准备。

进一步地，将双向长短时记忆神经网络模型与条件随机场方法结合的BiLSTM-CRF方法作为分词的模型。

进一步地，所述混合短文本多标签分类包含两条路径：

S21、不依赖分词结果与知识图谱的基于专家规则的分类，直接接收原始简历文本，给出端到端的多标签预测；

S22、基于所述步骤S1得到的分词结果，构成知识图谱，通过知识图谱嵌入的方法获得文本表征，给出标签预测结果。

进一步地，所述基于专家规则的分类模拟了人类专家对短文本简历数据的类别判断，所述专家规则由三层逻辑组成，分别为：

a、标签分组，针对同类且互斥的标签进行分组组织，当一条新的经历文本属于某个标签组时，该经历文本将会映射到该标签组内的唯一的标签；

b、存在特征，分类器的标签组针对接收到的经历文本，从特定的单词/正则词典中进行贪心匹配，若匹配失败，则选择标签组内默认的标签；

c、消除特征，标签组内包含指代标签不存在的词典，当经历文本与指代标签不存在的词典匹配失败，则认为该经历文本确实与标签组关联，否则，则认为标签组内不存在与该经历文本相应的标签映射。

进一步地，所述知识图谱嵌入指的是将图谱中包含实体和关系的组成部分嵌入到连续向量空间中，保持知识库的固有结构的同时以增强下游工作。

进一步地，所述构建人员的职业社交网络具体包括：

S31、构建前缀树；

S32、提取同事和上下级关系；

S33、将同事节点保存至同事关系数据库，将上下级节点保存至上下级关系数据库；

S34、生成人员的职业社交网络。

进一步地，同事和上下级的计算过程包括：

S321、在前缀树中筛选出包含当前年限的节点，记为qualified_leave；

S322、对每一个qualified_leave进行深度为3的广度优先算法遍历，当找到距离为2的节点，记为同事，当找到距离为3的节点，记为上下级。

进一步地，借助echarts插件对人员的职业社交网络进行可视化呈现，支持互动、多视角展示和随时间变动。

进一步地，借助echarts插件中的radial tree实现全局组织结构树，借助echarts插件中的radial tree和canvas绘图工具实现个人职业轨迹，借助echarts插件的graph图，构建上下级关系图。

本发明提出的基于履历大数据的人员任免辅助决策系统具体包括中央处理器、存储装置和显示器，所述存储装置中存储有MySQL Server数据库、Neo4j图形数据库以及可供中央处理器运行的程序，所述显示器用于显示人员信息查询界面及其返回的查询结果，并且能够基于用户的选择可视化呈现人员的职业社交网络，所述中央处理器通过执行所述程序，能够实现上述基于履历大数据的人员任免辅助决策方法。

进一步地，所述MySQL Server数据库以二维表格的形式存储原始简历文本，所述Neo4j图形数据库存储知识图谱。

本发明提出的计算机可读存储介质存储有可供中央处理器运行的程序，所述程序在被所述中央处理器运行的过程中能够实现上述基于履历大数据的人员任免辅助决策方法。

相对于现有技术，本发明具有如下有益效果：

1)构建职业人际关系图，从岗位信息的大数据中挖掘职业社交关系与人才流动方向，对于分析人员职业发展、行业态势、地区人力资源模式等方面具有重要作用；

2)通过互动式的可视化方式将人员的职业社交网络展示给管理者，方便用户对不同尺度的信息(如个人、机构、地区)进行分析，辅助其进行决策。

在本发明的一些实施例中，还具有如下有益效果：

1)基于BiLSTM-CRF模型实现实体识别模型，实现中文简历文本分词任务，提高半结构化简历数据中履历经历提取的准确性；

2)基于知识图谱(knowledge Graph)的经历标签分类系统，以分词与标签构建实体与关系，结合知识图谱嵌入得到有效的文本表征，通过浅层学习方法给出分类预测，解决了机器学习方法难以处理的样本稀疏问题，同时兼顾了专家系统的知识体系，可以实时分类新的简历数据。

附图说明

图1是本发明实施例人员任免辅助决策方法的流程图；

图2是本发明实施例中文简历文本处理算法的流程图；

图3是本发明实施例知识图谱的示意图；

图4是本发明实施例构建人员的职业社交网络的流程图；

图5是本发明实施例人员信息查询界面的示意图；

图6是本发明实施例人员信息查询结果的示意图；

图7是本发明实施例分批处理界面的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1所示，本发明实施例提出的基于履历大数据的人员任免辅助决策方法具体包括：

S1、接收人员简历文本，通过中文简历文本处理算法处理人员简历文本，如图2所示，中文简历文本处理算法具体包括：

S11、基于前缀树的预处理，对文本进行预处理，去除文本中的规范以外的不规则字符，最终把文本整理成较为整齐的语句条目形式以便后续的算法分词。

S12、联合分词与实体识别，将会把文本输入到预训练的模型中对词组进行分类以及分词，使用将双向长短时记忆神经网络模型(BiLSTM)与条件随机场(CRF)方法结合的BiLSTM-CRF方法作为分词的模型，该方法常用于命名实体识别(NER)任务。简历语句条目作为一种半结构化的文本是多个实体按一定顺序连缀形成的，因而也可以使用命名实体识别的方法对词组进行标签分类并对语句进行分词。

将简历中的词组(实体)分为四种类：地名Location、机构Organization、下属机构Sub-organization和职位Position，同时，对于文本中可能出现的无意义语句(如“工作”，“学习”，“转”等)，统一赋以未知(Unknown)这一类，组成这些词组(实体)的每个汉字也会被赋予一个标签，根据处于词组的位置以及词组的种类，汉字共有十三种标签，分别为B/M/E/S LOC(地名的开头/中间/结尾/单字地名)、B/M/E ORG(机构名的开头/中间/结尾)、B/M/ESUB(下属机构名的开头/中间/结尾)和B/M/E POS(职位名的开头/中间/结尾)，无意义语句同样会有标签B/M/E/S UNK(无意义字词的开头/中间/结尾/单字)，具体示例如下：

原句：

深圳市统计局行政处主任

单字标签：

深(B-LOC) 圳(M-LOC) 市(E-LOC) 统(B-ORG) 计(M-ORG) 局(E-ORG) 行(B-SUB)政(M-SUB) 处(E-SUB) 主(B-POS) 任(E-POS)

分词结果：

深圳市L 统计局O 行政处S 主任P

通过算法预测出语句中的每一个汉字的标签，之后将同一实体内的汉字进行组合形成词组，就可以完成对简历文本的分词。

S13、兼职经历消歧义，对兼职进行处理，在步骤S11的预处理时已将简历文本中的“兼职”、“兼”等词语或标点替换，随后这些包含兼职的语句，根据BiLSTM-CRF方法得到的命名实体识别结果，将会在其中得到包含至少两个“P”属性的词，即识别出该句中不止一个职位，出现兼职情况，此时按照“P”的前缀将该语句进行拆分，例举如下：

例1:L O P1 P2->L O P1+L O P2

深圳市 A有限公司董事、副总经理＝＝＝>

深圳市 A有限公司董事&深圳市 A有限公司副总经理；

例2:L O P1 S P2->L O P1+L O S P2

深圳市 A有限公司董事兼财务部经理＝＝＝>

深圳市 A有限公司董事&深圳市 A有限公司财务部经理；

例3:L O S1 P1 S2 P2->L O S1 P1+L O S2 P2

深圳市 A有限公司财务部经理兼项目部总监＝＝＝>

深圳市 A有限公司财务部经理&深圳市 A有限公司项目部总监；

将经过处理的结果存入数据库，为后续处理做准备。

对于中文简历文本处理算法中涉及的模型以及相关概念进行详细介绍：

双向长短时记忆神经网络模型(Bi-directional Long Short-Term Memory，简称BiLSTM)：LSTM是是RNN(Recurrent Neural Network)的一种，LSTM由于其设计的特点，非常适合用于对文本数据的建模，BiLSTM是由前向LSTM与后向LSTM组合而成，两者在自然语言处理任务中都常被用来建模上下文信息，使用LSTM模型可以更好的捕捉到较长距离的依赖关系，因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息，而通过BiLSTM可以更好的捕捉双向的语义依赖。

条件随机场(Conditional Random Field，简称CRF)：条件随机场是一个序列化标注算法，接收一个输入序列并且输出目标序列，也能被看作是一种seq2seq模型，例如，在词性标注任务中，输入序列为一串单词，输出序列就是相应的词性。

命名实体识别(Named Entity Recognition，简称NER)：命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别。

BiLSTM-CRF模型：模型将句子中的每个单词表示为一个向量，其中包括单词的嵌入和字符的嵌入。字符嵌入是随机初始化的，词嵌入通常是从一个预先训练的词嵌入文件导入的，所有的嵌入将在训练过程中进行微调，BiLSTM-CRF模型的输入这些嵌入后，输出是句子x中的单词的预测标签，然后，将BiLSTM层预测的所有分数输入CRF层，在CRF层中，选择预测得分最高的标签序列作为最佳答案，该模型可应用于多种文本的命名实体识别任务。但为了更贴合简历文本的应用场景以得到更准确的分词结果，本方法对于BiLSTM-CRF模型进行了一定的改进。基于简历文本的结构以及逻辑特点，对于条件随机场(CRF)中的转移矩阵进行了参数调整，条件随机场(CRF)中的转移矩阵标志着从前一个为A属性的词转移到后一个为B属性的词的可能性，在对转移矩阵进行初始化的过程中，将会先行对于一些不正确的转移，例如“L→P”，“L→S”这样的转移对，赋值为-10000(所需权值为负数，且绝对值极大即可，意为阻止该转移对)，同时对于一些强制转移对，将其余转移对赋值为-10000(所需权值为负数，且绝对值极大即可，意为阻止其它转移对)。在实际训练中，BiLSTM-CRF模型学习到了这些规则，训练后的转移矩阵并未改变这些提前赋值的权重，同时算法的准确率也得到了一定的提升。

S2、基于专家规则与知识图谱进行混合短文本多标签分类，混合短文本多标签分类包含两条路径：

S21、不依赖分词结果与知识图谱的基于专家规则的分类，直接接收原始简历文本，并给出端到端的多标签预测，如表1所示，原始简历文本以二维表格的形式存储于MySQL数据库当中，数据表的每行对应于一条简历文本，每列对应一项属性，基于专家规则的分类模拟了人类专家对短文本简历数据的类别判断，在手工标注经历的过程中，标注人员更加注重某些关键词语的出现与否，而对长文本中常见的语法、指代、词性等关注较少，根据这一特点，定义了三层逻辑组合的规则：

(a)标签分组

某些文本标签具有相似的特点，例如`一般院校`、`双一流大学`、`海外名校`等标签，本质上都属于教育经历，而且互不兼容，针对同类且互斥的标签进行分组组织，当我们认为一条新的经历文本属于某个标签组时，该文本将会映射到该标签组内的唯一的标签。

(b)存在特征

当分类器的某个标签组接收到一条经历文本时，会从一个特定的单词/正则词典中进行贪心匹配，若单词词典中某个单词存在于文本中(又或者该文本存在词典中的正则)，则认为该文本与该标签组存在联系，所有存在联系的文本将以相同的匹配算法继续与标签组中的所有标签进行匹配，直到找到某个匹配的标签。若不存在这样的标签，则选择标签组内默认的标签。

(c)消除特征

除了指代标签存在的词典外，标签组内还包含了指代标签不存在的词典。当某条经历文本与某个标签组“存在联系”时，系统将会继续从另一个单词/正则词典中选择匹配项，若不存在这样的匹配，则认为该文本确实与标签组关联，若存在这样的匹配，则认为标签组内不存在与该文本相应的标签映射。

表1

S22、基于步骤S1得到的分词结果，抽取其中的‘地址-机构-职位’连接关系并构建实体，并通过手工定义部分实体的连接，构成知识图谱，将其存储于Neo4j图数据库中(图3显示的是知识图谱中位于湖南省的部分履历的知识图谱)，通过知识图谱嵌入的方法获得文本表征，给出标签预测结果，知识图谱嵌入指的是将图谱中包含实体和关系的组成部分嵌入到连续向量空间中，保持知识库的固有结构的同时以增强下游工作，具体地，图谱中主要包含了三种连接关系：简历实体与标签实体的连接关系，若干标签之间存在的排斥关系和地址、机构、职位实体存在的归属关系，需要为图谱中所有三元组定义一个打分函数，由于希望头实体加上关系的加和结果最终能够落在尾实体的嵌入向量附近，因此，将损失函数定义为图谱中所有三元组的打分函数之和，通过反向传播，图谱中所有的实体与关系最终会逐渐收敛于低纬度的嵌入空间，在简历数据集上进行训练，将文本表征结果保存下来，根据嵌入结果获得文本表征。

简历文本的机器学习策略核心思想是提取分类数据的特征，然后选择最优的匹配，机器学习模型的最终效果很大程度上依赖于文本表示，文本表示的目的在于以对计算机来说更容易处理的形式来表达预处理的文本。

S3、基于从简历大数据中提取的组织机构树构建职业社交网络，如图4所示，职业社交网络构建方法具体包括：

S31、构建前缀树(组织结构树)，原始简历数据中包含应聘者的工作经历(工作年月、工作职位信息)，例如：20XX.XX—20XX.XX深圳市委党校教务处处长，根据简历文本处理单元的分词结果建立前缀树。

前缀树中每个节点具有以下属性：

id：节点的唯一标识，每个节点有不同的id，例如:0、1、2、3；

name：省市区等位置信息、组织机构名称或职位的名称，例如:“深圳市”、“人居环境委员会”、“主任科员”；

count：表示该节点中条目的数量，在非叶节点中，count＝0，在叶节点中，count>＝1；

score：一个分数来表示节点的重要性(在当前实现中，值为子树中所有节点计数的总和)；

resume_ids：包含(uid,rid)元组对,值为当前节点的用户id和简历条目id；

year：年份。

在建立了组织结构树后，可以从中提取信息生成上下级、公事关系的时序职级网络图。

S32、提取同事和上下级关系，具体同事和上下级计算过程包括：

S321、在前缀树中筛选出包含当前年限(即在这一时间段内有工作经历)的节点，记为qualified_leave；

S322、对每一个qualified_leave进行深度为3(depth＝3)的广度优先算法遍历，当找到距离为2(depth＝2)的节点，记为同事，找到距离为3(depth＝3)的节点，记为上下级。

S33、存储公事关系数据到数据库中，将同事节点保存至同事关系数据库，将上下级节点保存至上下级关系数据库，通过构建上下级关系数据库和同事关系数据库，经过数据库查询操作后，用户通过输入想要查询的user id，即可输出其每年的上下级关系和同事关系，可进行相应的可视化操作。

S34、最终，数据结构的保存形式为(每一行代表一位用户与另一位用户在某年的职位关系)：

node1,node2,user1,user2,tag1,tag2,is_colleague,is_superior,year

例：1111,2222,1,2,A,B,0,-1,1987

·node1：用户1在组织机构树上的节点id

·node2：用户2在组织机构树上的节点id

·user1：用户1的标识符

·user2：用户2的标识符

·tag1：用户1的职位名称

·tag2：用户2的职位名称

·is_colleague:1＝有同事关系，0＝无同事关系

·is_superior:1＝user1是user2的上级，-1＝user1是user2的下级，0＝无上下级关系；

通过上述数据结构生成职业社交网络。

S4、基于查询条件获取符合要求的人员信息，对职业社交网络进行可视化呈现。

查询条件主要包括：(1)某标签存在与否；(2)存在该标签的最低年数；(3)存在该标签的时间段；(4)是否当前仍有此标签，用于应对人员岗位推荐、职业轨迹分析等下游工作，每个标签的可选项仅包含这四项中的若干项，具体每个标签包含哪几项，用户可通过调整配置文件中的定义进行修改，查询结果返回人员信息的所有经历介绍，并且对包含查询标签的经历进行了标红，每个人包含了一张领域变迁图，横轴为时间顺序，纵轴为标签类别，根据此变迁图可以更方便地查看此人的经历属性，具体地，如图5所示，勾选“军检法机构1”标签的首项，填写该标签第三项为2010.012015.12，这一查询的含义即为“查询所有涉及‘军检法机构1’领域的用户，要求该用户于2010年1月至2015年12月之间在该领域有所任职，对于年限不做要求，且不关注当前是否仍在该领域任职”，该查询的返回结果包含了12位人员信息，表2展示的是85号人员的返回结果，85号人员于2010年1月至2015年12月之间担任的职务涉及了军检法机构领域，因此作为符合查询条件的结果予以返回，图6显示的是85号人员的领域变迁图(由于采用黑白图像，未体现对于包含查询标签的经历的标红)，85号人员包含了7类领域标签，于1994年5月调任深圳，因此其“深圳市外1”标签截止至1994.05，而与此同时出现了“深圳”标签。

UID:85
	1987.10.01-1989.07.01 北京军区军医学校学员
1989.07.01-1992.05.01 北京军区 28集团军82师卫生队药士
	1992.05.01-1994.05.01 广东边防总队容奇边防检查站药士
1994.05.01-1995.12.01 深圳经济特区检查站布吉分站卫生所药士
	1995.12.01-2001.11.01 深圳经济特区检查站布吉分站卫生所药师
2001.11.01-2003.04.01 深圳市中级人民法院科员{‘军检法机构1’}
	2003.04.01-2005.01.01 深圳市中级人民法院法警支队副科级法警{‘军检法机构1’}
2005.01.01-2007.07.01 深圳市中级人民法院督导室副主任科员{‘军检法机构1’}
	2007.07.01-2010.03.01 深圳市中级人民法院督导室主任科员{‘军检法机构1’}
2010.03.01-2012.05.01 深圳市中级人民法院政治部干部处主任科员{‘军检法机构1’}
	2012.05.01-2016.06.01 深圳市中级人民法院政治部干部处副处长{‘军检法机构1’}
2016.06.01-2021.05.01 深圳市中级人民法院监察督查室主任{‘军检法机构1’}

表2

借助echarts插件对职业社交网络进行可视化呈现，支持互动、多视角展示和随时间变动，使得用户能更直观的了解目标职业网络。为了全面了解职业网络，需要对其建立整体的层级认知，其次可以对不同用户的局部信息进行细致分析，最后可以对员工的上下级关系机型考察，从而对职位-职位，职位-员工和员工-员工关系进行分析理解，整体而深刻的理解目标职业网络，因此，交互式可视化单元分为三种视角：全局组织结构树(OCtreeview)，个人职业轨迹(trajectory tree)和上下级关系结构图(Up-Down tree)，旨在从不同视角解读职业网络信息。

若用户想对职业网络建立整体认知，并在其基础上观察员工的职位变动，可借助全局组织结构树。全局组织结构树主要借助echarts插件中的radial tree实现，着重展示通过简历数据搭建的职业层级结构，对全局的结构状态和动态变化进行分析。用户可借助该视角完成对不同职位于整体组织结构层级的分析，以及员工在整个组织结构中的职业轨迹变动，以获得各组织的职业变动信息。

若用户想要以个人为单位，聚焦观察其所隶属的职位局部的职位关系，可借助个人职业轨迹图。个人职业轨迹则将侧重点放入针对某个人的职位时变轨迹，仍借助echarts插件中的radial tree和canvas绘图工具完成。在时间轴的不同时间点绘制当前目标员工所在的组织结构子树，依次展示不同时间节点个人职业轨迹的变动。用户可借助该可视化对目标员工局部展开的职业关系进行分析，并可以整体观察个人职业轨迹中的自我选择。

若用户希望考察所有员工之间的上下职级关系，可借助上下组织结构。上下级关系结构图则借助echarts插件graph图实现上下级关系图，以目标用户为中心节点，用户可观察上下级组织结构图随着时间的变化而变化，通过位置关系可展示不同上下之间的位置关系，而对局部员工关系进行分析。

本发明实施例提出的基于履历大数据的人员任免辅助决策系统包括中央处理器、存储装置和显示器，存储装置中存储有MySQL Server数据库、Neo4j图形数据库以及可供中央处理器运行的程序，显示器用于显示人员信息查询界面及其返回的查询结果，并且能够基于用户的选择可视化呈现人员的职业社交网络，中央处理器通过执行存储装置中存储的程序，能够实现上述基于履历大数据的人员任免辅助决策方法。

为验证新的分类方法对简历多标签分类的提升效果，可以在真值数据集上使用基于知识图谱的经历标签分类方法、Word2Vec+ML方法、DNN方法作算法对比验证。

方法	准确率	时间开销
			KGclassifier	0.8047	低
Word2Vec+SVC	0.7943	低
			Text-GCN	0.7868	高

表3

通过表3可以看出，新的少样本简历多标签分类方法在准确率上取得了优于常见浅层学习与深度学习方法的效果，且时间开销远小于一般的深度神经网络。

使用本系统的用户可以选择是否加载预先准备好的简历多标签分类模型，系统已经为用户提供了一些训练好的分类模型，例如kg_svc_1.model(知识图谱嵌入与支持向量机分类相结合的模型)。知识图谱嵌入的分类器(KGClassifier)除了最基础的分类(classify)功能外，还额外提供了训练分类器模型(trainclf)、保存模型(saveclf)、读取模型(loadclf)等附加功能。多标签分类器可对用户前端标注的数据进行学习以提升性能。

部分履历简历之间存在共同特征，相同特征可以是某个相同的人、相同的地址、相同的公司。对共同特征简历的标注也具有相似性，通过图7所示的分批处理界面，系统采取分批次处理的方案来遴选出一部分简历并标注，系统提供了两种典型的批次选择方案，第一类标记为batch id，意为人工定义的、具有一定相似性的简历批次的序号；第二种标记为user id，意为归属于同一人的所有经历数据。当用户选择了合适的批次筛选指标，就可以在下方输入想要标注的批次id。简历批次的数据下面会有标签待选项，用户可以进行手工点选与简历文本相匹配的标签，对当前的简历进行多标签分类标注。

相比于现有技术，本发明具有如下有益效果：

1)提高半结构化简历数据中履历经历提取的准确性，精确的自然语言处理是具备可实用性的简历分析的基础前提。目前较为通用的中文分词模型(如结巴分词等)在简历分词的任务中效果较差，主要原因在于简历文本中经常出现的机构、部门以及职位词语往往长度较长且使用了若干词汇作为定语，通用的中文分词模型往往会将某一个机构、部门或职位词语分离成多个词语。同时通用的中文分词方法也难以完整识别词语的实体属性(譬如识别为机构名或职业名等)，无法做到对兼职经历的正确分离。针对该问题，本发明提出一种新型实体识别算法来实现中文简历文本分词任务，该方法是基于BiLSTM-CRF模型实现的实体识别模型。此外，在基础的BiLSTM-CRF模型上我们基于简历文本的特点，对CRF模型的转移矩阵进行了优化，提高了分词的准确率。同时，在该分词方法中我们还结合了Hanlp方法对于模型的文本进行了输入前的预处理(筛除笔误、无关词汇)和分词后的后处理(筛除无关词汇以及错误分词)，优化了分词结果。综合这些改进，该实体识别分词方法可以自动且准确地提取出职业经历中的各个机构、部门与职位完整名称，从而辅助后续人际关系提取以及职业轨迹的正确构建。同时该算法将有效解决兼职岗位造成的语义混淆，将兼职经历进行正确的分离，分离精确到任职的地区、机构、部门、职业，并将这些词语按照属性正确组合。

2)结合领域知识与语义信息的履历经历细粒度多标签分类，履历经历的分析需要对简历进行细粒度的多标签分类，如何在学习对分类有用的文本语义信息的同时有效结合专家知识，是本发明解决的重要技术问题。简历文本具有少样本(真值数据较少)、半结构化(具备一定语法结构)、多标签等数据特征，传统机器学习方法的训练效果较差。以Text-GCN为例，每次分类新文本时，需使用全部简历数据重新训练，时间成本开销极大。为解决这一困难，本发明提出了基于知识图谱(knowledge Graph)的经历标签分类系统，以分词与标签构建实体与关系，结合知识图谱嵌入得到有效的文本表征，进而浅层学习方法给出分类预测。解决了机器学习方法难以处理的样本稀疏问题，同时兼顾了专家系统的知识体系，可以实时分类新的简历数据；简历多标签分类器主要被用于履历经历自动分类、专家手工标注、标签检索等工作，我们据此设计实现了基于职业领域标签的人事条件查询模块。职业变迁的分析往往集中于任职部门、任职岗位的变化，缺乏职业领域的定性变化分析。为解决这一问题，我们设计了基于标签分类的能岗匹配，针对目标标签进行含附加项的检索查询，返回包含符合条件的简历的人员及其职业领域变迁图。

3)根据任职经历提取共事、上下级关系、构建职业人际关系图(职业社交网络)，从岗位信息的大数据中挖掘职业社交关系与人才流动方向，对于分析人员职业发展、行业态势、地区人力资源模式等方面具有重要作用，其中一个重要方向是分析人员的职业人际关系，即工作变更、公事关系等。如何将这些关系信息从简历中提取出来，建立一种易于检索的数据结构(又称职业社交网络)是本发明解决的另一项技术问题。本发明的创新点一方面解决了职级信息中组织架构的细粒度问题，可以在没有外部组织架构数据的基础上，通过对履历经历中机构、部门、岗位的精确实体识别，判断两个人在给定时间点是否存在共事、上下级等关系，另一方面，在信息广度方面本发明也有一定的优势，以往的研究对象基本属于同一组织(如同一公司、学校)，职业信息比较简单，本发明的优势点在于能够高效地处理目前某一地区整个人员组织架构的职级信息，职级信息比较冗杂，而非单一的某一机构。

4)结合经历标签与人际关系的人员职业成长轨迹的可视化分析，履历经历标签与职业社交网络为分析一个人的职业轨迹、一个机构或地区的人才流动状况提供了丰富的信息。将如何有效地通过互动式的可视化方式将这些抽象信息展示给管理者，辅助其分析与决策是本发明解决的重要问题。该可视化模式具有支持互动、多视角展示和随时间变动的特点，方便用户对不同尺度的信息(如个人、机构、地区)进行分析。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围。应当指出，对于本技术领域的技术人员，在不脱离本发明设计结构及原理的前提下对本发明方案所作的等同变化都视作本发明的保护范围。

Claims

1.一种基于履历大数据的人员任免辅助决策方法，其特征在于,具体包括如下步骤：

S2、基于专家规则与知识图谱进行混合短文本多标签分类；

S4、基于查询条件获取符合要求的人员信息，对人员的职业社交网络进行可视化呈现；

所述中文简历文本处理算法具体包括：

所述混合短文本多标签分类包含两条路径：

S22、基于所述步骤S1得到的分词结果，构成知识图谱，通过知识图谱嵌入的方法获得文本表征，给出标签预测结果；

所述基于专家规则的分类模拟了人类专家对短文本简历数据的类别判断，所述专家规则由三层逻辑组成，分别为：

c、消除特征，标签组内包含指代标签不存在的词典，当经历文本与指代标签不存在的词典匹配失败，则认为该经历文本确实与标签组关联，否则，则认为标签组内不存在与该经历文本相应的标签映射；

所述知识图谱嵌入指的是将图谱中包含实体和关系的组成部分嵌入到连续向量空间中，保持知识库的固有结构的同时以增强下游工作，具体包括，图谱中主要包含了三种连接关系：简历实体与标签实体的连接关系，若干标签之间存在的排斥关系和地址、机构、职位实体存在的归属关系，为图谱中所有三元组定义一个打分函数，将损失函数定义为图谱中所有三元组的打分函数之和，通过反向传播，图谱中所有的实体与关系最终会逐渐收敛于低纬度的嵌入空间，在简历数据集上进行训练，将文本表征结果保存下来，根据嵌入结果获得文本表征；

从而基于知识图谱的经历标签分类，以分词与标签构建实体与关系，结合知识图谱嵌入得到有效的文本表征，给出分类预测，解决了机器学习方法难以处理的样本稀疏问题，同时兼顾了专家系统的知识体系，可以实时分类新的简历数据。

2.根据权利要求1所述的基于履历大数据的人员任免辅助决策方法，其特征在于，所述中文简历文本处理算法还包括：

3.根据权利要求2所述的基于履历大数据的人员任免辅助决策方法，其特征在于，将双向长短时记忆神经网络模型与条件随机场方法结合的BiLSTM-CRF方法作为分词的模型。

4.根据权利要求1所述的基于履历大数据的人员任免辅助决策方法，其特征在于，所述构建人员的职业社交网络具体包括：

S31、构建前缀树；

S32、提取同事和上下级关系；

S34、生成人员的职业社交网络。

5.根据权利要求4所述的基于履历大数据的人员任免辅助决策方法，其特征在于，同事和上下级的计算过程包括：

6.根据权利要求1所述的基于履历大数据的人员任免辅助决策方法，其特征在于，所述可视化分为三种视角：全局组织结构树OCtreeview、个人职业轨迹trajectorytree和上下级关系结构图Up-Downtree，分别可视化职业网络的全局的结构状态和动态变化、个人职业轨迹和员工之间的上下职级关系；全局组织结构树着重展示通过简历数据搭建的职业层级结构；个人职业轨迹图在时间轴的不同时间点绘制当前目标员工所在的组织结构子树，依次展示不同时间节点个人职业轨迹的变动；上下级关系结构图则以目标用户为中心节点，通过位置关系可以展示不同上下级之间的位置关系；以便用户观察可视化随着时间的变化而变化，从而进行分析。

7.根据权利要求6所述的基于履历大数据的人员任免辅助决策方法，其特征在于，借助echarts插件中的radialtree实现全局组织结构树，借助echarts插件中的radialtree和canvas绘图工具实现个人职业轨迹图，借助echarts插件的graph图实现上下级关系图。

8.一种基于履历大数据的人员任免辅助决策系统，其特征在于,具体包括中央处理器、存储装置和显示器，所述存储装置中存储有MySQLServer数据库、Neo4j图形数据库以及可供中央处理器运行的程序，所述显示器用于显示人员信息查询界面及其返回的查询结果，并且能够基于用户的选择可视化呈现人员的职业社交网络，所述中央处理器通过执行所述程序，能够实现权利要求1-7中任一项所述的基于履历大数据的人员任免辅助决策方法。

9.根据权利要求8所述的基于履历大数据的人员任免辅助决策系统，其特征在于，所述MySQLServer数据库以二维表格的形式存储原始简历文本，所述Neo4j图形数据库存储知识图谱。

10.一种计算机可读存储介质，其特征在于,存储有可供中央处理器运行的程序，所述程序在被所述中央处理器运行的过程中能够实现权利要求1-7中任一项所述的基于履历大数据的人员任免辅助决策方法。