CN114780744A

CN114780744A - 一种面向知识图谱构建的人物简历解析方法

Info

Publication number: CN114780744A
Application number: CN202210414099.4A
Authority: CN
Inventors: 杨永秀; 段飞虎; 印东敏; 吕强; 宿鹏; 张敏敏; 顾君; 张宏伟
Original assignee: Tongfang Knowledge Network Beijing Technology Co ltd; Tongfang Knowledge Network Digital Publishing Technology Co ltd
Current assignee: Tongfang Knowledge Network Beijing Technology Co ltd; Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-07-22

Abstract

本发明公开了一种面向知识图谱构建的人物简历解析方法，包括获取不同领域的人物简历数据；搭建面向知识图谱构建的人物简历信息提取模型；构建人物在不同领域职务表；利用词典及模型对简历信息进行识别；根据信息标注结果以搭建人物知识图所需的数据结构为导向对人物信息进行聚合。本发明面向人物知识图谱的构建，设计一套非结构化人物简历文本自动解析方法，能够快速将简历文本解析成构建人物图谱所需的格式。

Description

一种面向知识图谱构建的人物简历解析方法

技术领域

本发明涉及自然语言处理和计算机信息处理技术领域，尤其涉及一种面向知识图谱构建的人物简历解析方法。

背景技术

知识图谱是由Google公司在2012年提出来的一个新的概念，其本质是“语义网络”形式的巨型知识库。知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系。由于其网络特性，对事实信息的表达形式更接近人类对客观世界的认识，同时提供了一种更好地组织、管理和理解互联网海量信息的能力。利用知识图谱结合各领域的专家知识、外部信息、商业逻辑，能够为复杂问题的决策、隐蔽风险的排查提供高效、可视化的支持。

人物图谱是知识图谱中重要的一种，利用人物图谱能够快速排查人物之间的关系，整理人物相关的个人信息及工作经历。在国企、机关事业单位等机构人事调动，投票选举等时刻能够利用人物图谱为相关工作人员提供帮助。知识图谱的构建包括信息抽取(实体抽取、关系抽取、属性抽取)、知识融合(指代消解、实体链接)、知识加工(本体构建、知识推理)等。其中信息的获取是构建知识图谱重要的一环，是整个知识图谱搭建的基础。

人物简历常见格式为半结构化和非结构化两种，半结构化简历如求职简历，大多模块分明。而非结构化人物简历通常是从网络中爬取的人物相关介绍。对非结构化人物简历的解析存在格式不规范，标点符号使用不规范，实体边界难以确定等难点。现有对非结构化人物简历信息的识别通常面向通用领域，只关注人物的基本信息，并不考虑人物的个人经历。对于人物知识图谱来说，除了人物的基本信息之外，人物的个人经历也是知识图谱中至关重要的内容。因此，面向知识图谱构建的人物简历解析方法不仅要提取人物的基本信息，还需要提取个人经历信息，由于个人经历信息之间相互依赖的特性，还需对人物信息进行聚合才能用于知识图谱构建。

发明内容

为解决上述技术问题，本发明的目的是提供一种适用于人物知识图谱构建的非结构化的人物简历解析方法，该方法首先从文本中提取单粒度人物基本信息以及人物经历(工作时间、工作单位、职位等等)相关信息，由于人物经历相关信息相互依赖，人物经历具有阶段性的特点，在信息抽取结果之上采用分段的方式对人物相关经历进行聚合，将解析出的人物经历及信息存储到数据库中用于人物图谱构建。

本发明的目的通过以下的技术方案来实现：

一种面向知识图谱构建的人物简历解析方法，包括：

A、获取不同领域的人物简历数据；

B、构建适用于人物知识图谱搭建的简历信息提取模型；

C、构建人物在不同领域职务表；

D、利用词典及模型对简历信息进行识别；

E、以搭建人物图谱所需数据结构为导向对简历信息进行聚合。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本发明以领域人物知识图谱为导向，设计一套非结构化人物简历文本自动解析方法，能够快提取出搭建人物知识图谱所需的人物信息，并整理成可用于知识图谱构建的格式，具有提取出的人物信息更加全面，人物信息结构性强的特点，能够更好地描述人物个人经历。

附图说明

图1是面向知识图谱构建的人物简历解析方法流程图；

图2是双向LSTM-CRF模型图；

图3是领域机构人员职务表(部分)示意图；

图4是面向知识图谱构建的人物简历解析方法整体工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为面向知识图谱构建的人物简历解析方法流程，包括以下步骤：

步骤10人物简历数据获取

企业构建人物图谱往往面向自己所在行业或领域或企业内部，由于保密性，一些企业所能提供的人物简历数据有限。而针对某一行业或领域能够从网络中爬取到该行业或领域的简历数据仍然有限，难以支撑模型的训练。但不同行业的人物简历往往具有共性，比如一般都涉及到人物相关的基本信息、受教育经历、工作经历，简历中常出现学院、企业等组织机构名称、时间信息、地点信息。而这些信息通常是简历解析过程中的难点。因此，我们首先从网络中获取各行各业不同领域的人物简历数据，用以构建人物简历信息识别模型。

上述构建人物知识图谱需要对人物简历进行解析，其中至关重要的一步是对人物信息的识别，本文中采用序列标注的方式对人物信息进行抽取，具体待抽取信息的标签及说明如表1所示：

表1

步骤20构建人物信息识别模型；

在科学技术的各领域中，我们所研究的事件一般都是有规律的，即自变量集合与应变量集合之间存在的对应关系通常用映射来描述。这样能根据映射(函数)规律作出预测并用于实际应用。机器学习就是根据样本(即数据)学习得到一个模型，再根据这个模型预测的一种方法。机器学习算法很多，朴素贝叶斯、决策树、支持向量机、逻辑回归、条件随机场等。而深度学习，就是一种有多层隐层的感知机。通过自身激活函数及神经元之间连接的权重所决定的一个对真实数据进行拟合的函数。

序列标注任务时中文自然语言处理(NLP)领域在句子层面中的主要任务，在给定的文本序列上预测序列中需要作出标注的标签。常见的子任务有命名实体识别(NER)以及词性标注(POS)等，序列标注方法有HMM，CRF，BILSTM+CRF，Bert+BILSTM+CRF等，本文使用BILSTM+CRF对简历文本进行序列标注，通过标签之间的匹配得到简历中的单粒度信息。BILSTM+CRF模型结构如图2所示。

对于给定一条非结构化文本序列：

X＝(X₁,X₂,X₃...X_n) (1)

假设其所对应的标签序列即网络输出的目标序列为：

y＝(y₁,y₂,y₃...y_n) (2)

则双向LSTM层的输出分值由以下公式得出：

其中，A代表转移分数矩阵，P代表双向LSTM层输出的分数矩阵。对于给定的文本序列X，整个网络得到的目标序列y的概率为：

其中，Y_X代表句子X的所有可能标签序列，在训练过程中使得正确序列的对数概率最大化：

最后根据式(6)进行解码得到最终的预测标签：

步骤30构建领域职务表；

人物职务在不同的行业或领域下会存在差异，而在简历中职务信息前后没有明显的标志特征。网络上爬取的公开人物简历多出现例如：经理、工程师等职务，但不能涵盖所有领域所有职务，比如政府机构的党组书记、局长、办公室主任；科研院所的研究员，台长等，如果只单一地使用模型对职务进行标注很容易出现漏标的情况。因此，需针对不同领域简历建立专属领域职务表。

以政府机构人员为例：

1)根据从政府机构职位表中提取文中字段，去掉英文并按照换行符切分得到职位列表；

2)对职位列表数据进行清洗，并通过构建的领域人物信息识别模型识别职位列表中包含的组织机构名称，提取组织机构名称后的文字作为新的职务信息；

3)对职位列表进行扩充，从历年国家及各地方公务员招聘位表提取相应职位，加入职位列表，并对职务列表进行去重存储。

政府机构人员职务表(部分)如图3所示。

步骤40利用词典及模型对简历信息进行识别

首先利用自定义行业内职务表以及民族表，对人物简历中的职位信息以及民族信息进行标注。

由于不同领域行业人物简历中所涉及到的组织机构类型、时间信息书写方式有所偏好，比如科技人物简历中常出现，例如：中国科学院大连化学物理研究所；北京光电技术研究所；国家电力规划研究中心等单位。而在政府机构人员简历中常出现例如:沈阳市人力资源和社会保障局；哈尔滨市国有资产监督管理委员会；成都市住房和城乡建设局等单位。鉴于此仅使用网络中爬取的人物简历进行模型训练会导致部分行业内信息无法识别，而在实际的工程中，企业往往难以提供足够的行业内人物简历数据。因此，我们首先利用网络中通用的人物简历训练面向人物图谱构建的简历识别模型，用此模型对行业内的人物简历进行标注，经人工修改后，在原模型的基础之上利用行业内人员的简历数据对原模型进行加强训练。最后使用训练好的模型对人物简历中的姓名、出生时间、出生地以及个人经历中的时间，单位，专业等相关信息进行标注。

步骤50简历信息聚合

根据信息标注结果对简历信息聚合，具体步骤如下：

1)提取个人基本信息，以第一个学习或工作经历相关时间之前句子作为基本信息句；提取姓名，性别，出生时间，籍贯，民族等基本信息。

2)提取个人经历相关信息：

①首先以句号、分号、换行符对简历进行分句，句内若有多个时间信息，则以工作时间或学习时间位标志，对简历进行子句分割；若没有或只有一个时间信息，则该句单独作为一句。

②在每块内以工作单位及学习单位为标志作为一段基本信息共享块内的时间信息。其中块内的职务、专业、学历等信息依附于该信息之前的组织单位作为一段个人经历内的相关信息。

③若某块内没有时间信息，则认为该段个人经历为现阶段经历。

如图4是面向知识图谱构建的人物简历解析方法整体工作流程。

如表2所示为使用上述实施例提供的方法解析后的政府机构人员基本信息库：

表2

如表3为使用上述实施例提供的方法解析后的政府机构人员个人经历信息库(部分)及组织单位库(部分)：

表3

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种面向知识图谱构建的人物简历解析方法，其特征在于，包括

A、获取不同领域的人物简历数据；

B、构建适用于人物知识图谱搭建的简历信息提取模型；

C、构建人物在不同领域职务表；

D、利用词典及模型对简历信息进行识别；

2.如权利要求1所述的面向知识图谱构建的人物简历解析方法，其特征在于，所述B中通过BILSTM+CRF对简历文本进行序列标注，通过标签之间的匹配得到简历中的单粒度信息。

3.如权利要求2所述的面向知识图谱构建的人物简历解析方法，其特征在于，具体包括：

对于给定一条非结构化文本序列：

X＝(X₁,X₂,X₃...X_n) (1)

假设其所对应的标签序列即网络输出的目标序列为：

y＝(y₁,y₂,y₃...y_n) (2)

则双向LSTM层的输出分值由以下公式得出：

其中，A代表转移分数矩阵，P代表双向LSTM层输出的分数矩阵；对于给定的文本序列X，整个网络得到的目标序列y的概率为：

最后根据式(6)进行解码得到最终的预测标签：

4.如权利要求1所述的面向知识图谱构建的人物简历解析方法，其特征在于，所述C中，针对不同领域简历建立领域职务表具体包括：

从领域机构职位表中提取文中字段，去掉英文并按照换行符切分得到职位列表；

对职位列表数据进行清洗，并通过构建的领域人物信息识别模型识别职位列表中包含的组织机构名称，提取组织机构名称后的文字作为新的职务信息；

对职位列表进行扩充，通过历年领域职位表提取相应职位，加入职位列表，并对职位列表进行去重存储。

5.如权利要求1所述的面向知识图谱构建的人物简历解析方法，其特征在于，所述E具体包括：

E1提取人物知识图谱构建所需的任务基本信息；

E2提取人物知识图谱构建所需的人物个人相关经历信息。

6.如权利要求5所述的面向知识图谱构建的人物简历解析方法，其特征在于，所述E1中以第一个学习或工作经历相关时间之前的句子作为基本信息句，提取姓名、性别、出生时间、籍贯及民族基本信息用以充实人物节点的相关属性。

7.如权利要求5所述的面向知识图谱构建的人物简历解析方法，其特征在于，所述E2具体包括：

以句号、分号、换行符对简历进行分句，对于每一个句子，若句内有多个时间信息，则以工作时间或学习时间为标志，对简历进行子句分割；若没有或只有一个时间信息，则该句不再分割子句；

在每子句内以工作单位及学习单位为标志作为一段基本信息共享块内的时间信息；

若某块内没有时间信息，则认为该段个人经历为现阶段经历。