CN113722476A

CN113722476A - 一种基于深度学习的简历信息提取方法及系统

Info

Publication number: CN113722476A
Application number: CN202110876175.9A
Authority: CN
Inventors: 张晋
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-11-30

Abstract

本发明公开了一种基于深度学习的简历信息提取方法及系统，包括，收集简历的中文语料，作为训练数据；根据所述中文语料信息构建神经网络模型；通过所述训练数据对构建的神经网络模型进行训练直至收敛；将简历输入至所述神经网络中进行信息提取。本发明的有益效果：应用本发明提供的方法进行简历信息的提取，能够很好的应对简历中复杂的半结构化数据，由于深度学习具有很强的表征能力，能够很好的提取出特征，同时还具有较好的泛化能力，适合用于信息的提取。

Description

一种基于深度学习的简历信息提取方法及系统

技术领域

本发明涉及自然语言处理的技术领域，尤其涉及一种基于深度学习的简历信息提取方法及系统。

背景技术

近年来，随着互联网和信息产业的高速发展，大量的非结构化数据和半结构化数据可以从互联网上获得。利用爬虫技术，大量的简历文本信息可以从网上被获得。由于简历中包含的数据内容众多，因此如何快速整合简历中的数据填充至数据库中作为人才筛选的资源对于很多企业十分重要。

对于简历信息，主要需要提取的数据信息包括姓名、电话、年龄、性别、毕业院校、学历以及从事过的职业等主要信息。这些信息提取出来后存入数据库，作为筛选的初步条件。其背后涉及到的算法就是中文命名体识别技术。

传统的命名实体提取技术是基于中文关键词匹配方法,这种技术需要构建系统中所需的关键词词库,其缺点在于有可能遗漏一些关键词同时也耗时耗力。统计方法中，例如条件随机场、隐马尔可夫模型相比关键词匹配而言,不需要构建词库,但是它们受限于特征的选择和语料。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的一个技术问题是：提出一种基于深度学习的简历信息提取方法，在中文命名实体识别上具有良好的表现，且具有很好的泛化性能，对于多种实体的情况识别效果更好。

为解决上述技术问题，本发明提供如下技术方案：一种基于深度学习的简历信息提取方法，包括收集简历的中文语料；根据所述中文语料信息构建神经网络模型；通过训练数据对构建的神经网络模型进行训练直至收敛；将简历输入至所述神经网络中进行信息提取。

作为本发明所述的基于深度学习的简历信息提取方法的一种优选方案，其中：所述训练数据包括，采用爬虫技术爬取简历信息形成文本文件；将文本文件整合为数据集合；对数据集合进行打标，得到标注数据。

作为本发明所述的基于深度学习的简历信息提取方法的一种优选方案，其中：所述对数据集合进行打标包括，所述打标标准为：对于一份简历，将不需要提取的数据标签设置为0,姓名标签的后缀设置为PER，学历标签设置为EDU，毕业院校标签设置为UNI,职位标签设置为OCC,年龄标签设置为AGE,性别标签设置为SEX，每种实体的开始的字的标签前缀是B,跟在后面的前缀为I。

作为本发明所述的基于深度学习的简历信息提取方法的一种优选方案，其中：所述神经网络模型包括，BERT模型、BILSTM模型和CRF模型，将所述BERT模型的输出数据，输入至所述BILSTM模型，并将所述中的数据输出BILSTM模型中的数据，作为所述CRF模型的输入，其中所述BERT模型用于实现词嵌入的功能，所述BILSTM模型与CRF模型构建训练神经网络并对输出结果的约束。

作为本发明所述的基于深度学习的简历信息提取方法的一种优选方案，其中：所述训练过程包括，所述BERT模型对训练数据进行嵌入，在所述BILSTM模型中，计算简历中每个字符被提取的概率，将所述概率传输至所述CRF模型计算可能的提取路径，其过程表示为如下：

γⁱ＝argmax score(x,y)

其中：γⁱ为提取路径，θ为最优参数，K为训练数据概率，x,y为数据特征。

作为本发明所述的基于深度学习的简历信息提取方法的一种优选方案，其中：所述对输出结果的约束包括，在模式中，每种实体的开始的字的标签前缀是B,跟在后面的前缀为I，并且开始的字不能为I；对于同一实体，字母相同，末尾序号不同表示为同类字符。

本发明解决的另一个技术问题是：提供一种基于深度学习的简历信息提取系统，使上述方法能够基于该系统实现。

为解决上述技术问题，本发明提供如下技术方案：一种基于深度学习的简历信息提取系统，包括采集模块用于采集并构建训练数据；提取模块根据所述采集模块采集的数据进行神经网络模型的构建，并基于神经网络模型进行信息提取；

作为本发明所述的基于深度学习的简历信息提取系统的一种优选方案，其中：所述采集模块包括，实时数据采集单元实时获取各大招聘网站上的简历信息；历史数据存储单元存储历史提取结果。

作为本发明所述的基于深度学习的简历信息提取系统的一种优选方案，其中：所述提取模块包括，神经网络模型连接于所述实时数据采集单元，根据采集的数据构建神经网络模型，提取简历信息；训练模块将所述历史数据存储单元中的历史结果作为训练数据，对构建的所述神经网络模型进行训练。

本发明的有益效果：应用本发明提供的方法进行简历信息的提取，能够很好的应对简历中复杂的半结构化数据，由于深度学习具有很强的表征能力，能够很好的提取出特征，同时还具有较好的泛化能力，适合用于信息的提取。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一种实施例所述基于深度学习的简历信息提取方法的整体流程结构示意图；

图2为本发明第二种实施例所述基于深度学习的简历信息提取系统的整体结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1的示意，示意为本实施例提出的一种基于深度学习的简历信息提取方法的整体流程图，目前的实体提取技术主要是基于中文关键词匹配方法，需要构建系统中所需的关键词词库，面对大量的数据，存在遗漏关键词的情况，或受限于特征的选择和语料，同时这种方法也耗时耗力，提取不够准确、全面。

为了解决以上问题，本实施例通过将深度学习的方法应用于简历信息的提取，能够很好的应对简历中复杂的半结构化数据。

具体的，本实施例中提出一种基于深度学习的简历信息提取方法，包括，

S1：收集简历的中文语料，作为训练数据。其中需要说明的是，

采集过程为采用爬虫技术爬取简历信息形成文本文件，其中简历信息可以从各大招聘网站上进行爬取；将文本文件整合为数据集合；对数据集合进行打标，得到标注数据，即对于一份简历，将不需要提取的数据标签设置为0,姓名标签的后缀设置为PER，学历标签设置为EDU，毕业院校标签设置为UNI,职位标签设置为OCC,年龄标签设置为AGE,性别标签设置为SEX，每种实体的开始的字的标签前缀是B,跟在后面的前缀为I。

S2：根据中文语料信息构建神经网络模型。其中需要说明的是，

具体的，神经网络模型包括BERT模型、BILSTM模型和CRF模型，其中，将BERT模型的输出数据，输入至BILSTM模型，并将中的数据输出BILSTM模型中的数据，作为CRF模型的输入，其中中文BERT模型及代码可以下载Google Research的BERT，其主要用于实现词嵌入的功能，BILSTM模型与CRF模型构建训练神经网络并对输出结果的约束。

S3：通过训练数据对构建的神经网络模型进行训练直至收敛。其中需要说明的是，

训练过程包括，BERT模型对训练数据进行嵌入，在BILSTM模型中，计算简历中每个字符被提取的概率，将概率传输至CRF模型计算可能的提取路径，其过程表示为如下：

γⁱ＝argmax score(x,y)

其中：γⁱ为提取路径，θ为最优参数，K为训练数据概率，x,y为数据特征；在模式中，每种实体的开始的字的标签前缀是B,跟在后面的前缀为I，并且开始的字不能为I；对于同一实体，字母相同，末尾序号不同表示为同类字符。

S4：将简历输入至神经网络中进行信息提取。

本发明首先利用爬虫技术，从招聘网站中获取简历信息，作为数据集合，对于此数据集合首先需要进行打标，为了便于信息的提取以及加快训练进程，将简历中的各个部分加以特殊标号，处理完成后，构建一个神经网络模型，将打标后的数据集合进行输入，训练神经网络，提取简历字符，并且在提取字符的同时，对字符进行约束，剔除不符合约束条件的字符，提高精度。

为了更好地对本发明方法中采用的技术效果加以验证说明，本实施例中选择基于中文关键词匹配方法进行测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

传统的基于中文关键词匹配方法，需要进行关键词的提取，因此要构建系统中所需的关键词词库，在面对大量的数据时，存在遗漏关键词的情况，还受限于特征的选择和语料，同时这种方法也耗时耗力，提取不够准确、全面；为了验证本发明的有益效果，搭建一个简历信息提取平台，利用Python爬虫工具，从智联招聘网站中爬取1000份简历中文简历资料进行实验，在实验时，将此1000份简历分成50份、100份、150份、200份、500份这5组进行实验，在进行实验前利用爬虫工具爬取200份简历，构成数据集合进行神经网络的训练，训练完成后，使用两种方法对5组简历进行实验信息提取实验，计算信息提取的准确度以及时间，其计算结果如下表1所示：

表1：信息提取实验对比结果。

可以看出本申请在进行建立信息提取时，提取的信息量与简历的平均价值信息的百分比基本一致，而使用传统基于中文关键词匹配方法进行关键词检索时，所能提取的有用信息明显远远小于标准值，并且传统方法在进行信息提取时所话的时间，当信息数量较大时，所耗时间要远远高于本发明方法，因此本发明具有实用性。

实施例2

参照图2的示意，示意为本实施例提出的一种基于深度学习的简历信息提取系统的整体结构示意图，上述实施例提出的基于深度学习的简历信息提取方法能够依托于本实施例实现，该系统包括采集模块100、提取模块200。

其中，采集模块100用于采集并构建训练数据；提取模块200根据采集模块100采集的数据进行神经网络模型的构建，并基于神经网络模型进行信息提取。

进一步的是，采集模块100包括，实时数据采集单元101实时获取各大招聘网站上的简历信息；历史数据存储单元102存储历史提取结果，在历史数据存储单元102中包括标注模块M用于对历史数据进行打标。

提取模块200包括，神经网络模型201连接于实时数据采集单元101，根据采集的数据构建神经网络模型，提取简历信息；训练模块300将历史数据存储单元102中的历史结果作为训练数据，对构建的神经网络模型201进行训练。

不难理解的是，本实施例中所提供的系统，其涉及采集模块100、提取模块200，例如可以是运行在计算机可读程序，通过提高各模块的程序数据接口实现。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的简历信息提取方法，其特征在于：包括，

收集简历的中文语料，作为训练数据；

根据所述中文语料信息构建神经网络模型；

通过所述训练数据对构建的神经网络模型进行训练直至收敛；

将简历输入至所述神经网络中进行信息提取。

2.如权利要求1所述的基于深度学习的简历信息提取方法，其特征在于：所述训练数据包括，

采用爬虫技术爬取简历信息形成文本文件；

将文本文件整合为数据集合；

对数据集合进行打标，得到标注数据。

3.如权利要求2所述的基于深度学习的简历信息提取方法，其特征在于：所述对数据集合进行打标包括，

所述打标标准为：对于一份简历，将不需要提取的数据标签设置为0,姓名标签的后缀设置为PER，学历标签设置为EDU，毕业院校标签设置为UNI,职位标签设置为OCC,年龄标签设置为AGE,性别标签设置为SEX，每种实体的开始的字的标签前缀是B,跟在后面的前缀为I。

4.如权利要求1～3任一所述的基于深度学习的简历信息提取方法，其特征在于：所述神经网络模型包括，

BERT模型、BILSTM模型和CRF模型，将所述BERT模型的输出数据，输入至所述BILSTM模型，并将所述中的数据输出BILSTM模型中的数据，作为所述CRF模型的输入，其中所述BERT模型用于实现词嵌入的功能，所述BILSTM模型与CRF模型构建训练神经网络并对输出结果的约束。

5.如权利要求4任一所述的基于深度学习的简历信息提取方法，其特征在于所述训练过程包括，

所述BERT模型对训练数据进行嵌入，在所述BILSTM模型中，计算简历中每个字符被提取的概率，将所述概率传输至所述CRF模型计算可能的提取路径，其过程表示为如下：

γⁱ＝argmax score(x,y)

6.如权利要求4或5所述的基于深度学习的简历信息提取方法，其特征在于：所述对输出结果的约束包括，

在模式中，每种实体的开始的字的标签前缀是B,跟在后面的前缀为I，并且开始的字不能为I；对于同一实体，字母相同，末尾序号不同表示为同类字符。

7.一种基于深度学习的简历信息提取系统，其特征在于：包括，

采集模块(100)用于采集并构建训练数据；

提取模块(200)根据所述采集模块(100)采集的数据进行神经网络模型的构建，并基于神经网络模型进行信息提取。

8.如权利要求7所述的基于深度学习的简历信息提取系统，其特征在于：所述采集模块(100)包括，

实时数据采集单元(101)实时获取各大招聘网站上的简历信息；

历史数据存储单元(102)存储历史提取结果，包括标注模块M用于对历史数据进行打标。

9.如权利要求7或8所述的基于深度学习的简历信息提取系统，其特征在于：所述提取模块(200)包括，

神经网络模型(201)连接于所述实时数据采集单元(101)，根据采集的数据构建神经网络模型，提取简历信息；

训练模块(202)将所述历史数据存储单元(102)中的历史结果作为训练数据，对构建的所述神经网络模型(201)进行训练。