CN110222292A

CN110222292A - 网站简历自动解析方法、计算机设备和存储介质

Info

Publication number: CN110222292A
Application number: CN201910355419.1A
Authority: CN
Inventors: 毕昀
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-09-10

Abstract

本发明提供一种网站简历自动解析方法、计算机设备和存储介质，所述方法包括以下步骤：S1，将网站简历转化成XML简历文本；S2，通过正则表达式将所述XML简历文本拆分成基本信息块和复杂信息块；当没有可识别的关键字时，则将XML简历文本的前3‑15行文本作为基本信息块，而其余文本作为复杂信息块；S3，将基本信息块转换成TXT文本，通过自然语言处理对TXT文本进行解析，得到包括姓名、性别、年龄、籍贯和职业中一种或多种的基本信息要素，并将其填入相应的简历模板；和S4，采用XML路径语言对复杂信息块进行切割，得到教育经历子块、工作经历子块和项目经历子块，从教育经历子块、工作经历子块和项目经历子块提取信息，并将其填入相对应的简历模板。

Description

网站简历自动解析方法、计算机设备和存储介质

技术领域

本发明涉及一种网站简历自动解析方法、计算机设备和存储介质。

背景技术

在日常生活中，公司的人力资源部门或者人力资源公司都会收集、囤积大量人才的简历，并经整理转化成为自己的简历库。但是，由于简历的来源不同，以及简历文本也非标准化、结构化的文件，在整理和录入中存在诸多困难。

简历解析，就是针对各种不同格式的简历，按照要求提取结构化字段的过程，是后续进一步人才职位匹配、推荐等工作的基础。目前，简历解析通常需要人工或人工辅助来完成。但是这样的解析方式效率低，也容易出现信息重复录入或信息缺失的情况，准确率不高。

发明内容

因此，本发明的目的是针对现有技术中存在的缺陷，提供了一种网站简历自动解析方法、计算机设备和存储介质，本发明提供的网站简历自动解析方法适用性强，效率和准确率高。

本发明的目的是通过以下技术方案实现的。

一方面，本发明提供了一种网站简历自动解析方法，所述方法包括以下步骤：

S1，将网站简历转化成XML简历文本；

S2，通过正则表达式对关键字进行识别以寻找切分点，进而将所述XML简历文本拆分成基本信息块和复杂信息块；

当没有可识别的关键字时，则将所述XML简历文本的前3-15行文本作为基本信息块，而其余文本作为复杂信息块；

S3，将所述基本信息块转换成TXT文本，通过自然语言处理对所述TXT文本进行解析，得到包括姓名、性别、年龄、籍贯和职业中一种或多种的基本信息要素，并将其填入相应的简历模板；和

S4，采用XML路径语言对所述复杂信息块进行切割，得到教育经历子块、工作经历子块和项目经历子块，从所述教育经历子块、所述工作经历子块和所述项目经历子块提取信息，并将其填入相应的简历模板。

优选地，所述步骤S1中所述的网站简历是通过互联网超文本传输协议从诸如猎聘网、中华英才网、脉脉网、领英网和各地区人才网的包括人才简历的网站得到的。

优选地，所述步骤S2还包括：S201，建立关键词库。

更优选地，所述关键词库中的关键词包括：教育背景、教育经历、工作经历、工作经验、培训经历、项目经历、项目经验、自我评价、职业意向、求职意向、期望行业、期望职能、期望地点、期望年薪和语言能力。

优选地，所述步骤S2包括：

S201，建立关键词库；和

S202，基于所述关键词库，通过正则表达式从所述XML简历文本中检索相匹配的文本，将所述XML简历文本中先出现的、所述关键词库中的任一关键词作为切分点，进而将所述XML简历文本拆分成基本信息块和复杂信息块。

优选地，所述步骤S2中，当没有可识别的关键字时，则将所述XML简历文本的前5-10行文本作为基本信息块，将其余部分文本作为复杂信息块。

优选地，所述步骤S3中所述的TXT文本不包括XML格式标记。

优选地，所述步骤S3中是通过自然语言处理工具包对所述TXT文本进行解析的。

另一方面，本发明提供了一种计算机设备，所述设备包括处理器和存储器，其中，所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现所述网站简历自动解析方法。

又一方面，本发明提供了一种计算机可读的存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现所述网站简历自动解析方法。

本发明提供的网站简历自动解析方法，通过设计特定解析路径，将不同的解析手段相结合，极大地提高了解析的准确率和效率，并且可以对不同来源的、具有不同结构的网站简历进行解析，适用性强。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的网站简历自动解析方法的一种实施方案的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

作为本发明的第一实施方式，本发明提供了一种网站简历自动解析方法，所述方法包括以下步骤：

S1，将网站简历转化成XML简历文本；

如图1所示，网站简历自动解析方法包括以下步骤：

S1，将网站简历转化成XML简历文本；

S4，采用XML路径语言对所述复杂信息块进行切割，得到教育经历子块、工作经历子块和项目经历子块，从所述教育经历子块、所述工作经历子块和所述项目经历子块提取信息，并将其填入相对应的简历模板。

本发明人注意到，网站简历的文本结构，特别是基本信息部分结构、形式不规范，部分网站简历列出了姓名、性别，年龄等项目，但是仍有相当数量的网站简历没有列出这些项目，而是直接给出“张三”、“男”(或“女”)、“25岁”、“北京”等信息，其结构、顺序也不固定，难以精准地解析。

对此，本发明提供的方法中，首先将网站简历转化成特定格式的文本，然后利用正则表达式将特定格式的文本进行拆分，形成基本信息块和复杂信息块。对于通常是非规范化结构的基本信息块，采用自然语言处理进行解析；而对于具有规范化结构的复杂信息块，采用XML路径语言进行拆分、解析。由此，本发明通过采用不同的解析手段相结合，极大地提高了解析的准确率和效率，并且可以对不同来源的、具有不同结构的网站简历进行解析，适用性强。

根据本发明的一实施例，本发明提供的网站简历自动解析方法特别适用于解析基本信息不规范的网站简历，但这并不意味着本发明方法不可用于基本信息部分规范的网站简历。

根据本发明的一实施例，所述步骤S1中的网站简历可以通过互联网超文本传输协议从诸如猎聘网、中华英才网、脉脉网、领英网和各地区人才网等包括人才简历的网站得到。

根据本发明的一实施例，所述步骤S2中将所述XML简历文本拆分成基本信息块和复杂信息块。

就内容特点而言，基本信息块由人才的基本信息组成，而复杂信息块通常包括该人才的扩展情况信息。所述基本信息可能包括以下项目：姓名、性别、出生年月(年龄)、籍贯和联系方式等。复杂信息块可能包括教育经历、工作经历、项目经历和培训经历等中的一个或多个子块。

所述基本信息块和所述复杂信息块之间、所述复杂信息块的子块之间通常具有明显的分割标识。这样的分割标识的实例包括但不限于：关键词、字体和格式。本发明中通过正则表达式对关键字进行识别以寻找切分点，将所述XML简历文本拆分成基本信息块和复杂信息块。

根据本发明的一实施例，所述步骤S2还包括：S201，建立关键词库。

本发明中，采用穷举法将所述XML简历文本中可能出现的复杂信息块的标题及所属类别以及诸如教育经历子块、工作经历子块和项目经历子块等子块的标题及所属类别存入关键字库中。

在一些实施方案中，所述关键词库中的关键词的实例包括但不限于：教育背景、教育经历、工作经历、工作经验、培训经历、项目经历、项目经验、自我评价、职业意向、求职意向、期望行业、期望职能、期望地点、期望年薪和语言能力。

根据本发明的一实施例，所述步骤S2包括：

S201，建立关键词库；和

该实施例中，所述XML简历文本中先出现的、所述关键词库中的任一关键词归入所述复杂信息块。

根据本发明的一实施例，当在所述XML简历文本中未检测到相应的关键字时，则将所述XML简历文本的前3-15行文本作为基本信息块，将其余部分文本作为复杂信息块。当然，也可以根据实际需求灵活设置基本信息快的范围。

在一些实施方案中，所述步骤S2中，当没有可识别的关键字时，则将所述XML简历文本的前5-10行文本作为基本信息块，将其余部分文本作为复杂信息块。

根据本发明的一实施例，所述步骤S3中，所述TXT文本可以包括XML格式标记，也可以不包括XML格式标记。

在一些实施方案中，所述TXT文本不包括XML格式标记。由此，更便于进行自然语言处理。

根据本发明的一实施例，将XML格式的基本信息块转化为不包括XML格式标记的TXT文本的方法在本领域是已知的，本发明对此没有特殊要求。例如，可以通过正则表达式将XML格式的基本信息块转化为不包括XML格式标记的TXT文本。

根据本发明的一实施例，所述步骤S3中是通过自然语言处理工具包(NaturalLanguage Toolkit，简称“NLTK”)对所述TXT文本进行解析的。

XML路径语言(XML Path Language)是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。在具体实现时，可以采用XML路径语言来编写所述复杂信息块中各个子块的位置，通过各个子块的位置即可在解析时提取各子块的数据。

根据本发明的一实施例，所述步骤S4中，除了得到教育经历子块、工作经历子块和项目经历子块，还可能切割得到其他子块，并由其提取信息，填入相应的简历模板。

在一些实施方案中，所述其他子块的实例包括但不限于：培训经历子块、自我评价子块和职业意向子块。

作为本发明的第二实施方式，本发明提供了一种计算机设备，所述设备包括处理器和存储器，其中，所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现所述网站简历自动解析方法。

作为本发明的第三实施方式，本发明提供了一种计算机可读的存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现所述网站简历自动解析方法。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制；方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网站简历自动解析方法，所述方法包括以下步骤：

S1，将网站简历转化成XML简历文本；

2.根据权利要求1所述的网站简历自动解析方法，其中，所述步骤S1中所述的网站简历是通过互联网超文本传输协议从诸如猎聘网、中华英才网、脉脉网、领英网和各地区人才网的包括人才简历的网站得到的。

3.根据权利要求1或2所述的网站简历自动解析方法，其中，所述步骤S2还包括：S201，建立关键词库；

优选地，所述关键词库中的关键词包括：教育背景、教育经历、工作经历、工作经验、培训经历、项目经历、项目经验、自我评价、职业意向、求职意向、期望行业、期望职能、期望地点、期望年薪和语言能力。

4.根据权利要求1或2所述的网站简历自动解析方法，其中，所述步骤S2包括：

S201，建立关键词库；和

S202，基于所述关键词库，通过正则表达式从所述XML简历文本中检索相匹配的文本，将所述XML简历文本中先出现的、所述关键词库中的任一关键词作为切分点，进而将所述XML简历文本拆分成基本信息块和复杂信息块；

5.根据权利要求1至4中任一项所述的网站简历自动解析方法，其中，所述步骤S2中，当没有可识别的关键字时，则将所述XML简历文本的前5-10行文本作为基本信息块，将其余部分文本作为复杂信息块。

6.根据权利要求1至5中任一项所述的网站简历自动解析方法，其中，所述步骤S3中所述的TXT文本不包括XML格式标记。

7.根据权利要求1至6中任一项所述的网站简历自动解析方法，其中，所述步骤S3中是通过自然语言处理工具包对所述TXT文本进行解析的。

8.一种计算机设备，所述设备包括处理器和存储器，其中，所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现权利要求1至7中任一项所述的网站简历自动解析方法。

9.一种计算机可读的存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的网站简历自动解析方法。