CN111737969B

CN111737969B - 一种基于深度学习的简历解析方法和系统

Info

Publication number: CN111737969B
Application number: CN202010728915.XA
Authority: CN
Inventors: 安永进; 鲁林; 唐晓阳; 闫慧强
Original assignee: Beisen Cloud Computing Co ltd
Current assignee: Beisen Cloud Computing Co ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-12-08
Anticipated expiration: 2040-07-27
Also published as: CN111737969A

Abstract

本发明涉及电数字数据处理技术领域，本发明公开了一种基于深度学习的简历解析方法和系统，该简历解析方法包括富文本提取、文本清洗、文本排序、语句切分、语句分类、区块识别、条目划分和区块内字段值提取步骤，并在此过程中结合NLP、OCR和命名实体识别等技术对简历特征进行建模和规模化的模型训练。本发明从文本提取阶段，就把样式、位置等信息作为和文本同等重要的信息一并提取返回，并在后续分句、区块和条目识别、类别映射等阶段融入样式信息，达到让解析器像人一样重点突出地阅读简历的目的，从而提升整体解析效果。

Description

一种基于深度学习的简历解析方法和系统

技术领域

本发明涉及电数字数据处理技术领域，尤其涉及一种基于深度学习的简历解析方法和系统。

背景技术

随着线上招聘的越来越流行，基于Html、Doc、Pdf、Eml等格式的简历占据了主流。由于后期人才筛选、匹配、大数据分析的要求，就需要从这些半结构化的文本形式简历中提取出常见的基本信息、求职意向、教育经历、工作经历、实习经历、技能等信息。一般把这个过程称为“简历解析”或简历信息抽取。

简历解析主要用在招聘场景中，包括将招聘网站推送到邮箱的简历标准化；应聘者直接发送给HR的简历；应聘者在招聘网站上传的文本简历自动填充到表单；各大公司单独的招聘门户在应聘者上传文本简历后自动解析填充表单；猎头推荐候选人时解析简历检查是否重复；以及其他需要从简历中提取标准化信息的场景。

要进行解析的简历文档经常来源广泛，格式各异。有些来自各大招聘网站推送到邮箱中的eml格式简历，有些是招聘专员邮箱中收到应聘者自己撰写的样式各异的Pdf、Doc等简历，还有些是拍照或扫描得到的Jpeg、Png等图片格式简历。简历解析的目的是从这些格式和样式各不相同的简历中提取出简历中常见的各种字段的内容，并保存到数据库或其他存储中。

简历解析主要可以分为两个阶段：简历文本提取和简历文本解析。

简历文本提取即从Pdf、Doc、Jpeg等格式中使用对应的类库或OCR等方法得到格式良好的简历文本。

简历文本解析即对提取到的简历文本经过切分、识别等过程填充到对应的简历字段的过程。以姓名的提取为例，姓名在简历中常见的书写习惯有：“姓名：张三”、“候选人姓名：张三”、“候选人：张三”、“张三男本科”等形式，经过简历解析后，对应姓名这个字段的值就是“张三”。

相关专利文献情况：

1、中国专利“CN109753909A 一种基于内容分块和BiLSTM模型的简历解析方法”通过获取简历样本，对常见的标题关键词进行整理；接着利用常见的标题在文本中的独特位置信息和字号信息进行简历内容块划分，并对结构化的键值对信息进行提取；同时需要利用BiLSTM模型对不同的自然文本进行实体标记训练；最后针对不同的内容块利用不同的模型对内容进行判断识别实体，提取输出自然文本描述中的关键实体信息内容。

该专利所述的方法在进行简历解析时，主要有以下一些问题：

1）提取简历文本直接通过文本转换方式得到，对于一些两栏或三栏布局的简历，读取的文本会出现各区域内容交错的问题，从而导致后续处理出现错误。

2）对于一些字号、加粗等特征不明显的，或者简历中没有标题特征的，进行内容分块会失败或效果较差。

3）利用实体识别模型只能提取有限的如公司、学校、职位等信息。对其他如行业、规模、部门、项目名称、离职原因等字段无法提取。

4）对其他项使用正则表达式的方式提取，存在简历项关键字多种多样，无法完全覆盖的问题；且过多的正则会导致性能较低，维护成本较高；而且一些如地址等字段难以通过正则提取。

5）对于工作教育等部分，使用时间信息作为划分点，则对于部分没有时间的简历或者时间不规范的简历，会出现划分错误的问题。

2、中国专利“CN108664474A 一种基于深度学习的简历解析方法”提出了一种基于深度学习的简历解析方法，其包括以下步骤：数据预处理：将简历统一转换为文本格式，确定简历的内容分段标签，并将简历文本按行进行数据标记；模型训练：利用神经网络将简历文本按行表达为一个固定长度的向量，在获得行向量后，根据所述行向量对简历进行内容分段；信息提取：在完成内容分段后，从指定的内容段中提取标签字段，获得相关信息。

该专利所述的方法主要有下面的问题：

1）通过滑动窗口的方式取2k+1行来判断第i行所述的分段标签的方法，对于一些内容较长的简历，工作经历、实习经历和项目经历等相似的部分时，有较大的错误概率。

2）识别出分段标签后，采用规则和命名实体识别的方式提取各区块的信息的方法，只能提取性别、学历等特征明显的关键信息，对到岗时间、复杂期望薪资等提取效果较差。

3、专利“一种基于云服务的简历邮件解析系统及方法 - CN201610412262.8”，该专利中所述的简历解析方法是先识别简历语言（中文或英文）后，按关键字等特征识别简历的各个部分（如工作经历、教育经历等）；然后对工作经历、教育经历等多条的部分进行分段，找出每段的开始结束位置；最后在每个段中提取对应的简历字段（如公司名称、职位、学校等）。

该专利所述的方法主要有下面的问题：

1）该专利中按关键字识别简历的各个部分时会有一定的错误。简历样式不同，对各个部分的命名也不尽相同，以工作经历为例，常见的有“简要工作经历”、“工作经历及成果”、“近期工作速览”、“候选人工作经历具体描述”、“工作状况简介”、“我的工作”等；每遇到一种新的关键字，都需要维护到词库中。在我们上一代解析系统中，仅工作经历的关键词，就维护了270个。

2）该专利提到会结合时间段对工作经历等进行分段，但简历中形式和结构多样，有的简历会对每段都填写时间段，并按“时间段公司职位”的形式填写，但有的简历可能会按“公司职位 \n 时间段”的形式填写，这个时候单纯按时间段分段很容易出现相邻段归属错误问题。此外，有些像项目经历等部分，经常没有时间段，只也就无法按时间段分段。

4、中国专利“一种简历信息的结构化方法及装置 - CN201910650930.4”，此专利的提取方法仅针对表格式简历。先将docx，html等各种样式的简历提取出表格内容；再通过经过分词切分为若干文本条目，然后再使用词之间的相似度计算方法或者前置词词库（基本信息、教育经历等）确定前置词（对应本专利所述的区块关键字）的位置。然后对于每个区块部分，根据一些项目名称关键词（如“姓名”），提取对应的字段值（如“陈XX”）。这里的项目名称关键词是以词库方式维护的。

此专利所述方法与CN201610412262.8差别不大，本质上都是使用词库维护一类关键词，然后先确定各个部分的位置，再根据关键词词库去做查找匹配。对于未维护过的关键词效果不好，且容易识别错误，互相干扰。

发明内容

为了解决上述问题，本发明提出一种基于深度学习的简历解析方法和系统，包括：

富文本提取：从文档中提取文本以及相关信息，所述相关信息包括文本样式、文本位置、文本对应的表格和图片；

文本排序：在提取文本过程中，根据提取的文本位置将所有文本块的横坐标累加到一个一维数组上，所述一维数组的长度即页面宽度，从而将文本块分区域分别读取文本；

文本清洗：替换特殊字符，删除中英混合简历的英文部分，基于规则进行文本清洗，进行通用文本清洗，基于解析配置进行文本清洗，纠正OCR识别后的易混字符；

语句切分：先对整个简历文本进行分词，然后采用双向LSTM+CRF建模，完成语句切分；模型输入是分词后的词列表，及其对应的样式特征；每个词对应输出标签“m”或“e”，标签“m”表示处于句中，标签“e”表示处于句尾；

语句分类：对关键信息进行分类，然后使用包括LSTM和Albert的深度学习模型建模进行多分类拟合；

区块和条目识别：在语句切分和语句分类结束之后，设置区块和条目识别模型进行区块和条目识别；区块为简历中的各个部分，条目为区块中每段信息内容不同但结构相似的字段；区块和条目识别模型的输入以句子为单位，输出是每个句子对所有区块开始结束标签的置信度；

区块内字段值提取：对每个区块，从已知的句子类别列表中，找出需要的标准字段的值，此过程也称为类别映射；采用与区块和条目识别相同的网络架构，设置类别映射模型，类别映射模型的输入是所有的句子，输出是映射后的类别。

进一步的，文本清洗包括：

替换特殊字符：将特殊字符替换为对应的可输入汉字；

删除中英混合简历的英文部分：对中英文混合的，将英文部分删除；

基于规则进行文本清洗：将简历页眉页脚或开始结束位置的无关信息删除；

进行通用文本清洗：记录空格特征并删除冗余空格；

基于解析配置进行文本清洗：对样式相似的简历制作解析配置，加入文本清洗规则；

纠正OCR识别后易混字符：根据上下文纠正OCR识别后的易混字。

进一步的，语句切分包括：

分句模型设计：采用LSTM+CRF建模，模型输入包括词向量，以及每个词对应的样式特征编码；分句模型分为3个阶段训练：第一阶段使用词向量和样式特征作为输入，经过一层LSTM+CRF后输出，输出结果是每个词的词性；第一阶段训练完毕后，第一层LSTM学习到了词的词性特征；然后加上第二层LSTM层，使用词向量和样式特征作为输入，第一层的结果再与词向量合并，作为第二层输入；第二层的输出是命名实体识别结果，包括人名、机构名和地址三类；最后一层LSTM是分句层，结合词向量、样式特征、词性和命名实体识别，输出该词的分句标签；

训练数据生成：先通过用于分句的符号和分句规则得到分句器，用此分句器对提取后的文本生成n个分句结果；然后对初步分句结果进行标注和校对，校对之后再经过分词作为训练数据使用。

进一步的，针对模型分句后的结果，再次通过若干的分句中间件进行调整：

预识别分句调整器：在模型分句后，利用包括正则表达式的方法提取固定格式的字段，然后修改模型分句结果，确保这些字段不会切分错误；

规则分句调整器：加入合并规则和拆分规则，当满足给定的正则或者条件时，即对一个句子拆分或将两个句子合并；

基于样式的分句调整器：根据提取的文本样式，对分句结果再次调整，调整规则包括：如果不在同一行，且字体大小或加粗情况不一致，则切分；如果字体颜色不一致，且中间有空格，则切分；如果是特殊样式，遇到换行切分；

基于解析配置的分句调整器：如果是样式相同的一批简历在某处分句有问题，则维护一个解析配置，并在其中添加分句调整规则。

进一步的，语句分类包括：

分类模型设计：使用包括CNN+RNN、LSTM和ALBERT的深度学习网络，并融入分句模型输出的词性和命名实体识别信息；

在分类完成后根据多种方法尝试找到简历文本不正确的类别标签并纠正：

预识别分类调整：对于固定格式的类别标签，如果和已有模型识别结果不一致，则以规则识别结果为准；

通用规则分类调整：支持针对句子的评估条件，当符合给定的条件时，通用规则才会被执行；

针对性类别调整：对于纠正逻辑复杂不便纠正的规则条件，能够通过接口实现快速纠正逻辑。

进一步的，设置区块和条目识别模型包括：

区块和条目识别模型的输入是以句子为单位，而非词为单位；输入包括类别1、置信度1、类别2、置信度2、句向量和句子特征，其中，类别1和类别2是给定句子概率最高的两个类别，输出是每个句子对所有区块开始结束标签的置信度，句向量来自分类模型的输出，句子特征包括字号、加粗比率、横纵坐标、颜色和中英字符占比的特征。

进一步的，针对区块和条目识别结果，根据多种调整做纠正：

统计规则映射区块调整：根据句子类别与所处的区块的关联性，形成句子类别到区块的映射规则；

先验知识映射调整：根据简历布局和格式的先验知识，对模型预测得到的区块结果做校验和调整，如果发现某一部分有明显错误则进行纠正；

基于解析配置的区块调整：对于一些同一样式，模板固定的简历，根据解析配置，在区块和条目识别逻辑执行完之后，再对结果按自定义条件进行调整，确保得到正确的区块识别和条目结果。

进一步的，设置类别映射模型包括：采用与区块和条目识别相同的网络架构；模型的输入维度是所有的句子，包括句子类别、类别置信度、所属区块、句子的其他特征；输出是映射后的类别；类别置信度直接和句子类别向量相乘来编码；句子的其他特征与区块和条目识别模型中的句子特征一致，包括字号、加粗比率、横纵坐标、颜色和中英字符占比的特征。

进一步的，通过若干方法来对类别映射模型的输出结果做纠正：

映射概率统计：对所有区块的解析类别做统计归纳，得到句子类别到解析字段类别的映射概率，用于校验模型的输出结果；

规则映射补充：除了从模型得到类别映射结果，支持若干映射规则以确保常见的重点字段映射正确，包括前文正则匹配映射、前文类别匹配映射、文本正则映射、直接映射和默认映射；根据不同的映射规则类型，会得到不同的映射置信度，最终跟类别映射模型的置信度对比，取较高的作为最终的解析字段类别；

针对性映射校验：对于一些重要项信息，在完成类别映射后再次加入一些规则作为校验和筛选，当区块下解析类别有重复时会使用这些校验规则重置不正确的项；

区块字段提取补充逻辑：在整个区块的字段提取结束后，针对每个区块特征，结合全局特征，对重点字段进行查找。

此外，本发明还提出一种基于深度学习的简历解析系统，包括：

富文本提取模块：从文档中提取文本以及相关信息，所述相关信息包括文本样式、文本位置、文本对应的表格和图片；

文本排序模块：在提取文本过程中，根据提取的文本位置将所有文本块的横坐标累加到一个一维数组上，所述一维数组的长度即页面宽度，从而将文本块分区域分别读取文本；

文本清洗模块：替换特殊字符，删除中英混合简历的英文部分，基于规则进行文本清洗，进行通用文本清洗，基于解析配置进行文本清洗，纠正OCR识别后的易混字符；

语句切分模块：先对整个简历文本进行分词，然后采用双向LSTM+CRF建模，完成语句切分；模型输入是分词后的词列表，及其对应的样式特征；每个词对应输出标签“m”或“e”，标签“m”表示处于句中，标签“e”表示处于句尾；

语句分类模块：对关键信息进行分类，然后使用包括LSTM和Albert的深度学习模型建模进行多分类拟合；

区块和条目识别模块：在语句切分和语句分类结束之后，设置区块和条目识别模型进行区块和条目识别；区块为简历中的各个部分，条目为区块中每段信息内容不同但结构相似的字段；区块和条目识别模型的输入以句子为单位，输出是每个句子对所有区块开始结束标签的置信度；

区块内字段值提取模块：对每个区块，从已知的句子类别列表中，找出需要的标准字段的值，此过程也称为类别映射；采用与区块和条目识别相同的网络架构，设置类别映射模型，类别映射模型的输入是所有的句子，输出是映射后的类别。

本发明的有益效果在于：

解析过程中融入样式信息：从文本提取阶段，就把样式、位置等信息作为和文本同等重要的信息一并提取返回，并在后续分句、区块和条目识别、类别映射等阶段融入样式信息，达到让解析器像人一样重点突出地阅读简历的目的，从而提升整体解析效果。

阶段性的简历信息提取：将简历解析分为富文本提取、文本清洗、文本排序、语句切分、语句分类、区块识别、条目划分和区块内字段值提取等阶段性步骤，并在每个步骤后面通过规则等手段做纠正来最终确保整体效果。自然语言理解：本发明在分析简历过程中，融入了自然语言处理技术，使用词性、命名实体等信息辅助判断语句结构，在遇到不确定的语句时，根据NLP结果来理解语句含义，使解析过程更加智能，可以像人一样从描述性语句中提取学校公司职位等关键信息。

类别识别：本发明收集并分析海量简历后将简历字段划分为约200+个，再根据字段之间的相似性关系，将简历中的语句划分为约180个类别。然后结合LSTM模型对简历中的文本语句进行类别识别，准确理解简历中的每一句话。

针对性配置：在处理简历时可以发现，部分简历存在采用特殊排版，或简历关键字不常见等问题，给各简历信息模块的准确识别造成一定难度，加入规则会对其他样式的简历有影响。所以针对这类样式固定但一直会收到的简历，本发明在解析的五个关键环节加入了针对性的解析配置，通过关键词、图片等识别后，在整个解析处理环节中，可以针对性调整，来完成针对性的兼容。

附图说明

图1 本发明实施例的一种基于深度学习的简历解析方法的流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了方便理解本发明内容，先介绍下本发明中的一些常见名词及其含义。

区块：简历中的各个部分，主要有：基本信息、求职意向、自我评价、工作经历、教育经历、实习经历、项目经历、管理经历、语言能力、技能、论文专著、获奖信息、校内实践、校外实践、培训经历、家庭信息、证书、推荐信息、附加信息。

条目：对于工作经历、教育经历等区块，一般会有多段信息，每段信息内容不同但结构相似，本专利中称之为条目。基本信息、求职意向等区块一般只有一个条目。

区块关键字：能识别一类区块的文本特征。比如对于工作经历区块，其常见的区块关键字有“简要工作经历”、“工作经历及成果”、“近期工作速览”、“候选人工作经历具体描述”等。可用于辅助识别工作经历区块。

字段关键字：某个字段的文本特征。比如姓名字段，常见的字段关键字有“姓名”、“名字”、“候选人”、“Name”等。

字段值：是解析简历最后要提取的内容，描述了应聘者的相关信息，常见的有“张三”、“本科”、“深圳市极联开发科技有限公司”等。

实施例1

本实施例提供了一种基于深度学习的简历解析方法和系统，其中，如图1所示，简历解析方法包括：

文本清洗：替换特殊字符，删除中英混合简历的英文部分，基于规则进行文本清洗，进行通用文本清洗，基于解析配置进行文本清洗，纠正OCR(Optical CharacterRecognition，光学字符识别)识别后的易混字符；

语句切分：先对整个简历文本进行分词，然后采用双向LSTM（Long Short-TermMemory，长短期记忆网络）+CRF（Conditional Random Field，条件随机场）建模，完成语句切分；模型输入是分词后的词列表，及其对应的样式特征；每个词对应输出标签“m”或“e”，标签“m”表示处于句中，标签“e”表示处于句尾；

本实施例在上述过程中结合NLP（Natural Language Processing，自然语言处理）、OCR、命名实体识别等技术对简历特征进行建模和规模化的模型训练。

此外，在日常处理的简历解析问题中，经常会遇到一些来自同一家猎头或渠道的样式相同、内容不同的简历。这些简历一般会使用特殊的关键字或布局，导致个别字段提取错误。本实施例针对这些样式统一数量较多的简历维护一个解析配置。这个解析配置会在解析的主要几个阶段做干预和调整，以确保兼容不会导致其他简历受影响。

本实施例的简历解析系统与简历解析方法相对应，故不再赘述。

实施例2

本实施例在实施例1的基础上，针对富文本提取：

在现有简历解析方案中，经常是直接对简历文档提取无格式文本，忽略了字号、加粗、位置等特征，而这些特征在简历书写过程中，经常用于突出显示重点字段。

在本实施例中，为了在后续的处理过程中能使用这些信息，本实施例不仅从文档中提取文本，还包括每段文本对应的字号、字体、加粗、倾斜、下划线、背景色、前景色、相对页面位置以及表格、图片等信息。

实施例3

本实施例在实施例1的基础上，针对文本排序：

因为简历文档布局的多样性，有些应聘者个人撰写的简历并不是按自上而下的布局直接填写的，而是采用两栏或三栏等形式，对于这种布局的，如果直接按照普通的自上而下读取方式去读取的话，会导致各栏信息交错。还有些简历为了追求美观和重点突出，会使用大量浮动文本框，如果直接从文档中读取，读取到的文本顺序可能与预览的文本顺序大相径庭。

本实施例在提取文本过程中，根据提取的文本位置将所有文本块的横坐标累加到一个一维数组上，此一维数组的长度即页面宽度。如果该文档是两栏的布局，则该数组应该会呈现从小变大，从大降为0，再从小变大，从大降为0的规律。本方法识别到这种特征时会将文本块分为左右两个区域分别读取文本，避免提取信息交错。

实施例4

本实施例在实施例1的基础上，针对文本清洗：

简历中信息繁杂，但不是所有信息都是需要提取的，有些信息反而会对解析造成干扰。本实施例在提取文本之后，开始处理之前，会先对文本进行清洗，文本清洗主要包括下面几种情况：

特殊字符替换：有些字符看起来是中文，但并不是通常可键盘输入的汉字，如⻙韦，⻚页，⻜飞等，这些字符会对后面的处理造成干扰，所以本实施例将其替换为对应的可输入汉字；

中英混合简历的英文部分删除：有些简历会在写完中文简历后，会再按英文书写一遍；在解析过程中，如果不做预处理会导致重复解析，所以本实施例对中英文混合的，会将英文部分删除；

基于规则的文本清洗：有些来自猎头或渠道网站的简历，在页眉页脚或简历的开始结束位置，会加入一些相关的内容，这些内容可能会对解析造成干扰，所以本实施例会加入规则将这些部分删除；

通用文本清洗：有些简历为了保持格式美观，会加入一些空格来保持对齐，这些空格在处理过程中会导致模型或规则无法识别，在这里记录空格特征并删除冗余空格；

基于解析配置的文本清洗：有些样式相似的简历，会加入一些冗余内容，给解析带来干扰。本实施例对样式相似的简历制作解析配置，加入文本清洗规则；

OCR识别后易混字符纠正：有些简历中内容是以图片形式呈现的，解析之前会经过OCR文字识别技术得到文本；一些字符如“1”和“|”、“0”和“o”在某些字体中比较相似，OCR容易产生错误，导致后续处理受影响。本实施例根据上下文尝试纠正：如果当前是”0”但前后字符是字母，则替换为“o”等。

实施例5

本实施例在实施例1的基础上，针对语句切分：

经过上面的步骤可以得到整个简历文档的所有文本样式块，然后需要将整个文本切分为若干个独立的句子，方便后续处理；如“2014.9-2018.7 黑龙江大学法语（本科）”切分为“2014.9-2018.7”，“黑龙江大学”，“法语”，“（本科）”四个句子（如图5）；简历中各项一般是以空格、句号、冒号、换行等符号隔开的，但有些没有特别隔开，如“黑龙江大学法语本科”是学校、专业和学历连到一起的，这种的单纯通过规则等方法难以做到准确切分。本实施例先对整个简历文本进行分词，然后采用双向LSTM+CRF的方法，完成语句切分；模型输入是分词后的词列表，及其对应的加粗等样式特征；每个词对应输出标签“m”或“e”，标签“m”表示处于句中，标签“e”表示处于句尾。

分句模型设计：分句问题可以看做是一个序列标注问题，从而对每个词输出一个标签，本实施例采用LSTM+CRF建模，模型输入包括词向量，以及每个词对应的字号、加粗、行位置、列位置、颜色、背景色等样式特征编码。句子的结构其实跟词性、句式和语法有很大的关系，如果能在分句过程中利用到这些NLP信息，对于提高模型的分句准确性是有帮助的。

本实施例分句模型分为3个阶段训练：第一阶段使用词向量和样式特征作为输入，经过一层LSTM+CRF后输出，输出结果是每个词的词性。第一阶段训练完毕后，第一层LSTM学习到了词的词性特征。然后加上第二层LSTM层，使用词向量和样式特征作为输入，第一层的结果再与词向量合并，作为第二层输入。第二层的输出是命名实体识别结果，包括人名、机构名和地址三类。最后一层LSTM是分句层，结合词向量、样式特征、词性和命名实体识别，输出该词的分句标签。经过测试，在模型中融入NLP信息后，准确率较之前的91%提升了4个百分点到95%。

训练数据生成：先通过长空格、冒号、句号、换行等用于分句的符号和分句规则得到分句器，用此分句器对提取后的文本生成约5K个分句结果。然后对初步分句结果进行标注，为了保证标注质量，标注分为两个阶段，初步校对之后需要其他人复核。校对之后再经过分词即可作为训练数据使用。

实施例6

本实施例在实施例5的基础上：

虽然实施例5的语句切分方法得到的分句器的分句效果远好于基于标点符号和规则的分句器，但由于训练数据始终难以覆盖所有的情况，在实际分句过程中还会遇到有些常见的错分情况。

本实施例针对模型分句后的结果，再次通过若干的分句中间件进行调整：

预识别分句调整器：简历中有些字段格式固定，主要是手机号、邮箱、日期、时间段、URL，通过正则表达式等即可做到准确提取，这个时候模型对这些字段的分句效果反而不如规则，所以本实施例在模型分句后，用规则对这些字段提取，然后修改模型分句结果，确保这些字段不会切分错误。

规则分句调整器：对于一些简单的情况，模型分句可能会未分开或误分开。所以本实施例加入一些规则，对常见的错误做修补。加入合并规则和拆分规则，当满足给定的正则或者条件时，即对一个句子拆分或将两个句子合并。

基于样式的分句调整器：一般在简历的书写过程中，为了保证重点突出，一般会对区块关键字、字段关键字、重点字段值等作加粗或字号调大等样式上的突出。本实施例根据提取的文本样式，对分句结果再次调整，调整规则包括：如果不在同一行，且字体大小或加粗情况不一致，则切分；如果字体颜色不一致，且中间有空格等，则切分；如果是特殊样式（字号大，加粗），遇到换行等切分。

基于解析配置的分句调整器：如果是样式相同的一批简历在某处分句有问题，本实施例会维护一个解析配置，并在其中添加分句调整规则。这里的调整规则将只对此样式生效，避免影响其他样式简历的分句。

实施例7

本实施例在实施例1的基础上，针对语句分类：

简历文档的内容虽然各不相同，但一般都具有姓名、年龄、地址、学历、学校、描述等信息，本实施例将这些字段，以及常见的一些关键词信息如“姓名：”等归为179个类别，然后使用包括LSTM和Albert的深度学习模型建模进行多分类拟合。

分类模型设计：使用包括CNN+RNN、LSTM和ALBERT的深度学习网络，并融入分句模型输出的词性和命名实体识别信息，准确率较基础模型有一定提升。

训练数据的生成：初始分类数据来自于经过模板解析的各项值的结果。模板解析提取的结果不能直接作为简历文本分类训练数据，如模板解析提取的“户籍地”和“现居住地”这两个字段的值都是地址，对应在简历文本分类数据中都是“地址”字段。由于大部分简历不会写的非常详细，所以难以覆盖到所有字段，所以本实施例又通过人工扩增+同义词拓展+人工收集等方式尽量丰富数据集。

经过分类模型识别后大部分简历文本都能得到正确的类别标签，但少部分句子可能会因为训练数据未覆盖等原因输出的分类结果不正确，所以本实施例在分类完成后根据多种方法尝试找到简历文本不正确的类别标签并纠正：

预识别分类调整：对于手机、邮箱、时间段等固定格式的类别标签，如果和已有模型识别结果不一致，则以规则识别结果为准。

通用规则分类调整：分类错误的情况千奇百怪各不相同，如果全部通过代码维护和纠正很容易会发生互相干扰和后续难以维护。所以本实施例根据一些常见的情况，支持针对句子的评估条件，当符合给定的条件时，该规则才会被执行。所有的规则都能够复用。

针对性类别调整：大部分规则条件都可以通过组合使用上面的通用筛选条件来匹配并修改类别，但如果个别项的纠正逻辑复杂不便纠正，也可以通过接口实现快速定制化的纠正逻辑。

区块识别后的类别调整：一些类别跟区块是有比较密切的关系的，比如教育经历中一般不会出现职位，工作经历中一般不会出现专业，如果出现了可能是职位和专业识别错误。所以在区块识别完成后，本实施例再次根据一些通用分类调整规则，纠正一部分此类的错误。

实施例8

本实施例在实施例1的基础上，针对区块和条目识别：

区块识别即从简历中找到个人信息、求职意向、教育经历等各个部分。目前业界大部分的方案都是在简历解析的第一阶段进行区块识别，然后再提取字段值。本实施例收集了上千份简历数据，分别尝试了直接从整个简历文本中识别区块方法和经过分句分类后再识别区块的方法。对比结果发现，直接从简历文本中识别区块时，难以发现句子间的类别特征和重要程度，准确率只有约70%。而在完成分句分类后，依托每个句子的类别去识别区块，准确率达94%，能充分利用每个句子的语义信息，并准确识别常见的区块模式，有更好的泛化能力。

本实施例的区块和条目识别模型设计：区块识别模型是在分句和分类结束之后，所以其输入是以句子为单位，而非词为单位。输入包括类别1、置信度1、类别2、置信度2、句向量和句子特征，其中，类别1和类别2是给定句子概率最高的两个类别；输出是每个句子对所有区块开始结束标签的置信度，区块共21个，每个区块对应“开始”和“结束”两个标签，每个句子输出对应输出42个标签的置信度。句向量来自分类模型的输出，句子特征包括字号、加粗比率、横纵坐标、颜色、中英字符占比等二十多个维度的特征。

模型输出的每个句子的区块范围对于大多数情况下都是准确的，但因为训练数据无法覆盖所有情况或者简历采用了非常规的书写格式，可能会导致模型对于个别简历产生错误的识别结果。

本实施例针对区块和条目识别结果，根据多种调整做纠正：

统计规则映射区块调整：经过大量统计发现，句子的类别与所处的区块有较大的关联。比如当姓名(vName), 性别(vSex), 日期(vDate)，学历(vEducation)一起出现时，这部分大概率是个人信息。当时间段(vDateRange)，公司(vCompany)，职位(vJobTitle)，部门(vDepartment)一起出现时，大概率是工作经历的一条。基于这个规律，本实施例统计形成了句子类别到区块的映射规则，当简历中一些相邻的句子符合其中的规则时，则认为这里是对应的区块。

先验知识映射调整：经过大量简历的对比分析，本实施例总结和形成了一些简历布局和格式的先验知识：比如工作经历后面出现了个人信息，但没有个人信息关键字，则可能是工作经历中的证明人信息或家庭信息。如果当前是实习经历，下一个是工作经历，且下一个区块没有工作经历的关键字，则认为下一个应当也是实习经历。本实施例使用这个规则，对模型预测得到的区块结果做校验和调整，如果发现某一部分有明显错误则进行纠正。

基于解析配置的区块调整：经过上述模型+统计规则+先验知识逻辑的方法，对于绝大部分简历已经可以取得较好的区块识别效果。但实际简历布局样式复杂，书写格式随意，还是会经常遇到有无法正确识别的。所以对于一些同一样式，模板固定的简历，如表格简历模板等，我们也支持定制化的解析配置，可以根据解析配置，在上述区块和分条逻辑执行完之后，再对结果按自定义条件进行调整，确保得到正确的区块识别和分条结果。

实施例9

本实施例在实施例1的基础上，针对区块内字段值提取：

在完成区块识别后，此时得到了整个简历各个部分所述区块的信息，以及整个简历每个句子的类别信息，最后需要得到的是每个区块的标准字段值信息。对每个区块，从已知的句子类别列表中，找出需要的标准字段的值，此过程也称为类别映射（句子类别映射为解析类别）。

类别映射模型设计：类别映射问题和前文所述的分句以及区块和分条识别是一类问题，即序列标注问题，所以这里采用了和上面相同的网络架构。模型的输入维度是所有的句子，包括句子类别、类别置信度、所属区块、句子的其他特征。输出是映射后的类别。类别置信度直接和句子类别向量相乘来编码。句子的其他特征和区块和条目识别模型中的句子特征一致，包括字号、加粗比率、横纵坐标、颜色、中英字符占比等二十多个维度的特征。

经过类别映射模型得到的结果和其他模型一样，大部分情况下都是准确的，但也会出现一些错误。

本实施例通过若干方法来对类别映射模型的输出结果做纠正：

映射概率统计：从句子的类别映射到各区块具体的解析字段类别，一般来说遵循一定的概率分布，比如个人信息中的vEducation一般对应解析字段中的vHighestDegree，对所有区块的解析类别做统计归纳，得到句子类别到解析字段类别的映射概率，用于校验模型的输出结果。

规则映射补充：除了从模型得到类别映射结果，支持若干映射规则以确保常见的重点字段映射正确，包括：

前文正则匹配映射：根据前一句的文本是否符合给定正则来映射。

前文类别匹配映射：根据前一句的类别是否是给定的类别来映射。

文本正则映射：根据当前文本是否符合给定正则来映射。

直接映射：在给定区块中把指定的句子类别直接映射为解析类别，优先级较低。

默认映射：上述四种映射规则都不符合时的映射类别。

根据上面不同的映射规则类型，会得到不同的映射置信度，最终跟模型的置信度对比，取较高的作为最终的解析字段类别。

针对性映射校验：对于一些重要项，如姓名、出生日期等，在完成类别映射后再次加入一些规则作为校验和筛选，当区块下解析类别有重复时会使用这些校验规则重置不正确的项。

区块字段提取补充逻辑：在整个区块的字段提取结束后，针对每个区块特征，结合全局特征，对一些重点字段，尝试进行查找。主要包括：从整个简历中根据年龄特征搜索年龄、根据出生日期提取年龄、根据身份证号提取出生日期、从身份证号提取性别、根据字号最大的尝试查找姓名、根据词性标注和命名实体识别结果查找姓名、从个人信息中提取教育经历信息等规则。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于深度学习的简历解析方法，其特征在于，包括：

区块内字段值提取：对每个区块，从已知的句子类别列表中，找出需要的标准字段的值，此过程也称为类别映射；采用与区块和条目识别相同的网络架构，设置类别映射模型，类别映射模型的输入是所有的句子，输出是映射后的类别；

其中，语句切分包括：

2.根据权利要求1所述的一种基于深度学习的简历解析方法，其特征在于，文本清洗包括：

替换特殊字符：将特殊字符替换为对应的可输入汉字；

进行通用文本清洗：记录空格特征并删除冗余空格；

3.根据权利要求1所述的一种基于深度学习的简历解析方法，其特征在于，针对模型分句后的结果，再次通过若干的分句中间件进行调整：

4.根据权利要求1所述的一种基于深度学习的简历解析方法，其特征在于，语句分类包括：

5.根据权利要求1所述的一种基于深度学习的简历解析方法，其特征在于，设置区块和条目识别模型包括：

6.根据权利要求5所述的一种基于深度学习的简历解析方法，其特征在于，针对区块和条目识别结果，根据多种调整做纠正：

7.根据权利要求1所述的一种基于深度学习的简历解析方法，其特征在于，设置类别映射模型包括：采用与区块和条目识别相同的网络架构；模型的输入维度是所有的句子，包括句子类别、类别置信度、所属区块、句子的其他特征；输出是映射后的类别；类别置信度直接和句子类别向量相乘来编码；句子的其他特征与区块和条目识别模型中的句子特征一致，包括字号、加粗比率、横纵坐标、颜色和中英字符占比的特征。

8.根据权利要求1所述的一种基于深度学习的简历解析方法，其特征在于，通过若干方法来对类别映射模型的输出结果做纠正：

9.一种采用权利要求1~8任一项所述的一种基于深度学习的简历解析方法的简历解析系统，其特征在于，包括：