CN116796726A - 简历解析方法、装置、终端设备及介质 - Google Patents
简历解析方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN116796726A CN116796726A CN202310634532.XA CN202310634532A CN116796726A CN 116796726 A CN116796726 A CN 116796726A CN 202310634532 A CN202310634532 A CN 202310634532A CN 116796726 A CN116796726 A CN 116796726A
- Authority
- CN
- China
- Prior art keywords
- resume
- entity
- text
- element entity
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 40
- 230000007115 recruitment Effects 0.000 claims abstract description 38
- 238000003860 storage Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 42
- 238000009826 distribution Methods 0.000 claims description 17
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 10
- 238000011160 research Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种简历解析方法、装置、终端设备及计算机可读存储介质,该方法包括:获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。本发明能够实现简历的精准高效解析。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种简历解析方法、装置、终端设备及计算机可读存储介质。
背景技术
为了避免在求职高峰期人工低效且繁琐的简历挑选方式,当前普遍采用简历自动解析方式对简历进行解析。
传统简历解析方法需要使用大量的人工规则,比如需要由领域专家预先设计合理的解析规则,仅适用于相对规整常规格式的简历解析,并且传统简历解析方法无法理解文本间的语义关系,同义表达的解析需要构建大量的人工词典。
可见,考虑到大量简历在信息类型、书写风格、内容等方面不尽相同,甚至差异很大,现有的简历解析方式的解析精度和解析效率都是十分低下的。
发明内容
本发明的主要目的在于提供一种简历解析方法、装置、终端设备及计算机可读存储介质,旨在实现简历的精准高效解析。
为实现上述目的,本发明提供一种简历解析方法,所述方法包括以下步骤:
获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;
根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。
可选地,在所述根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体的步骤之前,还包括:
构建简历要素数据集;
将所述简历要素数据集作为训练文本,并通过滑动窗口,将所述训练文本切割为多条训练子文本;
根据所述多条训练子文本,对初始深度神经网络进行训练以及微调,直至所述初始深度神经网络收敛,得到所述预训练的深度神经网络。
可选地,所述构建简历要素数据集的步骤,包括:
从所述招聘系统提取原始简历文件对应的原始简历文本;
从所述招聘系统提取预校对的简历要素数据;
将所述原始简历文本中与所述预校对的简历要素数据对应的要素数据进行标注;
从预设开源数据集中获取标注的补充数据集;
将标注后的原始简历文本以及所述补充数据集进行汇总,得到所述简历要素数据集。
可选地,在所述将所述要素实体进行结构标准化处理的步骤之前,还包括:
判断所述要素实体是否满足预设的要素分布条件,其中,所述要素分布条件包括:所述要素实体中的各个字符连续、所述要素实体与所述目标简历文本中对应的要素数据一致且所述各个字符的位置标签满足预设标签排列规则;
若是所述要素实体是否满足所述要素分布条件,则执行将所述要素实体进行结构标准化处理的步骤,否则,将所述要素实体作为无效数据丢弃。
可选地,所述将所述目标简历文本拆分为多个语义模块的步骤,包括:
根据所述目标简历文本中的文本语义,将所述目标简历文本拆分为多个语义模块,其中,所述语义模块包括基本信息模块、教育经历模块、工作经历模块、项目经历模块、实习经历模块、科研经历模块、社团经历模块、自我评价模块中的一个或者多个。
可选地,所述将所述要素实体进行结构标准化处理的步骤,包括:
确定所述要素实体是否为格式化要素;
在所述要素实体为格式化要素时,确定所述要素实体的要素类型,其中,所述要素类型表征所述要素实体的语义;
根据所述要素类型,针对所述要素实体进行执行对应的格式清洗操作,得到结构标准化的要素实体,其中,所述格式清洗操作与所述要素类型对应;
在所述要素实体不为格式化要素时,根据所述要素实体,查询预设的人工词典,得到结构标准化的要素实体。
可选地,所述根据所述要素实体,查询预设的人工词典,得到标准化的要素实体的步骤,包括:
根据所述要素实体的全称,查询对应的人工词典;
若是在所述人工词典中存在与所述全称匹配的结构标准化的要素实体,则获取所述结构标准化的要素实体,否则,获取所述要素实体的简称,并根据所述简称,查询所述人工词典;
若是在所述人工词典中存在与所述简称匹配的目标简称,则将所述目标简称格式化为结构标准化的要素实体,否则,将所述要素实体的字段进行分词,并根据所述分词后的字段,对所述人工词典进行模糊查询,得到所述人工词典中与所述要素实体匹配度最高的全称;
对所述匹配度最高的全称进行格式化得到结构标准化的要素实体。
为实现上述目的,本发明还提供一种简历解析装置,所述简历解析装置包括:
拆分模块,用于获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;
预测模块,用于根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。
为实现上述目的,本发明还提供一种终端设备,所述终端设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的简历解析程序,所述简历解析程序被所述处理器执行时实现如上所述的简历解析方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有简历解析程序,所述简历解析程序被处理器执行时实现如上所述的简历解析方法的步骤。
为实现上述目的,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的简历解析方法的步骤。
本发明提供一种简历解析方法、装置、终端设备、计算机可读存储介质以及计算机程序产品,通过获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。
相比于现有技术中的简历解析方法,本发明可以在获取到简历文本后,将该简历文本拆分为多个语义模块。进而,通过预训练的深度神经网络,对该语义模块中的要素数据进行语义预测,得到要素实体,并将结构标准化处理后的要素实体导入招聘系统。因此,在本发明中,可以结合目标简历文本的上下文语义,将目标简历划分为多个语义模块,进而,通过深度神经网络,对各个语义模块进行语义预测得到要素实体,实现了简历文本要素的自动解析和精准识别,适用于各类型的简历文本,有效降低人工理解并解析简历的成本,提高求职者及人力工作者的招聘系统使用体验。并且,通过对要素实体进行结构标准化处理,也保证了要素实体结构的一致性和规范性,实现了要素实体的精准高效导入。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明简历解析方法一实施例的流程第一示意图;
图3为本发明简历解析方法一实施例的流程第二示意图;
图4为本发明简历解析装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例的终端设备可以是手机、平板电脑、服务器或者其它网络设备等,本实施例中的终端设备可用于实现简历精准高效解析。
如图1所示,该终端设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对简历解析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作、网络通信模块、用户接口模块以及简历解析程序。操作是管理和控制设备硬件和软件资源的程序,支持简历解析程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的简历解析程序,并执行以下操作:
获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;
根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。
进一步地,在所述根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体的步骤之前,处理器1001可以用于调用存储器1005中存储的简历解析程序,并执行以下操作:
构建简历要素数据集;
将所述简历要素数据集作为训练文本,并通过滑动窗口,将所述训练文本切割为多条训练子文本;
根据所述多条训练子文本,对初始深度神经网络进行训练以及微调,直至所述初始深度神经网络收敛,得到所述预训练的深度神经网络。
进一步地,处理器1001可以用于调用存储器1005中存储的简历解析程序,并执行以下操作:
从所述招聘系统提取原始简历文件对应的原始简历文本;
从所述招聘系统提取预校对的简历要素数据;
将所述原始简历文本中与所述预校对的简历要素数据对应的要素数据进行标注;
从预设开源数据集中获取标注的补充数据集;
将标注后的原始简历文本以及所述补充数据集进行汇总,得到所述简历要素数据集。
进一步地,在所述将所述要素实体进行结构标准化处理的步骤之前,处理器1001可以用于调用存储器1005中存储的简历解析程序,并执行以下操作:
判断所述要素实体是否满足预设的要素分布条件,其中,所述要素分布条件包括:所述要素实体中的各个字符连续、所述要素实体与所述目标简历文本中对应的要素数据一致且所述各个字符的位置标签满足预设标签排列规则;
若是所述要素实体是否满足所述要素分布条件,则执行将所述要素实体进行结构标准化处理的步骤,否则,将所述要素实体作为无效数据丢弃。
进一步地,处理器1001可以用于调用存储器1005中存储的简历解析程序,并执行以下操作:
根据所述目标简历文本中的文本语义,将所述目标简历文本拆分为多个语义模块,其中,所述语义模块包括基本信息模块、教育经历模块、工作经历模块、项目经历模块、实习经历模块、科研经历模块、社团经历模块、自我评价模块中的一个或者多个。
进一步地,处理器1001可以用于调用存储器1005中存储的简历解析程序,并执行以下操作:
确定所述要素实体是否为格式化要素;
在所述要素实体为格式化要素时,确定所述要素实体的要素类型,其中,所述要素类型表征所述要素实体的语义;
根据所述要素类型,针对所述要素实体进行执行对应的格式清洗操作,得到结构标准化的要素实体,其中,所述格式清洗操作与所述要素类型对应;
在所述要素实体不为格式化要素时,根据所述要素实体,查询预设的人工词典,得到结构标准化的要素实体。
进一步地,处理器1001可以用于调用存储器1005中存储的简历解析程序,并执行以下操作:
根据所述要素实体的全称,查询对应的人工词典;
若是在所述人工词典中存在与所述全称匹配的结构标准化的要素实体,则获取所述结构标准化的要素实体,否则,获取所述要素实体的简称,并根据所述简称,查询所述人工词典;
若是在所述人工词典中存在与所述简称匹配的目标简称,则将所述目标简称格式化为结构标准化的要素实体,否则,将所述要素实体的字段进行分词,并根据所述分词后的字段,对所述人工词典进行模糊查询,得到所述人工词典中与所述要素实体匹配度最高的全称;
对所述匹配度最高的全称进行格式化得到结构标准化的要素实体。
根据背景技术说明,对于大型公司及招聘机构,在求职高峰期,人力部门每天都会处理大量简历。人工从简历中挑选出需要的简历要素,无论是对于应聘者和人力部门工作者都是低效繁琐的处理方式。因此一个自动化的简历解析系统,是招聘流程中提升求职者用户体验及提高人力部门工作效率的重要环节。
而传统简历解析方法使用大量的人工规则,对于相对规整常规的简历准确率高,但是需要领域专家设计合理的解析规则,并且无法理解文本间的语义关系,同义表述需要构建大量的人工词典,维护成本高且扩展性差。
针对传统简历解析方法的问题,本发明通过深度学习模型理解文本语义,减弱了抽取规则的依赖性,同时结合ES检索及专家规则对抽取要素归一化,转化为统一的结构化输出至对应的招聘系统。
参照图2,图2为本发明简历解析方法第一实施例的流程示意图。
本发明实施例提供了简历解析方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以不同于此处的顺序执行所示出或描述的步骤。
具体地,本实施例中的简历解析方法,包括以下步骤:
步骤S10,获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;
需要说明的是,在本实施例中,目标简历文本的获取方式包括:从招聘系统中提取目标简历文件,进而,可以对该目标简历文件进行清洗和预处理,得到对应的目标简历文本。为了保证目标简历文本能够用于后续的深度神经网络的训练,可以从招聘系统提取内容完整以及格式规划的目标简历文件。在本实施例中不对目标简历文件的清洗和预处理过程做具体限定。
在此基础上,终端设备在获取到目标简历文本后,可以根据目标简历文本的上下文语义,将该目标简历文本拆分为多个语义模块。
其中,上下文语义可以理解为在一份完整的简历文本中,至少包含了个人基本信息、教育经历信息以及工作经历信息等多语义的文本,在本实施例中,可以根据上下文语义,预先将目标简历文本拆分为多个语义模块,不同的语义模块表征了不同类型的求职者信息。
因此,在本实施例中,可以预先将简历文本拆分为多个语义模块,提高了后续简历要素识别的准确性。
进一步地,所述将所述目标简历文本拆分为多个语义模块的步骤,包括:
步骤S101,根据所述目标简历文本中的文本语义,将所述目标简历文本拆分为多个语义模块,其中,所述语义模块包括基本信息模块、教育经历模块、工作经历模块、项目经历模块、实习经历模块、科研经历模块、社团经历模块、自我评价模块中的一个或者多个。
在本实施例中,根据上述说明,在一份完整的简历文本中,至少包含了个人基本信息、教育经历信息以及工作经历信息。
因此,在本实施例中,可以根据目标简历文本中的文本语义,预先将目标简历文本拆分为多个语义模块,不同的语义模块表征了不同类型的求职者信息。比如,本实施例中的语义模块包括基本信息模块、教育经历模块、工作经历模块、项目经历模块、实习经历模块、科研经历模块、社团经历模块、自我评价模块中的一个或者多个。
其中,基本信息模块包括姓名、性别、证件类型、身份证号、政治面貌、民族、籍贯、出生日期、婚育状况、手机、电子邮箱、目前所在城市、户籍所在地、详细住址、外语水平等;教育经历模块包括学历、毕业院校、入学时间、毕业时间、专业等;工作经历(或者实习经历)模块包括公司名称、担任职位、开始时间、结束时间、工作描述等;项目经历模块包括项目名称、所在单位、开始时间、结束时间、项目描述等;社团经历模块包括社团名称、开始时间、结束时间、担任职位、社团描述等;科研经历模块包括开始时间、结束时间、研究名称和研究描述等。
在此基础上,终端设备可以将上述各个语义模块输入深度神经网络进行语义预测。
步骤S20,根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。
终端设备在将目标简历文本拆分为多个语义模块后,可以通过预训练的深度神经网络,对上述多个语义模块分别进行语义预测,得到对应的要素实体。
其中,各个语义模块中包含了多个要素,比如,在上述的基本信息模块中包含了姓名、生日、手机号等多个要素。
在此基础上,可以对各个语义模块中的要素进行语义检测,将命中的字符组装成要素实体。
具体地,例如,各字符都有其对应的标签,可以根据各个字符的标签,将各个字符进行组装,得到对应的要素实体。其中,该标签的内容可以包括:字符位置等。比如,“姓名:张三”,这五个字符(冒号也算)的标签为O、O、O、B-name、E-name,终端设备可以根据各个字符的标签,找到姓名要素实体“张三”。
因此,在本实施例中,可以在语义划分的基础上,通过深度神经网络,智能识别简历文件中的要素实体,实现了要素实体的精准识别和提取。
进而,终端设备在获取到要素实体后,需要将该要素实体进行结构标准化处理,使得结构标准化处理后的要素实体能够适配对应的招聘系统,进而,可以将结构标准化处理后的要素实体导入与其适配的招聘系统。
因此,在本实施例中,在自动获取到要素实体后,还可以对要素实体的结构进行标准化处理,保证要素实体结构统一性,更好地适配招聘系统,进而,提升求职者及人力工作者的招聘系统使用体验。
在本实施例中,终端设备在获取到目标简历文本后,可以将该目标简历文本拆分为多个语义模块。终端设备在将目标简历文本拆分为多个语义模块后,可以通过预训练的深度神经网络,对上述多个语义模块分别进行语义预测,得到对应的要素实体。终端设备在获取到要素实体后,需要将该要素实体进行结构标准化处理,使得结构标准化处理后的要素实体能够适配对应的招聘系统,进而,可以将结构标准化处理后的要素实体导入与其适配的招聘系统。
可见,相比于现有技术中的简历解析方法,本发明可以在获取到简历文本后,将该简历文本拆分为多个语义模块。进而,通过预训练的深度神经网络,对该语义模块中的要素数据进行语义预测,得到要素实体,并将结构标准化处理后的要素实体导入招聘系统。因此,在本发明中,可以结合目标简历文本的上下文语义,将目标简历划分为多个语义模块,进而,通过深度神经网络,对各个语义模块进行语义预测得到要素实体,实现了简历文本要素的自动解析和精准识别,适用于各类型的简历文本,有效降低人工理解并解析简历的成本,提高求职者及人力工作者的招聘系统使用体验。并且,通过对要素实体进行结构标准化处理,也保证了要素实体结构的一致性和规范性,实现了要素实体的精准高效导入。
进一步地,基于本发明简历解析方法的第一实施例,提出本发明简历解析方法的第二实施例。
在本实施例中,在上述步骤S20,“根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体”之前,还可以包括:
步骤S30,构建简历要素数据集;
步骤S40,将所述简历要素数据集作为训练文本,并通过滑动窗口,将所述训练文本切割为多条训练子文本;
步骤S50,根据所述多条训练子文本,对初始深度神经网络进行训练以及微调,直至所述初始深度神经网络收敛,得到所述预训练的深度神经网络。
需要说明的是,在本实施例中,在利用深度神经网络进行语义预测时,需要预先确定初始深度神经网络,进而利用训练数据对该初始深度神经网络进行训练,可以得到深度神经网络。其中,本实施例中的深度神经网络模型可以为lebert模型。
具体地,例如,终端设备需要预先构建简历要素数据集,以利用该简历要素数据集对初始神经网络进行训练。
进而,可以将上述简历要素数据集中的要素数据作为训练文本,并通过滑动窗口,将该训练文本切割为多条训练子文本。其中,可以理解的是,在本实施例中,针对简历文本普遍为长文本而深度神经网络模型输入有长度限制的情况,需要使用滑动窗口的技术,将训练文本切分为多条训练子文本,作为初始神经网络的输入进行模型训练。
然后,根据上述多条训练子文本,对初始深度神经网络进行训练,进而微调带有词汇增强的预训练模型,直至收敛,得到预训练的深度神经网络。其中,深度神经网络的输出为要素中各个字符所属元素类别及各字符位于要素中的位置,比如,学校为清华大学,要素类别为学校school,“清华大学”这四个字对应的标签为B-school、I-school、I-school、E-school,其中,B标记要素的起始位置、I标记要素的中间位置,E标记要素的结束位置。
进一步地,上述步骤S30中,“构建简历要素数据集”,可以包括:
步骤S301,从所述招聘系统提取原始简历文件对应的原始简历文本;
步骤S302,从所述招聘系统提取预校对的简历要素数据;
步骤S303,将所述原始简历文本中与所述预校对简历要素数据对应的要素数据进行标注;
步骤S304,从预设开源数据集中获取标注的补充数据集;
步骤S305,将标注后的原始简历文本以及所述补充数据集进行汇总,得到所述简历要素数据集。
在本实施例中,如图3所示,简历要素数据集包含了两部分数据来源:
(1)从招聘系统中提取优质的原始简历文件,对该原始简历文件进行数据清洗和预处理得到对应的原始简历文本;从招聘系统中取出经过求职者或人力工作者校对过的简历要素数据(即本实施例中预校对的简历要素数据,包括姓名、生日、手机号等基本信息,学校、专业、学历等教育经历信息以及公司、岗位等工作经历信息等);自动查询原始简历文本中与上述预校对的简历要素数据对应的要素数据,并对该要素数据进行自动化标注。
在另一实施例中,然后人工对上述自动化标注的结果校验标注是否正确,对于错误的标注,可以人工将其纠正。比如,将“清华大学”学校标签错误标记成了姓名标签。
(2)从预设开源数据集中获取标注的补充数据集,在本实施例中不对开源数据集的来源和类型做具体限定.
终端设备在获取到上述两部分的要素数据后,可以将上述标注后的原始简历文本以及补充数据集进行汇总,得到简历要素数据集。
因此,在本实施例中,获取到了更为全面的简历要素数据作为训练数据,实现了深度神经网络的高精度迭代训练,使得到的预训练的深度神经网络能够实现语义准确预测,进而实现了简历文件的精准解析,普遍适用于各类型简历文件自动解析场景。
进一步地,上述步骤S20,“将所述要素实体进行结构标准化处理”之前,还可以包括:
步骤S60,判断所述要素实体是否满足预设的要素分布条件,其中,所述要素分布条件包括:所述要素实体中的各个字符连续、所述要素实体与所述目标简历文本中对应的要素数据一致且所述各个字符的位置标签满足预设标签排列规则;
步骤S70,若是所述要素实体是否满足所述要素分布条件,则执行将所述要素实体进行结构标准化处理的步骤,否则,将所述要素实体作为无效数据丢弃。
在本实施例中,根据上述说明,要素分布条件包括:所述要素实体中的各个字符连续、所述要素实体与所述目标简历文本中对应的要素数据一致且各个字符的位置标签满足预设标签排列规则。比如,根据上述说明,若是一要素实体为“清华大学”,这四个字对应的标签为B-school、I-school、I-school、E-school,其中,B标记要素的起始位置、I标记要素的中间位置,E标记要素的结束位置。在此基础上,要素分布条件包括:上述各个字符需要连续、预测出的要素实体(即清华大学)需要与目标简历文本中对应的要素数据一致,即在目标简历文本中的对应位置处也为清华大学,而非其它大学或者其它要素数据,以及,各个字符的位置标签满足预设标签排列规则,其中,预设标签排列规则可以包括:有且仅有一个标签B作为要素实体的起始位,然后中间可以有n个I(n为自然数,包括0),紧接着一个E作为结束位置标签(或者没有E),可见,本实施例中的要素实体“清华大学”的位置标签满足上述预设标签排列规则。
在此基础上,终端设备若是判断到要素实体中各字符满足上述要素分布条件,则将要素实体进行结构标准化处理;若是判断到要素实体中各字符不满足上述要素分布条件,则将该要素实体予以丢弃。
因此,在本实施例中,可以对预测出的要素实体进行筛选,将不合规的要素实体剔除,保证了要素实体的规范性,有利于后续的要素实体标准化处理。
在本实施例中,简历要素数据集包含了两部分数据来源,因此本实施例获取到了更为全面的简历要素数据作为训练数据。并且,可以将上述简历要素数据集中的要素数据作为训练文本,并通过滑动窗口,将该训练文本切割为多条训练子文本。根据上述多条训练子文本,对初始深度神经网络进行训练,进而微调带有词汇增强的预训练模型,直至收敛,得到预训练的深度神经网络。因此,本实施例实现了深度神经网络的高精度迭代训练,使得到的预训练的深度神经网络能够实现语义准确预测,进而实现了简历文件的精准解析,普遍适用于各类型简历文件自动解析场景。另外,终端设备在判断到要素实体中各字符满足时要素分布条件,可以将要素实体进行结构标准化处理;否则,则将该要素实体予以丢弃。因此,在本实施例中,可以对预测出的要素实体进行筛选,将不合规的要素实体剔除,保证了要素实体的规范性,有利于后续的要素实体标准化处理。
进一步地,基于本发明简历解析方法的第一实施例和第二实施例,提出本发明简历解析方法的第三实施例。
在本实施例中,上述步骤S20中,“将所述要素实体进行结构标准化处理”,可以包括:
步骤S201,确定所述要素实体是否为格式化要素;
步骤S202,在所述要素实体为格式化要素时,确定所述要素实体的要素类型,其中,所述要素类型表征所述要素实体的语义;
步骤S203,根据所述要素类型,针对所述要素实体进行执行对应的格式清洗操作,得到结构标准化的要素实体,其中,所述格式清洗操作与所述要素类型对应;
步骤S204,在所述要素实体不为格式化要素时,根据所述要素实体,查询预设的人工词典,得到结构标准化的要素实体。
需要说明的是,在本实施例中,终端设备需要预先判断当前的要素实体是否为格式化要素。可以理解的是,格式化要素可以包括时间、手机号码、证件号以及Email等固定格式的要素类型;非格式化要素可以包括:外语等级、当前所在城市、学校名称、学位、专业等。
进而,如图3所示,终端设备在确定当前的要素实体为格式化要素时,可以获取该要素实体的要素类型,比如,确定该要素实体是时间、身份证号还是手机号之类。进而,可以根据要素实体的要素类型,针对要素实体进行执行对应的格式清洗操作。可以理解的是,对于不同要素类型的要素实体,所执行的格式清洗操作也是不同的。
具体地,例如,在要素实体为时间时,若时间格式为yyyy-mm-dd。此时终端设备可以首先判断时间数据中是否存在字符“至今”,若是存在,则可以默认将“至今”转化为未来的某一具体时间,比如“2500-01-01”。若时间中带有符号,则可以拿到时间数据,将每段数字提取出来作为年、月、日,去除掉多余的空格和符号,然后判断每段数字的正确性,出现错误则返回空,若出现无月份或者日,则会默认设置为01。若时间为纯数字,则将长度=4的时间数据默认为年份,检验年份正确性,补齐月份和日为01;对于4<长度<=6的时间数据,将前四位作为年,后两位作为月,校验年、月正确性,补齐日为01;对于6<长度<=8的时间数据,校验年、月、日的正确性。若长度<4或者>8或者校验失败都会返回空。
在要素实体为手机号码时,校验手机号码正确性。如果错误返回空。
在要素实体为Email时,校验邮箱中的@符号前是否有对应的字母或者数字,然后判断结尾是否为“.”和字母的组合(比如qq.com)。若校验失败返回空。
在要素实体为身份证时,先校验身份证长度;然后再判断身份证格式(地区码、出生日期);最后检验身份证后四位正确性。若校验失败返回空。
在要素实体为性别时,字段中包含男、女,格式化为男、女,例如:男的,会格式化为男。
若是终端设备确定到当前实体不为格式化要素时,可以根据当前的要素实体,查询预设的人工词典,得到结构标准化的要素实体。
因此,在本实施例中,清洗格式化要素数据以及构建人工词典标准化非格式化数据,增加招聘系统的结构性及接入的可行性,实现要素实体的快速接入,提高求职者及人力工作者的招聘系统使用体验。
进一步地,上述步骤S204中,“根据所述要素实体,查询预设的人工词典,得到结构标准化的要素实体”,可以包括:
步骤S2041,根据所述要素实体的全称,查询对应的人工词典;
步骤S2042,若是在所述人工词典中存在与所述全称匹配的结构标准化的要素实体,则获取所述结构标准化的要素实体,否则,获取所述要素实体的简称,并根据所述简称,查询所述人工词典;
步骤S2043,若是在所述人工词典中存在与所述简称匹配的目标简称,则将所述目标简称格式化为结构标准化的要素实体,否则,将所述要素实体的字段进行分词,并根据所述分词后的字段,对所述人工词典进行模糊查询,得到所述人工词典中与所述要素实体匹配度最高的全称;
步骤S2044,对所述匹配度最高的全称进行格式化得到结构标准化的要素实体。
需要说明的是,在本实施例中,在当前的要素实体不为格式化要素时,需要对其进行格式化操作,以得到结构标准化的要素实体,以适配招聘系统的格式要求。
具体地,终端设备首先获取要素实体的全称,进而根据该全称查询对应类型的人工词典。若是在该人工词典中存在与要素实体的全称匹配的结构标准化的要素实体,则获取该结构标准化的要素实体;若是在该人工词典中不存在与要素实体的全称匹配的结构标准化的要素实体,则获取该要素实体的简称,并根据该简称,查询所述人工词典;若是在该人工词典中存在与要素实体的简称匹配的目标简称,则将该目标简称格式化为结构标准化的要素实体;若是在该人工词典中不存在与要素实体的简称匹配的目标简称,则将要素实体的字段进行分词,并根据分词后的字段,对该人工词典进行模糊查询,得到该人工词典中与要素实体匹配的多个全称,并获取匹配度最高的全称,进而,可以对匹配度最高的全称进行格式化得到结构标准化的要素实体。
因此,在本实施例中,通过构建的人工词典方式可以将非格式化的要素实体进行格式化,使得任意类型的要素实体都能够接入招聘系统,增加了招聘系统的结构一致性以及接入的可行性。
此外,本发明实施例还提出一种简历解析装置,参照图4,所述简历解析装置包括:
拆分模块,用于获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;
预测模块,用于根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。
本发明简历解析装置的具体实施方式的拓展内容与上述简历解析方法各实施例基本相同,在此不做赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有简历解析程序,所述简历解析程序被处理器执行时实现如下所述的简历解析方法的步骤。
本发明简历解析设备和计算机可读存储介质各实施例,均可参照本发明简历解析方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是智能手机、平板电脑以及其它网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种简历解析方法,其特征在于,所述简历解析方法包括:
获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;
根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。
2.如权利要求1所述的简历解析方法,其特征在于,在所述根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体的步骤之前,还包括:
构建简历要素数据集;
将所述简历要素数据集作为训练文本,并通过滑动窗口,将所述训练文本切割为多条训练子文本;
根据所述多条训练子文本,对初始深度神经网络进行训练以及微调,直至所述初始深度神经网络收敛,得到所述预训练的深度神经网络。
3.如权利要求2所述的简历解析方法,其特征在于,所述构建简历要素数据集的步骤,包括:
从所述招聘系统提取原始简历文件对应的原始简历文本;
从所述招聘系统提取预校对的简历要素数据;
将所述原始简历文本中与所述预校对的简历要素数据对应的要素数据进行标注;
从预设开源数据集中获取标注的补充数据集;
将标注后的原始简历文本以及所述补充数据集进行汇总,得到所述简历要素数据集。
4.如权利要求1所述的简历解析方法,其特征在于,在所述将所述要素实体进行结构标准化处理的步骤之前,还包括:
判断所述要素实体是否满足预设的要素分布条件,其中,所述要素分布条件包括:所述要素实体中的各个字符连续、所述要素实体与所述目标简历文本中对应的要素数据一致且所述各个字符的位置标签满足预设标签排列规则;
若是所述要素实体是否满足所述要素分布条件,则执行将所述要素实体进行结构标准化处理的步骤,否则,将所述要素实体作为无效数据丢弃。
5.如权利要求1所述的简历解析方法,其特征在于,所述将所述目标简历文本拆分为多个语义模块的步骤,包括:
根据所述目标简历文本中的文本语义,将所述目标简历文本拆分为多个语义模块,其中,所述语义模块包括基本信息模块、教育经历模块、工作经历模块、项目经历模块、实习经历模块、科研经历模块、社团经历模块、自我评价模块中的一个或者多个。
6.如权利要求1所述的简历解析方法,其特征在于,所述将所述要素实体进行结构标准化处理的步骤,包括:
确定所述要素实体是否为格式化要素;
在所述要素实体为格式化要素时,确定所述要素实体的要素类型,其中,所述要素类型表征所述要素实体的语义;
根据所述要素类型,针对所述要素实体进行执行对应的格式清洗操作,得到结构标准化的要素实体,其中,所述格式清洗操作与所述要素类型对应;
在所述要素实体不为格式化要素时,根据所述要素实体,查询预设的人工词典,得到结构标准化的要素实体。
7.如权利要求6所述的简历解析方法,其特征在于,所述根据所述要素实体,查询预设的人工词典,得到标准化的要素实体的步骤,包括:
根据所述要素实体的全称,查询对应的人工词典;
若是在所述人工词典中存在与所述全称匹配的结构标准化的要素实体,则获取所述结构标准化的要素实体,否则,获取所述要素实体的简称,并根据所述简称,查询所述人工词典;
若是在所述人工词典中存在与所述简称匹配的目标简称,则将所述目标简称格式化为结构标准化的要素实体,否则,将所述要素实体的字段进行分词,并根据所述分词后的字段,对所述人工词典进行模糊查询,得到所述人工词典中与所述要素实体匹配度最高的全称;
对所述匹配度最高的全称进行格式化得到结构标准化的要素实体。
8.一种简历解析装置,其特征在于,所述简历解析装置包括:
拆分模块,用于获取目标简历文本,并根据所述目标简历文本的上下文语义,将所述目标简历文本拆分为多个语义模块;
预测模块,用于根据预训练的深度神经网络,对所述多个语义模块中的要素数据进行语义预测,得到要素实体,并将所述要素实体进行结构标准化处理,以将结构标准化处理后的要素实体导入预设的招聘系统。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的简历解析程序,所述简历解析程序被所述处理器执行时实现如权利要求1至7中任一项所述的简历解析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有简历解析程序,所述简历解析程序被处理器执行时实现如权利要求1至7中任一项所述的简历解析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310634532.XA CN116796726A (zh) | 2023-05-31 | 2023-05-31 | 简历解析方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310634532.XA CN116796726A (zh) | 2023-05-31 | 2023-05-31 | 简历解析方法、装置、终端设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116796726A true CN116796726A (zh) | 2023-09-22 |
Family
ID=88044580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310634532.XA Pending CN116796726A (zh) | 2023-05-31 | 2023-05-31 | 简历解析方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116796726A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975657A (zh) * | 2023-09-25 | 2023-10-31 | 中国人民解放军军事科学院国防科技创新研究院 | 基于人工经验的即时优势窗口挖掘方法及装置 |
CN117670273A (zh) * | 2023-12-11 | 2024-03-08 | 南京道尔医药研究院有限公司 | 基于人力资源智能终端的员工服务系统 |
-
2023
- 2023-05-31 CN CN202310634532.XA patent/CN116796726A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975657A (zh) * | 2023-09-25 | 2023-10-31 | 中国人民解放军军事科学院国防科技创新研究院 | 基于人工经验的即时优势窗口挖掘方法及装置 |
CN116975657B (zh) * | 2023-09-25 | 2023-11-28 | 中国人民解放军军事科学院国防科技创新研究院 | 基于人工经验的即时优势窗口挖掘方法及装置 |
CN117670273A (zh) * | 2023-12-11 | 2024-03-08 | 南京道尔医药研究院有限公司 | 基于人力资源智能终端的员工服务系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
CN107145584B (zh) | 一种基于n-gram模型的简历解析方法 | |
CN108829681B (zh) | 一种命名实体提取方法及装置 | |
WO2019227584A1 (zh) | 简历数据信息解析处理方法、装置、设备及存储介质 | |
US10643182B2 (en) | Resume extraction based on a resume type | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN111144723A (zh) | 人岗匹配推荐方法及系统、存储介质 | |
CN116796726A (zh) | 简历解析方法、装置、终端设备及介质 | |
CN110991163B (zh) | 一种文档比对分析方法、装置、电子设备及存储介质 | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN110765889B (zh) | 法律文书的特征提取方法、相关装置及存储介质 | |
CN111428480B (zh) | 简历识别方法、装置、设备及存储介质 | |
CN112989043B (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
US11630869B2 (en) | Identification of changes between document versions | |
CN112101003A (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN114595661A (zh) | 用于评审投标文件的方法、设备和介质 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
CN113688615A (zh) | 一种字段注释生成、字符串理解方法、设备及存储介质 | |
CN117786066B (zh) | 一种面向文档的知识问答方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |