CN109948120A - 一种基于二元化的简历解析方法 - Google Patents

一种基于二元化的简历解析方法 Download PDF

Info

Publication number
CN109948120A
CN109948120A CN201910260863.5A CN201910260863A CN109948120A CN 109948120 A CN109948120 A CN 109948120A CN 201910260863 A CN201910260863 A CN 201910260863A CN 109948120 A CN109948120 A CN 109948120A
Authority
CN
China
Prior art keywords
resume
biographic information
method based
analytic method
dualization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910260863.5A
Other languages
English (en)
Other versions
CN109948120B (zh
Inventor
钟实
陈少燕
潘志锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huan Que Technology Co Ltd
Original Assignee
Shenzhen Qianhai Huan Que Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huan Que Technology Co Ltd filed Critical Shenzhen Qianhai Huan Que Technology Co Ltd
Priority to CN201910260863.5A priority Critical patent/CN109948120B/zh
Publication of CN109948120A publication Critical patent/CN109948120A/zh
Application granted granted Critical
Publication of CN109948120B publication Critical patent/CN109948120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于二元化的简历解析方法包括:批量读入简历;把批量读入简历的转换成HTML以及TXT文本格式;判断转换成HTML格式的简历是否可以套用简历精确识别模板;根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值;利用TensorFlow构建的BI‑LSTM‑CRF机器学习模型进行简历信息命名实体提取;利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;将经过简析的简历信息用JSON或XML结构化数据进行存储。本发明可以在有限的简历样本的基础上,实现对简历信息的精准识别。

Description

一种基于二元化的简历解析方法
技术领域
本发明涉及的是简历解析方法,具体而言,尤其涉及一种基于二元化的简历解析方法。
背景技术
简历解析,可以归类为自然语言处理(Natural Language Processing)的一个任务集,其中一个重要部分是命名实体识别(NER),在简历分析的任务,需要识别出待处理简历文本中包括:人名,邮件地址,电话号码,籍贯,教育经历中的学校、专业、日期,工作经历中的职位、公司名称、日期等各种信息。
现有技术中的同类简历解析技术,主要有如下几种方式:(1)专利CN105787047A公开的一种简历信息的抽取解析转换方法,其包括计算机读入存放简历的文件路径,读取文件流,抽取出文本内容,输出一个大文本字符串,读入抽取的大文本字符串,进行解析,将解析出的简历信息组成简历信息模型;(2)专利CN107145584A公开了一种基于n gram模型的简历解析方法,该方法为:预先收集简历样本,将常用字段关键词划分为不同类别形成分类词典,采用n gram模型统计出每一常用字段关键词转变到各样本关联词的转移概率,查找待解析简历中与常用字段关键词相匹配的目标关键词,如果目标关键词对应的转移概率大于预定阈值,根据目标关键词更新每一常用字段关键词对应的转移概率,并对待解析简历中的有效关键词增加前缀标注和后缀标注,对待解析简历的文本内容进行分段提取并输出;(3)专利CN107392143A公开了一种基于SVM文本分类的简历精确解析方法,其包括:一、在.net framework下操作Microsoft office,将各种格式的简历文件转换为PDF格式,再由PDF转换为xml格式文件;二、提取xml格式下各简历文本行的标签并生成相应的特征向量;三、对各简历文本行进行标注,根据标注值和各简历文本行对应的特征向量采用SVM进行分类训练,得到分类器;四、根据得到的分类器对各简历进行切割,并分块解析提取信息,从而完成各简历的精确解析。
以上这三种技术都存在着一定的局限性,要想在实用层面达到简历解析的目标存在着一定的障碍,主要是:专利CN105787047A并没有提出信息抽取的具体算法模型,提出的只是概念性的方案:匹配提取过于依赖于强大的字典库和复杂的算法模型,而需要建立这么高水准的字典库和算法模型难度非常大;专利CN107145584A主要针对有明确来源的简历,这种简历往往都是按照预定的标准格式,简历的各大模块都有信息提示前缀关键词,可以依据前缀关键词生成前缀词典,用于协助确认简历关键词的内容分割提取,但对于没有明确来源的简历,而这些往往占据简历的大部分,内容前并没有信息提示前缀关键词,采用此方法,无法有效提取出简历信息;专利CN107392143A利用SVM来尝试识别XML标签内简历信息,但是因为XML模板差异很大,在样本有限的前提下进行解析训练,标签识别成功率较低,这就要求要有海量的样本进行解析训练,这在现实应用中是比较难实现的。因此,鉴于上述多个方案于实际实施过程上的缺失之处,而加以修正、改良,同时本着求好的精神及理念,并由专业的知识、经验的辅助,以及在多方巧思、试验后,方创设出本设计,故提供一种基于二元化的简历解析方法,用于解决在实用层面达到简历解析的目标的问题。
发明内容
本发明的目的在于提供一种基于二元化的简历解析方法,以便于解决在实用层面达到简历解析的目标的问题。
本发明一种基于二元化的简历解析方法可以通过下列技术方案来实现:
本发明一种基于二元化的简历解析方法包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储。
优选地,在step1中,通过提供WEB接口形式,接受经HTTP POST请求传入的简历信息。
优选地,所述简历信息为单个简历文件时,则读取指定目录内的所述单个简历文件。
优选地,所述简历信息为批量简历压缩包时,则读取指定目录内的所述批量简历压缩包,调用相关解压程序,将所述批量简历压缩包发送到解压的队列中进行解压。
优选地,在step2中,利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档转换成HTML以及TXT文本格式。
优选地,简历源文档为MHT、docx、doc或者PDF文本格式。
优选地,在step5中,采用Python语言下包含GPU加速的TensorFlow版本。
优选地,在step5中,基于BI-LSTM-CRF的模型构造一个混合了大量不同类型的简历信息的语料标注库,其采用人工或者半自动方式标注语料库,基于标注好的语料库,生成一个训练模型,在这个训练模型中,采用类似双层长短记忆网络(BI-LSTM)来表示每个词,这个词向量由两部分合并,一部分是基于中文维基语料库并利用GloVe训练的出来的词向量另一部分,是字符级别的向量该训练模型的下面一层是CRF层,进行句子级的序列标注,通过挖掘词与相邻词的标识的相互影响关系。
优选地,在step6中,各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历和语言能力。
本发明一种基于二元化的简历解析方法具有以下技术效果:
本发明一种基于二元化的简历解析方法通过结合规则类算法和深度学习算法,引入二元解析方法,一方面针对符合相对标准格式的简历,采用正则表达式模板来精确解析;另一方面对于无法明确来源进行匹配的简历,则会使用BI-LSTM-CRF模型的深度学习算法再进行命名实体提取的二元简历信息提取,有效的规避了单纯使用一种算法存在的缺陷,兼具规则类模型的信息识别精确性及深度学习模型的良好适应性两方面的优势,可以达到有效精确提取简历信息的目标,具有良好的实用性;同时通过这种方法,可以在有限的简历样本的基础上,实现对简历信息的精准识别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明所提供的一种基于二元化的简历解析方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和展示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,在本发明中,除非另有明确的规定和限定,第一特征在第二特征之上或之下可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征之上、上方和上面包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征之下、下方和下面包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参阅图1,本发明一种基于二元化的简历解析方法包括:step1,批量读入简历;此步骤主要负责将简历信息读入到系统中:通过提供WEB接口形式,接受经HTTP POST请求传入的单个简历文件或者通过ZIP/RAR等格式的批量简历压缩包;读取指定目录内的单个简历文件或者批量简历压缩包;如果读取的是批量简历压缩包,调用相关解压程序,将批量简历压缩包发送到解压的队列中进行解压。
step2,把批量读入简历的转换成HTML以及TXT文本格式;利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档(MHT、docx、doc、PDF)转换成HTML以及TXT文本格式。
Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板;如果可以套用简历精确识别模板就跳到Step4;如果不可以套用简历精确识别模板就跳到Step5。
Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值。XPATH是XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言;利用XPATH基于XML的树状结构,提供在数据结构树中找寻节点的能力,在转换后得到的HTML(类XML)文本格式的简历信息,通过XPATH来定位某些特定的信息(称为简历签名);利用XPATH对HTML文本格式的简历信息进行不同板块的分割,针对不同的板块进行信息识别提取,通用的简历格式包含的模块一般主要有:基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历、语言能力和奖项;可以针对这些模块特点分别进行信息提取的处理,可以分成基本信息类:利用先导的关键字,判定关键字后面信息的内容,例如姓名,出生日期等进行实际信息提取;经历类(教育经历、工作经历,项目经验、实习经历、培训经历等):用正则表达式来提取内容块的日期范围,同时利用相对日期的位置配合XPATH来提取公司名、职位名称、工作描述等对应内容;同时对解析后的简历信息进行评分,若评分高于预定义的阈值,则跳到Step8;若评分低于预定义的阈值,则跳转到Step5。
Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取。采用Tensorflow构建简历信息解析机器学习框架,为了加速机器学习的效率,在本实施例中,选用GPU作为加速器的硬件设备,因而选用了Python语言下包含GPU加速的TensorFlow版本(tensorflow-gpu);要实现基于BI-LSTM-CRF的模型进行对公司名称、职位、日期、人名、学校名称以及专业等简历信息的命名实体识别,首先需要构造一个混合了大量不同类型的简历信息的语料标注库,采用人工或者半自动方式标注语料库;基于标注好的语料库,生成一个训练模型,在这个训练模型中,为了尽量捕捉每个词的信息,我们使用类似双层长短记忆网络(BI-LSTM)来表示每个词,这个词向量由两部分合并,一部分是基于中文维基语料库并利用GloVe训练的出来的词向量另一部分,是字符级别的向量该训练模型的下面一层是CRF层,进行句子级的序列标注,通过挖掘词与相邻词的标识的相互影响关系,提升预测结果的正确性;BI-LSTM-CRF模型可以在机器学习框架Tensorflow中进行训练,经过调整优化语料库,可以得到一个可用的简历信息提取模型。
Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割。转化后的TXT文本格式的简历信息输入到经过训练的BI-LSTM-CRF模型,结合标签字典以及命名实体提取信息,来定位各个简历板块的标签及各个板块起始位置,根据定位信息,把简历信息切割各个板块,各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历、语言能力和奖项。
Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容。
Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储。
本发明一种基于二元化的简历解析方法与现有技术相比,具有的有益效果为:
本发明一种基于二元化的简历解析方法通过结合规则类算法和深度学习算法,引入二元解析方法,一方面针对符合相对标准格式的简历,采用正则表达式模板来精确解析;另一方面对于无法明确来源进行匹配的简历,则会使用BI-LSTM-CRF模型的深度学习算法再进行命名实体提取的二元简历信息提取,有效的规避了单纯使用一种算法存在的缺陷,兼具规则类模型的信息识别精确性及深度学习模型的良好适应性两方面的优势,可以达到有效精确提取简历信息的目标,具有良好的实用性;同时通过这种方法,可以在有限的简历样本的基础上,实现对简历信息的精准识别。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,应包含在本发明的保护范围之内。

Claims (9)

1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储。
2.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step1中,通过提供WEB接口形式,接受经HTTP POST请求传入的简历信息。
3.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为单个简历文件时,则读取指定目录内的所述单个简历文件。
4.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为批量简历压缩包时,则读取指定目录内的所述批量简历压缩包,调用相关解压程序,将所述批量简历压缩包发送到解压的队列中进行解压。
5.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step2中,利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档转换成HTML以及TXT文本格式。
6.根据权利要求5所述的一种基于二元化的简历解析方法,简历源文档为MHT、docx、doc或者PDF文本格式。
7.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step5中,采用Python语言下包含GPU加速的TensorFlow版本。
8.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step5中,基于BI-LSTM-CRF的模型构造一个混合了大量不同类型的简历信息的语料标注库,其采用人工或者半自动方式标注语料库,基于标注好的语料库,生成一个训练模型,在这个训练模型中,采用类似双层长短记忆网络(BI-LSTM)来表示每个词,这个词向量由两部分合并,一部分是基于中文维基语料库并利用GloVe训练的出来的词向量另一部分,是字符级别的向量该训练模型的下面一层是CRF层,进行句子级的序列标注,通过挖掘词与相邻词的标识的相互影响关系。
9.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step6中,各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历和语言能力。
CN201910260863.5A 2019-04-02 2019-04-02 一种基于二元化的简历解析方法 Active CN109948120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910260863.5A CN109948120B (zh) 2019-04-02 2019-04-02 一种基于二元化的简历解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910260863.5A CN109948120B (zh) 2019-04-02 2019-04-02 一种基于二元化的简历解析方法

Publications (2)

Publication Number Publication Date
CN109948120A true CN109948120A (zh) 2019-06-28
CN109948120B CN109948120B (zh) 2023-03-14

Family

ID=67013395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910260863.5A Active CN109948120B (zh) 2019-04-02 2019-04-02 一种基于二元化的简历解析方法

Country Status (1)

Country Link
CN (1) CN109948120B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781658A (zh) * 2019-10-14 2020-02-11 北京字节跳动网络技术有限公司 简历解析方法、装置、电子设备和存储介质
CN111352979A (zh) * 2020-03-31 2020-06-30 中国建设银行股份有限公司 一种基于简历信息的行业分析方法及系统
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN111967848A (zh) * 2020-08-19 2020-11-20 工银科技有限公司 获取简历的方法、装置、系统及介质
CN112001164A (zh) * 2020-10-27 2020-11-27 南京中孚信息技术有限公司 一种文档内容流式解析方法及系统
CN114048744A (zh) * 2021-10-28 2022-02-15 盐城金堤科技有限公司 基于实体抽取的任职记录生成方法、装置及设备
TWI776146B (zh) * 2020-04-30 2022-09-01 中國信託商業銀行股份有限公司 履歷評分方法及其系統
CN116738959A (zh) * 2023-08-15 2023-09-12 贵州优特云科技有限公司 一种基于人工智能的简历改写方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108267A1 (en) * 2003-11-14 2005-05-19 Battelle Universal parsing agent system and method
CN103294796A (zh) * 2013-05-24 2013-09-11 上海申腾信息技术有限公司 一种xml解析方法及医疗病案中自定义xml结构表单实现方法
CN105183742A (zh) * 2015-06-12 2015-12-23 南京富士通南大软件技术有限公司 一种简历识别方法
US9665641B1 (en) * 2013-04-09 2017-05-30 Guangsheng Zhang System, methods, and user interface for automated job search
CN107392143A (zh) * 2017-07-20 2017-11-24 中国科学院软件研究所 一种基于svm文本分类的简历精确解析方法
US20180144042A1 (en) * 2016-11-23 2018-05-24 Google Inc. Template-based structured document classification and extraction
CN108874928A (zh) * 2018-05-31 2018-11-23 平安科技(深圳)有限公司 简历数据信息解析处理方法、装置、设备及存储介质
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN109299448A (zh) * 2018-09-12 2019-02-01 武汉轻工大学 简历智能填写方法、系统、服务器及存储介质
CN109471895A (zh) * 2018-10-29 2019-03-15 清华大学 电子病历表型抽取、表型名称规范化方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108267A1 (en) * 2003-11-14 2005-05-19 Battelle Universal parsing agent system and method
US9665641B1 (en) * 2013-04-09 2017-05-30 Guangsheng Zhang System, methods, and user interface for automated job search
CN103294796A (zh) * 2013-05-24 2013-09-11 上海申腾信息技术有限公司 一种xml解析方法及医疗病案中自定义xml结构表单实现方法
CN105183742A (zh) * 2015-06-12 2015-12-23 南京富士通南大软件技术有限公司 一种简历识别方法
US20180144042A1 (en) * 2016-11-23 2018-05-24 Google Inc. Template-based structured document classification and extraction
CN107392143A (zh) * 2017-07-20 2017-11-24 中国科学院软件研究所 一种基于svm文本分类的简历精确解析方法
CN108874928A (zh) * 2018-05-31 2018-11-23 平安科技(深圳)有限公司 简历数据信息解析处理方法、装置、设备及存储介质
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN109299448A (zh) * 2018-09-12 2019-02-01 武汉轻工大学 简历智能填写方法、系统、服务器及存储介质
CN109471895A (zh) * 2018-10-29 2019-03-15 清华大学 电子病历表型抽取、表型名称规范化方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄胜等: "基于深度学习的简历信息实体抽取方法", 《计算机工程与设计》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781658A (zh) * 2019-10-14 2020-02-11 北京字节跳动网络技术有限公司 简历解析方法、装置、电子设备和存储介质
CN110781658B (zh) * 2019-10-14 2023-08-25 抖音视界有限公司 简历解析方法、装置、电子设备和存储介质
CN111352979A (zh) * 2020-03-31 2020-06-30 中国建设银行股份有限公司 一种基于简历信息的行业分析方法及系统
CN111352979B (zh) * 2020-03-31 2024-01-12 中国建设银行股份有限公司 一种基于简历信息的行业分析方法及系统
TWI776146B (zh) * 2020-04-30 2022-09-01 中國信託商業銀行股份有限公司 履歷評分方法及其系統
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN111737969B (zh) * 2020-07-27 2020-12-08 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN111967848A (zh) * 2020-08-19 2020-11-20 工银科技有限公司 获取简历的方法、装置、系统及介质
CN112001164B (zh) * 2020-10-27 2021-01-08 南京中孚信息技术有限公司 一种文档内容流式解析方法及系统
CN112001164A (zh) * 2020-10-27 2020-11-27 南京中孚信息技术有限公司 一种文档内容流式解析方法及系统
CN114048744A (zh) * 2021-10-28 2022-02-15 盐城金堤科技有限公司 基于实体抽取的任职记录生成方法、装置及设备
CN116738959A (zh) * 2023-08-15 2023-09-12 贵州优特云科技有限公司 一种基于人工智能的简历改写方法及系统
CN116738959B (zh) * 2023-08-15 2023-11-14 贵州优特云科技有限公司 一种基于人工智能的简历改写方法及系统

Also Published As

Publication number Publication date
CN109948120B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN109948120A (zh) 一种基于二元化的简历解析方法
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN111930966B (zh) 一种用于数字政务的智能政策匹配方法及系统
CN109685056B (zh) 获取文档信息的方法及装置
Jimeno Yepes et al. ICDAR 2021 competition on scientific literature parsing
CN109753909A (zh) 一种基于内容分块和BiLSTM模型的简历解析方法
CN109858626B (zh) 一种知识库构建方法及装置
CN109033064B (zh) 一种基于文本摘要的小学语文作文语料标签自动提取方法
CN112699645B (zh) 语料标注方法、装置及设备
CN104679735A (zh) 语用机器翻译方法
CN111143531A (zh) 一种问答对构建方法、系统、装置及计算机可读存储介质
CN113902009A (zh) 一种简历分析方法、装置、电子设备、介质及产品
CN1167026C (zh) 汉语个人简历信息处理系统和方法
CN114495143A (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN101470699B (zh) 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
Nguyen et al. Openvivqa: Task, dataset, and multimodal fusion models for visual question answering in vietnamese
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN113435213B (zh) 针对用户问题和知识库返回答案的方法和装置
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
JP2011039576A (ja) 特定情報検出装置、特定情報検出方法および特定情報検出プログラム
CN113449504A (zh) 一种标书智能评分方法及系统
CN113408290A (zh) 一种针对中文文本的智能标注方法及系统
CN105868968A (zh) 基于机器学习的招聘信息解析系统及其方法
CN111931480A (zh) 文本主要内容的确定方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant