CN112149389A - 简历信息结构化处理方法、装置、计算机设备和存储介质 - Google Patents

简历信息结构化处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112149389A
CN112149389A CN202011033853.7A CN202011033853A CN112149389A CN 112149389 A CN112149389 A CN 112149389A CN 202011033853 A CN202011033853 A CN 202011033853A CN 112149389 A CN112149389 A CN 112149389A
Authority
CN
China
Prior art keywords
resume
resume information
type
attribute
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011033853.7A
Other languages
English (en)
Inventor
赵继光
黄文琦
卢铭翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202011033853.7A priority Critical patent/CN112149389A/zh
Publication of CN112149389A publication Critical patent/CN112149389A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种简历信息结构化处理方法、装置、计算机设备和存储介质。该方法包括:获取简历信息;获取简历信息条目的关键词;根据关键词,对简历信息进行分割,得到每个简历信息条目对应的字段内容;利用已训练好的识别模型,识别并提取第一类简历信息条目的字段内容,得到第一类简历信息条目的结构化简历属性的属性值;对第二类简历信息条目的字段内容进行实体提取,得到第二类简历信息条目的各结构化简历属性的属性值;根据结构化简历属性和属性值得到结构化的简历。该方法解决了长文本做信息抽取带来的信息丢失和效率低下的问题。

Description

简历信息结构化处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种简历信息结构化处理方法、装置、计算机设备和存储介质。
背景技术
简历信息的结构化,方便对简历进行搜索等处理,能够提高对简历的处理效率。其中简历信息结构化的重要手段是实体提取。
目前使用的技术属于命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。目前常见的NER的实现方式有监督学习、半监督学习、无监督学习和混合方法。
然而,简历通常字数比较多,对于没有明显分割符号的长文本来说,使用命名实体提取的方法,信息抽取的效率较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够信息抽取效率的简历信息结构化处理方法、装置、计算机设备和存储介质。
一种简历信息结构化处理方法,所述方法包括:
获取简历信息;
获取简历信息条目的关键词;
根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
根据所述结构化简历属性和属性值得到结构化的简历。
在其中一个实施例中,利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值,包括:
对所述第一类简历信息条目的字段内容进行分词处理;
获取各分词的特征向量;
分别将所述字段内容的分词的特征向量输入预先训练好的识别模型,得到所述字段内容所属的结构化简历属性,将所述字段内容作为所述结构化简历属性的属性值。
在其中一个实施例中,获取各分词的特征向量,包括:
识别各分词的词性;
将所述分词转化为词向量,将所述词性转化为词性向量;
拼接所述词向量和词性向量,得到分各分词的特征向量。
在其中一个实施例中,对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值,包括:
对所述第二类简历信息条目的字段内容进行实体提取,得到实体;
根据实体类别,将实体作为所述第二类简历信息条目的相应结构化简历属性的属性值;
将抽取实体之后的所述第二类简历信息的剩余字段内容字段作为所述第二类简历信息条目的内容属性的属性值。
在其中一个实施例中,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:
识别所述简历信息中的关键词;
将两个关键词之间的字段信息,作为前一关键词对应的简历信息条目对应的字段内容。
在其中一个实施例中,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:
识别所述简历信息中的关键词;
获取每个关键词对应的简历信息条目的字段长度;
将所述关键词之后的对应字段长度的字段内容作为所述简历信息条目的字段内容。
在其中一个实施例中,获取简历信息,包括:
获取简历文件;
对所述简历文件转化为文本格式,得到简历信息。
一种简历信息结构化处理装置,所述装置包括:
简历获取模块,用于获取简历信息;
关键词获取模块,用于获取简历信息条目的关键词;
分割模块,用于根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
第一提取模块,用于利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
第二提取模块,用于对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
结构化模块,用于根据所述结构化简历属性和属性值得到结构化的简历。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取简历信息;
获取简历信息条目的关键词;
根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
根据所述结构化简历属性和属性值得到结构化的简历。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取简历信息;
获取简历信息条目的关键词;
根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
根据所述结构化简历属性和属性值得到结构化的简历。
上述简历信息结构化处理方法、装置、计算机设备和存储介质,在分割后的简历信息后,对于较短的第一类简历信息条目,进行实体提取,对于较短的第二类简历信息条目,利用训练好的神经网络模型进行识别提取,得到结构化简历属性的属性值。通过分割简历信息,将简历拆分为多个简历信息条目,将长文本的信息抽取任务转换成了多个短文本的信息抽取任务,再进一步根据字段长度,对较短字段的简历信息条目的字段采用神经网络模型进行识别,对较长字段的简历信息条目的字段采用实体抽取的方式进行识别,得到结构化简历属性的属性值。该方法解决了长文本做信息抽取带来的信息丢失和效率低下的问题。
附图说明
图1为一个实施例中简历信息结构化处理方法的应用环境图;
图2为一个实施例中简历信息结构化处理方法的流程示意图;
图3为一个实施例中识别模型的结构示意图;
图4为一个实施例中简历信息结构化处理装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的简历信息结构化处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端上传用户填写的简历,服务器获取简历信息;获取简历信息条目的关键词;根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;根据所述结构化简历属性和属性值得到结构化的简历。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种简历信息结构化处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取简历信息。
简历信息记载了个人简历,包括了个人的基本信息、教育经历、工作经历和项目经历等。其中,基本信息包括姓名、年龄、电话等。
一个实施例中,获取简历信息的方式,包括:获取简历文件,将简历文本转化为文本格式,得到简历信息。
本中,简历文件可以为多模态数据,如word/pdf/png等,然后将多模态的简历文件转化为.txt文本格式。进一步地,对于转化后得到的简历信息,还可进行预处理,消除简历信息中的无用字符,同时对一些字符进行归一化处理。
步骤204,获取简历信息条目的关键词。
对于简历来说,一般在内容前会有内容关键词,如“邮箱:123456789@qq.com”中,“邮箱”两个字就是邮箱这个内容的内容关键词。将关键词相关的内容作为一个简历信息条目,如邮箱、姓名、电话、工作经验均是简历信息条目。每个简历信息条目具有不同的关键词。
步骤206,根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度。
具体地,首先挖掘出内容关键词,因为内容的位置一般在内容关键词后边,所以在挖掘出内容关键词后,该内容的大致位置就在内容关键词后N个字符(N根据字段内容的长度来进行调整)。基于这个原则,根据关键词,对简历信息进行分割,得到每个简历信息条目对应的字段内容。
简历由通常的简历信息条目组成,每个简历信息条目侧重记载相关个人事项。如通常,简历包括了六大块板,分别是基本信息、教育背景、实习经历、项目经历,获取荣誉和自我评价。每个板块主题为一个信息条目,其中,基本信息中又包括了姓名、邮箱等简历信息条目。每个简历信息条目侧重记载相关的个人信息。例如,教育背景这个简历信息条目记载个人的教育经历,如在某个学校的学习时间,学习专业等。关键词是简历信息条目的主题。一个实施例中,简历信息条目的关键词包括姓名、年龄、电话、教育背景、实习经历、项目经历,获取荣誉和自我评价等。
其中,基本信息中细化的个人信息相关的条目,如姓名、年龄、电话等,字段内容长度较短,被设置为第一类简历信息条目。而其它板块主题,如教育背景、实习经历、项目经历,获取荣誉和自我评价等字段内容较长,被设置为第二类简历信息条目,即,第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度。
步骤208,利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值。
对于像“姓名”、“住址”、“年龄”这些字段内容比较短,长度比较固定,通过简历信息分割,可以初步确定信息条目的字段内容,进一步对字段内容进行提取,识别第一类简历信息条目的结构化简历属性的属性值。
具体地,结构化是指将简历信息的内容建立属性和属性值的对应关系,将简历信息分类划分到对应的简历属性中,后续可通过简历属性进行查找,提取等处理。
其中,第一类简历信息条目的结构化属性的字段可以为第一类简历信息条目的关键词。例如,第一类简历信息条目的结构化属性包括:姓名、年龄、电话、邮箱等等。
具体地,可利用BILSTM+CRF模型,对第一类简历信息条目的字段内容进行识别和提取。其中,BILSTM+CRF模型的结构如图3所示,BILSTM的主要作用是根据一个单词的上下文,给出当前单词对应标签的概率分布,可以把BILSTM看成是一个编码层。CRF主要能从训练数据中获得约束性的规则,这些约束可以通过CRF层自动学习到。
具体地,利用BILSTM+CRF模型,将第一类简历信息条目的字段内容输入模型中,输出字段内容属于每个结构化简历属性的概率,从而可确定该字段属于概率最高的结构化简历属性,即该结构化简历属性的属性值为该字段内容。例如,字段内容“已婚”输入BILSTM+CRF模型中,确定属于婚姻状态这个简历属性,则对于该简历,婚姻状态这个简历属性对应的属性值为“已婚”。
步骤210,对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值。
具体地,第二类简历信息条目的字段内容较长,且长短不一,涵盖了较多的信息量。根据经验,第二类简历信息条目记载了一些实体信息。其中,实体包括人名、地名、机构名、专有名词等。
每个实体对应结构化简历属性,实体内容即为结构化简历属性的属性值。其中,不同的第二类简历信息条目的实体内容不同,结构化简历属性也不相同。通过对第二类简历信息条目的字段内容进行实体提取,将提取的实体内容划分到对应的结构化简历属性,作为该简历属性的属性值。
以教育经历这个简历信息条目为例,通常记载了个人的教育经历,包括时间、学校和所学专业等。其中,学校和所学专业就是实体。通过对教育经历的字段内容进行实体提取,得到学校名称和专业名称。
步骤212,根据所述结构化简历属性和属性值得到结构化的简历。
具体地,通过将简历信息抽取为结构化简历属性的属性值,从而得到结构化的简历信息。
上述的简历信息结构化处理方法,在分割后的简历信息后,对于较短的第一类简历信息条目,进行实体提取,对于较短的第二类简历信息条目,利用训练好的神经网络模型进行识别提取,得到结构化简历属性的属性值。通过分割简历信息,将简历拆分为多个简历信息条目,将长文本的信息抽取任务转换成了多个短文本的信息抽取任务,再进一步根据字段长度,对较短字段的简历信息条目的字段采用神经网络模型进行识别,对较长字段的简历信息条目的字段采用实体抽取的方式进行识别,得到结构化简历属性的属性值。该方法解决了长文本做信息抽取带来的信息丢失和效率低下的问题。
在另一个实施例中,利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值,包括:对所述第一类简历信息条目的字段内容进行分词处理;获取各分词的特征向量;分别将所述第一类简历信息条目各字段内容的分词的特征向量输入预先训练好的识别模型,得到所述字段内容识别所属的结构化简历属性,将所述字段内容作为所述结构化简历属性的属性值。
具体地,对于第一类简历信息条目的字段内容进行分词处理,分词可基于词典进行分词,并转换为词向量,得到分词的特征向量。将字段内容的分词的特征向量输入预先训练好的识别模型,如BILSTM,BILSTM的主要作用是根据一个单词的上下文,给出当前单词对应标签的概率分布,可以把BILSTM看成是一个编码层。CRF主要能从训练数据中获得约束性的规则,这些约束可以通过CRF层自动学习到。
具体地,利用BILSTM+CRF模型,将第一类简历信息条目的字段内容输入模型中,输出字段内容属于每个结构化简历属性的概率,从而可确定该字段属于概率最高的结构化简历属性,即该结构化简历属性的属性值为该字段内容。例如,字段内容“已婚”输入BILSTM+CRF模型中,确定属于婚姻状态这个简历属性,则对于该简历,婚姻状态这个简历属性对应的属性值为“已婚”。
其中,获取各分词的特征向量,包括:识别各分词的词性;将所述分词转化为词向量,将所述词性转化为词性向量;拼接所述词向量和词性向量,得到分各分词的特征向量。
具体地,对于字段内容的各分词时,同时识别每个词的词性。词性是指词的语法属性,从语法角度对标识词的属性。词性包括名称、形容词和副词等。利用词典工具,将分词转化为词向量,将词性转化为词性向量,拼接词向量和词性向量,得到分词的特征向量。
其中,预先训练识别模型,预测的步骤与训练类似。包括以下步骤:
1、获取标注了训练样本集,样本集中各样本标注了结构化简历属性。
2、对样本进行分词,并识别词性。
3、将分词转化为词向量,将词性转成词性向量,将词向量和词性向量进行拼接,得到分词的特征向量。
4、将分词的特征向量输入到模型中,对样本的结构化简历属性进行预测。
5、根据预测的结构化简历属性和标注的结构化简历属性,对模型进行训练,得到训练好的识别模型。其中,识别模型可对简历信息的字段内容,预测出姓名、手机号码等信息。
具体地,为提升识别模型的识别效果,还可以在BILSTM+CRF前边添加BERT模型。
具体地,BERT是不同于BILSTM的另外一个模型,BERT的优势是基于对海量数据先训练一版预训练模型,然后拿该预训练模型直接对输入文本进行编码,编码成输入向量,该输入向量本身已经包含了该文本的语义信息,然后拿该向量再输入到BILSTM+CRF模型中,提高模型的效果。
在另一个实施例中,对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值,包括:对所述第二类简历信息条目的字段内容进行实体提取,得到实体;根据实体类别,将实体作为所述第二类简历信息条目的相应结构化简历属性的属性值;抽取实体之后的所述第二类简历信息的剩余字段内容字段作为所述第二类简历信息条目的内容属性的属性值。
具体地,利用实体提取的方法,提取第二类简历信息条目的字段内容中的实体。其中,实体提取的方法可采用正则化匹配等方法,此处不做限制。对于提取的实体,根据实体类别,将实体作为相应结构化简历属性的属性值。根据经验预先对每一个第二类简历信息条目的字段内容设置了结构化简历属性,以从字段内容中提取相应的属性值。
以简历信息条目为教育经历为例,通常记载了个人的教育经历,包括时间、学校和所学专业等。其中,学校和所学专业就是实体。从而设置了教育经历简历信息条目对应的结构化简历属性包括学校,专业和内容。通过对教育经历的字段内容进行实体提取,得到学校名称划分到学校属性,将专业名称划分到专业属性,抽取实体之后的所述第二类简历信息的剩余字段内容字段作为内容属性的属性值。
本实施例中,对于较长字段内容,通过实体抽取的方式,对简历信息进行结构化,能够将较长字段内容有效的提取出来,避免信息丢失。
在另一个实施例中,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:识别所述简历信息中的关键词;将两个关键词之间的字段信息,作为前一关键词对应的简历信息条目的字段内容。
本实施例中,将两个关键词之间的字段信息,作为前一个关键词对应简历信息条目的字段内容。如简历信息中两个先后的关键词为教育经历和工作经历,则教育经历之后的字段与工作经历之间的字段,为教育经历对应的字段内容。该方法没有其它因素干扰能够准确对简历信息进行分割。
在另一个实施例中,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:识别所述简历信息中的关键词;获取每个关键词对应的简历信息条目的字段长度;将所述关键词之后的对应字段长度的字段内容作为所述信息条目对应的字段内容。
本实施例中,根据经验设置了每个简历信息条目的字段长度,将关键词之后的字段长字的字段内容作为信息条目对应的字段内容。如姓名这个字段的长度通常为2-3个字符,则可设置字段长度为3,提取姓名关键词之后的三个字段作为姓名的字段内容。
本实施通过关键词的字段长度对简历信息进行分割,部分字段内容可能会交叉出现在不同的简历信息条目中,进一步再分别对简历信息条目的字段内容进行处理,从而能够避免简历信息的遗漏。
本申请的简历信息结构化处理方法,在简历分割时,将完整简历拆分成多块,这样,就将一个长文本的信息抽取任务转换成了多个短文本的信息抽取任务,从而解决了长文本做信息抽取带来的信息丢失和效率低下的问题。并且使用多个根据内容关键词进行精准定位的短文本来做信息抽取确保了每个简历信息块都有实体内容能被抽取出来,避免了噪音文本对信息抽取所带来的多余时间的损耗,间接提高了性能。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种简历信息结构化处理装置,包括:
简历获取模块402,用于获取简历信息。
关键词获取模块404,用于获取简历信息条目的关键词。
分割模块406,用于根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度。
第一提取模块408,用于利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值。
第二提取模块410,用于对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值。
结构化模块412,用于根据所述结构化简历属性和属性值得到结构化的简历。
上述简历信息结构化处理装置,在分割后的简历信息后,对于较短的第一类简历信息条目,进行实体提取,对于较短的第二类简历信息条目,利用训练好的神经网络模型进行识别提取,得到结构化简历属性的属性值。通过分割简历信息,将简历拆分为多个简历信息条目,将长文本的信息抽取任务转换成了多个短文本的信息抽取任务,再进一步根据字段长度,对较短字段的简历信息条目的字段采用神经网络模型进行识别,对较长字段的简历信息条目的字段采用实体抽取的方式进行识别,得到结构化简历属性的属性值。该方法解决了长文本做信息抽取带来的信息丢失和效率低下的问题。
在另一个实施例中,第一提取模块,包括:
分词模块,用于对所述第一类简历信息条目的字段内容进行分词处理;
向量转换模块,用于获取各分词的特征向量;
预测模块,用于分别将所述字段内容的分词的特征向量输入预先训练好的识别模型,得到所述字段内容所属的结构化简历属性,将所述字段内容作为所述结构化简历属性的属性值。
在另一个实施例中,向量转换模块,用于识别各分词的词性;将所述分词转化为词向量,将所述词性转化为词性向量;拼接所述词向量和词性向量,得到分各分词的特征向量。
在另一个实施例中,第二提取模块,包括:
实体提取模块,对所述第二类简历信息条目的字段内容进行实体提取,得到实体。
属性识别模块,根据实体类别,将实体作为所述第二类简历信息条目的相应结构化简历属性的属性值;将抽取实体之后的所述第二类简历信息的剩余字段内容字段作为所述第二类简历信息条目的内容属性的属性值。
在另一个实施例中,分割模块,包括:
关键词识别模块,用于识别所述简历信息中的关键词;
字段内容配准模块,用于将两个关键词之间的字段信息,作为前一关键词对应的简历信息条目对应的字段内容。
在另一个实施例中,分割模块,包括
关键词识别模块,用于识别所述简历信息中的关键词;
截取模块,用于获取每个关键词对应的简历信息条目的字段长度;
字段内容配准模块,用于将所述关键词之后的对应字段长度的字段内容作为所述简历信息条目的字段内容。
在另一个实施例中,简历获取模块,用于获取简历文件;对所述简历文件转化为文本格式,得到简历信息。
关于简历信息结构化处理装置的具体限定可以参见上文中对于简历信息结构化处理方法的限定,在此不再赘述。上述简历信息结构化处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储简历信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种简历信息结构化处理方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取简历信息;
获取简历信息条目的关键词;
根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
根据所述结构化简历属性和属性值得到结构化的简历。
在其中一个实施例中,利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值,包括:
对所述第一类简历信息条目的字段内容进行分词处理;
获取各分词的特征向量;
分别将所述字段内容的分词的特征向量输入预先训练好的识别模型,得到所述字段内容所属的结构化简历属性,将所述字段内容作为所述结构化简历属性的属性值。
在其中一个实施例中,获取各分词的特征向量,包括:
识别各分词的词性;
将所述分词转化为词向量,将所述词性转化为词性向量;
拼接所述词向量和词性向量,得到分各分词的特征向量。
在其中一个实施例中,对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值,包括:
对所述第二类简历信息条目的字段内容进行实体提取,得到实体;
根据实体类别,将实体作为所述第二类简历信息条目的相应结构化简历属性的属性值;
将抽取实体之后的所述第二类简历信息的剩余字段内容字段作为所述第二类简历信息条目的内容属性的属性值。
在其中一个实施例中,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:
识别所述简历信息中的关键词;
将两个关键词之间的字段信息,作为前一关键词对应的简历信息条目对应的字段内容。
在其中一个实施例中,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:
识别所述简历信息中的关键词;
获取每个关键词对应的简历信息条目的字段长度;
将所述关键词之后的对应字段长度的字段内容作为所述简历信息条目的字段内容。
在其中一个实施例中,获取简历信息,包括:
获取简历文件;
对所述简历文件转化为文本格式,得到简历信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取简历信息;
获取简历信息条目的关键词;
根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
根据所述结构化简历属性和属性值得到结构化的简历。
在其中一个实施例中,利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值,包括:
对所述第一类简历信息条目的字段内容进行分词处理;
获取各分词的特征向量;
分别将所述字段内容的分词的特征向量输入预先训练好的识别模型,得到所述字段内容所属的结构化简历属性,将所述字段内容作为所述结构化简历属性的属性值。
在其中一个实施例中,获取各分词的特征向量,包括:
识别各分词的词性;
将所述分词转化为词向量,将所述词性转化为词性向量;
拼接所述词向量和词性向量,得到分各分词的特征向量。
在其中一个实施例中,对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值,包括:
对所述第二类简历信息条目的字段内容进行实体提取,得到实体;
根据实体类别,将实体作为所述第二类简历信息条目的相应结构化简历属性的属性值;
将抽取实体之后的所述第二类简历信息的剩余字段内容字段作为所述第二类简历信息条目的内容属性的属性值。
在其中一个实施例中,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:
识别所述简历信息中的关键词;
将两个关键词之间的字段信息,作为前一关键词对应的简历信息条目对应的字段内容。
在其中一个实施例中,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:
识别所述简历信息中的关键词;
获取每个关键词对应的简历信息条目的字段长度;
将所述关键词之后的对应字段长度的字段内容作为所述简历信息条目的字段内容。
在其中一个实施例中,获取简历信息,包括:
获取简历文件;
对所述简历文件转化为文本格式,得到简历信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种简历信息结构化处理方法,所述方法包括:
获取简历信息;
获取简历信息条目的关键词;
根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
根据所述结构化简历属性和属性值得到结构化的简历。
2.根据权利要求1所述的方法,其特征在于,利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值,包括:
对所述第一类简历信息条目的字段内容进行分词处理;
获取各分词的特征向量;
分别将所述字段内容的分词的特征向量输入预先训练好的识别模型,得到所述字段内容所属的结构化简历属性,将所述字段内容作为所述结构化简历属性的属性值。
3.根据权利要求2所述的方法,其特征在于,获取各分词的特征向量,包括:
识别各分词的词性;
将所述分词转化为词向量,将所述词性转化为词性向量;
拼接所述词向量和词性向量,得到分各分词的特征向量。
4.根据权利要求1所述的方法,其特征在于,对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值,包括:
对所述第二类简历信息条目的字段内容进行实体提取,得到实体;
根据实体类别,将实体作为所述第二类简历信息条目的相应结构化简历属性的属性值;
将抽取实体之后的所述第二类简历信息的剩余字段内容字段作为所述第二类简历信息条目的内容属性的属性值。
5.权利要求要求1所述的方法,其特征在于,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:
识别所述简历信息中的关键词;
将两个关键词之间的字段信息,作为前一关键词对应的简历信息条目对应的字段内容。
6.根据权利要求1所述的方法,其特征在于,根据所述关键词,对所述简历信息进行分割,得到每个简历信息条目对应的字段内容,包括:
识别所述简历信息中的关键词;
获取每个关键词对应的简历信息条目的字段长度;
将所述关键词之后的对应字段长度的字段内容作为所述简历信息条目的字段内容。
7.根据权利要求1所述的方法,其特征在于,获取简历信息,包括:
获取简历文件;
对所述简历文件转化为文本格式,得到简历信息。
8.一种简历信息结构化处理装置,其特征在于,所述装置包括:
简历获取模块,用于获取简历信息;
关键词获取模块,用于获取简历信息条目的关键词;
分割模块,用于根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
第一提取模块,用于利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
第二提取模块,用于对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
结构化模块,用于根据所述结构化简历属性和属性值得到结构化的简历。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011033853.7A 2020-09-27 2020-09-27 简历信息结构化处理方法、装置、计算机设备和存储介质 Pending CN112149389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011033853.7A CN112149389A (zh) 2020-09-27 2020-09-27 简历信息结构化处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011033853.7A CN112149389A (zh) 2020-09-27 2020-09-27 简历信息结构化处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112149389A true CN112149389A (zh) 2020-12-29

Family

ID=73895770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011033853.7A Pending CN112149389A (zh) 2020-09-27 2020-09-27 简历信息结构化处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112149389A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297845A (zh) * 2021-06-21 2021-08-24 南京航空航天大学 一种基于多层次循环神经网络的简历块分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367446A (zh) * 2001-01-22 2002-09-04 前程无忧网络信息技术(北京)有限公司上海分公司 汉语个人简历信息处理系统和方法
CN108874928A (zh) * 2018-05-31 2018-11-23 平安科技(深圳)有限公司 简历数据信息解析处理方法、装置、设备及存储介质
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN110222292A (zh) * 2019-04-29 2019-09-10 毕昀 网站简历自动解析方法、计算机设备和存储介质
CN111428480A (zh) * 2020-03-06 2020-07-17 广州视源电子科技股份有限公司 简历识别方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367446A (zh) * 2001-01-22 2002-09-04 前程无忧网络信息技术(北京)有限公司上海分公司 汉语个人简历信息处理系统和方法
CN108874928A (zh) * 2018-05-31 2018-11-23 平安科技(深圳)有限公司 简历数据信息解析处理方法、装置、设备及存储介质
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN110222292A (zh) * 2019-04-29 2019-09-10 毕昀 网站简历自动解析方法、计算机设备和存储介质
CN111428480A (zh) * 2020-03-06 2020-07-17 广州视源电子科技股份有限公司 简历识别方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 31 August 2018, 北京理工大学出版社, pages: 83 - 85 *
谷楠楠 等: ""中文简历自动解析及推荐算法"", 《计算机工程与应用》, no. 18, 15 September 2017 (2017-09-15), pages 141 - 148 *
陈毅 等: ""基于特征融合的中文简历解析方法研究"", 《计算机工程与应用》, no. 10, 30 October 2018 (2018-10-30), pages 244 - 249 *
黄胜 等: ""基于深度学习的简历信息实体抽取方法"", 《计算机工程与设计》, vol. 39, no. 12, 16 December 2018 (2018-12-16), pages 3873 - 3878 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297845A (zh) * 2021-06-21 2021-08-24 南京航空航天大学 一种基于多层次循环神经网络的简历块分类方法

Similar Documents

Publication Publication Date Title
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
WO2021027533A1 (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN110334110A (zh) 自然语言分类方法、装置、计算机设备以及存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110502610A (zh) 基于文本语义相似度的智能语音签名方法、装置及介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN111753087B (zh) 舆情文本分类方法、装置、计算机设备和存储介质
CN112101042B (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112256863B (zh) 一种确定语料意图的方法、装置及电子设备
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination