CN113220768A - 基于深度学习的简历信息结构化方法及系统 - Google Patents
基于深度学习的简历信息结构化方法及系统 Download PDFInfo
- Publication number
- CN113220768A CN113220768A CN202110624203.8A CN202110624203A CN113220768A CN 113220768 A CN113220768 A CN 113220768A CN 202110624203 A CN202110624203 A CN 202110624203A CN 113220768 A CN113220768 A CN 113220768A
- Authority
- CN
- China
- Prior art keywords
- event
- resume
- model
- text
- event type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000000605 extraction Methods 0.000 claims abstract description 64
- 238000007781 pre-processing Methods 0.000 claims abstract description 28
- 238000000926 separation method Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012795 verification Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 claims 1
- 230000008520 organization Effects 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的简历信息结构化方法及系统,方法包括:获取简历电子文档并进行解析,获得简历文本,并对简历文本进行预处理;将简历文本输入基于预训练语言模型建立的事件类型识别模型中,识别得到事件类型;将简历文本输入基于预训练语言模型建立的事件元素提取模型中,提取得到事件元素;将属于每个事件类型的事件元素分别输入至对应事件类型的事件分离算法中,得到结构化的事件列表;其中,事件分离算法基于对应事件类型的结构特点规则生成。通过本发明的技术方案,将半结构化和非结构化的简历转化为结构化的形式,有效降低了错误事件元素的识别率,提高了简历事件提取的准确率,方便专业机构人员查看和筛选。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于深度学习的简历信息结构化方法以及一种基于深度学习的简历信息结构化系统。
背景技术
在信息化时代背景下,互联网信息大量增长,人们能够通过手机、电脑、平板获取各式各样的电子信息,有文本、图片、视频、音频等。信息总量增加了,获取信息的途径变多了,但无效信息也在大量增加,导致人的阅读效率下降。那么如何在有信息干扰的情况下,从海量的信息中获取有价值的信息,显得尤为重要。
简历是一种十分常见而又重要的文本,随着线上招聘的逐渐流行,每年招聘季企业都会收到成千上万的电子简历,这些简历是半结构化的,HR要从海量的简历中进行筛选和审查是非常头疼的。一些参考文献后面会附有人员介绍,其中包含了人员的教育经历和工作经历等信息,肉眼直接查看是比较费力的。此外,在金融领域,上市公司和上交所、深交所、证监会等机构会发布各种各样的金融公告,包括上市公告、交易公告、处罚公告、公司年报、招股说明书等,文档形式有word、pdf等。其中公司年报和招股说明书中有专门的关于董事监事高管的一节内容,公布了公司董事长、总经理、监事长等重要高管的简历信息,其中包括性别、年龄、任职信息、教育经历等内容,根据这些简历信息挖掘人员关系,构造人物关系知识图谱,对于金融机构的投资和决策具有重要作用。但这些信息以非结构化的文本形式给出,而且不同类型的事件之间没有明显的分隔符,需要将其转化为结构化的信息才能使用。
现有的针对简历信息的解析相关专利文献情况如下:
1、中国专利CN108664474A-一种基于深度学习的简历解析方法,提出了一种基于深度学习的简历解析方法,其包括以下步骤:数据预处理:将简历统一转换为文本格式,确定简历的内容分段标签,并将简历文本按行进行数据标记;模型训练:利用神经网络将简历文本按行表达为一个固定长度的向量,在获得行向量后,根据所述行向量对简历进行内容分段;信息提取:在完成内容分段后,从指定的内容段中提取标签字段,获得相关信息。
该专利所述方法主要存在以下的问题:
1)只适用于半结构化的、内容呈分段排列的求职简历。
2)在进行内容分段的时候,选择前k行和后k行的向量与当前行的行向量合并,然后送到分类器中分类,对于很长的简历文本,教育经历内容很多、任职经历内容较少的情况,分类结果的正确率会受到影响。
3)信息提取的过程采用基于规则和基于命名实体识别的方法来完成,对于那些出现次数较少的公司名或机构名提取效果较差。
2、中国专利CN109710930A-一种基于深度神经网络的中文简历解析方法,提出了一种基于神经网络的中文简历解析方法,首先采用基于注意力机制的BLSTM神经网络模型对字根以及字序列进行建模,获得包含字内部信息以及字序列信息的特征向量;然后采用BLSTM-CRF模型对特征进行学习,最终解析出简历中的信息元。
该专利所述方法主要存在以下的问题:
1)本质上是采用命名实体识别的方法来进行简历解析,对于那些在简历中出现次数较少的人名或机构名提取效果较差。
2)在序列标注方面,LSTM模型取得的效果不如预训练语言模型。
3、中国专利CN109753909A-一种基于内容分块和BiLSTM模型的简历解析方法,提出了一种基于内容分块和BiLSTM模型的简历解析方法,该方法通过获取简历样本,对常见的标题关键词进行整理;接着利用常见的标题在文本中的独特位置信息和字号信息进行简历内容块划分,并对结构化的键值对信息进行提取;同时需要利用BiLSTM模型对不同的自然文本进行实体标记训练;最后针对不同的内容块利用不同的模型对内容进行判断识别实体,提取输出自然文本描述中的关键实体信息内容。
该专利所述方法主要存在以下的问题:
1)只适用于半结构化的求职简历;
2)对于一些分栏布局的PDF格式的简历,转换成文本之后会出现两栏的内容交叉的情况,导致后续处理出现问题。
3)采用字号的大小和字体的区别来区分简历的标题和文本,对于那些字体和标题无明显区分的简历来说,这一步将无法进行。
4)对于金融领域的简历文本,是完全的非结构化文本,基本信息、任职信息、教育经历信息都放在一个段落中,分块这一步无法进行。
5)采用正则表达式来提取部分信息,设计的规则无法囊括简历中出现的所有情况,例如获得荣誉事件的表述多种多样,难以通过正则来提取。
6)以时间点切割来划分和整合不同的事件,对于那些没有出现时间的简历来说,将无法区分不同的事件。
4、中国专利CN110888927A-简历信息抽取方法及系统,提出了一种简历信息抽取方法及系统,该方法包括A.获取简历数据;B.利用BERT中文预训练模型和数据增广技术对简历数据转换成简历文本后根据其句子特征进行分类;C.将分类好的简历文本句子利用BERT+BiGRU+CNN+CRF模型进行命名实体识别,进而提取出需要的信息元;D.将提取出来的信息元存储在数据库中,结构化输出对应的信息。而该系统主要由简历获取模块、输入模块、分类模块、信息元抽取模块、存储模块和输出模块六个模块组成。
该专利所述方法主要存在以下的问题:
1)对句子做命名实体识别,无法解决单个句子中出现多个相同事件的情况,例如在“2004年12月-2007年2月在西部证券西安东新街营业部、银证通营销中心任总经理;”句子中,出现了两个任职事件,这两个事件共用“2004年12月”和“2007年2月”这两个时间。
5、中国专利CN111966785A-一种基于层叠序列标注的简历信息抽取方法,提出了一种基于层叠序列标注的简历信息抽取方法,包括:步骤1,利用pdfminer对pdf简历进行解析,将原始pdf转成多行的文本表示。该过程主要解决其中出现的顺序混乱和错误断行问题;步骤2,训练过程数据标记:利用远程监督的数据回标并在标记过程中合并同类项。步骤3:简历信息区块划分:对于经过pdfminer得到的句子,针对每个句子分类判断其所在的区块。步骤4,利用双层序列标注模型,实现句子层面和短文本片段层面的信息提取。中国专利“CN111737969A-一种基于深度学习的简历解析方法和系统”,该解析方法包括富文本提取、文本清洗、文本排序、语句切分、语句分类、区块识别、条目划分和区块内字段值提取步骤,并在此过程中结合NLP、OCR和命名实体识别等技术对简历特征进行建模和规模化的模型训练。
该两个专利所述方法主要存在以下的问题:
1)需要分区操作,适用于求职简历这种半结构化的简历,但是对于金融简历这种非结构化的简历文本来说,简历以一整段的文本出现,无法分区。
2)同相关专利1-4描述的方法一样,都是基于序列标注的方法,无法解决单个句子中出现多个相同事件的情况。
发明内容
针对上述问题,本发明提供了一种基于深度学习的简历信息结构化方法及系统,基于深度学习模型融合上下文的语义信息,能够较为准确地检测出事件类型及事件元素,通过预测简历文本中事件元素的数量,能够有效降低错误事件元素的识别率,最终能够提高事件提取的准确率,通过人工总结的规则构建事件分离算法,能够有效检测并区分出多个相同类型的事件,该方法能够处理半结构化和非结构化的简历并将其转化为结构化的形式,能够提高简历事件提取的准确率,并支持多种事件类型,可为企业提供大量的结构化简历信息,并进一步为构建人员知识图谱提供数据支撑。
为实现上述目的,本发明提供了一种基于深度学习的简历信息结构化方法,包括:获取简历电子文档并进行解析,获得简历文本,并对所述简历文本进行预处理;将预处理后的所述简历文本输入基于预训练语言模型建立的事件类型识别模型中,识别得到所述简历文本中的事件类型;将预处理后的所述简历文本输入基于预训练语言模型建立的事件元素提取模型中,提取得到所述简历文本中的事件元素;将属于每个所述事件类型的所述事件元素分别输入至对应事件类型的事件分离算法中,得到结构化的事件列表;其中,所述事件分离算法基于对应事件类型的结构特点规则生成。
在上述技术方案中,优选地,所述获取简历电子文档并进行解析,获得简历文本,并对所述简历文本进行预处理的具体过程包括:获取简历电子文档,根据所述简历电子文档的形式采用相应的解析工具解析或转换为文本文件;利用正则表达式由所述文本文件中提取得到简历文本;将所述简历文本拆分为多个句子。
在上述技术方案中,优选地,所述事件类型识别模型和所述事件元素提取模型的训练样本数据的处理过程包括:爬取简历电子文档并解析得到简历文本,对所述简历文本进行预处理;对所述简历文本预处理后得到的句子拆分为多个字符;定义事件类型集合及每种事件类型包含的事件元素及事件元素角色;以所述事件元素角色对所述简历文本中的字符进行对应标注,作为样本数据;将所述样本数据进行校对,并划分为训练集、验证集和测试集。
在上述技术方案中,优选地,所述事件类型识别模型的训练过程包括:基于预训练语言模型建立所述事件类型识别模型,并设置模型参数;以所述训练集的数据作为输入、以所述训练集的数据中简历文本所包含事件的列表作为输出,对所述事件类型识别模型进行训练;将所述验证集数据输入由所述训练集训练后的所述事件类型识别模型中,计算所述事件类型识别模型的交叉熵损失以及由所述验证集得到的准确率和召回率,并根据准确率和召回率计算F1值;将所述测试集数据输入至F1值最高的所述事件类型识别模型中,得到所述测试集数据中包含的所有事件类型。
在上述技术方案中,优选地,所述事件类型识别模型中,对输入的所述简历文本的句子前后分别添加[CLS]和[SEP]标签,分别计算每个句子中每个字符的WordPieceEmbedding、Segment Embedding和Position Embedding向量,并将三向量相加后输入至预训练语言模型中,得到每个字符的输出向量;取[CLS]标签的输出向量并输入至分类器中进行多标签分类,根据每个事件类型存在的概率与所述模型参数中相应阈值参数,确定是否包含当前事件类型,最终得到所述简历文本中存在的所有事件类型。
在上述技术方案中,优选地,所述事件元素提取模型的训练过程包括:基于预训练语言模型建立所述事件元素提取模型,并设置模型参数;以所述训练集的数据作为输入、以事件元素角色及事件元素在所述简历文本中所在的起始位置和结尾位置作为输出,将起始位置和结尾位置之间的连续字符作为提取出的事件元素,对所述事件元素提取模型进行训练;将所述验证集数据输入至由所述训练集训练后的所述事件元素提取模型中,计算交叉熵损失以及由所述验证集得到的准确率和召回率,并根据准确率和召回率计算F1值;将所述测试集数据输入至F1值最高的所述事件元素提取模型中,得到所述测试集数据中包含的所有事件元素。
在上述技术方案中,优选地,所述事件元素提取模型中,采用问答方式,为每个事件类型的每个事件元素角色设计自然语言问题,并将所述自然语言问题和所述简历文本通过[CLS]和[SEP]标签连接,并以组合形式输入MRC模型中,输出每个字符的词向量;通过两个softmax分类器分别预测每个字符的词向量属于对应自然语言问题答案的start/end的概率;基于以下规则对start/end进行span筛选:
(1)start和end要小于所述简历文本的长度;
(2)end>start;
(3)end–start+1≤max_answer_length;
(4)当前字符属于start的概率大于[CLS]标签属于start的概率,属于end的概率大于[CLS]标签属于end的概率;
对span筛选后的多组[start,end]按照start概率+end概率进行降序排序,选择前arg_num个[start,end]作为输出,实现arg_num筛选;其中,arg_num筛选中的事件元素数量arg_num由元素个数预测模型得到;
所述元素个数预测模型基于预训练语言模型建立,将所述简历文本输入模型以得到每个字符的词向量,在[CLS]标签对应的词向量添加softmax分类器进行多标签分类,标签数量为所述模型参数中预设的max_num参数,分类器输出每个标签的概率,并以概率最大的标签作为事件元素数量arg_num。
在上述技术方案中,优选地,根据大量简历电子文档中每种事件类型的结构特点,总结得到规则;基于所述规则为每种事件类型编写生成对应的事件提取算法;将每种事件类型的事件元素按照在所述简历文本中的出现顺序进行排列并依次输入至所述事件提取算法中,输出得到结构化的事件列表;将所述事件列表进行可视化展示,作为结构化的简历信息。
本发明还提出一种基于深度学习的简历信息结构化系统,应用如上述技术方案中任一项提出的基于深度学习的简历信息结构化方法,包括:
简历文本预处理模块,用于获取简历电子文档并进行解析,获得简历文本,并对所述简历文本进行预处理;
事件类型识别模块,用于将预处理后的所述简历文本输入基于预训练语言模型建立的事件类型识别模型中,识别得到所述简历文本中的事件类型;
事件元素提取模块,用于将预处理后的所述简历文本输入基于预训练语言模型建立的事件元素提取模型中,提取得到所述简历文本中的事件元素;
事件分离模块,用于将属于每个所述事件类型的所述事件元素分别输入至对应事件类型的事件分离算法中,得到结构化的事件列表;其中,所述事件分离算法基于对应事件类型的结构特点规则生成。
在上述技术方案中,优选地,所述简历文本预处理模块还用于对爬取的简历电子文档进行解析、预处理、拆分和标注,得到样本数据,并将所述样本数据划分为训练集、验证集和测试集;
所述简历信息结构化系统还包括:
事件类型识别模型训练模块,用于构建所述事件类型识别模型,并利用所述训练集、验证集和测试集对所述事件类型识别模型进行训练;
事件元素提取模型训练模块,用于构建所述事件元素提取模型,并利用所述训练集、验证集和测试集对所述事件元素提取模型进行训练。
与现有技术相比,本发明的有益效果为:
(1)本发明利用深度学习模型融合上下文的语义信息,能够较为准确地检测出事件类型及事件元素;
(2)本发明对爬取到的不同形式的简历文本进行上述预处理操作,一方面能够保证数据量足够大,另一方面能够保证标注数据的准确性和质量,从而能够保证模型的训练效果,最终能够保证模型的准确率较高;
(3)本发明通过预测文本中事件元素的数量,能够有效降低错误事件元素的识别率,最终能够提高事件提取的准确率;
(4)本发明通过事件分离算法,能够有效检测并区分出出简历句子中存在的多个相同类型的事件。
(5)本发明能够同时处理半结构化和非结构化的简历文本,将其转化为结构化的形式,方便专业机构人员查看和筛选,并存储为人员知识库,为构建人员知识图谱提供数据支撑,具有很强的落地意义。
附图说明
图1为本发明一种实施例公开的基于深度学习的简历信息结构化方法的流程示意图;
图2为本发明一种实施例公开的事件类型识别模型的架构示意图;
图3为本发明一种实施例公开的事件元素提取模型的架构示意图;
图4为本发明一种实施例公开的基于深度学习的简历信息结构化系统的模块示意图。
图中,各组件与附图标记之间的对应关系为:
11.简历文本预处理模块,12.事件类型识别模块,13.事件元素提取模块,14.事件分离模块,15.事件类型识别模型训练模块,16.事件元素提取模型训练模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于深度学习的简历信息结构化方法,包括:获取简历电子文档并进行解析,获得简历文本,并对简历文本进行预处理;将预处理后的简历文本输入基于预训练语言模型建立的事件类型识别模型中,识别得到简历文本中的事件类型;将预处理后的简历文本输入基于预训练语言模型建立的事件元素提取模型中,提取得到简历文本中的事件元素;将属于每个事件类型的事件元素分别输入至对应事件类型的事件分离算法中,得到结构化的事件列表;其中,事件分离算法基于对应事件类型的结构特点规则生成。
在该实施例中,基于深度学习模型融合上下文的语义信息,能够较为准确地检测出事件类型及事件元素,通过预测简历文本中事件元素的数量,能够有效降低错误事件元素的识别率,最终能够提高简历事件提取的准确率,通过人工总结的规则构建事件分离算法,能够有效检测并区分出多个相同类型的事件,该方法能够处理半结构化和非结构化的简历并将其转化为结构化的形式,方便专业机构人员查看和筛选,并支持多种事件类型,可为企业提供大量的结构化简历信息,并进一步为构建人员知识图谱提供数据支撑。
具体地,在上述实施例中,优选地,获取简历电子文档并进行解析,获得简历文本,并对简历文本进行预处理的具体过程包括:
获取简历电子文档,根据简历电子文档的形式采用相应的解析工具解析或转换为文本文件,其中,简历电子文档的形式包括pdf、word等形式,使用诸如pdfminer、pdfplumber等pdf解析工具将pdf解析成txt文件,使用word解析工具将word转换为txt文件;
利用正则表达式由文本文件中提取得到简历文本Context;
将简历文本Context拆分为多个句子s,即Context={s1,s2,...,sa},其中a为句子的个数;
然后将每个句子拆分成多个字符c,即s={c1,c2,...,cb},其中b为句子中包含的字符个数。
在上述实施例中,优选地,事件类型识别模型和事件元素提取模型的训练样本数据的处理过程包括:
S1.1、爬取简历电子文档并解析得到简历文本,对简历文本进行预处理;
S1.2、对简历文本预处理后得到的句子s,即Context={s1,s2,...,sa},拆分为多个字符c,即s={c1,c2,...,cb};
S1.3、定义事件类型集合E,记为E={e1,e2,...,ep},p为事件类型的个数,定义每种事件类型包含的事件元素及事件元素角色集合R,记为R={r1,r2,...,rq},其中q为事件类型包含的角色数量;
S1.4、以事件元素角色对简历文本中的字符进行对应标注,构成(c,r)的形式,其中c为文本中的字符,r为字符对应的事件元素扮演的角色,作为样本数据;
将标注好的样本数据进行人工校对,并在校对完成后将其划分为训练集、验证集和测试集。
其中,事件类型包括:基本信息、资格认证、教育经历、任职、获奖,事件元素角色包括:基本信息中的性别、年龄、出生日期、国籍、民族和政治面貌,资格认证中的境外居留权、认证时间和资格证书,教育经历中的入学时间、毕业时间、毕业院校、专业和学位,任职中的入职时间、离职时间、任职状态、任职公司、任职部门和职位,获奖中的获奖时间、颁奖机构和奖项。
在上述实施例中,优选地,事件类型识别模型的训练过程包括:
S2.1、基于预训练语言模型(例如BERT、RoBERTa、ALBERT等)建立事件类型识别模型,并设置模型的epoch、batch_size、learning_rate、输入句子的最大长度max_seq_length、阈值thresh等参数;
S2.2、以步骤S1.4得到的训练集的数据作为输入、以训练集的数据中简历文本所包含事件的列表l={l1,l2,...,lp}作为输出,其中,列表l由0和1组成,li=1说明简历文本中包含第i个事件,对事件类型识别模型进行训练,每训练一个epoch之后将模型保存下来;
S2.3、将步骤S1.4得到的验证集数据输入由步骤S2.2保存下来的事件类型识别模型中,计算事件类型识别模型的交叉熵损失以及由验证集得到的准确率和召回率,并根据准确率和召回率计算F1值;
S2.4、将步骤S1.4得到的测试集数据输入至步骤S2.3中F1值最高的事件类型识别模型中,得到测试集数据中包含的所有事件类型。
在上述实施例中,优选地,如图2所示,事件类型识别模型中,对输入的简历文本的句子前后分别添加[CLS]和[SEP]标签,分别计算每个句子中每个字符的WordPieceEmbedding、Segment Embedding和Position Embedding向量,每个向量的维度为d,其中d默认为768维,并将三向量相加后输入至预训练语言模型中,得到每个字符的输出向量;取[CLS]标签的输出向量并输入至softmax分类器中,进行多标签分类,得到l={l1,l2,...,lp},其中li表示第i个事件类型存在的概率,遍历l,根据每个事件类型存在的概率与模型参数中相应阈值参数thresh,确定是否包含当前事件类型,如果li>thresh,则说明包含该事件,最终得到简历文本中存在的所有事件类型。
在上述实施例中,优选地,事件元素提取模型的训练过程包括:
S3.1、基于预训练语言模型建立事件元素提取模型,并设置模型的epoch、batch_size、learning_rate、输入句子的最大长度max_seq_length、答案的最大长度max_answer_length、事件元素的最大个数max_num等参数;
S3.2、以步骤S1.4得到的训练集的数据作为输入、以事件元素角色及事件元素在简历文本中所在的起始位置start和结尾位置end作为输出,将起始位置start和结尾位置end之间的连续字符作为提取出的事件元素,对事件元素提取模型进行训练,每训练一个epoch之后将模型保存下来;
S3.3、将步骤S1.4得到的验证集数据输入至由步骤S3.2保存下来的事件元素提取模型中,计算交叉熵损失以及由验证集得到的准确率和召回率,并根据准确率和召回率计算F1值;
S3.4、将步骤S1.4得到的测试集数据输入至步骤S3.3中F1值最高的事件元素提取模型中,得到测试集数据中包含的所有事件元素。
在上述实施例中,优选地,如图3所示,事件元素提取模型中,采用问答方式构建MRC(Machine Reading Comprehension,机器阅读理解)模型,根据步骤S2.4得到的所有事件类型,为每个事件类型e的每个事件元素角色r,设计一个通俗的自然语言问题Question,并将自然语言问题Question和简历文本Context通过[CLS]和[SEP]标签连接,组成“[CLS]Question[SEP]Context[SEP]”的形式,并以组合形式输入MRC模型中,输出每个字符的词向量;
在词向量上添加两个softmax分类器,通过两个softmax分类器分别预测每个字符的词向量属于对应自然语言问题答案的start/end的概率;基于以下规则对start/end进行span筛选,得到合适的start和end:
(1)start和end要小于简历文本Context的长度;
(2)end>start;
(3)end–start+1≤max_answer_length;
(4)当前字符属于start的概率大于[CLS]标签属于start的概率,属于end的概率大于[CLS]标签属于end的概率,这是因为在训练的过程中,如果问题没有答案的话,会将训练数据的start和end置为0;
span筛选之后得到多组[start,end],但仍然包括许多错误的答案,需要根据MAN模型得到的arg_num做进一步的筛选
对span筛选后的多组[start,end]按照start概率+end概率进行降序排序,选择前arg_num个[start,end]作为输出,实现arg_num筛选;
其中,arg_num筛选中的事件元素数量arg_num由元素个数预测模型得到;
元素个数预测MAN(Multihop Attention Networks,多跳注意力网络)模型基于预训练语言模型建立,将“事件类型_元素类型”与简历文本Context通过[CLS]和[SEP]连接,输入到MAN模型中,以得到每个字符的词向量,在[CLS]标签对应的词向量添加softmax分类器,进行多标签分类,标签数量为步骤S3.1中模型参数中预设的max_num参数,分类器输出每个标签的概率,并以概率最大的标签作为事件元素数量arg_num,输送到MRC模型中进行arg_num筛选。
在上述实施例中,优选地,将属于每个事件类型的事件元素分别输入至对应事件类型的事件分离算法中,得到结构化的事件列表,具体包括:
S4.1、根据大量简历电子文档中每种事件类型的结构特点,总结得到规则;
S4.2、基于规则为每种事件类型编写生成对应的事件提取算法;将每种事件类型的事件元素按照在简历文本中的出现顺序进行排列并依次输入至事件提取算法中,输出得到结构化的事件列表;
S4.3、将事件列表进行可视化展示,作为结构化的简历信息。
如图4所示,本发明还提出一种基于深度学习的简历信息结构化系统,应用如上述实施例中任一项提出的基于深度学习的简历信息结构化方法,包括:
简历文本预处理模块11,用于获取简历电子文档并进行解析,获得简历文本,并对简历文本进行预处理;
事件类型识别模块12,用于将预处理后的简历文本输入基于预训练语言模型建立的事件类型识别模型中,识别得到简历文本中的事件类型;
事件元素提取模块13,用于将预处理后的简历文本输入基于预训练语言模型建立的事件元素提取模型中,提取得到简历文本中的事件元素;
事件分离模块14,用于将属于每个事件类型的事件元素分别输入至对应事件类型的事件分离算法中,得到结构化的事件列表;
其中,事件分离算法基于对应事件类型的结构特点规则生成。
在上述实施例中,优选地,简历文本预处理模块还用于对爬取的简历电子文档进行解析、预处理、拆分和标注,得到样本数据,并将样本数据划分为训练集、验证集和测试集;
简历信息结构化系统还包括:
事件类型识别模型训练模块15,用于构建事件类型识别模型,并利用训练集、验证集和测试集对事件类型识别模型进行训练;
事件元素提取模型训练模块16,用于构建事件元素提取模型,并利用训练集、验证集和测试集对事件元素提取模型进行训练。
上述实施例中提出的基于深度学习的简历信息结构化系统,各模块所要实现的功能与上述实施例所提出的简历信息结构化方法中的各步骤相对应,在此不再赘述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的简历信息结构化方法,其特征在于,包括:
获取简历电子文档并进行解析,获得简历文本,并对所述简历文本进行预处理;
将预处理后的所述简历文本输入基于预训练语言模型建立的事件类型识别模型中,识别得到所述简历文本中的事件类型;
将预处理后的所述简历文本输入基于预训练语言模型建立的事件元素提取模型中,提取得到所述简历文本中的事件元素;
将属于每个所述事件类型的所述事件元素分别输入至对应事件类型的事件分离算法中,得到结构化的事件列表;
其中,所述事件分离算法基于对应事件类型的结构特点规则生成。
2.根据权利要求1所述的基于深度学习的简历信息结构化方法,其特征在于,所述获取简历电子文档并进行解析,获得简历文本,并对所述简历文本进行预处理的具体过程包括:
获取简历电子文档,根据所述简历电子文档的形式采用相应的解析工具解析或转换为文本文件;
利用正则表达式由所述文本文件中提取得到简历文本;
将所述简历文本拆分为多个句子。
3.根据权利要求2所述的基于深度学习的简历信息结构化方法,其特征在于,所述事件类型识别模型和所述事件元素提取模型的训练样本数据的处理过程包括:
爬取简历电子文档并解析得到简历文本,对所述简历文本进行预处理;
对所述简历文本预处理后得到的句子拆分为多个字符;
定义事件类型集合及每种事件类型包含的事件元素及事件元素角色;
以所述事件元素角色对所述简历文本中的字符进行对应标注,作为样本数据;
将所述样本数据进行校对,并划分为训练集、验证集和测试集。
4.根据权利要求3所述的基于深度学习的简历信息结构化方法,其特征在于,所述事件类型识别模型的训练过程包括:
基于预训练语言模型建立所述事件类型识别模型,并设置模型参数;
以所述训练集的数据作为输入、以所述训练集的数据中简历文本所包含事件的列表作为输出,对所述事件类型识别模型进行训练;
将所述验证集数据输入由所述训练集训练后的所述事件类型识别模型中,计算所述事件类型识别模型的交叉熵损失以及由所述验证集得到的准确率和召回率,并根据准确率和召回率计算F1值;
将所述测试集数据输入至F1值最高的所述事件类型识别模型中,得到所述测试集数据中包含的所有事件类型。
5.根据权利要求4所述的基于深度学习的简历信息结构化方法,其特征在于,所述事件类型识别模型中,对输入的所述简历文本的句子前后分别添加[CLS]和[SEP]标签,分别计算每个句子中每个字符的WordPiece Embedding、Segment Embedding和PositionEmbedding向量,并将三向量相加后输入至预训练语言模型中,得到每个字符的输出向量;
取[CLS]标签的输出向量并输入至分类器中进行多标签分类,根据每个事件类型存在的概率与所述模型参数中相应阈值参数,确定是否包含当前事件类型,最终得到所述简历文本中存在的所有事件类型。
6.根据权利要求3所述的基于深度学习的简历信息结构化方法,其特征在于,所述事件元素提取模型的训练过程包括:
基于预训练语言模型建立所述事件元素提取模型,并设置模型参数;
以所述训练集的数据作为输入、以事件元素角色及事件元素在所述简历文本中所在的起始位置和结尾位置作为输出,将起始位置和结尾位置之间的连续字符作为提取出的事件元素,对所述事件元素提取模型进行训练;
将所述验证集数据输入至由所述训练集训练后的所述事件元素提取模型中,计算交叉熵损失以及由所述验证集得到的准确率和召回率,并根据准确率和召回率计算F1值;
将所述测试集数据输入至F1值最高的所述事件元素提取模型中,得到所述测试集数据中包含的所有事件元素。
7.根据权利要求6所述的基于深度学习的简历信息结构化方法,其特征在于,所述事件元素提取模型中,采用问答方式,为每个事件类型的每个事件元素角色设计自然语言问题,并将所述自然语言问题和所述简历文本通过[CLS]和[SEP]标签连接,并以组合形式输入MRC模型中,输出每个字符的词向量;
通过两个softmax分类器分别预测每个字符的词向量属于对应自然语言问题答案的start/end的概率;
基于以下规则对start/end进行span筛选:
(1)start和end要小于所述简历文本的长度;
(2)end>start;
(3)end–start+1≤max_answer_length;
(4)当前字符属于start的概率大于[CLS]标签属于start的概率,属于end的概率大于[CLS]标签属于end的概率;
对span筛选后的多组[start,end]按照start概率+end概率进行降序排序,选择前arg_num个[start,end]作为输出,实现arg_num筛选;
其中,arg_num筛选中的事件元素数量arg_num由元素个数预测模型得到;
所述元素个数预测模型基于预训练语言模型建立,将所述简历文本输入模型以得到每个字符的词向量,在[CLS]标签对应的词向量添加softmax分类器进行多标签分类,标签数量为所述模型参数中预设的max_num参数,分类器输出每个标签的概率,并以概率最大的标签作为事件元素数量arg_num。
8.根据权利要求1所述的基于深度学习的简历信息结构化方法,其特征在于,根据大量简历电子文档中每种事件类型的结构特点,总结得到规则;
基于所述规则为每种事件类型编写生成对应的事件提取算法;
将每种事件类型的事件元素按照在所述简历文本中的出现顺序进行排列并依次输入至所述事件提取算法中,输出得到结构化的事件列表;
将所述事件列表进行可视化展示,作为结构化的简历信息。
9.一种基于深度学习的简历信息结构化系统,应用如权利要求1至8中任一项所述的基于深度学习的简历信息结构化方法,其特征在于,包括:
简历文本预处理模块,用于获取简历电子文档并进行解析,获得简历文本,并对所述简历文本进行预处理;
事件类型识别模块,用于将预处理后的所述简历文本输入基于预训练语言模型建立的事件类型识别模型中,识别得到所述简历文本中的事件类型;
事件元素提取模块,用于将预处理后的所述简历文本输入基于预训练语言模型建立的事件元素提取模型中,提取得到所述简历文本中的事件元素;
事件分离模块,用于将属于每个所述事件类型的所述事件元素分别输入至对应事件类型的事件分离算法中,得到结构化的事件列表;
其中,所述事件分离算法基于对应事件类型的结构特点规则生成。
10.根据权利要求9所述的基于深度学习的简历信息结构化系统,其特征在于,所述简历文本预处理模块还用于对爬取的简历电子文档进行解析、预处理、拆分和标注,得到样本数据,并将所述样本数据划分为训练集、验证集和测试集;
所述简历信息结构化系统还包括:
事件类型识别模型训练模块,用于构建所述事件类型识别模型,并利用所述训练集、验证集和测试集对所述事件类型识别模型进行训练;
事件元素提取模型训练模块,用于构建所述事件元素提取模型,并利用所述训练集、验证集和测试集对所述事件元素提取模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110624203.8A CN113220768A (zh) | 2021-06-04 | 2021-06-04 | 基于深度学习的简历信息结构化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110624203.8A CN113220768A (zh) | 2021-06-04 | 2021-06-04 | 基于深度学习的简历信息结构化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113220768A true CN113220768A (zh) | 2021-08-06 |
Family
ID=77082908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110624203.8A Pending CN113220768A (zh) | 2021-06-04 | 2021-06-04 | 基于深度学习的简历信息结构化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220768A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114297987A (zh) * | 2022-03-09 | 2022-04-08 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN116864050A (zh) * | 2023-05-26 | 2023-10-10 | 中国人民解放军总医院 | 一种方案偏离半定量评估的临床试验质量控制方法和设备 |
CN117521673A (zh) * | 2024-01-08 | 2024-02-06 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170300565A1 (en) * | 2016-04-14 | 2017-10-19 | Xerox Corporation | System and method for entity extraction from semi-structured text documents |
CN110888927A (zh) * | 2019-11-14 | 2020-03-17 | 东莞理工学院 | 简历信息抽取方法及系统 |
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN112231447A (zh) * | 2020-11-21 | 2021-01-15 | 杭州投知信息技术有限公司 | 一种中文文档事件抽取的方法和系统 |
-
2021
- 2021-06-04 CN CN202110624203.8A patent/CN113220768A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170300565A1 (en) * | 2016-04-14 | 2017-10-19 | Xerox Corporation | System and method for entity extraction from semi-structured text documents |
CN110888927A (zh) * | 2019-11-14 | 2020-03-17 | 东莞理工学院 | 简历信息抽取方法及系统 |
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN112231447A (zh) * | 2020-11-21 | 2021-01-15 | 杭州投知信息技术有限公司 | 一种中文文档事件抽取的方法和系统 |
Non-Patent Citations (1)
Title |
---|
南有芙蕖: ""论文阅读:Event Extraction by Answering (Almost) Natural Questions 基于自然问答的事件抽取(附源码地址)"", 《HTTPS://BLOG.CSDN.NET/WEIXIN_42691585/ARTICLE/DETAILS/114753698》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114139610B (zh) * | 2021-11-15 | 2024-04-26 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114297987A (zh) * | 2022-03-09 | 2022-04-08 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN116864050A (zh) * | 2023-05-26 | 2023-10-10 | 中国人民解放军总医院 | 一种方案偏离半定量评估的临床试验质量控制方法和设备 |
CN117521673A (zh) * | 2024-01-08 | 2024-02-06 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
CN117521673B (zh) * | 2024-01-08 | 2024-03-22 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN108829681B (zh) | 一种命名实体提取方法及装置 | |
CN107357837B (zh) | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 | |
CN110110335B (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN113220768A (zh) | 基于深度学习的简历信息结构化方法及系统 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN110276054B (zh) | 一种保险文本结构化实现方法 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN112395410B (zh) | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 | |
CN107844609A (zh) | 一种基于文体和词表的突发事件信息抽取方法及系统 | |
US20220300546A1 (en) | Event extraction method, device and storage medium | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN109472462A (zh) | 一种基于多模型堆栈融合的项目风险评级方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112749283A (zh) | 一种面向法律领域的实体关系联合抽取方法 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
Jorge-Botana et al. | Could LSA become a “Bifactor” model? Towards a model with general and group factors | |
CN110610003A (zh) | 用于辅助文本标注的方法和系统 | |
CN114398480A (zh) | 基于关键信息抽取的金融舆情细分方面检测方法和设备 | |
CN117252259A (zh) | 基于深度学习的自然语言理解方法及ai助教系统 | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
Gajanayake et al. | Candidate selection for the interview using github profile and user analysis for the position of software engineer | |
CN114491209A (zh) | 基于互联网信息抓取的企业业务标签挖掘的方法和系统 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |