CN117648918A - 一种简历解析方法、装置、设备及存储介质 - Google Patents
一种简历解析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117648918A CN117648918A CN202211095324.9A CN202211095324A CN117648918A CN 117648918 A CN117648918 A CN 117648918A CN 202211095324 A CN202211095324 A CN 202211095324A CN 117648918 A CN117648918 A CN 117648918A
- Authority
- CN
- China
- Prior art keywords
- resume
- text
- mark
- content block
- resume text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 16
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000000605 extraction Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000007115 recruitment Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及深度学习和自然语言处理技术领域,更为具体来说,本申请涉及一种简历解析方法、装置、设备及存储介质。所述方法包括:获取待解析的简历文本;确定所述简历文本中每个内容块的开始标记和结束标记;将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。能避免因为内容分块错误而导致实体抽取中所需要的输入文本错误的情况,同时,使用全文输入可以使用一个模型一次性地提取多种实体,可以有效减少所需要构建的模型数量,增加实体之间利用相互之间的关联性,从而提升简历解析的效率。
Description
技术领域
本申请涉及深度学习和自然语言处理技术领域,更为具体来说,本申请涉及一种简历解析方法、装置、设备及存储介质。
背景技术
简历解析是指在智能招聘中使用计算机自动化抽取的方式把各种非结构化的简历转化结构化数据的工作。其作用主要是对原有的简历文本数据进行有效信息的抽取并存储,为后续其他智能招聘的简历搜索、简历去重、简历匹配等应用提供数据源的支持,因此是招聘自动化领域中一项基础且重要的工作。
目前业界常常是将简历解析的过程划主要分为四步并用管道模型逐一进行,依次是简历读取、简历分块、信息抽取、信息存储。然而现有技术存在一定的局限性。一方面是整个简历解析的过程为一个完全串行的过程,会比较容易出现误差积累,一旦上一步骤出现错误,对导致下游任务的输入产生较大的偏差,甚至变得完全不可用。另一方面是在内容的分块过程中完全依赖规则,较为死板且扩展性较弱。此外,在信息抽取的过程中,由于前一步进行分块且需要抽取的信息不同,因此每一分块都要用一个模型进行抽取,这同时需要多个模型,管理成本较高。
发明内容
基于上述技术问题,本发明旨在基于确定简历文本中每个内容块的开始标记和结束标记来抽取出所述简历文本对应的多个实体元素信息。
本发明第一方面提供了一种简历解析方法,所述方法包括:
获取待解析的简历文本;
确定所述简历文本中每个内容块的开始标记和结束标记;
将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
在本发明的一些实施例中,所述确定所述简历文本中每个内容块的开始标记和结束标记,包括:
将所述简历文本的开始位置加入前置标记;
将加入所述前置标记后的简历文本输入训练好的内容分块模型中,得到所述简历文本中每个字符对应的字向量编码;
基于所述每个字符对应的字向量编码,确定所述简历文本中每个内容块的开始标记和结束标记。
在本发明的一些实施例中,所述基于所述每个字符对应的字向量编码,确定所述简历文本中每个内容块的开始标记和结束标记,包括:
对所述前置标记对应的字向量编码和所述简历文本中每个字符的字向量编码分别进行加权映射处理,分别得到每个字符的加权语义权重向量;
采用归一化指数函数对所述每个字符的加权语义权重向量进行处理,得到每个字符的类别概率;
根据每个字符的类别概率,确定所述简历文本中每个内容块的开始标记和结束标记。
在本发明的一些实施例中,所述将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:
将所述简历文本中句子的开始位置加入前置标记,句子的结束位置加入分隔符;
将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
在本发明的一些实施例中,所述信息抽取模型包括信息抽取模块、全连接处理模块和条件随机场处理模块;所述将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:
将所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入所述信息抽取模块中进行编码;
将所述信息抽取模块的编码结果依次通过全连接处理模块和条件随机场处理模块的处理,得到所述简历文本对应的多个实体元素信息。
在本发明的一些实施例中,所述方法还对所述内容分块模型和所述信息抽取模型进行训练;训练过程包括:
获取训练集,其中,所述训练集包括标注有内容块的开始标记和结尾标记的简历样本;
采用所述简历样本训练内容分块模型;
采用每个简历样本及各自对应的开始标记和结尾标记训练信息抽取模型。
在本发明的一些实施例中,所述确定所述简历文本中每个内容块的开始标记和结束标记之前,还包括:
将所述简历文本进行文本提取;
将文本提取后的简历进行数据清洗,得到清洗后的简历文本。
本发明第二方面提供了一种简历解析装置,所述装置包括:
获取模块,用于获取待解析的简历文本;
确定模块,用于确定所述简历文本中每个内容块的开始标记和结束标记;
抽取模块,用于将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
本发明第三方面提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:
获取待解析的简历文本;
确定所述简历文本中每个内容块的开始标记和结束标记;
将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待解析的简历文本;
确定所述简历文本中每个内容块的开始标记和结束标记;
将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本申请先获取待解析的简历文本,再确定所述简历文本中每个内容块的开始标记和结束标记,最后将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,能避免因为内容分块错误而导致实体抽取中所需要的输入文本错误的情况,同时,使用全文输入可以使用一个模型一次性地提取多种实体,可以有效减少所需要构建的模型数量,增加实体之间利用相互之间的关联性,从而提升简历解析的效率。特别是确定所述简历文本中每个内容块的开始标记和结束标记可以缓解简历全文中信息过多的因素,可以让模型在抽取对应的实体时注意力更加集中在相应的段落上,降低实体提取的难度。
除此以外,本申请可以使模型基于以往正确的划分数据自行基于统计的方式学习到提取特征,避免人工干扰,从而避免因为主观因素而导致的错误,同时也可以节省了后期的维护成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请一示例性实施例中的简历解析方法步骤示意图;
图2示出了现有技术中一种简历解析方法的解析过程流程图;
图3示出了本申请另一示例性实施例中的简历解析方法的解析过程流程图;
图4示出了本申请一示例性实施例中内容分块模型工作过程示意图;
图5示出了本申请一示例性实施例中信息抽取模型工作过程示意图;
图6示出了本申请一示例性实施例中的简历解析装置结构示意图;
图7示出了本申请一示例性实施例所提供的一种计算机设备的结构示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合说明书附图1-附图7给出几个实施例来描述根据本申请的示例性实施方式。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
在本申请的一些实施例中,提供了一种简历解析方法,如图1所示,所述方法包括:
S1、获取待解析的简历文本;
S2、确定所述简历文本中每个内容块的开始标记和结束标记;
S3、将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
采用本申请上述简历解析方法可以有效避免现有技术中将简历解析的简历读取、简历分块、信息抽取、信息存储完全串行的过程所产生的误差积累。如图2所示,现有技术中简历解析的过程为一个完全串行的过程,从简历读取到简历分块,再到信息抽取,最后进行信息存储,会比较容易出现误差积累,一旦上一步骤出现错误,对导致下游任务的输入产生较大的偏差,甚至变得完全不可用。不仅如此,在内容的分块过程中完全依赖规则,较为死板且扩展性较弱。此外,再如图2所示,在信息抽取的过程中,由于前一步进行分块且需要抽取的信息不同,因此每一分块都要用一个模型进行抽取,这同时需要多个模型(图2中一共用到4个信息抽取模型),管理成本较高,相比之下参考图3,本申请所述简历解析方法通过将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型(图3中统一的信息抽取模型)中,抽取出所述简历文本对应的多个实体元素信息,大大减少了各种成本,也减少了误差,从而提升了简历解析的效率。
在一种具体的实现方式中,确定所述简历文本中每个内容块的开始标记和结束标记之前,还包括:将所述简历文本进行文本提取;将文本提取后的简历进行数据清洗,得到清洗后的简历文本。作为可变换的实施方式,还可以将原始简历进行预处理得到待解析的简历文本。所谓原始简历可以是各种来源的、各种格式的。使用第三方库开源或者商业软件进行获取,如可使用html2text库对html简历进行文本提取,可使用pdfminer/pdfplumber库对pdf类型的简历进行文本提取等等。在提取到简历的文本后,需要使用数据清洗的方式对提取后的文本进行清洗,如数据的重排,无效数据的过滤,多余空格的替换等等。通过上述处理,就可以将简历解析这个多种不同格式都转化为文本,变成一个自然语言处理问题。
在一种具体的实现方式中,确定简历文本中每个内容块的开始标记和结束标记,包括:将简历文本的开始位置加入前置标记;将加入前置标记后的简历文本输入训练好的内容分块模型中,得到简历文本中每个字符对应的字向量编码;基于每个字符对应的字向量编码,确定简历文本中每个内容块的开始标记和结束标记。再具体地,基于每个字符对应的字向量编码,确定简历文本中每个内容块的开始标记和结束标记,包括:对前置标记对应的字向量编码和简历文本中每个字符的字向量编码分别进行加权映射处理,分别得到每个字符的加权语义权重向量;采用归一化指数函数对所述每个字符的加权语义权重向量进行处理,得到每个字符的类别概率;根据每个字符的类别概率,确定所述简历文本中每个内容块的开始标记和结束标记。例如,如图4所示,将简历文本的开始位置加入前置标记[CLS],图4中的教育经历表示一个内容块,当然除此以外内容块还有工作经历、个人信息、项目信息、备注信息等等。将加入前置标记[CLS]后的简历文本输入训练好的内容分块模型中,所述内容分块模型采用Bert模型(Bert全称为BidirectionalEncoder RepresentationsfromTransformer)。加权映射处理的公式为:
uj=uTtanh(Wlej+W2d1)
其中,uj表示每个字符的加权语义权重向量,vT表示随机的初始化向量,tanh表示激活函数,W1和W2表示不同的权重,ej表示第j个字符经过内容分块模型处理得到的字向量,d1表示前置标记经过内容分块模型处理得到的字向量。采用归一化指数函数对每个字符的加权语义权重向量进行处理得到每个字符的类别概率的公式为:
P(Cj|C1,…,Cn)=softmax(uj)
其中,n为字符序列的长度,Cj为第j个字符最终的输出概率(0/1)。例如这里有4个分块内容,每个分块内容有1个start和1个end标记,因此会有8个输出结果,即为确定出的简历文本中每个内容块的开始标记和结束标记。若有7个分块内容,每个分块内容有1个start和1个end标记,因此将有14个输出结果。
在本申请的一些实施例中,将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:将所述简历文本中句子的开始位置加入前置标记,句子的结束位置加入分隔符,将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
在一种具体的实现方式中,信息抽取模型包括信息抽取模块、全连接处理模块和条件随机场处理模块;将加入前置标记和分隔符后的简历文本、每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出简历文本对应的多个实体元素信息,包括:将前置标记和分隔符后的简历文本、每个内容块的开始标记和结束标记输入信息抽取模块中进行编码;将信息抽取模块的编码结果依次通过全连接处理模块和条件随机场(CRF)处理模块的处理,得到简历文本对应的多个实体元素信息。信息抽取模型依然可以选用Bert模型,使用简历原文和内容分块标记组合作为拼接,然后使用Bert进行统一编码,经过一层全连接网络进行映射到最后的分类数。为了考虑总体的全局信息,这里也引入了CRF层进行优化模型。
参考图5,在简历原文中采用的是前置标记[CLS],分割符采用的是[SEP],句子的开始位置加入前置标记[CLS],句子的结束位置加入分隔符[SEP],将加了前置标记[CLS]和分隔符[SEP]的简历原文及确定出的简历文本中每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出简历文本对应的多个实体元素信息。这里如图5所示,接着上述实例来表述,即有8个特殊的标记符号作为分块内容的标记,分别是:教育分块开始标记<edu-start>、教育分块结束标记<edu-end>、工作分块开始标记<work-start>、工作分块结束标记<work-end>、个人信息开始标记<per-start>、个人信息结束标记<per-end>、项目经历开始标记<project-start>、项目经历结束标记<project-end>。<edu-start>对应的位置编码为“教”所对应的位置编码,<edu-end>对应的位置编码为“学”所对应的位置编码,此时信息抽取模型即可通过对应的标记映射到原始的文本中。
在一种优选的实施方式中,信息抽取模型最终序列输出使用BIO进行标记:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。如B-姓名,则代表这个字符为姓名标记的首字符。最后将得到的简历文本对应的多个实体元素信息存储起来。
在本申请的一些实施例中,还对内容分块模型和信息抽取模型进行训练;训练过程包括:获取训练集,其中,训练集包括标注有内容块的开始标记和结尾标记的简历样本;采用简历样本训练内容分块模型;采用每个简历样本及各自对应的开始标记和结尾标记训练信息抽取模型。内容分块模型和信息抽取模型都可以采用Bert模型,内容分块模型的结果也可以用一个映射函数快速转入信息抽取模型中,并且都是需要使用反向传播的方法进行参数优化更新。因此,只需要将两个任务的loss值进行加权,即:
LOSStotal=LOSSsplit+αLOSSextraction
其中,LOSSsplit表示内容分块模型的损失函数,LOSSextraction为信息抽取模型的损失函数,α为超参数,即可以用多任务学习的方法进行联合训练。使用多任务学习的方法可以进一步将两个任务更加紧密联系在一起。信息的抽取有助于内容分块的精度,例如某一段中包含了姓名的信息,则该段几乎也可以肯定在个人信息的分块内容里面;与此同时,由于简历文本一般较长,直接使用简历原文抽取对应的信息难度较大,简历的分块也有助于模型在抽取具体的信息过程中集中注意力,降低模型提取的难度。另外,在得到了对应想要的信息后,存储方面可以根据业务需要,使用常用的关系型数据库或者非关系型数据库,以供下游任务使用。
本申请先获取待解析的简历文本,再确定所述简历文本中每个内容块的开始标记和结束标记,最后将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,能避免因为内容分块错误而导致实体抽取中所需要的输入文本错误的情况,同时,使用全文输入可以使用一个模型一次性地提取多种实体,可以有效减少所需要构建的模型数量,增加实体之间利用相互之间的关联性,从而提升简历解析的效率。特别是确定所述简历文本中每个内容块的开始标记和结束标记可以缓解简历全文中信息过多的因素,可以让模型在抽取对应的实体时注意力更加集中在相应的段落上,降低实体提取的难度。
除此以外,本申请可以使模型基于以往正确的划分数据自行基于统计的方式学习到提取特征,避免人工干扰,从而避免因为主观因素而导致的错误,同时也可以节省了后期的维护成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
在一些示例性实施例中,本申请还提供了一种简历解析装置,如图6所示,该装置用于执行上述任一实施例提供的简历解析方法,所述装置包括:
获取模块,用于获取待解析的简历文本;
确定模块,用于确定所述简历文本中每个内容块的开始标记和结束标记;
抽取模块,用于将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
可以理解的是,所述简历解析装置可以包括支撑性硬件和设备,在此不做限定。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
还需要强调的是,本申请实施例中提供的系统可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面请参考图7,其示出了本申请的一些实施方式所提供的一种计算机设备的示意图。如图7所示,所述计算机设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的简历解析方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述简历解析方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施方式还提供一种与前述实施方式所提供的简历解析方法对应的计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的简历解析方法。
另外,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的空分复用光网络中量子密钥分发信道分配方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任意实施方式所提供的简历解析方法的步骤,包括:获取待解析的简历文本;确定所述简历文本中每个内容块的开始标记和结束标记;将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种简历解析方法,其特征在于,所述方法包括:
获取待解析的简历文本;
确定所述简历文本中每个内容块的开始标记和结束标记;
将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
2.根据权利要求1所述的简历解析方法,其特征在于,所述确定所述简历文本中每个内容块的开始标记和结束标记,包括:
将所述简历文本的开始位置加入前置标记;
将加入所述前置标记后的简历文本输入训练好的内容分块模型中,得到所述简历文本中每个字符对应的字向量编码;
基于所述每个字符对应的字向量编码,确定所述简历文本中每个内容块的开始标记和结束标记。
3.根据权利要求2所述的简历解析方法,其特征在于,所述基于所述每个字符对应的字向量编码,确定所述简历文本中每个内容块的开始标记和结束标记,包括:
对所述前置标记对应的字向量编码和所述简历文本中每个字符的字向量编码分别进行加权映射处理,分别得到每个字符的加权语义权重向量;
采用归一化指数函数对所述每个字符的加权语义权重向量进行处理,得到每个字符的类别概率;
根据每个字符的类别概率,确定所述简历文本中每个内容块的开始标记和结束标记。
4.根据权利要求1所述的简历解析方法,其特征在于,所述将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:
将所述简历文本中句子的开始位置加入前置标记,句子的结束位置加入分隔符;
将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
5.根据权利要求4所述的简历解析方法,其特征在于,所述信息抽取模型包括信息抽取模块、全连接处理模块和条件随机场处理模块;所述将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:
将所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入所述信息抽取模块中进行编码;
将所述信息抽取模块的编码结果依次通过全连接处理模块和条件随机场处理模块的处理,得到所述简历文本对应的多个实体元素信息。
6.根据权利要求2所述的简历解析方法,其特征在于,所述方法还对所述内容分块模型和所述信息抽取模型进行训练;训练过程包括:
获取训练集,其中,所述训练集包括标注有内容块的开始标记和结尾标记的简历样本;
采用所述简历样本训练内容分块模型;
采用每个简历样本及各自对应的开始标记和结尾标记训练信息抽取模型。
7.根据权利要求1所述的简历解析方法,其特征在于,所述确定所述简历文本中每个内容块的开始标记和结束标记之前,还包括:
将所述简历文本进行文本提取;
将文本提取后的简历进行数据清洗,得到清洗后的简历文本。
8.一种简历解析装置,其特征在于,所述装置包括:
获取模块,用于获取待解析的简历文本;
确定模块,用于确定所述简历文本中每个内容块的开始标记和结束标记;
抽取模块,用于将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。
9.一种计算机设备,包括存储器和处理器,其特征在于,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如权利要求1-7任一所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211095324.9A CN117648918A (zh) | 2022-09-05 | 2022-09-05 | 一种简历解析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211095324.9A CN117648918A (zh) | 2022-09-05 | 2022-09-05 | 一种简历解析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117648918A true CN117648918A (zh) | 2024-03-05 |
Family
ID=90046574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211095324.9A Pending CN117648918A (zh) | 2022-09-05 | 2022-09-05 | 一种简历解析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648918A (zh) |
-
2022
- 2022-09-05 CN CN202211095324.9A patent/CN117648918A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528034B (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
EP3968245A1 (en) | Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus | |
US20210350125A1 (en) | System for searching natural language documents | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112818126B (zh) | 网络安全语料库构建模型的训练方法、应用方法及装置 | |
CN116719520B (zh) | 代码生成方法及装置 | |
EP3968244A1 (en) | Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN115470232A (zh) | 模型训练和数据查询方法、装置、电子设备和存储介质 | |
CN117454884A (zh) | 历史人物信息纠错方法、系统、电子设备和存储介质 | |
CN117851605B (zh) | 一种行业知识图谱构建方法、计算机设备及存储介质 | |
EP3965024A1 (en) | Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
EP4254279A1 (en) | Machine learning pipeline augmented with explanation | |
CN114626378A (zh) | 命名实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN116484021A (zh) | 一种构建leetcode题库知识图谱的方法、装置、存储介质 | |
CN117648918A (zh) | 一种简历解析方法、装置、设备及存储介质 | |
CN112487811B (zh) | 基于强化学习的级联信息提取系统及方法 | |
CN114840680A (zh) | 一种实体关系联合抽取方法、装置、存储介质及终端 | |
CN113705692A (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 | |
CN109885827B (zh) | 一种基于深度学习的命名实体的识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |