CN111178071A - 履历信息的处理方法、装置及计算机可读存储介质 - Google Patents

履历信息的处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111178071A
CN111178071A CN201911369948.3A CN201911369948A CN111178071A CN 111178071 A CN111178071 A CN 111178071A CN 201911369948 A CN201911369948 A CN 201911369948A CN 111178071 A CN111178071 A CN 111178071A
Authority
CN
China
Prior art keywords
text
structured
word
observation sequence
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911369948.3A
Other languages
English (en)
Inventor
袁婧
忻役
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911369948.3A priority Critical patent/CN111178071A/zh
Publication of CN111178071A publication Critical patent/CN111178071A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种履历信息的处理方法、装置及计算机可读存储介质,包括:获取待处理履历信息;其中,待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于逗号或顿号或“兼”字后用于补充说明第一文本中某个结构化词语的第二文本;当第二文本中只包含表示职位的词语,确定第二文本用于补充说明第一文本中最后一个表示部门的结构化词语。由于当第二文本中只包含表示职位的词语,确定了第二文本用于补充说明第一文本中最后一个表示部门的结构化词语,因此在某些情况下实现了包含逗号或顿号或“兼”字的复杂履历信息的处理,从而提高了履历信息处理成功率。

Description

履历信息的处理方法、装置及计算机可读存储介质
技术领域
本文涉及信息处理技术,尤指一种履历信息的处理方法、装置及计算机可读存储介质。
背景技术
履历信息的处理是指将目标人员的履历拆分为地区,单位,部门,职位等信息,形成结构化数据,从而为人员分析,关系图谱,履历图谱,升迁路径等提供基础数据。
相关技术中,履历信息的处理往往采用规则方法,或者BiLSTM-CRF方法。
然而,无论是规则方法还是BiLSTM-CRF方法都无法处理包含逗号或顿号或“兼”字的复杂履历信息,从而使得履历信息处理成功率低下。
发明内容
本申请提供了一种履历信息的处理方法、装置及计算机可读存储介质,能够在某些情况下处理包含逗号或顿号或“兼”字的复杂履历信息,从而提高履历信息处理成功率。
本申请提供了一种履历信息的处理方法,包括:
获取待处理履历信息;其中,所述待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于所述逗号或顿号或“兼”字后用于补充说明所述第一文本中某个结构化词语的第二文本;
当所述第二文本中只包含表示职位的词语,确定所述第二文本用于补充说明所述第一文本中最后一个表示部门的结构化词语。
当所述第二文本中首字为“市”或“区”,还包括:
确定所述第二文本用于补充说明所述第一文本中携带“市”或“区”的结构化词语。
当所述第二文本中并非只包含表示职位的词语,并且所述第二文本中首字不为“市”和“区”,还包括:
根据所述第一文本中的结构化词语构造第一观察序列,并根据所述第一观察序列构造隐马尔可夫模型;
根据所述第一文本中的结构化词语和所述第二文本构造第二观察序列;
根据所述第一观察序列、所述第二观察序列和所述隐马尔可夫模型获取所述第二文本补充说明所述第一文本中的目标结构化词语。
所述获取待处理履历信息之后,且根据第一文本中的结构化词语构造第一观察序列之前,还包括:
利用预先构造的任职时间正则表达式匹配所述待处理履历信息,得到任职时间信息;
利用预先构造的括号正则表达式匹配所述待处理履历信息,得到括号内容信息;
将所述待处理履历信息去除所述任职时间信息和所述括号内容信息后按照标点符号分割,得到若干个子句;
根据逆向最大匹配算法对所有子句进行匹配,得到所述第一文本中的结构化词语。
所述根据第一观察序列构造隐马尔可夫模型,包括:
依照基于EM的鲍姆-韦尔奇算法,并根据所述第一观察序列构造所述隐马尔可夫模型。
当所述第一文本中包括N个结构化词语,所述第一观察序列包括:(结构化字段1,结构化字段1+结构化字段2,…,结构化字段1+结构化字段2+…+结构化字段N);
所述第二观察序列包括:(结构化字段1+第二文本,结构化字段1+结构化字段2+第二文本,…,结构化字段1+结构化字段2+…+结构化字段N+第二文本)。
所述根据第一观察序列、第二观察序列和隐马尔可夫模型获取第二文本补充说明第一文本中的目标结构化词语,包括:
分别计算在所述隐马尔可夫模型下所述第一观察序列以及所述第二观察序列出现的概率;
根据所述隐马尔可夫模型下所述第一观察序列以及所述第二观察序列出现的概率计算所述第二文本补充说明所述第一文本中所有结构化词语的概率;
获取最大概率对应的结构化词语作为所述第二文本补充说明所述第一文本中的目标结构化词语。
所述分别计算在所述隐马尔可夫模型下所述第一观察序列以及所述第二观察序列出现的概率,包括:
使用前向后向算法分别计算在所述隐马尔可夫模型下所述第一观察序列以及所述第二观察序列出现的概率。
当所述第一文本中包含N个结构化词语,所述根据隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率计算第二文本补充说明第一文本中所有结构化词语的概率,包括:
计算所述隐马尔可夫模型下第二观察序列中第i个元素出现的概率与所述隐马尔可夫模型下第一观察序列中第i个元素出现的概率的比值,得到所述第二文本补充说明所述第一文本中第i个结构化词语的概率;其中,i=1、2…N。
本申请还提供了一种履历信息的处理装置,包括:
获取模块,用于获取待处理履历信息;其中,所述待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于所述逗号或顿号或“兼”字后用于补充说明所述第一文本中某个结构化词语的第二文本。
第一处理模块,用于当所述第二文本中只包含表示职位的词语,确定所述第二文本用于补充说明所述第一文本中最后一个表示部门的结构化词语。
本申请还提供了一种履历信息的处理装置,包括:处理器和存储器,其中,存储器中写入有以下可被处理器执行的命令:
获取待处理履历信息;其中,所述待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于所述逗号或顿号或“兼”字后用于补充说明所述第一文本中某个结构化词语的第二文本;
当所述第二文本中只包含表示职位的词语,确定所述第二文本用于补充说明所述第一文本中最后一个表示部门的结构化词语。
本申请还提供了一种计算机可读存储介质,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
获取待处理履历信息;其中,所述待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于所述逗号或顿号或“兼”字后用于补充说明所述第一文本中某个结构化词语的第二文本;
当所述第二文本中只包含表示职位的词语,确定所述第二文本用于补充说明所述第一文本中最后一个表示部门的结构化词语。
与相关技术相比,本申请包括:获取待处理履历信息;其中,待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于逗号或顿号或“兼”字后用于补充说明第一文本中某个结构化词语的第二文本;当第二文本中只包含表示职位的词语,确定第二文本用于补充说明第一文本中最后一个表示部门的结构化词语。由于当第二文本中只包含表示职位的词语,确定了第二文本用于补充说明第一文本中最后一个表示部门的结构化词语,因此在某些情况下实现了包含逗号或顿号或“兼”字的复杂履历信息的处理,从而提高了履历信息处理成功率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的一种履历信息的处理方法的流程示意图;
图2为本申请实施例提供的一种履历信息的处理装置的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
本申请实施例提供一种履历信息的处理方法,如图1所示,包括:
步骤101、获取待处理履历信息;其中,待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于逗号或顿号或“兼”字后用于补充说明第一文本中某个结构化词语的第二文本。
步骤102、当第二文本中只包含表示职位的词语,确定第二文本用于补充说明第一文本中最后一个表示部门的结构化词语。
本申请实施例提供的履历信息的处理方法,由于当第二文本中只包含表示职位的词语,确定了第二文本用于补充说明第一文本中最后一个表示部门的结构化词语,因此实现了某些情况下实现包含逗号或顿号或“兼”字的复杂履历信息的处理,从而提高了履历信息处理成功率。
在一种示例性实例中,第二文本中首字为“市”或“区”,还包括:
确定第二文本用于补充说明第一文本中携带“市”或“区”的结构化词语。
在一种示例性实例中,当待处理履历信息为:“共青团江西省南昌市委学校部部长、学联秘书长…”,“甘肃省委组织部副地级组织员、办公室主任…”。顿号后面的“学联”是指“市委”的学联,还是“南昌市”的学联,顿号后面的“办公室主任”是指“组织部”的办公室主任还是“省委”的办公室主任,这些复杂履历信息现有技术都无法处理,而以下本申请实施例提供的履历信息处理方法能够处理。
本申请实施例提供的履历信息的处理方法,由于当第二文本中首字为“市”或“区”,确定了第二文本用于补充说明第一文本中携带“市”或“区”的结构化词语,因此实现了某些情况下实现包含逗号或顿号或“兼”字的复杂履历信息的处理,从而提高了履历信息处理成功率。
在一种示例性实例中,当第二文本中并非只包含表示职位的词语,并且第二文本中首字不为“市”和“区”,还包括:
首先、根据第一文本中的结构化词语构造第一观察序列,并根据第一观察序列构造隐马尔可夫模型。
在一种示例性实例中,获取待处理履历信息之后,且根据第一文本中的结构化词语构造第一观察序列之前,还包括:
首先、利用预先构造的任职时间正则表达式匹配待处理履历信息,得到任职时间信息。
其次、利用预先构造的括号正则表达式匹配待处理履历信息,得到括号内容信息。
接着、将待处理履历信息去除任职时间信息和括号内容信息后按照标点符号分割,得到若干个子句。
最后、根据逆向最大匹配算法对所有子句进行匹配,得到第一文本中的结构化词语。
在一种实例性实例中,利用预先构造的任职时间正则表达式匹配待处理履历信息,得到任职时间信息,并利用预先构造的括号正则表达式匹配待处理履历信息,得到括号内容信息,然后将待处理履历信息去除任职时间信息和括号内容信息是为了对待处理履历信息进行去噪,从而更好地实现包含逗号或顿号或“兼”字的履历信息的处理(即确定第二文本是补充说明第一文本中哪个结构化词语的)。并且需要标记任职时间信息和括号内容信息在待处理履历信息中的位置,以便当完成履历信息的处理后,将任职时间信息和括号内容信息还原到履历信息中。
在一种示例性实例中,根据逆向最大匹配算法对所有子句进行匹配,得到第一文本中的结构化词语,包括:
爬取行政区编码,处理构建省,市,区三级行政单位字典。构建工作单位,部门后缀词词典。使用逆向最大匹配算法分别匹配出任职地区,工作单位,部门,以得到第一文本中的结构化词语。
在一种示例性实例中,假设待处理履历信息为:“1983.09—1990.11,甘肃省委组织部经济干部处、干部调配处科员、主任科员(其间,1980.09—1985.06在兰州大学夜大政治经济学专业学习)…”,利用预先构造的任职时间正则表达式匹配待处理履历信息,得到的任职时间信息为:“1983.09—1990.11”,利用预先构造的括号正则表达式匹配待处理履历信息,得到的括号内容信息为:“(其间,1980.09—1985.06在兰州大学夜大政治经济学专业学习)”,然后,将待处理履历信息去除任职时间信息和括号内容信息后按照标点符号分割,得到的若干个子句为:“甘肃省委组织部经济干部处”、“干部调配处科员”和“主任科员”。
在一种示例性实例中,根据第一观察序列构造隐马尔可夫模型,包括:
依照基于EM的鲍姆-韦尔奇算法,并根据第一观察序列构造隐马尔可夫模型。
在一种示例性实例中,对于隐马尔可夫模型,首先假设Q是所有可能的隐藏状态的集合,V是所有可能的观测状态的集合,即:Q={q1,q2,…,qN},V={v1,v2,…,vM},其中,N是可能的隐藏状态数,M是所有的可能的观察状态数。
对于一个长度为T的序列,I是对应的状态序列,O是对应的观察序列,即:I={i1,i2,…,iT},V={o1,o2,…,oT},其中,任意一个隐藏状态it∈Q,任意一个观察状态ot∈V,如果在时刻t的隐藏状态是it=qi,在时刻t+1的隐藏状态是it+1=qj,则从时刻t到时刻t+1的HMM状态转移概率aij可以表示为:qij=P(it+1=qj|it=qi),这样aij可以组成马尔科夫链的状态转移矩阵A:
A=[aij]N×N
如果在时刻t的隐藏状态是it=qj,而对应的观察状态为ot=vk,则该时刻观察状态vk在隐藏状态qj下生成的概率bj(k)满足:bj(k)=P(0t=vk|it=qj),这样bj(k)可以组成观测状态生成的概率矩阵B:
B=[bj(k)]N×M
除此之外,还需要一组在时刻t=1的隐藏状态概率分布Π:
Π=[π(i)]N其中π(i)=P(i1=qi)
一个隐马尔可夫模型,可以由隐藏状态初始概率分布Π,状态转移概率矩阵A和观测状态概率矩阵B决定。Π,A决定状态序列,B决定观测序列。因此,隐马尔可夫模型可以由一个三元组λ表示如下:
λ=(A,B,π)
其次、根据第一文本中的结构化词语和第二文本构造第二观察序列。
在一种示例性实例中,当第一文本中包括N个结构化词语,第一观察序列包括:(结构化字段1,结构化字段1+结构化字段2,…,结构化字段1+结构化字段2+…+结构化字段N);第二观察序列包括:(结构化字段1+第二文本,结构化字段1+结构化字段2+第二文本,…,结构化字段1+结构化字段2+…+结构化字段N+第二文本)。
最后、根据第一观察序列、第二观察序列和隐马尔可夫模型获取第二文本补充说明第一文本中的目标结构化词语。
在一种示例性实例中,根据第一观察序列、第二观察序列和隐马尔可夫模型获取第二文本补充说明第一文本中的目标结构化词语,包括:
首先、分别计算在隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率。
在一种示例性实例中,分别计算在隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率,包括:
使用前向后向算法分别计算在隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率。
其次、根据隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率计算第二文本补充说明第一文本中所有结构化词语的概率。
在一种示例性实例中,当第一文本中包含N个结构化词语,根据隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率计算第二文本补充说明第一文本中所有结构化词语的概率,包括:
计算隐马尔可夫模型下第二观察序列中第i个元素出现的概率与隐马尔可夫模型下第一观察序列中第i个元素出现的概率的比值,得到第二文本补充说明第一文本中第i个结构化词语的概率;其中,i=1、2…N。
最后、获取最大概率对应的结构化词语作为第二文本补充说明第一文本中的目标结构化词语。
在一种示例性实例中,对于逗号或顿号或“兼”字后面文本,应该补充说明(即“连接”)在逗号或顿号或“兼”字前面文本哪个位置(即哪个结构化词语)的问题,可以看成为已知前t时刻的观测序列OT(逗号或顿号或“兼”字前面文本),计算t+1时刻观测序列为(逗号或顿号或“兼”字后面文本)OM概率的问题。选取概率最大的时刻t,即为逗号顿号后面文本应该连接的位置。由此,应用隐马尔科夫模型,估算模型参数,然后评估观测序列概率。
首先,构造隐马尔可夫模型,所有履历信息文本预处理后,选取履历描述字段的第一部分(即逗号顿号前面的部分)作为训练样本,即第一观察序列OT={o1,o1+o2,…,o1+o2+…+oT},使用基于EM算法的鲍姆-韦尔奇算法,估计模型λ=(A,B,π)。
然后,将OM分别连接在OT在t时刻的观测序列{o1},{o1,o2},{o1,o2,…,ot}后面,构成第二观测序列O,其中ot为在t时刻的结构化词(任职地区,工作单位,部门等)。
接着,使用前向后向算法,计算在模型λ下第二观测序列O出现的概率P(O|λ),以及第一观测序列OT出现的概率P(OT|λ)。则OM连接在某一时刻(结构化词)后面的概率为:
P(oM|λ,oT)=P(oM,oT|λ)/P(λ,oT)=P(O|λ)/P(oT|λ) (1)
最后、获取概率最大的oT,将获得的oT作为OM应该连接的位置。
在一种示例性实例中,假设待处理文本为:“共青团江西省南昌市委学校部部长、学联秘书长”和“甘肃省委组织部副地级组织员、办公室主任”。
首先将逗号顿号前面文本预处理,构造为模型训练样本:“共青团江西省南昌市委学校部部长”,“甘肃省委组织部副地级组织员”,并且训练模型,估计出模型λ=(A,B,π)。
其次、对于逗号顿号后面文本OM“办公室主任”,构造t时刻的观测序列O:(“甘肃办公室主任”、“甘肃省委办公室主任”,“甘肃省委组织部办公室主任”)。计算观测序列出现概率P(O|λ),以及P(OT|λ),则由公式(1)可以计算出P(oM|λ,oT)。选取概率最大的情况为“甘肃省委办公室主任”。
本申请实施例提供的履历信息的处理方法,由于当第二文本中并非只包含表示职位的词语,并且第二文本中首字不为“市”和“区”,确定了第二文本用于补充说明第一文本中最后一个表示部门的结构化词语,因此在某些情况下实现了包含逗号或顿号或“兼”字的复杂履历信息的处理,从而提高了履历信息处理成功率。
本申请实施例提供的履历信息的处理方法,能够处理第二文本中只包含表示职位的词语、第二文本中首字为“市”或“区”以及除上述两种情况以外其他情况的履历信息的处理,而这三种情况囊括了所有包含逗号或顿号或“兼”字的复杂履历信息的处理,因此实现了包含逗号或顿号或“兼”字的复杂履历信息的处理,从而提高了履历信息处理成功率。
本申请实施例还提供一种履历信息的处理装置,如图2所示,该履历信息的处理装置2包括:
获取模块21,用于获取待处理履历信息;其中,待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于逗号或顿号或“兼”字后用于补充说明第一文本中某个结构化词语的第二文本。
第一处理模块22,用于当第二文本中只包含表示职位的词语,确定第二文本用于补充说明第一文本中最后一个表示部门的结构化词语。
在一种示例性实例中,还包括第二处理模块23,用于当第二文本中首字为“市”或“区”,确定第二文本用于补充说明第一文本中携带“市”或“区”的结构化词语。
在一种示例性实例中,还包括第三处理模块24,用于当第二文本中并非只包含表示职位的词语,并且第二文本中首字不为“市”和“区”,根据第一文本中的结构化词语构造第一观察序列,并根据第一观察序列构造隐马尔可夫模型;根据第一文本中的结构化词语和第二文本构造第二观察序列;根据第一观察序列、第二观察序列和隐马尔可夫模型获取第二文本补充说明第一文本中的目标结构化词语。
在一种示例性实例中,第三处理模块24还用于:
利用预先构造的任职时间正则表达式匹配待处理履历信息,得到任职时间信息。
利用预先构造的括号正则表达式匹配待处理履历信息,得到括号内容信息。
将待处理履历信息去除任职时间信息和括号内容信息后按照标点符号分割,得到若干个子句。
根据逆向最大匹配算法对所有子句进行匹配,得到第一文本中的结构化词语。
在一种示例性实例中,第三处理模块24,具体用于依照基于EM的鲍姆-韦尔奇算法,并根据第一观察序列构造隐马尔可夫模型。
在一种示例性实例中,当第一文本中包括N个结构化词语,第一观察序列包括:(结构化字段1,结构化字段1+结构化字段2,…,结构化字段1+结构化字段2+…+结构化字段N);第二观察序列包括:(结构化字段1+第二文本,结构化字段1+结构化字段2+第二文本,…,结构化字段1+结构化字段2+…+结构化字段N+第二文本)。
在一种示例性实例中,第三处理模块24具体用于:
分别计算在隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率。
根据隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率计算第二文本补充说明第一文本中所有结构化词语的概率。
获取最大概率对应的结构化词语作为第二文本补充说明第一文本中的目标结构化词语。
在一种示例性实例中,第三处理模块24,具体还用于使用前向后向算法分别计算在隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率。
在一种示例性实例中,当第一文本中包含N个结构化词语,第三处理模块24,具体还用于计算隐马尔可夫模型下第二观察序列中第i个元素出现的概率与隐马尔可夫模型下第一观察序列中第i个元素出现的概率的比值,得到第二文本补充说明第一文本中第i个结构化词语的概率;其中,i=1、2…N。
本申请实施例提供的履历信息的处理装置,能够处理第二文本中只包含表示职位的词语、第二文本中首字为“市”或“区”以及除上述两种情况以外其他情况的履历信息的处理,而这三种情况囊括了所有包含逗号或顿号或“兼”字的复杂履历信息的处理,因此实现了包含逗号或顿号或“兼”字的复杂履历信息的处理,从而提高了履历信息处理成功率。
在实际应用中,所述获取模块21、第一处理模块22、第二处理模块23和第三处理模块24由位于履历信息的处理装置中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本申请实施例还提供一种履历信息的处理装置,包括:处理器和存储器,其中,存储器中存储有计算机程序,计算机程序被处理器执行时实现如上述任意一种的方法的处理。
本申请实施例还提供一种存储介质,存储介质上存储有计算机可执行命令,计算机可执行命令用于执行如上述任意一种的方法的处理。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (12)

1.一种履历信息的处理方法,其特征在于,包括:
获取待处理履历信息;其中,所述待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于所述逗号或顿号或“兼”字后用于补充说明所述第一文本中某个结构化词语的第二文本;
当所述第二文本中只包含表示职位的词语,确定所述第二文本用于补充说明所述第一文本中最后一个表示部门的结构化词语。
2.根据权利要求1所述的处理方法,其特征在于,当所述第二文本中首字为“市”或“区”,还包括:
确定所述第二文本用于补充说明所述第一文本中携带“市”或“区”的结构化词语。
3.根据权利要求1或2所述的处理方法,其特征在于,当所述第二文本中并非只包含表示职位的词语,并且所述第二文本中首字不为“市”和“区”,还包括:
根据所述第一文本中的结构化词语构造第一观察序列,并根据所述第一观察序列构造隐马尔可夫模型;
根据所述第一文本中的结构化词语和所述第二文本构造第二观察序列;
根据所述第一观察序列、所述第二观察序列和所述隐马尔可夫模型获取所述第二文本补充说明所述第一文本中的目标结构化词语。
4.根据权利要求3所述的方法,其特征在于,所述获取待处理履历信息之后,且根据第一文本中的结构化词语构造第一观察序列之前,还包括:
利用预先构造的任职时间正则表达式匹配所述待处理履历信息,得到任职时间信息;
利用预先构造的括号正则表达式匹配所述待处理履历信息,得到括号内容信息;
将所述待处理履历信息去除所述任职时间信息和所述括号内容信息后按照标点符号分割,得到若干个子句;
根据逆向最大匹配算法对所有子句进行匹配,得到所述第一文本中的结构化词语。
5.根据权利要求3所述的方法,其特征在于,所述根据第一观察序列构造隐马尔可夫模型,包括:
依照基于EM的鲍姆-韦尔奇算法,并根据所述第一观察序列构造所述隐马尔可夫模型。
6.根据权利要求3所述的方法,其特征在于,当所述第一文本中包括N个结构化词语,所述第一观察序列包括:(结构化字段1,结构化字段1+结构化字段2,…,结构化字段1+结构化字段2+…+结构化字段N);
所述第二观察序列包括:(结构化字段1+第二文本,结构化字段1+结构化字段2+第二文本,…,结构化字段1+结构化字段2+…+结构化字段N+第二文本)。
7.根据权利要求3所述的方法,其特征在于,所述根据第一观察序列、第二观察序列和隐马尔可夫模型获取第二文本补充说明第一文本中的目标结构化词语,包括:
分别计算在所述隐马尔可夫模型下所述第一观察序列以及所述第二观察序列出现的概率;
根据所述隐马尔可夫模型下所述第一观察序列以及所述第二观察序列出现的概率计算所述第二文本补充说明所述第一文本中所有结构化词语的概率;
获取最大概率对应的结构化词语作为所述第二文本补充说明所述第一文本中的目标结构化词语。
8.根据权利要求7所述的方法,其特征在于,所述分别计算在所述隐马尔可夫模型下所述第一观察序列以及所述第二观察序列出现的概率,包括:
使用前向后向算法分别计算在所述隐马尔可夫模型下所述第一观察序列以及所述第二观察序列出现的概率。
9.根据权利要求7所述的方法,其特征在于,当所述第一文本中包含N个结构化词语,所述根据隐马尔可夫模型下第一观察序列以及第二观察序列出现的概率计算第二文本补充说明第一文本中所有结构化词语的概率,包括:
计算所述隐马尔可夫模型下第二观察序列中第i个元素出现的概率与所述隐马尔可夫模型下第一观察序列中第i个元素出现的概率的比值,得到所述第二文本补充说明所述第一文本中第i个结构化词语的概率;其中,i=1、2…N。
10.一种履历信息的处理装置,其特征在于,包括:
获取模块,用于获取待处理履历信息;其中,所述待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于所述逗号或顿号或“兼”字后用于补充说明所述第一文本中某个结构化词语的第二文本;
第一处理模块,用于当所述第二文本中只包含表示职位的词语,确定所述第二文本用于补充说明所述第一文本中最后一个表示部门的结构化词语。
11.一种履历信息的处理装置,其特征在于,包括:处理器和存储器,其中,存储器中写入有以下可被处理器执行的命令:
获取待处理履历信息;其中,所述待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于所述逗号或顿号或“兼”字后用于补充说明所述第一文本中某个结构化词语的第二文本;
当所述第二文本中只包含表示职位的词语,确定所述第二文本用于补充说明所述第一文本中最后一个表示部门的结构化词语。
12.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
获取待处理履历信息;其中,所述待处理履历信息包括:位于逗号或顿号或“兼”字前的第一文本,以及位于所述逗号或顿号或“兼”字后用于补充说明所述第一文本中某个结构化词语的第二文本;
当所述第二文本中只包含表示职位的词语,确定所述第二文本用于补充说明所述第一文本中最后一个表示部门的结构化词语。
CN201911369948.3A 2019-12-26 2019-12-26 履历信息的处理方法、装置及计算机可读存储介质 Withdrawn CN111178071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911369948.3A CN111178071A (zh) 2019-12-26 2019-12-26 履历信息的处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911369948.3A CN111178071A (zh) 2019-12-26 2019-12-26 履历信息的处理方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111178071A true CN111178071A (zh) 2020-05-19

Family

ID=70657492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911369948.3A Withdrawn CN111178071A (zh) 2019-12-26 2019-12-26 履历信息的处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111178071A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070005549A1 (en) * 2005-06-10 2007-01-04 Microsoft Corporation Document information extraction with cascaded hybrid model
CN104199851A (zh) * 2014-08-11 2014-12-10 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
CN109460479A (zh) * 2018-11-19 2019-03-12 广州合摩计算机科技有限公司 一种基于事理图谱的预测方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070005549A1 (en) * 2005-06-10 2007-01-04 Microsoft Corporation Document information extraction with cascaded hybrid model
CN104199851A (zh) * 2014-08-11 2014-12-10 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
CN109460479A (zh) * 2018-11-19 2019-03-12 广州合摩计算机科技有限公司 一种基于事理图谱的预测方法、装置和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕勇等: "基于隐马尔可夫模型与并行模型组合的特征补偿算法", 《东南大学学报(自然科学版)》 *

Similar Documents

Publication Publication Date Title
CN108334487B (zh) 缺失语意信息补全方法、装置、计算机设备和存储介质
EP3035250A2 (en) Large-scale classification in neural networks using hashing
Lhoussain et al. Adaptating the levenshtein distance to contextual spelling correction
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN110674419B (zh) 地理信息检索方法、装置、电子设备及可读存储介质
CN110795938B (zh) 文本序列分词方法、装置及存储介质
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN112131920A (zh) 用于扫描图像中的表格信息的数据结构生成
CN107239450B (zh) 基于交互上下文处理自然语言方法
CN110825827B (zh) 一种实体关系识别模型训练、实体关系识别方法及装置
CN110352423B (zh) 使用噪声信道模型生成目标序列的方法、存储介质和系统
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN111368544A (zh) 命名实体识别方法及装置
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN113763937A (zh) 语音处理模型的生成方法、装置、设备以及存储介质
CN104598510A (zh) 一种事件触发词识别方法及装置
CN111159394A (zh) 一种文本摘要生成方法和装置
CN112541052B (zh) 确定问题的答案的方法、装置、设备及存储介质
CN110276081A (zh) 文本生成方法、装置及存储介质
CN111178071A (zh) 履历信息的处理方法、装置及计算机可读存储介质
CN117077679A (zh) 命名实体识别方法和装置
CN115688802B (zh) 文本风险检测方法及其装置
Kordopatis-Zilos et al. Placing Images with Refined Language Models and Similarity Search with PCA-reduced VGG Features.
CN111738008A (zh) 基于多层模型的实体识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200519

WW01 Invention patent application withdrawn after publication