CN113641794A - 简历文本的评估方法、装置及服务器 - Google Patents

简历文本的评估方法、装置及服务器 Download PDF

Info

Publication number
CN113641794A
CN113641794A CN202110944168.8A CN202110944168A CN113641794A CN 113641794 A CN113641794 A CN 113641794A CN 202110944168 A CN202110944168 A CN 202110944168A CN 113641794 A CN113641794 A CN 113641794A
Authority
CN
China
Prior art keywords
text
sub
information
resume
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110944168.8A
Other languages
English (en)
Inventor
刘轶琳
郭馨
李搏洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Minsheng Banking Corp Ltd
Original Assignee
China Minsheng Banking Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Minsheng Banking Corp Ltd filed Critical China Minsheng Banking Corp Ltd
Priority to CN202110944168.8A priority Critical patent/CN113641794A/zh
Publication of CN113641794A publication Critical patent/CN113641794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种简历文本的评估方法、装置及服务器,该方法包括:将简历文本的内容进行分类,获得至少一个子文本;针对每个子文本,根据关键词词库和目标岗位的需求信息,提取子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得子文本的特征信息,然后根据需求信息和特征信息,获得子文本的匹配度;根据各个子文本的匹配度生成简历文本的评估信息。与现有技术相比,本申请通过将简历文本划分为多个子文本,针对每个子文本通过关键词词库及其近似词检索的方式进行信息匹配,然后设计了多维度的评分规则,针对每个子文本进行评估,最后得到简历文本的多方位评估信息,覆盖全面,避免了评分规则的固化,从而提高了简历评估的准确率。

Description

简历文本的评估方法、装置及服务器
技术领域
本申请涉及文本处理技术领域,尤其涉及一种简历文本的评估方法、装置及服务器。
背景技术
在企业事业单位的招聘过程中,应聘者数量增多,企业事业单位收到的简历数量也增大。如何对大量的简历进行筛选,是企业事业单位面临的一个问题,正确的筛选方式可以提高企业事业单位的招聘效率。
目前,简历的筛选方式主要有人工筛选的方法、基于评分规则的简历分类方法和通过机器学习建立分类模型的方法。人工筛选的方法主要是依靠企业事业单位的招聘人员去浏览和评估收到的简历,判断是否符合招聘标准,若符合,则进入面试环节;基于评分规则的简历分类方法主要是根据数据属性对简历数据进行分类,形成多标签信息,然后对多标签信息进行评分,从而完成对简历的综合评估;通过机器学习建立分类模型的方法主要是构建一套训练数据集,包含简历数据的正负样本,将简历中不同的能力指标作为输入特征,然后利用分类模型,对简历进行分类。
但是,人工筛选的方式成本较高,以及没有标准统一的评价策略,筛选的效率较低;通过机器学习建立分类模型的方法,前期模型训练的投入较大,训练后的模型仅适用于某一类岗位;基于评分规则的简历分类方法标签信息评估相对固化,对于意思相近但表述不同的选项无法得到准确评分。因此,现有的方案中存在简历评估的准确率低的问题。
发明内容
本申请实施例提供一种简历文本的评估方法、装置及服务器,以解决现有技术中简历评估的准确率低的问题。
本申请的第一方面提供一种简历文本的评估方法,所述方法包括:
将所述简历文本的内容进行分类,获得至少一个子文本;
针对每个子文本,根据关键词词库和目标岗位的需求信息,提取所述子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得所述子文本的特征信息;
针对所述每个子文本,根据所述需求信息和所述特征信息,获得子文本的匹配度;
根据所述各个子文本的匹配度生成所述简历文本的评估信息。
在一种可选的实施方式中,根据所述需求信息和所述特征信息,获得子文本的匹配度;
根据所述需求信息对所述特征信息进行评估,获得子文本的第一评估值;
统计特征信息的数量,并判定所述特征信息的数量是否符合所述需求信息中数量条件,并根据判定结果确定所述子文本的第二评估值;
根据所述子文本的第一评估值和所述子文本的第二评估值确定所述文本的匹配度。
在一种可选的实施方式中,根据关键词词库和目标岗位的需求信息,提取所述子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得所述子文本的特征信息,具体包括:
从所述关键词库中确定与所述需求信息对应的关键词;
将所述需求信息对应的关键词和所述子文本中各词语进行匹配,确定所述子文本中的文本特征信息;
将所述子文本中的数值型信息进行标准化统计计算,确定所述子文本中的量化特征信息;
根据所述文本特征信息和所述量化特征信息,确定所述子文本中的特征信息。
在一种可选的实施方式中,所述方法还包括:
根据专家经验,以及对经过专家评定后的优秀标杆简历进行分析,获得关键词,结合所述关键词的近义词,构建所述关键词词库,所述关键词表征所述需求信息。
在一种可选的实施方式中,根据关键词以及所述关键词的近义词,构建所述关键词词库,包括:
根据所述关键词的第一词向量与词向量数据集中第二词向量的余弦距离,确定所述第一词向量与所述第二词向量的相似度;
根据所述相似度确定所述关键词的近义词;
将所述关键词与所述近义词存入所述关键词词库。
本申请的第二方面提供一种简历文本的评估装置,所述装置包括:
分类模块,用于将所述简历文本的内容进行分类,获得至少一个子文本;
处理模块,用于针对每个子文本,根据关键词词库和目标岗位的需求信息,提取所述子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得所述子文本的特征信息;针对所述每个子文本,根据所述需求信息和所述特征信息,获得子文本的匹配度;
评估模块,用于根据所述各个子文本的匹配度生成所述简历文本的评估信息。
在一种可选的实施方式中,所述处理模块,还用于根据所述需求信息和所述特征信息,获得子文本的匹配度;根据所述需求信息对所述特征信息进行评估,获得子文本的第一评估值;统计特征信息的数量,并判定所述特征信息的数量是否符合所述需求信息中数量条件,并根据判定结果确定所述子文本的第二评估值;根据所述子文本的第一评估值和所述子文本的第二评估值确定所述文本的匹配度。
在一种可选的实施方式中,所述处理模块,具体用于从所述关键词库中确定与所述需求信息对应的关键词;将所述需求信息对应的关键词和所述子文本中各词语进行匹配,确定所述子文本中的文本特征信息;将所述子文本中的数值型信息进行标准化统计计算,确定所述子文本中的量化特征信息;根据所述文本特征信息和所述量化特征信息,确定所述子文本中的特征信息。
在一种可选的实施方式中,所述处理模块,还用于根据专家经验,以及对经过专家评定后的优秀标杆简历进行分析,获取关键词,结合所述关键词的近义词,构建所述关键词词库,所述关键词表征所述需求信息。
在一种可选的实施方式中,所述处理模块,具体用于根据所述关键词的第一词向量与词向量数据集中第二词向量的余弦距离,确定所述第一词向量与所述第二词向量的相似度;根据所述相似度确定所述关键词的近义词;
将所述关键词与所述近义词存入所述关键词词库。
本申请的第三方面提供一种简历文本的评估服务器,包括:处理器与存储器;
所述存储器用于存储计算机程序;
所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如第一方面所述的方法。
本申请的第四方面提供一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
本申请的第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述的方法。
本申请实施例提供的简历文本的评估方法、装置及服务器,该方法包括:将简历文本的内容进行分类,获得至少一个子文本;针对每个子文本,根据关键词词库和目标岗位的需求信息,提取所述子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得所述子文本的特征信息;针对每个子文本,根据需求信息和特征信息,获得子文本的匹配度;根据各个子文本的匹配度生成简历文本的评估信息。与现有技术相比,本申请通过将简历文本划分为多个子文本,针对每个子文本通过关键词词库及其近似词检索的方式进行信息匹配,然后设计了多维度的评分规则,针对每个子文本进行评估,最后得到简历文本的多方位评估信息,覆盖全面,避免了评分规则的固化,从而提高了简历评估的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种简历文本的评估方法的应用场景示意图;
图2为本申请实施例提供的一种简历文本的评估方法的流程示意图;
图3为本申请实施例提供的另一种简历文本的评估方法的流程示意图;
图4为本申请实施例提供的再一种简历文本的评估方法的流程示意图;
图5为本申请实施例提供的一种简历文本的评估装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在企业事业单位的招聘过程中,应聘者数量增多,企业事业单位收到的简历数量也增大。如何对大量的简历进行筛选,是企业事业单位面临的一个问题,正确的筛选方式可以提高企业事业单位的招聘效率。目前,简历的筛选方式主要有人工筛选的方法、基于评分规则的简历分类方法和通过机器学习建立分类模型的方法。人工筛选的方法主要是依靠企业事业单位的招聘人员去浏览和评估收到的简历,判断是否符合招聘标准,若符合,则进入面试环节;基于评分规则的简历分类方法主要是根据数据属性对简历数据进行分类,形成多标签信息,然后对多标签信息进行评分,从而完成对简历的综合评估;通过机器学习建立分类模型的方法主要是构建一套训练数据集,包含简历数据的正负样本,将简历中不同的能力指标作为输入特征,然后利用分类模型,对简历进行分类。
但是,人工筛选的方式成本较高,以及没有标准统一的评价策略,筛选的效率较低;通过机器学习建立分类模型的方法,前期模型训练的投入较大,训练后的模型仅适用于某一类岗位;基于评分规则的简历分类方法标签信息评估相对固化,对于意思相近但表述不同的选项无法得到准确评分。因此,现有的方案中存在简历评估的准确率低的问题。
为解决上述问题,本申请提供了一种简历文本的评估方法、装置及服务器,通过扩充关键词词库,使关键词词库包含关键词及其对应的近义词,从而克服通过关键词词库对简历文本进行信息匹配时,简历文本中对于同一个关键词的不同描述,而产生的错误识别或者漏识别的问题,并且本申请中通过将简历文本的内容进行分类,对于不同的类别有不同的评估规则,从而克服了评估规则的固化造成的评估结果不准确的问题,从而提高了简历评估的准确率。
下面对本申请的应用场景进行说明。
图1为本申请实施例提供的一种简历文本的评估方法的应用场景示意图。如图1所示,包括:终端设备001和服务器002。终端设备001见简历文本发送到服务器002中,由服务器002对简历文本进行处理,得到处理结果后将处理结果发送到终端设备001上进行显示。
可选的,终端设备001可以对简历文本进行处理,得到处理结果后将处理结果在终端设备001上进行显示。
可选的,将简历文本、关键词词库存储在服务器002中,终端设备001通过调用服务器002中的简历文本对简历文本进行处理,得到处理结果后将处理结果在终端设备001上进行显示,以及将处理结果发送到服务器002中进行存储,供后续使用的时候调用。
其中,终端设备可以是带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、手机(mobile phone)、平板电脑(pad)、工业控制(industrial control)中的无线终端、远程手术(remote medicalsurgery)中的无线终端、智能电网(smart grid)中的无线终端、智慧家庭(smart home)中的无线终端等。
本申请实施例中,用于实现简历文本的评估功能的装置可以是终端设备,也可以是能够支持实现该功能的装置,例如芯片系统,该装置可以被安装在终端设备中。本申请实施例中,芯片系统可以由芯片构成,也可以包括芯片和其他分立器件。
需要说明的是,本申请技术方案的应用场景可以是图1中的场景,但并不限于此,还可以应用于其他需要进行简历文本的评估的场景。
可以理解,上述简历文本的评估方法可以通过本申请实施例提供的简历文本的评估装置实现,简历文本的评估装置可以是某个设备的部分或全部,例如为上述终端设备的芯片。
下面以集成或安装有相关执行代码的简历文本的评估装置为例,以具体地实施例对本申请实施例的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供的一种简历文本的评估方法的流程示意图,本实施例的执行主体是终端设备,涉及的是简历文本的评估的具体过程。如图2所示,该方法包括:
S101、将简历文本的内容进行分类,获得至少一个子文本。
本申请中对于将简历文本的内容进行分类的方式不做限制,示例性的,对简历文本的内容根据特征词匹配的方式进行分类。
其中,特征词为简历文本内容中关键信息。示例性的,可以为简历的基本介绍部分中的标题“基本介绍”;可以为简历的基本介绍部分中的标题“基本介绍”对应的词向量;也可以为基本信息,例如:姓名,年龄。
在本申请实施例中可以通过文本识别的方式,识别出简历文本的内容,并进行分类;并且在本申请实施例中对于文本识别的方式不做限制,示例性的,可以通过简历词库的方式,词库中可以包括特征词以及对应的场景,根据识别出的特征词对应的场景,对简历文本的内容进行分类。
其中,终端设备可以通过建立正则表达式的方式,识别出简历文本内容中的特征词以及对应的场景。
本申请实施例中对于简历文本的内容的分类结果不做限制,示例性的,根据简历文本内容将简历划分为基本信息子文本、教育信息子文本、工作经历子文本和项目经历子文本,然后从
S102、针对每个子文本,根据关键词词库和目标岗位的需求信息,提取子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得子文本的特征信息。
其中,一个子文本对应简历文本中的一部分内容。
并且,本申请中关键词词库中包括关键词以及关键词的近义词,通过关键词词库可以避免由于在简历文本的对于意思相同或者相近的词的表达不同而造成的错误提取或者不提取的现象,提高了信息提取的准确性,进一步的提高了简历文本的评估的准确率。
可选的,根据专家经验,以及对经过专家评定后的优秀标杆简历进行分析,获得关键词,结合关键词的近义词,构建关键词词库,关键词表征需求信息。
进一步的,目标岗位的需求信息为用户对于目标岗位的简历文本中各个子文本的要求,示例性的,根据用户对于目标岗位的教育经历的要求生成教育需求信息,根据用户对于目标岗位的技能的要求生成技能需求。
其中,特征信息为子文本中子文本类别的信息,示例性的,对于教育信息子文本,特征信息可以为毕业院校的名称。
可选的,提取特征信息时,可以在教育信息子文本中获取最高学历、就读院校、就读专业、就读时间等信息;在工作经历子文本中获取就职公司、岗位、工作时间、工作年限等信息。
本申请实施例中对于根据关键词词库和目标岗位的需求信息提取子文本中的特征信息的方式不做限制,示例性的,可以通过正则表达式的方式。
S103、针对每个子文本,根据需求信息和特征信息,获得子文本的匹配度。
其中,需求信息中包括对应的评分规则,示例性,对于教育信息的评分规则可以为根据目标岗位对于毕业院校的需求进行排名,例如A院校为80分,B院校为75分。
在本申请实施例中对于评分规则的设置不做限制,示例性的,可以根据目标岗位的需求生成,不同的目标岗位对应不同的评分规则,不同的子文本设备不同的评分规则。通过评分规则的多维度设置可以避免由于评分规则的单一,导致的评分结果不能准确的对简历文本的内容进行评估的问题,提高了简历文本的评估的准确性。
可选的,本申请中还可以对简历文本内容中包含的特征信息进行进一步的规定,并结合评分规则,得到子文本的匹配度。
其中,匹配度表征简历文本的内容是否满足目标岗位的需求。
S104、根据各个子文本的匹配度生成简历文本的评估信息。
其中,评估信息为都简历文本的内容的评估结果,表征根据目标岗位的需求信息,简历文本的排名或者符合程度。
本申请中对于评估信息不做限制,示例性的,可以为推荐、通过和拒绝,也可以为等级,还可以为分数。
本申请实施例提供的简历文本的评估方法,该方法包括:将简历文本的内容进行分类,获得至少一个子文本;针对每个子文本,根据关键词词库和目标岗位的需求信息提取子文本中的特征信息;针对每个子文本,根据需求信息和特征信息,获得子文本的匹配度;根据各个子文本的匹配度生成简历文本的评估信息。与现有技术相比,本申请通过扩充关键词词库,使关键词词库包含关键词及其对应的近义词,从而克服通过关键词词库对简历文本进行信息匹配时,简历文本中对于同一个关键词的不同描述,而产生的错误识别或者漏识别的问题,并且本申请中通过将简历文本的内容进行分类,对于不同的类别有不同的评估规则,设计了多维度的评分规则,覆盖全面,从而克服了评估规则的固化造成的评估结果不准确的问题,进而提高了简历评估的准确率。
在上述实施例的基础上,下面对于本申请中提供的简历文本的评估方法进行进一步的说明。图3为本申请实施例提供的另一种简历文本的评估方法的流程示意图,如图3所示,该方法包括:
S201、将简历文本的内容进行分类,获得至少一个子文本。
S202、针对每个子文本,根据关键词词库和目标岗位的需求信息,提取子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得子文本的特征信息。
其中,关键词词库中包括关键词以及对应的近义词,通过近义词扩充关键词词库,使关键词词库中包含对于关键词的更多的描述,从而避免了由于关键词词库的限制,导致特征信息提取的不准确的问题,从而提高了特征提取的准确率。
在本申请关键词表征目标岗位的需求信息。
本申请中对于关键词词库的建立方式不做限制,示例性的,根据专家经验,以及对经过专家评定后的优秀标杆简历进行分析,获得关键词,结合关键词的近义词,构建关键词词库,关键词表征需求信息。
可选的,根据关键词的第一词向量与词向量数据集中第二词向量的余弦距离,确定第一词向量与第二词向量的相似度;根据相似度确定关键词的近义词;将关键词与近义词存入关键词词库。
其中,词向量数据集中包含大量的词向量数据,本申请中通过词向量数据集对已有的词库进行扩充,通过词向量数据集对已有的词库中的词进行近似检索,从而获得与已有词库中的词含义类似但表述不同的词。其中,已有词库中的词就可以作为本申请中的关键词,去词向量数据集中获取关键词的近义词,存储在已有词库中,获得本申请中的关键词词库。
本申请中对于词向量数据集不做限制,示例性的,可以为市面上已有的开源的中文词向量数据集。
本申请中对于根据关键词词库和目标岗位的需求信息,提取子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得子文本的特征信息的方式不做限制,示例性的,从关键词词库中确定与需求信息对应的关键词;将需求信息对应的关键词和子文本中各词语进行匹配,确定子文本中的文本特征信息;将子文本中的数值型信息进行标准化统计计算,确定子文本中的量化特征信息;根据文本特征信息和量化特征信息,确定子文本中的特征信息。
例如,假设需求信息中的技能需求信息为算法类,若简历文本的技能子文本包含人工智能和数据挖掘,则确定特征信息为人工智能和数据挖掘。
本申请中根据专业技术类的人才建立了技能词库,去匹配简历文本中的技能信息。
S203、针对每个子文本,根据需求信息和特征信息,获得子文本的匹配度。
其中,匹配度用于衡量简历文本的内容与目标岗位的需求信息相同的程度,在本申请实施例中对于匹配度的表达形式不做限制,示例性的,可以通过得分数表征匹配度。
可选的,针对每个子文本,根据需求信息对特征信息进行评估,获得子文本的第一评估值;统计特征信息的数量,并判定特征信息的数量是否符合需求信息中数量条件,并根据判定结果确定子文本的第二评估值;根据子文本的第一评估值和子文本的第二评估值确定文本的匹配度。
具体的,根据需求信息设置每个子文本对应的评分规则,示例性的,将评分的维度分为教育经历、工作经历、相关技能三个维度,每个维度有对应的需求信息;对于教育经历的需求信息可以由最高学历、院校信息、专业匹配度等组成,评分的依据中包括约有300所国内外知名高校名单和按岗位划分的专业匹配,示例性的,对于不同的专业,不同的高校设置不同的分数,例如,算法类的岗位,若专业为算法类的,可以设置专业分数为80-100分,算法相关专业则可以设置为60-80分,与算法不相关专业则设置为60分以下;对于工作经历维度由就职公司、岗位、工作年限、工作稳定性等组成,评估依据对行业进行了细粒度的划分,涵盖了7个类别,共计89家公司;相关技能维度由个人技能和业务场景两方面组成,评估依据包括33类技能点和12类业务场景。
其中,第一评估值可以为上述所有维度的评分的总值。
此外,对于提取出的特征信息,若其中的多个特征信息为近义词,则在进行评估时,选取多个相似的特征信息中的一个特征信息进行评估,使评估结果更精确,从而提高了简历评估的准确率。
可以理解的是,通过上述的评估,可以获得子文本的第一评估值,本申请中为了很好的对简历文本进行评估,进一步的,对简历文本中包含的特征信息的数量进行规定,示例性的,可以规定对于简历文本中包含5个及以上的技能的简历文本,为与目标岗位更匹配的简历文本。
本申请中可以通过对简历文本进行二次评估的方式获得子文本的第二评估值,进而获得匹配度,示例性的,可以对教育经历中的最高院校进行规定,也可以对工作经历中的工作年限进行规定。并且,对上述规定设置相应的分值,示例性的,若规定工作经历中工作年限为3年及以上的为与目标岗位更匹配的简历文本,则可以设置工作年限3年及以上年限的分值为85-100分。
可选的,通过对子文本进行统计处理,得到第二评估信息;根据第二评估信息获得第二评估值。示例性的,通过在子文本中统计每个工作的工作年限,得到工作稳定度评估信息;对工作稳定度评估信息进行评估,得到第二评估值。根据工作稳定度评估信息可以判断工作的稳定度,从而更准确的对简历文本进行评估,提高简历评估的准确率。
进一步的,终端设备结合第一评估值和第二评估值进行综合考量,确定简历文本与目标岗位的匹配度。
本申请中对于匹配度的表示方法不做限制,示例性的,可以为分数,也可以为等级。
S204、根据各个子文本的匹配度生成简历文本的评估信息。
本申请实施例提供的简历文本的评估方法,该方法包括:将简历文本的内容进行分类,获得至少一个子文本;针对每个子文本,根据关键词词库和目标岗位的需求信息提取子文本中的特征信息;针对每个子文本,根据需求信息和特征信息,获得子文本的匹配度;根据各个子文本的匹配度生成简历文本的评估信息。与现有技术相比,本申请通过扩充关键词词库,使关键词词库包含关键词及其对应的近义词,从而克服通过关键词词库对简历文本进行信息匹配时,简历文本中对于同一个关键词的不同描述,而产生的错误识别或者漏识别的问题,并且本申请中通过将简历文本的内容进行分类,对于不同的类别有不同的评估规则,设计了多维度的评分规则,覆盖全面,从而克服了评估规则的固化造成的评估结果不准确的问题,从而提高了简历评估的准确率。
在上述实施例的基础上,图4为本申请实施例提供的再一种简历文本的评估方法的流程示意图,如图4所示,该方法包括:
S301、将待评估简历转换成预设格式的简历文本。
其中,待评估简历的获取方式有很多种,相应的有多种格式。
本申请中对于待评估简历文本的格式不做限制,示例性的,可以为便携式文档格式(Portable Document Format,PDF)。
本申请中预设格式为计算机程序可以识别的格式,本申请中对于预设格式不做限制,示例性的,可以为文本格式(TXT)。
本申请中对于将待评估简历转换成预设格式的简历文本的方式不做限制,示例性的,可以为PDF解释器。
具体的,将待评估简历转换成预设格式的简历文本,本申请中通过PDF解释器,对PDF格式的简历文本的每一页进行分析,并将其写入TXT文档,成为程序易处理的格式,由此将待评估简历转化为预设格式的简历文本。
S302、将简历文本的内容进行分类,获得至少一个子文本。
其中,本申请实施例中采用正则匹配的方式,匹配出简历文本的特征信息,然后对简历文本进行分类,获得至少一个子文本。
S303、针对每个子文本,根据关键词词库和目标岗位的需求信息,提取子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得子文本的特征信息。
本申请中构建了一个在匹配过程中需要关注的关键词词库,并在词库中添加了多个名单:国内外知名高校名单、符合岗位要求的专业名单和各行业中具有竞争力的公司名单。除此之外,构建了目标岗位重点关注的技能经历和业务场景的技能词库。例如针对算法类的目标岗位,技能词库中包含了人工智能、数据挖掘等技能经历,以及评分卡模型、风险模型等业务场景。
具体的,为了在匹配技能时能够覆盖更多的关键信息,本申请实施例中结合了词向量近似检索的办法对技能词库进行扩充。
其中,词向量近似检索方法通过词向量数据集找到与关键词意思相近的词语,对关键词进行扩充。其中,词向量数据集选用的是目前市面上已开源的中文词向量数据集,该中文词向量数据集中共包含800多万中文词汇,每个词对应一个200维的向量表示。通过中文词向量数据集,本申请实施例对技能词库中的词语进行近似检索,通过计算词向量间的余弦距离,找到和该词语最相近的10个词语,并将其扩充进技能词库,从而提高技能词库的覆盖面。
在本申请实施例中从以下两个方面构建关键词词库:第一方面,对于目标岗位经过专家评定后的优秀标杆简历进行分析,获得对应的关键词,对技能词库进行补充;第二方面,对已经存在的词库,对词库中的词通过词向量近似检索方法进行扩充;从而使关键词词库中包括更多的关键词,从而更好的提起简历文本中的特征信息,以及对特征信息的评估更加准确,提高了简历评估的准确率。
进一步的,表1为本申请实施例提供的一种词向量近似检索方法的检索结果的示意表。
在本申请实施例中通过特征词匹配对简历文本的内容进行分类,将简历内容分为基本信息部分、教育信息部分、工作经历部分和项目经历部分,从而提取出需要的教育经历部分和工作经历部分等。
其中,首先分别对教育经历部分和工作经历部分进行特征信息的提取:在教育经历中获取最高学历、就读院校、就读专业、就读时间等信息;在工作经历中获取就职公司、岗位、工作时间等信息。
并且,在本申请实施例中通过扩充后的技能词库,对简历文本的内容进行技能经历和业务场景的匹配,由此在简历文本的内容中获取应聘者的技能信息。
S304、针对每个子文本,根据需求信息和特征信息,获得子文本的匹配度。
在本申请实施例中通过上述提取到的特征信息,在相应的三个维度进行评分,分别是:教育经历维度、工作经历维度和相关技能维度。根据不同岗位对不同维度的侧重,设置不同的评分策略。此外,添加了强规则的设置,以更好的排除评分误差。例如:通过与目标岗位匹配的简历文本中须包含5个以上的技能等。
表1:词向量近似检索方法的检索结果的示意表
Figure BDA0003216040680000141
S305、根据各个子文本的匹配度生成简历文本的评估信息。
其中,在得到了每个维度的评分结果之后,计算总评分结果,然后考虑目标岗位中特定的强规则之后,通过评分高低和分类规则,将简历分为推荐、通过和拒绝,由此完成简历文本的评估。
本申请实施例中对于分类规则不做限制,示例性的,可以设置为评分在80分及其以上的为推荐,80分到60分为通过,60分以下为拒绝。
进一步的,本申请实施例中对于评估结果不做限制,示例性的,可以设置为上述的推荐、通过和拒绝。
本申请中将上述方法进行整合封装形成简历文本的评估平台,用户可本地的终端设备中安装或以微服务的应用程序编程接口(Application Programming Interface,API)的形式向网络用户开放使用,平台中封装的词库以大数据和计算机相关岗位为主,同时用户可自行编辑词库内容和定义评分规则,以实现对不同岗位的定制化评估。
具体的,本申请实施例的简历文本的评估平台中拥有一套完整的内容解析及结果评估的流程,包含了格式处理、词库搭建、文本匹配、多维度评分规则制定、代码封装等多个模块,并且最终以微服务平台的形式向用户提供可用接口,是一个完整可用的简历文本的评估的产品,符合真实招聘场景。除此之外,平台向用户提供词库和评分规则的修改权限,由此可以迁移到其他岗位进行定制化的开发。
S301-S305的技术名词、技术效果、技术特征,以及可选实施方式,可参照图2所示的S101-S104理解,对于重复的内容,在此不再累述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供的一种简历文本的评估装置,图5为本申请实施例提供的一种简历文本的评估装置的结构示意图,该简历文本的评估装置可以通过软件、硬件或者两者的结合实现,以执行上述实施例中简历文本的评估方法。如图5所示,该简历文本的评估装置400包括:分类模块401、处理模块402和评估模块403。
分类模块401,用于将简历文本的内容进行分类,获得至少一个子文本;
处理模块402,用于针对每个子文本,根据关键词词库和目标岗位的需求信息,提取子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得子文本的特征信息;针对每个子文本,根据需求信息和特征信息,获得子文本的匹配度;
评估模块403,用于根据各个子文本的匹配度生成简历文本的评估信息。
在一种可选的实施方式中,处理模块402,还用于根据需求信息和特征信息,获得子文本的匹配度;根据需求信息对特征信息进行评估,获得子文本的第一评估值;统计特征信息的数量,并判定特征信息的数量是否符合需求信息中数量条件,并根据判定结果确定子文本的第二评估值;根据子文本的第一评估值和子文本的第二评估值确定文本的匹配度。
在一种可选的实施方式中,处理模块403,具体用于从关键词库中确定与需求信息对应的关键词;将需求信息对应的关键词和子文本中各词语进行匹配,确定子文本中的文本特征信息;将子文本中的数值型信息进行标准化统计计算,确定子文本中的量化特征信息;根据文本特征信息和量化特征信息,确定子文本中的特征信息。
在一种可选的实施方式中,处理模块403,还用于根据专家经验,以及对经过专家评定后的优秀标杆简历进行分析,获得关键词,结合关键词的近义词,构建关键词词库,关键词表征需求信息。
在一种可选的实施方式中,处理模块403,具体用于根据关键词的第一词向量与词向量数据集中第二词向量的余弦距离,确定第一词向量与第二词向量的相似度;根据相似度确定关键词的近义词;将关键词与近义词存入关键词词库。
需要说明的,本申请实施例提供的简历文本的评估装置,可用于执行上述任意实施例所提供的方法,具体实现方式和技术效果类似,这里不再进行赘述。
图6为本申请实施例提供的一种简历文本的评估服务器的结构示意图。如图6所示,该电子设备可以包括:至少一个处理器501和存储器502。图6示出的是以一个处理器为例的电子设备。
存储器502,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器502可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器501用于执行存储器502存储的计算机执行指令,以实现上述简历文本的评估方法;
其中,处理器501可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选的,在具体实现上,如果通信接口、存储器502和处理器501独立实现,则通信接口、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口、存储器502和处理器501集成在一块芯片上实现,则通信接口、存储器502和处理器501可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序信息,程序信息用于上述简历文本的评估方法。
本申请实施例还提供一种程序,该程序在被处理器执行时用于执行以上方法实施例提供的简历文本的评估方法。
本申请实施例还提供一种程序产品,例如计算机可读存储介质,该程序产品中存储有指令,当其在计算机上运行时,使得计算机执行上述方法实施例提供的简历文本的评估方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种简历文本的评估方法,其特征在于,所述方法包括:
将所述简历文本的内容进行分类,获得至少一个子文本;
针对每个子文本,根据关键词词库和目标岗位的需求信息,提取所述子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得所述子文本的特征信息;
针对所述每个子文本,根据所述需求信息和所述特征信息,获得子文本的匹配度;
根据所述各个子文本的匹配度生成所述简历文本的评估信息。
2.根据权利要求1所述的评估方法,其特征在于,根据所述需求信息和所述特征信息,获得子文本的匹配度;
根据所述需求信息对所述特征信息进行评估,获得子文本的第一评估值;
统计特征信息的数量,并判定所述特征信息的数量是否符合所述需求信息中数量条件,并根据判定结果确定所述子文本的第二评估值;
根据所述子文本的第一评估值和所述子文本的第二评估值确定所述文本的匹配度。
3.根据权利要求1或2所述的评估方法,其特征在于,根据关键词词库和目标岗位的需求信息,提取所述子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得所述子文本的特征信息,具体包括:
从所述关键词词库中确定与所述需求信息对应的关键词;
将所述需求信息对应的关键词和所述子文本中各词语进行匹配,确定所述子文本中的文本特征信息;
将所述子文本中的数值型信息进行标准化统计计算,确定所述子文本中的量化特征信息;
根据所述文本特征信息和所述量化特征信息,确定所述子文本中的特征信息。
4.根据权利要求1或2所述的评估方法,其特征在于,所述方法还包括:
根据专家经验,以及对经过专家评定后的优秀标杆简历进行分析,获得关键词,结合所述关键词的近义词,构建所述关键词词库,所述关键词表征所述需求信息。
5.根据权利要求4所述的方法,其特征在于,根据关键词以及所述关键词的近义词,构建所述关键词词库,包括:
根据所述关键词的第一词向量与词向量数据集中第二词向量的余弦距离,确定所述第一词向量与所述第二词向量的相似度;
根据所述相似度确定所述关键词的近义词;
将所述关键词与所述近义词存入所述关键词词库。
6.一种简历文本的评估装置,其特征在于,所述装置包括:
分类模块,用于将所述简历文本的内容进行分类,获得至少一个子文本;
处理模块,用于针对每个子文本,根据关键词词库和目标岗位的需求信息,提取所述子文本中的关键词,并对其中的数值型信息进行标准化统计计算,获得所述子文本的特征信息;针对所述每个子文本,根据所述需求信息和所述特征信息,获得子文本的匹配度;
评估模块,用于根据所述各个子文本的匹配度生成所述简历文本的评估信息。
7.根据权利要求6所述的评估装置,其特征在于,所述处理模块,还用于根据所述需求信息和所述特征信息,获得子文本的匹配度;根据所述需求信息对所述特征信息进行评估,获得子文本的第一评估值;统计特征信息的数量,并判定所述特征信息的数量是否符合所述需求信息中数量条件,并根据判定结果确定所述子文本的第二评估值;根据所述子文本的第一评估值和所述子文本的第二评估值确定所述文本的匹配度。
8.一种简历文本的评估服务器,其特征在于,包括:处理器与存储器;
所述存储器用于存储计算机程序;
所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1-5中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1-5中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202110944168.8A 2021-08-17 2021-08-17 简历文本的评估方法、装置及服务器 Pending CN113641794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110944168.8A CN113641794A (zh) 2021-08-17 2021-08-17 简历文本的评估方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110944168.8A CN113641794A (zh) 2021-08-17 2021-08-17 简历文本的评估方法、装置及服务器

Publications (1)

Publication Number Publication Date
CN113641794A true CN113641794A (zh) 2021-11-12

Family

ID=78422405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110944168.8A Pending CN113641794A (zh) 2021-08-17 2021-08-17 简历文本的评估方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN113641794A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293131A (zh) * 2022-09-29 2022-11-04 广州万维视景科技有限公司 数据匹配方法、装置、设备及存储介质
CN115495554A (zh) * 2022-09-23 2022-12-20 深圳今日人才信息科技有限公司 一种简历信息模块化的评估方法
CN117540917A (zh) * 2023-11-14 2024-02-09 大能手教育科技(北京)有限公司 一种培训平台辅助培训方法、装置、设备以及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874928A (zh) * 2018-05-31 2018-11-23 平安科技(深圳)有限公司 简历数据信息解析处理方法、装置、设备及存储介质
CN111078971A (zh) * 2019-11-19 2020-04-28 平安金融管理学院(中国·深圳) 简历文件的筛选方法、装置、终端及存储介质
CN111339285A (zh) * 2020-02-18 2020-06-26 北京网聘咨询有限公司 基于bp神经网络的企业简历筛选方法和系统
CN111353014A (zh) * 2018-12-20 2020-06-30 阿里巴巴集团控股有限公司 职位关键词提取、岗位需求更新的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874928A (zh) * 2018-05-31 2018-11-23 平安科技(深圳)有限公司 简历数据信息解析处理方法、装置、设备及存储介质
CN111353014A (zh) * 2018-12-20 2020-06-30 阿里巴巴集团控股有限公司 职位关键词提取、岗位需求更新的方法和装置
CN111078971A (zh) * 2019-11-19 2020-04-28 平安金融管理学院(中国·深圳) 简历文件的筛选方法、装置、终端及存储介质
CN111339285A (zh) * 2020-02-18 2020-06-26 北京网聘咨询有限公司 基于bp神经网络的企业简历筛选方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495554A (zh) * 2022-09-23 2022-12-20 深圳今日人才信息科技有限公司 一种简历信息模块化的评估方法
CN115293131A (zh) * 2022-09-29 2022-11-04 广州万维视景科技有限公司 数据匹配方法、装置、设备及存储介质
CN115293131B (zh) * 2022-09-29 2023-01-06 广州万维视景科技有限公司 数据匹配方法、装置、设备及存储介质
CN117540917A (zh) * 2023-11-14 2024-02-09 大能手教育科技(北京)有限公司 一种培训平台辅助培训方法、装置、设备以及介质
CN117540917B (zh) * 2023-11-14 2024-05-28 大能手教育科技(北京)有限公司 一种培训平台辅助培训方法、装置、设备以及介质

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN110163478B (zh) 一种合同条款的风险审查方法及装置
CN113641794A (zh) 简历文本的评估方法、装置及服务器
CN111898643B (zh) 一种语义匹配方法及装置
CN111144723A (zh) 人岗匹配推荐方法及系统、存储介质
CN109815491B (zh) 答题评分方法、装置、计算机设备及存储介质
CN109902285B (zh) 语料分类方法、装置、计算机设备及存储介质
CN111105209A (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
WO2021218027A1 (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN115935344A (zh) 一种异常设备的识别方法、装置及电子设备
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN115759014A (zh) 一种动态智能化分析方法、系统及电子设备
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN114818678A (zh) 一种科技成果管理方法、平台及电子设备
CN113609833A (zh) 文件的动态生成方法、装置、计算机设备及存储介质
CN114117057A (zh) 产品反馈信息的关键词提取方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination