CN113468317A - 一种简历筛选方法、系统、设备和存储介质 - Google Patents

一种简历筛选方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN113468317A
CN113468317A CN202110715839.3A CN202110715839A CN113468317A CN 113468317 A CN113468317 A CN 113468317A CN 202110715839 A CN202110715839 A CN 202110715839A CN 113468317 A CN113468317 A CN 113468317A
Authority
CN
China
Prior art keywords
resume
word
word frequency
cloud
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110715839.3A
Other languages
English (en)
Other versions
CN113468317B (zh
Inventor
孙红升
王超
刘建华
邢继风
蒋华
姚凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wangpin Consulting Co ltd
Original Assignee
Beijing Wangpin Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wangpin Consulting Co ltd filed Critical Beijing Wangpin Consulting Co ltd
Priority to CN202110715839.3A priority Critical patent/CN113468317B/zh
Publication of CN113468317A publication Critical patent/CN113468317A/zh
Application granted granted Critical
Publication of CN113468317B publication Critical patent/CN113468317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种简历筛选方法,包括:获取简历文本内容;对文本数据进行筛选与初步处理;简历纯文本内容进行中文分词;构建词频云;计算每个词的离心度;将每个词的离心度存储于数据库中供调用和查询;对待筛选简历文本内容进行分词;分词操作后查询每个词在词频云数据库中对应的离心度;计算整个待筛选简历的平均离心度;根据预先设置的离心度阈值判断该简历是否符合要求。该筛选方法使得招聘网站能够简单快捷地对求职者输入的海量简历信息内容进行初步筛选,将疑似低质量简历筛选出来,为下一步的低质量简历精确筛选提供可操作性和便利性。

Description

一种简历筛选方法、系统、设备和存储介质
技术领域
本发明涉及在线招聘领域,具体涉及一种根据简历的词频信息与词频云数据库中信息比对结果完成简历筛选的方法、系统、设备和存储介质。
背景技术
相对于传统线下招聘,线上招聘在便利性、信息透明度方面体现了巨大的优势。一般的招聘网站或者APP客户端,都会存储有大量的求职者简历信息,并且随着新加入求职者的不断增加,求职者的简历信息组成了一个巨大的求职资料数据库。通常情况下,招聘网站会根据企业所要信息的广度和层次,设计不同的简历模板供求职者填写,这在很大程度上规范了求职者的简历填写行为。但是,为了突出求职者的独特经历和便于招聘方全面了解求职者的性格和经历,所有招聘网站在简历填写过程中,都会保留相当比例的求职者自主填写的内容,比如自我评价,经历评价,特点评价,项目介绍等模块。在实践中,我们发现一些求职者在简历录入中,存在一些异常行为,比如大量粘贴与求职无关的内容、输入敏感或者低俗用语等。这些简历如果推送给招聘企业,会造成所有浏览这份简历的企业招聘人员宝贵时间的浪费或者心理的不适。也会使招聘网站给企业方留下不专业或者审核不严的印象,造成一种双输的局面。因此,对招聘网站来讲,有必要对海量求职简历进行技术上的初步筛选,删除或者截留绝大部分的低质量简历,为广大企业营造良好的招聘环境。
现有技术一公开了一种基于机器学习的简历质量判断系统,包括如下步骤:步骤1:从后台获取目标简历文本,并把目标简历文本存储于简历数据库文档内;步骤2:通过简历数据库文档进行文本预处理,使用中文分词对简历文本进行构建数据类型格式,筛选待提取词汇向量。步骤2包括以下子步骤:步骤2.1:通过中文分词进行专业特有名词进行数据类型格式构建,通过专业特有名词进行简历分类;步骤2.2:进行技能掌握程度,经验,特有名词,资历进行类别标记;步骤2.3:对标记类别进行筛选;步骤3:进行文本特征提取,提取标记名词,进行对预先设定的词向量的数据库进行匹配,构成质量判断词库,形成人才判别标准类别标签;步骤4:从已知质量的文档中标记词向量,统计词频,根据已有词向量和标记类别训练参数模型,得到学习词向量和标签类别之间的数据特征维度关系和轻量级的训练模型,在未分类的简历文档库上验证该模型的准确率,统计模型的学习效率和在测试集上的准确度。步骤5:通过训练模型,得到简历质量的判断结果,反馈于后台。但是,这种方法侧重于新简历中用词和预先提取的重点词语之间的比对,进而对词语匹配度进行分析,得出对简历质量的判断。实际上,该方法并没有关注到低质量简历的筛选,而是筛选出符合预设要求的高质量的简历。而且该方法利用了神经网络模型对匹配度进行比对,对神经网络的建模和训练有着较高要求,要不断进行模型的改进和迭代,形成较好判断力的过程较长。
现有技术二公开了一种基于机器学习和模糊规则的集成简历信息抽取方法,包括如下步骤:步骤一、抽取简历、疑似简历和非简历文本的特征,通过特征信息,筛选简历文本;步骤二、对筛选得到的简历文本进行词频统计,获取常用关键词并生成模糊匹配规则;步骤三、使用模糊匹配规则对简历文本进行切分,并抽样检查分块结果,验证分块的正确率;步骤四、针对简历文本切分后各个分块的数据分布特征,采用模糊匹配规则、序列标注或者分类的方法抽取简历文本具体的信息;步骤五、使用订正策略对不合理的结果进行订正并输出结构化的简历信息。其中,步骤一的方法具体包括:101、标注简历、疑似简历以及非简历样本;102、使用特征抽取器抽取上述3类样本的特征,并训练分类模型;103、输入文本到模型,输出简历、疑似简历、非简历三者之一。步骤二的方法具体包括:201、对简历文本内容按照空格进行分词,统计词频,从词频的Top N中筛选候选关键词;202、根据候选关键词生成模糊规则。该方法基于机器学习自然语言处理技术,首先抽取简历、疑似简历和非简历文本的特征,然后统计关键词并使用模糊规则匹配对简历文本进行分块,再针对各个分块的数据分布特点,采用不同的信息抽取或分类方法,最终完成简历数据的结构化。该方法实际上还是一种简历内容抽取方法,解决了简历信息抽取过程易受无效信息干扰、分词粒度过小和实体指代不明的问题,但是,该方法同样没有关注低质量简历的筛选,不适用于大型在线招聘网站的简历筛选。同时,该方法利用了神经网络模型对简历进行模块划分,对神经网络的建模和训练有着较高要求,要不断进行模型的改进和迭代,形成较好判断力的过程较长,并且模型输出的对象是结构化简历,对简历质量的筛选并没有特别贡献。
上述简历筛选方法,主要目的都是筛选出简历的主要内容和核心部分,并没有利用技术手段来实现在线招聘网站的低质量简历过滤目的。因此,目前亟需一种在线招聘网站海量专利的筛选方法,使得招聘网站能够对求职者输入的简历信息内容进行初步的筛选,将疑似低质量简历过滤出来,为下一步的低质量简历精确筛选和针对性措施提供可操作性和便利性。
发明内容
为解决以上问题,本发明创造性地提出在线招聘网站海量简历进行低质量过滤的筛选新模式,对现有简历筛选模式作出了符合招聘网站特点的改进。
本发明提供一种简历筛选方法,包括:(a)提取一定数量的求职者简历;(b)获取所有简历的文本内容数据;(c)对文本数据进行筛选与初步处理,得到全部简历优化后的纯文本内容;(d)使用全部简历的纯文本内容进行中文分词;(e)根据全量分词后的结果构建词频云;(f)计算出每个词的离心度,离心度衡量该词在整个词频云中所处的位置;(g)将每个词的离心度存储于数据库中供调用和查询;(h)对待筛选的单份简历文本内容进行分词;(i)分词操作后查询每个词在词频云数据库中对应的离心度;(j)计算整个待筛选简历的平均离心度;(k)根据预先设置的离心度阈值判断该简历是否符合要求。
进一步的,步骤(d)中,所述纯文本内容包括工作描述和自我评价。
进一步的,步骤(e)中,系统读取数据仓库中的简历数据,简历文本进行分词与词频统计,根据分词结果与词频统计结果构建词频云。
进一步的,步骤(e)中,在数据库中不断收入新简历数据的情况下,以一定频率对原有词频云进行重新统计更新,保持词频云收录最新简历文本。
进一步的,所述统计更新方法包括:(1)统计和记录数据库中每一份简历的生成时间;(2)更新简历库时,词频云每新录入5-10份简历的词频信息,从数据库中删除录入时间最早或者离心度最低的1份简历的词频信息;(3)如果简历文本中某词语出现的频次超过一定的阈值,则直接将其判定为不符合要求简历,进行下一步精确筛选操作,该份简历的词频信息不录入词频云数据库;(4)数据库更新时,如果新录入简历的分词结果存在与预设索引目录存储词一致的情况,则该份简历的词频信息不录入词频云数据库。
进一步的,步骤(j)中,使用平均法计算平均离心度,简历文本分词后,对每个词统计词频,词频代表单个词的离心度,整个文本中所有词的平均词频代表整个文本的离心度。
进一步的,步骤(k)中,根据简历的平均离心度阈值判断该简历的大部分内容是否处于词频云的边缘,离心度越大,则该简历在词频云中越接近云中心,属于在基本要求下的有意义简历;离心度越小,则该简历在词频云中越接近云的边缘,属于无意义简历可能性更大。
进一步的,步骤(k)中,根据预设条件选定词频云数据库中比对词语的范围,仅计算待筛选简历中与词频云数据库选定范围内词语重合词的离心度;离心度越大,则该词在词频云中越接近云中心,属于在该业务限定下的有意义词;离心度越小,则该词在词频云中越接近云的边缘,属于该业务限定下无意义词;根据限定词语的平均离心度阈值判断该简历的内容是否处于根据预设条件选定的词频云的边缘。
此外,本发明还公开了一种系统,用于简历的筛选,包括:
(a)简历文本获取模块,用于提取一定数量的求职者简历,并获取所有简历的文本内容数据;(b)简历文本筛选与初步处理模块,用于得到全部简历优化后的纯文本内容;(c)简历文本分词模块,用于对全部简历的纯文本内容进行中文分词;(d)词频云构建模块,用于根据全量分词后的结果构建词频云;包括计算出每个词的离心度,离心度衡量该词在整个词频云中所处的位置;将每个词的离心度存储于数据库中供调用和查询;(e)待筛选简历处理模块,用于对待筛选的单份简历文本内容进行分词;分词操作后查询每个词在词频云数据库中对应的离心度;计算整个待筛选简历的平均离心度;(f)简历质量判断模块:用于根据预先设置的离心度阈值判断该简历是否符合要求。
以及,一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器完成前面任一项所述的简历筛选方法。
以及,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时完成如前面任一项所述的简历筛选方法。
实施本发明,有如下有益技术效果:
1、聚焦于低质量简历的筛选和过滤。现有简历筛选模式,主要以提取简历的核心信息和关键词为主,没有关注低质量简历的过滤和筛选。但是,近年来通过我们的实践发现,求职者输入的简历中,越来越多地出现了完全不符合简历投递目的的内容,比如大段的无意义粘贴内容,大量的重复复制的短语或者短句,不文明用语,敏感词汇等。这些简历会造成浏览这些内容的企业招聘人员时间的浪费和心理的不适,也会使招聘网站给企业方留下不专业或者审核不严的印象,造成一种双输的局面。而本发明,正是通过技术手段让招聘方获取正常的简历信息,对海量求职简历进行技术上的初步筛选,删除或者截留绝大部分的低质量简历,为广大招聘企业营造良好的招聘环境。同时,也对恶意输入无关信息的求职者进行标记,减少这种恶意输入的发生频率。缩短了招聘方信息获取的时间,提升了信息获取的效率,无意义的信息不会大量进入合格简历数据库。
2、提出了低质量简历筛选的新方法。以往的简历过滤方法,以待筛选简历内容和已有敏感词数据库内容的比对为基本方法,这种方法过度依赖于不合法词数据库的标引,如果数据库中没有相应的词,则无法进行匹配,也就无法筛选出不符合要求的词语。比如一些新出现的敏感词或者词语简称等。此外,这种方法对于大段的无意义内容复制没有区分能力,比如在自我评价部分粘贴了大量古诗词,再比如重复复制粘贴同一段有意义或者无意义内容等,传统方法对此就毫无办法,因为不太可能将古诗词中的词语全部作为敏感词放入比对数据库中。
3、适用范围达到了全覆盖。针对不同的简历内容,本发明都具有良好的分辨能力,一种方法就可以适应几乎所有的简历。本发明创造性地提出了词频辨别方法,核心是将绝大部分求职者输入的简历认为是正常简历,并在此基础上对所有简历进行分词和内容提取,并进一步认为正常的简历都应该具有相似的词语输入范围,之后通过待筛选简历与之前所有简历的离心度来判断其是否存在不合法输入的可能性。本发明无需设计复杂的神经网络模型,而是通过简单的词频和离心度的统计,直接完成低质量简历的初步判断。无论输入的简历是多输入了无意义内容,还是没有输入足够的内容,亦或是输入的内容虽然有意义,但是与当前简历筛选的条件不一致,都可以进行过滤,满足了招聘方和网站方的多种要求,有效地增加了过滤效率和筛选准确性。
概括起来,本发明解决了现有简历筛选方法中,过度聚焦重点词匹配以及忽略无意义输入或者禁止输入内容对简历整体质量影响的问题,使用技术手段屏蔽了一些对于招聘方无意义和不适的信息,将核心和重要信息完整的简历直接地呈现给招聘方,大大提升了企业的获取效率,避免在无意义信息的过滤上浪费大量时间,专注于在线招聘场景下最核心的需求。
附图说明
图1是本发明简历筛选方法包含步骤和流程的示意图;
图2是本发明简历筛选方法操作流程示意图;
图3是本发明的系统示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明,下述实施例在以本发明技术方案为前提下进行实施,可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
参考图1--2,本发明提供一种简历筛选方法,包括:(a)提取一定数量的求职者简历;(b)获取所有简历的文本内容数据;(c)对文本数据进行筛选与初步处理,得到全部简历优化后的纯文本内容;(d)使用全部简历的纯文本内容进行中文分词;(e)根据全量分词后的结果构建词频云;(f)计算出每个词的离心度,离心度衡量该词在整个词频云中所处的位置;(g)将每个词的离心度存储于数据库中供调用和查询;(h)对待筛选的单份简历文本内容进行分词;(i)分词操作后查询每个词在词频云数据库中对应的离心度;(j)计算整个待筛选简历的平均离心度;(k)根据预先设置的离心度阈值判断该简历是否符合要求。
本发明的低质量简历筛选,主要针对求职者输入的简历信息不符合规范文本内容的治理。例如简历的工作描述或者自我评价中,求职者可能会书写一些与工作描述无关的文本,包括不文明用语、敏感词、广告语、联系方式和无意义文本等等,本项目的目的就是筛选出此类简历,进行简历质量分级打分,剔除严重不符合要求的简历,或者提醒用户对相应的文本进行更正,提升求职者和招聘者在平台上用户体验。另一方面,也可以打击黑产、灰产,避免用户获取涉及欺诈的信息,招致不必要的损失。
本发明的筛选思路,有别于传统的简历筛选思路。以前的方法多聚焦于待筛选专利与高质量专利的比对,匹配度高的简历就被认为是趋向于高质量的简历,但是,这种方法中,作为比对基础的高质量简历往往样本数不够或者覆盖范围不全,筛选精度会受到样本数量的较大影响。结果往往是筛选杂音比较大,在过滤出来的有问题简历中,包含了较多数量的实际上正常的简历。我们的方法充分关注了样本的全覆盖,将已有数据库中的所有简历都作为样本采集进来,对所有样本的内容进行遍历分词。导致的结果是,几乎所有可能出现在简历中的词语,都会在词频云数据库中留下痕迹,作为比对对象。即使出现一些极端情况,出现了在已有海量简历中从来没有出现的“新词”,也会被认为是词频为零,同样不会对整个句子、段落或者整份简历的整体产生严重影响,这在数据库建立初期具有很好的容错性。
在一个推荐的实施例中,我们使用软件系统提取简历的文本内容数据,对数据进行筛选与初步处理。这类系统通常相当于数据开发处理平台,可以很好的使用SQL进行批流一体处理,支持流行的大数据组件,如Pulsar、Redis、HBase、ElsaticSearch、Druid等。开发人员只需掌握开发SQL的技能即可,具有开发需求速度快、提交任务简单、任务自动化资源分配与资源调度、自动作业优化以及监控等优点。当然,其他具备基本提取功能的软件系统也完全可以应用于本发明中完成相应的功能。对文本进行的初筛,主要是根据预设规则剔除一些明显不合理的样本内容,比如少于一定字符数的超短文本,无文本意义的特殊字符和换行符号,预设索引表中的助词、语气词等。初筛后,就得到优化后的纯文本内容,这时,就可以使用分词工具或者分词方法对文本内容进行分词。实践中,分词的方法多种多样,各有侧重,分词效果总体上差异不大,但是对词汇细节的把握导致最终效果还是有所差别。但是,本发明并不聚焦于分词的具体方法和步骤,所以采用任意分词系统均可完成相关任务。
进一步的,步骤(e)中,系统读取数据仓库中的简历数据,简历文本进行分词与词频统计,根据分词结果与词频统计结果构建词频云。。词频(TF)是一词语出现的次数除以该文件的总词语数。假如一篇简历的总词语数是100个,而词语“参与”出现了3次,那么“参与”一词在该文件中的词频就是0.03(3/100)。在分词全部完成之后,计算每个词的词频,所有统计出来的词频数据构成了词频云。系统自动将词频数据存储于词频云数据库中,供后续程序调用和查询。词频云的离心度结果使用Redis进行存储,并对外提供查询服务。Redis是一款内存数据库,速度快,也支持数据的持久化,常被用作缓存,它的最大特点就是查询速度极快,能快速响应服务的数据查询。
进一步的,步骤(j)中,使用平均法计算平均离心度,简历文本分词后,对每个词统计词频,词频代表单个词的离心度,整个文本中所有词的平均词频代表整个文本的离心度。
进一步的,步骤(k)中,根据简历的平均离心度阈值判断该简历的大部分内容是否处于词频云的边缘,离心度越大,则该简历在词频云中越接近云中心,属于在基本要求下的有意义简历;离心度越小,则该简历在词频云中越接近云的边缘,属于无意义简历可能性更大。离心度这个指标用于衡量具体单词在整个词频云中所处的位置,我们需要计算出每个词的离心度。单个待筛选简历分词后得到若干个单词,单个的词去词频云中查询出的词频,就是该词的离心度。例如,统计完所有简历中词的词频构成词频云,词频云中假设有个词是“负责”,词频是0.000000004,有个词是“项目”,词频是0.00000000006…,有个词是“相亲”,词频是0等。现在系统新录入了一份简历,简历中有“负责”这个词,那么他的离心度就是0.000000004,其他词同理。但是,计算单个词的离心度并不是我们的最终目的,我们要评价的对象是单个待筛选简历。单个待筛选简历分词后的所有单个词,分别去词频云中查询出其各自的词频,然后计算该简历中所有单个词的词频的平均值,就是该简历的离心度。也就是说,简历中所有单个词查到的词频加在一起,除以简历中词的个数,就是该单个简历的整体离心度。最后,我们需要根据预先设置的离心度阈值判断该简历是否属于疑似的低质量专利。也就是把整体平均离心度低于一定预设阈值的待筛选简历,自动判定为疑似低质量简历,打上标记,在后面的处理程序中,会有专门的人员对这些疑似低质量简历进行进一步的精确筛选和判定。由于系统已经通过离心度比对进行了初筛,使得后续程序工作人员的劳动强度大幅下降,针对低质量简历的处理也更有针对性,净化了简历的内容,提升了简历的质量。下表为我们某次测试的效果,由于分词标准和方式不同、样本数量不一样和样本类型不一样等原因,该效果仅用于定性说明本发明能够获得的筛选效果。
类别 准确率 精度 召回 f1-score
正常简历 0.9658 0.9494 0.9969 0.9726
非正常简历 0.9658 0.9948 0.9179 0.9548
其中正常样本的准确率表示正常样本有多少样本被预测正确,非正常样本的准确率同理;正常简历的精度表示的是预测为正常简历中有多少是真正的正常简历,非正常简历的精度同理;正常简历的召回表示的是样本中的正常简历有多少被预测为正常简历了,非正常简历的精度同理;正常简历的f1-score表示精度和召回的调和平均数,用来整体衡量精度和召回,非正常简历的f1-score同理;以上指标越接近1表示模型效果越好。
进一步的,步骤(d)中,所述纯文本内容包括工作描述和自我评价。这里主要是排除一些涉及固定格式和勾选类的填写内容。实践中,也可能包括其他的文字输入部分,主要是根据简历模板的规格来确定。
进一步的,步骤(e)中,在数据库中不断收入新简历数据的情况下,以一定频率对原有词频云进行重新统计更新,保持词频云收录最新简历文本。所述统计更新方法包括:(1)统计和记录数据库中每一份简历的生成时间;(2)更新简历库时,词频云每新录入5-10份简历的词频信息,从数据库中删除录入时间最早或者离心度最低的1份简历的词频信息;(3)如果简历文本中某词语出现的频次超过一定的阈值,则直接将其判定为不符合要求简历,进行下一步精确筛选操作,该份简历的词频信息不录入词频云数据库;(4)数据库更新时,如果新录入简历的分词结果存在与预设索引目录存储词一致的情况,则该份简历的词频信息不录入词频云数据库。
这里,通过对简历更新数量的控制,可以达到简历总量的动态平衡,即按照要求有序增长。因为根据我们的测算,每隔一段时间,就会有大量新的求职者在系统中填写新的简历,同时,还会有相当部分的求职者会在一段时间后更新自己的简历,工作经验、项目经验和自我评价是变化多发板块。在这种情况下,每隔一段时期,就会产生一些新的词语,一些词的词频也会发生变化。所以,定期更新可以保持简历数据库的与时俱进。同时,如果样本数量只增不减,会造成海量旧有简历的沉积,造成模型灵敏度下降。所以,有增有减才是维持样本准确性的适合方法。
同时,通过对退出比例的设置,可以较好地平衡新录入简历和已有简历的数量和比例,因为总样本基数对判断的准确性至关重要,如果样本数量不够,就不能充分发挥本发明方法的优势,因为本发明方法的基础逻辑就是绝大不多求职者的行为就是正常求职者的行为。我们优选退出比例为新增简历的10%-20%,该比例如果过高则简历更新太快,对于较长年龄段的求职者不够友好;如果比例过低,则更新较缓慢,对后加入的求职者不够友好。更新的方法是从数据库中删除录入时间最早或者离心度最低的1份简历的词频信息,这里主要考虑了不同的需求,从时间角度意味着关注于特定时间段的一些核心价值观和工作观,离心度角度则是从简历的整体质量去考量。
这里引入了反向词频阈值来判断简历是否符合规范,主要是实践中发现有求职者在自主填写部分复制大量重复语句,或者同一句式反复使用多次,造成简历不符合要求或者不简要,我们对此设定了频次指标,即使是在词频云中离心度很高的词,如果出现次数超过给定阈值,也将会被判定为需要纠正的简历,这样可以从反方向保证简历的质量,也可以防止类似不合格简历推送至招聘方造成困扰。
进一步的,步骤(k)中,根据预设条件选定词频云数据库中比对词语的范围,仅计算待筛选简历中与词频云数据库选定范围内词语重合词的离心度;离心度越大,则该词在词频云中越接近云中心,属于在该业务限定下的有意义词;离心度越小,则该词在词频云中越接近云的边缘,属于该业务限定下无意义词;根据限定词语的平均离心度阈值判断该简历的内容是否处于根据预设条件选定的词频云的边缘。这里主要提供了一种筛选简历的应用方法,只要适当的调整本发明筛选方法中的一些条件和参数,就能够达到不同的技术效果。在实践中,客户经常会提出一些个性化的要求,比如想要寻找某一性格类型的求职者,或者能够胜任某一具体岗位的求职者,此时,同样可以根据词频和离心度指标进行初步判断和筛选。此时,在计算出待筛选简历中每个词的词频和离心度后,其比对的对象不再是数据库中所有收录的单词,而是由系统根据一定预设规则指定的单词,比如想寻找执行力比较强的求职者,可以指定系统比对“胜任”、“积极”、“负责”等词语作为比较对象,如果待筛选简历与这些特定词的平均离心度高,则系统会判定该求职者符合预设的条件要求,这也为词频的应用提供了新的思路,有助于招聘方找到心仪类型的求职者。
此外,结合图1至图2描述的根据本发明实施例的简历筛选是方法可以由相应的电子设备来实现。图3是示出根据本发明实施例的硬件结构300示意图。
本发明还公开了一种系统,用于简历的筛选,包括:
(a)简历文本获取模块,用于提取一定数量的求职者简历,并获取所有简历的文本内容数据;
(b)简历文本筛选与初步处理模块,用于得到全部简历优化后的纯文本内容;
(c)简历文本分词模块,用于对全部简历的纯文本内容进行中文分词;
(d)词频云构建模块,用于根据全量分词后的结果构建词频云;包括计算出每个词的离心度,离心度衡量该词在整个词频云中所处的位置;将每个词的离心度存储于数据库中供调用和查询;
(e)待筛选简历处理模块,用于对待筛选的单份简历文本内容进行分词;分词操作后查询每个词在词频云数据库中对应的离心度;计算整个待筛选简历的平均离心度;
(f)简历质量判断模块:用于根据预先设置的离心度阈值判断该简历是否符合要求。
以及,一种设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器完成前面任一项所述的简历筛选方法。
以及,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时完成如前面任一项所述的简历筛选方法。
如图3所示,本实施例中的实现本发明的设备300包括:处理器301、存储器302、通信接口303和总线310,其中,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
也就是说,设备300可以被实现为包括:处理器301、存储器302、通信接口303和总线310。处理器301、存储器302和通信接口303通过总线310连接并完成相互间的通信。存储器302用于存储程序代码;处理器301通过读取存储器302中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行本发明任一实施例中的方法,从而实现结合图1至图2描述的方法和装置。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (11)

1.一种简历筛选方法,包括:
(a)提取一定数量的求职者简历;
(b)获取所有简历的文本内容数据;
(c)对文本数据进行筛选与初步处理,得到全部简历优化后的纯文本内容;
(d)使用全部简历的纯文本内容进行中文分词;
(e)根据全量分词后的结果构建词频云;
(f)计算出每个词的离心度,离心度衡量该词在整个词频云中所处的位置;
(g)将每个词的离心度存储于数据库中供调用和查询;
(h)对待筛选的单份简历文本内容进行分词;
(i)分词操作后查询每个词在词频云数据库中对应的离心度;
(j)计算整个待筛选简历的平均离心度;
(k)根据预先设置的离心度阈值判断该简历是否符合要求。
2.根据权利要求1所述的简历筛选方法,其特征在于,步骤(d)中,所述纯文本内容包括工作描述和自我评价。
3.根据权利要求1所述的简历筛选方法,其特征在于,步骤(e)中,系统读取数据仓库中的简历数据,简历文本进行分词与词频统计,根据分词结果与词频统计结果构建词频云。
4.根据权利要求3所述的简历筛选方法,其特征在于,步骤(e)中,在数据库中不断收入新简历数据的情况下,以一定频率对原有词频云进行重新统计更新,保持词频云收录最新简历文本。
5.根据权利要求4所述的简历筛选方法,其特征在于,所述统计更新方法包括:(1)统计和记录数据库中每一份简历的生成时间;(2)更新简历库时,词频云每新录入5-10份简历的词频信息,从数据库中删除录入时间最早或者离心度最低的1份简历的词频信息;(3)如果简历文本中某词语出现的频次超过一定的阈值,则直接将其判定为不符合要求简历,进行下一步精确筛选操作,该份简历的词频信息不录入词频云数据库;(4)数据库更新时,如果新录入简历的分词结果存在与预设索引目录存储词一致的情况,则该份简历的词频信息不录入词频云数据库。
6.根据权利要求1所述的简历筛选方法,其特征在于,步骤(j)中,使用平均法计算平均离心度,简历文本分词后,对每个词统计词频,词频代表单个词的离心度,整个文本中所有词的平均词频代表整个文本的离心度。
7.根据权利要求6所述的简历筛选方法,其特征在于,步骤(k)中,根据简历的平均离心度阈值判断该简历的大部分内容是否处于词频云的边缘,离心度越大,则该简历在词频云中越接近云中心,属于在基本要求下的有意义简历;离心度越小,则该简历在词频云中越接近云的边缘,属于无意义简历可能性更大。
8.根据权利要求6所述的简历筛选方法,其特征在于,步骤(k)中,根据预设条件选定词频云数据库中比对词语的范围,仅计算待筛选简历中与词频云数据库选定范围内词语重合词的离心度;离心度越大,则该词在词频云中越接近云中心,属于在该业务限定下的有意义词;离心度越小,则该词在词频云中越接近云的边缘,属于该业务限定下无意义词;根据限定词语的平均离心度阈值判断该简历的内容是否处于根据预设条件选定的词频云的边缘。
9.一种系统,用于简历的筛选,包括:
(a)简历文本获取模块,用于提取一定数量的求职者简历,并获取所有简历的文本内容数据;
(b)简历文本筛选与初步处理模块,用于得到全部简历优化后的纯文本内容;
(c)简历文本分词模块,用于对全部简历的纯文本内容进行中文分词;
(d)词频云构建模块,用于根据全量分词后的结果构建词频云;包括计算出每个词的离心度,离心度衡量该词在整个词频云中所处的位置;将每个词的离心度存储于数据库中供调用和查询;
(e)待筛选简历处理模块,用于对待筛选的单份简历文本内容进行分词;分词操作后查询每个词在词频云数据库中对应的离心度;计算整个待筛选简历的平均离心度;
(f)简历质量判断模块:用于根据预先设置的离心度阈值判断该简历是否符合要求。
10.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器完成如权利要求1-8中任一项所述的简历筛选方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器
执行时完成如权利要求1-8中任一项所述的简历筛选方法。
CN202110715839.3A 2021-06-26 2021-06-26 一种简历筛选方法、系统、设备和存储介质 Active CN113468317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110715839.3A CN113468317B (zh) 2021-06-26 2021-06-26 一种简历筛选方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110715839.3A CN113468317B (zh) 2021-06-26 2021-06-26 一种简历筛选方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113468317A true CN113468317A (zh) 2021-10-01
CN113468317B CN113468317B (zh) 2024-03-08

Family

ID=77873088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110715839.3A Active CN113468317B (zh) 2021-06-26 2021-06-26 一种简历筛选方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113468317B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886562A (zh) * 2021-10-02 2022-01-04 智联(无锡)信息技术有限公司 一种ai简历筛选方法、系统、设备和存储介质
CN114841247A (zh) * 2022-03-31 2022-08-02 前锦网络信息技术(上海)有限公司 一种恶意用户识别方法和系统
CN117056459A (zh) * 2023-08-07 2023-11-14 北京网聘信息技术有限公司 一种向量召回方法和装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911360A (zh) * 2017-11-13 2018-04-13 哈尔滨工业大学(威海) 一种被黑网站检测方法及系统
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN108829676A (zh) * 2018-06-11 2018-11-16 安徽引航科技有限公司 基于文本分析技术的人才专业能力评估方法
CN109685470A (zh) * 2018-12-25 2019-04-26 上海琪驭精工科技有限公司 一种云计算的大数据人力资源信息处理系统
CN110032637A (zh) * 2019-04-16 2019-07-19 上海大易云计算股份有限公司 一种基于自然语义分析技术的简历智能推荐算法
CN110633471A (zh) * 2019-09-18 2019-12-31 宁夏大学 一种基于PubMed数据库的英文分词处理系统及方法
CN111046141A (zh) * 2019-12-03 2020-04-21 新华智云科技有限公司 一种基于历史时间特征的文本库关键词精炼方法
US20200193382A1 (en) * 2018-12-17 2020-06-18 Robert P. Michaels Employment resource system, method and apparatus
CN111601215A (zh) * 2020-04-20 2020-08-28 南京西觉硕信息科技有限公司 一种基于场景的关键信息提醒方法、系统及装置
CN111694946A (zh) * 2020-05-27 2020-09-22 平安银行股份有限公司 文本关键词可视化显示方法、装置及计算机设备
WO2020193785A1 (en) * 2019-03-28 2020-10-01 Ai Just Rate Ltd Vacancy matching method and application
CN111814425A (zh) * 2020-07-03 2020-10-23 角远悠 一种基于图书文字信息的图书自动排版实现方法
CN112199926A (zh) * 2020-10-16 2021-01-08 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
CN112732934A (zh) * 2021-01-11 2021-04-30 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN107911360A (zh) * 2017-11-13 2018-04-13 哈尔滨工业大学(威海) 一种被黑网站检测方法及系统
CN108829676A (zh) * 2018-06-11 2018-11-16 安徽引航科技有限公司 基于文本分析技术的人才专业能力评估方法
US20200193382A1 (en) * 2018-12-17 2020-06-18 Robert P. Michaels Employment resource system, method and apparatus
CN109685470A (zh) * 2018-12-25 2019-04-26 上海琪驭精工科技有限公司 一种云计算的大数据人力资源信息处理系统
WO2020193785A1 (en) * 2019-03-28 2020-10-01 Ai Just Rate Ltd Vacancy matching method and application
CN110032637A (zh) * 2019-04-16 2019-07-19 上海大易云计算股份有限公司 一种基于自然语义分析技术的简历智能推荐算法
CN110633471A (zh) * 2019-09-18 2019-12-31 宁夏大学 一种基于PubMed数据库的英文分词处理系统及方法
CN111046141A (zh) * 2019-12-03 2020-04-21 新华智云科技有限公司 一种基于历史时间特征的文本库关键词精炼方法
CN111601215A (zh) * 2020-04-20 2020-08-28 南京西觉硕信息科技有限公司 一种基于场景的关键信息提醒方法、系统及装置
CN111694946A (zh) * 2020-05-27 2020-09-22 平安银行股份有限公司 文本关键词可视化显示方法、装置及计算机设备
CN111814425A (zh) * 2020-07-03 2020-10-23 角远悠 一种基于图书文字信息的图书自动排版实现方法
CN112199926A (zh) * 2020-10-16 2021-01-08 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
CN112732934A (zh) * 2021-01-11 2021-04-30 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张亚亚;赵志升;潘真;张贵轩;: "词频分析平台的实现与算法应用", 电脑编程技巧与维护, no. 01, pages 111 - 113 *
陈国华;汤庸;许玉赢;贺超波;肖丹阳;: "基于词向量的学术语义搜索研究", 华南师范大学学报(自然科学版), no. 03, pages 59 - 64 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886562A (zh) * 2021-10-02 2022-01-04 智联(无锡)信息技术有限公司 一种ai简历筛选方法、系统、设备和存储介质
CN114841247A (zh) * 2022-03-31 2022-08-02 前锦网络信息技术(上海)有限公司 一种恶意用户识别方法和系统
CN117056459A (zh) * 2023-08-07 2023-11-14 北京网聘信息技术有限公司 一种向量召回方法和装置
CN117056459B (zh) * 2023-08-07 2024-05-10 北京网聘信息技术有限公司 一种向量召回方法和装置

Also Published As

Publication number Publication date
CN113468317B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
CN113468317B (zh) 一种简历筛选方法、系统、设备和存储介质
CN111309912A (zh) 文本分类方法、装置、计算机设备及存储介质
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN110826320A (zh) 一种基于文本识别的敏感数据发现方法及系统
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN108345670B (zh) 一种用于95598电力工单的服务热点发现方法
CN104216876A (zh) 信息文本过滤方法及系统
CN111177322A (zh) 一种领域知识图谱的本体模型构建方法
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
CN111897528B (zh) 一种面向企业在线教育的低代码平台
CN113360582A (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN116775879A (zh) 大语言模型的微调训练方法、合同风险评审方法及系统
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN114118077A (zh) 一种基于自动机器学习平台的智能信息抽取系统构建方法
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN114722159B (zh) 针对数控机床制造资源的多源异构数据处理方法及系统
CN111209375B (zh) 一种通用的条款与文档匹配方法
CN112632284A (zh) 用于未标注文本数据集的信息抽取方法及系统
CN113254612A (zh) 知识问答处理方法、装置、设备及存储介质
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质
CN112991131A (zh) 一种适用于电子政务平台的政务数据处理方法
CN112632229A (zh) 文本聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 100102 unit 02-31, 5 / F, 5 / F, 10 Furong street, Chaoyang District, Beijing

Applicant after: Beijing Wangpin Information Technology Co.,Ltd.

Address before: 100102 unit 02-31, 5 / F, 5 / F, 10 Furong street, Chaoyang District, Beijing

Applicant before: BEIJING WANGPIN CONSULTING Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant