CN111798214A - 职位技能标签生成系统及方法 - Google Patents

职位技能标签生成系统及方法 Download PDF

Info

Publication number
CN111798214A
CN111798214A CN202010650649.3A CN202010650649A CN111798214A CN 111798214 A CN111798214 A CN 111798214A CN 202010650649 A CN202010650649 A CN 202010650649A CN 111798214 A CN111798214 A CN 111798214A
Authority
CN
China
Prior art keywords
job
skill
structured
score
skills
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010650649.3A
Other languages
English (en)
Other versions
CN111798214B (zh
Inventor
吴晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Jilian Human Resources Service Group Co ltd
Original Assignee
Hebei Jilian Human Resources Service Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Jilian Human Resources Service Group Co ltd filed Critical Hebei Jilian Human Resources Service Group Co ltd
Priority to CN202010650649.3A priority Critical patent/CN111798214B/zh
Publication of CN111798214A publication Critical patent/CN111798214A/zh
Application granted granted Critical
Publication of CN111798214B publication Critical patent/CN111798214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种职位技能标签生成系统,包括:职位筛选单元,用于从职位数据库中选择申请该职位的求职者数量超过第一预设阈值的至少一个职位,得到所述至少一个待匹配职位;求职者简历读取单元,用于读取申请过所述待匹配职位的求职者的简历,得到求职者简历集合;求职者技能标签获取单元,用于获取所述求职者简历集合中的结构化技能标签集合;技能标签相关性单元,用于计算所述结构化技能标签集合中的结构化技能与所述待匹配职位的第一相关性分数;结构化技能标签产生单元,用于标记所述第一相关性分数超过第二预设阈值的技能,作为所述待匹配职位的结构化技能标签。本公开还提供了一种职位技能标签生成方法。

Description

职位技能标签生成系统及方法
技术领域
本公开涉及互联网信息处理技术领域,更具体地,涉及一种自动预测职位所需技能的系统、方法、电子设备及计算机可读介质。
背景技术
在现有的提供互联网招聘服务的网站中,常规的方法是由招聘方发布需要招聘的职位,对该职位感兴趣的求职者向该职位投递简历。也有一些招聘网站,会自动匹配求职者与职位的相关性,向相关性高的求职者推送职位,提高招聘的效果。然而,现有的招聘网站只能预测和确定求职者具有的职业技能,而不能准确预测和确定招聘职位所需的职业技能。例如,在一些情况下,招聘网站可能没有提供关于职位的技能标签的输入字段,即使有,也是非标准化的原始文本,难以产生关于职位的标准化职业技能标签,导致求职者与职位的相关性计算结果不准确。因此,急需一种职位技能标签生成系统及方法,精确的产生职位所需技能,进而提高求职者与招聘方发布的职位之间的相关性计算结果,提高招聘的效果。
发明内容
有鉴于此,本公开实施例的目的在于提供一种职位技能标签生成系统及方法,通过历史申请人的技能标签来产生该职位的技能标签,将与职位最相关的技能标签与该职位相关联,从而有利于向求职者提供与其匹配的职位,向招聘方提供精准匹配的求职者,提高招聘的效果。
根据本公开的第一方面,提供了一种职位技能标签生成系统,包括:
职位筛选单元,用于从职位数据库中选择申请该职位的求职数量超过第一预设阈值的至少一个职位,得到所述至少一个待匹配职位;
求职者简历读取单元,用于读取申请过所述待匹配职位的求职者的简历,得到求职者简历集合;
求职者技能标签获取单元,用于获取所述求职者简历集合中的结构化技能标签集合;
技能标签相关性单元,用于计算所述结构化技能标签集合中的结构化技能与所述待匹配职位的第一相关性分数;
结构化技能标签产生单元,用于标记所述第一相关性分数超过第二预设阈值的技能,作为所述待匹配职位的结构化技能标签。
在一个可能的实施例中,所述技能标签相关性单元还用于:
统计所述结构化技能在求职者简历集合中出现的次数;
用所述结构化技能出现的次数除以求职者简历的总数,得到所述结构化技能的相关性比值;
对所述结构化技能的相关性比值进行标准化,得到所述结构化技能与所述待匹配职位的第一相关性分数。
在一个可能的实施例中,还包括技能标签可能性分数产生单元,用于:
从职位数据库中读取所述待匹配职位的职位名称、职位说明、技能要求、公司、行业;
计算所述结构化技能标签集合中的技能与职位名称、职位说明、技能要求、公司、行业的匹配分数,包括职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数;
计算所述第一相关性分数与所述职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数的加权和,得到第二相关性分数;
所述结构化技能标签产生单元还用于:
用于标记所述第二相关性分数超过第三预设阈值的技能,作为所述待匹配职位的结构化技能标签。
在一个可能的实施例中,计算职位名称分数、职位说明分数和技能要求分数,包括:
基于所述结构化技能的词语出现在所述待匹配职位的职位名称、职位说明和技能要求的文本中,和/或,基于所述结构化技能的词语与职位名称、职位说明和技能要求的文本的语义相似度,计算职位名称分数、职位说明分数和技能要求分数。
在一个可能的实施例中,计算所述公司分数包括:
获取已经从同一家公司获得工作机会的求职者简历,得到该公司的第一成功求职者简历集合;
统计所述结构化技能在该公司的第一成功求职者简历集合中出现的次数;
用所述次数除以该公司的成功求职者简历的总数,得到所述结构化技能的公司相关性比值;
对所述公司相关性比值进行标准化,得到所述结构化技能的公司分数。
在一个可能的实施例中,计算所述行业分数包括:
获取职位描述中包括至少一个行业关键词的多个公司,得到公司集合;
获取已经从所述公司集合获得工作机会的求职者简历,得到第二成功求职者简历集合;
统计所述结构化技能在第二成功求职者简历集合中出现的次数;
用所述次数除以所述公司集合的成功求职者简历的总数,得到所述结构化技能的行业相关性比值;
对所述行业相关性比值进行标准化,得到所述结构化技能的行业分数。
根据本公开的第二方面,提供了一种职位技能标签生成方法,包括:
从职位数据库中选择申请该职位的求职数量超过第一预设阈值的至少一个职位,得到所述至少一个待匹配职位;
读取申请过所述待匹配职位的求职者的简历,得到求职者简历集合;
获取所述求职者简历集合中的结构化技能标签集合;
计算所述结构化技能标签集合中的结构化技能与所述待匹配职位的第一相关性分数;
标记所述第一相关性分数超过第二预设阈值的技能,作为所述待匹配职位的结构化技能标签。
在一个可能的实施例中,计算所述第一相关性分数的方法还包括:
统计所述结构化技能在求职者简历集合中出现的次数;
用所述结构化技能出现的次数除以求职者简历的总数,得到所述结构化技能的相关性比值;
对所述结构化技能的相关性比值进行标准化,得到所述结构化技能与所述待匹配职位的第一相关性分数。
在一个可能的实施例中,还包括:
从职位数据库中读取所述待匹配职位的职位名称、职位说明、技能要求、公司、行业;
计算所述结构化技能标签集合中的技能与职位名称、职位说明、技能要求、公司、行业的匹配分数,包括职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数;
计算所述第一相关性分数与所述职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数的加权和,得到第二相关性分数;
标记所述第二相关性分数超过第三预设阈值的技能,作为所述待匹配职位的结构化技能标签。
在一个可能的实施例中,计算职位名称分数、职位说明分数和技能要求分数,包括:
基于所述结构化技能的词语出现在所述待匹配职位的职位名称、职位说明和技能要求的文本中,和/或,基于所述结构化技能的词语与职位名称、职位说明和技能要求的文本的语义相似度,计算职位名称分数、职位说明分数和技能要求分数。
在一个可能的实施例中,计算所述公司分数包括:
获取已经从同一家公司获得工作机会的求职者简历,得到该公司的第一成功求职者简历集合;
统计所述结构化技能在该公司的第一成功求职者简历集合中出现的次数;
用所述次数除以该公司的成功求职者简历的总数,得到所述结构化技能的公司相关性比值;
对所述公司相关性比值进行标准化,得到所述结构化技能的公司分数。
在一个可能的实施例中,计算所述行业分数包括:
获取职位描述中包括至少一个行业关键词的多个公司,得到公司集合;
获取已经从所述公司集合获得工作机会的求职者简历,得到第二成功求职者简历集合;
统计所述结构化技能在第二成功求职者简历集合中出现的次数;
用所述次数除以所述公司集合的成功求职者简历的总数,得到所述结构化技能的行业相关性比值;
对所述行业相关性比值进行标准化,得到所述结构化技能的行业分数。
根据本公开的第三方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第二方面所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第二方面所述的方法。
本公开实施例提供的职位技能标签生成系统和方法,将招聘网站中公司发布的职位与投递过该职位的求职者进行匹配,将这些求职者的技能标签提取出来,计算这些技能标签与该职位的第一相关性分数,并结合职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数,全面的对该职位所需的技能做出了评估,得到了第二相关性分数,对第二相关性分数的阈值超过预设值的技能,标记为该职位所需的技能标签,生成职位技能标签。
本公开的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开实施例而了解。本公开的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了根据本公开实施例的典型的招聘网站的职位的示意图。
图2示出了根据本公开实施例的职位技能标签生成系统的示意图。
图3示出了根据本公开实施例的结构化技能标签集合的示意图。
图4示出了根据本公开实施例的标准化效果的示意图。
图5示出了根据本公开实施例的语义相似度模型的示意图。
图6示出了根据本公开实施例的加权和模型的示意图。
图7示出了根据本公开实施例的职位技能标签生成方法的示意图。
图8示出了用于实现本公开实施例的电子设备的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
随着技术的发展,人们在网上找工作已经逐渐取代了在报纸上浏览招聘广告,在场馆中参加招聘会等传统形式。招聘网站虽然越来越多,但形式主要还是招聘方发布职位,求职者看到后投递该职位,虽然载体转到了互联网上,但核心本质并没有不同。现有技术中,有一些招聘网站会向求职者推荐一些职位,主要是基于求职者填写的求职意向,与职位所需的技能、以及求职者本身的技能关系不大,所以推送效果一般。
图1示出了根据本公开实施例的典型的招聘网站的职位的示意图。典型的招聘方发布的职位,一般包含职位名称、职位描述、公司、行业等。其中职位描述会具体说明岗位职责、岗位要求等内容,描述的比较随意,对工作技能的描述可以写在岗位职责中,也可以写在岗位要求中,或者其他招聘方自行编辑的内容栏目下。这些对职位的描述,使用的是非结构化的语言,由于语言表达的丰富性,对同一职位的描述可能会有很多种,这对将生成职位所需的结构化技能带来了一定的难度。
有鉴于此,本公开提供了一种职位技能标签生成系统和方法,将招聘网站中公司发布的职位所需的技能进行了处理,生成了结构化的技能标签。
图2示出了根据本公开实施例的职位技能标签生成系统200的示意图。系统200包括职位筛选单元201、求职者简历读取单元202、求职者技能标签获取单元203、技能标签相关性单元204、技能标签可能性分数产生单元205、结构化技能标签产生单元206。
职位筛选单元201,用于从职位数据库中选择申请该职位的求职数量超过第一预设阈值的至少一个职位,得到所述至少一个职位中的待匹配职位。例如,假设第一预设阈值是10,java程序员这一职位的求职者数量是100,则java程序员这个职位,可以被筛选成为待匹配职位,从而生成该职位的结构化技能标签。如果delphi程序员的求职者数量是5,则delphi程序员这一职位不能入选待匹配职位。这样做的原因是,为了保证样本有足够的数量,避免由于样本太稀疏造成的误差。第一预设阈值的数值可以根据情况自行设定,本公开不做限制。
求职者简历读取单元202,用于读取申请过所述待匹配职位的求职者的简历,得到求职者简历集合。例如,待匹配职位对应的是java程序员,求职者简历读取单元202就会在数据库中读取曾经申请过该职位的求职者的简历,得到求职者简历集合,这个集合包括了求职者简历读取单元202读取到的全部或部分求职者的简历,其中全部或部分简历的筛选可以根据时间、地点、简历是否在最近被更新、求职者活跃度等条件,本公开不做限制。
通常,求职者在招聘网站中建立自己简历的时候,都会将自己具有的技能按照网页所指示的标准填写在技能标签的栏目中,相对非结构化的职位描述,简历中的技能是结构化的。本公开利用已经申请过该职位的求职者的技能标签来产生该职位的技能标签。
图3示出了根据本公开实施例的结构化技能标签集合的示意图。
求职者技能标签获取单元203可以用于获取所述求职者简历集合中的结构化技能标签集合(例如,可具有重复元素的多集(multiset))。例如,对于某一待匹配职位的求职者简历集合,一共有10份简历(达到了预设阈值10),这些简历中的技能标签一共包括10个技能1,7个技能2,6个技能3,4个技能4,2个技能5,1个技能6。那么,这个求职者简历集合就含有10+7+6+4+2+1=30个元素。
技能标签相关性单元204统计所述结构化技能在求职者简历集合中出现的次数,例如上述的求职者简历集合中,出现了10次技能1,7次技能2,6次技能3,4次技能4,2次技能5,1次技能6。接下来,用所述结构化技能出现的次数除以求职者简历的总数,得到所述结构化技能的相关性比值。例如,技能1的次数是10次,求职者简历的总数是10,则10除以10,得到1。同理,技能2的相关性比值是0.7,技能3的相关性比值是0.6,技能4的相关性比值是0.4,以此类推。对所述结构化技能的相关性比值进行标准化,得到所述结构化技能与所述待匹配职位的第一相关性分数。
图4示出了根据本公开实施例的标准化效果的示意图。
标准化可以让数值范围差距非常大的数值,统一映射至一个数值范围内,但保留其大小的可比性关系。
标准化的意义是,将相关性比值映射到0-100,使得分数值具有比较好的可读性。可以通过标准化的方式,将许多个比值,映射到同一个数值的区间中,避免了之后的运算过程中,小的数值被大的数值湮灭的情况。标准化可以通过归一化的方式实现,包括但不限于min-max标准化、log函数转换、atan函数转换、z-score标准化、正规化等方法,本公开不做限制。
例如,上述相关性比值为1的数值标准化为90,作为第一相关性分数。
结构化技能标签产生单元206用于标记所述第一相关性分数超过第二预设阈值的技能,作为所述待匹配职位的结构化技能标签。例如,第二预设阈值为80,则上述第一相关性分数为90的技能标签,可以被选成为待匹配职位的结构化技能标签。
在另一个可能的实施例中,还包括技能标签可能性分数产生单元205。用于从职位数据库中读取所述待匹配职位的职位名称、职位说明、技能要求、公司、行业;计算所述结构化技能标签集合中的技能与职位名称、职位说明、技能要求、公司、行业的匹配分数,包括职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数;计算所述第一相关性分数与所述职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数的加权和,得到第二相关性分数。其中,所述结构化技能标签产生单元还用于:用于标记所述第二相关性分数超过第三预设阈值的技能,作为所述待匹配职位的结构化技能标签。
例如某公司A发布了java程序员的职位,公司A的行业是金融,职位名称是java开发,职位说明是利用java语言开发p2p融资平台,技能要求是具有java开发经验5年,做过金融网站开发优先。技能标签可能性分数产生单元205对上述职位的描述文本进行分词,利用预先设置的词典,得到关于职位名称、职位说明、技能要求的关键词,对这些关键词与技能标签做语义相似度计算,分别得到职位名称、职位说明、技能要求与技能标签的相似度,对相似度进行标准化,得到职位名称分数、职位说明分数和技能要求分数。
图5示出了根据本公开实施例的语义相似度模型的示意图。
输入为分词后得到的关键词;在输入窗口中的每个词可被映射到N维向量,N是词向量维数;然后,卷积层产生对应于隐藏节点的全局化特征;这些特征会被输送到池化层,然后通过一个非线性变化层和一个权值非线性层。最后,这些包括局部特征和全局特征的特征会一并送入一个标准的放射网络,将最后一层经过特征提取的隐函数值乘以一定的权重wi,反向输出至线性神经单元,即池化层,以实现对有价值的信息进行重复利用,增加在整体信息中的权重。使用反向传播算法进行训练至整个网络合适稳定的水平。
卷积层的卷积核,对技能标签、职位描述、职位名称等语言会特别注意,并提取出来,作为局部特征。
对于公司分数,一种可能的产生方法是,获取已经从同一家公司获得工作机会的求职者简历,得到该公司的第一成功求职者简历集合;统计所述结构化技能在该公司的第一成功求职者简历集合中出现的次数;用所述次数除以该公司的成功求职者简历的总数,得到所述结构化技能的公司相关性比值;对所述公司相关性比值进行标准化,得到所述结构化技能的公司分数。
例如,公司A一共发布了10个职位,一共有100个求职者,其中10人求职成功。获取这10位求职成功的求职者简历,作为第一成功求职者简历集合。提取其中的技能标签,假设技能1出现的次数是6次,则6除以10,得到0.6作为公司相关性比值,将公司相关性比值进行标准化,得到所述结构化技能的公司分数。
对于行业分数,一种可能的产生方法是,获取职位描述中包括至少一个行业关键词的多个公司,得到公司集合;获取已经从所述公司集合获得工作机会的求职者简历,得到第二成功求职者简历集合;统计所述结构化技能在第二成功求职者简历集合中出现的次数;用所述次数除以所述公司集合的成功求职者简历的总数,得到所述结构化技能的行业相关性比值;对所述行业相关性比值进行标准化,得到所述结构化技能的行业分数。
例如,求职数据库中的职位中,包含关键词A(A代表某行业)的公司有100个,则这100个公司作为公司集合。获得公司集合中的成功求职者的简历,作为第二成功求职者简历集合,假设该集合共有100个简历。提取其中的技能标签,假设技能1出现的次数是70次,则70除以100,得到0.7作为行业相关性比值,将行业相关性比值进行标准化,得到所述结构化技能的行业分数。
图6示出了根据本公开实施例的加权和模型的示意图。
分别对第一相关性分数、职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数赋予不同的权重值,计算加权和,得到第二相关性分数。关于确定权重值的方法,可以使用主观赋权或客观赋权的各种方法予以实现,本公开不做限制。根据本公开实施例,基于第二相关性分数超过第三预设阈值,确定相应的技能作为待匹配职位的结构化技能标签。
通过结构化技能标签产生单元206计算的相关性分数,尤其是第二相关性分数,是根据实际的招聘情况,通过大量实验验证的,非常有效的,精确的,精简的指标。通过相关性分数,将求职者具有的标准化技能与招聘方所需的职位的非标准化技能绑定匹配在一起,实现了对招聘方发布的职位的技能的标准化,为精确的推荐、匹配求职者提供了依据,可以有效增加推荐效果,提高求职和招聘的双方的效率。
图7示出了根据本公开实施例的职位技能标签生成方法的示意图。
步骤701用于从职位数据库中选择申请该职位的求职数量超过第一预设阈值的至少一个职位,得到所述至少一个职位中的待匹配职位。例如,假设第一预设阈值是10,java程序员这一职位的求职者数量是100,则java程序员这个职位,可以被筛选成为待匹配职位,从而生成该职位的结构化技能标签。如果delphi程序员的求职者数量是5,则delphi程序员这一职位不能入选待匹配职位。这样做的原因是,为了保证样本有足够的数量,避免由于样本太稀疏造成的误差。第一预设阈值的数值可以根据情况自行设定,本公开不做限制。
步骤702用于读取申请过所述待匹配职位的求职者的简历,得到求职者简历集合。例如,待匹配职位对应的是java程序员,首先步骤702就会在数据库中读取曾经申请过该职位的求职者的简历,得到求职者简历集合,这个集合包括了步骤702读取到的全部或部分求职者的简历,其中全部或部分简历的筛选可以根据时间、地点、简历是否在最近被更新、求职者活跃度等条件,本公开不做限制。
步骤703可以用于获取所述求职者简历集合中的结构化技能标签集合(例如,可具有重复元素的多集(multiset))。例如,对于某一待匹配职位的求职者简历集合,一共有10份简历(达到了预设阈值10),这些简历中的技能标签一共包括10个技能1,7个技能2,6个技能3,4个技能4,2个技能5,1个技能6。那么,这个求职者简历集合就含有10+7+6+4+2+1=30个元素。
步骤704统计所述结构化技能在求职者简历集合中出现的次数,例如上述的求职者简历集合中,出现了10次技能1,7次技能2,6次技能3,4次技能4,2次技能5,1次技能6。接下来,用所述结构化技能出现的次数除以求职者简历的总数,得到所述结构化技能的相关性比值。例如,技能1的次数是10次,求职者简历的总数是10,则10除以10,得到1。同理,技能2的相关性比值是0.7,技能3的相关性比值是0.6,技能4的相关性比值是0.4,以此类推。对所述结构化技能的相关性比值进行标准化,得到所述结构化技能与所述待匹配职位的第一相关性分数。
步骤705用于标记所述第一相关性分数超过第二预设阈值的技能,作为所述待匹配职位的结构化技能标签。例如,第二预设阈值为80,则上述第一相关性分数为90的技能标签,可以被选成为待匹配职位的结构化技能标签。
在另一个可能的实施例中,在步骤705之前还包括如下步骤,用于从职位数据库中读取所述待匹配职位的职位名称、职位说明、技能要求、公司、行业;计算所述结构化技能标签集合中的技能与职位名称、职位说明、技能要求、公司、行业的匹配分数,包括职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数;计算所述第一相关性分数与所述职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数的加权和,得到第二相关性分数。其中,所述结构化技能标签产生单元还用于:用于标记所述第二相关性分数超过第三预设阈值的技能,作为所述待匹配职位的结构化技能标签。
图8示出了用于实现本公开的实施例的电子设备的结构示意图。如图8所示,电子设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,包括承载指令的在计算机可读介质,在这样的实施例中,该指令可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该指令被中央处理单元(CPU)801执行时,执行本公开中描述的各个方法步骤。
尽管已经描述了示例实施例,但是对于本领域技术人员来说显而易见的是,在不脱离本公开构思的精神和范围的情况下,可以进行各种改变和修改。因此,应当理解,上述示例实施例不是限制性的,而是说明性的。

Claims (10)

1.一种职位技能标签生成系统,包括:
职位筛选单元,用于从职位数据库中选择申请该职位的求职者数量超过第一预设阈值的至少一个职位,得到所述至少一个待匹配职位;
求职者简历读取单元,用于读取申请过所述待匹配职位的求职者的简历,得到求职者简历集合;
求职者技能标签获取单元,用于获取所述求职者简历集合中的结构化技能标签集合;
技能标签相关性单元,用于计算所述结构化技能标签集合中的结构化技能与所述待匹配职位的第一相关性分数;
结构化技能标签产生单元,用于标记所述第一相关性分数超过第二预设阈值的技能,作为所述待匹配职位的结构化技能标签。
2.如权利要求1所述的职位技能标签生成系统,所述技能标签相关性单元还用于:
统计所述结构化技能在求职者简历集合中出现的次数;
用所述结构化技能出现的次数除以求职者简历的总数,得到所述结构化技能的相关性比值;
对所述结构化技能的相关性比值进行标准化,得到所述结构化技能与所述待匹配职位的第一相关性分数。
3.如权利要求2所述的职位技能标签生成系统,还包括技能标签可能性分数产生单元,用于:
从职位数据库中读取所述待匹配职位的职位名称、职位说明、技能要求、公司、行业;
计算所述结构化技能标签集合中的技能与职位名称、职位说明、技能要求、公司、行业的匹配分数,包括职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数;
计算所述第一相关性分数与所述职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数的加权和,得到第二相关性分数;
所述结构化技能标签产生单元还用于:
用于标记所述第二相关性分数超过第三预设阈值的技能,作为所述待匹配职位的结构化技能标签。
4.如权利要求3所述的职位技能标签生成系统,其中,计算职位名称分数、职位说明分数和技能要求分数,包括:
基于所述结构化技能的词语出现在所述待匹配职位的职位名称、职位说明和技能要求的文本中,和/或,基于所述结构化技能的词语与职位名称、职位说明和技能要求的文本的语义相似度,计算职位名称分数、职位说明分数和技能要求分数。
5.一种职位技能标签生成方法,包括:
从职位数据库中选择申请该职位的求职数量超过第一预设阈值的至少一个职位,得到所述至少一个待匹配职位;
读取申请过所述待匹配职位的求职者的简历,得到求职者简历集合;
获取所述求职者简历集合中的结构化技能标签集合;
计算所述结构化技能标签集合中的结构化技能与所述待匹配职位的第一相关性分数;
标记所述第一相关性分数超过第二预设阈值的技能,作为所述待匹配职位的结构化技能标签。
6.如权利要求5所述的职位技能标签生成方法,计算所述第一相关性分数的方法还包括:
统计所述结构化技能在求职者简历集合中出现的次数;
用所述结构化技能出现的次数除以求职者简历的总数,得到所述结构化技能的相关性比值;
对所述结构化技能的相关性比值进行标准化,得到所述结构化技能与所述待匹配职位的第一相关性分数。
7.如权利要求6所述的职位技能标签生成方法,还包括:
从职位数据库中读取所述待匹配职位的职位名称、职位说明、技能要求、公司、行业;
计算所述结构化技能标签集合中的技能与职位名称、职位说明、技能要求、公司、行业的匹配分数,包括职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数;
计算所述第一相关性分数与所述职位名称分数、职位说明分数、技能要求分数、公司分数和行业分数的加权和,得到第二相关性分数;
标记所述第二相关性分数超过第三预设阈值的技能,作为所述待匹配职位的结构化技能标签。
8.如权利要求7所述的职位技能标签生成方法,其中,计算职位名称分数、职位说明分数和技能要求分数,包括:
基于所述结构化技能的词语出现在所述待匹配职位的职位名称、职位说明和技能要求的文本中,和/或,基于所述结构化技能的词语与职位名称、职位说明和技能要求的文本的语义相似度,计算职位名称分数、职位说明分数和技能要求分数。
9.如权利要求7所述的职位技能标签生成方法,计算所述公司分数包括:
获取已经从同一家公司获得工作机会的求职者简历,得到该公司的第一成功求职者简历集合;
统计所述结构化技能在该公司的第一成功求职者简历集合中出现的次数;
用所述次数除以该公司的成功求职者简历的总数,得到所述结构化技能的公司相关性比值;
对所述公司相关性比值进行标准化,得到所述结构化技能的公司分数。
10.如权利要求7所述的职位技能标签生成方法,计算所述行业分数包括:
获取职位描述中包括至少一个行业关键词的多个公司,得到公司集合;
获取已经从所述公司集合获得工作机会的求职者简历,得到第二成功求职者简历集合;
统计所述结构化技能在第二成功求职者简历集合中出现的次数;
用所述次数除以所述公司集合的成功求职者简历的总数,得到所述结构化技能的行业相关性比值;
对所述行业相关性比值进行标准化,得到所述结构化技能的行业分数。
CN202010650649.3A 2020-07-10 2020-07-10 职位技能标签生成系统及方法 Active CN111798214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010650649.3A CN111798214B (zh) 2020-07-10 2020-07-10 职位技能标签生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010650649.3A CN111798214B (zh) 2020-07-10 2020-07-10 职位技能标签生成系统及方法

Publications (2)

Publication Number Publication Date
CN111798214A true CN111798214A (zh) 2020-10-20
CN111798214B CN111798214B (zh) 2022-11-29

Family

ID=72810540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010650649.3A Active CN111798214B (zh) 2020-07-10 2020-07-10 职位技能标签生成系统及方法

Country Status (1)

Country Link
CN (1) CN111798214B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199602A (zh) * 2020-12-03 2021-01-08 中电科新型智慧城市研究院有限公司 岗位推荐方法、推荐平台及服务器

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409241A (zh) * 2001-09-27 2003-04-09 派克塞股份有限公司 用于使用印板的标签印刷系统的比例算法
CN105045864A (zh) * 2015-07-10 2015-11-11 浙江工商大学 一种数字化资源个性化推荐方法
CN105160498A (zh) * 2015-10-21 2015-12-16 北京普猎创新网络科技有限公司 一种基于大数据的人员价值计算方法
CN107506389A (zh) * 2017-07-27 2017-12-22 北京德塔精要信息技术有限公司 一种提取职位技能需求的方法和装置
CN109710916A (zh) * 2018-11-02 2019-05-03 武汉斗鱼网络科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109918483A (zh) * 2019-03-15 2019-06-21 智者四海(北京)技术有限公司 匹配招聘职位与求职简历的装置和方法
US20200019576A1 (en) * 2018-07-10 2020-01-16 Metabyte, Inc. Relationship And Credibility Based Experience Rating And Skill Discovery System
CN111353014A (zh) * 2018-12-20 2020-06-30 阿里巴巴集团控股有限公司 职位关键词提取、岗位需求更新的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409241A (zh) * 2001-09-27 2003-04-09 派克塞股份有限公司 用于使用印板的标签印刷系统的比例算法
CN105045864A (zh) * 2015-07-10 2015-11-11 浙江工商大学 一种数字化资源个性化推荐方法
CN105160498A (zh) * 2015-10-21 2015-12-16 北京普猎创新网络科技有限公司 一种基于大数据的人员价值计算方法
CN107506389A (zh) * 2017-07-27 2017-12-22 北京德塔精要信息技术有限公司 一种提取职位技能需求的方法和装置
US20200019576A1 (en) * 2018-07-10 2020-01-16 Metabyte, Inc. Relationship And Credibility Based Experience Rating And Skill Discovery System
CN109710916A (zh) * 2018-11-02 2019-05-03 武汉斗鱼网络科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN111353014A (zh) * 2018-12-20 2020-06-30 阿里巴巴集团控股有限公司 职位关键词提取、岗位需求更新的方法和装置
CN109918483A (zh) * 2019-03-15 2019-06-21 智者四海(北京)技术有限公司 匹配招聘职位与求职简历的装置和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199602A (zh) * 2020-12-03 2021-01-08 中电科新型智慧城市研究院有限公司 岗位推荐方法、推荐平台及服务器

Also Published As

Publication number Publication date
CN111798214B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
US11138382B2 (en) Neural network system for text classification
US9690849B2 (en) Systems and methods for determining atypical language
CN112711660B (zh) 文本分类样本的构建方法和文本分类模型的训练方法
CN112163424B (zh) 数据的标注方法、装置、设备和介质
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
US20050182736A1 (en) Method and apparatus for determining contract attributes based on language patterns
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN115293131B (zh) 数据匹配方法、装置、设备及存储介质
Schubotz et al. Automsc: Automatic assignment of mathematics subject classification labels
US20230028664A1 (en) System and method for automatically tagging documents
Chou et al. Integrating XBRL data with textual information in Chinese: A semantic web approach
Chen et al. Forecasting corporate credit ratings using big data from social media
CN114139539A (zh) 企业社会责任指标量化方法、系统及应用
CN115689717A (zh) 企业风险预警方法、装置、电子设备、介质和程序产品
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
CN111798214B (zh) 职位技能标签生成系统及方法
Park et al. Automatic construction of context-aware sentiment lexicon in the financial domain using direction-dependent words
CN112487808A (zh) 基于大数据的新闻消息推送方法、装置、设备及存储介质
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
US11775762B1 (en) Data comparision using natural language processing models
CN111798217B (zh) 数据分析系统及方法
US20210374559A1 (en) Computerized method of training a computer executed model for recognizing numerical quantities
CN114138976A (zh) 数据处理与模型训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant