CN107515904B - 一种职位搜索方法和计算设备 - Google Patents
一种职位搜索方法和计算设备 Download PDFInfo
- Publication number
- CN107515904B CN107515904B CN201710640217.2A CN201710640217A CN107515904B CN 107515904 B CN107515904 B CN 107515904B CN 201710640217 A CN201710640217 A CN 201710640217A CN 107515904 B CN107515904 B CN 107515904B
- Authority
- CN
- China
- Prior art keywords
- job
- company
- candidate
- query
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种职位搜索方法,适于在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置中存储有职位数据库,所述方法包括步骤:获取用户输入的查询短语,并从中提取出职位部分内容;根据所述查询短语从所述职位数据库中获取相应的候选职位集合,所述候选职位集合中包括多个候选职位且各候选职位都有相应的职位名称;以及分别计算各候选职位的职位名称与所述职位部分内容的相似度得分,并按照相似度得分从大到小的顺序将各候选职位呈现给用户。本发明还公开了相应的计算设备。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种职位搜索方法和计算设备。
背景技术
随着互联网技术的发展,网络应聘/招聘已经成了求职者应聘工作、用人单位招聘员工的主要途径。用人单位和求职者在第三方的人才招聘网站上注册账号,相互之间进行搜索和交流,以寻求最满意的对象。
职位搜索是线上招聘网站必备的一个服务,求职者通过在招聘网站中输入某些查询短语,招聘网站即可根据这些查询短语向用户返回搜索结果,通常最相关的排序靠前。通过这种职位搜索防范,能够帮助求职者快速地找到适合其工作能力的工作,也帮助用人单位快速找到符合工作要求的员工。
然而,现有招聘网站的职位搜索往往只基于用户输入的查询短语进行相关匹配进而进行职位筛选,而没有针对每个用户的具体查询意图进行识别。搜索结果排序也主要参考职位与用户查询短语的相关程度,而没有挖掘用户更深层次的特征,如用户的期望工作地点,期望薪水,技术方向等。这样在职位量较大时,用户将很难快速的找到符合自己的职位。
因此,需要一种能够为求职者提供更优化的职位搜索方法。
发明内容
为此,本发明提供一种职位搜索方法和计算设备,以力图解决或至少缓解上面存在的问题。
根据本发明的一个方面,提供了一种职位搜索方法,适于在计算设备中执行,计算设备与数据存储装置连接,数据存储装置中存储有职位数据库,方法包括步骤:获取用户输入的查询短语,并从中提取出职位部分内容;根据所述查询短语从职位数据库中获取相应的候选职位集合,候选职位集合中包括多个候选职位且各候选职位都有相应的职位名称;以及分别计算各候选职位的职位名称与职位部分内容的相似度得分,并按照相似度得分从大到小的顺序将各候选职位呈现给用户。
可选地,在根据本发明的方法中,数据存储装置中存储有不同职位词元的权值词典,分别计算各候选职位的职位名称与职位部分内容的相似度得分的步骤包括:将各候选职位的职位名称分词处理为一个或多个第一职位词元;将职位部分内容分词处理为一个或多个第二职位词元;分别确定第一职位词元和第二职位词元的交集词元与并集词元;从权值词典中获取各职位词元的权值,并分别计算交集词元的总权值,以及并集词元的总权值;以及根据交集词元的总权值与并集词元的总权值计算各职位名称与职位部分内容的相似度得分。
可选地,在根据本发明的方法中,相似度得分由交集词元的总权值与并集词元的总权值之商乘以第一校正值后四舍五入得到。
可选地,在根据本发明的方法中,还包括步骤:分别根据各候选职位的特征信息计算其特征权值得分;以及根据各候选职位的相似度得分和特征权值得分计算各候选职位的推荐值,并按照推荐值从大到小的顺序将各候选职位呈现给用户。
可选地,在根据本发明的方法中,候选职位的特征信息包括公司规模、公司认证信息、职位发布时间、公司评级、薪水匹配度和简历处理率中的一种或多种。
可选地,在根据本发明的方法中,根据各候选职位的特征信息计算其特征权值得分的步骤包括:根据职位发布公司所处的融资阶段计算其公司规模的特征权值得分;根据职位发布公司是否经过认证计算其公司认证信息的特征权值得分;根据距用户当前搜索的天数间隔计算职位发布时间的特征权值得分;根据用户期望薪水与候选职位薪水的重合区间计算其薪水匹配度的特征权值得分;以及根据人力在预定时段内的简历处理率计算其简历处理率的特征权值得分。
可选地,在根据本发明的方法中,若用户期望的薪水区间为(a1,a2),候选职位的薪水区间为(b1,b2),所述根据用户期望薪水与候选职位薪水的重合区间计算其薪水匹配度的特征权值得分的步骤包括:确定两个薪水区间的重合区间(c1,c2),其中若无重合区间,则取c1=c2;若b2≥a2,则薪水匹配度的特征权值得分为w1*(c2-c1+d)/(a2-a1+d);若b2<a2,则薪水匹配度的特征权值得分为w2*(c2-c1+d)/(a2-a1+d);其中,w1和w2分别为比例系数,d为薪水匹配度的基础得分。
可选地,在根据本发明的方法中,简历处理率为人力在预定时段内处理的简历数目与收到的简历数目之商;简历处理率的特征权值得分由所述简历处理率乘以第二校正值后四舍五入得到。
可选地,在根据本发明的方法中,数据存储装置中存储有公司词典和行业词典,公司/行业词典包括不同公司/行业的对应关键词,从中提取出职位部分内容的步骤包括:对所述查询短语进行分词处理,并根据公司词典对分词后的内容进行公司名称的识别;如果识别出了公司名称,则将除了该公司名称之外的内容作为职位部分内容,反之,则根据行业词典对分词后的内容进行行业名称的识别;如果识别出了行业名称,则将除了该行业名称之外的内容作为职位部分内容,反之则将整个查询短语作为职位部分内容。
可选地,在根据本发明的方法中,还包括步骤:如果查询短语中只有识别出的公司名称或行业名称,则将用户注册时输入的期望职位作为职位部分内容。
可选地,在根据本发明的方法中,分词方法为IK分词,对公司名称和行业名称的识别采用正向最大匹配规则。
可选地,在根据本发明的方法中,获取查询短语所对应的候选职位集合的步骤包括:确定查询短语的关键词以及该查询短语的查询类型,并从职位数据库获取该查询类型所对应的候选职位集合;其中,查询类型包括职位类查询、公司类查询、行业类查询、公司和职位类查询、行业和职位类查询,以及空白类查询。
可选地,在根据本发明的方法中,第一校正值为1000,第二校正值为180,w1=80,w2=76,d=1000,所述预定时段为近期一个月内。
根据本发明的另一方面,提供了一种计算设备,包括:一个或多个处理器;存储器;和一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如上所述方法中的任一方法的指令。
根据本发明的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行如上所述的方法中的任一方法。
根据本发明提供的技术方案,首先对用户输入的查询短语进行成分解析,确定该查询短语中的职位部分内容,并从职位数据库中获取该查询短语所对应的多个候选职位。之后,分别计算各候选职位的职位名称与该职位部分内容的相似度得分,并按照相似度得分由高到低的顺序将各候选职位展现给用户。这样能够为用户返回与其输入的期望内容最接近的招聘职位。
另外,本发明还可以计算各候选职位的特征权值得分,并将其与相似度得分相加后作为该候选职位的推荐值,以及按照相似度得分由高到低的顺序将各候选职位展现给用户。这样就可将符合用户需求的优质职位快速展现给用户,提高用户搜索职位进而进行投递的效率。
而且,在从数据库获取候选职位时,还可以先对该查询短语进行公司/行业识别,以确定该查询短语的查询类型,然后针对该查询类型获取该类型所对应的候选职位,这样搜索到的职位也更接近用户输入查询短语时的期望职位。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的职位搜索系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的示意图;以及
图3示出了根据本发明一个实施例的职位搜索方法300的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的职位搜索系统100的示意图。如图1所示,职位搜索系统100包括计算设备200、终端设备110以及数据存储装置120。应当指出,图1中的职位搜索系统100仅是示例性的,在具体的实践情况中,职位搜索系统100中可以有不同数量的计算设备、终端设备和数据存储装置,本发明对网络系统中所包括的计算设备、终端设备和数据存储装置的数量不做限制。
计算设备200可以实现为服务器,例如WEB服务器、应用程序服务器、文件服务器、数据库服务器等,也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。计算设备200可以通过有线或无线的方式经由互联网对数据存储装置120中的数据进行读写。
终端设备110可以是诸如PC、笔记本电脑、手机、平板电脑、笔记本电脑、电视盒子、可穿戴设备等可以接入互联网的设备。终端设备110可以通过有线的方式接入互联网,也可以通过3G、4G、WiFi、个人热点、IEEE802.11x、蓝牙等无线的方式接入互联网,并经由互联网与计算设备200通信。
数据存储装置120可以作为本地数据库驻留于计算设备200中,也可以作为远程数据库设置在计算设备200之外,还可以作为分布式数据库例如HBase等设置于多个地理位置处,总之,数据存储装置120用于存储数据,但是本发明对数据存储装置120的具体配置情况不做限制。
根据一种实施例,计算设备200可以是某个招聘网站所对应的服务器。数据存储装置120中存储有多条招聘职位,每条招聘职位包括该招聘职位的描述信息,如职位标题、职位名称、职位详情、发布时间、行业标签等,以及发布该招聘职位的公司的规模、公司认证信息以及公司评级等,但不限于此。其中,职位的行业标签由企业用户发布在线职位时,从职位的详细描述中由系统自动提取获得,一个职位可能有多个行业标签。当然,这些仅是招聘职位信息的一个示例,在其他的实施例中,招聘职位信息中也可以包括其他未列出的信息,或者不包括已所列出的某些信息,本发明对招聘职位信息中具体包括的信息项目不做限制。
此外,数据存储装置120中还可以存储各种词典文件,如公司词典、行业词典,其中公司词典包括不同公司所对应的公司关键词,如拉勾网的对应关键词为“拉勾”等;行业词典包括不同行业所对应的行业关键词,如电商行业的关键词包括“电商”等。
进一步地,数据存储装置120中还可以存储分词器需要的招聘行业特定专业词汇词典,以及不同职位词元的权值词典,其中,权值可以确定各职位词元的重要程度,权值越高代表该职位词元越重要。例如,将“Java工程师”分词后得到的两个职位词元“Java”和“工程师”,其权值分别为1400和200,代表“Java”词元在求职招聘中搜索针对性比较高,而“工程师”这个词元在招聘各领域都比较常见,其针对性和重要性就略低。
需要说明的是,各词典文件(如公司词典、行业词典、专业词汇词典,以及权值词典)可以采用机器挖掘外加人工收集整理的方式获得,如各职位词元的权值可以对数据存储装置120中存储的各招聘职位的职位名称来进行统计分析得到。对于一个新词元的权值,可以先取整个权值词典中的权值平均值作为该新词元的权值,将该新词元及其权值加入到权值词典后,可以在后续的使用过程中逐渐调整该词元的权值。
计算设备200基于数据存储装置120中所存储的数据,可以向求职者提供相应的服务,例如,基于求职者输入的查询短语搜索出相关的招聘职位返回给求职者。图1示出了计算设备200所能提供的一种服务场景:求职者在终端设备110的浏览器中登录求职网站,在搜索框中输入查询短语“Java工程师A公司”,计算设备200接收该查询短语,并根据该查询短语从数据存储装置120中搜索相关的招聘职位,并将搜索到的招聘职位(如图1所示,搜索结果为A公司所发布的有关Java工程师的招聘职位)返回至终端设备110并在终端设备110的浏览器中进行显示。
图2示出了根据本发明一个实施例的计算设备200的示意图。在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令,其用于指示处理器204执行相应的操作。在一些实施方式中,应用222可以布置为在操作系统上使得处理器204利用程序数据224进行操作。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
在根据本发明的计算设备200中,应用222包括职位搜索装置228,职位搜索装置228包括多条程序指令,而程序数据224可以包括由数据存储装置120中缓存来的招聘职位,职位搜索装置228可以指示处理器204执行职位搜索方法300,即对程序数据224中所包括的招聘职位进行处理计算,从而实现职位搜索。
图3示出了根据本发明一个实施例的职位搜索方法300的流程图,方法300适于在计算设备(例如前述计算设备200)中执行。如图3所示,方法300始于步骤S320。
在步骤S320中,获取用户输入的查询短语,并从中提取出职位部分内容。
根据一个实施例,可以根据方法来提取查询短语的职位部分内容:对该查询短语进行分词处理,并根据公司词典对分词后的内容进行公司名称的识别;如果识别出了公司名称,则将除了该公司名称之外的内容作为该职位部分内容,反之,则根据行业词典对分词后的内容进行行业名称的识别;如果识别出了行业名称,则将除了该行业名称之外的内容作为该职位部分内容,反之则将整个查询短语作为该职位部分内容。
这里,分词器可以采用开源的中文分词器IK分词,对公司名称和行业名称的识别采用正向最大匹配规则。另外,如果识别出了公司名称或行业名称后,该查询短语再没有别的内容,即该查询短语中只有识别出的公司名称或行业名称而不包含任何职位名称内容,此时可将用户注册时输入的期望职位作为该职位部分内容。
例如,若用户输入“Java工程师A公司电商”这个查询短语,则先对其进行公司名称识别,识别出“A公司”后,即可将剩余部分内容作为该查询短语的职位部分内容。若用户输入“Java工程师电商”,则不会识别出公司名称,因此采用行业识别,可识别出“电商”,其职位部分内容即为“Java工程师”。若用户输入“Java工程师”,则公司名称和行业名称都不会识别出来,其职位部分内容为整个查询短语“Java工程师”。
随后,在步骤S340中,根据查询短语从职位数据库中获取相应的候选职位集合,该候选职位集合中包括多个候选职位且各候选职位都有相应的职位名称。
通常,用户使用招聘网站的搜索系统进行职位检索时,会包含以下几个情形:查找职位名称为某个特定关键字的职位、查找某个公司发布的相关职位,以及通过特定行业关键字查找职位。因此,根据本发明的一个实施例,可以根据以下方法获取候选职位集合:确定该查询短语的关键词以及该查询短语的查询类型,并从职位数据库获取该查询类型所对应的候选职位集合。其中,关键词可以分为与职位关键词、公司关键词,以及行业关键词;查询类型可以包括职位类查询、公司类查询、行业类查询、公司和职位类查询、行业和职位类查询,以及空白类查询。
具体地,职位类查询的关键字中只含有职位名,如“Java工程师”;公司类查询的关键字中只含有公司名,如“A公司”;行业类查询的关键字中只含有行业名,如“电商”;公司和职位类查询的关键字同时含有公司名和职位名;行业和职位类查询的关键字同时含有行业名和职位名;空白类查询指用户未输入任何查询语句。
对于用户输入的查询语句,可以使用职位搜索基础检索服务召回候选职位集合,该候选职位集合可以包含预定数目的候选职位,一般最多为五千个候选职位。职位搜索基础检索服务是基于开源技术lucene构造的全文检索引擎,其支持基于职位名,公司名、行业等精确或模糊匹配获得符合条件的职位列表。但不同的查询类型可以采用不同的召回规则策略,具体如下:
对于职位类查询,将其职位关键词分词处理为一个或多个职位词元,并从职位数据库中获取发布的职位名称包括所述一个或多个职位词元的职位。如将“Java工程师”分词为“Java”和“工程师”两个职位词元,然后从职位数据库中获取发布的职位中包括这两个职位词元的职位,构成候选职位集合。
对于公司类查询以及公司和职位类查询,考虑到一个公司分布的职位比较有针对性,因此都可以公司名为基础获取候选职位,即从职位数据库中获取发布职位的公司名称包含该公司关键词的职位。
对于行业类查询,从职位数据库中获取职位的行业标签包含其行业关键词的职位,如获取那些发布职位的行业标签包括“电商”的职位作为候选职位。
对于行业和职位类查询,将其职位关键词分词为一个或多个职位词元,并从职位数据库中获取职位名称包括一个或多个职位词元、且职位行业标签包含其行业关键词的职位。
对于空白类查询,则可按照职位的发布时间顺序,从职位数据库中获取最近发布的预定数目的职位。
随后,在步骤S360中,分别计算各候选职位的职位名称与职位部分内容的相似度得分,并按照相似度得分从大到小的顺序将各候选职位呈现给用户。
根据一个实施例,可以根据以下方法计算各候选职位的职位名称与职位部分内容的相似度得分:将各候选职位的职位名称分词处理为一个或多个第一职位词元;将职位部分内容分词处理为一个或多个第二职位词元;分别确定第一职位词元和第二职位词元的交集词元与并集词元;从权值词典中获取各职位词元的权值,并分别计算所述交集词元的总权值,以及并集词元的总权值;以及根据交集词元的总权值与并集词元的总权值计算各职位名称与所述职位部分内容的相似度得分。
进一步地,可以将交集词元的总权值除以并集词元的总权值,再乘以第一校正值后,进行四舍五入得到候选职位的职位名称和职位部分内容的相似度得分。其中,第一校正值可以取1000,此时相似度得分的区间为[0,1000],当然可以根据需要设置为其他数值,本发明对此不作限定。
如前文所述,若用户输入的职位部分内容为“Java工程师”,其分词后得到两个职位词元为“Java”和“工程师”;而某个候选职位的职位名称为“高级Java工程师”,其分词后得到三个职位词元“高级”、“Java”和“工程师”。那么这两种词元的交集词元“Java”和“工程师”,并集词元为“高级”、“Java”和“工程师”。根据职位词元的权值词典可知,三种职位词元的权值分别为400、1400和200,因此交集词元的总权值为1600,并集词元的总权职为2000,则相似度得分为1600/2000*1000=800。
根据相似度进行排序后,与用户输入的查询短语更接近的候选职位将优先呈现给用户,这样筛选出来的职位更符合用户的期望职位,从而可有效提高求职效率。另外,通常而言,当用户搜索出相关的职位列表后,其通常会点击或投递那些更符合自己期望薪水、较为知名公司、发布时间较新,以及人力处理简历较为迅速的职位。因此,除了相似度得分,本发明还可以对候选职位的特征信息进行综合考虑后,使的最终向用户呈现的职位列表内容更接近其理想的期望职位,提高用户体验。
因此,根据本发明的一个实施例,方法300还可以包括步骤:分别根据各候选职位的特征信息计算其特征权值得分;以及根据各候选职位的相似度得分和特征权值得分计算各候选职位的推荐值,并按照推荐值从大到小的顺序将各候选职位呈现给用户。
其中,候选职位的特征信息包括发布职位的公司规模、公司认证信息、职位发布时间、公司评级、薪水匹配度和简历处理率中的一种或多种。当然,还可以包括人工调整得分,其范围可以取[-100,100],当然也可以根据需要设置为其他范围,本发明对此不作限制。
每种特征信息都有其对应的特征权值得分,例如,对于发布职位的公司规模,可以根据职位发布公司所处的融资阶段计算其特征权值得分。根据一个实施例,公司规模的特征权值得分区间可以为[0,10],其中,未融资的公司得分为0,天使轮融资阶段的为3分,已上市公司且天使轮融资阶段的为5分,B轮和C轮融资阶段的为8分,D轮及以上融资阶段的为10分。
对于发布职位的公司认证信息,可以根据其是否经过认证来计算其特征权值得分,认证通常可以理解为该公司在职位招聘网站上进行过认证。根据一个实施例,公司认证信息的特征权值得分区间也可以为[0,10],其中,已认证公司得分为10,未认证公司的为0分。
对于职位发布时间,可以根据距用户当前搜索的天数间隔计算其特征权值得分,时间得分会随着发布时间距今的天数间隔分阶段衰减。根据一个实施例,1天以内的得分为100分,1-2天的为90分,2-3天的为80分,3-7天为70分,7-15天的为50分,15-30天的为30分,30-60天的为20分,60天以上的为0分。
对于公司评级,可以由相关运营审核人员人工评审来得到其特征权值得分,不同的级别对应不同的得分。根据一个实施例,公司评级可以分为A,B,C,D,E五个级别,每种级别对应不同的得分,得分的区间可以为[0,120],最高级别为120分,最低级别为0分。需要说明的是,以上各项特征权值得分的数值都只是示例性说明书,也可以根据需要设置为其他数值,本发明对此不作限制。
对于薪水匹配度,可以根据用户期望薪水与候选职位薪水的重合区间来计算其特征权值得分,这里用户期望薪水也可以是在招聘网站注册时提前输入好的。根据一个实施例,若用户期望的薪水区间为(a1,a2),候选职位的薪水区间为(b1,b2),则可以根据以下方法计算薪水匹配度的特征权值得分:确定两个薪水区间的重合区间(c1,c2),其中若两个薪水区间无重合区间,则取c1=c2即可,如取c1=c2=0;若b2≥a2,则薪水匹配度的特征权值得分为w1*(c2-c1+d)/(a2-a1+d);若b2<a2,则薪水匹配度的特征权值得分为w2*(c2-c1+d)/(a2-a1+d);其中,w1和w2分别为比例系数,d为薪水匹配度的基础得分。
根据一个实施例,可以取w1=80,w2=76,这里w2的取值实际是指当候选职位的最高薪水小于用户的期望最高薪水时,则最终得分将会在原有基础上打95折。对于d值,如果所有薪水都以千元为单位(如8k,9k),则取d=1;如果都以元为单位,则取d=1000。当然,上述这些数值只是示例性说明,还可以根据需要设置为其他数值,本发明对此不作限定。另外,若候选职位的薪水区间和用户期望的薪水区间只有一个端点x(x=a1、a2、b1或b2)重合,那重合区间即取(x,x)
例如,若用户期望薪水区间为[8000,9000],候选职位的薪水区间为[7000,8500],则其重合区间为[8000,8500],因此薪水匹配度的特征权值得分为76*(8500-8000+1000)/(9000-8000+1000)=57。当然,若候选职位的薪水区间为[7000,8000],则重合区间为[8000,8000],此时薪水匹配度的特征权值得分为38。
对于简历处理率,可以根据人力在预定时段内的简历处理率计算其简历处理率的特征权值得分,如人力在近期一个月内的简历处理率。其中,简历处理率为人力在预定时段内处理的简历数目与收到的简历数目之商。这里的简历处理可以之发布简历、拒绝简历、查看简历、推荐简历等。一般地,处理的简历数目是针对简历而言,对一份简历进行了多项操作也只认为只处理的一份简历。当然也可以根据需要设置为对简历的操作数目,即对简历执行一项操作即计数加1。根据一个实施例,简历处理率的特征权值得分可以由简历处理率乘以第二校正值后四舍五入得到,其中第二校正值可以取180,当然也可以根据需要设置为其他数值,本发明对此不作限制。
将以上各项特征信息的特征权值得分相加后即可得到候选职位的特征权值得分;当然,也可以根据需要将各项特征信息的特征权值得分先乘以一定权重值后再进行相加(即加权后再相加)。如人工调整得分或公司认证得分相对不太重要,则可将其权重值设置为较小数值;薪水匹配度比较重要,则将其权重值设置为较大数值。
同样地,对于推荐值的计算,可以将各候选职位的相似度得分和特征权值得分相加后作为推荐值,也可以将相似度得分与特征权值得分分别乘以各自权重值后再相加,作为最终的推荐值。当然,这些只是示例性说明,还可以根据需要采用其他计算公式计算特征权值得分总分和推荐值,本发明对此不作限制。
计算出各候选职位的推荐值后,即可将职位候选集合中的各候选职位按照推荐值降序排列,再依次分页展现给用户。空白类型搜索则可按照各候选职位的发布时间降序排列后再分页展现给用户。
根据本发明的职位标签方案,通过对求职者输入的查询进行解析,并根据不同的职位名、公司名或行业名的检索类型生成相应的候选职位集合,以及根据各候选职位的相似度得分和特征权值得分得到各职位的推荐值。这样就能够将更优质的符合用户需求的职位快速展现给用户,从而提升职位检索的职位点击率和用户投递简历的概率,进而加快了求职者寻找到合适职位的速度,提高其求职满意度。
A9、如A1所述的方法,其中,所述数据存储装置中存储有公司词典和行业词典,所述公司/行业词典包括不同公司/行业的对应关键词,所述从中提取出职位部分内容的步骤包括:对所述查询短语进行分词处理,并根据所述公司词典对分词后的内容进行公司名称的识别;如果识别出了公司名称,则将除了该公司名称之外的内容作为所述职位部分内容,反之,则根据所述行业词典对分词后的内容进行行业名称的识别;如果识别出了行业名称,则将除了该行业名称之外的内容作为所述职位部分内容,反之则将整个查询短语作为所述职位部分内容。
A10、如A9所述的方法,其中,还包括步骤:如果所述查询短语中只有识别出的公司名称或行业名称,则将用户注册时输入的期望职位作为所述职位部分内容。
A11、如A9所述的方法,其中,分词方法为IK分词,对公司名称和行业名称的识别采用正向最大匹配规则。
A12、如A1或A9中所述的方法,其中,所述获取所述查询短语所对应的候选职位集合的步骤包括:确定所述查询短语的关键词以及该查询短语的查询类型,并从所述职位数据库获取该查询类型所对应的候选职位集合;其中,所述查询类型包括职位类查询、公司类查询、行业类查询、公司和职位类查询、行业和职位类查询,以及空白类查询。
A13、如A1-A12中任一项所述方法,其中,所述第一校正值为1000,所述第二校正值为180,w1=80,w2=76,d=1000,所述预定时段为近期一个月内。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的职位搜索方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。
Claims (17)
1.一种职位搜索方法,适于在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置中存储有职位数据库和不同职位词元的权值词典,不同职位词元的权值通过对所述数据存储装置中存储的、各招聘职位的职位名称进行统计分析得到,所述权值词典中新词元的权值为整个权值词典中的权值平均值,并在将该新词元及其权值加入到权值词典后,在后续的使用过程中逐渐调整该新词元的权值,所述方法包括步骤:
获取用户输入的查询短语,并从中提取出职位部分内容;
根据所述查询短语从所述职位数据库中获取相应的候选职位集合,所述候选职位集合中包括多个候选职位且各候选职位都有相应的职位名称;以及
分别计算各候选职位的职位名称与所述职位部分内容的相似度得分,并按照相似度得分从大到小的顺序将各候选职位呈现给用户;
其中,所述分别计算各候选职位的职位名称与所述职位部分内容的相似度得分的步骤包括:
将各候选职位的职位名称分词处理为一个或多个第一职位词元;
将所述职位部分内容分词处理为一个或多个第二职位词元;
分别确定所述第一职位词元和第二职位词元的交集词元与并集词元;
从所述权值词典中获取各职位词元的权值,并分别计算所述交集词元的总权值,以及所述并集词元的总权值;以及
根据所述交集词元的总权值与并集词元的总权值计算各职位名称与所述职位部分内容的相似度得分。
2.如权利要求1所述的方法,其中,所述相似度得分由所述交集词元的总权值与并集词元的总权值之商乘以第一校正值后四舍五入得到。
3.如权利要求1所述的方法,还包括步骤:
分别根据各候选职位的特征信息计算其特征权值得分;以及
根据各候选职位的相似度得分和特征权值得分计算其推荐值,并按照推荐值从大到小的顺序将各候选职位呈现给用户。
4.如权利要求3所述的方法,其中,所述候选职位的特征信息包括公司规模、公司认证信息、职位发布时间、公司评级、薪水匹配度和简历处理率中的一种或多种。
5.如权利要求4所述的方法,其中,根据各候选职位的特征信息计算其特征权值得分的步骤包括:
根据职位发布公司所处的融资阶段计算其公司规模的特征权值得分;
根据职位发布公司是否经过认证计算其公司认证信息的特征权值得分;
根据职位发布时间距用户当前搜索的天数间隔计算职位发布时间的特征权值得分;
根据用户期望薪水与候选职位薪水的重合区间计算其薪水匹配度的特征权值得分;以及
根据人力在预定时段内的简历处理率计算其简历处理率的特征权值得分。
6.如权利要求5所述的方法,其中,若用户期望的薪水区间为(a1,a2),候选职位的薪水区间为(b1,b2),所述根据用户期望薪水与候选职位薪水的重合区间计算其薪水匹配度的特征权值得分的步骤包括:
确定两个薪水区间的重合区间(c1,c2),其中若无重合区间,则取c1=c2;
若b2≥a2,则薪水匹配度的特征权值得分为w1*(c2-c1+d)/(a2-a1+d);
若b2<a2,则薪水匹配度的特征权值得分为w2*(c2-c1+d)/(a2-a1+d);
其中,w1和w2分别为比例系数,d为薪水匹配度的基础得分。
7.如权利要求5所述的方法,其中,
简历处理率为人力在预定时段内处理的简历数目与收到的简历数目之商;
所述简历处理率的特征权值得分由所述简历处理率乘以第二校正值后四舍五入得到。
8.如权利要求1所述的方法,其中,所述数据存储装置中存储有公司词典和行业词典,所述公司词典和行业词典包括不同公司、行业的对应关键词,所述从中提取出职位部分内容的步骤包括:
对所述查询短语进行分词处理,并根据所述公司词典对分词后的内容进行公司名称的识别;
如果识别出了公司名称,则将除了该公司名称之外的内容作为所述职位部分内容,反之,则根据所述行业词典对分词后的内容进行行业名称的识别;
如果识别出了行业名称,则将除了该行业名称之外的内容作为所述职位部分内容,反之则将整个查询短语作为所述职位部分内容。
9.如权利要求8所述的方法,其中,还包括步骤:
如果所述查询短语中只有识别出的公司名称或行业名称,则将用户注册时输入的期望职位作为所述职位部分内容。
10.如权利要求8所述的方法,其中,分词方法为IK分词,对公司名称和行业名称的识别采用正向最大匹配规则。
11.如权利要求1或8中所述的方法,其中,所述根据所述查询短语从所述职位数据库中获取相应的候选职位集合的步骤包括:
确定所述查询短语的关键词以及该查询短语的查询类型,并从所述职位数据库中获取该查询类型所对应的候选职位集合;
其中,所述查询类型包括职位类查询、公司类查询、行业类查询、公司和职位类查询、行业和职位类查询,以及空白类查询。
12.如权利要求2所述的方法,其中,所述第一校正值为1000。
13.如权利要求7所述的方法,其中,所述第二校正值为180。
14.如权利要求6或7所述的方法,其中,w1=80,w2=76,d=1000。
15.如权利要求5-7中任一项所述的方法,其中,所述预定时段为近期一个月内。
16.一种计算设备,包括:
至少一个处理器;和
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-15中任一项所述的方法的指令。
17.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710640217.2A CN107515904B (zh) | 2017-07-31 | 2017-07-31 | 一种职位搜索方法和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710640217.2A CN107515904B (zh) | 2017-07-31 | 2017-07-31 | 一种职位搜索方法和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107515904A CN107515904A (zh) | 2017-12-26 |
CN107515904B true CN107515904B (zh) | 2020-11-06 |
Family
ID=60722054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710640217.2A Active CN107515904B (zh) | 2017-07-31 | 2017-07-31 | 一种职位搜索方法和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107515904B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080221B (zh) * | 2018-10-21 | 2024-07-12 | 张孟强 | 基于求职招聘双方需求的双向竞价匹配方法与系统 |
CN111881183B (zh) * | 2020-07-28 | 2024-09-13 | 北京金堤科技有限公司 | 企业名称匹配方法和装置、以及存储介质和电子设备 |
CN112612961B (zh) * | 2020-12-28 | 2024-02-02 | 完美世界(北京)软件科技发展有限公司 | 信息搜索方法、装置、存储介质及计算机设备 |
CN116595973B (zh) * | 2023-05-19 | 2023-10-03 | 广东职教桥数据科技有限公司 | 一种基于自然语言处理分类技术的岗位职能识别方法 |
CN117931994A (zh) * | 2024-01-25 | 2024-04-26 | 北京网聘信息技术有限公司 | B端自动撰写职位需求的方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173419A1 (en) * | 2011-12-30 | 2013-07-04 | Certona Corporation | Recommending repeated transactions |
CN103309886B (zh) * | 2012-03-13 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 一种基于交易平台的结构化信息搜索方法和装置 |
CN103955489B (zh) * | 2014-04-15 | 2017-09-22 | 华南理工大学 | 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统 |
CN106933821A (zh) * | 2015-12-29 | 2017-07-07 | 中国电信股份有限公司 | 一种基于相似度计算的个性化职位推荐方法和系统 |
CN106250502A (zh) * | 2016-07-28 | 2016-12-21 | 五八同城信息技术有限公司 | 确定相似职位的方法及装置 |
CN106777295A (zh) * | 2016-12-30 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的职位搜索推荐方法和系统 |
-
2017
- 2017-07-31 CN CN201710640217.2A patent/CN107515904B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107515904A (zh) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515904B (zh) | 一种职位搜索方法和计算设备 | |
WO2021174919A1 (zh) | 简历数据信息解析及匹配方法、装置、电子设备及介质 | |
US10042896B2 (en) | Providing search recommendation | |
US8671040B2 (en) | Credit risk mining | |
CN107704512B (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
US9767183B2 (en) | Method and system for enhanced query term suggestion | |
CN107958014B (zh) | 搜索引擎 | |
US20180181544A1 (en) | Systems for Automatically Extracting Job Skills from an Electronic Document | |
US20130036076A1 (en) | Method for keyword extraction | |
CN102043843A (zh) | 一种用于基于目标应用获取目标词条的方法与获取设备 | |
CN107967256B (zh) | 词语权重预测模型生成方法、职位推荐方法及计算设备 | |
US11860955B2 (en) | Method and system for providing alternative result for an online search previously with no result | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
CN110795628A (zh) | 一种基于相关性的搜索词处理方法、装置及计算设备 | |
US20200134537A1 (en) | System and method for generating employment candidates | |
CN112417126A (zh) | 一种问答方法、计算设备以及存储介质 | |
CN108133357A (zh) | 一种人才推荐方法及计算设备 | |
CN111651990A (zh) | 一种实体识别方法、计算设备及可读存储介质 | |
CN112990887A (zh) | 一种简历和岗位匹配的方法及计算设备 | |
CN107844580A (zh) | 一种搜索词匹配方法 | |
WO2021002800A1 (en) | Apparatus and method for tagging electronic legal documents for classification and retrieval | |
CN110851560B (zh) | 信息检索方法、装置及设备 | |
CN107766537B (zh) | 一种职位搜索排序方法及计算设备 | |
CN113239177B (zh) | 知识点查询方法、装置、服务器、介质及产品 | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |