CN105303333A

CN105303333A - 招聘信息的处理方法及装置

Info

Publication number: CN105303333A
Application number: CN201510869018.XA
Authority: CN
Inventors: 朱琛; 祝恒书; 丁鹏亮; 熊辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2016-02-03

Abstract

本发明实施例提供一种招聘信息的处理方法及装置，所述方法包括：获取招聘需求数据；从所述招聘需求数据提取第一需求数据项；从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项，所述招聘信息数据库中的招聘需求信息项包括多个第二需求数据项；获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项，所述需求冗余度为任一初选招聘需求信息项中在已选定的招聘需求信息项的集合中出现的第二需求数据项的个数。采用本发明的技术方案，根据招聘需求数据自动得到招聘需求信息项，成本低、效率高，全面客观。

Description

招聘信息的处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种招聘信息的处理方法及装置。

背景技术

随着社会的不断发展，各行各业的规模不断扩大，就业人群的规模也随之扩大，人员招聘的相关工作在企业日常运营中所占比重也越来越重。目前，招聘信息由人工撰写，其可靠程度主要依赖于撰写者的水平，主观性强；同时，由于撰写者难以对招聘市场同类职位进行全面了解，因此，撰写出来的招聘信息容易关注部分技能而忽略其他因素，较为片面；特别的，人工撰写招聘信息的方式，效率低，人力成本高。

发明内容

本发明的目的在于提供一种招聘信息的处理方法及装置，根据招聘需求数据自动得到招聘需求信息项，成本低、效率高，全面客观。

根据本发明的一方面，本发明提供一种招聘信息的处理方法，所述方法包括：获取招聘需求数据；从所述招聘需求数据提取第一需求数据项；从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项，所述招聘信息数据库中的招聘需求信息项包括多个第二需求数据项；获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项，所述需求冗余度为任一初选招聘需求信息项中在已选定的招聘需求信息项的集合中出现的第二需求数据项的个数。

进一步地，所述获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项包括：获取需求冗余度小于预定的冗余度阈值并且职位贡献度超过预定的贡献度阈值的初选招聘需求信息项作为选定的招聘需求信息项，其中，根据所述初选招聘需求信息项中未在已选定的招聘需求信息项的集合中出现的第二需求数据项从预存的职位贡献度数据库获取所述初选招聘需求信息项的职位贡献度的值。

进一步地，所述获取需求冗余度小于预定的冗余度阈值并且职位贡献度超过预定的贡献度阈值的初选招聘需求信息项作为选定的招聘需求信息项的处理包括：对于任一所述初选招聘需求信息项，获取其需求冗余度的值和职位贡献度的值，对所述需求冗余度和职位贡献度的值进行加权求和，获得所述初选招聘需求信息项的综合评估值；选取获得的综合评估值在预定限值范围内的初选招聘需求信息项作为选定的招聘需求信息项。

进一步地，所述方法还包括：从网络抓取已发布的招聘需求网页的信息；分别将所述招聘需求网页的内容进行格式化；将格式化的招聘需求网页的内容存储到所述招聘信息数据库。

进一步地，所述将所述招聘需求网页的内容进行格式化包括：将所述招聘需求网页中的文本内容构建成对应的文本向量；将所述对应的文本向量存储到数据字典中。

进一步地，所述从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项包括：从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相同的初选招聘需求信息项；并且/或者，从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相似度大于相似度阈值的初选招聘需求信息项；并且/或者，从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括涵盖第一需求数据项的值的初选招聘需求信息项。

进一步地，所述方法还包括：显示任一选定的招聘需求信息项。

根据本发明的又一方面，本发明还提供一种招聘信息的处理装置，所述装置包括：获取单元，用于获取招聘需求数据；提取单元，用于从所述招聘需求数据提取第一需求数据项；匹配单元，用于从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项，所述招聘信息数据库中的招聘需求信息项包括多个第二需求数据项；选定单元，用于获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项，所述需求冗余度为任一初选招聘需求信息项中在已选定的招聘需求信息项的集合中出现的第二需求数据项的个数。

进一步地，所述选定单元还用于获取需求冗余度小于预定的冗余度阈值并且职位贡献度超过预定的贡献度阈值的初选招聘需求信息项作为选定的招聘需求信息项，其中，根据所述初选招聘需求信息项中未在已选定的招聘需求信息项的集合中出现的第二需求数据项从预存的职位贡献度数据库获取所述初选招聘需求信息项的职位贡献度的值。

进一步地，所述选定单元包括：评估子单元，用于对于任一所述初选招聘需求信息项，获取其需求冗余度的值和职位贡献度的值，对所述需求冗余度和职位贡献度的值进行加权求和，获得所述初选招聘需求信息项的综合评估值；选定子单元，用于选取获得的综合评估值在预定限值范围内的初选招聘需求信息项作为选定的招聘需求信息项。

进一步地，所述装置还包括：抓取单元，用于从网络抓取已发布的招聘需求网页的信息；格式化单元，用于分别将所述招聘需求网页的内容进行格式化；存储单元，用于将格式化的招聘需求网页的内容存储到所述招聘信息数据库。

进一步地，所述格式化单元包括：向量子单元，用于将所述招聘需求网页中的文本内容构建成对应的文本向量；存储子单元，用于将所述对应的文本向量存储到数据字典中。

进一步地，所述匹配单元包括：第一匹配子单元，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相同的初选招聘需求信息项；第二匹配子单元，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相似度大于相似度阈值的初选招聘需求信息项；第三匹配子单元，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括涵盖第一需求数据项的值的初选招聘需求信息项。

进一步地，所述装置还包括：显示单元，用于显示任一选定的招聘需求信息项。

本发明实施例提供的招聘信息的处理方法及装置，根据招聘需求数据自动得到选定的招聘需求信息项，相对于人工撰写招聘信息的方式，效率高，人力成本低；同时，选定的招聘需求信息项从预存的招聘信息数据库中来，综合考虑了招聘市场同类职位的招聘信息，客观全面。

附图说明

图1是示出本发明示例性实施例一的招聘信息的处理方法流程图；

图2是示出本发明示例性实施例二的招聘信息的处理方法流程图；

图3是示出本发明示例性实施例三的招聘信息的处理方法流程图；

图4是示出本发明示例性实施例五的招聘信息的处理装置结构示意图。

具体实施方式

下面结合附图对本发明示例性实施例的招聘信息的处理方法及装置进行详细描述。

实施例一

图1是示出本发明示例性实施例一的招聘信息的处理方法流程图。

参照图1，在步骤S110，获取招聘需求数据。

获取招聘需求数据的方式包括但不限于获取用户输入的招聘要求的方式或者获取预存的招聘要求的方式。

其中，当招聘方(即用户)有招聘需求时，招聘方根据工作需求输入相关的招聘要求，招聘要求中可以包括招聘方信息和招聘需求数据，招聘方信息可以包括但不限于公司名称(例如百度、阿里巴巴或者乐视等等)等等。招聘需求数据可以包括但不限于职位名称(例如研发工程师、系统架构师和/或民事律师等等)、学历(例如本科、硕士和/或博士等等)和/或专业技能(熟练掌握JAVA、有HTML5开发经验和/或熟练有丰富的民事诉讼经验等等)等等。

在步骤S120，从所述招聘需求数据提取第一需求数据项。

从上述步骤S110中获取的招聘需求数据中提取第一需求数据项，在本实施例中，第一需求数据项是指招聘需求数据中的关键词，例如当招聘需求数据中包括的数据就是关键词时，例如“研发工程师”和/或“本科”等等，那么提取出来的第一需求数据项为数据本身，例如将包括但不限于“研发工程师”和/或“本科”等等提取出来；当招聘需求数据中包括的数据除了关键词之外，还有关键词的限定词时，例如包括但不限于“熟练掌握JAVA”，其中的关键词为“JAVA”，限定词为“熟练掌握”，那么提取出来的第一需求数据项为关键词本身，例如将包括但不限于“JAVA”等等提取出来。

在步骤S130，从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项，所述招聘信息数据库中的招聘需求信息项包括多个第二需求数据项。

可选地，通过以下方式构建本步骤中的招聘信息数据库：

首先，从网络抓取已发布的招聘需求网页的信息或者收集企业已招聘的员工的工资福利信息(可以对应第二需求数据项中的薪酬福利中的需求数据项)、专业技能信息(可以对应第二需求数据项中的专业技能中的需求数据项)以及应聘时的求职需求信息(可以对应第二需求数据项中的职位描述中的需求数据项)。

其次，分别将所述招聘需求网页的内容进行格式化。其中，可以将招聘需求网页中的文本内容按照毕业院校、语言能力、职位等级和/或薪资等级等等分类分别构建对应的文本向量(任一文本向量中的数据内容即为第二需求数据项)，其中，构建文本向量的方法可以包括但不限于词频(TermFrequency,TF)法和/或词袋模型法等等。将对应的文本向量存储到数据字典中，数据字典可以包括但不限于JSON数据字典等等。

最后，将格式化的招聘需求网页的内容存储到所述招聘信息数据库。

可选地，本步骤中从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项的方式可以包括但不限于：从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相同的初选招聘需求信息项，例如，第一需求数据项中包括“本科”，第二需求数据项中也包括“本科”的招聘需求信息项则作为初选招聘需求信息项。

可选地，从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相似度大于第一相似度阈值的初选招聘需求信息项；其中，相似度和第一相似度阈值可以根据招聘市场同类职位的历史统计得到。例如，第一相似度阈值预先设置为50％，第一需求数据项中包括“硬件工程师”和“技术支持”，第二需求数据项中包括“硬件工程师”和“售前”，对于硬件工程师这一职位而言，技术支持和售前的工作职责上有比较多的相互重合之处，“技术支持”和“售前”的相似度可以为80％，大于第一相似度阈值，那么“硬件工程师”和“售前”对应的招聘需求信息项则作为初选招聘需求信息项；再例如，第一需求数据项中包括“地产销售助理”和“技术支持”，第二需求数据项中包括“地产销售助理”和“售前”，对于地产销售助理这一职位而言，技术支持和售前的工作职责上有较少的相互重合之处，“技术支持”和“售前”的相似度可以为30％，小于第一相似度阈值，那么“硬件工程师”和“售前”对应的招聘需求信息项则不可以作为初选招聘需求信息项。

可选地，从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括涵盖第一需求数据项的值的初选招聘需求信息项。例如，第一需求数据项中包括“工作经验5年”，如果第二需求数据项中包括“工作经验3～7年”，则“工作经验3～7年”对应的招聘需求信息项则作为初选招聘需求信息项。

上述从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项的过程在具体的数学建模的过程中可以相当于采用基于内容的相似度检索方法在招聘信息数据库中进行检索的过程，根据第二相似度阈值得到初选招聘需求信息项，其中，可以采用的数据检索引擎包括但不限于Lemur，lucene，所采用的相似度计算方法包括但不限于CosineSimilarity，KL-Distance等。

在步骤S140，获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项，所述需求冗余度为任一初选招聘需求信息项中在已选定的招聘需求信息项的集合中出现的第二需求数据项的个数。

冗余度是指数据的重复度，在本实施例中，需求冗余度是指任一初选招聘需求信息项中在已选定的招聘需求信息项的集合中出现的第二需求数据项的个数。例如，包括以下五个初选招聘需求信息项：第一初选招聘需求信息项、第二初选招聘需求信息项、第三初选招聘需求信息项、第四初选招聘需求信息项和第五初选招聘需求信息项，以上述五个初选招聘需求信息项中的部分第二需求数据项为例进行说明，对于其余部分的第二需求数据项适用相同的原理进行处理。

第一初选招聘需求信息项包括：PC、C++、JAVA、HTML5。

第二初选招聘需求信息项包括：PC、VB、VC、HTML5。

第三初选招聘需求信息项包括：PC、C++、web。

第四初选招聘需求信息项包括：PC。

第五初选招聘需求信息项包括：PC、VB、C++、VC、HTML5。

在本实施例中，已选定的招聘需求信息项的集合中出现的第二需求数据项包括PC、C++、VB、HTML5，已选定的招聘需求信息项的集合中出现的第二需求数据项可以根据职位名称预先设定，也可以在本实施例招聘信息的处理过程中，根据预先设定的算法得到。在确定哪些初选招聘需求信息项可以作为已选定的招聘需求信息项的过程中，已选定的招聘需求信息项的集合中出现的第二需求数据项还可以根据新增加的招聘需求信息项而动态调整。

在本实施例中，第一初选招聘需求信息项的需求冗余度为3，第二初选招聘需求信息项的需求冗余度为3，第三初选招聘需求信息项的需求冗余度为2，第四初选招聘需求信息项的需求冗余度为1，第五初选招聘需求信息项的需求冗余度为4。

当需求冗余度阈值为4时，将第一初选招聘需求信息项、第二初选招聘需求信息项、第三初选招聘需求信息项和第四初选招聘需求信息项加入已选定的招聘需求信息项的集合中，当需求冗余度阈值为3时，将第三初选招聘需求信息项加入已选定的招聘需求信息项的集合中。

采用本实施例提供的招聘信息的处理方法，根据招聘需求数据自动得到选定的招聘需求信息项，相对于人工撰写招聘信息的方式，效率高，人力成本低；同时，选定的招聘需求信息项从预存的招聘信息数据库中来，综合考虑了招聘市场同类职位的招聘信息，客观全面。

实施例二

图2是示出本发明示例性实施例二的招聘信息的处理方法流程图。

参照图2，在上述实施例一的基础上，步骤S210～S230的分别与步骤S110～S130对应，其原理与实施例一相同，不再赘述。

在步骤S240，可以为获取需求冗余度小于预定的冗余度阈值并且职位贡献度超过预定的贡献度阈值的初选招聘需求信息项作为选定的招聘需求信息项，其中，根据所述初选招聘需求信息项中未在已选定的招聘需求信息项的集合中出现的第二需求数据项从预存的职位贡献度数据库获取所述初选招聘需求信息项的职位贡献度的值。

在实施例一步骤S140的基础上，除了根据初选招聘需求信息项的需求冗余度，进一步还根据初选招聘需求信息项的职位贡献度来确定选定的招聘需求信息项。其中，在本实施例中，需求冗余度主要用于评估招聘信息中常规数据项的第二需求数据项是否简洁准确，职位贡献度主要用于评估招聘信息中非常规数据项的第二需求数据项是否全面。

具体的，在本实施例中，根据所述初选招聘需求信息项中未在已选定的招聘需求信息项的集合中出现的第二需求数据项从预存的职位贡献度数据库获取所述初选招聘需求信息项的职位贡献度的值。例如，包括以下五个初选招聘需求信息项：第一初选招聘需求信息项、第二初选招聘需求信息项、第三初选招聘需求信息项、第四初选招聘需求信息项和第五初选招聘需求信息项，以上述五个初选招聘需求信息项中的第二需求数据项为例进行说明。以下所给出的需求冗余度和需求冗余度阈值仅为说明本实施例的原理所给出的参考值，在实际招聘信息处理过程中，可以根据不同的算法或者不同的处理系统，可以有不同的值。

例如，第一初选招聘需求信息项包括PC、C++、JAVA、HTML5、活泼，第二初选招聘需求信息项包括PC、VB、VC、HTML5、篮球,第三初选招聘需求信息项包括PC、C++、web、责任心，第四初选招聘需求信息项包括PC、服从命令，第五初选招聘需求信息项包括PC、VB、C++、VC、HTML5、人缘好。

在本实施例中，已选定的招聘需求信息项的集合中出现的第二需求数据项包括PC、C++、VB、HTML5，已选定的招聘需求信息项的集合中出现的第二需求数据项可以根据职位名称预先设定；或者，也可以在本实施例招聘信息的处理过程中根据预先设定的算法得到；或者，在确定哪些初选招聘需求信息项可以作为已选定的招聘需求信息项的过程中，已选定的招聘需求信息项的集合中出现的第二需求数据项还可以根据新增加的招聘需求信息项而动态调整。

当需求冗余度阈值为4时，将第一初选招聘需求信息项、第二初选招聘需求信息项、第三初选招聘需求信息项和第四初选招聘需求信息项进行下一步职位贡献度计算。或者，当需求冗余度阈值为3时，将第三初选招聘需求信息项进行下一步职位贡献度计算。

预存的职位贡献度数据库可以根据招聘市场同类职位已经入职者的工作情况统计得到。

例如，以下所给出的职位贡献度和职位贡献度阈值仅为说明本实施例的原理所给出的参考值，在实际招聘信息处理过程中，可以根据不同的算法或者不同的处理系统，可以有不同的值。以第一初选招聘需求信息项、第二初选招聘需求信息项、第三初选招聘需求信息项和第四初选招聘需求信息项进行职位贡献度计算的情况为例进行说明：

第一初选招聘需求信息项中的第二需求数据项JAVA和活泼分别计算职位贡献度为1和3，则第一初选招聘需求信息项的职位贡献度为4。

第二初选招聘需求信息项中的第二需求数据项VC和篮球分别计算职位贡献度为1和2，则第二初选招聘需求信息项的职位贡献度为3。

第三初选招聘需求信息项中的第二需求数据项web和责任心分别计算职位贡献度为0和3，则第三初选招聘需求信息项的职位贡献度为3。

第四初选招聘需求信息项中的第二需求数据项服从命令计算职位贡献度为2，则第四初选招聘需求信息项的职位贡献度为2。

当职位贡献度阈值为3时，第一初选招聘需求信息项加入选定的招聘需求信息项的集合中。

采用本实施例提供的招聘信息的处理方法，根据招聘需求数据自动得到选定的招聘需求信息项，且选定的招聘需求信息项综合考虑了第二需求数据项的需求冗余度和职位贡献度，其结果简洁、全面。

实施例三

图3是示出本发明示例性实施例三的招聘信息的处理方法流程图。

参照图3，在上述实施例一的基础上，步骤S310～S330的分别与步骤S110～S130对应，其原理与实施例一相同，不再赘述。

在步骤S340，对于任一所述初选招聘需求信息项，获取其需求冗余度的值和职位贡献度的值，对所述需求冗余度和职位贡献度的值进行加权求和，获得所述初选招聘需求信息项的综合评估值。

在步骤S350，选取获得的综合评估值在预定限值范围内的初选招聘需求信息项作为选定的招聘需求信息项。

与实施例二步骤S240的不同之处在于，实施例二中，先根据初选招聘需求信息项的需求冗余度，在根据初选招聘需求信息项的职位贡献度来确定选定的招聘需求信息项，而本实施例中，是在根据初选招聘需求信息项的需求冗余度的同时，还根据初选招聘需求信息项的职位贡献度来确定选定的招聘需求信息项。

例如，包括以下五个初选招聘需求信息项：第一初选招聘需求信息项、第二初选招聘需求信息项、第三初选招聘需求信息项、第四初选招聘需求信息项和第五初选招聘需求信息项，以上述五个初选招聘需求信息项中的第二需求数据项为例进行说明。以下所给出的需求冗余度和需求冗余度阈值仅为说明本实施例的原理所给出的参考值，在实际招聘信息处理过程中，可以根据不同的算法或者不同的处理系统，可以有不同的值。

第一初选招聘需求信息项包括PC、C++、JAVA、HTML5、活泼，第二初选招聘需求信息项包括：PC、VB、VC、HTML5、篮球，第三初选招聘需求信息项包括：PC、C++、web、责任心，第四初选招聘需求信息项包括：PC、服从命令，第五初选招聘需求信息项包括：PC、VB、C++、VC、HTML5、人缘好。

在本实施例中，已选定的招聘需求信息项的集合中出现的第二需求数据项包括：PC、C++、VB、HTML5，在本实施例中，需求冗余度和职位贡献度的加权系数分别为0.5和0.3，需求冗余度和职位贡献度的加权系数仅为说明本实施例的原理所给出的参考值，在实际招聘信息处理过程中，可以根据不同的算法或者不同的处理系统，可以有不同的值。

在本实施例中，第一初选招聘需求信息项的需求冗余度为3和职位贡献度为4，综合评估值为3*0.5+4*0.3＝2.7。

第二初选招聘需求信息项的需求冗余度为3和职位贡献度为3，综合评估值为3*0.5+3*0.3＝2.4。

第三初选招聘需求信息项的需求冗余度为2和职位贡献度为3，综合评估值为2*0.5+3*0.3＝1.9。

第四初选招聘需求信息项的需求冗余度为1和职位贡献度为2，综合评估值为1*0.5+2*0.3＝1.1。

第五初选招聘需求信息项的需求冗余度为4，其中的第二需求数据项VC和人缘好的职位贡献度分别为1和1，第五初选招聘需求信息项的职位贡献度为2，综合评估值为4*0.5+2*0.3＝2.6。

当预定限值范围为[2,3]时，第一初选招聘需求信息项、第二初选招聘需求信息项和第五初选招聘需求信息项加入选定的招聘需求信息项的集合中。

可选地，从选定的招聘需求信息项中输出任一选定的招聘需求信息项，可以直接将输出的任一选定的招聘需求信息项发送给招聘方的终端设备，也可以通过显示器直接向招聘方显示该输出的任一选定的招聘需求信息项。

可选地，根据预设的输出规则将任一选定的招聘需求信息项组合到招聘信息页面或者招聘信息文档中输出，例如，第一部分为职位描述、第二部分为学历要求、第三部分为专业技能。优选地，在招聘信息处理时，根据第一需求数据项和第二需求数据项中的关键词进行需求冗余度和职位贡献度的计算，可以通过文本算法，将对应关键词的限定词，例如熟练掌握、善于等等与对应的关键词叠加后再输出，例如，选定的招聘需求信息项中的第二需求数据项为“JAVA”，输出的招聘第二需求数据项中对应“熟练掌握JAVA”等等。

实施例四

下面列举一个具体的应用，对上述实施例一、二和三中的招聘信息的处理方法进行说明。

假设招聘信息数据库用X＝[X₁，X₂，...，x_n]表示，最后生成的选定的招聘需求信息项用最优子集S表示，则因此，任一x_i∈X都可以用S重建，即：

&ForAll; x_{i}, x_{i} = f_{i} (S) + {&Element;}_{i}

其中，∈_i用来表征随机性对x_i影响，f_i(S)即是数据重建函数，可以采用的方法包括但不限于矩阵重建，即f_i(Xdiag(β))＝(Xdiag(β))^Ta_i。在此，用β_i表征x_i是否属于S。当x_i∈S时，β_i＝1，否则β_i＝0，a_i是一个用于重构的相关系数。因此，本发明的技术目标便可以形式化地描述为：

s . t . β &Element; {0, 1}^{n}, Σ_{i = 1}^{n} β_{i} = m, m &Element; N^{+}

其中，m表示子集S的大小，g()表示距离函数，包括但不限于欧式距离，L1距离等。在本实施例中，g()表示相似度。u()则是子集S的特征函数，在本实施例中，u()被用来表征S的需求冗余度，包括但不限于信息熵、皮尔森系数、欧氏距离、KL距离等。

最后，我们可以获取一个有m个招聘信息点构成子集S，然后根据预先设定好的输出规则(例如先输出岗位描述，再输出学历要求，最后专业技能要求)进行招聘信息生成。

优选地，在上述应用的基础上，计算得到最优子集S在计算相似度和需求冗余度的基础上，还可以进一步计算职位贡献度。例如，其计算方式可以为：在本实施例中，令关键词为D，匹配度为关键词的函数f(D)，相似度、需求冗余度、职位贡献度分别为关键词的函数f₁(D)、f₂(D)、f₃(D)，则f(D)＝ω₁f₁(D)+ω₂f₂(D)+ω₃ )其中，ω₁、ω₂、ω₃分别是相似度、需求冗余度、职位贡献度的权重，该权重表示相似度、需求冗余度、职位贡献度相对于匹配度的重要程度，ω₁越高、ω₂越低、ω₃越高则匹配度f(D)越高。优选地，该权重的值是根据数据库的总体统计评价而设定的，数据库在不断地更新，则该权重值也在日渐趋于完善。

在具体应用中，以招聘需求数据为：Web前端、2年工作经验和JavaScript为例进行说明，采用上述实施例中招聘信息的处理方法后，终端设备展示的招聘信息的示例参见表1。该招聘信息中的职位名称为：Web前端；摘要信息为：6000-12000/北京/经验1-3年/本科及以上/全职；职位描述为：负责市场活动PC或Mobile网站的开发和负责HTML5等前言技术的研究；职位要求为：精通JavaScript、Ajax等Web技术、主动性好、学习能力强、热爱互联网者优先、熟悉W3C标准，对表现与数据分离等有较深刻的理解以及熟练使用HTML5/CSS3、HTML/XHTML、CSS等网页制作技术，熟悉页面架构和布局。

表1招聘信息示例

实施例五

参照图4，示例性实施例五的招聘信息的处理装置包括获取单元410、提取单元420、匹配单元430和选定单元440。

获取单元410用于获取招聘需求数据。

提取单元420用于从所述招聘需求数据提取第一需求数据项。

匹配单元430用于从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项，所述招聘信息数据库中的招聘需求信息项包括多个第二需求数据项。

选定单元440用于获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项，所述需求冗余度为任一初选招聘需求信息项中在已选定的招聘需求信息项的集合中出现的第二需求数据项的个数。

可选地，选定单元440还用于获取需求冗余度小于预定的冗余度阈值并且职位贡献度超过预定的贡献度阈值的初选招聘需求信息项作为选定的招聘需求信息项，其中，根据所述初选招聘需求信息项中未在已选定的招聘需求信息项的集合中出现的第二需求数据项从预存的职位贡献度数据库获取所述初选招聘需求信息项的职位贡献度的值。

可选地，选定单元440包括：评估子单元(图中未示出)，用于对于任一所述初选招聘需求信息项，获取其需求冗余度的值和职位贡献度的值，对所述需求冗余度和职位贡献度的值进行加权求和，获得所述初选招聘需求信息项的综合评估值；选定子单元(图中未示出)，用于选取获得的综合评估值在预定限值范围内的初选招聘需求信息项作为选定的招聘需求信息项。

可选地，所述装置还包括：抓取单元(图中未示出)，用于从网络抓取已发布的招聘需求网页的信息；格式化单元(图中未示出)，用于分别将所述招聘需求网页的内容进行格式化；存储单元(图中未示出)，用于将格式化的招聘需求网页的内容存储到所述招聘信息数据库。

可选地，所述格式化单元包括：向量子单元(图中未示出)，用于将所述招聘需求网页中的文本内容构建成对应的文本向量；存储子单元(图中未示出)，用于将所述对应的文本向量存储到数据字典中。

可选地，匹配单元430包括：第一匹配子单元(图中未示出)，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相同的初选招聘需求信息项；第二匹配子单元(图中未示出)，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相似度大于相似度阈值的初选招聘需求信息项；第三匹配子单元(图中未示出)，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括涵盖第一需求数据项的值的初选招聘需求信息项。

进一步地，所述装置还包括：显示单元(图中未示出)，用于显示任一选定的招聘需求信息项。

本发明实施例提供的招聘信息的处理装置，根据招聘需求数据自动得到选定的招聘需求信息项，相对于人工撰写招聘信息的方式，效率高，人力成本低；同时，选定的招聘需求信息项从预存的招聘信息数据库中来，综合考虑了招聘市场同类职位的招聘信息，客观全面。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CDROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种招聘信息的处理方法，其特征在于，所述方法包括：

获取招聘需求数据；

从所述招聘需求数据提取第一需求数据项；

从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项，所述招聘信息数据库中的招聘需求信息项包括多个第二需求数据项；

获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项，所述需求冗余度为任一初选招聘需求信息项中在已选定的招聘需求信息项的集合中出现的第二需求数据项的个数。

2.根据权利要求1所述的方法，其特征在于，所述获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项包括：

获取需求冗余度小于预定的冗余度阈值并且职位贡献度超过预定的贡献度阈值的初选招聘需求信息项作为选定的招聘需求信息项，其中，根据所述初选招聘需求信息项中未在已选定的招聘需求信息项的集合中出现的第二需求数据项从预存的职位贡献度数据库获取所述初选招聘需求信息项的职位贡献度的值。

3.根据权利要求2所述的方法，其特征在于，所述获取需求冗余度小于预定的冗余度阈值并且职位贡献度超过预定的贡献度阈值的初选招聘需求信息项作为选定的招聘需求信息项的处理包括：

对于任一所述初选招聘需求信息项，获取其需求冗余度的值和职位贡献度的值，对所述需求冗余度和职位贡献度的值进行加权求和，获得所述初选招聘需求信息项的综合评估值；

选取获得的综合评估值在预定限值范围内的初选招聘需求信息项作为选定的招聘需求信息项。

4.根据权利要求1～3中任一项所述的方法，其特征在于，所述方法还包括：

从网络抓取已发布的招聘需求网页的信息；

分别将所述招聘需求网页的内容进行格式化；

将格式化的招聘需求网页的内容存储到所述招聘信息数据库。

5.根据权利要求4所述的方法，其特征在于，所述将所述招聘需求网页的内容进行格式化包括：

将所述招聘需求网页中的文本内容构建成对应的文本向量；

将所述对应的文本向量存储到数据字典中。

6.根据权利要求1所述的方法，其特征在于，所述从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项包括：

从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相同的初选招聘需求信息项；并且/或者，

从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相似度大于相似度阈值的初选招聘需求信息项；并且/或者，

从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括涵盖第一需求数据项的值的初选招聘需求信息项。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

显示任一选定的招聘需求信息项。

8.一种招聘信息的处理装置，其特征在于，所述装置包括：

获取单元，用于获取招聘需求数据；

提取单元，用于从所述招聘需求数据提取第一需求数据项；

匹配单元，用于从预存的招聘信息数据库中获取与所述第一需求数据项的值匹配的多个初选招聘需求信息项，所述招聘信息数据库中的招聘需求信息项包括多个第二需求数据项；

选定单元，用于获取需求冗余度小于预定的冗余度阈值的初选招聘需求信息项作为选定的招聘需求信息项，所述需求冗余度为任一初选招聘需求信息项中在已选定的招聘需求信息项的集合中出现的第二需求数据项的个数。

9.根据权利要求8所述的装置，其特征在于，

所述选定单元还用于获取需求冗余度小于预定的冗余度阈值并且职位贡献度超过预定的贡献度阈值的初选招聘需求信息项作为选定的招聘需求信息项，其中，根据所述初选招聘需求信息项中未在已选定的招聘需求信息项的集合中出现的第二需求数据项从预存的职位贡献度数据库获取所述初选招聘需求信息项的职位贡献度的值。

10.根据权利要求9所述的装置，其特征在于，所述选定单元包括：

评估子单元，用于对于任一所述初选招聘需求信息项，获取其需求冗余度的值和职位贡献度的值，对所述需求冗余度和职位贡献度的值进行加权求和，获得所述初选招聘需求信息项的综合评估值；

选定子单元，用于选取获得的综合评估值在预定限值范围内的初选招聘需求信息项作为选定的招聘需求信息项。

11.根据权利要求8～10中任一项所述的装置，其特征在于，所述装置还包括：

抓取单元，用于从网络抓取已发布的招聘需求网页的信息；

格式化单元，用于分别将所述招聘需求网页的内容进行格式化；

存储单元，用于将格式化的招聘需求网页的内容存储到所述招聘信息数据库。

12.根据权利要求11所述的装置，其特征在于，所述格式化单元包括：

向量子单元，用于将所述招聘需求网页中的文本内容构建成对应的文本向量；

存储子单元，用于将所述对应的文本向量存储到数据字典中。

13.根据权利要求8所述的装置，其特征在于，所述匹配单元包括：

第一匹配子单元，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相同的初选招聘需求信息项；

第二匹配子单元，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括与第一需求数据项的值相似度大于相似度阈值的初选招聘需求信息项；

第三匹配子单元，用于从所述预存的招聘信息数据库中获取所述第二需求数据项的值中包括涵盖第一需求数据项的值的初选招聘需求信息项。

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：

显示单元，用于显示任一选定的招聘需求信息项。