CN107818134A

CN107818134A - 一种职位相似度计算方法、客户端以及服务器

Info

Publication number: CN107818134A
Application number: CN201710877437.7A
Authority: CN
Inventors: 姜海峰; 周玉刚
Original assignee: Beijing Nnman Network Technology Co Ltd
Current assignee: Beijing Nnman Network Technology Co Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-03-20

Abstract

本发明公开了一种职位相似度计算方法、客户端以及服务器，方法包括：对职位信息向量化，得到职位向量，根据所述职位向量计算所述职位的相似度，根据相似度进行职位检索，返回职位检索结果。本发明通过利于NLP和机器学习的手段，提供了一种检索服务器，可基于职位向量化提供检索服务接口，提高了职位匹配的效率和准确率。

Description

一种职位相似度计算方法、客户端以及服务器

技术领域

本发明涉及计算机软件、自然语言处理领域，特别涉及一种检索服务器、职位客户端以及实现方法。

背景技术

数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后便成为信息。具体地，数据处理是对数据的采集、存储、检索、加工、变换和传输。

在很多的数据处理应用中经常需要比较两个职位之间的关系，或者需要对某个类型的职位进行检索。这种职位之间的相似度计算和检索大多通过职位名称直接获得，具体而言是利用两个字符串的相似程度来确定两个职位之间的相似关系，而职位的检索则根据职位名称中是否包含某个词语作为符合条件的搜索职位库。这种通过比较字符串的方式利用的信息比较少，得到的职位相似度准确度很低，用户体验较差。

自然语言处理，Natural Language Processing，是计算机科学领域与人工智能领域中的一个重要方向。而且目前在自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

发明内容

本发明要解决的技术问题是，通过利于NLP和机器学习的手段，提供了一种检索服务器，可基于职位内容向量化提供检索服务接口，提高了职位匹配的效率和准确率。

本发明还提供了职位客户端，用户通过职位客户端，可快速获得属于某一个职位类型的职位列表或者某一个职位的相似职位列表。

解决上述技术问题，本发明提供了一种职位相似度计算方法，包括如下步骤：

对职位信息向量化，得到职位向量，

根据所述职位向量计算所述职位的相似度，

根据相似度进行职位检索，返回职位检索结果。

采用基于词向量和统计信息相结合的文本向量化方法，即具有词向量容易生成和量化的特点，又具有文本统计信息快捷高效的特点，提高了职位向量的生成效率。

利用职位描述文本的向量化方法获得职位的向量，进而获得职位的相似度，相对于传统方法减少了人工干预，提高了职位匹配的效率和准确率，对新产生的职位类型具有更好的适用性。

利用职位向量的相似度作为度量构建相关职位的检索系统，克服了关键词搜索因为同义词、近义词导致的错误信息，提高了检索效率。

更进一步，方法还包括：对所述职位信息进行统计信息处理，

统计出所述职位信息中的词频信息和相应的词频组合。

更进一步，方法还包括：根据词语特性和/或句子类型的权重过滤掉所述职位信息中无关的词句。

更进一步，通过职位向量的距离计算得到所述相似度。

在本发明中还提供了客户端，包括：第一单元和第二单元，

所述第一单元，用以提供职位检索窗口，

所述第二单元，用以根据所述职位检索窗口，完成所述职位的相似度计算，所述相似度计算由所述职位向量求得，所述职位向量由职位信息向量化得到。

更进一步，所述职位信息包括：职位名称或职位描述。

更进一步，通过预设职位类型进行检索时，将职位根据职位类型做分类并保存在本地或远端数据库中。

更进一步，通过输入某一职位名称进行检索时，返回与该职位相似度高于设定门限的所有职位，同时根据所述职位的相似度排序输出一职位名称列表。

在本发明中还提供了服务器，包括：向量化单元、相似度计算单元以及检索单元，

所述向量化单元，用以对职位信息向量化，得到职位向量，

所述相似度计算单元，用以根据所述职位向量计算所述职位的相似度，

所述检索单元，用以根据相似度进行职位检索，返回职位检索结果。

更进一步，服务器还包括：预设职位类型检索接口或任一职位名检索接口。

本发明的有益效果：

1)通过本发明中的职位检索方法，可利用对职位信息向量化，得到职位向量，进一步根据所述职位向量计算所述职位的相似度。此外，在预处理部分还通过垂直领域的语料训练词向量得到与所述职位信息的统计信息结合，并对职位信息进行向量化。更进一步地，在本发明的方法中还包括了职位信息中文本的过滤和权重的调整。对于职位向量的生成中，除了一些统计信息调整词语向量在合成职位向量中的权重外，可以加入词性和句子的权重信息，从而可以降低虚词和无效文本的影响。此外，通过本发明中的职位相似度计算，可适用于职位检索、岗位匹配等实际运用中。

2)本发明中的服务器，根据已有的人工标注的职位类型数据，再利用机器学习的方法生成职位向量时的词向量加权系数。

3)本发明的方法，通过预设职位类型进行检索时，将职位根据职位类型做分类并保存在本地或远端数据库中。或者，通过输入某一职位名称进行检索时，返回与该职位相似度高于设定门限的所有职位，同时根据所述职位的相似度排序输出一职位名称列表，支持两种方式的检索，并输出所需的职位结果。

附图说明

图1是本发明一实施例中的职位相似度计算方法流程示意图；

图2是本发明一实施例中的客户端结构示意图；

图3是本发明一实施例中的服务器结构示意图；

图4是本发明的整体实现流程示意图。

具体实施方式

现在将参考一些示例实施例描述本公开的原理。可以理解，这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述，而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。

如本文中所述，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。

请参考图1是本发明一实施例中的职位相似度计算方法流程示意图，本实施例中具体包括：

步骤S1对职位信息向量化，得到职位向量，具体而言，需要对目前招聘中的职位数据的收集整理，需要的数据包括但不限于，职位名称和职位描述两部分。职位名称是指，对于垂直领域中具体职位的名称，比如计算机相关的，JAVA工程师、数据库工程师、前端工程师。对应的，有相关的职位描述，职业描述包括但不限于，岗位职责、任职要求、工作地点等。

职位名称	岗位职责	任职要求	工作地点
				JAVA工程师	A/B/C/D	E/F/G/H	Beijing
数据库工程师	A1/B1/C1/D1	E1/F1/G1/H1	Shanghai
				前端工程师	A2/B2/C2/D2	E2/F2/G2/H2	shenzhen

通过相关的数据集设置职位信息，同时需要对职位数据做清洗，剔除招聘数量太少，职位描述中缺少规范的职位描述文本的职位。作为本实施例中的优选，还包括：对所述职位信息进行统计信息处理，主要是统计出所述职位信息中的词频信息和相应的词频组合。

在一些实施例中，词频加权包括但不限于TF-IDF，TFC，熵权重等。TF-IDF(termfrequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

在一些实施例中，职位向量过程中还包括：根据词语特性和/或句子类型的权重过滤掉所述职位信息中无关的词句。比如，可以采用最小词频阈值方法。句子类型的权重首选需要计算句子权重，包括内容、位置、长度、是否含有线索词、是否是用户关注的内容等，采用加权和计算出句子权重。

具体而言，上述职位向量求解时利用文本向量化产生职位的向量，文本向量化的过程采用词语向量化(word embedding)和文本的统计信息以及相关的过滤策略结合加权求和得到。比如，统计信息主要是文档中的词频信息以及相应的组合。除了统计信息外，还需要根据词语本身的特点和句子类型加权过滤掉无关的词句。又比如，词语的权重需要根据词性和词义两方面来确定，对于职位描述中的地名、人名等都需要降低在生成职位向量时的权重。再比如，句子的权重的获得需要对句子训练分类器，分类器输出的概率值为相应句子的权重值。在实际流程中可以提前对文本进行过滤，相当于加权系数为0或者1，只有权值为1的进入后续的加权求和处理。

步骤S2根据所述职位向量计算所述职位的相似度，通过职位向量的距离计算得到所述相似度。职位相似度关系的度量和关联分析，职位的相似程度可以通过向量的距离计算得到。职位向量距离的度量准则包括但不限于，余弦距离(向量夹角的余弦值)，欧几里得距离等等。

步骤S3根据相似度进行职位检索，返回职位检索结果。在一些实施例中，通过预设职位类型进行检索时，将职位根据职位类型做分类并保存在本地或远端数据库中。所述预设职位类型的检索具体是指，将所有的职位根据职位类型做分类并保存在数据库中，输入职位类型时可以快速返回该职位类型包含的所有职位。预设的职位类型需要人工设定或者通过职位向量的聚类得到，解决了关键词搜索因为同义词、近义词而导致的错误/重复信息，提高了检索效率。

在一些实施例中，采用K-means聚类方法。

在一些实施例中，采用支持向量机SVM聚类方法。

在一些实施例中，通过输入某一职位名称进行检索时，返回与该职位相似度高于设定门限的所有职位，同时根据所述职位的相似度排序输出一职位名称列表。输入某一种职位名称，然后返回与该职位相似度高于某一门限的所有职位，为了加快检索速度需要存储部分常见职位的相似职位或者职位类型包含的职位列表，利用启发式算法找到职位名称列表，然后再根据职位的相似度排序输出。启发式算法(Heuristic Algorithm)，一个基于直观或经验构造的算法，在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解。比如，可以是A*搜索算法。

请参考图2是本发明一实施例中的客户端结构示意图，本实施例中客户端，包括：第一单元11和第二单元12，所述第一单元11，用以提供职位检索窗口，所述第二单元12，用以根据所述职位检索窗口，完成所述职位的相似度计算，所述相似度计算由所述职位向量求得，所述职位向量由职位信息向量化得到。

本实施例中的客户端还提供了显示窗口，通过预设职位类型进行检索时，将职位根据职位类型做分类并保存在本地或远端数据库中。

本实施例中的客户端还提供了显示窗口，通过输入某一职位名称进行检索时，显示返回与该职位相似度高于设定门限的所有职位，同时根据所述职位的相似度排序输出一职位名称列表。

通过本实施例中的客户端，可快速获得属于某一个职位类型的职位列表或者某一个职位的相似职位列表。

请参考图3是本发明一实施例中的服务器结构示意图，服务器，其特征在于，包括：向量化单元20、相似度计算单元21以及检索单元22，所述向量化单元20，用以对职位信息向量化，得到职位向量，所述相似度计算单元21，用以根据所述职位向量计算所述职位的相似度，所述检索单元22，用以根据相似度进行职位检索，返回职位检索结果。

优选地，服务器还包括：预设职位类型检索接口或任一职位名检索接口，通过预设职位类型检索接口，将职位根据职位类型做分类并保存在本地或远端数据库中。

优选地，通过任一职位名检索接口，返回与该职位相似度高于设定门限的所有职位，同时根据所述职位的相似度排序输出一职位名称列表。

在一些实施例中，所述向量化单元20还用以，：对所述职位信息进行统计信息处理，统计出所述职位信息中的词频信息和相应的词频组合。

在一些实施例中，所述向量化单元20还用以，根据词语特性和/或句子类型的权重过滤掉所述职位信息中无关的词句。

在一些实施例中，所述向量化单元20还用以，通过职位向量的距离计算得到所述相似度。

请参考图4是本发明的整体实现流程示意图，首先需要对职位信息进行预处理，在预处理的职位信息中至少包括了：职位名称和职位描述两部分。职位名称作为标签，职位描述作为与标签相关的自然语言描述，比如岗位职责、任职要求、工作地点等。还需要对职位数据做清洗，剔除招聘数量太少，职位描述中缺少规范的职位描述文本的职位。通过word2vec工具得到的训练结果即为：词向量(word embedding)，可以很好地度量词与词之间的相似性。语言模型选用：CBoW模型，或者Skip-gram模型。优选地，还需要对所述职位信息进行统计信息处理，统计出所述职位信息中的词频信息和相应的词频组合。

优选地，还包括：根据词语特性和/或句子类型的权重过滤掉所述职位信息中无关的词句。词语特性即依靠词语权重，句子类型即依靠句子权重，可过滤无关词句。通过对文本的过滤和权重的调整。对于职位向量的生成中，除了一些统计信息调整词语向量在合成职位向量中的权重外，可以加入词性和句子的权重信息，降低虚词和无效文本的影响。通过已有的人工标注的职位类型数据，利用机器学习的方法生成职位向量时的词向量加权系数。比如，句子的权重的获得需要对句子训练分类器，分类器输出的概率值为相应句子的权重值。在实际流程中可以提前对文本进行过滤，相当于加权系数为0或者1，只有权值为1的进入后续的加权求和处理。职位向量后根据所述职位向量计算所述职位的相似度，根据相似度进行职位检索，返回职位检索结果。返回职位检索结果时，通过预设职位类型进行检索时，将职位根据职位类型做分类并保存在本地或远端数据库中。返回职位检索结果时，通过输入某一职位名称进行检索时，返回与该职位相似度高于设定门限的所有职位，同时根据所述职位的相似度排序输出一职位名称列表。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

总体而言，本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施，而其它一些方面可以以固件或软件实施，该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示，但是可以理解本文描述的框、设备、系统、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。

此外，虽然操作以特定顺序描述，但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行，或是要求所有所示的操作被执行以实现期望结果。在一些情形下，多任务或并行处理可以是有利的。类似地，虽然若干具体实现方式的细节在上面的讨论中被包含，但是这些不应被解释为对本公开的范围的任何限制，而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对，在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。

Claims

1.一种职位相似度计算方法，其特征在于，包括如下步骤：

对职位信息向量化，得到职位向量，

根据所述职位向量计算所述职位的相似度，

根据相似度进行职位检索，返回职位检索结果。

2.根据权利要求1所述的职位相似度计算方法，其特征在于，还包括：对所述职位信息进行统计信息处理，

统计出所述职位信息中的词频信息和相应的词频组合。

3.根据权利要求1所述的职位相似度计算方法，其特征在于，还包括：根据词语特性和/或句子类型的权重过滤掉所述职位信息中无关的词句。

4.根据权利要求1所述的职位相似度计算方法，其特征在于，所述职位信息包括：职位名称或职位描述。

5.根据权利要求1所述的职位相似度计算方法，其特征在于，通过职位向量的距离计算得到所述相似度。

6.客户端，其特征在于，包括：第一单元和第二单元，

所述第一单元，用以提供职位检索窗口，

7.根据权利要求6所述的客户端，其特征在于，通过预设职位类型进行检索时，将职位根据职位类型做分类并保存在本地或远端数据库中。

8.根据权利要求6所述的客户端，其特征在于，通过输入某一职位名称进行检索时，返回与该职位相似度高于设定门限的所有职位，同时根据所述职位的相似度排序输出一职位名称列表。

9.服务器，其特征在于，包括：向量化单元、相似度计算单元以及检索单元，

所述向量化单元，用以对职位信息向量化，得到职位向量，

10.根据权利要求9所述的服务器，其特征在于，还包括：预设职位类型检索接口或任一职位名检索接口。