CN116595973B

CN116595973B - 一种基于自然语言处理分类技术的岗位职能识别方法

Info

Publication number: CN116595973B
Application number: CN202310566855.XA
Authority: CN
Inventors: 陈聪; 蔡宗山; 朱晓海
Original assignee: Guangdong Vocational Education Bridge Data Technology Co ltd
Current assignee: Guangdong Vocational Education Bridge Data Technology Co ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-10-03
Anticipated expiration: 2043-05-19
Also published as: CN116595973A

Abstract

本发明提供一种基于自然语言处理分类技术的岗位职能识别方法，利用人工智能自然语言处理技术有效解决筛选方式简单、人力成本高、准确度低等问题；利用长短期记忆解决长序列训练过程中的梯度消失和梯度爆炸问题，通过对文本序列的不断迭代有选择继承历史信息以获得当前更好的语义表征，所以其能够在更长的序列中有更好的表现；采用attention机制的作用是给不同的词或字分配不同的注意力，解决重要词的信息会被抑制，关键的语义特征丢失，造成信息损失的问题；因此基于自然语言处理分类技术的岗位职能识别的AI匹配技术具有全面科学客观性、快速高效、精准度高的优点。

Description

一种基于自然语言处理分类技术的岗位职能识别方法

技术领域

本发明涉及AI匹配技术领域，尤其涉及一种基于自然语言处理分类技术的岗位职能识别方法。

背景技术

现有技术中，企业可以将职位信息发布在第三方的人才招聘网站上。求职者可以通过在人才招聘网站上浏览职位信息来寻求合适的工作。其中，该职位信息除了包括了学历要求、工作年限、工作地点、公司类型等之外，还包括了描述岗位职责的岗位信息。但是现在技术不断更新，职教方为了更好的促进学员就业，就要深入了解企业发布的招聘信息中的技能要求，对一些招聘动态进行实时筛选，才能够保证培训机构第一时间了解当前招聘信息的更新动态；同样的，企业如果想招聘人才，也需要了解掌握哪些技能可以胜任该工作以及市场的薪资情况。

通常，职位是指企业中由特定的人所承担的一个或数个工作，岗位是指职位所承担的工作的类别，职位都有其所属的岗位。例如岗位可以为产品经理、研发工程师、销售助理等，属于产品经理岗位下的职位例如可以为某某企业提供的互联网产品经理职位、某某企业提供的高级产品经理职位等。

目前对于如何从重多的招聘信息中筛选出岗位，只能通过人工的方式或一些简单的筛选方式过滤数据，通过这种方式不是耗费过多的人力成本就是准确度不高，无法快速高效准确的采集大量相关数据。

因此，有必要提供一种基于自然语言处理分类技术的岗位职能识别的方法，可以对招聘数据快速高效大量的进行岗位识别，并保证数据的准确性。

发明内容

本发明的目的在于提出基于游戏外设操控交互引擎的优化方法与系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

一种基于自然语言处理分类技术的岗位职能识别方法，包括以下步骤：

S1、对招聘信息的输入进行预处理；

S2、对预处理后的招聘信息确定规则识别；

S3、通过规则对岗位职能进行识别和筛选，得到候选集；

S4、对所述候选集进行过滤；

S5、对所述职能进行打分，并根据同职能关系进行重定向，输出岗位列表。

进一步地，在步骤S1中，所述预处理包括：

S101：基本转换，矢量计算，核心关键词提取等，所述基本转换为将岗位职能报表中的文字转小写与转为半角操作；

S102：对招聘信息进行清洗，具体步骤为：

S1021：去除岗位职能中的后缀，保留职位要求和职位描述，去除薪资福利、公司简介等；

S1022：采用fasttext对招聘信息中的句子进行分类，对职位介绍、薪资福利、岗位要求等进行分类；

S103：对行业人才需求信息的岗位名称及职位描述进行数据预处理采用ICTCLAS分词器，可将数据的文字进行分词处理；

S104：将所述title与全文中的关键词进行筛选并构建序列titleist、fullist，所述titleist为title关键词序列，所述fullist为全文关键词序列，统计序列titleist与序列fullist的关键词总量T和L，计算关键词权重比例，所述titleist_K和titleist_K+1分别为序列titleist中第k位和第k+1位元素，所述fullist_K和fullist_K+1分别为序列fullist中第k位和第k+1位元素，指标权重计算，根据给定的r_k和l_k赋值，可以得到title与全文中关键词的权重值Q，/> 所述Q1为title的权重值，Q2为全文的权重值，根据权重值Q1、Q2选择title中权重最高的2个词和全文中权重最高的5个词，将这7个词命名为核心关键词，所述title为招聘信息的标题,所述全文即为招聘信息中的除标题外的内容，对输入计算Word2Vec矢量。

所述计算Word2Vec矢量的方法为：通过所述title与全文中的关键词的权重值构建权重矩阵，通过所述权重矩阵基于TextRank算法将所述title与全文中的关键词得到关键词的词向量，并将所述关键词的词向量定义为p(x，y)，所述x表示title关键词的权重值，所述y表示全文关键词权重值，并根据所述的关键词的词向量p(x，y)计算核心关键词的客观权重，计算关键词的信息熵，计算公式为：

其中，e_i表示第i个关键词的信息熵，p表示关键词个数；

计算评价指标熵权，计算公式为：

进而可以得到核心关键词的客观权重向量Y＝(y₁，y₂，…,y_p)，对所述主观权重和客观权重向量进行优化拟合，得到综合权重矩阵z_i，计算公式为：

计算得到综合权重矩阵Z＝(z₁，z₂，…,z_p)，通过所述权重矩阵Z＝(z₁，z₂，…,z_p)计算得到Word2Vec矢量。

优选的，所述人才需求信息的数据包括：人才简历、人才问卷、人才在系统中的登录日志信息的一种或多种，人才属性包括：年龄、性别、地区、婚姻状况、学历、专业、毕业院校、工作年限中的一种或多种，所述岗位名称的目标数据源为：招聘网站、大小型企业、人社局网站的岗位版块，以及编制招考信息。

优选的，K-MEANS聚类可计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心，聚类中心以及分配给他们的对象代表一个聚类，将岗业类别进行逐一分配聚类，便于人才与企业最优匹配。

进一步地，所述确认规则的具体步骤为：确定规则分为title命中确定规则和全文命中确定规则，所述title或全文中包含核心关键词时直接将其识别为对应的职能。

进一步地，在步骤S4中，候选集拉取：根据所述核心关键词拉取标所述招聘信息的全文倒排获得候选职能；

用预处理里面的7个核心关键词拉取关键词，全选所述候选职能，职能的倒排索引获取相关的候选职能，选取关键词对职能的倒排索引构建是基于库内JD和简历进行统计，取每个职能下信息相关度pmi>3的词，所述pmi为职能相关度指数，最终候选集为通过对信息相关度的拉取的候选集和所述规则命中的并集；

候选集过滤，具体步骤为：

S401：职能核心关键词命中过滤：通过核心关键词命中过滤：每个职能预定义了必须命中的关键词，将所述最重候选集通过核心关键词过滤，若招聘信息中的title和全文都没有命中该职能的所有核心关键词，则强制过滤，被规则命中的候选职能则不属于被核心关键词命中的范围，所以不需要强制过滤；

S402：否定词过滤：基于词向量预训练模型及词性分析，抽取各职能名称中的动词词组与输入title中的动词词组进行词向量相似度分析，相似度低于0.5则视为否定词直接进行进行过滤，触发了否定词规则则直接过滤，用于过滤掉明显互斥的结果；

S403：英文核心词过滤：当输入title和职能中都有英文关键词且英文关键词失配的时候，直接过滤；

S404、相似性过滤：结合全文矢量对候选职能计算相似性，title与全文中Word2Vec矢量相似性低于0.5的直接进行过滤。

进一步地，在步骤S5中，打分排序：对通过过滤的候选职能进行打分排序，取分数最高者，通过上一步过滤的候选职能集合进行打分，打分考虑了下列因素：

title命中的关键词及权重；

输入全文中的wordvec和职能的wordvec之间的相似度；

输入全文中的关键词矢量和职能的关键词矢量的相似度；

输入全文中命中职能核心技能的数量；

输入title和职能的文本重合率；

职能本身属性：热度、是否有行业属性等；

判断是否是被规则命中；

英文核心词是否命中；

最终结果重定向：根据同职能关系进行重定向，输入关联阈值，大于此阈值的数据输出，得到一个岗位列表，从而实现岗位职能识别AI匹配技术。

本发明提供一种基于自然语言处理分类技术的岗位职能识别的方法、系统，

1、本发明提供一种基于自然语言处理分类技术的岗位职能识别的方法、系统，利用人工智能自然语言处理技术有效解决筛选方式简单、人力成本高、准确度低等问题；因此基于自然语言处理分类技术的岗位职能识别的AI匹配技术具有全面科学客观性、快速高效、精准度高的优点；

2、本发明通过利用长短期记忆解决长序列训练过程中的梯度消失和梯度爆炸问题；

3、本发明通过采用attention机制的作用是给不同的词或字分配不同的注意力，解决重要词的信息就会被抑制，关键的语义特征丢失，造成信息损失的问题；

本发明通过对文本序列的不断迭代有选择继承历史信息以获得当前更好的语义表征，所以其能够在更长的序列中有更好的表现。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1为一种基于自然语言处理分类技术的岗位职能识别方法的流程图；

图2为一种基于自然语言处理分类技术的岗位职能识别方法的数据预处理流程图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

如图1所示，一种基于自然语言处理分类技术的岗位职能识别方法，包括以下步骤：

S1、对招聘信息的输入进行预处理；

S2、对预处理后的招聘信息确定规则识别；

S3、通过规则对岗位职能进行识别和筛选，得到候选集；

S4、对所述候选集进行过滤；

进一步地，如图2所示，在步骤S1中，所述预处理包括：

S102：对招聘信息进行清洗，具体步骤为：

其中，e_i表示第i个关键词的信息熵，p表示关键词个数；

计算评价指标熵权，计算公式为：

优选地，例如出现“语义匹配”则一定属于自然语言处理。该规则映射表主要基于人工经验和发现的badcase来补充维护，尽可能确保高准确率和高区分度，这一步可以命中的职能在后续过滤阶段不会被过滤掉。

候选集过滤，具体步骤为：

优选地，例如java开发工程师的必中关键词为java，电器销售的必中关键词为电器和销售；

优选地，否定词规则形如title出现某关键词，则职能名肯定不出现某关键词的形式，例如如果title出现研发，则结果肯定不会是销售。

优选地，这步过滤可有效避免出现将php工程师识别为java工程师的情况；

title命中的关键词及权重；

输入全文中的wordvec和职能的wordvec之间的相似度；

输入全文中的关键词矢量和职能的关键词矢量的相似度；

输入全文中命中职能核心技能的数量；

输入title和职能的文本重合率；

职能本身属性：热度、是否有行业属性等；

判断是否是被规则命中；

英文核心词是否命中；

优选地，各因素在进行标准化后按以下权重进行综合打分：

Title关键词：0.23；

文本相似度：0.0834；

关键词相似度：0.1817；

核心技能数：0.0696；

Title重合率：0.1771；

职能属性：0.0735；

规则命中：必须满足项，不参与实际计算；

英文核心关键词：0.1847。

与相关技术相比较，本发明提供的基于自然语言处理分类技术的岗位职能识别技术具有如下有益效果：发明提供一种基于自然语言处理分类技术的岗位职能识别的方法、系统，利用人工智能自然语言处理技术有效解决筛选方式简单、人力成本高、准确度低等问题；因此基于自然语言处理分类技术的岗位职能识别的AI匹配技术具有全面科学客观性、快速高效、精准度高的优点。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

1.一种基于自然语言处理分类技术的岗位职能识别方法，其特征在于，包括以下步骤：

S1、对招聘信息的输入进行预处理；

S2、对预处理后的招聘信息确定规则识别；

S3、通过规则对岗位职能进行识别和筛选，得到候选集；

S4、对所述候选集进行过滤；

S5、对所述职能进行打分，并根据同职能关系进行重定向，输出岗位列表；

在步骤S1中，所述预处理包括：

S101：基本转换，矢量计算，核心关键词提取，基本转换为将岗位职能报表中的文字转小写与转为半角操作；

S102：对招聘信息进行清洗，具体步骤为：

S1021：去除岗位职能中的后缀，保留职位要求和职位描述，去除薪资福利、公司简介；

S1022：采用fasttext对招聘信息中的句子进行分类，对职位介绍、薪资福利、岗位要求进行分类；

S103：对行业人才需求信息的岗位名称及职位描述进行数据预处理采用ICTCLAS分词器，将数据的文字进行分词处理；

S104：将title与全文中的关键词进行筛选并构建序列titleist、fullist，所述titleist为title关键词序列，所述fullist为全文关键词序列，统计序列titleist与序列fullist的关键词总量T和L，计算关键词权重比例，=/>，/>，所述和/>分别为序列titleist中第k位和第k+1位元素，所述/>和分别为序列fullist中第k位和第k+1位元素，指标权重计算，根据给定的/>和/>赋值，得到title与全文中关键词的权重/>，/>,，所述/>为title的权重值，Q2为全文的权重值，根据权重值Q1、Q2选择title中权重最高的2个词和全文中权重最高的5个词，将这7个词命名为核心关键词，所述title为招聘信息的标题,所述全文即为招聘信息中的除标题外的内容，对输入计算Word2Vec矢量；

所述计算Word2Vec矢量的方法为：通过title与全文中的关键词的权重值构建权重矩阵，通过所述权重矩阵基于TextRank算法title与全文中的关键词得到关键词的词向量，并将所述关键词的词向量定义为p（x，y），所述x表示title关键词的权重值，所述y表示全文关键词权重值，并根据所述的关键词的词向量p（x，y）

计算核心关键词的客观权重，计算关键词的信息熵，计算公式为：

；

其中，表示第/>个关键词的信息熵，/>表示关键词个数；

计算评价指标熵权，计算公式为：

；

进而得到核心关键词的客观权重向量，对主观权重和客观权重向量进行优化拟合，得到综合权重矩阵/>，计算公式为：

；

计算得到综合权重矩阵，通过所述权重矩阵计算得到Word2Vec矢量；

确认规则的具体步骤为：确定规则分为title命中确定规则和全文命中确定规则，所述title或全文中包含核心关键词时直接将其识别为对应的职能；

在步骤S4中，候选集拉取：根据所述核心关键词拉取标所述招聘信息的全文倒排获得候选职能；

用预处理里面的7个核心关键词拉取关键词，全选所述候选职能，职能的倒排索引获取相关的候选职能，选取关键词对职能的倒排索引构建是基于库内JD和简历进行统计，所述库内JD为数据库中进行岗位职能识别任务的招聘信息，取每个职能下信息相关度pmi>3的词，所述pmi为职能相关度指数，最终候选集为通过对信息相关度的拉取的候选集和所述规则命中的并集；

候选集过滤，具体步骤为：

S401：职能核心关键词命中过滤：通过核心关键词命中过滤：每个职能预定义了必须命中的关键词，将所述最终候选集通过核心关键词过滤，若招聘信息中的title和全文都没有命中该职能的所有核心关键词，则强制过滤，被规则命中的候选职能则不属于被核心关键词命中的范围，所以不需要强制过滤；

S402：否定词过滤：基于词向量预训练模型及词性分析，抽取各职能名称中的动词词组与输入title中的动词词组进行词向量相似度分析，相似度低于0.5则视为否定词直接进行过滤，触发了否定词规则则直接过滤，用于过滤掉明显互斥的结果；

S404、相似性过滤：结合全文矢量对候选职能计算相似性，title与全文中Word2Vec矢量相似性低于0.5的直接进行过滤；

在步骤S5中，打分排序：对通过过滤的候选职能进行打分排序，取分数最高者，通过上一步过滤的候选职能集合进行打分，打分考虑了下列因素：

title命中的关键词及权重；

输入全文中的Word2Vec矢量和职能的Word2Vec矢量之间的相似度；

输入全文中的关键词矢量和职能的关键词矢量的相似度；

输入全文中命中职能核心技能的数量；

输入title和职能的文本重合率；

职能本身属性：热度、是否有行业属性；

判断是否是被规则命中；

英文核心词是否命中；