CN116595973B - 一种基于自然语言处理分类技术的岗位职能识别方法 - Google Patents
一种基于自然语言处理分类技术的岗位职能识别方法 Download PDFInfo
- Publication number
- CN116595973B CN116595973B CN202310566855.XA CN202310566855A CN116595973B CN 116595973 B CN116595973 B CN 116595973B CN 202310566855 A CN202310566855 A CN 202310566855A CN 116595973 B CN116595973 B CN 116595973B
- Authority
- CN
- China
- Prior art keywords
- title
- keywords
- function
- weight
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006870 function Effects 0.000 title claims abstract description 97
- 238000005516 engineering process Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000003058 natural language processing Methods 0.000 title claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 50
- 238000001914 filtration Methods 0.000 claims description 41
- 230000007115 recruitment Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000009471 action Effects 0.000 abstract description 2
- 238000004880 explosion Methods 0.000 abstract description 2
- 230000007787 long-term memory Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 abstract description 2
- 230000008034 disappearance Effects 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于自然语言处理分类技术的岗位职能识别方法,利用人工智能自然语言处理技术有效解决筛选方式简单、人力成本高、准确度低等问题;利用长短期记忆解决长序列训练过程中的梯度消失和梯度爆炸问题,通过对文本序列的不断迭代有选择继承历史信息以获得当前更好的语义表征,所以其能够在更长的序列中有更好的表现;采用attention机制的作用是给不同的词或字分配不同的注意力,解决重要词的信息会被抑制,关键的语义特征丢失,造成信息损失的问题;因此基于自然语言处理分类技术的岗位职能识别的AI匹配技术具有全面科学客观性、快速高效、精准度高的优点。
Description
技术领域
本发明涉及AI匹配技术领域,尤其涉及一种基于自然语言处理分类技术的岗位职能识别方法。
背景技术
现有技术中,企业可以将职位信息发布在第三方的人才招聘网站上。求职者可以通过在人才招聘网站上浏览职位信息来寻求合适的工作。其中,该职位信息除了包括了学历要求、工作年限、工作地点、公司类型等之外,还包括了描述岗位职责的岗位信息。但是现在技术不断更新,职教方为了更好的促进学员就业,就要深入了解企业发布的招聘信息中的技能要求,对一些招聘动态进行实时筛选,才能够保证培训机构第一时间了解当前招聘信息的更新动态;同样的,企业如果想招聘人才,也需要了解掌握哪些技能可以胜任该工作以及市场的薪资情况。
通常,职位是指企业中由特定的人所承担的一个或数个工作,岗位是指职位所承担的工作的类别,职位都有其所属的岗位。例如岗位可以为产品经理、研发工程师、销售助理等,属于产品经理岗位下的职位例如可以为某某企业提供的互联网产品经理职位、某某企业提供的高级产品经理职位等。
目前对于如何从重多的招聘信息中筛选出岗位,只能通过人工的方式或一些简单的筛选方式过滤数据,通过这种方式不是耗费过多的人力成本就是准确度不高,无法快速高效准确的采集大量相关数据。
因此,有必要提供一种基于自然语言处理分类技术的岗位职能识别的方法,可以对招聘数据快速高效大量的进行岗位识别,并保证数据的准确性。
发明内容
本发明的目的在于提出基于游戏外设操控交互引擎的优化方法与系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
一种基于自然语言处理分类技术的岗位职能识别方法,包括以下步骤:
S1、对招聘信息的输入进行预处理;
S2、对预处理后的招聘信息确定规则识别;
S3、通过规则对岗位职能进行识别和筛选,得到候选集;
S4、对所述候选集进行过滤;
S5、对所述职能进行打分,并根据同职能关系进行重定向,输出岗位列表。
进一步地,在步骤S1中,所述预处理包括:
S101:基本转换,矢量计算,核心关键词提取等,所述基本转换为将岗位职能报表中的文字转小写与转为半角操作;
S102:对招聘信息进行清洗,具体步骤为:
S1021:去除岗位职能中的后缀,保留职位要求和职位描述,去除薪资福利、公司简介等;
S1022:采用fasttext对招聘信息中的句子进行分类,对职位介绍、薪资福利、岗位要求等进行分类;
S103:对行业人才需求信息的岗位名称及职位描述进行数据预处理采用ICTCLAS分词器,可将数据的文字进行分词处理;
S104:将所述title与全文中的关键词进行筛选并构建序列titleist、fullist,所述titleist为title关键词序列,所述fullist为全文关键词序列,统计序列titleist与序列fullist的关键词总量T和L,计算关键词权重比例,所述titleistK和titleistK+1分别为序列titleist中第k位和第k+1位元素,所述fullistK和fullistK+1分别为序列fullist中第k位和第k+1位元素,指标权重计算,根据给定的rk和lk赋值,可以得到title与全文中关键词的权重值Q,/> 所述Q1为title的权重值,Q2为全文的权重值,根据权重值Q1、Q2选择title中权重最高的2个词和全文中权重最高的5个词,将这7个词命名为核心关键词,所述title为招聘信息的标题,所述全文即为招聘信息中的除标题外的内容,对输入计算Word2Vec矢量。
所述计算Word2Vec矢量的方法为:通过所述title与全文中的关键词的权重值构建权重矩阵,通过所述权重矩阵基于TextRank算法将所述title与全文中的关键词得到关键词的词向量,并将所述关键词的词向量定义为p(x,y),所述x表示title关键词的权重值,所述y表示全文关键词权重值,并根据所述的关键词的词向量p(x,y)计算核心关键词的客观权重,计算关键词的信息熵,计算公式为:
其中,ei表示第i个关键词的信息熵,p表示关键词个数;
计算评价指标熵权,计算公式为:
进而可以得到核心关键词的客观权重向量Y=(y1,y2,…,yp),对所述主观权重和客观权重向量进行优化拟合,得到综合权重矩阵zi,计算公式为:
计算得到综合权重矩阵Z=(z1,z2,…,zp),通过所述权重矩阵Z=(z1,z2,…,zp)计算得到Word2Vec矢量。
优选的,所述人才需求信息的数据包括:人才简历、人才问卷、人才在系统中的登录日志信息的一种或多种,人才属性包括:年龄、性别、地区、婚姻状况、学历、专业、毕业院校、工作年限中的一种或多种,所述岗位名称的目标数据源为:招聘网站、大小型企业、人社局网站的岗位版块,以及编制招考信息。
优选的,K-MEANS聚类可计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给他们的对象代表一个聚类,将岗业类别进行逐一分配聚类,便于人才与企业最优匹配。
进一步地,所述确认规则的具体步骤为:确定规则分为title命中确定规则和全文命中确定规则,所述title或全文中包含核心关键词时直接将其识别为对应的职能。
进一步地,在步骤S4中,候选集拉取:根据所述核心关键词拉取标所述招聘信息的全文倒排获得候选职能;
用预处理里面的7个核心关键词拉取关键词,全选所述候选职能,职能的倒排索引获取相关的候选职能,选取关键词对职能的倒排索引构建是基于库内JD和简历进行统计,取每个职能下信息相关度pmi>3的词,所述pmi为职能相关度指数,最终候选集为通过对信息相关度的拉取的候选集和所述规则命中的并集;
候选集过滤,具体步骤为:
S401:职能核心关键词命中过滤:通过核心关键词命中过滤:每个职能预定义了必须命中的关键词,将所述最重候选集通过核心关键词过滤,若招聘信息中的title和全文都没有命中该职能的所有核心关键词,则强制过滤,被规则命中的候选职能则不属于被核心关键词命中的范围,所以不需要强制过滤;
S402:否定词过滤:基于词向量预训练模型及词性分析,抽取各职能名称中的动词词组与输入title中的动词词组进行词向量相似度分析,相似度低于0.5则视为否定词直接进行进行过滤,触发了否定词规则则直接过滤,用于过滤掉明显互斥的结果;
S403:英文核心词过滤:当输入title和职能中都有英文关键词且英文关键词失配的时候,直接过滤;
S404、相似性过滤:结合全文矢量对候选职能计算相似性,title与全文中Word2Vec矢量相似性低于0.5的直接进行过滤。
进一步地,在步骤S5中,打分排序:对通过过滤的候选职能进行打分排序,取分数最高者,通过上一步过滤的候选职能集合进行打分,打分考虑了下列因素:
title命中的关键词及权重;
输入全文中的wordvec和职能的wordvec之间的相似度;
输入全文中的关键词矢量和职能的关键词矢量的相似度;
输入全文中命中职能核心技能的数量;
输入title和职能的文本重合率;
职能本身属性:热度、是否有行业属性等;
判断是否是被规则命中;
英文核心词是否命中;
最终结果重定向:根据同职能关系进行重定向,输入关联阈值,大于此阈值的数据输出,得到一个岗位列表,从而实现岗位职能识别AI匹配技术。
本发明提供一种基于自然语言处理分类技术的岗位职能识别的方法、系统,
1、本发明提供一种基于自然语言处理分类技术的岗位职能识别的方法、系统,利用人工智能自然语言处理技术有效解决筛选方式简单、人力成本高、准确度低等问题;因此基于自然语言处理分类技术的岗位职能识别的AI匹配技术具有全面科学客观性、快速高效、精准度高的优点;
2、本发明通过利用长短期记忆解决长序列训练过程中的梯度消失和梯度爆炸问题;
3、本发明通过采用attention机制的作用是给不同的词或字分配不同的注意力,解决重要词的信息就会被抑制,关键的语义特征丢失,造成信息损失的问题;
本发明通过对文本序列的不断迭代有选择继承历史信息以获得当前更好的语义表征,所以其能够在更长的序列中有更好的表现。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1为一种基于自然语言处理分类技术的岗位职能识别方法的流程图;
图2为一种基于自然语言处理分类技术的岗位职能识别方法的数据预处理流程图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
如图1所示,一种基于自然语言处理分类技术的岗位职能识别方法,包括以下步骤:
S1、对招聘信息的输入进行预处理;
S2、对预处理后的招聘信息确定规则识别;
S3、通过规则对岗位职能进行识别和筛选,得到候选集;
S4、对所述候选集进行过滤;
S5、对所述职能进行打分,并根据同职能关系进行重定向,输出岗位列表。
进一步地,如图2所示,在步骤S1中,所述预处理包括:
S101:基本转换,矢量计算,核心关键词提取等,所述基本转换为将岗位职能报表中的文字转小写与转为半角操作;
S102:对招聘信息进行清洗,具体步骤为:
S1021:去除岗位职能中的后缀,保留职位要求和职位描述,去除薪资福利、公司简介等;
S1022:采用fasttext对招聘信息中的句子进行分类,对职位介绍、薪资福利、岗位要求等进行分类;
S103:对行业人才需求信息的岗位名称及职位描述进行数据预处理采用ICTCLAS分词器,可将数据的文字进行分词处理;
S104:将所述title与全文中的关键词进行筛选并构建序列titleist、fullist,所述titleist为title关键词序列,所述fullist为全文关键词序列,统计序列titleist与序列fullist的关键词总量T和L,计算关键词权重比例,所述titleistK和titleistK+1分别为序列titleist中第k位和第k+1位元素,所述fullistK和fullistK+1分别为序列fullist中第k位和第k+1位元素,指标权重计算,根据给定的rk和lk赋值,可以得到title与全文中关键词的权重值Q,/> 所述Q1为title的权重值,Q2为全文的权重值,根据权重值Q1、Q2选择title中权重最高的2个词和全文中权重最高的5个词,将这7个词命名为核心关键词,所述title为招聘信息的标题,所述全文即为招聘信息中的除标题外的内容,对输入计算Word2Vec矢量。
所述计算Word2Vec矢量的方法为:通过所述title与全文中的关键词的权重值构建权重矩阵,通过所述权重矩阵基于TextRank算法将所述title与全文中的关键词得到关键词的词向量,并将所述关键词的词向量定义为p(x,y),所述x表示title关键词的权重值,所述y表示全文关键词权重值,并根据所述的关键词的词向量p(x,y)计算核心关键词的客观权重,计算关键词的信息熵,计算公式为:
其中,ei表示第i个关键词的信息熵,p表示关键词个数;
计算评价指标熵权,计算公式为:
进而可以得到核心关键词的客观权重向量Y=(y1,y2,…,yp),对所述主观权重和客观权重向量进行优化拟合,得到综合权重矩阵zi,计算公式为:
计算得到综合权重矩阵Z=(z1,z2,…,zp),通过所述权重矩阵Z=(z1,z2,…,zp)计算得到Word2Vec矢量。
优选的,所述人才需求信息的数据包括:人才简历、人才问卷、人才在系统中的登录日志信息的一种或多种,人才属性包括:年龄、性别、地区、婚姻状况、学历、专业、毕业院校、工作年限中的一种或多种,所述岗位名称的目标数据源为:招聘网站、大小型企业、人社局网站的岗位版块,以及编制招考信息。
优选的,K-MEANS聚类可计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给他们的对象代表一个聚类,将岗业类别进行逐一分配聚类,便于人才与企业最优匹配。
进一步地,所述确认规则的具体步骤为:确定规则分为title命中确定规则和全文命中确定规则,所述title或全文中包含核心关键词时直接将其识别为对应的职能。
优选地,例如出现“语义匹配”则一定属于自然语言处理。该规则映射表主要基于人工经验和发现的badcase来补充维护,尽可能确保高准确率和高区分度,这一步可以命中的职能在后续过滤阶段不会被过滤掉。
进一步地,在步骤S4中,候选集拉取:根据所述核心关键词拉取标所述招聘信息的全文倒排获得候选职能;
用预处理里面的7个核心关键词拉取关键词,全选所述候选职能,职能的倒排索引获取相关的候选职能,选取关键词对职能的倒排索引构建是基于库内JD和简历进行统计,取每个职能下信息相关度pmi>3的词,所述pmi为职能相关度指数,最终候选集为通过对信息相关度的拉取的候选集和所述规则命中的并集;
候选集过滤,具体步骤为:
S401:职能核心关键词命中过滤:通过核心关键词命中过滤:每个职能预定义了必须命中的关键词,将所述最重候选集通过核心关键词过滤,若招聘信息中的title和全文都没有命中该职能的所有核心关键词,则强制过滤,被规则命中的候选职能则不属于被核心关键词命中的范围,所以不需要强制过滤;
优选地,例如java开发工程师的必中关键词为java,电器销售的必中关键词为电器和销售;
S402:否定词过滤:基于词向量预训练模型及词性分析,抽取各职能名称中的动词词组与输入title中的动词词组进行词向量相似度分析,相似度低于0.5则视为否定词直接进行进行过滤,触发了否定词规则则直接过滤,用于过滤掉明显互斥的结果;
优选地,否定词规则形如title出现某关键词,则职能名肯定不出现某关键词的形式,例如如果title出现研发,则结果肯定不会是销售。
S403:英文核心词过滤:当输入title和职能中都有英文关键词且英文关键词失配的时候,直接过滤;
优选地,这步过滤可有效避免出现将php工程师识别为java工程师的情况;
S404、相似性过滤:结合全文矢量对候选职能计算相似性,title与全文中Word2Vec矢量相似性低于0.5的直接进行过滤。
进一步地,在步骤S5中,打分排序:对通过过滤的候选职能进行打分排序,取分数最高者,通过上一步过滤的候选职能集合进行打分,打分考虑了下列因素:
title命中的关键词及权重;
输入全文中的wordvec和职能的wordvec之间的相似度;
输入全文中的关键词矢量和职能的关键词矢量的相似度;
输入全文中命中职能核心技能的数量;
输入title和职能的文本重合率;
职能本身属性:热度、是否有行业属性等;
判断是否是被规则命中;
英文核心词是否命中;
最终结果重定向:根据同职能关系进行重定向,输入关联阈值,大于此阈值的数据输出,得到一个岗位列表,从而实现岗位职能识别AI匹配技术。
优选地,各因素在进行标准化后按以下权重进行综合打分:
Title关键词:0.23;
文本相似度:0.0834;
关键词相似度:0.1817;
核心技能数:0.0696;
Title重合率:0.1771;
职能属性:0.0735;
规则命中:必须满足项,不参与实际计算;
英文核心关键词:0.1847。
与相关技术相比较,本发明提供的基于自然语言处理分类技术的岗位职能识别技术具有如下有益效果:发明提供一种基于自然语言处理分类技术的岗位职能识别的方法、系统,利用人工智能自然语言处理技术有效解决筛选方式简单、人力成本高、准确度低等问题;因此基于自然语言处理分类技术的岗位职能识别的AI匹配技术具有全面科学客观性、快速高效、精准度高的优点。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
Claims (1)
1.一种基于自然语言处理分类技术的岗位职能识别方法,其特征在于,包括以下步骤:
S1、对招聘信息的输入进行预处理;
S2、对预处理后的招聘信息确定规则识别;
S3、通过规则对岗位职能进行识别和筛选,得到候选集;
S4、对所述候选集进行过滤;
S5、对所述职能进行打分,并根据同职能关系进行重定向,输出岗位列表;
在步骤S1中,所述预处理包括:
S101:基本转换,矢量计算,核心关键词提取,基本转换为将岗位职能报表中的文字转小写与转为半角操作;
S102:对招聘信息进行清洗,具体步骤为:
S1021:去除岗位职能中的后缀,保留职位要求和职位描述,去除薪资福利、公司简介;
S1022:采用fasttext对招聘信息中的句子进行分类,对职位介绍、薪资福利、岗位要求进行分类;
S103:对行业人才需求信息的岗位名称及职位描述进行数据预处理采用ICTCLAS分词器,将数据的文字进行分词处理;
S104:将title与全文中的关键词进行筛选并构建序列titleist、fullist,所述titleist为title关键词序列,所述fullist为全文关键词序列,统计序列titleist与序列fullist的关键词总量T和L,计算关键词权重比例,=/>,/>,所述和/>分别为序列titleist中第k位和第k+1位元素,所述/>和分别为序列fullist中第k位和第k+1位元素,指标权重计算,根据给定的/>和/>赋值,得到title与全文中关键词的权重/>,/>,,所述/>为title的权重值,Q2为全文的权重值,根据权重值Q1、Q2选择title中权重最高的2个词和全文中权重最高的5个词,将这7个词命名为核心关键词,所述title为招聘信息的标题,所述全文即为招聘信息中的除标题外的内容,对输入计算Word2Vec矢量;
所述计算Word2Vec矢量的方法为:通过title与全文中的关键词的权重值构建权重矩阵,通过所述权重矩阵基于TextRank算法title与全文中的关键词得到关键词的词向量,并将所述关键词的词向量定义为p(x,y),所述x表示title关键词的权重值,所述y表示全文关键词权重值,并根据所述的关键词的词向量p(x,y)
计算核心关键词的客观权重,计算关键词的信息熵,计算公式为:
;
其中,表示第/>个关键词的信息熵,/>表示关键词个数;
计算评价指标熵权,计算公式为:
;
进而得到核心关键词的客观权重向量,对主观权重和客观权重向量进行优化拟合,得到综合权重矩阵/>,计算公式为:
;
计算得到综合权重矩阵,通过所述权重矩阵计算得到Word2Vec矢量;
确认规则的具体步骤为:确定规则分为title命中确定规则和全文命中确定规则,所述title或全文中包含核心关键词时直接将其识别为对应的职能;
在步骤S4中,候选集拉取:根据所述核心关键词拉取标所述招聘信息的全文倒排获得候选职能;
用预处理里面的7个核心关键词拉取关键词,全选所述候选职能,职能的倒排索引获取相关的候选职能,选取关键词对职能的倒排索引构建是基于库内JD和简历进行统计,所述库内JD为数据库中进行岗位职能识别任务的招聘信息,取每个职能下信息相关度pmi>3的词,所述pmi为职能相关度指数,最终候选集为通过对信息相关度的拉取的候选集和所述规则命中的并集;
候选集过滤,具体步骤为:
S401:职能核心关键词命中过滤:通过核心关键词命中过滤:每个职能预定义了必须命中的关键词,将所述最终候选集通过核心关键词过滤,若招聘信息中的title和全文都没有命中该职能的所有核心关键词,则强制过滤,被规则命中的候选职能则不属于被核心关键词命中的范围,所以不需要强制过滤;
S402:否定词过滤:基于词向量预训练模型及词性分析,抽取各职能名称中的动词词组与输入title中的动词词组进行词向量相似度分析,相似度低于0.5则视为否定词直接进行过滤,触发了否定词规则则直接过滤,用于过滤掉明显互斥的结果;
S403:英文核心词过滤:当输入title和职能中都有英文关键词且英文关键词失配的时候,直接过滤;
S404、相似性过滤:结合全文矢量对候选职能计算相似性,title与全文中Word2Vec矢量相似性低于0.5的直接进行过滤;
在步骤S5中,打分排序:对通过过滤的候选职能进行打分排序,取分数最高者,通过上一步过滤的候选职能集合进行打分,打分考虑了下列因素:
title命中的关键词及权重;
输入全文中的Word2Vec矢量和职能的Word2Vec矢量之间的相似度;
输入全文中的关键词矢量和职能的关键词矢量的相似度;
输入全文中命中职能核心技能的数量;
输入title和职能的文本重合率;
职能本身属性:热度、是否有行业属性;
判断是否是被规则命中;
英文核心词是否命中;
最终结果重定向:根据同职能关系进行重定向,输入关联阈值,大于此阈值的数据输出,得到一个岗位列表,从而实现岗位职能识别AI匹配技术。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310566855.XA CN116595973B (zh) | 2023-05-19 | 2023-05-19 | 一种基于自然语言处理分类技术的岗位职能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310566855.XA CN116595973B (zh) | 2023-05-19 | 2023-05-19 | 一种基于自然语言处理分类技术的岗位职能识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116595973A CN116595973A (zh) | 2023-08-15 |
CN116595973B true CN116595973B (zh) | 2023-10-03 |
Family
ID=87611151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310566855.XA Active CN116595973B (zh) | 2023-05-19 | 2023-05-19 | 一种基于自然语言处理分类技术的岗位职能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595973B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007149623A2 (en) * | 2006-04-25 | 2007-12-27 | Infovell, Inc. | Full text query and search systems and method of use |
CN107515904A (zh) * | 2017-07-31 | 2017-12-26 | 北京拉勾科技有限公司 | 一种职位搜索方法和计算设备 |
CN110032637A (zh) * | 2019-04-16 | 2019-07-19 | 上海大易云计算股份有限公司 | 一种基于自然语义分析技术的简历智能推荐算法 |
CN110633960A (zh) * | 2019-09-25 | 2019-12-31 | 重庆市重点产业人力资源服务有限公司 | 一种基于大数据的人力资源智能匹配、推荐的方法 |
CN112132536A (zh) * | 2020-08-31 | 2020-12-25 | 三盟科技股份有限公司 | 一种岗位推荐方法、系统、计算机设备及存储介质 |
CN113886527A (zh) * | 2021-10-20 | 2022-01-04 | 前锦网络信息技术(上海)有限公司 | 一种自然语言语义提取方法和系统 |
CN113934856A (zh) * | 2020-07-14 | 2022-01-14 | 广东职教桥数据科技有限公司 | 一种基于学校专业定位与行业人才需求的ai匹配技术 |
CA3188876A1 (en) * | 2020-08-26 | 2022-03-03 | Theodore J. WESTERHEIDE | Three-party recruiting and matching process involving a candidate, referrer, and hiring entity |
CN114764474A (zh) * | 2021-01-14 | 2022-07-19 | 汇丰软件开发(广东)有限公司 | 一种高效精准的内部岗位推荐流程系统 |
CN114862340A (zh) * | 2022-04-11 | 2022-08-05 | 平安国际智慧城市科技股份有限公司 | 人员与岗位的匹配方法、装置、设备及可读存储介质 |
CN114971540A (zh) * | 2022-05-16 | 2022-08-30 | 浪潮云信息技术股份公司 | 基于文本挖掘的岗位推荐方法及系统 |
CN115187022A (zh) * | 2022-06-29 | 2022-10-14 | 广州市南方人力资源评价中心有限公司 | 人才综合能力分析方法、装置、存储介质及终端设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8620944B2 (en) * | 2010-09-08 | 2013-12-31 | Demand Media, Inc. | Systems and methods for keyword analyzer |
US20140122355A1 (en) * | 2012-10-26 | 2014-05-01 | Bright Media Corporation | Identifying candidates for job openings using a scoring function based on features in resumes and job descriptions |
US20170330153A1 (en) * | 2014-05-13 | 2017-11-16 | Monster Worldwide, Inc. | Search Extraction Matching, Draw Attention-Fit Modality, Application Morphing, and Informed Apply Apparatuses, Methods and Systems |
US10318926B2 (en) * | 2017-07-17 | 2019-06-11 | ExpertHiring, LLC | Method and system for managing, matching, and sourcing employment candidates in a recruitment campaign |
US10318927B2 (en) * | 2017-07-17 | 2019-06-11 | ExpertHiring, LLC | Method and system for managing, matching, and sourcing employment candidates in a recruitment campaign |
CN110489542B (zh) * | 2019-08-10 | 2023-12-12 | 刘莎 | 一种互联网网页信息和文本信息的自动摘要方法 |
US11321671B2 (en) * | 2019-08-27 | 2022-05-03 | Dhi Group Inc. | Job skill taxonomy |
US20210142292A1 (en) * | 2019-11-13 | 2021-05-13 | Microsoft Technology Licensing, Llc | Detecting anomalous candidate recommendations |
-
2023
- 2023-05-19 CN CN202310566855.XA patent/CN116595973B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007149623A2 (en) * | 2006-04-25 | 2007-12-27 | Infovell, Inc. | Full text query and search systems and method of use |
CN107515904A (zh) * | 2017-07-31 | 2017-12-26 | 北京拉勾科技有限公司 | 一种职位搜索方法和计算设备 |
CN110032637A (zh) * | 2019-04-16 | 2019-07-19 | 上海大易云计算股份有限公司 | 一种基于自然语义分析技术的简历智能推荐算法 |
CN110633960A (zh) * | 2019-09-25 | 2019-12-31 | 重庆市重点产业人力资源服务有限公司 | 一种基于大数据的人力资源智能匹配、推荐的方法 |
CN113934856A (zh) * | 2020-07-14 | 2022-01-14 | 广东职教桥数据科技有限公司 | 一种基于学校专业定位与行业人才需求的ai匹配技术 |
CA3188876A1 (en) * | 2020-08-26 | 2022-03-03 | Theodore J. WESTERHEIDE | Three-party recruiting and matching process involving a candidate, referrer, and hiring entity |
CN112132536A (zh) * | 2020-08-31 | 2020-12-25 | 三盟科技股份有限公司 | 一种岗位推荐方法、系统、计算机设备及存储介质 |
CN114764474A (zh) * | 2021-01-14 | 2022-07-19 | 汇丰软件开发(广东)有限公司 | 一种高效精准的内部岗位推荐流程系统 |
CN113886527A (zh) * | 2021-10-20 | 2022-01-04 | 前锦网络信息技术(上海)有限公司 | 一种自然语言语义提取方法和系统 |
CN114862340A (zh) * | 2022-04-11 | 2022-08-05 | 平安国际智慧城市科技股份有限公司 | 人员与岗位的匹配方法、装置、设备及可读存储介质 |
CN114971540A (zh) * | 2022-05-16 | 2022-08-30 | 浪潮云信息技术股份公司 | 基于文本挖掘的岗位推荐方法及系统 |
CN115187022A (zh) * | 2022-06-29 | 2022-10-14 | 广州市南方人力资源评价中心有限公司 | 人才综合能力分析方法、装置、存储介质及终端设备 |
Non-Patent Citations (3)
Title |
---|
俞琰.网络招聘文本技能信息自动抽取研究.图书情报工作.2019,第63卷(第13期),105-113. * |
孙瑜.基于模糊匹配的招聘网页技能术语抽取研究.信息技术与信息化.2018,(第11期),171-177. * |
李堂军.基于LDA的招聘信息技能标签生成算法.软件导刊.2021,第20卷(第05期),128-133. * |
Also Published As
Publication number | Publication date |
---|---|
CN116595973A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bastian et al. | Linkedin skills: large-scale topic extraction and inference | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
US20120158400A1 (en) | Methods and systems for knowledge discovery | |
Ling et al. | Integrating extra knowledge into word embedding models for biomedical NLP tasks | |
CN116362699A (zh) | 一种岗位匹配报告生成方法 | |
CN112100999A (zh) | 一种简历文本相似度匹配方法和系统 | |
CN111221968A (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN117474507A (zh) | 一种基于大数据应用技术的智能招聘匹配方法及系统 | |
CN112199958A (zh) | 概念词序列生成方法、装置、计算机设备及存储介质 | |
Mgarbi et al. | Towards a new job offers recommendation system based on the candidate resume | |
Lamba et al. | An integrated system for occupational category classification based on resume and job matching | |
CN116595973B (zh) | 一种基于自然语言处理分类技术的岗位职能识别方法 | |
CN112287215A (zh) | 一种智能就业推荐方法和装置 | |
US20210357867A1 (en) | Method, system and computer-readable medium for information retrieval | |
JP2012098921A (ja) | ユーザ区分けシステム | |
Bittermann | Development of a user-friendly app for exploring and analyzing research topics in psychology | |
CN112507082B (zh) | 一种智能识别不当文本交互的方法、装置和电子设备 | |
CN109189893A (zh) | 一种自动检索的方法和装置 | |
Habous et al. | A fuzzy logic and ontology-based approach for improving the CV and job offer matching in recruitment process | |
Trinh et al. | Automatic process resume in talent pool by applying natural language processing | |
Syafrullah et al. | Improving term extraction using particle swarm optimization techniques | |
CN111937018B (zh) | 利用了教学大纲的匹配装置 | |
Nguyen et al. | Intelligent search system for resume and labor law | |
Baali et al. | A Multi-Criteria Analysis and Advanced Comparative Study of Recommendation Systems | |
CN117033584B (zh) | 类案文本确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |