CN113723853A - 岗位胜任力需求数据处理方法及装置 - Google Patents
岗位胜任力需求数据处理方法及装置 Download PDFInfo
- Publication number
- CN113723853A CN113723853A CN202111049259.1A CN202111049259A CN113723853A CN 113723853 A CN113723853 A CN 113723853A CN 202111049259 A CN202111049259 A CN 202111049259A CN 113723853 A CN113723853 A CN 113723853A
- Authority
- CN
- China
- Prior art keywords
- post
- data
- target
- degree
- competence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012545 processing Methods 0.000 title claims abstract description 88
- 230000007115 recruitment Effects 0.000 claims abstract description 162
- 239000011159 matrix material Substances 0.000 claims abstract description 70
- 238000003672 processing method Methods 0.000 claims abstract description 54
- 238000000605 extraction Methods 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000007670 refining Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 25
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 101
- 238000013527 convolutional neural network Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 21
- 238000003058 natural language processing Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 10
- 238000011160 research Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 230000008520 organization Effects 0.000 description 6
- 239000002585 base Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011403 purification operation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000003899 penis Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063112—Skill-based matching of a person or a group to a task
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种岗位胜任力需求数据处理方法及装置,可用于人工智能技术领域,方法包括:根据目标岗位对应的目标知识图谱确定该目标岗位对应的各个胜任力实体,基于目标岗位所在的目标行业领域的招聘数据,获取各个类型的程度词集合;建立各个类型的程度词集合和各个胜任力实体之间的共现矩阵,以生成用于显示目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。本申请能够提高获取岗位胜任力需求数据的可靠性及准确性,能够提高岗位胜任力需求数据处理过程的效率及自动化程度,进而能够提高用户请求获取某岗位的胜任力需求数据的可靠性及针对性。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及人工智能技术领域,具体涉及岗位胜任力需求数据处理方法及装置。
背景技术
胜任力的研究可以追溯至20世纪70年代,其具体的研究主要为如何明确定义胜任力,胜任力可以分为哪些类别和具体类别的详细概念定义。构建胜任力主要是通过访谈、问卷调查和数据统计等方法,针对不同领域和岗位工作内容可以定义不同细分领域的胜任力,常用场景为求职、招聘、培训等。而随着网络与人工智能的迅猛发展,如金融科技等各个领域进入高速发展时代,从业者清晰地了解自身胜任力是胜任工作的前提。与此同时,企业对人才的招聘需求也日益增多,企业内部也越发重视目标领域的人才培养,因此,传统的判断企业岗位的胜任力要求的方式已经无法满足企业的高效及大数据工作要求,因此需要采用更为智能的方式对岗位胜任力需求数据进行处理。
目前,现有的岗位胜任力需求数据处理方式通常为:对求职招聘领域数据进行规范化处理;之后进行知识抽取、融合,形成结构化的求职招聘领域知识。然而,该种方式由于仅考虑了求职招聘领域中各个岗位中词汇的出现频率及相似度等等,仅能够识别到招聘数据中涉及的技能要求,却无法确定招聘数据中对这些技能要求的强烈程度,因此无法满足岗位胜任力需求数据的可靠性及准确性要求,因此使得最后形成的岗位胜任力需求数据仅能够包含有招聘数据中涉及到的各个技能要求,却无法体现出岗位对不同技能的区别化的掌握程度需要,进而会导致个人待应聘用户无法有针对性的进行技能准备,也会导致企业无法有针对性地对员工进行技能培训。
发明内容
针对现有技术中的问题,本申请提供一种岗位胜任力需求数据处理方法及装置,能够有效提高获取岗位胜任力需求数据的可靠性及准确性,能够提高岗位胜任力需求数据处理过程的效率及自动化程度,进而能够提高个人用户请求获知的某岗位的胜任力需求数据的可靠性及针对性,还能够提高企业用户根据某岗位的胜任力需求数据进行技能培训及招聘人员匹配等的有效性及针对性。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种岗位胜任力需求数据处理方法,包括:
根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合;
建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。
进一步地,在所述根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体之前,还包括:
获取目标行业领域的领域词典;
根据所述目标行业领域中各个岗位的招聘数据,生成已标注实体的第一招聘需求数据和未标注所述实体的第二招聘需求数据;
基于所述第一招聘需求数据及所述领域词典生成用于抽取实体的知识抽取模型;
将所述第二招聘需求数据输入所述知识抽取模型,以使该知识抽取模型输出所述第二招聘需求数据对应的各个实体;
根据预设的知识图谱数据模式,将所述第一招聘需求数据及第二招聘需求数据各自对应的所述实体与各个所述实体之间的对应关系进行数据整合,以得到目标行业领域中各个岗位的知识图谱,其中,该知识图谱用于显示对应岗位的各个实体以及各个实体之间的对应关系,各个所述实体包括:用于显示对应岗位唯一标识的岗位实体和分别用于表示对应岗位的招聘需求的各个胜任力实体。
进一步地,所述获取目标行业领域的领域词典,包括:
采集目标行业领域中各个岗位的招聘数据,并对该招聘数据进行数据预处理以得到对应的结构化数据、半结构化数据和非结构化数据;
获取所述目标行业领域中的论文数据并提取该论文数据中的关键数据,对所述关键数据进行分词后保留其中的名词和动词,以形成所述目标行业领域的专业词汇;
基于所述结构化数据、半结构化数据和所述专业词汇生成所述目标行业领域中各个所述岗位的领域词典。
进一步地,所述根据所述目标行业领域中各个岗位的招聘数据,生成已标注实体的第一招聘需求数据和未标注所述实体的第二招聘需求数据,包括:
对所述非结构化数据进行分词及分句处理,以得到对应的招聘需求数据;
将所述招聘需求数据分为两部分,对其中的一部分数据进行实体标注,以形成第一招聘需求数据,并将所述招聘需求数据中的另一部分数据确定为未标注所述实体的第二招聘需求数据;
将所述第一招聘需求数据划分为用于训练知识抽取模型的训练集和测试集。
进一步地,所述知识抽取模型包括:依次连接的词嵌入层、特征预测模块、全连接层和CRF层;
所述特征预测模块包括分别与所述词嵌入层连接的CNN层和BiLSTM层,以及分别与所述CNN层和BiLSTM层连接的拼接单元,且该拼接单元连接所述全连接层。
进一步地,所述基于所述第一招聘需求数据及所述领域词典生成用于抽取实体的知识抽取模型,包括:
将所述训练集输入所述词嵌入层,以使该词嵌入层将所述第一招聘需求数据转换为由各个字向量构成的字符级向量集,所述CNN层提取所述字符级向量集对应的局部预测向量,且所述BiLSTM层提取所述字符级向量集对应的全局预测向量,所述拼接单元将所述局部预测向量和所述全局预测向量进行拼接以得到对应的目标预测向量,所述全连接层将所述目标预测向量映射到样本空间中完成加权提纯操作,得到对应的预测结果数据,所述CRF层基于转移矩阵及所述预测结果数据获取所述第一招聘需求数据对应的最优序列,并输出该最优序列对应的各个实体,形成用于抽取实体的知识抽取模型;
采用所述测试集对所述知识抽取模型进行验证及调优处理。
进一步地,所述根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,包括:
接收岗位胜任力需求数据获取请求,其中,该岗位胜任力需求数据获取请求中包含有至少一个目标岗位的唯一标识;
基于所述目标岗位的唯一标识,在预设的各个知识图谱中查找该目标岗位对应的目标知识图谱,并在该目标知识图谱中确定所述目标岗位对应的各个所述胜任力实体。
进一步地,所述基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合,包括:
在所述目标岗位所在的目标行业领域的招聘数据中,抽取所述目标岗位对应的各个程度词;
对所述目标岗位对应的各个程度词进行相似度计算,并根据对应的相似度计算结果将各个程度词分别划分至所述目标岗位对应的各个类型的程度词集合中。
进一步地,所述对所述目标岗位对应的各个程度词进行相似度计算,并根据对应的相似度计算结果将各个程度词分别划分至所述目标岗位对应的各个类型的程度词集合中,包括:
基于预设的word2vec算法分别计算各个所述程度词各自与预设的目标程度词之间的词语余弦相似度;
根据各个所述词语余弦相似度的降序顺序,将各个所述程度词进行排序,以形成对应的程度词排序列表,其中,该程度词排序列表用于存储降序排序的各个所述词语余弦相似度和各个所述程度词之间的对应关系;
基于预设的区间划分规则确定多个相似度数值区间;
将属于同一所述相似度数值区间内的词语余弦相似度对应的程度词划分在同一类型的程度词集合中。
进一步地,所述目标程度词包括:精通;
相对应的,所述程度词集合包括:掌握类程度词集合、熟悉类程度词集合、负责类程度词集合、了解类程度词集合和参与类程度词集合。
进一步地,所述建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据,包括:
为各个类型的所述程度词集合分别赋予不同的语义权重;
建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵;
基于所述共现矩阵及各个所述程度词集合分别对应的语义权重,获取各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系;
根据所述匹配度排序关系生成对应的岗位胜任力需求模型,该岗位胜任力需求模型用于存储各个所述程度词集合各自对应的匹配度由高至低排序的各个所述胜任力实体;
将所述岗位胜任力需求模型作为所述目标岗位对应的岗位胜任力需求数据进行输出。
第二方面,本申请提供一种岗位胜任力需求数据处理装置,包括:
数据获取模块,用于根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合;
匹配排序模块,用于建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的岗位胜任力需求数据处理方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的岗位胜任力需求数据处理方法。
由上述技术方案可知,本申请提供的一种岗位胜任力需求数据处理方法及装置,方法包括:根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合;建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据,通过将自所述目标岗位的招聘数据中获取各个类型的程度词集合,能够实现目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的获取,能够有效提高获取岗位胜任力需求数据的可靠性及准确性,并能够提高岗位胜任力需求数据处理过程的效率及自动化程度;同时,通过以目标岗位的招聘数据和目标知识图谱作为获取岗位胜任力需求数据的数据基础,能够有效提高获取的岗位胜任力需求数据的针对性,进而能够提高个人用户请求获知的某岗位的胜任力需求数据的可靠性及针对性,还能够提高企业用户根据某岗位的胜任力需求数据进行技能培训及招聘人员匹配等的有效性及针对性,能够有效提高用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的岗位胜任力需求数据处理装置与客户端设备之间的关系示意图。
图2是本申请实施例中的岗位胜任力需求数据处理方法的第一种流程示意图。
图3是本申请实施例中的岗位胜任力需求数据处理方法的第二种流程示意图。
图4是本申请实施例中的岗位胜任力需求数据处理方法中步骤010的流程示意图。
图5是本申请实施例中的岗位胜任力需求数据处理方法中步骤020的流程示意图。
图6是本申请实施例中的岗位胜任力需求数据处理方法中知识抽取模型的结构示意图。
图7是本申请实施例中的岗位胜任力需求数据处理方法中步骤030的流程示意图。
图8是本申请实施例中的岗位胜任力需求数据处理方法中步骤100的流程示意图。
图9是本申请实施例中的岗位胜任力需求数据处理方法中步骤130的流程示意图。
图10是本申请实施例中的岗位胜任力需求数据处理方法中步骤132的流程示意图。
图11是本申请实施例中的岗位胜任力需求数据处理方法中步骤200的流程示意图。
图12是本申请实施例中的岗位胜任力需求数据处理装置的结构示意图。
图13是本申请应用实例提供的知识图谱构建过程图。
图14是本申请应用实例提供的金融科技领域知识图谱的数据模式的举例示意图。
图15是本申请应用实例提供的Python爬取数据流程图。
图16是本申请应用实例提供的领域词典的举例词云图。
图17是本申请应用实例提供的金融科技领域岗位胜任力需求模型的构建框架图。
图18是本申请应用实例提供的基于word2vec的程度词分类算法的举例过程图。
图19是本申请应用实例提供的共现矩阵结构图。
图20是本申请应用实例提供的基于共现矩阵的胜任力抽取算法的举例过程图。
图21是本申请应用实例提供的自然语言处理岗位胜任力与程度词部分共现矩阵的示意图。
图22是本申请应用实例提供的金融科技领域自然语言处理岗位胜任力模型图谱示意图。
图23是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请公开的岗位胜任力需求数据处理方法和装置可用于人工智能、大数据及金融等技术领域,也可用于除人工智能、大数据及金融等技术领域之外的任意领域,本申请公开的岗位胜任力需求数据处理方法和装置的应用领域不做限定。
可以理解的是,知识图谱自2012年推出即取得了极大的发展和成果,已成为认知智能的基础技术,作为一种有效的知识管理工具正强力地推动智能化的发展。知识图谱技术已经在大规模的简单应用场景中取得显著的效果,目前存在很多高质量通用的知识库为搜索服务提供支撑,其中包括Freebase、Dbpedia等等。近年来,知识图谱的应用场景转变正呈现全新的形势,其应用场景更为繁杂、需求加深到细分领域、所需的专家知识更为密集、数据资源有限等等。在科技领域中,知识图谱可用于预测科研方向,探究专业知识关联等等。其数据来源多来自于论文、专利、期刊等科研出版物,通过构建知识图谱实现知识搜索和知识推理,搭建应用以帮助科技领域学者掌握前沿的研究热点和研究方法。知识图谱也用于帮助学生规划学习路径,通过整合学习资源和学生的行为数据,构建教学知识图谱生成学生的用户画像,提升学习效率,同样方法也可生成企业内职工的能力画像。
胜任力的研究可以追溯至20世纪70年代,其具体的研究主要为如何明确定义胜任力,胜任力可以分为哪些类别和具体类别的详细概念定义。构建胜任力主要是通过访谈、问卷调查和数据统计等方法,针对不同领域和岗位工作内容可以定义不同细分领域的胜任力,常用场景为求职、招聘、培训等。胜任力最初特指业绩较为优秀的人具有的专业和通用知识、职业技能和其他能力要素。随着时间的推移,胜任力的定义被不断补充和完善,胜任力模型可以作为求职、绩效考核、制定培养计划等工作的参考,渐渐成为企业人事部门的衡量指标和管理工具。在金融科技领域中相关学者通过行为事件访谈和针对具体岗位从业的问卷调查创建金融科技领域具体岗位所需的胜任力,其中包括专业知识、行业技能等胜任力要素并将其应用在相关培训课程的体系设计中。在金融科技领域通过构建针对专业人才的胜任力模型来制定人才培养策略,将其引入至培养计划中以提升员工的工作效率,全方面提升金融科技工作能力水平。
以金融科技领域进行举例说明,随着网络与人工智能的迅猛发展,金融科技进入高速发展时代,金融科技从业者清晰地了解自身胜任力是胜任工作的前提,简单来说就是有明确的自我用户画像,例如哪些是已经熟悉掌握的知识和技能,哪些是自己需要具备的能力等等。与此同时,银行业对金融科技人才的招聘需求增多,银行内部也越发重视金融科技领域的人才培养,由于在银行内的金融科技岗位工作种类多样,工作内容不尽相同,每种岗位所需要的专业知识和技能以及相应掌握程度也不尽相同,这对制定人才培养策略提出了挑战。
基于此,针对现有的岗位胜任力需求数据处理方式仅能够识别到招聘数据中涉及的技能要求,却无法确定招聘数据中对这些技能要求的强烈程度,进而导致岗位胜任力需求数据的处理可靠性及针对性差等问题,本申请实施例提供一种岗位胜任力需求数据处理方法,通过将范围锁定在金融科技领域中的不同类型岗位,以知识图谱为基础对金融科技岗位的招聘信息和工作需求文本加以处理和整合,提出一种创新性方法构建出多种金融科技岗位胜任力模型,包括金融科技不同岗位所需的基础知识和技能及其掌握程度,既可以为金融科技从业者提供能力评价参考,又可以为金融科技管理者和银行人事部门提供招聘和培训依据。
基于上述内容,本申请还提供一种用于实现本申请一个或多个实施例中提供的岗位胜任力需求数据处理方法的岗位胜任力需求数据处理装置,该岗位胜任力需求数据处理装置可以为一服务器,参见图1,该岗位胜任力需求数据处理装置可以自行或通过第三方服务器等与各个客户端设备之间依次通信连接,岗位胜任力需求数据处理装置可以接收客户端设备发送的岗位胜任力需求数据获取请求,其中,该岗位胜任力需求数据获取请求中包含有至少一个目标岗位的唯一标识,并基于所述目标岗位的唯一标识,在预设的各个知识图谱中查找该目标岗位对应的目标知识图谱,并在该目标知识图谱中确定所述目标岗位对应的各个所述胜任力实体,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合;建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据,而后岗位胜任力需求数据处理装置将岗位胜任力需求数据发送至用户的客户端设备等。
在另一种实际应用情形中,前述的岗位胜任力需求数据处理装置进行岗位胜任力需求数据处理的部分可以在如上述内容的服务器中执行,也可以所有的操作都在所述用户端设备中完成。具体可以根据所述用户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述用户端设备中完成,所述用户端设备还可以包括处理器,用于岗位胜任力需求数据处理的具体处理。
可以理解的是,所述移动终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、个人数字助理(PDA)、车载设备、智能穿戴设备等任何能够装载应用的移动设备。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
上述的移动终端可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述移动终端之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
在本申请的一个或多个实施例中,卷积神经网络CNN(Convolutional NeuralNetworks)是指是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks),卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)。
在本申请的一个或多个实施例中,BiLSTM(Bi-directional Long Short-TermMemory)由前向LSTM与后向LSTM组合而成,在自然语言处理任务中都常被用来建模上下文信息,通过BiLSTM可以更好的捕捉双向的语义依赖。
在本申请的一个或多个实施例中,条件随机场CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,这些约束可以通过CRF层自动学习到。
在本申请的一个或多个实施例中,word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
具体通过下述各个实施例及应用实例分别进行详细说明。
为了解决现有的岗位胜任力需求数据处理方式仅能够识别到招聘数据中涉及的技能要求,却无法确定招聘数据中对这些技能要求的强烈程度,进而导致岗位胜任力需求数据的处理可靠性及针对性差等问题,本申请提供一种岗位胜任力需求数据处理方法的实施例,参见图2,基于岗位胜任力需求数据处理装置执行的所述岗位胜任力需求数据处理方法具体包含有如下内容:
步骤100:根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合。
可以理解的是,以金融科技领域为例,岗位胜任力需求数据处理装置首先可以接收由用户预先定义的知识图谱的数据模式,经过分析与总结已有的金融科技领域知识图谱数据模式设计知识图谱的数据模式,其中包括公司、岗位、地点、薪资、技术领域、工具、算法和掌握程度等概念实体以及实体间的关系,定义实体数据类别和属性。
而后,编写Python程序获取互联网中金融科技领域的招聘信息数据,获取的多元异构数据中包含如公司、薪资、地点等结构化数据和招聘需求描述这样的非结构化数据,同时收集银行中金融科技岗位工作内容文本作为补充数据源。爬虫程序获取json数据后经过数据处理程序将数据解析为在数据模式中定义的概念类别,部分高质量数据则直接存储为相应实体。
以及,将获取的文本数据中结构化数据与从金融科技领域论文中抽取出的论文关键词通过解析程序构成金融科技领域词典。针对获取的数据中的文本采用人工标注的方法在其中标注出数据模式中包含的各类实体,已标注好的数据集将作为知识抽取的训练集和测试集。使用知识抽取算法在标注数据中完成模型的训练,将其余未被标注的数据输入模型中完成知识的抽取。将实体与关系进行数据整合后存入Neo4j图数据库中完成知识图谱的存储。
步骤200:建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。
可以理解的是,以金融科技领域为例,基于知识图谱完成金融科技领域招聘需求文本以及金融科技从业者工作内容描述文本的语义扩展,可以使用如word2vec等方式完成程度词分类,基于共现矩阵抽取出金融科技领域不同类别岗位所需胜任力,深度挖掘每类岗位所需的知识和技能及相应的掌握程度。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过将自所述目标岗位所在领域的招聘数据中获取各个类型的程度词集合,能够实现目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的获取,能够有效提高获取岗位胜任力需求数据的可靠性及准确性,并能够提高岗位胜任力需求数据处理过程的效率及自动化程度;同时,通过以目标岗位的招聘数据和目标知识图谱作为获取岗位胜任力需求数据的数据基础,能够有效提高获取的岗位胜任力需求数据的针对性,进而能够提高个人用户请求获知某岗位的胜任力需求数据的需求,还能够提高企业用户根据某岗位的胜任力需求数据进行技能培训及招聘人员匹配等需求,能够有效提高用户体验。
为了提高知识图谱的应用可靠性及适用广泛性,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图3,所述岗位胜任力需求数据处理方法的步骤100之前具体包含有如下内容:
步骤010:获取目标行业领域的领域词典。
步骤020:根据所述目标行业领域中各个岗位的招聘数据,生成已标注实体的第一招聘需求数据和未标注所述实体的第二招聘需求数据;
步骤030:基于所述第一招聘需求数据及所述领域词典生成用于抽取实体的知识抽取模型。
步骤040:将所述第二招聘需求数据输入所述知识抽取模型,以使该知识抽取模型输出所述第二招聘需求数据对应的各个实体。
步骤050:根据预设的知识图谱数据模式,将所述第一招聘需求数据及第二招聘需求数据各自对应的所述实体与各个所述实体之间的对应关系进行数据整合,以得到目标行业领域中各个岗位的知识图谱,其中,该知识图谱用于显示对应岗位的各个实体以及各个实体之间的对应关系,各个所述实体包括:用于显示对应岗位唯一标识的岗位实体和分别用于表示对应岗位的招聘需求的各个胜任力实体。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过基于领域词典、招聘数据及知识抽取模型的应用,能够根据预设的知识图谱数据模式,将所述第一招聘需求数据及第二招聘需求数据各自对应的所述实体与各个所述实体之间的对应关系进行数据整合,以得到目标行业领域中各个岗位的知识图谱,进而能够有效提高知识图谱的应用可靠性及适用广泛性,能够有效提高建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵的准确性、有效性及可靠性,进而能够进一步提高岗位胜任力需求数据的可靠性及准确性,并进一步提高岗位胜任力需求数据处理过程的效率及自动化程度。
为了提高领域词典的应用可靠性及适用广泛性,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图4,所述岗位胜任力需求数据处理方法的步骤010具体包含有如下内容:
步骤011:采集目标行业领域中各个岗位的招聘数据,并对该招聘数据进行数据预处理以得到对应的结构化数据、半结构化数据和非结构化数据。
步骤012:获取所述目标行业领域中的论文数据并提取该论文数据中的关键数据,对所述关键数据进行分词后保留其中的名词和动词,以形成所述目标行业领域的专业词汇。
步骤013:基于所述结构化数据、半结构化数据和所述专业词汇生成所述目标行业领域中各个所述岗位的领域词典。
以金融科技领域为例,考虑到金融科技领域中前沿的研究和成果会通过论文和其他出版物发表,所以本申请依托金融科技领域的前沿论文,对其文本完成分词处理后抽取出其中的专业词汇扩充金融科技领域词典。本申请分别抽取论文的名称、摘要和关键词,使用Python的jieba中文分词组件完成分词并去除部分无关描述,剩余的名词和动词视为金融科技领域岗位所需技术描绘词汇。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过获取所述目标行业领域中的论文数据并提取该论文数据中的关键数据,对所述关键数据进行分词后保留其中的名词和动词,以形成所述目标行业领域的专业词汇,并获取所述目标行业领域中的论文数据并提取该论文数据中的关键数据,对所述关键数据进行分词后保留其中的名词和动词,以形成所述目标行业领域的专业词汇,能够有效提高领域词典的应用可靠性及适用广泛性,能够有效提高生成用于抽取实体的知识抽取模型的可靠性及有效性,进而能够进一步提高岗位胜任力需求数据的可靠性及准确性,并进一步提高岗位胜任力需求数据处理过程的效率及自动化程度。
为了生成训练用数据,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图5,所述岗位胜任力需求数据处理方法的步骤020具体包含有如下内容:
步骤021:对所述非结构化数据进行分词及分句处理,以得到对应的招聘需求数据;
步骤022:将所述招聘需求数据分为两部分,对其中的一部分数据进行实体标注,以形成第一招聘需求数据,并将所述招聘需求数据中的另一部分数据确定为未标注所述实体的第二招聘需求数据;
步骤023:将所述第一招聘需求数据划分为用于训练知识抽取模型的训练集和测试集。
具体来说,非结构化数据的数据源为互联网中的金融科技领域多种岗位的招聘信息文本和金融科技从业者工作内容描述文本。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过对所述非结构化数据进行分词及分句处理,以得到对应的招聘需求数据,对其中的一部分数据进行实体标注,以形成第一招聘需求数据,并将所述招聘需求数据中的另一部分数据确定为未标注所述实体的第二招聘需求数据,能够有效提高获取训练用数据及测试用数据的效率、可靠性及有效性,进而能够为知识抽取模型的训练提供可靠且有效的数据基础,进而能够进一步提高岗位胜任力需求数据的可靠性及准确性,并进一步提高岗位胜任力需求数据处理过程的效率及自动化程度。
为了改进知识抽取模型的结构,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图6,所述岗位胜任力需求数据处理方法中的所述知识抽取模型包括:依次连接的词嵌入层、特征预测模块、全连接层和CRF层,输入数据至词嵌入层,并由CRF层输出最优标记序列;
所述特征预测模块包括分别与所述词嵌入层连接的CNN层和BiLSTM层,以及分别与所述CNN层和BiLSTM层连接的拼接单元,且该拼接单元(在图6中显示为“拼接”)连接所述全连接层。
可以理解的是,本申请选取一层卷积和一层池化组成CNN层结构,将输出结果与BiLSTM层输出的字符集向量矩阵相拼接作为全连接层(fully connected layers,FC)的输入。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过设置分别与所述词嵌入层连接的CNN层和BiLSTM层组成知识抽取模型的特征预测模块,能够同时考虑到标记的全局及局部信息,在学习长句时能够有效避免因模型容量问题而易导致的重要信息丢失等问题,能够进一步提高知识抽取模型的应用可靠性,进而能够进一步提高岗位胜任力需求数据的可靠性及准确性,并进一步提高岗位胜任力需求数据处理过程的效率及自动化程度。
为了改进基于模型结构改进产生的模型训练过程,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图7,所述岗位胜任力需求数据处理方法中的步骤030具体包含有如下内容:
步骤031:将所述训练集输入所述词嵌入层,以使该词嵌入层将所述第一招聘需求数据转换为由各个字向量构成的字符级向量集,所述CNN层提取所述字符级向量集对应的局部预测向量,且所述BiLSTM层提取所述字符级向量集对应的全局预测向量,所述拼接单元将所述局部预测向量和所述全局预测向量进行拼接以得到对应的目标预测向量,所述全连接层将所述目标预测向量映射到样本空间中完成加权提纯操作,得到对应的预测结果数据,所述CRF层基于转移矩阵及所述预测结果数据获取所述第一招聘需求数据对应的最优序列,并输出该最优序列对应的各个实体,形成用于抽取实体的知识抽取模型。
步骤032:采用所述测试集对所述知识抽取模型进行验证及调优处理。
可以理解的是,实体抽取目前主流的深度学习框架为BiLSTM-CRF,其中BiLSTM融合两组学习方向相反的LSTM层,通过大量的已标注数据和模型不断迭代可获得良好的分词模型。由于BiLSTM模型只考虑了标记(Token)的上下文信息,没有考虑到标记的局部信息,在学习长句时可能因为模型容量问题而失去重要信息。因此本申请在BiLSTM-CRF框架中加入卷积神经网络(CNN)用以记录标记的局部信息。
本申请的BiLSTM-CNN-CRF的框架中BiLSTM层和CNN层分别提取标记的全局和局部特征信息,将拼接后的向量输入全连接层后再输入CRF层进行解码。在词嵌入层经过KerasEmbedding完成文本向量化后,CNN模型提取标记的局部信息T1,BiLSTM模型提取标记的全局信息T2,将字符向量拼接为T3输入至全连接成得到T4后输入CRF层。全连接层将通过BiLSTM和CNN处理获得特征数据整合结果映射到样本空间中完成加权提纯操作。CRF层综合转移矩阵和全连接层的标记向量结果,计算标记的得分并将最高分序列作为最终标记序列。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过采用同时考虑到标记的全局及局部信息的知识抽取模型,能够有效避免因模型容量问题而易导致的重要信息丢失等问题,能够进一步提高知识抽取模型的应用可靠性,进而能够进一步提高岗位胜任力需求数据的可靠性及准确性,并进一步提高岗位胜任力需求数据处理过程的效率及自动化程度。
为了进一步提高获取该目标岗位对应的目标知识图谱的可靠性,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图8,所述岗位胜任力需求数据处理方法中的步骤100具体包含有如下内容:
步骤110:接收岗位胜任力需求数据获取请求,其中,该岗位胜任力需求数据获取请求中包含有至少一个目标岗位的唯一标识。
步骤120:基于所述目标岗位的唯一标识,在预设的各个知识图谱中查找该目标岗位对应的目标知识图谱,并在该目标知识图谱中确定所述目标岗位对应的各个所述胜任力实体。
步骤130:基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过接收岗位胜任力需求数据获取请求,并根据该岗位胜任力需求数据获取请求有针对性地获取该目标岗位对应的目标知识图谱,能够为后续建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵提高准确且可靠地数据基础,进而能够进一步提高岗位胜任力需求数据的可靠性及准确性,并进一步提高岗位胜任力需求数据处理过程的效率及自动化程度。
为了提高建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵的可靠性及全面性,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图9,所述岗位胜任力需求数据处理方法中的步骤130具体包含有如下内容:
步骤131:在所述目标岗位所在的目标行业领域的招聘数据中,抽取所述目标岗位对应的各个程度词。
步骤132:对所述目标岗位对应的各个程度词进行相似度计算,并根据对应的相似度计算结果将各个程度词分别划分至所述目标岗位对应的各个类型的程度词集合中。
具体来说,在金融科技领域的招聘需求描述中的程度词包含很多种,例如“负责”、“熟悉”、“精通”、“具备”、“具有”、“了解”、“熟练”等等。前文的知识抽取可抽取出来程度词实体,但是有很多程度词表示的语义比较相近,例如“具有”和“具备”表示的语义基本一致,如果将所有程度词都展示在岗位所需的胜任力中将出现冗杂的数据展示效果,所以本申请采用计算词语相似度的方法对程度词分类。首先抽取出金融科技领域中招聘需求描述里所有程度词,基于word2vec对程度词进行词语余弦相似度计算,根据排序结果将程度词分类。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过对所述目标岗位对应的各个程度词进行相似度计算,并根据对应的相似度计算结果将各个程度词分别划分至所述目标岗位对应的各个类型的程度词集合中,能够有效提高建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵的可靠性及全面性,进而能够进一步提高岗位胜任力需求数据的可靠性及准确性,并进一步提高岗位胜任力需求数据处理过程的效率及自动化程度。
为了进一步提高建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵的可靠性及全面性,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图10,所述岗位胜任力需求数据处理方法中的步骤132具体包含有如下内容:
步骤1321:基于预设的word2vec算法分别计算各个所述程度词各自与预设的目标程度词之间的词语余弦相似度。
步骤1322:根据各个所述词语余弦相似度的降序顺序,将各个所述程度词进行排序,以形成对应的程度词排序列表,其中,该程度词排序列表用于存储降序排序的各个所述词语余弦相似度和各个所述程度词之间的对应关系。
步骤1323:基于预设的区间划分规则确定多个相似度数值区间。
步骤1324:将属于同一所述相似度数值区间内的词语余弦相似度对应的程度词划分在同一类型的程度词集合中。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过基于预设的word2vec算法将属于同一所述相似度数值区间内的词语余弦相似度对应的程度词划分在同一类型的程度词集合中,能够进一步提高根据对应的相似度计算结果将各个程度词分别划分至所述目标岗位对应的各个类型的程度词集合中的可靠性及效率,进而能够进一步提高岗位胜任力需求数据的可靠性及准确性,并进一步提高岗位胜任力需求数据处理过程的效率及自动化程度。
为了进一步提高程度词分类的覆盖全面性及精确性,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,所述岗位胜任力需求数据处理方法中的所述目标程度词包括:精通;
相对应的,所述程度词集合包括:掌握类程度词集合、熟悉类程度词集合、负责类程度词集合、了解类程度词集合和参与类程度词集合。
举例来说,可以将“精通”群确定为界定词BorderWord,从招聘需求文本中使用实体识别算法抽取出所有与程度词集合WordList;从获得的WordList根据word2vec模型处理为词语向量集合WorcdVec,计算词向量集合WordVec中的每一个词与步骤1中的界定词BorderWord的相似度,将相似度降序排列为List,根据List分为5类,完成程度词分类。
本申请使用基于word2vec模型的程度词分类算法对程度词实体进行相似度的计算和分类,将程度词“精通”作为界定词将其数值设置为1,通过模型最后得出其他程度词与“精通”的语义相似度。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过将程度词大类划分为掌握、熟悉、负责、了解和参与等多类,能够进一步提高程度词分类的覆盖全面性及精确性,进而能够进一步提高根据对应的相似度计算结果将各个程度词分别划分至所述目标岗位对应的各个类型的程度词集合中的可靠性及效率。
为了进一步提高生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据的准确性及可靠性,在本申请提供的岗位胜任力需求数据处理方法的一个实施例,参见图11,所述岗位胜任力需求数据处理方法中的步骤200具体包含有如下内容:
步骤210:为各个类型的所述程度词集合分别赋予不同的语义权重;
步骤220:建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵。
步骤230:基于所述共现矩阵及各个所述程度词集合分别对应的语义权重,获取各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系。
步骤240:根据所述匹配度排序关系生成对应的岗位胜任力需求模型,该岗位胜任力需求模型用于存储各个所述程度词集合各自对应的匹配度由高至低排序的各个所述胜任力实体。
步骤250:将所述岗位胜任力需求模型作为所述目标岗位对应的岗位胜任力需求数据进行输出。
举例来说,在招聘需求文本中程度词与胜任力实体(除岗位实体之外的实体)一同出现的次数较多则表示该类岗位需求相应程度的胜任力,例如在自然语言处理这类岗位中频繁出现“掌握Python”则表示自然语言处理这类岗位对Python这种技能的需求程度为“掌握”。
本申请的金融科技领域岗位胜任力需求模型的构建方法是统计在各类岗位招聘需求描述中程度词与胜任力实体(例如编程语言实体及算法实体等)同时出现的次数来抽取岗位所需的不同程度的胜任力。
技术方面则通过生成词共现矩阵来完成抽取文本中知识和技能实体与程度词的共现关系。本申请对共现矩阵计算方式进行了改进,在共现矩阵计算过程中针对不同掌握程度类别赋予不同的语义权重,并将词频与语义权重的乘积结果加入至共现矩阵的最终结果。生成的共现矩阵可以全面预测不同岗位对胜任力的需求程度,但是为了更加简洁表示胜任力需求模型,本申请将各个胜任力实体与不同类别掌握程度实体矩阵结果求和,获得该类岗位对于不同胜任力的综合需求程度。
词共现矩阵如果简单统计频率可能会抽取出与岗位胜任力无关的词汇,所以本申请对程度词出现的频率和语义综合考虑,重新定义程度词权重。因为掌握类、熟悉类、负责类、了解类和参与类程度词具有不同的掌握程度的语义,所以本申请在构建词共现矩阵时重新定义程度词的权重,最终的权重公式如下所示:
Weight(wi)=tf(wi)×fsw(wi)
式中:tf(wi)代表程度词的词频,fsw(wi)代表wi的语义权重,其中掌握类程度词:1.0,熟悉类程度词:0.8;负责类程度词:0.6;了解类程度词:0.4;参与类程度词:0.2。
通过为金融科技领域各类岗位的招聘需求文本集合构建程度词和胜任力实体的共现连通图,抽取程度词与胜任力实体间的关联关系,即获得每类岗位对于胜任力的需求程度。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理方法,通过为各个类型的所述程度词集合分别赋予不同的语义权重,并根据所述匹配度排序关系生成对应的岗位胜任力需求模型,能够有效提高生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据的准确性及可靠性。
从软件层面来说,为了解决现有的岗位胜任力需求数据处理方式仅能够识别到招聘数据中涉及的技能要求,却无法确定招聘数据中对这些技能要求的强烈程度,进而导致岗位胜任力需求数据的处理可靠性及针对性差等问题,本申请提供一种用于执行所述岗位胜任力需求数据处理方法中全部或部分内容的岗位胜任力需求数据处理装置的实施例,参见图12,所述岗位胜任力需求数据处理装置具体包含有如下内容:
数据获取模块10,用于根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合。
匹配排序模块20,用于建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。
本申请提供的岗位胜任力需求数据处理装置的实施例具体可以用于执行上述实施例中的岗位胜任力需求数据处理方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本申请实施例提供的岗位胜任力需求数据处理装置,通过将自所述目标岗位所在领域的招聘数据中获取各个类型的程度词集合,能够实现目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的获取,能够有效提高获取岗位胜任力需求数据的可靠性及准确性,并能够提高岗位胜任力需求数据处理过程的效率及自动化程度;同时,通过以目标岗位的招聘数据和目标知识图谱作为获取岗位胜任力需求数据的数据基础,能够有效提高获取的岗位胜任力需求数据的针对性,进而能够提高个人用户请求获知某岗位的胜任力需求数据的需求,还能够提高企业用户根据某岗位的胜任力需求数据进行技能培训及招聘人员匹配等需求,能够有效提高用户体验。
为了进一步说明本方案,本申请应用实例提供一种应用在金融领域的金融科技岗位的岗位胜任力需求数据处理方法,本应用实例旨在识别和预测银行业金融科技岗位从业者所需的基本知识和能力及其掌握程度,主要提出一种基于知识图谱的金融科技岗位胜任力识别方法,在大数据中基于知识图谱识别金融科技岗位所需的胜任力,胜任力具体包括从业者需要掌握的基础知识和专业技能及其掌握程度。本应用实例是人工智能技术与胜任力管理相结合的创新性尝试,提出的方法既可以分析银行金融科技不同类型岗位所需具备的知识和能力,又有利于提升银行金融科技队伍的综合水平。
本应用实例提出的基于知识图谱的金融科技岗位胜任力需求数据处理方法,首先构建金融科技领域知识图谱,然后基于知识图谱识别金融科技领域岗位所需的胜任力及其掌握程度。
(一)金融科技岗位胜任力需求数据处理方法的主要环节说明
1、构建金融科技领域知识图谱,过程如图13所示。在构建知识图谱中创新的构建了领域词典并改进知识抽取算法。
1)数据源为互联网中的金融科技领域多种岗位的招聘信息文本和金融科技从业者工作内容描述文本。
2)定义知识图谱中的数据模式,如图14所示。其中包括数据源中不同类别的实体、关系及其详细属性,包括8种实体和5种关系。其中rdf:type连接到的owl:Class和owl:ObjectProperty表示本体中的类别,相当于图谱概念中实体类别和关系类别;rdf:domain和rdf:range分别表示关系所连接的主语实体和宾语实体。例如由ObjectProperty:“位于”连接的rdf:domain:“公司”和rdf:range:“地点”表示一条知识(公司,位于,地点)。图中所有的节点是在本体定义中的概念,在知识图谱中则被替换为实体,例如(公司,位于,地点)的知识可能有(公司A,位于,北京)和(公司B,位于,杭州)等不同三元组。
在数据模式中,不仅包括前文介绍的组织形式,还包括组织形式中每个实体的属性,每个属性都有数据类型和值。在图谱中最重要的是岗位这一实体,由图14提供的数据模式可见,与岗位连接的共计4种关系和6种实体,表1列出了岗位的部分属性。在属性列表中也可以存在实体对应实体的情况,表1中“Organization”就是岗位实体与公司实体之间对应,同时还设置有实体唯一的“编号”属性用于标识唯一资源。列表中的“编号Id”、“类型Type”、“名称Name”、“描述Description”等为通用类型属性,将被引入到知识图谱中的其他实体中。
表1岗位实体属性列表
属性名称 | 数据类型 | 描述 |
Id | []STRING | 唯一标示实体的编号 |
Type | Class | 实体所属的类型 |
Name | []STRING | 实体的名称 |
Description | []STRING | 对实体的文本描述 |
Start-time | Moment | 开始存在的时间 |
End-time | Moment | 不复存在的时间 |
Organization | []Organization | 实体所在公司或者其他机构的实体 |
3)使用Python语言编写程序实现互联网中金融科技岗位招聘数据的收集,数据收集流程如图15所示。
4)对获取的多源异构数据进行数据预处理同时构建领域词典,最终获取领域词典如图16所示,其中,图16仅为示意性举例,并未涵盖领域词典中的全部内容,其中较为模糊的字符也并不影响本申请中对于领域词典中内容的说明。
5)通过4)的知识抽取模型获得在数据源中的知识、技能等多种实体。
6)将知识图谱数据存储在Neo4j图数据库中便于识别胜任力模型使用。
2、基于知识图谱提出识别金融科技岗位胜任力模型的方法,过程如图17所示。
1)从招聘需求中的文本数据完成程度词分类;
2)根据招聘需求和知识图谱完成岗位招聘信息的分类;
3)将处理数据后将进行岗位胜任力模型的抽取;
4)通过以上步骤最终识别和预测金融科技领域中不同岗位所需的胜任力。
(二)金融科技岗位胜任力需求数据处理方法的执行流程
(1)知识图谱的数据模式定义。经过分析与总结已有的金融科技领域知识图谱数据模式设计本应用实例中的知识图谱的数据模式,其中包括公司、岗位、地点、薪资、技术领域、工具、算法和掌握程度等概念实体以及实体间的关系,定义实体数据类别和属性,如图14所示。
(2)数据获取。编写Python程序获取互联网中金融科技领域的招聘信息数据,获取的多元异构数据中包含如公司、薪资、地点等结构化数据和招聘需求描述这样的非结构化数据,同时收集银行中金融科技岗位工作内容文本作为补充数据源。爬虫程序获取json数据后经过数据处理程序将数据解析为在数据模式中定义的概念类别,部分高质量数据则直接存储为相应实体,如图15所示。
(3)数据预处理。将获取的文本数据中结构化数据与从金融科技领域论文中抽取出的论文关键词通过解析程序构成金融科技领域词典,结果如图16所示。针对步骤(2)中获取的数据中的文本采用人工标注的方法在其中标注出数据模式中包含的各类实体,已标注好的数据集将作为知识抽取的训练集和测试集。
(4)知识抽取与存储。使用知识抽取算法在步骤(3)的标注数据中完成模型的训练,将其余未被标注的数据输入模型中完成知识的抽取。将实体与关系进行数据整合后存入Neo4j图数据库中完成知识图谱的存储。
(5)构建基于知识图谱的金融科技领域岗位胜任力模型。基于知识图谱完成金融科技领域招聘需求文本以及金融科技从业者工作内容描述文本的语义扩展,使用word2vec完成程度词分类,基于共现矩阵抽取出金融科技领域不同类别岗位所需胜任力,深度挖掘每类岗位所需的知识和技能及相应的掌握程度。
(三)构建知识图谱的具体过程
为了进行不同类别岗位所需胜任力的预测和识别,本应用实例在构建知识图谱方式有别于其他现有技术:一是数据预处理时通过从金融科技领域论文中抽取出的论文关键词通过解析程序构成更加丰富的金融科技领域词典,如图16所示;二是对构建知识图谱中的实体抽取算法进行了改进,通过对比实验证明本应用实例在实体抽取过程中具有较高的准确率、召回率和F1值。
1.从前沿论文中构建金融科技领域词典
考虑到金融科技领域中前沿的研究和成果会通过论文和其他出版物发表,所以本应用实例依托金融科技领域的前沿论文,对其文本完成分词处理后抽取出其中的专业词汇扩充金融科技领域词典。本应用实例分别抽取论文的名称、摘要和关键词,使用Python的jieba中文分词组件完成分词并去除部分无关描述,剩余的名词和动词视为金融科技领域岗位所需技术描绘词汇。本应用实例共收集500余篇金融科技领域前沿论文,共计抽取900余个金融科技领域专业词汇。融合了半结构化数据和论文的专业词汇后,领域词典中共包含1254个领域词汇,如图16所示。
2.改进实体抽取算法
实体抽取目前主流的深度学习框架为BiLSTM-CRF,其中BiLSTM融合两组学习方向相反的LSTM层,通过大量的已标注数据和模型不断迭代可获得良好的分词模型。由于BiLSTM模型只考虑了标记(Token)的上下文信息,没有考虑到标记的局部信息,在学习长句时可能因为模型容量问题而失去重要信息。因此本应用实例在BiLSTM-CRF框架中加入卷积神经网络(CNN)用以记录标记的局部信息。
本应用实例选取一层卷积和一层池化组成CNN层结构,将输出结果与BiLSTM层输出的字符集向量矩阵相拼接作为全连接层(fully connected layers,FC)的输入。全连接层将文本特征映射到样本标记空间中,再将特征整合到一起输出一个值,减少特征位置对CRF分类带来的影响。
本应用实例的BiLSTM-CNN-CRF的框架中BiLSTM层和CNN层分别提取标记的全局和局部特征信息,将拼接后的向量输入全连接层后再输入CRF层进行解码。在词嵌入层经过Keras Embedding完成文本向量化后,CNN模型提取标记的局部信息T1,BiLSTM模型提取标记的全局信息T2,将字符向量拼接为T3输入至全连接成得到T4后输入CRF层。全连接层将通过BiLSTM和CNN处理获得特征数据整合结果映射到样本空间中完成加权提纯操作。CRF层综合转移矩阵和全连接层的标记向量结果,计算标记的得分并将最高分序列作为最终标记序列。详细算法流程如表2所示:
表2词典+BiLSTM-CNN-CRF的知识抽取算法
本环节设计了3组对比实验,选取了LSTM-CRF、BiLSTM-CRF和本应用实例的词典+BiLSTM-CNN-CRF模型。每个模型分别训练了10轮,取每个模型的最好效果作对比如表3所示,由此可见本应用实例所提出方法具有较好的实验结果。
表3本应用实例算法与其他算法的对比实验结果
(四)构建胜任力模型的具体过程
胜任力模型的识别和预测是本应用实例主要创新方向,前文所构建的知识图谱可以充分扩充招聘信息数据,在此基础上本小节主要说明本应用实例提出的识别胜任力模型的方法,也是本应用实例的主要创新点。构建胜任力模型就是希望识别和预测金融科技领域中不同岗位所需知识和技能,并明确对各种知识和技能的掌握程度。该方法可分为对程度词的分类和胜任力模型构建两步,以下将详细阐释。
1.程度词分类算法
在金融科技领域的招聘需求描述中的程度词包含很多种,例如“负责”、“熟悉”、“精通”、“具备”、“具有”、“了解”、“熟练”等等。前文的知识抽取可抽取出来程度词实体,但是有很多程度词表示的语义比较相近,例如“具有”和“具备”表示的语义基本一致,如果将所有程度词都展示在岗位所需的胜任力中将出现冗杂的数据展示效果,所以本应用实例采用计算词语相似度的方法对程度词分类。首先抽取出金融科技领域中招聘需求描述里所有程度词,基于word2vec对程度词进行词语余弦相似度计算,根据排序结果将程度词分类。
具体算法流程如图18所示,接下来将通过算法和文字分别描述该方法:
步骤1.将“精通”群确定为界定词BorderWord;
步骤2.从招聘需求文本中使用实体识别算法抽取出所有与程度词集合WordList;
步骤3.从步骤1获得的WordList根据word2vec模型处理为词语向量集合WorcdVec;
步骤4.计算步骤3中的词向量集合WordVec中的每一个词与步骤1中的界定词BorderWord的相似度;
步骤5.将步骤4中的相似度降序排列为List;
步骤6.根据步骤5中的List分为5类,完成程度词分类。
本应用实例使用基于word2vec模型的程度词分类算法对程度词实体进行相似度的计算和分类,将程度词“精通”作为界定词将其数值设置为1,通过模型最后得出其他程度词与“精通”的语义相似度,部分程度词语义相似度结果展示如表4所示。
表4部分程度词排序列表
程度词 | 与“精通”相似度 |
精通 | 1.00000000 |
熟练掌握 | 0.66228044 |
善于 | 0.64182961 |
运用 | 0.614020705 |
理解 | 0.605181098 |
掌握 | 0.588120699 |
从事 | 0.582218945 |
熟练 | 0.560444713 |
具有 | 0.557942212 |
具备 | 0.547494173 |
使用 | 0.530996442 |
研究 | 0.496722817 |
实验最终抽取出60个程度词,与“精通”相似度值在[0.05,1]区间内,排序后在每类程度词中选取相似度中位数的词作为代表词命名程度词类名,程度词被分为掌握、熟悉、负责、了解和参与五类,具体如表5所示。
表5程度词分类结果
2.基于共现矩阵的胜任力需求模型抽取
在招聘需求文本中程度词与胜任力实体(除岗位实体之外的实体)一同出现的次数较多则表示该类岗位需求相应程度的胜任力,例如在自然语言处理这类岗位中频繁出现“掌握Python”则表示自然语言处理这类岗位对Python这种技能的需求程度为“掌握”。
本应用实例的金融科技领域岗位胜任力需求模型的构建方法是统计在各类岗位招聘需求描述中程度词与胜任力实体(例如编程语言实体及算法实体等)同时出现的次数来抽取岗位所需的不同程度的胜任力。
技术方面则通过生成词共现矩阵来完成抽取文本中知识和技能实体与程度词的共现关系。本应用实例对共现矩阵计算方式进行了改进,在共现矩阵计算过程中针对不同掌握程度类别赋予不同的语义权重,并将词频与语义权重的乘积结果加入至共现矩阵的最终结果。生成的共现矩阵可以全面预测不同岗位对胜任力的需求程度,但是为了更加简洁表示胜任力需求模型,本应用实例将各个胜任力实体与不同类别掌握程度实体矩阵结果求和,获得该类岗位对于不同胜任力的综合需求程度。
共现矩阵结构如图19所示,词共现矩阵如果简单统计频率可能会抽取出与岗位胜任力无关的词汇,所以本应用实例对程度词出现的频率和语义综合考虑,重新定义程度词权重。因为掌握类、熟悉类、负责类、了解类和参与类程度词具有不同的掌握程度的语义,所以本应用实例在构建词共现矩阵时重新定义程度词的权重,最终的权重公式如下所示:
Weight(wi)=tf(wi)×fsw(wi)
式中:tf(wi)代表程度词的词频,fsw(wi)代表wi的语义权重,其中掌握类程度词:1.0,熟悉类程度词:0.8;负责类程度词:0.6;了解类程度词:0.4;参与类程度词:0.2。
通过为金融科技领域各类岗位的招聘需求文本集合构建程度词和胜任力实体的共现连通图,抽取程度词与胜任力实体间的关联关系,即获得每类岗位对于胜任力的需求程度,具体抽取算法如图20所示。
步骤1.对每类岗位招聘信息进行实体识别,获得知识图谱中定义的相应实体Entities;
步骤2.处理步骤1获得Entities,仅保留知识和能力类别实体EntityCompetency;
步骤3.计算每一类岗位文本中的程度词和胜任力实体的共现矩阵M;
步骤4.计算步骤3获得的M中胜任力实体对不同类型程度词的权重和,得到胜任力列表ListCompetence;
步骤5.将步骤4的ListCompetenceN等分后得到胜任力模型。
3.实验结果与分析
实验基于前文的算法抽取出不同类别岗位中招聘需求所提及的胜任力集合与程度词的共现矩阵,并针对共现矩阵结果对各个胜任力实体综合计算权重,输出最终的不同岗位胜任力需求模型。接下来以金融科技领域中自然语言处理类招聘为例,展示胜任力需求模型的识别结果。本应用实例抽取出自然语言处理岗位中866个胜任力实体,胜任力实体与掌握程度词间共现矩阵中的权重经求和后的取值区间为[0,80.413],其中部分共现矩阵结果如图21所示。根据前文定义的掌握程度类别对胜任力需求列表分成5类,部分岗位胜任力需求模型的结果如表6所示:
表6自然语言处理岗位胜任力需求模型部分列表
序号 | 掌握 | 熟悉 | 负责 | 了解 | 参与 |
1 | 机器学习 | 实体识别 | 舆情分析 | 关系抽取 | 问答系统 |
2 | NLP | 聚类 | 句法分析 | JAVA | 算法设计 |
3 | 深度学习 | 信息检索 | TensorFlow | Pytorch | 推荐系统 |
4 | C++ | Linux | 分析问题 | Torch | 意图识别 |
5 | 知识图谱 | 词性标注 | 人工智能 | 文本分析 | Keras |
6 | Python | 文本挖掘 | R | 智能对话 | 智能问答 |
7 | Java | shell | 大数据 | 搜索引擎 | 序列标注 |
8 | 数据结构 | 机器翻译 | LDA | caffe | 云计算 |
9 | C | 分类 | Shell | 自然语言理解 | 大数据技术 |
10 | 数据挖掘 | 信息抽取 | 对话系统 | 知识抽取 | 异构数据库 |
在一具体举例中,金融科技领域自然语言处理岗位胜任力模型图谱如图22所示,其中,图22仅为金融科技领域自然语言处理岗位胜任力模型图谱结构上的示意性举例,并未涵盖金融科技领域自然语言处理岗位胜任力模型图谱中的全部内容,其中较为模糊或遮盖的字符也并不影响本申请中对于金融科技领域自然语言处理岗位胜任力模型图谱中内容的说明。
本应用实例提出了一种基于知识图谱的金融科技岗位胜任力需求数据处理方法,以图形和表格的方式展示金融科技领域中不同岗位所需具备的知识和技能及其掌握程度。本应用实例探索将人工智能技术与银行业中的金融科技类岗位相结合,通过本应用实例的分析结果可以探索金融科技领域从业者具体的培养方案,或者借助模型全面分析银行中金融科技类岗位的能力需求,进而为金融科技从业者制定培训课程体系等。其具体优点如下:
1、基于大数据构建多类岗位胜任力模型。本应用实例提出的基于知识图谱的金融科技岗位胜任力分析方法是基于互联网中大量金融科技相关的招聘信息和银行内金融科技从业者日常工作内容,具有强大的数据基础和理论支撑。在大数据中应用成熟的分类算法将大量数据分类为不同金融科技岗位类型,为金融科技管理者提全面性、多维性、具体性的管理依据。
2、胜任力包括金融科技岗位所需的知识和技能及其掌握程度。区别于以往通过访谈、问卷调查和数据统计等方法构建岗位胜任力模型,本应用实例提出的金融科技岗位胜任力分析方法所构建的胜任力模型范围更广,不仅包括每种岗位所需具备的知识和技能,还可以分析出对于知识和技能的掌握程度。程度词由强到弱被分为“掌握”、“熟悉”、“负责”、“了解”、“参与”,与岗位所需的知识和技能匹配后可展示更全面的胜任力模型。
3、胜任力模型可视化展示。本应用实例所提出的基于知识图谱的金融科技岗位胜任力分析方法将分析结果通过两种方式展示,一种为知识图谱方式,以岗位类别为中心,通过5中类型的掌握程度与知识和技能相连接,同时可以与招聘企业相连接,多维度展示胜任力模型及其相关信息;另一种为列表方式,通过将知识和技能与掌握程度汇总为一张10x5的表格,简洁明了展示金融科技岗位所需知识技能和掌握程度的对应关系。
从硬件层面来说,为了解决现有的岗位胜任力需求数据处理方式仅能够识别到招聘数据中涉及的技能要求,却无法确定招聘数据中对这些技能要求的强烈程度,进而导致岗位胜任力需求数据的处理可靠性及针对性差等问题,本申请提供一种用于实现所述岗位胜任力需求数据处理方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图23为本申请实施例的电子设备9600的系统构成的示意框图。如图23所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图23是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,岗位胜任力需求数据处理功能可以被集成到中央处理器中。
其中,中央处理器可以被配置为进行如下控制:
步骤100:根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合。
步骤200:建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。
从上述描述可知,本申请实施例提供的电子设备,通过将自所述目标岗位所在领域的招聘数据中获取各个类型的程度词集合,能够实现目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的获取,能够有效提高获取岗位胜任力需求数据的可靠性及准确性,并能够提高岗位胜任力需求数据处理过程的效率及自动化程度;同时,通过以目标岗位的招聘数据和目标知识图谱作为获取岗位胜任力需求数据的数据基础,能够有效提高获取的岗位胜任力需求数据的针对性,进而能够提高个人用户请求获知某岗位的胜任力需求数据的需求,还能够提高企业用户根据某岗位的胜任力需求数据进行技能培训及招聘人员匹配等需求,能够有效提高用户体验。
在另一个实施方式中,岗位胜任力需求数据处理装置可以与中央处理器9100分开配置,例如可以将岗位胜任力需求数据处理装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现岗位胜任力需求数据处理功能。
如图23所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图23中所示的所有部件;此外,电子设备9600还可以包括图23中没有示出的部件,可以参考现有技术。
如图23所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的岗位胜任力需求数据处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的岗位胜任力需求数据处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合。
步骤200:建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过将自所述目标岗位所在领域的招聘数据中获取各个类型的程度词集合,能够实现目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的获取,能够有效提高获取岗位胜任力需求数据的可靠性及准确性,并能够提高岗位胜任力需求数据处理过程的效率及自动化程度;同时,通过以目标岗位的招聘数据和目标知识图谱作为获取岗位胜任力需求数据的数据基础,能够有效提高获取的岗位胜任力需求数据的针对性,进而能够提高个人用户请求获知某岗位的胜任力需求数据的需求,还能够提高企业用户根据某岗位的胜任力需求数据进行技能培训及招聘人员匹配等需求,能够有效提高用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种岗位胜任力需求数据处理方法,其特征在于,包括:
根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合;
建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。
2.根据权利要求1所述的岗位胜任力需求数据处理方法,其特征在于,在所述根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体之前,还包括:
获取目标行业领域的领域词典;
根据所述目标行业领域中各个岗位的招聘数据,生成已标注实体的第一招聘需求数据和未标注所述实体的第二招聘需求数据;
基于所述第一招聘需求数据及所述领域词典生成用于抽取实体的知识抽取模型;
将所述第二招聘需求数据输入所述知识抽取模型,以使该知识抽取模型输出所述第二招聘需求数据对应的各个实体;
根据预设的知识图谱数据模式,将所述第一招聘需求数据及第二招聘需求数据各自对应的所述实体与各个所述实体之间的对应关系进行数据整合,以得到目标行业领域中各个岗位的知识图谱,其中,该知识图谱用于显示对应岗位的各个实体以及各个实体之间的对应关系,各个所述实体包括:用于显示对应岗位唯一标识的岗位实体和分别用于表示对应岗位的招聘需求的各个胜任力实体。
3.根据权利要求2所述的岗位胜任力需求数据处理方法,其特征在于,所述获取目标行业领域的领域词典,包括:
采集目标行业领域中各个岗位的招聘数据,并对该招聘数据进行数据预处理以得到对应的结构化数据、半结构化数据和非结构化数据;
获取所述目标行业领域中的论文数据并提取该论文数据中的关键数据,对所述关键数据进行分词后保留其中的名词和动词,以形成所述目标行业领域的专业词汇;
基于所述结构化数据、半结构化数据和所述专业词汇生成所述目标行业领域中各个所述岗位的领域词典。
4.根据权利要求3所述的岗位胜任力需求数据处理方法,其特征在于,所述根据所述目标行业领域中各个岗位的招聘数据,生成已标注实体的第一招聘需求数据和未标注所述实体的第二招聘需求数据,包括:
对所述非结构化数据进行分词及分句处理,以得到对应的招聘需求数据;
将所述招聘需求数据分为两部分,对其中的一部分数据进行实体标注,以形成第一招聘需求数据,并将所述招聘需求数据中的另一部分数据确定为未标注所述实体的第二招聘需求数据;
将所述第一招聘需求数据划分为用于训练知识抽取模型的训练集和测试集。
5.根据权利要求4所述的岗位胜任力需求数据处理方法,其特征在于,所述知识抽取模型包括:依次连接的词嵌入层、特征预测模块、全连接层和CRF层;
所述特征预测模块包括分别与所述词嵌入层连接的CNN层和BiLSTM层,以及分别与所述CNN层和BiLSTM层连接的拼接单元,且该拼接单元连接所述全连接层。
6.根据权利要求5所述的岗位胜任力需求数据处理方法,其特征在于,所述基于所述第一招聘需求数据及所述领域词典生成用于抽取实体的知识抽取模型,包括:
将所述训练集输入所述词嵌入层,以使该词嵌入层将所述第一招聘需求数据转换为由各个字向量构成的字符级向量集,所述CNN层提取所述字符级向量集对应的局部预测向量,且所述BiLSTM层提取所述字符级向量集对应的全局预测向量,所述拼接单元将所述局部预测向量和所述全局预测向量进行拼接以得到对应的目标预测向量,所述全连接层将所述目标预测向量映射到样本空间中完成加权提纯操作,得到对应的预测结果数据,所述CRF层基于转移矩阵及所述预测结果数据获取所述第一招聘需求数据对应的最优序列,并输出该最优序列对应的各个实体,形成用于抽取实体的知识抽取模型;
采用所述测试集对所述知识抽取模型进行验证及调优处理。
7.根据权利要求2所述的岗位胜任力需求数据处理方法,其特征在于,所述根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,包括:
接收岗位胜任力需求数据获取请求,其中,该岗位胜任力需求数据获取请求中包含有至少一个目标岗位的唯一标识;
基于所述目标岗位的唯一标识,在预设的各个知识图谱中查找该目标岗位对应的目标知识图谱,并在该目标知识图谱中确定所述目标岗位对应的各个所述胜任力实体。
8.根据权利要求1所述的岗位胜任力需求数据处理方法,其特征在于,所述基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合,包括:
在所述目标岗位所在的目标行业领域的招聘数据中,抽取所述目标岗位对应的各个程度词;
对所述目标岗位对应的各个程度词进行相似度计算,并根据对应的相似度计算结果将各个程度词分别划分至所述目标岗位对应的各个类型的程度词集合中。
9.根据权利要求8所述的岗位胜任力需求数据处理方法,其特征在于,所述对所述目标岗位对应的各个程度词进行相似度计算,并根据对应的相似度计算结果将各个程度词分别划分至所述目标岗位对应的各个类型的程度词集合中,包括:
基于预设的word2vec算法分别计算各个所述程度词各自与预设的目标程度词之间的词语余弦相似度;
根据各个所述词语余弦相似度的降序顺序,将各个所述程度词进行排序,以形成对应的程度词排序列表,其中,该程度词排序列表用于存储降序排序的各个所述词语余弦相似度和各个所述程度词之间的对应关系;
基于预设的区间划分规则确定多个相似度数值区间;
将属于同一所述相似度数值区间内的词语余弦相似度对应的程度词划分在同一类型的程度词集合中。
10.根据权利要求9所述的岗位胜任力需求数据处理方法,其特征在于,所述目标程度词包括:精通;
相对应的,所述程度词集合包括:掌握类程度词集合、熟悉类程度词集合、负责类程度词集合、了解类程度词集合和参与类程度词集合。
11.根据权利要求1至10任一项所述的岗位胜任力需求数据处理方法,其特征在于,所述建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据,包括:
为各个类型的所述程度词集合分别赋予不同的语义权重;
建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵;
基于所述共现矩阵及各个所述程度词集合分别对应的语义权重,获取各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系;
根据所述匹配度排序关系生成对应的岗位胜任力需求模型,该岗位胜任力需求模型用于存储各个所述程度词集合各自对应的匹配度由高至低排序的各个所述胜任力实体;
将所述岗位胜任力需求模型作为所述目标岗位对应的岗位胜任力需求数据进行输出。
12.一种岗位胜任力需求数据处理装置,其特征在于,包括:
数据获取模块,用于根据目标岗位对应的目标知识图谱确定该目标岗位对应的用于表示招聘需求的各个胜任力实体,以及,基于所述目标岗位所在的目标行业领域的招聘数据,获取所述目标行业领域对应的各个类型的程度词集合;
匹配排序模块,用于建立各个类型的所述程度词集合和所述目标岗位对应的各个胜任力实体之间的共现矩阵,以基于该共现矩阵生成用于显示所述目标岗位对应的各个胜任力实体与各个类型的程度词集合之间的匹配度排序关系的岗位胜任力需求数据。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任一项所述的岗位胜任力需求数据处理方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11任一项所述的岗位胜任力需求数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111049259.1A CN113723853A (zh) | 2021-09-08 | 2021-09-08 | 岗位胜任力需求数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111049259.1A CN113723853A (zh) | 2021-09-08 | 2021-09-08 | 岗位胜任力需求数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723853A true CN113723853A (zh) | 2021-11-30 |
Family
ID=78682562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111049259.1A Pending CN113723853A (zh) | 2021-09-08 | 2021-09-08 | 岗位胜任力需求数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723853A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098791A (zh) * | 2022-08-24 | 2022-09-23 | 中建电子商务有限责任公司 | 一种实时岗位推荐方法和系统 |
CN116485597A (zh) * | 2023-04-17 | 2023-07-25 | 北京正曦科技有限公司 | 基于岗位能力模型的标准化实训方法 |
CN117932040A (zh) * | 2024-03-21 | 2024-04-26 | 成都鱼泡科技有限公司 | 应用于招聘信息化系统的信息推荐方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308535A (zh) * | 2020-11-26 | 2021-02-02 | 上海松鼠课堂人工智能科技有限公司 | 基于知识图谱的岗位选择评估推荐方法及系统 |
CN112434211A (zh) * | 2020-11-04 | 2021-03-02 | 广州视源电子科技股份有限公司 | 一种数据处理方法、装置、存储介质及设备 |
CN112883198A (zh) * | 2021-02-24 | 2021-06-01 | 广州视源电子科技股份有限公司 | 一种知识图谱构建方法、装置、存储介质以及计算机设备 |
CN113240400A (zh) * | 2021-06-02 | 2021-08-10 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的候选人确定方法及装置 |
-
2021
- 2021-09-08 CN CN202111049259.1A patent/CN113723853A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434211A (zh) * | 2020-11-04 | 2021-03-02 | 广州视源电子科技股份有限公司 | 一种数据处理方法、装置、存储介质及设备 |
CN112308535A (zh) * | 2020-11-26 | 2021-02-02 | 上海松鼠课堂人工智能科技有限公司 | 基于知识图谱的岗位选择评估推荐方法及系统 |
CN112883198A (zh) * | 2021-02-24 | 2021-06-01 | 广州视源电子科技股份有限公司 | 一种知识图谱构建方法、装置、存储介质以及计算机设备 |
CN113240400A (zh) * | 2021-06-02 | 2021-08-10 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的候选人确定方法及装置 |
Non-Patent Citations (1)
Title |
---|
王一博: "基于知识图谱的计算机领域胜任力研究与应用", 《中国优秀硕士学位论文全文数据库》, no. 8, 31 December 2020 (2020-12-31), pages 1 - 54 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098791A (zh) * | 2022-08-24 | 2022-09-23 | 中建电子商务有限责任公司 | 一种实时岗位推荐方法和系统 |
CN116485597A (zh) * | 2023-04-17 | 2023-07-25 | 北京正曦科技有限公司 | 基于岗位能力模型的标准化实训方法 |
CN116485597B (zh) * | 2023-04-17 | 2024-05-07 | 北京正曦科技有限公司 | 基于岗位能力模型的标准化实训方法 |
CN117932040A (zh) * | 2024-03-21 | 2024-04-26 | 成都鱼泡科技有限公司 | 应用于招聘信息化系统的信息推荐方法及系统 |
CN117932040B (zh) * | 2024-03-21 | 2024-05-28 | 成都鱼泡科技有限公司 | 应用于招聘信息化系统的信息推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951558B (zh) | 一种基于深度搜索的税务智能咨询平台的数据处理方法 | |
CN113723853A (zh) | 岗位胜任力需求数据处理方法及装置 | |
CN111813958B (zh) | 基于创新创业平台的智慧服务方法与系统 | |
CN113886567A (zh) | 一种基于知识图谱的教学方法及系统 | |
CN115481969A (zh) | 简历筛选方法、装置、电子设备及可读存储介质 | |
Bai et al. | Applied research of knowledge in the field of artificial intelligence in the intelligent retrieval of teaching resources | |
Dang et al. | MOOC-KG: A MOOC knowledge graph for cross-platform online learning resources | |
Zhong et al. | Design of a personalized recommendation system for learning resources based on collaborative filtering | |
Huang et al. | A personalized English learning material recommendation system based on knowledge graph | |
CN115481827A (zh) | 一种创新创业服务供给与需求智能匹配的方法 | |
Zhang | Construction of personalized learning platform based on collaborative filtering algorithm | |
CN116186372A (zh) | 一种能够提供个性化服务的书目系统 | |
Shanshan et al. | An improved hybrid ontology-based approach for online learning resource recommendations | |
CN117743315A (zh) | 一种为多模态大模型系统提供高质量数据的方法 | |
Folorunso et al. | Application of artificial intelligence and robotics in libraries: a review of literature | |
Li | A Recommendation Model for College English Digital Teaching Resources Using Collaborative Filtering and Few‐Shot Learning Technology | |
CN113220951B (zh) | 一种基于智能内容的医学临床支持方法和系统 | |
CN117891923A (zh) | 一种基于意图识别和知识图谱的法律问答系统 | |
Banday et al. | Big Data in Academia: A Proposed Framework for Improving Students Performance. | |
Stollberg et al. | H-Techsight—A next generation knowledge management platform | |
CN117473034A (zh) | 交互文本处理方法、装置、电子设备及存储介质 | |
CN112330387A (zh) | 一种应用于看房软件的虚拟经纪人 | |
Xu | [Retracted] Digital Construction of Vocal Music Teaching Resource Base Using Data Mining Technology | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
Ramesh et al. | Web mining based framework for ontology learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |