CN112417165A - 一种生涯规划知识图谱构建及查询方法和系统 - Google Patents
一种生涯规划知识图谱构建及查询方法和系统 Download PDFInfo
- Publication number
- CN112417165A CN112417165A CN202011299588.7A CN202011299588A CN112417165A CN 112417165 A CN112417165 A CN 112417165A CN 202011299588 A CN202011299588 A CN 202011299588A CN 112417165 A CN112417165 A CN 112417165A
- Authority
- CN
- China
- Prior art keywords
- professional
- name
- data
- recruitment information
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种生涯规划知识图谱的构建及查询方法和系统。该方法包括:从招聘网站中获取招聘信息,收集本科以及专科的专业分类以及名称,收集网络资料中职业对应专业的相关资料,以及收集各高校毕业生的就业去向;将获得的数据进行去噪、分类以及存储等操作;知识图谱构建模块,通过命名实体识别等操作进行生涯规划知识图谱的构建;将用户在终端选择的职业或筛选条件利用生涯规划知识图谱将结果展示出来。本发明利用生涯规划知识图谱分析得到职业与相关专业的对应关系,为用户选择专业提供了参考,为用户提供了便捷。使用了相关的自然语言处理技术,提高了数据获取及数据预处理的效率;从招聘网站获取相应的数据,保证了数据的实时性以及可靠性。
Description
技术领域
本发明涉及知识图谱领域,具体而言,涉及一种生涯规划知识图谱查询方法和系统。
背景技术
伴随着人生的进程,生涯规划是每个人都要经历的过程,其中最主要的就是职业与专业的选择,同时不同的职业对应着不同的专业,所以对于自己向往的职业需要了解相对应的专业,而对于自己所学的专业也需要了解可以胜任的职业。如何快速查询出职业与专业的对应关系,是一种需要迫切解决的需求。
然而,目前互联网上缺乏满足此需求的职业信息智能化服务系统,不能将职业与专业信息尽相关联,造成了职业选择与生涯规划的不便。
发明内容
为解决上述问题,本发明提出一种生涯规划知识图谱构建及查询方法,采取前后端结合的方式,前台获取用户的输入,后台利用知识图谱进行查询分析得出结果并返回前端,前端再进行相应数据的展示出来。
为实现本发明之目的,采用以下技术方案予以实现:
一种生涯规划知识图谱构建及查询方法,其步骤如下:
S1:获取招聘信息数据、专业名称数据以及高校毕业生的就业去向数据;其中所述招聘信息数据中每条招聘信息包括职业名称、工作地址、薪资以及职位信息描述;所述专业名称数据中包含不同专业的标准专业名称;所述高校毕业生的就业去向数据包含每个专业的所有毕业生各自就职的职业;
S2:按照S21~S23对S1中获取的数据进行分类预处理;
S21:利用含有专业名称的字符串对所述招聘信息逐条进行匹配,筛除职位信息描述中不含有任何专业名称的无效数据;
S22:对S21处理后的招聘信息进行实体消岐,使招聘信息中职业名称的命名格式统一化,同时对招聘信息中工作地址和薪资进行格式统一化,所有招聘信息进行去重处理后,得到有效招聘信息数据集;
S23:对所述有效招聘信息数据集内的职业名称进行聚类,将其划分成若干种职业大类;
S3:基于S2中获取的有效招聘信息数据集,按照S31~S33构建知识图谱;
S31:从所述有效招聘信息数据集中选择部分招聘信息作为训练数据,并对训练数据中的每条招聘信息中出现的专业名称进行标注;
S32:基于所述训练数据构建用于从职位信息描述中识别与抽取专业名称的实体抽取模型;
S33:利用所述实体抽取模型对所述有效招聘信息数据集中剩余的每条招聘信息数据进行实体抽取,获得每条招聘信息中出现的专业名称;
S34:基于所述有效招聘信息数据集中的每条招聘信息内的职业名称和专业名称,通过多级权重算法得到每个职业名称与对应的专业名称之间的关联度;
S35:基于所述有效招聘信息数据集以及实体抽取结果,针对职业名称、专业名称、工作地址和薪资四种实体之间添加关系,并将各实体、关系以及所述关联度存储于Neo4j数据库中;
S36:基于Neo4j数据库,通过Neo4j可视化工具构建生涯规划知识图谱;
S4:针对用户在前端界面中输入的指令,通过后端Neo4j的交互从生涯规划知识图谱中获取指令对应的返回数据,并将其显示在前端界面中。
作为优选,所述S22中,对工作地址、薪资进行格式统一化时,利用中国省市表将杂乱的地址格式化为省名-市名的形式,将薪资格式化为X元/月的形式,其中X代表以人民币计算的月薪资数字。
作为优选,所述S23中,预先对所述有效招聘信息数据集内的职业名称根据当前热度进行排序,然后选取热度高于阈值的职业名称作为热门职业参与后续的聚类,筛除其余非热门的职业名称。
作为优选,所述S23中,聚类方法为谱聚类。
作为优选,所述S31中,通过BIO标注方法对每条招聘信息中出现的专业名称进行标注。
进一步的,所述BIO标注方法中,以B-PRO为专业名称开始,以I-PRO为专业名称中间以及结尾,以O为其它信息。
作为优选,所述S32中,所述实体抽取模型为BiLSTM-CRF模型,每条招聘信息中的职位信息表示成词向量后,经过BiLSTM层和CRF层输出表示专业名称的实体抽取结果。
进一步的,所述词向量利用开源语料库训练的gensim模型获取。
作为优选,所述多级权重算法计算关联度的具体过程为:
S341:根据S33中利用抽取出的每条招聘信息中出现的专业名称,统计每个职业名称中不同专业名称出现的频率,以该频率作为第一关联度;
S342:从外部资料中获取S341中统计的每个职业名称对口的专业名称,然后基于外部资料统计职业名称中不同专业名称出现的频率,以该频率作为第二关联度;
S343:根据所述高校毕业生的就业去向数据,统计每个专业名称下的所有毕业生就职于的S341中统计的每个职业名称的比例,以该比例作为第三关联度;
S344:对于任意一个职业名称和一个专业名称,将其对应的第一关联度、第二关联度和第三关联度进行加权求和,得到职业名称和专业名称之间的加权关联度;
S345:对于任意一个职业名称,将与其存在关联的所有专业名称的加权关联度进行等比例的数值归一化调整,使得加权关联度的最大值为1,从而得到职业名称和专业名称之间的最终关联度。
作为优选,所述S4中,用户在前端界面中输入的指令为查询指令或操作指令,所述查询指令包括通过职业名称查询得到对应专业、通过地址或薪资筛选得到满足条件的职业,所述的操作指令包括从Neo4j中取出数据并利用eacharts关系图对知识图谱进行数据的可视化、在图谱显示空间对知识图谱的关系网络或属性网络进行拖动以调整布局、在图谱显示空间对知识图谱的节点进行折叠展开操作。
另一方面,本发明提供了一种用于如实现前述任一方案所述方法的生涯规划知识图谱构建及查询系统,其包括:
数据收集模块,用于实现S1;
数据预处理模块,用于实现S2;
知识图谱构建模块,用于实现S3;
以及终端查询展示模块,用于实现S4。
由上,本发明提供的一种生涯规划知识图谱的查询分析方法,为用户提供便捷、快速的查询分析,具有如下有益效果:
1、本发明可利用爬虫技术爬取招聘网站的最新招聘信息,具有实时性与可靠性的优点;
2、本发明可用户可根据自己的目标职业查询得到相应的专业,通过地址、薪资的的筛选得到满足条件的职业;
3、本发明可可以对界面展示的节点进行位置的调整以及根据专业的分类进行类别数据的折叠与展开,显示效果更加简洁与直观。
4、本发明可使用BiLSTM-CRF模型进行专业实体的识别,效率高,效果好。
5、本发明可显示职业与专业的关联度,使图谱更加清晰。
6、本发明可使用谱聚类的方式进行聚类,使用方便且准确率高。
附图说明
下面结合附图对本发明作进一步描述。
图1为本发明所述的一种生涯规划知识图谱构建及查询方法结构示意图;
图2为本发明数据预处理的流程图;
图3为本发明构建知识图谱的流程图;
图4为本发明的职业专业展示示意图(其中文字信息不重要,仅通过图谱展示显示状态);
图5为本发明的地址、薪资筛选展示图(其中文字信息不重要,仅通过图谱展示显示状态)。
具体实施方式
下面将结合附图更为详细的介绍本发明的具体实施方式,通过具体实施例来介绍本发明,本发明的特征以及优点会更加显而易见。
在本发明的一个较佳实施例中,提供了一种生涯规划知识图谱构建及查询方法,如图1所示,该方法可基于相应的功能模块来实现,数据收集模块,用于实现S1;数据预处理模块,用于实现S2;知识图谱构建模块,用于实现S3;以及终端查询展示模块,用于实现S4。
下面分别对S1~S4的具体实现过程进行描述,其子步骤如下
S1:获取招聘信息数据、专业名称数据以及高校毕业生的就业去向数据,其中:
招聘信息数据中每条招聘信息包括职业名称、工作地址、薪资以及职位信息描述。招聘信息可以使用爬虫技术爬取招聘网站上的信息,职业名称通常位于招聘信息的标题栏中,例如机械工程师、英语翻译等;职位信息描述通常为一段或多段用于介绍所招聘职业的要求、工作内容等信息的介绍文字。
专业名称数据中包含不同专业的标准专业名称,可以从教育部公布的本科专业名称标准中获取,根据所展示的目的选取本科或专科的专业名称。
高校毕业生的就业去向数据包含每个专业的所有毕业生各自就职的职业,该数据可以从高校管理部门获取或者通过高校就业信息网等公开途径摘录。
S2:按照S21~S23对S1中获取的数据进行分类预处理。
S21:利用含有专业名称的字符串对所述招聘信息逐条进行匹配,筛除职位信息描述中不含有任何专业名称的无效数据。需注意,此处含有专业名称的字符串中应当包含同一专业的不同名称,不一定是标准专业名称,以尽量扩大样本量。
S22:对S21处理后的招聘信息进行实体消岐,使招聘信息中职业名称的命名格式统一化,例如英语翻译与英文翻译即统一为英语翻译。
同时对招聘信息中工作地址和薪资进行格式统一化,使其能够结构化存储。对工作地址、薪资进行格式统一化时,利用中国省市表将杂乱的地址格式化为省名-市名(xx省-xx市)的形式,将薪资格式化为X元/月的形式,其中X代表以人民币计算的月薪资数字。
优选的,地址格式化的步骤具体为:
(1)使用列表存储市级名称、省市县以及每个省对应的省会;
(2)受判断地址是否有‘-’,有的话进行切割,再一次利用第一个列表(其中存储有形式为省名-市名的地址数据)进行判断,找到的话进行存储并继续判断下一个;
(3)如果没有‘-’的话,则使用第二个列表(其中存储有形式为单独省名以及单独市县名的地址数据)进行查找,如果是省份则赋予省会名称,是地级市直接存储,县级名称则存储对应的地级市名称;
(4)对于少量不合规范的的进行手工标注。
优选的,薪资格式化的步骤具体为:
(1)判断‘/’是否在字符串中,并提取数字,没有的话直接输出查看结果;
(2)判断‘/’前面是否是元、千、万,经过测试发现有以上、以下将其删掉;
(3)判断‘/’前面为哪个字,并利用进制转换对提取的数字进行操作,将单位统一化为千;
(4)去最后一个字是否为月,如果不是则利用进制转换对前面的数字进行操作,将单位统一化为月。
当然,以上地址和薪资的格式化步骤也可以采用其他现有方法进行。
最后,由于部分招聘信息会在不同网站或者同一网站中重复发布,因此需要对所有招聘信息进行去重处理,删除重复的招聘信息,得到有效招聘信息数据集。去重处理可以通过计算招聘信息数据的重复率来判断是否需要删除。
因此,该预处理步骤的具体流程参见图2所示。
S23:对有效招聘信息数据集内的职业名称进行聚类,将其划分成若干种职业大类,然后将所有的有效招聘信息数据进行分类存储。
在本实施例中,可以对职业名称进行相似度求解以及谱聚类,划分为400种职业大类,具体步骤为:
获取维基百科中文语料,使用gensim-word2vec进行词向量训练,得到词向量训练模型,使用model.similarity(u"陕西省",u"山西省")获取职业名称的相似度矩阵,利用谱聚类的方法进行职业名称的分类,最终得到400种职业大类,并将每一种职业大类中选取一种职业为职业大类的名称,以便于分类存储。
另外需注意的是,由于招聘信息数据的复杂性,部分职业名称可能对应含有极少数的非常见专业名称,这些专业名称并不能反映该职业常见的对口专业。因此,在进行S23的聚类步骤之前,可以预先对有效招聘信息数据集内的职业名称根据当前热度进行排序,热度可以选择数据集中职业名称出现的频率为代表。然后选取热度高于阈值的职业名称作为热门职业参与后续的聚类,筛除其余非热门的职业名称,不参与后续聚类。本实施例中根据序列取得当前最热门的前1825种职业。
S3:基于S2中获取的有效招聘信息数据集,按照S31~S33构建知识图谱。
S31:从获取的有效招聘信息数据集中选择部分招聘信息作为训练数据,并对训练数据中的每条招聘信息中出现的专业名称进行标注。从处理过后的招聘信息中取出前2000条数据对职位信息进行BIO标注。
此处的BIO标注具体为:B-PRO为专业名称开始;I-PRO为专业名称中间以及结尾;O为其它信息。比如英语翻译的一条招聘信息为:大专及以上学历,国际贸易或英语专业,则转换成BIO标注为:大:O,专:O,及:O,以:O,上:O,学:O,历:O,国:B-PRO,际:I-PRO,贸:I-PRO,易:I-PRO,或:O,英:B-PRO,语:I-PRO,专:I-PRO,业:I-PRO。
S32:基于训练数据构建用于从职位信息描述中识别与抽取专业名称的实体抽取模型。
S33:利用该实体抽取模型对有效招聘信息数据集中剩余的每条招聘信息数据进行实体抽取,获得每条招聘信息中出现的专业名称。
S34:基于有效招聘信息数据集中的每条招聘信息内的职业名称和专业名称,通过多级权重算法得到每个职业名称与对应的专业名称之间的关联度。
S35:基于有效招聘信息数据集以及实体抽取结果,针对职业名称、专业名称、工作地址和薪资四种实体之间添加关系。若某一职业名称、专业名称、工作地址和薪资存在于同一条招聘信息中,则表明其存在关联,可在四种实体之间建立关系。关系建立完毕后,可将各实体、关系以及S34中得到的关联度存储于Neo4j数据库中。
S36:基于Neo4j数据库,通过Neo4j可视化工具构建生涯规划知识图谱。
因此,该知识图谱构建步骤的具体流程参见图3所示。
本实施例在上述S33中,实体抽取模型采用BiLSTM-CRF模型,每条招聘信息中的职位信息表示成词向量后,经过BiLSTM层和CRF层输出表示专业名称的实体抽取结果。其训练和专业命名实体识别包括以下步骤:
1)读取数据集;数据集共三个文件,训练集,交叉测试集和测试集,文件中每一行包含两个元素,字和标识,每一句话间由一个空格隔开。
2)处理数据集;更新BIO标注到BIOES标签,单独的实体对象为S-PRO,B为实体名称开始,I为实体名称中间部分,E为实体名称结束,O为其他,比如英语翻译的一条招聘信息为:大专及以上学历,国际贸易或英语专业,则转换成BIO标注为:大:O,专:O,及:O,以:O,上:O,学:O,历:O,国:B-PRO,际:I-PRO,贸:I-PRO,易:E-PRO,或:O,英:B-PRO,语:I-PRO,专:I-PRO,业:E-PRO。给每个char和tag分配一个id,得到一个包含所有字的字典dict,以及char_to_id,id_to_char,tag_to_id,id_to_tag,将其存在map.pkl模型中。
3)准备训练数据;将训练集中的每句话变成4个list;第一个list是字,如[国,际,贸,易,或,英,语,专,业];第二个list是char_to_id[3,5,6,8,9,4,7,10,2];第三个list是通过jieba分词得到的分词信息特征,如[1,2,2,3,0,1,2,2,3](1,词的开始,2,词的中间,3,词的结尾,0,单个词);第四个list是target,如[2,1,1,3,0,2,1,1,3](非0的元素对应着tag_to_id中的数值)
4)配置模型参数;
5)构建模型;1)input:输入两个特征,char_to_id的list以及通过jieba得到的分词特征list,2)embedding:预先训练好了100维词向量模型,通过查询将得到每个字的100维向量,加上分词特征向量,输出到drouput(0.5),3)LSTM输入层以及输出层,4)project_layer:两层的Wx+b进行逻辑回归,5)loss_layer:内嵌了CRF进行操作,通过以上构建的模型进行训练得到命名实体识别模型。
6)导入剩余职位信息数据进行命名实体识别;例如输入本科及以上计算机及新媒体艺术相关专业,则识别抽取出计算机、新媒体艺术。
另外,本实施例的S34中,多级权重算法计算关联度的具体过程为:
S341:根据S33中利用抽取出的每条招聘信息中出现的专业名称,统计每个职业名称中不同专业名称出现的频率,以该频率作为第一关联度。
S342:从外部资料中获取S341中统计的每个职业名称对口的专业名称,然后基于外部资料统计职业名称中不同专业名称出现的频率,以该频率作为第二关联度。
S343:根据所述高校毕业生的就业去向数据,统计每个专业名称下的所有毕业生就职于的S341中统计的每个职业名称的比例,以该比例作为第三关联度。
S344:对于任意一个职业名称和一个专业名称,将其对应的第一关联度、第二关联度和第三关联度进行加权求和,得到职业名称和专业名称之间的加权关联度。
S345:对于任意一个职业名称,将与其存在关联的所有专业名称的加权关联度进行等比例的数值归一化调整,使得加权关联度的最大值为1,从而得到职业名称和专业名称之间的最终关联度。
为了更便于理解,举一个具体的示例,以展示多级权重算法的实现过程:
1)根据命名实体识别提取出的专业进行分类并通过相应专业在招聘信息中出现的频率赋予相应的数值(0<=m1<=1):
公式为:
比如对于英语翻译职业中提取出英语、国际贸易、电子商务、计算机类以及汽车类,将其分成四大类,每类根据相应专业出现的频率赋予相应的数值(0<=m1<=1),比如英语通过计算得到频率为1,国际贸易为0.5,电子商务为0.4,计算机为0.3,汽车类为0.1。
由此,可得到个专业的频率比率表格:
求第一关联度的过程如下:
英语关联度:1/(1+0.5+0.3+0.4+0.1)=0.434
国际贸易关联度:0.5/(1+0.5+0.3+0.4+0.1)=0.217
电子商务关联度:0.4/(1+0.5+0.3+0.4+0.1)=0.173
计算机类关联度:0.3/(1+0.5+0.3+0.4+0.1)=0.130
汽车类关联度:0.1/(1+0.5+0.3+0.4+0.1)=0.0434;
2)根据网络中给出的职业对应的专业相关数据,给相应类别赋予相应的关联度数值,比如对于与英语翻译,英语通过资料得到关联度为1,国际贸易为0.6,电子商务为0.4,计算机类为0.4,汽车类为0.1。
由此,可得到个专业的频率比率表格:
网络资料 | 英语 | 国际贸易 | 电子商务 | 计算机 | 汽车类 |
英语 | 1 | 1.67 | 2.5 | 2.5 | 10 |
国际贸易 | 0.6 | 1 | 1.5 | 1.5 | 6 |
电子商务 | 0.4 | 0.6 | 1 | 1 | 4 |
计算机类 | 0.4 | 0.6 | 1 | 1 | 4 |
汽车类 | 0.1 | 0.16 | 0.25 | 0.25 | 1 |
求第二关联度的过程如下:
英语关联度:1/(1+0.6+0.4+0.4+0.1)=0.4
国际贸易关联度:0.6/(1+0.6+0.4+0.4+0.1)=0.24
电子商务关联度:0.4/(1+0.6+0.4+0.4+0.1)=0.16
计算机类关联度:0.4/(1+0.6+0.4+0.4+0.1)=0.16
汽车类关联度:0.1/(1+0.6+0.4+0.4+0.1))=0.04;
3)通过各高校毕业生的就业岗位,根据各个专业学生参与工作的比例赋予相应的关联度,公式为:
比如对于英语翻译,英语通过计算得到频率为0.8,国际贸易为0.4,电子商务为0.3,计算机为0.2,汽车类为0.1。
由此,可得到个专业的频率比率表格:
高校就业 | 英语 | 国际贸易 | 电子商务 | 计算机 | 汽车类 |
英语 | 1 | 2 | 2.67 | 4 | 8 |
国际贸易 | 0.5 | 1 | 1.33 | 2 | 4 |
电子商务 | 0.375 | 0.75 | 1 | 1.5 | 3 |
计算机 | 0.25 | 0.5 | 0.67 | 1 | 2 |
汽车类 | 0.125 | 0.25 | 0.33 | 0.5 | 1 |
求第三关联度的过程如下:
英语关联度:1/(1+0.5++0.375+0.25+0.125)=0.444
国际贸易关联度:0.5/(1+0.5++0.375+0.25+0.125)=0.222
电子商务关联度:0.375/(1+0.5++0.375+0.25+0.125)=0.167
计算机类关联度:0.25/(1+0.5++0.375+0.25+0.125)=0.111
汽车类关联度:0.125/(1+0.5++0.375+0.25+0.125)=0.053;
给三个标准赋予相应的权重,招聘信息具有实时性,所以权重为0.5,网络中职业对应专业的相关资料权重为0.3,高校各专业毕业生的就业岗位权重为0.2,得到权重的比率表格:
指标权重 | 英语 | 国际贸易 | 电子商务 | 计算机 | 汽车类 | |
招聘信息 | 0.5 | 0.434 | 0.217 | 0.173 | 0.130 | 0.0434 |
网络资料 | 0.3 | 0.4 | 0.24 | 0.16 | 0.16 | 0.04 |
高校信息 | 0.2 | 0.444 | 0.222 | 0.133 | 0.111 | 0.056 |
进一步可得到矩阵为:
按照矩阵计算各个专业的得分,公式为:
最终的加权关联度如下:
英语:0.5*0.434+0.3*0.4+0.2*0.444=0.4288
国际贸易:0.5*0.217+0.3*0.24+0.2*0.222=0.2249
电子商务:0.5*0.173+0.3*0.16+0.2*0.167=0.1612
计算机类:0.5*0.130+0.3*0.16+0.2*0.111=0.1352
汽车类:0.5*0.0434+0.3*0.04+0.2*0.053=0.0443;
5)给数值扩大相应的倍数得出关联度,因为对于某个职业相应最相关的某类专业的关联度对应关系无限接近于1,所以将其归一化为1,得到扩大比例α,其他相应扩大α倍,即可得出职业名称和专业名称之间的最终关联度。
比如对于英语翻译,英语专业为相关度最高的专业,英语的关联度可看作为1,则α=1/0.4288=2.33,得出:
英语关联度:1
国际贸易关联度:0.2249*2.33≈0.5
电子商务关联度:0.1611*2.33≈0.4
计算机类关联度:0.1352*2.33≈0.3
汽车类关联度:0.0449*2.33≈0.1。
S4:当完成S3后,即可针对用户在前端界面中输入的指令,通过后端Neo4j的交互从生涯规划知识图谱中获取指令对应的返回数据,并将其显示在前端界面中。
此处用户在前端界面中输入的指令为查询指令或操作指令,其中查询指令包括:
通过职业名称查询得到对应专业,比如选择英语翻译,则显示与英语翻译相关的专业。
通过地址或薪资筛选得到满足条件的职业等等,例如输入杭州市,薪资4000~5000元/月,则显示相应筛选得到的职业。
图4为本发明的职业专业展示示意图,图5为本发明的地址、薪资筛选展示图,其中文字信息不重要,仅通过图谱展示显示状态。
另外操作指令包括:
从Neo4j中取出数据并利用eacharts关系图对知识图谱进行数据的可视化。
在图谱显示空间对知识图谱的关系网络或属性网络进行拖动以调整布局(比如数据过多的术后可能或有遮挡,则拖动时显示更加清晰)。例如英语翻译得到的专业包含有本科专业以及专科专业,会根据得到的结果通过点击折叠与展开查看详细的专业名称。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种生涯规划知识图谱构建及查询方法,其特征在于,步骤如下:
S1:获取招聘信息数据、专业名称数据以及高校毕业生的就业去向数据;其中所述招聘信息数据中每条招聘信息包括职业名称、工作地址、薪资以及职位信息描述;所述专业名称数据中包含不同专业的标准专业名称;所述高校毕业生的就业去向数据包含每个专业的所有毕业生各自就职的职业;
S2:按照S21~S23对S1中获取的数据进行分类预处理;
S21:利用含有专业名称的字符串对所述招聘信息逐条进行匹配,筛除职位信息描述中不含有任何专业名称的无效数据;
S22:对S21处理后的招聘信息进行实体消岐,使招聘信息中职业名称的命名格式统一化,同时对招聘信息中工作地址和薪资进行格式统一化,所有招聘信息进行去重处理后,得到有效招聘信息数据集;
S23:对所述有效招聘信息数据集内的职业名称进行聚类,将其划分成若干种职业大类;
S3:基于S2中获取的有效招聘信息数据集,按照S31~S33构建知识图谱;
S31:从所述有效招聘信息数据集中选择部分招聘信息作为训练数据,并对训练数据中的每条招聘信息中出现的专业名称进行标注;
S32:基于所述训练数据构建用于从职位信息描述中识别与抽取专业名称的实体抽取模型;
S33:利用所述实体抽取模型对所述有效招聘信息数据集中剩余的每条招聘信息数据进行实体抽取,获得每条招聘信息中出现的专业名称;
S34:基于所述有效招聘信息数据集中的每条招聘信息内的职业名称和专业名称,通过多级权重算法得到每个职业名称与对应的专业名称之间的关联度;
S35:基于所述有效招聘信息数据集以及实体抽取结果,针对职业名称、专业名称、工作地址和薪资四种实体之间添加关系,并将各实体、关系以及所述关联度存储于Neo4j数据库中;
S36:基于Neo4j数据库,通过Neo4j可视化工具构建生涯规划知识图谱;
S4:针对用户在前端界面中输入的指令,通过后端Neo4j的交互从生涯规划知识图谱中获取指令对应的返回数据,并将其显示在前端界面中。
2.如权利要求1所述的生涯规划知识图谱构建及查询方法,其特征在于,所述S22中,对工作地址、薪资进行格式统一化时,利用中国省市表将杂乱的地址格式化为省名-市名的形式,将薪资格式化为X元/月的形式,其中X代表以人民币计算的月薪资数字。
3.如权利要求1所述的生涯规划知识图谱构建及查询方法,其特征在于,所述S23中,预先对所述有效招聘信息数据集内的职业名称根据当前热度进行排序,然后选取热度高于阈值的职业名称作为热门职业参与后续的聚类,筛除其余非热门的职业名称。
4.如权利要求1所述的生涯规划知识图谱构建及查询方法,其特征在于,所述S23中,聚类方法为谱聚类。
5.如权利要求1所述的生涯规划知识图谱构建及查询方法,其特征在于,所述S31中,通过BIO标注方法对每条招聘信息中出现的专业名称进行标注,其中以B-PRO为专业名称开始,以I-PRO为专业名称中间以及结尾,以O为其它信息。
6.如权利要求1所述的生涯规划知识图谱构建及查询方法,其特征在于,所述S32中,所述实体抽取模型为BiLSTM-CRF模型,每条招聘信息中的职位信息表示成词向量后,经过BiLSTM层和CRF层输出表示专业名称的实体抽取结果。
7.如权利要求6所述的生涯规划知识图谱构建及查询方法,其特征在于,所述词向量利用开源语料库训练的gensim模型获取。
8.如权利要求1所述的生涯规划知识图谱构建及查询方法,其特征在于,所述多级权重算法计算关联度的具体过程为:
S341:根据S33中利用抽取出的每条招聘信息中出现的专业名称,统计每个职业名称中不同专业名称出现的频率,以该频率作为第一关联度;
S342:从外部资料中获取S341中统计的每个职业名称对口的专业名称,然后基于外部资料统计职业名称中不同专业名称出现的频率,以该频率作为第二关联度;
S343:根据所述高校毕业生的就业去向数据,统计每个专业名称下的所有毕业生就职于的S341中统计的每个职业名称的比例,以该比例作为第三关联度;
S344:对于任意一个职业名称和一个专业名称,将其对应的第一关联度、第二关联度和第三关联度进行加权求和,得到职业名称和专业名称之间的加权关联度;
S345:对于任意一个职业名称,将与其存在关联的所有专业名称的加权关联度进行等比例的数值归一化调整,使得加权关联度的最大值为1,从而得到职业名称和专业名称之间的最终关联度。
9.如权利要求1所述的生涯规划知识图谱构建及查询方法,其特征在于,所述S4中,用户在前端界面中输入的指令为查询指令或操作指令,所述查询指令包括通过职业名称查询得到对应专业、通过地址或薪资筛选得到满足条件的职业,所述的操作指令包括从Neo4j中取出数据并利用eacharts关系图对知识图谱进行数据的可视化、在图谱显示空间对知识图谱的关系网络或属性网络进行拖动以调整布局、在图谱显示空间对知识图谱的节点进行折叠展开操作。
10.一种用于实现如权利要求1~9任一所述方法的生涯规划知识图谱构建及查询系统,其特征在于,包括:
数据收集模块,用于实现S1;
数据预处理模块,用于实现S2;
知识图谱构建模块,用于实现S3;
以及终端查询展示模块,用于实现S4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299588.7A CN112417165B (zh) | 2020-11-18 | 2020-11-18 | 一种生涯规划知识图谱构建及查询方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299588.7A CN112417165B (zh) | 2020-11-18 | 2020-11-18 | 一种生涯规划知识图谱构建及查询方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417165A true CN112417165A (zh) | 2021-02-26 |
CN112417165B CN112417165B (zh) | 2022-04-26 |
Family
ID=74774817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011299588.7A Active CN112417165B (zh) | 2020-11-18 | 2020-11-18 | 一种生涯规划知识图谱构建及查询方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417165B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673943A (zh) * | 2021-07-19 | 2021-11-19 | 清华大学深圳国际研究生院 | 一种基于履历大数据的人员任免辅助决策方法及系统 |
CN115455205A (zh) * | 2022-09-21 | 2022-12-09 | 深圳今日人才信息科技有限公司 | 一种基于时序知识图谱的职业发展规划的方法 |
CN118132616A (zh) * | 2024-05-08 | 2024-06-04 | 江西工业贸易职业技术学院(江西省粮食干部学校、江西省粮食职工中等专业学校) | 一种职业规划辅助分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070194101A1 (en) * | 1994-05-25 | 2007-08-23 | Rathus Spencer A | Method and apparatus for accessing electronic data via a familiar printed medium |
CN108920544A (zh) * | 2018-06-13 | 2018-11-30 | 桂林电子科技大学 | 一种基于知识图谱的个性化职位推荐方法 |
CN110659811A (zh) * | 2019-09-10 | 2020-01-07 | 山东耘智愿教育科技集团有限公司 | 一种高中生生涯规划系统及方法 |
CN111179134A (zh) * | 2020-01-02 | 2020-05-19 | 上海电机学院 | 一种基于大数据的学业职业规划系统及方法 |
CN111768059A (zh) * | 2019-04-02 | 2020-10-13 | 八爪鱼互动(北京)科技有限公司 | 一种大学生成长路径测评系统 |
-
2020
- 2020-11-18 CN CN202011299588.7A patent/CN112417165B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070194101A1 (en) * | 1994-05-25 | 2007-08-23 | Rathus Spencer A | Method and apparatus for accessing electronic data via a familiar printed medium |
CN108920544A (zh) * | 2018-06-13 | 2018-11-30 | 桂林电子科技大学 | 一种基于知识图谱的个性化职位推荐方法 |
CN111768059A (zh) * | 2019-04-02 | 2020-10-13 | 八爪鱼互动(北京)科技有限公司 | 一种大学生成长路径测评系统 |
CN110659811A (zh) * | 2019-09-10 | 2020-01-07 | 山东耘智愿教育科技集团有限公司 | 一种高中生生涯规划系统及方法 |
CN111179134A (zh) * | 2020-01-02 | 2020-05-19 | 上海电机学院 | 一种基于大数据的学业职业规划系统及方法 |
Non-Patent Citations (1)
Title |
---|
熊龙: "基于CiteSpace的大学生职业生涯规划教育研究知识图谱分析", 《广西职业技术学院学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673943A (zh) * | 2021-07-19 | 2021-11-19 | 清华大学深圳国际研究生院 | 一种基于履历大数据的人员任免辅助决策方法及系统 |
CN115455205A (zh) * | 2022-09-21 | 2022-12-09 | 深圳今日人才信息科技有限公司 | 一种基于时序知识图谱的职业发展规划的方法 |
CN118132616A (zh) * | 2024-05-08 | 2024-06-04 | 江西工业贸易职业技术学院(江西省粮食干部学校、江西省粮食职工中等专业学校) | 一种职业规划辅助分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112417165B (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417165B (zh) | 一种生涯规划知识图谱构建及查询方法和系统 | |
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
Shu et al. | Comparing journal and paper level classifications of science | |
CN103488724B (zh) | 一种面向图书的阅读领域知识图谱构建方法 | |
Van Eck et al. | Visualizing bibliometric networks | |
CA2836220C (en) | Methods and systems for matching records and normalizing names | |
CN106649223A (zh) | 基于自然语言处理的金融报告自动生成方法 | |
US20080275859A1 (en) | Method and system for disambiguating informational objects | |
US11393237B1 (en) | Automatic human-emulative document analysis | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
CN115982379A (zh) | 基于知识图谱的用户画像构建方法和系统 | |
US20240281124A1 (en) | Interactive patent visualization systems and methods | |
CN113190593A (zh) | 一种基于数字人文知识图谱的搜索推荐方法 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 | |
CN110096571B (zh) | 一种机构名简称生成方法和装置、计算机可读存储介质 | |
CN112148735A (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN116484019A (zh) | 中文异体字字典库构建与输出利用方法 | |
CN105893527B (zh) | 一种智能用户信息录入方法 | |
CN107145947A (zh) | 一种信息处理方法、装置及电子设备 | |
CN114077653A (zh) | 一种通用文档数据灵活检索系统及方法 | |
Zhang et al. | A text mining based method for policy recommendation | |
Huang et al. | Apply data mining techniques to library circulation records and usage patterns analysis | |
Börner et al. | Replicable Science of Science Studies | |
Sinoplu et al. | Sentiment Analysis of Social Media Posts about Tourist Attractions: Black Sea Region Sample | |
Loster et al. | Dissecting Company Names using Sequence Labeling. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210226 Assignee: Zhejiang Shengzhixuan Education Technology Co.,Ltd. Assignor: HANGZHOU DIANZI University Contract record no.: X2022330000635 Denomination of invention: A Method and System for Constructing and Querying the Knowledge Map of Career Planning Granted publication date: 20220426 License type: Common License Record date: 20221107 |