CN113780996A - 岗位数据检测方法、模型训练方法、装置及电子设备 - Google Patents
岗位数据检测方法、模型训练方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113780996A CN113780996A CN202111085583.9A CN202111085583A CN113780996A CN 113780996 A CN113780996 A CN 113780996A CN 202111085583 A CN202111085583 A CN 202111085583A CN 113780996 A CN113780996 A CN 113780996A
- Authority
- CN
- China
- Prior art keywords
- resume information
- post
- prediction model
- feature set
- job hunting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 107
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000013135 deep learning Methods 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 47
- 238000011176 pooling Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种岗位数据检测方法、模型训练方法、装置及电子设备,涉及人工智能技术领域。方法包括:获取缺失求职岗位数据的简历信息;通过词向量模型将简历信息中的文本数据转换成指定维数的词向量;将词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由岗位预测模型对词向量进行预估处理得到的目标求职岗位,其中,目标求职岗位指在简历信息中所缺失的求职岗位数据。在本方案中,无需人工补充简历信息中所缺失的求职岗位数据,有利于提高简历信息分析处理的效率,降低人力成本。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种岗位数据检测方法、模型训练方法、装置及电子设备。
背景技术
在网络求职招聘过程中,人力资源的用户通常需要查看求职人员的简历信息。在部分求职人员的简历中,存在没有填写求职岗位的情况。在简历信息中,对于缺失求职岗位的部分,目前主要采用人工的方式进行缺失岗位的内容补充。即,由人力资源的用户凭自身的工作经验补充简历信息中所缺失的求职岗位,该方式对专业性要求较高,且效率低。
发明内容
本申请实施例的目的在于提供一种岗位数据检测方法、模型训练方法、装置及电子设备,能够改善简因通过人工补充简历中缺失的求职岗位导致处理的效率低的问题。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种岗位数据检测方法,所述方法包括:获取缺失求职岗位数据的简历信息;通过词向量模型将所述简历信息中的文本数据转换成指定维数的词向量;将所述词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由所述岗位预测模型对所述词向量进行预估处理得到的目标求职岗位,其中,所述目标求职岗位指在所述简历信息中所缺失的求职岗位数据。
在上述的实施方式中,由岗位预测模型对缺失求职岗位数据的简历信息进行岗位预测,并将得到的目标求职岗位作为简历信息中所缺失的求职岗位数据,如此,无需人工补充简历信息中所缺失的求职岗位数据,有利于提高简历信息分析处理的效率,降低人力成本。
结合第一方面,在一些可选的实施方式中,所述岗位预测模型包括卷积神经网络、池化层及全连接网络,将所述词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由所述岗位预测模型对所述词向量进行预估处理得到的目标求职岗位,包括:
将所述简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集;
将所述第一特征集输入所述池化层,得到由所述池化层池化处理后输出的第二特征集;
对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,其中,所述第三特征集中的每个特征的长度为指定长度;
将所述第三特征集输入全连接网络,得到由所述全连接网络输出的所述目标求职岗位。
在上述的实施方式中,通过对卷积池化后的特征进行切割拼接操作,确保输入全连接网络的特征的长度相同,以便于全连接网络可以实现分类学习,避免因特征长度不同而无法被全连接网络识别处理。另外,岗位预测模型基于全连接网络,可以实现简历信息的快速预测处理,提高数据处理的效率。
第二方面,本申请还提供一种岗位预测模型训练方法,所述方法包括:
获取训练样本集,所述训练样本集包括多份简历信息及与预设求职岗位对应的标签;
通过词向量模型将所述多份简历信息中的文本数据转换成指定维数的词向量;
通过所述多份简历信息所对应的所述词向量及所述标签,训练初始的岗位预测模型,得到经过训练的所述岗位预测模型,其中,所述经过训练的所述岗位预测模型用于对缺失求职岗位数据的简历信息进行求职岗位的预测。
在上述的实施方式中,利用多份简历信息所对应的词向量及岗位对应的标签,对初始的岗位预测模型进行训练,如此,可以使得训练后得到的岗位预测模型具有对简历信息中所缺失的求职岗位数据进行预测的功能。
结合第二方面,在一些可选的实施方式中,所述初始的岗位预测模型包括卷积神经网络、池化层及全连接网络,通过所述多份简历信息所对应的所述词向量及所述标签,训练初始的岗位预测模型,得到经过训练的所述岗位预测模型,包括:
将所述多份简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集;
将所述第一特征集输入所述池化层,得到由所述池化层池化处理后输出的第二特征集;
对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,其中,所述第三特征集中的每个特征的长度为指定长度;
将所述第三特征集及所述简历信息对应的标签输入全连接网络进行分类学习,得到经过训练的所述岗位预测模型。
结合第二方面,在一些可选的实施方式中,将所述多份简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集,包括:
将所述多份简历信息中每份简历信息的词向量,输入所述卷积神经网络;
在所述卷积神经网络中,通过多个不同的指定卷积核,对所述词向量进行卷积,得到所述第一特征集。
结合第二方面,在一些可选的实施方式中,对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,包括:
以预设等比例切割所述第二特征集中的每个特征,得到切割后的第二特征集,其中,所述切割后的第二特征集中的单个特征的长度小于或等于所述指定长度;
将所述切割后的第二特征集中的特征拼接成所述指定长度的特征,得到所述第三特征集。
第三方面,本申请实施例还提供一种岗位数据检测装置,所述装置包括:
第一获取单元,用于获取缺失求职岗位数据的简历信息;
第一转换单元,用于通过词向量模型将所述简历信息中的文本数据转换成指定维数的词向量;
检测单元,用于将所述词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由所述岗位预测模型对所述词向量进行预估处理得到的目标求职岗位,其中,所述目标求职岗位指在所述简历信息中所缺失的求职岗位数据。
第四方面,本申请实施例还提供一种岗位预测模型训练装置,所述装置包括:
第二获取单元,用于获取训练样本集,所述训练样本集包括多份简历信息及与预设求职岗位对应的标签;
第二转换单元,用于通过词向量模型将所述多份简历信息中的文本数据转换成指定维数的词向量;
训练单元,用于通过所述多份简历信息所对应的所述词向量及所述标签,训练初始的岗位预测模型,得到经过训练的所述岗位预测模型,其中,所述经过训练的所述岗位预测模型用于对缺失求职岗位数据的简历信息进行求职岗位的预测。
第五方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的岗位数据检测方法,或执行上述的岗位预测模型训练方法。
第六方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的岗位数据检测方法,或执行上述的岗位预测模型训练方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的岗位数据检测方法的流程示意图。
图2为本申请实施例提供的岗位预测模型训练方法的流程示意图。
图3为本申请实施例提供的岗位数据检测装置的框图。
图4为本申请实施例提供的岗位预测模型训练装置的框图。
图标:300-岗位数据检测装置;310-第一获取单元;320-第一转换单元;330-检测单元;400-岗位预测模型训练装置;410-第二获取单元;420-第二转换单元;430-训练单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请提供一种电子设备,可以对缺失求职岗位数据的简历信息进行求职岗位的预测,以供人力资源的用户查看所预测的求职岗位。
电子设备可以包括处理模块及存储模块。存储模块内存储计算机程序,当计算机程序被所述处理模块执行时,使得电子设备能够执行下述岗位数据检测方法或岗位预测模型训练方法中的各步骤。电子设备可以是但不限于个人电脑、服务器等设备。
请参照图1,本申请提供一种岗位数据检测方法,可以应用于上述的电子设备中,由电子设备执行或实现方法中的各步骤,方法可以包括如下步骤:
步骤S110,获取缺失求职岗位数据的简历信息;
步骤S120,通过词向量模型将所述简历信息中的文本数据转换成指定维数的词向量;
步骤S130,将所述词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由所述岗位预测模型对所述词向量进行预估处理得到的目标求职岗位,其中,所述目标求职岗位指在所述简历信息中所缺失的求职岗位数据。
在上述的实施方式中,由岗位预测模型对简历信息中所缺失的求职岗位数据进行预测,并将得到的目标求职岗位作为简历信息中所缺失的求职岗位数据,如此,无需人工补充简历信息中所缺失的求职岗位数据,有利于提高简历信息分析处理的效率,降低人力成本。
在步骤S110中,电子设备可以从存储有简历信息的数据库(例如,求职网站的数据库)或服务器获取各类简历信息。电子设备可以判断所获取的简历信息是否缺失求职岗位数据。
例如,电子设备可以从简历信息中,提取简历信息中所包括的文本内容,然后,判断简历信息的文本内容中是否存在与“岗位”字段(或与“岗位”字段等同或类似的字段,例如“求职意向”)对应的内容。
若简历信息中,存在与“岗位”字段对应的内容,或存在与“岗位”字段等同或类似的字段,且内容不为空(比如,岗位的内容为“软件测试工程师”),则表示简历信息中不缺失求职岗位数据。
若简历信息中,存在与“岗位”字段对应的内容,或存在与“岗位”字段等同或类似的字段,且内容为空,则表示简历信息中缺失求职岗位数据。
若简历信息中,不存在与“岗位”字段对应的内容,也不存在与“岗位”字段等同或类似的字段,则表示简历信息中缺失求职岗位数据。
电子设备从简历信息中,提取文本内容的方式可以根据实际情况进行灵活确定。示例性地,电子设备可以基于jieba分词算法,从简历信息中提取成带数量统计的词表文件。在词表文件中,可以固定句子的长度,以便于对简历信息中的文本数据进行标准化处理。
可理解地,jieba分词算法可以基于算法自身的语料库,将简历信息中所有的可以成词的词语都扫描出来,以形成词表文件。Jieba分词算法的实现原理为本领域技术人员熟知,这里不再赘述。
在步骤S120中,词向量模型可以将文本数据转换成指定维数的词向量。词向量模型可以根据实际情况进行灵活确定,例如,词向量模型可以是word2vec模型,或其他模型(比如one-hot模型),为本领域技术人员熟知的模型。指定维数可以根据实际情况进行灵活确定。例如,指定维数可以为128维。即,word2vec模型可以将简历信息文本数据中的各个词转换成128维的词向量。
在步骤S130中,经过训练的岗位预测模型具有预测简历信息中所缺失的求职岗位数据的功能。深度学习算法可以根据实际情况进行灵活确定,例如,深度学习算法包括但不限于卷积神经网络(Convolutional Neural Networks,CNN)算法、深度神经网络(DeepNeural Networks,DNN)算法等。
可理解地,当一份缺失求职岗位数据的简历信息的词向量被输入至上述的经过训练的岗位预测模型之后,该岗位预测模型可以基于词向量输出该岗位预测模型所预测得到的求职岗位数据,该求职岗位数据为该简历信息所缺失的求职岗位数据,该求职岗位数据可理解为该简历信息的求职者所期望的目标求职岗位。
在本实施例中,岗位预测模型可以包括卷积神经网络、池化层及全连接网络,步骤S130可以包括:
将所述简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集;
将所述第一特征集输入所述池化层,得到由所述池化层池化处理后输出的第二特征集;
对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,其中,所述第三特征集中的每个特征的长度为指定长度;
将所述第三特征集输入全连接网络,得到由所述全连接网络输出的所述目标求职岗位。
在本实施例中,岗位预测模型中的卷积神经网络可以对每份简历信息的所有词向量进行卷积处理,以得到卷积处理后的特征。其中,多个词向量经过卷积处理后,所得到的特征形成的集合即为第一特征集。
在本实施例中,卷积神经网络可以为一维卷积神经网络,以简化网络结构。该一维卷积神经网络可以通过不同的卷积核对词向量进行卷积处理。不同卷积核的参数可以根据实际情况进行灵活确定。示例性地,卷积核的参数可以分别为1*128、2*128、3*128。其中,1*128、2*128、3*128为深度学习中的词嵌入(Word Embedding)长度,词嵌入长度为本领域技术人员熟知的参数。
第一特征集中的各特征经过不同卷积核进行卷积后,所得到的特征被输入至池化层,由池化层对第一特征集中的各特征进行池化,池化后输出的特征作为第二特征集中的特征。
在对第二特征集进行切割拼接操作时,需要确保经过切割拼接操作后所得到的特征的长度为指定长度,该指定长度可以根据实际情况进行灵活确定。例如,对于第二特征集中的每个特征,可以按指定等比例进行切分,该指定等比例可以根据实际情况进行灵活设置。
示例性地,在进行特征切割时,被切割的单个特征可理解为卷积池化后得到的特征。该特征的长度通常大于最大切割粒度的字符长度,比如指定等比例可以为32/16/8/4/1,此时,被切割的特征的长度通常大于32个字符。针对每个特征,分别以32份、16份、8份、4份及1份的粒度,对该特征进行切割。比如,将同一个特征的内容,分别切割成32份、16份、8份、4份。其中,1份粒度的特征即为该特征本身,无需再切割。如此,每个特征被切割后,可以得到具有5类粒度的特征片段的集合。
当完成所有特征的切割后,可以以指定长度,对切割后的特征进行拼接,以使拼接得到的每个特征均为指定长度。例如,该指定长度可以为64个字符长度。其中,不同粒度的特征片段有利于进行特征地灵活拼接,以使拼接后的特征长度为指定长度。
可理解地,全连接网络不能对长度不一致的特征进行处理,在本实施例中,在将特征输入至全连接网络之前,经过切割拼接操作之后,可以确保特征的长度一致,以便于利用全连接网络进行分类处理。其中,全连接网络又称全连接层(Fully Connected layers,FC)。
在本实施例中,岗位预测模型经过学习训练后,在使用岗位预测模型进行岗位预测时,岗位预测模型中的全连接层便可以基于切割拼接操作所得到的长度一致的特征进行分类,从而得到表征求职岗位数据的分类结果。
若岗位预测模型未经过训练,为初始状态的岗位预测模型,则在执行步骤S110之前,方法还可以包括如图2所示的模型训练步骤。
请参照图2,本申请提供一种岗位预测模型训练方法,可以应用于上述的电子设备中,由电子设备执行或实现方法的各步骤,方法可以包括如下步骤:
步骤S210,获取训练样本集,所述训练样本集包括多份简历信息及与预设求职岗位对应的标签;
步骤S220,通过词向量模型将所述多份简历信息中的文本数据转换成指定维数的词向量;
步骤S230,通过所述多份简历信息所对应的所述词向量及所述标签,训练初始的岗位预测模型,得到经过训练的所述岗位预测模型,其中,所述经过训练的所述岗位预测模型用于对缺失求职岗位数据的简历信息进行求职岗位的预测。
在上述的实施方式中,利用多份简历信息所对应的词向量及岗位对应的标签,对初始的岗位预测模型进行训练,如此,可以使得训练后得到的岗位预测模型具有对简历信息中所缺失的求职岗位数据进行预测的功能。
在步骤S210中,训练样本集所包括的简历信息的数量可以根据实际情况进行灵活确定,通常而言,简历信息的数量越多,训练得到的岗位预测模型进行岗位预测的准确率越高。例如,训练样本集中,可以包括40万份存在差异的简历信息。
每份简历信息可以具有与求职岗位数据对应的标签,即,该标签可以表征该简历信息中的求职岗位数据。另外,每份简历信息所包括的内容可以根据实际情况进行确定,例如,简历信息中可以包括但不限于求职者的姓名、年龄、学历、项目经历、工作经历等。
在步骤S220中,针对训练样本集中的每份简历信息,词向量模型可以将每份简历信息中的文本数据转换成指定维数的词向量。不同简历信息可以具有唯一编号。一份简历信息的词向量可以通过唯一编号与该简历信息相绑定。另外,简历信息中的表征求职岗位数据的标签可以通过该唯一编号,与该简历信息关联。
可理解地,步骤S220中词向量模型的处理过程与步骤S120中的处理过程相类似。比如,词向量模型可以为上述的word2vec模型,指定维数可以为上述的128维。
在步骤S230中,电子设备可以利用每份简历信息的词向量及标签,训练岗位预测模型。通过大量(例如,40万份)简历信息的词向量与标签进行模型训练,使得经过训练后的岗位预测模型具有基于简历信息的词向量,预测该简历信息对应的求职岗位数据的功能。
其中,初始的岗位预测模型包括卷积神经网络、池化层及全连接网络,步骤S230可以包括:
子步骤S231,将所述多份简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集;
子步骤S232,将所述第一特征集输入所述池化层,得到由所述池化层池化处理后输出的第二特征集;
子步骤S233,对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,其中,所述第三特征集中的每个特征的长度为指定长度;
子步骤S234,将所述第三特征集及所述简历信息对应的标签输入全连接网络进行分类学习,得到经过训练的所述岗位预测模型。
在本实施例中,子步骤S231可以包括:
将所述多份简历信息中每份简历信息的词向量,输入所述卷积神经网络;
在所述卷积神经网络中,通过多个不同的指定卷积核,对所述词向量进行卷积,得到所述第一特征集。
可理解地,针对每份简历信息的词向量,卷积神经网络可以利用不同的指定卷积核(例如,卷积核的参数可以为1*128,2*128,3*128),对词向量进行卷积,以得到第一特征,多个第一特征形成的集合即为第一特征集。每份简历信息的词向量可以得到一个与该简历信息对应的第一特征集。
在步骤S232中,池化层可以为最大池化层,针对每份简历信息的第一特征集,最大池化层可以针对每个卷积核所卷积得到的第一特征进行池化,得到与第一特征对应的第二特征。
示例性地,步骤S231及步骤S232的操作过程可以为:
卷积神经网络利用1*128的卷积核提取每份简历信息的词向量的卷积特征(该卷积特征即为第一特征),提取的特征利用最大池化层池化,得到第二特征;
卷积神经网络利用2*128的卷积核提取每份简历信息的词向量的卷积特征(该卷积特征即为第一特征),提取的特征利用最大池化层池化,得到第二特征;
卷积神经网络利用3*128的卷积核提取每份简历信息的词向量的卷积特征(该卷积特征即为第一特征),提取的特征利用最大池化层池化,得到第二特征,一份简历信息的所有第二特征组成该简历信息的第二特征集。
在本实施例中,子步骤S233可以包括:
以预设等比例切割所述第二特征集中的每个特征,得到切割后的第二特征集,其中,所述切割后的第二特征集中的单个特征的长度小于或等于所述指定长度;
将所述切割后的第二特征集中的特征拼接成所述指定长度的特征,得到所述第三特征集。
可理解地,步骤S233的实现原理与步骤S130中对第二特征集进行切割拼接操作的原理相类似,这里不再赘述。通过步骤S233,可以得到均为指定长度的第三特征的集合,以便于全连接网络对一致长度的第三特征进行分类训练。
在步骤S234中,全连接网络可以基于每份建立信息的第三特征集及标签,进行训练测试,通过大量的训练测试之后,可以使得训练测试后的全连接网络可以对任意简历信息的第三特征集进行求职岗位数据的预测,基于此,可以使得训练后的岗位预测模型具有预测简历信息中所缺失的求职岗位数据的功能。
基于上述设计,电子设备通过初始的岗位预测模型进行训练,当需要对缺失求职岗位数据的简历信息进行预测时,利用经过训练的岗位预测模型,便可以快速地预测出与该简历信息对应的求职岗位数据。其中,利用岗位预测模型进行岗位预测,可以替代人工预测,提高处理效率,所预测得到的求职岗位数据的准确性高,预测的成本低。另外,由卷积神经网络、池化层及全连接网络组成岗位预测模型,如此,可以提供一种轻量化的岗位预测模型,简化模型的复杂度。
请参照图3,本申请实施例还提供一种岗位数据检测装置300,可以应用于上述的电子设备中,用于执行岗位数据检测方法中的各步骤。岗位数据检测装置300包括至少一个可以软件或固件(Firmware)的形式存储于存储模块中或固化在电子设备操作系统(Operating System,OS)中的软件功能模块。处理模块用于执行存储模块中存储的可执行模块,例如岗位数据检测装置300所包括的软件功能模块及计算机程序等。
岗位数据检测装置300可以包括第一获取单元310、第一转换单元320、检测单元330,可以执行的操作步骤如下:
第一获取单元310,用于获取缺失求职岗位数据的简历信息;
第一转换单元320,用于通过词向量模型将所述简历信息中的文本数据转换成指定维数的词向量;
检测单元330,用于将所述词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由所述岗位预测模型对所述词向量进行预估处理得到的目标求职岗位,其中,所述目标求职岗位指在所述简历信息中所缺失的求职岗位数据。
可选地,岗位预测模型包括卷积神经网络、池化层及全连接网络,检测单元330还可以用于:
将所述简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集;
将所述第一特征集输入所述池化层,得到由所述池化层池化处理后输出的第二特征集;
对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,其中,所述第三特征集中的每个特征的长度为指定长度;
将所述第三特征集输入全连接网络,得到由所述全连接网络输出的所述目标求职岗位。
请参照图4,本申请实施例还提供一种岗位预测模型训练装置400,可以应用于上述的电子设备中,用于执行岗位预测模型训练方法中的各步骤。岗位数据检测装置300包括至少一个可以软件或固件(Firmware)的形式存储于存储模块中或固化在电子设备操作系统(Operating System,OS)中的软件功能模块。
岗位预测模型训练装置400可以包括第二获取单元410、第二转换单元420及训练单元430,可以执行的操作步骤如下:
第二获取单元410,用于获取训练样本集,所述训练样本集包括多份简历信息及与预设求职岗位对应的标签;
第二转换单元420,用于通过词向量模型将所述多份简历信息中的文本数据转换成指定维数的词向量;
训练单元430,用于通过所述多份简历信息所对应的所述词向量及所述标签,训练初始的岗位预测模型,得到经过训练的所述岗位预测模型,其中,所述经过训练的所述岗位预测模型用于对缺失求职岗位数据的简历信息进行求职岗位的预测。
可选地,初始的岗位预测模型包括卷积神经网络、池化层及全连接网络,训练单元430还可以用于:
将所述多份简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集;
将所述第一特征集输入所述池化层,得到由所述池化层池化处理后输出的第二特征集;
对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,其中,所述第三特征集中的每个特征的长度为指定长度;
将所述第三特征集及所述简历信息对应的标签输入全连接网络进行分类学习,得到经过训练的所述岗位预测模型。
可选地,训练单元430还可以用于:将所述多份简历信息中每份简历信息的词向量,输入所述卷积神经网络;在所述卷积神经网络中,通过多个不同的指定卷积核,对所述词向量进行卷积,得到所述第一特征集。
可选地,训练单元430还可以用于:以预设等比例切割所述第二特征集中的每个特征,得到切割后的第二特征集,其中,所述切割后的第二特征集中的单个特征的长度小于或等于所述指定长度;将所述切割后的第二特征集中的特征拼接成所述指定长度的特征,得到所述第三特征集。
在本实施例中,处理模块可以是一种集成电路芯片,具有信号的处理能力。上述处理模块可以是通用处理器。例如,该处理器可以是中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
存储模块可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除可编程只读存储器,电可擦除可编程只读存储器等。在本实施例中,存储模块可以用于存储简历信息、词向量模型、岗位预测模型等。当然,存储模块还可以用于存储程序,处理模块在接收到执行指令后,执行该程序。
通信模块用于通过网络建立电子设备与其他设备的通信连接,并通过网络收发数据。例如,当电子设备为服务器时,该服务器可以通过通信模块与用户终端建立通信连接,用户终端可以是但不限于个人电脑、智能手机等设备。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备、岗位数据检测装置300及岗位预测模型训练装置400的具体工作过程,可以参考前述方法中的各步骤对应过程,在此不再过多赘述。
本申请实施例还提供一种计算机可读存储介质。计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如上述实施例中所述的岗位数据检测方法或岗位预测模型训练方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
综上所述,在本方案中,由岗位预测模型对缺失求职岗位数据的简历信息进行岗位预测,并将得到的目标求职岗位作为简历信息中所缺失的求职岗位数据,如此,无需人工补充简历信息中所缺失的求职岗位数据,有利于提高简历信息分析处理的效率,降低人力成本。
在本申请所提供的实施例中,应该理解到,所揭露的装置、系统和方法,也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种岗位数据检测方法,其特征在于,所述方法包括:
获取缺失求职岗位数据的简历信息;
通过词向量模型将所述简历信息中的文本数据转换成指定维数的词向量;
将所述词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由所述岗位预测模型对所述词向量进行预估处理得到的目标求职岗位,其中,所述目标求职岗位指在所述简历信息中所缺失的求职岗位数据。
2.根据权利要求1所述的方法,其特征在于,所述岗位预测模型包括卷积神经网络、池化层及全连接网络,将所述词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由所述岗位预测模型对所述词向量进行预估处理得到的目标求职岗位,包括:
将所述简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集;
将所述第一特征集输入所述池化层,得到由所述池化层池化处理后输出的第二特征集;
对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,其中,所述第三特征集中的每个特征的长度为指定长度;
将所述第三特征集输入全连接网络,得到由所述全连接网络输出的所述目标求职岗位。
3.一种岗位预测模型训练方法,其特征在于,所述方法包括:
获取训练样本集,所述训练样本集包括多份简历信息及与预设求职岗位对应的标签;
通过词向量模型将所述多份简历信息中的文本数据转换成指定维数的词向量;
通过所述多份简历信息所对应的所述词向量及所述标签,训练初始的岗位预测模型,得到经过训练的所述岗位预测模型,其中,所述经过训练的所述岗位预测模型用于对缺失求职岗位数据的简历信息进行求职岗位的预测。
4.根据权利要求3所述的方法,其特征在于,所述初始的岗位预测模型包括卷积神经网络、池化层及全连接网络,通过所述多份简历信息所对应的所述词向量及所述标签,训练初始的岗位预测模型,得到经过训练的所述岗位预测模型,包括:
将所述多份简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集;
将所述第一特征集输入所述池化层,得到由所述池化层池化处理后输出的第二特征集;
对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,其中,所述第三特征集中的每个特征的长度为指定长度;
将所述第三特征集及所述简历信息对应的标签输入全连接网络进行分类学习,得到经过训练的所述岗位预测模型。
5.根据权利要求4所述的方法,其特征在于,将所述多份简历信息的所述词向量输入所述卷积神经网络,得到由所述卷积神经网络对所述词向量进行卷积处理所输出的第一特征集,包括:
将所述多份简历信息中每份简历信息的词向量,输入所述卷积神经网络;
在所述卷积神经网络中,通过多个不同的指定卷积核,对所述词向量进行卷积,得到所述第一特征集。
6.根据权利要求4所述的方法,其特征在于,对所述第二特征集中的每个特征进行切割拼接操作,得到第三特征集,包括:
以预设等比例切割所述第二特征集中的每个特征,得到切割后的第二特征集,其中,所述切割后的第二特征集中的单个特征的长度小于或等于所述指定长度;
将所述切割后的第二特征集中的特征拼接成所述指定长度的特征,得到所述第三特征集。
7.一种岗位数据检测装置,其特征在于,所述装置包括:
第一获取单元,用于获取缺失求职岗位数据的简历信息;
第一转换单元,用于通过词向量模型将所述简历信息中的文本数据转换成指定维数的词向量;
检测单元,用于将所述词向量输入基于深度学习算法且经过训练的岗位预测模型,得到由所述岗位预测模型对所述词向量进行预估处理得到的目标求职岗位,其中,所述目标求职岗位指在所述简历信息中所缺失的求职岗位数据。
8.一种岗位预测模型训练装置,其特征在于,所述装置包括:
第二获取单元,用于获取训练样本集,所述训练样本集包括多份简历信息及与预设求职岗位对应的标签;
第二转换单元,用于通过词向量模型将所述多份简历信息中的文本数据转换成指定维数的词向量;
训练单元,用于通过所述多份简历信息所对应的所述词向量及所述标签,训练初始的岗位预测模型,得到经过训练的所述岗位预测模型,其中,所述经过训练的所述岗位预测模型用于对缺失求职岗位数据的简历信息进行求职岗位的预测。
9.一种电子设备,其特征在于,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1或2所述的方法,或执行如权利要求3-6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1或2所述的方法,或执行如权利要求3-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085583.9A CN113780996A (zh) | 2021-09-16 | 2021-09-16 | 岗位数据检测方法、模型训练方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085583.9A CN113780996A (zh) | 2021-09-16 | 2021-09-16 | 岗位数据检测方法、模型训练方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113780996A true CN113780996A (zh) | 2021-12-10 |
Family
ID=78844473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111085583.9A Pending CN113780996A (zh) | 2021-09-16 | 2021-09-16 | 岗位数据检测方法、模型训练方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780996A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190317966A1 (en) * | 2018-04-12 | 2019-10-17 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for talent-post matching and computer readable storage medium |
CN111460813A (zh) * | 2020-03-04 | 2020-07-28 | 北京网聘咨询有限公司 | 招聘信息和求职简历匹配的方法及系统 |
CN111667158A (zh) * | 2020-05-26 | 2020-09-15 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
CN112990887A (zh) * | 2021-05-07 | 2021-06-18 | 北京车智赢科技有限公司 | 一种简历和岗位匹配的方法及计算设备 |
WO2021169111A1 (zh) * | 2020-02-28 | 2021-09-02 | 平安国际智慧城市科技股份有限公司 | 简历筛选方法、装置、计算机设备和存储介质 |
-
2021
- 2021-09-16 CN CN202111085583.9A patent/CN113780996A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190317966A1 (en) * | 2018-04-12 | 2019-10-17 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for talent-post matching and computer readable storage medium |
WO2021169111A1 (zh) * | 2020-02-28 | 2021-09-02 | 平安国际智慧城市科技股份有限公司 | 简历筛选方法、装置、计算机设备和存储介质 |
CN111460813A (zh) * | 2020-03-04 | 2020-07-28 | 北京网聘咨询有限公司 | 招聘信息和求职简历匹配的方法及系统 |
CN111667158A (zh) * | 2020-05-26 | 2020-09-15 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
CN112990887A (zh) * | 2021-05-07 | 2021-06-18 | 北京车智赢科技有限公司 | 一种简历和岗位匹配的方法及计算设备 |
Non-Patent Citations (1)
Title |
---|
江鹏: "基于卷积神经网络的大学生就业推荐算法研究与设计", 《数码设计》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114399769B (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN112507704B (zh) | 多意图识别方法、装置、设备及存储介质 | |
CN113836925B (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN115063875A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN111651674B (zh) | 双向搜索方法、装置及电子设备 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN115294397A (zh) | 一种分类任务的后处理方法、装置、设备及存储介质 | |
CN112989043B (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
US20230186613A1 (en) | Sample Classification Method and Apparatus, Electronic Device and Storage Medium | |
CN116303013A (zh) | 源码分析方法、装置、电子设备及存储介质 | |
CN114118049B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN112989256B (zh) | 识别响应信息中web指纹的方法和装置 | |
CN113780996A (zh) | 岗位数据检测方法、模型训练方法、装置及电子设备 | |
CN115328753A (zh) | 一种故障预测方法及装置、电子设备、存储介质 | |
CN115080745A (zh) | 基于人工智能的多场景文本分类方法、装置、设备及介质 | |
CN115186738A (zh) | 模型训练方法、装置和存储介质 | |
CN114254650A (zh) | 一种信息处理方法、装置、设备及介质 | |
CN112231454A (zh) | 提问预测及回答反馈方法、装置、计算机设备及存储介质 | |
CN113806485B (zh) | 一种基于小样本冷启动的意图识别方法、装置及可读介质 | |
CN114896980B (zh) | 军事实体链接方法、装置、计算机设备和存储介质 | |
CN113110984B (zh) | 报告处理方法、装置、计算机系统及可读存储介质 | |
CN114491040B (zh) | 信息挖掘方法及装置 | |
CN114186043B (zh) | 预训练方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211210 |