CN112287110A - 一种招聘数据的岗位智能分类的方法及装置 - Google Patents
一种招聘数据的岗位智能分类的方法及装置 Download PDFInfo
- Publication number
- CN112287110A CN112287110A CN202011200861.6A CN202011200861A CN112287110A CN 112287110 A CN112287110 A CN 112287110A CN 202011200861 A CN202011200861 A CN 202011200861A CN 112287110 A CN112287110 A CN 112287110A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- recruitment
- training
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007115 recruitment Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000013135 deep learning Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000007635 classification algorithm Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的一种招聘数据的岗位智能分类的方法及装置,通过获取招聘数据并进行全文检索,得到训练数据;通过深度学习算法对所述训练数据进行训练,得到训练好的模型;根据所述训练好的模型对待处理的招聘数据进行岗位智能分类,利用全文检索与深度学习相结合的方式,不仅实现招聘数据的岗位信息的精准分类,而且分类效率高,便于为稳定就业提供有效的辅助决策,有利于提高社会的稳定性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种招聘数据的岗位智能分类的方法及装置。
背景技术
传统的就业数据分析都是通过人工手动搜索相关信息,并配合统计局发布的部分数据结合进行分析,存在效率低、数据时效性差、分析效果不理想等问题。
另外,部分招聘网站虽然也存在一些相关的就业分析报告,不过单个招聘网站的分析报告的数据来源也只包括自身的数据,存在数据覆盖不全、求职人群体指向明显等问题。
因此,需要一种招聘数据的岗位智能分类的方法及装置,能够实现招聘数据的岗位信息的精准分类且分类效率高。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种招聘数据的岗位智能分类的方法及装置,能够实现招聘数据的岗位信息的精准分类且分类效率高。
(二)技术方案
为了达到上述目的,本发明采用的一种技术方案为:
一种招聘数据的岗位智能分类的方法,包括步骤:
S1、获取招聘数据并进行全文检索,得到训练数据;
S2、通过深度学习算法对所述训练数据进行训练,得到训练好的模型;
S3、根据所述训练好的模型对待处理的招聘数据进行岗位智能分类。
为了达到上述目的,本发明采用的另一种技术方案为:
一种招聘数据的岗位智能分类的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
S1、获取招聘数据并进行全文检索,得到训练数据;
S2、通过深度学习算法对所述训练数据进行训练,得到训练好的模型;
S3、根据所述训练好的模型对待处理的招聘数据进行岗位智能分类。
(三)有益效果
本发明的有益效果在于:通过获取招聘数据并进行全文检索,得到训练数据;通过深度学习算法对所述训练数据进行训练,得到训练好的模型;根据所述训练好的模型对待处理的招聘数据进行岗位智能分类,利用全文检索与深度学习相结合的方式,不仅实现招聘数据的岗位信息的精准分类,而且分类效率高,便于为稳定就业提供有效的辅助决策,有利于提高社会的稳定性。
附图说明
图1为本发明实施例的招聘数据的岗位智能分类的方法的流程图;
图2为本发明实施例的招聘数据的岗位智能分类的装置的结构示意图。
【附图标记说明】
1:招聘数据的岗位智能分类的装置;
2:存储器;
3:处理器。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
实施例一
请参照图1,一种招聘数据的岗位智能分类的方法,包括步骤:
S1、获取招聘数据并进行全文检索,得到训练数据;
步骤S1具体包括:
S11、获取招聘数据并进行数据处理,得到处理后的数据;
步骤S11具体为:
获取招聘数据并进行预处理,得到预处理后的数据;
对所述预处理后的数据进行标准化处理,得到处理后的数据。
所述预处理包括去重和数据清洗。
优选地,所述招聘数据的获取可以从主流的几个招聘网站获取相关数据,并进行统一结构化存储,该统一结构化存储的属性字段包括岗位名称、公司名称、城市、薪资、发布日期、学历要求、工作经验要求、公司性质、公司规模、职位信息、创建时间、来源、招聘人数、公司所属行业、职位搜索关键词和工作地址;
S12、对所述处理后的数据进行全文检索,得到训练数据。
步骤S12具体为:
根据所述处理后的数据中的属性字段创建索引库并进行全文检索,得到相应检索结果,并进行标记生成训练数据。
S2、通过深度学习算法对所述训练数据进行训练,得到训练好的模型;
步骤S2具体为:
S21、将所述训练数据分为训练集和测试集,并使用深度学习算法对所述训练集进行训练,生成分类模型;
所述深度学习算法为MLP分类算法、决策树分类算法和逻辑回归分类算法中的一种。
S22、根据所述测试集对所述分类模型进行验证,得到训练好的模型。
步骤S22具体为:
根据所述测试集对所述分类模型进行验证,并通过调整隐藏层大小使正确率大于预设值后,得到训练好的模型。
具体地,所述预设值的设置与所选用的深度学习算法有关,若所述深度学习算法为MLP分类算法,则所述预设值优选设置为0.95;
若所述深度学习算法为决策树分类算法,则所述预设值优选设置为0.92;
若所述深度学习算法为逻辑回归分类算法,则所述预设值优选设置为0.88。
S3、根据所述训练好的模型对待处理的招聘数据进行岗位智能分类。
实施例二
本实施例和实施例一的区别在于,本实施例将结合具体的应用场景,进一步说明本发明上述招聘数据的岗位智能分类的方法是如何实现的:
1、招聘数据的采集
所述招聘数据的获取可以从主流的几个招聘网站获取相关数据,并进行统一结构化存储,该统一结构化存储的基本信息包括岗位名称、公司名称、城市、薪资、发布日期、学历要求、工作经验要求、公司性质、公司规模、职位信息、创建时间、来源、招聘人数、公司所属行业、职位搜索关键词和工作地址;
其中,岗位名称字段属于每个公司发布的手填信息,是不标准的,因此也是需要进行正确分类的关键对象。
2、数据预处理和标准化处理
对招聘数据进行预处理,得到预处理后的数据;
对所述预处理后的数据进行标准化处理,得到处理后的数据。
所述预处理包括去重和数据清洗。
具体地,主要包括对工作城市的标准化,统一到县区一级;对薪资的标准化,统一为月薪不带单位表示;统一学历标准、统一公司规模、统一公司所属行业为国标行业等。
3、根据处理后的数据得到训练数据
根据所述处理后的数据中的属性字段创建索引库并进行全文检索,得到相应检索结果,并进行标记生成训练数据。
具体地,可通过Elasticsearch对处理后的数据中的属性字段(岗位名称)进行索引库的搭建和全文检索,并将得到的结果进行标记,生成训练数据,至少需要1000条的训练数据,若存在多个标记,则仅保留一个标记;
4、数据训练学习
将所述训练数据分为训练集和测试集,并使用深度学习算法对所述训练集进行训练,生成分类模型;
所述深度学习算法为MLP分类算法、决策树分类算法和逻辑回归分类算法中的一种。
根据所述测试集对所述分类模型进行验证,得到训练好的模型。
所述预设值的设置与所选用的深度学习算法有关,若所述深度学习算法为MLP分类算法,则所述预设值优选设置为0.95;
若所述深度学习算法为决策树分类算法,则所述预设值优选设置为0.92;
若所述深度学习算法为逻辑回归分类算法,则所述预设值优选设置为0.88。
5、招聘数据的岗位分类
根据所述训练好的模型对待处理的招聘数据进行岗位智能分类。
实施例三
请参照图2,一种招聘数据的岗位智能分类的装置1,包括存储器2、处理器3及存储在存储器2上并可在处理器3上运行的计算机程序,所述处理器3执行所述程序时实现实施例一中的各个步骤。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种招聘数据的岗位智能分类的方法,其特征在于,包括步骤:
S1、获取招聘数据并进行全文检索,得到训练数据;
S2、通过深度学习算法对所述训练数据进行训练,得到训练好的模型;
S3、根据所述训练好的模型对待处理的招聘数据进行岗位智能分类。
2.根据权利要求1所述的招聘数据的岗位智能分类的方法,其特征在于,步骤S1具体包括:
S11、获取招聘数据并进行数据处理,得到处理后的数据;
S12、对所述处理后的数据进行全文检索,得到训练数据。
3.根据权利要求2所述的招聘数据的岗位智能分类的方法,其特征在于,步骤S11具体为:
获取招聘数据并进行预处理,得到预处理后的数据;
对所述预处理后的数据进行标准化处理,得到处理后的数据。
4.根据权利要求3所述的招聘数据的岗位智能分类的方法,其特征在于,所述预处理包括去重和数据清洗。
5.根据权利要求2所述的招聘数据的岗位智能分类的方法,其特征在于,步骤S12具体为:
根据所述处理后的数据中的属性字段创建索引库并进行全文检索,得到相应检索结果,并进行标记生成训练数据。
6.根据权利要求1所述的招聘数据的岗位智能分类的方法,其特征在于,步骤S2具体为:
S21、将所述训练数据分为训练集和测试集,并使用深度学习算法对所述训练集进行训练,生成分类模型;
S22、根据所述测试集对所述分类模型进行验证,得到训练好的模型。
7.根据权利要求6所述的招聘数据的岗位智能分类的方法,其特征在于,所述深度学习算法为MLP分类算法、决策树分类算法和逻辑回归分类算法中的一种。
8.根据权利要求6所述的招聘数据的岗位智能分类的方法,其特征在于,步骤S22具体为:
根据所述测试集对所述分类模型进行验证,并通过调整隐藏层大小使正确率大于预设值后,得到训练好的模型。
9.一种招聘数据的岗位智能分类的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
S1、获取招聘数据并进行全文检索,得到训练数据;
S2、通过深度学习算法对所述训练数据进行训练,得到训练好的模型;
S3、根据所述训练好的模型对待处理的招聘数据进行岗位智能分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200861.6A CN112287110A (zh) | 2020-11-02 | 2020-11-02 | 一种招聘数据的岗位智能分类的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200861.6A CN112287110A (zh) | 2020-11-02 | 2020-11-02 | 一种招聘数据的岗位智能分类的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287110A true CN112287110A (zh) | 2021-01-29 |
Family
ID=74353130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011200861.6A Pending CN112287110A (zh) | 2020-11-02 | 2020-11-02 | 一种招聘数据的岗位智能分类的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287110A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114004575A (zh) * | 2021-09-03 | 2022-02-01 | 广州网才信息技术有限公司 | 一种个性化招聘系统及实现招聘系统个性化的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170300862A1 (en) * | 2016-04-14 | 2017-10-19 | Linkedln Corporation | Machine learning algorithm for classifying companies into industries |
CN108509561A (zh) * | 2018-03-23 | 2018-09-07 | 山东合天智汇信息技术有限公司 | 基于机器学习的岗位招聘数据筛选方法、系统及存储介质 |
CN108780532A (zh) * | 2016-02-26 | 2018-11-09 | 微软技术许可有限责任公司 | 用于应届大学毕业生的职位搜索引擎 |
-
2020
- 2020-11-02 CN CN202011200861.6A patent/CN112287110A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108780532A (zh) * | 2016-02-26 | 2018-11-09 | 微软技术许可有限责任公司 | 用于应届大学毕业生的职位搜索引擎 |
US20170300862A1 (en) * | 2016-04-14 | 2017-10-19 | Linkedln Corporation | Machine learning algorithm for classifying companies into industries |
CN108509561A (zh) * | 2018-03-23 | 2018-09-07 | 山东合天智汇信息技术有限公司 | 基于机器学习的岗位招聘数据筛选方法、系统及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114004575A (zh) * | 2021-09-03 | 2022-02-01 | 广州网才信息技术有限公司 | 一种个性化招聘系统及实现招聘系统个性化的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781246A (zh) | 一种企业关联关系构建方法及系统 | |
US7953724B2 (en) | Method and system for disambiguating informational objects | |
CN113342976B (zh) | 一种自动采集处理数据的方法、装置、存储介质及设备 | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN102999524B (zh) | 一种文档关联检索方法及系统 | |
CN111125116B (zh) | 定位业务表中代码字段及对应代码表的方法及系统 | |
CN112100181B (zh) | 一种基于沙盘的数据资源管理方法 | |
CN112181490B (zh) | 功能点评估法中功能类别的识别方法、装置、设备及介质 | |
CN112784591A (zh) | 数据的处理方法、装置、电子设备和存储介质 | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
Owen et al. | Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. | |
CN111522950A (zh) | 一种针对非结构化海量文本敏感数据的快速识别系统 | |
CN112416992B (zh) | 基于大数据和关键词的行业类型识别方法、系统及设备 | |
CN112287110A (zh) | 一种招聘数据的岗位智能分类的方法及装置 | |
US20070282804A1 (en) | Apparatus and method for extracting database information from a report | |
CN104699753A (zh) | 一种基于云数据库的知识产权查询系统 | |
CN113792081B (zh) | 一种自动化进行数据资产盘点的方法和系统 | |
CN112380264A (zh) | 一种基于个人全生命周期的政策解析和匹配的方法及装置 | |
CN113032496A (zh) | 一种基于产业知识图谱的产业大脑数据分析系统 | |
Dalcin et al. | Data quality assessment at the Rio de Janeiro Botanical Garden Herbarium Database and considerations for data quality improvement | |
CN110928985A (zh) | 一种基于深度学习算法自动提取近义词的科技项目查重方法 | |
CN116303392B (zh) | 关于不动产登记数据的多源数据表管理方法 | |
Ankala et al. | Resume analysis for skill-set estimation using HDFS, MapReduce and R | |
CN116976683B (zh) | 一种合同条款自动审核方法、系统、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210129 |
|
RJ01 | Rejection of invention patent application after publication |