CN111415131A - 一种基于自然语言处理技术的大数据人才简历分析方法 - Google Patents
一种基于自然语言处理技术的大数据人才简历分析方法 Download PDFInfo
- Publication number
- CN111415131A CN111415131A CN202010175962.6A CN202010175962A CN111415131A CN 111415131 A CN111415131 A CN 111415131A CN 202010175962 A CN202010175962 A CN 202010175962A CN 111415131 A CN111415131 A CN 111415131A
- Authority
- CN
- China
- Prior art keywords
- resume
- talent
- natural language
- method based
- processing technology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于自然语言处理技术的大数据人才简历分析方法,涉及专门适用于行政、管理目的的数据处理方法技术领域;包括如下步骤:(1)输入简历文件,并提取简历数据;(2)根据数据属性对简历数据进行分类,形成多标签信息;(3)对多标签信息进行评分。本发明通过对简历进行标签化管理,并简历合理的评估打分机制能够帮助企业更有效地招纳人才,具有良好的应用前景。
Description
技术领域
本发明涉及专门适用于行政、管理目的的数据处理方法技术领域,特别涉及一种基于自然语言处理技术的大数据人才简历分析方法。
背景技术
现如今通讯技术迅速发展,信息量呈爆炸式增长,能够在大数据集快速精准地找到需要的信息成为人们热烈关注的话题。人才简历也是这些海量数据中的一部分,招聘是企业招纳人才的重要手段,其中简历筛选是招聘的第一步。目前部分企业选择从网络招聘平台,通过简历和职位的匹配获取简历,此外,企业自身也会有大量求职者投递的简历形成的人才库,如果单纯依靠招聘人员进行筛选,效率低下,大大增加了招聘成本。但是在现有技术中,网络招聘平台筛选和匹配简历的方法过于粗略,例如按照目标职位、工作地点、专业学历等条件进行筛选,按照这样的方式得到的效果较差,提供的简历不能满足企业的需要,往往最后还是要招聘人员进行人工筛选,造成招聘的效率不高。另一方面,简历的信息较多,目前缺乏对简历进行智能详细分析评分的技术,可能造成遗漏可用人才的简历。
发明内容
本发明的目的在于,提供一种基于自然语言处理技术的大数据人才简历分析方法,包括如下步骤:
(1)输入简历文件,并提取简历数据;
(2)根据数据属性对简历数据进行分类,形成多标签信息;
(3)对多标签信息进行评分。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,所述步骤(3)中的评分包括单项评估和综合评估中的一种或者两种的组合。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,所述单项评估是利用单项评分模型对每个标签信息进行评分,得到单项评分集合。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,所述单项评分模型是将原始存储的简历数据作为训练集,利用机器深度学习算法训练得到。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,所述单项评估完成后进行多维度评估,所述多维评估是根据岗位要求对每个标签信息进行交叉分析,并进行修正。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,所述综合评估是利用综合评估模型对多标签信息进行评分,得到一个综合评分。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,所述综合评估模型是将原始存储的简历数据作为训练集,利用机器深度学习算法对简历信息中的标签信息进行训练得到;
所述标签信息包括个人学习能力、沟通能力、适应能力、工作经验、项目经历、工作时长、职场性格、薪资要求,其对应的模型包括人才性价比模型、能力分析模型、人才生命周期模型、人才能力模型、人才成本模型。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,步骤(1)包括:使用OCR技术对输入的简历文件进行文本抽取;
所述步骤(2)包括:对提取到的文本,通过命名实体识别方法及关键词匹配,得到预设的标签属性信息。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,所述步骤(2)之后还包括简历初筛,所述简历初筛用于筛选出疑似造假简历,如果出现有疑似造假的出现,那么对于该份简历的分析终止,并对其标记。
上述的一种基于自然语言处理技术的大数据人才简历分析方法中,所述简历初筛的同时,根据简历中标签信息对简历进行去重。
与现有技术相比,本发明的有益效果如下:
本发明基于上传的待分析简历,针对单个简历进行信息提取,建立多项标签,通过对标签进行评分,能够充分反映人才的实际状况,大大提高企业的招聘效率;传统的简历分析技术要么关注简历的去重筛减,要么关注简历推荐,而本发明注重对简历多方面的智能评估,建立较完善的打分机制,能够帮助企业更有效地招纳人才,具有良好的应用前景。
附图说明
图1是本发明的总体流程图;
图2是信息提取示意图;
图3是数据预处理示意图;
图4是单项评估示意图;
图5是多维度评估示意图;
图6是综合评估示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例:具体步骤如下:
(1)信息提取:对于上传的个人简历,通过OCR技术对文档进行文本抽取,提取其中的具体信息;
(2)数据预处理:对提取到的简历信息,通过命名实体识别方法及关键词匹配,得到基本属性,工作经历,学历背景,沟通能力,适应能力等标签的具体信息,并对信息进行可视化,从而更直观的观察个人能力;参照图2和图3所示。
在此同时,对简历信息进行初步的信息校对,校对的目的是为了筛选出明显造假的简历;比如出现工作时长大于毕业时间1年以上,便直接将此类简历标记为疑似造假,从而完成初筛;
(3)单项评估:首先将原始存储的简历数据作为训练集,利用机器深度学习算法训练,得到不同标签值的范围划分以及评分规则的单项评分模型,利用模型对待分析简历进行自动评分,得到个人单项评分集合;参照图4所示。
(4)多维度评估:结合企业的岗位要求与人才能力的偏好,对个人各个标签值进行多项交叉关联分析,若出现企业薪资预算与候选人期望薪资不符、企业期望工作时长与候选人工作时长不符等现象,可利用事先机器深度学习算法训练得到的修正规则对第三步获得的个人单项评分集合进行适当修正;
例如对比企业对候选人期望薪资与候选人自己的期望薪资,计算两者差值,当后者高于前者在2000元以上,将其单项得分减2,当差值在2000元以内,将其单项得分加2,当两者正好相等,将其得分加4,当后者低于前者在2000元以上,将其得分加2,经过此类修正规则,可改变部分标签得分数据,进而突出候选人优势项,得到新的个人单项评分集合;参照图5所示。
(5)综合评估:参照图6,将原始存储的简历数据作为训练集,利用机器深度学习算法对简历信息中个人学习能力、沟通能力、适应能力、工作经验、项目经历、工作时长、职场性格、薪资要求等标签信息进行训练,得到人才性价比模型、能力分析模型、人才生命周期模型、人才能力模型、人才成本模型等作为综合评估的模型。
人才性价比模型侧重候选人工作能力及薪资要求等信息,所以计算综合评分时会提高对应标签的权重;能力分析模型侧重候选人的学习能力、沟通能力、适能力、工作能力等信息;人才生命周期模型关注候选人历史工作时长,利用简历时间计算候选人的跳槽频率并对其进行预测;人才能力模型是基于企业同一岗位的候选人们,针对其工作能力进行对比,将候选人们划分为优秀、良好、及格三个等级;人才成本模型关注候选人的历史薪资及期望薪资数据,降低企业的用工成本。
企业可根据自身要求,选择不同的模型智能地对个人进行综合评估并将所有候选人的综合评分进行排序,例如:对招聘成本更看重的企业可以选择人才成本模型筛选简历,对人员流动频率更在意的企业可以选择人才生命周期模型挑选候选人,最终企业可通过不同的综合评估模型选择合适的人才。
本发明基于上传的待分析简历,针对单个简历进行信息提取,建立多项标签,利用机器深度学习算法训练出能够自动对多个标签值进行评分的模型,构成个人的单项评分集合,然后再综合岗位匹配度及企业偏好,对单项评分集合进行适当修正,最后通过建立人才性价比模型、能力分析模型、人才生命周期模型、人才能力模型、人才成本模型等进行综合评分,既得到个人的单项评分集合,也获得综合评分,能够充分反映人才的实际状况,大大提高企业的招聘效率;传统的简历分析技术要么关注简历的去重筛减,要么关注简历推荐,而本发明注重对简历多方面的智能评估,建立较完善的打分机制,能够帮助企业更有效地招纳人才,具有良好的应用前景。
尽管已经示出和描述了本发明的实施例,但对于本领域的普通技术人员而言,可以在不脱离本发明的原理和精神的情况下对这些实施例进行多种变化、修改、替换和变形,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:包括如下步骤:
(1)输入简历文件,并提取简历数据;
(2)根据数据属性对简历数据进行分类,形成多标签信息;
(3)对多标签信息进行评分。
2.根据权利要求1所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:所述步骤(3)中的评分包括单项评估和综合评估中的一种或者两种的组合。
3.根据权利要求2所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:所述单项评估是利用单项评分模型对每个标签信息进行评分,得到单项评分集合。
4.根据权利要求3所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:所述单项评分模型是将原始存储的简历数据作为训练集,利用机器深度学习算法训练得到。
5.根据权利要求3所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:所述单项评估完成后进行多维度评估,所述多维评估是根据岗位要求对每个标签信息进行交叉分析,并进行修正。
6.根据权利要求2或5所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:所述综合评估是利用综合评估模型对多标签信息进行评分,得到一个综合评分。
7.根据权利要求6所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:所述综合评估模型是将原始存储的简历数据作为训练集,利用机器深度学习算法对简历信息中的标签信息进行训练得到;
所述标签信息包括个人学习能力、沟通能力、适应能力、工作经验、项目经历、工作时长、职场性格、薪资要求,其对应的模型包括人才性价比模型、能力分析模型、人才生命周期模型、人才能力模型、人才成本模型。
8.根据权利要求1或7所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:步骤(1)包括:使用OCR技术对输入的简历文件进行文本抽取;
所述步骤(2)包括:对提取到的文本,通过命名实体识别方法及关键词匹配,得到预设的标签属性信息。
9.根据权利要求8所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:所述步骤(2)之后还包括简历初筛,所述简历初筛用于筛选出疑似造假简历,如果出现有疑似造假的出现,那么对于该份简历的分析终止,并对其标记。
10.根据权利要求9所述的一种基于自然语言处理技术的大数据人才简历分析方法,其特征在于:所述简历初筛的同时,根据简历中标签信息对简历进行去重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010175962.6A CN111415131A (zh) | 2020-03-13 | 2020-03-13 | 一种基于自然语言处理技术的大数据人才简历分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010175962.6A CN111415131A (zh) | 2020-03-13 | 2020-03-13 | 一种基于自然语言处理技术的大数据人才简历分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111415131A true CN111415131A (zh) | 2020-07-14 |
Family
ID=71494447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010175962.6A Pending CN111415131A (zh) | 2020-03-13 | 2020-03-13 | 一种基于自然语言处理技术的大数据人才简历分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111415131A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738007A (zh) * | 2020-07-03 | 2020-10-02 | 北京邮电大学 | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 |
CN116029685A (zh) * | 2023-03-29 | 2023-04-28 | 中国电子科技集团公司第十五研究所 | 面向多维人力资源信息的人才池智能汇集方法及系统 |
CN117114514A (zh) * | 2023-10-24 | 2023-11-24 | 中电科大数据研究院有限公司 | 一种基于大数据的人才信息分析管理方法、系统及装置 |
CN117787814A (zh) * | 2024-02-23 | 2024-03-29 | 湖南小翅科技有限公司 | 一种基于ai的人才素质能力测评方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787639A (zh) * | 2016-02-03 | 2016-07-20 | 北京云太科技有限公司 | 基于人工智能的人才大数据量化精确匹配方法和装置 |
CN108829676A (zh) * | 2018-06-11 | 2018-11-16 | 安徽引航科技有限公司 | 基于文本分析技术的人才专业能力评估方法 |
CN109636337A (zh) * | 2018-12-12 | 2019-04-16 | 北京唐冠天朗科技开发有限公司 | 一种基于大数据的人才库构建方法及电子设备 |
-
2020
- 2020-03-13 CN CN202010175962.6A patent/CN111415131A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787639A (zh) * | 2016-02-03 | 2016-07-20 | 北京云太科技有限公司 | 基于人工智能的人才大数据量化精确匹配方法和装置 |
CN108829676A (zh) * | 2018-06-11 | 2018-11-16 | 安徽引航科技有限公司 | 基于文本分析技术的人才专业能力评估方法 |
CN109636337A (zh) * | 2018-12-12 | 2019-04-16 | 北京唐冠天朗科技开发有限公司 | 一种基于大数据的人才库构建方法及电子设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738007A (zh) * | 2020-07-03 | 2020-10-02 | 北京邮电大学 | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 |
CN116029685A (zh) * | 2023-03-29 | 2023-04-28 | 中国电子科技集团公司第十五研究所 | 面向多维人力资源信息的人才池智能汇集方法及系统 |
CN117114514A (zh) * | 2023-10-24 | 2023-11-24 | 中电科大数据研究院有限公司 | 一种基于大数据的人才信息分析管理方法、系统及装置 |
CN117114514B (zh) * | 2023-10-24 | 2024-01-02 | 中电科大数据研究院有限公司 | 一种基于大数据的人才信息分析管理方法、系统及装置 |
CN117787814A (zh) * | 2024-02-23 | 2024-03-29 | 湖南小翅科技有限公司 | 一种基于ai的人才素质能力测评方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111415131A (zh) | 一种基于自然语言处理技术的大数据人才简历分析方法 | |
Karakatsanis et al. | Data mining approach to monitoring the requirements of the job market: A case study | |
CN110765257A (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
US20070156787A1 (en) | Apparatus and method for strategy map validation and visualization | |
CN106572001B (zh) | 一种智能客服的对话方法及系统 | |
CN113590698B (zh) | 基于人工智能技术的数据资产分类建模与分级保护方法 | |
CN105740404A (zh) | 标签关联方法及装置 | |
CN111737485A (zh) | 基于知识图谱、深度学习的人岗匹配方法、人岗匹配系统 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
US20210073216A1 (en) | Business intelligence system based on artificial intelligence and analysis method thereof | |
CN110705283A (zh) | 基于文本法律法规与司法解释匹配的深度学习方法和系统 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN112488507A (zh) | 一种基于聚类的专家分类画像方法、装置及存储介质 | |
CN115544348A (zh) | 一种基于互联网大数据的海量信息智能搜索系统 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN103425748B (zh) | 一种文档资源建议词的挖掘方法和装置 | |
CN117312532A (zh) | 一种基于知识图谱的智能评分方法及系统 | |
CN112258032A (zh) | 一种基于人才数据的招聘服务方法 | |
CN116578703A (zh) | 一种智慧鉴定系统及方法 | |
CN108615124B (zh) | 基于词频分析的企业评价方法及系统 | |
CN115936389A (zh) | 一种基于大数据技术的评审专家与评审材料的匹配方法 | |
CN111209375B (zh) | 一种通用的条款与文档匹配方法 | |
CN115760495A (zh) | 一种实现法律案例自动标签化的方法及装置 | |
CN110414819B (zh) | 一种工单评分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |