CN112214572B - 一种简历解析中二次提取实体的方法 - Google Patents
一种简历解析中二次提取实体的方法 Download PDFInfo
- Publication number
- CN112214572B CN112214572B CN202011125481.0A CN202011125481A CN112214572B CN 112214572 B CN112214572 B CN 112214572B CN 202011125481 A CN202011125481 A CN 202011125481A CN 112214572 B CN112214572 B CN 112214572B
- Authority
- CN
- China
- Prior art keywords
- extracted
- entities
- entity
- potential
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及简历解析、人工智能和自然语言处理领域,具体提供了一种简历解析中二次提取实体的方法,具有如下步骤:S1、实体提取及拆分记录;S2、拆分片段进行文本预处理;S3、划分符合条件的潜在实体和待提取字段;S4、采用打分法对符合条件的潜在实体进行打分;S5、选取最高分;S6、最高分与阈值对比,输出二次提取实体及对应字段。与现有技术相比,本发明的一种简历解析中二次提取实体的方法,通过进行二次实体抽取,能够准确的提取全部实体,能够有效的解决实体遗漏的问题,具有良好的推广价值。
Description
技术领域
本发明涉及简历解析、人工智能和自然语言处理领域,具体提供一种简历解析中二次提取实体的方法。
背景技术
简历内容解析是把非结构化的简历数据转化为结构化数据,以便进行简历打分、筛选等进一步的分析工作。目前主流的解决方法包括两个步骤,首先,对简历进行分块,分成个人信息、教育经历和工作经历等模块,其次对每一模块进行分析,提取目标字段。在提取教育经历、工作经历和项目经历等包含多条记录的信息时,还需要对其中的每条记录进行切分,分别提取每条记录中的信息,如教育信息中每条记录往往包括学校、专业、起止时间、主修课程、GPA等信息,工作信息中每条记录往往包括工作单位、部门、岗位、起止时间等信息。
目前主流的提取方法是,先通过规则以及机器学习或深度学习方法识别实体,然后基于识别出的实体对记录拆分,并将识别出的实体分配到各条拆分的记录中,每条记录对应一组实体,如第一条记录结果为(单位1,部门1,起止时间1),第二条记录结果为(单位2,部门2,起止时间2)。但是,由于简历类型多样,现有的方法往往不能准确提取全部实体,导致结果中部分实体缺失的问题。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的简历解析中二次提取实体的方法。
本发明解决其技术问题所采用的技术方案是:
一种简历解析中二次提取实体的方法,其特征在于,具有如下步骤:
S1、实体提取及拆分记录;
S2、拆分片段进行文本预处理;
S3、划分符合条件的潜在实体和待提取字段;
S4、采用打分法对符合条件的潜在实体进行打分;
S5、选取最高分;
S6、最高分与阈值对比,输出二次提取实体及对应字段。
进一步的,在步骤S1中,将已提取实体分配到已拆分的各条记录中,对每条记录中已提取实体按照位置进行排序,使用已提取实体对所在的记录进行拆分。
进一步的,在步骤S2中,所在记录进行拆分后的片段作为潜在实体,对所述潜在实体进行文本预处理。
进一步的,在步骤S3中,文本预处理中,筛选掉格式不符合条件的潜在实体,得到符合条件的潜在实体,将已提取的实体对应的字段定义为已提取字段,将其他字段定义为待提取字段。
作为优选,在步骤S4中,打分法的打分因素包括通用因素和专用因素,
所述通用因素包括潜在实体的位置、字符长度、中文字符和英文字符长度;
所述专用因素包括每个字段特有的因素。
进一步的,在步骤S4中,对符合条件的潜在实体进行打分,包括:
对每个符合条件的潜在实体和每个待提取字段的组合进行打分。
进一步的,在步骤S5中,对于每个符合条件的潜在实体,选择得分最高的待提取字段作为最优字段;
对于一个待提取字段是多个符合条件的潜在实体最优字段的情况,选择得分最高的符合条件的潜在实体,这个符合条件的潜在实体作为该待提取字段对应的符合条件的潜在实体。
进一步的,在步骤S6中,选择得分高于阈值的待提取字段和符合条件的潜在实体的组合,将所述符合条件的潜在实体加入已提取实体中,将所述待提取字段加入已提取字段中。
本发明的一种简历解析中二次提取实体的方法和现有技术相比,具有以下突出的有益效果:
本发明的一种简历解析中二次提取实体的方法,通过进行二次实体抽取,能够准确的提取全部实体,能够有效的解决实体遗漏的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种简历解析中二次提取实体的方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种简历解析中二次提取实体的方法,分为以下步骤:
S1、实体提取及拆分记录:
将已提取实体分配到已拆分的各条记录中,对每条记录中已提取实体按照位置进行排序,使用已提取实体对所在的记录进行拆分。
S2、拆分片段进行文本预处理:
所在记录进行拆分后的片段作为潜在实体,对所述潜在实体进行文本预处理,删除特殊字符以及长度不符合要求的片段。
S3、划分符合条件的潜在实体和待提取字段:
文本预处理中,筛选掉格式不符合条件的潜在实体,得到符合条件的潜在实体。
每条记录中有多个字段,如工作信息的每条记录往往包括工作单位、部门、起止时间等,将已提取的实体对应的字段定义为已提取字段,将其他字段定义为待提取字段。
S4、采用打分法对符合条件的潜在实体进行打分:
对符合条件的潜在实体进行打分,包括:
对每个符合条件的潜在实体和每个待提取字段的组合进行打分。
打分法的打分因素包括通用因素和专用因素,
其中,通用因素包括潜在实体的位置、字符长度、中文字符和英文字符长度,专用因素是指每个字段特有的因素。
专用因素包括每个字段特有的因素,如工作单位考虑包括“集团、公司、科技”等关键词的潜在实体。同时,为每个因素按照重要程度设置权重。
S5、选取最高分:
对于每个符合条件的潜在实体,选择得分最高的待提取字段作为最优字段;
对于一个待提取字段是多个符合条件的潜在实体最优字段的情况,选择得分最高的符合条件的潜在实体,这个符合条件的潜在实体作为该待提取字段对应的符合条件的潜在实体。
S6、最高分与阈值对比,输出二次提取实体及对应字段:
选择得分高于阈值的待提取字段和符合条件的潜在实体的组合,将符合条件的潜在实体加入已提取实体中,将待提取字段加入已提取字段中。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种简历解析中二次提取实体的方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (1)
1.一种简历解析中二次提取实体的方法,其特征在于,具有如下步骤:
S1、实体提取及拆分记录;
将已提取实体分配到已拆分的各条记录中,对每条记录中已提取实体按照位置进行排序,使用已提取实体对所在的记录进行拆分;
S2、拆分片段进行文本预处理;
所在记录进行拆分后的片段作为潜在实体,对所述潜在实体进行文本预处理;
S3、划分符合条件的潜在实体和待提取字段;
文本预处理中,筛选掉格式不符合条件的潜在实体,得到符合条件的潜在实体,将已提取的实体对应的字段定义为已提取字段,将其他字段定义为待提取字段;
S4、采用打分法对符合条件的潜在实体进行打分;
打分法的打分因素包括通用因素和专用因素,
所述通用因素包括潜在实体的位置、中文字符和英文字符长度;
所述专用因素包括每个字段特有的因素;
对符合条件的潜在实体进行打分,包括:
对每个符合条件的潜在实体和每个待提取字段的组合进行打分;
S5、选取最高分;
对于每个符合条件的潜在实体,选择得分最高的待提取字段作为最优字段;
对于一个待提取字段是多个符合条件的潜在实体最优字段的情况,选择得分最高的符合条件的潜在实体,这个符合条件的潜在实体作为该待提取字段对应的符合条件的潜在实体;
S6、最高分与阈值对比,输出二次提取实体及对应字段;
选择得分高于阈值的待提取字段和符合条件的潜在实体的组合,将所述符合条件的潜在实体加入已提取实体中,将所述待提取字段加入已提取字段中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011125481.0A CN112214572B (zh) | 2020-10-20 | 2020-10-20 | 一种简历解析中二次提取实体的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011125481.0A CN112214572B (zh) | 2020-10-20 | 2020-10-20 | 一种简历解析中二次提取实体的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112214572A CN112214572A (zh) | 2021-01-12 |
CN112214572B true CN112214572B (zh) | 2022-11-01 |
Family
ID=74056151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011125481.0A Active CN112214572B (zh) | 2020-10-20 | 2020-10-20 | 一种简历解析中二次提取实体的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112214572B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1843257A1 (en) * | 2006-04-03 | 2007-10-10 | BRITISH TELECOMMUNICATIONS public limited company | Methods and systems of indexing and retrieving documents |
JP2015062117A (ja) * | 2013-09-22 | 2015-04-02 | 富士通株式会社 | 実体のリンク付け方法及び実体のリンク付け装置 |
CN105183742A (zh) * | 2015-06-12 | 2015-12-23 | 南京富士通南大软件技术有限公司 | 一种简历识别方法 |
CN105912625A (zh) * | 2016-04-07 | 2016-08-31 | 北京大学 | 一种面向链接数据的实体分类方法和系统 |
CN106960001A (zh) * | 2017-02-08 | 2017-07-18 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN110457423A (zh) * | 2019-06-24 | 2019-11-15 | 平安科技(深圳)有限公司 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
CN110781658A (zh) * | 2019-10-14 | 2020-02-11 | 北京字节跳动网络技术有限公司 | 简历解析方法、装置、电子设备和存储介质 |
CN111178064A (zh) * | 2019-12-13 | 2020-05-19 | 平安医疗健康管理股份有限公司 | 基于字段分词处理的信息推送方法、装置和计算机设备 |
CN111325031A (zh) * | 2020-02-17 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 简历解析方法及装置 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9514167B2 (en) * | 2011-08-01 | 2016-12-06 | Qatar Foundation | Behavior based record linkage |
-
2020
- 2020-10-20 CN CN202011125481.0A patent/CN112214572B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1843257A1 (en) * | 2006-04-03 | 2007-10-10 | BRITISH TELECOMMUNICATIONS public limited company | Methods and systems of indexing and retrieving documents |
JP2015062117A (ja) * | 2013-09-22 | 2015-04-02 | 富士通株式会社 | 実体のリンク付け方法及び実体のリンク付け装置 |
CN105183742A (zh) * | 2015-06-12 | 2015-12-23 | 南京富士通南大软件技术有限公司 | 一种简历识别方法 |
CN105912625A (zh) * | 2016-04-07 | 2016-08-31 | 北京大学 | 一种面向链接数据的实体分类方法和系统 |
CN106960001A (zh) * | 2017-02-08 | 2017-07-18 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN110457423A (zh) * | 2019-06-24 | 2019-11-15 | 平安科技(深圳)有限公司 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
CN110781658A (zh) * | 2019-10-14 | 2020-02-11 | 北京字节跳动网络技术有限公司 | 简历解析方法、装置、电子设备和存储介质 |
CN111178064A (zh) * | 2019-12-13 | 2020-05-19 | 平安医疗健康管理股份有限公司 | 基于字段分词处理的信息推送方法、装置和计算机设备 |
CN111325031A (zh) * | 2020-02-17 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 简历解析方法及装置 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
Non-Patent Citations (2)
Title |
---|
基于神经网络的中文命名实体识别研究;王蕾;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180315(第03期);全文 * |
深度学习在简历解析中的应用研究;陈毅;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112214572A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193805B (zh) | 基于人工智能的文章价值评估方法、装置及存储介质 | |
US11455301B1 (en) | Method and system for identifying entities | |
CN106294320B (zh) | 一种面向学术论文的术语抽取方法及系统 | |
US7937338B2 (en) | System and method for identifying document structure and associated metainformation | |
US8996524B2 (en) | Automatically mining patterns for rule based data standardization systems | |
CN110457672B (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN108052500B (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
US10885065B2 (en) | Data convergence | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN110674297B (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
US20130311471A1 (en) | Time-series document summarization device, time-series document summarization method and computer-readable recording medium | |
CN111858905A (zh) | 模型训练方法、信息识别方法、装置、电子设备及存储介质 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其系统、介质 | |
CN111027322A (zh) | 基于情感词典的财经新闻中细粒度实体的情感分析方法 | |
CN110659365A (zh) | 一种基于多层次结构词典的畜产品安全事件文本分类方法 | |
CN114201620A (zh) | 用于挖掘pdf文件中的pdf表格的方法、设备和介质 | |
WO2024037483A1 (zh) | 文本处理方法、装置、设备及介质 | |
CN112214572B (zh) | 一种简历解析中二次提取实体的方法 | |
CN110263140B (zh) | 一种主题词的挖掘方法、装置、电子设备及存储介质 | |
CN107122394A (zh) | 异常数据检测方法和装置 | |
CN110866393B (zh) | 基于领域知识库的简历信息抽取方法及系统 | |
KR20160067473A (ko) | 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치 | |
Rubtsova | Automatic term extraction for sentiment classification of dynamically updated text collections into three classes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221008 Address after: 250100 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd. Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province Applicant before: JINAN INSPUR HIGH-TECH TECHNOLOGY DEVELOPMENT Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |