CN113204967B - 简历命名实体识别方法及系统 - Google Patents
简历命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN113204967B CN113204967B CN202110571971.1A CN202110571971A CN113204967B CN 113204967 B CN113204967 B CN 113204967B CN 202110571971 A CN202110571971 A CN 202110571971A CN 113204967 B CN113204967 B CN 113204967B
- Authority
- CN
- China
- Prior art keywords
- resume
- named entity
- named
- entity
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了简历命名实体识别方法及系统,包括:获取待处理的简历;对待处理的简历进行预处理;将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;基于待处理简历的最终命名实体识别结果,生成知识图谱。以一种更新颖的方式展示和存储数据,为简历信息标注提供帮助。
Description
技术领域
本发明涉及机器学习与知识图谱技术领域,特别是涉及简历命名实体识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
近年来,随着毕业生迅速增加,应聘简历不断增多,这其中的效率问题引起了越来越多的关注。一些中大型公司收到的简历就有几百甚至几千份,依靠人力在简历中发现应聘者具有什么样的能力将耗费大量的时间精力,如果可以将简历中的获奖经历、实习经历标注,形成可视化简历,查阅起来会十分便利。
中国发明专利(申请号:CN109800437A,专利名称:一种基于特征融合的命名实体识别方法),通过提取特征语义、词特征、字符特征后进行特征融合,对实体信息进行分类,提高了命名实体分类的准确率并降低了计算量,但由于采取了LSTM网络,不能获取语句双向信息,虽然节省了计算量,但同时增加了对训练集的数据量要求。
发明内容
为了解决现有技术的不足,本发明提供了简历命名实体识别方法及系统;
第一方面,本发明提供了简历命名实体识别方法;
简历命名实体识别方法,包括:
获取待处理的简历;
对待处理的简历进行预处理;
将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;
将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;简历命名实体识别模型,包括:彼此连接的BiLSTM模型和条件随机场模型CRF;
对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;
基于待处理简历的最终命名实体识别结果,生成知识图谱。
第二方面,本发明提供了简历命名实体识别系统;
简历命名实体识别系统,包括:
获取模块,其被配置为:获取待处理的简历;
预处理模块,其被配置为:对待处理的简历进行预处理;
匹配模块,其被配置为:将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;
预测模块,其被配置为:将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;简历命名实体识别模型,包括:彼此连接的BiLSTM模型和条件随机场模型CRF;
合并模块,其被配置为:对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;
输出模块,其被配置为:基于待处理简历的最终命名实体识别结果,生成知识图谱。
第三方面,本发明还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本发明还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
(1)本发明结合BiLSTM神经网络和条件随机场的优点,全局规划与局部规划相结合,双向机器学习,自主建立相关领域训练数据集,弥补两种方法在实体识别时的不足,同时以知识图谱为辅,建立可视化实体图谱,保存实体关系。本方法整体采用CRF进行损失函数的计算及优化,进行全局路径规划,句子内部采用BiLSTM进行标签预测,进行局部路径规划,并使用字典匹配与模型预测相结合,能够有效提高标签预测准确度,并使用neo4j对信息建立知识图谱,以一种更新颖的方式展示和存储数据,为简历信息标注提供帮助。
(2)采用预训练语言模型的方法,通过训练待识别句子获得向量表征,然后将输出的字向量序列输入BiLSTM模块中进行语义编码处理,最后将BiLSTM层的输出结果送入CRF层,计算出最优化的标签序列。此方法因在大量语料上学习研究,可以根据字的上下文信息计算出字的向量表征,进而表征字词的属性,从而增强句子的语义表示,弥补了过往信息识别的不足,提高了信息识别效率。
(3)本发明采用改进后的BiLSTM模型,虽然BiLSTM模型能够很好地根据上下文语义关系得到字词地向量表征序列,但其输出结果往往存在词标注结果分散的情况。因此本发明增添CRF层对BiLSTM模型输出结果进行解码,优化标注序列,成功解决BiLSTM模型输出词标注结果分散的问题。
(4)本发明将自然语言处理方法应用于简历领域,使用预训练语言模型的方法有效规避当前机器学习存在的人工标注和领域知识依赖较强的问题,同时将获得命名实体识别的结果进行可视化标注,可以大大提高人事部门获得简历有效信息的效率,并通过不断完善字典数据库甄别数据,逐步提高识别准确率。
(5)本发明将实体信息存入知识图谱,方便信息阅读,符合新时代对数据可视化的要求。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明一种基于知识图谱与BiLSTM+CRF+DICT的简历领域命名实体识别方法的流程示意图;
图2是本发明的B+C模型结构示意图;
图3是本发明实施例中数据标注示例图;
图4是本发明实例中部分实体库图谱示例图;
图5是本发明识别案例知识图谱示例图;
图6是本发明识别案例知识图谱示例图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。
LSTM由Hochreiter&Schmidhuber(1997)提出,并在近期得到医药、新闻等各个领域的肯定。说明:一个LSTM程序Long Short Term Network——一般就称LSTM-是一种RNN特殊的类型,可以学习长期依赖信息。在很多问题上,LSTM都取得了相当大的成功,并得到了广泛的使用。LSTM通过刻意的设计来避免长期依赖问题,能很好地分析重点。双向LSTM程序长短期网络,通常称为BiLSTM,是一种RNN的特殊类型,可以学习上下文相关信息。在许多问题上,BiLSTM取得了巨大的成功并得到了广泛的应用。
条件随机场(CRF)这种用来解决序列标注问题的机器学习方法是由JohnLafferty于2001年发表在国际机器学习大会ICML上引入,对后人的研究起到了非常大的引领作用。特别是标注问题在很多自然科学领域有广泛应用,在自然语言处理领域对于自动分词、命名实体标注等问题打下了良好的基础。
字典(Dictionary)作为实体识别最基础的方案,识别准确率要高于机器学习,因此,本发明将字典用以辅助模型的实体识别,补充未识别实体以及正确划分实体分词范围,提高完整率与实体识别率。
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
本发明结合了机器学习中BiLSTM模型、条件随机场和字典,两种模型的结合可以更好的完成实体识别任务,再加上面向简历领域构建的实体库,完全可以满足简历领域的实体识别标注任务,另外将信息自动展示在知识图谱上,大大增加了文字信息的可读性,突出重点信息,节省了人力与时间。
实施例一
本实施例提供了简历命名实体识别方法;
如图1所示,简历命名实体识别方法,包括:
S101:获取待处理的简历;
S102:对待处理的简历进行预处理;
S103:将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;其中,第一预测命名实体集合,包括:若干个命名实体;
S104:将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;其中,第二预测命名实体集合,包括:若干个命名实体;简历命名实体识别模型,包括:彼此连接的BiLSTM模型和条件随机场模型CRF;
S105:对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;
S106:基于待处理简历的最终命名实体识别结果,生成知识图谱。
进一步地,所述方法还包括:
对第一预测命名实体集合和第二预测命名实体集合取交集,得到第三预测命名实体集合;
对第二预测命名实体集合减去第三预测命名实体集合,得到第四预测命名实体集合;
将第四预测命名实体集合中的命名实体作为新增命名实体补充到自定义实体字典库中;
补充实体字典库的实体类型及实体关系,将同类实体映射到父层属性,逐渐形成完备的信息聚类。
进一步地,所述S101:获取待处理的简历;其中待处理的简历中至少包括个人简介、获奖经历、实习经历和兴趣爱好等信息。
进一步地,所述S102:对待处理的简历进行预处理;具体包括:
对待处理简历采用正则表达式获取内容;
对采用正则表达式获取的内容,去除标点符号和特殊符号;
对去除标点符号和特殊符号的内容,进行jieba中文分词,得到分词后的词汇。
进一步地,所述S103中,自定义实体字典库,存储院校名词、实习单位名词、获奖名词、擅长软件名词和兴趣爱好名词等。
进一步地,所述S103中,将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;具体包括:
计算预处理后的简历的实体与自定义实体字典库中的实体之间的文本相似度;
将文本相似度与设定阈值进行比较,若文本相似度大于设定阈值,则表示匹配成功;如果文本相似度小于设定阈值,则表示匹配失败。
进一步地,所述S104中,训练后的简历命名实体识别模型;训练步骤包括:
S1041:构建训练集;所述训练集为已知实体分类标签的简历命名实体数字化向量;
S1042:将训练集,输入到简历命名实体识别模型中,对模型进行迭代训练;
S1043:判断模型输出精度是否达到设定要求,如果是,就停止训练对训练后的模型参数进行保存;如果否,就继续训练。
进一步地,所述S1041:构建训练集;具体包括:
S10411:获取若干个简历;
S10412:对每个简历中的文本数据进行去除标点符号处理、去除不可见字符处理和根据句尾标点符号将文本数据切割成对应的句子;句尾标点符号,包括:句号、问号和惊叹号;
S10413:对处理后的文本数据进行标签标引处理,采用BIO标注法对文本数据中每个句子的每个字进行标签标引;
S10414:对标签标引处理后的文本数据进行数字化处理。
示例性的,如图3所示,所述S10413:对处理后的文本数据进行标签标引处理,采用BIO标注法对文本数据中每个句子的每个字进行标签标引;其中,句子中的字和标签都是一一对应的,标签用于表示字在句子中的成分,用BIO标注法表示:B(Begin)表示实体名词的开头;I(Intermediate)表示实体名词的内部;O(Other)表示当前字不属于任何类型。
比如:我喜欢弹钢琴。
我:O,喜:O,欢:O,弹:B-HOBBY,钢:I-HOBBY,琴:I-HOBBY;
这就表示句子中出现了实体,实体开头为{弹},实体内部为{钢琴}。
示例性的,所述S10414:对标签标引处理后的文本数据进行数字化处理,具体包括:采用根据训练集建立的键值对表,对标签标引处理后的文本数据进行数字化处理,输出每个字对应的数字。比如,常用3000汉字就用0~3000来表示,3000表示未在键值对表中的字;每一个字都会有一个数来代替。
应理解的,所述S10414:对标签标引处理后的文本数据进行数字化处理,确保每个字和标签都有着唯一的索引。
进一步地,如图4和图5所示,所述S106:基于命名实体识别结果,生成知识图谱;具体包括:
S1061:根据实体类型建立知识图谱节点类型;
S1062:添加节点并建立此节点与应聘者的关系。
在自然语言处理(NLP)中,分词,词性标注,命名实体识别(NER)和句法情感分析是非常关键的分支。命名实体识别(NER)一直以来都是信息抽取、自然语言处理等领域中重要的研究任务。命名实体一般指文中具有特定意义或者指代性强的词语,通常为地名、人名、组织机构名、日期时间、专有名词等。学术上命名实体识别NER所涉及的命名实体一般包括三大类(实体类、时间类、数字类)和七小类(人名、地名、组织机构名、时间、日期、货币、百分比)。命名实体识别NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如本发明这里的获奖经历,包含大学生数学建模、CET4\CET6、会计证书等。命名实体识别目前在有限的文本类型(主要是新闻语料中)和实体类别(人名、地名、组织机构名)中取得了不错的效果。
同时,本发明将实体类及实体关系映射为知识图谱,创造性的将知识图谱用于应聘者信息以及其与应聘者之间逻辑关系的展示,进行信息的可视化展示及相似实体扩展,展示应聘者最主要的信息,提供较全面的摘要。
其中,BiLSTM模型为时间序列模型:
计算记忆序列it:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (1)
其中σ是Sigmoid函数,xt为当前字向量,ht-1为前一时刻的隐层序列,W和b为优化因子在模型迭代优化过程中不断调整。
计算当前状态序列ct:
其中it为当前时刻记忆序列,ct-1为前一时刻的状态序列。
计算输出序列:
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (3)
其中ct为当前时刻的状态序列。
计算当前时刻隐层序列:
其中ot为当前时刻的输出序列。
拼接前向序列与后向序列:
CRF模型的主要作用为约束标签序列,通过得到的输出是一个概率矩阵,含义就是每个字属于各种标签的概率,本发明将把这个矩阵带入CRF模型中,矩阵暂且用P表示,P的大小为N*K,N为句子中的字数,K是标签的数目,Pij对应句子中第i个字的第j个标签的概率。
计算概率分数,概率分数分为两部分,标签概率分数和转移概率分数,通过转移概率分数进行标签约束,公式如下:
其中A是转换分数矩阵,具体含义是标签i到标签i+1的转移概率,P为当前路径中第i个字标签为yi的概率。
在训练过程中本发明不断优化参数以增加正确标签序列所占的比重:
即将数字转换后的数据作为学习数据,通过不断迭代学习序列特点,不断更新优化因子,使正确标签序列所占比重不断增加,直到准确率达到要求,形成最终的实体识别模型。
在训练过程中规定迭代次数,到达规定训练次数后,进行正确率检验,达到要求正确率后,便会保存模型。
使用维特比解码,取最大概率路径为最终预测标签序列:
本发明将自建简历领域训练数据与机器学习模型结合,本发明通过知识图谱和机器学习结合,并创建简历领域的特殊训练集,使得简历信息识别具有节省人力、速度快、分类智能等优点,能够高效甄别简历中的相关信息。
将简历中被识别出的信息实体进行相应的标注,如加粗加大字号、改变颜色、增加背景色等,同时生成简洁图谱,重要信息。
获取学习参数,人工标注数据。
在具体实施过程中,学习参数包括原句以及原句对应的标签标注。标签类型可根据实际情况进行调整,此时需要更新相应训练数据集,或者使用新的训练数据集。在本实施例中,学习数据示例将在图2中说明。
以学习参数为基础,进行训练数据分割和数字化转换,并以begin、end标识句子的开始与结尾。
搭建模型,如图2所示,将数字化的数据送入模型,进行不断的迭代学习,同时使用梯度下降算法(Gradient Descent)不断优化参数,使机器学习更加完善与智能。
当迭代次数到人为规定次数后,进行准确度检验,准确率达到要求后便保存模型以供使用,若未达到要求将继续学习。
特征矩阵是每个字属于各种标签的概率值;
转移矩阵是标签与标签之间的转移概率值。
特征矩阵与转移矩阵,为简化运算并未进行归一化处理,具体说明包括:
步骤(1):根据每一条单独训练语句,包括逻辑清晰的整句或仅由词构成的句子,给出每个字的各标签分数,以“我爱打篮球。”和单标签HOB为例说明,句中“篮”的标签分数:
表1特征分数示例表
标签 | begin | end | B-HOB | I-HOB | O |
篮 | 0.3 | 0.002 | 1.2 | 0.21 | 0.003 |
B-HOB得分最高,即“篮”很大概率是HOB标签的第一个字。此句的每个字都会有相应的标签分数,拼接后就形成了特征矩阵:
我:0.4 0.1 0.05 0.06 2.1
爱:0.1 0.07 0.04 0.08 1.8
打:0.3 0.01 0.05 0.12 2.1
篮:0.3 0.002 1.2 0.21 0.003
球:0.09 0.003 0.11 1.9 0.006
得分越高的标签越可能是正确的
步骤(2):转移矩阵初始化;
表2单标签转移矩阵示例表
转移矩阵示例 | B-HOB | I-HOB |
B-HOB | 0.01 | 2.1 |
I-HOB | 1.5 | 1.98 |
说明B-HOB转移至B-HOB的分数是较低的,即极小可能出现两个B-HOB并列的现象,其余3种标签组合方式都有可能出现。
步骤(4):得到训练完毕的特征矩阵和转移矩阵后,便可遍历可能结果,使用维特比解码,选择最大似然路径。
步骤(4)中,维特比的过程,包括:
第一步:遍历:根据转移矩阵的约束删除不可能路径,遍历所有可能路径并计算路径得分。比如一句话五个字,一共有五个标签。就有5*5=25条路径;
第二步:选择得分最高的路径序列,即作为最终的标签预测序列;
第三步:记录标签序列。
并行的梯度下降算法如下:
Step 1初步确定权重W后,对各变量求偏导。
Step 2得到梯度向量。
Step 3梯度向量为函数上升方向向量,即取公式(6)的梯度向量方向继续训练。
Step 4正确率达到要求则保存模型及各项参数,否则回到Step 3。
通过py2neo接口将已识别的应聘者姓名与其他信息进行关联,并在图上创建各个实体和实体关系,更高效简洁的展示信息。
本发明构建简历相关数据集;搭建模型及模型说明;对简历进行划词标注及标注方式;使用知识图谱直接明了的展示应聘者关键信息。本方法提出一种使用机器学习和知识图谱对简历信息进行识别和标注的方法,大大节省简历查阅的时间和人力,为真实的应聘企业提供帮助。
实施例二
本实施例提供了简历命名实体识别系统;
简历命名实体识别系统,包括:
获取模块,其被配置为:获取待处理的简历;
预处理模块,其被配置为:对待处理的简历进行预处理;
匹配模块,其被配置为:将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;其中,第一预测命名实体集合,包括:若干个命名实体;
预测模块,其被配置为:将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;其中,第二预测命名实体集合,包括:若干个命名实体;简历命名实体识别模型,包括:彼此连接的BiLSTM模型和条件随机场模型CRF;
合并模块,其被配置为:对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;
输出模块,其被配置为:基于待处理简历的最终命名实体识别结果,生成知识图谱。
此处需要说明的是,上述获取模块、预处理模块、匹配模块、预测模块、合并模块和输出模块对应于实施例一中的步骤S101至S106,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.简历命名实体识别方法,其特征是,包括:
获取待处理的简历;
对待处理的简历进行预处理;
将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;
将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;简历命名实体识别模型,包括:彼此连接的BiLSTM模型和条件随机场模型CRF;
对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;
基于待处理简历的最终命名实体识别结果,生成知识图谱;
所述方法还包括:
对第一预测命名实体集合和第二预测命名实体集合取交集,得到第三预测命名实体集合;
对第二预测命名实体集合减去第三预测命名实体集合,得到第四预测命名实体集合;
将第四预测命名实体集合中的命名实体作为新增命名实体补充到自定义实体字典库中;
补充实体字典库的实体类型及实体关系,将同类实体映射到父层属性,逐渐形成完备的信息聚类。
2.如权利要求1所述的简历命名实体识别方法,其特征是,对待处理的简历进行预处理;具体包括:
对待处理简历采用正则表达式获取内容;
对采用正则表达式获取的内容,去除标点符号和特殊符号;
对去除标点符号和特殊符号的内容,进行jieba中文分词,得到分词后的词汇。
3.如权利要求1所述的简历命名实体识别方法,其特征是,将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;具体包括:
计算预处理后的简历的实体与自定义实体字典库中的实体之间的文本相似度;
将文本相似度与设定阈值进行比较,若文本相似度大于设定阈值,则表示匹配成功;如果文本相似度小于设定阈值,则表示匹配失败。
4.如权利要求1所述的简历命名实体识别方法,其特征是,训练后的简历命名实体识别模型;训练步骤包括:
构建训练集;所述训练集为已知实体分类标签的简历命名实体数字化向量;
将训练集,输入到简历命名实体识别模型中,对模型进行迭代训练;
判断模型输出精度是否达到设定要求,如果是,就停止训练对训练后的模型参数进行保存;如果否,就继续训练。
5.如权利要求1所述的简历命名实体识别方法,其特征是,构建训练集;具体包括:
获取若干个简历;
对每个简历中的文本数据进行去除标点符号处理、去除不可见字符处理和根据句尾标点符号将文本数据切割成对应的句子;句尾标点符号,包括:句号、问号和惊叹号;
对处理后的文本数据进行标签标引处理,采用BIO标注法对文本数据中每个句子的每个字进行标签标引;
对标签标引处理后的文本数据进行数字化处理。
6.如权利要求1所述的简历命名实体识别方法,其特征是,对处理后的文本数据进行标签标引处理,采用BIO标注法对文本数据中每个句子的每个字进行标签标引;其中,句子中的字和标签都是一一对应的,标签用于表示字在句子中的成分,用BIO标注法表示:B表示实体名词的开头;I表示实体名词的内部;O表示当前字不属于任何类型。
7.如权利要求1所述的简历命名实体识别方法,其特征是,所述基于命名实体识别结果,生成知识图谱;具体包括:
根据实体类型建立知识图谱节点类型;
添加节点并建立此节点与应聘者的关系。
8.简历命名实体识别系统,其特征是,包括:
获取模块,其被配置为:获取待处理的简历;
预处理模块,其被配置为:对待处理的简历进行预处理;
匹配模块,其被配置为:将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;
预测模块,其被配置为:将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;简历命名实体识别模型,包括:彼此连接的BiLSTM模型和条件随机场模型CRF;
合并模块,其被配置为:对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;还包括:
对第一预测命名实体集合和第二预测命名实体集合取交集,得到第三预测命名实体集合;
对第二预测命名实体集合减去第三预测命名实体集合,得到第四预测命名实体集合;
将第四预测命名实体集合中的命名实体作为新增命名实体补充到自定义实体字典库中;
补充实体字典库的实体类型及实体关系,将同类实体映射到父层属性,逐渐形成完备的信息聚类;
输出模块,其被配置为:基于待处理简历的最终命名实体识别结果,生成知识图谱。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110571971.1A CN113204967B (zh) | 2021-05-25 | 2021-05-25 | 简历命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110571971.1A CN113204967B (zh) | 2021-05-25 | 2021-05-25 | 简历命名实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204967A CN113204967A (zh) | 2021-08-03 |
CN113204967B true CN113204967B (zh) | 2022-06-21 |
Family
ID=77023208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110571971.1A Active CN113204967B (zh) | 2021-05-25 | 2021-05-25 | 简历命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204967B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987145B (zh) * | 2021-10-22 | 2024-02-02 | 智联网聘信息技术有限公司 | 一种精准推理用户属性实体的方法、系统、设备和存储介质 |
CN114664436A (zh) * | 2022-04-01 | 2022-06-24 | 山东大学齐鲁医院 | 一种基于智能体决策的急救辅助系统 |
CN114444509B (zh) * | 2022-04-02 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 命名实体识别模型的测试方法、装置、设备及存储介质 |
CN116738959B (zh) * | 2023-08-15 | 2023-11-14 | 贵州优特云科技有限公司 | 一种基于人工智能的简历改写方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463817A (zh) * | 2015-10-22 | 2018-08-28 | 谷歌有限责任公司 | 个性化实体库 |
WO2020133291A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市优必选科技有限公司 | 文本实体识别方法、装置、计算机设备及存储介质 |
CN111382570A (zh) * | 2018-12-28 | 2020-07-07 | 深圳市优必选科技有限公司 | 文本实体识别方法、装置、计算机设备及存储介质 |
CN112001177A (zh) * | 2020-08-24 | 2020-11-27 | 浪潮云信息技术股份公司 | 融合深度学习与规则的电子病历命名实体识别方法及系统 |
CN112036184A (zh) * | 2020-08-31 | 2020-12-04 | 湖南星汉数智科技有限公司 | 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867225A (zh) * | 2019-11-04 | 2020-03-06 | 山东师范大学 | 字符级临床概念提取命名实体识别方法及系统 |
CN112560484B (zh) * | 2020-11-09 | 2024-03-01 | 武汉数博科技有限责任公司 | 用于命名实体识别的改进bert训练模型及命名实体识别方法 |
-
2021
- 2021-05-25 CN CN202110571971.1A patent/CN113204967B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463817A (zh) * | 2015-10-22 | 2018-08-28 | 谷歌有限责任公司 | 个性化实体库 |
WO2020133291A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市优必选科技有限公司 | 文本实体识别方法、装置、计算机设备及存储介质 |
CN111382570A (zh) * | 2018-12-28 | 2020-07-07 | 深圳市优必选科技有限公司 | 文本实体识别方法、装置、计算机设备及存储介质 |
CN112001177A (zh) * | 2020-08-24 | 2020-11-27 | 浪潮云信息技术股份公司 | 融合深度学习与规则的电子病历命名实体识别方法及系统 |
CN112036184A (zh) * | 2020-08-31 | 2020-12-04 | 湖南星汉数智科技有限公司 | 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113204967A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN110990525A (zh) | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN110826331A (zh) | 基于交互式与迭代式学习的地名标注语料库智能构建方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN108647191B (zh) | 一种基于有监督情感文本和词向量的情感词典构建方法 | |
CN111401058B (zh) | 一种基于命名实体识别工具的属性值抽取方法及装置 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN113239694B (zh) | 一种基于论元短语的论元角色识别的方法 | |
CN113220900B (zh) | 实体消歧模型的建模方法和实体消歧预测方法 | |
CN117034941A (zh) | 一种互联网企业设备命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |