CN109657039A - 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 - Google Patents
一种基于双层BiLSTM-CRF的工作履历信息抽取方法 Download PDFInfo
- Publication number
- CN109657039A CN109657039A CN201811362362.XA CN201811362362A CN109657039A CN 109657039 A CN109657039 A CN 109657039A CN 201811362362 A CN201811362362 A CN 201811362362A CN 109657039 A CN109657039 A CN 109657039A
- Authority
- CN
- China
- Prior art keywords
- crf
- information
- bilstm
- entity
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Abstract
本发明公开了一种基于双层BiLSTM‑CRF的工作履历信息抽取方法,包括以下步骤:S1:工作履历信息预处理;S2:根据时间拆分工作履历信息为工作经历,对工作经历预处理;S3:利用双层BiLSTM‑CRF模型对工作经历的信息实体进行抽取;S4:对S3中抽取的信息实体进一步处理;S5:整理信息。本发明使用双层BiLSTM‑CRF模型,可以更好的抽取工作经历中的信息实体。更好解决因信息实体交叉,中文信息实体不规则等因素造成信息抽取困难问题。此外,将传统信息抽取任务分成多个子任务,增加了消歧模块和联想模块,高聚合,低耦合,可以并发进行,提高抽取性能,还可以充分利用上下文关系,丰富实体信息。可以更加好的完成信息抽取任务,得到更好的呈现效果。
Description
技术领域
本发明涉及信息自动抽取领域,更具体地,涉及一种基于双层BiLSTM-CRF的工作履历信息抽取方法。
背景技术
工作履历对于认识一个人有着非常重要的意义。可是由于履历往往信息量比较大,导致可读性较低,获取信息速度较慢。如能将履历进行结构化,将文本中的信息抽取出来,可大大提高信息的获取速度和质量,也可以为后续的分析提供数据基础。
对于工作履历中的工作经历的信息实体的抽取是非常难的。包括工作的地点,组织部门,职务等。其难度一方面来源于地点,组织部门,职务等的不规则性,中文书写和表达的灵活性。但更为重要的一方面是,实际表达中地点和组织部门,组织部门和职务之间的实体往往存在交叉问题。实体的交叉问题指的是一个句子中的某个字符同时属于多个实体。该问题会造成字符难以划分,给信息的抽取增加了较大的难度。
面对履历的信息抽取,目前主要有三种处理方法。第一种是人工处理,由人去阅读相关文本信息,然后去抽取里面包含的信息实体。这种方法对于人力的消耗比较大,在面对履历数量比较多,信息量比较大的情况下,效率下降的比较快。
第二种方法是使用规则或其他机器学习的方法进行文本信息抽取,该方法先通过规则,关键字等方法,对文本进行预处理。然后针对各自的特点再次通过规则或者其他机器学习的方法进行信息抽取,获取履历中的信息。
第三种方法是将该NER问题转化为序列标注问题,使用条件随机场(CRF),循环神经网络(RNN)等方法对文本信息进行序列标注,进行信息抽取,一般使用针对不同实体训练不同识别器,通过分开识别的方法进行解决。但是,该方法割裂开来实体之间的联系,导致抽取率较低。
而面对抽取过程中遇到的实体交叉的问题。一般针对不同实体训练不同识别器,分开识别,从而对信息实体进行抽取。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于双层BiLSTM-CRF的工作履历信息抽取方法
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是更准确的抽取出工作经历中的地名,组织结构名,职务名等信息,弥补传统方法在进行工作履历分析的时候抽取能力的不足,得到的信息更加的整齐和完整。
为解决上述技术问题,本发明的技术方案如下:
一种基于双层BiLSTM-CRF的工作履历信息抽取方法,包括以下步骤:
S1:工作履历信息预处理;
S2:根据时间拆分工作履历信息为工作经历,对工作经历预处理;
S3:利用双层BiLSTM-CRF模型对工作经历的信息实体进行抽取;
S4:对S3中抽取的信息实体进一步处理;
S5:整理信息。
优选地,步骤S1中工作履历信息预处理包括对除工作地点、组织部门和职务的信息进行提取。
优选地,步骤S2中工作经历为包括工作地点、组织部门和职务的句子。
优选地,步骤S3中双层BiLSTM-CRF模型,具体为:
包括第一BiLSTM-CRF模型与第二BiLSTM-CRF模型,第一BiLSTM-CRF模型用于获取组织部门信息,包括第一embedding层、第一BiLSTM神经网络和第一CRF层,其中embedding层使用预训练好的Word2Vec模型,Word2Vec模型能将句子中的每个字映射成为一300维的向量,将工作经历使用空格补全成为20个字符长度后使用Word2Vec模型将工作经历转化为一20*300的向量,作为第一BiLSTM神经网络的输入;
第一BiLSTM神经网络包括第一正向LSTM层、第一反向LSTM层和第一线性变换层,第一正向LSTM层和第一反向LSTM层的输入为经第一embedding层得到的20*300的向量,分别输出另一20*300的向量,将两个输出经线性变换层组合得到一20*600的向量lstm_ouput,利用下述公式得到第一CRF层的状态特征函数:
crf_inpute=lstm_ouput*w+b
式中,crf_inpute为第一CRF层的状态特征函数,w为一600*9的权重向量,b为一20*9的偏移向量b;
第一CRF层利用状态特征函数给各种可能的序列打分,用于获取状态转移函数以及最优的序列,同时产生最大似然估计作为误差进行用于梯度下降优化模型,具体如下:
给各种可能的序列打分的公式如下:
式中,score(x,y)为打分函数,为状态特征函数, 为状态转移函数,由第一CRF层自动生成;
利用Softmax得到归一化后的概率,可以得到各种情况的概率:
其最大似然如下:
第二BiLSTM-CRF模型包括第二embedding层、第三embedding层、第二BiLSTM神经网络、第二线性变换层和第二CRF层,其中:
第二embedding层与第一embedding层一样,第三embedding层使用onehot编码对第一BiLSTM-CRF模型产生的序列进行处理,得到一20*9的向量;
第二BiLSTM神经网络针对每一句子得到另一20*9的向量,将该向量和第三embedding层得到的20*9的向量合并得到一个20*18的向量,使用一18*9的权重向量w1和20*9的偏移权重向量b1进行线性变换,得到一20*9的状态特征向量作为第二CRF层的输入;
第二CRF层利用状态特征向量给各种可能的序列打分,用于获取状态转移函数以及最优的序列,同时产生最大似然估计作为误差进行用于梯度下降优化模型;
使用双层BiLSTM-CRF时因为在实际中,在履历的工作经历和学习经历部分,组织部门这个信息比较特殊,经常会和地点,职务等其他信息产生交叉现象,一个模型无法很好解决交叉问题,而且单独将组织结构提取出来的结果可以作为输入反馈给第二个模型,进一步提高准确率。第一个模型用于获取组织部门信息,因为工作经历和学习经历中,组织部门的信息经常会和地点,职务等其他信息产生交叉现象,单独进行获取一方面可以解决交叉问题,另外一方面获取的结果也可以作为输入,增强其他信息的获取,输入为文本信息,输入为序列标注信息,该序列对于组织部门信息进行了标注,可以获取得到组织部门信息;第二个模型用于获取地点和职务信息,输入为文本信息以及第一个模型生成的序列标注信息,输出为序列标注信息,该序列对于地点和职务进行了标注,可以获取得到地点和职务等信息。
优选地,步骤S4中对S3中抽取的信息实体进一步处理具体为:
S4.1:将S3得到的信息实体使用消歧算法进行计算,修改实体;
S4.2:对S4.1处理后的信息实体使用联想规则,优化实体信息。
优选地,步骤S4.1具体为:
S4.1.1:针对不同的信息实体,预先采集不同的实体数据作为知识库,解决冷启动问题;
S4.1.2:计算每一个被抽取出来的实体,计算其与知识库中所有实体的差异:
Correlative(a,b)=m*EditDist(a,b,w1,w2,w3)+1/RelativeDist(a,b)
式中,a是抽取的信息实体,b是知识库中的实体,m表示权重,EditDist使用编辑距离算法,输出代表两者的编辑距离,w1,w2,w3代表在计算编辑距离时候增、删、改步骤的距离权重,权重指数m,w1,w2,w3根据不同的使用场景做不同的改变,RelativeDist(a,b)代表两个实体的相似距离,即按照顺序的两个实体中相同的字符数量占较短实体长度的比例,Correlative(a,b)为差异;
当Correlative(a,b)等于0,直接跳出计算;
当Correlative(a,b)小于差异阈值K,则两者指向同一个实体,并且有一定概率P使用知识库中的实体对该信息实体进行替换;
当Correlative(a,b)大于差异阈值K,则该信息实体为新实体,并加入知识库,更新知识库;
阈值K依赖于两个实体的长度,阀值K是判断两个实体之间关系的分水岭,K值太小会影响匹配率,太大会影响正确率,其计算公式为:
K=max(|a-b|/2+1,1/2*min(a,b));
概率P计算公式为:P=(K-Correlative(a,b)+1)*2/K。
优选地,步骤S4.2具体为:
根据不同的实体,设定不同的联想规则,根据上下文和自身特点制定规则,进行相应补全。
一种基于双层BiLSTM-CRF的工作履历信息抽取系统,包括预处理模块、抽取模块、消歧模块、联想模块和完善模块,其中:
预处理模块完成工作履历信息预处理,根据时间拆分工作履历信息为工作经历,对工作经历预处理,其输出端与抽取模块的输入端相连;
抽取模块利用双层BiLSTM-CRF模型对工作经历的信息实体进行抽取,其输出端与消歧模块的输入端相连;
消歧模块完成对信息实体使用消歧算法进行计算,修改实体,其输出端与联想模块的输入端相连;
联想模块的输入端完成对信息实体使用联想规则,优化实体信息,其输出端与完善模块的输入端相连;
完善模块完成整理信息并输出。
与现有技术相比,本发明技术方案的有益效果是:
使用双层BiLSTM-CRF模型,可以更好的抽取工作经历中的信息实体。更好解决因信息实体交叉,中文信息实体不规则等因素造成信息抽取困难问题。此外,将传统信息抽取任务分成多个子任务(包括实体抽取,消歧,联想),增加了消歧模块和联想模块。高聚合,低耦合。可以并发进行,提高抽取性能。同时,本发明还可以充分利用上下文关系,丰富实体信息。可以更加好的完成信息抽取任务,得到更好的呈现效果。
附图说明
图1为本发明的一种基于双层BiLSTM-CRF的工作履历信息抽取方法流程图;
图2为本发明中履历信息中存在的实体交叉问题示意图;
图3为本发明双层BiLSTM-CRF模型结构示意图;
图4为本发明的一种基于双层BiLSTM-CRF的工作履历信息抽取系统。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供的一种基于双层BiLSTM-CRF的工作履历信息抽取方法,如图1,包括以下步骤:
S1:工作履历信息预处理;
S2:根据时间拆分工作履历信息为工作经历,对工作经历预处理;
S3:利用双层BiLSTM-CRF模型对工作经历的信息实体进行抽取;
S4:对S3中抽取的信息实体进一步处理;
S5:整理信息。
步骤S1中工作履历信息预处理包括对除工作地点、组织部门和职务的信息进行提取。
步骤S2中工作经历为包括工作地点、组织部门和职务的句子。
步骤S3中双层BiLSTM-CRF模型,如图3所示,具体为:
包括第一BiLSTM-CRF模型与第二BiLSTM-CRF模型,第一BiLSTM-CRF模型用于获取组织部门信息,包括第一embedding层、第一BiLSTM神经网络和第一CRF层,其中embedding层使用预训练好的Word2Vec模型,Word2Vec模型能将句子中的每个字映射成为一300维的向量,将工作经历使用空格补全成为20个字符长度后使用Word2Vec模型将工作经历转化为一20*300的向量,作为第一BiLSTM神经网络的输入;
第一BiLSTM神经网络包括第一正向LSTM层、第一反向LSTM层和第一线性变换层,第一正向LSTM层和第一反向LSTM层的输入为经第一embedding层得到的20*300的向量,分别输出另一20*300的向量,将两个输出经线性变换层组合得到一20*600的向量lstm_ouput,利用下述公式得到第一CRF层的状态特征函数:
crf_inpute=lstm_ouput*w+b
式中,crf_inpute为第一CRF层的状态特征函数,w为一600*9的权重向量,b为一20*9的偏移向量b;
第一CRF层利用状态特征函数给各种可能的序列打分,用于获取状态转移函数以及最优的序列,同时产生最大似然估计作为误差进行用于梯度下降优化模型,具体如下:
给各种可能的序列打分的公式如下:
式中,score(x,y)为打分函数,为状态特征函数,为状态转移函数,由第一CRF层自动生成;
利用Softmax得到归一化后的概率,可以得到各种情况的概率:
其最大似然如下:
第二BiLSTM-CRF模型包括第二embedding层、第三embedding层、第二BiLSTM神经网络、第二线性变换层和第二CRF层,其中:
第二embedding层与第一embedding层一样,第三embedding层使用onehot编码对第一BiLSTM-CRF模型产生的序列进行处理,得到一20*9的向量;
第二BiLSTM神经网络针对每一句子得到另一20*9的向量,将该向量和第三embedding层得到的20*9的向量合并得到一个20*18的向量,使用一18*9的权重向量w1和20*9的偏移权重向量b1进行线性变换,得到一20*9的状态特征向量作为第二CRF层的输入;
第二CRF层利用状态特征向量给各种可能的序列打分,用于获取状态转移函数以及最优的序列,同时产生最大似然估计作为误差进行用于梯度下降优化模型;
步骤S4中对S3中抽取的信息实体进一步处理具体为:
S4.1:将S3得到的信息实体使用消歧算法进行计算,修改实体;
S4.2:对S4.1处理后的信息实体使用联想规则,优化实体信息。
优选地,步骤S4.1具体为:
S4.1.1:针对不同的信息实体,预先采集不同的实体数据作为知识库,解决冷启动问题;
S4.1.2:计算每一个被抽取出来的实体,计算其与知识库中所有实体的差异:
Correlative(a,b)=m*EditDist(a,b,w1,w2,w3)+1/RelativeDist(a,b)
式中,a是抽取的信息实体,b是知识库中的实体,m表示权重,EditDist使用编辑距离算法,输出代表两者的编辑距离,w1,w2,w3代表在计算编辑距离时候增、删、改步骤的距离权重,权重指数m,w1,w2,w3根据不同的使用场景做不同的改变,RelativeDist(a,b)代表两个实体的相似距离,即按照顺序的两个实体中相同的字符数量占较短实体长度的比例,Correlative(a,b)为差异;
当Correlative(a,b)等于0,直接跳出计算;
当Correlative(a,b)小于差异阈值K,则两者指向同一个实体,并且有一定概率P使用知识库中的实体对该信息实体进行替换;
当Correlative(a,b)大于差异阈值K,则该信息实体为新实体,并加入知识库,更新知识库;
阈值K依赖于两个实体的长度,阀值K是判断两个实体之间关系的分水岭,K值太小会影响匹配率,太大会影响正确率,其计算公式为:
K=max(|a-b|/2+1,1/2*min(a,b));
概率P计算公式为:P=(K-Correlative(a,b)+1)*2/K。
步骤S4.2具体为:
根据不同的实体,设定不同的联想规则,根据上下文和自身特点制定规则,进行相应补全。
在具体实施过程中,在实际处理过程中,会出现如图2所示的实体交叉问题,利用本实施的方法与其它方法对于5000份官员任职履历信息的抽取准确率如表1所示:
表1
地名 | 组织部门 | 职务 | |
使用一个模型 | 91.73 | 85.43 | 92.51 |
每个实体一个模型 | 91.85 | 85.21 | 92.72 |
本实施例方法 | 93.25 | 85.21 | 93.58 |
传统的序列标注方法由于实体交叉干扰,在地名和职务的抽取效率都是比较低的。而针对每个实体单独训练一个模型。复杂度比较高之余由于实体间的信息没有得到共享,所以实体提取效果还是稍逊本文的方法。
而在本实施例中,还加入了消歧联想操作,使得对于信息抽取的整体呈现效果更好。以下是个实际对比例子:
输入为:1983年,任西南财经学民商法教研室主任;一年后改任金融法研究所所长;1992年起任成都市委副主委;
使用传统方法得到的抽取结果如表2所示:
表2
时间 | 地点 | 组织部门 | 职务 |
1983-未知 | 西南财经学 | 民商法教研室 | 主任 |
1984-未知 | null | 金融法研究所 | 所长 |
1992-未知 | null | 成都市委 | 副主委 |
该方法无法识别到成都市,无法对西南财经大学的笔误写法进行修改,也无法根据上下文明确教研室主任的任职时间到1984年为止。
针对每个实体分开进行信息抽取的结果如表4所示:
表4
时间 | 地点 | 组织部门 | 职务 |
1983-未知 | null | 民商法教研室 | 主任 |
1984-未知 | null | 金融法研究所 | 所长 |
1992-未知 | 成都市 | 成都市委 | 副主委 |
该方法由于割裂开了多个实体的关系,所以无法识别出笔误的学校。也无法根据上下文明确教研室主任的任职时间到1984年为止。
本实施例的处理结果如表5所示:
时间 | 地点 | 组织部门 | 职务 |
1983-1984 | 西南财经大学 | 民商法研究所 | 主任 |
1984-未知 | 西南财经大学 | 金融法研究所 | 所长 |
1992-未知 | 成都市 | 成都市委 | 市委副主委 |
对于实体的抽取,完善,隐含信息的补充也处理的更好。
实施例2
本实施例提供的一种基于双层BiLSTM-CRF的工作履历信息抽取系统,如图4,包括预处理模块、抽取模块、消歧模块、联想模块和完善模块,其中:
预处理模块完成工作履历信息预处理,根据时间拆分工作履历信息为工作经历,对工作经历预处理,其输出端与抽取模块的输入端相连;
抽取模块利用双层BiLSTM-CRF模型对工作经历的信息实体进行抽取,其输出端与消歧模块的输入端相连;
消歧模块完成对信息实体使用消歧算法进行计算,修改实体,其输出端与联想模块的输入端相连;
联想模块的输入端完成对信息实体使用联想规则,优化实体信息,其输出端与完善模块的输入端相连;
完善模块完成整理信息并输出。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种基于双层BiLSTM-CRF的工作履历信息抽取方法,其特征在于,包括以下步骤:
S1:工作履历信息预处理;
S2:根据时间拆分工作履历信息为工作经历,对工作经历预处理;
S3:利用双层BiLSTM-CRF模型对工作经历的信息实体进行抽取;
S4:对S3中抽取的信息实体进一步处理;
S5:整理信息。
2.根据权利要求1所述的基于双层BiLSTM-CRF的工作履历信息抽取方法,其特征在于,所述步骤S1中工作履历信息预处理包括对除工作地点、组织部门和职务的信息进行提取。
3.根据权利要求1所述的基于双层BiLSTM-CRF的工作履历信息抽取方法,其特征在于,所述步骤S2中工作经历为包括工作地点、组织部门和职务的句子。
4.根据权利要求1所述的基于双层BiLSTM-CRF的工作履历信息抽取方法,其特征在于,所述步骤S3中双层BiLSTM-CRF模型,具体为:
包括第一BiLSTM-CRF模型与第二BiLSTM-CRF模型,所述第一BiLSTM-CRF模型用于获取组织部门信息,包括第一embedding层、第一BiLSTM神经网络和第一CRF层,其中所述embedding层使用预训练好的Word2Vec模型,所述Word2Vec模型能将句子中的每个字映射成为一300维的向量,将工作经历使用空格补全成为20个字符长度后使用Word2Vec模型将工作经历转化为一20*300的向量,作为第一BiLSTM神经网络的输入;
所述第一BiLSTM神经网络包括第一正向LSTM层、第一反向LSTM层和第一线性变换层,所述第一正向LSTM层和第一反向LSTM层的输入为经所述第一embedding层得到的20*300的向量,分别输出另一20*300的向量,将两个输出经线性变换层组合得到一20*600的向量lstm_ouput,利用下述公式得到第一CRF层的状态特征函数:
crf_inpute=lstm_ouput*w+b
式中,crf_inpute为第一CRF层的状态特征函数,w为一600*9的权重向量,b为一20*9的偏移向量b;
所述第一CRF层利用所述状态特征函数给各种可能的序列打分,用于获取状态转移函数以及最优的序列,同时产生最大似然估计作为误差进行用于梯度下降优化模型,具体如下:
给各种可能的序列打分的公式如下:
式中,score(x,y)为打分函数,为状态特征函数, 为状态转移函数,由所述第一CRF层自动生成;
利用Softmax得到归一化后的概率,可以得到各种情况的概率:
其最大似然如下:
第二BiLSTM-CRF模型包括第二embedding层、第三embedding层、第二BiLSTM神经网络、第二线性变换层和第二CRF层,其中:
第二embedding层与第一embedding层一样,第三embedding层使用onehot编码对第一BiLSTM-CRF模型产生的序列进行处理,得到一20*9的向量;
第二BiLSTM神经网络针对每一句子得到另一20*9的向量,将该向量和第三embedding层得到的20*9的向量合并得到一个20*18的向量,使用一18*9的权重向量w1和20*9的偏移权重向量b1进行线性变换,得到一20*9的状态特征向量作为第二CRF层的输入;
第二CRF层利用所述状态特征向量给各种可能的序列打分,用于获取状态转移函数以及最优的序列,同时产生最大似然估计作为误差进行用于梯度下降优化模型。
5.根据权利要求1所述的基于双层BiLSTM-CRF的工作履历信息抽取方法,其特征在于,所述步骤S4中对S3中抽取的信息实体进一步处理具体为:
S4.1:将S3得到的信息实体使用消歧算法进行计算,修改实体;
S4.2:对S4.1处理后的信息实体使用联想规则,优化实体信息。
6.根据权利要求5所述的基于双层BiLSTM-CRF的工作履历信息抽取方法,其特征在于,所述步骤S4.1具体为:
S4.1.1:针对不同的信息实体,预先采集不同的实体数据作为知识库,解决冷启动问题;
S4.1.2:计算每一个被抽取出来的实体,计算其与知识库中所有实体的差异:
Correlative(a,b)=m*EditDist(a,b,w1,w2,w3)+1/RelativeDist(a,b)
式中,a是抽取的信息实体,b是知识库中的实体,m表示权重,EditDist使用编辑距离算法,输出代表两者的编辑距离,w1,w2,w3代表在计算编辑距离时候增,删,改步骤的距离权重,权重指数m,w1,w2,w3根据不同的使用场景做不同的改变,RelativeDist(a,b)代表两个实体的相似距离,即按照顺序的两个实体中相同的字符数量占较短实体长度的比例,Correlative(a,b)为差异;
当Correlative(a,b)等于0,直接跳出计算;
当Correlative(a,b)小于差异阈值K,则两者指向同一个实体,并且有一定概率P使用知识库中的实体对该信息实体进行替换;
当Correlative(a,b)大于差异阈值K,则该信息实体为新实体,并加入知识库,更新知识库;
所述阈值K依赖于两个实体的长度,其计算公式为:
K=max(|a-b|/2+1,1/2*min(a,b));
概率P计算公式为:P=(K-Correlative(a,b)+1)*2/K。
7.根据权利要求5所述的基于双层BiLSTM-CRF的工作履历信息抽取方法,其特征在于,所述步骤S4.2具体为:
根据不同的实体,设定不同的联想规则,根据上下文和自身特点制定规则,进行相应补全。
8.一种基于双层BiLSTM-CRF的工作履历信息抽取系统,其特征在于,包括预处理模块、抽取模块、消歧模块、联想模块和完善模块,其中:
所述预处理模块完成工作履历信息预处理,根据时间拆分工作履历信息为工作经历,对工作经历预处理,其输出端与所述抽取模块的输入端相连;
所述抽取模块利用双层BiLSTM-CRF模型对工作经历的信息实体进行抽取,其输出端与所述消歧模块的输入端相连;
所述消歧模块完成对信息实体使用消歧算法进行计算,修改实体,其输出端与所述联想模块的输入端相连;
所述联想模块的输入端完成对信息实体使用联想规则,优化实体信息,其输出端与所述完善模块的输入端相连;
所述完善模块完成整理信息并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811362362.XA CN109657039B (zh) | 2018-11-15 | 2018-11-15 | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811362362.XA CN109657039B (zh) | 2018-11-15 | 2018-11-15 | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657039A true CN109657039A (zh) | 2019-04-19 |
CN109657039B CN109657039B (zh) | 2023-04-07 |
Family
ID=66111268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811362362.XA Active CN109657039B (zh) | 2018-11-15 | 2018-11-15 | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657039B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442858A (zh) * | 2019-06-24 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种问句实体识别方法、装置、计算机设备及存储介质 |
CN111738778A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN111753058A (zh) * | 2020-06-30 | 2020-10-09 | 北京信息科技大学 | 一种文本观点挖掘方法及系统 |
CN111932413A (zh) * | 2020-09-14 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 案件要素提取方法、装置、设备及介质 |
CN111950283A (zh) * | 2020-07-31 | 2020-11-17 | 合肥工业大学 | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 |
CN113673943A (zh) * | 2021-07-19 | 2021-11-19 | 清华大学深圳国际研究生院 | 一种基于履历大数据的人员任免辅助决策方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069560A (zh) * | 2015-07-30 | 2015-11-18 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
WO2016045153A1 (zh) * | 2014-09-25 | 2016-03-31 | 中国科学院软件研究所 | 基于文本履历信息的信息可视化方法及智能可视分析系统 |
CN108664589A (zh) * | 2018-05-08 | 2018-10-16 | 苏州大学 | 基于领域自适应的文本信息提取方法、装置、系统及介质 |
-
2018
- 2018-11-15 CN CN201811362362.XA patent/CN109657039B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016045153A1 (zh) * | 2014-09-25 | 2016-03-31 | 中国科学院软件研究所 | 基于文本履历信息的信息可视化方法及智能可视分析系统 |
CN105069560A (zh) * | 2015-07-30 | 2015-11-18 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN108664589A (zh) * | 2018-05-08 | 2018-10-16 | 苏州大学 | 基于领域自适应的文本信息提取方法、装置、系统及介质 |
Non-Patent Citations (1)
Title |
---|
杨红梅: "基于双向LSTM神经网络电子病历命名实体的识别模型", 《北大核心》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442858A (zh) * | 2019-06-24 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种问句实体识别方法、装置、计算机设备及存储介质 |
CN110442858B (zh) * | 2019-06-24 | 2024-01-30 | 平安科技(深圳)有限公司 | 一种问句实体识别方法、装置、计算机设备及存储介质 |
CN111753058A (zh) * | 2020-06-30 | 2020-10-09 | 北京信息科技大学 | 一种文本观点挖掘方法及系统 |
CN111753058B (zh) * | 2020-06-30 | 2023-06-02 | 北京信息科技大学 | 一种文本观点挖掘方法及系统 |
CN111738778A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN111738778B (zh) * | 2020-07-20 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN111950283A (zh) * | 2020-07-31 | 2020-11-17 | 合肥工业大学 | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 |
CN111950283B (zh) * | 2020-07-31 | 2021-09-07 | 合肥工业大学 | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 |
CN111932413A (zh) * | 2020-09-14 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 案件要素提取方法、装置、设备及介质 |
CN111932413B (zh) * | 2020-09-14 | 2021-01-12 | 平安国际智慧城市科技股份有限公司 | 案件要素提取方法、装置、设备及介质 |
CN113673943A (zh) * | 2021-07-19 | 2021-11-19 | 清华大学深圳国际研究生院 | 一种基于履历大数据的人员任免辅助决策方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109657039B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657039A (zh) | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN112163416A (zh) | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 | |
CN110309503A (zh) | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 | |
CN112580362B (zh) | 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 | |
CN102314417A (zh) | 基于统计模型的Web命名实体识别方法 | |
CN110232439A (zh) | 一种基于深度学习网络的意图识别方法 | |
CN109753602A (zh) | 一种基于机器学习的跨社交网络用户身份识别方法和系统 | |
CN112860945B (zh) | 利用帧-字幕自监督进行多模态视频问答的方法 | |
CN107861947A (zh) | 一种基于跨语言资源的柬语命名实体识别的方法 | |
Zhan et al. | Handwritten digit string recognition using convolutional neural network | |
CN109726715A (zh) | 一种文字图像序列化识别、结构化数据输出方法 | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN109977213A (zh) | 一种面向智能问答系统的最优答案选择方法 | |
CN113672718B (zh) | 基于特征匹配和领域自适应的对话意图识别方法及系统 | |
CN111191051A (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN110222338A (zh) | 一种机构名实体识别方法 | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
CN107943783A (zh) | 一种基于lstm‑cnn的分词方法 | |
CN107894976A (zh) | 一种基于Bi‑LSTM的混合语料分词方法 | |
CN103440332B (zh) | 一种基于关系矩阵正则化增强表示的图像检索方法 | |
CN117131403A (zh) | 一种小样本关系分类过滤方法、装置及设备 | |
Li et al. | Locally-enriched cross-reconstruction for few-shot fine-grained image classification | |
CN108763487B (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 | |
CN115730078A (zh) | 用于类案检索的事件知识图谱构建方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |