CN111881692B - 基于多训练目标的机构实体抽取方法、系统及装置 - Google Patents
基于多训练目标的机构实体抽取方法、系统及装置 Download PDFInfo
- Publication number
- CN111881692B CN111881692B CN202010738252.XA CN202010738252A CN111881692B CN 111881692 B CN111881692 B CN 111881692B CN 202010738252 A CN202010738252 A CN 202010738252A CN 111881692 B CN111881692 B CN 111881692B
- Authority
- CN
- China
- Prior art keywords
- tag
- entity
- type
- marking
- trunk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能,提供一种基于多训练目标的机构实体抽取方法,包括:获取训练样本集,并对训练样本集内的各训练样本进行命名实体标注;使用标注完成的训练样本集对预设的命名实体模型进行训练,以使命名实体模型达到预设精度;通过所述命名实体模型对获取的待检测文本信息进行序列标注;根据序列标注提取待检测文本信息中的相关机构实体。本发明还涉及区块链技术,训练样本集存储于区块链中。本发明提供技术方案能够有效地解决现有的机构实体抽取方法效率低质量差的问题。
Description
技术领域
本发明涉及信息提取技术领域,尤其涉及一种基于多训练目标的机构实体抽取方法、系统、装置及存储介质。
背景技术
当前很多学术学者库如AMINER、ORCID等,提供学者信息,方便用户去追踪某一学者或其所在团队的研究方向与进展。比如,一些专家团队项目深耕医学科研领域,致力于搭建一个医学领域的专家库,构建完整的专家知识图谱。
然而,在专家知识图谱的构建过程中,建立专家与机构的关系网络是一个有价值且有难度的工作,原因在于专家是一个有自我选择能力的行为人,他是会在各机构之间进行流动;比如,专家A可能在机构A读博士、在机构B工作,期间又在机构C进修过。然而,目前的常见的学者库(如AMINER、ORCID等)一般仅提供学者的当前所在机构。实际上,一个学者的完整的科研画像与他曾经待过的机构是息息相关的。
显然,通过人力去搜集数十万专家(以中国医疗相关学者为例)的教育经历、工作经历、进修经历中涉及的机构是不现实的。因此可以考虑从互联网中获取到学者主页上大段的文本信息。所以该问题即变成如何使用人工智能的算法从糅杂的文本信息中提取与该学者相关的结构化的知识。
如某互联网中的某学者的相关简介字段为“1990年6月毕业后,到广州医学院第一附属医院从事肿瘤血液内科工作,2008年6月取得南方医科大学临床医学博士学位。2008年12月至2009年5月在中山大学肿瘤防治中心进修。”,则需要从中抽取出三个机构实体为“广州医学院第一附属医院”、“南方医科大学”以及“中山大学”,并且识别出三者分别属于“工作经历”、“教育经历”、“短期进修经历”。
基于以上问题,亟需一种高效且高质的机构实体抽取方法。
发明内容
本发明提供一种基于多训练目标的机构实体抽取方法、系统、电子装置以及计算机存储介质,其主要目的在于解决现有的机构实体抽取方法效率低质量差的问题。
为实现上述目的,本发明提供一种基于多训练目标的机构实体抽取方法,该方法包括如下步骤:
获取训练样本集,并对所述训练样本集内的各训练样本进行命名实体标注;
使用标注完成的训练样本集对预设的命名实体模型进行训练,以使所述命名实体模型达到预设精度;其中,所述命名实体模型包括第一主干路和第二主干路,所述第一主干路用于提取输入文本信息的第一向量特征集,所述第二主干路用于提取所述输入文本信息的第二向量特征集;并且,所述第二主干路还用于根据所述第一向量特征集和所述第二向量特征集对所述输入文本信息进行序列标注;
通过所述命名实体模型对获取的待检测文本信息进行序列标注;
根据所述序列标注提取所述待检测文本信息中的相关机构实体。
优选地,所述训练样本集存储于区块链中;并且,在对所述训练样本集内的各训练样本进行命名实体标注的过程中,使用BIO的标注方式进行标注;其中,
B用于标注机构实体的开头,I用于标注机构实体本身,O用于标注所述训练样本中与机构实体不相关的信息。
另外,本发明还提供一种基于多训练目标的机构实体抽取系统,所述系统包括:
样本标注单元,用于获取训练样本集并对所述训练样本集内的各训练样本进行命名实体标注;
模型训练单元,用于使用标注完成的训练样本集对预设的命名实体模型进行训练,以使所述命名实体模型达到预设精度;其中,所述命名实体模型包括第一主干路和第二主干路,所述第一主干路用于提取输入文本信息的第一向量特征集,所述第二主干路用于提取所述输入文本信息的第二向量特征集;并且,所述第二主干路还用于根据所述第一向量特征集和所述第二向量特征集对所述输入文本信息进行序列标注;
模型应用单元,用于通过所述命名实体模型对获取的待检测文本信息进行序列标注;
机构实体提取单元,用于根据所述序列标注提取所述待检测文本信息中的相关机构实体。
另外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于多训练目标的机构实体抽取程序,所述基于多训练目标的机构实体抽取程序被所述处理器执行时实现如下步骤:
获取训练样本集,并对所述训练样本集内的各训练样本进行命名实体标注;
使用标注完成的训练样本集对预设的命名实体模型进行训练,以使所述命名实体模型达到预设精度;其中,所述命名实体模型包括第一主干路和第二主干路,所述第一主干路用于提取输入文本信息的第一向量特征集,所述第二主干路用于提取所述输入文本信息的第二向量特征集;并且,所述第二主干路还用于根据所述第一向量特征集和所述第二向量特征集对所述输入文本信息进行序列标注;
通过所述命名实体模型对获取的待检测文本信息进行序列标注;
根据所述序列标注提取所述待检测文本信息中的相关机构实体。
另外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有基于多训练目标的机构实体抽取程序,所述基于多训练目标的机构实体抽取程序被处理器执行时,实现如上述基于多训练目标的机构实体抽取方法的步骤。
本发明提出的基于多训练目标的机构实体抽取方法、电子装置及计算机可读存储介质,通过设计一个多目标训练的命名实体模型,与传统的分别训练命名实体提取模型和文本分类模型相比,能够有效地避免误差传播,另外,针对常规的命名实体提取模型如LSTM+CRF不能很好地判断同一实体的不同类型以及边界精度识别不准的问题,本发明设计的多个训练目标的命名实体模型,强化了边界特征和语义特征的抽取,能够显著提高最终的预测精度,尤其是对边界的抓取,比传统的NER模型稳定得多。
附图说明
图1为根据本发明实施例的基于多训练目标的机构实体抽取方法的较佳实施例流程图;
图2为根据本发明实施例的电子装置的较佳实施例结构示意图;
图3为根据本发明实施例的基于多训练目标的机构实体抽取程序的内部逻辑示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
在具体介绍本发明提供的基于多训练目标的机构实体抽取方法的实施例之前,需要说明的是,传统的实体抽取选用的方法主要有两种,一种是分阶段训练模型:首先训练命名实体提取模型识别出所有机构实体,“南方医科大学”被标注为[B-ORG,I-ORG,I-ORG,I-ORG,E-ORG],然后文本分类模型识别该机构实体所属经历类型为“工作经历(JOB)”、“教育经历(EDU)”还是“短期进修经历(STU)”。但这种解决方案很明显的缺陷是第一个模型的误差会传递到第二个模型并且放大误差。
另外一种常见的解决方案为训练端到端的命名实体提取模型,如LSTM+CRF等。对每个实体进行统一的标注(unified tag),“南方医科大学”直接被标注为[B-EDU,I-EDU,I-EDU,I-EDU,I-EDU,E-EDU],“中山大学”直接标注为[B-STU,I-STU,I-STU,E-STU],训练端到端的命名实体提取模型。这样可以避免分别训练的传统方案中的误差传播。
但是LSTM+CRF简单的命名实体抽取模型仍无法很好地解决简介机构细抽取这一场景中特有的两个问题:一:同一个实体在不同语境下标签不同:“上海第六人民医院”既是医生A的“教育经历”机构,又是医生B的“工作经历”,还是医生C的“教育经历”以及“工作经历”。所以对上下文场景的信息捕捉难度高于一般的命名实体提取问题。二是边界问题,为保证输入的结构化知识的统一,对机构的提取均保留到独立单位的粒度(大学、医院等),比如“中山大学肿瘤防治中心”,我们希望最后的结果能识别到“中山大学”的级别同时忽略“肿瘤防治中心”,与此同时“北京肿瘤防治中心”又是一个独立的实体。显然,传统的端到端的命名实体提取模型做不到这一点,因此,亟需一种更加高效且高质的机构实体抽取方法。
以下将结合附图对本申请的具体实施例进行详细描述。
实施例1
为了说明本发明提供的基于多训练目标的机构实体抽取方法,图1示出了根据本发明提供的基于多训练目标的机构实体抽取方法的流程。
如图1所示,本发明提供的基于多训练目标的机构实体抽取方法,包括:
S110:获取训练样本集,并对该训练样本集内的各训练样本进行命名实体标注。
需要说明的是,此处的样本即为一段包含机构实体的一段文字信息,例如,可以是入职简历中的一段话,也可以是网络中的学者主页上的一段文字信息。
具体地,在对该训练样本集内的各训练样本进行命名实体标注的过程中,本发明使用的命名实体标注方法为BIO标注方式,其中,B用于标注机构实体的开头,I用于标注机构实体本身,O用于标注样本中与机构实体不相关的信息。
此外,为实现后期模型的多目标训练,本发明需要对训练样本集中的每一个样本进行多种类型的标注,至少包括四种类型,例如:Boundary-tag,End-tag,Type-tage,以及unified-tag四类标签,不同类型的标签的标注方式不同,当然对应的标注功能也不同,Boundary-tag类型主要用于标注样本中的机构实体边界;End-tag类型主要用于标注样本中的机构实体的结束位置;Type-tage类型主要用于标注机构实体的实体类型,比如,毕业院校、工作场所,实习场所等等。unified-tag类型为最终的目标标签,待四种类型的标注都完成后,将该样本保存至训练样本集。
另外,需要强调的是,为进一步保证上述该训练样本集内数据的私密和安全性,该训练样本集可以存储于区块链的节点中。
S120:使用标注完成的训练样本集对预设的命名实体模型进行训练,以使该命名实体模型达到预设精度;其中,该命名实体模型包括第一主干路和第二主干路,该第一主干路用于提取输入文本信息的第一向量特征集,该第二主干路用于提取该输入文本信息的第二向量特征集;并且,该第二主干路还用于根据该第一向量特征集和该第二向量特征集对该输入文本信息进行序列标注。
需要说明的是,命名实体模型为自行设计的一个新型的序列标注模型,该模型结合了多个目标的训练环节;具体地,该命名实体模型包括两条主干路,该第一主干路内设置有第一神经网络模型LSTM1,该第一主干路通过该第一神经网络模型LSTM1提取该输入文本信息(对应训练样本或后期的待检测文本信息)的第一向量特征集;该第二主干路内设置有第二神经网络模型LSTM2,该第二主干路通过该第二神经网络模型LSTM1提取该输入文本信息的第二向量特征集。
该第一主干路分支为第一支路和第二支路,该第一支路内设置有第一预测分类器(predictor),该第一预测分类器用于根据该Boundary-tag标注类型标注出该第一向量特征集的实体边界;该第二支路内设置有第二预测分类器,该第二预测分类器用于根据该End-tag标注类型标注出该第一向量特征集的结束位置。
具体地,输入文本信息经LSTM1进行特征提取后会输出一组相应的第一向量特征集,记作h1,然后将该第一向量特征集h1分别同时传给第一支路和第二支路,其中,第一支路对应第一预测分类器,用于根据文本信息的第一向量特征集h1标注出其实体边界yboundary_tag,对应Boundary-tag标注;第二支路对应第二预测分类器,用于根据文本信息的第一向量特征集h1标注出其结束位置yend_tag,对应End-tag标注。
此处,对于第二主干路而言,文本信息经LSTM2进行特征提取后会输出一组相应的第二向量特征集,记作h2,并且,在该第二主干路提取完该第二向量特征集后,该第二主干路分支为第三支路和最终输出支路;其中,该第三支路内设置有第三预测分类器,该第三预测分类器用于根据该Type-tage标注类型标注出该第一向量特征集的实体类型;该最终输出支路内设置有总预测分类器,该总预测分类器用于根据该第一向量特征集、该第二向量特征集以及该unified-tag标注类型标注出该输入文本信息的最终标注。
具体地,将该第二向量特征集h2分别同时传给第三支路和最终输出支路,其中,第三支路对应第三预测分类器(predictor),用于根据输入文本信息的第二向量特征集h2标注出其实体类型ytype_tage,对应Type-tage;最终输出支路对应总预测分类器(SC-BG),用于根据输入文本信息的第一向量特征集h1以及第二向量特征集h2对输入文本信息进行最终标注yunified_tag,对应unified-tag。
需要说明的是,LSTM(包括LSTM1和LSTM2)为一种现有的常用的神经网络模型,其具体结构为现有技术,在此不再赘述。通过使用该类神经网络模型可以获取输入文本信息的一组向量特征(h1或h2),当然LSTM需要搭配预测分类器使用,当使用训练样本集内训练样本对LSTM和与其相连的预测分类器(第一预测分类器、第一预测分类器、第一预测分类器以及总预测分类器)训练完毕后,LSTM输出的特征向量即会与各预测分类器之间产生所需关联,该关联可用模型训练参数W1表示,W1达到预设精度时,LSTM输出的特征向量为所需的特征向量。
需要进一步说明的是,当使用训练样本集内的所有训练样本对上述模型训练完毕后,该命名实体模型的精度即可到达所需的预设精度,此时,命名实体模型提取的向量特征h1与Boundary-tag和End-tage产生所需的联系,命名实体模型提取的向量特征h2与Type-tage产生所需的联系。当使用向量特征h1和h2识别待检测文本信息时,即可直接应用到boundary-tag,End-tag以及Type-tage的标记特性,从而通过yboundary_tag,ytype_tage,yunified _tag辅助提高unified_tag的准确率。
更为具体地,该第一预测分类器、该第二预测分类器以及该第三预测分类器内均设置有激活函数,该第一向量特征集或该第二向量特征集通过该激活函数后实现对该第一向量特征集或该第二向量特征集的标注;其中,该激活函数的计算过程如下:
为便于理解上述命名实体模型的数据处理流程,下面以“毕业于上海交通大学医学院”为具体的输入文本信息的示例对数据在模型中的流动与计算过程进行详细介绍。
具体地,命名实体模型的前端第一主干路中的LSTM层记作LSTM1,输出第一向量特征集,记作h1,在t时刻的输出向量记为经过Softmax激活函数之后用来预测boundary-tag标注,例如,“毕业于上海交通大学医学院”对应的输出应该为“毕(O)业(O)于(O)上(B)海(I)交(I)通(I)大(I)学(I)医(O)学(O)院(O)”。输出记作yboundary_tag。
计算过程如下:
与此同时,通过第二预测分类器来预测end-tag标注,即预测对应文本信息为0(非实体结束位置),还是1(实体结束位置);例如,“毕业于上海交通大学医学院”的对应输出为“毕(0)业(0)于(0)上(0)海(0)交(0)通(0)大(0)学(1)医(0)学(0)院(0)”。输出记作为yend _tag。
计算过程如下:
其中,We为模型中第二预测分类器中需要训练的参数。
通过使用训练样本集不断训练优化模型中的第一主干路(第一预测分类器和第二预测分类器),第一条主干路中的LSTM1的输出h1即可学习到的boundary-tag和end-tag两种分类特性。
然而,在传统的CRF中,对于为本信息中的每一个名词,都是一视同仁的,由于很多机构都是以“学院”结尾,所以在CRF的预测中“上海交通大学医学院”常常会标记为一个整体实体,但是,我们希望最后的结果能识别到“上海交通大学”的这一粒度同时忽略“医学院”这个更低级别的实体。所以需要加强对实体的边界的识别,而本发明提供的命名实体模型的第一主干路相当于增加了实体的边界约束,可实现相应的预测功能。
此外,命名实体模型的前端的第二主干路中的LSTM层记作LSTM2,在输入文本信息输入模型后,输出第二向量特征集,记作h2,在t时刻的输出向量记为通过softmax函数来预测签type_tag标注,即预测对应分类类型为JOB(工作单位)、EDU(教育经历的单位)等;例如“毕业于上海交通大学医学院”的对应输出应该为“毕(O)业(O)于(O)上(EDU)海(EDU)交(EDU)通(EDU)大(EDU)学(EDU)医(O)学(O)院(O)”。记作为ytype_tage。
计算过程如下:
其中,Wt模型中第三预测分类器中需要训练的参数。
另外,对于主要预测部分(对应总预测分类器(SC-BG)),引入预测组件BG(boundary guide)和SC(sentiment consistency),进一步整合第一向量特征集h1和第二向量特征集h2的数据以及内部隐藏特性,得到最终的预测结果,对应unified-tag分类标签,例如:“毕业于上海交通大学医学院”的对应输出为“毕(O)业(O)于(O)上(B-EDU)海(I-EDU)交(I-EDU)通(I-EDU)大(I-EDU)学(I-EDU)医(O)学(O)院(O)”,此处即为最终的目标标签。最终的输出记作为yunified_tag。
具体地,该总预测分类器内设置有第一预测组件SC和第二预测组件BG;其中,第一预测组件SC用于对该第二向量特征集进行优化,以增强该第二向量特征集中当前向量特征与前一时刻特征之间的联系;
该第二预测组件BG用于根据优化后的第二向量特征集、该第一向量特征集以及该unified-tag标注类型标注出该输入文本信息的最终标注。
其中,sigmoid函数如下:
需要说明的是,对于⊙运算符,其为预先设定的线性运算符,例如,A⊙B=3A+2B,此处只要满足线性关系即可。
对于BG组件,输入h1为和h3,输出为最终的标签(unified-tag),记作yunified_tag,预测过程如下,BG中含有一个boundary-tag到unified-tag的转移矩阵Wtr,
其中,Bi为unified-tag的标签集合{B-EUD,I-EDU,B-STU,I-STU,O,…},|Bi|为该集合的大小。
然后通过转移矩阵,原本的zb变化为:
其中,Zu’可以看作是由边界信息预测的最终标签,zb为第一预测分类器中的中间参数(可参照对于第一预测分类器的具体实施例),用zb自身计算得到Zu’这一标签的权重at
at=∈ct
其中,∈为预测的超参数,
最终标签的计算过程为:
需要说明的是,随着样本训练集对命名实体模型的训练,W1(包括WbWeWtWtr)也会随之进行变化,并越来越接近最优值,当命名实体模型训练完毕后,W1一般会在最优值附近,此时即可使用该命名实体模型对待抽取文本信息进行机构实体信息提取。
S130:获取待检测文本信息,并通过该命名实体模型对该待检测文本信息进行序列标注。
具体地,可以用互联网或数据库中获取与行为人相关的待检测文本信息,如个人简历信息、个人主页信息等。
需要说明的是,待检测文本信息经命名实体模型标注后,会在四个输出端输出相应的标注序列,包括yboundary_tag,yend_tag,ytype_tage和yunified_tag,由于yunified_tag中已经包含了yboundary_tag,yend_tag,ytype_tage的相关序列特性信息,因此,在实际应用中,只需要获取待检测文本信息的yunified_tag序列标注即可。
S140:根据该序列标注提取该待检测文本信息中的相关机构实体。
具体地,根据该yunified_tag序列标注,提取待检测文本信息中行为人的相关机构实体。
需要说明的是,由于yunified_tag序列标注中包含了yend_tag序列标注的相关特性,因此,可以根据yunified_tag序列标注精准地确定所需机构实体的结束位置,避免机构实体定位不准确的问题。此外,由于yunified_tag序列标注中ytype_tage序列标注的相关特性,因此,可以根据yunified_tag序列标注精准地确定机构实体的类别为“工作经历”、“教育经历”还是“短期进修经历”。
当然,还可以通过修改训练目标进一步拓展到更细的机构抽取,比如抽取二级机构("上海交通大学医学院"中的”医学院"),unified-tag的标签为"上(B-EDU)海(I-EDU)交(I-EDU)通(I-EDU)大(I-EDU)学(I-EDU)医(I-EDU)学(I-EDU)院(I-EDU)",boundary-tag标注为"上(B)海(I)交(I)通(I)大(I)学(I)医(I)学(I)院(I)",与上述过程同理,结束标签1应该打在“院”的位置。模型的框架无需改动,此时,即可实现二级机构的抽取。
通过上述技术方案的表述可知,本发明提出的基于多训练目标的机构实体抽取方法,通过设计一个多目标训练的命名实体模型,与传统的分别训练命名实体提取模型和文本分类模型相比,能够有效地避免误差传播,另外,针对常规的命名实体提取模型如LSTM+CRF不能很好地判断同一实体的不同类型以及边界精度识别不准的问题,本发明设计的多个训练目标的命名实体模型,强化了边界特征和语义特征的抽取,能够显著提高最终的预测精度,尤其是对边界的抓取,比传统的NER模型稳定得多。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例2
与上述方法相对应,本申请还提供一种基于多训练目标的机构实体抽取系统,该系统包括:
样本标注单元,用于获取训练样本集并对该训练样本集内的各训练样本进行命名实体标注;
模型训练单元,用于使用标注完成的训练样本集对预设的命名实体模型进行训练,以使该命名实体模型达到预设精度;其中,该命名实体模型包括第一主干路和第二主干路,该第一主干路用于提取输入文本信息的第一向量特征集,该第二主干路用于提取该输入文本信息的第二向量特征集;并且,该第二主干路还用于根据该第一向量特征集和该第二向量特征集对该输入文本信息进行序列标注;
模型应用单元,用于获取待检测文本信息,并通过该命名实体模型对该待检测文本信息进行序列标注;
机构实体提取单元,用于根据该序列标注提取该待检测文本信息中的相关机构实体。
实施例3
本发明还提供一种电子装置70。参照图2所示,该图为本发明提供的电子装置70的较佳实施例结构示意图。
在本实施例中,电子装置70可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置70包括:处理器71以及存储器72。
存储器72包括至少一种类型的可读存储介质。至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,可读存储介质可以是该电子装置70的内部存储单元,例如该电子装置70的硬盘。在另一些实施例中,可读存储介质也可以是电子装置1的外部存储器,例如电子装置70上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,存储器72的可读存储介质通常用于存储安装于电子装置70的基于多训练目标的机构实体抽取程序73。存储器72还可以用于暂时地存储已经输出或者将要输出的数据。
处理器72在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器72中存储的程序代码或处理数据,例如基于多训练目标的机构实体抽取程序73等。
在一些实施例中,电子装置70为智能手机、平板电脑、便携计算机等的终端设备。在其他实施例中,电子装置70可以为服务器。
图2仅示出了具有组件71-73的电子装置70,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置70还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置70还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置70中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置70还可以包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置70的显示器的面积可以与触摸传感器的面积相同,也可以不同。可选地,将显示器与触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置70还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图2所示的装置实施例中,作为一种计算机存储介质的存储器72中可以包括操作系统、以及基于多训练目标的机构实体抽取程序73;处理器71执行存储器72中存储基于多训练目标的机构实体抽取程序73时实现如下步骤:
获取训练样本集,并对该训练样本集内的各训练样本进行命名实体标注;
使用标注完成的训练样本集对预设的命名实体模型进行训练,以使该命名实体模型达到预设精度;其中,该命名实体模型包括第一主干路和第二主干路,该第一主干路用于提取输入文本信息的第一向量特征集,该第二主干路用于提取该输入文本信息的第二向量特征集;并且,该第二主干路还用于根据该第一向量特征集和该第二向量特征集对该输入文本信息进行序列标注;
获取待检测文本信息,并通过该命名实体模型对该待检测文本信息进行序列标注;
根据该序列标注提取该待检测文本信息中的相关机构实体。
在该实施例中,图3为根据本发明实施例的基于多训练目标的机构实体抽取程序的内部逻辑示意图,如图3所示,基于多训练目标的机构实体抽取程序73还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器72中,并由处理器71执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图3所示,为图2中基于多训练目标的机构实体抽取程序73较佳实施例的程序模块图。基于多训练目标的机构实体抽取程序73可以被分割为:样本标注模块74、模型训练模块75、模型应用模块76以及机构实体提取模块77。模块74-76所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如,其中:
样本标注模块74,用于获取训练样本集并对该训练样本集内的各训练样本进行命名实体标注;
模型训练模块75,用于使用标注完成的训练样本集对预设的命名实体模型进行训练,以使该命名实体模型达到预设精度;其中,该命名实体模型包括第一主干路和第二主干路,该第一主干路用于提取输入文本信息的第一向量特征集,该第二主干路用于提取该输入文本信息的第二向量特征集;并且,该第二主干路还用于根据该第一向量特征集和该第二向量特征集对该输入文本信息进行序列标注;
模型应用模块76,用于获取待检测文本信息,并通过该命名实体模型对该待检测文本信息进行序列标注;
机构实体提取模块77,用于根据该序列标注提取该待检测文本信息中的相关机构实体。
实施例4
本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有基于多训练目标的机构实体抽取程序73,基于多训练目标的机构实体抽取程序73被处理器执行时实现如下操作:
获取训练样本集,并对该训练样本集内的各训练样本进行命名实体标注;
使用标注完成的训练样本集对预设的命名实体模型进行训练,以使该命名实体模型达到预设精度;其中,该命名实体模型包括第一主干路和第二主干路,该第一主干路用于提取输入文本信息的第一向量特征集,该第二主干路用于提取该输入文本信息的第二向量特征集;并且,该第二主干路还用于根据该第一向量特征集和该第二向量特征集对该输入文本信息进行序列标注;
获取待检测文本信息,并通过该命名实体模型对该待检测文本信息进行序列标注;
根据该序列标注提取该待检测文本信息中的相关机构实体。
本发明提供的计算机可读存储介质的具体实施方式与上述基于多训练目标的机构实体抽取方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要进一步说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于多训练目标的机构实体抽取方法,应用于电子装置,其特征在于,所述方法包括:
获取训练样本集,并对所述训练样本集内的各训练样本进行命名实体标注,使用的标注类型包括:Boundary-tag、End-tag、Type-tage以及unified-tag;其中,
Boundary-tag类型用于标注出所述训练样本中的机构实体的边界,End-tag类型用于标注出所述训练样本中的机构实体的结束位置,Type-tage类型用于标注出训练样本中的机构实体的实体类型,unified-tag类型用于作为最终的目标标签;
使用标注完成的训练样本集对预设的命名实体模型进行训练,以使所述命名实体模型达到预设精度;其中,所述命名实体模型包括第一主干路和第二主干路,所述第一主干路用于提取输入文本信息的第一向量特征集,所述第二主干路用于提取所述输入文本信息的第二向量特征集;并且,所述第二主干路还用于根据所述第一向量特征集和所述第二向量特征集对所述输入文本信息进行序列标注;其中,
在所述第一主干路提取完所述第一向量特征集后,所述第一主干路分支为第一支路和第二支路;在所述第二主干路提取完所述第二向量特征集后,所述第二主干路分支为第三支路和最终输出支路;其中,
在所述第一支路内设置有第一预测分类器,所述第一预测分类器用于根据Boundary-tag标注类型标注出所述第一向量特征集的实体边界;在所述第二支路内设置有第二预测分类器,所述第二预测分类器用于根据End-tag标注类型标注出所述第一向量特征集的结束位置;
在所述第三支路内设置有第三预测分类器,所述第三预测分类器用于根据Type-tage标注类型标注出所述第一向量特征集的实体类型;在所述最终输出支路内设置有总预测分类器,所述总预测分类器用于根据所述第一向量特征集、所述第二向量特征集以及unified-tag标注类型标注出所述输入文本信息的最终标注;
通过所述命名实体模型对获取的待检测文本信息进行序列标注;
根据所述序列标注提取所述待检测文本信息中的相关机构实体。
2.根据权利要求1所述的基于多训练目标的机构实体抽取方法,其特征在于,
所述训练样本集存储于区块链中;并且,在对所述训练样本集内的各训练样本进行命名实体标注的过程中,使用BIO的标注方式进行标注;其中,
B用于标注机构实体的开头,I用于标注机构实体本身,O用于标注所述训练样本中与机构实体不相关的信息。
3.根据权利要求2所述的基于多训练目标的机构实体抽取方法,其特征在于,
在所述第一主干路内设置有第一神经网络模型LSTM1,所述第一主干路通过所述第一神经网络模型LSTM1提取所述输入文本信息的第一向量特征集;
在所述第二主干路内设置有第二神经网络模型LSTM2,所述第二主干路通过所述第二神经网络模型LSTM1提取所述输入文本信息的第二向量特征集。
4.根据权利要求3所述的基于多训练目标的机构实体抽取方法,其特征在于,
所述第一预测分类器、所述第二预测分类器以及所述第三预测分类器内均设置有激活函数,所述第一向量特征集或所述第二向量特征集通过所述激活函数后实现对所述第一向量特征集或所述第二向量特征集的标注;其中,所述激活函数的计算过程如下:
5.根据权利要求4所述的基于多训练目标的机构实体抽取方法,其特征在于,
在所述总预测分类器内设置有第一预测组件SC和第二预测组件BG;其中,第一预测组件SC用于对所述第二向量特征集进行优化,以增强所述第二向量特征集中当前向量特征与前一时刻向量特征之间的联系;
所述第二预测组件BG用于根据优化后的第二向量特征集、所述第一向量特征集以及所述unified-tag标注类型标注出所述输入文本信息的最终标注。
6.一种基于多训练目标的机构实体抽取系统,其特征在于,所述系统包括:
样本标注单元,用于获取训练样本集并对所述训练样本集内的各训练样本进行命名实体标注,使用的标注类型包括:Boundary-tag、End-tag、Type-tage以及unified-tag;其中,
Boundary-tag类型用于标注出所述训练样本中的机构实体的边界,End-tag类型用于标注出所述训练样本中的机构实体的结束位置,Type-tage类型用于标注出训练样本中的机构实体的实体类型,unified-tag类型用于作为最终的目标标签;
模型训练单元,用于使用标注完成的训练样本集对预设的命名实体模型进行训练,以使所述命名实体模型达到预设精度;其中,所述命名实体模型包括第一主干路和第二主干路,所述第一主干路用于提取输入文本信息的第一向量特征集,所述第二主干路用于提取所述输入文本信息的第二向量特征集;并且,所述第二主干路还用于根据所述第一向量特征集和所述第二向量特征集对所述输入文本信息进行序列标注;其中,
在所述第一主干路提取完所述第一向量特征集后,所述第一主干路分支为第一支路和第二支路;在所述第二主干路提取完所述第二向量特征集后,所述第二主干路分支为第三支路和最终输出支路;其中,
在所述第一支路内设置有第一预测分类器,所述第一预测分类器用于根据Boundary-tag标注类型标注出所述第一向量特征集的实体边界;在所述第二支路内设置有第二预测分类器,所述第二预测分类器用于根据End-tag标注类型标注出所述第一向量特征集的结束位置;
在所述第三支路内设置有第三预测分类器,所述第三预测分类器用于根据Type-tage标注类型标注出所述第一向量特征集的实体类型;在所述最终输出支路内设置有总预测分类器,所述总预测分类器用于根据所述第一向量特征集、所述第二向量特征集以及unified-tag标注类型标注出所述输入文本信息的最终标注;
模型应用单元,用于通过所述命名实体模型对获取的待检测文本信息进行序列标注;
机构实体提取单元,用于根据所述序列标注提取所述待检测文本信息中的相关机构实体。
7.一种电子装置,其特征在于,所述电子装置包括:存储器、处理器以及存储在所述存储器中并在所述处理器上运行的基于多训练目标的机构实体抽取程序,所述基于多训练目标的机构实体抽取程序被所述处理器执行时实现如下步骤:
获取训练样本集,并对所述训练样本集内的各训练样本进行命名实体标注,使用的标注类型包括:Boundary-tag、End-tag、Type-tage以及unified-tag;其中,
Boundary-tag类型用于标注出所述训练样本中的机构实体的边界,End-tag类型用于标注出所述训练样本中的机构实体的结束位置,Type-tage类型用于标注出训练样本中的机构实体的实体类型,unified-tag类型用于作为最终的目标标签;
使用标注完成的训练样本集对预设的命名实体模型进行训练,以使所述命名实体模型达到预设精度;其中,所述命名实体模型包括第一主干路和第二主干路,所述第一主干路用于提取输入文本信息的第一向量特征集,所述第二主干路用于提取所述输入文本信息的第二向量特征集;并且,所述第二主干路还用于根据所述第一向量特征集和所述第二向量特征集对所述输入文本信息进行序列标注;其中,
在所述第一主干路提取完所述第一向量特征集后,所述第一主干路分支为第一支路和第二支路;在所述第二主干路提取完所述第二向量特征集后,所述第二主干路分支为第三支路和最终输出支路;其中,
在所述第一支路内设置有第一预测分类器,所述第一预测分类器用于根据Boundary-tag标注类型标注出所述第一向量特征集的实体边界;在所述第二支路内设置有第二预测分类器,所述第二预测分类器用于根据End-tag标注类型标注出所述第一向量特征集的结束位置;
在所述第三支路内设置有第三预测分类器,所述第三预测分类器用于根据Type-tage标注类型标注出所述第一向量特征集的实体类型;在所述最终输出支路内设置有总预测分类器,所述总预测分类器用于根据所述第一向量特征集、所述第二向量特征集以及unified-tag标注类型标注出所述输入文本信息的最终标注;
通过所述命名实体模型对获取的待检测文本信息进行序列标注;
根据所述序列标注提取所述待检测文本信息中的相关机构实体。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有基于多训练目标的机构实体抽取程序,所述基于多训练目标的机构实体抽取程序被处理器执行时,实现如权利要求1至5中任一项所述的基于多训练目标的机构实体抽取方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738252.XA CN111881692B (zh) | 2020-07-28 | 2020-07-28 | 基于多训练目标的机构实体抽取方法、系统及装置 |
PCT/CN2020/118331 WO2021139239A1 (zh) | 2020-07-28 | 2020-09-28 | 基于多训练目标的机构实体抽取方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738252.XA CN111881692B (zh) | 2020-07-28 | 2020-07-28 | 基于多训练目标的机构实体抽取方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881692A CN111881692A (zh) | 2020-11-03 |
CN111881692B true CN111881692B (zh) | 2023-01-13 |
Family
ID=73201874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010738252.XA Active CN111881692B (zh) | 2020-07-28 | 2020-07-28 | 基于多训练目标的机构实体抽取方法、系统及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111881692B (zh) |
WO (1) | WO2021139239A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779429A (zh) * | 2021-09-18 | 2021-12-10 | 平安国际智慧城市科技股份有限公司 | 交通拥堵态势预测方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866115A (zh) * | 2019-10-16 | 2020-03-06 | 平安科技(深圳)有限公司 | 序列标注方法、系统、计算机设备及计算机可读存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075228B (zh) * | 2006-05-15 | 2012-05-23 | 松下电器产业株式会社 | 识别自然语言中的命名实体的方法和装置 |
US11593558B2 (en) * | 2017-08-31 | 2023-02-28 | Ebay Inc. | Deep hybrid neural network for named entity recognition |
KR102043353B1 (ko) * | 2017-12-04 | 2019-11-12 | 주식회사 솔루게이트 | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN110162772B (zh) * | 2018-12-13 | 2020-06-26 | 北京三快在线科技有限公司 | 命名实体识别方法及装置 |
CN111428501A (zh) * | 2019-01-09 | 2020-07-17 | 北大方正集团有限公司 | 命名实体的识别方法、识别系统及计算机可读存储介质 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN110287479B (zh) * | 2019-05-20 | 2022-07-22 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110287480B (zh) * | 2019-05-27 | 2023-01-24 | 广州多益网络股份有限公司 | 一种命名实体识别方法、装置、存储介质及终端设备 |
CN110399616A (zh) * | 2019-07-31 | 2019-11-01 | 国信优易数据有限公司 | 命名实体检测方法、装置、电子设备及可读存储介质 |
CN110705294B (zh) * | 2019-09-11 | 2023-06-23 | 苏宁云计算有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
-
2020
- 2020-07-28 CN CN202010738252.XA patent/CN111881692B/zh active Active
- 2020-09-28 WO PCT/CN2020/118331 patent/WO2021139239A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866115A (zh) * | 2019-10-16 | 2020-03-06 | 平安科技(深圳)有限公司 | 序列标注方法、系统、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021139239A1 (zh) | 2021-07-15 |
CN111881692A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090987B (zh) | 用于输出信息的方法和装置 | |
Donoho | 50 years of Data Science | |
Agar | What difference did computers make? | |
AU2021286415A1 (en) | Course skill matching system and method thereof | |
CN111710428B (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和系统 | |
CN111242565A (zh) | 一种基于智能人事模型的简历优化方法及装置 | |
Aljohani et al. | A methodological framework to predict future market needs for sustainable skills management using AI and big data technologies | |
Hassan et al. | Leveraging deep learning and big data to enhance computing curriculum for industry-relevant skills: A Norwegian case study | |
Alymani et al. | Graph machine learning classification using architectural 3D topological models | |
CN111881692B (zh) | 基于多训练目标的机构实体抽取方法、系统及装置 | |
Li et al. | Aligning open educational resources to new taxonomies: How AI technologies can help and in which scenarios | |
Xie | [Retracted] University Piano Education Visualization System under the Background of Distance Education Based on 5G Network | |
Bantry White et al. | The Journal Article Reporting Standards for Qualitative Primary, Qualitative Meta-Analytic and Mixed Methods Research: Applying the Standards to Social Work Research | |
Fan et al. | Identifying digital capabilities in university courses: An automated machine learning approach | |
Klochko et al. | Data mining of the healthcare system based on the machine learning model developed in the Microsoft azure machine learning studio | |
Ritko et al. | Gap analysis of biomedical informatics graduate education competencies | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
Deev et al. | Application of the convergent education model in the development of a smart learning environment | |
Dahl et al. | Applications of machine learning in tabular document digitisation | |
CN114328667A (zh) | 一种基于履职数据的大学院系画像模型的构建及系统 | |
Prabakaran et al. | A Bidirectional LSTM approach for written script auto evaluation using keywords-based pattern matching | |
Wang | A study of student performance under English teaching using a decision tree algorithm | |
Mocean et al. | A proposal of an academic library management system based on an RDF repository | |
Brocato | Book Review: Advanced Qualitative Research: A Guide to Using Theory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |