CN110532398B - 基于多任务联合神经网络模型的家族图谱自动构建方法 - Google Patents

基于多任务联合神经网络模型的家族图谱自动构建方法 Download PDF

Info

Publication number
CN110532398B
CN110532398B CN201910672928.7A CN201910672928A CN110532398B CN 110532398 B CN110532398 B CN 110532398B CN 201910672928 A CN201910672928 A CN 201910672928A CN 110532398 B CN110532398 B CN 110532398B
Authority
CN
China
Prior art keywords
neural network
entity
network model
label
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910672928.7A
Other languages
English (en)
Other versions
CN110532398A (zh
Inventor
李辰
和凯
张翀
吴佳伦
马骁勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910672928.7A priority Critical patent/CN110532398B/zh
Publication of CN110532398A publication Critical patent/CN110532398A/zh
Application granted granted Critical
Publication of CN110532398B publication Critical patent/CN110532398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于多任务联合神经网络模型的家族图谱自动构建方法,首先建立多任务联合神经网络模型;然后训练端到端的联合神经网络模型;再优化端到端的联合神经网络模型,得到最终模型;最后通过最终模型构建家族图谱。本发明的多任务联合模型避免了在所有实体间两两配对进行关系分类,模型输出的冗余性大大降低。本发明提出的联合提取方法也能应用于其他的数据领域上,能在信息提取任务上体现出很好的时间效率和准确性。本发明从效率、精度两方面改善实体抽取及关系分类任务的表现,能灵活的扩展到构建家族图谱任务外的其他需要抽取实体,并进行关系分类的任务中去。

Description

基于多任务联合神经网络模型的家族图谱自动构建方法
技术领域
本发明属于自然语言处理领域,涉及一种基于多任务深度神经网络的实体关系联合提取方法,具涉及基于多任务联合神经网络模型的家族图谱自动构建方法,主要应用于以讣告为数据源的家族图谱自动构建。
背景技术
家族图谱又称族谱、宗谱等,是一种表谱形式,一种珍贵的人文资料,记载的是同宗共祖血缘集团世系人物和事迹等方面情况的图籍,对于历史民俗、公安信息、社会经济、基因遗传分析等领域的深入研究,均有其不可替代的独特功能。传统的家谱学家需要收集、分析、整理分布在各种文献资料中的信息,才能汇聚出一份较为完整的家谱,这个过程中包含大量重复性,单一性的人类劳动,适合使用自动化方式提取。自动构建家族图谱可由自然语言处理领域的信息抽取方法,包括命名实体识别、关系分类、事件抽取等技术支撑完成,这些技术方法也是自然语言处理领域技术人员持续关注的研究热点。
构建家族图谱时,首先需要提取实体,然后判断实体间的关系,以及针对不同人物实体抽取他们所属的事件信息。面对这种多任务的需求,传统流水线式的方法首先通过实体识别技术提取文本中的实体,再采取语义关系分类方法判断实体之间的关系。然而,分别提取实体和关系的思路存在如下三点不足:首先,因为关系分类任务需要实体识别的输出信息,所以在识别实体时产生的错误会影响到后续关系分类结果,最终影响整体结果的准确性。这种错误传递会以乘数形式随着任务数量的增加而急剧扩大,这种现象在领域内被称为“误差传播”。其次,传统方法使用两个独立的模型处理实体提取和关系分类,忽略了各个子任务间的相关性,导致实体抽取模型在判断表现出盲目性,无法利用实体间的关系类型的信息。最后,流水线式的多任务方法在分类关系时需要对所有抽取的实体进行两两比较,由于并非任意两个实体之间都存在关系,且在大多数情况下实体间的关系具有稀疏性,因此传统的流水线式的多任务方法会产生大量冗余的关系类型判断。综上所述,传统提取方案具有明显不足,提取方法亟待改善。
发明内容
针对现有技术中存在的问题,本发明目的是提供一种基于多任务联合神经网络模型的家族图谱自动构建方法。
为实现上目的,本发明的通过如下技术方案实现:
基于多任务联合神经网络模型的家族图谱自动构建方法,包括以下步骤:
步骤1.建立多任务联合神经网络模型;具体过程如下:
1.1通过嵌入层将文本数据中的每个词语转化为对应的向量表示,每个词语的向量表示由词级别的向量表示和自训练的字符级别向量表示拼接得到;
1.2建立由两层双向长短期记忆网络组成的特征抽取层,通过特征抽取层提取步骤1.1得到的每个词语的向量表示的数据特征;
1.3将位置标记p与类型标记r拼接组成联合神经网络模型的预测标签,根据联合神经网络模型的预测标签确定最终的标记集合范围;
1.4建立两个结构相同的由一个全连接层与归一化指数函数构成的输出层,输出层接收步骤1.2中得到的输入向量表示的数据特征,第一个输出层用于判定非人名实体与人名实体之间的所属关系,得到一个二分类结果,第二个输出层按步骤1.3中的标记集合范围进行标签预测,得到标签预测结果;
1.5根据步骤1.4中的标签预测结果,建立过滤层,通过过滤层提升步骤1.4中的标签预测结果的准确性,得到端到端的联合神经网络模型;
步骤2.训练端到端的联合神经网络模型;
步骤3.优化端到端的联合神经网络模型,得到最终模型;
步骤4.通过最终模型构建家族图谱。
本发明进一步的改进在于,步骤1.2中,通过特征抽取层提取步骤1.1得到的每个词语的向量表示的数据特征的具体过程如下:
ft=σ(wf·[ht-1,xt]+bf) (1)
it=σ(wi·[ht-1,xt]+bf) (2)
Figure GDA0003849604790000031
Figure GDA0003849604790000032
ot=σ(wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(Ct) (6)
Figure GDA0003849604790000033
其中,xt为每个词语的向量表示,σ为sigmod激活函数,Ct为忘记门,
Figure GDA0003849604790000034
为忘记门的前置输入,ot为输出门,ht为一层双向长短期记忆网络提取的数据特征,/>
Figure GDA0003849604790000035
为特征抽取层最终抽取的数据特征。
本发明进一步的改进在于,步骤1.3中,位置标记p∈P,集合P={B,I,E,S,O}用于标记实体的边界;其中,B代表实体开始位置,I代表实体中间位置,E代表实体结束位置,S代表实体是一个长度为1的单词实体,O代表非实体;
类型标记r针对不同的实体类型,有以下两种情况:
(1)针对除人名实体以外的实体,包括年龄、性别、居住地、生平事件,定义实体类型标记r1∈R1,R1={“age”,“sex”,“location”,“event”};
(2)针对除人名实体,定义实体关系联合类型标记r2∈R2,R2为家族亲属关系类型集合,其中包括父、母、祖父与妻;
位置标记p与类型标记r两部分拼接组成联合神经网络模型的预测标签,根据联合神经网络模型的预测标签从而确定最终的标签集合。
本发明进一步的改进在于,步骤1.4中,若预测出的标签中类型标记∈R1,则采用步骤1.4中的第一个输出层判断人名实体以外的实体与人名实体之间是否存在从属关系;
第一个输出层和第一个输出层输出的预测概率计算方式相同,均由下列公式计算:
Figure GDA0003849604790000041
Figure GDA0003849604790000042
其中,ht为输入向量表示的数据特征,wu与bu为全连接层的待训练参数,ut为全连接成的输出,exp代表指数函数运算,pt为第一输出层对所有标签的预测概率,取概率值最大的标签为最终的预测结果。
本发明进一步的改进在于,步骤1.5中,过滤层满足以下规则:规则一:如果最终的预测结果长度为1,则修改预测标记为S;规则二:如果最终的预测结果长度大于1,若结尾标记不为E,则修改预测结尾标记为E;规则三:如果最终的预测结果长度大于2,若起始标记为B,结尾标记为E,则修改预测中间标记为I;若通过上述三条规则过滤后,预测结果不符合BIOES标记要求,则抛弃此预测结果。
本发明进一步的改进在于,步骤2的具体为:采用对数似然函数为损失函数,通过添加动态权重fω来平衡过多的O标签带来的数据量不均衡;通过均方根反向传播算法优化目标函数,确定联合神经网络模型模型参数。
本发明进一步的改进在于,损失函数L如下:
Figure GDA0003849604790000051
其中,B为数据批量大小,Ls为输入句子长度,
Figure GDA0003849604790000052
pt (s)为真实标签和预测概率,λ为L2正则化系数,P(O)表示当前标签是否为O标签:
Figure GDA0003849604790000053
动态权重fω如下:
Figure GDA0003849604790000054
其中,T为所有可能标签的集合,Di指训练集中一个batch中的句子i,
Figure GDA0003849604790000055
指句子i中的标签总数,/>
Figure GDA0003849604790000056
指句子i中j标签的个数,/>
Figure GDA0003849604790000057
分别为归一化是的最大与最小值标准化系数。
本发明进一步的改进在于,步骤3的具体过程为:将采用宏平均、微平均计算得到的准确率P、召回率R和F1得分F作为评价指标,对验证结果进行评价,根据评价结果调整端到端的联合神经网络模型的超参数以优化分类性能,得到合适的超参数;在合适的超参数基础上投放训练语料,得到最优模型。
本发明进一步的改进在于,准确率P、召回率R和F1得分F具体如下:
Figure GDA0003849604790000058
Figure GDA0003849604790000059
Figure GDA00038496047900000510
其中,TP,FP,FN分别代表真正例、假正例、假负例的个数。
与现有技术相比,本发明具有的有益效果:本发明以LSTM深度神经网络为基础,通过结合迁移学习领域中多任务联合的思想,通过创新的标记策略同时完成对句中实体的抽取和关系的分类,其优点如下:第一,多任务联合抽取方法避免了传统流水线方法中的误差传播。因为实体提取和关系分类同时进行,前者在识别上的误差不会对后者产生影响;第二,利用了各个子任务间的内在相关性,通过在同一语义空间对模型的输入进行编码,使得模型可以捕获到命名实体识别与关系分类的内在联系,如识别的两个实体均为人名,那么他们之间的关系应到是家族亲属关系,而若识别的实体分别是人名和地点,则他们之间的关系应该优先考虑为“居住在”或“不居住在”的关系类型;第三,本发明的多任务联合模型避免了在所有实体间两两配对进行关系分类,模型输出的冗余性大大降低。本发明提出的联合提取方法也能应用于其他的数据领域上,能在信息提取任务上体现出很好的时间效率和准确性。本发明主要用于非结构化文本的家族信息提取,在本发明构建的57种亲属关系的任务上获得74.93%(宏平均F1得分)和96.98%(微平均F1得分)的识别效果,效果大幅优于传统的流水线模型(对应指标分别为68.43%和74.93%)。本发明从效率、精度两方面改善实体抽取及关系分类任务的表现,能灵活的扩展到构建家族图谱任务外的其他需要抽取实体,并进行关系分类的任务中去。社会上针对海量文本数据的处理任务多要求从中提取有实用价值、结构化程度高的信息;这些任务都能应用本发明提出的技术解决,获得良好的效果。
进一步的,本发明用于提取自然文本中的命名实体(包含人名、居住地、时间、性别、年龄、生平事件),家族亲属关系及其他自动提取的实体间的所属关系,以自动构建家族图谱。本方法可以利用包括讣告、电子病历等多种非结构化文本语料,自动挖掘构建家族图谱中需要的各种信息。
进一步的,本发明采用的基于标注策略的联合提取方法,有效地避免了命名实体识别对关系分类的误差传播,且大大降低了关系分类的冗余性。同时,本发明使用双向LSTM作为编码层,利用整句完全的上下文为每个词语预测标签,充分利用了复杂海量文本中蕴含的信息,增强了信息提取效果。此外,本发明提出的联合提取模型允许对一个实体,对于实体包含在多种关系中的现实情况提供了很好的支持。最后,将两个子任务合并为一个任务进行处理,使得两个任务之间的内在联系对模型的整体效果带来提升。例如,两个实体间关系类型的确定可以辅助两个实体所属实体类型的预测。
进一步的,通过抽取文本数据中的人名、以及各自的年龄、性别、居住地址、生平事件等,实现家族图谱的自动构建。
附图说明
图1是本发明中多任务联合抽取标签策略示意图。
图2是本发明中端到端的联合神经网络模型结构图。
图3是本发明中抽取结果的样例图。
具体实施方式
下面结合具体实施例和附图,对本发明做进一步的详细说明。所述内容是对本发明的解释而不是限定。
近年来,随着深度学习的发展,深度神经模型已经在自然语言处理方面得到了广泛的应用。在常用的深度模型中,LSTM具有捕获较长时间间隔特征的能力,在信息提取任务中应用LSTM能更好地表现数据的全局性,提升提取的准确率。
本发明包括以下步骤:
步骤1.建立多任务联合神经网络模型
1.1将文本数据映射为表示向量的嵌入层,表示向量的嵌入层由两部分组成:第一部分为由Birdirectional Encoder Representation from Transformers(BERT)方法映射得到的词级别的向量表示,另外一部分是自训练的字符级别向量表示。
通过嵌入层将文本数据中的每个词语转化为对应的向量表示,每个词语的向量表示由上述两部分向量表示(词级别的向量表示和自训练的字符级别向量表示)拼接得到。
1.2基于双向长短期记忆网络(LSTM),建立由两层双向长短期记忆网络组成的特征抽取层,通过特征抽取层提取步骤1.1得到的每个词语向量表示的数据特征。
具体的,一个双向长短期记忆网络由输入门、忘记门、输出门三部分组成,双向长短期记忆网络的原理计算过程如下所示:
ft=σ(wf·[ht-1,xt]+bf) (1)
it=σ(wi·[ht-1,xt]+bf) (2)
Figure GDA0003849604790000081
Figure GDA0003849604790000082
ot=σ(wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(Ct) (6)
Figure GDA0003849604790000083
其中,xt为每个词语的向量表示,w*与b*为双向长短期记忆网络的待训练参数,σ为sigmod激活函数,f*为输入门,Ct为忘记门,
Figure GDA0003849604790000084
为忘记门的前置输入,ot为输出门,ht为一层双向长短期记忆网络提取的数据特征,/>
Figure GDA0003849604790000085
为特征抽取层最终抽取的数据特征。
1.3定义针对构建家族图谱的联合神经网络模型的标签策略,实现对家族图谱中的实体抽取与关系分类。联合神经网络模型的标签策略由两部分组成:位置标记p以及类型标记r。
位置标记p∈P,集合P={B,I,E,S,O}用于标记实体的边界。其中,B代表实体开始位置,I代表实体中间位置,E代表实体结束位置,S代表实体是一个长度为1的单词实体,O代表非实体。
类型标记r针对不同的实体类型,有以下两种情况:
(1)针对除人名实体以外的实体,包括年龄、性别、居住地、生平事件,定义实体类型标记r1∈R1,R1={“age”,“sex”,“location”,“event”,};
(2)针对除人名实体,定义实体关系联合类型标记r2∈R2,R2根据相关社会学领域对于家族关系的研究,为家族亲属关系类型集合,其中包括父、母、祖父、妻等亲属关系。
位置标记p与类型标记r两部分拼接组成联合神经网络模型的预测标签,根据联合神经网络模型的预测标签从而确定最终的标记集合T。
1.4建立两个结构相同的输出层,每个输出层由一个全连接层与归一化指数函数(Softmax函数)构成。第一个输出层用于接收步骤1.2中得到的输入向量表示的数据特征,判定非人名实体与人名实体之间的所属关系,得到一个属于或不属于的二分类结果;第二个输出层按步骤1.3中的标签集合进行标签预测,得到标签预测结果。若第二个预测出的标签中类型标记∈R1,则采用第一个输出层判断人名实体以外的实体与人名实体之间是否存在从属关系。
第一输出层与第二输出层两个输出层输出的预测概率计算方式相同,由下列公式给出:
Figure GDA0003849604790000091
Figure GDA0003849604790000092
其中,ht为输入向量表示的数据特征,wu与bu为全连接层的待训练参数,ut为全连接成的输出,exp代表指数函数运算,pt为第一输出层对所有标签的预测概率,取概率值最大的标签为最终的预测结果。
当计算第二输出层的预测概率时,pt对应第二输出层对所有标签的预测概率。
1.5根据步骤1.4中的标签预测结果,建立一组包含四条改进规则的过滤层,通过过滤层提升步骤1.4中的标签预测结果的准确性,至此完成对端到端的联合神经网络模型的构建,实现构建家族图谱所需的实体及亲属关系的多任务联合抽取。
其中,本发明定义的四条规则为:1、如果步骤1.4中最终的预测结果长度为1,则强制修改预测标记为S;2、如果最终的预测结果长度大于1,若结尾标记不为E,则强制修改预测结尾标记为E;3、如果最终的预测结果长度大于2,若起始标记为B,结尾标记为E,则强制修改预测中间标记为I;4、若通过上述三条规则过滤后,预测结果仍不符合BIOES标记要求,则抛弃此预测结果。
步骤2.端到端的联合神经网络模型的训练
采用对数似然函数为损失函数,通过添加动态权重fω来平衡过多的O标签带来的数据量不均衡。通过均方根反向传播(RMSProp)算法优化目标函数,确定联合神经网络模型模型参数。
优选地,损失函数L的定义如下:
Figure GDA0003849604790000101
其中,B为数据批量大小,Ls为输入句子长度,
Figure GDA0003849604790000102
pt (s)为真实标签和预测概率,λ为L2正则化系数。P(O)表示当前标签是否为“O”标签:
Figure GDA0003849604790000103
动态权重fω减轻了不同句子中“O”标签比例的不同所造成的影响:
Figure GDA0003849604790000104
其中,T为所有可能标签的集合,Di指训练集中一个batch中的句子i,
Figure GDA0003849604790000105
指句子i中的标签总数,/>
Figure GDA0003849604790000106
指句子i中j标签的个数,/>
Figure GDA0003849604790000107
分别为归一化是的最大与最小值标准化系数,使动态权重fω处于0和1之间。
步骤3.端到端的联合神经网络模型的调参与测试
使用测试数据对步骤2中训练好的端到端的联合神经网络模型进行调参与测试,基于K-Fold交叉验证方法对训练好的模型进行交叉验证。
K-Fold交叉验证方法指:将数据集分为K份,每次轮流取一份作为验证集,其余作为训练集,获得验证结果。如此进行K次,汇总所有数据部分的验证结果,即为最终结果。
将采用宏平均、微平均计算而得到的准确率(P)、召回率(R)和F1得分(F)作为评价指标,对验证结果进行评价,根据评价结果调整端到端的联合神经网络模型的超参数以优化分类性能,得到合适的超参数。在合适的超参数基础上投放训练语料,保存最优模型。具体评价指标如下:
在多分类问题的结果评价中,针对每个类分析结果时,将当前的类作为正类,其他均作为负类,转化为二分类问题。P、R、F的计算方式如下:
Figure GDA0003849604790000111
Figure GDA0003849604790000112
Figure GDA0003849604790000113
其中,TP,FP,FN分别代表真正例、假正例、假负例的个数。
在此基础上,宏平均、微平均的统计方式分别为:宏平均首先针对各类计算P,R,再取平均值获得汇总的P,R,以此计算得到F;微平均首先针对各类统计TP,TN,FP,FN的值,将其合并作为混淆矩阵,再计算P,R和F。
步骤4.构建家族图谱
步骤3完成后,使用最优模型抽取输入文本中实体及对应的关系,然后采用Neo4j图数据库将这些抽取结果以知识的形式存储下来,采用Cypher为查询语言,以图的形式直观的展示出最终建立的家族图谱。
实施例1
基于多任务联合神经网络模型的家族图谱自动构建方法包括以下步骤:
采用在线讣告文本作为训练和测试数据,目的是提取每篇讣告中的实体以及实体之间的语义关系,具体如下:
实体:包括人名、居住地、时间、性别、年龄、生平事件
关系:对于实体(即逝者与亲属)之间的亲属关系,按“代-关系”进行两级划分。预定义的亲属关系包括7代(从“比逝者高2辈”到“比逝者低4辈”),共计77种亲属关系,及1种对于年龄、性别、居住地、生平事件实体与家谱中人员的“属于”关系。
1.实施例中使用的训练数据和测试数据均为公开资源,可以自由下载。
数据收集和清洗
1.1通过网络爬虫,从美国明尼苏达州罗彻斯特市的殡葬网站和当地报纸获取讣告数据。共收集到15584条讣告数据,时间集中在2008年至2018年之间。
1.2对讣告数据进行清洗,去除长度过短或格式不规整的语料,清洗规则具体为:在上述讣告数据中去除长度不足290字符的语料、格式无法识别的语料以及含有特殊字符的语料。
1.3对训练文本和测试文本进行分词处理,将分词后得到的训练文本用标记策略进行标记。
标记策略具体为:使用步骤1.3中的标签体系,根据训练文本的标注为每个词设置一个标签,用于表示实体与关系。
对于位置标记,因为一个实体由词序列构成,所以此标记用于表示此词在待识别实体中的位置信息。在表示由多个词语组成的关系实体时,B、I、E标签对应地表示此词语位于实体词组的首个、中间、最后一个词语位置;对于由单个词语组成的关系实体,S标签表示此词语对应一个长度为1的实体。
对于类型标记,需要区分要标记类型的实体属于哪一种实体。若此实体是一个人名实体,则类型标记属于亲属关系集合,通过亲属关系的类型标记与位置标记,就可以实现对人名实体及亲属关系的联合抽取;若实体为非人名实体,实体类型属于集合R1={年龄,性别,居住地,生平事件},则对应的类型标记为此实体的类型,而非亲属关系类型。
如图1所示,提取句子“Alice,age 81,has a son named Bob Tottingham,and adaughter Cindy of Rochester.”中的实体以及实体的语义关系。首先对其进行分词,结果为“Alice/,/age/81/,/has/a/son/named/Bob/Tottingham/,/and/a/daughter/Cindy/of/Rochester/./”。然后用端到端的联合神经网络模型预测每个词的标签,结果为“81(age_S),Bob(son_B),Tottingham(son_E),Cindy(daughter_E),Rochester(location_S),其余标记均为O标签”。其中,句中的三个人名实体分别为“Alice”、“Bob Tottingham”和“Cindy”,“Alice”和“Bob Tottingham”之间具有“son”关系,“Alice”和“Cindy”之间具有“daughter”关系;一个非人名实体“Rochester”,其类型标记为location。
1.3讣告数据由三位标注者负责标注,使用MAE 2.2.6软件。
在标注准则的确定阶段,共进行两轮标注:每轮标注300条语料,每位标注者标注200条语料,保证每条语料至少由两位标注者标注。在每一轮标注结束后,计算标注所得的IAA得分,标注者商议修改标注准则。在进行两轮标注后,IAA得分达到0.8以上,即说明标注标准可以满足需要。在标注标准确定后,完成所有讣告语料的标注。
2.端到端的联合神经网络模型
2.1使用Python实现嵌入层,利用Bert词向量与自训练的字符级别向量拼接,将讣告文本中的每个词语转化为词向量,并连接成句向量。用默认标签将向量维数补齐。
2.2使用Python实现两层双向LSTM的时序神经网络模型,内部隐层向量维度由人工调整,每层LSTM单元的个数由句子长度决定。
2.3使用Python实现基于Softmax的输出层,用于标签预测。
2.4使用Python实现基于BIESO标记策略的改进机制。具体而言,按如下规则修正标注格式:
如果模型输出结果为长度为1,则强制修改模型预测标记为S;如果模型输出结果长度大于1,若结尾标记不为E,则强制修改模型预测结尾标记为E;如果模型输出结果长度大于2,若起始标记为B,结尾标记为E,则强制修改模型预测中间标记为I;若模型预测结果不符合BIOES标记要求,且不满足上述三条要求,则抛弃此预测结果。最终模型架构如图2所示。
3.端到端的联合神经网络模型的训练
3.1采用对数似然函数为损失函数,通过添加动态权重fω来平衡过多的O标签带来的数据量不均衡。通过均方根反向传播(RMSProp)算法优化目标函数,确定模型参数。
4.模型的测试与评价
4.1投放标注的1809篇训练语料,取K-Fold中K=10进行交叉验证,即每次取10%的数据作为验证集,其余90%用于训练;保存验证结果。
4.2根据步骤4.1得到的结果,分别计算宏平均和微平均的评价指标。采用宏平均、微平均计算而得的准确率(Precision)、召回率(Recall)和F1得分(F1-Score)作为评价指标,对验证结果进行评价,并通过调整模型的超参数来优化评价指标。在确定超参数后,使用全部的语料训练。
4.3使用测试数据对训练好的联合提取模型进行测试,通过模型获得标签序列,提取出(实体1,关系,实体2)三元组,得到测试文本的实体和实体间语义关系。然后采用Neo4j图数据库将这些抽取的语义关系以知识的形式存储下来,并且以图的形式直观的展示出本发明最终抽取出的家族图谱,如图3所示。

Claims (3)

1.基于多任务联合神经网络模型的家族图谱自动构建方法,其特征在于,包括以下步骤:
步骤1.建立多任务联合神经网络模型;具体过程如下:
1.1通过嵌入层将讣告或电子病历文本数据中的每个词语转化为对应的向量表示,每个词语的向量表示由词级别的向量表示和自训练的字符级别向量表示拼接得到;
1.2建立由两层双向长短期记忆网络组成的特征抽取层,通过特征抽取层提取步骤1.1得到的每个词语的向量表示的数据特征;具体过程如下:
ft=σ(wf·[ht-1,xt]+bf) (1)
it=σ(wi·[ht-1,xt]+bf) (2)
Figure FDA0003849604780000011
Figure FDA0003849604780000012
ot=σ(wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(Ct) (6)
Figure FDA0003849604780000013
其中,xt为每个词语的向量表示,σ为sigmod激活函数,Ct为忘记门,
Figure FDA0003849604780000014
为忘记门的前置输入,ot为输出门,ht为一层双向长短期记忆网络提取的数据特征,/>
Figure FDA0003849604780000015
为特征抽取层最终抽取的数据特征;
1.3将位置标记p与类型标记r拼接组成联合神经网络模型的预测标签,根据联合神经网络模型的预测标签确定最终的标记集合范围;其中,位置标记p∈P,集合P={B,I,E,S,O}用于标记实体的边界;其中,B代表实体开始位置,I代表实体中间位置,E代表实体结束位置,S代表实体是一个长度为1的单词实体,O代表非实体;
类型标记r针对不同的实体类型,有以下两种情况:
(1)针对除人名实体以外的实体,包括年龄、性别、居住地、生平事件,定义实体类型标记r1∈R1,R1={“age”,“sex”,“location”,“event”};
(2)针对人名实体,定义实体关系联合类型标记r2∈R2,R2为家族亲属关系类型集合,其中包括父、母、祖父与妻;
位置标记p与类型标记r两部分拼接组成联合神经网络模型的预测标签,根据联合神经网络模型的预测标签从而确定最终的标签集合;
1.4建立两个结构相同的由一个全连接层与归一化指数函数构成的输出层,输出层接收步骤1.2中得到的输入向量表示的数据特征,第一个输出层用于判定非人名实体与人名实体之间的所属关系,得到一个二分类结果,第二个输出层按步骤1.3中的标记集合范围进行标签预测,得到标签预测结果;若预测出的标签中类型标记∈R1,则采用步骤1.4中的第一个输出层判断人名实体以外的实体与人名实体之间是否存在从属关系;
第二个输出层和第一个输出层输出的预测概率计算方式相同,均由下列公式计算:
Figure FDA0003849604780000021
/>
Figure FDA0003849604780000022
其中,ht为输入向量表示的数据特征,wu与bu为全连接层的待训练参数,ut为全连接层的输出,exp代表指数函数运算,pt为第一输出层对所有标签的预测概率,取概率值最大的标签为最终的预测结果;
1.5根据步骤1.4中的标签预测结果,建立过滤层,通过过滤层提升步骤1.4中的标签预测结果的准确性,得到端到端的联合神经网络模型;其中,过滤层满足以下规则:规则一:如果最终的预测结果长度为1,则修改预测标记为S;规则二:如果最终的预测结果长度大于1,若结尾标记不为E,则修改预测结尾标记为E;规则三:如果最终的预测结果长度大于2,若起始标记为B,结尾标记为E,则修改预测中间标记为I;若通过上述三条规则过滤后,预测结果不符合BIOES标记要求,则抛弃此预测结果;
步骤2.训练端到端的联合神经网络模型;具体过程为:采用对数似然函数为损失函数,通过添加动态权重fω来平衡过多的O标签带来的数据量不均衡;通过均方根反向传播算法优化目标函数,确定联合神经网络模型模型参数;
损失函数L如下:
Figure FDA0003849604780000031
其中,B为数据批量大小,Ls为输入句子长度,
Figure FDA0003849604780000032
pt (s)为真实标签和预测概率,λ为L2正则化系数,P(O)表示当前标签是否为O标签;
步骤3.优化端到端的联合神经网络模型,得到最终模型;具体过程为:将采用宏平均、微平均计算得到的准确率P、召回率R和F1得分F作为评价指标,对验证结果进行评价,根据评价结果调整端到端的联合神经网络模型的超参数以优化分类性能,得到合适的超参数;在合适的超参数基础上投放训练语料,得到最优模型;
步骤4.通过最终模型构建家族图谱;具体过程为:使用最优模型抽取输入文本中实体及对应的关系,然后采用Neo4j图数据库将抽取结果以知识的形式存储下来,采用Cypher为查询语言,以图的形式直观的展示最终建立的家族图谱。
2.根据权利要求1所述的基于多任务联合神经网络模型的家族图谱自动构建方法,其特征在于,
Figure FDA0003849604780000033
动态权重fω如下:
Figure FDA0003849604780000034
其中,T为所有可能标签的集合,Di指训练集中一个batch中的句子i,
Figure FDA0003849604780000041
指句子i中的标签总数,/>
Figure FDA0003849604780000042
指句子i中j标签的个数,/>
Figure FDA0003849604780000043
分别为归一化时的最大与最小值标准化系数。
3.根据权利要求1所述的基于多任务联合神经网络模型的家族图谱自动构建方法,其特征在于,准确率P、召回率R和F1得分F具体如下:
Figure FDA0003849604780000044
Figure FDA0003849604780000045
Figure FDA0003849604780000046
其中,TP,FP,FN分别代表真正例、假正例、假负例的个数。
CN201910672928.7A 2019-07-24 2019-07-24 基于多任务联合神经网络模型的家族图谱自动构建方法 Active CN110532398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910672928.7A CN110532398B (zh) 2019-07-24 2019-07-24 基于多任务联合神经网络模型的家族图谱自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910672928.7A CN110532398B (zh) 2019-07-24 2019-07-24 基于多任务联合神经网络模型的家族图谱自动构建方法

Publications (2)

Publication Number Publication Date
CN110532398A CN110532398A (zh) 2019-12-03
CN110532398B true CN110532398B (zh) 2023-03-31

Family

ID=68660855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910672928.7A Active CN110532398B (zh) 2019-07-24 2019-07-24 基于多任务联合神经网络模型的家族图谱自动构建方法

Country Status (1)

Country Link
CN (1) CN110532398B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061754B (zh) * 2019-12-10 2023-03-14 北京明略软件系统有限公司 一种家族图谱的确定方法、装置、电子设备及存储介质
CN111897960B (zh) * 2020-07-17 2021-05-18 南京擎盾信息科技有限公司 动态法律事件间的推理方法、装置、设备和存储介质
CN111858784A (zh) * 2020-07-21 2020-10-30 广东科杰通信息科技有限公司 一种基于transH的人员亲属关系预测方法
CN112052674B (zh) * 2020-08-06 2021-08-24 腾讯科技(深圳)有限公司 一种实体定义抽取方法、系统及存储介质和服务器
CN113283243B (zh) * 2021-06-09 2022-07-26 广东工业大学 一种实体与关系联合抽取的方法
CN113961724B (zh) * 2021-12-22 2022-04-22 山东新希望六和集团有限公司 动物系谱的更新方法、装置及计算机设备
CN116662578B (zh) * 2023-08-02 2023-10-31 中国标准化研究院 一种基于端到端的大型知识图谱构建和存储方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005124580A1 (en) * 2004-06-15 2005-12-29 The University Of Melbourne A threat assessment system and process
WO2015077942A1 (en) * 2013-11-27 2015-06-04 Hewlett-Packard Development Company, L.P. Relationship extraction
CN109167627A (zh) * 2018-10-09 2019-01-08 北京邮电大学 一种调制格式及光信噪比监测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005124580A1 (en) * 2004-06-15 2005-12-29 The University Of Melbourne A threat assessment system and process
WO2015077942A1 (en) * 2013-11-27 2015-06-04 Hewlett-Packard Development Company, L.P. Relationship extraction
CN109167627A (zh) * 2018-10-09 2019-01-08 北京邮电大学 一种调制格式及光信噪比监测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme;《arXiv》;《arXiv》;20170607;正文第1-10页 *

Also Published As

Publication number Publication date
CN110532398A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532398B (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN108073569A (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN110968699A (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN111709575A (zh) 基于c-lstm的学业成绩预测方法
CN112257449A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN112016313A (zh) 口语化要素识别方法及装置、警情分析系统
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN114298314A (zh) 一种基于电子病历的多粒度因果关系推理方法
CN112989830A (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN110413995B (zh) 一种基于双向mgu神经网络的关系抽取方法
CN113313254A (zh) 面向记忆增强元学习的深度学习模型去偏方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant