CN111241295A - 基于语义句法交互网络的知识图谱关系数据抽取方法 - Google Patents

基于语义句法交互网络的知识图谱关系数据抽取方法 Download PDF

Info

Publication number
CN111241295A
CN111241295A CN202010006001.2A CN202010006001A CN111241295A CN 111241295 A CN111241295 A CN 111241295A CN 202010006001 A CN202010006001 A CN 202010006001A CN 111241295 A CN111241295 A CN 111241295A
Authority
CN
China
Prior art keywords
syntax
semantic
vector
layer
embedded vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010006001.2A
Other languages
English (en)
Other versions
CN111241295B (zh
Inventor
刘振宇
张栋豪
郏维强
谭建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Digital Design And Manufacturing Innovation Center Co ltd
Zhejiang University ZJU
Original Assignee
Wuhan Digital Design And Manufacturing Innovation Center Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Digital Design And Manufacturing Innovation Center Co ltd, Zhejiang University ZJU filed Critical Wuhan Digital Design And Manufacturing Innovation Center Co ltd
Priority to CN202010006001.2A priority Critical patent/CN111241295B/zh
Publication of CN111241295A publication Critical patent/CN111241295A/zh
Application granted granted Critical
Publication of CN111241295B publication Critical patent/CN111241295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义句法交互网络的知识图谱关系数据抽取方法。主要步骤为:收集复杂装备设计过程的设计文档,由设计文档的文本数据组建设计文档语料库;针对设计文档文本数据进行文本预处理;建立基于语义句法多轮交互深度神经网络的关系抽取模型;将预处理后的文本数据与关系类型标签输入到关系抽取模型中进行离线训练;对待预测实体关系的文本数据进行预处理后,输入至训练好的关系抽取模型中,获得预测的关系类别。本发明通过语义信息与句法信息的多轮交互,提高语义信息与句法信息的利用率,实现动态、深层次地挖掘对知识图谱关系数据抽取有利的语义信息与句法信息,提高了模型的灵活性、泛化性以及准确性。

Description

基于语义句法交互网络的知识图谱关系数据抽取方法
技术领域
本发明涉及了一种计算机大数据领域中的知识图谱数据处理方法,尤其是涉及了一种基于语义句法交互网络的复杂装备设计过程设计知识图谱实体关系抽取方法。
背景技术
复杂装备设计过程会产生大量的需求分析文档、设计说明书、设计手册、性能分析文档等非结构文本知识。有效的挖掘这些文本知识对后续设计过程产生重要的指导作用。其中挖掘设计过程设计文档中的知识,涉及到的一个关键技术是挖掘设计文档中所表达的知识实体之间的关系类别。
针对复杂装备设计过程设计文档的数据驱动的实体关系抽取方法目前主要分为两大类:基于机器学习的方法以及基于深度学习的方法。基于机器学习的方法主要依赖于人工构建的特征、特征种子或特征模板,将文本语句转换为特征向量。该类型的方法需要耗费大量的专家人力以及时间资源来构建领域之间难以共享的特征、特征种子或特征模板,因此往往效率较低且领域之间的泛化性差。目前随着深度学习技术的发展以及计算机算力的提高,研究人员逐渐关注于使用端到端的模型处理自然语言问题,其中基于深度学习的端到端的实体关系抽取方法逐渐发展起来。这一类型的方法一方面可以降低复杂装备设计文档知识抽取过程中人工的参与程度,降低人力的成本。另一方面可以利用跨领域之间的知识,提高模型在设计文档实体关系抽取任务上的表现。因此,本发明以深度学习为基础,探索复杂装备设计过程设计文档实体关系抽取方法及装置。
由于语句内部不止存在语义的依赖性,还存在句法的依赖性。因此当前存在很多研究人员探索在复杂装备设计过程设计文档实体关系抽取过程中,引入长文本语句词组之间的句法依赖关系。然而,目前这一方向的研究还存在很多不足的地方。首先,目前存在的方法在引入句法信息时,往往需要对文本对应依存句法树进行剪枝操作,导致很多句法信息的丢失。其次,目前存在的方法往往单独考虑语义信息与句法信息,而没有引入更深层次的语义与句法的交互信息,导致语句信息挖掘的不全面。最后,目前存在的方法往往直接将模型的输出特征向量用于实体关系类别预测,而没有很好地控制语义信息与句法信息的流动,导致预测过程中可能存在很多噪声特征或无用特征。
发明内容
为了解决背景技术中存在的问题,本发明提出了一种基于语义句法交互网络的知识图谱关系数据抽取方法。该方法能克服上述已有方法的不足,引入语义信息与句法信息的交互过程,控制语义信息与句法信息的流动,提高设计文档实体关系抽取准确率。且该方法能广泛应用于各种复杂装备的设计过程设计文档实体关系抽取过程中。
为达到上述目的,本发明中模型的建立包括以下具体步骤:
S1.收集复杂装备设计过程的设计文档,由设计文档的文本数据组建设计文档语料库;语料是指设计文档中的文本数据。
S2.针对收集到的设计文档的文本数据进行文本预处理;
S3.建立基于语义句法多轮交互深度神经网络的实体关系抽取模型;
S4.针对复杂装备设计过程的设计文档的文本数据进行步骤S2预处理后的结果与文本数据已知的实体关系类别标签输入到基于语义句法多轮交互深度神经网络的实体关系抽取模型中,离线训练该实体关系抽取模型;
S5.针对包含两个实体且存在待预测实体关系类别的文本,进行步骤S2预处理后,输入至训练好的基于语义句法多轮交互深度神经网络中,在线预测获得文本数据中关键词文本对应的实体关系类别结果。
所述的复杂装备包括航空发动机、燃气轮机、涡轮发动机、水轮机、数控机床、风机和机车等。
所述步骤S1中,收集复杂装备设计过程的需求分析文档、设计说明书、设计手册、性能分析文档、设计百科等计算机文本数据。
实体是知识图谱中的节点,知识图谱是由节点和边组成,边代表了节点之间的关系,节点代表了关键词文本。具体实施中使用远程监督方法抽取以上文本数据中包含两个实体以上的语句,并在训练前预先已知实体之间的关系类别获得标签。远程监督方法是指当两个实体存在关系,则同时包含两个实体的文本语句表征了该实体对的该关系的信息。
本发明通过依存句法分析获取原始文本中各个词汇之间的句法关系;使用双向长短期记忆网络与图卷积神经网络分别独立编码语义信息与句法信息;使用注意力方法实现语义信息与句法信息的交互过程,并可以通过多层叠加的方式实现多轮交互;然后使用密集连接,利用每一次交互过程处理融合语义信息与句法信息;其次基于融合后的多轮交互语义信息与句法信息,获得语句中每个时刻的词组的表达;再者使用池化层获取表征两个实体的实体表达同时使用多头自注意层获取表征实体上下文的上下文信息表达;最终将上述三个表达连接起来,使用前馈神经网络实现设计文档中实体关系类别的预测。
所述步骤S2如下:
S21.通过自然语言预处理工具(Standford CoreNLP)对设计文档语料库中的文本数据分别进行分词、命名实体识别、词性标注、依存句法分析,依存句法分析得到依存句法树和句法关系;文本数据分词后获得词组。
S22.根据文本数据分词后的结果、命名实体识别后的结果、词性标注后的结果、依存句法分析得到的句法关系结果以及实体之间标注的关系,生成文本数据对应的语料库词典、词性词典、命名实体类别词典、句法关系词典和实体关系类别词典;
具体实施中根据文本数据中词组出现的次数生成语料库词典,对于出现次数少于5的词组,使用特殊字符<UNK>代替,其他词组使用自身的字符形式即可;词性词典、命名实体类别词典和句法关系词典根据文本数据预处理后的词性标签、命名实体类别标签和句法关系标签生成,对于出现次数少于2的上述标签,使用特殊字符<UNK>代替;而实体关系类别词典使用标注的实体对之间的关系类别名称生成,对于不存在关系的实体对,使用特殊字符<NO_REL>表示关系标签。
S23.使用词向量计算工具GloVe获得分词后的文本对应的词意嵌入矩阵;
具体实施中,使用300维度的词意嵌入向量。词嵌入向量代表语料库词典中某个位置的词组的向量表达,为词意嵌入矩阵的一个行向量。
所述步骤S3中,如图2所示,基于语义句法多轮交互深度神经网络的实体关系抽取模型构建步骤为:
S301.构造嵌入层,包含了词意嵌入层、词性嵌入层、命名实体类别嵌入层以及句法关系嵌入层,将文本数据进行分词、命名实体识别、词性标注后的结果和依存句法分析后获得的句法关系,作为输入并分别输入到词意嵌入层、词性嵌入层、命名实体类别嵌入层和句法关系嵌入层中,将以上嵌入层的输出向量相连,组成词嵌入向量;
词嵌入向量是由词意嵌入层、词性嵌入层、命名实体类别嵌入层以及句法关系嵌入层的输出向量依次相连构成。
各个嵌入层根据语句中词组、词性、命名实体类别和句法关系类别在语料库词典、词性词典、命名实体类别词典和句法关系词典上的位置,检索词意嵌入矩阵、词性嵌入矩阵、命名实体类别嵌入矩阵以及句法关系嵌入矩阵中对应位置的行向量,作为输出向量。其中针对不在对应词典中的词,使用特殊字符<UNK>获得词嵌入向量。模型训练之前对词性嵌入矩阵、命名实体类别嵌入矩阵以及句法关系嵌入矩阵使用以-1为下界、1为上界的均匀随机初始化。
S302.构造一层双向长短期记忆网络,以词嵌入向量作为输入,输出融合有上下文信息的语义初始嵌入向量;上下文信息是指文本数据中的每个词所在的语句。
S303.构造一层图卷积神经网络,以词嵌入向量作为输入,输出包含有句法信息的句法初始嵌入向量;图卷积神经网络输入的邻接矩阵由语句的依存句法树得到。
S304.将语义初始嵌入向量与句法初始嵌入向量相连接,获得初始嵌入向量;
S305.构造语义句法多轮交互层,以初始嵌入向量作为输入,最终输出语义句法多轮交互层中每层交互得到的语义嵌入向量与句法嵌入向量;一个初始嵌入向量经过语义句法多轮交互层在中间进行多次交互,每次交互获得一层的语义嵌入向量与句法嵌入向量。
S306.使用密集连接,将初始嵌入向量以及步骤305中每一层交互后得到的语义嵌入向量依次连接,而后输入一层的前馈神经网络中,输出获得最终的语义嵌入向量;
同时将初始嵌入向量以及步骤305中每一层交互后得到的句法嵌入向量依次连接,而后输入一层的前馈神经网络中,输出获得最终的句法嵌入向量;
S307.将步骤306密集连接处理过后的语义嵌入向量与句法嵌入向量相连接,同时对连接后的向量使用门控机制方法,控制语义嵌入向量与句法嵌入向量中语义信息与句法信息的传输量,得到包含有语句每个词汇信息的语句向量;
S308.构建池化层,输入语句向量,输出获得包含有主语实体与宾语实体的实体表达向量;池化层作用于语句向量的时间维度,其中除待获得实体表达的实体所处位置外的其他位置的值都使用负无穷替换。
S309.采用多头自注意力方法,输入语句向量,输出获得包含有实体上下文信息的上下文信息表达向量;其中在softmax之前,将主语实体与宾语实体所处位置的值使用负无穷替换。
S310.将用于包含主语实体与宾语实体的实体表达向量以及用于包含上下文信息的上下文信息表达向量连接起来,输入到前馈神经网络中处理,输出文本数据中关键词文本对应的实体关系类别,进而实现知识图谱中节点的关键词文本的实体关系类别的预测。前馈神经网络可以由全连接层构成,其中前馈神经网络的最后一层的激活函数选择为softmax。
所述步骤S305中,如图3和图4所示,语义句法多轮交互层包含有N层双向长短期记忆网络和N层图卷积神经网络,交互过程如下:
S3051.构造一层双向长短期记忆网络,输入向量经双向长短期记忆网络处理得到未交互的语义嵌入向量;若当前为第一层时,以初始嵌入向量作为输入向量,若当前为第二层时,以上一层交互后的语义嵌入向量作为输入向量,
S3052.构造一层图卷积神经网络,输入向量经图卷积神经网络处理得到未交互的句法嵌入向量;若当前为第一层时,以初始嵌入向量作为输入向量,若当前为第二层时,以上一层交互后的句法嵌入向量作为输入向量,
S3053.使用多头注意力方法,以未交互的语义嵌入向量作为查询向量query,以未交互的句法嵌入向量作为键向量key和值向量value,处理得到语义交互句法嵌入向量;然后将语义嵌入向量与语义交互句法嵌入向量相连接,作为该层交互后的语义嵌入向量;
多头注意力方法通过评估每个语句的词组中语义嵌入向量与每个词组的句法嵌入向量的相似度,获得当前词组的语义交互句法嵌入向量。
S3054.使用多头注意力方法,以未交互的句法嵌入向量作为查询向量query,以未交互的语义嵌入向量作为键向量key和值向量value,处理得到句法交互语义嵌入向量;然后将句法嵌入向量与句法交互语义嵌入向量相连接,作为该层交互后的句法嵌入向量。
多头注意力方法通过评估每个语句的词组中句法嵌入向量与每个词组的语义嵌入向量的相似度,获得当前词组的句法交互语义嵌入向量。
所述步骤S310中所述的前馈神经网络最后一层激活函数选择为softmax激活函数。
在获取词嵌入向量后、图卷积神经网络输出前、注意力方法输出前均设有dropout层,dropout层的dropout率均为:0.5。
所述步骤S4中,模型训练过程损失函数选择为交叉熵损失函数。模型训练时的优化方法选用SGD优化算法,学习率设置为0.7,同时学习速率衰减比率设置为0.9。
本发明首先构造嵌入层,实现语句中词组的向量化表达,获得词嵌入向量。然后将将词嵌入向量分别输入至一层的长短期记忆网络以及一层的图卷积神经网络中,分别编码语义初始信息以及句法初始信息,获得语义初始嵌入向量与句法初始嵌入向量。其次,将语义初始嵌入向量与句法初始嵌入向量相连接,获得初始嵌入向量表达。而后,将初始嵌入向量输入至语义句法多轮交互层,获得每次交互过程得到的语义嵌入向量与句法嵌入向量。接着,使用密集连接获得最终的语义嵌入向量与句法嵌入向量。其次,使用门控机制将语义嵌入向量与句法嵌入向量相连接,控制语义信息与句法信息的传输量,得到表征语句每个词汇信息的语句向量。随后,基于语句向量,使用池化和多头自注意机制,获取表征主语实体与宾语实体的实体表达以及表征实体上下文信息的上下文信息表达向量。最后,将主语实体与宾语实体的实体表达以及上下文信息表达连接起来,使用前馈神经网络实现设计文档中实体关系类别的预测。
在本发明以上步骤中,关键是针对语义句法多轮交互层的构建。通过语义句法多轮交互层的处理,可以处理现有方法中语义信息与句法信息无法同时深度编码的情况,实现动态、深层次地挖掘对关系抽取有利的语义信息与句法信息。同时,本发明在多轮交互信息集成的过程中,利用了密集连接技术,提高不同层次交互过程语义信息与句法信息的利用率。另外,在语义信息与句法信息的连接过程中,本发明利用了门控机制,控制了语义信息与句法信息的流动。再者,本发明不需要对依存句法树进行剪枝操作,最大程度上保留了语句句法信息,提高了语句句法信息的利用率。基于上述优势,本发明针对知识图谱关系数据抽取任务具有较高的灵活性、泛化性以及准确性。
附图说明
图1为本发明方法的流程示意图。
图2为本发明实例中基于语义句法多轮交互深度神经网络的实体关系抽取模型框架示意图。
图3为本发明实例中语义句法多轮交互层中的单轮交互过程的示意图。
图4为本发明实例中图卷积神经网络的连接方式示意图。
具体实施方式
下面结合附图与航空发动机设计手册数据集和TACRED数据集作为具体实例对本发明作进一步说明:
实施例
本实例使用了航空发动机设计手册数据集作为具体实施例进行说明,该数据集以航空发动机设计手册、燃气轮机性能分析等文本数据以及已知的航空发动机设计知识本体作为基础,获得设计文档中包含的实体,而后进行基于语义句法交互网络的知识图谱关系数据抽取方法的实施。其中基于语义句法交互网络的知识图谱关系数据抽取方法的实施包括如图1所示的步骤:
S1.收集航空发动机设计过程的设计文档。使用远程监督方法抽取航空发动机设计手册、燃气轮机性能分析等文本数据中包含两个实体以上的语句,并标注实体之间的关系。
S2.针对收集到的设计文档进行文本预处理;
S21.通过自然语言预处理工具Standford CoreNLP对目标语句进行分词、命名实体识别、词性标注、依存句法分析;
S22.根据分词后的设计文档文本数据、命名实体识别后的结果、词性标注后的结果、依存句法分析得到的句法关系结果以及实体之间标注的关系,生成采集到的文本数据对应的语料库词典、词性词典、命名实体类别词典、句法关系词典以及实体关系类别词典。根据文本数据中词组出现的次数生成语料库词典,对于出现次数少于5的词组,使用特殊字符<UNK>代替,其他词组使用自身的字符形式即可;词性词典、命名实体类别词典和句法关系词典根据文本数据预处理后的词性标签、命名实体类别标签和句法关系标签生成,对于出现次数少于2的上述标签,使用特殊字符<UNK>代替;而实体关系类别词典使用标注的实体对之间的关系类别名称生成,对于不存在关系的实体对,使用特殊字符<NO_REL>表示关系标签。
S23.使用GloVe获得分词后的文本对应的预训练词意嵌入矩阵,获得300维度的词意嵌入向量;
S3.建立基于语义句法多轮交互深度神经网络的实体关系抽取模型,模型框架如图2所示;
S301.构造嵌入层,包含了词意嵌入层、词性嵌入层、命名实体类别嵌入层以及句法关系嵌入层,最终将以上嵌入层的输出向量相连,组成词嵌入向量
Figure BDA0002355296110000071
其中n代表一个批次中样本语句的数目,l代表该批次中样本语句的最长长度,de代表词意嵌入层、词性嵌入层、命名实体类别嵌入层以及句法关系嵌入层分别输出维度相加的结果。
各个嵌入层根据语句中词组、词性、命名实体类别和句法关系类别在语料库词典、词性词典、命名实体类别词典和句法关系词典上的位置,检索词意嵌入矩阵、词性嵌入矩阵、命名实体类别嵌入矩阵以及句法关系嵌入矩阵中对应位置的行向量,作为输出向量。其中针对不在对应词典中的词,使用特殊字符<UNK>获得词嵌入向量。模型训练之前对词性嵌入矩阵、命名实体类别嵌入矩阵以及句法关系嵌入矩阵使用以-1为下界、1为上界的均匀随机初始化。具体实施中,设置词意嵌入层的输出维度为300,词性嵌入层的输出维度为30,命名实体类别嵌入层的输出维度为30,句法关系嵌入层的输出维度为30。
S302.构造一层双向长短期记忆网络Bi-LSTM,以词嵌入向量作为输入,融合上下文信息,输出语义初始嵌入向量
Figure BDA0002355296110000081
其中dc代表双向长短期记忆网络的输出维度;具体实施中,双向长短期记忆网络的隐藏单元数为270,且设置双向长短期记忆网络初始隐藏状态与初始单元状态均设置为零向量,代表初始条件下,没有关于语句语义信息的补充信息。
S303.构造一层图卷积神经网络GCN,以词嵌入向量作为输入,融合句法信息,输出句法初始嵌入向量
Figure BDA0002355296110000082
其中ds代表图卷积神经网络的输出维度;图卷积神经网络输入的邻接矩阵由语句的依存句法树得到,其连接方式如图4所示。具体实施中,图卷积神经网络的输出维度为120。
S304.将语义初始嵌入向量与句法初始嵌入向量相连接,获得初始嵌入向量表达
Figure BDA0002355296110000083
S305.构造语义句法多轮交互层,该层以初始嵌入向量h(0)作为输入,最终输出每次交互过程得到的语义嵌入向量
Figure BDA0002355296110000084
与句法嵌入向量
Figure BDA0002355296110000085
其中
Figure BDA0002355296110000086
Figure BDA0002355296110000087
代表了语义信息与句法信息的交互次数。图3展示了单轮交互过程的示意图;
S3051.以上一层的语义嵌入向量
Figure BDA0002355296110000088
作为输入,构造一层双向长短期记忆网络,得到未交互的语义嵌入向量
Figure BDA0002355296110000089
若当前为第一层时,以初始嵌入向量h(0)作为输入;具体实施中,双向长短期记忆网络的隐藏单元数为270,且设置双向长短期记忆网络初始隐藏状态与初始单元状态均设置为零向量,代表初始条件下,没有关于语句语义信息的补充信息。
S3052.以上一层的句法嵌入向量
Figure BDA00023552961100000810
作为输入,构造一层图卷积神经网络,得到未交互的句法嵌入向量
Figure BDA00023552961100000811
若当前为第一层时,以初始嵌入向量h(0)作为输入;具体实施中,图卷积神经网络的输出维度为120。
S3053.使用注意力机制,以语义嵌入向量作为查询向量query,句法嵌入向量作为键向量key和值向量value。通过评估每个语句的词组中语义嵌入向量与每个词组的句法嵌入向量的相似度,获得当前词组的语义交互句法嵌入向量
Figure BDA00023552961100000812
然后将语义嵌入向量与语义交互句法嵌入向量相连接,作为交互后的语义嵌入向量
Figure BDA00023552961100000813
Figure BDA00023552961100000814
其中Attention(·,·,·)为一种注意力机制函数。该函数包含三个输入,分别为查询向量query、键向量key、值向量value,表示了根据查询向量query与键向量key之间的相似度,选取值向量value的值。具体实施中,针对注意力机制函数,实例中选择多头注意力机制。
S3054.使用注意力机制,以句法嵌入向量作为查询向量query,语义嵌入向量作为键向量key和值向量value。通过评估每个语句的词组中句法嵌入向量与每个词组的语义嵌入向量的相似度,获得当前词组的句法交互语义嵌入向量
Figure BDA0002355296110000091
然后将句法交互语义嵌入向量与句法嵌入向量相连接,作为交互后的句法嵌入向量
Figure BDA0002355296110000092
Figure BDA0002355296110000093
S306.使用密集连接,对初始嵌入向量以及每一层交互过后得到的语义嵌入向量连接,而后送入一层的前馈神经网络中,获取最终的语义嵌入向量
Figure BDA0002355296110000094
同时对初始嵌入向量以及每一层交互过后得到的句法嵌入向量连接,而后送入一层的前馈神经网络中,获取最终的句法嵌入向量
Figure BDA0002355296110000095
具体实施中,前馈神经网络的输出维度为390。
S307.将密集连接处理过后的语义嵌入向量与句法嵌入向量相连接。同时使用门控机制方法,控制语义信息与句法信息的传输量,得到表征语句每个词汇信息的语句向量
Figure BDA0002355296110000096
门控机制方法的计算方式如下:
g=sigmoid(Wg[hc;hs]+bg)
s=g[hc;hs]
其中,
Figure BDA0002355296110000097
为模型的参数。[hc;hs]代表向量之间的连接,且代表矩阵元素乘积。
Figure BDA0002355296110000098
为门控机制方法中的门向量。sigmoid(·)为一个函数,设函数输入为ω时,其计算方式如下:
Figure BDA0002355296110000099
S308.构建池化层,基于语句向量,获取表征主语实体与宾语实体的实体表达。其中池化层作用于语句向量的时间维度,其中除待获得实体表达的实体所处位置外的其他位置的值都使用负无穷替换。
S309.构建多头自注意层,基于语句向量,获取表征实体上下文信息的上下文信息表达向量。其中在自注意层中的softmax函数之前,将主语实体与宾语实体所处位置的值使用负无穷替换。
S310.将主语实体与宾语实体的实体表达以及上下文信息表达连接起来,使用前馈神经网络实现设计文档中实体关系类别的预测;其中前馈神经网络的最后一层的激活函数选择为softmax。具体实施中,前馈神经网络的层数为2层,其中第1层的神经元单元数为390,第2层的神经元单元数为42。
此外,在步骤S3中,获取词嵌入向量后、图卷积神经网络输出前、注意力机制输出前均设有dropout层,dropout层的dropout率均为:0.5。
S4.针对复杂装备设计过程设计文档数据进行步骤S2预处理后与其对应的实体关系类别标签输入到基于语义句法多轮交互深度神经网络的实体关系抽取模型中,离线训练该实体关系抽取模型。训练过程中,模型训练过程损失函数选择为交叉熵损失函数。优化方法选用SGD优化算法,学习率设置为0.7,同时学习速率衰减比率设置为0.9。
S5.针对包含两个实体且存在待预测实体关系类别的文本,进行步骤S2预处理后,输入至训练好的基于语义句法多轮交互深度神经网络中,获得预测的实体对应关系类别结果。
具体实施使用了TACRED公开数据集验证所提出方法的有效性。该数据集是在实体关系抽取领域通用的数据集,其具有以下特点:数据量大、句子平均长度长、存在包含无关系实体对的语句。上述特点要求模型可以获得相距较远的实体对的依赖关系,可以判断实体之间的关系的存在性,同时还需要具有较好的泛化能力。该数据集包含了训练集、验证集和测试集,其具体统计信息如表1所示。该数据集虽然是通用领域实体关系抽取的数据集,但是针对数据集的方法与航空发动机设计领域实体关系抽取领域的方法类似,因此本发明选用该数据集以验证本发明提出方法的有效性。
表1
Figure BDA0002355296110000101
本发明提出的基于语义句法交互网络的知识图谱关系数据抽取方法,在该数据集具体实施过程中与上述航空发动机设计手册数据集的具体实施案例的不同的步骤只有S1,如下所示:
S1.TACRED公开数据集已经经过筛选,每个语句中已经确定包含两个实体,且实体在句子中所处的位置也已经给出,因此不需要远程监督方法再进一步进行处理,可以直接输入至S2步骤。
本发明利用训练好的基于语义句法多轮交互深度神经网络的实体关系抽取模型在数据集的测试集上进行了十次实验,取平均值作为模型预测的平均F1值。在TACRED公开数据集上验证得到本发明的预测情况如表2所示,其中MI所在列为使用本发明提出的方法的预测结果:
表2
Figure BDA0002355296110000111
从表中结果可以看出,本发明提出的基于语义句法交互网络的知识图谱关系数据抽取方法的关系分类正确率较高,表明本方法具有较大优势。
上述两个实施例首先使用远程监督的方法收集复杂装备设计过程的设计文档或直接使用处理好的数据集,作为原始文本数据。然后对原始文本数据进行分词、命名实体识别、词性标注、依存句法分析、词典构建、词意嵌入矩阵训练等预处理步骤。其次建立基于语义句法多轮交互深度神经网络的实体关系抽取模型,通过语义信息与句法信息的多轮交互,实现实体关系类别的预测。首先,本发明不需要对依存句法树进行剪枝操作,最大程度上保留了语句句法信息,提高了语句句法信息的利用率。其次,通过语义信息与句法信息的多轮交互作用,实现动态、深层次地挖掘对关系抽取有利的语义信息与句法信息。再次,在多轮交互信息集成的过程中,利用了密集连接技术,提高交互过程语义与句法特征的利用率。最后,在语义信息与句法信息的连接过程中,利用了门控机制,控制了语义信息与句法信息的流动。基于上述优势,提高了模型的灵活性、泛化性以及预测的准确性。
以上所述实例仅为本发明在该实例上的调优结果,但本发明的具体实施不仅局限于本实例。凡是依照本发明原理与思路提出的效果相似的替代方案,都应当视为本发明的保护范围。

Claims (8)

1.一种基于语义句法交互网络的知识图谱关系数据抽取方法,其特征在于:方法包括以下步骤:
S1.收集复杂装备设计过程的设计文档,由设计文档的文本数据组建设计文档语料库;
S2.针对收集到的设计文档的文本数据进行文本预处理;
S3.建立基于语义句法多轮交互深度神经网络的实体关系抽取模型;
S4.针对复杂装备设计过程的设计文档的文本数据进行步骤S2预处理后的结果与文本数据已知的实体关系类别标签输入到基于语义句法多轮交互深度神经网络的实体关系抽取模型中,离线训练该实体关系抽取模型;
S5.针对包含两个实体且存在待预测实体关系类别的文本,进行步骤S2预处理后,输入至训练好的基于语义句法多轮交互深度神经网络中,在线预测获得文本数据中关键词文本对应的实体关系类别结果。
2.根据权利要求1所述的一种基于语义句法交互网络的知识图谱关系数据抽取方法,其特征在于:所述步骤S1中,收集复杂装备设计过程的需求分析文档、设计说明书、设计手册、性能分析文档、设计百科等计算机文本数据。
3.根据权利要求1所述的一种基于语义句法交互网络的知识图谱关系数据抽取方法,其特征在于:所述步骤S2如下:
S21.通过自然语言预处理工具对设计文档语料库中的文本数据进行分词、命名实体识别、词性标注、依存句法分析,依存句法分析得到依存句法树和句法关系;
S22.根据文本数据分词后的结果、命名实体识别后的结果、词性标注后的结果、依存句法分析得到的句法关系结果以及实体之间标注的关系,生成文本数据对应的语料库词典、词性词典、命名实体类别词典、句法关系词典和实体关系类别词典;
S23.使用词向量计算工具获得分词后的文本对应的词意嵌入矩阵。
4.根据权利要求1所述的一种基于语义句法交互网络的知识图谱关系数据抽取方法,其特征在于:所述步骤S3中,基于语义句法多轮交互深度神经网络的实体关系抽取模型构建步骤为:
S301.构造嵌入层,包含了词意嵌入层、词性嵌入层、命名实体类别嵌入层以及句法关系嵌入层,将文本数据进行分词、命名实体识别、词性标注后的结果和依存句法分析后获得的句法关系,作为输入并分别输入到词意嵌入层、词性嵌入层、命名实体类别嵌入层和句法关系嵌入层中,将以上嵌入层的输出向量相连,组成词嵌入向量;
S302.构造一层双向长短期记忆网络,以词嵌入向量作为输入,输出融合有上下文信息的语义初始嵌入向量;
S303.构造一层图卷积神经网络,以词嵌入向量作为输入,输出包含有句法信息的句法初始嵌入向量;
S304.将语义初始嵌入向量与句法初始嵌入向量相连接,获得初始嵌入向量;
S305.构造语义句法多轮交互层,以初始嵌入向量作为输入,最终输出语义句法多轮交互层中每层交互得到的语义嵌入向量与句法嵌入向量;
S306.使用密集连接,将初始嵌入向量以及步骤305中每一层交互后得到的语义嵌入向量连接,而后输入一层的前馈神经网络中,输出获得最终的语义嵌入向量;
同时将初始嵌入向量以及步骤305中每一层交互后得到的句法嵌入向量连接,而后输入一层的前馈神经网络中,输出获得最终的句法嵌入向量;
S307.将步骤306密集连接处理过后的语义嵌入向量与句法嵌入向量相连接,同时对连接后的向量使用门控机制方法,控制语义嵌入向量与句法嵌入向量中语义信息与句法信息的传输量,得到包含有语句每个词汇信息的语句向量;
S308.构建池化层,输入语句向量,输出获得实体表达向量;
S309.采用多头自注意力方法,输入语句向量,输出获得上下文信息表达向量;
S310.将实体表达向量以及上下文信息表达向量连接起来,输入到前馈神经网络中处理,输出文本数据中关键词文本对应的实体关系类别。
5.根据权利要求4所述的一种基于语义句法交互网络的知识图谱关系数据抽取方法,其特征在于:所述步骤S305中,语义句法多轮交互层包含有N层双向长短期记忆网络和N层图卷积神经网络,交互过程如下:
S3051.构造一层双向长短期记忆网络,输入向量经双向长短期记忆网络处理得到未交互的语义嵌入向量;若当前为第一层时,以初始嵌入向量作为输入向量,若当前为第二层时,以上一层交互后的语义嵌入向量作为输入向量,
S3052.构造一层图卷积神经网络,输入向量经图卷积神经网络处理得到未交互的句法嵌入向量;若当前为第一层时,以初始嵌入向量作为输入向量,若当前为第二层时,以上一层交互后的句法嵌入向量作为输入向量,
S3053.使用多头注意力方法,以未交互的语义嵌入向量作为查询向量query,以未交互的句法嵌入向量作为键向量key和值向量value,处理得到语义交互句法嵌入向量;然后将语义嵌入向量与语义交互句法嵌入向量相连接,作为该层交互后的语义嵌入向量;
S3054.使用多头注意力方法,以未交互的句法嵌入向量作为查询向量query,以未交互的语义嵌入向量作为键向量key和值向量value,处理得到句法交互语义嵌入向量;然后将句法嵌入向量与句法交互语义嵌入向量相连接,作为该层交互后的句法嵌入向量。
6.根据权利要求4所述的一种基于语义句法交互网络的知识图谱关系数据抽取方法,其特征在于:所述步骤S310中所述的前馈神经网络最后一层激活函数选择为softmax激活函数。
7.根据权利要求4所述的一种基于语义句法交互网络的知识图谱关系数据抽取方法,其特征在于:在获取词嵌入向量后、图卷积神经网络输出前、注意力方法输出前均设有dropout层,dropout层的dropout率均为:0.5。
8.根据权利要求1所述的一种基于语义句法交互网络的知识图谱关系数据抽取方法,其特征在于:所述步骤S4中,模型训练过程损失函数选择为交叉熵损失函数。
CN202010006001.2A 2020-01-03 2020-01-03 基于语义句法交互网络的知识图谱关系数据抽取方法 Active CN111241295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010006001.2A CN111241295B (zh) 2020-01-03 2020-01-03 基于语义句法交互网络的知识图谱关系数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010006001.2A CN111241295B (zh) 2020-01-03 2020-01-03 基于语义句法交互网络的知识图谱关系数据抽取方法

Publications (2)

Publication Number Publication Date
CN111241295A true CN111241295A (zh) 2020-06-05
CN111241295B CN111241295B (zh) 2022-05-03

Family

ID=70875990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010006001.2A Active CN111241295B (zh) 2020-01-03 2020-01-03 基于语义句法交互网络的知识图谱关系数据抽取方法

Country Status (1)

Country Link
CN (1) CN111241295B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881687A (zh) * 2020-08-03 2020-11-03 浪潮云信息技术股份公司 一种基于上下文编码和多层感知机的关系抽取方法及装置
CN111984778A (zh) * 2020-09-08 2020-11-24 四川长虹电器股份有限公司 基于依存句法分析和汉语语法的多轮语义分析方法
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112270196A (zh) * 2020-12-14 2021-01-26 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN112528672A (zh) * 2020-12-14 2021-03-19 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112560502A (zh) * 2020-12-28 2021-03-26 桂林电子科技大学 一种语义相似度匹配方法、装置及存储介质
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112765287A (zh) * 2021-02-05 2021-05-07 中国人民解放军国防科技大学 基于知识图谱嵌入的挖掘人物关系的方法、装置以及介质
CN112764839A (zh) * 2021-02-02 2021-05-07 三盟科技股份有限公司 一种用于管理服务平台的大数据配置方法及系统
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113239186A (zh) * 2021-02-26 2021-08-10 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN113255320A (zh) * 2021-05-13 2021-08-13 北京熙紫智数科技有限公司 基于句法树和图注意力机制的实体关系抽取方法及装置
WO2021159762A1 (zh) * 2020-09-08 2021-08-19 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN113282818A (zh) * 2021-01-29 2021-08-20 中国人民解放军国防科技大学 基于BiLSTM的挖掘网络人物关系的方法、装置及介质
CN113298426A (zh) * 2021-06-17 2021-08-24 华能澜沧江水电股份有限公司 知识图谱驱动的大坝安全评判权重动态拟定方法及系统
CN113297838A (zh) * 2021-05-21 2021-08-24 华中科技大学鄂州工业技术研究院 一种基于图神经网络的关系抽取方法
CN113392986A (zh) * 2021-02-01 2021-09-14 重庆交通大学 一种基于大数据的公路桥梁信息抽取方法及管理养护系统
CN113536795A (zh) * 2021-07-05 2021-10-22 杭州远传新业科技有限公司 实体关系抽取的方法、系统、电子装置和存储介质
CN113836260A (zh) * 2021-08-27 2021-12-24 北京工业大学 一种基于知识增强的深度学习的总氮含量预测方法
CN113901228A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合领域知识图谱的跨境民族文本分类方法及装置
CN115688776A (zh) * 2022-09-27 2023-02-03 北京邮电大学 面向中文金融文本的关系抽取方法
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN117744657A (zh) * 2023-12-26 2024-03-22 广东外语外贸大学 一种基于神经网络模型的药品不良事件检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US20180174020A1 (en) * 2016-12-21 2018-06-21 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
CN109992779A (zh) * 2019-03-29 2019-07-09 长沙理工大学 一种基于cnn的情感分析方法、装置、设备及存储介质
US20190266250A1 (en) * 2018-02-24 2019-08-29 Twenty Lane Media, LLC Systems and Methods for Generating Jokes
US20190294970A1 (en) * 2018-03-23 2019-09-26 The Governing Council Of The University Of Toronto Systems and methods for polygon object annotation and a method of training an object annotation system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US20180174020A1 (en) * 2016-12-21 2018-06-21 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
US20190266250A1 (en) * 2018-02-24 2019-08-29 Twenty Lane Media, LLC Systems and Methods for Generating Jokes
US20190294970A1 (en) * 2018-03-23 2019-09-26 The Governing Council Of The University Of Toronto Systems and methods for polygon object annotation and a method of training an object annotation system
CN109992779A (zh) * 2019-03-29 2019-07-09 长沙理工大学 一种基于cnn的情感分析方法、装置、设备及存储介质

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881687B (zh) * 2020-08-03 2024-02-20 浪潮云信息技术股份公司 一种基于上下文编码和多层感知机的关系抽取方法及装置
CN111881687A (zh) * 2020-08-03 2020-11-03 浪潮云信息技术股份公司 一种基于上下文编码和多层感知机的关系抽取方法及装置
CN112100344B (zh) * 2020-08-18 2024-02-27 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
WO2021159762A1 (zh) * 2020-09-08 2021-08-19 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN111984778A (zh) * 2020-09-08 2020-11-24 四川长虹电器股份有限公司 基于依存句法分析和汉语语法的多轮语义分析方法
CN111984778B (zh) * 2020-09-08 2022-06-03 四川长虹电器股份有限公司 基于依存句法分析和汉语语法的多轮语义分析方法
CN112528672A (zh) * 2020-12-14 2021-03-19 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112270196A (zh) * 2020-12-14 2021-01-26 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN112560502A (zh) * 2020-12-28 2021-03-26 桂林电子科技大学 一种语义相似度匹配方法、装置及存储介质
CN112560502B (zh) * 2020-12-28 2022-05-13 桂林电子科技大学 一种语义相似度匹配方法、装置及存储介质
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN113282818B (zh) * 2021-01-29 2023-07-07 中国人民解放军国防科技大学 基于BiLSTM的挖掘网络人物关系的方法、装置及介质
CN113282818A (zh) * 2021-01-29 2021-08-20 中国人民解放军国防科技大学 基于BiLSTM的挖掘网络人物关系的方法、装置及介质
CN113392986B (zh) * 2021-02-01 2023-04-07 重庆交通大学 一种基于大数据的公路桥梁信息抽取方法及管理养护系统
CN113392986A (zh) * 2021-02-01 2021-09-14 重庆交通大学 一种基于大数据的公路桥梁信息抽取方法及管理养护系统
CN112764839A (zh) * 2021-02-02 2021-05-07 三盟科技股份有限公司 一种用于管理服务平台的大数据配置方法及系统
CN112764839B (zh) * 2021-02-02 2021-10-12 三盟科技股份有限公司 一种用于管理服务平台的大数据配置方法及系统
CN112765287B (zh) * 2021-02-05 2022-04-19 中国人民解放军国防科技大学 基于知识图谱嵌入的挖掘人物关系的方法、装置以及介质
CN112765287A (zh) * 2021-02-05 2021-05-07 中国人民解放军国防科技大学 基于知识图谱嵌入的挖掘人物关系的方法、装置以及介质
CN113239186A (zh) * 2021-02-26 2021-08-10 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN113239186B (zh) * 2021-02-26 2022-11-29 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113076421B (zh) * 2021-04-02 2023-03-28 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113255320A (zh) * 2021-05-13 2021-08-13 北京熙紫智数科技有限公司 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113297838A (zh) * 2021-05-21 2021-08-24 华中科技大学鄂州工业技术研究院 一种基于图神经网络的关系抽取方法
CN113298426A (zh) * 2021-06-17 2021-08-24 华能澜沧江水电股份有限公司 知识图谱驱动的大坝安全评判权重动态拟定方法及系统
CN113536795A (zh) * 2021-07-05 2021-10-22 杭州远传新业科技有限公司 实体关系抽取的方法、系统、电子装置和存储介质
CN113836260A (zh) * 2021-08-27 2021-12-24 北京工业大学 一种基于知识增强的深度学习的总氮含量预测方法
CN113901228A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合领域知识图谱的跨境民族文本分类方法及装置
CN115688776A (zh) * 2022-09-27 2023-02-03 北京邮电大学 面向中文金融文本的关系抽取方法
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN116090560B (zh) * 2023-04-06 2023-08-01 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN117744657A (zh) * 2023-12-26 2024-03-22 广东外语外贸大学 一种基于神经网络模型的药品不良事件检测方法及系统

Also Published As

Publication number Publication date
CN111241295B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN111241295B (zh) 基于语义句法交互网络的知识图谱关系数据抽取方法
CN111177394B (zh) 基于句法注意力神经网络的知识图谱关系数据分类方法
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN113343683B (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN111382568B (zh) 分词模型的训练方法和装置、存储介质和电子设备
CN112925904A (zh) 一种基于Tucker分解的轻量级文本分类方法
CN113609267B (zh) 基于GCNDT-MacBERT神经网络框架的话语关系识别方法及系统
Xue et al. Intent-enhanced attentive Bert capsule network for zero-shot intention detection
CN111444328A (zh) 一种带有解释生成的自然语言自动预测推断方法
CN114626529B (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN116483314A (zh) 一种自动化智能活动图生成方法
CN113010676B (zh) 一种文本知识提取方法、装置及自然语言推断系统
CN115759102A (zh) 一种中国诗酒文化命名实体识别方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置
CN113516198A (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN113569124A (zh) 医疗标题匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant