CN111177394A - 基于句法注意力神经网络的知识图谱关系数据分类方法 - Google Patents
基于句法注意力神经网络的知识图谱关系数据分类方法 Download PDFInfo
- Publication number
- CN111177394A CN111177394A CN202010006790.XA CN202010006790A CN111177394A CN 111177394 A CN111177394 A CN 111177394A CN 202010006790 A CN202010006790 A CN 202010006790A CN 111177394 A CN111177394 A CN 111177394A
- Authority
- CN
- China
- Prior art keywords
- syntactic
- vector
- syntax
- embedding
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于句法注意力神经网络的知识图谱关系数据分类方法。主要步骤为:收集复杂装备设计过程的设计文档,由设计文档的文本数据组建设计文档语料库;针对收集到的设计文档的文本数据进行文本预处理;建立基于句法注意力深度神经网络的实体关系分类模型;预处理结果与类别标签输入到模型中进行离线训练;待预测文本数据输入至训练好的基于句法注意力深度神经网络中,预测获得文本数据中关键词文本对应的关系类别结果。本发明自适应地结合语义信息与句法信息,有效提高设计文档文本数据的实体关系类别预测的准确率,还能够推断出模型在预测过程中对语句的依存句法树的哪一部分路径具有更高的权重。
Description
技术领域
本发明涉及了一种计算机大数据领域中的知识图谱数据处理方法,尤其是涉及了一种基于句法注意力神经网络的复杂装备设计过程知识图谱的实体关系分类方法。
背景技术
工业领域,在复杂装备设计过程会产生大量的需求分析文档、设计说明书、设计手册、性能分析文档等非结构文本知识。有效的挖掘这些文本知识对复杂装备的设计过程产生重要的指导作用。其中挖掘设计过程设计文档中的知识,关键是挖掘设计文档中所表达的实体之间的关系类别。
针对复杂装备设计过程设计文档的数据驱动的实体关系分类方法目前主要分为两大类:基于机器学习的方法以及基于深度学习的方法。基于机器学习的方法需要人工根据经验构建一些特征、特征种子或特征模板,随后文本依据以上特征、特征种子或特征模板转化为特征向量,在向量空间使用有监督的分类方法获得实体对之间的关系类别。该类型方法的缺点是,严重依赖于人工构建的特征、特征种子或特征模板,依赖于自然语言预处理工具的准确率,这导致该类型的方法往往准确率比较低。同时人工构建的特征、特征种子或特征模板具有应用领域的独特性,无法在不同领域之间共享,导致该类型方法效率的低下。近年来,随着人工智能技术以及深度学习技术的不断突破,研究人员逐渐关注将深度学习应用于自然语言处理领域,其中基于深度学习的端到端的实体关系分类方法逐渐发展起来。该类型方法将文本中的词组转为分布式的特征向量,使用较低维度的向量编码词意信息,然后使用长短期记忆网络或卷积神经网络编码词组的上下文信息,最后将得到的融合上下文信息的语句嵌入向量输入到分类器中,抽取实体对之间的关系类别。该方法一方面可以降低复杂装备设计文档知识抽取过程中人工的参与程度,降低人力的成本。另一方面可以利用跨领域之间的知识,借助于开放领域语料库,提高模型在设计文档实体关系分类任务上的表现。因此,本发明以深度学习为基础,探索复杂装备设计过程设计文档实体关系分类方法及装置。
但目前基于深度学习的复杂装备设计过程设计文档实体关系分类的方法与装置大多仅仅依赖于设计文档文本数据中词组之间的语义关系,而忽略或不重视词组之间的句法依存关系。比如目前存在的方法引入句法信息时,需要对文本对应依存句法树进行剪枝操作,导致很多句法信息的丢失。另一方面目前引入句法信息的基于深度学习的复杂装备设计过程设计文档实体关系分类的方法无法推断出模型在预测过程中对依存句法树的哪一部分路径具有更高的权重,无法可视化预测过程,以指导设计人员观看设计文档。
发明内容
为了解决背景技术中存在的问题,本发明提出了一种基于句法注意力神经网络的知识图谱关系数据分类方法。该方法能克服上述已有方法的不足,提高设计文档实体关系分类准确率,定量预测过程针对依存句法树的两节点之间最短路径的权重分配情况,为设计过程设计文档中的知识挖掘提供关键技术手段,为设计人员设计文档的阅读提供有效参考信息。且该方法能广泛应用于各种复杂装备的设计过程设计文档实体关系分类过程中。
为达到上述目的,本发明中模型的建立包括以下具体步骤:
S1.收集复杂装备设计过程的设计文档,由设计文档的文本数据组建设计文档语料库;语料是指设计文档中的文本数据。
S2.针对收集到的设计文档的文本数据进行文本预处理;
S3.建立基于句法注意力深度神经网络的实体关系分类模型;
S4.针对复杂装备设计过程的设计文档的文本数据进行步骤S2预处理后的结果与文本数据已知的实体关系类别标签输入到基于句法注意力深度神经网络的实体关系分类模型中,离线训练该实体关系分类模型;
S5.针对包含两个实体且存在待预测实体关系类别的文本,进行步骤S2预处理后,输入至训练好的基于句法注意力深度神经网络中,在线预测获得文本数据中关键词文本对应的实体关系类别结果。
所述的复杂装备包括航空发动机、燃气轮机、涡轮发动机、水轮机、数控机床、风机和机车等。
所述步骤S1中,收集复杂装备设计过程的需求分析文档、设计说明书、设计手册、性能分析文档、设计百科等计算机文本数据。
实体是知识图谱中的节点,知识图谱是由节点和边组成,边代表了节点之间的关系,节点代表了关键词文本。具体实施中使用远程监督方法抽取以上文本数据中包含两个实体以上的语句,并在训练前预先已知实体之间的关系类别获得标签。远程监督方法是指当两个实体存在关系,则同时包含两个实体的文本语句表征了该实体对的该关系的信息。
本发明通过依存句法分析获取原始文本中各个词汇之间的句法关系;使用双向长短期记忆网络与单向树结构长短期记忆网络分别独立编码上下文信息与句法信息,其中句法信息是指语句的依存句法树所包含的信息;然后将上下文信息融合形成语句嵌入向量;其次基于语句嵌入向量使用注意力机制获取语句所关注的句法嵌入向量;最终基于融合后的语句嵌入向量与句法嵌入向量,使用前馈神经网络实现实体关系类别的预测。
所述步骤S2如下:
S21.通过自然语言预处理工具(例如为Standford CoreNLP)对设计文档语料库中的文本数据分别进行分词、命名实体识别、词性标注、依存句法分析,依存句法分析得到依存句法树和句法关系;文本数据分词后获得词组。
S22.根据文本数据分词后的结果、命名实体识别后的结果、词性标注后的结果、依存句法分析得到的句法关系结果以及实体之间标注的关系,生成文本数据对应的语料库词典、词性词典、命名实体类别词典、句法关系词典和实体关系类别词典;
具体实施中根据文本数据中词组出现的次数生成语料库词典,对于出现次数少于5的词组,使用特殊字符<UNK>代替,其他词组使用自身的字符形式即可;词性词典、命名实体类别词典和句法关系词典根据文本数据预处理后的词性标签、命名实体类别标签和句法关系标签生成,对于出现次数少于2的上述标签,使用特殊字符<UNK>代替;而实体关系类别词典使用标注的实体对之间的关系类别名称生成,对于不存在关系的实体对,使用特殊字符<NO_REL>表示关系标签。
S23.使用词向量计算工具word2vec获得分词后的文本数据对应的词意嵌入矩阵;
具体实施中,使用300维度的词意嵌入向量。词意嵌入向量代表语料库词典中某个位置的词组的向量表达,为词意嵌入矩阵的一个行向量。
所述步骤S3中,如图2所示,基于句法注意力深度神经网络模型构建步骤为:
S31.构造嵌入层,包含了词意嵌入层、词性嵌入层、命名实体类别嵌入层和句法关系嵌入层,将文本数据进行分词、命名实体识别、词性标注后的结果和依存句法分析后获得的句法关系,作为输入并分别输入到词意嵌入层、词性嵌入层、命名实体类别嵌入层和句法关系嵌入层中,将以上嵌入层的输出向量相连,组成词嵌入向量与句法关系嵌入向量;
各个嵌入层根据语句中词组、词性、命名实体类别和句法关系类别在语料库词典、词性词典、命名实体类别词典和句法关系词典上的位置,检索词意嵌入矩阵、词性嵌入矩阵、命名实体类别嵌入矩阵以及句法关系嵌入矩阵中对应位置的行向量,作为输出向量。其中针对不在对应词典中的词,使用特殊字符<UNK>获得词嵌入向量。模型训练之前对词性嵌入矩阵、命名实体类别嵌入矩阵以及句法关系嵌入矩阵使用以-1为下界、1为上界的均匀随机初始化。
S32.构造两层双向长短期记忆网络,以词嵌入向量作为输入,输出融合有上下文信息的上下文嵌入向量;上下文信息是指文本数据中的每个词所在的语句。
S33.针对上下文嵌入向量,使用最大池化进行处理,获取包含有语句语义信息的语句嵌入向量;最大池化的作用维度为文本数据的时间维度。
S34.根据依存句法树构造一层单向树结构长短期记忆网络,以词嵌入向量与句法关系嵌入向量作为输入,输出包含有文本数据句法信息的依存树隐藏向量;
S35.根据单向树结构长短期记忆网络中每个输出的依存树隐藏向量作为节点,使用依存树信息组合的方法,获取包含有依存句法树中两个节点之间携带信息的相对句法嵌入矩阵;相对句法嵌入矩阵代表了依存树中两个依存树隐藏向量之间最短路径包含信息向量表达。
S36.采用多头注意力机制方法,获取语句嵌入向量与相对句法嵌入矩阵中每个元素之间的句法权重向量;
S37.同时依据句法权重向量与相对句法嵌入矩阵,使用权重加和的方式,获取句法嵌入向量;
S38.将语句嵌入向量和句法嵌入向量相连接,输入至前馈神经网络,输出文本数据中关键词文本对应的实体关系类别,进而实现知识图谱中节点的关键词文本的实体关系类别的预测。前馈神经网络可以由全连接层构成,其中前馈神经网络的最后一层的激活函数选择为softmax。
所述步骤S35中的依存树信息组合方法针对待求两节点进行处理,如图3所示,分为如下两种情况:
1)当在依存句法树上待求两节点之间的最短路径形成树结构时,如图4中虚线圆圈中的子树,使用树结构上的根节点的依存树隐藏向量,减去该根节点下其他子节点的依存树隐藏向量,其他子节点的依存树隐藏向量为与除待求两节点外的最短路径上的节点直接相连的子节点的依存树隐藏向量,再减去待求两节点的依存树隐藏向量,作为两节点之间的信息;由每两个节点之间的信息作为矩阵的元素构成形成相对句法嵌入矩阵;
2)当在依存句法树上两个依存树隐藏向量之间的最短路径形成链结构时,如图5虚线圆圈中的三层链结构,顶部节点和底部节点为待求两节点,使用链结构上的顶部节点的依存树隐藏向量,减去该顶部节点下其他子节点的依存树隐藏向量,其他子节点的依存树隐藏向量为与除底部节点外的最短路径上的节点直接相连的子节点的依存树隐藏向量,再减去底部节点的依存树隐藏向量;由每两个两节点之间的信息作为矩阵的元素构成形成相对句法嵌入矩阵。
所述步骤S31中,词嵌入向量是由词意嵌入层、词性嵌入层、命名实体类别嵌入层的输出向量依次相连构成,句法关系嵌入向量为句法关系嵌入层的输出向量。
所述步骤S38中的前馈神经网络的最后一层激活函数选择为softmax激活函数。
所述步骤S3中,获取词嵌入向量后、上下文嵌入向量后、句法嵌入向量后和前馈神经网络之间均设有dropout层,dropout层的dropout率均为:0.5。
所述步骤S4中,模型训练过程损失函数选择为交叉熵损失函数,优化方法选用Adam优化算法,学习率设置为0.001。
本发明首先构造嵌入层,实现语句中词组的向量化表达,获得词嵌入向量与句法关系嵌入向量。然后对词嵌入向量输入至两层的双向长短期记忆网络,将词嵌入向量与句法关系嵌入向量的融合向量输入至一层树结构长短期记忆网络中,分别编码上下文信息以及句法信息,获得上下文嵌入向量和依存树隐藏向量。其次,针对上下文嵌入向量在文本数据的时间维度使用最大池化,获取标志语句语义信息的语句嵌入向量。针对依存句法树上每个节点的输出的依存树隐藏向量,使用依存树信息组合的方法,获取标志依存句法树中任意两节点之间携带的信息的相对句法嵌入矩阵。而后基于多头注意力机制,获取语句嵌入向量与相对句法嵌入矩阵中每个元素之间的句法权重向量。依据权重向量与相对句法嵌入矩阵,使用权重加和的方式,获取标志该语句的句法嵌入向量。最终将语句嵌入向量和句法嵌入向量相连接,输入至两层的前馈神经网络实现实体关系的预测。
与现有方法相比,本发明具有以下优势:
一方面,本发明不需要对依存句法树进行剪枝操作,最大程度上保留了语句句法信息。同时通过语句嵌入向量与相对句法嵌入矩阵的交互注意力作用,使得本发明可以让模型自主选择关注的句法信息,自适应地结合语义信息与句法信息,提高了模型的灵活性与预测的准确性。
另一方面,本发明可以依据语句嵌入向量与相对句法嵌入矩阵根据多头注意力机制获得的句法权重向量,能获得模型在预测过程中对语句的依存句法树的哪一部分路径具有更高的权重,借此可视化预测过程,以指导设计人员观看设计文档。
附图说明
图1为本发明方法的流程示意图。
图2为本发明实例中基于句法注意力深度神经网络的关系分类模型框架示意图。
图3为本发明实例中树状长短期记忆网络的示意图。
图4为本发明依存树信息组合方法第一种情况的示意图。
图5为本发明依存树信息组合方法第二种情况的示意图。
具体实施方式
下面结合附图与航空发动机设计手册数据集和SimpleQuestion数据集作为具体实例对本发明作进一步说明:
实施例
本实例使用了航空发动机设计手册数据集作为具体实施例进行说明,该数据集以航空发动机设计手册、燃气轮机性能分析等文本数据以及已知的设计知识本体作为基础,获得设计文档中包含的实体,而后进行基于句法注意力神经网络的知识图谱关系数据分类方法的实施。其中基于句法注意力神经网络的知识图谱关系数据分类方法的实施包括如图1所示的步骤:
S1.收集航空发动机设计过程的设计文档。使用远程监督方法抽取航空发动机设计手册、燃气轮机性能分析等文本数据中包含两个实体以上的语句,并标注实体之间的关系。
S2.针对收集到的设计文档进行文本预处理;
S21.通过自然语言预处理工具Standford CoreNLP对目标语句进行分词、命名实体识别、词性标注、依存句法分析;
S22.根据分词后的设计文档文本数据、命名实体识别后的结果、词性标注后的结果、依存句法分析得到的句法关系结果以及实体之间标注的关系,生成采集到的文本数据对应的语料库词典、词性词典、命名实体类别词典、句法关系词典以及实体关系类别词典。根据文本数据中词组出现的次数生成语料库词典,对于出现次数少于5的词组,使用特殊字符<UNK>代替,其他词组使用自身的字符形式即可;词性词典、命名实体类别词典和句法关系词典根据文本数据预处理后的词性标签、命名实体类别标签和句法关系标签生成,对于出现次数少于2的上述标签,使用特殊字符<UNK>代替;而实体关系类别词典使用标注的实体对之间的关系类别名称生成,对于不存在关系的实体对,使用特殊字符<NO_REL>表示关系标签。
S23.使用词向量计算工具word2vec获得分词后的文本对应的词意嵌入矩阵,使用300维度的词意嵌入向量获得矩阵;
S3.建立基于句法注意力深度神经网络的关系分类模型;
S31.构造嵌入层,包含了词意嵌入层、词性嵌入层、命名实体类别嵌入层以及句法关系嵌入层,最终将以上嵌入层的输出向量相连,组成词嵌入向量与句法关系嵌入向量其中表示实数域,n代表一个批次中样本语句的数目,l代表该批次中样本语句的最长长度,de代表词意嵌入层、词性嵌入层和命名实体类别嵌入层分别输出维度相加的结果,dr句法关系嵌入层的输出维度。
各个嵌入层根据语句中词组、词性、命名实体类别和句法关系类别在语料库词典、词性词典、命名实体类别词典和句法关系词典上的位置,检索词意嵌入矩阵、词性嵌入矩阵、命名实体类别嵌入矩阵以及句法关系嵌入矩阵中对应位置的行向量,作为输出向量。其中针对不在对应词典中的词,使用特殊字符<UNK>获得对应的嵌入向量。模型训练之前对词性嵌入矩阵、命名实体类别嵌入矩阵以及句法关系嵌入矩阵使用以-1为下界、1为上界的均匀随机初始化。具体实施中,设置词意嵌入层的输出维度为300,词性嵌入层的输出维度为30,命名实体类别嵌入层的输出维度为30,句法关系嵌入层的输出维度为30。
S32.构造两层双向长短期记忆网络(Bi-LSTM),以词嵌入向量e作为输入,融合上下文信息,输出上下文嵌入向量其中dh代表最后一层的双向长短期记忆网络的输出维度;上下文嵌入向量为双向长短期记忆网络输出的隐藏状态。
具体实施中,第一层与第二层的双向长短期记忆网络的隐藏单元数均为300,且设置双向长短期记忆网络初始隐藏状态与初始单元状态均设置为零向量,代表初始条件下,没有关于语句语义信息的补充信息。
S34.构造一层单向树结构长短期记忆网络(Tree-LSTM),以词嵌入向量e和句法关系嵌入向量r相连后形成的向量作为输入,获取文本的句法信息,输出依存树隐藏向量其中dt代表树结构长短期记忆网络的输出维度;
具体实施中,树结构长短期记忆网络的隐藏单元数为300,且与双向长短期记忆网络类似,设置树结构长短期记忆网络初始隐藏状态与初始单元状态均设置为零向量,代表初始条件下,没有关于语句句法信息的补充信息。
相比于原始的树状长短期记忆网络,本发明在计算过程中引入了句法关系类别信息。由于输入了句法关系嵌入向量,同时编码了文本的依存树结构信息,因此获得了表征句法信息的依存树隐藏向量t。
S35.根据树结构长短期记忆网络中每个节点输出的依存树隐藏向量tj,使用依存树信息组合的方法,获取标志依存句法树中两节点之间携带的信息的相对句法嵌入矩阵其中第2和第3个维度表示依存句法树上的某两个节点的编号;
依存树信息组合方法分为如下两种情况:
1)当在依存句法树上待求两节点之间的最短路径形成树结构时,使用树结构上的根节点的依存树隐藏向量,减去该根节点下其他子节点的依存树隐藏向量,其他子节点的依存树隐藏向量为与除待求两节点外的最短路径上的节点直接相连的子节点的依存树隐藏向量,再减去待求两节点的依存树隐藏向量,作为两节点之间的信息;由每两个节点之间的信息作为矩阵的元素构成形成相对句法嵌入矩阵。这种情况如附图4所示,其中虚线的圆圈代表路径,实线的圆圈代表待求两节点;
2)当在依存句法树上两个依存树隐藏向量之间的最短路径形成链结构时,顶部节点和底部节点为待求两节点。此时使用链结构上的顶部节点的依存树隐藏向量,减去该顶部节点下其他子节点的依存树隐藏向量,其他子节点的依存树隐藏向量为与除底部节点外的最短路径上的节点直接相连的子节点的依存树隐藏向量,再减去底部节点的依存树隐藏向量;由每两个两节点之间的信息作为矩阵的元素构成形成相对句法嵌入矩阵。这种情况如附图5所示,其中虚线的圆圈代表路径,实线的圆圈代表待求两节点。
相对句法嵌入矩阵代表了依存树中两个节点之间最短路径包含信息的向量表达。由于此处的最短路径中包含的信息与节点的起始顺序无关,故在相对句法嵌入矩阵T在第2和第3个维度上为上三角矩阵,且对角线上为也为零向量
此处不考虑相对句法嵌入矩阵在第2和第3个维度上的下三角以及对角线上的元素向量。
其中T⊥代表相对句法嵌入矩阵T在第2和第3个维度上的上三角矩阵,且不包含对角线上的向量。
S38.构建分类层。将语句嵌入向量s和句法嵌入向量q相连接,输入至两层的前馈神经网络实现实体关系类别的预测,得到一个批次的样本语句的每种关系类别的概率p∈n×R,其中R为预定义实体关系类别词典的大小。前馈神经网络的最后一层的激活函数选择为softmax。
具体实施中,前馈神经网络的层数为2层,其中第1层的神经元单元数为600,第2层的神经元单元数为1837。
在步骤S3中,获取词嵌入向量后、上下文嵌入向量后、句法嵌入向量后和前馈神经网络之间均设有dropout层,dropout层的dropout率均为:0.5。
S4.针对复杂装备设计过程设计文档数据进行步骤S2预处理后与其对应的实体关系类别标签输入到基于句法注意力深度神经网络的关系分类模型中,离线训练该关系分类模型。其中模型训练过程损失函数选择为交叉熵损失函数,优化方法选用Adam优化算法,学习率设置为0.001。
S5.针对包含两个实体,且存在待预测关系的文本,进行步骤S2预处理后,输入至训练好的基于句法注意力深度神经网络的关系分类模型中,获得预测的实体对应关系类别预测结果。
具体实施采用SimpleQuestion公开数据集验证所提出方法的有效性。该数据集是在通用领域问答系统中常见的数据集,主要用于实现关于给出问句的三元组知识的预测。一般处理该数据集所代表问题的方式为管道式,其中一个重要的环节便是标志了用户意图的语句中实体关系类别的预测。该数据集包含了训练集、验证集和测试集,其具体统计信息如表1所示。该数据集虽然是通用领域问答系统的数据集,但是针对数据集的方法与航空发动机设计领域实体关系分类领域的方法类似,因此本发明选用该数据集以验证本发明提出方法的有效性。
表1
本发明提出的基于句法注意力神经网络的知识图谱关系数据分类方法,在该数据集具体实施过程中与上述航空发动机设计手册数据集的具体实施案例的不同的步骤只有S1,如下所示:
S1.SimpleQuestion公开数据集已经经过筛选,每个问句确定包含了一个实体另一个实体为疑问词,因此不需要远程监督方法再进一步进行处理,可以直接输入至S2步骤。
本发明利用训练好的基于句法注意力深度神经网络的关系分类模型在该数据集的测试集上进行了十次实验,取平均值作为模型预测的平均正确率。在SimpleQuestion公开数据集上验证得到本发明的预测情况如表2所示,其中TreeAtt所在列为使用本发明提出的方法的预测结果:
表2
从表中结果可以看出,本发明提出的基于句法注意力神经网络的知识图谱关系数据分类方法的关系分类正确率较高,表明本方法具有较大优势。
上述两个实例首先使用远程监督的方法收集复杂装备设计过程的设计文档或直接使用处理好的数据集,作为原始文本数据。然后对原始文本数据进行分词、命名实体识别、词性标注、依存句法分析、词典构建、词意嵌入矩阵训练等预处理步骤。其次建立基于句法注意力深度神经网络的关系分类模型,依据标志语句语义信息的语句嵌入向量,基于多头注意力机制,获取针对该语句的句法信息重要性排序,进而使用权重加和的方式,获取标志该语句的句法嵌入向量,最终实现实体关系类别的预测。一方面,该方法通过多头注意力机制,自适应地结合语义信息与句法信息,且句法信息没有通过剪枝方法进行修剪,包含的句法信息全面,可以有效提高设计过程设计文档文本数据的实体关系类别预测的准确率。另一方面,该方法在预测过程中,获得了语句嵌入向量与相对句法嵌入矩阵中每个元素之间的句法权重向量,该句法权重向量标志了依存句法树中每两个节点之间包含的信息的重要性,推断出模型在预测过程中对语句的依存句法树的哪一部分路径具有更高的权重,借此可视化预测过程,以指导设计人员观看设计文档,提高设计人员的设计效率。
以上所述实例仅为本发明在该实例上的调优结果,但本发明的具体实施不仅局限于本实例。凡是依照本发明原理与思路提出的效果相似的替代方案,都应当视为本发明的保护范围。
Claims (9)
1.一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:包括以下步骤:
S1.收集复杂装备设计过程的设计文档,由设计文档的文本数据组建设计文档语料库;
S2.针对收集到的设计文档的文本数据进行文本预处理;
S3.建立基于句法注意力深度神经网络的实体关系分类模型;
S4.针对复杂装备设计过程的设计文档的文本数据进行步骤S2预处理后的结果与文本数据已知的实体关系类别标签输入到基于句法注意力深度神经网络的实体关系分类模型中,离线训练该实体关系分类模型;
S5.针对包含两个实体且存在待预测实体关系类别的文本,进行步骤S2预处理后,输入至训练好的基于句法注意力深度神经网络中,在线预测获得文本数据中关键词文本对应的实体关系类别结果。
2.根据权利要求1所述的一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:所述步骤S1中,收集复杂装备设计过程的需求分析文档、设计说明书、设计手册、性能分析文档、设计百科等计算机文本数据。
3.根据权利要求1所述的一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:所述步骤S2如下:
S21.通过自然语言预处理工具对设计文档语料库中的文本数据进行分词、命名实体识别、词性标注、依存句法分析,依存句法分析得到依存句法树和句法关系;
S22.根据文本数据分词后的结果、命名实体识别后的结果、词性标注后的结果、依存句法分析得到的句法关系结果以及实体之间标注的关系,生成文本数据对应的语料库词典、词性词典、命名实体类别词典、句法关系词典和实体关系类别词典;
S23.使用词向量计算工具获得分词后的文本数据对应的词意嵌入矩阵。
4.根据权利要求3所述的一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:所述步骤S3中,基于句法注意力深度神经网络模型构建步骤为:
S31.构造嵌入层,包含了词意嵌入层、词性嵌入层、命名实体类别嵌入层和句法关系嵌入层,将文本数据进行分词、命名实体识别、词性标注后的结果和依存句法分析后获得的句法关系,作为输入并分别输入到词意嵌入层、词性嵌入层、命名实体类别嵌入层和句法关系嵌入层中,将以上嵌入层的输出向量相连,组成词嵌入向量与句法关系嵌入向量;
S32.构造两层双向长短期记忆网络,以词嵌入向量作为输入,输出融合有上下文信息的上下文嵌入向量;
S33.针对上下文嵌入向量,使用最大池化进行处理,获取包含有语句语义信息的语句嵌入向量;
S34.根据依存句法树构造一层单向树结构长短期记忆网络,以词嵌入向量与句法关系嵌入向量作为输入,输出包含有文本数据句法信息的依存树隐藏向量;
S35.根据单向树结构长短期记忆网络中每个输出的依存树隐藏向量作为节点,使用依存树信息组合的方法,获取包含有依存句法树中两个节点之间携带信息的相对句法嵌入矩阵;
S36.采用多头注意力机制方法,获取语句嵌入向量与相对句法嵌入矩阵中每个元素之间的句法权重向量;
S37.同时依据句法权重向量与相对句法嵌入矩阵,使用权重加和的方式,获取句法嵌入向量;
S38.将语句嵌入向量和句法嵌入向量相连接,输入至前馈神经网络,输出文本数据中关键词文本对应的实体关系类别。
5.根据权利要求4所述的一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:所述步骤S35中的依存树信息组合方法针对待求两节点进行处理,分为如下两种情况:
1)当在依存句法树上待求两节点之间的最短路径形成树结构时,使用树结构上的根节点的依存树隐藏向量,减去该根节点下其他子节点的依存树隐藏向量,其他子节点的依存树隐藏向量为与除待求两节点外的最短路径上的节点直接相连的子节点的依存树隐藏向量,再减去待求两节点的依存树隐藏向量,作为两节点之间的信息;由每两个节点之间的信息作为矩阵的元素构成形成相对句法嵌入矩阵;
2)当在依存句法树上两个依存树隐藏向量之间的最短路径形成链结构时,使用链结构上的顶部节点的依存树隐藏向量,减去该顶部节点下其他子节点的依存树隐藏向量,其他子节点的依存树隐藏向量为与除底部节点外的最短路径上的节点直接相连的子节点的依存树隐藏向量,再减去底部节点的依存树隐藏向量;由每两个两节点之间的信息作为矩阵的元素构成形成相对句法嵌入矩阵。
6.根据权利要求4所述的一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:所述步骤S31中,词嵌入向量是由词意嵌入层、词性嵌入层、命名实体类别嵌入层的输出向量依次相连构成,句法关系嵌入向量为句法关系嵌入层的输出向量。
7.根据权利要求4所述的一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:所述步骤S38中的前馈神经网络的最后一层激活函数选择为softmax激活函数。
8.根据权利要求4所述的一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:所述步骤S3中,获取词嵌入向量后、上下文嵌入向量后、句法嵌入向量后和前馈神经网络之间均设有dropout层,dropout层的dropout率均为:0.5。
9.根据权利要求1所述的一种基于句法注意力神经网络的知识图谱关系数据分类方法,其特征在于:所述步骤S4中,模型训练过程损失函数选择为交叉熵损失函数,优化方法选用Adam优化算法,学习率设置为0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010006790.XA CN111177394B (zh) | 2020-01-03 | 2020-01-03 | 基于句法注意力神经网络的知识图谱关系数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010006790.XA CN111177394B (zh) | 2020-01-03 | 2020-01-03 | 基于句法注意力神经网络的知识图谱关系数据分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177394A true CN111177394A (zh) | 2020-05-19 |
CN111177394B CN111177394B (zh) | 2022-04-29 |
Family
ID=70649186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010006790.XA Active CN111177394B (zh) | 2020-01-03 | 2020-01-03 | 基于句法注意力神经网络的知识图谱关系数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177394B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626517A (zh) * | 2020-05-29 | 2020-09-04 | 中国科学技术大学 | 一种公司竞争合作策略分析方法及系统 |
CN111783461A (zh) * | 2020-06-16 | 2020-10-16 | 北京工业大学 | 一种基于句法依存关系的命名实体识别方法 |
CN112016299A (zh) * | 2020-08-31 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 计算机执行、利用神经网络生成依存句法树的方法及装置 |
CN112131386A (zh) * | 2020-09-22 | 2020-12-25 | 新华三大数据技术有限公司 | 一种文本分类方法及装置 |
CN112182249A (zh) * | 2020-10-23 | 2021-01-05 | 四川大学 | 针对航空安全报告的自动分类方法和装置 |
CN112329459A (zh) * | 2020-06-09 | 2021-02-05 | 北京沃东天骏信息技术有限公司 | 文本标注方法和神经网络模型的构建方法 |
CN112328859A (zh) * | 2020-11-05 | 2021-02-05 | 南开大学 | 一种基于知识感知注意力网络的虚假新闻检测方法 |
CN112329440A (zh) * | 2020-09-01 | 2021-02-05 | 浪潮云信息技术股份公司 | 一种基于两阶段筛选和分类的关系抽取方法和装置 |
CN112597299A (zh) * | 2020-12-07 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 文本的实体分类方法、装置、终端设备和存储介质 |
CN112612884A (zh) * | 2020-11-27 | 2021-04-06 | 中山大学 | 一种基于公共文本的实体标签自动化标注方法 |
CN112651226A (zh) * | 2020-09-21 | 2021-04-13 | 深圳前海黑顿科技有限公司 | 基于依存句法树的知识解析系统及方法 |
CN112667820A (zh) * | 2020-12-08 | 2021-04-16 | 吉林省吉科软信息技术有限公司 | 全流程可追溯生态链监管知识图谱的深度学习构建方法 |
CN112966511A (zh) * | 2021-02-08 | 2021-06-15 | 广州探迹科技有限公司 | 一种实体词识别方法及装置 |
CN113127503A (zh) * | 2021-03-18 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种面向航天情报的自动信息提取方法及系统 |
CN113220824A (zh) * | 2020-11-25 | 2021-08-06 | 科大讯飞股份有限公司 | 数据检索方法、装置、设备及存储介质 |
CN113220985A (zh) * | 2021-04-06 | 2021-08-06 | 天津大学 | 基于健康养老环境下嵌入式用户画像模型的服务推荐方法 |
CN113536773A (zh) * | 2021-07-20 | 2021-10-22 | 北京明略软件系统有限公司 | 商品评论情感分析方法、系统、电子设备及存储介质 |
CN113901758A (zh) * | 2021-09-27 | 2022-01-07 | 南京邮电大学 | 一种面向知识图谱自动构建系统的关系抽取方法 |
CN113962547A (zh) * | 2021-10-19 | 2022-01-21 | 北京房江湖科技有限公司 | 一种分配工地巡检任务的方法、装置及存储介质 |
CN114048730A (zh) * | 2021-11-05 | 2022-02-15 | 光大科技有限公司 | 一种分词和实体联合识别模型训练方法及装置 |
WO2022043782A1 (en) * | 2020-08-28 | 2022-03-03 | International Business Machines Corpofiation | Automatic knowledge graph construction |
WO2022042125A1 (zh) * | 2020-08-26 | 2022-03-03 | 湖北亿咖通科技有限公司 | 一种命名实体识别方法 |
CN114742034A (zh) * | 2022-03-23 | 2022-07-12 | 北京快确信息科技有限公司 | 基于句法依存的交易信息识别方法、装置、系统及介质 |
CN114942981A (zh) * | 2022-04-07 | 2022-08-26 | 中国科学技术信息研究所 | 问答查询方法、装置、电子设备及计算机可读存储介质 |
CN114970363A (zh) * | 2022-06-08 | 2022-08-30 | 浙江大学 | 基于知识图谱与机器学习的低热值燃气轮机特性控制方法 |
CN115291864A (zh) * | 2022-06-30 | 2022-11-04 | 浙江大学 | 一种基于图神经网络的零碎图层检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984745A (zh) * | 2018-07-16 | 2018-12-11 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
CN109446187A (zh) * | 2018-10-16 | 2019-03-08 | 浙江大学 | 基于注意力机制与神经网络的复杂装备健康状态监测方法 |
CN110232186A (zh) * | 2019-05-20 | 2019-09-13 | 浙江大学 | 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法 |
-
2020
- 2020-01-03 CN CN202010006790.XA patent/CN111177394B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984745A (zh) * | 2018-07-16 | 2018-12-11 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
CN109446187A (zh) * | 2018-10-16 | 2019-03-08 | 浙江大学 | 基于注意力机制与神经网络的复杂装备健康状态监测方法 |
CN110232186A (zh) * | 2019-05-20 | 2019-09-13 | 浙江大学 | 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法 |
Non-Patent Citations (2)
Title |
---|
XIANG WANG等: ""KGAT: Knowledge Graph Attention Network for Recommendation"", 《PROCEEDINGS OF THE 25TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING》 * |
陈振彬等: ""多特征融合与注意力机制的中文文本关系抽取"", 《广东石油化工学院学报》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626517A (zh) * | 2020-05-29 | 2020-09-04 | 中国科学技术大学 | 一种公司竞争合作策略分析方法及系统 |
CN111626517B (zh) * | 2020-05-29 | 2024-02-27 | 中国科学技术大学 | 一种公司竞争合作策略分析方法及系统 |
CN112329459A (zh) * | 2020-06-09 | 2021-02-05 | 北京沃东天骏信息技术有限公司 | 文本标注方法和神经网络模型的构建方法 |
CN111783461A (zh) * | 2020-06-16 | 2020-10-16 | 北京工业大学 | 一种基于句法依存关系的命名实体识别方法 |
WO2022042125A1 (zh) * | 2020-08-26 | 2022-03-03 | 湖北亿咖通科技有限公司 | 一种命名实体识别方法 |
GB2612225A (en) * | 2020-08-28 | 2023-04-26 | Ibm | Automatic knowledge graph construction |
WO2022043782A1 (en) * | 2020-08-28 | 2022-03-03 | International Business Machines Corpofiation | Automatic knowledge graph construction |
CN112016299B (zh) * | 2020-08-31 | 2023-11-14 | 支付宝(杭州)信息技术有限公司 | 计算机执行、利用神经网络生成依存句法树的方法及装置 |
CN112016299A (zh) * | 2020-08-31 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 计算机执行、利用神经网络生成依存句法树的方法及装置 |
CN112329440A (zh) * | 2020-09-01 | 2021-02-05 | 浪潮云信息技术股份公司 | 一种基于两阶段筛选和分类的关系抽取方法和装置 |
CN112651226A (zh) * | 2020-09-21 | 2021-04-13 | 深圳前海黑顿科技有限公司 | 基于依存句法树的知识解析系统及方法 |
CN112651226B (zh) * | 2020-09-21 | 2022-03-29 | 深圳前海黑顿科技有限公司 | 基于依存句法树的知识解析系统及方法 |
CN112131386A (zh) * | 2020-09-22 | 2020-12-25 | 新华三大数据技术有限公司 | 一种文本分类方法及装置 |
CN112182249A (zh) * | 2020-10-23 | 2021-01-05 | 四川大学 | 针对航空安全报告的自动分类方法和装置 |
CN112328859A (zh) * | 2020-11-05 | 2021-02-05 | 南开大学 | 一种基于知识感知注意力网络的虚假新闻检测方法 |
CN112328859B (zh) * | 2020-11-05 | 2022-09-20 | 南开大学 | 一种基于知识感知注意力网络的虚假新闻检测方法 |
CN113220824A (zh) * | 2020-11-25 | 2021-08-06 | 科大讯飞股份有限公司 | 数据检索方法、装置、设备及存储介质 |
CN112612884A (zh) * | 2020-11-27 | 2021-04-06 | 中山大学 | 一种基于公共文本的实体标签自动化标注方法 |
CN112612884B (zh) * | 2020-11-27 | 2024-03-12 | 中山大学 | 一种基于公共文本的实体标签自动化标注方法 |
CN112597299A (zh) * | 2020-12-07 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 文本的实体分类方法、装置、终端设备和存储介质 |
CN112667820A (zh) * | 2020-12-08 | 2021-04-16 | 吉林省吉科软信息技术有限公司 | 全流程可追溯生态链监管知识图谱的深度学习构建方法 |
CN112667820B (zh) * | 2020-12-08 | 2023-04-18 | 吉林省吉科软信息技术有限公司 | 全流程可追溯生态链监管知识图谱的深度学习构建方法 |
CN112966511B (zh) * | 2021-02-08 | 2024-03-15 | 广州探迹科技有限公司 | 一种实体词识别方法及装置 |
CN112966511A (zh) * | 2021-02-08 | 2021-06-15 | 广州探迹科技有限公司 | 一种实体词识别方法及装置 |
CN113127503A (zh) * | 2021-03-18 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种面向航天情报的自动信息提取方法及系统 |
CN113220985A (zh) * | 2021-04-06 | 2021-08-06 | 天津大学 | 基于健康养老环境下嵌入式用户画像模型的服务推荐方法 |
CN113220985B (zh) * | 2021-04-06 | 2022-07-19 | 天津大学 | 基于健康养老环境下嵌入式用户画像模型的服务推荐方法 |
CN113536773A (zh) * | 2021-07-20 | 2021-10-22 | 北京明略软件系统有限公司 | 商品评论情感分析方法、系统、电子设备及存储介质 |
CN113901758A (zh) * | 2021-09-27 | 2022-01-07 | 南京邮电大学 | 一种面向知识图谱自动构建系统的关系抽取方法 |
CN113962547A (zh) * | 2021-10-19 | 2022-01-21 | 北京房江湖科技有限公司 | 一种分配工地巡检任务的方法、装置及存储介质 |
CN114048730A (zh) * | 2021-11-05 | 2022-02-15 | 光大科技有限公司 | 一种分词和实体联合识别模型训练方法及装置 |
CN114742034A (zh) * | 2022-03-23 | 2022-07-12 | 北京快确信息科技有限公司 | 基于句法依存的交易信息识别方法、装置、系统及介质 |
CN114742034B (zh) * | 2022-03-23 | 2024-06-11 | 北京快确信息科技有限公司 | 基于句法依存的交易信息识别方法、装置、系统及介质 |
CN114942981A (zh) * | 2022-04-07 | 2022-08-26 | 中国科学技术信息研究所 | 问答查询方法、装置、电子设备及计算机可读存储介质 |
CN114970363A (zh) * | 2022-06-08 | 2022-08-30 | 浙江大学 | 基于知识图谱与机器学习的低热值燃气轮机特性控制方法 |
CN115291864A (zh) * | 2022-06-30 | 2022-11-04 | 浙江大学 | 一种基于图神经网络的零碎图层检测方法及装置 |
CN115291864B (zh) * | 2022-06-30 | 2024-03-29 | 浙江大学 | 一种基于图神经网络的零碎图层检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111177394B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177394B (zh) | 基于句法注意力神经网络的知识图谱关系数据分类方法 | |
CN111241295B (zh) | 基于语义句法交互网络的知识图谱关系数据抽取方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN112069408B (zh) | 一种融合关系抽取的推荐系统及方法 | |
CN110796160B (zh) | 一种文本分类方法、装置和存储介质 | |
CN113010693A (zh) | 融合指针生成网络的知识图谱智能问答方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN117151220B (zh) | 一种基于实体链接与关系抽取的行业知识库系统及方法 | |
CN110442880B (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN114330338A (zh) | 融合关联信息的程式语识别系统及方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
CN115860002B (zh) | 一种基于事件抽取的作战任务生成方法及系统 | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN112464673B (zh) | 融合义原信息的语言含义理解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |