CN114925212A - 一种自动判断并融合知识图谱的关系抽取方法及系统 - Google Patents

一种自动判断并融合知识图谱的关系抽取方法及系统 Download PDF

Info

Publication number
CN114925212A
CN114925212A CN202210485506.0A CN202210485506A CN114925212A CN 114925212 A CN114925212 A CN 114925212A CN 202210485506 A CN202210485506 A CN 202210485506A CN 114925212 A CN114925212 A CN 114925212A
Authority
CN
China
Prior art keywords
vector
entity
splicing
knowledge
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210485506.0A
Other languages
English (en)
Inventor
刘硕
杨雅婷
宋佳祥
朱宁
白焜太
许娟
史文钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Health China Technologies Co Ltd
Original Assignee
Digital Health China Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Health China Technologies Co Ltd filed Critical Digital Health China Technologies Co Ltd
Priority to CN202210485506.0A priority Critical patent/CN114925212A/zh
Publication of CN114925212A publication Critical patent/CN114925212A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Abstract

本发明公开了一种自动判断并融合知识图谱的关系抽取方法及系统,在医学范围内预先建立了小范围的原始数据库,基于此原始数据库并结合医学知识图谱充分获取了待分类的实体的更多特征信息,如实体、句子、属性节点以及上下文信息,提高了模型可获得的信息量,提高关系分类任务的准确率,对不同类型的实体数据进行数据增强和调整超参数,进一步提高了关系分类抽取的准确率;将实体、句子、属性节点以及上下文信息等特征信息融合到关系抽取的任务中并结合注意力机制的计算方式对相关性属性节点进行了筛选,从而能根据节点的关键信息以及当前任务的重要程度做出筛选,考虑到不同语境下的节点所代表的含义,优化了目前构建医学术语集的准确性。

Description

一种自动判断并融合知识图谱的关系抽取方法及系统
技术领域
本发明属于数据挖掘技术领域,具体涉及一种自动判断并融合知识图谱的关系抽取方法及系统。
背景技术
在构建医学术语集过程中,我们会根据各种权威及临床医学知识信息来筛选有价值的医学知识信息,其中在大规模的原始医学知识信息面前,我们采用纯手工的模式来做耗时耗力,因此,结合深度学习模型的医学信息抽取就发挥了重要的价值,在医学信息抽取中,在经过实体抽取之后的实体关系分类模块也是构建知识图谱过程中的一个关键的技术环节,其目的是在从原始文本中抽取出有价值的实体之后,查找出实体之间的关系。关系抽取技术的新发展主要归功于深度学习及迁移学习任务方式的发展进步,当前深度学习及已经广泛应用于自然语言处理和其他人工智能任务中。对于知识图谱构建中的关系抽取任务来说,通过深度学习可以自动学习到更多文本中的有价值特征参与到关系分类任务中去。
根据现有的关系分类任务划分为pipline形式任务和jointmodel形式任务,jointmodel形式任务的关系分类旨在构建实体提取和关系分类的联合训练模型,在输入原始文本后可以直接提取出文本中的实体和实体间的关系;而pipline形式的关系分类旨在根据之前实体抽取的任务结果的基础上来进行关系分类任务,目前主流的解决方案有两类任务实现方式,详细过程如下:
采用神经网络的分类、基于规则的关系分类、采用无监督算法的关系分类。
第一种为采用基于无监督算法的关系分类方法。可以分为以下二步:(1)基于word2vec等方法获取实体的嵌入表示;(2)用无监督算法(如Kmeans)对向量表示的实体进行聚类分组,获取每对实体所属的关系类型。
第二种为基于神经网络的分类方法。可以分为以下三步:(1)获取关系分类的标注文件;(2)训练基于神经网络的关系分类算法模型,如spert;(3)对所有的实体对所属的关系进行模型推理,得到关系类别。
上述方案还存在以下几个问题:
1、上述两种方法都可以一定程度上解决关系分类的问题,但是却都未能充分获取已有实体对本身的特征信息,并融合进关系分类的任务当中去,从而降低了模型可获得的信息量,降低关系分类任务的准确率。
2、针对不同领域相似实体及同一知识库内的无关联实体,基于神经网络的关系分类方法会产生大量非关联实体的噪音;针对不同类型的实体数据未进行数据增强和调整超参数等工作,从而导致关系分类抽取的准确率不高。
3、目前的面向医学的关系分类系统并不能对节点的关键信息根据对当前任务的重要程度做出筛选,不能考虑到不同语境下的节点所代表的含义。
发明内容
针对上述现有技术的不足,本申请提供一种自动判断并融合知识图谱的关系抽取方法及系统。
第一方面本申请提出了一种自动判断并融合知识图谱的关系抽取方法,包括以下步骤:
获取原始数据以及现有的医学知识图谱;
根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、实体对应的属性节点以及实体对应的原句;
将所述实体、属性节点以及原句进行预处理后进行向量映射,得到嵌入表示向量;
对所述嵌入表示向量进行时序特征提取和拼接处理,得到第一拼接向量;
将所述第一拼接向量进行图网络学习后,得到第一结果向量,将所述第一结果向量经过池化处理,得到第二拼接向量;
根据所述第一结果向量构建注意力得分机制,利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选,基于筛选结果构建上下文信息;
对所述上下文信息中的向量进行拼接处理后,基于处理后的向量与所述第二拼接向量进行关系分类,得到医学实体知识对应的关系抽取结果。
在一些实施例中,所述获取原始数据以及现有的医学知识图谱,包括:
利用爬虫技术从现有医学开放术语标准集、医学典籍和临床医学记录中获取所述原始数据。
在一些实施例中,所述医学知识图谱包括对抗医学知识图谱和自然医学知识图谱。
在一些实施例中,还包括,对所述原始数据进行实体抽取和标注处理,得到标注数据和标注实体,根据所述标注数据和标注实体直接在所述医学知识图谱中进行检索。
在一些实施例中,所述将所述实体、属性节点以及原句进行预处理后进行向量映射,得到嵌入表示向量,预处理包括:
将所述实体、属性节点以及原句作为数据集,将所述数据集划分为训练集和测试集,将训练集文件中的数据转化为数字id,对所述数字id进行映射;
将转化为数字id映射后的数据输入预构建的bert模型中,得到嵌入表示向量。
在一些实施例中,将所述数据集按照8:2的比例进行划分为训练集和测试集。
在一些实施例中,所述将转化为数字id映射后的数据输入预构建的bert模型中,得到嵌入表示向量,预构建的bert模型包括:embedding层、多头注意力机制层以及前向计算层;
所述embedding层,用于通过embedding权重矩阵和输入数据映射的数字id进行矩阵相称,得出embedding词向量作为输入数据的embedding矩阵表示;
所述多头注意力机制层,用于将所述embedding层输出的特征向量通过三个线性层进行矩阵特征提取,经过矩阵乘法计算得出每个输入数据融合了注意力信息的向量表示;
所述前向计算层,用于将多头注意力机制层每个输入经过两层线性层,并经过激活层激活后输出最终的嵌入表示向量。
在一些实施例中,bert模型中的预训练网络的参数包含训练总轮次、输出向量维度和学习率。
在一些实施例中,所述训练总轮次为所述训练集输入bert模型后的总的迭代计算的次数。
在一些实施例中,所述嵌入表示向量为768维嵌入表示向量。
在一些实施例中,所述对所述嵌入表示向量进行时序特征提取和拼接处理,得到第一拼接向量,包括:
将所述嵌入表示向量按照正序和逆序分别输入Bi-lstm模型中的lstm计算单元,得到正向序列方向向量和逆向序列方向向量;
将所述正向序列方向向量和逆向序列方向向量进行拼接得到所述第一拼接向量。
在一些实施例中,所述将所述第一拼接向量进行图网络学习后,得到第一结果向量,将所述第一结果向量经过池化处理,得到第二拼接向量,包括:
所述第一拼接向量输入GCN网络进行图网络学习后,输出第一结果向量;
通过池化层对所述第一结果向量进行特征提取,取出每个所述第一结果向量最后维度上的最大值;
将所有所述第一结果向量的最大值进行拼接,输出第二拼接向量。
在一些实施例中,所述根据所述第一结果向量构建注意力得分机制,利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选,基于筛选结果构建上下文信息,包括:
将所述第一结果向量、池化层卷积的参数、拉普拉斯矩阵和对角矩阵代入激活函数中,得到注意力得分参数;
将所述注意力得分参数经过softmax函数计算,得到注意力影响分数;
计算所述注意力影响分数,得到属性节点筛选阈值;
利用所述属性节点筛选阈值对所述嵌入表示向量进行属性节点筛选,过滤注意力影响分数低于所述属性节点筛选阈值的属性节点,根据过滤后的结果构建上下文信息。
在一些实施例中,对所述上下文信息中的向量进行拼接处理,包括:
提取所述上下文信息中的实体向量和语句代表向量,所述实体向量包括头实体向量和尾实体向量;
将所述语句代表向量、头实体向量和尾实体向量分别进行拼接处理得到语句拼接向量、头实体拼接向量和尾实体拼接向量。
在一些实施例中,所述对所述上下文信息中的向量进行拼接处理后,基于处理后的向量与所述第二拼接向量进行关系分类,得到医学实体知识对应的关系抽取结果,包括:
将所述第二拼接向量、语句拼接向量、头实体拼接向量和尾实体拼接向量进行拼接处理后输入多层感知机MLP进行关系分类,得到第一关系分类结果;
通过softmax函数对所述第一关系分类结果进行优化,得到所述医学实体知识的关系抽取结果。
第二个方面,本公开实施例还公开了一种自动判断并融合知识图谱的关系抽取系统,包括获取模块、检索处理模块、向量映射模块、第一拼接向量获取模块、第二拼接向量获取模块、属性节点筛选模块和关系抽取模块;
所述获取模块,获取原始数据以及现有的医学知识图谱;
所述检索处理模块,用于根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、实体对应的属性节点以及实体对应的原句;
所述向量映射模块,用于将所述实体、属性节点以及原句进行预处理后进行向量映射,得到嵌入表示向量;
所述第一拼接向量获取模块,用于对所述嵌入表示向量进行时序特征提取和拼接处理,得到第一拼接向量;
所述第二拼接向量获取模块,用于将所述第一拼接向量进行图网络学习后,得到第一结果向量,将所述第一结果向量经过池化处理,得到第二拼接向量;
所述属性节点筛选模块,用于根据所述第一结果向量构建注意力得分机制,利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选,基于筛选结果构建上下文信息;
所述关系抽取模块,用于对所述上下文信息中的向量进行拼接处理后,基于处理后的向量与所述第二拼接向量进行关系分类,得到医学实体知识对应的关系抽取结果。
在一些实施例中,还包括知识图谱模块,所述知识图谱模块包含知识图谱库以及所述知识图谱库中的医学知识图谱的实体及属性节点的信息。
在一些实施例中,所述知识图谱模块用于参与模型学习训练以及作为存储数据库在模型输出文本分类结果后将结果进行录入存储。
第三个方面,本公开实施例还公开了一种计算机装置,计算机装置包括:
处理器,处理器用于执行存储器中存储的计算机程序时实现上述任一方法的步骤。
第四个方面,本公开实施例还公开了一种计算机可读存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现上述任一方法的步骤。
本发明的有益效果:
1、本方案在医学范围内预先建立了小范围的原始数据库,基于此原始数据库并结合医学知识图谱充分获取了待分类的实体的更多特征信息,如实体、句子、属性节点以及上下文信息,提高了模型可获得的信息量,提高关系分类任务的准确率。
2、对不同类型的实体数据进行数据增强和调整超参数,进一步提高了关系分类抽取的准确率。
3、将实体、句子、属性节点以及上下文信息等特征信息融合到关系抽取的任务中并结合注意力机制的计算方式对相关性属性节点进行了筛选,从而能根据节点的关键信息以及当前任务的重要程度做出筛选,考虑到不同语境下的节点所代表的含义,优化了目前构建医学术语集的准确性。
附图说明
图1为本发明的总体流程图。
图2为医学开放术语标准集的示意图。
图3为医学知识图谱样例图。
图4为通过注意力得分进行关系抽取的示意图。
图5为本系统的技术路线原理图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制;相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
第一方面本申请提出了一种自动判断并融合知识图谱的关系抽取方法,如图1所示,包括以下步骤:
S100:获取原始数据以及现有的医学知识图谱;
其中,利用爬虫技术从现有医学开放术语标准集(如图2所示)、医学典籍和临床医学记录中获取所述原始数据。
本实施例中采用的医学知识图谱包括对抗医学知识图谱和自然医学知识图谱,医学知识图谱的样例如图3所示。
S200:根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、实体对应的属性节点以及实体对应的原句;
其中,需要对所述原始数据进行实体抽取和标注处理,得到标注数据和标注实体,根据所述标注数据和标注实体直接在所述医学知识图谱中进行检索。
S300:将所述实体、属性节点以及原句进行预处理后进行向量映射,得到嵌入表示向量;
其中,预处理步骤包括:
将所述实体、属性节点以及原句作为数据集,将所述数据集按照8:2的比例进行划分为训练集和测试集,将训练集文件中的数据转化为数字id,对所述数字id进行映射,将转化为数字id映射后的数据输入预构建的bert模型中,得到嵌入表示向量。
进一步的,预构建的bert模型包括:embedding层、多头注意力机制层以及前向计算层;
所述embedding层,通过embedding权重矩阵和输入数据映射的数字id进行矩阵相称,得出embedding词向量作为输入数据的embedding矩阵表示;
所述多头注意力机制层,将所述embedding层输出的特征向量通过三个线性层进行矩阵特征提取,经过矩阵乘法计算得出每个输入数据融合了注意力信息的向量表示;
所述前向计算层,将多头注意力机制层每个输入经过两层线性层,并经过激活层激活后输出最终的嵌入表示向量。
其中,bert模型中的预训练网络的参数包含训练总轮次num_epochs、输出向量维度hidden_size和学习率learning_rate,所述训练总轮次为所述训练集输入bert模型后的总的迭代计算的次数,所述嵌入表示向量为768维嵌入表示向量。
S400:对所述嵌入表示向量进行时序特征提取和拼接处理,得到第一拼接向量;
将所述嵌入表示向量按照正序和逆序分别输入所述Bi-lstm模型中的lstm计算单元:
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0003629712950000081
Figure BDA0003629712950000082
ft=σ(Wf·[ht-1,xt]+bf)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ot tanh(ct)
其中,公式it
Figure BDA0003629712950000083
Ct为输入门,ft为遗忘门,ot、ht为输出门,参数c为记忆单元W代表线性层的权重矩阵,xt代表当前计算模块输入的字符对应的表示向量,ht-1表示上一个字符对应的隐藏层状态输出,Ct-1表示上一个字符对应的计算单元的输出,b代表线性层的偏置权重矩阵,tanh、σ为激活函数;
经过上述公式计算后得到正向序列方向向量HZ和逆向序列方向向量HN,正向序列方向向量和逆向序列方向向量均为字符的向量表示;
将所述正向序列方向向量HZ和逆向序列方向向量HN进行拼接得到所述第一拼接向量[HZ,HN],并将其作为Bi-lstm网络层的计算输出。
S500:将所述第一拼接向量输入GCN网络进行图网络学习后,得到第一结果向量,将所述第一结果向量通过池化层进行处理,得到第二拼接向量;
将第一拼接向量输入GCN网络进行图网络学习,其中GCN网络模型为:
Figure BDA0003629712950000091
Figure BDA0003629712950000092
Figure BDA0003629712950000093
其中F(k-1)表示节点在第k-1层的特征向量,F(k)表示经过卷积后节点在第k层的特征向量(即第一结果向量),θ(k-1)表示第k-1层卷积的参数,ReLU表示激活函数。
Figure BDA0003629712950000094
是顶点的度矩阵(对角矩阵),
Figure BDA0003629712950000095
是图的邻接矩阵,而由矩阵
Figure BDA0003629712950000096
组成的部分是一种拉普拉斯矩阵,A+I中的I为单位矩阵(即对角线为1,其他为0的矩阵)。
之后经过池化层,池化层为对GCN网络层输出的第一结果向量做池化操作,做进一步的特征提取,取每个输入向量最后维度上的最大值,然后将所有输入向量的最大值进行拼接,输出拼接后的表示向量,得到第二拼接向量;
Figure BDA0003629712950000097
Figure BDA0003629712950000098
N为节点数,
Figure BDA0003629712950000099
为第二拼接向量;
其中,在GCN网络层的输出中还包括关系向量
Figure BDA00036297129500000910
S600:根据所述第一结果向量构建注意力得分机制,利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选,基于筛选结果构建上下文信息;
接下来,使用自注意力来学习每个实体属性节点的重要性,相关性小的实体属性节点将被排除在图之外。为了选择相关的实体属性节点,我们使用了一个注意力得分参数Z,将所述第一结果向量、池化层卷积的参数、拉普拉斯矩阵对角矩阵代入激活函数中,得到注意力得分参数;
Figure BDA00036297129500000911
其中,Z表示经过计算所得的注意力得分参数,Θatt是池化层卷积的参数。
将所述注意力得分参数经过softmax函数计算,得到注意力影响分数;
Figure BDA0003629712950000101
其中,Zscore表示注意力影响分数,exp(Zi)为计算以自然常数e为底的指数函数。
计算所述注意力影响分数,得到属性节点筛选阈值;
idx=max(Zscore)-α*σ(Zscore)
其中,σ(Zscore)是Zscore的标准差,α是一个可调超参数,idx为计算的满足最低分的注意力分数(即属性节点筛选阈值);
过滤掉注意力影响分数低于所述属性节点筛选阈值的属性节点,根据筛选保留的节点来构建上下文图(即上下文信息):
Figure BDA0003629712950000102
Fout=F′⊙Zmask
其中,
Figure BDA0003629712950000103
代表注意力得分在idx之上的向量集合,Zmask为对应的注意掩码,Fout代表输出的向量集合。
其中,代表注意力得分在idx之上的向量集合,Zmask为对应的注意掩码。
S700:对所述上下文信息中的向量进行拼接处理后,基于处理后的向量与所述第二拼接向量进行关系分类,得到医学实体知识对应的关系抽取结果。
其中,提取所述上下文信息中的实体向量和语句代表向量,所述实体向量包括头实体向量和尾实体向量;
将所述语句代表向量、头实体向量和尾实体向量分别进行拼接处理得到语句拼接向量、头实体拼接向量和尾实体拼接向量。
Figure BDA0003629712950000104
Figure BDA0003629712950000105
Figure BDA0003629712950000106
其中,
Figure BDA0003629712950000111
表示头实体向量,
Figure BDA0003629712950000112
表示尾实体向量,
Figure BDA0003629712950000113
表示语句代表向量,
Figure BDA0003629712950000114
表示头实体拼接向量,
Figure BDA0003629712950000115
表示尾实体拼接向量,
Figure BDA0003629712950000116
表示语句拼接向量,⊕表示把向量之间进行拼接。
将关系向量、第二拼接向量、语句拼接向量、头实体拼接向量和尾实体拼接向量进行拼接处理后输入多层感知机MLP进行关系分类,得到第一关系分类结果;
通过softmax函数对所述第一关系分类结果进行优化,得到所述医学实体知识的关系抽取结果,表示为:
Figure BDA0003629712950000117
其中,
Figure BDA0003629712950000118
表示经过softmax之后的GCN网络层的输出,r表示待预测的关系类型;
进一步的,上述方案结合了待分类的实体的更多信息,如:实体属性(别名、描述、instance-of、标签)、实体和句子,并结合注意力计算方式对相关性属性节点进行了筛选,因此,在一般的场景下,理论上可以达到更高的关系分类准确率;
如图4所示,我们对比了实际的分类任务,传统只使用实体本身信息的模型在真实数据:“双肺、肝转移治疗后”中对句中三个实体“双肺”、“肝”、“转移”识别出来的结果为“肝”和“转移”之间是“疾病”的关系,但却没有识别出“双肺”与“转移”之间的关系,经过本方案的优化,可以准确识别出来“肝”和“转移”之间是“疾病”的关系,及“双肺”和“转移”之间是“疾病”的关系。
第二个方面,本公开实施例还公开了一种自动判断并融合知识图谱的关系抽取系统,如图5所示,包括获取模块、检索处理模块、向量映射模块、第一拼接向量获取模块、第二拼接向量获取模块、属性节点筛选模块和关系抽取模块;
所述获取模块,获取原始数据以及现有的医学知识图谱;
所述检索处理模块,用于根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、实体对应的属性节点以及实体对应的原句;
所述向量映射模块,用于将所述实体、属性节点以及原句进行预处理后进行向量映射,得到嵌入表示向量;
所述第一拼接向量获取模块,用于对所述嵌入表示向量进行时序特征提取和拼接处理,得到第一拼接向量;
所述第二拼接向量获取模块,用于将所述第一拼接向量进行图网络学习后,得到第一结果向量,将所述第一结果向量经过池化处理,得到第二拼接向量;
所述属性节点筛选模块,用于根据所述第一结果向量构建注意力得分机制,利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选,基于筛选结果构建上下文信息;
所述关系抽取模块,用于对所述上下文信息中的向量进行拼接处理后,基于处理后的向量与所述第二拼接向量进行关系分类,得到医学实体知识对应的关系抽取结果。
在一些实施例中,还包括知识图谱模块,所述知识图谱模块包含知识图谱库以及所述知识图谱库中的医学知识图谱的实体及属性节点的信息。
在一些实施例中,所述知识图谱模块用于参与模型学习训练以及作为存储数据库在模型输出文本分类结果后将结果进行录入存储。
本系统融合了迁移学习网络、时间序列网络、图神经网络、注意力网络、多层感知机网络、知识图谱,提供了全方位的特征信息,根据实体识别的结果对实体之间的关系进行分类抽取。
第三方面,本发明实施例提供了一种计算机装置,计算机装置包括:处理器,处理器用于执行存储器中存储的计算机程序时实现如上述构建知识图谱的方法的步骤。处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制计算机中的其他组件以执行期望的功能。存储器可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行程序指令,以实现上文的本申请的各个实施例的方法步骤以及/或者其他期望的功能。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现如上更新知识图谱的方法的步骤。
除了上述方法和装置以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。
计算机程序产品可以以一种或多种程序设计语言的意组合来编写用于执行本发明实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种自动判断并融合知识图谱的关系抽取方法,其特征在于:包括以下步骤:
获取原始数据以及现有的医学知识图谱;
根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、实体对应的属性节点以及实体对应的原句;
将所述实体、属性节点以及原句进行预处理后进行向量映射,得到嵌入表示向量;
对所述嵌入表示向量进行时序特征提取和拼接处理,得到第一拼接向量;
将所述第一拼接向量进行图网络学习后,得到第一结果向量,将所述第一结果向量经过池化处理,得到第二拼接向量;
根据所述第一结果向量构建注意力得分机制,利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选,基于筛选结果构建上下文信息;
对所述上下文信息中的向量进行拼接处理后,基于处理后的向量与所述第二拼接向量进行关系分类,得到医学实体知识对应的关系抽取结果。
2.根据权利要求1所述的一种自动判断并融合知识图谱的关系抽取方法,其特征在于:所述获取原始数据以及现有的医学知识图谱,包括:
利用爬虫技术从现有医学开放术语标准集、医学典籍和临床医学记录中获取所述原始数据。
3.根据权利要求1所述的一种自动判断并融合知识图谱的关系抽取方法,其特征在于:所述将所述实体、属性节点以及原句进行预处理后进行向量映射,得到嵌入表示向量,预处理包括:
将所述实体、属性节点以及原句作为数据集,将所述数据集划分为训练集和测试集,将训练集文件中的数据转化为数字id,对所述数字id进行映射;
将转化为数字id映射后的数据输入预构建的bert模型中,得到嵌入表示向量。
4.根据权利要求3所述的一种自动判断并融合知识图谱的关系抽取方法,其特征在于:所述将转化为数字id映射后的数据输入预构建的bert模型中,得到嵌入表示向量,预构建的bert模型包括:embedding层、多头注意力机制层以及前向计算层;
所述embedding层,用于通过embedding权重矩阵和输入数据映射的数字id进行矩阵相称,得出embedding词向量作为输入数据的embedding矩阵表示;
所述多头注意力机制层,用于将所述embedding层输出的特征向量通过三个线性层进行矩阵特征提取,经过矩阵乘法计算得出每个输入数据融合了注意力信息的向量表示;
所述前向计算层,用于将多头注意力机制层每个输入经过两层线性层,并经过激活层激活后输出最终的嵌入表示向量。
5.根据权利要求4所述的一种自动判断并融合知识图谱的关系抽取方法,其特征在于:所述对所述嵌入表示向量进行时序特征提取和拼接处理,得到第一拼接向量,包括:
将所述嵌入表示向量按照正序和逆序分别输入Bi-lstm模型中的lstm计算单元,得到正向序列方向向量和逆向序列方向向量;
将所述正向序列方向向量和逆向序列方向向量进行拼接得到所述第一拼接向量。
6.根据权利要求5所述的一种自动判断并融合知识图谱的关系抽取方法,其特征在于:所述将所述第一拼接向量进行图网络学习后,得到第一结果向量,将所述第一结果向量经过池化处理,得到第二拼接向量,包括:
将所述第一拼接向量输入GCN网络进行图网络学习后,输出第一结果向量;
通过池化层对所述第一结果向量进行特征提取,取出每个所述第一结果向量最后维度上的最大值;
将所有所述第一结果向量的最大值进行拼接,输出第二拼接向量。
7.根据权利要求6所述的一种自动判断并融合知识图谱的关系抽取方法,其特征在于:所述根据所述第一结果向量构建注意力得分机制,利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选,基于筛选结果构建上下文信息,包括:
将所述第一结果向量、池化层卷积的参数、拉普拉斯矩阵和对角矩阵代入激活函数中,得到注意力得分参数;
将所述注意力得分参数经过softmax函数计算,得到注意力影响分数;
计算所述注意力影响分数,得到属性节点筛选阈值;
利用所述属性节点筛选阈值对所述嵌入表示向量进行属性节点筛选,过滤注意力影响分数低于所述属性节点筛选阈值的属性节点,根据过滤后的结果构建上下文信息。
8.根据权利要求7所述的一种自动判断并融合知识图谱的关系抽取方法,其特征在于:对所述上下文信息中的向量进行拼接处理,包括:
提取所述上下文信息中的实体向量和语句代表向量,所述实体向量包括头实体向量和尾实体向量;
将所述语句代表向量、头实体向量和尾实体向量分别进行拼接处理得到语句拼接向量、头实体拼接向量和尾实体拼接向量。
9.根据权利要求8所述的一种自动判断并融合知识图谱的关系抽取方法,其特征在于:所述对所述上下文信息中的向量进行拼接处理后,基于处理后的向量与所述第二拼接向量进行关系分类,得到医学实体知识对应的关系抽取结果,包括:
将所述第二拼接向量、语句拼接向量、头实体拼接向量和尾实体拼接向量进行拼接处理后输入多层感知机MLP进行关系分类,得到第一关系分类结果;
通过softmax函数对所述第一关系分类结果进行优化,得到所述医学实体知识的关系抽取结果。
10.一种自动判断并融合知识图谱的关系抽取系统,其特征在于:包括获取模块、检索处理模块、向量映射模块、第一拼接向量获取模块、第二拼接向量获取模块、属性节点筛选模块和关系抽取模块;
所述获取模块,获取原始数据以及现有的医学知识图谱;
所述检索处理模块,用于根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、实体对应的属性节点以及实体对应的原句;
所述向量映射模块,用于将所述实体、属性节点以及原句进行预处理后进行向量映射,得到嵌入表示向量;
所述第一拼接向量获取模块,用于对所述嵌入表示向量进行时序特征提取和拼接处理,得到第一拼接向量;
所述第二拼接向量获取模块,用于将所述第一拼接向量进行图网络学习后,得到第一结果向量,将所述第一结果向量经过池化处理,得到第二拼接向量;
所述属性节点筛选模块,用于根据所述第一结果向量构建注意力得分机制,利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选,基于筛选结果构建上下文信息;
所述关系抽取模块,用于对所述上下文信息中的向量进行拼接处理后,基于处理后的向量与所述第二拼接向量进行关系分类,得到医学实体知识对应的关系抽取结果。
CN202210485506.0A 2022-05-06 2022-05-06 一种自动判断并融合知识图谱的关系抽取方法及系统 Pending CN114925212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210485506.0A CN114925212A (zh) 2022-05-06 2022-05-06 一种自动判断并融合知识图谱的关系抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210485506.0A CN114925212A (zh) 2022-05-06 2022-05-06 一种自动判断并融合知识图谱的关系抽取方法及系统

Publications (1)

Publication Number Publication Date
CN114925212A true CN114925212A (zh) 2022-08-19

Family

ID=82807335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210485506.0A Pending CN114925212A (zh) 2022-05-06 2022-05-06 一种自动判断并融合知识图谱的关系抽取方法及系统

Country Status (1)

Country Link
CN (1) CN114925212A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859989A (zh) * 2023-02-13 2023-03-28 神州医疗科技股份有限公司 基于远程监督的实体识别方法及系统
CN117747124A (zh) * 2024-02-20 2024-03-22 浙江大学 基于网络激发图分解的医学大模型逻辑反演方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859989A (zh) * 2023-02-13 2023-03-28 神州医疗科技股份有限公司 基于远程监督的实体识别方法及系统
CN117747124A (zh) * 2024-02-20 2024-03-22 浙江大学 基于网络激发图分解的医学大模型逻辑反演方法及系统

Similar Documents

Publication Publication Date Title
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN114925212A (zh) 一种自动判断并融合知识图谱的关系抽取方法及系统
CN110659742A (zh) 获取用户行为序列的序列表示向量的方法和装置
CN115080764A (zh) 基于知识图谱及聚类算法的医学相似实体分类方法及系统
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN112380835A (zh) 融合实体和句子推理信息的问题答案提取方法及电子装置
Af'idah et al. Long short term memory convolutional neural network for Indonesian sentiment analysis towards touristic destination reviews
Somogyi The Application of Artificial Intelligence
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
Garrido-Munoz et al. A holistic approach for image-to-graph: application to optical music recognition
CN114706989A (zh) 一种基于技术创新资产为知识库的智能推荐方法
CN112069825A (zh) 面向警情笔录数据的实体关系联合抽取方法
CN116701590A (zh) 基于知识图谱构建答案语义空间的视觉问答方法
CN116432660A (zh) 一种情感分析模型的预训练方法、装置和电子设备
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法
CN116756266A (zh) 基于外部知识和主题信息的服装文本摘要生成方法
CN115630223A (zh) 基于多模型融合的服务推荐方法及推荐系统
CN110413995B (zh) 一种基于双向mgu神经网络的关系抽取方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质
Hou et al. Automatic Classification of Basic Nursing Teaching Resources Based on the Fusion of Multiple Neural Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination