CN114003684A

CN114003684A - 一种基于开放世界假设的医疗信息关系预测方法及系统

Info

Publication number: CN114003684A
Application number: CN202111647351.8A
Authority: CN
Inventors: 刘玉海; 张建一; 付晓雪; 苏海涛; 宋怀明
Original assignee: Sugon Nanjing Research Institute Co ltd
Current assignee: Sugon Nanjing Research Institute Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-02-01

Abstract

本发明提出了一种基于开放世界假设的医疗信息关系预测方法及系统，其中方法包括：构建三阶段式分析结构；获取文本语料库中的节点信息，通过处理分析得到最优的节点序列；基于最优的节点序列，设定值域，结合封闭世界假设与开放世界假设预测实体之间的关系；构建评分函数对实体之间的预测关系进行评估，获取预测实体之间关系的置信度；构建基于知识‑意识的注意力机制，接收经过编码器编码后的数据以及预测实体之间关系的置信度；通过基于知识‑意识的注意力机制的分析，输出最终的预测结果。本发明针对封闭世界无法预测知识库中不存在的关系，提出结合封闭世界假设与开放世界假设的关系预测方法，实现实体之间的有效关系预测。

Description

一种基于开放世界假设的医疗信息关系预测方法及系统

技术领域

本发明涉及一种基于开放世界假设的医疗信息关系预测方法及系统，特别是涉及大数据挖掘与分析技术领域。

背景技术

随着计算机技术的发展，人工智能与机器学习预测算法逐渐渗透于自动驾驶、语音识别、信用卡欺诈等多个领域，它们可以解锁数据，从而实时提供精准决策信息。预测在医学领域中的应用并不陌生。从应用风险评分指导抗凝治疗（CHADS2）与降胆固醇药的使用（ASCVD），到重症监护室内患者的风险分层（APACHE），由数据驱动的临床预测在医疗实践中已成惯例。结合现代深度学习，临床数据源可以对数以千计的相似临床问题迅速生成预测模型。从对脓毒症的早期预警系统，到辅助影像诊断，这些方法的潜在适用范围是相当可观的。现如今，医学领域中深度学习模型的可解释性越来越重要。

在预测实体之间的关系中，从文本语料库中预测实体之间的关系是占据极为重要的一席，它可以帮助提取结构化的知识，从而为广泛的下游任务如问答系统、对话系统、推断系统、知识图谱等提供支持。

然而现有技术在关系抽取任务中，大部分工作都是通过源文本建立的深度模型，利用注意力机制提供局部的可解释性，缺乏比较整体全局的理解和解释。

发明内容

发明目的：由于在给定语料库级统计数据的情况下，预测两个实体之间的关系，对临床决策具有重要的参考意义，因此，提出一种基于开放世界假设的医疗信息关系预测方法及系统，以解决现有技术存在的上述问题，同时在满足医学关系预测的合理性下，充分考虑到患者隐私保护问题，实现为临床决策提供有效参考依据的目的。

技术方案：第一方面，提出了一种基于开放世界假设的医疗信息关系预测方法，该方法具体包括以下步骤：

步骤1、构建三阶段式分析结构；

步骤2、基于三阶段式分析结构，获取文本语料库中的节点信息，通过处理分析得到最优的节点序列；

步骤3、基于最优的节点序列，设定值域，并结合封闭世界假设与开放世界假设预测实体之间的关系；

步骤4、构建评分函数对实体之间的预测关系进行评估，从而获取预测实体之间关系的置信度；

步骤5、构建基于知识-意识的注意力机制，接收经过编码器编码后的数据以及预测实体之间关系的置信度；

步骤6、通过基于知识-意识的注意力机制的分析，输出最终的预测结果，实现完整的实体对关系预测。

在第一方面的一些可实现方式中，三阶段式分析结构包括：第一阶段、第二阶段和第三阶段；其中，第一阶段为全局联想召回阶段，分析过程进一步划分为：第一分支和第二分支；第一分支为条件概率分支，用于获取文本语料库中节点信息之间的关系概率；第二分支为语境图卷积分支，用于获取文本语料库中节点信息之间的关系权重；第二阶段为假设形成与表示阶段；所述第三阶段为决策预测阶段。

在第一方面的一些可实现方式中，最优的节点序列为位于降序排列的前K个节点；其中降序排列的依据是：根据三阶段式分析结构中的第一阶段分析过程，结合分析结果按照关系紧密程度进行降序排列。

在第一方面的一些可实现方式中，得到所述最优的节点序列过程进一步包括以下步骤：

步骤2.1、读取文本预料库中的节点信息；

步骤2.2、构建条件概率表达式，用于计算实体节点之间的关系概率，获取实体节点之间的相关性，同时构建语境图卷积网络，用于获取实体节点之间的关系权重；

步骤2.3、结合条件概率表达式的计算结果与语境图卷积网络的输出结果，按照关系紧密程度进行降序排列；

步骤2.4、选取排名靠前的K个节点作为最优的节点序列。

所述封闭世界假设与开放世界假设的结合作为基于知识-意识的注意力机制的输入数据的处理方式，用于作为实体关联之间的关系性预测依据，所述关系性预测依据进一步为：令假设命题一为封闭世界假设与开放世界假设结合的预测关系结果，假设命题二为目标预测关系；当假设命题一作为当前已有且成立的一个假设命题时，用于作为假设命题二是否成立的判断依据。

在第一方面的一些可实现方式中，结合封闭世界假设与开放世界假设预测实体之间关系的具体步骤为：

步骤3.1、封闭世界假设通过查询知识库获取实体之间的假设关系；

步骤3.2、开放世界假设通过估计关联实体之间的潜在关系，获取实体之间的假设关系；

步骤3.3、将封闭世界假设的分析结果与开放世界假设的预测结果进行结合，得到最终的实体假设关系；

其中，开放世界假设的预测过程具体为：

步骤3.2.1、获取一对头尾实体以及对应的相关集合；

步骤3.2.2、构建三元组评分函数，用于对三元组的关系进行评分；

步骤3.2.3、根据三元组关系的评分结果构建关联关系的条件概率，用于作为所有关系的权重，实现开放世界假设表示；

步骤3.2.4、根据条件概率表达式，求出每对关联实体之间存在对应关系的可能性。

其中，所述三元组评分函数表达式为：

式中，

表示头实体h的关联实体集中的第i个实体；

表示

与

之间的关系；

表示尾实体t的关联实体集中的第j个实体；

表示嵌入向量；

表示一个k层的行向量；其中，

和

关系由一个关系矩阵

进行参数化。

所述关联关系的条件概率表达式为：

表示头实体h的关联实体集中的第i个实体；

表示

与

之间的关系；

表示尾实体t的关联实体集中的第j个实体；

表示表示设定的阈值；

表示打分函数的结果。

评分函数用于预测目标对关系的置信度，实现过程为所述三阶段式分析结构的第三阶段，该阶段实现过程具体包括以下步骤：

步骤5.1、将所述封闭世界假设与开放世界假设的表示进行汇集；

步骤5.2、根据给定的实体对及实例袋，利用句编码器实现实例嵌入；

步骤5.3、根据实例嵌入的类型进行分组；

步骤5.4、将分组后的实例输入基于知识-意识的注意力机制，获取实体对关系。

第二方面，提出一种基于开放世界假设的医疗信息关系预测系统，该系统包括：

用于全局联想召回的第一模块；

用于假设形成与表示的第二模块；

用于决策预测的第三模块；

用于实现预测关系输出的输出模块。

在第二方面的一些可实现方式中，第一模块进一步包括：第一分支模块和第二只分支模块；所述第一分支模块用于获取文本语料库中节点信息之间的关系概率；所述第二分支模块用于获取文本语料库中节点信息之间的关系权重。

读取到文本语料库中的节点信息后，首先传输至第一模块中获取最优的节点序列；其次，第二模块基于最优的节点序列，设定值域，并结合封闭世界假设与开放世界假设预测实体之间的关系；再次，第三模块构建评分函数对实体之间的预测关系进行评估，从而获取预测实体之间关系的置信度；从次，第四模块、构建基于知识-意识的注意力机制，接收经过编码器编码后的数据以及预测实体之间关系的置信度；最后，通过基于知识-意识的注意力机制的分析，输出最终的预测结果，实现完整的实体对关系预测。

第三方面，提出一种基于开放世界假设的医疗信息关系预测设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器读取并执行所述计算机程序指令，以实现医疗信息关系预测方法。

第四方面，提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现医疗信息关系预测方法。

有益效果：本发明提出了一种基于开放世界假设的医疗信息关系预测方法及系统，通过将分析过程划分成三个阶段，实现医疗信息实体关系抽取以及根据其中不同任务的完成对整体实体对的关系定理预测以及置信度打分。与之前同类型方法相比，充分考虑了文本库的上下文关系以及空间结构关系，更好的拟合医疗文本数据特征和任务特点，最后生成全局最优的预测定理。

另外，本申请替代现有技术中依靠多个不同机器学习或深度网络模型进行预测医疗文本实体关系的技术，充分考虑开放世界假设的同时也关注于整体语料库的语义信息。相比现有技术，在预测关系的合理性与开放性大大增强的同时，实现更精准更高效的网络模型调优，能够更好地辅助医生或医疗从业者进行新的医学发现以及下游任务的建设。

附图说明

图1为本发明的数据处理流程图。

图2为本发明第一阶段第二分支C-GCN网络架构图。

图3为本发明第二阶段关系推断示意图。

图4为本发明第三阶段决策预测阶段模型结构示意图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

申请人认为从文本语料库中预测实体之间的关系可以帮助提取结构化的知识，从而为广泛的下游任务提供支持。但在当前在关系抽取任务中，大部分工作都是通过源文本建立的深度模型，利用注意力机制提供局部的可解释性，缺乏比较整体全局的理解和解释。当这些方法被用于建立模型时，通常是通过接入知识库（KB），随后在知识库中检索实体对来构建潜在关系。因为知识库中存在的关系对并不完备，具有稀疏性，对于不在知识库中的实体对无法给出对应的关系预测，因此这种方法构建的关系虽然比较科学可靠，但其缺陷也很明显。

由于不同于开放领域，医疗实体的关系很难通过局部信息抽取。在医学领域，文本中包含了太多患者隐私，在探讨医学关系预测的合理性时，要充分考虑到患者隐私保护问题。因此，在给定语料库级统计数据的情况下，预测两个实体之间的关系，对临床决策具有重要的参考意义。

因此，针对上述提出的问题，本申请提出一种基于开放世界假设的医疗信息关系预测方法及系统，通过划分为三个阶段的网络模型框架，利用共现图模型将这些敏感信息删除，实现利用共现图建模有效保护患者的隐私，同时为下游任务提供良好支持的目的。其中，网络模型框架分析过程划分为的三个阶段具体包括：第一阶段、全局联想召回阶段；第二阶段、假设形成与表示阶段；第三阶段、决策预测阶段。其中，第一阶段共有两个分支，第一阶段第一分支为条件概率分支，第一阶段第二分支为语境图卷积分支。

实施例一

在一个实施例中，提出一种基于开放世界假设的医疗信息关系预测方法，用于医疗信息关系中广泛医学文本的信息抽取与预测。具体的，如图1所示，该方法包括以下步骤：

步骤1、构建三阶段式分析结构；其中，第一阶段为全局联想召回阶段；第二阶段为假设形成与表示阶段；第三阶段为决策预测阶段；第一阶段共有两个分支，第一阶段第一分支为条件概率分支，第一阶段第二分支为Contextualized GCN分支。

步骤2、基于三阶段式分析结构，获取文本库与语料库中的节点信息，通过处理分析得到最优的节点序列；所述最优的节点序列为按照关系紧密程度位于降序排列的前K个结点，表示关系最为紧密的K个结点。

步骤3、基于最优的节点序列，设定值域，结合封闭世界假设与开放世界假设预测实体之间的关系。

步骤4、构建评分函数对实体之间的预测关系进行评估，从而获取预测实体之间关系的置信度。

步骤5、构建基于知识-意识的注意力机制，并接收经过编码器编码后的数据以及预测实体之间关系的置信度。

步骤6、通过基于知识-意识的注意力机制的分析，输出最终的预测结果，实现完整的实体对关系的预测以及它们的置信度打分。

本实施例针对封闭世界无法预测知识库中不存在的关系，提出结合封闭世界假设与开放世界假设的关系预测方法，实现实体之间的有效关系预测。

实施例二

在一个实施例一基础上的进一步实施例中，在实现关系预测的过程中，为了有效保护用户隐私文本信息，通过共现图建模剔除敏感信息有效保护患者的隐私，同时为下游任务提供良好的支持。得到的共现图表示为

，每个顶点

表示从语料库中提取的一个实体，每个边

与连接的两个顶点的全局共现计数相关联。具体的，共现图只包括点与边，其中点是医学命名实体，边是实体共同出现的次数，建立共现图时剔除病人的相关信息，自动将敏感信息剔除，达到保护病人隐私的目的。

本实施例针对基于深度学习的医学信息关系抽取领域存在问题和困难，利用共现图建模有效保护患者的隐私，同时为下游任务提供良好的支持。

实施例三

在一个实施例一基础上的进一步实施例中，在医学领域进行实体关系预测时，已有技术采用借鉴人类记忆理论中的回忆理论和识别理论的措施，提出了一个新的解释框架，用于为医学关系预测的合理化提供思路。首先，利用语料库中所有的医疗实体构建共现图，若两个实体同时出现在同一窗口，则两个实体之间存在一条边，边的权重表示共现的次数。在给定临床文本语料库的全局共现图的情况下预测两个实体之间的关系，首先回忆与目标实体相关的丰富上下文，然后识别这些上下文之间的关系交互，形成模型原理，为最终的预测做出贡献。模型充分训练后，在推断阶段，通过反向寻找最高的K个三元组，为头尾结点的关系预测提供可解释的联通路径。

虽然，这种模型原理可以为临床医生提供有价值的信息或新的见解，但是依旧存在以下问题：OWA开放世界假设生成的关系假设不完全有临床医学基础，不一定是正确的；另一方面，强调了模型的可解释性而不是预测性，预测性能较低。

因此，本事实例中针对性提出一种基于开放世界假设的医疗信息关系抽取框架ATTC-GCN，基于该框架进行分析的过程划分为三个阶段，其中第一阶段为全局联想召回阶段，本阶段共有两个分支，第一阶段第一分支为条件概率分支，第一阶段第二分支为Contextualized GCN分支；第二阶段为假设形成与表示阶段；第三阶段为决策预测阶段。

具体的，首先将文本库与语料库中的节点信息输入至第一阶段第一分支，由第一分支经过条件概率计算得到节点与节点之间的关系概率；其次，将文本库与语料库中的文本信息输入至第一阶段第二分支，由第二分支经过Contextualized GCN得到节点与节点之间关系的权重。两个分支同步运行，同时找到关系最为紧密的top K个结点，组成在预测关系中最优的节点序列。

在第一阶段第一分支中，首先将输入的节点信息依次排列后选定。选定的

是给定的实体，选定的实体称为

，即与其直接相连的实体，也就是在共现图中两者存在着边（在共现图中的边集

中存在

），所以才称为关联实体。对于选定的节点实体

，该分支会预测一个条件概率

表示实体

与

的相关性，对应表达式为：

式中，

表示节点嵌入向量；

表示内置元素为d维的实数域；表示给定的实体；

表示文本嵌入向量；

表示从文本语料库中提取的实体数量；表示表示共现图的边集；

表示

的转置；

表示

的转置。

当前阶段可实现根据一个给定的实体

，从

中选择排序靠前的top-N个实体作为的联想体，并用于后续的假设形成。

优选实施例中，经过条件概率计算后会得到对应的概率值，条件概率

表示这两个实体之间的相关性，例如获得阿司匹林与疼痛缓解的相关性，通过这些条件概率数值比较，就能排序得到与给定实体最相关的k个关联实体（联想体）。

在第一阶段第二分支中，构建结合上下文信息的图卷积模型，该模型中包含双向长短时记忆网络，在接收到文本语料库中的文本信息时，首先将文本信息转换为词向量送入双向长短时记忆网络中，从而变成具备上下文的表示；其次，将其作为图卷积模型的输入，经过图卷积模型的分析处理，获得具备相邻节点信息的输出；再次，定义关系抽取任务，用于预测实体之间的关系；从次，通过连接句子和实体表示获得用于分类的最终表示，并输入前馈神经网络FFNN中；最后，通过将前馈神经网络的输出数据输入线性层，并在进行Softmax运算后获得关系上的概率分布，从中选择top K个实体作为

的联想实体，用于后续的假设形成。

其中，给定一个具有n个节点的图，则可以用一个n×n的邻接矩阵A来表示图结构，如果从节点i到节点j存在一条边，那么

。在一个L层的GCN图神经网络中，如果将第l层第i个节点的输入向量表示为

，输出向量表示为

，则图卷积操作表达式为：

式中，

表示线性变换；

表示偏置项；

表示非线性函数；n表示节点的数量。

在进一步的实施例中，在定义关系抽取任务时，具体的实现过程如下：

令

表示句子，其中，

表示第i个单词；将识别主语实体和宾语实体对应于句子中的两个区间，即：

和

。针对给定的

、

和

，关系抽取的目标的是预测实体之间的关系r，其中

，

表示预定义的关系集或者“无关系”。

在对单词向量应用了L层的GCN图神经网络之后，获得每个单词的隐含表示，这些表示直接受其邻居的影响。为了利用这些单词表示进行关系抽取，首先得到如图2左所示的句子，其对应的表达式为：

式中，

表示GCN第L层的总体的隐含表示；

表示从n个输出向量映射到句子向量的最大池化函数。实际应用中可以观察到靠近实体单词的信息通常是关系抽取的核心。因此，从

获得了主语实体的表示

，通过类似的方式获得宾语实体的表示

。其中，

的表达式为：

通过连接句子和实体表示获得用于分类的最终表示，并将它们输入一个前馈神经网络(FFNN)，对应的处理表达式为：

然后将这个

的最后表示输入线性层，再进行Softmax运算，以获得关系上的概率分布；随后，从中选择top-K个实体作为

的联想实体，用于后续的假设形成。

实施例四

在一个实施例一基础上的进一步实施例中，在第一阶段全局联想召回阶段的第一分支中，为了有效估计条件概率以及更新实体嵌入，通过将条件分布概率

接近于经验分布概率

，实现条件概率分布的优化。

其中，经验分布概率

的表达式为：

式中，

表示共现图中的边的集合；

表示节点

和

之间的共同发生数计算出的PPMI(positive pointwise mutual information)值。

实现条件概率分布的优化过程中，采用交叉熵损失函数

进行优化，该函数的表达式为：

结合剩余目标函数的联合训练，当前阶段可实现根据一个给定的实体

，从

实施例五

在一个实施例一基础上的进一步实施例中，在第一阶段全局联想召回阶段的第二分支中，涉及到的双向长短时记忆网络上下文层是与网络的其他部分联合训练的，通过联合训练的方式使得输入词向量中既包含关于词序或消歧的上下文信息，同时也提供了GCN图神经网络所高度依赖的正确的解析树，这样就能更有效的从句子中提取关键信息。

在每棵树转换成相应的邻接矩阵A，将图卷积操作应用于建立模型时，由于节点的度变化很大，片面的应用图卷积运算时会导致节点表示的结果大不相同，因此可能会使得句子表示偏向于高度节点，而不管节点中携带的信息是什么。除此之外，由于邻接矩阵中的节点没有连接到自己，所以第l层第i个节点的输入向量

中的信息从未传递到输出向量

。

本实施例通过归一化操作，在数据传入非线性层之前进行归一化操作，以及通过给图中的每个节点添加自循环的方式解决这些问题，因此，图卷积操作表达式转换为：

式中，

，I表示n×n的单位矩阵；

表示节点i在图中的度。将当前操作叠加L层，获得一个深层GCN网络，并用

表示输入的词向量、

表示输出的词向量。深层GCN网络中的所有操作均可以通过矩阵乘法高效地实现，从而适合于本实施例中给出的批处理计算并在GPU上运行。另外，信息在节点之间的传播是并行的。

实施例六

在一个实施例一基础上的进一步实施例中，封闭世界假设（Closed-WorldAssumption）为传统的接入知识库的方式，通过在知识库中检索实体对来构建潜在关系。例如，图3中（咖啡因，可能治疗，偏头痛）可能存在于SNOMED CT5，就可由此构建一个潜在的关系。对于知识库中不存在的关系，由于封闭世界假设并不能够给出关系预测，因此在获取到最优的节点序列后，进入假设形成与表示的第二阶段时，在当前阶段引入封闭世界假设与开放世界假设原则，针对知识库中不存在的关系，通过使用开放世界假设（Open-WorldAssumptions）来构建潜在关系，即开放世界假设通过表示学习来实现潜在关系的构建。

具体的，有了第一阶段完成的关联实体，将关联实体送入第二阶段假设形成与表示阶段进行假设的制定和表示，本实施例中将模型假设定义为关联之间的关系性互动。

本实施例采用的分析方法，与自然语言处理中广泛采用的基于局部环境的纯注意力权重的解释策略相比，这种关系性理由更加具体，也更容易被人理解。另外与CWA封闭世界架设原理相比，在医学领域，KB医学知识库的稀疏性和不完整性的导致的问题更为严重，本方法同时还使用了开放世界假设，通过估计关联实体之间的所有潜在关系来发现更多样化的定理（可以被视为先验知识）。

在开放世界假设中，给定一对头尾实体

和

，两者满足属于

的前提条件，将它们的相关集合表示为

和

，其中

表示使用关联实体

的数量；

表示使用关联实体

的数量；

表示从语料库中抽取的实体。每个实体都被之前的全局联想召回阶段分配了一个向量化的实体，即嵌入向量。首先测量关系对的之间的会是某种关系的可能性。给定

和

一个关系

，定义一个评分函数

，给三元组的关系进行打分，用于衡量实体对直接的紧密关系，得到合适的关联实体集，其对应表达式为：

式中，

和

表示嵌入向量，关系由一个关系矩阵

进行参数化；

表示一个k层的行向量。这样的评分函数鼓励正确的三元组获得更大的数值。此外，定义了一个NA关系来表示其他无关关系或没有关系的分数，即

，它可以被看作是一个产生合理关系的动态阈值。

现在通过计算给定一对关联的一个关系的条件概率来表述OWA开放世界假设原理，其对应表达式为：

对于每个关联对，

的关系r通过上述表达式计算得到最高值时，只形成与r相关的假设。为了表示假设，将每个关联对的所有关系信息整合到一个向量表示中，同时将

作为所有关系的权重来计算假设表示，即对应表达式为：

最后，结合实体向量和关系向量，得到关联对

假设的最终表示：

式中，

表示向量连接；

表示全连接网络的权重矩阵；

表示全连接网络的偏置项；tanh表示双曲正切函数。

实施例七

在一个实施例一基础上的进一步实施例中，对比人类思维的思考流程，在第二阶段假设形成与表示阶段汇集了所有的假设表示之后进入第三阶段即决策预测阶段。在此阶段中，在假设表示的基础上，定义一个全新的评分函数来评估它的准确性。在整个模型得到充分的训练之后，对三元组进行排序，并选择top K个三元组作为定理输入到基于知识-意识的注意力机制中。与此同时，从最开始的文本库与语料库中的文本经过一个实体编码器进行编码后也输入至基于知识-意识的注意力机制中，最终输出top K个三元组与他们作为定理的置信度。

具体的，在第三阶段中，原始的backbone主干网络，首先将第二阶段中的所有假设进行汇集，利用目标对的加权假设信息表示计算出关系r的二值预测概率。但在开放世界假设中，实体对之间的关系并不是非0即1的。因此本实施例舍弃之前backbone主干网络中的二值预测概率的方法，提出一个全新的打分方式预测目标对关系的置信度。如图4所示，首先将第二阶段CWA封闭世界假设中的显示假设表示与OWA开放世界假设中的隐式假设表示进行汇集；其次，根据给定的实体对实例口袋完成实例嵌入；再次，根据嵌入的类型进行分组；从次，根据分组结果将其送入基于知识-意识的注意力机制，获取文本关系；最后，通过计算关系得分，完成实体对的关系预测以及置信度打分。

其中，汇集假设表示的表达式为：

其中，

表示假设的汇集；

表示显示假设表示；

表示隐式假设表示。

在进一步的实施例中，给定实体对(h,t)及其实例口袋

，使用句编码器实现实例嵌入

。根据词嵌入的类型对其进行分组。然后，对它们应用基于知识-意识的注意力机制，得到文本关系表示

。本实施例提出如下表达式来计算每个实例特征向量

和

之间包含注意力权重（相似性或关联性）的实体表达方式。

式中，

表示

和

的垂直连接；

表示权重矩阵；

表示偏置。对目标实体对进行注意力运算，获得相应的文本关系表示，即：

式中，

表示一个权重矩阵；

表示一个关于查询实体之间满足的关系函数；

表示注意力计算；

表示对输入的文本关系表征和预测关系r的匹配程度进行评分。文本关系表征的计算方法是：

式中，

表示对输入的文本关系表征和预测关系r的匹配程度进行评分。

将不同层的文本关系表征串联起来，作为最终的表示，即：

其中N为层数，表征

最后将被用于计算条件概率

，其表达式为：

式中，

表示；

表示所有关系的得分，定义为：

式中，M表示用于计算关系分数的表示矩阵。其中，注意力权重

是从第二阶段CWA和OWA的输出中获得的，它与数据驱动的学习相比可以提供更多参数上的信息。至此获取到完整的实体对关系的预测以及它们的置信度打分。

实施例八

在一个实施例中，提出一种基于开放世界假设的医疗信息关系预测系统，该系统具体包括：

用于全局联想召回的第一模块；

用于假设形成与表示的第二模块；

用于决策预测的第三模块；

用于实现预测关系输出的第四模块。

其中，第一模块进一步包括：第一分支模块和第二只分支模块；所述第一分支模块用于获取文本语料库中节点信息之间的关系概率；所述第二分支模块用于获取文本语料库中节点信息之间的关系权重。

在进一步的实施例中，读取到文本语料库中的节点信息后，首先传输至第一模块中获取最优的节点序列；其次，第二模块基于最优的节点序列，设定值域，并结合封闭世界假设与开放世界假设预测实体之间的关系；再次，第三模块构建评分函数对实体之间的预测关系进行评估，从而获取预测实体之间关系的置信度；从次，第四模块、构建基于知识-意识的注意力机制，接收经过编码器编码后的数据以及预测实体之间关系的置信度；最后，通过基于知识-意识的注意力机制的分析，输出最终的预测结果，实现完整的实体对关系预测。

实施例九

在一个实施例中，提出一种基于开放世界假设的医疗信息关系预测设备，该设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器读取并执行所述计算机程序指令，以实现医疗信息关系预测方法。

实施例十

在一个实施例中，提出一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现医疗信息关系预测方法。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于开放世界假设的医疗信息关系预测方法，其特征在于，具体包括以下步骤：

步骤1、构建三阶段式分析结构；

2.根据权利要求1所述的一种基于开放世界假设的医疗信息关系预测方法，其特征在于，构建三阶段式分析结构的过程进一步包括：

构建全局联想召回模块，所述全局联想召回模块将分析过程划分为第一分支和第二分支，其中第一分支为条件概率分支，用于获取文本语料库中节点信息之间的关系概率；第二分支为语境图卷积分支，用于获取文本语料库中节点信息之间的关系权重；

构建假设形成与表示模块，用于根据构建全局联想召回模块输出的处理结果，结合封闭世界假设与开放世界假设预测实体之间的关系；

构建决策预测模块，用于根据构建假设形成与表示模块的处理结果，基于知识-意识的注意力机制，接收经过编码器编码后的数据并预测实体之间关系，获取他们之间的置信度。

3.根据权利要求1所述的一种基于开放世界假设的医疗信息关系预测方法，其特征在于，所述最优的节点序列为位于降序排列的前K个节点；

其中降序排列的依据是：根据三阶段式分析结构中的第一阶段分析过程，结合分析结果按照关系紧密程度进行降序排列。

4.根据权利要求1所述的一种基于开放世界假设的医疗信息关系预测方法，其特征在于，得到所述最优的节点序列过程进一步包括以下步骤：

步骤2.1、读取文本预料库中的节点信息；

步骤2.4、选取排名靠前的K个节点作为最优的节点序列。

5.根据权利要求1所述的一种基于开放世界假设的医疗信息关系预测方法，其特征在于，所述封闭世界假设与开放世界假设的结合作为基于知识-意识的注意力机制的输入数据的处理方式，用于作为实体关联之间的关系性预测依据，所述关系性预测依据进一步为：

令假设命题一为封闭世界假设与开放世界假设结合的预测关系结果，假设命题二为目标预测关系；

当假设命题一作为当前已有且成立的一个假设命题时，用于作为假设命题二是否成立的判断依据。

6.根据权利要求1所述的一种基于开放世界假设的医疗信息关系预测方法，其特征在于，结合封闭世界假设与开放世界假设预测实体之间关系的具体步骤为：

步骤3.1、封闭世界假设通过查询知识库获取实体之间的关系；

步骤3.2、开放世界假设通过估计关联实体之间的潜在关系，获取实体之间的关系；

步骤3.3、将封闭世界假设的分析结果与开放世界假设的预测结果进行结合，得到最终的实体关系；

其中，开放世界假设的预测过程具体为：

步骤3.2.1、获取一对头尾实体以及对应的相关集合，并构成三元组；

步骤3.2.2、构建三元组评分函数，用于对三元组的关系进行评分，衡量实体对直接的紧密关系；

步骤3.2.4、根据条件概率表达式，求出每对关联实体之间存在对应关系的可能性；

其中，所述三元组评分函数表达式为：

式中，

表示头实体h的关联实体集中的第i个实体；

表示

与

之间的关系；

表示尾实体t的关联实体集中的第j个实体；

，

表示两个关联实体相应的嵌入向量；

表示一个k层的行向量；其中，

和

关系由一个关系矩阵

进行参数化；

所述关联关系的条件概率表达式为：

式中，

表示头实体h的关联实体集中的第i个实体；

表示

与

之间的关系；

表示尾实体t的关联实体集中的第j个实体；

表示表示设定的阈值；

表示打分函数的结果。

7.根据权利要求1所述的一种基于开放世界假设的医疗信息关系预测方法，其特征在于，所述评分函数用于预测目标对关系的置信度，实现过程为所述三阶段式分析结构的第三阶段，该阶段实现过程具体包括以下步骤：

步骤5.3、根据实例嵌入的类型进行分组；

8.一种基于开放世界假设的医疗信息关系预测系统，用于实现权利要求1-7任意一项医疗信息关系预测方法，其特征在于，所述系统包括：

用于全局联想召回的第一模块；

用于假设形成与表示的第二模块；

用于决策预测的第三模块；

用于实现预测关系输出的输出模块；

所述第一模块进一步包括：第一分支模块和第二只分支模块；所述第一分支模块用于获取文本语料库中节点信息之间的关系概率；所述第二分支模块用于获取文本语料库中节点信息之间的关系权重；

9.一种基于开放世界假设的医疗信息关系预测设备，其特征在于，所述设备包括：

处理器以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-7任意一项医疗信息关系预测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项医疗信息关系预测方法。