CN114880429B

CN114880429B - 基于实体关系映射的医学成果推荐方法及系统

Info

Publication number: CN114880429B
Application number: CN202210480749.5A
Authority: CN
Inventors: 赵晶; 吴栋林
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2024-08-09
Anticipated expiration: 2042-05-05
Also published as: CN114880429A

Abstract

本公开提供了一种基于实体关系映射的医学成果推荐方法,其属于研究成果推荐技术领域，所述方案包括：获取预先构建的医学知识图谱；基于预先训练的知识表示模型对所述医学知识图谱中的实体进行向量化表示；其中，所述知识表示模型基于实体关系映射矩阵和多模式深度嵌入进行构建，通过投影向量产生实体关系映射矩阵，替换TransR模型中的关系映射矩阵；同时，引入多模式深度嵌入概念，在实体与关系建模中加入反向平移几何距离嵌入模型与对称关系嵌入模型；基于获得的实体向量化表示，确定各实体之间的相似度，进而获得用户所关注疾病的研究成果推荐。

Description

基于实体关系映射的医学成果推荐方法及系统

技术领域

本公开属于研究成果推荐技术领域，尤其涉及一种基于实体关系映射的医学成果推荐方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在医疗领域，知识图谱有着十分广泛的应用,医学知识图谱在临床决策支持、医疗智能语义检索、医疗问答等领域具有重要意义。社交媒体具有改变公共卫生的潜力，包括传播健康更新、分享疾病信息等。利用社交媒体传播相关疾病的最新研究成果，使得患者获得最新的研究进展，将十分有利于患者与临床医生沟通交流，并且有利于患者治疗方案的制定。

在现有的知识表示学习方法中，TransE模型是一个十分具有代表性的方法。通过词向量存在平移不变性，因此将知识库中的关系看作实体间的平移向量，也就是在知识表示空间中头实体向量经过关系向量的转换后与尾实体向量的欧氏距离。TransE模型参数较少，计算的复杂度低，能直接建立起实体与关系之间的复杂语义关系。后续基于TransE模型又提出了TransR等多个可以处理一对多、多对一、多对多关系的翻译模型。TransR模型通过对实体多种属性，以及不同关系关注实体不同方面的考量，在实体空间和关系空间中建模实体和关系，并在对应的关系空间中利用关系投影矩阵进行转换。

发明人发现，虽然TransE模型简单有效，但是它在处理一对多、多对一、多对多关系上存在局限性，无法有效区分具有相同关系的不同实体，基于TransE改进的TransR模型解决了上述问题，但是仍然存在以下问题：

(1)使用距离作为评分度量使得知识表示的准确性将会受到无关维度影响，其次，在学习最初TransE可以处理的反转关系模式方面不再有效，无法同时对反转、对称、反对称等关系模式进行建模和推理。

(2)翻译模型多使用基于差距的排序误差函数作为训练模型的优化目标函数，该优化目标函数会最小化负例三元组和正例三元组之间的得分误差总和，因此将其应用于翻译模型时，正例三元组得分可能不够小，无法保持得分函数的关系。

发明内容

本公开为了解决上述问题，提供了一种基于实体关系映射的医学成果推荐方法及系统，所述方案通过对TransR模型进行优化改进，同时考虑了三元组中的实体和关系，自动生成实体关系映射矩阵，提高模型嵌入细粒度，增加计算效率。同时，该模型可以利用反向平移几何距离嵌入模型与对称关系嵌入模型对三元组中存在的反转关系与对称关系进行处理，实现对于关系的全面考量；有效提高了医学成果推荐的准确性。

根据本公开实施例的第一个方面，提供了一种基于实体关系映射的医学成果推荐方法,包括：

获取预先构建的医学知识图谱；其中，所述医学知识图谱包括从医学社交平台中获取的用户信息、疾病信息以及疾病相关的研究成果信息所构成的实体以及各实体间的关系；

基于预先训练的知识表示模型对所述医学知识图谱中的实体进行向量化表示；其中，所述知识表示模型基于实体关系映射矩阵和多模式深度嵌入进行构建，通过投影向量产生实体关系映射矩阵，替换TransR模型中的关系映射矩阵；同时，引入多模式深度嵌入概念，在实体与关系建模中加入反向平移几何距离嵌入模型与对称关系嵌入模型；

基于获得的实体向量化表示，确定各实体之间的相似度，基于所述相似度实现用户所关注疾病的研究成果推荐。

进一步的，所述实体关系映射矩阵，具体为：对于所述医学知识图谱中的三元组，基于头实体、关系以及尾实体的向量表示，分别获得其对应的投影向量；基于所述投影向量将头实体和尾实体分别投影到其关系空间上，获得实体关系映射矩阵。

进一步的，所述多模式深度嵌入概念，具体为：将所述知识图谱中的实体与关系建模为正向平移几何距离的基础上，加入反向平移几何距离嵌入模型与对称关系嵌入模型，通过多模式深度嵌入，实现知识表示模型对反转、对称及反对称关系模式的建模及推理。

进一步的，所述知识表示模型的得分函数具体表示如下：

其中，均为调节参数，S₁为原始得分函数，S₂为基于反转关系模型定义的得分函数，S₃为基于学习对称关系定义的得分函数。

进一步的，所述知识表示模型的训练，采用基于差距的排序误差函数作为目标函数，所述目标函数具体表示为：

loss＝∑_{(h，r，t)∈S}∑_{(h′，r，t′)∈S′}max(0，f_r(h，t)+γ-f_r(h′，t′))

其中，S表示正确三元组的集合，S’表示错误三元组的集合，f_r为得分函数f_M-TransER，h为三元组中的头实体，t为尾实体，r为实体间的关系。

进一步的，所述医学知识图谱构建所需的医学数据，采用爬虫方式从医学相关的社交网络平台进行获取。

根据本公开实施例的第二个方面，提供了一种基于实体关系映射的医学成果推荐系统，包括：

数据获取单元，其用于获取预先构建的医学知识图谱；其中，所述医学知识图谱包括从医学社交平台中获取的用户信息、疾病信息以及疾病相关的研究成果信息所构成的实体以及各实体间的关系；

实体向量化表示单元，其用于基于预先训练的知识表示模型对所述医学知识图谱中的实体进行向量化表示；其中，所述知识表示模型基于实体关系映射矩阵和多模式深度嵌入进行构建，通过投影向量产生实体关系映射矩阵，替换TransR模型中的关系映射矩阵；同时，引入多模式深度嵌入概念，在实体与关系建模中加入反向平移几何距离嵌入模型与对称关系嵌入模型；

医学成果推荐单元，其用于基于获得的实体向量化表示，确定各实体之间的相似度，基于所述相似度实现用户所关注疾病的医学成果推荐。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现一种基于实体关系映射的医学成果推荐方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种基于实体关系映射的医学成果推荐方法。

与现有技术相比，本公开的有益效果是：

(1)本公开提供了一种基于实体关系映射的医学成果推荐方法及系统，所述方案基于TransR模型对其进行改进加以优化，通过引入了实体关系映射矩阵，增加对实体种类与属性的衡量，实现实体与关系更高细粒度的知识表示，保证了医学成果推荐的准确性。

(2)本公开所述方案引入多模式深度嵌入概念，在实体与关系建模为正向平移几何距离嵌入模型的基础之上，融合反向平移几何距离嵌入模型与对称关系嵌入模型，消除模型在处理逆关系上的缺陷，提高对称关系处理的效率，进一步有效提高医学成果推荐的准确性。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例中所述的一种基于实体关系映射的医学成果推荐方法流程图；

图2为本公开实施例中所述的使用实体关系映射矩阵从实体空间转换到关系空间的示意图；

图3(a)至图3(c)分别为本公开实施例中所述的M-TransER模型在不同模式下的几何图示；

图4为本公开实施例中所述的M-TransER模型与基线模型在WN18数据集上进行链路预测的实验结果；

图5为本公开实施例中所述的M-TransER模型与基线模型在FB15K数据集上进行链路预测的实验结果；

图6为本公开实施例中所述的M-TransER模型与基线模型在WN18RR数据集上进行链路预测的实验结果；

图7为本公开实施例中所述的M-TransER模型与基线模型在FB15K-237数据集上进行链路预测的实验结果；

图8为本公开实施例中所述的M-TransER模型与基线模型的三元组分类精度准确性；

图9为本公开实施例中所述的M-TransER模型在WN11数据集中对不同的关系的预测精度；

图10为本公开实施例中所述的M-TransER模型在FB13数据集中对不同的关系的预测精度；

图11为本公开实施例中所述的最新医学研究成果推荐示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种基于实体关系映射的医学成果推荐方法。

如图1所示，一种基于实体关系映射的医学成果推荐方法,包括：

进一步的，所述知识表示模型的得分函数具体表示如下：

具体的，为了便于理解，以下结合附图对本公开所述方案进行详细说明：

在医疗领域，知识图谱有着十分广泛的应用。医学知识图谱在临床决策支持、医疗智能语义检索、医疗问答等领域具有重要意义。随着社会发展，社交媒体成为社会信息互通的重要媒介。特别是社交媒体逐渐成为传播医学最新研究成果一个重要途径，传统医疗正在向智能医疗逐步过渡，社交媒体与医疗领域的不断融合也值得我们更加深入的进行研究。社交媒体具有改变公共卫生的潜力，包括传播健康更新、分享疾病信息等。利用社交媒体传播相关疾病的最新研究成果，使得患者获得最新的研究进展，将十分有利于患者与临床医生沟通交流，并且有利于患者治疗方案的制定。

基于现有技术存在的问题，本实施例提供了一种基于实体关系映射的医学成果推荐方法，所述方法基于本公开提出的一种基于实体关系映射矩阵的多模式嵌入知识表示学习模型M-TransER；所述方法的主要技术构思为：首先利用社交平台网络的一个医学领域数据的子集，并且提取相关数据生成知识图谱，在此基础上利用本公开提出的M-TransER模型进行知识表示，向患者推荐了研究人员在该疾病领域最新研究成果的信息；所述方法主要根据患者喜欢的博文以及患有相同的疾病其他患者的关系来计算这样的博文对相关患者有用的概率，然后应用多模式嵌入的方法对存在的多种类型关系进行处理，基于高效的链接预测功能来推测可能为患者服务的链接。将实体关系映射矩阵的多模式深度嵌入知识表示方法应用到医学与社交平台结合的新领域，从相关的社交平台中提取知识图谱用来验证以及进行与患者相关的实验，以此来帮助患者快速获得所患疾病相关领域的最新研究成果。

所述M-TransER模型的构建主要包括：首先，我们选用实体关系映射矩阵替换关系映射矩阵，在考虑关系多样性的基础上加入了对于实体多样性的衡量。然后，我们将多模式嵌入的概念引入到知识表示学习模型之中。通过引入反向平移几何距离嵌入模型与对称关系嵌入模型，对存在的反转关系进行处理，同时提高对称关系处理的效率。最后，通过基于限制的损失函数优化我们的模型并进行训练；以下对所述M-TransER模型进行详细说明：

(1)实体关系映射矩阵

在模型中，对每个实体以及关系定义两个向量，一个用来表示实体或者关系，另外一个用来构造实体关系映射矩阵。例如，给定三元组(h，r，t)，实体和关系的向量分别是h，r，t下标p标记投影向量h_p，t_p，r_p，其中，和同时对于每个三元组，设置关于h，t的实体关系映射矩阵作用是把头实体和尾实体分别投影到关系空间上，如图2所示，展示了使用实体关系映射矩阵从实体空间转换到关系空间的示意图；具体定义如下：

由公式得出，三元组中的实体与关系共同决定实体关系映射矩阵的构成，利用这种操作使得实体与关系的投影向量交互更加充分，每个元素都可满足另一向量的条目。因此将最初TransR模型中基于关系的映射矩阵替换为实体关系映射矩阵。利用映射矩阵，我们定义投影向量如下：

h_*＝hM_hr，t_*＝tM_tr (2)

得分函数相应的定义为：

S₁＝f_r(h，t) (3)

在实验中我们令||h₂||≤1,||r₂||≤1，||t₂||≤1以及||h_*||≤1，||t_*||≤1。

通过上述将实体关系映射矩阵替换关系映射矩阵的操作，消除了TransR模型中具有不同属性和功能的实体共用相同关系转换参数的缺陷，考虑了实体和关系的多样性，并且用向量操作去掉了之前的矩阵与向量的乘法操作，提高了计算效率。

(2)多模式深度嵌入

根据TrasnR模型存在同时对反转、对称、反对称等关系模式进行建模和推理上的缺陷，在实体与关系建模为正向平移几何距离的基础之上，加入反向平移几何距离嵌入模型与对称关系嵌入模型。通过引入多模式深度嵌入概念，消除模型在处理反转关系上的缺陷，提高多种关系模式同时处理的效率。

逆关系模式：在知识图谱中逆关系可以作为一个强有力的指标。例如，IsParentOf(m，c)表示人物m是另一个人物c的父母，则这也可以表示IsChildOf(c，m)，表示该人物c是m的孩子。该指示在仅在一个方向成立的情况下也是有效的。在这种情况下，即使可能实际的反转关系在知识图谱中不存在，但是仅在单个方向上成立的情况也是有效的，我们依然可以对反转关系进行学习，来提高模型的效率。为了进行反转关系的学习，为反转关系模型定义一个评分函数S₂：

在实验中令||h_*||≤1，||t_*||≤1。

对称关系模式：公式||h_*+r-t_*||可以学习反对称模式，但在学习对称关系时，r趋于零，将会降低模型分离实体的能力。因此对于学习对称关系，定义了一个评分函数S₃：

在实验中令||h_*||≤1，||h_*||≤1。

证明：设R₁，R₂为关系向量表示，E_i，E_j为实体向量表示。当在实体E_i，E_j之间存在关系R₁时，用三元组(E_i，R₁，E_j)来表示，因此我们可以得到以下结果：

反对称模式：如果三元组(E_i，R₁，E_j)和(E_i，R₁，E_j)在方程式1中对S₁成立，则：

因此S₁允许对反对称模式的关系进行编码。

对称模式：如果三元组(E_i，R₁，E_j)和(E_j，R₁，E_i)对S₃成立，则：

因此，S₃允许使用对称模式对关系编码。

逆向模式：如果三元组(E_i，R₁，E_j)和(E_j，R₂，E_i)对S₂成立，则：

因此，S₂允许使用对称模式对关系编码。

如图3(a)至图3(c)所示，分别展示了M-TransER模型在不同模式下的几何图示。

(3)得分函数与损失函数

将第一部分中的实体关系映射矩阵的方法与该部分中的多模式嵌入相互结合，并应用到同一个模型框架之下。当在得分函数中聚合不同的项时，相反向量的总和可能会导致这些向量的范数在优化过程中减小。为了解决这个问题，我们用不同的距离函数来表示具有自变量的相同实体。

对于三元组(h，r，t)，基于实体关系映射矩阵的多模式嵌入M-TransER模型的得分函数定义为得分函数S₁，S₂和S₃的加权和，其得分函数：

上式中，为常数值。

翻译模型多使用基于差距的排序误差函数作为训练模型的优化目标函数：

loss＝∑_{(h，r，t)∈S}∑_{(h′，r，t′)∈S′}max(0，f_r(h，t)+γ-f_r(h′，t′)) (7)

上式中,S是正确三元组的集合，S′是错误三元组的集合。错误三元组是通过打乱已有正确三元组得到。γ用来区分正确三元组与错误三元组的差距，所以基于差距的排序误差函数以最大程度分离正确与错误三元组为目的。但应用上述优化目标函数将会最小化错误三元组和正确三元组之间的得分误差总和，因此将其应用于翻译模型时，正确三元组的得分可能不够小，无法保持得分函数的关系。

因此为了使正确三元组的分数低于错误三元组的分数，定义了基于限制的损失函数，使目标函数最小化，从而使所有正样本的分数小于一个固定的极限。扩展了基于限制的损失函数，使得负样本的分数大于一个固定的极限。我们用相同的损失函数训练我们的模型，即:

其中,[·]₊＝max(0,.)，为正实数值，是正确三元组的集合，是错误三元组的集合。α₁，α₂＞0表示为正确三元组与错误三元组的重要性常数。基于限制的损失函数最小化累计的误差，从而使正确三元组的分数小于γ₁，而错误三元组的分数大于γ₂。

传统的基于翻译的模型中，多采用随机梯度下降法(SGD)实现了目标函数的最小化。SGD使用全局的学习率λ来更新全部参数，无须考虑数据特性。但不频繁出现的实体需要花较长的时间进行学习，频繁出现的实体只需要较短的时间学习。因此采用Adadelta自适应学习率调整训练模型，因为它可以动态调整参数，使得小梯度具有较大的学习率，而大梯度具有较小的学习率。同时，为了加快收敛速度，避免过拟合，对所有的映射矩阵利用单位矩阵进行了初始化。

进一步的，为了证明本实施例所述方案的有效性，以下通过一些公共数据集进行了实验；具体的通过在基准数据集WN18、FB15K、WN18RR、FB15K-237采用链路预测任务以及基准WN11、FB13采用三元组分类任务对M-TransER模型进行评估，比较我们的模型和目前最先进的模型之间的差距。

其中，如图4所示,展示了M-TransER模型与基线模型在WN18数据集上进行链路预测的实验结果；

如图5所示，展示了M-TransER模型与基线模型在FB15K数据集上进行链路预测的实验结果；

如图6所示，展示了M-TransER模型与基线模型在WN18RR数据集上进行链路预测的实验结果；

如图7所示，展示了M-TransER模型与基线模型在FB15K-237数据集上进行链路预测的实验结果；

如图8所示，展示了M-TransER模型与基线模型的三元组分类精度准确性；

如图9所示，展示了M-TransER模型在WN11数据集中对不同的关系的预测精度；

如图10所示，展示了M-TransER模型在FB13数据集中对不同的关系的预测精度；

如图11所示，展示了最新医学研究成果推荐示意图。

大量实验结果表明，相较于现有的模型与方法，本实施例所述M-TransER模型体现出了很强的竞争力；通过引入实体关系映射矩阵并融合多种关系模型，使得M-TransER模型加入了对于实体类型的衡量，并且消除模型在处理逆关系上的缺陷，提高对称关系处理的效率。所以M-TransER模型在链路预测和三元组分类两个任务中的各项指标均取得了很大进步，体现了其优越性。

实施例二：

本实施例的目的是提供一种基于实体关系映射的医学成果推荐系统。

一种基于实体关系映射的医学成果推荐系统，包括：

进一步的，本实施例所述系统与实施例一中所述方法相对应，本系统的所述技术细节已经在实施例一中进行了详细描述，故此处不再赘述。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

上述实施例提供的一种基于实体关系映射的医学成果推荐方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于实体关系映射的医学成果推荐方法,其特征在于，包括：

基于获得的实体向量化表示，确定各实体之间的相似度，基于所述相似度实现用户所关注疾病的研究成果推荐；

所述实体关系映射矩阵，具体为：对于所述医学知识图谱中的三元组，基于头实体、关系以及尾实体的向量表示，分别获得其对应的投影向量；基于所述投影向量将头实体和尾实体分别投影到其关系空间上，获得实体关系映射矩阵；

所述多模式深度嵌入概念，具体为：将所述知识图谱中的实体与关系建模为正向平移几何距离的基础上，加入反向平移几何距离嵌入模型与对称关系嵌入模型，通过多模式深度嵌入，实现知识表示模型对反转、对称及反对称关系模式的建模及推理；

所述知识表示模型的得分函数具体表示如下：

其中，均为调节参数，S₁为原始得分函数，S₂为基于反转关系模型定义的得分函数，S₃为基于学习对称关系定义的得分函数；

所述知识表示模型的训练，采用基于差距的排序误差函数作为目标函数，所述目标函数具体表示为：

2.如权利要求1所述的一种基于实体关系映射的医学成果推荐方法，其特征在于，所述医学知识图谱构建所需的医学数据，采用爬虫方式从医学相关的社交网络平台进行获取。

3.一种基于实体关系映射的医学成果推荐系统，其特征在于，包括：

医学成果推荐单元，其用于基于获得的实体向量化表示，确定各实体之间的相似度，基于所述相似度实现用户所关注疾病的医学成果推荐；

所述知识表示模型的得分函数具体表示如下：

4.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2任一项所述的一种基于实体关系映射的医学成果推荐方法。

5.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-2任一项所述的一种基于实体关系映射的医学成果推荐方法。