CN113535986B - 一种应用于医学知识图谱的数据融合方法及装置 - Google Patents

一种应用于医学知识图谱的数据融合方法及装置 Download PDF

Info

Publication number
CN113535986B
CN113535986B CN202111026237.3A CN202111026237A CN113535986B CN 113535986 B CN113535986 B CN 113535986B CN 202111026237 A CN202111026237 A CN 202111026237A CN 113535986 B CN113535986 B CN 113535986B
Authority
CN
China
Prior art keywords
entity
similarity
head
tail
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111026237.3A
Other languages
English (en)
Other versions
CN113535986A (zh
Inventor
胡佳慧
娄培
赵琬清
方安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medical Information CAMS
Original Assignee
Institute of Medical Information CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medical Information CAMS filed Critical Institute of Medical Information CAMS
Priority to CN202111026237.3A priority Critical patent/CN113535986B/zh
Publication of CN113535986A publication Critical patent/CN113535986A/zh
Application granted granted Critical
Publication of CN113535986B publication Critical patent/CN113535986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种应用于医学知识图谱的数据融合方法及装置,包括:获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;计算所述初始三元组中各个尾实体的相似度;基于所述各个尾实体的相似度计算结果,对各个尾实体进行融合;利用融合后的数据计算各个头实体的相似度;基于头实体的相似度计算结果,对头实体进行融合,得到目标三元组。本发明通过尾实体和头实体的分步计算实现了全部数据的融合,保证了知识图谱中数据的准确性。

Description

一种应用于医学知识图谱的数据融合方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种应用于医学知识图谱的数据融合方法及装置。
背景技术
在构建医疗知识图谱的过程中,数据来源较多,其中,数据可能来源于医学网站、文献、电子病历、临床指南等。在医学网站中包含大量俗语、习惯用语;电子病历中句子语法结构残缺,包含较多缩略语和大量英文缩写,且由于中文医学术语中多词一义现象突出,数据质量良莠不齐,可能存在重复数据、孤立数据、数据粒度不一致等问题。
因此,对多源异构的知识源中的重复、冗余数据进行实体对齐操作是保证知识图谱中数据准确性的关键操作,但是,现有的实体对齐操作并不能准确地对知识图谱中的数据进行有效融合,降低了医学知识图谱的准确性。
发明内容
针对于上述问题,本发明提供一种应用于医学知识图谱的数据融合方法及装置,提升了数据融合的准确性,保证了知识图谱中数据的准确性。
为了实现上述目的,本发明提供了如下技术方案:
一种应用于医学知识图谱的数据融合方法,包括:
获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;
计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果;
基于所述各个尾实体的相似度计算结果,对各个尾实体进行融合;
利用尾实体融合后的数据,计算各个头实体的相似度;
基于各个头实体的相似度计算结果,对各个头实体进行融合,得到目标三元组。
可选地,所述计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果,包括:
获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征;
将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型,得到各个尾实体的融合结果;
将所述各个尾实体的相似度计算结果,确定为各个尾实体的融合结果。
可选地,所述方法还包括:
计算各个尾实体的语义相似度特征,包括:
将各个尾实体转换为词向量;
计算各个词向量之间的距离,并基于所述距离确定各个尾实体的语义相似度,获得语义相似度特征。
可选地,所述方法还包括:
计算各个尾实体的结构相似度,包括:
将所述初始三元组确定为正例,并获取与所述正例对应的负例,所述负例为随机替换所述初始三元组中头实体或尾实体得到的;
通过映射矩阵分别对所述正例和所述负例进行映射,获得第一映射结果和第二映射结果;
基于所述第一映射结果和第二映射结果,利用余弦公式计算得到各个尾实体间的结构相似度特征。
可选地,所述方法还包括:
计算字符相似度特征,包括:
获取各个尾实体的字符信息;
基于所述字符信息,计算字符相似度特征,所述字符相似度特征表征两个尾实体中相同字符个数与总字符数的比值。
可选地,所述获取尾实体融合后的三元组中的头实体,并计算各个头实体的相似度,包括:
获取尾实体融合后的三元组中的头实体的属性特征;
基于所述属性特征,计算各个头实体的属性相似度;
获取尾实体融合后的三元组中的头实体的结构特征,所述结构特征包括两头实体包含的相同尾节点个数、头实体对应的所有尾实体集合中相同字符个数与字符总数的比值和头实体之间的表示学习计算得到的相似度;
基于所述结构特征,计算各个头实体的结构相似度。
可选地,所述基于各个头实体的相似度计算结果,对各个头实体进行融合,包括:
若各个头实体的属性相似度满足融合条件,对各个头实体进行融合,得到头实体融合结果;
若各个头实体的属性相似度不满足融合条件,基于所述各个头实体的结构相似度对各个头实体进行融合,得到头实体融合结果。
一种应用于医学知识图谱的数据融合装置,包括:
获取单元,用于获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;
第一计算单元,用于计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果;
第一融合单元,用于基于所述各个尾实体的相似度计算结果,对各个尾实体进行融合;
第二计算单元,用于获取尾实体融合后的三元组中的头实体,并计算各个头实体的相似度;
第二融合单元,用于基于各个头实体的相似度计算结果,对各个头实体进行融合,得到目标三元组。
一种存储介质,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如上述中任意一项所述的一种应用于医学知识图谱的数据融合方法。
一种电子设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如上述中任意一项所述的一种应用于医学知识图谱的数据融合方法。
相较于现有技术,本发明提供了一种应用于医学知识图谱的数据融合方法及装置,包括:获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果;基于所述各个尾实的相似度计算结果,对各个尾实体进行融合;利用尾实体融合后的数据,计算头实体的相似度;基于头实体的相似度计算结果,对头实体进行融合,得到目标三元组。本发明通过尾实体和头实体的分步计算实现了全部数据的融合,保证了知识图谱中数据的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种应用于知识图的数据融合方法的流程示意图;
图2为本发明实施例提供的一种数据融合的示意图;
图3为本发明实施例提供的一种头实体融合的示意图;
图4为本发明实施例提供的一种应用于医学知识图谱的数据融合装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在医学知识图谱构建过程中,抽取不同来源的三元组数据时数据间可能具有互补、冗余甚至相互冲突,为了保证医学知识图谱数据的准确性,本发明实施例提供了一种应用于知识图谱的数据融合方法,参见图1,该方法可以包括以下步骤:
S101、获取不同数据来源的初始三元组。
其中,初始三元组是抽取不同来源的三元组数据,具体的三元组包括头实体、尾实体和关系。在本发明实施例中将医学知识图谱中的数据分为两大类,头实体特指疾病类型实体,尾实体指除了疾病实体的所有其他类型,例如症状、药物、治疗、检查等。
S102、计算初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果。
S103、基于各个尾实体的相似度计算结果,对各个尾实体进行融合。
首先计算尾实体的相似度,进行尾实体融合。然后利用对齐后的尾实体计算头实体的相似度,通过分布计算最终实现全部数据的融合。在本发明实施例中头实体指的是疾病一种类型,其他所有尾实体与头实体连接,呈现一种以头实体为中心的发散结构。先融合尾实体可以得到更一致的实体表达,再根据融合后信息融合头实体,可以提高融合效率。
相似度计算结果是得到是否可以进行融合的结果,其中,在本发明实施例中的相似度计算的目的是找到不同数据源实体之间的最优对齐。在计算尾实体相似度时主要是通过语义相似度、结构相似度和字符相似度进行计算的。然后将可以融合的尾实体进行融合。
S104、利用尾实体融合后的数据,计算头实体的相似度。
S105、基于头实体的相似度计算结果,对头实体进行融合,得到目标三元组。
在对尾实体进行融合后,再进行头实体融合。进行头实体对齐时,先利用属性进行对齐,对不能对齐的实体,利用图的结构信息计算结构相似度TransR,字符相似度Jaccard系数和相同尾节点个数来融合头实体。
对尾实体和头实体均进行融合后就可以将初始三元组得到融合后的目标三元组,保证了医学知识图谱中数据的准确性。
参见图2,其示出了本发明实施例提供的一种数据融合的示意图。首先,基于语义相似度BERT、Word2vec,结构相似度TransR,字符相似度Jaccard系数,计算两个数据源中尾实体的相似性。尾实体融合帮助我们得到更一致的实体表达。然后,进行头实体对齐,先利用属性进行对齐,对不能对齐的实体,利用图的结构信息计算TransR、Jaccard系数和相同节点个数来融合头实体。
在图2中,数据来源是病历数据源和网络数据源。其中,基于语义相似度进行尾实体融合,基于结构相似度进行头实体融合。在尾实体融合处理中的分类模型输入的是语义相似度特征、结构相似度特征和字符相似度特征,输出的是一个二分类结果,即尾实体是否可以进行融合。在进行头实体融合时,若不能基于头实体的属性对齐,则将相同节点数、Jaccard系数和TransR输入分类模型,得到头实体是否可以进行融合的结果。在完成尾实体和头实体融合后,可以得到融合后的三元组。
在本发明的一种实施方式中,所述计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果,包括:
获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征;
将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型;
将所述各个尾实体的相似度计算结果,确定为各个尾实体的融合结果。
在实体融合任务中,只有两种类型的训练结果(能融合/不能融合),因此将其转换为二分类问题。在尾部实体融合实验中,从实体的3个不同方面提取特征构建模型:语义相似度,结构相似度和字符相似度。通过BERT、Word2vec模型得到实体的语义特征,TransR得到实体结构相似度特征,利用Jaccard系数获得实体的字符相似度特征。将多个特征送入分类模型进行训练学习得到融合结果。
其中,计算各个尾实体的语义相似度特征,包括:将各个尾实体转换为词向量;计算各个词向量之间的距离,并基于所述距离确定各个尾实体的语义相似度,获得语义相似度特征。
在文本型数据的相似度计算中广泛使用到语义模型。使用两种语义模型word2vec模型和BERT模型对不同数据源中的实体构造嵌入,将两个数据源映射到同一向量空间,通过度量空间距离衡量语义上的相似度。
将通用语料和医学领域专业语料结合作为训练语料,训练词向量。给定固定大小窗口的上下文词,每个词向量都经过训练以使词的概率最大化。使用word2vec模型将词映射到固定维度空间,对于实体词使用随机梯度下降的优化方法,最小化目标函数,更新并输出向量,得到实体的向量表示w2v_vec(x)。
由于相似度高的词在向量空间的位置间距小,因此可以通过比较词向量间的距离,完成实体对齐。利用余弦公式度量距离,通过计算两个向量的夹角来评估它们的相似性,实体对相似度值记为Simteal_w2v(x,y):
使用BERT-Base中文来构建尾部实体在不同数据源数据中的嵌入,并通过计算空间距离测量向量的语义相似性。BERT预训练语言模型分为预训练阶段和微调阶段。模型输入是包含实体信息的训练语料。通过预训练阶段的两个预训练任务:学习双向掩码的语言模型对序列中15%的词语进行遮蔽,然后对那些被掩盖的词进行预测;引入Next SentencePrediction(NSP)进行句子分类。训练得到实体向量的表示bert_vec(x),使用余弦相似度来度量向量之间的相似度,得到Simteal_bert(x,y)。
在一种实施方式中,计算各个尾实体的结构相似度,包括:
将所述初始三元组确定为正例,并获取与所述正例对应的负例,所述负例为随机替换所述初始三元组中头实体或尾实体得到的;
通过映射矩阵分别对所述正例和所述负例进行映射,获得第一映射结果和第二映射结果;
基于所述第一映射结果和第二映射结果,利用余弦公式计算得到各个尾实体间的结构相似度特征。
具体的,将抽取得到的三元组数据作为正例(h,r,t),对于每个正例三元组,随机替换头实体(h’,r,t)或尾实体(h,r,t’)生成一个负例。对于一个给定的三元组(h,r,t),TransR模型首先使用关系特定的映射矩阵Mr将实体从实体空间映射到关系空间中,分别得到第一映射结果hr和第二映射结果tr。对于每个三元组其损失函数定义为L,利用梯度下降法对参数进行更新,得到含有实体结构特征的向量Trans_vec(x)。利用余弦公式计算得到两实体间的结构相似度Simteal_trans(x,y)。
在另一种实施方式中,计算字符相似度特征,包括:
获取各个尾实体的字符信息;
基于所述字符信息,计算字符相似度特征,所述字符相似度特征表征两个尾实体中相同字符个数与总字符数的比值。
其中,字符相似度特征用Jaccard系数表示。Jaccard系数可以比较样本集之间的相似性和差异性。对于给定的两个尾实体x,y,Jaccard系数定义为x与y交集的大小与并集大小的比值。使用Jaccard系数来计算两个尾实体中相同字符个数与总字符数的比值Jaccard(x,y)。
在本发明实施例中尾实体融合模型本质是一个分类模型,
在实体对齐任务中,因为数据的类别注释只有两种类型(相同或不同),因此将其转换为二分类问题。在分类问题中,神经网络算法通过多轮迭代和梯度下降可以很好的拟合数据,分别选取上述模型将实体的语义相似度特征Simteal_w2v(x,y)、Simteal_bert(x,y)、结构相似度特征Simteal_trans(x,y)、字符相似度特征Jaccard(x,y)输入神经网络得到实体融合结果。具体的,语义相似度特征、字符相似度特征、结构相似度特征,都是0-1的数值,表示计算出的相似度值,把4个数值输入神经网络训练得到的尾实体融合模型。
参见图3,其示出了本发明实施例提供的一种头实体融合的示意图。尾实体融合完成后,对头实体即疾病实体进行融合。利用两个头实体各自属性的相似性和其结构的相似性进行实体融合。
其中,所述获取尾实体融合后的三元组中的头实体,并计算各个头实体的相似度,包括:获取尾实体融合后的三元组中的头实体的属性特征;基于所述属性特征,计算各个头实体的属性相似度;获取尾实体融合后的三元组中的头实体的结构特征,所述结构特征包括两头实体包含的相同尾节点个数、头实体对应的所有尾实体集合中相同尾节点的字符数与字符总数的比值和利用表示学习计算得到的头实体之间的相似度;基于所述结构特征,计算各个头实体的结构相似度。
对应的,所述基于各个头实体的相似度计算结果,对各个头实体进行融合,包括:若各个头实体的属性相似度满足融合条件,对各个头实体进行融合,得到头实体融合结果;若各个头实体的属性相似度不满足融合条件,基于所述各个头实体的结构相似度对各个头实体进行融合,得到头实体融合结果。
在对头实体进行融合时,属性相似性:利用疾病的别名属性和英文名称属性进行实体对齐,如果两个数据源中头实体具有相同的疾病名称、别称、英文名称即可认为两个实体相同。
结构相似性:
当实体不能通过别名属性进行对齐时,根据结构相似性判断两实体能否对齐。定义两数据源中的某一疾病集合分别为
Figure BDA0003243432130000101
Figure BDA0003243432130000102
对于头实体h1和h2的相似度,计算两头实体包含的相同尾节点个数,用
Figure BDA0003243432130000103
表示。
使用头实体对应尾实体集合的Jaccard系数
Figure BDA0003243432130000104
来计算两个数据源中头实体对应的所有尾实体集合中相同字符个数与字符总数的比值,计算时不考虑集合中词汇之间的顺序。
使用TransR模型训练头实体的向量表示,并使用余弦相似度来计算两个不同头部实体之间的相似度TransR(h1,h2)。
在特征构建完成后,将3个相似度结果
Figure BDA0003243432130000105
Figure BDA0003243432130000106
TransR(h1,h2)作为特征输入到神经网络中进行头实体分类,得到头实体融合结果。
在本发明实施例提供的一种应用于医学知识图谱的数据融合方法,在尾部实体融合方法中,从实体的3个不同方面提取特征构建模型:语义相似度,结构相似度和字符相似度。分别通过BERT、Word2vec模型得到实体的语义相似度,TransR得到实体结构相似度,利用Jaccard系数获得实体的字符相似度特征。将3个特征送入分类模型进行训练得到尾实体融合结果。然后利用对齐后的尾实体进行头实体融合,计算头实体的相似度。利用两个头实体各自属性相似性和其结构相似性进行实体融合。属性的相似性指利用疾病的别名属性和英文名称属性进行实体对齐。结构相似性从3个不同方面提取特征构建模型,包括:两头实体对应的相同尾节点个数,对应的尾实体集合的Jaccard系数,TransR相似度。提升了数据融合的准确性,保证了知识图谱中数据的准确性。
在本发明的另一实施例中还提供了一种应用于医学知识图谱的数据融合装置,参见图4,该装置包括:
获取单元,用于获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;
第一计算单元10,用于计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果;
第一融合单元20,用于基于所述各个尾实体的相似度计算结果,对各个尾实体进行融合;
第二计算单元30,用于利用尾实体融合后的数据,计算各个头实体的相似度;
第二融合单元40,用于基于各个头实体的相似度计算结果,对各个头实体进行融合,得到目标三元组。
进一步地,所述第一计算单元包括:
第一获取子单元,用于获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征;
模型处理子单元,用于将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型,得到各个尾实体的融合结果;
第一确定子单元,用于将所述各个尾实体的相似度结果,确定为各个尾实体的融合结果。
可选地,所述装置还包括:
语义计算单元,用于计算各个尾实体的语义相似度特征,所述语义计算单元具体用于:
将各个尾实体转换为词向量;
计算各个词向量之间的距离,并基于所述距离确定各个尾实体的语义相似度,获得语义相似度特征。
可选地,所述装置还包括:
结构计算单元,用于计算各个尾实体的结构相似度,所述结构计算单元具体用于:
将所述初始三元组确定为正例,并获取与所述正例对应的负例,所述负例为随机替换所述初始三元组中头实体或尾实体得到的;
通过映射矩阵分别对所述正例和所述负例进行映射,获得第一映射结果和第二映射结果;
基于所述第一映射结果和第二映射结果,利用余弦公式计算得到各个尾实体间的结构相似度特征。
可选地,所述装置还包括:
字符计算单元,用于计算字符相似度特征,所述字符计算单元具体用于:
获取各个尾实体的字符信息;
基于所述字符信息,计算字符相似度特征,所述字符相似度特征表征两个尾实体中相同字符个数与总字符数的比值。
进一步地,所述第二计算单元包括:
第二获取子单元,用于获取尾实体融合后的三元组中的头实体的属性特征;
第一计算子单元,用于基于所述属性特征,计算各个头实体的属性相似度;
第三获取子单元,用于获取尾实体融合后的三元组中的头实体的结构特征,所述结构特征包括两头实体包含的相同尾节点个数、头实体对应的所有尾实体集合中相同字符个数与字符总数的比值和利用表示学习计算得到的头实体之间的相似度;
第二计算子单元,用于基于所述结构特征,计算各个头实体的结构相似度。
进一步地,所述第二融合单元具体用于:
若各个头实体的属性相似度满足融合条件,对各个头实体进行融合,得到头实体融合结果;
若各个头实体的属性相似度不满足融合条件,基于所述各个头实体的结构相似度对各个头实体进行融合,得到头实体融合结果。
在本发明实施例中提供了一种应用于医学知识图谱的数据融合装置,包括:获取单元获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;第一计算单元计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果;第一融合单元基于所述各个尾实的相似度计算结果,对各个尾实体进行融合;第二计算单元利用尾实体融合后的数据,计算各个头实体的相似度;第二融合单元基于各个头实体的相似度计算结果,对各个头实体进行融合,得到目标三元组。本发明通过尾实体和头实体的分布计算实现了全部数据的融合,保证了知识图谱中数据的准确性。
基于前述实施例,本发明的实施例还提供了一种存储介质,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如上述中任意一项所述的一种应用于医学知识图谱的数据融合方法。
基于前述实施例,本发明的实施例还提供了一种电子设备,该电子设备包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如上述中任意一项所述的一种应用于医学知识图谱的数据融合方法。
需要说明的是,上述处理器或CPU可以为特定用途集成电路(ApplicationSpecific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable GateArray,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
需要说明的是,上述计算机存储介质/存储器可以是只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本发明所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本发明所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种应用于医学知识图谱的数据融合方法,其特征在于,包括:
获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;
计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果,所述计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果,包括:获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征;将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型,得到各个尾实体的融合结果;将所述各个尾实体的相似度计算结果,确定为各个尾实体的融合结果;
基于所述各个尾实体的相似度计算结果,对各个尾实体进行融合;
利用尾实体融合后的数据,计算头实体的相似度,所述利用尾实体融合后的数据,计算头实体的相似度,包括:获取尾实体融合后的三元组中的头实体的属性特征;基于所述属性特征,计算各个头实体的属性相似度;获取尾实体融合后的三元组中的头实体的结构特征,所述结构特征包括两头实体包含的相同尾节点个数、头实体对应的所有尾实体集合中相同尾节点的字符数与字符总数的比值和利用表示学习计算得到的头实体之间的相似度;基于所述结构特征,计算各个头实体的结构相似度;
基于头实体的相似度计算结果,对头实体进行融合,得到目标三元组,所述基于头实体的相似度计算结果,对头实体进行融合,包括:若各个头实体的属性相似度满足融合条件,对各个头实体进行融合,得到头实体融合结果;若各个头实体的属性相似度不满足融合条件,基于所述各个头实体的结构相似度对各个头实体进行融合,得到头实体融合结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算各个尾实体的语义相似度特征,包括:
将各个尾实体转换为词向量;
计算各个词向量之间的距离,并基于所述距离确定各个尾实体的语义相似度,获得语义相似度特征。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算各个尾实体的结构相似度,包括:
将所述初始三元组确定为正例,并获取与所述正例对应的负例,所述负例为随机替换所述初始三元组中头实体或尾实体得到的;
通过映射矩阵分别对所述正例和所述负例进行映射,获得第一映射结果和第二映射结果;
基于所述第一映射结果和第二映射结果,利用余弦公式计算得到各个尾实体间的结构相似度特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算字符相似度特征,包括:
获取各个尾实体的字符信息;
基于所述字符信息,计算字符相似度特征,所述字符相似度特征表征两个尾实体中相同字符个数与总字符数的比值。
5.一种应用于医学知识图谱的数据融合装置,其特征在于,包括:
获取单元,用于获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;
第一计算单元,用于计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果,所述计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果,包括:获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征;将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型,得到各个尾实体的融合结果;将所述各个尾实体的相似度计算结果,确定为各个尾实体的融合结果;
第一融合单元,用于基于所述各个尾实体的相似度计算结果,对各个尾实体进行融合;
第二计算单元,用于利用尾实体融合后的数据,计算各个头实体的相似度,所述利用尾实体融合后的数据,计算头实体的相似度,包括:获取尾实体融合后的三元组中的头实体的属性特征;基于所述属性特征,计算各个头实体的属性相似度;获取尾实体融合后的三元组中的头实体的结构特征,所述结构特征包括两头实体包含的相同尾节点个数、头实体对应的所有尾实体集合中相同尾节点的字符数与字符总数的比值和利用表示学习计算得到的头实体之间的相似度;基于所述结构特征,计算各个头实体的结构相似度;
第二融合单元,用于基于头实体的相似度计算结果,对头实体进行融合,得到目标三元组,所述基于头实体的相似度计算结果,对头实体进行融合,包括:若各个头实体的属性相似度满足融合条件,对各个头实体进行融合,得到头实体融合结果;若各个头实体的属性相似度不满足融合条件,基于所述各个头实体的结构相似度对各个头实体进行融合,得到头实体融合结果。
6.一种存储介质,其特征在于,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如权利要求1-4中任意一项所述的一种应用于医学知识图谱的数据融合方法。
7.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如权利要求1-4中任意一项所述的一种应用于医学知识图谱的数据融合方法。
CN202111026237.3A 2021-09-02 2021-09-02 一种应用于医学知识图谱的数据融合方法及装置 Active CN113535986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111026237.3A CN113535986B (zh) 2021-09-02 2021-09-02 一种应用于医学知识图谱的数据融合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111026237.3A CN113535986B (zh) 2021-09-02 2021-09-02 一种应用于医学知识图谱的数据融合方法及装置

Publications (2)

Publication Number Publication Date
CN113535986A CN113535986A (zh) 2021-10-22
CN113535986B true CN113535986B (zh) 2023-05-05

Family

ID=78092366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111026237.3A Active CN113535986B (zh) 2021-09-02 2021-09-02 一种应用于医学知识图谱的数据融合方法及装置

Country Status (1)

Country Link
CN (1) CN113535986B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139547B (zh) * 2021-11-25 2023-07-04 北京中科闻歌科技股份有限公司 知识融合方法、装置、设备、系统及介质
CN113901238B (zh) * 2021-12-07 2022-02-18 武大吉奥信息技术有限公司 一种城市体检指标知识图谱构建方法及系统
CN115168599B (zh) * 2022-06-20 2023-06-20 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN110347843A (zh) * 2019-07-10 2019-10-18 陕西师范大学 一种基于知识图谱的中文旅游领域知识服务平台构建方法
CN111813962A (zh) * 2020-09-07 2020-10-23 北京富通东方科技有限公司 一种用于知识图谱融合的实体相似度计算方法
CN112632290A (zh) * 2020-12-21 2021-04-09 浙江大学 一种融合图结构和文本信息的自适应知识图谱表示学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169454B2 (en) * 2016-05-17 2019-01-01 Xerox Corporation Unsupervised ontology-based graph extraction from texts

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN110347843A (zh) * 2019-07-10 2019-10-18 陕西师范大学 一种基于知识图谱的中文旅游领域知识服务平台构建方法
CN111813962A (zh) * 2020-09-07 2020-10-23 北京富通东方科技有限公司 一种用于知识图谱融合的实体相似度计算方法
CN112632290A (zh) * 2020-12-21 2021-04-09 浙江大学 一种融合图结构和文本信息的自适应知识图谱表示学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Embedding Attribute and Relation Information for Person Entity Alignment;Can Wang 等;《2020 6th International Conference on Big Data and Information Analytics (BigDIA)》;228-235 *
基于联合语义表示的不同知识库中的实体对齐方法研究;李文娜 等;《数据分析与知识发现 》(第7期);1-9 *
融合多维特征的医学知识图谱分步实体对齐方法;娄培 等;《中华医学图书情报杂志》;第31卷(第3期);40-47 *

Also Published As

Publication number Publication date
CN113535986A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113535986B (zh) 一种应用于医学知识图谱的数据融合方法及装置
CN109472033B (zh) 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
CN110019732B (zh) 一种智能问答方法以及相关装置
US11176462B1 (en) System and method for prediction of protein-ligand interactions and their bioactivity
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
CN112883736A (zh) 医疗实体关系抽取方法和装置
Xue et al. Automatic generation and recommendation for API mashups
CN113704415B (zh) 医学文本的向量表示生成方法和装置
CN115713078A (zh) 知识图谱构建方法、装置、存储介质及电子设备
CN116383412B (zh) 基于知识图谱的功能点扩增方法和系统
CN115640378A (zh) 工单检索方法、服务器、介质及产品
CN112651590B (zh) 一种指令处理流程推荐的方法
Zhang et al. Chinese medical entity recognition model based on character and word vector fusion
CN115526177A (zh) 对象关联模型的训练
CN114417016A (zh) 一种基于知识图谱的文本信息匹配方法、装置及相关设备
CN112712866A (zh) 一种确定文本信息相似度的方法及装置
CN113436689B (zh) 药物分子结构预测方法、装置、设备及存储介质
CN116127053B (zh) 实体词消歧、知识图谱生成和知识推荐方法以及装置
CN116631642B (zh) 一种临床发现事件的抽取方法及装置
Nguyen et al. Medical Prescription Recognition Using Heuristic Clustering and Similarity Search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant