CN115658925B - 医学知识组的生成方法、装置、计算机设备和存储介质 - Google Patents
医学知识组的生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115658925B CN115658925B CN202211452261.8A CN202211452261A CN115658925B CN 115658925 B CN115658925 B CN 115658925B CN 202211452261 A CN202211452261 A CN 202211452261A CN 115658925 B CN115658925 B CN 115658925B
- Authority
- CN
- China
- Prior art keywords
- attribute
- group
- value
- medical
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012512 characterization method Methods 0.000 claims abstract description 11
- 108091026890 Coding region Proteins 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 10
- 206010022694 intestinal perforation Diseases 0.000 description 30
- 239000013598 vector Substances 0.000 description 15
- 230000001605 fetal effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000968 intestinal effect Effects 0.000 description 5
- 206010011224 Cough Diseases 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000007721 medicinal effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000000428 dust Substances 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 206010074160 Neonatal intestinal perforation Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 208000008384 ileus Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 208000003243 intestinal obstruction Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本说明书实施方式提供了一种医学知识组的生成方法、装置、计算机设备和存储介质。所述方法包括:获取医学知识图谱中针对同一个医学对象的多个多元组数据;其中,多元组数据用于表征所述医学对象的医学特性;不同多元组数据表征的医学特性不同;所述多元组数据包括表示所述医学特性的属性和属性取值;根据所述多个多元组数据的属性,在所述多个多元组数据划分出多个属性组;结合所述属性组和所述属性取值,生成表征医学概念的医学知识组;其中,不同医学知识组包括的多元组数据不同。通过将多元组数据的属性划分为多个属性组,进一步地结合属性组和属性组对应的属性取值,在一定程度上提高了医学知识组的生成效率。
Description
技术领域
本说明书中实施方式关于数据处理领域,具体关于一种医学知识组的生成方法、装置、计算机设备和存储介质。
背景技术
目前,构建医学知识图谱的过程,通常会在医学语料库中抽取三元组,来构建知识图谱。医学三元组通常可以根据医学概念、属性和属性值三个部分形成。其中,属性和属性值可以用于表征医学概念。由于医学领域复杂的知识体系和精准的医学要求,直接使用属于同一个医学概念的三元组,来表征所述医学概念的医学特性是不准确的。
例如,在医学语料库中可能抽取到以下两个三元组:(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)和(新生儿肠穿孔合并宫腔内梗阻,发生,胎儿期)。这两个三元组都可以用于描述“新生儿肠穿孔合并宫腔内梗阻”这一个医学概念。然而,新生儿肠穿孔合并宫腔内梗阻的相关形态为穿孔的情况下,只可能出现在新生儿时期,而不太可能出现在胎儿期。因此,通过以上两个三元组来共同表征“新生儿肠穿孔合并宫腔内梗阻”这一个医学概念并不准确。
因此,为提升知识图谱描述的准确性,医学专家会将相同医学概念下的三元组划分为多个医学知识组。即把具有关联的属性和属性值分为一组,每一组知识都是对当前医学概念的最小表达。但是,在大数据的背景下,会有非常大量的数据规模,采用人工的方式对三元组进行成组划分效率较低。
因此,现有技术中存在生成医学知识组的效率较低的技术问题。
发明内容
有鉴于此,本说明书多个实施方式致力于提供一种医学知识组的生成方法、装置、计算机设备和存储介质,以一定程度上提高了医学知识组的生成效率。
本说明书中多个实施方式提供一种医学知识组的生成方法,所述方法包括:获取医学知识图谱中针对同一个医学对象的多个多元组数据;其中,多元组数据用于表征所述医学对象的医学特性;不同多元组数据表征的医学特性不同;所述多元组数据包括表示所述医学特性的属性和属性取值;根据所述多个多元组数据的属性,在所述多个多元组数据中划分出多个属性组;结合所述属性组和所述属性取值,生成表征医学知识的医学知识组;其中,不同医学知识组包括的多元组数据不同。
本说明书中多个实施方式提供一种医学知识组的生成方法一种知识组的生成方法,所述方法包括:获取知识图谱中针对同一个对象的多个多元组数据;其中,多元组数据用于表征所述对象的特性;不同多元组数据表征的特性不同;所述多元组数据包括表示所述对象的特性的属性和属性取值;根据所述多个多元组数据的属性,在所述多个多元组数据划分出多个属性组;结合所述属性组和所述属性取值,生成表征所述对象的知识组;其中,不同知识组包括的多元组数据不同。
本说明书中多个实施方式提供一种知识组的生成装置,所述装置包括:获取模块,用于获取知识图谱中针对同一个对象的多个多元组数据;其中,多元组数据用于表征所述对象的特性;不同多元组数据表征的特性不同;所述多元组数据包括表示所述对象的特性的属性和属性取值;划分模块,用于根据所述多个多元组数据的属性,在所述多个多元组数据划分出多个属性组;生成模块,用于结合所述属性组和所述属性取值,生成表征所述对象的知识组;其中,不同知识组包括的多元组数据不同。
本说明书实施方式提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述任一实施方式所述的方法。
本说明书实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述任一实施方式所述的方法。
本说明书提供的多个实施方式,通过根据多元组数据的属性划分为多个属性组,进一步地结合属性组和属性组对应的属性取值,生成医学知识组,在一定程度上提高了医学知识组的生成效率。
附图说明
图1为本说明书的一个实施方式提供的医学知识组的生成方法的场景示例的示意图。
图2为本说明书的一个实施方式提供的医学知识组的生成方法的流程示意图。
图3为本说明书的一个实施方式提供的结合概率的生成模型的示意图。
图4为本说明书的一个实施方式提供的知识组的生成方法的流程示意图。
图5为本说明书的一个实施方式提供的医学知识组的生成装置的示意图。
图6为本说明书的一个实施方式提供的知识组的生成装置的示意图。
图7为本说明书的一个实施方式提供的计算机设备的示意图。
具体实施方式
概述
在相关技术中,在抽取到多个三元组后,为提升知识图谱描述的准确性,医学专家会对抽取到的相关概念进行分组。其中,三元组数据可以根据医学概念、属性和属性取值组成。例如,(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)可以是一个三元组。其中,“新生儿肠穿孔合并宫腔内梗阻”可以是三元组的一个医学概念。“相关形态”可以三元组的属性。“穿孔”可以是三元组的属性取值。
在分组过程中,医学专家可能会根据成组的定义人工将属于同一个医学概念的三元组进行分组。即,把具有关联的属性和属性值分为一组。例如,omaha公司构建的“七巧板”临床术语集定义了属性成组的概念。
然而,构建知识图谱的三元组数量较为庞大。因此,通过医学专家人工对三元组进行划分,以形成医学知识组需要耗费较长的时间。
因此,有必要提供一种医学知识组的生成方法,可以通过将多元组数据的属性划分为多个属性组。进一步地结合属性组和属性组对应的属性取值,实现解决提高医学知识组的生成效率的技术问题。
场景示例
请参阅图1,本说明书中提供一种医学知识组的生成方法的应用场景示例。
在本场景示例中,医学知识组的生成方法可以部署在医学知识组的生成系统中。医学知识组的生成系统可以获取已经在医学语料库中抽取得到的多个三元组,并且根据三元组的医学概念,将抽取得到的多个三元组进行分类,得到多个对应同一个医学概念的三元组集合。示例性的,一个三元组集合可以包括以下多个三元组:(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)、(新生儿肠穿孔合并宫腔内梗阻,相关形态,内梗阻)、(新生儿肠穿孔合并宫腔内梗阻,发生,新生儿)、(新生儿肠穿孔合并宫腔内梗阻,发生,胎儿期)、(新生儿肠穿孔合并宫腔内梗阻,病位,肠结构)、(新生儿肠穿孔合并宫腔内梗阻,病位,肠腔结构)、(新生儿肠穿孔合并宫腔内梗阻,由于,肠梗阻)。
为便于描述,医学概念“新生儿肠穿孔合并宫腔内梗阻”可以通过Co1表示。属性“相关形态”可以通过K1表示。属性“发生”可以通过K2表示。属性“病位”可以通过K3表示。属性“由于”可以通过K4表示。属性取值“穿孔”可以通过V1表示。属性取值“内梗阻”可以通过V2表示。属性取值“新生儿”可以通过V3表示。属性取值“胎儿期”可以通过V4表示。属性取值“肠结构”可以通过V5表示。属性取值“肠腔结构”可以通过V6表示。属性取值“肠梗阻”可以通过V7表示。
对于对应同一个医学概念一个三元组集合中的三元组,医学知识组的生成系统可以提取三元组的属性,并对提取到属性进行排列组合,得到多个基准属性组。示例性的,抽取到的属性可以包括K1、K2、K3、K4。相应的,基准属性组可以包括[K1]、[K2]、[K3]、[K4]、[K1,K2]、[K1,K3]、[K1,K4]、[K2,K3]、[K2,K4]、[K3,K4]、[K1,K2,K3]、[K1,K2,K4]、[K1,K3,K4]、[K2,K3,K4]和[K1,K2,K3,K4]。
进一步地,医学知识组的生成系统可以针对每一个基准属性组,统计基准属性组的属性在已经生成的医学知识组中出现的次数,来确定基准属性组中的属性可以形成一个属性组的属性成组概率。其中,一个属性组中的属性可以形成医学知识组。并且,根据基准属性组的成组概率,将多个基准属性组进行筛选,筛选得到的基准属性组确定为属性组。其中,筛选得到的属性组中属性的并集,可以包括所述三元组集合中所有三元组的属性。示例性的,筛选得到的属性组可以为[K1,K2,K3]和[K4]。
进一步地,医学知识组的生成系统可以针对每一个属性组,接着所述属性组中属性对应的属性取值进行排列组合,得到多个基准取值组。其中,基准取值组包括相对应的属性组中每个属性的取值,且不同属性取值对应的属性不同。示例性的,K1对应的属性取值有V1、V2。K2对应的属性取值有V3、V4。K3对应的属性取值有V5、V6。K4对应的属性取值为V7。相应的,属性组[K1,K2,K3]对应的基准取值组可以包括:[V1,V3,V5]、[V1,V3,V6]、[V1,V4,V5]、[V1,V4,V6]、[V2,V3,V5]、[V2,V3,V6]、[V2,V4,V5]、[V2,V4,V6]。属性组[K4]对应的基准取值组可以包括[V7]。
接着,医学知识组的生成系统可以针对每一个基准取值组,统计基准取值组的属性取值在已经生成的医学知识组中出现的次数,来确定基准取值组中的属性取值可以形成一个医学知识组的取值成组概率。并且,根据基准取值组的取值成组概率,确定目标取值组。示例性的,属性组[K1,K2,K3]对应的目标取值组可以包括[V1,V4,V5]和[V2,V3,V6]。属性组[K4]对应的目标取值组可以为[V7]。
最后,根据目标取值组和相应的属性组,可以形成医学知识组。示例性的,最终生成的医学知识组可以为[(K1,V1),(K2,V4),(K3,V5)]、[(K1,V2),(K2,V3),(K3,V6)]和[(K4,V7)]。
系统架构
本说明书实施方式提供一种医学知识组的生成系统。所述医学知识组的生成系统可以包括服务器。服务器可以用于执行医学知识组的生成方法。服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然,所述服务器也可以是指运行于所述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。或者,随着科学技术的发展,服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如,可以是基于量子计算实现的新形态的“服务器”。
示例的方法
请参阅图2,本说明书的一个实施方式提供一种医学知识组的生成方法。所述医学知识组的生成方法可以应用于服务器。所述医学知识组的生成方法可以包括以下步骤。
步骤S110:获取医学知识图谱中针对同一个医学对象的多个多元组数据;其中,多元组数据用于表征所述医学对象的医学特性;不同多元组数据表征的医学特性不同;所述多元组数据包括表示所述医学特性的属性和属性取值。
在一些情况下,在生成医学知识组之前,需要获取针对同一个医学概念的多元组数据。进一步地将所述多元组数据进行划分,可以生成相应的医学知识组。
在本实施方式中,所述医学对象可以表示医学领域的需要进行表征的任一对象。其中,所述医学对象可以包括表示临床观念的医学概念。所述医学对象可以涉及疾病、症状、解刨、手术、药品、生物、医疗器械、检验检查等任一医学领域。具体的,例如,“新生儿肠穿孔合并宫腔内梗阻”这一症状可以作为一个医学对象。“三味止咳片”这一药品也可以作为一个医学对象。
在本实施方式中,所述多元数据组可以用于表征一个医学对象的医学特性。具体的,所述多元组数据可以至少包括表示医学特性的属性和属性取值。例如,多元组数据可以是一个三元组(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)。其中,“新生儿肠穿孔合并宫腔内梗阻”可以表示该三元组描述的医学对象。“相关形态”可以是属性。“穿孔”可以是属性取值。该三元组可以表示新生儿肠穿孔合并宫腔内梗阻的相关形态可以是穿孔。即,通过属性和对应的属性取值,可以用于表示“新生儿肠穿孔合并宫腔内梗阻”的医学特性。或者,多元组数据表示的一个三元组为(三味止咳片,服用方式,口服)的情况下,医学对象可以是“三味止咳片”。属性可以是“服用方式”。属性取值可以是“口服”。通过“服用方式”这一属性和“口服”这一个属性取值,可以表示“三味止咳片”的具有疗效的使用方式这一个医学特性。
在本实施方式中,不同多元组数据表征的医学特性可以不同。例如,(新生儿肠穿孔合并宫腔内梗阻,发生,胎儿期)这一个三元组表示新生儿肠穿孔合并宫腔内梗阻可以发生在胎儿期这一医学特性。与(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)表示的医学特性不同。
在本实施方式中,多元组数据具有组内对象的数量可以任意。具体的,例如,多元组数据可以表示三元组。当然,所述多元组数据也可以表示五元组等。
获取医学知识图谱中针对同一个医学对象的多个多元组数据的方式,可以是在数据库中读取已经抽取得到的多元组数据。当然,获取医学知识图谱中针对同一个医学对象的多个多元组数据的方式,也可以是在医学语料库中抽取三元组得到。
步骤S120:根据所述多个多元组数据的属性,在所述多个多元组数据中划分出多个属性组。
在一些情况下,能够形成同一个医学知识组的多元组数据之的属性之间具有相关性。因此,在对多元组数据进行分组,以形成相应的三元组的过程中,可以先基于多元组数据的属性进行分组。
在一些情况下,直接根据多元组数据之间的相关性进行分组相对困难。因此,可以先通过分析属性之间的相关性,来为属性划分组别。进一步地,结合属性组合相应的属性取值,生成医学知识组会相对更加简便。
在本实施方式中,所述属性组可以包括所述多个多元组数据的属性。当然,所述属性组也可以包括所述属性对应的属性取值。在一些实施方式中,不同属性组包括的属性之间可以不具有交集。
在本实施方式中,根据所述多个多元组数据的属性,在所述多个多元组数据中划分出多个属性组的方式,可以是先对所述多元组数据的属性进行排列组合,得到多个基准属性组。接着根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,来确定基准属性组中属性可以形成一个属性组的属性成组概率。进一步地,通过属性成组概率可以筛选基准属性组,并将筛选得到的至少一个基准属性组作为属性组。当然,根据所述多个多元组数据的属性,在所述多个多元组数据中划分出多个属性组的方式,也可以将所述多元组数据的属性进行排列组合得到的基准属性组直接作为所述属性组。进一步地,结合所述属性组和所述属性组中属性的属性取值判定相应的属性组中属性能否形成一个医学知识组。
步骤S130:结合所述属性组和所述属性取值,生成表征医学知识的医学知识组;其中,不同医学知识组包括的多元组数据不同。
在一些情况下,在确定属性组后,可以结合属性组以及属性组中的属性所对应的属性取值,来生成医学知识组。
在本实施方式中,所述医学知识组可以用于表示一个医学对象的医学知识。所述医学知识可以是对医学对象的一个最小表达。具体的,所述医学知识组包括的表示医学对象的医学特性的多元组数据可以用于描述医学对象的一个医学状态。
具体的,例如,(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)、(新生儿肠穿孔合并宫腔内梗阻,发生,新生儿)、(新生儿肠穿孔合并宫腔内梗阻,病位,肠结构)这三个多元组数据可以用于生成医学知识组1。(新生儿肠穿孔合并宫腔内梗阻,相关形态,内梗阻)、(新生儿肠穿孔合并宫腔内梗阻,发生,新生儿)、(新生儿肠穿孔合并宫腔内梗阻,病位,肠腔结构)这三个多元组数据可以用于生成医学知识组2。其中,医学知识组1和医学知识组2对新生儿肠穿孔合并宫腔内梗阻的描述可以属于新生儿肠穿孔合并宫腔内梗阻不同的医学状态。具体的,医学知识组1和医学知识组2所分别表现出的医学对象的医学特性可能具有一定的互斥关系。例如,新生儿肠穿孔合并宫腔内梗阻的相关形态为穿孔的情况下,只可能出现在新生儿时期,而不太可能出现在胎儿期。因此,对多元组数据进行分组后生成的医学知识组可以是对医学对象的一个最小表达。
在本实施方式中,结合所述属性组和所述属性取值,生成表征医学知识的医学知识组的方法,可以是基于属性组中的属性所对应的属性取值,为所述属性组的属性分配不同组合的属性取值,得到基准取值组。其中,所述基准取值组包括所述属性组中的每个属性的属性取值,且不同属性取值对应的属性不同。进一步地,根据基准取值组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,生成基准取值组的取值成组概率。根据基准取值组的取值成组概率,可以在基准取值组中确定目标取值组。最后根据所述目标取值组包括的属性取值和所述属性取值对应的属性,确定所述医学知识组。
当然,结合所述属性组和所述属性取值,生成表征医学知识的医学知识组的方法,也可以先获取根据属性组中属性对应的属性取值排列组合得到的基准取值组。接着,根据所述基准取值组,构建多个取值序列。另外,基于所述属性组中的属性可以构建属性序列。其中,每个属性序列可以对应至少一个取值序列。属性序列中属性与取值序列的取值序列可以具有对应关系。例如,属性K1对应的属性取值为V1、V2。属性K2对应的属性取值为V3、V4。属性组[K1,K2]对应的属性序列为K1-K2。相应的,属性序列K1-K2对应的取值序列可以包括V1-V3、V1-V4、V2-V3、V2-V4。接着,可以分别对属性序列和所述属性序列对应的取值序列进行编码,得到属性编码序列和取值编码序列。通过预先训练的分类器可以对将属性编码序列和取值编码序列拼接后得到的目标编码序列进行分类,得到所述属性组和所述取值组的结合概率;其中,所述结合概率表示属性组中的属性和相应的取值组中的属性取值能生成医学知识组的概率。在所述结合概率满足预设条件的情况下,可以结合相应的属性组和取值组生成医学知识组。在一些实施方式中,生成表征医学知识的医学知识组的方法,可以先确定与属性组中的属性和取值组中的属性取值所对应的至少一个多元组数据,将所述至少一个多元组数据进行组合,得到所述医学知识组。
在一些实施方式中,根据所述多个多元组数据的属性,在所述多个多元组数据划分出多个属性组可以包括:将所述多个多元组数据中至少部分多元组数据的属性进行组合,得到多个基准属性组;其中,不同基准属性组包括的属性不同;依照同一个基准属性组中不同属性之间的属性相关程度,对所述多个基准属性组进行筛选,筛选得到的基准属性组作为所述属性组;其中,所述属性相关程度用于表征多元组数据的属性能形成属性组的概率。
在一些情况下,可以预先划分出多基准属性组,接着判定每个基准属性组能否构成一个属性组。
将所述多个多元组数据中至少部分多元组数据的属性进行组合,得到多个基准属性组的方法,可以对所述多元组数据的属性进行排列组合,以形成所述基准属性组。其中,不同基准属性组包括的属性不同。具体的,例如,多个多元组数据的属性可以包括K1、K2、K3。相应的,对K1、K2、K3进行组合得到的基准属性组可以包括[K1]、[K2]、[K3]、[K1、K2]、[K1、K3]、[K2、K3]、[K1、K2、K3]。当然,可以根据上述多种组合中的部分组合分别生成基准属性组。
所述属性相关程度可以用于表征所述属性相关程度用于表征多元组数据的属性能形成属性组的概率。所述属性相关程度基于基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数确定。在一些实施方式中,所述属性相关程度可以通过在多个属性共现的条件下,所述多个属性成组的条件概率表示。
执行依照同一个基准属性组中不同属性之间的属性相关程度,对所述多个基准属性组进行筛选,筛选得到的基准属性组作为所述属性组的步骤前,可以先获取预先统计的基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,来确定基准属性组的属性相关程度。进一步地,依照同一个基准属性组中不同属性之间的属性相关程度,对所述多个基准属性组进行筛选的方法,可以是依次遍历每一个基准属性组,在所述基准属性组的属性相关程度大于设定阈值的情况下,将所述基准属性组作为筛选得到的属性组。
在一些实施方式中,所述多个属性组中属性的并集需要包括所述多个多元组数据全部的属性,且不同属性组之间没有交集。相应的,依照同一个基准属性组中不同属性之间的属性相关程度,对所述多个基准属性组进行筛选的方法可以是先依次遍历每一个基准属性组,选择一个属性相关程度最高的基准属性组,作为目标基准属性组。接着,在剩余的不包括所述目标基准属性组中的属性的基准属性组,选择属性相关程度最高的基准属性组作为目标基准属性组。以此类推,直到目标基准属性组中属性的并集包括多元组数据的全部属性。将目标基准属性组作为所述属性组。当然,对所述多个基准属性组进行筛选的方法也可以基于最多数量的属性成组优先、或者最少数量的属性成组优先进行遍历。
在一些实施方式中,依照同一个属性组中不同属性之间的属性相关程度,对所述多个基准属性组进行筛选,筛选得到的基准属性组作为所述属性组,可以包括:根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定基准属性组的属性相关程度;其中,所述预设医学知识组集合包括多个已经生成的医学知识组;将所述属性相关程度符合设定条件的基准属性组,作为所述属性组。
在一些情况下,根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,可以确定基准属性组的属性相关程度。其中,所述预设医学知识组集合包括多个已经生成的医学知识组。通过统计基准属性组中的属性在已经生成的医学知识组中成组的概率,可以较好地确定基准属性组的属性相关程度。
所述预设医学知识组集合可以包括多个已经生成的医学知识组。所述医学知识组可以通过医学专家对多元组数据划分生成。当然,所述医学知识组也可以通过医学知识组的生成方法生成得到。
根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定基准属性组的属性相关程度的方法,可以是先统计基准属性组中的属性,在已经生成的医学知识组中,同属于一个医学知识组的次数,来确定基准属性组中的属性能够成组的属性成组概率。基于所述属性成组概率,可以确定所述基准属性组的属性相关程度。例如,可以将所述属性成组概率作为所述属性相关程度。当然,也可以将所述属性成组概率与属性共现概率的比值作为所述属性相关程度。其中,所述属性共现概率用于表示基准属性组中的属性同时属于所述预设医学语料库中的同一个语料的概率。
将所述属性相关程度符合设定条件的基准属性组,作为所述属性组,可以是属性相关程度大于设定阈值的基准属性组作为属性组。当然,也可以是依照预设的约束条件,进行筛选。例如,约束条件可以是多个属性组中属性的并集需要包括所述多个多元组数据全部的属性,且不同属性组之间没有交集。相应的,可以选择属性相关程度最高的基准属性组,并进一步地在剩余的不包括已被选择的基准属性组的属性的基准属性组中,选择基准属性组作为属性组。
在一些实施方式中,根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定基准属性组的属性相关程度,可以包括:对所述基准属性组中任意多个属性进行组合,得到多个子基准属性组;根据子基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定子基准属性组的属性相关程度;基于所述子基准属性组的属性相关程度,生成所述基准属性组的属性相关程度。
在一些情况下,基准属性组中的全部属性出现在一个医学知识组的可能性较低。因此,统计得到的基准属性组中属性属于预设医学知识组集合中的同一个医学知识组的次数可能较少,不利于表征基准属性组的属性相关程度。因此,可以对基准属性组中的属性进行组合,得到多个子基准属性组。通过统计子基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,可以确定子基准属性组的属性相关程度。进一步地,基于子基准属性组的属性相关程度可以确定属性组的属性相关程度。从而,可以在一定程度上避免统计得到的基准属性组中属性属于预设医学知识组集合中的同一个医学知识组的次数过于稀疏而造成属性相关程度不精确的问题。
对所述基准属性组中任意多个属性进行组合,得到多个子基准属性组的方法,可以是对基准属性组中的属性进行两两组合,得到所述多个子基准属性组。或者,也可以选择三个属性进行组合。其中,不同子基准属性组中的属性的组合不同。
根据子基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定子基准属性组的属性相关程度,可以是先统计子基准属性组中的属性,在已经生成的医学知识组中,同属于一个医学知识组的次数,来确定子基准属性组中的属性能够成组的属性成组概率。进一步地,基于所述属性成组概率,可以确定所述基准属性组的属性相关程度。具体的,例如,基准属性组可以包括[K1、K2、K3]。对基准属性组中的属性两两组合得到的子基准属性组可以包括:[K1、K2]、[K1、K3]和[K2、K3]。通过分别确定子基准属性组的属性相关程度,可以生成基准属性组的属性相关程度。
基于所述子基准属性组的属性相关程度,生成所述基准属性组的属性相关程度的方法,可以是将子基准属性组的属性相关程度进行加权求和。在一些实施方式中,子基准属性组包括的属性的数量可能不同。相应的,根据子基准属性组包括的属性数量可以确定不同的权重。当然,基于所述子基准属性组的属性相关程度,生成所述基准属性组的属性相关程度的方法,也可以是将所述子基准属性组的属性相关程度进行相乘,以确定基准属性组的属性相关程度。
在一些实施方式中,根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定基准属性组的属性相关程度,可以包括:根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,生成基准属性组的属性成组概率;获取基准属性组中的属性相对于预设医学语料库的属性共现概率;其中,所述预设医学语料库包括多个医学领域的语料;所述属性共现概率用于表示基准属性组中的属性同时属于所述预设医学语料库中的同一个语料的概率;将基准属性组对应的属性成组概率与属性共现概率之间的比值,作为所述基准属性组的属性相关程度。
在一些情况下,基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数的只可以确定基准属性组中的属性成组的概率。为了更好地判断基准属性组中的属性之间的属性相关程度,还可以确定基准属性组中属性的属性共现概率,作为先验概率。进一步地,通过属性共现概率和属性成组概率计算属性相关程度,可以较好地提高预测基准属性组中的属性形成医学知识组的概率的精确性。
所述属性成组概率可以表示多个属性能形成医学知识组的概率。根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,生成基准属性组的属性成组概率的方法,可以通过将统计得到的基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,以及所述属性在所述医学知识组中总计出现的次数之间的比值,作为所述基准属性组中属性的属性成组概率。所述属性成组概率可以是预先统计后存储在数据库中,或者动态计算得到。当然,在一些实施方式中,所述属性成组概率也可以是医学专家根据经验预先设定。示例性的,所述属性成组概率可以通过P(O1)表示。其中, O1可以表示多个属性成组的情况。
所述属性共现概率可以表示基准属性组中的属性同时属于所述预设医学语料库中的同一个语料的概率。所述属性共现概率可以通过计算的基准属性组中的属性在一个医学语料库中出现的次数,以及属于所述预设医学语料库中的同一个语料的次数的比值得到。其中,所述预设医学语料库可以包括多个医学领域的语料。示例性的,所述属性共现概率可以通过P(C1)表示。其中,C1可以表示多个属性共现的情况。
进一步地,通过计算基准属性组对应的属性成组概率与属性共现概率之间的比值,可以将所述比值作为所述基准属性组的属性相关程度。具体的,属性相关程度可以表示在多个属性共现的情况下,所述多个属性可以形成医学知识组的概率。示例性的,所述属性相关程度可以通过P(O1|C1)表示。O1可以表示多个属性成组的情况。C1可以表示多个属性共现的情况。因此,根据贝叶斯定理可以确定,基准属性组对应的属性成组概率与属性共现概率之间的比值,可以作为所述基准属性组的属性相关程度。具体的,请参阅公式1,根据贝叶斯定理, P(O1|C1)可以通过P(C1)、P(O1)以及P(C1|O1)计算得到。
由于在多个属性成组的情况下,属性是共现的。因此,属性成组的情况下属性共现的概率可以为1。因此,请参阅公式2,P(O1|C1)可以通过P(C1)、P(O1)的比值确定。
在一些实施方式中,结合所述属性组和所述属性取值,生成表征医学概念的医学知识组,可以包括:在所述属性组具有的属性数量为一个,和/或所述属性组中的属性分别对应一个属性取值的情况下,根据属性组中的属性和所述属性对应的属性取值,构建所述医学知识组。
在一些情况下,在属性组满足一定条件的情况下,可以基于属性组中的属性和所述属性对应的属性取值,生成医学知识组。其中,多元组数据包括的属性和属性取值之间具有对应关系。多个多元组数据中,可以具有多个属性相同,属性取值不同的多元组数据。因此,同一个属性可以对应有至少一个属性取值。每一个属性取值,可以对应一个多元组数据。
在所述属性组具有的属性数量为一个的情况下,可以根据属性组中的属性和所述属性对应的属性取值,构建所述医学知识组。具体的,例如,属性组包括的属性只有K4的情况下,通过属性K4和和属性K4对应的属性取值V4可以生成一个医学知识组。
在所述属性组中的属性分别对应一个属性取值的情况下,也根据属性组中的属性和所述属性对应的属性取值,构建所述医学知识组。具体的,例如,属性组包括的属性为:K5、K6、K7。其中,K5对应的属性取值只有V7。K6对应的属性取值只有V8。K7对应的属性取值只有V9。那么根据该属性组中的属性和相应的属性取值可以生成一个医学知识组。
根据属性组中的属性和所述属性对应的属性取值,构建所述医学知识组的方法,可以将所述属性和属性取值对应的多元组数据组成一个医学知识组。当然,也可以根据所述属性和属性取值对应的多元组数据,构建一个知识图谱节点。
在一些实施方式中,结合所述属性组和所述属性取值,生成表征医学概念的医学知识组,可以包括:在所述属性组包括多个属性,且所述多个属性中至少部分属性对应多个属性取值的情况下,将所述属性组中属性对应的多个属性取值进行组合,得到多个基准取值组;其中,所述基准取值组包括所述属性组中的每个属性的属性取值,且不同属性取值对应的属性不同;依照同一个基准取值组中不同属性取值之间的取值相关程度,在所述基准取值组中选择目标取值组;其中,所述取值相关程度用于表征多元组数据的属性取值能形成医学知识组的概率;根据所述目标取值组包括的属性取值和所述属性取值对应的属性,确定所述医学知识组。
在一些情况下,所述属性组可能包括多个属性,且所述多个属性中至少部分属性对应多个属性取值。那么可以进一步地根据所述属性组中属性对应的属性取值,确定医学知识组。
所述取值相关程度可以用于表征多元组数据的属性取值能形成医学知识组的概率。所述取值相关程度可以基于属性取值属于预设医学知识组集合中的同一个医学知识组的次数确定。在一些实施方式中,所述取值相关程度可以通过在多个属性取值共现的条件下,所述多个属性取值成组的条件概率表示。
所述基准取值组可以包括属性组中的属性对应的一个属性取值。其中,所述基准取值组包括所述属性组中的每个属性的属性取值,且不同属性取值对应的属性不同。
将所述属性组中属性对应的多个属性取值进行组合,得到多个基准取值组的方式,可以是对属性取值进行排列组合,并选择符合要求的组合作为取值组。具体的,例如,属性组可以包括属性K1、K2、K3。属性K1对应的属性取值为V1和V2。属性K2对应的属性取值为V3和V4。属性K3对应的属性取值为V5和V6。根据V1、V2、V3、V4、V5和V6可以生成所述多个基准取值组。例如,将所述属性组中属性对应的多个属性取值进行组合,得到多个基准取值组可以包括[V1,V3,V5]、[V1,V3,V6]、[V1,V4,V5]、[V1,V4,V6]、[V2,V3,V5]、[V2,V3,V6]、[V2,V4,V5]、[V2,V4,V6]。当然,基准取值组也可以所有属性取值的组合方式中的一部分。
在一些实施方式中,依照同一个基准取值组中不同属性取值之间的取值相关程度,在所述基准取值组中选择目标取值组,可以包括:根据基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定基准取值组的取值相关程度;其中,所述预设医学知识组集合包括多个已经生成的医学知识组;将所述取值相关程度符合设定条件的基准取值组,作为所述目标取值组。
在一些情况下,通过基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定基准取值组的取值相关程度。进一步地,根据取值相关程度可以确定目标取值组,以根据目标取值组和所述目标取值组对应的属性组,生成医学知识组。
所述目标取值组可以表示能形成医学知识组的基准取值组。在一些实施方式中,多个目标取值组中不同属性取值的总计数量可以与所述目标取值组对应的属性组中的属性对应的不同属性取值的总计数量相同。
所述根据基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定基准取值组的取值相关程度的方法,,可以是先统计基准取值组中的属性取值,在已经生成的医学知识组中,同属于一个医学知识组的次数,来确定基准取值组中的属性取值能够成组的取值成组概率。基于所述取值成组概率,可以确定所述基准取值组的取值相关程度。例如,可以将所述取值成组概率作为所述取值相关程度。当然,也可以将所述取值成组概率与取值共现概率的比值作为所述取值相关程度。其中,所述取值共现概率用于表示基准取值组中的属性取值同时属于所述预设医学语料库中的同一个语料的概率。
将所述取值相关程度符合设定条件的基准取值组,作为所述目标取值组的方法,可以是取值相关程度大于设定阈值的基准取值组作为属性组。当然,将所述取值相关程度符合设定条件的基准取值组,作为所述目标取值组的方法也可以是选择取值相关成组最高的指定数量个基准取值组作为目标取值组。
在一些实施方式中,根据基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定基准取值组的取值相关程度,可以包括:对所述基准取值组中任意多个属性取值进行组合,得到多个子基准取值组;根据子基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定子基准取值组的取值相关程度;其中,所述取值相关程度用于表征相应基准取值组中的属性能形成医学知识组的概率;基于所述子基准取值组的取值相关程度,生成所述基准取值组的取值相关程度。
在一些情况下,基准取值组中的全部属性取值出现在一个医学知识组的可能性较低。因此,统计得到的基准取值组中属性取值属于预设医学知识组集合中的同一个医学知识组的次数可能较少,不利于表征基准取值组的属性相关程度。因此,可以对基准取值组中的属性进行组合,得到多个子基准取值组。通过统计子基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,可以确定子基准取值组中的属性取值之间的取值相关程度。进一步地,基于子基准取值组的取值相关程度可以确定取值组的取值相关程度。从而,可以在一定程度上避免统计得到的基准取值组中属性取值属于预设医学知识组集合中的同一个医学知识组的次数过于稀疏而造成取值相关程度不精确的问题。
对所述基准取值组中任意多个属性取值进行组合,得到多个子基准取值组的方法,可以是对基准取值组中的属性取值进行两两组合,得到所述多个子基准取值组。或者,也可以选择多个属性取值进行组合。例如,基准取值组可以为[V1,V3,V5]。子基准取值组可以包括[V1,V3]、[V1,V4]、[V3,V5]等。
根据子基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定子基准取值组的取值相关程度的方法,可以是先统计子基准取值组中的属性取值,在已经生成的医学知识组中同属于一个医学知识组的次数,来确定子基准取值组中的属性取值能够成组的取值成组概率。进一步地,基于所述取值成组概率,可以确定所述基准取值组的取值相关程度。
基于所述子基准取值组的取值相关程度,生成所述基准取值组的取值相关程度的方法,可以是将子基准取值组的取值相关程度进行加权求和。当然,基于所述子基准取值组的取值相关程度,生成所述基准取值组的取值相关程度的方法,也可以是相乘或者取对数相加等其他方式得到。
在一些实施方式中,根据子基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定子基准取值组的取值相关程度,可以包括:根据基准取值组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,生成基准取值组的取值成组概率;获取基准取值组中的属性取值相对于预设医学语料库的取值共现概率;其中,所述预设医学语料库包括多个医学领域的语料;所述取值共现概率用于表示基准取值组中的属性取值同时属于所述预设医学语料库中的同一个语料的概率;将基准取值组对应的取值成组概率与取值共现概率之间的比值,作为所述基准取值组的取值相关程度。
在一些情况下,基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数的只可以确定基准取值组中的属性取值成组概率。为了更好地判断基准取值组中的属性之间的属性相关程度,还可以确定基准取值组中属性取值的取值共现概率,作为先验概率。进一步地,通过取值共现概率和取值成组概率计算取值相关程度,可以较好地提高预测基准取值组中的属性取值形成医学知识组的概率的精确性。
所述取值成组概率可以表示多个属性取值能形成医学知识组的概率。根据基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,生成基准取值组的取值成组概率的方法,可以通过将统计得到的基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,以及所述属性取值在所述医学知识组中总计出现的次数之间的比值,作为所述基准取值组中属性取值的取值成组概率。所述取值成组概率可以是预先统计后存储在数据库中,或者动态计算得到。当然,在一些实施方式中,所述取值成组概率也可以是医学专家根据经验预先设定。示例性的,所述取值成组概率可以通过P(O2)表示。其中,O2可以表示多个属性取值成组的情况。
所述取值共现概率可以表示基准取值组中的属性取值同时属于所述预设医学语料库中的同一个语料的概率。所述取值共现概率可以通过计算的基准取值组中的属性取值在一个医学语料库中出现的次数,以及属于所述预设医学语料库中的同一个语料的次数的比值得到。示例性的,所述取值共现概率可以通过P(C2)表示。其中,C2可以表示多个属性取值共现的情况。
进一步的,可以将基准取值组对应的取值成组概率与取值共现概率之间的比值,作为所述基准取值组的取值相关程度。示例性的,所述取值相关程度可以通过P(O2|C2)表示。O2可以表示多个属性取值成组的情况。C2可以表示多个属性取值共现的情况。因此,根据贝叶斯定理可以确定,基准取值组对应的取值成组概率与取值共现概率之间的比值,可以作为所述基准取值组的取值相关程度。具体的,请参阅公式3,根据贝叶斯定理, P(O2|C2)可以通过P(C2)、P(O2)以及P(C2|O2)计算得到。
由于在多个属性取值成组的情况下,属性取值是共现的。因此,属性取值成组的情况下属性取值共现的概率可以为1。因此,请参阅公式4,P(O2|C2)可以通过P(C2)、P(O2)的比值确定。
在一些实施方式中,结合所述属性组和所述属性取值,生成表征医学概念的医学知识组,可以包括:根据所述属性组中的属性对应的属性取值,构建基准取值组;其中,所述基准取值组包括所述属性组中的每个属性的属性取值,且不同属性取值对应的属性不同;确定所述属性组和所述基准取值组的结合概率;其中,所述结合概率表示所述基准属性组中的属性和所述取值组中的属性取值能组成一个医学知识组的概率;在所述结合概率符合预设条件的情况下,使用相应的属性组和基准取值组生成所述医学知识组。
请参阅图3。在一些情况下,结合所述属性组和所述属性取值,生成表征医学概念的医学知识组的方法,可以通过训练机器学习模型来生成一个具有属性和属性取值的组合能形成医学知识组的结合概率,来生成医学知识组。在一定程度也可以提高医学知识组生成的准确性。
在一些实施方式中,将多个多元组数据中的属性进行排列组合得到的基准属性组可以直接作为属性组。这样可以避免对基准属性组进行多次判断来选择属性组。相应的,根据每个属性组中属性的属性取值,可以生成所述属性组对应的至少一个取值组。分别确定所述属性组和所述取值组的结合概率,可以选择能够形成医学知识组的属性组和取值组,以生成医学知识组。当然,所述属性组也可以是基准属性组筛选得到的。
确定所述属性组和所述取值组的结合概率的方法,可以是将所述属性组和所述属性对应的一个取值组输入结合概率的生成模型,生成结合概率。其中,所述结合概率可以表示所述属性组中的属性和所述基准取值组中的属性取值能组成一个医学知识组的概率。结合概率的生成模型可以根据已经生成的医学知识组所具有的属性和属性取值,以及不属于一个医学知识组的属性和属性取值所形成的训练样本训练得到。进一步地,根据所述结合概率,可以生成所述医学知识组。具体的,例如,属性组可以包括[K1,K2,K3]。所述属性组对应的取值组可以包括6个基准取值组:[V1,V3,V5]、[V1,V3,V6]、[V1,V4,V5]、[V1,V4,V6]、[V2,V3,V5]、[V2,V3,V6]、[V2,V4,V5]、[V2,V4,V6]。其中,属性组和每一个基准取值形成的组合可以包括3个多元组数据。分别将所述属性组合所述属性组对应的一个基准取值组输入结合概率的生成模型,可以生成结合概率。相应的,在所述结合概率符合预设条件的情况下,可以使用相应的属性组和基准取值组生成所述医学知识组。
在所述结合概率符合预设条件的情况下,使用相应的属性组和基准取值组生成所述医学知识组的方法,可以是选择结合概率大于指定阈值的属性组和其对应的基准取值组生成医学知识组。当然,也可以是选择结合概率最大的指定数量个属性组和其对应的基准取值组生成医学知识组。
在一些实施方式中,确定所述属性组和所述基准取值组的结合概率,可以包括:根据所述属性组,构建属性序列;基于所述属性组对应的基准取值组中的属性取值,以及所述属性在所述属性序列中的位置,生成取值序列;其中,所述取值序列包括分别对应所述属性序列中的属性的属性取值;分别对所述属性序列和所述取值进行编码,得到属性编码序列和取值编码序列;将根据所述属性编码序列和取值编码序列生成的目标编码序列输入概率预测模块,得到所述属性组和所述取值组的结合概率。
在一些情况下,可以先针对属性组和所述属性组对应的基准取值组构建属性序列和取值序列,接着将属性序列和取值序列编码后得到的编码向量输入结合概率的生成模型,以生成所述属性组和其对应的基准取值组的结合概率。
所述属性序列可以包括属性组中的属性。其中,所述属性序列中的属性之间具有次序关系。相应的,所述取值序列可以对应一个基准取值组。其中,所述取值序列包括分别对应所述属性序列中的属性的属性取值。所述取值序列中不同位置的属性取值可以与相应的属性序列不同位置的属性具有对应关系。
所述结合概率的生成模型可以包括编码模块。分别对所述属性序列和所述取值进行编码,得到属性编码序列和取值编码序列的方法,可以通过编码模型进行编码。具体的,分别对所述属性序列和所述取值进行编码,得到属性编码序列和取值编码序列的方法可以是使用词向量替换属性序列和取值序列中的属性和属性取值,将替换后的属性序列和取值序列作为所述属性编码序列和取值编码序列。当然,针对词向量替换后的属性序列和取值序列,也可以进一步分别使用注意力模型进行编码得到所述属性编码序列和取值编码序列。在一些实施方式中,通过Bert、神经网络等深度学习模型也可以对其进行编码。
在一些实施方式中,所述属性序列和所述取值序列可以分别对应有编码模型。或者,所述属性序列和所述取值序列也可以通过一个编码模型进行编码,以实现共享编码模型的参数。
所述结合概率的生成模型可以包括概率预测模块。将所述属性编码序列和取值编码序列拼接后的目标编码序列输入概率预测模块,可以得到所述属性组和所述取值组的结合概率。其中,所述概率预测模块可以是一个分类器。所述分类器可以将属性编码序列和取值编码序列生成的目标编码序列映射至一个0至1的数值,作为所述属性组和所述属性组对应的基准取值组的结合概率。
根据所述属性编码序列和取值编码序列生成的目标编码序列的方法,可以是将所述属性编码序列和取值编码序列进行拼接,也可以是将所述属性编码序列和取值编码序列进行相加等操作。
在一些实施方式中,可以获取属性组中属性对应的属性知识向量以及基准取值组中的取值对应的取值知识向量。相应的,根据所述属性编码序列和取值编码序列生成的目标编码序列的方法,还可以是将所述属性知识向量和属性编码向量拼接后得到的向量,与将所述取值知识向量和取值编码向量拼接后得到的向量输入概率预测模块预测相应的属性组和基准取值组的结合概率。其中,属性知识向量可以根据已经生成的知识图谱中与表示相应的属性的节点处于指定距离内的节点的知识信息形成。取值知识向量可以根据已经生成的知识图谱中与表示相应的属性取值的节点处于指定距离内的节点的知识信息形成。通过将知识信息形成的取值知识向量和属性知识向量输入概率预测模块以进一步地预测结合概率,可以更好地提高结合概率的生成模型预测的准确性。
请参阅图4,本说明书实施方式提供了一种知识组的生成方法。所述知识组的生成方法可以应用于服务器。所述知识组的生成方法可以包括以下步骤。
步骤S210:获取知识图谱中针对同一个对象的多个多元组数据;其中,多元组数据用于表征所述对象的特性;不同多元组数据表征的特性不同;所述多元组数据包括表示所述对象的特性的属性和属性取值。
步骤S220:根据所述多个多元组数据的属性,在所述多个多元组数据划分出多个属性组。
步骤S230:结合所述属性组和所述属性取值,生成表征所述对象的知识的知识组;其中,不同知识组包括的多元组数据不同。
在一些情况下,对具有属性和属性取值的多元组数据进行分组,以生成医学知识组的方法可以不仅仅在医学领域。例如,在对一个多功能吸拖一体机的产品使用手册抽取多元组数据的场景中,可能抽取到以下三元组:(多功能吸拖一体机,相关形态,拖地形态)、(多功能吸拖一体机,相关形态,吸尘形态)、(多功能吸拖一体机,额定功率,1000W)、(多功能吸拖一体机,额定功率,2000W)、(多功能吸拖一体机,噪音分贝,40dB)、(多功能吸拖一体机,噪音分贝,60dB)。其中,多功能吸拖一体机处于拖地形态的情况下,额定功率为1000W,噪音分贝为40dB。多功能吸拖一体机处于吸尘形态的情况下,额定功率为2000W,噪音分贝为60dB。通过以上三元组并不能较好地表征多功能吸拖一体机这一个对象。因此,可以对以上三元组进行进一步地划分,以生成表征多功能吸拖一体机的知识组。
示例的装置、电子设备、存储介质和软件
请参阅图5,本说明书的一个实施方式还提供一种医学知识组的生成装置。所述医学知识组的生成装置可以包括获取模块、划分模块和生成模块。
获取模块,用于获取医学知识图谱中针对同一个医学对象的多个多元组数据;其中,多元组数据用于表征所述医学对象的医学特性;不同多元组数据表征的医学特性不同;所述多元组数据包括表示所述医学特性的属性和属性取值。
划分模块,用于根据所述多个多元组数据的属性,在所述多个多元组数据中划分出多个属性组。
生成模块,用于结合所述属性组和所述属性取值,生成表征医学知识的医学知识组;其中,不同医学知识组包括的多元组数据不同。
在本实施方式中,所述医学知识组的生成装置所实现的功能和效果,可以与前述实施方式对照解释,不再赘述。
请参阅图6,本说明书的一个实施方式还提供一种知识组的生成装置。所述知识组的生成装置可以包括获取模块、划分模块和生成模块。
获取模块,用于获取知识图谱中针对同一个对象的多个多元组数据;其中,多元组数据用于表征所述对象的特性;不同多元组数据表征的特性不同;所述多元组数据包括表示所述对象的特性的属性和属性取值。
划分模块,用于根据所述多个多元组数据的属性,在所述多个多元组数据划分出多个属性组。
生成模块,用于结合所述属性组和所述属性取值,生成表征所述对象的知识组;其中,不同知识组包括的多元组数据不同。
在本实施方式中,所述知识组的生成装置所实现的功能和效果,可以与前述实施方式对照解释,不再赘述。
请参阅图7,在一些实施方式中可以提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一实施方式中的医学知识组的生成方法和知识组的生成方法。
本说明书实施方式还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得,该计算机执行上述任一实施方式中的医学知识组的生成方法和知识组的生成方法。
本说明书实施方式还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述任一实施方式中的医学知识组的生成方法和知识组的生成方法。
可以理解,本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式,而非限制本发明的范围。
可以理解,在本说明书中的各种实施方式中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本说明书实施方式的实施过程构成任何限定。
可以理解,本说明书中描述的各种实施方式,既可以单独实施,也可以组合实施,本说明书实施方式对此并不限定。
除非另有说明,本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
可以理解,本说明书实施方式的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application SpecificIntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施方式描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本说明书的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施方式中的对应过程,在此不再赘述。
在本说明书所提供的几个实施方式中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本说明书的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本说明书的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (15)
1.一种医学知识组的生成方法,其特征在于,所述方法包括:
获取医学知识图谱中针对同一个医学对象的多个多元组数据;其中,多元组数据用于表征所述医学对象的医学特性;不同多元组数据表征的医学特性不同;所述多元组数据包括表示所述医学特性的属性和属性取值;其中,所述医学对象表示医学领域需要进行表征的任一对象;
根据所述多个多元组数据的属性,在所述多个多元组数据中划分出多个属性组;
结合所述属性组和所述属性取值,依照所述属性组中的属性和所述属性取值之间的相关程度,生成表征医学知识的医学知识组;其中,不同医学知识组包括的多元组数据不同;其中,所述相关程度通过对已经生成的医学知识组中的属性和属性取值进行统计确定。
2.根据权利要求1所述的方法,其特征在于,根据所述多个多元组数据的属性,在所述多个多元组数据划分出多个属性组的步骤,包括:
将所述多个多元组数据中至少部分多元组数据的属性进行组合,得到多个基准属性组;其中,不同基准属性组包括的属性不同;
依照同一个基准属性组中不同属性之间的属性相关程度,对所述多个基准属性组进行筛选,筛选得到的基准属性组作为所述属性组;其中,所述属性相关程度用于表征多元组数据的属性能形成医学知识组的概率。
3.根据权利要求2所述的方法,其特征在于,依照同一个属性组中不同属性之间的属性相关程度,对所述多个基准属性组进行筛选,筛选得到的基准属性组作为所述属性组的步骤,包括:
根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定基准属性组的属性相关程度;其中,所述预设医学知识组集合包括多个已经生成的医学知识组;
将所述属性相关程度符合设定条件的基准属性组,作为所述属性组。
4.根据权利要求3所述的方法,其特征在于,根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定基准属性组的属性相关程度的步骤,包括:
对所述基准属性组中任意多个属性进行组合,得到多个子基准属性组;
根据子基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定子基准属性组的属性相关程度;
基于所述子基准属性组的属性相关程度,生成所述基准属性组的属性相关程度。
5.根据权利要求3所述的方法,其特征在于,根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,确定基准属性组的属性相关程度的步骤,包括:
根据基准属性组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,生成基准属性组的属性成组概率;
获取基准属性组中的属性相对于预设医学语料库的属性共现概率;其中,所述预设医学语料库包括多个医学领域的语料;所述属性共现概率用于表示基准属性组中的属性同时属于所述预设医学语料库中的同一个语料的概率;
将基准属性组对应的属性成组概率与属性共现概率之间的比值,作为所述基准属性组的属性相关程度。
6.根据权利要求1所述的方法,其特征在于,结合所述属性组和所述属性取值,依照所述属性组中的属性和所述属性取值之间的相关程度,生成表征医学概念的医学知识组的步骤,包括:
在所述属性组具有的属性数量为一个,和/或所述属性组中的属性分别对应一个属性取值的情况下,根据属性组中的属性和所述属性对应的属性取值,构建所述医学知识组。
7.根据权利要求1所述的方法,其特征在于,结合所述属性组和所述属性取值,依照所述属性组中的属性和所述属性取值之间的相关程度,生成表征医学概念的医学知识组的步骤,包括:
在所述属性组包括多个属性,且所述多个属性中至少部分属性对应多个属性取值的情况下,将所述属性组中属性对应的多个属性取值进行组合,得到多个基准取值组;其中,所述基准取值组包括所述属性组中的每个属性的属性取值,且不同属性取值对应的属性不同;
依照同一个基准取值组中不同属性取值之间的取值相关程度,在所述基准取值组中选择目标取值组;其中,所述取值相关程度用于表征多元组数据的属性取值能形成医学知识组的概率;
根据所述目标取值组包括的属性取值和所述属性取值对应的属性,确定所述医学知识组。
8.根据权利要求7所述的方法,其特征在于,依照同一个基准取值组中不同属性取值之间的取值相关程度,在所述基准取值组中选择目标取值组的步骤,包括:
根据基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定基准取值组的取值相关程度;其中,所述预设医学知识组集合包括多个已经生成的医学知识组;
将所述取值相关程度符合设定条件的基准取值组,作为所述目标取值组。
9.根据权利要求8所述的方法,其特征在于,根据基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定基准取值组的取值相关程度的步骤,包括:
对所述基准取值组中任意多个属性取值进行组合,得到多个子基准取值组;
根据子基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定子基准取值组的取值相关程度;其中,所述取值相关程度用于表征相应基准取值组中的属性能形成医学知识组的概率;
基于所述子基准取值组的取值相关程度,生成所述基准取值组的取值相关程度。
10.根据权利要求8所述的方法,其特征在于,根据子基准取值组中的属性取值属于预设医学知识组集合中的同一个医学知识组的次数,确定子基准取值组的取值相关程度的步骤,包括:
根据基准取值组中的属性属于预设医学知识组集合中的同一个医学知识组的次数,生成基准取值组的取值成组概率;
获取基准取值组中的属性取值相对于预设医学语料库的取值共现概率;其中,所述预设医学语料库包括多个医学领域的语料;所述取值共现概率用于表示基准取值组中的属性取值同时属于所述预设医学语料库中的同一个语料的概率;
将基准取值组对应的取值成组概率与取值共现概率之间的比值,作为所述基准取值组的取值相关程度。
11.根据权利要求1所述的方法,其特征在于,结合所述属性组和所述属性取值,依照所述属性组中的属性和所述属性取值之间的相关程度,生成表征医学知识的医学知识组的步骤,包括:
根据所述属性组中的属性对应的属性取值,构建基准取值组;其中,所述基准取值组包括所述属性组中的每个属性的属性取值,且不同属性取值对应的属性不同;
确定所述属性组和所述基准取值组的结合概率;其中,所述结合概率表示所述属性组中的属性和所述基准取值组中的属性取值能组成一个医学知识组的概率;
在所述结合概率符合预设条件的情况下,使用相应的属性组和基准取值组生成所述医学知识组。
12.根据权利要求11所述的方法,其特征在于,确定所述属性组和所述基准取值组的结合概率,包括:
根据所述属性组,构建属性序列;
基于所述属性组对应的基准取值组中的属性取值,以及所述属性在所述属性序列中的位置,生成取值序列;其中,所述取值序列包括分别对应所述属性序列中的属性的属性取值;
分别对所述属性序列和所述取值进行编码,得到属性编码序列和取值编码序列;
将根据所述属性编码序列和取值编码序列生成的目标编码序列输入概率预测模块,得到所述属性组和所述取值组的结合概率。
13.一种医学知识组的生成装置,其特征在于,所述装置包括:
获取模块,用于获取医学知识图谱中针对同一个医学对象的多个多元组数据;其中,多元组数据用于表征所述医学对象的医学特性;不同多元组数据表征的医学特性不同;所述多元组数据包括表示所述医学特性的属性和属性取值;其中,所述医学对象可以表示医学领域需要进行表征的任一对象;
划分模块,用于根据所述多个多元组数据的属性,在所述多个多元组数据中划分出多个属性组;
生成模块,用于结合所述属性组和所述属性取值,依照所述属性组中的属性和所述属性取值之间的相关程度,生成表征医学知识的医学知识组;其中,不同医学知识组包括的多元组数据不同;其中,所述相关程度通过对已经生成的医学知识组中的属性和属性取值进行统计确定。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211452261.8A CN115658925B (zh) | 2022-11-21 | 2022-11-21 | 医学知识组的生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211452261.8A CN115658925B (zh) | 2022-11-21 | 2022-11-21 | 医学知识组的生成方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115658925A CN115658925A (zh) | 2023-01-31 |
CN115658925B true CN115658925B (zh) | 2023-04-25 |
Family
ID=85017428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211452261.8A Active CN115658925B (zh) | 2022-11-21 | 2022-11-21 | 医学知识组的生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115658925B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990579A (zh) * | 2019-10-30 | 2020-04-10 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245242B (zh) * | 2019-06-20 | 2022-01-18 | 北京百度网讯科技有限公司 | 医学知识图谱构建方法、装置以及终端 |
CN112463973B (zh) * | 2019-09-06 | 2024-07-26 | 医渡云(北京)技术有限公司 | 医学知识图谱的构建方法、装置、介质及电子设备 |
CN112732941B (zh) * | 2021-01-15 | 2023-07-07 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的构建方法、装置、设备及介质 |
CN112732940B (zh) * | 2021-01-15 | 2023-07-14 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的推理方法、装置、设备及介质 |
CN113871003B (zh) * | 2021-12-01 | 2022-04-08 | 浙江大学 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
CN114328968A (zh) * | 2021-12-31 | 2022-04-12 | 北京医述科技有限合伙企业(有限合伙) | 医学知识图谱的构建方法、装置、电子设备和介质 |
-
2022
- 2022-11-21 CN CN202211452261.8A patent/CN115658925B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990579A (zh) * | 2019-10-30 | 2020-04-10 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115658925A (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036553B (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
Rushdi et al. | Karnaugh-map utility in medical studies: The case of Fetal Malnutrition | |
CN107658023B (zh) | 疾病预测方法、装置、介质和电子设备 | |
Kumar | Knowledge discovery in data using formal concept analysis and random projections | |
Arasu et al. | A novel imputation method for effective prediction of coronary Kidney disease | |
Drugan et al. | Feature selection for Bayesian network classifiers using the MDL-FS score | |
EP3847612A2 (en) | Visualization of social determinants of health | |
CN111292322B (zh) | 医学图像处理方法、装置、设备及存储介质 | |
CN111581969A (zh) | 医疗术语向量表示方法、装置、存储介质及电子设备 | |
CN116705310A (zh) | 围术期风险评估的数据集构建方法、装置、设备及介质 | |
CN113470799B (zh) | 一种医院综合质量监督平台智能化编辑器 | |
CN115438040A (zh) | 一种病理档案信息管理方法及系统 | |
CN111046882A (zh) | 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统 | |
TW202223917A (zh) | 基於醫學影像的疾病預測方法 | |
CN115658925B (zh) | 医学知识组的生成方法、装置、计算机设备和存储介质 | |
Özkan et al. | Effect of data preprocessing on ensemble learning for classification in disease diagnosis | |
CN106202847B (zh) | 一种就诊预测方法 | |
CN116344011A (zh) | 一种病历建档管理方法及系统 | |
CN112274144A (zh) | 近红外脑功能成像数据的处理方法、装置和存储介质 | |
CN114822849B (zh) | 基于数字孪生的数据监测方法、装置、设备和存储介质 | |
CN115631823A (zh) | 相似病例推荐方法及系统 | |
CN114203301A (zh) | 一种诊后患者健康状况追踪方法及系统 | |
Lim et al. | Score tests for zero-inflation and overdispersion in two-level count data | |
Gwee et al. | Model-based Clustering for Network Data via a Latent Shrinkage Position Cluster Model | |
Gift et al. | Application of an information-theoretic method for efficacy assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |