CN108573750A

CN108573750A - 用于自动发现医学知识的方法和系统

Info

Publication number: CN108573750A
Application number: CN201710131491.7A
Authority: CN
Inventors: 张振中
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2018-09-25
Anticipated expiration: 2037-03-07
Also published as: WO2018161516A1; EP3594826A4; US11455546B2; US20200034719A1; CN108573750B; EP3594826A1

Abstract

本发明的实施例提供了用于自动发现医学知识的方法和系统。在该方法中，从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念，其中，初始概念表示疾病。然后，从医学文献库中获取与一个或多个连接概念具有语义关系的一个或多个目标概念，并计算一个或多个目标概念相对于初始概念的关联度，其中，关联度指示目标概念能够应对初始概念的概率。进一步地，根据所计算的关联度，对一个或多个目标概念进行排序。本发明的实施例的方法通过使用语义分析，能够得到可解释的目标概念，并通过对目标概念进行排序，提高发现有用的医学知识的可能性。

Description

用于自动发现医学知识的方法和系统

技术领域

本发明涉及人工智能领域，更具体地，涉及用于自动发现医学知识的方法和系统。

背景技术

当今，医学文献的数量以指数级的速度迅速增长。例如，医学文献数据库MEDLINE存储有超过二千万的医学文献，并且每年还会增加几百万篇医学文献。大量的医学文献可能导致不同文献之间的关联信息难以发现，从而失去发现重要医学知识的机会。

为了能够从大量的医学文献中自动发现潜在的有用信息，美国芝加哥大学的Swanson教授在1986年提出了基于非相关文献的知识发现(Literature-based Discovery，简称LBD)方法，即ABC模型。在ABC模型中，C作为初始概念(Starting Concept)，用于表示疾病，B作为连接概念(Linking Concept)，A作为目标概念(Target Concept)，用于表示可能治疗疾病C的物质(或药物)。ABC模型的主要思想是从两篇非相关文献中抽取知识片段并且将知识片段组合到一起，从而发现新的潜在知识。具体地，对于两个非相关文献：关于雷诺氏病的文献1和关于鱼油的文献2，通过文本分析发现，在文献1中提到大部分的雷诺氏病(即初始概念C)患者存在特定的生理现象(即连接概念B)，例如，血液粘稠度升高、血小板凝集度升高、及血管收缩等。另外，发现在文献2中提到鱼油(即目的概念A)及其活性成分能够降低血液粘稠度和血小板凝集度，并能使得血管舒张。基于上述发现，Swanson教授得出鱼油可以治疗雷诺氏病的知识(或者称为假设)，并在之后的医学临床实验进行了验证。

一些LBD方法可基于概念共现的统计信息，并假定：如果概念A与概念B的共现次数越高，则概念A与概念B有关联的可能性越大。这种方法通过使用统计特征来实现ABC模型。例如，可基于短语的频率统计信息，使用四个统计量确定名词短语的潜在价值，并对其进行排序和选择。又例如，使用如Z-Score、TF-IDF、PMI等的统计信息来评价连接概念和目标概念之间的关联度，并对概念进行过滤。然而，基于统计信息的知识发现方法存在如下问题：1)产生大量无用的目标概念，很难发现有用的知识；2)没有使用语义资源，无法对得出的知识发现给出合理的解释。

进一步地，为了解释所发现的知识，在LBD方法中引入了语义关系。例如，可利用自然语言处理技术来对医学文献进行分析，获取每个句子中的语义关系，并定义关联规则，从而获得可解释的发现。再例如，通过在图模型中引入语义关系，拓展了ABC模型。然而，这些引入语义关系的方法虽然能够解释所发现的目标概念，但无法区分知识的重要程度。

发明内容

鉴于上述技术问题，本发明的实施例提供了一种用于自动发现医学知识的方法及系统，其能够从医学文献中自动发现有用的医学知识。

根据本发明的第一个方面，提供了一种用于自动发现医学知识的方法。在该方法中，从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念，其中，所述初始概念表示疾病。接着，从所述医学文献库中获取与所述一个或多个连接概念具有语义关系的一个或多个目标概念，并计算所述一个或多个目标概念相对于所述初始概念的关联度，其中所述关联度指示所述目标概念能够应对所述初始概念的概率。然后，根据所计算的关联度，对所述一个或多个目标概念进行排序。

在本发明的实施例中，在计算所述一个或多个目标概念相对于所述初始概念的关联度的步骤中，对于所述一个或多个目标概念的每一个，确定所述多个连接概念中与所述目标概念相关的连接概念，作为相关连接概念。然后，利用预先训练的马尔科夫逻辑网，根据所述相关连接概念与所述初始概念之间的第一语义关系和所述相关连接概念与所述目标概念之间的第二语义关系，计算所述目标概念相对于所述初始概念的关联度，其中，所述马尔科夫逻辑网由预先定义的谓词和逻辑规则构成，所述逻辑规则描述所述谓词之间的逻辑关系。

在本发明的实施例中，所述目标概念相对于所述初始概念的关联度根据以下公式计算：

其中，P表示所述关联度，Z表示归一化因子，f_i表示第i个逻辑规则，w_i表示第i个逻辑规则的权重。

在本发明的实施例中，该方法进一步提供所述一个或多个目标概念与所述初始概念之间的逻辑联系。

在本发明的实施例中，在提供所述一个或多个目标概念与所述初始概念之间的逻辑联系的步骤中，对于所述一个或多个目标概念的每一个，确定包含所述第一语义关系和所述第二语义关系的逻辑规则，作为所述逻辑联系。然后，与所述目标概念相关联地记录所述逻辑联系。

在本发明的实施例中，在从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念中，在所述医学文献库中检索包含所述初始概念的句子，并抽取所述句子中包含的语义关系。然后，根据所述语义关系，确定连接概念。

在本发明的实施例中，进一步过滤所获取的连接概念，以获得具有预定语义关系的连接概念。

在本发明的实施例中，在从所述医学文献库中获取与所述一个或多个连接概念具有语义关系的一个或多个目标概念的步骤中，对于所述一个或多个连接概念的每一个，在所述医学文献库中检索包含所述连接概念的句子，并抽取所述句子中包含的语义关系。然后，根据所述语义关系，确定目标概念。

在本发明的实施例中，所述一个或多个目标概念按照各自的所述关联度的降序来排序。

根据本发明的第二个方面，提供了一种自动发现医学知识的系统。该系统包括第一获取装置、第二获取装置、计算装置和排序装置。第一获取装置被配置为从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念，其中，所述初始概念表示疾病。第二获取装置被配置为从所述医学文献库中获取与所述一个或多个连接概念具有语义关系的一个或多个目标概念。计算装置被配置为计算所述一个或多个目标概念相对于所述初始概念的关联度，其中所述关联度指示所述目标概念能够应对所述初始概念的概率。排序装置被配置为根据所计算的关联度，对所述一个或多个目标概念进行排序。

在本发明的实施例中，所述计算装置包括：确定模块，其被配置为对于所述一个或多个目标概念的每一个，确定所述一个或多个连接概念中与所述目标概念相关的连接概念，作为相关连接概念；以及计算模块，其被配置为利用预先训练的马尔科夫逻辑网，根据所述相关连接概念与所述初始概念之间的第一语义关系和所述相关连接概念与所述目标概念之间的第二语义关系，计算所述目标概念相对于所述初始概念的关联度，其中，所述马尔科夫逻辑网由预先定义的谓词和逻辑规则构成，所述逻辑规则描述所述谓词之间的逻辑关系。

在本发明的实施例中，所述系统还包括：提供装置，其被配置为提供所述一个或多个目标概念与所述初始概念之间的逻辑联系。

在本发明的实施例中，所述提供装置包括：逻辑联系确定模块，其被配置为对于所述一个或多个目标概念的每一个，确定包含所述第一语义关系和所述第二语义关系的逻辑规则，作为所述逻辑联系；以及记录模块，其被配置为与所述目标概念相关联地记录所述逻辑联系。

在本发明的实施例中，所述第一获取装置包括：检索模块，其被配置为在所述医学文献库中检索包含所述初始概念的句子；抽取模块，其被配置为抽取所述句子中包含的语义关系；以及确定模块，其被配置为根据所述语义关系，确定连接概念。

在本发明的实施例中，所述第一获取装置还包括：过滤模块，其被配置为过滤所获取的连接概念，以获得具有预定语义关系的连接概念。

在本发明的实施例中，所述第二获取装置包括：检索模块，其被配置为对于所述一个或多个连接概念的每一个，在所述医学文献库中检索包含所述连接概念的句子；抽取模块，其被配置为抽取所述句子中包含的语义关系；以及确定模块，其被配置为根据所述语义关系，确定目标概念。

在本发明的实施例中，所述排序装置被配置为按照各自的所述关联度的降序来对所述一个或多个目标概念排序。

根据本发明的第三个方面，提供了一种自动发现医学知识的系统。该系统包括至少一个处理器和存储有计算机程序的至少一个存储器。当所述计算机程序由所述至少一个处理器执行时使得所述系统：从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念，其中，所述初始概念表示疾病；从所述医学文献库中获取与所述一个或多个连接概念具有语义关系的一个或多个目标概念；计算所述一个或多个目标概念相对于所述初始概念的关联度，其中所述关联度指示所述目标概念能够应对所述初始概念的概率；以及根据所计算的关联度，对所述一个或多个目标概念进行排序。

根据本发明的第四个方面，提供了一种存储有计算机程序的计算机可读存储介质。所述计算机程序在由处理器执行时实现上述的用于自动发现医学知识的方法的步骤。

采用本发明的实施例的方法，能够对所发现的医学知识进行排序，从而提高发现有用的医学知识的可能性，有助于进一步的分析。此外，根据本发明的实施例的方法，能够提供对初始概念与目标概念之间的关系的逻辑解释，从而提高了所发现的医学知识的可解释性。

附图说明

为了更清楚地说明本发明的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本发明的一些实施例，而非对本发明的限制，其中：

图1是根据本发明的实施例的用于自动发现医学知识的方法的流程图；

图2是在图1所示的实施例中的获取连接概念的过程的示例性流程图；

图3是在图1所示的实施例中的获取目标概念的过程的示例性流程图；

图4是在图1所示的实施例中的计算目标概念相对于初始概念的关联度的过程的示例性流程图；

图5是示出使用马尔科夫逻辑网来计算目标概念相对初始概念的关联度的实例的示意图；

图6是根据本发明的另一个实施例的用于自动发现医学知识的方法的流程图；

图7是根据本发明的一个实施例的用于自动发现医学知识的系统的示意性框图；

图8是如图7所示的用于自动发现医学知识的系统的具体实现例的示意性框图；

图9是根据本发明的另一个实施例的用于自动发现医学知识的系统的示意性框图。

具体实施方式

为了使本发明的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本发明的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本发明保护的范围。

图1示出了根据本发明的实施例的用于自动发现医学知识的方法的流程图。在本发明的实施例中，医学知识的自动发现基于前述的ABC模型。

如图1所示，首先，在步骤S110中，从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念。在本发明的实施例中，初始概念表示疾病。然后，在步骤S120中，从医学文献库中获取与在步骤S110中获得的一个或多个连接概念具有语义关系的一个或多个目标概念。然后，在步骤S130中，计算一个或多个目标概念相对于初始概念的关联度，其中关联度指示目标概念能够应对初始概念的概率。最后，在步骤S140中，根据在步骤S130中计算的关联度，对一个或多个目标概念进行排序。

下面结合图2、图3和图4，详细描述如图1所示的实施例的用于自动发现医学知识的方法。

在图1的步骤S110中，根据所输入的初始概念，从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念。在本发明的实施例中，医学文献库是用于存储医学文献的数据库。初始概念可以是表示疾病的词语，例如，雷诺氏病、偏头疼、骨质疏松等。图2示出了图1所示的实施例中获取连接概念的过程(步骤S110)的示例性流程图。如图2所示，在步骤S210中，响应于初始概念的输入，在医学文献库中检索包含初始概念的句子。在本发明的实施例中，可以对医学文献库建立倒排索引，然后，利用所建立的倒排索引，从医学文献库中的医学文献中检索包含初始概念的句子。接着，在步骤S220，抽取所检索到的句子中包含的语义关系。该步骤可以通过使用自然语言处理技术对句子进行语义分析来实现。然后，在步骤S230，根据所抽取的语义关系，确定连接概念。

例如，输入的初始概念是“雷诺氏病”，则可在医学文献库中检索到例如“有些学者认为血液粘度增高是雷诺氏病的诱发因子”的句子。接着，通过对该句子进行语义分析，以抽取出语义关系“诱发(血液粘度增高，雷诺氏病)”，其表示“血液粘度增高”与“雷诺氏病”之间具有诱发关系。然后，根据该语义关系，可以确定“血液粘度增高”是连接概念。

需要注意的是，尽管上文以“关系名称(概念，概念)”的形式来描述语义关系，本领域技术人员应理解，其他能够描述短语之间语义关系的形式(如图、表等)也适用于此。

然而，通过上述过程从医学文献库中获取的与初始概念具有语义关系的连接概念可能包含很多无用的信息。例如，在上述的“雷诺氏病”的例子中，也可从检索到的句子“雷诺氏病也叫肢端动脉痉挛症”中获取连接概念“肢端动脉痉挛症”。显然，该连接概念对于医学知识的发现是无用的。因此，在本发明的其它实施例中，在执行了步骤S230之后，进一步在步骤S240中，过滤在步骤S230中确定的连接概念，以获得具有预定语义关系的连接概念。

考虑到初始概念表示疾病，目标概念是能够应对(包括治疗、预防等)该疾病的物质，因此，依据ABC模型，连接概念通常是疾病所引起的生理现象。因此，在本发明的实施例中，预定语义关系可以是：

a)诱发关系，例如，诱发(血液粘度增高，雷诺氏病)；

b)影响关系，例如，影响(发烧，消化酶的活性)；

c)伴随关系，例如，伴随(病毒性感冒，浑身酸痛和疲乏无力)；

d)导致关系，例如，导致(休克，PH降低的酸碱平衡紊乱)；

e)损害关系，例如，损害(乙醇中毒，神经细胞同周围环境的物质交换)。

本领域的技术人员应当理解，在此所列举的语义关系仅仅是示例性的，还可以使用其它语义关系来过滤连接概念。例如，可参考由美国国立医学图书馆(NLM)开发的一体化医学语言系统(UMLS，Unified Medical Language System)中提供的语义关系，来设置预定语义关系。

通过如图2所示的过程，可以获取与初始概念具有语义关系的一个或多个连接概念。

返回图1，在步骤S120，从医学文献库中获取与在步骤S110中获取的一个或多个连接概念具有语义关系的一个或多个目标概念。图3示出了图1所示的实施例中获取目标概念的过程(步骤S120)的示例性流程图。如图3所示，对于所获取的每一个连接概念，在步骤S310，医学文献库中检索包含该连接概念的句子。然后，在步骤S320，对所检索到的句子进行语义分析，以抽取该句子中包含的语义关系。然后，在步骤S330，根据该语义关系，确定目标概念。

在上述的例子中，连接概念被确定为“血液粘度增高”，因此，在医学文献库中可检索到“深海鱼油有助于抑制血液粘度增高”的句子。通过语义分析，可从该句子中抽取出语义关系“抑制(深海鱼油，血液粘度增高)”。由此，确定目标概念是“深海鱼油”。

通过图3所示的过程，可以获得与所获取的连接概念具有语义关系的一个或多个目标概念。

在获取了连接概念和目标概念之后，在步骤S130，计算一个或多个目标概念相对于初始概念的关联度。在本发明的实施例中，关联度指示目标概念能够应对(包括治疗、预防等)初始概念的概率。通过关联度，能够确定目标概念能够应对初始概念的可能性，从而确定目标概念的重要性。

在本发明的实施例中，使用马尔科夫逻辑网来计算关联度。马尔科夫逻辑网是一阶逻辑的概率扩展，能够刻画事物间复杂的依存关系。具体地，马尔科夫逻辑网是一系列带有权重的一阶逻辑子句的集合。马尔科夫逻辑网可定义一个马尔科夫随机场。在马尔科夫逻辑网中，顶点是闭谓词(ground predicates)或者闭原子(ground atoms)，特征是闭规则(ground formulas)。如果闭谓词(或闭原子)为真，则值设置为1，否则值设置为0。如果闭规则为真，则值设置为1，否则值设置为0。每个特征具有权重，以反映该特征的重要性。因此，闭马尔科夫逻辑网所蕴含的可能世界X的概率表示如下：

其中，X表示闭马尔科夫逻辑网中蕴含的可能世界，Z表示归一化因子，f_i表示第i个特征，对应于一阶逻辑规则(first-order logic formulas)，w_i表示第i个特征f_i的权重。

为了使用马尔科夫逻辑网来计算目标概念相对初始概念的关联度，需要预先建立并训练适合的马尔科夫逻辑网。

首先，设置用作马尔科夫逻辑网的顶点的谓词和用作特征的一阶逻辑规则。在以下的描述中，符号dis(disease)表示疾病，符号phy(physiological function)表示生理机能，符号sub(substance)表示物质。

以下给出谓词和一阶逻辑规则的一些例子。

谓词可以是例如：

Prevent(i,j)，用于判断i是否能够预防j。如果能够，则值设置为真，否则，值设置为假。

Type(i,c)，用于判断i的语义类型是否为c。如果是，则值设置为真，否则，值设置为假。

Contain(m1,i)，用于判断m1是否包含i。如果包含，则值设置为真，否则，值设置为假。

hasRelation(i,j,r)，用于判断i和j之间是否存在关系r。如果存在，则值设置为真，否则，值设置为假。

hasPhy(k)，用于判断是否选择了某种生理机能k。如果选择了，则值设置为真，否则，值设置为假。

hasSub(i)，用于判断是否选择了某种物质i。如果选择了，则值设置为真，否则，值设置为假。

一阶逻辑规则可以是例如：

hasPhy(k)＝>Type(k,*)，其表明如果选择了生理机能k，则k必然具备某种语义类型，其中，*表示任意语义类型，＝>表示蕴含关系。

hasSub(i)＝>Type(i,*)，其表明如果选择了物质i，则i必然具备某种语义类型。

|Type(k,*)|≤1，其表明生理机能k最多具有一个语义类型。

|Type(i,*)|≤1，其表明物质i最多具有一个语义类型。

hasPhy(k)∧Type(k,phy)∧hasRelation(k,d,“诱发”)∧hasSub(i)∧Type(i,sub)∧hasRelation(i,k,“抑制”)＝>Prevent(i,d)，其表明如果生理机能k能够诱发疾病d，而且物质i能够抑制k，则i有可能预防d，其中，d表示某种疾病。

hasPhy(k)∧Type(k,phy)∧hasRelation(k,d,“诱发”)∧hasSub(i)∧Type(i,sub)∧hasRelation(i,k,“抑制”)∧Countain(m,i)∧Type(m,sub)＝>Prevent(m,d)，其表明如果生理机能k能够诱发疾病d，而且物质i能够抑制k，并且物质m包含i，则m有可能预防d。

hasPhy(k)∧Type(k,phy)∧hasRelation(d,k,“伴随”)∧hasSub(i)∧Type(i,sub)∧hasRelation(i,k,“缓解”)＝>Prevent(i,d)，其表明如果疾病d伴随着生理机能k，而且物质i能够缓解k，则i有可能预防d。

hasPhy(k)∧Type(k,phy)∧hasRelation(d,k,“伴随”)∧hasSub(i)∧Type(i,sub)∧hasRelation(i,k,“缓解”)∧Countain(m,i)∧Type(m,sub)＝>Prevent(m,d)，其表明如果疾病d伴随着生理机能k，而且物质i能够缓解k，并且物质m包含i，则m有可能预防d。

hasPhy(k)∧Type(k,phy)∧hasRelation(d,k,“影响”)∧hasSub(i)∧Type(i,sub)∧hasRelation(i,k,“刺激”)＝>Prevent(i,d)，其表明如果疾病d影响生理机能k，而且物质i能够刺激k，则i有可能预防d。

hasPhy(k)∧Type(k,phy)∧hasRelation(d,k,“影响”)∧hasSub(i)∧Type(i,sub)∧hasRelation(i,k,“刺激”)∧Contain(m,i)∧Type(m,sub)＝>Prevent(m,d)，其表明如果疾病d影响生理现象k，而且物质i能够刺激k，并且物质m包含i，则m有可能预防d。

Contain(m,i)∧Prevent(i,j)＝>Prevent(m,j)，其表明如果m含有i，并且i能够预防j，则m能够预防j。

应当注意，上述列出的谓词和一阶逻辑规则仅仅是示例性的，本领域的技术人员知道，还可以根据需要设置其它谓词和一阶逻辑规则。

在根据谓词和一阶逻辑规则建立了马尔科夫逻辑网后，可使用已有的医学知识来训练马尔科夫逻辑网，以确定每个一阶逻辑规则的权重。可以使用现有的训练方法来训练马尔科夫逻辑网，这对于本领域的技术人员来说是已知的。

图4示出了在图1所示的实施例中的计算目标概念相对于初始概念的关联度的过程的示例性流程图。如图4所示，对于所获取的每一个目标概念，在步骤S410，确定所获取的连接概念中与目标概念都相关的连接概念，作为用于该目标概念的相关连接概念。在本发明的实施例中，对于一个初始概念，可获取一个或多个连接概念，而对于一个或多个连接概念中的每一个，也可获取一个或多个目标概念。因此，对于一个目标概念来说，可对应一个或多个连接概念(即，相关连接概念)。通过该步骤，可确定用于特定目标概念的相关连接概念。然后，在步骤S420，可利用预先训练的马尔科夫逻辑网，根据所确定的相关连接概念与初始概念之间的第一语义关系以及相关连接概念与目标概念之间的第二语义关系，计算目标概念相对于初始概念的关联度。如前所述，马尔科夫逻辑网由谓词和一阶逻辑规则构成。在训练好的马尔科夫逻辑网中，每个一阶逻辑规则的权重已确定。这样，可根据初始概念、目标概念、第一语义关系和第二语义关系，在马尔科夫逻辑网中确定相关的谓词和一阶逻辑规则，并进而可通过以下公式(2)计算出目标概念相对初始概念的关联度：

其中，P表示关联度，Z表示归一化因子，f_i表示第i个逻辑规则，w_i表示第i个逻辑规则的权重。

对于每个目标概念，执行步骤S410、S420，以计算出各目标概念相对初始概念的关联度。

返回图1，在步骤S140，根据在步骤S130计算出的每个目标概念相对初始概念的关联度，对目标概念进行排序。在本发明的实施例中，目标概念按照各自的关联度的降序来进行排序。这样，关联度高的目标概念被排在前面，提高了发现有用的医学知识的可能性。

通过以上描述可以看出，本实施例的用于自动发现医学知识的方法可通过利用自然语言处理技术和马尔科夫逻辑网来从医学文献库中发现潜在的医学知识，并确定其重要性，从而提高发现有用的医学知识的可能性。

图5示出了使用马尔科夫逻辑网来计算目标概念相对初始概念的关联度的实例的示意图。在该实例中，初始概念是“骨质疏松”，连接概念是“钙”和“镁”，目标概念是“西兰花”和“甘蓝菜”。对于目标概念“西兰花”，相关连接概念是“钙”和“镁”。因此，相应的第一语义关系是“钙能够预防骨质疏松”和“镁能够预防骨质疏松”，第二语义关系是“西兰花含有钙”和“西兰花含有镁”。对于目标概念“甘蓝菜”，相关连接概念是“镁”。因此，相应的第一语义关系是“镁能够预防骨质疏松”，第二语义关系是“甘蓝菜含有镁”。另外，马尔科夫逻辑网中的一阶逻辑规则Contain(m,i)∧Prevent(i,j)＝>Prevent(m,j)权重被确定为1.5。

因此，在马尔科夫逻辑网中，由初始概念“骨质疏松”、目标概念“西兰花”及其第一语义关系和第二语义关系确定的部分如图5中的圈501所示，由初始概念“骨质疏松”、目标概念“甘蓝菜”及其第一语义关系和第二语义关系确定的部分如图5中的圈502所示。

因此，根据上述的公式(2)，可计算出西兰花相对骨质疏松的关联度P(西兰花能够预防骨质疏松)，即西兰花能够预防骨质疏松的概率：

甘蓝菜相对骨质疏松的关联度P(甘蓝菜能够预防骨质疏松)可被计算为：

因此，根据所计算的关联度，目标概念“西兰花”被排在目标概念“甘蓝菜”的前面。

图6是根据本发明的另一个实施例的用于自动发现医学知识的方法的流程图。与图1所示的实施例相比，在图6所示的实施例中，在对目标概念进行排序后，可提供每个目标概念与初始概念之间的逻辑联系。

如图6所示，步骤S610至S640与图1所示的步骤S110至S140是相同的，在此适当省略其说明。

在对目标概念进行排序后，在步骤S650，提供每个目标概念与初始概念之间的逻辑联系。在本发明的实施例中，对于每个目标概念，可确定从初始概念到该目标概念所经历的一阶逻辑规则，作为逻辑联系。这可基于目标概念与相关连接概念之间的第二语义关系以及初始概念与相关连接概念之间的第一语义关系来确定。例如，在上面的例子中，对于初始概念“骨质疏松”和目标概念“西兰花”，第一语义关系是“钙能够预防骨质疏松”和“镁能够预防骨质疏松”，第二语义关系是“西兰花含有钙”和“西兰花含有镁”。因此，相对应的一阶逻辑规则是Contain(西兰花，钙)∧Prevent(钙，骨质疏松)＝>Prevent(西兰花，骨质疏松)和Contain(西兰花，镁)∧Prevent(镁，骨质疏松)＝>Prevent(西兰花，骨质疏松)。然后，可将所确定的逻辑联系与目标概念相关联地记录。

在上面的例子中，可以如表1所示地示出出目标概念的排序以及目标概念与初始概念之间的逻辑联系：

表1

通过以上描述可以看出，本实施例的用于自动发现医学知识的方法能够进一步提供目标概念与初始概念之间的逻辑联系，从而提高医学知识的可解释性。

图7示出了根据本发明的一个实施例的用于自动发现医学知识的系统700的示意性结构，图8示出了系统700的一个具体实现的实例。下面结合图7和图8详细说明用于自动发现医学知识的系统700，其中，对于与前面实施例相同的部分，适当省略其说明。

如图7所示，该系统700可包括第一获取装置701、第二获取装置702、计算装置703和排序装置704。

第一获取装置701可从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念。如前所述，初始概念可表示疾病。参见图8，在第一获取装置701中，检索模块7011可在医学文献库中检索包含输入的初始概念的句子。然后，抽取模块7012可抽取所检索到的句子中包含的语义关系，并由确定模块7013根据语义关系，确定连接概念。

此外，第一获取装置701还可包括过滤模块7014。过滤模块7014可对所获取的连接概念进行过滤，以获得具有预定语义关系的连接概念。

第二获取装置702可从医学文献库中获取与通过第一获取装置701获得的一个或多个连接概念具有语义关系的一个或多个目标概念。参见图8，在第二获取装置702中，检索模块7021对于所获取的一个或多个连接概念的每一个，在医学文献库中检索包含该连接概念的句子。然后，对于所检索到的每个句子，抽取模块7022可抽取该句子中包含的语义关系，并由确定模块7023根据所抽取的语义关系，确定目标概念。

计算装置703可计算通过第二获取装置702获得的一个或多个目标概念相对于初始概念的关联度。如前所述，关联度指示目标概念能够应对初始概念的概率。如图8所示，在计算装置703中，确定模块7031对于所确定的一个或多个目标概念的每一个，确定一个或多个连接概念中与该目标概念相关的连接概念，作为相关连接概念。然后，计算模块7032可利用预先训练的马尔科夫逻辑网，根据相关连接概念与初始概念之间的第一语义关系和相关连接概念与目标概念之间的第二语义关系，计算目标概念相对于初始概念的关联度。如前所述，马尔科夫逻辑网可由预先定义的谓词和逻辑规则构成，其中，逻辑规则描述谓词之间的逻辑关系。在本发明的实施例中，关联度可根据公式(2)计算。

排序装置704可根据所计算的关联度，对一个或多个目标概念进行排序。在本发明的实施例中，排序装置704可按照关联度的降序来对一个或多个目标概念排序。

此外，在本发明的其它实施例中，系统700还可包括提供装置，其可提供一个或多个目标概念与初始概念之间的逻辑联系。在一个实施例中，提供装置可包括逻辑联系确定模块和记录模块。逻辑联系确定模块对于所确定的一个或多个目标概念的每一个，可确定包含第一语义关系和第二语义关系的逻辑规则，作为该目标概念与初始概念之间的逻辑联系。然后，记录模块可与目标概念相关联地记录所确定的逻辑联系。

应当注意，如图7和图8所示的系统700能够在操作上实现如图1至图4和图6所示的用于自动发现医学知识的方法。

图9示出了根据本发明的另一个实施例的用于自动发现医学知识的系统900。如图9所示，该系统900可包括处理器901和存储有计算机程序的存储器902。当计算机程序由处理器901执行时，使得系统900可执行如图1所示的用于自动发现医学知识的方法的步骤。也就是说，系统900可从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念，并从医学文献库中获取与所获取的一个或多个连接概念具有语义关系的一个或多个目标概念。然后，系统900可计算一个或多个目标概念相对于初始概念的关联度，其中关联度指示目标概念能够应对初始概念的概率，并根据所计算的关联度，对一个或多个目标概念进行排序。

在本发明的实施例中，处理器901可以是例如中央处理单元CPU、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器902可以是使用数据存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。

此外，在本发明的实施例中，系统900也可包括输入设备903，例如键盘、鼠标等，用于输入初始概念。另外，系统900还可包括输出设备904，例如显示器等，用于输出目标概念的排序及其逻辑联系。

在本发明的其它实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时实现如图1至图4和图6所示的用于自动发现医学知识的方法的步骤。

虽然已经在附图中图示并且在以上的详细描述中阐述了本发明的多个实施例，但是应当理解的是，本发明并不局限于所公开的实施例，而是能够进行各种重新部署、修改和替换，而并不脱离如权利要求所限定的本发明的范围。

Claims

1.一种用于自动发现医学知识的方法，包括：

从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念，其中，所述初始概念表示疾病；

从所述医学文献库中获取与所述一个或多个连接概念具有语义关系的一个或多个目标概念；

计算所述一个或多个目标概念相对于所述初始概念的关联度，其中所述关联度指示所述目标概念能够应对所述初始概念的概率；以及

根据所计算的关联度，对所述一个或多个目标概念进行排序。

2.根据权利要求1所述的方法，其中，计算所述一个或多个目标概念相对于所述初始概念的关联度包括：对于所述一个或多个目标概念的每一个，

确定所述一个或多个连接概念中与所述目标概念相关的连接概念，作为相关连接概念；以及

利用预先训练的马尔科夫逻辑网，根据所述相关连接概念与所述初始概念之间的第一语义关系和所述相关连接概念与所述目标概念之间的第二语义关系，计算所述目标概念相对于所述初始概念的关联度，其中，所述马尔科夫逻辑网由预先定义的谓词和逻辑规则构成，所述逻辑规则描述所述谓词之间的逻辑关系。

3.根据权利要求2所述的方法，其中，所述目标概念相对于所述初始概念的关联度根据以下公式计算：

4.根据权利要求2或3所述的方法，还包括：

提供所述一个或多个目标概念与所述初始概念之间的逻辑联系。

5.根据权利要求4所述的方法，其中，提供所述一个或多个目标概念与所述初始概念之间的逻辑联系包括：对于所述一个或多个目标概念的每一个，

确定包含所述第一语义关系和所述第二语义关系的逻辑规则，作为所述逻辑联系；以及

与所述目标概念相关联地记录所述逻辑联系。

6.根据权利要求1所述的方法，其中，从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念包括：

在所述医学文献库中检索包含所述初始概念的句子；

抽取所述句子中包含的语义关系；以及

根据所述语义关系，确定连接概念。

7.根据权利要求6所述的方法，其中，从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念还包括：

过滤所获取的连接概念，以获得具有预定语义关系的连接概念。

8.根据权利要求1所述的方法，其中，从所述医学文献库中获取与所述一个或多个连接概念具有语义关系的多个目标概念包括：对于所述一个或多个连接概念的每一个，

在所述医学文献库中检索包含所述连接概念的句子；

抽取所述句子中包含的语义关系；以及

根据所述语义关系，确定目标概念。

9.根据权利要求1所述的方法，其中，所述一个或多个目标概念按照各自的所述关联度的降序来排序。

10.一种用于自动发现医学知识的系统，包括：

第一获取装置，其被配置为从医学文献库中获取与初始概念具有语义关系的一个或多个连接概念，其中，所述初始概念表示疾病；

第二获取装置，其被配置为从所述医学文献库中获取与所述一个或多个连接概念具有语义关系的一个或多个目标概念；

计算装置，其被配置为计算所述一个或多个目标概念相对于所述初始概念的关联度，其中所述关联度指示所述目标概念能够应对所述初始概念的概率；以及

排序装置，其被配置为根据所计算的关联度，对所述一个或多个目标概念进行排序。

11.根据权利要求10所述的系统，其中，所述计算装置包括：

确定模块，其被配置为对于所述一个或多个目标概念的每一个，确定所述一个或多个连接概念中与所述目标概念相关的连接概念，作为相关连接概念；以及

计算模块，其被配置为利用预先训练的马尔科夫逻辑网，根据所述相关连接概念与所述初始概念之间的第一语义关系和所述相关连接概念与所述目标概念之间的第二语义关系，计算所述目标概念相对于所述初始概念的关联度，其中，所述马尔科夫逻辑网由预先定义的谓词和逻辑规则构成，所述逻辑规则描述所述谓词之间的逻辑关系。

12.根据权利要求11所述的系统，其中，所述关联度根据以下公式计算：

13.根据权利要求11或12所述的系统，还包括：提供装置，其被配置为提供所述一个或多个目标概念与所述初始概念之间的逻辑联系。

14.根据权利要求13所述的系统，其中，所述提供装置包括：

逻辑联系确定模块，其被配置为对于所述一个或多个目标概念的每一个，确定包含所述第一语义关系和所述第二语义关系的逻辑规则，作为所述逻辑联系；以及

记录模块，其被配置为与所述目标概念相关联地记录所述逻辑联系。

15.根据权利要求10所述的系统，其中，所述第一获取装置包括：

检索模块，其被配置为在所述医学文献库中检索包含所述初始概念的句子；

抽取模块，其被配置为抽取所述句子中包含的语义关系；以及

确定模块，其被配置为根据所述语义关系，确定连接概念。

16.根据权利要求15所述的系统，其中，所述第一获取装置还包括：

过滤模块，其被配置为过滤所获取的连接概念，以获得具有预定语义关系的连接概念。

17.根据权利要求10所述的系统，其中，所述第二获取装置包括：

检索模块，其被配置为对于所述一个或多个连接概念的每一个，在所述医学文献库中检索包含所述连接概念的句子；

确定模块，其被配置为根据所述语义关系，确定目标概念。

18.根据权利要求10所述的系统，其中，所述排序装置被配置为按照各自的所述关联度的降序来对所述一个或多个目标概念排序。