CN111341458A

CN111341458A - 基于多层级结构相似度的单基因病名称推荐方法和系统

Info

Publication number: CN111341458A
Application number: CN202010123773.4A
Authority: CN
Inventors: 马旭; 曹宗富; 陈翠霞; 喻浴飞; 蔡瑞琨; 李乾; 罗敏娜
Original assignee: Institute Of Science And Technology National Health Commission
Current assignee: Institute Of Science And Technology National Health Commission
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-06-26
Anticipated expiration: 2040-02-27
Also published as: WO2021169203A1; CN111341458B

Abstract

本发明公开一种基于多层级结构相似度的单基因病名称推荐方法和系统，能够智能精准的推荐出所匹配的单基因病名称。该方法包括：构建单基因病的标准化临床特征表型树；将用户输入的特征集合I中的临床特征在表型树上的节点标记；遍历特征关系数据库中的第n个单基因病名称，将其对应特征集合A中的标准临床特征在表型树上的节点标记；从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；计算特征集合I与当前特征集合A的集合相似度值；令n＝n+1重新遍历特征关系数据库，直至特征关系数据库中的单基因病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总排序，输出最高相似度值对应的单基因病名称。

Description

基于多层级结构相似度的单基因病名称推荐方法和系统

技术领域

本发明涉及医学信息技术领域，尤其涉及一种基于多层级结构相似度的单基因病名称推荐方法和系统。

背景技术

单基因病是一种常见疾病，它是由一对等位基因突变导致的疾病，又称孟德尔式遗传病，其特点如下：

1、单基因病种类繁多，目前已发现的单基因病有8000种以上；

2、单基因病表型复杂，同一种单基因病表型异质性强，存在不同单基因病之间临床特征相互重叠的现象；

3、单基因病遗传模式多样化，即使同一种单基因病，也可能表现为不同的遗传模式，不同的单基因病也可表现为相同的遗传模式。

4、大部分单基因病发病率很低，较为罕见。

这些复杂因素使得临床医生很难对所有的单基因病表型都了解，给单基因病临床诊疗带来了极大的困难。现有技术有通过建立单基因病与临床特征中文数据库，在此基础上，根据患者临床特征对可能的单基因病进行推荐，并提供便利的辅助诊断工具，为临床医生提供诊断线索，进而提高临床医生诊断的正确率，降低漏诊和误诊发生概率。具体为，基于用户输入的病例特征和标准化表型，利用Elestic相似度和Fisher精确检验富集分析方法对单基因病名称进行推荐，其中，Elestic相似度是对输入文本的相似度测量，不能考虑关键字词的含义，譬如“少汗症”和“多汗症”，可能推荐出表型相反的疾病名称排在最前面的情形，Fisher精确检验弊端在于，结果准确性严重依赖于输入的表型是否准确，由于单基因病的表型复杂性，医生很难保证输入的表型就是疾病的标准化表型，若输入的是近似表型，可能导致推荐结果出现误差。

发明内容

本发明的目的在于提供一种基于多层级结构相似度的单基因病名称推荐方法和系统，减少对医生的输入限制要求，智能精准的推荐出所匹配的单基因病名称。

为了实现上述目的，本发明的一方面提供一种基于多层级结构相似度的单基因病名称推荐方法，包括：

根据单基因病名称的特征关系数据库，构建单基因病的标准化临床特征表型树；

将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记；

遍历特征关系数据库中的第n个单基因病名称，将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；

基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；

根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；

令n＝n+1重新遍历特征关系数据库中的第n个单基因病名称，直至特征关系数据库中的单基因病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总排序，输出最高相似度值对应的单基因病名称。

优选地，根据单基因病名称的特征关系数据库的方法包括：

从单基因病的公共数据库和文献数据库，获得已知的单基因病名称及其对应的标准临床特征；

基于已知的单基因病名称及其对应的标准临床特征，建立单基因病名称与标准临床特征的特征关系数据库；

分别计算每种单基因病名称对应的各标准临床特征对该单基因病的贡献度c_i。

较佳地，构建单基因病的标准化临床特征表型树的方法包括：

从特征关系数据库中获取数据，基于HPO构建单基因病的标准化临床特征表型树；

所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。

进一步地，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

所述特征集合I包括多个临床特征，所述特征集合A包括多个标准临床特征；

遍历所述特征集合I中的第i个临床特征，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征，作为与所述第i个临床特征对应的最佳标准临床特征，所述i的初始值为1；

令i＝i+1后重新遍历所述特征集合I中的第i个临床特征，直至特征集合 I中的临床特征遍历完毕，从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。

优选地，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

遍历所述特征集合A中的第j个标准临床特征，基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点B_t，所述 j的初始值为1；

若判断结果为否，则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零；

若判断结果为是，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值；

令j＝j+1后重新遍历所述特征集合A中的第j个标准临床特征，并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算，直至所述特征集合A中的标准临床特征遍历完毕，对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值；

从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

优选地，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值的方法包括：

基于标准化临床特征表型树上的节点标记，获取第i个临床特征与相同干节点B_t连接通路中所有节点的有向集合IB，以及获取第j个标准临床特征相同干节点B_t连接通路中所有节点的有向集合AB，所述有向集合IB长度的值为通路中节点的个数L_IB，所述有向集合AB长度的值为通路中节点的个数L_AB；

提取所述有向集合IB和所述有向集合AB中节点的交集IAB，所述交集 IAB长度的值为通路中共有节点的个数L_IAB；

采用公式S_IiAj＝β·SM+(1-β)·SI计算所述第j个标准临床特征与所述第i个临床特征的相似度值；其中，

所述SM表示所述第j个标准临床特征与所述第i个临床特征在表型树多层次间的相似度值；

所述SI表示所述第j个标准临床特征与所述第i个临床特征在表型树同层次间的相似度值，所述β为权重系数。

示例地，所述SM的计算公式为SM＝L_IAB/max(L_AB,L_IB)，所述SI的计算公式为SI＝1/(L_AB+L_IB-2L_IAB+1)。

优选地，根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值的方法包括：

利用第i个临床特征的贡献度c_i，对特征集合A中与之对应最佳标准临床特征的最大相似度值进行加权处理；

令i＝i+1，重新对特征集合A中与第i个临床特征对应的最佳标准临床特征的最大相似度值进行加权处理，直至将特征集合A中筛选出的全部最佳标准临床特征加权处理完毕，累加特征集合A中全部最佳标准临床特征对应的加权最大相似度值，得到特征集合I与当前特征集合A的集合相似度值。

与现有技术相比，本发明提供的基于多层级结构相似度的单基因病名称推荐方法具有以下有益效果：

本发明提供的基于多层级结构相似度的单基因病名称推荐方法中，首先基于单基因病名称的特征关系数据库构建单基因病的标准化临床特征表型树，然后将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记，并遍历特征关系数据库中的第n个单基因病名称，将当前第n个单基因病名称对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，然后根据标准化临床特征表型树上的节点标记，从特征集合A 中分别匹配出与特征集合I中每个临床特征一一对应的最佳标准临床特征，并根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I 与当前特征集合A的集合相似度值，在此之后，令n＝n+1重新遍历特征关系数据库中的第n个单基因病名称，直至特征关系数据库中的单基因病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总排序，输出最高相似度值对应的单基因病名称。

可见，本发明提供的基于多层级结构相似度的单基因病名称推荐方法的使用过程具有便捷友好的特点，通过即时搜索和表型树可以非常方便的输入标准化的临床特征，而且允许用户输入相似的临床特征，降低对用户输入限制的要求，提高了智能化诊断程度，点击查询后快速输出单基因名称的推荐结果，提高了单基因病的诊断准确率和诊断效率。

本发明的另一方面提供一种基于多层级结构相似度的单基因病名称推荐系统，包括：

表型树单元，用于根据单基因病名称的特征关系数据库，构建单基因病的标准化临床特征表型树；

输入单元，用于将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记；

遍历单元，用于遍历特征关系数据库中的第n个单基因病名称，将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；

检索单元，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；

计算单元，用于根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；

判断单元，令n＝n+1重新响应遍历标记单元，直至特征关系数据库中的单基因病名称遍历完毕；

输出单元，用于将特征集合I与每个特征集合A对应的集合相似度值汇总排序，输出最高相似度值对应的单基因病名称。

与现有技术相比，本发明提供的基于多层级结构相似度的单基因病名称推荐系统的有益效果与上述技术方案提供的基于多层级结构相似度的单基因病名称推荐方法有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于多层级结构相似度的单基因病名称推荐方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于多层级结构相似度的单基因病名称推荐方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为实施例一中基于多层级结构相似度的单基因病名称推荐方法的流程示意图；

图2为本发明实施例一中标准化临床特征表型树上的节点标记示例图；

图3为实施例二中基于多层级结构相似度的单基因病名称推荐系统的结构框图；

图4为本发明实施例四中基于多层级结构相似度的单基因病名称推荐方法应用的环境架构示意图；

图5为本发明实施例四中基于多层级结构相似度的单基因病名称推荐方法应用的环境架构的一种示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种基于多层级结构相似度的单基因病名称推荐方法，包括：

根据单基因病名称的特征关系数据库，构建单基因病的标准化临床特征表型树；将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记；遍历特征关系数据库中的第n个单基因病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，n的初始值为1；基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；令n＝n+1重新遍历特征关系数据库中的第n个单基因病名称，直至特征关系数据库中的单基因病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总排序，输出最高相似度值对应的单基因病名称。

本实施例提供的基于多层级结构相似度的单基因病名称推荐方法中，首先基于单基因病名称的特征关系数据库构建单基因病的标准化临床特征表型树，然后将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记，并遍历特征关系数据库中的第n个单基因病名称，将当前第n个单基因病名称对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，然后根据标准化临床特征表型树上的节点标记，从特征集合A 中分别匹配出与特征集合I中每个临床特征一一对应的最佳标准临床特征，并根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I 与当前特征集合A的集合相似度值，在此之后，令n＝n+1重新遍历特征关系数据库中的第n个单基因病名称，直至特征关系数据库中的单基因病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总排序，输出最高相似度值对应的单基因病名称。

可见，本实施例提供的基于多层级结构相似度的单基因病名称推荐方法在使用过程中具有便捷友好的特点，通过即时搜索和表型树可以非常方便的输入标准化的临床特征，而且允许用户输入相似的临床特征，降低对用户输入限制的要求，提高了智能化诊断程度，点击查询后快速输出单基因名称的推荐结果，提高了单基因病的诊断准确率和诊断效率。

具体地，上述实施例中根据单基因病名称的特征关系数据库的方法包括：

从单基因病的公共数据库和文献数据库，获得已知的单基因病名称及其对应的标准临床特征；基于已知的单基因病名称及其对应的标准临床特征，建立单基因病名称与标准临床特征的特征关系数据库；分别计算每种单基因病名称对应的各标准临床特征对该单基因病的贡献度c_i。

优选地，还需参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息，以实现对中文版病历资料的识别匹配。

具体实施时，公共数据库为MedGen数据库，文献数据库为PubMed数据库，特征关系数据库中包括互相匹配的单基因病名称、外文临床特征、临床特征在人类表型标准用语数据库中的编号(HPOIDs)以及中文临床特征。本实施例可以为单基因病的临床诊断和鉴别提供线索和理论支持，也为进一步缩小基因检测的范围提供了数据支持。同时，本实施例建立的临床特征关系数据库覆盖的单基因病种类达8600种以上，单基因病表型临床特征超过11000个，表型与临床特征关系数据达9万种以上，囊括了单基因病研究方向最新的数据库版本和文献报道。

具体地，每种单基因病名称对应的各标准临床特征对该单基因病的贡献度c_i的计算方法如下：

在特征关系数据库中，假设共有a种标准临床特征，a种标准临床特征在特征关系数据库中一共出现N次，假定每种标准临床特征出现的次数为a_i，则每个标准临床特征在特征关系数据库中出现的频率为f_i，f_i的计算公式为：

f_i＝a_i/N；

对于特征关系数据库中的某种单基因病，假定对应有m个标准临床特征，每个标准临床特征在特征关系数据库中的分布频率依次为f₁、f₂、……、f_m，则某个标准临床特征对该单基因病的贡献度c_i的计算公式为：

上述公式中，k为校正因子，且k＞1，特征关系数据库作为参考数据库使用。

特征集合I，也即临床特征信息集合可通过可视化工具实现两种方式的标准化输入：第一种方式是输入关键词，每一个关键词相当于一个临床特征，通过即时搜索提供相关标准化表型信息的下拉菜单方便用户选择，实现标准化临床特诊信息的输入；第二种方式是直接在表型树上，通过鼠标点击相关的标准化临床特征信息，进行输入。

上述实施例中构建单基因病的标准化临床特征表型树的方法包括：

从特征关系数据库中获取数据，基于HPO构建单基因病的标准化临床特征表型树；其中，标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。HPO是指hp.obo文件。

上述实施例中基于标准化临床特征表型树上的节点标记，从特征集合A 中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

特征集合I包括多个临床特征，特征集合A包括多个标准临床特征；遍历特征集合I中的第i个临床特征，从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征，作为与第i个临床特征对应的最佳标准临床特征， i的初始值为1；令i＝i+1后重新遍历特征集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个单基因病名称对应的特征集合A 中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。

进一步地，从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征的方法包括：

遍历特征集合A中的第j个标准临床特征，基于已建立的索引判断第j个标准临床特征与第i个临床特征是否存在相同的干节点B_t，j的初始值为1；若判断结果为否，则认为第j个标准临床特征与第i个临床特征的相似度值为零；若判断结果为是，基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值；令j＝j+1后重新遍历特征集合A中的第j个标准临床特征，并继续执行第j个标准临床特征与第i个临床特征的相似度计算，直至特征集合A中的标准临床特征遍历完毕，对应得到与特征集合A中标准临床特征一一对应的多个相似度值；从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

,上述实施例中基于多层级结构相似度算法计算第j个标准临床特征与第i 个临床特征的相似度值的方法包括：

基于标准化临床特征表型树上的节点标记，获取第i个临床特征与相同干节点B_t连接通路中所有节点的有向集合IB，以及获取第j个标准临床特征相同干节点B_t连接通路中所有节点的有向集合AB，有向集合IB长度的值为通路中节点的个数L_IB，有向集合AB长度的值为通路中节点的个数L_AB；提取有向集合IB和有向集合AB中节点的交集IAB，交集IAB长度的值为通路中共有节点的个数L_IAB；采用公式S_IiAj＝β·SM+(1-β)·SI计算第j个标准临床特征与第i个临床特征的相似度值；

其中，SM表示第j个标准临床特征与第i个临床特征在表型树多层次间的相似度值；SI表示第j个标准临床特征与第i个临床特征在表型树同层次间的相似度值，β为权重系数。

具体实施时，对于特征关系数据库中某一单基因病名称对应的特征集合 A有n个元素A_j组成，分别为A₁、A₂、……、A_n，也即A＝[A₁，A₂，...,A_j...,A_n]，特征关系数据库中的每一个基因病名称均对应一个集合A。假若某一单基因病患者输入的标准化特征集合I，有m个临床I_i组成，对应的特征集合I＝[I₁、 I₂、……、I_m]。如果I_i与A_j的干节点不相同，则认为I_i与A_j的相似度为0，如果I_i与A_j的干节点相同，如图2所示，相同的干节点为B_t，则计算I_i与A_j的相似度，计算方法为：I_i到B_t之间连接通路中的所有节点组成有向集合IB，有向集合IB的元素个数记为N_IB，有向集合IB的长度定义为该通路上节点的个数，记为L_IB，且L_IB＝N_IB；

A_j到B_t之间连接通路中的所有节点组成有向集合AB，有向集合AB的元素个数记为N_AB，有向集合AB的长度定义为该通路上节点的个数，记为L_AB，且L_AB＝N_AB；

有向集合IB和有向集合AB的交集集合记为IAB，交集集合IAB的元素个数记为N_IAB，集合IAB的长度定义为共有路径上节点的个数，记为L_IAB，则L_IAB＝N_IAB，其中，SM＝L_IAB/max(L_AB,L_IB)，SI＝1/(L_AB+L_IB-2L_IAB+1)，β为权重系数，β∈(0,1)；I_i与A_j之间的相似度的取值范围S_IiAj∈[0,1]。

进一步地，上述实施例中根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值的方法包括：

利用第i个临床特征的贡献度c_i，对特征集合A中与之对应最佳标准临床特征的最大相似度值进行加权处理；令i＝i+1，重新对特征集合A中与第i个临床特征对应的最佳标准临床特征的最大相似度值进行加权处理，直至将特征集合A中筛选出的全部最佳标准临床特征加权处理完毕，累加特征集合A 中全部最佳标准临床特征对应的加权最大相似度值，得到特征集合I与当前特征集合A的集合相似度值。

具体实施时，对于每个输入的临床特征I_i，都可以在特征集合A中找到一个与之对应相似度最大的标准临床特征A_j，也就是说每个临床特征I_i都会得到一个与特征集合A的相似度值，特征集合I和特征集合A的相似度，定义为特征集合I中的每个临床特征I_i与特征集合A的相似度之和。

考虑到每个临床特征对单基因病的贡献程度不一，需对相应的最大相似度值进行加权处理，其计算公式为

其中S_IiA表示临床特征I_i与特征集合A的相似度值。特征集合I和特征集合A的相似度值，定义为特征集合I中每个临床特征I_i与特征集合A的相似度之和，其计算公式为

S_IA表示特征集合I与特征集合A的相似度值。

本实施的优势在于，1、开发了友好的客户端，用户可通过鼠标点击或者输入关键词即时搜索输入标准化临床特征，非常方便；2、通过计算临床特征I与特征集合A的多层次结构的相似度，而多层次结构相似度算法对输入表型进行了模糊处理，降低了对医生的输入限制要求，使得输入过程更加友好和智能，能够结合输入信息利用自定义的多层次结构相似度算法，计算与单基因病疾病名称的关联强度，根据关联强度提示患者可能所患的单基因病，对单基因病名称进行精准推荐。

实施例二

请参阅图3，本实施例提供一种基于多层级结构相似度的单基因病名称推荐系统，包括：

与现有技术相比，本发明实施例提供的基于多层级结构相似度的单基因病名称推荐系统的有益效果与上述实施例一提供的基于多层级结构相似度的单基因病名称推荐方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于多层级结构相似度的单基因病名称推荐方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于多层级结构相似度的单基因病名称推荐方法的有益效果相同，在此不做赘述。

实施例四

基于上述实施例，参阅图4和图5所示，提供一种应用场景的环境架构示意图。

可以开发一个应用软件，用于实现上述实施例中的基于多层级结构相似度的单基因病名称推荐方法，并且，该应用软件可以安装在用户终端，用户终端与服务器连接，实现通信。

其中，用户终端可以为计算机、平板电脑等任何智能设备，本实施例仅以电脑为例进行说明。

例如，打开智能设备相关的应用程序，用户使用输入模块如键盘、鼠标等输入特征集合I中的临床特征，实现在应用程序中临床特征的标准化输入，电脑中的应用程序将特征集合I的临床特征发送至数据库检索模块，如服务器，由数据库检索模块采用多层级结构相似度算法遍历计算特征关系数据库中各单基因病名称对应的特征集合A与特征集合I集合的相似度值，汇总排序后得到最高相似度值对应的单基因病名称，然后将最高相似度值对应的单基因病名称通过输出模块，如显示器可视化的反馈给用户。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于多层级结构相似度的单基因病名称推荐方法，其特征在于，包括：

基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I每个临床特征对应的最佳标准临床特征；

2.根据权利要求1所述的方法，其特征在于，根据单基因病名称的特征关系数据库的方法包括：

3.根据权利要求2所述的方法，其特征在于，构建单基因病的标准化临床特征表型树的方法包括：

4.根据权利要求3所述的方法，其特征在于，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

令i＝i+1后重新遍历所述特征集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。

5.根据权利要求4所述的方法，其特征在于，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

遍历所述特征集合A中的第j个标准临床特征，基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点B_t，所述j的初始值为1；

6.根据权利要求5所述的方法，其特征在于，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值的方法包括：

提取所述有向集合IB和所述有向集合AB中节点的交集IAB，所述交集IAB长度的值为通路中共有节点的个数L_IAB；

7.根据权利要求6所述的方法，其特征在于，所述SM的计算公式为SM＝L_IAB/max(L_AB,L_IB)，所述SI的计算公式为SI＝1/(L_AB+L_IB-2L_IAB+1)。

8.根据权利要求6或7所述的方法，其特征在于，根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值的方法包括：

9.一种基于多层级结构相似度的单基因病名称推荐系统，包括：

10.一种计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至8任一项所述方法的步骤。