CN113270144A

CN113270144A - 一种基于表型的基因优先级排序方法和电子设备

Info

Publication number: CN113270144A
Application number: CN202110694967.4A
Authority: CN
Inventors: 吴南; 郑羽; 陈泽夫; 杨永鑫; 赵森; 吴志宏; 范燃; 郑思思; 陈泽根
Original assignee: Beijing Yiqi Technology Co ltd
Current assignee: Beijing Yiqi Technology Co ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-08-17
Anticipated expiration: 2041-06-23
Also published as: CN113270144B

Abstract

本发明公开了一种基于表型的基因优先级排序方法、电子设备和计算机可读存储介质，所述方法包括：接收输入表型组，所述输入表型组包括至少一个表型；获取所述输入表型组的向量表示；获取每个待排序基因的向量表示；分别根据所述每个待排序基因的向量表示与所述输入表型组的向量表示，获取每个待排序基因与所述输入表型组之间的相关性分值；和将所有待排序基因按照所述相关性分值进行排序，排序结果作为待排序基因相对于所述输入表型组的优先级排序。本发明中的基于表型的基因优先级排序方法对于基因具有较好的排序性能。

Description

一种基于表型的基因优先级排序方法和电子设备

技术领域

本发明涉及生物信息技术领域，更具体地，涉及一种基于表型的基因优先级排序方法、电子设备和计算机可读存储介质。

背景技术

遗传病按遗传方式可分为单基因病、多基因病、线粒体病和染色体病。单基因病也称孟德尔遗传病，是由一对等位基因控制的疾病。

孟德尔遗传病每年影响数百万的活产儿，约占小儿住院的17.0％。自2005年起，第二代基因组测序技术已成为现代检测孟德尔遗传病的主要方式，第二代基因组测序技术包括全基因组测序（whole genome sequencing, WGS）、全外显子组测序（whole exomesequencing, WES）和靶向目的基因测序等。鉴于有85%的引起孟德尔遗传病的变异位于外显子区域，全外显子组测序已经是孟德尔遗传病的主流检测手段之一。通过全外显子组测序对孟德尔遗传病进行快速和准确的诊断，可以预防疾病进展，改变患者管理并减轻财务负担。但是，典型的WES经过严格过滤后会调用数百个变体，这需要专家花费平均数小时的时间来进行分析，这极大地阻碍了对致病基因的快速鉴定。随着处理能力、存储和算法的进步，计算机技术越来越多的被应用于WES数据的解释，具体来说，计算机技术越来越多的被用于整合WES数据中的表型和基因的关系。

目前基于HPO（Human phenotype ontology，人类表型术语集）、OMIM（OnlineMendelian Inheritance in Man，在线人类孟德尔遗传数据库）和Orphanet（罕见病和孤儿药物的国际参考知识库）等数据库，采用语义相似性算法，结合或不结合对变异致病性的计算机模拟预测，开发了多种基因/疾病优先级排序工具，通过量化患者表型与数据库相关表型之间的相似性，进行致病基因排序。另外，随着遗传学知识的快速积累，一些使用机器学习算法的工具被开发出来，用以整合表型-基因关系、检索相关文章和将候选基因进行等级排序等。

但是，现有的等级排序工具在对基因进行等级排序时存在性能较低的问题，例如，在通过WES对孟德尔遗传病进行诊断的过程中应用现有的等级排序工具，对WES数据的判读的准确性较低。

发明内容

鉴于上述问题，本发明提出了一种基于表型的基因优先级排序方法、电子设备和存储介质。

一种基于表型的基因优先级排序方法，包括：

接收输入表型组，所述输入表型组包括至少一个表型；

获取所述输入表型组的向量表示；

获取每个待排序基因的向量表示；

分别根据所述每个待排序基因的向量表示与所述输入表型组的向量表示，获取每个待排序基因与所述输入表型组之间的相关性分值；和

将所有待排序基因按照所述相关性分值进行排序，排序结果作为待排序基因相对于所述输入表型组的优先级排序。

在其中一个实施例中，所述获取所述输入表型组的向量表示，包括：

获取所述输入表型组中的每个表型的向量表示；和

获取所述输入表型组中的每个表型的向量表示的平均值，所述平均值作为所述输入表型组的向量表示。

获取所述输入表型组中每个表型的向量表示；

获取所述输入表型组中部分表型或全部表型的权重；

利用所述权重对所对应的表型的向量表示进行加权；和

获取加权后的所述输入表型组中的所有表型的向量表示的平均值，所述平均值作为所述输入表型组的向量表示。

在其中一个实施例中，所述获取所述输入表型组中部分表型或全部表型的权重，是通过接收用户输入的所述部分表型或全部表型的自定义权重得到的。

在其中一个实施例中，所述权重为固有权重，所述固有权重的生成方法包括：

利用TF-IDF算法，获取表型-疾病关联集合中的所有表型的固有权重。

在其中一个实施例中，所述利用TF-IDF算法，获取表型-疾病关联集合中的所有表型的固有权重，包括：

针对所述表型-疾病关联集合中的每个表型-疾病对，分别将表型-表型关联集合和表型-疾病关联集合中与本表型-疾病对中的疾病相关的表型数量取倒数，所述倒数作为本表型-疾病对的词频；

将所述表型-疾病关联集合和疾病-基因关联集合中的所有疾病的数量除以所述表型-疾病关联集合中与本表型-疾病对中的表型相关的疾病的个数得到商，对所述商取以10为底的对数，所述对数作为本表型-疾病对的逆向文件频率；

分别将每个表型-疾病对的词频和逆向文件频率相乘，分别得到所述每个表型-疾病对的TF-IDF分数；和

针对表型-表型关联集合和表型-疾病关联集合中的每个表型，分别获取所述每个表型所对应的所有表型-疾病对的TF-IDF分数平均值，所述 TF-IDF分数平均值为对应的表型的固有权重。

在其中一个实施例中，所述每个待排序基因和所述每个表型的向量表示是通过图嵌入算法映射得到的。

在其中一个实施例中，所述图嵌入算法包括：

利用表型-表型关联集合、表型-疾病关联集合和疾病-基因关联集合，构建表型-疾病-基因的有向图；和

将所述有向图中的每个节点转换为一个相应的向量表示；

其中，在在所述有向图中，每个节点分别代表一个表型、一个疾病或一个基因；在相关的表型和表型对应的节点之间，在相关的表型和疾病对应的节点之间，以及在相关的疾病和基因对应的节点之间，均通过有向边连接。

在其中一个实施例中，在所述有向图中，相关的表型和表型对应的节点之间由两个方向相反的有向边进行连接；相关的表型和疾病对应的节点之间由一个从表型所对应的节点指向疾病所对应的节点的有向边进行连接，相关的疾病和基因对应的节点之间由一个从疾病所对应的节点指向基因所对应的节点的有向边进行连接。

一种电子设备，包括：

数据接收模块，用于接收输入表型组，所述输入表型组包括至少一个表型；

表型组向量表示模块，用于获取所述输入表型组的向量表示；

基因向量表示模块，用于获取每个待排序基因的向量表示；

相关性分值获取模块，用于分别根据所述每个待排序基因的向量表示与所述输入表型组的向量表示，获取每个待排序基因与所述输入表型组之间的相关性分值；和

优选级排序模块，用于将所有待排序基因按照所述相关性分值进行排序，排序结果作为待排序基因相对于所述输入表型组的优先级排序。

一种电子设备，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行以上所述的基于表型的基因优先级排序方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上所述的基于表型的基因优先级排序方法。

上述一种基于表型的基因优先级排序方法、电子设备和存储介质，通过获取输入表型组的向量表示和每个待排序基因的向量表示，并且获取每个待排序基因与输入表型组之间的相关性分值，根据相关性分值对待排序基因进行排序。基于上述方法采用预先收集的病例报告测试集和真实患者测试集中进行测试，该方法将致病基因排到Top10的概率高于Phenolyzer、Phenomizer、Phrank和HANRD等排序工具，并且该方法检测到致病基因等级的中位数低于Phenolyzer、Phenomizer、Phrank和HANRD等排序工具；综上可以看出本发明中的基于表型的基因优先级排序方法将致病基因排到较前等级的概率高于现有的排序工具，因此判定其具有更好的排序效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1示出了根据本发明一个实施例的基于表型的基因优先级排序方法的流程图。

图2示出了根据本发明一个实施例的获取输入表型组的向量表示的过程流程图。

图3示出了根据本发明另一个实施例的在输入表型组设置有权重的情况下，获取输入表型组的向量表示的过程流程图。

图4示出了根据本发明一个实施例的图嵌入算法的过程流程图。

图5A示出了根据本发明一个实施例的无向图的结构示意图；

图5B示出了根据本发明一个实施例的有向图的结构示意图

图6示出了根据本发明另一个实施例中的一种电子设备的结构框图。

图7示出了根据本发明另一个实施例中的一种计算机设备的内部结构图。

图8示出了根据本发明中的验证实施例1的评估结果图。

图9示出了根据本发明中的验证实施例1的去掉报告了新型致病基因的病例报告后的评估结果图。

图10示出了根据本发明中的验证实施例1的病例报告测试集分为不同的亚组的评估结果图。

图11示出了根据本发明中的验证实施例2的评估结果示意图。

图12示出了根据本发明中的验证实施例3的表型数目、精确表型百分比、不精确表型百分比和噪声表型百分比与检测性能的相关性结果图。

图13示出了根据本发明中的验证实施例3的构建包含精确表型，不精确表型和嘈杂表型（N = 5997）的不同组合的综合测试集方法的示意图。

图14示出了根据本发明中的验证实施例3的改变不同测试集中精确表型的权重下本方法的性能。

图15示出了根据本发明中的验证实施例3的不同测试集的评估结果图。

图16A和图16B示出了根据本发明中的验证实施例4的评估结果示意图。

图17示出了根据本发明中的验证实施例5为数据中的所有表型分配固有权重后，固有权重最高的20种重要表型。

图18A示出了根据本发明中的验证实施例5为组2中的表型分配固有权重和默认设置时的测试结果对比图。

图18B示出了根据本发明中的验证实施例5为组3中的表型分配固有权重和默认设置时的测试结果对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

孟德尔遗传病可分为常染色体显性遗传病、常染色体隐性遗传病、X伴性显性遗传病、X伴性隐性遗传病、Y伴性遗传病五种。常染色体显性遗传病包括但不限于家族性高脂蛋白血症，马尔芬氏综合征，威尔逊氏综合征，亨丁顿氏舞蹈病，结肠息肉，阵发性心动过速，体质性低血压，椭圆形红细胞增多症，肌强直性营养不良，先天性肌强直，周期性麻痹，胱氨酸尿症，遗传性球形细胞增多症。常染色体隐性遗传病包括但不限于苯丙酮尿症，黑尿症，白化病，先天性葡萄糖，半乳糖吸收不良症，镰刀形红细胞贫血病，体位性（直）蛋白尿，肝糖原贮积症，半乳糖血症，丙酮酸激酶缺乏症，黑蒙性痴呆，高雪氏病。X伴性显性遗传病包括但不限于高雪氏病，深褐色齿，牙珐琅质发育不良，钟摆型眼球震颤，口、面、指综合症，脂肪瘤，脊髓空洞症，棘状毛囊角质化，抗维生素D佝偻病，遗传性老年痴呆，遗传性脑智力超常型孤独症。X伴性隐性遗传病包括但不限于红绿色盲症、血友病、进行性肌营养不良、家族性遗传性视神经萎缩、眼白化病、无眼畸形、先天性夜盲症、血管瘤病、致死性肉芽肿、睾丸女性化综合症、先天性丙种球蛋白缺乏症、水脑、眼—脑—肾综合症。Y伴性遗传病包括但不限于外耳道多毛症、鸭蹼病、箭猪病。

术语“表型”为表现型的简称，是指具有特定基因型的个体，在一定环境条件下，所表现出来的性状特征的总和。表型包括但不限于复发性尿路感染、多囊性肾发育不良、神经源性膀胱功能障碍、身材矮小、发育迟缓、不同部位的黑素缺失、智力障碍、小头畸形、眼球震颤、听觉障碍、共济失调、脊柱侧凸、斜视、小颌畸形、构音障碍、代谢异常、癫痫、发育停滞、无精症、隐睾、男性假两性畸形、软腭裂、大头畸形、前囟增宽、枕骨突出、颅缝闭合延迟、视网膜色素变性、视网膜电流图异常、晶状体异常、眼球突出、进行性眼外肌麻痹、蓝巩膜、眼肌瘫痪、眼距过窄、非言语行为应用障碍、尿道梗阻、垂体性侏儒症、肾素-血管紧张素系统亢进、甲状腺肿、下丘脑-垂体轴异常、继发性闭经、全垂体功能减退、皮肤着色异常、皮下脂肪组织异常、多发性雀斑样痣、少毛症、发疹性黄瘤、发作性多汗症。

在采用WES对孟德尔遗传病进行诊断时，需要找到相应的致病基因，但是在对基因进行等级排序时存在性能较低的问题。因此准确度较高的基因优先级排序方法，具有非常良好的临床应用价值和前景。

在一个实施例中，如图1所示，提供了一种基于表型的基因优先级排序方法的流程图，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤100，接收输入表型组，所述输入表型组包括至少一个表型。

其中步骤100中的输入表型组包括至少一个表型，一般来说通常包括临床上表现出的多个表型；例如输入表型组可以是临床医生针对患者的实际临床表现得出的一组表型，优选的，该步骤中的输入表型组可以是患者的适应症所对应的一组表型。适应症是临床医生进行致病基因检测的主要依据，它通常代表一组特定的表型，这些表型可以是原发性的，显著的或严重的，符合孟德尔的分离定律并且需要用致病基因来解释。

步骤200，获取所述输入表型组的向量表示。

其中步骤200中的输入表型组的向量表示指的是采用向量来表示这个输入表型组，这样的向量表示使得可以将输入表型组中的所有表型作为一个整体进行处理，从而将多对一的搜索问题简化为一对一问题，进而提高数据处理速度。

步骤300，获取每个待排序基因的向量表示。

其中步骤300中的待排序基因是排序方法所针对的基因。在本发明实施例中尤其指的是目前已知的与孟德尔遗传病或者表型相关的致病基因。在一个实施例中，针对如果是针对一个个体的突变基因的排序，那么此时待排序基因是该个体基因测序结果中突变基因。

在一个实施例中，待排序基因指的是候选测序分析结果文件中的突变基因；其中候选测序分析结果文件可以是vcf文件或tsv文件；候选测序分析结果文件是针对某个个体（可以是病人或者其他有基因测序需要的人群）进行基因测试结果分析后得到的文件。

在一个实施例中，所述待排序基因可以是OMIM数据所收录中的基因。此种情况可以是用于对已得到的临床诊断和突变基因结果的进行复核。

步骤400，分别根据所述每个待排序基因的向量表示与所述输入表型组的向量表示，获取每个待排序基因与所述输入表型组之间的相关性分值。

其中，在步骤400中，某个待排序基因与所述输入表型组之间的相关性分值是用来衡量该待排序基因导致这些表型的可能性的。具体来说，获取某待排序基因与所述输入表型组之间的相关性分值的具体方法是通过将某个待排序基因的向量表示与输入表型组的向量表示进行点积运算，点积运算的结果即为该待排序基因与输入表型组之间的相关性分值。

步骤500，将所有待排序基因按照所述相关性分值进行排序，排序结果作为待排序基因相对于所述输入表型组的优先级排序。

其中，在步骤500中，将所有待排序基因按照相关性分值进行排序，例如优选的可以根据相关性分支由大到小进行排序，相关性分值越大，说明待排序基因导致输入表型组的可能性更大。具体来说，对于基因排序可以按照Top10、Top20、Top50、Top100这样的等级来表示，例如，如果说某个基因相对一个输入表型组排到了Top10，指的是在该基因与该输入表型组之间的相关性分值，在所有待排序基因中位于前10位。

上述基于表型的基因优先级排序方法中，综合将一个输入表型组的进行向量表示，并且根据该向量表示与待排序基因的向量表示之间的相关性分值进行基因等级排序。根据后续验证实施例1中的评估结果可知，本发明中的基于表型的基因优先级排序方法将致病基因排到较前等级的概率高于现有的排序工具，因此判定其具有更好的排序效果。

在一个实施例中，如图2所示，步骤200包括：

步骤210，获取所述输入表型组中的每个表型的向量表示；和

步骤220，获取所述输入表型组中的每个表型的向量表示的平均值，所述平均值作为所述输入表型组的向量表示接收每个表型的自定义权重。

具体来说，本实施例在对一个输入表型组进行向量表示时，从向量空间中直观地来看，该输入表型组的向量表示是这个输入表型组中的所有表型所对应的节点在向量空间的中点。例如，如果一个输入表型组包括N个表型，N个表型的向量表示为

，则整个该输入表型组的向量表示为

。

在一个实施例中，如图3所示，当输入表型组中的表型设置有权重的情况下，其中步骤200，获取所述输入表型组的向量表示，包括：

步骤210'，获取所述输入表型组中每个表型的向量表示；

步骤220'，获取所述输入表型组中部分表型或全部表型的权重；

步骤230'，利用所述权重对所对应的表型的向量表示进行加权；和

步骤240'，获取加权后的所述输入表型组中的所有表型的向量表示的平均值，所述平均值作为所述输入表型组的向量表示。

具体来说，例如对于一个包括N个表型的输入表型组来说，N个表型的向量表示为

，则在对其中的表型进行加权之后，整个输入表型组的向量表示为

，其中

是第

个表型的权重。

在一个实施例中，其中步骤220'所述获取所述输入表型组中部分表型或全部表型的权重，是通过接收用户输入的所述部分表型或全部表型的自定义权重得到的。具体来说，方法的使用者可以对输入表型组中的部分或者全部表型的权重进行自定义设置，从而得到自定义权重。例如，使用者可以根据需要增加所述输入表型组中的单个或多个表型的权重，从而提高加权的表型对于基因排序结果的影响力，具体来说例如使用者如果是临床医生，其可以根据自己的临床经验判断哪些表型是比较重要的，然后采用自定义的方式对不同的表型赋予不同的权重，例如使用者认为比较重要的表型的权重要高于其他表型的权重。对于WES数据的判读很大程度上依赖于临床背景，需要进行全面的临床分析和深入的表型分析；本实施中通过设置自定义权重，本实施例中的方法融合了使用者（尤其是临床医生）的专业知识和经验，从而使得该方法的基因等级排序性能更好。

在一个实施例中，所述获取所述输入表型组中部分表型或全部表型的权重中，其中所述部分表型或全部表型中的适应症对应的表型的权重高于所述部分或全部表型中的其他表型的权重。

在一个实施例中，所述权重为固有权重，所述固有权重的生成方法包括：利用TF-IDF算法，获取表型-疾病关联集合中的所有表型的固有权重。其中，TF-IDF算法是一种用于信息检索和数据挖掘的常用加权技术，固有权重是由表型的固有特性（可能致病性）来确定的。对于经验丰富的临床医生来说，可以通过的设置自定义权重将临床医生的专业知识和经验结合到基因排序中，提高本专利中的方法的基因优先级排序的准确性；但是对于临床经验较为欠缺的使用者来说，确定自定义权重存在一定的难度，为了解决这一问题，我们定义了本实施例中的由表型固有特性确定的固有权重。具体来说，即为采用TF-IDF算法在表型-表型关联集合、表型-疾病关联集合和疾病-基因关联集合中进行数据挖掘，从而获得所有表型的固有权重。当需要对输入表型组中的部分表型或全部表型的权重时，只需要从得到所有表型的权重中选出对应表型的权重即可。

在一个实施例中，所述利用TF-IDF算法，获取表型-疾病关联集合中的所有表型的固有权重，包括：

将所述表型-疾病关联集合和疾病-基因关联集合中的所有疾病的数量除以所述表型-疾病关联集合中与本表型-疾病对中的表型相关的疾病的数量得到商，对所述商取以10为底的对数，所述对数作为本表型-疾病对的逆向文件频率；

其中，表型-表型关联集合、表型-疾病关联集合和疾病-基因关联集合指的是对于包括表型、疾病和基因，表型和表型之间的关联，表型和疾病之间的关联，以及疾病和基因之间的关联的数据的集合。具体来说在本实施例中，其中的表型-表型关联集合来自于HPO，其中的表型-疾病关联集合和疾病-基因关联集合来自于OMIM和Orphanet。

下面以图5A为例对固有权重的计算方法进行具体的说明。图5A是一种假设的情况，如图5A所示，其中节点P1、P2、P3、P4、P5、P6和P7代表的是表型点，其中节点D1、D2、D3、D4 和D5代表的是疾病点，节点G1、G2、G3、G4和G5代表的是基因。在整个数据集中包括7个表型、 5个疾病和5个基因。我们以其中的表型P1的权重计算过程为例：首先我们选取表型-疾病对 P1-D1，与疾病D1相关的表型有P1和P2，因此词频

；所有疾病的个数为5，与表型P1 相关的疾病有2个D1和D2，因此

，因此表型P1的固有权重为

与

的乘积，为0.1990。

在一个实施中，其中的每个待排序基因和每个表型的向量表示是通过图嵌入算法映射得到的。具体来说，如图4所示，图嵌入算法包括：

步骤610，利用表型-表型关联集合、表型-疾病关联集合和疾病-基因关联集合，构建表型-疾病-基因的有向图；

步骤620，将所述有向图中的每个节点转换为一个相应的向量表示；其中，在所述有向图中，每个节点分别代表一个表型、一个疾病或一个基因；在相关的表型和表型对应的节点之间，在相关的表型和疾病对应的节点之间，以及在相关的疾病和基因对应的节点之间，均通过有向边连接。

优选的，在所述有向图中，相关的表型和表型对应的节点之间由两个方向相反的有向边进行连接；相关的表型和疾病对应的节点之间由一个从表型所对应的节点指向疾病所对应的节点的有向边进行连接，相关的疾病和基因对应的节点之间由一个从疾病所对应的节点指向基因所对应的节点的有向边进行连接。

下面结合图5A和图5B来说明步骤610中的有向图的构建方法。本实施例中的表型-表型关联集合、表型-疾病关联集合和疾病-基因关联集合的主要来源为人类表型本体论（HPO），人类孟德尔遗传在线数据库（OMIM）和Orphanet，其中人类表型本体论（HPO）提供了人类疾病中遇到的表型异常的标准化词汇表。HPO中的每个术语都描述了一个表型异常。OMIM是人类基因和遗传表型的全面、权威的数据库，包含疾病信息：包括疾病的发现、与疾病相关的基因、临床特征、遗传方式等详细描述；基因信息：包括基因定位、与基因相关的表型、基因功能、研究进展等详细描述。Orphanet是罕见病和孤儿药物的国际参考知识库，Orphanet提供有关罕见病的免费信息，以帮助改善罕见病患者的诊断、护理、治疗方面的知识集合。

实际上，具体来说我们从HPO获取表型-表型关联集合，从OMIM和Orphanet获取表型-疾病关联集合，从OMIM和Orphanet获取疾病-基因关联集合。本领域技术人员可知，还可以采用其他方式例如收集相关数据并进行相关的关联来完成表型-表型关联集合、表型-疾病关联集合和疾病-基因的数据关联集合，在此不做赘述。

如图5A和图5B所示分别为包含表型-表型关联集合、表型-疾病关联集合和疾病-基因关联集合无向图和有向图的示意图，在图5A和图5B中，其中节点P1、P2、P3、P4、P5、P6和P7代表的是表型，其中节点D1、D2、D3、D4和D5代表的是疾病，节点G1、G2、G3、G4和G5代表的是基因。该实施例中的表型、疾病和基因的个数，以及相关表型和表型，相关表型和疾病，相关疾病和基因的节点之的连接，都是起到了举例说明的作用，并不代表和限定实际的有向图的具体结构。

如图5A所示，我们首先根据获取的数据得到表型-表型关联、表型-疾病关联、疾病-基因关联的三个简单的无向图。将它们组合在一起的最直接方法是将所有表型与相关疾病相关联，并将所有疾病与相关基因相关联。但是，在利用这样的无向图在分析一个表型和一个基因之间的联系时，这种图构造的方式会导致了一些歧义。例如，当疾病作为桥梁时，从表型开始到基因结束的路径可能会经过许多不相关的表型，例如会得到表型->疾病->表型->疾病->基因这样自环的路径，这是反直觉的。因为通常来说，我们的推论是线性的，即表型->疾病->基因。

为了解决这个问题，我们在三个无向图的基础上引入了方向，如图5B所示即为表型-疾病-基因的有向图。更具体来说，在有向图中，对于两个相连接的表型的节点A和B，我们将无向边替换为两个有向边：A到B和B到A。对于两个相连的表型和疾病的节点，我们将单向边替换为一个有向边：表型到疾病。对于两个相连的疾病和基因的节点，我们将单向边替换为一个有向边：疾病到基因。这实际上意味着我们可以穿越几种表型（因为给定的表型可能太粗糙或太细），但是当我们遇到某种疾病时，它只能前进到某个基因，而不能返回另一个表型。这样就使得我们每次从表型开始到基因结束的路径中，得到的是线性的。

步骤620，将所述有向图中的每个节点转换为一个相应的向量表示。获得有向图中的每个节点的向量表示的主要的挑战在于定义一种方法来计算有向图中的两个节点的逐点互信息PMI（Pointwise mutual information）。当PMI可用时，可以将几种流行的词嵌入方法理解为该PMI矩阵的一些简单变换（例如shift）的隐式分解。

数学上两个随机变量

定义为：

在有向图的上下文中，

可以理解为在随机路径中观察节点

的概率。同理，

是在一条路径中观察节点

和节点

的概率。

以上定义中的这些概率是不明确的，在具体实施例中我们根据以下直觉来建立定义：当图中的节点

靠近彼此时，

值会变大。

这样有向图中的两个节点靠近的程度由它们之间的最短路径长度来衡量。由此得到以下定义：

其中，

，即从节点

的最短路径的长度和

的最短路径的长度的最小值。

是保证

是一个有效分布的重归一化因子。当既不存在从节点

和

的路径，也不存在从

的路径时，

本质上是零。这种分布与玻耳兹曼分布(有时称为吉布斯分布)有相似的形式，其中

充当调节分布平滑度的温度因子。

此外，我们可以将边缘分布定义为：

将式（2）和式（3）插入式（1），我们得到：

如果，我们将

作为移位项，则公式最后的

可以删除。最后，我们将移位PMI定义为：

对于有向图中的一对

，我们需要找到它们对应的向量表示

，那么

式（6）的结果是最小化的，这样可以通过求解

矩阵的频谱分解得到节点

的向量表示，这是一种确定性算法。

在一个实施例中，如图6所示，提供了一种电子设备，包括：数据接收模块710、表型组向量表示模块720、基因向量表示模块730、相关性分值获取模块740、和优选级排序模块750；其中：

数据接收模块710，用于接收输入表型组，所述输入表型组包括至少一个表型；

表型组向量表示模块720，用于获取所述输入表型组的向量表示；

基因向量表示模块730，用于获取每个待排序基因的向量表示；

相关性分值获取模块740，用于分别根据所述每个待排序基因的向量表示与所述输入表型组的向量表示，获取每个待排序基因与所述输入表型组之间的相关性分值；和

优选级排序模块750，用于将所有待排序基因按照所述相关性分值进行排序，排序结果作为待排序基因相对于所述输入表型组的优先级排序。

关于一种电子设备的具体限定可以参见上文中对于一种基于表型的基因优先级排序方法的限定，在此不再赘述。上述电子设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本发明实施例中，提供了一种电子设备，具体来说该电子设备可以为计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种基于表型的基因优先级排序方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

接收输入表型组，所述输入表型组包括至少一个表型；

获取所述输入表型组的向量表示；

获取每个待排序基因的向量表示；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

接收输入表型组，所述输入表型组包括至少一个表型；

获取所述输入表型组的向量表示；

获取每个待排序基因的向量表示；

验证实施例1 在预期收集的病例报告测试集中的性能评估

病例报告的纳入标准为：纳入标准：1）病例报告在以下五种科学期刊上发表：American Journal of Medical Genetics Part A, BMC Medical Genetics, BMCPediatrics, Frontiers in Genetics, Molecular Genetics & Genomic Medicine；2）病例报告在2018年11月25日至2019年5月25日之间发布；3）病例报告描述了至少一个HPO记录的表型；4）病例报告确定了具有对应Entrez ID的致病基因。病例报告的排除标准为：1）该病例报告鉴定出一个人中有多个致病基因；2）该病例报告描述了染色体异常。

在该验证实施例中，首先预期收集了243例病例报告，根据排除标准排除了58例病例报告，剩下的185个病例报告（N=185）用作病例报告测试集。三组独立的临床医生提取了病例报告测试集中的表型和研究特征。然后，我们在该病例报告测试集上评估了本发明实施例中的基于表型的基因优先级排序方法（以下和所有附图中简称“本方法”）、Phenolyzer, Phenomizer, Phrank和HANRD等工具的性能。图8示出了本验证实施例的评估结果示意图，图8包括A、B和C三个图，图A表示是本方法、Phrank，Phenomizer，HANRD和Phenolyzer对致病基因进行优先级排序的性能，由图A可以看出，在本次评估中，本方法将致病基因排名到Top10的概率高达37.3%，Phrank，Phenomizer，HANRD和Phenolyzer将致病基因分别排到Top10的概率分别为：29.7％，27.6％，24.9％和17.3％。由此可知本方法相对其他排序工具将致病基因排到Top10的概率高出25.4%~115.6%。图B为本方法、Phrank，Phenomizer，HANRD和Phenolyzer的小提琴图，揭示了排序等级的完整分布模式；由图B显示了本方法将致病基因等级聚集在等级Top1附近，致病基因排序等级的中位数为30，Phrank，Phenomizer，HANRD和Phenolyzer的中位数分别为97、62、90、375；中位数越低代表将致基因排到靠前的位置的概率越高，排序性能越好；因此本方法排序性能高于其他工具。图C为病例报告测试集的表型分布，如图C所示该病例报告测试集，报告了30.6％的精确表型，8.3％的不精确表型和61.1％的噪声表型，与此前报告中的研究相似。

在本发明实施例中，精确表型指的是学习集中与致病基因直接相关的一组表型，不精确表型指的是精确表型的祖先之一（即比直接与致病基因相关的表现型更不特异），噪声表型是与致病基因无关的表型（既不是精确表型也不是不精确表型）。

但是，由于部分病例报告了新型致病基因，这意味着该致病基因尚未与训练集中的特定表型相关联，某些工具未能在候选基因列表中识别出该致病基因。为了解决此问题，我们在测试集中排除了报告了新型致病基因的病例，并再次进行了评估。再次评估的结果中，本方法仍然比其他工具的性能要高，将致病基因排名到Top10的概率高达43.1％（如图9所示）。

通过将病例报告测试集分为不同的亚组分析进一步评估了本方法在不同情况下的性能，如图10所示，图10中A和B分别为本方法在新表型组(N=71)和新变异组(N=101)中，将致病基因排Top10的概率分别为40.8%和46.5%，优于其他排序工具。

验证实施例2 在真实患者测试集上的性能评估

我们使用的真实患者数据调查了本方法的性能，真实患者测试集的组1由784名根据贝勒遗传学（Baylor Genetics）确诊的单例患者组成。我们在该真实患者测试集上评估了本方法、Phenolyzer, Phenomizer, Phrank和HANRD等工具的性能。图11示出了本验证实施例的评估结果示意图，图11包括A、B和C三个图，图A表示是本方法、Phrank，Phenomizer，HANRD和Phenolyzer对致病基因进行优先级排序的性能，由图A可以看出，在此次评估中，本方法在真实患者测试集中将致病基因排到Top10的概率为11.7%，Phrank，Phenomizer，HANRD和Phenolyzer将致病基因分别排到Top10的概率分别为：9.6％，5.2％，7.1％和5.2％；由此可知本方法相对其他排序工具将致病基因排到Top10的概率高出21.9％至125.0％。图B为本方法、Phrank，Phenomizer，HANRD和Phenolyzer的小提琴图，揭示了排序等级的完整分布模式；由图B显示了将致病基因等级聚集在等级Top1附近，致病基因排序等级的中位数为172.5，Phrank，Phenomizer，HANRD和Phenolyzer的中位数分别为273、266、382.5和2285。图C为真实患者测试集的表型分布，该真实患者测试集报告了27.5％的精确表型，11.9％的不精确表型和60.6％的噪声表型，与病例报告测试集及先前的研究相似。

在真实患者测试集中，本方法和其他排序工具的检测结果都不如病例报告测试集中的检测结果。导致两个本方法在真实患者测试集和病例报告测试集之间的性能效果差异（37.3％ vs. 11.7％）的潜在因素包括信息偏差和选择偏差。具体来说就是，由于病例报告撰写者已经知道分子诊断结果，病例报告更倾向于描述致病基因相关的表型。与其相反的是，对真实患者测试集进行表型分析时，医生并不知道致病基因。因此，真实的患者测试集中报告了更少的精确表型。此外，当WES被视作孟德尔遗传病的诊断性预测的最终方法时，真实的患者测试集才被纳入；因此真实患者测试集由难以解决的病例组成，这极大地影响了检测效果。因此，该评估突出了基于表型的基因优先级排序方法在难以解决的临床外显子组病例中的表现。

验证实施例3 增加精确表型的权重可显著提高本方法在综合测试集中的性能

如图12所示，输入的表型数目与致病基因等级之间的线性回归表明，表型数目与致病基因等级之间无显著关系（P = 0.513）。但是，精确表型和不精确表型的百分比与软件的检测性能呈正相关（分别为P = 2.20e-16和P = 3.79e-8）。相反，噪声表型的百分比与软件的检测性能（performance）呈负相关（P = 2.20e-16）。该结果强烈表明，增加精确表型或不精确表型的权重可以改善本方法的性能。

我们首先构建了包含精确表型，不精确表型和嘈杂表型（N = 5997）的不同组合的综合测试集，构建方法如图13所示。我们研究了对表型分配权重是否以及在多大程度上影响了本方法在综合测试集中的性能。

在本验证实施例中，我们增加了综合测试集中的精确表型的权重，如图13所示为不同综合测试集的构造方法，其中A显示了' 1/3|1/2N|1/2N|N '测试集的构造：我们假设基因G在学习集合中有6种相关的表型，所有这些表型都是精确的。首先，我们随机删除4个(6个中的2/3)相关表型。因此，基因“G”现在只有2个(6个中的1/3)相关的精确表型，即“1/3|N|0|0”。这里的“N”是指与基因“G”相关的精确表型的数量(在这里，N=2)。然后，我们将N个精确表型中的1/2随机替换为不精确表型，即‘1/3|1/2N|1/2N|0’。最后，我们随机添加N个噪声表型。为此，基因G有1/2 N个相关的精确表型，1/2 N个相关的不精确表型和N个相关的噪声表型。B和C分别表示 ' 2/3|1/2N|1/2N|N '测试集和' 3/3|1/2N|1/2N|N '测试集的构造过程，方法与A类似，在此不做赘述。

图14为在不同测试集（'1/3|1/2N|1/2N|N '测试集、'2/3|1/2N|1/2N|N '测试集和' 3/3|1/2N|1/2N|N '测试集）中，赋予精确表型不同的权重的情况下，本方法将致病基因排到Top1的概率。由图14可知，当精确表型的权重增加时，本方法的检测性能显著提高。

图15为本验证实施例的不同测试集的评估结果示意图，其中图A、D和G为本方法在不同的综合测试集（'1/3|1/2N|1/2N|N '测试集、'2/3|1/2N|1/2N|N '测试集和' 3/3|1/2N|1/2N|N '测试集）中，对精确表型增加权重的性能评估，如图A、D和G所示，如果不增加精确表型的权重，本方法将综合测试集中的5997例病例中的579例的致病基因排在Top1，大约为9.7％；当精确表型的权重增加到5时，本方法将综合测试集中的5997例病例中的2343例的致病基因排在Top1，大约为39.0％；随着权重的增加，排序等级的分布越来越聚集到Top1附近，如图B、E和H所示为本方法在综合测试集中的排名分布，当精确表型的权重增加时，检测到致病基因的中位数显著下降。上述结果突出表明，在精确表型上增加权重可显著改善本方法在综成测试集中的性能。

此外，我们同时为精确表型和不精确表型增加了权重。图C、F和I为同时增加到精确表型和不精确表型的权重的情况下本方法的性能图。如图C、F和I所示，我们给定精确表型一个权重，本方法的性能随着不精确表型权重的增加而形成一条倒U形曲线。

本验证实施例的评估结果显示，对于该综合测试集，在精确表型上增加权重可以有效改善本方法的性能。

验证实施例4 本方法在临床实践上的应用

应用到临床实践的一个关键问题是确定应该选择哪种表现型进行增加权重，以及应在多大程度上对这些表型增加权重。适应症是临床医生进行致病基因检测的主要依据，它通常代表一组特定的表型，这些表型可以是原发性的，显著的或严重的，符合孟德尔的分离定律并且需要用致病基因来解释。直观地说，在适应症上增加权重可能有助于分析临床外显子组测序数据。

为了验证这一假设，组1（真实患者测试集）中的313位患者的数据因缺乏临床笔记而被排除在外，我们收集了组1中的471位患者的表型和适应症数据组成组2。然后，我们比较了为适应症增加权重和默认设置（两种情况下）本方法的性能。如图16A所示，在该评估中，当适应症的权重为1（默认设置）时，本方法将471例病例中的58例的致病基因排入Top10，概率约12.3％。当适应症的权重增加到2、3、4和5时，本方法将致病基因排在Top10的概率分别为15.1％，14.9％，16.3％和17.4％。尤其当适应症的权重增加到5时与权重为1时相比，本方法将471例病例中的82例的致病基因排入Top10，概率约为17.4％，性能提高约41.4％。

此外，为了测试在不同数据源下评估结果是否可以复制，我们在组3对本方法进行性能评估。组3由于208名中国汉族患者组成，这些患者在2009年至2019年间经遗传学诊断为骨骼疾病，该数据来源于系统解析脊柱侧凸及相关合并症研究（DISCO）。如图16B所示，当适应症的权重为1（默认设置）时，本方法将208例病例中的79例的致病基因排入Top10，概率约为38.0％。当权重增加到2、3、4和5时，概率分别为42.8％，46.6％，49.0％和49.0％。尤其是，当适应症的权重增加到5时，本方法将208例病例中有102例的致病基因排入Top10，概率约为49.0％，性能提高约29.1％。该实验结果表明，增加在基因测试中的适应症的权重可以提高本方法的检测性能。

验证实施例5 固有权重的设置对于本方法性能的影响

由于本方法的对某些表型进行加权可以提高检测性能，但是由于加权取决于使用者的临床经验，因此可能不适合初级数据分析者或者经验欠缺者。因此我们提出给每个表型赋予固有权重，具体来说我们根据每个表型的“可能致病性”计算每种表型的固有权重。例如，如果怀疑患有孟德尔疾病的患者表现出“癫痫发作”（HP：0001250）作为主要表型之一，则认为“癫痫发作”（HP：0001250）是由病因引起的表型之一基因。相比之下，如果患者表现出“局部皮肤病变”（HP：0011355），这通常是由非遗传性疾病引起的，则认为“局部皮肤病变”（HP：0011355）并非这种疾病的表型之一。孟德尔疾病。在这种情况下，“癫痫发作”（HP：0001250）在临床环境中可以被视为特定的表型，无论精确表型还是不精确表型。基于此假设，我们提出使用词频-逆向文件频率（term frequency–inverse documentfrequency ，TF-IDF）在训练集（表型、疾病和基因数据）中执行数据挖掘。通过TF-IDF算法，我们为每个表型分配了固有权重，图17示出了本验证实施例为数据中的所有表型分配固有权重后，固有权重最高的20种重要表型。

我们在组2和组3中分别评估了将固有权重分配给适应症是否可以改善本方法的性能。

如图18A所示，在组2中为适应症分配固有权重时，本方法将致病基因排在Top10的比例为15.3％，而默认设置下的本方法将致病基因排在Top10的比例为12.3％；为适应症分配固有权重的情况下比默认设置下高出24.4％。

如图18B所示，在组3中为适应症分配固有权重，本方法将致病基因排在Top10的比例为44.7％，而在默认设置下的本方法将致病基因排在Top10的比例为38.0％；为适应症分配固有权重的情况下比默认设置下高出17.7％。

本验证实施例的验证结果表明，为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于表型的基因优先级排序方法，其特征在于，包括：

接收输入表型组，所述输入表型组包括至少一个表型；

获取所述输入表型组的向量表示；

获取每个待排序基因的向量表示；

2.根据权利要求1所述的基于表型的基因优先级排序方法，其特征在于，所述获取所述输入表型组的向量表示，包括：

获取所述输入表型组中的每个表型的向量表示；和

3.根据权利要求1所述的基于表型的基因优先级排序方法，其特征在于，所述获取所述输入表型组的向量表示，包括：

获取所述输入表型组中每个表型的向量表示；

获取所述输入表型组中部分表型或全部表型的权重；

利用所述权重对所对应的表型的向量表示进行加权；和

4.根据权利要求3所述的基于表型的基因优先级排序方法，其特征在于，所述获取所述输入表型组中部分表型或全部表型的权重，是通过接收用户输入的所述部分表型或全部表型的自定义权重得到的。

5.根据权利要求3所述的基于表型的基因优先级排序方法，其特征在于，所述权重为固有权重，所述固有权重的生成方法包括：

6.根据权利要求5所述的基于表型的基因优先级排序方法，其特征在于，所述利用TF-IDF算法，获取表型-疾病关联集合中的所有表型的固有权重，包括：

将所述表型-疾病关联集合和疾病-基因关联集合中的所有疾病的数量除以所述表型-疾病关联集合中本表型-疾病对中的表型相关的疾病的数量得到商，对所述商取以10为底的对数，所述对数作为本表型-疾病对的逆向文件频率；

7.根据权利要求2-6任一项所述的基于表型的基因优先级排序方法，其特征在于，所述每个待排序基因和所述每个表型的向量表示是通过图嵌入算法映射得到的；

优选的，所述图嵌入算法包括：

将所述有向图中的每个节点转换为一个相应的向量表示；

其中，在所述有向图中，每个节点分别代表一个表型、一个疾病或一个基因；在相关的表型和表型对应的节点之间，在相关的表型和疾病对应的节点之间，以及在相关的疾病和基因对应的节点之间，均通过有向边连接；

8.一种电子设备，其特征在于，包括：

基因向量表示模块，用于获取每个待排序基因的向量表示；

9.一种电子设备，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行权利要求1至8任一项所述的基于表型的基因优先级排序方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于表型的基因优先级排序方法。