CN117953968A

CN117953968A - 遗传变异位点的危害性排序方法及装置

Info

Publication number: CN117953968A
Application number: CN202410356037.1A
Authority: CN
Inventors: 杨双浩; 谷为岳
Original assignee: Beijing Zhiyin Oriental Transformation Medical Research Center Co ltd
Current assignee: Beijing Zhiyin Oriental Transformation Medical Research Center Co ltd
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-04-30

Abstract

本发明提供的一种遗传变异位点的危害性排序方法及装置，涉及基因检测技术领域，该方法包括：获取所述目标对象的目标HPO表型集合和多个位点各自对应的突变位点信息；确定所述位点的表型匹配评分；确定所述位点的生物学影响评分和遗传影响评分；确定所述位点的突变危害评分；基于所述突变危害评分，对所述多个位点进行排序，得到位点序列；根据位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值。本发明提供的遗传变异位点的危害性排序方法及装置用于确定位点突变的危害评分以基于危害评分对位点进行排序。

Description

遗传变异位点的危害性排序方法及装置

技术领域

本发明涉及基因检测技术领域，尤其涉及一种遗传变异位点的危害性排序方法及装置。

背景技术

基因上的位点会发生突变，突变具有一定程度的危害性。一代测序检测的突变较少，因此危害性解读的工作量少，但是无法进行更全面的基因覆盖。二代测序一次可以检测成千上万的基因，但是突变较多，导致变异危害性解读工作量呈指数级增长，大大增加了医疗成本和负担。在相关技术中，对基于突变危害对位点进行排序，可以使相关人员了解位点突变的危害性，目前，通常采用第二代DNA测序技术对位点进行平行测序，在进行平行测序的过程中，大量的位点会产生突变，无法判断位点突变的危害程度，因此无法基于突变的危害性对位点进行排序。

通过遗传变异位点的危害性排序，可以使得用户和患者可以更加快速和有效地关注到位点排序在上游的变异，提高医疗工作人员的工作效率，减少医疗资源的浪费。因此，如何确定位点突变的危害评分，并基于危害评分对位点进行排序已成为亟待解决的技术问题。

发明内容

本发明提供一种遗传变异位点的危害性排序方法及装置，用以解决现有技术中无法确定位点突变的危害评分，并基于危害评分对位点进行排序的技术问题。

第一方面，本发明提供一种遗传变异位点的危害性排序方法，包括：

获取所述目标对象的目标HPO表型集合和多个位点各自对应的突变位点信息；所述多个位点包括所述目标对象的各基因上的位点；

针对各位点，基于所述目标HPO表型集合，确定所述位点的表型匹配评分；基于所述位点对应的突变位点信息，确定所述位点的生物学影响评分和遗传影响评分；基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分；

基于所述突变危害评分，对所述多个位点进行排序，得到位点序列；

根据所述位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值。

第二方面，本发明还提供一种遗传变异位点的危害性排序装置，其特征在于，包括：

获取模块，用于获取所述目标对象的目标HPO表型集合和多个位点各自对应的突变位点信息；所述多个位点包括所述目标对象的各基因上的位点；

确定模块，用于针对各位点，基于所述目标HPO表型集合，确定所述位点的表型匹配评分；基于所述位点对应的突变位点信息，确定所述位点的生物学影响评分和遗传影响评分；基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分；

排序模块，用于基于所述突变危害评分，对所述多个位点进行排序，得到位点序列。

更新模块，用于根据所述位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述遗传变异位点的危害性排序方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述遗传变异位点的危害性排序方法。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述遗传变异位点的危害性排序方法。

在本发明提供的一种遗传变异位点的危害性排序方法及装置中，基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分；基于所述突变危害评分，对多个位点进行排序，得到位点序列，能够解决“如何确定位点突变的危害评分，并基于危害评分对位点进行排序”的技术问题。而且基于生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分，考虑了从生物学、遗传影响和表型这三个维度，得到位点的突变危害评分，提高得到位点的突变危害评分的准确性，进而提高得到的位点序列的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的遗传变异位点的危害性排序方法的流程示意图之一；

图2是本发明提供的在HPO表型库的结构示意图；

图3是本发明提供的排序结果的对比示意图；

图4是本发明提供的遗传变异位点的危害性排序方法的流程示意图之二；

图5是本发明提供的遗传变异位点的危害性排序装置的结构示意图；

图6是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对本发明涉及的名词进行解释。

基因，是指是产生一条多肽链或功能（Ribonucleic Acid，RNA）所需的全部核苷酸序列。

位点，是指基因上固定长度的某一部分核苷酸序列。

突变知识库，是指在发明中为了实现位点排序方法特别构建的知识库。

突变知识库包括以下一种或多种对应关系：

多个突变ID和多个突变危害等级之间的对应关系；

多个突变危害等级和多个生物学影响评分之间的对应关系；

多个遗传模式、多个突变携带类型和多个遗传影响评分之间的对应关系；

多个家系突变携带类型和多个遗传影响评分之间的对应关系；

多个突变ID和多个基因ID之间的对应关系；

多个基因ID和多个遗传表现型ID之间的对应关系；

多个基因ID、多个遗传表现型ID和多个遗传模式之间的对应关系。

多个突变危害等级例如包括1级、2级、3级、4级和5级。

图1是本发明提供的遗传变异位点的危害性排序方法的流程示意图。如图1所示，该方法包括：

S101，获取目标对象的人类表型本体论（Human Phenotype Ontology，HPO）表型信息和多个位点各自对应的突变位点信息，多个位点包括目标对象的各基因上的位点。

可选地，本发明提供的位点排序方法的执行主体为电子设备，也可以为设置在电子设备中的位点排序装置，该位点排序装置可以通过软件和/或硬件的结合来实现。

可选地，目标HPO表型集合中包括多个目标HPO表型。

可选地，获取所述目标对象的多个位点各自对应的突变位点信息，包括：

获取目标对象的基因测序突变文件；

基于人类基因组突变协会（Human Genome Variation Society，HGVS）规则，对所述基因测序突变文件进行标准化处理，得到所述多个位点各自对应的突变位点信息。

可选地，基因测序突变文件可以为一种变异调用格式（Variant Call Format，VCF）文件。可选地，变异位点可以来自WES、WGS、Panel检测等各种二代/三代测序获得的变异数据集，变异集合的格式包括vcf、table表格、txt等。

需要说明的是，在进行标准化处理之后，可以使位点的突变遵循预设规则（3’rules），且满足如下一般建议：

（1）所有突变都应该在DNA水平上进行描述。此外，也可以在RNA和氨基酸水平上进行描述。描述突变时应该通过使用圆括号表示预测结果。例如(p.Leu858Arg)表示氨基酸的改变是预测的结果，而p.Leu858Arg就说明该氨基酸的改变是通过实验确定的。

（2）所有的突变描述都应该使用公共的参考序列：编码蛋白转录本(例：NM_004006.2)、非编码蛋白转录本(例如：NR_002196.1)和蛋白参考序列(例：NP_003997.1)。

（3）基因名称需要使用人类基因命名委员会（HUGO Gene NomenclatureCommittee，HGNC）中的基因标准命名(可以参见https://www.genenames.org)。

（4）所有突变的描述都应使用最靠近3’的编号位置(3’ rule)。

（5）用“突变”来描述基因发生的改变，其中会包括通常所说的“突变”和“基因多态性位点”。

S102，针对各位点，基于所述目标HPO表型集合，确定所述位点的表型匹配评分；基于位点对应的突变位点信息，确定位点的生物学影响评分和遗传影响评分；基于生物学影响评分、遗传影响评分和表型匹配评分，确定位点的突变危害评分。

位点的表型匹配评分为位点所在的基因的表型匹配评分。

需要说明的是，在多个位点位于同一个基因的情况下，多个位点具有相同的表型匹配评分。

表型匹配评分指示遗传表现型和目标HPO表型之间的匹配程度。

生物学影响评分指示突变对基因功能的危害程度。

遗传影响评分指示突变和遗传模式的吻合度。

可选地，可以通过如下两种方式，确定位点的突变危害评分。

方式1，将基于生物学影响评分、遗传影响评分和表型匹配评分的乘积，确定为位点的突变危害评分；可选地，也可以基于但不限于累加、加权、加权乘积等各种数学统计算法，得到位点的突变危害评分。

方式2，确定生物学影响评分与生物学权重的第一乘积；

确定遗传影响评分与遗传影响权重的第二乘积；

确定表型匹配评分与表型匹配权重的第三乘积；

将上述第一乘积、第二乘积和第三乘积之和，确定为位点的突变危害评分。

在本申请中，突变危害评分越小，突变的危害性越大。

S103，基于突变危害评分，对多个位点进行排序，得到位点序列。

可选地，可以按照突变危害评分从高到低的顺序，对多个位点进行排序，得到位点序列。

可选地，还可以按照突变危害评分从低到高的顺序，对多个位点进行排序，得到位点序列。

在本申请实施例中，基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分；基于所述突变危害评分，对多个位点进行排序，得到位点序列，能够解决“如何确定位点突变的危害评分，并基于危害评分对位点进行排序”的技术问题。

S104，根据位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值。

也就是基于机器学习的方法对位点排序结果进行修正，从而也就使得最终的位点排序结果更加的准确，进而也就可以利用更新后的变异知识库更加快速准确的获得位点的排序结果。

需要说明的是，变异是随机发生的，每个生物都携带大量的变异，每个人的全基因组测序有500万个不同的变异，针对变异进行危害性排序可以快速找到与个体表型相关的变异和基因，从而提高医疗决策效率。

本申请经过反复实验和验证，发现（1）有很多变异对人类是有害的变异，由于这些变异不符合遗传模式，因此不会表现出表型，通过遗传模式的过滤分析可以缩小变异分析范围，因而本发明提出遗传影响的评分，通过量化遗传纬度的影响达到变异排序的效果。（2）同一个变异包含有不同的携带型（比如纯合型、杂合型即携带者、嵌合型和野生型），不同的携带型与不同的遗传模式组合才会表现出表型（例如常染色体隐性遗传模式，必须在纯合型情况下才显示表型，杂合携带型不表现表型）；因此通过对同一个变异在不同家系中变异携带型与遗传方式的打分，可以实现更好的排序效果。（3）表型评分则更加关键，不同的表型对应不同的基因，通过对目标表型与基因表型匹配，可以进一步锁定危害基因/位点，目标表型与基因表型越相似则说明该基因及其该基因上的变异危害性越大，因此通过对表型匹配的量化分值，可以辅助位点和基因排序，从而实现更好的危害性排序；另外本方法的先进性还体现在，与过滤变异的方法对比，本方法不会遗漏任何变异，只是对变异的排序，排序在上游的位点得到用户更高的关注度。因此，本申请创新性的通过上述三个维度结合进行位点的突变危害评分，使得位点的突变危害评分更加的准确、全面、客观和合理。

在本申请实施例中，基于生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分，考虑了从生物学、遗传影响和表型这三个维度，得到位点的突变危害评分，提高得到位点的突变危害评分的准确性，进而提高得到的位点序列的准确性。而且通过排序可以让用户和患者更关注排序在上游的变异，从而提高医疗工作人员的工作效率，减少医疗资源的浪费。

在一些实施例中，基于位点对应的突变位点信息，确定位点的生物学影响评分包括：

基于所述突变位点信息中包括的突变ID，在突变知识库中查询所述突变ID对应的突变危害等级；

若查询到突变ID对应的突变危害等级，则将所述突变知识库中所述突变危害等级对应的生物学影响评分，确定为所述位点的生物学影响评分；

若未查询到突变ID对应的突变危害等级，则基于所述突变位点信息，确定所述突变ID对应的突变危害等级，并在所述突变知识库存储所述突变ID对应的突变危害等级，并将所述突变知识库中所述突变危害等级对应的生物学影响评分，确定为所述位点的生物学影响评分。

可选地，突变知识库中包括生物学评分表，生物学评分表例如如下表1所示。

表1

例如，在表1的基础上，若在突变知识库中查询突变ID对应的突变危害等级为3，则位点的生物学影响评分为5。

可选地，在未查询到突变ID对应的突变危害等级的情况下，基于所述突变位点信息，确定所述突变ID对应的突变危害等级，包括：通过突变注释模块，对突变位点信息进行处理，得到突变ID对应的突变危害等级。

需要说明的是，通过突变注释模块得到的突变ID对应的突变危害等级为上述1至5级中的任一级。

具体的，突变注释模块基于人群频率库、软件预测工具、已有文献信息和突变ID指示的突变类型，得到突变ID对应的突变危害等级。

在本申请实施例中，若未查询到突变ID对应的突变危害等级，则基于所述突变位点信息，确定所述突变ID对应的突变危害等级，并在所述突变知识库存储所述突变ID对应的突变危害等级，可以实现对突变知识库的更新和升级，增加突变知识库中的知识素材，增加在未来查询到突变ID对应的突变危害等级的概率，从而降低在未来时间内得到位点序列的数据处理量，提高得到位点序列的效率。

在一些实施例中，基于所述位点对应的突变位点信息，确定位点的遗传影响评分，包括：

基于所述突变位点信息，确定检测模式；

在检测模式为单人模式的情况下，基于所述位点对应的突变位点信息，确定所述位点的遗传模式和突变携带类型；并基于所述遗传模式和所述突变携带类型，查询突变知识库，得到所述位点的遗传影响评分，所述突变知识库中包括所述遗传模式、所述突变携带类型和所述遗传影响评分之间的对应关系；

在所述检测模式为多人模式的情况下，基于所述位点对应的突变位点信息，确定所述位点的家系突变携带类型；基于所述家系突变携带类型，查询所述突变知识库，得到所述位点的遗传影响评分，所述突变知识库中包括所述家系突变携带类型和所述遗传影响评分之间的对应关系。

需要说明的是，遗传变异的特点是变异遗传自父母双方，如果有父母的数据则可结合目标变异与父母变异明确知晓变异来自父方或者母方，从而使遗传评分更加精细，提高排序算法的性能（多人检测）；但是如果没有父母数据，则只能推断变异是遗传自父亲或者母亲，这样导致遗传评分不够精细准确，从而排序性能较多人检测差一些。因此，本申请针对这两种检测模式的特点，创新性的对这两种检测模式分别使用不同的排序方法，从而使得变异排序在不同检测模式下都有更加合理的性能，提升位点排序的准确性。

可选地，基于所述突变位点信息，确定检测模式，包括：

判断突变位点信息中是否包括目标对象的亲属对应的相关信息；

若不包括亲属对应的相关信息，则确定检测模式为单人模式；若包括亲属对应的相关信息，则确定检测模式为多人模式。

可选地，亲属对应的相关信息可以为亲属突变率。

可选地，突变知识库中包括单人模式评分表（例如如下表2所示）。

表2

多杂合突变指同一个基因上存在大于或等于2个杂合变异。

单杂合突变指同一个基因上仅存在一个杂合突变。

可选地，突变知识库中包括多人模式评分表（例如如下表3所示）。

表3

新发杂合指目标对象的该位点的携带类型为杂合突变，父母双方该位点的携带类型都为野生型。

复合杂合特指目标对象的同一个基因上存在两个杂合突变，一个突变来自父母一方，一个突变来自父母另一方。

遗传模式支持指（针对目标对象）显性遗传模式的嵌合突变、杂合突变、纯合突变或半合型突变，隐性遗传模式的纯合突变或半合型突变。

在一些实施例中，基于位点对应的突变位点信息，确定位点的遗传模式，包括：

基于所述突变位点信息中包括的突变ID，查询所述突变知识库，得到基因ID，所述突变知识库中包括所述突变ID和所述基因ID之间的对应关系；

基于所述基因ID，查询所述突变知识库，得到遗传表现型ID，所述突变知识库中包括所述基因ID和所述遗传表现型ID之间的对应关系；

基于所述基因ID和所述遗传表现型ID，查询所述突变知识库，得到所述位点的遗传模式，所述突变知识库中包括所述基因ID、所述遗传表现型ID和所述遗传模式之间的对应关系。

可选地，突变知识库中存储有突变表，突变表中包括突变ID和所述基因ID之间的对应关系。

可选地，突变知识库中存储有遗传表，遗传表中包括遗传表现型ID与遗传模式之间的对应关系。

需要说明的是，本申请通过反复实验和验证，发现基因ID、遗传表现型ID和所述遗传模式之间存在对应关系，也就是通过基因ID、遗传表现型ID可以确定遗传模式。因此，基于上述发现，创新性的根据基因ID、遗传表现型ID和所述遗传模式之间的对应关系突变知识库，从而为遗传评分奠定了关系基础，从而也就可以更加准确的得到位点的遗传模式。

在一些实施例中，基于所述位点对应的突变位点信息，确定所述位点的突变携带类型，包括：基于所述突变位点信息中包括的突变率，确定位点的初始携带类型，所述初始携带类型为野生型、杂合突变、纯合突变、半合型突变或者嵌合突变；基于所述突变位点信息中包括的突变ID，查询所述突变知识库，得到基因ID；基于基因ID，确定所述杂合突变的数量；在初始携带类型为杂合突变的情况下，基于所述杂合突变的数量，确定所述位点的突变携带类型；在所述初始携带类型为野生型、纯合突变、半合型突变或者嵌合突变的情况下，将所述初始携带类型确定为所述位点的突变携带类型。

需要说明的是，本申请中在初始携带类型为杂合突变的情况下，和在所述初始携带类型为野生型、纯合突变、半合型突变或者嵌合突变的情况下，分别通过不同的方式确定突变携带类型，是由于本申请发明人经过反复实验和验证，发现隐性遗传模式下，大于等于2个杂合变异且满足复合杂合的特定情况下才显示出表型（致病），单杂合变异只是携带者因此不表现出表型。进一步如果是单人模式则只能推断2个变异可能满足复合杂合导致了表型，如果是家系模式，通过父母携带型，则可以确定是否复合杂合进而给与精细的遗传评分，达到更好的排序效果。因此，本申请中，基于初始携带类型的不同，创新性的使用更加精细化的方式确定突变携带类型，从而也就使得确定出的突变携带类型更加的准确和客观，得到更加精细的遗传评分。

可选地，基于所述突变位点信息中包括的突变率，确定位点的初始携带类型，包括：突变率小于1%判断为野生型；

突变率大于等于1%且小于35%判断为嵌合突变；

突变率大于等于35%且小于85%判断为杂合突变；

突变率大于等于85%判断为纯合突变；

若目标对象为男性，则突变ID指示的突变位于X、Y染色体、且突变率大于等于85%判断为半合型突变。

可选地，基于所述基因ID，确定所述杂合突变的数量，包括：统计基因ID指示的基因上杂合突变的个数，得到杂合突变的数量。

可选地，基于杂合突变的数量，确定位点的突变携带类型，包括：

在杂合突变的数量大于或等于2的情况下的情况下，确定突变携带类型为多杂合突变；

在杂合突变的数量为1的情况下，确定突变携带类型为单杂合突变。

在一些实施例中，基于所述位点对应的突变位点信息，确定所述位点的家系突变携带类型，包括：

基于所述突变位点信息中包括的目标对象突变率，确定所述目标对象的突变携带类型；

基于突变位点信息中包括的突变ID，确定所述目标对象的遗传模式；

基于所述突变位点信息包括的亲属突变率，确定所述亲属的突变携带类型，所述亲属为所述目标对象的亲属（例如包括父亲和/或母亲等）；

基于所述目标对象的突变携带类型、遗传模式和所述亲属的突变携带类型，确定所述位点的家系突变携带类型。

具体的，基于目标对象突变率，确定目标对象的突变携带类型的方法，以及基于亲属突变率，确定亲属的突变携带类型的方法，分别与基于位点对应的突变位点信息，确定所述位点的突变携带类型的方法相同，此处不再赘述。

具体的，基于突变位点信息中包括的突变ID，确定所述目标对象的遗传模式的方法，与位点对应的突变位点信息，确定位点的遗传模式的方法相同，此处不再赘述。

具体的，基于目标对象突变率，确定目标对象的遗传模式的方法，与基于所述位点对应的突变位点信息，确定所述位点的遗传模式的方法，相同，此处不再赘述。

可选地，基于目标对象的突变携带类型、遗传模式和所述亲属的突变携带类型，确定所述位点的家系突变携带类型，包括：

在目标对象的突变携带类型为杂合突变、亲属的突变携带类型为野生型的情况下，家系突变携带类型为新发杂合；

在位点的所属的基因上存在两个突变，一个突变来自父母一方，一个突变来自父母另一方的情况下，家系突变携带类型为复合杂合；

在遗传模式为显性遗传模式，目标对象的突变携带类型为嵌合突变、杂合突变、纯合突变或半合型突变的情况下，或者，在遗传模式为隐性遗传模式，目标对象的突变携带类型为纯合突变或半合型突变的情况下，家系突变携带类型为遗传模式支持。

在一些实施例中，所述目标HPO表型集合中包括多个目标HPO表型；

所述基于所述目标HPO表型集合，确定所述位点的表型匹配评分，包括：

确定位点所属的基因对应的遗传表现型HPO表型集合，HPO表型集合中包括多个HPO表型；

初始化第一评分；

针对所述目标HPO表型集合中的第（k+1）个目标HPO表型，执行第（k+1）次匹配操作，判断所述遗传表现型HPO表型集合中是否包括所述第（k+1）个目标HPO表型；若包括所述第（k+1）个目标HPO表型，则删除所述遗传表现型HPO表型集合中的所述第（k+1）个目标HPO表型，并将执行第k次匹配操作得到的第一评分增加第一数值；若不包括所述第（k+1）个目标HPO表型，则判断所述遗传表现型HPO表型集合中是否包括所述第（k+1）个目标HPO表型对应的相似HPO表型；若包括所述相似HPO表型，则删除遗传表现型HPO表型集合中的所述相似HPO表型，并将执行第k次匹配操作得到第一评分的增加第二数值；若不包括所述相似HPO表型，则将执行第k次匹配操作得到第一评分的增加第三数值；

将k加1，重复第K次执行匹配操作，直至得到最终的第一评分，K表示多个目标HPO表型的总数量；初始时，k等于1；

若最终的第一评分等于预设评分阈值，则将第一预设评分，确定为位点的表型匹配评分；

若最终的第一评分不等于所述预设评分阈值，则将最终的第一评分和多个目标HPO表型对应的总评分输入表型匹配评分计算模型，得到位点的表型匹配评分。

可选地，突变知识库中还包括：各基因ID对应的遗传表现型HPO表型集合；确定位点所属的基因对应的遗传表现型HPO表型集合，包括：

基于位点所属基因的基因ID，在突变知识库中确定位点所属的基因对应的遗传表现型HPO表型集合。

第一数值例如为1，第二数值例如为0.5，第三数值例如为0。

可选地，判断遗传表现型HPO表型集合中是否包括第（k+1）个目标HPO表型对应的相似HPO表型，包括：

将HPO表型库中与第（k+1）个目标HPO表型之间的距离小于或等于预设距离的HPO表型，确定相似HPO表型；

判断遗传表现型HPO表型集合中是否包括相似HPO表型。

需要说明的是，在HPO表型库中，一个HPO表型和另一个HPO表型之间的距离等于从一个HPO表型至另一个HPO表型的移动步长。

例如在图2中，HPO表型B和HPO表型E之间的距离等于1。

在上述实施例的基础上，下面结合图2所示的HPO表型库，对得到最终的第一评分的过程进行说明。

图2是本发明提供的在HPO表型库的结构示意图。HPO表型库中的HPO表型可以组成有向无环图的树状结构。示例性的，如图2所示，树状结构中包括HPO表型A、HPO表型B、HPO表型C、HPO表型D、HPO表型E、HPO表型F和HPO表型H。

例如，目标HPO表型集合的多个目标HPO表型包括：HPO表型A、HPO表型B、HPO表型C和HPO表型E。

例如，遗传表现型HPO表型集合的多个HPO表型包括：HPO表型A、HPO表型B、HPO表型D和HPO表型F。

在初始化的第一评分为0、第一数值为1、第二数值为0.5、第三数值为0的情况下：

针对目标HPO表型集合中的HPO表型A，遗传表现型HPO表型集合中包括HPO表型A，将第一评分加1（即第一数值，此时第一评分等于1）；

针对目标HPO表型集合中的HPO表型B，遗传表现型HPO表型集合中包括HPO表型B，再次将第一评分加1（此时第一评分等于2）；

针对目标HPO表型集合中的HPO表型C，遗传表现型HPO表型集合中不包括HPO表型C，但是遗传表现型HPO表型集合中包括HPO表型C对应的相似HPO表型（例如为HPO表型D），则将第一评分加0.5（即第二数值，此时第一评分等于2.5）；

针对目标HPO表型集合中的HPO表型E，遗传表现型HPO表型集合中不包括HPO表型E，且遗传表现型HPO表型集合中不包括HPO表型E对应的相似HPO表型（例如HPO表型H），则将第一评分加0（即第三数值，此时第一评分还等于2.5），因此最终的第一评分等于2.5。

其中，表型匹配评分计算模型为：

；

其中，表示所述位点的表型匹配评分，/>表示四舍五入取整运算符，t表示所述总评分，也就是HPO表型集合中的HPO表型的数量，如HPO表型集合中有10种表型，则t表示10；i表示所述最终的第一评分，/>表示所述第一预设评分。/>

可选地，预设评分阈值可以为0。

可选地，第一预设评分可以为100或者120等。

在一些实施例中，目标HPO表型集合中包括多个目标HPO表型；

所述获取所述目标对象的目标HPO表型集合，包括：

获取所述目标对象的多个目标文本表型；

针对各目标文本表型，将所述目标文本表型转换为英文表型；

在HPO表型库（例如国际HPO表型本体论数据库）中查找各英文表型应的HPO表型，得到所述多个目标HPO表型。

目标文本表型用于描述目标对象的外部表型。

多个目标文本表型为相关人员在电子设备中输入的文本表型。

通过翻译工具对目标文本表型进行智能翻译，得到英文表型。

在一些实施例中，根据所述位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值，包括：

对于各个位点，若变异知识库中的突变危害评分大于机器学习到的突变危害评分，则更新所述变异知识库中的生物学影响评分、遗传影响评分和表型匹配评分，以使变异知识库中的位点的位次小于或等于所述机器学习到的位点的位次。

在本发明中，若变异知识库中的突变危害评分大于机器学习到的突变危害评分，则更新所述变异知识库中的生物学影响评分、遗传影响评分和表型匹配评分，以使变异知识库中的位点的位次小于或等于所述机器学习到的位点的位次，从而使得危害性高的变异位点排列上游，大大降低了后续分析工作的难度，降低对后续分析工作的干扰，减少后续分析工作中可能会出现的错误、提高后续分析工作的效率。

需要说明的是，本申请中每个案例数据最终由用户确认排序在上游的变异位点是否是基因型~表型因果关系位点，即位点被确定为“是或者不是”导致表型的位点；随着目标数据案例的分析增加，每个案例排序在上游且被确认为基因型~表型因果关联的标记位点越来越多，变异知识库中被明确标记的位点越来越多，该系统定期(可选的每天/每月等不同频度)自动基于已经明确的基因型~表型标记，采用机器学习/人工智能算法（包括：决策树、随机森林、神经网络、强化学习和gpt生成算法等）进行训练获得建模数据，基于建模数据对知识库所有位点进行预测分析获得新的生物学影响评分、遗传影响评分和表型匹配评分，如果新的分值<当前分值，则更新分值，进一步自动化提升排序性能。

图3是本发明提供的排序结果的对比示意图。如图3所示，包括：排序结果A和排序结果B。

排序结果A为位点序列A中评分最低(危害性越大)的前300个位点。位点序列A（位点按照评分从小到大的排序）为基于相关技术中突变注释模块得到的位点序列。

排序结果B为位点序列B中评分最低(危害性越大)的前300个位点。位点序列B（位点按照评分从小到大的排序）为本发明提供的三要素（包括表型、生物和遗传）位点排序方法得到的位点序列。

从图3中可以看出，在排序结果A中，G6DP位点的位次是5，CDKL5位点的位次是179。其中，G6DP位点和CDKL5位点为预先知道的存在危害的位点。在排序结果B中，G6DP位点的位次是2，CDKL5位点的位次是1。因此通过在发明提供的位点排序方法，可以将危害性高的突变位点排列在最上游，提高了位点序列的准确性，提高了位点分析效率，且降低了医疗资源的投入。

图4是本发明提供的位点排序方法的流程示意图之二。如图4所示，该方法包括：

S401、获取目标对象的基因测序突变文件。

S402、对基因测序突变文件进行标准化处理，得到多个位点各自对应的突变位点信息。

S403、针对各位点，基于位点对应的突变位点信息，查询突变知识库，以得到位点的表型匹配评分、生物学影响评分和遗传影响评分。

在得到生物学影响评分的过程中，若未查询到突变ID对应的突变危害等级，则通过突变注释模块基于突变位点信息，确定突变ID对应的突变危害等级，并在所述突变知识库存储突变ID对应的突变危害等级，进而将突变知识库中述突变危害等级对应的生物学影响评分，确定为位点的生物学影响评分。

S404、基于生物学影响评分、遗传影响评分和表型匹配评分，确定位点的突变危害评分，并基于突变危害评分，对多个位点进行排序，得到位点序列。

S405、若多个位点中的目标位点在位点序列中的位次大于目标位次，则采用预设方式更新突变知识库，以更新目标位点的生物学影响评分、遗传影响评分和表型匹配评分，以使所述目标位点的位次小于或等于所述目标位次。

可选地，预设方式可以为通过相关人员修改突变知识库中的生物学影响评分、遗传影响评分和表型匹配评分，或者将相关文献中该位点的生物学影响评分、遗传影响评分和表型匹配评分录入突变知识库。也可以是根据位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值。

下面对本发明提供的位点排序装置进行描述，下文描述的位点排序装置与上文描述的位点排序方法可相互对应参照。

图5是本发明提供的遗传变异位点的危害性排序装置的结构示意图。如图5所示，该装置包括：

排序模块，用于基于所述突变危害评分，对所述多个位点进行排序，得到位点序列；

本发明提供的位点排序装置可以执行上述位点排序方法，能够实现与位点排序方法相同的有效效果，此处不再赘述。

在一些实施例中，确定模块具体用于：

基于所述突变位点信息，确定检测模式；

在一些实施例中，确定模块具体用于：

基于突变位点信息中包括的突变率，确定位点的初始携带类型，所述初始携带类型为杂合突变、纯合突变、半合型突变或者嵌合突变；

基于突变位点信息中包括的突变ID，查询所述突变知识库，得到基因ID；

基于基因ID，确定所述杂合突变的数量；

在所述初始携带类型为所述杂合突变的情况下，基于所述杂合突变的数量，确定所述位点的突变携带类型；

在所述初始携带类型为所述野生型、所述纯合突变、所述半合型突变或者所述嵌合突变的情况下，将所述初始携带类型确定为所述位点的突变携带类型。

在一些实施例中，确定模块具体用于：

基于所述突变位点信息中包括的突变ID，确定所述目标对象的遗传模式；

基于所述突变位点信息包括的亲属突变率，确定所述亲属的突变携带类型，所述亲属为所述目标对象的亲属；

基于所述目标对象的突变携带类型、所述遗传模式和所述亲属的突变携带类型，确定所述位点的家系突变携带类型。

确定模块具体用于：

确定所述位点所属的基因对应的遗传表现型HPO表型集合，所述HPO表型集合中包括多个HPO表型；

初始化第一评分；

将k加1，重复第K次执行所述匹配操作，直至得到最终的第一评分，K表示所述多个目标HPO表型的总数量；初始时，k等于1；

若所述最终的第一评分等于预设评分阈值，则将第一预设评分，确定为所述位点的表型匹配评分；

若所述最终的第一评分不等于所述预设评分阈值，则将所述最终的第一评分和所述多个目标HPO表型对应的总评分输入表型匹配评分计算模型，得到所述位点的表型匹配评分；

所述表型匹配评分计算模型为：

；

其中，表示所述位点的表型匹配评分，/>表示四舍五入取整运算符，t表示所述总评分，i表示所述最终的第一评分， />表示所述第一预设评分。

获取模块具体用于：

获取所述目标对象的多个目标文本表型；

在HPO表型库中查找各英文表型应的HPO表型，得到所述多个目标HPO表型。

在一些实施例中，在基于所述突变危害评分，对所述多个位点进行排序，得到位点序列之后，所述更新模块还用于：

本发明提供的位点排序装置可以执行上述遗传变异位点的危害性排序方法，能够实现与遗传变异位点的危害性排序方法相同的有效效果，此处不再赘述。

图6是本发明提供的电子设备的实体结构示意图。如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行遗传变异位点的危害性排序方法，该方法包括：获取所述目标对象的目标HPO表型集合和多个位点各自对应的突变位点信息；所述多个位点包括所述目标对象的各基因上的位点；针对各位点，基于所述目标HPO表型集合，确定所述位点的表型匹配评分；基于所述位点对应的突变位点信息，确定所述位点的生物学影响评分和遗传影响评分；基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分；基于所述突变危害评分，对所述多个位点进行排序，得到位点序列；根据所述位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的遗传变异位点的危害性排序方法，该方法包括：获取所述目标对象的目标HPO表型集合和多个位点各自对应的突变位点信息；所述多个位点包括所述目标对象的各基因上的位点；针对各位点，基于所述目标HPO表型集合，确定所述位点的表型匹配评分；基于所述位点对应的突变位点信息，确定所述位点的生物学影响评分和遗传影响评分；基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分；基于所述突变危害评分，对所述多个位点进行排序，得到位点序列；根据所述位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的遗传变异位点的危害性排序方法，该方法包括：获取所述目标对象的目标HPO表型集合和多个位点各自对应的突变位点信息；所述多个位点包括所述目标对象的各基因上的位点；针对各位点，基于所述目标HPO表型集合，确定所述位点的表型匹配评分；基于所述位点对应的突变位点信息，确定所述位点的生物学影响评分和遗传影响评分；基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定所述位点的突变危害评分；基于所述突变危害评分，对所述多个位点进行排序，得到位点序列；根据所述位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种遗传变异位点的危害性排序方法，其特征在于，包括：

获取目标对象的目标人类表型本体论HPO表型集合和多个位点各自对应的突变位点信息；所述多个位点包括所述目标对象的各基因上的位点；

针对各位点，基于HPO表型集合，确定位点的表型匹配评分；基于位点对应的突变位点信息，确定位点的生物学影响评分和遗传影响评分；基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定位点的突变危害评分；

2.根据权利要求1所述的遗传变异位点的危害性排序方法，其特征在于，所述基于位点对应的突变位点信息，确定位点的生物学影响评分，包括：

基于突变位点信息中包括的突变标识ID，在突变知识库中查询突变ID对应的突变危害等级；

若查询到突变ID对应的突变危害等级，则将所述突变知识库中突变危害等级对应的生物学影响评分，确定为位点的生物学影响评分；

若未查询到突变ID对应的突变危害等级，则基于突变位点信息，确定突变ID对应的突变危害等级，并在所述突变知识库存储所述突变ID对应的突变危害等级，并将所述突变知识库中突变危害等级对应的生物学影响评分，确定为所述位点的生物学影响评分。

3.根据权利要求1或2所述的遗传变异位点的危害性排序方法，其特征在于，所述基于位点对应的突变位点信息，确定位点的遗传影响评分，包括：

基于突变位点信息，确定检测模式；

在检测模式为单人模式的情况下，基于所述位点对应的突变位点信息，确定所述位点的遗传模式和突变携带类型；并基于所述遗传模式和所述突变携带类型，查询突变知识库，得到所述位点的遗传影响评分，所述突变知识库中包括所述遗传模式、所述突变携带类型和遗传影响评分之间的对应关系；

在检测模式为多人模式的情况下，基于所述位点对应的突变位点信息，确定所述位点的家系突变携带类型；基于所述家系突变携带类型，查询突变知识库，得到所述位点的遗传影响评分，所述突变知识库中包括所述家系突变携带类型和遗传影响评分之间的对应关系。

4.根据权利要求3所述的遗传变异位点的危害性排序方法，其特征在于，所述基于位点对应的突变位点信息，确定位点的遗传模式，包括：

基于突变位点信息中包括的突变ID，查询突变知识库，得到基因ID，所述突变知识库中包括所述突变ID和所述基因ID之间的对应关系；

基于所述基因ID，查询所述突变知识库，得到遗传表现型ID，所述突变知识库中包括所述基因ID和遗传表现型ID之间的对应关系；

基于所述基因ID和所述遗传表现型ID，查询所述突变知识库，得到位点的遗传模式，所述突变知识库中包括所述基因ID、遗传表现型ID和遗传模式之间的对应关系。

5.根据权利要求4所述的遗传变异位点的危害性排序方法，其特征在于，所述基于位点对应的突变位点信息，确定位点的突变携带类型，包括：

基于所述突变位点信息中包括的突变率，确定位点的初始携带类型，所述初始携带类型为野生型、杂合突变、纯合突变、半合型突变或者嵌合突变；

基于所述突变位点信息中包括的突变ID，查询突变知识库，得到基因ID；

基于所述基因ID，确定杂合突变的数量；

在所述初始携带类型为所述杂合突变的情况下，基于杂合突变的数量，确定所述位点的突变携带类型；

6.根据权利要求3所述的遗传变异位点的危害性排序方法，其特征在于，所述基于位点对应的突变位点信息，确定位点的家系突变携带类型，包括：

基于突变位点信息中包括的目标对象突变率，确定目标对象的突变携带类型；

基于所述突变位点信息包括的亲属突变率，确定亲属的突变携带类型，所述亲属为所述目标对象的亲属；

基于所述目标对象的突变携带类型、遗传模式和亲属的突变携带类型，确定所述位点的家系突变携带类型。

7.根据权利要求1或2所述的遗传变异位点的危害性排序方法，其特征在于，所述HPO表型集合中包括多个目标HPO表型；

所述基于HPO表型集合，确定位点的表型匹配评分，包括：

初始化第一评分；

针对所述HPO表型集合中的第（k+1）个目标HPO表型，执行第（k+1）次匹配操作，判断遗传表现型HPO表型集合中是否包括第（k+1）个目标HPO表型；若包括所述第（k+1）个目标HPO表型，则删除遗传表现型HPO表型集合中的所述第（k+1）个目标HPO表型，并将执行第k次匹配操作得到的第一评分增加第一数值；若不包括所述第（k+1）个目标HPO表型，则判断遗传表现型HPO表型集合中是否包括所述第（k+1）个目标HPO表型对应的相似HPO表型；若包括所述相似HPO表型，则删除遗传表现型HPO表型集合中的所述相似HPO表型，并将执行第k次匹配操作得到第一评分的增加第二数值；若不包括所述相似HPO表型，则将执行第k次匹配操作得到第一评分的增加第三数值；

若所述最终的第一评分不等于所述预设评分阈值，则将所述最终的第一评分和多个目标HPO表型对应的总评分输入表型匹配评分计算模型，得到所述位点的表型匹配评分；

所述表型匹配评分计算模型为：

；

其中，表示所述位点的表型匹配评分，/>表示四舍五入取整运算符，t表示总评分，i表示最终的第一评分，/>表示第一预设评分。

8.根据权利要求1或2所述的遗传变异位点的危害性排序方法，其特征在于，所述HPO表型集合中包括多个目标HPO表型；

所述获取目标对象的人类表型本体论HPO表型集合，包括：

获取所述目标对象的多个目标文本表型；

在HPO表型库中查找各英文表型应的HPO表型，得到多个目标HPO表型。

9.根据权利要求1或2所述的遗传变异位点的危害性排序方法，其特征在于，所述根据位点序列生成变异知识库，并将机器学习到的目标突变危害评分和该位点的突变危害评分进行比较，更新变异知识库中的该位点评分值，包括：

对于各个位点，若变异知识库中的突变危害评分大于机器学习到的突变危害评分，则更新变异知识库中的生物学影响评分、遗传影响评分和表型匹配评分，以使变异知识库中的位点的位次小于或等于机器学习到的位点的位次。

10.一种遗传变异位点的危害性排序装置，其特征在于，包括：

获取模块，用于获取目标对象的目标人类表型本体论HPO表型集合和多个位点各自对应的突变位点信息；所述多个位点包括所述目标对象的各基因上的位点；

确定模块，用于针对各位点，基于HPO表型集合，确定位点的表型匹配评分；基于位点对应的突变位点信息，确定位点的生物学影响评分和遗传影响评分；基于所述生物学影响评分、遗传影响评分和表型匹配评分，确定位点的突变危害评分；