CN111883210A

CN111883210A - 基于临床特征和序列变异的单基因病名称推荐方法及系统

Info

Publication number: CN111883210A
Application number: CN202010511089.3A
Authority: CN
Inventors: 马旭; 曹宗富; 罗敏娜; 陈翠霞; 蔡瑞琨; 喻浴飞; 李乾
Original assignee: Institute Of Science And Technology National Health Commission
Current assignee: Institute Of Science And Technology National Health Commission
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-11-03
Anticipated expiration: 2040-06-08
Also published as: WO2021248695A1; CN111883210B

Abstract

本发明公开一种基于临床特征和序列变异的单基因病名称推荐方法及系统，能够精准地推荐出与患者情况匹配的单基因病名称。该方法包括：获取患者的病例信息；将基因序列与人类参考基因组进行比对得到每个遗传变异的影响性评分；遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算与每个特征集合A的集合相似度值，将相似的标准单基因病名称及对应的基因降序候选输出，构建标准单基因病名称集合P；从预设的基因列表文件中获取与单基因病名称对应的多个基因，分别计算每个基因的致病性评分，将对应的标准单基因病名称降序候选输出，构建标准单基因病名称集合G；基于集合G和集合P的交集结果输出标准单基因病名称的推荐结果。

Description

基于临床特征和序列变异的单基因病名称推荐方法及系统

技术领域

本发明涉及医学信息技术领域，尤其涉及一种基于临床特征和序列变异的单基因病名称推荐方法及系统。

背景技术

单基因病是一种常见疾病，它是由一对等位基因突变导致的疾病，又称孟德尔式遗传病，其特点如下：

1、单基因病种类繁多，目前已发现的单基因病有8000种以上；

2、单基因病表型复杂，同一种单基因病表型异质性强，存在不同单基因病之间临床特征相互重叠的现象；

3、单基因病遗传模式多样化，即使同一种单基因病，也可能表现为不同的遗传模式，不同的单基因病也可表现为相同的遗传模式。

4、大部分单基因病发病率很低，较为罕见。

这些复杂因素使得临床医生很难对所有的单基因病表型都了解，给单基因病临床诊疗带来了极大的困难。

发明内容

本发明的目的在于提供一种基于临床特征和序列变异的单基因病名称推荐方法及系统，能够精准地推荐出与患者情况匹配的单基因病名称。

为了实现上述目的，本发明的一方面提供一种基于临床特征和序列变异的单基因病名称推荐方法，包括：

获取患者的病例信息，所述病例信息包括基因序列、特征集合I和单基因病名称；

将所述基因序列与人类参考基因组进行比对得到比对数据，并根据比对数据得到每个遗传变异的影响性评分；

遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出，同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P；

从预设的基因列表文件中获取与所述单基因病名称对应的多个基因，基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分，并按照致病性评分值大小将对应的标准单基因病名称降序候选输出，同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G；

基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果，以及标准单基因病名称的候选输出顺序，输出标准单基因病名称的推荐结果。

优选地，在步骤遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出之前还包括：

从单基因病的公共数据库和文献数据库，获得已知的标准单基因病名称及其对应的标准临床特征；

基于已知的标准单基因病名称及其对应的标准临床特征，建立标准单基因病名称与标准临床特征的特征关系数据库；

分别计算每种标准单基因病名称对应的各标准临床特征对该单基因病的贡献度c_i；

从特征关系数据库中获取数据，基于HPO构建单基因病的标准化临床特征表型树；

所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。

较佳地，遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出的方法包括：

将特征集合I中的临床特征在标准化临床特征表型树上的节点标记；

遍历特征关系数据库中的第n个标准单基因病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；

基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；

根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；

令n＝n+1重新遍历特征关系数据库中的第n个标准单基因病名称，直至特征关系数据库中的标准单基因病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总排序候选输出。

进一步地，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

所述特征集合I包括多个临床特征，所述特征集合A包括多个标准临床特征；

遍历所述特征集合I中的第i个临床特征，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征，作为与所述第i个临床特征对应的最佳标准临床特征，所述i的初始值为1；

令i＝i+1后重新遍历所述特征集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个标准单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。

进一步地，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

遍历所述特征集合A中的第j个标准临床特征，基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点B_t，所述j的初始值为1；

若判断结果为否，则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零；

若判断结果为是，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值；

令j＝j+1后重新遍历所述特征集合A中的第j个标准临床特征，并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算，直至所述特征集合A中的标准临床特征遍历完毕，对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值；

从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

优选地，将所述基因序列与人类参考基因组进行比对得到比对数据，并根据比对数据得到每个遗传变异的影响性评分的方法包括：

对基因序列进行属性标记，其中，基因检测模式为单样本检测模式时，基因序列为1组待测人员的基因序列，基因检测模式为家系检测模式时，基因序列为1组待测人员和至少1组待测人员直系亲属的基因序列；

分别将每组基因序列与人类参考基因组进行序列比对，得到对应数量的比对数据；

从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息，基于所述遗传变异的长度信息识别其变异类型，以及基于所述遗传变异的位置信息和碱基改变信息预测其变异功能，所述变异类型包括SNP变异和Indel变异，所述变异功能的类型包括变异有害、变异低害或基本无害；

针对每个遗传变异的变异类型识别结果，对遗传变异所在的基因和人群发生频率进行注释，并在家系检测模式时判断其家系遗传模式；

基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能和家系遗传模式对遗传变异进行临床显著性分级，所述临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种级别；

根据各遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种，计算基因中各遗传变异的影响性评分。

较佳地，从预设的基因列表文件中获取与所述单基因病名称对应的多个基因，基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分的方法包括：

获取基因中的遗传变异，匹配出各遗传变异的影响性评分；

采用致病评分公式Score_g＝max(Score_v)+w_eS_e+w_tS_t+w_MLSS_MLS分别计算每个基因的致病性评分，其中，max(Score_v)为所述基因中的遗传变异影响性评分最大值，S_e为所述基因对已知疾病的关联性赋值，S_t为遗传变异的遗传模式赋值，S_MLS为与所述基因对应的相似度值，w_e为S_e的赋值权重，w_t为s_t的赋值权重，w_MLS为S_MLS的赋值权重。

优选地，按照致病性评分值大小将对应的标准单基因病名称降序候选输出之前还包括：

对于候选输出的标准单基因病名称，采用黑名单方式过滤掉假阳性变异位点对应的标准单基因病名称。

与现有技术相比，本发明提供的基于临床特征和序列变异的单基因病名称推荐方法具有以下有益效果：

本发明提供的基于临床特征和序列变异的单基因病名称推荐方法中，首先需要获取一份包括基因序列、特征集合I和单基因病名称的患者病例信息，然后基于特征集合I做表型辅诊的单基因病名称推荐，以及基于基因序列和单基因病名称做遗传辅诊的单基因病名称推荐，并根据表型辅诊和遗传辅诊推荐结果的交集，向患者输出最终的标准单基因病名称推荐结果。

可见，本发明提供的方案综合了患者的临床特征和遗传变异进行临床辅助诊断，能够帮助临床医生对复杂单基因病进行精准诊断。

本发明的另一方面提供一种基于临床特征和序列变异的单基因病名称推荐系统，包括：

输入单元，用于获取患者的病例信息，所述病例信息包括基因序列、特征集合I和单基因病名称；

序列比对单元，用于将所述基因序列与人类参考基因组进行比对得到比对数据，并根据比对数据得到每个遗传变异的影响性评分；

表型辅诊单元，用于遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出，同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P；

遗传辅诊单元，用于从预设的基因列表文件中获取与所述单基因病名称对应的多个基因，基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分，并按照致病性评分值大小将对应的标准单基因病名称降序候选输出，同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G；

推荐输出单元，基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果，以及标准单基因病名称的候选输出顺序，输出标准单基因病名称的推荐结果。

与现有技术相比，本发明提供的基于临床特征和序列变异的单基因病名称推荐系统的有益效果与上述技术方案提供的基于临床特征和序列变异的单基因病名称推荐方法有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于临床特征和序列变异的单基因病名称推荐方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于临床特征和序列变异的单基因病名称推荐方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为实施例一中基于临床特征和序列变异的单基因病名称推荐方法的流程示意图；

图2为实施例一中标准化临床特征表型树上的节点标记示例图；

图3为实施例二中基于临床特征和序列变异的单基因病名称推荐系统的结构框图；

图4为实施例四中基于临床特征和序列变异的单基因病名称推荐方法应用的环境架构的一种示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种基于临床特征和序列变异的单基因病名称推荐方法，包括：

获取患者的病例信息，病例信息包括基因序列、特征集合I和单基因病名称；将基因序列与人类参考基因组进行比对得到比对数据，并根据比对数据得到每个遗传变异的影响性评分；遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出，同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P；从预设的基因列表文件中获取与单基因病名称对应的多个基因，基于基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和基因对应的相似度值分别计算每个基因的致病性评分，并按照致病性评分值大小将对应的标准单基因病名称降序候选输出，同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G；基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果，以及标准单基因病名称的候选输出顺序，输出标准单基因病名称的推荐结果。

上述实施例中，在步骤遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出之前还包括：

从单基因病的公共数据库和文献数据库，获得已知的标准单基因病名称及其对应的标准临床特征；基于已知的标准单基因病名称及其对应的标准临床特征，建立标准单基因病名称与标准临床特征的特征关系数据库；分别计算每种标准单基因病名称对应的各标准临床特征对该单基因病的贡献度c_i；从特征关系数据库中获取数据，基于HPO构建单基因病的标准化临床特征表型树；标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。

优选地，还需参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息，以实现对中文版病历资料的识别匹配。

具体实施时，公共数据库为MedGen数据库，文献数据库为PubMed数据库，特征关系数据库中包括互相匹配的标准单基因病名称、外文临床特征、临床特征在人类表型标准用语数据库中的编号(HPOIDs)以及中文临床特征。本实施例可以为单基因病的临床诊断和鉴别提供线索和理论支持，也为进一步缩小基因检测的范围提供了数据支持。同时，本实施例建立的临床特征关系数据库覆盖的单基因病种类达8600种以上，单基因病表型临床特征超过11000个，表型与临床特征关系数据达9万种以上，囊括了单基因病研究方向最新的数据库版本和文献报道。

具体地，每种标准单基因病名称对应的各标准临床特征对该单基因病的贡献度c_i的计算方法如下：

在特征关系数据库中，假设共有a种标准临床特征，a种标准临床特征在特征关系数据库中一共出现N次，假定每种标准临床特征出现的次数为a_i，则每个标准临床特征在特征关系数据库中出现的频率为f_i，f_i的计算公式为：

f_i＝a_i/N；

对于特征关系数据库中的某种标准单基因病名称，假定对应有m个标准临床特征，每个标准临床特征在特征关系数据库中的分布频率依次为f₁、f₂、……、f_m，则某个标准临床特征对该单基因病的贡献度c_i的计算公式为：

上述公式中，k为校正因子，且k＞1，特征关系数据库作为参考数据库使用。

特征集合I，也即临床特征信息集合可通过可视化工具实现两种方式的标准化输入：第一种方式是输入关键词，每一个关键词相当于一个临床特征，通过即时搜索提供相关标准化表型信息的下拉菜单方便用户选择，实现标准化临床特诊信息的输入；第二种方式是直接在表型树上，通过鼠标点击相关的标准化临床特征信息进行输入。

上述实施例中构建单基因病的标准化临床特征表型树的方法包括：

从特征关系数据库中获取数据，基于HPO构建单基因病的标准化临床特征表型树；其中，标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。HPO是指hp.obo文件。

上述实施例中，遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出的方法包括：

将特征集合I中的临床特征在标准化临床特征表型树上的节点标记；遍历特征关系数据库中的第n个标准单基因病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；令n＝n+1重新遍历特征关系数据库中的第n个标准单基因病名称，直至特征关系数据库中的标准单基因病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总排序候选输出。

具体地，从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征的方法包括：

遍历特征集合A中的第j个标准临床特征，基于已建立的索引判断第j个标准临床特征与第i个临床特征是否存在相同的干节点B_t，j的初始值为1；若判断结果为否，则认为第j个标准临床特征与第i个临床特征的相似度值为零；若判断结果为是，基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值；令j＝j+1后重新遍历特征集合A中的第j个标准临床特征，并继续执行第j个标准临床特征与第i个临床特征的相似度计算，直至特征集合A中的标准临床特征遍历完毕，对应得到与特征集合A中标准临床特征一一对应的多个相似度值；从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

上述实施例中基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值的方法包括：

基于标准化临床特征表型树上的节点标记，获取第i个临床特征与相同干节点B_t连接通路中所有节点的有向集合IB，以及获取第j个标准临床特征相同干节点B_t连接通路中所有节点的有向集合AB，有向集合IB长度的值为通路中节点的个数L_IB，有向集合AB长度的值为通路中节点的个数L_AB；提取有向集合IB和有向集合AB中节点的交集IAB，交集IAB长度的值为通路中共有节点的个数L_IAB；采用公式

计算第j个标准临床特征与第i个临床特征的相似度值；

其中，SM表示第j个标准临床特征与第i个临床特征在表型树多层次间的相似度值；SI表示第j个标准临床特征与第i个临床特征在表型树同层次间的相似度值，β为权重系数。

具体实施时，对于特征关系数据库中某一标准单基因病名称对应的特征集合A有n个元素A_j组成，分别为A₁、A₂、……、A_n，也即A＝[A₁，A₂，...,A_j...,A_n]，特征关系数据库中的每一个标准基因病名称均对应一个集合A。假若某一单基因病患者输入的标准化特征集合I，有m个临床特征I_i组成，对应的特征集合I＝[I₁、I₂、……、I_m]。如果I_i与A_j的干节点不相同，则认为I_i与A_j的相似度为0，如果I_i与A_j的干节点相同，如图2所示，相同的干节点为B_t，则计算I_i与A_j的相似度，计算方法为：I_i到B_t之间连接通路中的所有节点组成有向集合IB，有向集合IB的元素个数记为N_IB，有向集合IB的长度定义为该通路上节点的个数，记为L_IB，且L_IB＝N_IB；

A_j到B_t之间连接通路中的所有节点组成有向集合AB，有向集合AB的元素个数记为N_AB，有向集合AB的长度定义为该通路上节点的个数，记为L_AB，且L_AB＝N_AB；

有向集合IB和有向集合AB的交集集合记为IAB，交集集合IAB的元素个数记为N_IAB，集合IAB的长度定义为共有路径上节点的个数，记为L_IAB，则L_IAB＝N_IAB，其中，SM＝L_IAB/max(L_AB,L_IB)，SI＝1/(L_AB+L_IB-2L_IAB+1)，β为权重系数，β∈(0,1)；I_i与A_j之间的相似度的取值范围

进一步地，上述实施例中根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值的方法包括：

利用第i个临床特征的贡献度c_i，对特征集合A中与之对应最佳标准临床特征的最大相似度值进行加权处理；令i＝i+1，重新对特征集合A中与第i个临床特征对应的最佳标准临床特征的最大相似度值进行加权处理，直至将特征集合A中筛选出的全部最佳标准临床特征加权处理完毕，累加特征集合A中全部最佳标准临床特征对应的加权最大相似度值，得到特征集合I与当前特征集合A的集合相似度值。

具体实施时，对于每个输入的临床特征I_i，都可以在特征集合A中找到一个与之对应相似度最大的标准临床特征A_j，也就是说每个临床特征I_i都会得到一个与特征集合A的相似度值，特征集合I和特征集合A的相似度，定义为特征集合I中的每个临床特征I_i与特征集合A的相似度之和。

考虑到每个临床特征对单基因病的贡献程度不一，需对相应的最大相似度值进行加权处理，其计算公式为

其中

表示临床特征I_i与特征集合A的相似度值。特征集合I和特征集合A的相似度值，定义为特征集合I中每个临床特征I_i与特征集合A的相似度之和，其计算公式为

S_IA表示特征集合I与特征集合A的相似度值。

可见，上述实施例采用多层级结构相似度算法具有标准单基因病名称推荐准确度高的特点。

上述实施例中，将基因序列与人类参考基因组进行比对得到比对数据，并根据比对数据得到每个遗传变异的影响性评分的方法包括：

对基因序列进行属性标记，其中，基因检测模式为单样本检测模式时，基因序列为1组待测人员的基因序列，基因检测模式为家系检测模式时，基因序列为1组待测人员和至少1组待测人员直系亲属的基因序列；分别将每组基因序列与人类参考基因组进行序列比对，得到对应数量的比对数据；从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息，基于遗传变异的长度信息识别其变异类型，以及基于遗传变异的位置信息和碱基改变信息预测其变异功能，变异类型包括SNP变异和inDel变异，变异功能的类型包括变异有害、变异低害或基本无害；针对每个遗传变异的变异类型识别结果，对遗传变异所在的基因和人群发生频率进行注释，并在家系检测模式时判断其家系遗传模式；基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能和家系遗传模式对遗传变异进行临床显著性分级，临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种级别；根据各遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种，计算基因中各遗传变异的影响性评分。

具体实施时，上述实施例具有两种基因检测模式，当基因检测模式为单样本检测模式时，需获取1组待测人员的基因序列，而当基因检测模式为家系检测模式时，需要获取1组待测人员和至少1组待测人员直系亲属的基因序列。将任一检测模式中的各组基因序列分别与人类参考基因组进行序列比对，得到对应的比对数据；并从比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息，然后基于遗传变异的长度信息识别其变异类型，以及遗传变异的位置信息和碱基改变信息预测其变异功能，并对遗传变异所在的基因和人群发生频率进行注释，当在家系检测模式时还需判断其是否为家系内共分离遗传，接着，根据上述得到的遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能、甚至还包括家系遗传模式对各遗传变异进行临床显著性分级，当每个遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种，以及是否被数据库收录这些核心信息采集完毕后，分别对基因中的全部遗传变异进行影响性评分；之后通过患者所患的单基因病名称获取相关的基因，然后将基因中的遗传变异与上述计算过影响性评分的遗传变异匹配，计算相关基因中遗传变异的影响性评分。

可以理解的是，获取基因序列的方法多种多样，例如，可以由用户基于web界面导入高通量测序的基因序列，基因序列的数据格式为fastq的gz压缩格式，常用的导入方法从本地计算机导入和通过ftp客户端导入，数据导入过程中会对基因序列进行完整性检查，对不完整的基因序列数据给予相应的提醒。其中，属性标记的信息包括文件名、样本编号、平台、家系编号、个体编号、父亲编号、母亲编号、性别、表型、年龄、种族、居住地、籍贯、疾病名称、临床特征、病历资料、遗传模式等。

当属性标记的步骤完成后，还需对基因序列的质量进行检查，确保基因序列的质量是合格的，能够用于下游分析和解读。质量检查的指标包括：总序列数、序列长度、碱基质量、序列质量、碱基含量、GC含量、碱基水平N含量、序列长度分布、重复序列、过渡表达序列、接头序列、K-mer含量等。该步骤中基因序列的检查方法为本领域技术人员常用的技术手段，在此不做赘述。

上述实施例中，分别将每组基因序列数据与人类参考基因组进行序列比对，得到对应数量的比对数据的方法包括：

针对获取的基因序列数据进行质量检测，对质量检测不合格的基因序列数据进行标记；将质量检测合格的基因序列数据输入BWA软件，使其与人类参考基因hg19或人类参考基因hg38进行序列比对；依次对各组比对结果进行去重、indel区域校正、碱基质量校正操作后得到多组比对数据；比对数据的内容包括序列在染色体上的比对位置、比对质量、配对序列在染色体上的比对位置、插入片段长度、序列的碱基组成或序列质量。

具体实施时，依次对各组比对结果进行去重、indel区域校正、碱基质量校正操作后得到多组比对数据的方法包括：

采用Picard MarkDuplicates软件对比对结果进行去重；对indel区域校正的方法为利用GATK RealignerTargetCreator软件产生indel列表，并追加1000基因组数据库中发现的已知indel位点，利用GATK IndelRealigner对这些indel区域进行局部重新比对，以实现indel区域的校正；碱基质量校正的方法为使用GATK BaseRecalibrator软件结合已知位点信息对碱基的质量分数进行校正。

这些操作步骤完成后，可针对比对数据进行汇总性分析，汇总性分析的内容包括比对数据的质量，以及双端测序的原始读序数目、比对到人类参考基因组上的读序数目、平均读序长度、indel的比例、正负链是否平衡等信息。另外，此阶段还可对靶向区域的序列覆盖情况进行观察，以获取基因组长度、靶向区域的长度、总读序数目、靶向区域的读序数目、非靶向区域的读序数目、靶向区域读序所占的比例、靶向区域的平均测序深度等信息。

进一步地，上述实施例中从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息，基于遗传变异的长度信息识别其变异类型，以及基于遗传变异的位置信息和碱基改变信息预测其变异功能的方法包括：

利用Haplotyper Caller算法基于每组比对数据中遗传变异的长度信息，识别出遗传变异为SNP变异或者inDel变异；当遗传变异为错义突变时，采用SIFT软件或者Polyphen2软件对遗传变异的变异功能进行预测；当遗传变异为剪接位点变异时，采用HSF软件对遗传变异的变异功能进行预测。

具体实施时，错义突变为单核苷酸突变的一种形式，是指编码氨基酸的密码子经过碱基替换后变成编码另一种氨基酸的密码子，从而使多肽链的氨基酸种类和序列发生改变，在对其功能预测的过程中，可采用SIFT软件预测氨基酸替换是否影响蛋白质功能，对由氨基酸突变引起的氨基酸改变的预测结果进行归一化评分，评分范围为[0,1]，得分越低则表明危害性就越大，通常，分数<0.05代表变异有害(Deleterious)，分数≥0.05代表变异低害(tolerate)；也可采用Polyphen2软件通过整合蛋白质序列和蛋白质三维结构特征，来预测人类蛋白质的氨基酸替换对结构和功能的影响，Polyphen2的归一化评分范围为[0,1]，分数越高，意味着有越大的破坏蛋白功能的可能性，通常分数在0.957～1之间，其相应的预测结果为变异有害(probably damage)，在0.453～0.956之间，其相应的预测结果为变异低害(possible dmage)，在0～0.452之间其相应的预测结果为基本无害(benign)，另外，剪接位点变异是指发生在基因剪接位点区域的变异，可能影响mRNA的剪接，通过HSF软件预测该变异是否导致剪切的改变，当能够导致剪切的改变时代表变异有害(Deleterious)，否则代表变异低害(tolerate)。需要说明的是，上述评分及功能预测的方法为本领域现有的方法，本实施例对此不做赘述。

进一步地，上述实施例中针对每个遗传变异的变异类型识别结果，对遗传变异所在的基因和人群发生频率进行注释，并在家系检测模式时判断其家系遗传模式的方法包括：

基于每个遗传变异的变异类型识别结果，通过公共数据库对遗传变异所在的基因和人群发生频率进行注释；在基因检测模式为家系检测模式时，通过分析各组比对数据中遗传变异的位置信息判断其家系遗传模式，当各组比对数据中遗传变异的位置信息相关联时判断为家系遗传，否则判断为非家系遗传。

具体实施时，根据公共数据库对遗传变异所在的基因、转录本、外显子位置、氨基酸改变、变异类型、以及在世界不同人群发生频率等进行注释。转录本参考NCBI RefSeq转录本数据库，对于有多个不同转录剪切的基因，采用包含最多外显子的转录本进行注释。人群频率信息来自于千人基因组(1000genomes)、ESP和gnomAD数据库。若基因检测模式为家系检测模式时，还需通过分析各组比对数据中遗传变异的位置信息判断其家系遗传模式，当各组比对数据中遗传变异的点位关联时判断为家系遗传，否则判断为非家系遗传，若基因检测模式为单样本检测模式时，则无需此步判断。需要说明的是，家系遗传的判断可通过现有仪器分析多组基因序列数据自动识别，本实施例对此不做赘述。

需要说明的是，上述实施例中基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对遗传变异进行临床显著性分级的方法包括：

参考美国医学遗传学和基因组学会(The American College of MedicalGenetics and Genomics,ACMG)与美国分子病理协会(Association for MolecularPathology,AMP)提出的变异临床显著性的分级标准和指南，对遗传变异进行临床显著性分级。示例性地如下：

参与ACMG致病性分级的证据包括：

PVS1：当一个疾病的致病机制为功能丧失(LOF)时，无功能变异。

PS1：与先前已确定为致病性的变异有相同的氨基酸改变。

PS2：患者的新发变异，且无家族史。

PS3：体内、体外功能实验已明确会导致基因功能受损的变异。

PS4：变异出现在患病群体中的频率显著高于对照群体。

PM1：位于热点突变区域，和/或位于已知无良性变异的关键功能域。

PM2：ESP数据库、千人数据库、EXAC数据库中正常对照人群中未发现的变异。

PM3：在隐性遗传病中，在反式位置上检测到致病变异。

PM4：非重复区框内插入/缺失或终止密码子丧失导致的蛋白质长度变化。

PM5：新的错义突变导致氨基酸变化，此变异之前未曾报道，但是在同一位点，导致另外一种氨基酸的变异已经确认是致病性的。

PM6：未经父母样本验证的新发变异。

PP1：突变与疾病在家系中共分离(在家系多个患者中检测到此变异)

PP2：对某个基因来说，如果这个基因的错义变异是造成某种疾病的原因，并且这个基因中良性变异所占的比例很小，在这样的基因中所发现的新的错义变异。

PP3：多种统计方法预测出该变异会对基因或基因产物造成有害的影响，包括保守性预测、进化预测、剪接位点影响等。

PP4：变异携带者的表型或家族史高度符合某种单基因遗传疾病。

PP5：有可靠信誉来源的报告认为该变异为致病的，但证据尚不足以支持进行实验室独立评估。

BA1：ESP数据库、千人数据库、ExAC数据库中等位基因频率>5％的变异。

BS1：等位基因频率大于疾病发病率。

BS2：对于早期完全外显的疾病，在健康成年人中发现该变异(隐性遗传病发现纯合、显性遗传病发现杂合，或者X连锁半合子)。

BS3：在体内外实验中确认对蛋白质功能和剪接没有影响的变异。

BS4：在一个家系成员中缺乏共分离。

BP1：已知一个疾病的致病原因是由于某基因的截短变异，在此基因中所发现的错义变异。

BP2：在显性遗传病中又发现了另一条染色体上同一基因的一个已知致病变异，或者是任意遗传模式遗传病中又发现了同一条染色体上同一基因的一个已知致病变异。

BP3：功能未知重复区域内的缺失/插入，同时没有导致基因编码框改变。

BP4：多种统计方法预测出该变异会对基因或基因产物无影响，包括保守性预测、进化预测、剪接位点影响等。

BP5：在已经有另一分子致病原因的病例中发现的变异。

BP6：有可靠信誉来源的报告认为该变异为良性的，但证据尚不足以支持。

BP7：同义变异且预测不影响剪接。

遗传变异分级的联合规则包括：

致病(pathogenic)，包括i、ii、iii中任一种情况：

i、包括1个非常强证据PVS1和a-d中任一种证据；

a、一个以上强证据(PS1-PS4)

b、2个以上中等证据(PM1-PM6)

c、1个中等证据(PM1-PM6)和1个支持证据(PP1-PP5)

d、≥2个支持证据(PP1-PP5)；

ii、≥2个强证据(PS1-PS4)；

iii、1个强证据(PS1)和a、b、c中任一种情况：

a、≥3个中等证据(PM1-PM6)

b、2个中等证据(PM1-PM6)和≥2个支持证据(PP1-PP5)

c、1个中等证据(PM1-PM6)和≥4个支持证据(PP1-PP5)。

可能致病(likely pathogenic)，包括i-vi中任一种情况：

i、1个非常强证据(PVS1)和1个中等证据(PM1-PM6)；

ii、1个强证据(PS1-PS4)和1-2个中等证据(PM1-PM6)；

iii、1个强证据(PS1-PS4)和≥2个支持证据(PP1-PP5)；

iv、≥3个中等证据(PM1-PM6)；

v、2个中等证据(PM1-PM6)和≥2个支持证据(PP1-PP5)；

vi、1个中等证据(PM1-PM6)和≥4个支持证据(PP1-PP5)。

良性(benign)，包括i或ii中任一种情况：

i、1个独立证据(BA1)；

ii、≥2个强证据(BS1-BS4)。

可能良性(likely benign)，包括i或ii中任一种情况：

i、1个强证据(BS1-BS4)和1个支持证据(BP1-BP7)；

ii、≥2个支持证据(BP1-BP7)。

致病性不明(uncertain significance)，包括i或ii中任一种情况：

i、不满足上述标准或

ii、良性和致病标准相互矛盾。

可选地，为了保证遗传变异的数据有效性，可对部分遗传变异进行过滤，过滤的条件如下：第一种为过滤掉内含子上变异(intron_variant)、基因间的变异(intergenic_variant)、基因上游的变异(upstream_gene_variant)和基因下游的变异(downstream_gene_variant)；第二种为过滤掉人群发生频率大于0.1的变异位点；第三种为过滤掉质量评估不合格的遗传变异。

上述实施例中根据各遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种，计算基因中各遗传变异的影响性评分的方法包括：

通过对每个遗传变异的证据的进行赋值，所述证据包括临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能、是否被数据库收录等；

采用基因中遗传变异的影响性评分公式

分别计算每个遗传变异的影响性评分，其中，f为证据的数量，w_i为第i各证据的权重，s_i为第i各证据的赋值。

具体实施时，当变异类型为错义突变和剪接位点变异时赋值4分；当人群发生频率小于或等于10^-4或者无消息时赋值1分，当人群发生频率处于10^-4至10^-3时赋值0.5分，当人群发生频率大于0.05时赋值-1分；当HSF软件预测的变异功能影响剪切时，则赋值2分，使用SIFT软件预测的变异功能为变异有害(Deleterious)时赋值1分，当预测的变异功能为变异低害(tolerate)时赋值-1分，使用Polyphen2软件预测的变异功能为变异有害(probablydamage)时赋值1分，当预测的变异功能为变异低害(possible dmage)时赋值0.5分，当预测的变异功能为基本无害(benign)时赋值-1分；使用HSF软件预测的变异功能结果为影响剪切则累积2分，预测的变异功能结果为不影响剪切则累积0分；临床显著性分级为致病时赋值3分，可能致病时赋值2分，致病性不明时赋值1分，可能良性时赋值-2分，良性时赋值-3分；数据库包括ClinVar数据库、UniProt数据库或本地数据库，当遗传变异被上述任何一个数据库中收录时均可累积1分，当该遗传变异位点属于明确致病位点时赋值5分。

示例性地，Score_v＝S_c+S_p+S_vip+S_sift+S_pph2+S_HSF，其中，S_C表示临床显著性分级对应的得分，S_p表示人群发生频率对应的得分，S_vip表示致病位点明确性对应的得分，S_pph2表示致病位点明确性对应的得分，使用Polyphen2软件预测的变异功能对应的得分，S_HSF表示使用HSF软件预测的变异功能对应的得分。

上述实施例中从预设的基因列表文件中获取与所述单基因病名称对应的多个基因，基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分的方法包括：

获取基因中的遗传变异，匹配出各遗传变异的影响性评分；采用致病评分公式Score_g＝max(Score_v)+w_eS_e+w_tS_t+w_MLSS_MLS分别计算每个基因的致病性评分，其中，max(Score_v)为基因中的所以遗传变异影响性评分的最大值，S_e为基因对已知疾病的关联性赋值，S_t为遗传变异的遗传模式赋值，S_MLS为与基因对应的相似度值，w_e为S_e的赋值权重，w_t为s_t的赋值权重，w_MLS为S_MLS的赋值权重。

具体实施时，从预设的基因列表文件中获取与患者的单基因病名称对应的多个基因，分别提取各基因中的遗传变异，并与已计算出影响性评分的遗传变异匹配，得到上述相关基因中各遗传变异的影响性评分，然后采用致病评分公式Score_g＝max(Score_v)+w_eS_e+w_tS_t+w_MLSS_MLS，分别计算每个基因的致病性评分，其中，S_e为基因对疾病的关联性赋值，当所述基因为疾病关联的已知基因时赋值10分，其基因他赋值0分；S_t为遗传变异的遗传模式赋值，当遗传模式为家系遗传时赋值5分，否则赋值0分；S_MLS为该基因对应的单基因病名称与特征关系数据库中标准单基因病名称相似度值中最大的值，w_e和w_t的默认值均为1，w_MLS的默认值为2，取值范围1-5，w_e、w_t和w_MLS在实际操作中根据情况可调。

需要补充的是，使用本实施例提供的的方法，还能够获取显示基因序列在遗传变异所在基因和外显子位置、参考基因组序列、遗传变异两侧的覆盖度、遗传变异两侧的比对质量、两侧变异分布等。对单基因病可能致病的遗传变异进行人工检查后，自动生成遗传分析解读报告。遗传分析解读报告内容包括：基因序列数据的个体信息、遗传分析解读结果、相关单基因病的临床特征，个体信息包括：样本编号、姓名、性别、年龄、籍贯、居住地、疾病诊断、疾病描述等信息。遗传分析解读结果包括：致病突变的物理位置、基因名称、DNA改变、氨基酸改变、东亚人群频率、临床显著性分级、疾病及家系遗传模式。

上述实施例中，基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果，以及标准单基因病名称的候选输出顺序，输出标准单基因病名称的推荐结果。

具体实施时，当标准单基因病名称集合G和标准单基因病名称集合P的交集结果为空，说明通过遗传辅诊得到的标准单基因病名称推荐结果与表型遗传辅诊得到的标准单基因病名称推荐结果完全不一致，此时不输出标准单基因病名称的推荐结果；当标准单基因病名称集合G和标准单基因病名称集合P的交集结果为1个，说明通过遗传辅诊得到的标准单基因病名称推荐结果与表型遗传辅诊得到的标准单基因病名称推荐结果有一个相同，此时输出唯一的标准单基因病名称的推荐结果；当标准单基因病名称集合G和标准单基因病名称集合P的交集结果为多个，说明通过遗传辅诊得到的标准单基因病名称推荐结果与表型遗传辅诊得到的标准单基因病名称推荐结果存在部分相同，此时按照各标准单基因病名称的候选输出顺序，输出多个标准单基因病名称的推荐结果。

进一步地，上述实施例中按照致病性评分值大小将对应的标准单基因病名称降序候选输出之前还包括：

对于候选输出的标准单基因病名称，采用黑名单方式过滤掉假阳性变异位点对应的标准单基因病名称。黑名单的位点来自于实验室内部，是高通量测序的假阳性变异位点。

实施例二

请参阅图3，本实施例提供一种基于临床特征和序列变异的单基因病名称推荐系统，包括：

与现有技术相比，本实施例提供的基于临床特征和序列变异的单基因病名称推荐系统的有益效果与上述实施例一提供的基于临床特征和序列变异的单基因病名称推荐方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于临床特征和序列变异的单基因病名称推荐方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于临床特征和序列变异的单基因病名称推荐方法的有益效果相同，在此不做赘述。

实施例四

基于上述实施例，请参阅图4所示，提供一种应用场景的环境架构示意图。

可以开发一个应用软件，用于实现上述实施例中的基于临床特征和序列变异的单基因病名称推荐方法，并且，该应用软件可以安装在用户终端，用户终端与服务器连接，实现通信。

其中，用户终端可以为计算机、平板电脑等任何智能设备，本实施例仅以电脑为例进行说明。

例如，打开智能设备相关的应用程序，用户使用输入单元如键盘、鼠标等输入获取患者的病例信息，所述病例信息包括基因序列、特征集合I和单基因病名称，实现在应用程序中病例信息的输入，电脑中的应用程序将基因序列发送至序列比对单元，将特征集合I发送至特征集合I，将单基因病名称发送至遗传辅诊单元，其中，序列比对单元、表型辅诊单元和遗传辅诊单元可通过服务器实现，表型辅诊单元采用多层级结构相似度算法遍历计算特征关系数据库中各单标准基因病名称对应的特征集合A与特征集合I集合的相似度值，构建标准单基因病名称集合P，遗传辅诊单元从预设的基因列表文件中获取与单基因病名称对应的多个基因，采用致病性评分算法分别计算每个基因的致病性评分，构建标准单基因病名称集合G，最终由推荐输出单元，如显示器，基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果，以及标准单基因病名称的候选输出顺序，输出标准单基因病名称的推荐结果。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于临床特征和序列变异的单基因病名称推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在步骤遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出之前还包括：

3.根据权利要求2所述的方法，其特征在于，遍历特征关系数据库中各标准单基因病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出的方法包括：

4.根据权利要求3所述的方法，其特征在于，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

5.根据权利要求4所述的方法，其特征在于，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

6.根据权利要求1所述的方法，其特征在于，将所述基因序列与人类参考基因组进行比对得到比对数据，并根据比对数据得到每个遗传变异的影响性评分的方法包括：

7.根据权利要求6所述的方法，其特征在于，从预设的基因列表文件中获取与所述单基因病名称对应的多个基因，基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分的方法包括：

获取基因中的遗传变异，匹配出各遗传变异的影响性评分；

8.根据权利要求1所述的方法，其特征在于，按照致病性评分值大小将对应的标准单基因病名称降序候选输出之前还包括：

9.一种基于临床特征和序列变异的单基因病名称推荐系统，包括：

10.一种计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至8任一项所述方法的步骤。