CN111883210A - 基于临床特征和序列变异的单基因病名称推荐方法及系统 - Google Patents

基于临床特征和序列变异的单基因病名称推荐方法及系统 Download PDF

Info

Publication number
CN111883210A
CN111883210A CN202010511089.3A CN202010511089A CN111883210A CN 111883210 A CN111883210 A CN 111883210A CN 202010511089 A CN202010511089 A CN 202010511089A CN 111883210 A CN111883210 A CN 111883210A
Authority
CN
China
Prior art keywords
standard
gene
clinical
feature
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010511089.3A
Other languages
English (en)
Other versions
CN111883210B (zh
Inventor
马旭
曹宗富
罗敏娜
陈翠霞
蔡瑞琨
喻浴飞
李乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Science And Technology National Health Commission
Original Assignee
Institute Of Science And Technology National Health Commission
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Science And Technology National Health Commission filed Critical Institute Of Science And Technology National Health Commission
Priority to CN202010511089.3A priority Critical patent/CN111883210B/zh
Priority to PCT/CN2020/111133 priority patent/WO2021248695A1/zh
Publication of CN111883210A publication Critical patent/CN111883210A/zh
Application granted granted Critical
Publication of CN111883210B publication Critical patent/CN111883210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Ecology (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于临床特征和序列变异的单基因病名称推荐方法及系统,能够精准地推荐出与患者情况匹配的单基因病名称。该方法包括:获取患者的病例信息;将基因序列与人类参考基因组进行比对得到每个遗传变异的影响性评分;遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算与每个特征集合A的集合相似度值,将相似的标准单基因病名称及对应的基因降序候选输出,构建标准单基因病名称集合P;从预设的基因列表文件中获取与单基因病名称对应的多个基因,分别计算每个基因的致病性评分,将对应的标准单基因病名称降序候选输出,构建标准单基因病名称集合G;基于集合G和集合P的交集结果输出标准单基因病名称的推荐结果。

Description

基于临床特征和序列变异的单基因病名称推荐方法及系统
技术领域
本发明涉及医学信息技术领域,尤其涉及一种基于临床特征和序列变异的单基因病名称推荐方法及系统。
背景技术
单基因病是一种常见疾病,它是由一对等位基因突变导致的疾病,又称孟德尔式遗传病,其特点如下:
1、单基因病种类繁多,目前已发现的单基因病有8000种以上;
2、单基因病表型复杂,同一种单基因病表型异质性强,存在不同单基因病之间临床特征相互重叠的现象;
3、单基因病遗传模式多样化,即使同一种单基因病,也可能表现为不同的遗传模式,不同的单基因病也可表现为相同的遗传模式。
4、大部分单基因病发病率很低,较为罕见。
这些复杂因素使得临床医生很难对所有的单基因病表型都了解,给单基因病临床诊疗带来了极大的困难。
发明内容
本发明的目的在于提供一种基于临床特征和序列变异的单基因病名称推荐方法及系统,能够精准地推荐出与患者情况匹配的单基因病名称。
为了实现上述目的,本发明的一方面提供一种基于临床特征和序列变异的单基因病名称推荐方法,包括:
获取患者的病例信息,所述病例信息包括基因序列、特征集合I和单基因病名称;
将所述基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分;
遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P;
从预设的基因列表文件中获取与所述单基因病名称对应的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分,并按照致病性评分值大小将对应的标准单基因病名称降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G;
基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果,以及标准单基因病名称的候选输出顺序,输出标准单基因病名称的推荐结果。
优选地,在步骤遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出之前还包括:
从单基因病的公共数据库和文献数据库,获得已知的标准单基因病名称及其对应的标准临床特征;
基于已知的标准单基因病名称及其对应的标准临床特征,建立标准单基因病名称与标准临床特征的特征关系数据库;
分别计算每种标准单基因病名称对应的各标准临床特征对该单基因病的贡献度ci
从特征关系数据库中获取数据,基于HPO构建单基因病的标准化临床特征表型树;
所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
较佳地,遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出的方法包括:
将特征集合I中的临床特征在标准化临床特征表型树上的节点标记;
遍历特征关系数据库中的第n个标准单基因病名称,将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;
根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;
令n=n+1重新遍历特征关系数据库中的第n个标准单基因病名称,直至特征关系数据库中的标准单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序候选输出。
进一步地,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:
所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;
遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;
令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个标准单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。
进一步地,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:
遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;
若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;
若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;
令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特征遍历完毕,对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值;
从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
优选地,将所述基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分的方法包括:
对基因序列进行属性标记,其中,基因检测模式为单样本检测模式时,基因序列为1组待测人员的基因序列,基因检测模式为家系检测模式时,基因序列为1组待测人员和至少1组待测人员直系亲属的基因序列;
分别将每组基因序列与人类参考基因组进行序列比对,得到对应数量的比对数据;
从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于所述遗传变异的长度信息识别其变异类型,以及基于所述遗传变异的位置信息和碱基改变信息预测其变异功能,所述变异类型包括SNP变异和Indel变异,所述变异功能的类型包括变异有害、变异低害或基本无害;
针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式;
基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能和家系遗传模式对遗传变异进行临床显著性分级,所述临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种级别;
根据各遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种,计算基因中各遗传变异的影响性评分。
较佳地,从预设的基因列表文件中获取与所述单基因病名称对应的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分的方法包括:
获取基因中的遗传变异,匹配出各遗传变异的影响性评分;
采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt+wMLSSMLS分别计算每个基因的致病性评分,其中,max(Scorev)为所述基因中的遗传变异影响性评分最大值,Se为所述基因对已知疾病的关联性赋值,St为遗传变异的遗传模式赋值,SMLS为与所述基因对应的相似度值,we为Se的赋值权重,wt为st的赋值权重,wMLS为SMLS的赋值权重。
优选地,按照致病性评分值大小将对应的标准单基因病名称降序候选输出之前还包括:
对于候选输出的标准单基因病名称,采用黑名单方式过滤掉假阳性变异位点对应的标准单基因病名称。
与现有技术相比,本发明提供的基于临床特征和序列变异的单基因病名称推荐方法具有以下有益效果:
本发明提供的基于临床特征和序列变异的单基因病名称推荐方法中,首先需要获取一份包括基因序列、特征集合I和单基因病名称的患者病例信息,然后基于特征集合I做表型辅诊的单基因病名称推荐,以及基于基因序列和单基因病名称做遗传辅诊的单基因病名称推荐,并根据表型辅诊和遗传辅诊推荐结果的交集,向患者输出最终的标准单基因病名称推荐结果。
可见,本发明提供的方案综合了患者的临床特征和遗传变异进行临床辅助诊断,能够帮助临床医生对复杂单基因病进行精准诊断。
本发明的另一方面提供一种基于临床特征和序列变异的单基因病名称推荐系统,包括:
输入单元,用于获取患者的病例信息,所述病例信息包括基因序列、特征集合I和单基因病名称;
序列比对单元,用于将所述基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分;
表型辅诊单元,用于遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P;
遗传辅诊单元,用于从预设的基因列表文件中获取与所述单基因病名称对应的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分,并按照致病性评分值大小将对应的标准单基因病名称降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G;
推荐输出单元,基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果,以及标准单基因病名称的候选输出顺序,输出标准单基因病名称的推荐结果。
与现有技术相比,本发明提供的基于临床特征和序列变异的单基因病名称推荐系统的有益效果与上述技术方案提供的基于临床特征和序列变异的单基因病名称推荐方法有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于临床特征和序列变异的单基因病名称推荐方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于临床特征和序列变异的单基因病名称推荐方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为实施例一中基于临床特征和序列变异的单基因病名称推荐方法的流程示意图;
图2为实施例一中标准化临床特征表型树上的节点标记示例图;
图3为实施例二中基于临床特征和序列变异的单基因病名称推荐系统的结构框图;
图4为实施例四中基于临床特征和序列变异的单基因病名称推荐方法应用的环境架构的一种示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种基于临床特征和序列变异的单基因病名称推荐方法,包括:
获取患者的病例信息,病例信息包括基因序列、特征集合I和单基因病名称;将基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分;遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P;从预设的基因列表文件中获取与单基因病名称对应的多个基因,基于基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和基因对应的相似度值分别计算每个基因的致病性评分,并按照致病性评分值大小将对应的标准单基因病名称降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G;基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果,以及标准单基因病名称的候选输出顺序,输出标准单基因病名称的推荐结果。
本发明提供的基于临床特征和序列变异的单基因病名称推荐方法中,首先需要获取一份包括基因序列、特征集合I和单基因病名称的患者病例信息,然后基于特征集合I做表型辅诊的单基因病名称推荐,以及基于基因序列和单基因病名称做遗传辅诊的单基因病名称推荐,并根据表型辅诊和遗传辅诊推荐结果的交集,向患者输出最终的标准单基因病名称推荐结果。
上述实施例中,在步骤遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出之前还包括:
从单基因病的公共数据库和文献数据库,获得已知的标准单基因病名称及其对应的标准临床特征;基于已知的标准单基因病名称及其对应的标准临床特征,建立标准单基因病名称与标准临床特征的特征关系数据库;分别计算每种标准单基因病名称对应的各标准临床特征对该单基因病的贡献度ci;从特征关系数据库中获取数据,基于HPO构建单基因病的标准化临床特征表型树;标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
优选地,还需参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息,以实现对中文版病历资料的识别匹配。
具体实施时,公共数据库为MedGen数据库,文献数据库为PubMed数据库,特征关系数据库中包括互相匹配的标准单基因病名称、外文临床特征、临床特征在人类表型标准用语数据库中的编号(HPOIDs)以及中文临床特征。本实施例可以为单基因病的临床诊断和鉴别提供线索和理论支持,也为进一步缩小基因检测的范围提供了数据支持。同时,本实施例建立的临床特征关系数据库覆盖的单基因病种类达8600种以上,单基因病表型临床特征超过11000个,表型与临床特征关系数据达9万种以上,囊括了单基因病研究方向最新的数据库版本和文献报道。
具体地,每种标准单基因病名称对应的各标准临床特征对该单基因病的贡献度ci的计算方法如下:
在特征关系数据库中,假设共有a种标准临床特征,a种标准临床特征在特征关系数据库中一共出现N次,假定每种标准临床特征出现的次数为ai,则每个标准临床特征在特征关系数据库中出现的频率为fi,fi的计算公式为:
fi=ai/N;
对于特征关系数据库中的某种标准单基因病名称,假定对应有m个标准临床特征,每个标准临床特征在特征关系数据库中的分布频率依次为f1、f2、……、fm,则某个标准临床特征对该单基因病的贡献度ci的计算公式为:
Figure BDA0002528302780000091
上述公式中,k为校正因子,且k>1,特征关系数据库作为参考数据库使用。
特征集合I,也即临床特征信息集合可通过可视化工具实现两种方式的标准化输入:第一种方式是输入关键词,每一个关键词相当于一个临床特征,通过即时搜索提供相关标准化表型信息的下拉菜单方便用户选择,实现标准化临床特诊信息的输入;第二种方式是直接在表型树上,通过鼠标点击相关的标准化临床特征信息进行输入。
上述实施例中构建单基因病的标准化临床特征表型树的方法包括:
从特征关系数据库中获取数据,基于HPO构建单基因病的标准化临床特征表型树;其中,标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。HPO是指hp.obo文件。
上述实施例中,遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出的方法包括:
将特征集合I中的临床特征在标准化临床特征表型树上的节点标记;遍历特征关系数据库中的第n个标准单基因病名称,将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;令n=n+1重新遍历特征关系数据库中的第n个标准单基因病名称,直至特征关系数据库中的标准单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序候选输出。
具体地,从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征的方法包括:
遍历特征集合A中的第j个标准临床特征,基于已建立的索引判断第j个标准临床特征与第i个临床特征是否存在相同的干节点Bt,j的初始值为1;若判断结果为否,则认为第j个标准临床特征与第i个临床特征的相似度值为零;若判断结果为是,基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值;令j=j+1后重新遍历特征集合A中的第j个标准临床特征,并继续执行第j个标准临床特征与第i个临床特征的相似度计算,直至特征集合A中的标准临床特征遍历完毕,对应得到与特征集合A中标准临床特征一一对应的多个相似度值;从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
上述实施例中基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值的方法包括:
基于标准化临床特征表型树上的节点标记,获取第i个临床特征与相同干节点Bt连接通路中所有节点的有向集合IB,以及获取第j个标准临床特征相同干节点Bt连接通路中所有节点的有向集合AB,有向集合IB长度的值为通路中节点的个数LIB,有向集合AB长度的值为通路中节点的个数LAB;提取有向集合IB和有向集合AB中节点的交集IAB,交集IAB长度的值为通路中共有节点的个数LIAB;采用公式
Figure BDA0002528302780000111
计算第j个标准临床特征与第i个临床特征的相似度值;
其中,SM表示第j个标准临床特征与第i个临床特征在表型树多层次间的相似度值;SI表示第j个标准临床特征与第i个临床特征在表型树同层次间的相似度值,β为权重系数。
具体实施时,对于特征关系数据库中某一标准单基因病名称对应的特征集合A有n个元素Aj组成,分别为A1、A2、……、An,也即A=[A1,A2,...,Aj...,An],特征关系数据库中的每一个标准基因病名称均对应一个集合A。假若某一单基因病患者输入的标准化特征集合I,有m个临床特征Ii组成,对应的特征集合I=[I1、I2、……、Im]。如果Ii与Aj的干节点不相同,则认为Ii与Aj的相似度为0,如果Ii与Aj的干节点相同,如图2所示,相同的干节点为Bt,则计算Ii与Aj的相似度,计算方法为:Ii到Bt之间连接通路中的所有节点组成有向集合IB,有向集合IB的元素个数记为NIB,有向集合IB的长度定义为该通路上节点的个数,记为LIB,且LIB=NIB
Aj到Bt之间连接通路中的所有节点组成有向集合AB,有向集合AB的元素个数记为NAB,有向集合AB的长度定义为该通路上节点的个数,记为LAB,且LAB=NAB
有向集合IB和有向集合AB的交集集合记为IAB,交集集合IAB的元素个数记为NIAB,集合IAB的长度定义为共有路径上节点的个数,记为LIAB,则LIAB=NIAB,其中,SM=LIAB/max(LAB,LIB),SI=1/(LAB+LIB-2LIAB+1),β为权重系数,β∈(0,1);Ii与Aj之间的相似度的取值范围
Figure BDA0002528302780000123
进一步地,上述实施例中根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值的方法包括:
利用第i个临床特征的贡献度ci,对特征集合A中与之对应最佳标准临床特征的最大相似度值进行加权处理;令i=i+1,重新对特征集合A中与第i个临床特征对应的最佳标准临床特征的最大相似度值进行加权处理,直至将特征集合A中筛选出的全部最佳标准临床特征加权处理完毕,累加特征集合A中全部最佳标准临床特征对应的加权最大相似度值,得到特征集合I与当前特征集合A的集合相似度值。
具体实施时,对于每个输入的临床特征Ii,都可以在特征集合A中找到一个与之对应相似度最大的标准临床特征Aj,也就是说每个临床特征Ii都会得到一个与特征集合A的相似度值,特征集合I和特征集合A的相似度,定义为特征集合I中的每个临床特征Ii与特征集合A的相似度之和。
考虑到每个临床特征对单基因病的贡献程度不一,需对相应的最大相似度值进行加权处理,其计算公式为
Figure BDA0002528302780000121
其中
Figure BDA0002528302780000124
表示临床特征Ii与特征集合A的相似度值。特征集合I和特征集合A的相似度值,定义为特征集合I中每个临床特征Ii与特征集合A的相似度之和,其计算公式为
Figure BDA0002528302780000122
SIA表示特征集合I与特征集合A的相似度值。
可见,上述实施例采用多层级结构相似度算法具有标准单基因病名称推荐准确度高的特点。
上述实施例中,将基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分的方法包括:
对基因序列进行属性标记,其中,基因检测模式为单样本检测模式时,基因序列为1组待测人员的基因序列,基因检测模式为家系检测模式时,基因序列为1组待测人员和至少1组待测人员直系亲属的基因序列;分别将每组基因序列与人类参考基因组进行序列比对,得到对应数量的比对数据;从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于遗传变异的长度信息识别其变异类型,以及基于遗传变异的位置信息和碱基改变信息预测其变异功能,变异类型包括SNP变异和inDel变异,变异功能的类型包括变异有害、变异低害或基本无害;针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式;基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能和家系遗传模式对遗传变异进行临床显著性分级,临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种级别;根据各遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种,计算基因中各遗传变异的影响性评分。
具体实施时,上述实施例具有两种基因检测模式,当基因检测模式为单样本检测模式时,需获取1组待测人员的基因序列,而当基因检测模式为家系检测模式时,需要获取1组待测人员和至少1组待测人员直系亲属的基因序列。将任一检测模式中的各组基因序列分别与人类参考基因组进行序列比对,得到对应的比对数据;并从比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,然后基于遗传变异的长度信息识别其变异类型,以及遗传变异的位置信息和碱基改变信息预测其变异功能,并对遗传变异所在的基因和人群发生频率进行注释,当在家系检测模式时还需判断其是否为家系内共分离遗传,接着,根据上述得到的遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能、甚至还包括家系遗传模式对各遗传变异进行临床显著性分级,当每个遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种,以及是否被数据库收录这些核心信息采集完毕后,分别对基因中的全部遗传变异进行影响性评分;之后通过患者所患的单基因病名称获取相关的基因,然后将基因中的遗传变异与上述计算过影响性评分的遗传变异匹配,计算相关基因中遗传变异的影响性评分。
可以理解的是,获取基因序列的方法多种多样,例如,可以由用户基于web界面导入高通量测序的基因序列,基因序列的数据格式为fastq的gz压缩格式,常用的导入方法从本地计算机导入和通过ftp客户端导入,数据导入过程中会对基因序列进行完整性检查,对不完整的基因序列数据给予相应的提醒。其中,属性标记的信息包括文件名、样本编号、平台、家系编号、个体编号、父亲编号、母亲编号、性别、表型、年龄、种族、居住地、籍贯、疾病名称、临床特征、病历资料、遗传模式等。
当属性标记的步骤完成后,还需对基因序列的质量进行检查,确保基因序列的质量是合格的,能够用于下游分析和解读。质量检查的指标包括:总序列数、序列长度、碱基质量、序列质量、碱基含量、GC含量、碱基水平N含量、序列长度分布、重复序列、过渡表达序列、接头序列、K-mer含量等。该步骤中基因序列的检查方法为本领域技术人员常用的技术手段,在此不做赘述。
上述实施例中,分别将每组基因序列数据与人类参考基因组进行序列比对,得到对应数量的比对数据的方法包括:
针对获取的基因序列数据进行质量检测,对质量检测不合格的基因序列数据进行标记;将质量检测合格的基因序列数据输入BWA软件,使其与人类参考基因hg19或人类参考基因hg38进行序列比对;依次对各组比对结果进行去重、indel区域校正、碱基质量校正操作后得到多组比对数据;比对数据的内容包括序列在染色体上的比对位置、比对质量、配对序列在染色体上的比对位置、插入片段长度、序列的碱基组成或序列质量。
具体实施时,依次对各组比对结果进行去重、indel区域校正、碱基质量校正操作后得到多组比对数据的方法包括:
采用Picard MarkDuplicates软件对比对结果进行去重;对indel区域校正的方法为利用GATK RealignerTargetCreator软件产生indel列表,并追加1000基因组数据库中发现的已知indel位点,利用GATK IndelRealigner对这些indel区域进行局部重新比对,以实现indel区域的校正;碱基质量校正的方法为使用GATK BaseRecalibrator软件结合已知位点信息对碱基的质量分数进行校正。
这些操作步骤完成后,可针对比对数据进行汇总性分析,汇总性分析的内容包括比对数据的质量,以及双端测序的原始读序数目、比对到人类参考基因组上的读序数目、平均读序长度、indel的比例、正负链是否平衡等信息。另外,此阶段还可对靶向区域的序列覆盖情况进行观察,以获取基因组长度、靶向区域的长度、总读序数目、靶向区域的读序数目、非靶向区域的读序数目、靶向区域读序所占的比例、靶向区域的平均测序深度等信息。
进一步地,上述实施例中从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于遗传变异的长度信息识别其变异类型,以及基于遗传变异的位置信息和碱基改变信息预测其变异功能的方法包括:
利用Haplotyper Caller算法基于每组比对数据中遗传变异的长度信息,识别出遗传变异为SNP变异或者inDel变异;当遗传变异为错义突变时,采用SIFT软件或者Polyphen2软件对遗传变异的变异功能进行预测;当遗传变异为剪接位点变异时,采用HSF软件对遗传变异的变异功能进行预测。
具体实施时,错义突变为单核苷酸突变的一种形式,是指编码氨基酸的密码子经过碱基替换后变成编码另一种氨基酸的密码子,从而使多肽链的氨基酸种类和序列发生改变,在对其功能预测的过程中,可采用SIFT软件预测氨基酸替换是否影响蛋白质功能,对由氨基酸突变引起的氨基酸改变的预测结果进行归一化评分,评分范围为[0,1],得分越低则表明危害性就越大,通常,分数<0.05代表变异有害(Deleterious),分数≥0.05代表变异低害(tolerate);也可采用Polyphen2软件通过整合蛋白质序列和蛋白质三维结构特征,来预测人类蛋白质的氨基酸替换对结构和功能的影响,Polyphen2的归一化评分范围为[0,1],分数越高,意味着有越大的破坏蛋白功能的可能性,通常分数在0.957~1之间,其相应的预测结果为变异有害(probably damage),在0.453~0.956之间,其相应的预测结果为变异低害(possible dmage),在0~0.452之间其相应的预测结果为基本无害(benign),另外,剪接位点变异是指发生在基因剪接位点区域的变异,可能影响mRNA的剪接,通过HSF软件预测该变异是否导致剪切的改变,当能够导致剪切的改变时代表变异有害(Deleterious),否则代表变异低害(tolerate)。需要说明的是,上述评分及功能预测的方法为本领域现有的方法,本实施例对此不做赘述。
进一步地,上述实施例中针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式的方法包括:
基于每个遗传变异的变异类型识别结果,通过公共数据库对遗传变异所在的基因和人群发生频率进行注释;在基因检测模式为家系检测模式时,通过分析各组比对数据中遗传变异的位置信息判断其家系遗传模式,当各组比对数据中遗传变异的位置信息相关联时判断为家系遗传,否则判断为非家系遗传。
具体实施时,根据公共数据库对遗传变异所在的基因、转录本、外显子位置、氨基酸改变、变异类型、以及在世界不同人群发生频率等进行注释。转录本参考NCBI RefSeq转录本数据库,对于有多个不同转录剪切的基因,采用包含最多外显子的转录本进行注释。人群频率信息来自于千人基因组(1000genomes)、ESP和gnomAD数据库。若基因检测模式为家系检测模式时,还需通过分析各组比对数据中遗传变异的位置信息判断其家系遗传模式,当各组比对数据中遗传变异的点位关联时判断为家系遗传,否则判断为非家系遗传,若基因检测模式为单样本检测模式时,则无需此步判断。需要说明的是,家系遗传的判断可通过现有仪器分析多组基因序列数据自动识别,本实施例对此不做赘述。
需要说明的是,上述实施例中基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对遗传变异进行临床显著性分级的方法包括:
参考美国医学遗传学和基因组学会(The American College of MedicalGenetics and Genomics,ACMG)与美国分子病理协会(Association for MolecularPathology,AMP)提出的变异临床显著性的分级标准和指南,对遗传变异进行临床显著性分级。示例性地如下:
参与ACMG致病性分级的证据包括:
PVS1:当一个疾病的致病机制为功能丧失(LOF)时,无功能变异。
PS1:与先前已确定为致病性的变异有相同的氨基酸改变。
PS2:患者的新发变异,且无家族史。
PS3:体内、体外功能实验已明确会导致基因功能受损的变异。
PS4:变异出现在患病群体中的频率显著高于对照群体。
PM1:位于热点突变区域,和/或位于已知无良性变异的关键功能域。
PM2:ESP数据库、千人数据库、EXAC数据库中正常对照人群中未发现的变异。
PM3:在隐性遗传病中,在反式位置上检测到致病变异。
PM4:非重复区框内插入/缺失或终止密码子丧失导致的蛋白质长度变化。
PM5:新的错义突变导致氨基酸变化,此变异之前未曾报道,但是在同一位点,导致另外一种氨基酸的变异已经确认是致病性的。
PM6:未经父母样本验证的新发变异。
PP1:突变与疾病在家系中共分离(在家系多个患者中检测到此变异)
PP2:对某个基因来说,如果这个基因的错义变异是造成某种疾病的原因,并且这个基因中良性变异所占的比例很小,在这样的基因中所发现的新的错义变异。
PP3:多种统计方法预测出该变异会对基因或基因产物造成有害的影响,包括保守性预测、进化预测、剪接位点影响等。
PP4:变异携带者的表型或家族史高度符合某种单基因遗传疾病。
PP5:有可靠信誉来源的报告认为该变异为致病的,但证据尚不足以支持进行实验室独立评估。
BA1:ESP数据库、千人数据库、ExAC数据库中等位基因频率>5%的变异。
BS1:等位基因频率大于疾病发病率。
BS2:对于早期完全外显的疾病,在健康成年人中发现该变异(隐性遗传病发现纯合、显性遗传病发现杂合,或者X连锁半合子)。
BS3:在体内外实验中确认对蛋白质功能和剪接没有影响的变异。
BS4:在一个家系成员中缺乏共分离。
BP1:已知一个疾病的致病原因是由于某基因的截短变异,在此基因中所发现的错义变异。
BP2:在显性遗传病中又发现了另一条染色体上同一基因的一个已知致病变异,或者是任意遗传模式遗传病中又发现了同一条染色体上同一基因的一个已知致病变异。
BP3:功能未知重复区域内的缺失/插入,同时没有导致基因编码框改变。
BP4:多种统计方法预测出该变异会对基因或基因产物无影响,包括保守性预测、进化预测、剪接位点影响等。
BP5:在已经有另一分子致病原因的病例中发现的变异。
BP6:有可靠信誉来源的报告认为该变异为良性的,但证据尚不足以支持。
BP7:同义变异且预测不影响剪接。
遗传变异分级的联合规则包括:
致病(pathogenic),包括i、ii、iii中任一种情况:
i、包括1个非常强证据PVS1和a-d中任一种证据;
a、一个以上强证据(PS1-PS4)
b、2个以上中等证据(PM1-PM6)
c、1个中等证据(PM1-PM6)和1个支持证据(PP1-PP5)
d、≥2个支持证据(PP1-PP5);
ii、≥2个强证据(PS1-PS4);
iii、1个强证据(PS1)和a、b、c中任一种情况:
a、≥3个中等证据(PM1-PM6)
b、2个中等证据(PM1-PM6)和≥2个支持证据(PP1-PP5)
c、1个中等证据(PM1-PM6)和≥4个支持证据(PP1-PP5)。
可能致病(likely pathogenic),包括i-vi中任一种情况:
i、1个非常强证据(PVS1)和1个中等证据(PM1-PM6);
ii、1个强证据(PS1-PS4)和1-2个中等证据(PM1-PM6);
iii、1个强证据(PS1-PS4)和≥2个支持证据(PP1-PP5);
iv、≥3个中等证据(PM1-PM6);
v、2个中等证据(PM1-PM6)和≥2个支持证据(PP1-PP5);
vi、1个中等证据(PM1-PM6)和≥4个支持证据(PP1-PP5)。
良性(benign),包括i或ii中任一种情况:
i、1个独立证据(BA1);
ii、≥2个强证据(BS1-BS4)。
可能良性(likely benign),包括i或ii中任一种情况:
i、1个强证据(BS1-BS4)和1个支持证据(BP1-BP7);
ii、≥2个支持证据(BP1-BP7)。
致病性不明(uncertain significance),包括i或ii中任一种情况:
i、不满足上述标准或
ii、良性和致病标准相互矛盾。
可选地,为了保证遗传变异的数据有效性,可对部分遗传变异进行过滤,过滤的条件如下:第一种为过滤掉内含子上变异(intron_variant)、基因间的变异(intergenic_variant)、基因上游的变异(upstream_gene_variant)和基因下游的变异(downstream_gene_variant);第二种为过滤掉人群发生频率大于0.1的变异位点;第三种为过滤掉质量评估不合格的遗传变异。
上述实施例中根据各遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种,计算基因中各遗传变异的影响性评分的方法包括:
通过对每个遗传变异的证据的进行赋值,所述证据包括临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能、是否被数据库收录等;
采用基因中遗传变异的影响性评分公式
Figure BDA0002528302780000201
分别计算每个遗传变异的影响性评分,其中,f为证据的数量,wi为第i各证据的权重,si为第i各证据的赋值。
具体实施时,当变异类型为错义突变和剪接位点变异时赋值4分;当人群发生频率小于或等于10-4或者无消息时赋值1分,当人群发生频率处于10-4至10-3时赋值0.5分,当人群发生频率大于0.05时赋值-1分;当HSF软件预测的变异功能影响剪切时,则赋值2分,使用SIFT软件预测的变异功能为变异有害(Deleterious)时赋值1分,当预测的变异功能为变异低害(tolerate)时赋值-1分,使用Polyphen2软件预测的变异功能为变异有害(probablydamage)时赋值1分,当预测的变异功能为变异低害(possible dmage)时赋值0.5分,当预测的变异功能为基本无害(benign)时赋值-1分;使用HSF软件预测的变异功能结果为影响剪切则累积2分,预测的变异功能结果为不影响剪切则累积0分;临床显著性分级为致病时赋值3分,可能致病时赋值2分,致病性不明时赋值1分,可能良性时赋值-2分,良性时赋值-3分;数据库包括ClinVar数据库、UniProt数据库或本地数据库,当遗传变异被上述任何一个数据库中收录时均可累积1分,当该遗传变异位点属于明确致病位点时赋值5分。
示例性地,Scorev=Sc+Sp+Svip+Ssift+Spph2+SHSF,其中,SC表示临床显著性分级对应的得分,Sp表示人群发生频率对应的得分,Svip表示致病位点明确性对应的得分,Spph2表示致病位点明确性对应的得分,使用Polyphen2软件预测的变异功能对应的得分,SHSF表示使用HSF软件预测的变异功能对应的得分。
上述实施例中从预设的基因列表文件中获取与所述单基因病名称对应的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分的方法包括:
获取基因中的遗传变异,匹配出各遗传变异的影响性评分;采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt+wMLSSMLS分别计算每个基因的致病性评分,其中,max(Scorev)为基因中的所以遗传变异影响性评分的最大值,Se为基因对已知疾病的关联性赋值,St为遗传变异的遗传模式赋值,SMLS为与基因对应的相似度值,we为Se的赋值权重,wt为st的赋值权重,wMLS为SMLS的赋值权重。
具体实施时,从预设的基因列表文件中获取与患者的单基因病名称对应的多个基因,分别提取各基因中的遗传变异,并与已计算出影响性评分的遗传变异匹配,得到上述相关基因中各遗传变异的影响性评分,然后采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt+wMLSSMLS,分别计算每个基因的致病性评分,其中,Se为基因对疾病的关联性赋值,当所述基因为疾病关联的已知基因时赋值10分,其基因他赋值0分;St为遗传变异的遗传模式赋值,当遗传模式为家系遗传时赋值5分,否则赋值0分;SMLS为该基因对应的单基因病名称与特征关系数据库中标准单基因病名称相似度值中最大的值,we和wt的默认值均为1,wMLS的默认值为2,取值范围1-5,we、wt和wMLS在实际操作中根据情况可调。
需要补充的是,使用本实施例提供的的方法,还能够获取显示基因序列在遗传变异所在基因和外显子位置、参考基因组序列、遗传变异两侧的覆盖度、遗传变异两侧的比对质量、两侧变异分布等。对单基因病可能致病的遗传变异进行人工检查后,自动生成遗传分析解读报告。遗传分析解读报告内容包括:基因序列数据的个体信息、遗传分析解读结果、相关单基因病的临床特征,个体信息包括:样本编号、姓名、性别、年龄、籍贯、居住地、疾病诊断、疾病描述等信息。遗传分析解读结果包括:致病突变的物理位置、基因名称、DNA改变、氨基酸改变、东亚人群频率、临床显著性分级、疾病及家系遗传模式。
上述实施例中,基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果,以及标准单基因病名称的候选输出顺序,输出标准单基因病名称的推荐结果。
具体实施时,当标准单基因病名称集合G和标准单基因病名称集合P的交集结果为空,说明通过遗传辅诊得到的标准单基因病名称推荐结果与表型遗传辅诊得到的标准单基因病名称推荐结果完全不一致,此时不输出标准单基因病名称的推荐结果;当标准单基因病名称集合G和标准单基因病名称集合P的交集结果为1个,说明通过遗传辅诊得到的标准单基因病名称推荐结果与表型遗传辅诊得到的标准单基因病名称推荐结果有一个相同,此时输出唯一的标准单基因病名称的推荐结果;当标准单基因病名称集合G和标准单基因病名称集合P的交集结果为多个,说明通过遗传辅诊得到的标准单基因病名称推荐结果与表型遗传辅诊得到的标准单基因病名称推荐结果存在部分相同,此时按照各标准单基因病名称的候选输出顺序,输出多个标准单基因病名称的推荐结果。
进一步地,上述实施例中按照致病性评分值大小将对应的标准单基因病名称降序候选输出之前还包括:
对于候选输出的标准单基因病名称,采用黑名单方式过滤掉假阳性变异位点对应的标准单基因病名称。黑名单的位点来自于实验室内部,是高通量测序的假阳性变异位点。
实施例二
请参阅图3,本实施例提供一种基于临床特征和序列变异的单基因病名称推荐系统,包括:
输入单元,用于获取患者的病例信息,所述病例信息包括基因序列、特征集合I和单基因病名称;
序列比对单元,用于将所述基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分;
表型辅诊单元,用于遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P;
遗传辅诊单元,用于从预设的基因列表文件中获取与所述单基因病名称对应的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分,并按照致病性评分值大小将对应的标准单基因病名称降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G;
推荐输出单元,基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果,以及标准单基因病名称的候选输出顺序,输出标准单基因病名称的推荐结果。
与现有技术相比,本实施例提供的基于临床特征和序列变异的单基因病名称推荐系统的有益效果与上述实施例一提供的基于临床特征和序列变异的单基因病名称推荐方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于临床特征和序列变异的单基因病名称推荐方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于临床特征和序列变异的单基因病名称推荐方法的有益效果相同,在此不做赘述。
实施例四
基于上述实施例,请参阅图4所示,提供一种应用场景的环境架构示意图。
可以开发一个应用软件,用于实现上述实施例中的基于临床特征和序列变异的单基因病名称推荐方法,并且,该应用软件可以安装在用户终端,用户终端与服务器连接,实现通信。
其中,用户终端可以为计算机、平板电脑等任何智能设备,本实施例仅以电脑为例进行说明。
例如,打开智能设备相关的应用程序,用户使用输入单元如键盘、鼠标等输入获取患者的病例信息,所述病例信息包括基因序列、特征集合I和单基因病名称,实现在应用程序中病例信息的输入,电脑中的应用程序将基因序列发送至序列比对单元,将特征集合I发送至特征集合I,将单基因病名称发送至遗传辅诊单元,其中,序列比对单元、表型辅诊单元和遗传辅诊单元可通过服务器实现,表型辅诊单元采用多层级结构相似度算法遍历计算特征关系数据库中各单标准基因病名称对应的特征集合A与特征集合I集合的相似度值,构建标准单基因病名称集合P,遗传辅诊单元从预设的基因列表文件中获取与单基因病名称对应的多个基因,采用致病性评分算法分别计算每个基因的致病性评分,构建标准单基因病名称集合G,最终由推荐输出单元,如显示器,基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果,以及标准单基因病名称的候选输出顺序,输出标准单基因病名称的推荐结果。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于临床特征和序列变异的单基因病名称推荐方法,其特征在于,包括:
获取患者的病例信息,所述病例信息包括基因序列、特征集合I和单基因病名称;
将所述基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分;
遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P;
从预设的基因列表文件中获取与所述单基因病名称对应的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分,并按照致病性评分值大小将对应的标准单基因病名称降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G;
基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果,以及标准单基因病名称的候选输出顺序,输出标准单基因病名称的推荐结果。
2.根据权利要求1所述的方法,其特征在于,在步骤遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出之前还包括:
从单基因病的公共数据库和文献数据库,获得已知的标准单基因病名称及其对应的标准临床特征;
基于已知的标准单基因病名称及其对应的标准临床特征,建立标准单基因病名称与标准临床特征的特征关系数据库;
分别计算每种标准单基因病名称对应的各标准临床特征对该单基因病的贡献度ci
从特征关系数据库中获取数据,基于HPO构建单基因病的标准化临床特征表型树;
所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
3.根据权利要求2所述的方法,其特征在于,遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出的方法包括:
将特征集合I中的临床特征在标准化临床特征表型树上的节点标记;
遍历特征关系数据库中的第n个标准单基因病名称,将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;
根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;
令n=n+1重新遍历特征关系数据库中的第n个标准单基因病名称,直至特征关系数据库中的标准单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序候选输出。
4.根据权利要求3所述的方法,其特征在于,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:
所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;
遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;
令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个标准单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。
5.根据权利要求4所述的方法,其特征在于,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:
遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;
若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;
若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;
令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特征遍历完毕,对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值;
从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
6.根据权利要求1所述的方法,其特征在于,将所述基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分的方法包括:
对基因序列进行属性标记,其中,基因检测模式为单样本检测模式时,基因序列为1组待测人员的基因序列,基因检测模式为家系检测模式时,基因序列为1组待测人员和至少1组待测人员直系亲属的基因序列;
分别将每组基因序列与人类参考基因组进行序列比对,得到对应数量的比对数据;
从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于所述遗传变异的长度信息识别其变异类型,以及基于所述遗传变异的位置信息和碱基改变信息预测其变异功能,所述变异类型包括SNP变异和Indel变异,所述变异功能的类型包括变异有害、变异低害或基本无害;
针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式;
基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能和家系遗传模式对遗传变异进行临床显著性分级,所述临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种级别;
根据各遗传变异的临床显著性分级、人群发生频率、致病位点明确性、预测的变异功能中的一种或多种,计算基因中各遗传变异的影响性评分。
7.根据权利要求6所述的方法,其特征在于,从预设的基因列表文件中获取与所述单基因病名称对应的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分的方法包括:
获取基因中的遗传变异,匹配出各遗传变异的影响性评分;
采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt+wMLSSMLS分别计算每个基因的致病性评分,其中,max(Scorev)为所述基因中的遗传变异影响性评分最大值,Se为所述基因对已知疾病的关联性赋值,St为遗传变异的遗传模式赋值,SMLS为与所述基因对应的相似度值,we为Se的赋值权重,wt为st的赋值权重,wMLS为SMLS的赋值权重。
8.根据权利要求1所述的方法,其特征在于,按照致病性评分值大小将对应的标准单基因病名称降序候选输出之前还包括:
对于候选输出的标准单基因病名称,采用黑名单方式过滤掉假阳性变异位点对应的标准单基因病名称。
9.一种基于临床特征和序列变异的单基因病名称推荐系统,包括:
输入单元,用于获取患者的病例信息,所述病例信息包括基因序列、特征集合I和单基因病名称;
序列比对单元,用于将所述基因序列与人类参考基因组进行比对得到比对数据,并根据比对数据得到每个遗传变异的影响性评分;
表型辅诊单元,用于遍历特征关系数据库中各标准单基因病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,并按相似度值大小将相似的标准单基因病名称及对应的基因降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合P;
遗传辅诊单元,用于从预设的基因列表文件中获取与所述单基因病名称对应的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式、已知疾病的关联性和所述基因对应的相似度值分别计算每个所述基因的致病性评分,并按照致病性评分值大小将对应的标准单基因病名称降序候选输出,同时汇总候选输出的标准单基因病名称构建标准单基因病名称集合G;
推荐输出单元,基于标准单基因病名称集合G和标准单基因病名称集合P的交集结果,以及标准单基因病名称的候选输出顺序,输出标准单基因病名称的推荐结果。
10.一种计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求1至8任一项所述方法的步骤。
CN202010511089.3A 2020-06-08 2020-06-08 基于临床特征和序列变异的单基因病名称推荐方法及系统 Active CN111883210B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010511089.3A CN111883210B (zh) 2020-06-08 2020-06-08 基于临床特征和序列变异的单基因病名称推荐方法及系统
PCT/CN2020/111133 WO2021248695A1 (zh) 2020-06-08 2020-08-25 基于临床特征和序列变异的单基因病名称推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010511089.3A CN111883210B (zh) 2020-06-08 2020-06-08 基于临床特征和序列变异的单基因病名称推荐方法及系统

Publications (2)

Publication Number Publication Date
CN111883210A true CN111883210A (zh) 2020-11-03
CN111883210B CN111883210B (zh) 2021-05-25

Family

ID=73154061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010511089.3A Active CN111883210B (zh) 2020-06-08 2020-06-08 基于临床特征和序列变异的单基因病名称推荐方法及系统

Country Status (2)

Country Link
CN (1) CN111883210B (zh)
WO (1) WO2021248695A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611361A (zh) * 2021-08-10 2021-11-05 飞科易特(广州)基因科技有限公司 一种用于婚恋匹配的单基因常染色体隐性遗传病的匹配方法
CN113689914A (zh) * 2020-12-17 2021-11-23 武汉良培医学检验实验室有限公司 一种单基因遗传病扩展性携带者筛查方法及芯片

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114927191A (zh) * 2022-04-13 2022-08-19 北京高灵智腾信息科技有限公司 血液系统疾病ngs报告解读方法
CN116386726A (zh) * 2023-03-22 2023-07-04 深圳市天大生物医疗器械有限公司 融合pcr熔解曲线的基因分型在线检测系统及其应用方法
CN117877578A (zh) * 2024-01-16 2024-04-12 广东劢智医疗科技有限公司 一种用于遗传变异分析的基因变异打分排序方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971071A (zh) * 2017-03-27 2017-07-21 为朔医学数据科技(北京)有限公司 一种临床决策支持系统及方法
CN108629148A (zh) * 2017-03-15 2018-10-09 深圳市乐土精准医疗科技有限公司 基于表型分析的眼部生理信息的基因组分析方法和装置
CN109086571A (zh) * 2018-08-03 2018-12-25 国家卫生计生委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109119132A (zh) * 2018-08-03 2019-01-01 国家卫生计生委科学技术研究所 基于病历特征匹配单基因病名称的方法及系统
CN110021364A (zh) * 2017-11-24 2019-07-16 上海暖闻信息科技有限公司 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统
CN110046236A (zh) * 2019-03-20 2019-07-23 腾讯科技(深圳)有限公司 一种非结构化数据的检索方法及装置
WO2020077352A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001288501A1 (en) * 2000-09-01 2002-03-22 Large Scale Proteomics Corporation Reference database

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629148A (zh) * 2017-03-15 2018-10-09 深圳市乐土精准医疗科技有限公司 基于表型分析的眼部生理信息的基因组分析方法和装置
CN106971071A (zh) * 2017-03-27 2017-07-21 为朔医学数据科技(北京)有限公司 一种临床决策支持系统及方法
CN110021364A (zh) * 2017-11-24 2019-07-16 上海暖闻信息科技有限公司 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统
CN109086571A (zh) * 2018-08-03 2018-12-25 国家卫生计生委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109119132A (zh) * 2018-08-03 2019-01-01 国家卫生计生委科学技术研究所 基于病历特征匹配单基因病名称的方法及系统
WO2020077352A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
CN110046236A (zh) * 2019-03-20 2019-07-23 腾讯科技(深圳)有限公司 一种非结构化数据的检索方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHUHUI SU等: "《An Effective Method to Measure Disease Similarity Using Gene and Phenotype Associations》", 《TECHNOLOGY REPORT ARTICLE》 *
安仲新: "《基于表型的罕见疾病辅助诊断系统》", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
曹宗富 等: "《单基因病遗传变异自动化分析和解读研究》", 《生殖医学杂志》 *
李建华 等: "《在线孟德尔人类遗传数据库数据挖掘的研究进展》", 《生物医学工程学杂志》 *
蔡宏果: "《基于基因表达式编程的Web个性化推荐技术研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689914A (zh) * 2020-12-17 2021-11-23 武汉良培医学检验实验室有限公司 一种单基因遗传病扩展性携带者筛查方法及芯片
CN113689914B (zh) * 2020-12-17 2024-02-20 武汉良培医学检验实验室有限公司 一种单基因遗传病扩展性携带者筛查方法及芯片
CN113611361A (zh) * 2021-08-10 2021-11-05 飞科易特(广州)基因科技有限公司 一种用于婚恋匹配的单基因常染色体隐性遗传病的匹配方法
CN113611361B (zh) * 2021-08-10 2023-08-08 飞科易特(广州)基因科技有限公司 一种用于婚恋匹配的单基因常染色体隐性遗传病的匹配方法

Also Published As

Publication number Publication date
WO2021248695A1 (zh) 2021-12-16
CN111883210B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN111883210B (zh) 基于临床特征和序列变异的单基因病名称推荐方法及系统
CN109086571B (zh) 一种单基因病遗传变异智能解读及报告的方法和系统
KR102648634B1 (ko) 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법
JP4437050B2 (ja) 診断支援システム、診断支援方法および診断支援サービスの提供方法
CN111883223B (zh) 患者样本数据中结构变异的报告解读方法及系统
CN110957006B (zh) 一种brca1/2基因变异的解读方法
Lee et al. PedHunter 2.0 and its usage to characterize the founder structure of the Old Order Amish of Lancaster County
WO2021232388A1 (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN107122624A (zh) 人类基因突变的hgvs名称生成及分析系统的实现方法
CN109994154A (zh) 一种单基因隐性遗传疾病候选致病基因的筛选装置
CN109310332A (zh) 用于分析数字数据的方法
CN107292129A (zh) 易感基因型检测方法
US20170316149A1 (en) Classification of genetic variants
CN114429785B (zh) 一种基因变异的自动分类方法、装置和电子设备
CN116287204A (zh) 检测特征基因的突变情况在制备静脉血栓栓塞症风险检测产品中的应用
Jin et al. Application of genome analysis strategies in the clinical testing for pediatric diseases
CN113823354A (zh) 一种brca1/2基因变异的分类评价方法
CN106906220A (zh) 一种突变的col4a5基因及其应用
KR20180069651A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
CN111863132A (zh) 一种筛选致病性变异的方法和系统
CN111128308B (zh) 一种神经精神疾病新发突变信息知识平台
CN116564406A (zh) 一种遗传变异自动化解读方法及设备
KR20190000341A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
AU2021474767A1 (en) Sequence variation analysis method and system, and storage medium
CN116209777A (zh) 基于无创产前基因检测数据的亲缘关系判定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant