CN111883223A - 患者样本数据中结构变异的报告解读方法及系统 - Google Patents

患者样本数据中结构变异的报告解读方法及系统 Download PDF

Info

Publication number
CN111883223A
CN111883223A CN202010529411.5A CN202010529411A CN111883223A CN 111883223 A CN111883223 A CN 111883223A CN 202010529411 A CN202010529411 A CN 202010529411A CN 111883223 A CN111883223 A CN 111883223A
Authority
CN
China
Prior art keywords
clinical
feature
standard
characteristic
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010529411.5A
Other languages
English (en)
Other versions
CN111883223B (zh
Inventor
马旭
蔡瑞琨
曹宗富
喻浴飞
陈翠霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Science And Technology National Health Commission
Original Assignee
Institute Of Science And Technology National Health Commission
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Science And Technology National Health Commission filed Critical Institute Of Science And Technology National Health Commission
Priority to CN202010529411.5A priority Critical patent/CN111883223B/zh
Priority to PCT/CN2020/111132 priority patent/WO2021248694A1/zh
Publication of CN111883223A publication Critical patent/CN111883223A/zh
Application granted granted Critical
Publication of CN111883223B publication Critical patent/CN111883223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明公开一种患者样本数据中结构变异的报告解读方法及系统,能够对患者的样本数据准确解读,在降低报告解读门槛的同时提升了解读效率。该方法包括:获取患者的待测样本数据;将基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,根据注释结果得到每个结构变异的致病性分级;根据疾病名称和/或特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告。

Description

患者样本数据中结构变异的报告解读方法及系统
技术领域
本发明涉及医学信息技术领域,尤其涉及一种患者样本数据中结构变异的报告解读方法及系统。
背景技术
新一代测序技术在疾病的致病突变研究和医疗实践中的应用越来越广泛。近年来,大量的研究证实,全基因组测序和全外显子测序是开展疾病基因组学相关研究,对患者进行致病突变鉴定和分子诊断的理想方法之一。
然而,在精准医学应用层面,基于新一代测序技术在数据分析和临床解读方面还存在着很多问题,不利于精准医学的发展,阻碍着基于新一代测序技术中结构变异相关疾病的病因学探究。这些问题包括:一是结构变异的识别,其分析流程过于复杂,难以为医疗机构人员和其他广大非生物信息学人员所掌握使用;二是致病突变的鉴定,需利用大量的人工对筛选的结构变异进行逐个检查确认,效率非常低。
发明内容
本发明的目的在于提供一种患者样本数据中结构变异的报告解读方法及系统,能够对患者的样本数据准确解读,在降低报告解读门槛的同时提升了解读效率。
为了实现上述目的,本发明的一方面提供一种患者样本数据中结构变异的报告解读方法,包括:
获取患者的待测样本数据,所述待检测样本数据包括基因序列、疾病名称和特征集合I;
将所述基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,同时根据注释结果对每个结构变异进行致病性分级;
根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;
遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;
基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告,所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。
优选地,参考基线的构建方法包括:
获取与待测样本数据同批次的多个表型正常的人群基因序列;
若人群基因序列属于全基因组测序数据,则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线;
若人群基因序列属于全外显子测序数据,则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。
较佳地,对结构变异进行注释,同时根据注释结果得到结构变异致病性分级的方法包括:
采用AnnotSV软件分别对每个结构变异进行注释,注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或多种;
根据所述注释结果对结构变异进行致病性分级,所述致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。
优选地,根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括:
根据所述疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因;
根据所述特征集合I中的临床特征,遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合;
采用临床特征富集度分析算法计算所述特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值;
匹配输出与多个显著性值对应的第二疾病基因;
汇总第一疾病基因和第二疾病基因,构建基因推荐列表。
优选地,在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值之前还包括:
从疾病的公共数据库和文献数据库,获得已知的标准疾病名称及其对应的标准临床特征;
基于已知的标准疾病及其对应的标准临床特征,建立标准疾病名称与标准临床特征的特征关系数据库;
分别计算每种疾病对应的各标准临床特征对该疾病的贡献度ci
从特征关系数据库中获取数据,基于HPO构建疾病的标准化临床特征表型树;
所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
较佳地,遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称的方法包括:
将特征集合I中的临床特征在标准化临床特征表型树上的节点标记;
遍历特征关系数据库中的第n个标准疾病名称,将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;
根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;
令n=n+1重新遍历特征关系数据库中的第n个标准疾病名称,直至特征关系数据库中的标准疾病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总,并按照相似度值大小降序推荐多个标准疾病名称。
进一步地,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:
所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;
遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;
令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。
进一步地,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:
遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;
若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;
若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;
令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特征遍历完毕,对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值;
从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
优选地,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括:
采用公式
Figure BDA0002534686390000051
分别计算每个结构变异的重要性程度评分,其中,f为影响要素的数量,wi为第i各影响要素的权重,si为第i各影响要素的赋值;
统计各结构变异的重要性程度评分,并按照分值大小降序输出对应的结构变异。
与现有技术相比,本发明提供的患者样本数据中结构变异的报告解读方法具有以下有益效果:
本发明提供的患者样本数据中结构变异的报告解读方法中,首先需要获取一份包括基因序列、疾病名称和特征集合I的待测样本数据,通过将基因序列与参考基线比对,检测出待测样本数据中的结构变异并进行注释,然后根据注释结果对每个结构变异进行致病性分级并评分,接着基于疾病名称和/或特征集合I从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表,另外,遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称,最终基于各结构变异对应的影响要素重要性程度将多个结构变异降序输出生成解读报告。
可见,由于影响要素包括了与结构变异对应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种,也即本发明从多个维度评价了结构变异的致病性,进而能够对患者的待测样本进行准确解读。而且本发明提供的患者样本数据中结构变异的报告解读方法能够实现从待测样本数据到致病结构变异推荐的全程自动化,极大降低了人工对结构变异数据的解读分析工作量,提高了结构变异的分析和临床解读的效率。
本发明的另一方面提供一种患者样本数据中结构变异的报告解读系统,包括:
输入单元,用于获取患者的待测样本数据,所述待检测样本数据包括基因序列、疾病名称和特征集合I;
注释单元,用于将所述基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,同时根据注释结果对每个结构变异进行致病性分级;
推荐列表生成单元,用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;
疾病名称推荐单元,用于遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;
报告输出单元,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告,所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。
与现有技术相比,本发明提供的患者样本数据中结构变异的报告解读系统的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述患者样本数据中结构变异的报告解读方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为实施例一中患者样本数据中结构变异的报告解读方法的流程示意图;
图2为实施例一中标准化临床特征表型树上的节点标记示例图;
图3为实施例二中患者样本数据中结构变异的报告解读系统的结构框图;
图4为实施例四中患者样本数据中结构变异的报告解读方法应用环境架构示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种患者样本数据中结构变异的报告解读方法,其特征在于,包括:
获取患者的待测样本数据,待检测样本数据包括基因序列、疾病名称和特征集合I;将基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,同时根据注释结果对每个结构变异进行致病性分级;根据疾病名称和/或特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告,影响要素包括与结构变异对应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。
本实施例提供的患者样本数据中结构变异的报告解读方法中,首先需要获取一份包括基因序列、疾病名称和特征集合I的待测样本数据,通过将基因序列与参考基线比对,检测出待测样本数据中的结构变异并进行注释,然后根据注释结果对每个结构变异进行致病性分级并评分,接着基于疾病名称和/或特征集合I从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表,另外,遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称,最终基于各结构变异对应的影响要素重要性程度将多个结构变异降序输出生成解读报告。
可见,由于影响要素包括了与结构变异对应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种,也即本实施例从多个维度评价了结构变异的致病性,进而能够对患者的待测样本进行准确解读。而且本实施例提供的患者样本数据中结构变异的报告解读能够实现从待测样本数据到致病结构变异推荐的全程自动化,极大降低了人工对结构变异数据的解读分析工作量,提高了结构变异的分析和临床解读的效率。
在将基因序列与参考基线比对之前,还需对待测样本数据的基因序列和表型正常人群基因序列的质量进行检查,确保使用的基因序列的质量是合格的,能够用于下游分析和解读。质量检查的指标包括:总序列数、序列长度、碱基质量、序列质量、碱基含量、GC含量、碱基水平N含量、序列长度分布、重复序列、过渡表达序列、接头序列、K-mer含量等。
具体实施时,针对待测样本数据的基因序列和表型正常人群基因序列进行质量检测,对质量检测不合格的基因序列进行标记;将质量检测合格的待测样本数据的基因序列和表型正常人群基因序列输入BWA软件,使其与人类参考基因hg19或人类参考基因hg38进行序列比对;对比对结果进行预处理,如去重、indel区域校正、碱基质量校正等操作后得到比对数据;比对数据的内容包括序列在染色体上的比对位置、比对质量、配对序列在染色体上的比对位置、插入片段长度、序列的碱基组成或序列质量。
具体实施时,采用Picard MarkDuplicates软件对比对结果进行去重;对indel区域校正的方法为利用GATK RealignerTargetCreator软件产生indel列表,并追加千人基因组数据库中发现的已知indel位点,利用GATK IndelRealigner对这些indel区域进行局部重新比对,以实现indel区域的校正;碱基质量校正的方法为使用GATK BaseRecalibrator软件结合已知位点信息对碱基的质量分数进行校正。
这些操作步骤完成后,可针对比对数据进行汇总性分析,汇总性分析的内容包括比对数据的质量,以及双端测序的原始读序数目、比对到人类参考基因组上的读序数目、平均读序长度、indel的比例、正负链是否平衡等信息。另外,此阶段还可对靶向区域的序列覆盖情况进行观察,以获取基因组长度、靶向区域的长度、总读序数目、靶向区域的读序数目、非靶向区域的读序数目、靶向区域读序所占的比例、靶向区域的平均测序深度等信息。
最终将待测样本数据的基因序列和每个表型正常人群基因序列的质量检查结果分别以bam格式的数据输出,用于后续分析使用。
上述实施例中,参考基线的构建方法包括:获取与待测样本数据同批次的多个表型正常的人群基因序列;若人群基因序列属于全基因组测序数据,则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线;若人群基因序列属于全外显子测序数据,则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。
待测样本数据中的结构变异识别过程如下,分别计算待测样本的目的区域内和目的区域外的测序深度,然后计算它们相对于参考基线的相对比值,接着将相对比值转换成绝对拷贝数,对于绝对拷贝数不是2的识别为结构变异。同理,若待测样本数据为全基因组测序数据可通过CNVKit软件识别出结构变异,对于待测样本数据为全外显子测序数据可通过ExomeDepth软件识别出结构变异。
具体实施时,将输入的基因序列与待检测样本同批次的多个表型正常的人群基因序列对照,建立一个参考基线。具体地,分别计算每个表型正常人群基因序列的目的区域内和目的区域外的测序深度,合并所有对照样本,矫正GC含量等系统误差,构建表型正常人群基因序列的基参考基线,对于全基因组测序数据采用CNVKit软件实现,对于全外显子测序数据采用ExomeDepth软件实现。采用同批次的多个表型正常人群基因序列建立参考基线能够减小因系统误差造成的比对结果偏差。
上述实施例中,对结构变异进行注释,同时根据注释结果得到结构变异致病性分级的方法包括:
采用AnnotSV软件分别对每个结构变异进行注释,注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或多种;根据注释结果对结构变异进行致病性分级,致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。
上述实施例中对于识别的结构变异,可根据公共数据库对变异起始/终止位置、所覆盖的基因、变异类型、在世界范围内的人群发生频率、以及DGV数据库、千人数据库、dbVar数据库和OMIM数据库中已知变异的致病情况等采用AnnotSV软件进行注释,该软件使用了美国医学遗传学和基因组学学院(ACMG)定义的分类标准进行致病性分级,具体致病性分级的操作步骤为本领域技术人员所熟知的,本实施例对此不做赘述。
上述实施例中,根据疾病名称和/或特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括:
根据疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因;根据特征集合I中的临床特征,遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合;采用临床特征富集度分析算法计算特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值;匹配输出与多个显著性值对应的第二疾病基因;汇总第一疾病基因和第二疾病基因,构建基因推荐列表。
具体实施时,基因推荐列表中的基因数据来源有两种,一种为根据公共数据库和文献数据库中的疾病-基因关联数据库,抓取与待测样本数据中疾病名称相关的第一疾病基因;另一种为根据特征集合I中的临床特征,遍历公共数据库和文献数据库中的疾病-基因关联数据库,获取全部的疾病名称,每种疾病对应的临床特征组成一个标准集合;统计标准集合的数量X,并顺序对各标准集合标记。然后采用临床特征富集度分析算法计算特征集合I分别与各标准集合的显著性值;具体算法如下:
步骤S1,从X个标准集合中选择第Y个标准集合作为待处理集合B,设置Y的初始值为1;
步骤S2,采用Jaccard相似性算法计算待处理集合B与特征集合I的相似性系数;
步骤S3,基于所述相似性系数采用Jaccard距离算法计算特征集合I与待处理集合B的距离向量;
步骤S4,利用算法
Figure BDA0002534686390000111
计算特征集合I与集合B的临床特征富集因子系数f,其中,a表示特征集合I包含在集合B中的临床特征数目,b表示疾病-基因关联数据库中的临床特征包含在集合B中的临床特征数目,c表示特征集合I不包含在集合B中的临床特征数目,d表示疾病-基因关联数据库中的临床特征不包含在集合B中的临床特征数目;
步骤S5,基于所述距离向量的值和所述临床特征富集因子系数f,对待处理集合B做过滤处理,使得未被清除的待处理集合B执行步骤S6;
步骤S6,利用算法
Figure BDA0002534686390000121
计算特征集合I与集合B的显著性值,其中n=a+b+c+d;
步骤S67,当Y<X时,令Y=Y+1,并返回步骤S1,直至X个标准集合全部被选择处理为止;
具体实施时,为了简化运算可采用表格法来辅助显著性值的计算,其中,a表示特征集合I包含在集合B中的临床特征数目,b表示疾病-基因关联数据库中的临床特征包含在集合B中的临床特征数目,c表示特征集合I不包含在集合B中的临床特征数目,d表示疾病-基因关联数据库中的临床特征不包含在集合B中的临床特征数目;其中,Jaccard相似性系数是用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数,对应的计算公式为
Figure BDA0002534686390000122
Jaccard距离算法为
Figure BDA0002534686390000123
其中,|A|表示特征集合I中的临床特征数目,|B|表示集合B中的临床特征数目,|A∩B|表示特征集合I和集合B交集中的临床特征数目,|A∪B|表示特征集合I和集合B并集中的临床特征数目。J(A,B)取值范围为[0,1],距离向量的值越小,则表示两个集合越相似,若特征集合I和集合B的集合均为空,则J(A,B)=1。最终获取到特征集合I与各标准集合的显著性值P,而显著性值P越小则说明两个集合的相似性越大。
示例性地,步骤S5包括:当距离向量的值小于第一阈值,且临床特征富集因子系数f的值大于第二阈值时,将该集合B保留,否则将该待处理集合B剔除。其中,第一阈值和第二阈值可由用户自由设定,默认的第一阈值为1,第二阈值为0。
最后,将多个显著性值由低到高排序,并将匹配的第二疾病基因顺序输出,显著性值越小则说明对应的第二疾病基因越符合特征集合I中表现的临床特征。
示例性地,公共数据库为MedGen数据库,文献数据库为PubMed数据库上述实施例中,在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值之前还包括:
从疾病的公共数据库和文献数据库中,获得已知的标准疾病名称及其对应的标准临床特征;基于已知的标准疾病及其对应的标准临床特征,建立标准疾病名称与标准临床特征的特征关系数据库;分别计算每种疾病对应的各标准临床特征对该疾病的贡献度ci;从特征关系数据库中获取数据,基于HPO构建疾病的标准化临床特征表型树;标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
具体实施时,每种疾病名称对应的各标准临床特征对该疾病的贡献度ci的计算方法如下:
在特征关系数据库中,假设共有a种标准临床特征,a种标准临床特征在特征关系数据库中一共出现N次,假定每种标准临床特征出现的次数为ai,则每个标准临床特征在特征关系数据库中出现的频率为fi,fi的计算公式为:
fi=ai/N;
对于特征关系数据库中的某种标准疾病名称,假定对应有m个标准临床特征,每个标准临床特征在特征关系数据库中的分布频率依次为f1、f2、……、fm,则某个标准临床特征对该疾病的贡献度ci的计算公式为:
Figure BDA0002534686390000131
上述公式中,k为校正因子,且k>1,特征关系数据库作为参考数据库使用。
进一步地,遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称的方法包括:
将特征集合I中的临床特征在标准化临床特征表型树上的节点标记;遍历特征关系数据库中的第n个标准疾病名称,将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;令n=n+1重新遍历特征关系数据库中的第n个标准疾病名称,直至特征关系数据库中的标准疾病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总,并按照相似度值大小降序推荐多个标准疾病名称。
具体地,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:
特征集合I包括多个临床特征,特征集合A包括多个标准临床特征;遍历特征集合I中的第i个临床特征,从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征,作为与第i个临床特征对应的最佳标准临床特征,i的初始值为1;令i=i+1后重新遍历特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。
其中,从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征的方法包括:
遍历特征集合A中的第j个标准临床特征,基于已建立的索引判断第j个标准临床特征与第i个临床特征是否存在相同的干节点Bt,j的初始值为1;若判断结果为否,则认为第j个标准临床特征与第i个临床特征的相似度值为零;若判断结果为是,基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值;令j=j+1后重新遍历特征集合A中的第j个标准临床特征,并继续执行第j个标准临床特征与第i个临床特征的相似度计算,直至特征集合A中的标准临床特征遍历完毕,对应得到与特征集合A中标准临床特征一一对应的多个相似度值;从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
上述实施例中基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值的方法包括:
基于标准化临床特征表型树上的节点标记,获取第i个临床特征与相同干节点Bt连接通路中所有节点的有向集合IB,以及获取第j个标准临床特征相同干节点Bt连接通路中所有节点的有向集合AB,有向集合IB长度的值为通路中节点的个数LIB,有向集合AB长度的值为通路中节点的个数LAB;提取有向集合IB和有向集合AB中节点的交集IAB,交集IAB长度的值为通路中共有节点的个数LIAB;采用公式
Figure BDA0002534686390000151
计算第j个标准临床特征与第i个临床特征的相似度值;
其中,SM表示第j个标准临床特征与第i个临床特征在表型树多层次间的相似度值;SI表示第j个标准临床特征与第i个临床特征在表型树同层次间的相似度值,β为权重系数。
具体实施时,对于特征关系数据库中某一标疾病名称对应的特征集合A有n个元素Aj组成,分别为A1、A2、……、An,也即A=[A1,A2,...,Aj...,An],特征关系数据库中的每一个标准疾病名称均对应一个集合A。假若某一疾病患者输入的标准化特征集合I,有m个临床特征Ii组成,对应的特征集合I=[I1、I2、……、Im]。如果Ii与Aj的干节点不相同,则认为Ii与Aj的相似度为0,如果Ii与Aj的干节点相同,如图2所示,相同的干节点为Bt,则计算Ii与Aj的相似度,计算方法为:Ii到Bt之间连接通路中的所有节点组成有向集合IB,有向集合IB的元素个数记为NIB,有向集合IB的长度定义为该通路上节点的个数,记为LIB,且LIB=NIB
Aj到Bt之间连接通路中的所有节点组成有向集合AB,有向集合AB的元素个数记为NAB,有向集合AB的长度定义为该通路上节点的个数,记为LAB,且LAB=NAB
有向集合IB和有向集合AB的交集集合记为IAB,交集集合IAB的元素个数记为NIAB,集合IAB的长度定义为共有路径上节点的个数,记为LIAB,则LIAB=NIAB,其中,SM=LIAB/max(LAB,LIB),SI=1/(LAB+LIB-2LIAB+1),β为权重系数,β∈(0,1);Ii与Aj之间的相似度的取值范围
Figure BDA0002534686390000163
进一步地,计算特征集合I与当前特征集合A的集合相似度值的方法包括:
利用第i个临床特征的贡献度ci,对特征集合A中与之对应最佳标准临床特征的最大相似度值进行加权处理;令i=i+1,重新对特征集合A中与第i个临床特征对应的最佳标准临床特征的最大相似度值进行加权处理,直至将特征集合A中筛选出的全部最佳标准临床特征加权处理完毕,累加特征集合A中全部最佳标准临床特征对应的加权最大相似度值,得到特征集合I与当前特征集合A的集合相似度值。
具体实施时,对于每个输入的临床特征Ii,都可以在特征集合A中找到一个与之对应相似度最大的标准临床特征Aj,也就是说每个临床特征Ii都会得到一个与特征集合A的相似度值,特征集合I和特征集合A的相似度,定义为特征集合I中的每个临床特征Ii与特征集合A的相似度之和。
考虑到每个临床特征对疾病的贡献程度不一,需对相应的最大相似度值进行加权处理,其计算公式为
Figure BDA0002534686390000161
其中
Figure BDA0002534686390000164
表示临床特征Ii与特征集合A的相似度值。特征集合I和特征集合A的相似度值,定义为特征集合I中每个临床特征Ii与特征集合A的相似度之和,其计算公式为
Figure BDA0002534686390000162
SIA表示特征集合I与特征集合A的相似度值。
可见,上述实施例采用多层级结构相似度算法具有标准疾病名称推荐准确度高的特点。
上述实施例中,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括:
采用公式
Figure BDA0002534686390000171
分别计算每个结构变异的重要性程度评分,其中,f为影响要素的数量,wi为第i各影响要素的权重,si为第i各影响要素的赋值;统计各结构变异的重要性程度评分,并按照分值大小降序输出对应的结构变异。
致病性分级sc的评分项设置如下:对于致病或可能致病的等级赋值5分,对于致病或可能致病但注释结果也包含良性注释的等级赋值3分,对于除上述两种情况之外的其他情况赋值0分,wc默认值为1,可根据实际情况进行调整。
疾病名称与注释结果中疾病名称一致性情况sd的评分项设置如下:疾病名称与注释结果中的疾病名称一致赋值5分,疾病名称与注释结果中的疾病名称不一致赋值0分,wd默认值为1,可根据实际情况进行调整。
注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因se的评分项设置如下:注释结果中结构变异包含的基因属于基因推荐列表中存在的已知致病基因赋值10分,注释结果中结构变异包含的基因不属于基因推荐列表中存在的已知致病基因赋值0分,we默认值为1,可根据实际情况进行调整。
特征集合I与特征集合A的最大相似度值为sh,wh默认值为5,可根据实际情况进行调整。
人群发生频率sp的评分项设置如下:当人群中的最大频率MAX_AF小于或等于10-3或者无消息时赋值2分,当人群中的最大频率处于0.05至10-3时赋值0分,当人群发生频率大于0.05时赋值-5分,wp默认值为1,可根据实际情况进行调整。
变异发生位置sq的评分项设置如下:如果结构变异区域包含蛋白质编码区域或其他重要功能原件(如剪切位点调控区)赋值0分,否则赋值-2分,wq默认值为1,可根据实际情况进行调整。
评分结果的值越大则说明重要性程度越高,最后根据评分结果的大小将多个结构变异及其对应的基因名称在解读报告中降序输出,实现致病变异的推荐,推荐的信息还包括了结构变异的位置、覆盖的基因名称、外显子、评分结果、染色体水平上突变的位置图,以及相关的表型信息和变异频率信息等。
实施例二
请参阅图3,本实施例提供一种患者样本数据中结构变异的报告解读系统,包括:
输入单元,用于获取患者的待测样本数据,所述待检测样本数据包括基因序列、疾病名称和特征集合I;
注释单元,用于将所述基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,同时根据注释结果对每个结构变异进行致病性分级;
推荐列表生成单元,用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;
疾病名称推荐单元,用于遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;
报告输出单元,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告,所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。
与现有技术相比,本实施例提供的患者样本数据中结构变异的报告解读系统的有益效果与上述实施例一提供的患者样本数据中结构变异的报告解读方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述患者样本数据中结构变异的报告解读方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法的有益效果相同,在此不做赘述。
实施例四
基于上述实施例,请参阅图4所示,提供一种应用场景的环境架构示意图。
可以开发一个应用软件,用于实现上述实施例中的患者样本数据中结构变异的报告解读方法,并且,该应用软件可以安装在用户终端,用户终端与服务器连接,实现通信。
其中,用户终端可以为计算机、平板电脑等任何智能设备,本实施例仅以电脑为例进行说明。
例如,打开智能设备相关的应用程序,用户使用输入单元如键盘、鼠标等输入获取患者的待测样本数据,其中,待测样本数据包括基因序列、疾病名称和特征集合I,实现在应用程序中待测样本数据的输入,用户终端中的应用程序将基因序列发送至注释单元,将疾病名称和特征集合I发送至推荐列表生成单元,将特征集合I发送至疾病名称推荐单元,其中,注释单元、推荐列表生成单元和疾病名称推荐单元均可通过服务器实现,最后由报告输出单元如显示器,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种患者样本数据中结构变异的报告解读方法,其特征在于,包括:
获取患者的待测样本数据,所述待检测样本数据包括基因序列、疾病名称和特征集合I;
将所述基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,同时根据注释结果对每个结构变异进行致病性分级;
根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;
遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;
基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告,所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。
2.根据权利要求1所述的方法,其特征在于,参考基线的构建方法包括:
获取与待测样本数据同批次的多个表型正常的人群基因序列;
若人群基因序列属于全基因组测序数据,则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线;
若人群基因序列属于全外显子测序数据,则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。
3.根据权利要求1或2所述的方法,其特征在于,对结构变异进行注释,同时根据注释结果得到结构变异致病性分级的方法包括:
采用AnnotSV软件分别对每个结构变异进行注释,注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或多种;
根据所述注释结果对结构变异进行致病性分级,所述致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。
4.根据权利要求1所述的方法,其特征在于,根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括:
根据所述疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因;
根据所述特征集合I中的临床特征,遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合;
采用临床特征富集度分析算法计算所述特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值;
匹配输出与多个显著性值对应的第二疾病基因;
汇总第一疾病基因和第二疾病基因,构建基因推荐列表。
5.根据权利要求1所述的方法,其特征在于,在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值之前还包括:
从疾病的公共数据库和文献数据库,获得已知的标准疾病名称及其对应的标准临床特征;
基于已知的标准疾病及其对应的标准临床特征,建立标准疾病名称与标准临床特征的特征关系数据库;
分别计算每种疾病对应的各标准临床特征对该疾病的贡献度ci
从特征关系数据库中获取数据,基于HPO构建疾病的标准化临床特征表型树;
所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
6.根据权利要求5所述的方法,其特征在于,遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称的方法包括:
将特征集合I中的临床特征在标准化临床特征表型树上的节点标记;
遍历特征关系数据库中的第n个标准疾病名称,将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;
根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;
令n=n+1重新遍历特征关系数据库中的第n个标准疾病名称,直至特征关系数据库中的标准疾病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总,并按照相似度值大小降序推荐多个标准疾病名称。
7.根据权利要求6所述的方法,其特征在于,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:
所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;
遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;
令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。
8.根据权利要求7所述的方法,其特征在于,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:
遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;
若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;
若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;
令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特征遍历完毕,对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值;
从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
9.根据权利要求1所述的方法,其特征在于,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括:
采用公式
Figure FDA0002534686380000041
分别计算每个结构变异的重要性程度评分,其中,f为影响要素的数量,wi为第i各影响要素的权重,si为第i各影响要素的赋值;
统计各结构变异的重要性程度评分,并按照分值大小降序输出对应的结构变异。
10.一种患者样本数据中结构变异的报告解读系统,包括:
输入单元,用于获取患者的待测样本数据,所述待检测样本数据包括基因序列、疾病名称和特征集合I;
注释单元,用于将所述基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,同时根据注释结果对每个结构变异进行致病性分级;
推荐列表生成单元,用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;
疾病名称推荐单元,用于遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;
报告输出单元,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告,所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。
CN202010529411.5A 2020-06-11 2020-06-11 患者样本数据中结构变异的报告解读方法及系统 Active CN111883223B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010529411.5A CN111883223B (zh) 2020-06-11 2020-06-11 患者样本数据中结构变异的报告解读方法及系统
PCT/CN2020/111132 WO2021248694A1 (zh) 2020-06-11 2020-08-25 患者样本数据中结构变异的报告解读方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010529411.5A CN111883223B (zh) 2020-06-11 2020-06-11 患者样本数据中结构变异的报告解读方法及系统

Publications (2)

Publication Number Publication Date
CN111883223A true CN111883223A (zh) 2020-11-03
CN111883223B CN111883223B (zh) 2021-05-25

Family

ID=73157983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010529411.5A Active CN111883223B (zh) 2020-06-11 2020-06-11 患者样本数据中结构变异的报告解读方法及系统

Country Status (2)

Country Link
CN (1) CN111883223B (zh)
WO (1) WO2021248694A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113671164A (zh) * 2021-09-26 2021-11-19 吾征智能技术(北京)有限公司 一种基于大便颜色及气味判断疾病的系统、设备及介质
CN113793638A (zh) * 2021-11-15 2021-12-14 北京橡鑫生物科技有限公司 一种同源重组修复基因变异的解读方法
CN114300044A (zh) * 2021-12-31 2022-04-08 深圳华大医学检验实验室 基因评估方法、装置、存储介质及计算机设备
WO2023070422A1 (zh) * 2021-10-28 2023-05-04 京东方科技集团股份有限公司 疾病预测方法及装置、电子设备、计算机可读存储介质
CN117373696A (zh) * 2023-12-08 2024-01-09 神州医疗科技股份有限公司 一种基于文献证据库的遗传病自动解读系统及方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453591A (zh) * 2023-05-08 2023-07-18 上海信诺佰世医学检验有限公司 基于RNA-seq数据分析、变异评级和报告生成系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120033863A1 (en) * 2010-08-06 2012-02-09 Maciej Wojton Assessing features for classification
CN109086571A (zh) * 2018-08-03 2018-12-25 国家卫生计生委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109119132A (zh) * 2018-08-03 2019-01-01 国家卫生计生委科学技术研究所 基于病历特征匹配单基因病名称的方法及系统
CN110544537A (zh) * 2019-07-29 2019-12-06 北京荣之联科技股份有限公司 单基因遗传病基因分析报告的生成方法及其电子设备
CN111026841A (zh) * 2019-11-27 2020-04-17 云知声智能科技股份有限公司 一种基于检索和深度学习的自动编码方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6909971B2 (en) * 2001-06-08 2005-06-21 Licentia Oy Method for gene mapping from chromosome and phenotype data
CN111341458B (zh) * 2020-02-27 2020-11-03 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120033863A1 (en) * 2010-08-06 2012-02-09 Maciej Wojton Assessing features for classification
CN109086571A (zh) * 2018-08-03 2018-12-25 国家卫生计生委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109119132A (zh) * 2018-08-03 2019-01-01 国家卫生计生委科学技术研究所 基于病历特征匹配单基因病名称的方法及系统
CN110544537A (zh) * 2019-07-29 2019-12-06 北京荣之联科技股份有限公司 单基因遗传病基因分析报告的生成方法及其电子设备
CN111026841A (zh) * 2019-11-27 2020-04-17 云知声智能科技股份有限公司 一种基于检索和深度学习的自动编码方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李建华等: "在线孟德尔人类遗传数据库数据挖掘的研究进展", 《生物医学工程学杂志》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113671164A (zh) * 2021-09-26 2021-11-19 吾征智能技术(北京)有限公司 一种基于大便颜色及气味判断疾病的系统、设备及介质
WO2023070422A1 (zh) * 2021-10-28 2023-05-04 京东方科技集团股份有限公司 疾病预测方法及装置、电子设备、计算机可读存储介质
CN113793638A (zh) * 2021-11-15 2021-12-14 北京橡鑫生物科技有限公司 一种同源重组修复基因变异的解读方法
CN113793638B (zh) * 2021-11-15 2022-03-25 北京橡鑫生物科技有限公司 一种同源重组修复基因变异的解读方法
CN114300044A (zh) * 2021-12-31 2022-04-08 深圳华大医学检验实验室 基因评估方法、装置、存储介质及计算机设备
CN117373696A (zh) * 2023-12-08 2024-01-09 神州医疗科技股份有限公司 一种基于文献证据库的遗传病自动解读系统及方法
CN117373696B (zh) * 2023-12-08 2024-03-01 神州医疗科技股份有限公司 一种基于文献证据库的遗传病自动解读系统及方法

Also Published As

Publication number Publication date
CN111883223B (zh) 2021-05-25
WO2021248694A1 (zh) 2021-12-16

Similar Documents

Publication Publication Date Title
CN111883223B (zh) 患者样本数据中结构变异的报告解读方法及系统
Baek et al. LncRNAnet: long non-coding RNA identification using deep learning
Ronen et al. netSmooth: Network-smoothing based imputation for single cell RNA-seq
US20220198726A1 (en) Methods and systems for determining and displaying pedigrees
Phillips et al. Genome-scale phylogeny and the detection of systematic biases
CN110021364B (zh) 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统
de Oliveira et al. Comparing co-evolution methods and their application to template-free protein structure prediction
CN107491992B (zh) 一种基于云计算的智能服务推荐方法
CN111695593A (zh) 基于XGBoost的数据分类方法、装置、计算机设备及存储介质
WO2021248695A1 (zh) 基于临床特征和序列变异的单基因病名称推荐方法及系统
CN111341458B (zh) 基于多层级结构相似度的单基因病名称推荐方法和系统
CN110268072A (zh) 确定旁系同源基因的方法和系统
CN113555062A (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
CN113095365A (zh) 医疗保险违规数据识别方法及装置
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
Rabier et al. On the inference of complex phylogenetic networks by Markov Chain Monte-Carlo
CN115168669A (zh) 传染病筛查方法、装置、终端设备及介质
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法
Wang et al. Intelligent weight generation algorithm based on binary isolation tree
Zhang et al. Inferring historical introgression with deep learning
JP5852902B2 (ja) 遺伝子間相互作用解析システム、その方法及びプログラム
Anggraeny et al. Relief feature selection and Bayesian network model for hepatitis diagnosis
KR20210111620A (ko) 전문가 평가를 활용한 생물학적 시스템 정보 저장 및 정확성 보정 장치 및 방법
Nimmy et al. Investigation of DNA discontinuity for detecting tuberculosis
CN111145883A (zh) 一种基于逻辑回归的医疗保障归类评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant