CN116453591A - 基于RNA-seq数据分析、变异评级和报告生成系统及方法 - Google Patents

基于RNA-seq数据分析、变异评级和报告生成系统及方法 Download PDF

Info

Publication number
CN116453591A
CN116453591A CN202310512804.9A CN202310512804A CN116453591A CN 116453591 A CN116453591 A CN 116453591A CN 202310512804 A CN202310512804 A CN 202310512804A CN 116453591 A CN116453591 A CN 116453591A
Authority
CN
China
Prior art keywords
snv
variation
report
indel
rating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310512804.9A
Other languages
English (en)
Inventor
罗玉洁
许云
李营
柳佳琦
徐杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinnuo Baishi Medical Laboratory Co ltd
Original Assignee
Shanghai Xinnuo Baishi Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinnuo Baishi Medical Laboratory Co ltd filed Critical Shanghai Xinnuo Baishi Medical Laboratory Co ltd
Priority to CN202310512804.9A priority Critical patent/CN116453591A/zh
Publication of CN116453591A publication Critical patent/CN116453591A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及二代测序生信解读技术领域,尤其涉及基于RNA‑seq数据分析、变异评级和报告生成系统及方法,包括自动获取数据和质控管理;自动分析生成Snv/Indel变异、融合基因、基因表达结果数据;生成Snv/Indel变异,融合基因的变异注释与过滤;对Snv/Indel变异位点、融合基因评级管理,加快了判级的效率;临床意义调用模块化匹配以及在线编辑,提高报告临床意义解读的准确性和数据库的利用率;最后,一键化生成报告,完成报告审核后自动释放。本发明实现半自动化基因变异评级管理、便捷的管理临床解读数据和快速生成标准化的报告,全面提升报告解读的效率和准确性。

Description

基于RNA-seq数据分析、变异评级和报告生成系统及方法
技术领域
本发明涉及二代测序生信解读技术领域,尤其涉及基于RNA-seq数据分析、变异评级和报告生成系统及方法。
背景技术
RNA-seq测序技术无需预先设计特异性探针,可直接测定每个转录本片段序列,可以检测单个碱基差异、基因家族中相似基因以及可变剪接造成的不同转录本的表达,能够检测到细胞中少至几个拷贝的稀有转录本和新的转录本。相对于全基因组和全外显子组,转录组中有丰富的基因表达和序列信息,在肿瘤中分析基因融合、剪接变异和基因表达谱方面有独特的优势。
现有肿瘤RNA-seq报告流程分为四个层次:第一个层次分析—下机原始数据(fastq格式)自动分析生成结果数据(Excel格式);第二个层次分析—针对Excel结果数据进行自动化位点注释过滤等;第三个层次分析—结合患者临床信息对基因改变位点进行半自动化判级和临床意义解读。第四个层次分析—肿瘤RNA-seq检验报告在线审核与自动释放。其中,肿瘤RNA-seq报告解读需要查询大量的数据库和文献,面临海量数据、繁琐操作、复杂流程、撰写易出错等问题,一份肿瘤报告人工解读5小时左右。为此,我们提出一种基于RNA-seq数据分析、变异评级和报告生成系统及方法。
发明内容
基于背景技术存在的技术问题,本发明提出了基于RNA-seq数据分析、变异评级和报告生成系统及方法,实现半自动化基因变异评级管理、便捷的管理临床解读数据和快速生成标准化的报告,全面提升报告解读的效率和准确性,解决了报告流程复杂以及线下解读人员通过查找文献进行Snv/Indel、融合基因评级耗时,达到一致性难;手动撰写报告容易出错、报告时间长的问题。
本发明提供如下技术方案:基于RNA-seq数据分析、变异评级和报告生成系统,包括:
数据自动获取模块,用于获得输入的RNA-seq测序原始数据;
数据质控模块,用于对样本测序质量的评估,保证用于报告的数据质控合格;
数据自动分析过滤模块,用于对样本质控合格的样本进行Snv/Indel变异、融合基因、基因表达结果、融合基因图的数据自动化分析;对生成Snv/Indel变异,融合基因的变异注释并做过滤处理;
Snv/Indel变异,融合基因评级管理模块,用于对Snv/Indel变异,融合基因评级进行半自动化辅助判级;
调用数据库模块,用于存储模块化的,应用于临床的相关Snv/Indel变异,融合基因的解读;
报告生成模块,用于生成个性化定制的报告。
优选的,还包括报告审核与释放模块,用于在线审核报告和自动对报告查询系统或者小程序的多平台报告的释放。
优选的,所述数据质控模块对于质控合格的样本自动进行后续的模块进行分析;
对于质控不合格的样本进行风险评估,对于处理能够放行的样本进行人工放行,对于人工复核仍不合格的样本不进行后续的分析,进入退检。
优选的,所述数据质控模块对原始数据进行质控分析,包含下机数据的总数据量≥预期下机数据量的80%、基因组比对率>85%、rRNA比对率≤10%。
优选的,所述Snv/Indel变异,融合基因评级管理模块对Snv/Indel、融合基因进行数据库调用匹配;
如果变异已经在数据库存在评级和解读,则直接调用评级和解读;
如果变异不在数据库,则根据Snv/Indel变异、融合基因半自动化评级管理提供的评分和排序,人工在线进行评级证据的选择,做Snv/Indel变异、融合基因的评级;
对无解读内容模块进行人工在线编辑,填写完整的报告解读内容。
优选的,所述Snv/Indel变异,融合基因评级管理模块对于受检者携带的特异的Snv/Indel变异信息进行自动化打分,对于Snv/Indel变异信息文献报道功能研究进行人工查询复核,确定第二个得分,按照累加分值进行排序;
将变异分为4个等级,包括1级:明确临床意义变异;2级:潜在临床意义变异;3级:临床意义未明变异;4级:良性和可能良性变异。
优选的,所述调用数据库模块包括融合基因数据库和Snv/Indel数据库。
优选的,所述融合基因调用数据库包含融合基因简介、融合基因与疾病的相关性和融合基因相关的批准用药或临床试验和证据等级、临床意义、融合基因评级信息。
优选的,所述Snv/Indel调用数据库包括基因简介和涉及的信号通路、基因与疾病或肿瘤的相关性、Snv/Indel对应的批准用药或临床试验以及证据等级、Snv/Indel变异位点的变异信息描述、临床意义、变异评级、变异相关临床检出收录、变异功能研究报道;
Snv/Indel变异位点位于的功能结构域的名称和功能研究信息。
基于RNA-seq数据分析、变异评级和报告生成方法,包括如下步骤:
自动获取数据和质控管理;对于质控合格的样本自动进行后续的模块进行分析,对于质控不合格的样本进行风险评估,对于处理可以放行的样本进行人工放行,对于人工复核仍不合格的样本不进行后续的分析,进入退检;
自动分析生成Snv/Indel变异、融合基因、基因表达结果数据;生成Snv/Indel变异,融合基因的变异注释与过滤;
对Snv/Indel变异、融合基因变异位点评级管理;最后,一键化生成报告,完成报告审核后自动释放。
本发明提供了基于RNA-seq数据分析、变异评级和报告生成系统及方法,通过设置数据质控模块,减少了人工下载去分析排队的时间,质控管理能及时发现不合格样本并进行处置,减少后续不必要的运算和人力成本。通过对Snv/Indel变异、融合基因变异位点评级管理,加快了判级的效率;临床意义调用模块化匹配以及在线编辑,提高报告临床意义解读的准确性和数据库的利用率。实现半自动化基因变异评级管理、便捷的管理临床解读数据和快速生成标准化的报告,全面提升报告解读的效率和准确性。解决了报告流程复杂以及线下解读人员通过查找文献进行Snv/Indel、融合基因评级耗时,达到一致性难;手动撰写报告容易出错、报告时间长的问题。
附图说明
图1为本发明系统原理图;
图2为本发明融合基因、Snv/Indel异评解读数据结构图;
图3为本发明融合基因、Snv/Indel异评报告解读调用步骤图;
图4为本发明Snv/Indel异评级管理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种技术方案:基于RNA-seq数据分析、变异评级和报告生成系统,包括:数据自动获取模块、数据质控模块、数据自动分析过滤模块、Snv/Indel变异、融合基因评级管理模块、调用数据库模块、报告生成模块、报告审核与释放模块
数据自动获取模块获取到该样本RNA-seq下机的原始数据fastq文件,进行质控分析生成QC结果文件。
数据质控模块判断样本测序质控指标是否合格,当质控指标高于阈值,则质控合格,进入数据自动分析过滤模块,分析包含Snv/Indel、融合基因、基因表达分析。
数据自动分析过滤模块结合数据量、Q30判断、比对率判断样本质量是否合格,根据样本质量是否满足预设的质量阈值标准进行判断样本测序质量是否合格,预设的质量阈值为数据量>15G,Q30>85%,基因组比对率>80%,rRNA比对率≤10%。
将不满足预设质量阈值标准的不合格样本,经过人工复核确定不进行后续的分析处理;
对Snv/Indel、融合基因结果进行变异信息注释和过滤,生成Excel文件。
数据自动分析过滤模块包括Snv/Indel信息注释模块,包含位置和变异类型注释模块;疾病数据库注释模块;人群频率和本地数据检出注释模块;变异有害性计算机预测模块;其他信息注释模块。
位置和变异注释模块包括根据参考转录本信息对变异的位置和变异类型进行注释,位置注释标签包括:外显子(exonic)、内含子(intron)、UTR3(3’端非翻译区,UTR即Untranslated Region)和UTR5(5’端非翻译区);变异类型注释标签包括:同义突变(synonymous)、剪接(splicing)、移码删除(frameshift deletion)、移码插入(frameshiftinsertion)、非移码删除(nonframeshift deletion)、非移码插入(nonframeshiftinsertion)、错义突变(nonsynonymous SNV)、无义突变(stopgain)和终止子突变(stoploss)。
参考转录本信息为在NCBI数据库里面参考序列(Reference Sequences)的信息的基础上整理的经典转录本。
疾病数据库注释模块,包括根据公共癌种数据库或本地历史样本检测结果预先构建的肿瘤阳性位点数据库以及遗传病数据库注释;
公共癌症数据库包括:COSMIC数据库、OncoKB数据库。根据历史检测样本结果预先构建的肿瘤阳性位点数据库是将历史检测结果中的变异位点及其相关信息结构化的存储起来,建立起的供检索查阅的数据库。遗传病数据库包括ClinVar数据库、HGMD数据库和OMIN数据库。
人群频率和本地数据检出注释模块包括gnomAD数据库、EXAC数据库、1000g数据库、ESP6500数据库以及根据历史数据预先构建的解读调用数据库。
变异有害性计算机预测模块包括错义突变利用SIFT、POLYPHEN、CADD及FATHMM数据库进行致病性预测的注释。剪接变异预测是利用SpliceAI、dbSNV进行注释。
其他信息注释模块包括基因功能注释、变异信息描述注释、功能结构域、变异位于STR区域的信息。
融合基因注释模块,包含融合基因断裂点、融合参考序列、支持融合基因的reads数、读码框影响的注释、融合蛋白结构域的注释以及历史检出数据库的注释。根据历史检测样本结果预先构建的肿瘤融合基因阳性位点数据库是将历史检测结果中的融合基因及其相关信息结构化的存储起来,建立起的供检索查阅的数据库。
经过注释过滤完成的Snv/Indel变异和融合基因,对Snv/Indel变异和融合基因进行解读调用数据库进行匹配,如果变异已经在本地数据已经存在评级和解读,如果能够和解读调用数据库进行匹配且Snv/Indel变异和融合基因质控合格则报告中直接调用评级和解读;如果Snv/Indel变异和融合基因评级不在解读调用数据库且变异质控合格,可根据Snv/Indel变异半自动评级评分辅助人工和融合基因自动排序管理分别对Snv/Indel变异和融合基因快速的完成评级。并对无解读内容模块进行人工在线编辑,填写完整的报告解读。
本地解读数据结构,如图2所示,调用数据库模块包括融合基因数据库和Snv/Indel数据库,将融合基因和Snv/Indel变异在肿瘤中的致癌性、诊断、预后、治疗等相关证据汇总信息,将融合基因和Snv/Indel变异按照2017年AMP、ASCO和CAP联合发布的癌症变异解读及报告标准解读,将变异分来为1级:明确临床意义;2级:潜在临床意义;3级:临床意义未明;4级:良性和可能良性。
其中融合基因解读数据库主要包括人工解读人员整理的融合基因简介、融合基因与疾病的相关性和融合基因相关的批准用药或临床试验、临床意义、证据等级等相关信息。Snv/Indel解读数据库主要包括解读人员整理的基因描述、oncokb、genecards、OMIM等相关网站描述的基因相关简介。其他,还包括基因与疾病或肿瘤的相关性、Snv/Indel对应的批准用药或临床试验、Snv/Indel变异位点的解释、临床意义、证据等级等相关信息。
报告中解读匹配本地解读数据库的具体步骤如图3所示,根据不同的匹配规则对结构化融合基因解读数据库和Snv/Indel解读数据库进行评级和解读进行调用。
检出的融合基因注释表,根据基因1、基因2、融合基因方向和临床肿瘤类型进行匹配,如果能与对融合基因解读数据库中结构化数据匹配上,则可对应进行融合基因简介、融合基因与疾病的相关性和融合基因相关的批准用药或临床试验、临床意义、证据等级等相关信息的直接调用。
检出的SNV/Indel变异注释表,根据基因、肿瘤类型、变异位置、碱基变异、氨基酸变异进行匹配,如果能与对SNV/Indel变异解读数据库中结构化数据匹配上,则可对应进行基因描述、oncokb、genecards、OMIM等相关网站描述的基因相关简介以及其他基因与疾病或肿瘤的相关性、Snv/Indel对应的批准用药或临床试验、Snv/Indel变异位点的解释、临床意义、证据等级等相关信息的直接调用。
由于肿瘤相关的变异位点异质性很强,知识库即便很完善,也不可避免出现知识库匹配不到情况,为此设计了SNV/Indel变异半自动评级和融合基因自动排序辅助SNV/Indel变异和融合基因快速评级。
SNV/Indel变异检出结果与SNV/Indel变异解读数据库匹配不上,则进入SNV/Indel变异半自动评级和人工解读阶段。
如图4所示,SNV/Indel变异经过公共数据库、解读调用数据库、SNV/Indel变异半自动评级流程包含的模块判断之后获取16个证据项的符合情况,并将数据标记为待审核状态;
先获取变异在genomAD数据库的人群频率(PF)。若该变异的PF收录为“.”或者<0.001%,则返回“OP4”;若0.001%≤PF≤1%,则返回“null”;若1%<PF≤5%,则返回“SBS1”;若PF>5%,则返回“SBV1”;
获取变异在cosmic数据库的收录情况(cosmic_CNT)。若无收录或cosmic_CNT<20,则返回“null”;若cosmic_CNT≥20,则返回“OP3-C”;
获取变异在本地致癌性数据库中的收录情况。若数据库中存在变异与该变异的蛋白改变一致但碱基变化位置不一致,则返回“OS1”;若数据库中存在变异与该变异的碱基变化位置一致但蛋白改变不一致,则返回“OM3”;否则,返回“null”;
获取变异在cancerhotspot数据库的收录情况。若相同氨基酸位置收录≥50且相同氨基酸变化收录≥10,则返回“OS3”;若相同氨基酸位置收录<50且相同氨基酸变化收录≥10,则返回“OM4”;若相同氨基酸变化收录<10,则返回“OP3”;若无收录,则返回“null”;
获取变异在3D HOTSPOTS数据库的收录情况。若标记为“coupled to hotspot”,则返回“PM1”;若标记为其他,则返回“null”;
获取变异在“FATHMM”、“SIFT”、“Polyphen”中的有害性预测结果。若≥2个软件预测有害,则返回“OP1”;若3个软件预测无害,则返回“SBP1”;其他结果,则返回“null”;
获取变异在“spliceAI”中的剪接影响预测结果。若预测影响剪接,则返回“OP1”;否则,则返回“null”;
获取变异所在基因在本地重要结构域数据库中的关键结构域。若变异在基因的关键结构域,则返回“OM1”;否则,则返回“null”;
根据本地基因原癌基因和抑癌基因数据库判断变异所在基因的类别(癌基因/抑癌基因)。
若变异所在基因为原癌基因,如果变异类型为inframe del/ins,则返回“OM2”;否则,则返回“null”;
若变异所在基因为抑癌基因,如果变异类型为无义/移码/经典剪接或者单外显子缺失,则返回“OVS1”;否则,则返回“null”;
若变异所在基因类别未知,则返回“null”;
SNV/Indel变异经过文献查阅等人工辅助流程包含的模块判断之后获取1个证据项的符合情况,并将数据传递为待审核状态;
对处于待审核状态的证据项进行人工复核;
若证据项存在完全一样的证据项,则去重只保留一个;若同时存在证据项“OP3-C”和“OP3”,则证据项去除“OP3-C”和“OP3”并添加“OM4”;若同时存在证据项“OP3-C”和“OM4”,则证据项去除“OP3-C”和“OM4”并添加“OS3”;并执行S3.3;若同时存在证据项“OS1”和“OS3”,则证据项去除“OS3”;若同时存在证据项“OM1”和“OM4”,则证据项去除“OM4”;若同时存在证据项“OM3”和“OM4”,则证据项去除“OM4”;若同时存在证据项“OS1”和“OM3”,则证据项去除“OM3”;若同时存在证据项“OS3”和“OM3”,则证据项去除“OM3”;若同时存在证据项“OM1”和“OM3”,则证据项去除“OM3”;并将数据标记为待审核状态;
致癌性证据按照Supporting证据项赋1分,Morderate证据项赋2分,Strong证据项赋4分,Very Strong证据项赋8分;良性证据按照Supporting证据项赋-1分,Morderate证据项赋-2分,Strong证据项赋-4分,Very Strong证据项赋-8分;
对证据项分值进行加和;按照加和结果小于等于-7分为B;大于等于-6分且小于等于-1分为LB;大于等于0分且小于等于5分为VUS;大于等于6分且小于等9分为LO;大于等于10分为O对变异进行分级,并将分级结果标记为待审核状态;
融合基因检出结果与融合基因解读数据库匹配不上,则根据融合基因排序结果快速完成融合基因评级,并在线编辑融合的相关解读。
融合基因人工解读根据融合基因自动排序顺序结果将融合基因分为4级。
其中,1级融合基因为该融合基因在肿瘤中有过病理机制报道和明确功能研究;该融合基因中的一个基因与其他伴侣基因的融合在肿瘤中已被报道并经功能研究验证致病,并且在新的融合中该基因具有相同或类似的断裂点和融合拼接形式。即该融合基因可归类于明确致病的融合基因家族;该融合基因或其中一个基因与其他伴侣基因形成的融合基因在其他肿瘤中有重要重现性报道及明确的功能研究,主要在排序为Level1或Level2的融合基因中进行评级上报。
2级融合基因为该融合基因或其中一个基因与其他伴侣基因形成的融合在该肿瘤中有重现性报道,但缺乏进一步功能研究;该融合基因或其中一个基因与其他伴侣基因形成的融合在该肿瘤中有罕见报道,但缺乏进一步功能研究;该融合基因与其在肿瘤中有明确致癌性的融合基因有同一家族的基因累及;该融合基因所累及的其中一个基因在肿瘤中有基因突变或其他变异导致癌性的报道。主要在排序为Level2的融合基因中进行评级上报。
3级融合基因为临床意义未明的融合基因,为新发现的融合基因,两个基因均未见任何报道,主要在排序为Level3或排序为Level5的融合基因中进行评级上报。
4级融合基因为非致病性融合基因,为文献报道该融合基因为非致病性融合或者根据融合基因的结构和功能推测其为非致病性融合,不在报告中进行评级上报。
完成SNV/Indel变异和融合基因基因的评级和对应报告解读内容的撰写后,点击一键化生成报告,系统根据送检单位、项目编号、项目类型等信息,获取准确个性化的报告模板,报告生成后在线进入审核阶段。
经过人工审核,报告在系统自动对报告查询系统或者小程序等多平台进行报告的释放,并且对该实施例中SNV/Indel变异和融合基因基因新增解读和评级在本地数据库进行存储。
基于RNA-seq数据分析、变异评级和报告生成方法,包括如下步骤:
自动获取数据和质控管理;对于质控合格的样本自动进行后续的模块进行分析,对于质控不合格的样本进行风险评估,对于处理可以放行的样本进行人工放行,对于人工复核仍不合格的样本不进行后续的分析,进入退检;
自动分析生成Snv/Indel变异、融合基因、基因表达结果数据;生成Snv/Indel变异,融合基因的变异注释与过滤;
对Snv/Indel变异、融合基因变异位点评级管理;最后,一键化生成报告,完成报告审核后自动释放。
具体过程如下:
S1:上传样本信息或者在其他系统获取样本信息;
S2:根据项目编号和样本编号等信息,自动获取到该样本RNA-seq下机的原始数据fastq文件,进行质控分析生成QC结果文件;
S3:判断质控指标是否合格,当质控指标低于阈值,则质控不合格,则执行步骤S4,否则执行S5;
S4:如果质控指标低于阈值,则该样本进入人工重新评估,重新评估不合格则停止后续分析,进入样本退检环节;如果人工重新评估可以风险放行,则继续后续的分析;
S5:自动分析模块包含Snv/Indel、融合基因、基因表达分析、融合基因绘图;
S6:对Snv/Indel、融合基因结果进行变异信息注释和过滤,生成Excel文件;
S7:对Snv/Indel、融合基因进行数据库调用匹配,如果变异已经在数据库存在评级和解读,则执行步骤S8。如果变异不在数据库则执行步骤S9;
S8:如果能够和数据库进行匹配则直接调用评级和解读;
S9:如果变异评级不在数据库,可根据Snv/Indel变异、融合基因半自动化评级管理提供的评分和排序,人工在线进行评级证据的选择,做Snv/Indel变异、融合基因的评级。并对无解读内容模块进行人工在线编辑,填写完整的报告解读内容;
S10:根据送检单位、项目编号、项目类型等信息,获取准确个性化的报告模板;
S11:一键化生成报告,并且支持在线调整格式;
S12:生成完的报告进入审核状态,审核人在线进行审核,审核不通过,执行S13,否则执行S14;
S13:审核不通过的报告,再重新进入到报告解读阶段,待修改完成后重新进入步骤S12;
S14:审核通过的报告自动对报告查询系统或者小程序等多平台报告的释放且支持下载PDF报告。
具体的,步骤S1可进一步细分为:
步骤S1.1:获取变异在genomAD数据库的人群频率(PF)。若该变异的PF收录为“.”或者<0.001%,则返回“OP4”;若0.001%≤PF≤1%,则返回“null”;若1%<PF≤5%,则返回“SBS1”;若PF>5%,则返回“SBV1”;
步骤S1.2:获取变异在cosmic数据库的收录情况(cosmic_CNT)。若无收录或cosmic_CNT<20,则返回“null”;若cosmic_CNT≥20,则返回“OP3-C”;
步骤S1.3:获取变异在本地致癌性数据库中的收录情况。若数据库中存在变异与该变异的蛋白改变一致但碱基变化位置不一致,则返回“OS1”;若数据库中存在变异与该变异的碱基变化位置一致但蛋白改变不一致,则返回“OM3”;否则,返回“null”;
步骤S1.4:获取变异在cancerhotspot数据库的收录情况。若相同氨基酸位置收录≥50且相同氨基酸变化收录≥10,则返回“OS3”;若相同氨基酸位置收录<50且相同氨基酸变化收录≥10,则返回“OM4”;若相同氨基酸变化收录<10,则返回“OP3”;若无收录,则返回“null”;
步骤S1.5:获取变异在3DHOTSPOTS数据库的收录情况。若标记为“coupledtohotspot”,则返回“PM1”;若标记为其他,则返回“null”;
步骤S1.6:获取变异在“FATHMM”、“SIFT”、“Polyphen”中的有害性预测结果。若≥2个软件预测有害,则返回“OP1”;若3个软件预测无害,则返回“SBP1”;其他结果,则返回“null”;
步骤S1.7:获取变异在“spliceAI”中的剪接影响预测结果。若预测影响剪接,则返回“OP1”;否则,则返回“null”;
步骤S1.8:获取变异所在基因在本地重要结构域数据库中的关键结构域。若变异在基因的关键结构域,则返回“OM1”;否则,则返回“null”;
步骤S1.9:根据本地基因原癌基因和抑癌基因数据库判断变异所在基因的类别(癌基因/抑癌基因)。
S1.91、若变异所在基因为原癌基因,如果变异类型为inframedel/ins,则返回“OM2”;否则,则返回“null”;
S1.92、若变异所在基因为抑癌基因,如果变异类型为无义/移码/经典剪接或者单外显子缺失,则返回“OVS1”;否则,则返回“null”;
S1.93、若变异所在基因类别未知,则返回“null”;
以上S1.1-S1.9可同时并行进行;
步骤S2中:变异经过人工查阅文献获取可用的致癌性证据项,提交审核,审核通过的证据项保留,否则返回修改;并执行S3;
步骤S3中:汇总S1和S2返回的证据项,可进一步细分为:
步骤S3.1:若证据项存在完全一样的证据项,则去重只保留一个;执行S3.2;
步骤S3.2:若同时存在证据项“OP3-C”和“OP3”,则证据项去除“OP3-C”和“OP3”并添加“OM4”;若同时存在证据项“OP3-C”和“OM4”,则证据项去除“OP3-C”和“OM4”并添加“OS3”;并执行S3.3;
步骤S3.3:若同时存在证据项“OS1”和“OS3”,则证据项去除“OS3”;若同时存在证据项“OM1”和“OM4”,则证据项去除“OM4”;若同时存在证据项“OM3”和“OM4”,则证据项去除“OM4”;若同时存在证据项“OS1”和“OM3”,则证据项去除“OM3”;若同时存在证据项“OS3”和“OM3”,则证据项去除“OM3”;若同时存在证据项“OM1”和“OM3”,则证据项去除“OM3”;
步骤S4中:对S3保留的证据项赋分加和,将ACMG/AMP指南转换为贝叶斯框架将致癌性证据按照Supporting证据项赋1分,Morderate证据项赋2分,Strong证据项赋4分,VeryStrong证据项赋8分;良性证据按照Supporting证据项赋-1分,Morderate证据项赋-2分,Strong证据项赋-4分,VeryStrong证据项赋-8分;按照累加分值判级;并执行S5;
步骤S5中:对最终使用的证据项及判级审核,如审核不通过则返回修改,否则进入报告生成流程;
对于融合基因评级进行一个自动分级管理,其步骤如下:
融合基因是在白名单中且预测产生的融合蛋白是in-frame且totalreads数目≥3,排序为Level1;
融合基因在白名单且不为Level1但预测产生的融合蛋白是out-of-frame或者空值或者totalreads数目<3;或者融合基因不在排名单且融合基因gene1或gene2在肿瘤相关的候选基因列表中且本地检出频率<1%且融合基因totalreads数目≥3且融合基因检测置信度的评估为high排序为Level2;
融合基因不在白名单且融合基因gene1或gene2不在肿瘤相关的候选基因列表中且本地检出频率<1%且融合基因totalreads数目≥3且融合基因检测置信度的评估为high排序为Level3;
融合基因是在白名单中且与Level1融合基因重复;或者融合基因不在白名单且融合基因gene1或gene2在肿瘤相关的候选基因列表中且本地检出频率≥1%或融合基因totalreads数目<3或融合基因检测置信度的评估为low或medium,排序为Level4;
不满足以上四种条件的,排序为Level5。
按照融合基因在肿瘤中的致癌性、诊断、预后、治疗等相关证据,根据排序结果,辅助将融合基因为4个等级,包括1级:明确临床意义融合基因;2级:潜在临床意义融合基因;3级:临床意义未明融合基因;4级:良性和可能良性融合基因。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:包括:
数据自动获取模块,用于获得输入的RNA-seq测序原始数据;
数据质控模块,用于对样本测序质量的评估,保证用于报告的数据质控合格;
数据自动分析过滤模块,用于对样本质控合格的样本进行Snv/Indel变异、融合基因、基因表达结果、融合基因图的数据自动化分析;对生成Snv/Indel变异,融合基因的变异注释并做过滤处理;
Snv/Indel变异,融合基因评级管理模块,用于对Snv/Indel变异,融合基因评级进行半自动化辅助判级;
调用数据库模块,用于存储模块化的,应用于临床的相关Snv/Indel变异,融合基因的解读;
报告生成模块,用于生成个性化定制的报告。
2.根据权利要求1所述的基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:还包括报告审核与释放模块,用于在线审核报告和自动对报告查询系统或者小程序的多平台报告的释放。
3.根据权利要求1所述的基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:所述数据质控模块对于质控合格的样本自动进行后续的模块进行分析;
对于质控不合格的样本进行风险评估,对于处理能够放行的样本进行人工放行,对于人工复核仍不合格的样本不进行后续的分析,进入退检。
4.根据权利要求1所述的基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:所述数据质控模块对原始数据进行质控分析,包含下机数据的总数据量≥预期下机数据量的80%、基因组比对率>85%、rRNA比对率≤10%。
5.根据权利要求1所述的基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:所述Snv/Indel变异,融合基因评级管理模块对Snv/Indel、融合基因进行数据库调用匹配;
如果变异已经在数据库存在评级和解读,则直接调用评级和解读;
如果变异不在数据库,则根据Snv/Indel变异、融合基因半自动化评级管理提供的评分和排序,人工在线进行评级证据的选择,做Snv/Indel变异、融合基因的评级;
对无解读内容模块进行人工在线编辑,填写完整的报告解读内容。
6.根据权利要求1所述的基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:所述Snv/Indel变异,融合基因评级管理模块对于受检者携带的特异的Snv/Indel变异信息进行自动化打分,对于Snv/Indel变异信息文献报道功能研究进行人工查询复核,确定第二个得分,按照累加分值进行排序;
将变异分为4个等级,包括1级:明确临床意义变异;2级:潜在临床意义变异;3级:临床意义未明变异;4级:良性和可能良性变异。
7.根据权利要求1所述的基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:所述调用数据库模块包括融合基因数据库和Snv/Indel数据库。
8.根据权利要求7所述的基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:所述融合基因调用数据库包含融合基因简介、融合基因与疾病的相关性和融合基因相关的批准用药或临床试验和证据等级、临床意义、融合基因评级信息。
9.根据权利要求7所述的基于RNA-seq数据分析、变异评级和报告生成系统,其特征在于:所述Snv/Indel调用数据库包括基因简介和涉及的信号通路、基因与疾病或肿瘤的相关性、Snv/Indel对应的批准用药或临床试验以及证据等级、Snv/Indel变异位点的变异信息描述、临床意义、变异评级、变异相关临床检出收录、变异功能研究报道;
Snv/Indel变异位点位于的功能结构域的名称和功能研究信息。
10.基于RNA-seq数据分析、变异评级和报告生成方法,其特征在于:包括如下步骤:
自动获取数据和质控管理;对于质控合格的样本自动进行后续的模块进行分析,对于质控不合格的样本进行风险评估,对于处理可以放行的样本进行人工放行,对于人工复核仍不合格的样本不进行后续的分析,进入退检;
自动分析生成Snv/Indel变异、融合基因、基因表达结果数据;生成Snv/Indel变异,融合基因的变异注释与过滤;
对Snv/Indel变异、融合基因变异位点评级管理;最后,一键化生成报告,完成报告审核后自动释放。
CN202310512804.9A 2023-05-08 2023-05-08 基于RNA-seq数据分析、变异评级和报告生成系统及方法 Pending CN116453591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310512804.9A CN116453591A (zh) 2023-05-08 2023-05-08 基于RNA-seq数据分析、变异评级和报告生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310512804.9A CN116453591A (zh) 2023-05-08 2023-05-08 基于RNA-seq数据分析、变异评级和报告生成系统及方法

Publications (1)

Publication Number Publication Date
CN116453591A true CN116453591A (zh) 2023-07-18

Family

ID=87135681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310512804.9A Pending CN116453591A (zh) 2023-05-08 2023-05-08 基于RNA-seq数据分析、变异评级和报告生成系统及方法

Country Status (1)

Country Link
CN (1) CN116453591A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275656A (zh) * 2023-11-22 2023-12-22 北斗生命科学(广州)有限公司 一种临床试验记录自动化生成标准化报告方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437004A (zh) * 2017-08-07 2017-12-05 深圳华大基因研究院 一种用于肿瘤个体化基因检测智能解读的系统
CN109637584A (zh) * 2019-01-24 2019-04-16 上海海云生物科技有限公司 肿瘤基因诊断辅助决策系统
CN109686456A (zh) * 2018-12-26 2019-04-26 博奥生物集团有限公司 一种肿瘤精准用药解读系统及方法
CN110021346A (zh) * 2018-01-09 2019-07-16 上海交通大学医学院附属瑞金医院 基于RNAseq数据的基因融合与突变检测方法及系统
CN112164423A (zh) * 2020-10-14 2021-01-01 深圳吉因加医学检验实验室 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN112233725A (zh) * 2020-10-14 2021-01-15 合肥达徽基因科技有限公司 Atp7b基因突变二代测序自动化分析解读方法和报告系统
WO2021248694A1 (zh) * 2020-06-11 2021-12-16 国家卫生健康委科学技术研究所 患者样本数据中结构变异的报告解读方法及系统
CN114023384A (zh) * 2022-01-06 2022-02-08 天津金域医学检验实验室有限公司 一种全外显子组测序注释表自动生成标准化报告方法
CN114927191A (zh) * 2022-04-13 2022-08-19 北京高灵智腾信息科技有限公司 血液系统疾病ngs报告解读方法
KR20220125708A (ko) * 2021-03-05 2022-09-14 전남대학교산학협력단 차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘
CN116030886A (zh) * 2021-10-25 2023-04-28 京东方科技集团股份有限公司 基因突变解读的方法及其装置、电子设备和可读存储介质
CN116072288A (zh) * 2022-12-27 2023-05-05 上海申挚医疗科技有限公司 用于体细胞诊断辅助决策的解读方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437004A (zh) * 2017-08-07 2017-12-05 深圳华大基因研究院 一种用于肿瘤个体化基因检测智能解读的系统
CN110021346A (zh) * 2018-01-09 2019-07-16 上海交通大学医学院附属瑞金医院 基于RNAseq数据的基因融合与突变检测方法及系统
CN109686456A (zh) * 2018-12-26 2019-04-26 博奥生物集团有限公司 一种肿瘤精准用药解读系统及方法
CN109637584A (zh) * 2019-01-24 2019-04-16 上海海云生物科技有限公司 肿瘤基因诊断辅助决策系统
WO2021248694A1 (zh) * 2020-06-11 2021-12-16 国家卫生健康委科学技术研究所 患者样本数据中结构变异的报告解读方法及系统
CN112164423A (zh) * 2020-10-14 2021-01-01 深圳吉因加医学检验实验室 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN112233725A (zh) * 2020-10-14 2021-01-15 合肥达徽基因科技有限公司 Atp7b基因突变二代测序自动化分析解读方法和报告系统
KR20220125708A (ko) * 2021-03-05 2022-09-14 전남대학교산학협력단 차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘
CN116030886A (zh) * 2021-10-25 2023-04-28 京东方科技集团股份有限公司 基因突变解读的方法及其装置、电子设备和可读存储介质
CN114023384A (zh) * 2022-01-06 2022-02-08 天津金域医学检验实验室有限公司 一种全外显子组测序注释表自动生成标准化报告方法
CN114927191A (zh) * 2022-04-13 2022-08-19 北京高灵智腾信息科技有限公司 血液系统疾病ngs报告解读方法
CN116072288A (zh) * 2022-12-27 2023-05-05 上海申挚医疗科技有限公司 用于体细胞诊断辅助决策的解读方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SUN Z 等: "Indel detection from RNA-seq data: tool evaluation and strategies for accurate detection of actionable mutations", 《BRIEFINGS IN BIOINFORMATICS》, vol. 18, no. 6, pages 973 - 983 *
XU X L 等: "Identification of somatic mutations in human prostate cancer by RNA-Seq", 《GENE》, vol. 519, no. 2, pages 343 - 347, XP028526475, DOI: 10.1016/j.gene.2013.01.046 *
张绪超: "肿瘤二代测序临床报告解读共识", 《循证医学》, vol. 22, no. 2022, pages 65 - 79 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275656A (zh) * 2023-11-22 2023-12-22 北斗生命科学(广州)有限公司 一种临床试验记录自动化生成标准化报告方法及系统
CN117275656B (zh) * 2023-11-22 2024-04-09 北斗生命科学(广州)有限公司 一种临床试验记录自动化生成标准化报告方法及系统

Similar Documents

Publication Publication Date Title
CN109686439A (zh) 遗传病基因检测的数据分析方法、系统及存储介质
CN109637584B (zh) 肿瘤基因诊断辅助决策系统
JP6066924B2 (ja) Dna配列のデータ解析法
Bastida et al. Molecular diagnosis of inherited coagulation and bleeding disorders
Babic et al. Incidences of problematic cell lines are lower in papers that use RRIDs to identify cell lines
CN111139291A (zh) 一种单基因遗传性疾病高通量测序分析方法
CN116453591A (zh) 基于RNA-seq数据分析、变异评级和报告生成系统及方法
CN112599198A (zh) 一种用于宏基因组测序数据的微生物物种与功能组成分析方法
Thanaraj A clean data set of EST-confirmed splice sites from Homo sapiens and standards for clean-up procedures
CN111883210B (zh) 基于临床特征和序列变异的单基因病名称推荐方法及系统
CN106815605B (zh) 一种基于机器学习的数据分类方法及设备
CN112489727B (zh) 一种快速获取罕见病致病位点的方法和系统
Benton et al. Variant call format–diagnostic annotation and reporting tool: A customizable analysis pipeline for identification of clinically relevant genetic variants in next-generation sequencing data
US20230139964A1 (en) Genome dashboard
CN109036572B (zh) 一种多数据库交互方法及装置
CN113918705A (zh) 带有预警和推荐功能的投稿审核方法及系统
Tsui et al. Extracting allelic read counts from 250,000 human sequencing runs in Sequence Read Archive
US20030211504A1 (en) Methods for identifying nucleic acid polymorphisms
CN111128308B (zh) 一种神经精神疾病新发突变信息知识平台
CN115798579B (zh) 一种遗传变异的证据判定方法、系统、装置及介质
CN116564406A (zh) 一种遗传变异自动化解读方法及设备
CN109065181B (zh) 一种基于宽泛检索的多数据库交互方法及装置
CN114822700B (zh) 用于呈现重排或融合结构亚型的方法、设备和介质
Xuan et al. Medline search engine for finding genetic markers with biological significance
CN114990202A (zh) Snp位点在评估基因组异常的应用及评估基因组异常的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination