CN112151112A - 一种遗传基因检测的方法和装置 - Google Patents

一种遗传基因检测的方法和装置 Download PDF

Info

Publication number
CN112151112A
CN112151112A CN201910808491.5A CN201910808491A CN112151112A CN 112151112 A CN112151112 A CN 112151112A CN 201910808491 A CN201910808491 A CN 201910808491A CN 112151112 A CN112151112 A CN 112151112A
Authority
CN
China
Prior art keywords
chromosome
occurrences
genome
detected
sequencing data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910808491.5A
Other languages
English (en)
Inventor
任智慧
王联晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Zhongke Zhihong Biotechnology Co ltd
Original Assignee
Tianjin Zhongke Zhihong Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Zhongke Zhihong Biotechnology Co ltd filed Critical Tianjin Zhongke Zhihong Biotechnology Co ltd
Publication of CN112151112A publication Critical patent/CN112151112A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明涉及一种遗传基因检测的方法,包括获取待检测基因组的测序数据,然后对上述测序数据进行比对、计算、比较,还提供了一种应用该方法的装置。本发明分别从全基因组和染色体单臂层面评估基因组拷贝数变化,能够大大降低测序和后期生物信息学分析的成本。

Description

一种遗传基因检测的方法和装置
技术领域
本发明涉及基因检测技术领域,具体是一种遗传基因检测的方法和装置。
背景技术
在医学和生物学领域,为了检测一个样本中是否存在遗传基因异常的现象,现有的技术方案已经可以利用一个待检测的样本的基因组测序数据,通过数据分析的方法,判断样本中是否存在遗传基因异常的问题。然而在目前的技术方案中,一般需要将测序数据与一个物种的全部的遗传基因的完整序列进行序列比对,因此需要的计算资源高,消耗时间长,消耗内存大。
中国发明专利CN109192246 A公开了一种检测染色体拷贝数异常的方法、系统、计算机设备和存储介质。方法包括:获取待检测的样本的测序数据作为待检测数据,确定待检测数据对应的目标物种;获取靶点数据库中存储的目标物种包含的每个染色体对应的特异性k-mer;获取每个染色体中包含的特异性k-mer在待检测数据中的实际出现次数;从靶点数据库中获取到每个特异性k-mer的拷贝数;根据每个特异性k-mer的实际出现次数和拷贝数计算得到对应的染色体的实际信号强度;将实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。通过与特异性k-mer进行对比则能够减少比较空间,从而缩短了分析时间,提高了检测的效率。但仍存在周期长、成本高的缺陷,因此有必要对现有技术做出改进。
发明内容
本发明所要解决的技术问题是提供一种遗传基因检测的方法和装置,以解决现有技术中存在的缺陷。
本发明解决上述技术问题的技术方案如下:
一种遗传基因检测的方法,包括如下步骤:
1)获取待检测基因组的测序数据;
2)将所述测序数据比对到参考基因组,以确定待检测基因组的测序数据对应的基因组序列;
3)分别计算基于满足预设特异性条件的的染色体非整倍性评估值和基于满足预设特异性条件的的单臂不稳定性评估值,其中,
所述非整倍性评估值表示获取靶点数据库中存储的目标物种包含的每个染色体中包含的特异性k-mer在对应染色体中的出现次数C,以及该染色体中的出现次数最少的特异性k-mer对应的出现次数作为最小出现次数 Cm,将所述出现次数C与最小出现次数Cm的比值作为特异性k-mer的拷贝数;
所述单臂不稳定性评估值表示当检测到存在有染色体对应的实际信号强度不属于与对应染色体的标准置信区间时,则将与所述实际信号强度对应的染色体判定为存在拷贝数异常的染色体唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值;
4)将所述非整倍性评估值和所述单臂不稳定性评估值分别与各自的设定阈值比较以评估基因组拷贝数变化。
本发明还提供一种遗传基因检测的装置,其包括:存储器,用于存储一种遗传基因检测的方法的程序,具体包括依次连接的获取模块、比对模块、计算模块和比较模块。
本发明的有益效果是:分别从全基因组和染色体单臂层面评估基因组拷贝数变化,能够大大降低测序和后期生物信息学分析的成本。
附图说明
图1为本发明结构示意图;
附图标记说明如下:
1、获取模块,2、比对模块,3、计算模块,4、比较模块;
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种遗传基因检测的方法,包括如下步骤:
1)获取待检测基因组的测序数据;
2)将所述测序数据比对到参考基因组,以确定待检测基因组的测序数据对应的基因组序列;
3)分别计算基于满足预设特异性条件的的染色体非整倍性评估值和基于满足预设特异性条件的的单臂不稳定性评估值,其中,
所述非整倍性评估值表示获取靶点数据库中存储的目标物种包含的每个染色体中包含的特异性k-mer在对应染色体中的出现次数C,以及该染色体中的出现次数最少的特异性k-mer对应的出现次数作为最小出现次数 Cm,将所述出现次数C与最小出现次数Cm的比值作为特异性k-mer的拷贝数;
所述单臂不稳定性评估值表示当检测到存在有染色体对应的实际信号强度不属于与对应染色体的标准置信区间时,则将与所述实际信号强度对应的染色体判定为存在拷贝数异常的染色体唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值;
4)将所述非整倍性评估值和所述单臂不稳定性评估值分别与各自的设定阈值比较以评估基因组拷贝数变化。
具体实施时,每个染色体均有各自对应的标准置信区间,标准置信区间是指预先根据大量样本计算得到的标准信号强度区间。标准信号强度与实际信号强度实际上是同样的计算方式,但由于标准检测样本是确认为无染色体拷贝数异常的样本,因此标准信号强度是针对标准检测样本的数据,而实际信号强度则是针对待检测数据。当染色体的实际信号强度在对应染色体的标准置信区间中时,可以判断该染色体是不存在拷贝数异常的,反之,则可以判定该染色体是存在拷贝数异常的。因此,可将实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。此处,是将每个染色体的实际信号强度与对应的染色体的标准置信区间进行比较。比如,一号染色体的实际信号强度与预先建立的一号染色体的标准置信区间进行比较,二号染色体的实际信号强度与预先建立的二号染色体的标准置信区间进行比较;
现有的肿瘤突变负荷检测方法,都是基于全外显子测序进行的。全外显子测序数据量大、成本高、周期长,这是临床应用难以有效推广的重要因素。为此,本申请创造性的提出,从肿瘤基因组数据库中筛选出具有代表性的 811个芯片捕获区域,通过对这些区域进行捕获测序,能够替代全外显子测序,用于分析肿瘤突变负荷,这大大减小了测序数据量,减小了成本,缩短了检测周期,为TMB检测的临床应用奠定了坚实的基础。
本例还使用TCGA数据库收集的131例膀胱癌和279例头颈鳞癌样本分别进行类似的测试,每个样本使用外显子测序检测到的突变总数,基因芯片捕获检测到的突变总数,结果显示,Pearson相关系数R2=0.93,说明二者存在较强的相关性。
本发明还提供一种遗传基因检测的装置,其包括:存储器,用于存储一种遗传基因检测的方法的程序,具体包括依次连接的获取模块、比对模块、计算模块和比较模块。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种遗传基因检测的方法,其特征在于,包括如下步骤:
1)获取待检测基因组的测序数据;
2)将所述测序数据比对到参考基因组,以确定待检测基因组的测序数据对应的基因组序列;
3)分别计算基于满足预设特异性条件的的染色体非整倍性评估值和基于满足预设特异性条件的的单臂不稳定性评估值,其中,
所述非整倍性评估值表示获取靶点数据库中存储的目标物种包含的每个染色体中包含的特异性k-mer在对应染色体中的出现次数C,以及该染色体中的出现次数最少的特异性k-mer对应的出现次数作为最小出现次数Cm,将所述出现次数C与最小出现次数Cm的比值作为特异性k-mer的拷贝数;
所述单臂不稳定性评估值表示当检测到存在有染色体对应的实际信号强度不属于与对应染色体的标准置信区间时,则将与所述实际信号强度对应的染色体判定为存在拷贝数异常的染色体唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值;
4)将所述非整倍性评估值和所述单臂不稳定性评估值分别与各自的设定阈值比较以评估基因组拷贝数变化。
2.一种遗传基因检测的装置,其特征在于:包括:存储器,用于存储一种遗传基因检测的方法的程序,具体包括依次连接的获取模块、比对模块、计算模块和比较模块。
CN201910808491.5A 2019-06-27 2019-08-29 一种遗传基因检测的方法和装置 Pending CN112151112A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019105673176 2019-06-27
CN201910567317 2019-06-27

Publications (1)

Publication Number Publication Date
CN112151112A true CN112151112A (zh) 2020-12-29

Family

ID=73892150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910808491.5A Pending CN112151112A (zh) 2019-06-27 2019-08-29 一种遗传基因检测的方法和装置

Country Status (1)

Country Link
CN (1) CN112151112A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104560697A (zh) * 2015-01-26 2015-04-29 上海美吉生物医药科技有限公司 一种基因组拷贝数不稳定性的检测装置
WO2016176846A1 (zh) * 2015-05-06 2016-11-10 安诺优达基因科技(北京)有限公司 检测染色体非整倍性的试剂盒、装置和方法
CN108427864A (zh) * 2018-02-14 2018-08-21 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN109192246A (zh) * 2018-06-22 2019-01-11 深圳市达仁基因科技有限公司 检测染色体拷贝数异常的方法、装置和存储介质
CN109390039A (zh) * 2017-08-11 2019-02-26 深圳华大基因股份有限公司 一种统计dna拷贝数信息的方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104560697A (zh) * 2015-01-26 2015-04-29 上海美吉生物医药科技有限公司 一种基因组拷贝数不稳定性的检测装置
WO2016176846A1 (zh) * 2015-05-06 2016-11-10 安诺优达基因科技(北京)有限公司 检测染色体非整倍性的试剂盒、装置和方法
CN109390039A (zh) * 2017-08-11 2019-02-26 深圳华大基因股份有限公司 一种统计dna拷贝数信息的方法、装置及存储介质
CN108427864A (zh) * 2018-02-14 2018-08-21 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN109192246A (zh) * 2018-06-22 2019-01-11 深圳市达仁基因科技有限公司 检测染色体拷贝数异常的方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
秦凤金等: "高通量测序技术在流产物遗传学检测中的应用", 《中国产前诊断杂志(电子版)》 *

Similar Documents

Publication Publication Date Title
CN107423578B (zh) 检测体细胞突变的装置
CN111599407B (zh) 拷贝数变异的检测方法和装置
CN104603284B (zh) 利用基因组测序片段检测拷贝数变异的方法
CN107180166A (zh) 一种基于三代测序的全基因组结构变异分析方法和系统
CN111091868B (zh) 一种染色体非整倍体的分析方法及系统
Sarkozy et al. Calling homopolymer stretches from raw nanopore reads by analyzing k-mer dwell times
CN112634987B (zh) 一种单样本肿瘤dna拷贝数变异检测的方法和装置
KR101936933B1 (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN108268752B (zh) 一种染色体异常检测装置
CN107526941B (zh) 拷贝数变异检测预处理装置、检测装置、判定装置和系统
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
CN110738415A (zh) 基于用电采集系统和离群点算法的窃电用户分析方法
CN112151112A (zh) 一种遗传基因检测的方法和装置
EP2926289A1 (en) Method and system for processing data for evaluating a quality level of a dataset
CN107885972B (zh) 一种基于单端测序的融合基因检测方法及其应用
CN112102944A (zh) 一种基于ngs的脑肿瘤分子诊断的分析方法
AU2022218581B2 (en) Sequencing data-based itd mutation ratio detecting apparatus and method
CN115655383A (zh) 一种全钒液流电池电解液价态失衡状态检测方法及系统
CN110942806A (zh) 一种血型基因分型方法和装置及存储介质
CN102982253B (zh) 一种多样本间甲基化差异检测方法及装置
CN111007220B (zh) 一种生猪养殖污水水质敏捷监测的方法
CN109390039B (zh) 一种统计dna拷贝数信息的方法、装置及存储介质
CN117672354B (zh) 比较哺乳动物近源物种完整基因组组装质量的方法和装置
CN115662507B (zh) 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统
CN115798584B (zh) 一种同时检测egfr基因t790m和c797s顺反式突变的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201229

WD01 Invention patent application deemed withdrawn after publication