CN102622534B - 一种用于基因表达检测的dna高通测序数据校正方法 - Google Patents

一种用于基因表达检测的dna高通测序数据校正方法 Download PDF

Info

Publication number
CN102622534B
CN102622534B CN201210104293.9A CN201210104293A CN102622534B CN 102622534 B CN102622534 B CN 102622534B CN 201210104293 A CN201210104293 A CN 201210104293A CN 102622534 B CN102622534 B CN 102622534B
Authority
CN
China
Prior art keywords
gene expression
high pass
dna
checking
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210104293.9A
Other languages
English (en)
Other versions
CN102622534A (zh
Inventor
冯伟兴
宋艳霞
贺波
栾兴桃
王科俊
刘晓龙
赵拓
李双林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Tengfei gene Polytron Technologies Inc
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201210104293.9A priority Critical patent/CN102622534B/zh
Publication of CN102622534A publication Critical patent/CN102622534A/zh
Application granted granted Critical
Publication of CN102622534B publication Critical patent/CN102622534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明属于分子生物信息检测领域。具体是一种提高DNA高通测序获取基因表达检测数据准确性的校正方法。该发明包括下列步骤:(1)采集基因表达DNA测序检测数据,建立基因表达DNA高通测序检测数据校正模型;(2)采集基因芯片测量的基因表达值;(3)采用相关分析确定基因表达高通测序校正模型中的模型参数;(4)确定模型参数值后的基因表达DNA高通测序检测数据校正模型生成校正后的基因表达值。本发明利用校正模型对DNA测序值存在的序列比对映射误差进行估算和补偿,减小了检测误差,在充分发挥DNA高通测序检测数据高分辨率、高精度的基础上,有效提高检测的准确性。

Description

一种用于基因表达检测的DNA高通测序数据校正方法
技术领域
本发明属于分子生物信息检测领域。具体是一种提高DNA高通测序基因表达检测数据准确性的校正方法。
背景技术
随着信息科学实验技术的进步,用于获得分子生物信息的实验手段也日新月异。其中,作为划时代的分子生物信息检测技术,DNA高通测序技术有能力真正实现全基因组的基因表达信息高分辨率,高精度检测。
DNA高通测序技术的基因表达检测原理是直接对反映基因表达的靶核苷酸序列进行测序,然后依据测序结果在参考基因组中通过序列比对映射找到靶核苷酸序列所在位置,从而获取该位置相关的基因表达信息。因为是直接对靶核苷酸序列进行测序,高通量DNA测序技术大幅度地提高了基因表达的检测分辨率和检测精度。但由于测序结果需要通过序列比对映射才能转化为有意义的基因表达信息,高通量DNA测序对基因表达的测量属于间接测量,并存在原理性误差。即部分测序结果由于无法成功映射回参考基因组导致检测信息出现误差。该误差将导致检测值比实际值偏小。
发明内容
本发明的目的是提供一种对基因表达检测中生成DNA测序数据时存在的原理性序列比对映射误差进行补偿,在高分辨率、高精度基础上,获得更准确的基因表达检测的DNA高通测序数据校正方法。
本发明的目的是这样实现的:
DNA高通测序数据校正方法,包括下列步骤:
(1)采集基因表达DNA测序检测数据,建立基因表达DNA高通测序检测数据校正模型:
Zi=(1+β×1/Ci)×Yi
其中,Yi为实测的第i个基因表达高通测序值,Zi为校正后的第i个基因表达值,Ci为该基因所在DNA区域的保守值,β为模型参数;
(2)采集基因芯片测量的基因表达值;
(3)采用相关分析确定基因表达高通测序校正模型中的模型参数:将基因表达DNA高通测序检测数据校正模型得到的基因表达值与基因芯片测得的基因表达值进行相关程度计算,确定相关值最大时的模型参数β值;
(4)确定模型参数值后的基因表达DNA高通测序检测数据校正模型生成校正后的基因表达值。
本发明的有益效果在于:
本发明利用校正模型对DNA测序值存在的序列比对映射误差进行估算和补偿,减小了检测误差,在充分发挥DNA高通测序检测数据高分辨率、高精度的基础上,有效提高检测的准确性。
附图说明
图1为本发明的流程示意图;
图2为目标基因保守值分布图;
图3为校正模型参数寻优曲线。
具体实施方式
本发明方法具体实施方式如下:
首先通过分析DNA高通测序检测数据由于间接比对映射导致的原理性误差,针对性地建立基因表达DNA高通测序检测数据校正模型;
利用相关分析法,采用在原理上与DNA高通测序互补的另一种高通量基因表达检测实验方法,即基因芯片法所生成的数据,对模型参数进行确定。并得到最终的基因表达DNA高通测序检测数据校正模型。该模型所产生的校正数据在准确性上优于校正前的检测数据。
1.基因表达DNA高通测序数据的校正模型
高通量DNA测序在获取基因表达信息过程中,需要一个测序数据向参考基因组映射的环节。当由于某种原因导致测序数据无法映射到参考基因组时,高通量DNA测序误差就会出现。因此,利用高通量DNA测序技术进行基因表达信息检测时,表达检测值往往比实际值偏小。这其中,最主要的误差来源是当所对应基因区域存在大量重复序列时,DNA测序数据将因为非一对一映射问题而导致映射失败。因此,对应基因区域存在的重复序列越多,该误差越严重。
基于此,本方法建立的基因表达DNA高通测序数据的校正模型如公式1所示:
Zi=(1+β×1/Ci)×Yi                (1)
其中,Yi为实测的第i个基因表达高通测序值。Zi为校正后的第i个基因表达值。Ci为该基因所在DNA区域的保守值。β为模型参数。依据生物进化理论,DNA区域的保守值越高,其碱基重复性越低。因此,这里采用保守值来反映DNA区域的碱基重复程度值。
校正模型中,生成值Zi总大于实测值Yi。这主要是考虑高通测序误差中映射失败导致的误差将使得测得值Yi趋势性比真值偏小。另外,生成值Zi与保守值Ci成反比。即Ci值越大,生成值Zi越接近Yi。这是和保守值越大,调整量应越小相一致的。
2.校正模型的参数求取
作为基因表达的另一高通量检测方法——基因芯片法,虽然在分辨率和检测精度上不如DNA高通测序法,但由于其对基因表达是直接检测,不存在序列比对问题,因此,这里采用基因芯片检测数据对DNA高通测序的基因表达检测数据进行校正。具体为采用相关分析法求取基因表达高通测序校正模型中的模型参数。即在模型参数β取不同值时,可得到不同的基因表达高通测序校正值。然后,将校正值与基因芯片测得的表达值进行相关程度计算。当相关值达到最大时,其对应的模型参数β值即为最优值。所对应的模型即可生成更准确的基因表达测序数据。
3.实验测试
3.1数据获取
1)测序数据
利用DNA高通测序中的ChIP-seq技术可以对基因转录区内Pol II蛋白数量进行测量和统计,以直接反映基因转录水平。该技术首先利用超声波将DNA链降解为DNA片段,然后利用特制的抗体俘获结合在DNA片段上的Pol II蛋白,再利用沉淀技术(IP)将含有抗体的DNA片段滤出,随后通过测序技术(seq)对所有滤出的DNA片段测序并通过序列比对映射回DNA上,最后根据基因转录区在DNA上的位置定义即可实现对基因转录区内Pol II蛋白数量的测量和统计。
本实验选用两种普通和抗药性MCF7乳腺癌细胞加药前后共4组基因启动子区Pol II测序数据。该数据利用DNA高通测序中的ChIP-seq技术对基因启动子区域内Pol II蛋白数量进行测量和统计,以直接反映基因表达水平。
2)基因芯片数据
本实验选用采用基因芯片ChIP-chip技术获取的基因表达数据来与基因表达测序数据进行相关性分析。该数据是针对相同的两种普通和抗药性MCF7乳腺癌细胞加药前后共4组基因表达检测数据。该基因芯片选用Affymetrix公司的Human Genome U133Plus 2.0Array芯片,可一次对人类基因组38,500个基因进行表达信息检测。
3)基因保守值数据
本实验所用的DNA核苷酸序列保守值数据下载自生物信息大型公共数据库UCSC。该保守值数据是通过比对44种脊椎动物基因组核苷酸序列和人类基因组核苷酸序列生成的。
4)基因序列数据
本实验所用的DNA核苷酸序列数据也下载自生物信息大型公共数据库UCSC。
3.2DNA高通测序数据校正
首先对基因表达测序数据,基因芯片数据和保守值数据的完整性进行了分析,得到具有上述完整信息的9424个基因。
随后,依据DNA核苷酸序列保守值数据对这些基因区域的保守值进行了计算。由于本实验所用的测序数据是对基因启动子内Pol II蛋白数量进行的测量和统计,因此,我们也用相同区域的保守值和来表示该区域的保守值。所得到的保守值分布如图2所示。图中,横轴为保守值,纵轴为次数。
最后采用本发明所介绍的方法对基因表达DNA高通测序数据进行了处理。处理过程中,采用基因表达测序数据和基因芯片检测数据的相关性对模型参数β进行了优化取值。优化过程如图3所示。图3包括4种不同实验条件下的细胞。分别是:A:加药前普通乳腺癌细胞B:加药后普通乳腺癌细胞C:加药前抗药乳腺癌细胞D:加药后抗药乳腺癌细胞。图3中,横轴为模型参数β的取值,纵轴为校正后的基因测序数据和基因芯片数据的相关程度值。校正过程中,随着β值开始由0增加,相关程度值迅速提高,当β值取某一值时达到极值,当β值继续增大时,相关程度值反而由于过度校正而下降。由图可见,与不进行校正相比,校正后的基因测序数据和基因芯片数据的相关程度明显提高。这表明采用本发明所提方法对测序数据进行校正取得了更合理的结果。β最优值所对应的模型即是测序数据最终的校正模型。表1为采用本方法对两种普通和抗药性MCF7乳腺癌细胞加药前后共4组基因启测序数据的处理模型最优参数β值。
表1校正模型最优参数值
本发明由于DNA测序技术获得的碱基测序结果需要通过和参考基因组碱基序列进行序列比对映射才能转化为有意义的基因表达信息,当部分测序结果由于非一对一映射而无法成功映射回参考基因组时,将导致检测信息出现误差。依据生物进化理论,DNA区域的保守值越高,其碱基重复率则越低,该区域的DNA测序数据映射成功率也就越高。因此,模型中采用保守值来反映DNA区域的碱基重复程度以及随之产生的比对映射误差。
由于另一种全基因组基因表达检测技术手段——基因芯片技术虽然在检测分辨率上不如DNA测序技术,但不存在比对映射环节,因此,本发明对来自DNA测序和基因芯片等两个不同独立通道所生成的基因表达检测数据进行相关性分析,以确定修正模型参数,并最终实现对DNA测序基因表达检测数据的修正。

Claims (1)

1.一种用于基因表达检测的DNA高通测序数据校正方法,其特征是,包括下列步骤:
(1)采集基因表达DNA测序检测数据,建立基因表达DNA高通测序检测数据校正模型:
Zi=(1+β×1/Ci)×Yi
其中,Yi为实测的第i个基因表达高通测序值,Zi为校正后的第i个基因表达值,Ci为该基因所在DNA区域的保守值,β为模型参数;
(2)采集基因芯片测量的基因表达值;
(3)采用相关分析确定基因表达高通测序校正模型中的模型参数:将基因表达DNA高通测序检测数据校正模型得到的基因表达值与基因芯片测得的基因表达值进行相关程度计算,确定相关值最大时的模型参数β值;
(4)确定模型参数值后的基因表达DNA高通测序检测数据校正模型生成校正后的基因表达值。
CN201210104293.9A 2012-04-11 2012-04-11 一种用于基因表达检测的dna高通测序数据校正方法 Active CN102622534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210104293.9A CN102622534B (zh) 2012-04-11 2012-04-11 一种用于基因表达检测的dna高通测序数据校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210104293.9A CN102622534B (zh) 2012-04-11 2012-04-11 一种用于基因表达检测的dna高通测序数据校正方法

Publications (2)

Publication Number Publication Date
CN102622534A CN102622534A (zh) 2012-08-01
CN102622534B true CN102622534B (zh) 2015-09-30

Family

ID=46562449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210104293.9A Active CN102622534B (zh) 2012-04-11 2012-04-11 一种用于基因表达检测的dna高通测序数据校正方法

Country Status (1)

Country Link
CN (1) CN102622534B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116240272A (zh) 2015-11-19 2023-06-09 赛纳生物科技(北京)有限公司 一种用于获得多核苷酸的序列信息的试剂盒或系统
CN107958138B (zh) * 2016-10-14 2019-06-18 赛纳生物科技(北京)有限公司 一种从高通量dna测序的原始信号中读取序列信息的方法
CN105893788B (zh) * 2016-04-26 2018-04-17 哈尔滨工程大学 利用参考基因组信息的半导体测序平台的测序数据校正方法
CN106650313B (zh) * 2016-09-29 2019-10-18 哈尔滨工程大学 一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法
CN107463800B (zh) * 2017-07-19 2018-05-11 东莞博奥木华基因科技有限公司 一种肠道微生物信息分析方法及系统
CN108959851B (zh) * 2018-06-12 2022-03-18 哈尔滨工程大学 一种Illumina高通量测序数据误差校正方法
CN109785899B (zh) * 2019-02-18 2020-01-07 东莞博奥木华基因科技有限公司 一种基因型校正的装置和方法
CN115831233B (zh) * 2023-02-07 2023-05-16 杭州联川基因诊断技术有限公司 一种基于mTag的靶向测序数据预处理的方法、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MD20080012U (ro) * 2008-04-11 2008-10-31 Gmc Ip-Holding Ltd. Microcip biologic pentru identificarea succesiunilor transgene de ADN si complex de masurare
CN101408501A (zh) * 2008-11-28 2009-04-15 长春理工大学 采用近红外光谱-偏最小二乘法定量检测dna碱基的方法
CN101492740A (zh) * 2009-02-24 2009-07-29 武汉兰丁医学高科技有限公司 细胞定量分析中细胞核dna物质含量的准确测量方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MD20080012U (ro) * 2008-04-11 2008-10-31 Gmc Ip-Holding Ltd. Microcip biologic pentru identificarea succesiunilor transgene de ADN si complex de masurare
CN101408501A (zh) * 2008-11-28 2009-04-15 长春理工大学 采用近红外光谱-偏最小二乘法定量检测dna碱基的方法
CN101492740A (zh) * 2009-02-24 2009-07-29 武汉兰丁医学高科技有限公司 细胞定量分析中细胞核dna物质含量的准确测量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯伟兴等.《采用粒子群优化的基因转录差异分析模型》.《中国生物医学工程学报》.2010,第29卷(第2期), *

Also Published As

Publication number Publication date
CN102622534A (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN102622534B (zh) 一种用于基因表达检测的dna高通测序数据校正方法
Kekkonen et al. DNA barcode‐based delineation of putative species: efficient start for taxonomic workflows
Goremykin et al. Analysis of Acorus calamus chloroplast genome and its phylogenetic implications
KR101325736B1 (ko) 바이오 마커 추출 장치 및 방법
Giorgi et al. Algorithm-driven artifacts in median polish summarization of microarray data
CN103984879B (zh) 一种测定待测基因组区域表达水平的方法及系统
CN106033502B (zh) 鉴定病毒的方法和装置
Kelly et al. Microsatellites behaving badly: empirical evaluation of genotyping errors and subsequent impacts on population studies
Jones et al. An empirical assessment of a single family‐wide hybrid capture locus set at multiple evolutionary timescales in Asteraceae
CN115595371B (zh) 确定结直肠癌患者msi状态的方法及应用
Simmons Relative benefits of amino‐acid, codon, degeneracy, DNA, and purine‐pyrimidine character coding for phylogenetic analyses of exons
US20220136063A1 (en) Method of predicting survival rates for cancer patients
Brozynska et al. Direct chloroplast sequencing: comparison of sequencing platforms and analysis tools for whole chloroplast barcoding
Sistrom et al. Morphological differentiation correlates with ecological but not with genetic divergence in a Gehyra gecko
Ao et al. Evaluating hepatocellular carcinoma cell lines for tumour samples using within‐sample relative expression orderings of genes
CN105243296A (zh) 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
Schmutzer et al. Kmasker-a tool for in silico prediction of single-copy FISH probes for the large-genome species Hordeum vulgare
Sipos et al. Robust computational analysis of rRNA hypervariable tag datasets
CN104968806B (zh) 提供与基于基因序列的个人标记有关的信息的方法和装置
CN107619863A (zh) 检测癌症的存在风险的方法
Stokes et al. Transcriptomics for clinical and experimental biology research: hang on a seq
WO2020068881A9 (en) Compositions, systems, apparatuses, and methods for validation of microbiome sequence processing and differential abundance analyses via multiple bespoke spike-in mixtures
CN112786103A (zh) 一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法和装置
CN104769133A (zh) 通过链排除改进微阵列表现的方法
CN108595914B (zh) 一种烟草线粒体rna编辑位点高精度预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Feng Weixing

Inventor after: Song Yanxia

Inventor after: He Bo

Inventor after: Luan Xingtao

Inventor after: Wang Kejun

Inventor after: Liu Xiaolong

Inventor after: Zhao Tuo

Inventor after: Li Shuanglin

Inventor before: Feng Weixing

Inventor before: He Bo

Inventor before: Luan Xingtao

Inventor before: Wang Kejun

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: FENG WEIXING HE BO LUAN XINGTAO WANG KEJUN TO: FENG WEIXING SONG YANXIA HE BO LUAN XINGTAO WANG KEJUN LIU XIAOLONG ZHAO TUO LI SHUANGLIN

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151221

Address after: 528437 Guangdong province Zhongshan Torch Development Zone, Cheung Hing Road 6 No. 8 South trade building layer

Patentee after: GUANGDONG ASCENDAS GENOMICS TECHNOLOGY CO., LTD.

Address before: 150001 Heilongjiang, Nangang District, Nantong street,, Harbin Engineering University, Department of Intellectual Property Office

Patentee before: Harbin Engineering Univ.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 528437 Guangdong city of Zhongshan province Zhongshan Torch Development Zone, Cheung Hing Road 6 No. 8 South trade building layer

Patentee after: Guangdong Tengfei gene Polytron Technologies Inc

Address before: 528437 Guangdong province Zhongshan Torch Development Zone, Cheung Hing Road 6 No. 8 South trade building layer

Patentee before: GUANGDONG ASCENDAS GENOMICS TECHNOLOGY CO., LTD.