CN103559425A - 一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法 - Google Patents

一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法 Download PDF

Info

Publication number
CN103559425A
CN103559425A CN201310585089.8A CN201310585089A CN103559425A CN 103559425 A CN103559425 A CN 103559425A CN 201310585089 A CN201310585089 A CN 201310585089A CN 103559425 A CN103559425 A CN 103559425A
Authority
CN
China
Prior art keywords
data
sequence
module
classification
data sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310585089.8A
Other languages
English (en)
Other versions
CN103559425B (zh
Inventor
梁素钰
刘滨凡
田松岩
刘延坤
李琳
孙清芳
刘广菊
刘长乐
李云红
贾丹
杜倩
邵英男
王文帆
陈瑶
李东玫
刘玉龙
王刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Forestry Engineering And Environment Institute
Original Assignee
Heilongjiang Forestry Engineering And Environment Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang Forestry Engineering And Environment Institute filed Critical Heilongjiang Forestry Engineering And Environment Institute
Priority to CN201310585089.8A priority Critical patent/CN103559425B/zh
Publication of CN103559425A publication Critical patent/CN103559425A/zh
Application granted granted Critical
Publication of CN103559425B publication Critical patent/CN103559425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的是高通量基因测序的有效数据分类寻优目标检测系统及检测方法。包括依次相连的测序仪、数据库模块和数据处理模块。测序仪对所需测序基因进行测序并将测序数据存储到所述数据库模块中;数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块。本发明针对高通量基因测序数据序列庞杂的特性,对所测数据序列进行归类参数的选取和效值的赋值或定义,经过数据归类子模块的循环递近归类,配合目标检测模块,判断是否进行数据归类优化,获得有效数据;并进行不同相似度下的操作单元优化分类,计算分类单元出现的频率,从而实现庞杂高通量基因序列的最优有效序列目标检测。

Description

一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法
技术领域
本发明涉及的是一种基因测序数据处理装置,特别涉及一种高通量基因测序分类寻优目标检测系统。本发明也涉及一种高通量基因测序分类寻优目标检测方法。
背景技术
基因是遗传物质的基础,是DNA或RNA分子上具有遗传信息的特定核苷酸序列,由A、T、C、G四种碱基组成。基因测序方法有很多种,常见的有荧光标记的sanger法、循环阵列合成测序法、直接测序法、高通量测序法等。高通量基因测序是一次进行几十万到几百万条DNA分子的序列测定,又称为深度测序。高通量测序仪目前有罗氏公司(Roche)的454 FLX焦磷酸测序平台(454 FLX pyrosequencing platform),美国Illumina公司的Solexa基因组分析平台(GenomeAnalyzer platform)和ABI公司的SOLiD 测序仪(ABI SOLiD sequencer)。
高通量基因测序有效数据分类目标检测技术具有重要的地位,提供准确可用的测序序列是对基因测序工作进行分析的首要任务之一。如何从大量、繁杂的数据中,快速而又有效地找到可用序列,不仅具有重要的理论和实际意义,也是国内外基因测序数据分类目标检测的难点和热点。
公开(公告)号为CN101680872A,名称为序列比较分析方法和系统的专利文件中,公开了一种通过比较样本核酸序列信息与参考核酸序列信息或从参考样本获得的信息来快速鉴别或确定样本核酸中的序列信息的方法,还提供进行序列比较分析的自动化系统。
公开(公告)号为CN101918590A,名称为核酸测序的专利文件中,涉及核酸序列分析,高通量平行DNA序列的方法与设备。同时提供了一种筛选分析样品序列的方法,用于富集靶序列或去除特定分子,尤其是测序样品中不需要的序列模版。
公开(公告)号为 CN102477460A,名称为对宏基因组16S高可变区V6进行测序聚类分析的方法的专利文件中,公开了一种对宏基因组16S高可变区V6进行测序聚类分析的方法,该方法包括:提取微生物DNA;通过引物对宏基因组16S rDNA的高可变区V6进行PCR,并为每个样品加上标签序列;把不同样品的PCR产物进行混合;对混合后的PCR产物进行Solexa建库法建库;使用Solexa测序工具对高可变区V6的文库进行双末端pair-end测序,得到原始的测序数据;对测序数据进行筛选,以过滤掉低质量的数据;利用重叠群的关系对高可变区V6的全长序列进行组装;通过标签序列把reads分配到对应的样品上;通过对reads进行分类分析,以实现使用高可变区的测序对微生物群体进行高通量和精准的分类。发明内容
本发明的目的在于提供一种速度快、精度高的高通量基因测序的有效数据分类寻优目标检测系统。本发明的目的还在于提供一种基于本发明的高通量基因测序的有效数据分类寻优目标检测系统的检测方法。
本发明的高通量基因测序的有效数据分类寻优目标检测系统包括依次相连的测序仪、数据库模块和数据处理模块,所述测序仪对所需测序基因进行测序并将测序数据存储到所述数据库模块中;所述的数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据归类模块对所测数据序列进行归类处理,即所测数据序列若具有归类参数R所述性质,则进行读取归类,所测数据序列若不具有归类参数R所述性质,则该数据序列进入无效数据模块;目标检测模块对经过数据归类模块的循环递近归类后的数据序列进行同时满足所选归类参数有效值或有效定义的检测,通过同时满足所选归类参数有效值或有效定义的检测的数据序列,若是多于或者少于预定的实验分析数据序列数则进行数据优化;有效数据模块用以对满足循环递近归类的数据序列进行处理;操作单元分类模块用以对有效数据模块中的所有数据序列根据设定的相似度进行操作单元分类,并计算分类单元出现的频率;相似度寻优模块按照相似度的不同,设定相似度间隔百分点,将有效数据模块中的所有数据序列重新进行操作单元分类,输出操作单元分类结果及计算分类单元出现的频率;结果显示模块将目标检测模块的检测结果、有效数据的结果、操作单元分类模块的结果和计算分类单元出现的频率在结果显示模块上显示;无效数据模块存储数据归类模块和目标检测模块中的不符合要求的数据。是将权利要求书改过的部分复制到此
本发明的高通量基因测序的有效数据分类寻优目标检测系统还可以包括:
1、所述数据归类模块对测序数据进行归类处理具体包括:
从数据库中读取所测数据序列作为样本用S表示,样本总数为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列进入无效模块;
(1)归类参数R,若有i个,则每个参数计为R1、R2、……、Ri,归类子模块个数为也为i个,计为:R1、R2、……、RI,归类循环级数为i-1级;所述归类参数R可以包括序列长度、碱基有效序列、启动子序列、标签序列和控制序列等;
(2)根据归类参数的个数i,将所测数据序列总样本n分为i份,每份序列计为S1、S2、……、Si,每份序列中对应的序列个数相近,S1中的序列则计为S1-1、S1-2、……、S1-j1,S2则计为S2-1、S2-2、……、S2-j2,Si则计为Si-1、Si-2、Si……、S1-ji,其中,j1、j2、……、ji分别为每份样本中的序列个数,且满足j1+j2+……+jm总和为样本总数n;
(3)1级循环归类子模块的归类过程如下:
所测数据序列对应的1级归类子模块个数为i个,计为R1、R2、……、RI,总样本n也分为i份,每份数据序列计为S1、S2、……、Si,则1级归类对应关系为:
S1-R1、S2-R2、……、Si-RI;
输出的对应数据序列计为1S1、1S2、……、1Si;
(4)2级循环归类子模块的归类过程如下:
对应的2级归类子模块个数仍为i个,计为R1、R2、……、RI,经由1级归类子模块输出的对应数据序列计为1S1、1S2、……、1Si,则2级归类对应关系为:
1S1-R2、1S2-R3、……、1Si-R1;
则输出的对应数据序列计为2S1、2S2、……、2Si;
(5)依此类推,i-1级循环归类子模块的归类过程如下:
对应的i-1级归类子模块个数仍为i个,计为R1、R2、……、RI,经由i-2级归类子模块输出的对应数据序列计为(i-2)S1、(i-2)S2、……、(i-2)Si,则i-1级归类对应关系为:
(i-2)S1-RI、(i-2)S2-R1、……、(i-2)Si-R(I-1);
则输出的对应数据序列计为(i-1)S1、(i-1)S2、……、(i-1)Si;
(6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
(7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
(8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
(9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
(10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块。2、所述有效数据模块用以进行有效数据的处理具体包括:
(1)对通过目标检测模块的数据序列进行有效的截取;
(2)去掉数据序列中的启动子序列;
(3)去掉数据序列中的标签序列;
(4)去掉数据序列中的控制序列。
3、操作单元分类模块对有效数据模块中的所有数据序列进行单元分类具体包括:
(1)选择一个相似度值,对有效数据序列进行操作单元分类;
(2)判断操作单元分类可否满足要求,若满足,则进入结果显示模块,计算分类单元出现的频率,输出;若不满足,则进入相似度寻优模块。
4、所述数据优化是对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的数据数为止。
基于本发明的高通量基因测序的有效数据分类寻优目标检测系统的检测方法为:
测序仪对所需测序基因进行测序并将测出的数据序列存储到数据库模块中,数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据处理模块按照如下步骤进行检测:
(1)从数据库模块中读取所测数据序列作为样本用S表示,样本总数计为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列无效;
1.1)归类参数R,若有i个,则每个参数计为R1、R2、……、Ri,归类子模块个数也为为i个,计为:R1、R2、……、RI,归类循环级数为i-1级;
1.2)根据归类参数的个数i,将所测数据序列总样本n分为i份,每份数据序列计为S1、S2、……、Si,每份序列中对应的序列个数相近;
1.3)1级循环归类子模块的归类过程如下:
所测数据序列总样本n分为i份,每份数据序列计为S1、S2、……、Si,对应的1级归类子模块个数也为i个,计为R1、R2、……、RI,则1级归类对应关系为:
S1-R1、S2-R2、……、Si-RI;
输出的对应数据序列计为1S1、1S2、……、1Si;
1.4)2级循环归类子模块的归类过程如下:
对应的2级归类子模块个数仍为i个,计为R1、R2、……、RI,经由1级归类子模块输出的对应数据序列计为1S1、1S2、……、1Si,则2级归类对应关系为:
1S1-R2、1S2-R3、……、1Si-R1;
则输出的对应数据序列计为2S1、2S2、……、2Si;
1.5)依此类推,i-1级循环归类子模块的归类过程如下:
对应的i-1级归类子模块个数仍为i个,计为R1、R2、……、RI,经由i-2级归类子模块输出的对应数据序列计为(i-2)S1、(i-2)S2、……、(i-2)Si,则i-1级归类对应关系为:
(i-2)S1-RI、(i-2)S2-R1、……、(i-2)Si-R(I-1);
则输出的对应数据序列计为(i-1)S1、(i-1)S2、……、(i-1)Si;
1.6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
1.7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
1.8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
1.9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
1.10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块;
(2)经过各级子模块循环递近归类后的数据序列,用以下方法进行有效数据检测:
测序数据经过数据归类子模块的循环递近归类后,要同时满足所有归类参数有效值或有效定义的检测;通过检测的序列,若是多于或者少于预定的实验分析数据序列数,则进行数据优化;所述数据优化是采用对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的实验分析数据序列数为止;
(3)对有效数据进行处理:
3.1)进行数据序列的截取;
3.2)去掉数据序列中的启动子序列;
3.3)去掉数据序列中的标签序列;
3.4)去掉数据序列中的控制序列;
(4)对处理后的有效数据进行操作单元分类:
4.1)选择一个相似度值,对有效数据序列进行操作单元分类;
4.2)操作单元分类可否满足实验分析要求,若满足则计算分类单元出现的频率并输出;
4.3)操作单元分类可否满足实验分析要求,若不满足则进行相似度寻优;
(5)相似度寻优:按照相似度的不同,设定相似度间隔百分点,将处理后获得的有效数据序列进行重新分类,输出操作单元分类结果及计算分类单元出现的频率。
本发明的检测方法还可以包括:
1、将目标检测结果、有效数据结果、操作单元分类结果和计算分类单元出现频率的结果通过显示模块显示。
2、步骤(1)(2)中的无效数据归入无效数据模块。
本发明的技术构思为:本发明针对高通量基因测序数据庞杂的特性,对所测数据进行归类参数的选取和参数有效值的赋值或是定义,然后经过数据归类子模块的循环递近归类,配合目标检测模块,判断是否进行数据归类优化,获得有效数据;并对有效数据进行不同相似度下的操作单元优化分类,计算分类单元出现的频率,从而实现庞杂高通量基因序列的最优有效序列目标检测。
本发明基于高通量测序所得到的大量繁杂数据,力求通过模块寻优的方法对数据进行分析处理。与已公开的技术方案不同,本发明侧重提供一种高通量基因测序的有效数据分类寻优目标检测系统的检测,可以对不同测序工具的数据结果进行寻优检测,有效避免了人为干扰。
本发明的有益效果主要表现在:1、可以从大量的无序数据中检测出符合要求的有效数据;2、所用的检测方法可以实现平行递近交叉;3、精度高,避免人为影响。
附图说明
图1是本发明的检测系统的结构图;
图2是本的数据处理模块的构成示意图。
具体实施方式
下面结合附图对本发明作进一步描述。本发明实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
实施例1
以高通量454基因测序技术为例,在进行emPCR扩增时需要设计的PCR引物,引物是成对设计的,在其中1个引物的一端要加上2段完全自由设计的碱基序列,第1段是标签序列(barcode),这个是根据实验所测样品的数目决定的,进行分类用,通常是5-8个碱基组成,至少可以选4个碱基,测序前,所有的样品都在一个小管里;第2段是测序引物用于控制识别序列,一般由8-25个碱基组成,以保证测序后机器可以识别正确的序列,通过程序设定的控制程序来进行序列质量控制,使后续分析软件可以确定从哪里开始读取序列。其它的高通量测序技术,根据平台实际要求选取归类参数。
参照图1、图2,一种高通量454基因测序有效数据分类寻优目标检测系统,包括测序仪1、数据库2及数据处理模块3,测序仪1、数据库2及数据处理模块3依次相连,所述测序仪1对所测序基因进行测序,并将测序数据储存到所述的数据库2,所述的数据处理模块3包括:
数据归类模块4,用以进行高通量基因所测数据序列处理,采用如下过程完成:
从数据库中读取所测数据序列作为样本用S表示,样本总数为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列进入无效模块;
(1)归类参数R,若有i个,则每个参数计为R1、R2、……、Ri,归类子模块个数为也为i个,计为:R1、R2、……、RI,归类循环级数为i-1级;所述归类参数R可以包括序列长度、碱基有效序列、启动子序列、标签序列和控制序列等;
(2)根据归类参数的个数i,将所测数据序列总样本n分为i份,每份序列计为S1、S2、……、Si,每份序列中对应的序列个数相近,S1中的序列则计为S1-1、S1-2、……、S1-j1,S2则计为S2-1、S2-2、……、S2-j2,Si则计为Si-1、Si-2、Si……、S1-ji,其中,j1、j2、……、ji分别为每份样本中的序列个数,且满足j1+j2+……+jm总和为样本总数n;
(3)1级循环归类子模块的归类过程如下:
所测数据序列对应的1级归类子模块个数为i个,计为R1、R2、……、RI,总样本n也分为i份,每份数据序列计为S1、S2、……、Si,则1级归类对应关系为:
S1-R1、S2-R2、……、Si-RI;
输出的对应数据序列计为1S1、1S2、……、1Si;
(4)2级循环归类子模块的归类过程如下:
对应的2级归类子模块个数仍为i个,计为R1、R2、……、RI,经由1级归类子模块输出的对应数据序列计为1S1、1S2、……、1Si,则2级归类对应关系为:
1S1-R2、1S2-R3、……、1Si-R1;
则输出的对应数据序列计为2S1、2S2、……、2Si;
(5)依此类推,i-1级循环归类子模块的归类过程如下:
对应的i-1级归类子模块个数仍为i个,计为R1、R2、……、RI,经由i-2级归类子模块输出的对应数据序列计为(i-2)S1、(i-2)S2、……、(i-2)Si,则i-1级归类对应关系为:
(i-2)S1-RI、(i-2)S2-R1、……、(i-2)Si-R(I-1);
则输出的对应数据序列计为(i-1)S1、(i-1)S2、……、(i-1)Si;
(6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
(7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
(8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
(9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
(10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块。
目标检测模块,用以进行有效数据序列检测,采用如下过程完成:
(1)所测数据序列经过数据归类子模块的循环递近归类后,需要进行同时满足所选归类参数有效值或有效定义的检测;
(2)通过同时满足所选归类参数有效值或有效定义的检测的数据序列,若是多于或者少于预定的实验分析数据序列数,则需要进行数据序列归类优化;
数据归类优化模块,是对归类参数的有效值进行重新赋值或者重新定义,重新开始数据序列归类模块的工作过程,直至归类数据序列数满足预定的实验分析序列数为止。
有效数据模块,用以进行有效数据的处理,采用如下过程完成:
(1)对通过目标检测模块的数据序列进行有效的截取;
(2)去掉数据序列中的启动子序列;
(3)去掉数据序列中的标签序列;
(4)去掉数据序列中的控制序列。
操作单元分类模块,用以对有效数据模块中的所有数据序列进行操作单元分类,采用如下过程完成:
(1)选择一个相似度值,对有效数据序列进行操作单元分类;
(2)判断操作单元分类可否满足要求,若满足,则进入结果显示模块,计算分类单元出现的频率,输出;若不满足,则进入相似度寻优模块。
相似度寻优模块,按照相似度的不同,设定相似度间隔百分点,将有效数据模块中的数据序列进行重新分类,输出操作单元分类结果,并计算分类单元出现的频率;
无效数据模块,存储数据归类模块和有效数据序列模块中的不符合要求的数据。
所述数据处理模块3的硬件部分还还包括:I/O元件,用于数据序列的采集和信息的传递;数据存储器,存储运行所需的数据序列样本和运行参数等等;程序存储器,存储实现功能的软件程序;运算器,执行程序,实现指定功能;显示模块,显示设置的参数和检测结果。
实施例2
参照图1、图2,一种高通量基因测序有效数据分类寻优目标检测方法,所述的方法包括以下步骤:
测序仪对实验所需基因进行测序并将测出的数据序列存储到数据库模块中,数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据处理模块按照如下步骤进行检测:
(1)从数据库模块中读取所测数据序列作为样本用S表示,样本总数计为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列无效;
1.1)归类参数R,若有i个,则每个参数计为R1、R2、……、Ri,归类子模块个数也为为i个,计为:R1、R2、……、RI,归类循环级数为i-1级;
1.2)根据归类参数的个数i,将所测数据序列总样本n分为i份,每份数据序列计为S1、S2、……、Si,每份序列中对应的序列个数相近;
1.3)1级循环归类子模块的归类过程如下:
所测数据序列总样本n分为i份,每份数据序列计为S1、S2、……、Si,对应的1级归类子模块个数也为i个,计为R1、R2、……、RI,则1级归类对应关系为:
S1-R1、S2-R2、……、Si-RI;
输出的对应数据序列计为1S1、1S2、……、1Si;
1.4)2级循环归类子模块的归类过程如下:
对应的2级归类子模块个数仍为i个,计为R1、R2、……、RI,经由1级归类子模块输出的对应数据序列计为1S1、1S2、……、1Si,则2级归类对应关系为:
1S1-R2、1S2-R3、……、1Si-R1;
则输出的对应数据序列计为2S1、2S2、……、2Si;
1.5)依此类推,i-1级循环归类子模块的归类过程如下:
对应的i-1级归类子模块个数仍为i个,计为R1、R2、……、RI,经由i-2级归类子模块输出的对应数据序列计为(i-2)S1、(i-2)S2、……、(i-2)Si,则i-1级归类对应关系为:
(i-2)S1-RI、(i-2)S2-R1、……、(i-2)Si-R(I-1);
则输出的对应数据序列计为(i-1)S1、(i-1)S2、……、(i-1)Si;
1.6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
1.7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
1.8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
1.9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
1.10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块;
(2)经过各级子模块循环递近归类后的数据序列,用以下方法进行有效数据检测:
测序数据经过数据归类子模块的循环递近归类后,要同时满足所有归类参数有效值或有效定义的检测;通过检测的序列,若是多于或者少于预定的实验分析数据序列数,则进行数据优化;所述数据优化是采用对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的实验分析数据序列数为止;
(3)对有效数据进行处理:
3.1)进行数据序列的截取;
3.2)去掉数据序列中的启动子序列;
3.3)去掉数据序列中的标签序列;
3.4)去掉数据序列中的控制序列;
(4)对处理后的有效数据进行操作单元分类:
4.1)选择一个相似度值,对有效数据序列进行操作单元分类;
4.2)操作单元分类可否满足实验分析要求,若满足则计算分类单元出现的频率并输出;
4.3)操作单元分类可否满足实验分析要求,若不满足则进行相似度寻优;
(5)相似度寻优:按照相似度的不同,设定相似度间隔百分点,将处理后获得的有效数据序列进行重新分类,输出操作单元分类结果及计算分类单元出现的频率。
(6)将目标检测结果、有效数据结果、操作单元分类结果和计算分类单元出现频率的结果通过结果显示模块显示。
(7)步骤(1)(2)中的无效数据归入无效数据模块。

Claims (8)

1.一种高通量基因测序的有效数据分类寻优目标检测系统,包括依次相连的测序仪、数据库模块和数据处理模块,其特征是:所述测序仪对所需测序基因进行测序并将测序数据存储到所述数据库模块中;所述的数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据归类模块对所测数据序列进行归类处理,即所测数据序列若具有归类参数R所述性质,则进行读取归类,所测数据序列若不具有归类参数R所述性质,则该数据序列进入无效数据模块;目标检测模块对经过数据归类模块的循环递近归类后的数据序列进行同时满足所选归类参数有效值或有效定义的检测,通过同时满足所选归类参数有效值或有效定义的检测的数据序列,若是多于或者少于预定的实验分析数据序列数则进行数据优化;有效数据模块用以对满足循环递近归类的数据序列进行处理;操作单元分类模块用以对有效数据模块中的所有数据序列根据设定的相似度进行操作单元分类,并计算分类单元出现的频率;相似度寻优模块按照相似度的不同,设定相似度间隔百分点,将有效数据模块中的所有数据序列重新进行操作单元分类,输出操作单元分类结果及计算分类单元出现的频率;结果显示模块将目标检测模块的检测结果、有效数据的结果、操作单元分类模块的结果和计算分类单元出现的频率在结果显示模块上显示;无效数据模块存储数据归类模块和目标检测模块中的不符合要求的数据。
2.根据权利要求1所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是所述数据归类模块对所测数据序列进行归类处理具体包括:
从数据库中读取所测数据序列作为样本用S表示,样本总数为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列进入无效模块;
(1)归类参数R,若有i个,则每个参数计为R1、R2、……、Ri,归类子模块个数为也为i个,计为:R1、R2、……、RI,归类循环级数为i-1级;所述归类参数R括序列长度、碱基有效序列、启动子序列、标签序列和控制序列等;
(2)根据归类参数的个数i,将所测数据序列总样本n分为i份,每份序列计为S1、S2、……、Si,每份序列中对应的序列个数相近,S1中的序列则计为S1-1、S1-2、……、S1-j1,S2则计为S2-1、S2-2、……、S2-j2,Si则计为Si-1、Si-2、Si……、S1-ji,其中,j1、j2、……、ji分别为每份样本中的序列个数,且满足j1+j2+……+jm总和为样本总数n;
(3)1级循环归类子模块的归类过程如下:
所测数据序列对应的1级归类子模块个数为i个,计为R1、R2、……、RI,总样本n也分为i份,每份数据序列计为S1、S2、……、Si,则1级归类对应关系为:
S1-R1、S2-R2、……、Si-RI;
输出的对应数据序列计为1S1、1S2、……、1Si;
(4)2级循环归类子模块的归类过程如下:
对应的2级归类子模块个数仍为i个,计为R1、R2、……、RI,经由1级归类子模块输出的对应数据序列计为1S1、1S2、……、1Si,则2级归类对应关系为:
1S1-R2、1S2-R3、……、1Si-R1;
则输出的对应数据序列计为2S1、2S2、……、2Si;
(5)依此类推,i-1级循环归类子模块的归类过程如下:
对应的i-1级归类子模块个数仍为i个,计为R1、R2、……、RI,经由i-2级归类子模块输出的对应数据序列计为(i-2)S1、(i-2)S2、……、(i-2)Si,则i-1级归类对应关系为:
(i-2)S1-RI、(i-2)S2-R1、……、(i-2)Si-R(I-1);
则输出的对应数据序列计为(i-1)S1、(i-1)S2、……、(i-1)Si;
(6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
(7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
(8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
(9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
(10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块。
3.根据权利要求2所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是所述有效数据模块用以进行有效数据的处理具体包括:
(1)对通过目标检测模块的数据序列进行有效的截取;
(2)去掉数据序列中的启动子序列;
(3)去掉数据序列中的标签序列;
(4)去掉数据序列中的控制序列。
4.根据权利要求3所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是操作单元分类模块对有效数据模块中的所有数据序列进行单元分类具体包括:
(1)选择一个相似度值,对有效数据序列进行操作单元分类;
(2)判断操作单元分类可否满足要求,若满足,则进入结果显示模块,计算分类单元出现的频率,输出;若不满足,则进入相似度寻优模块。
5.根据权利要求4所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是所述数据优化是对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的数据数为止。
6.一种基于权利要求1所述的高通量基因测序的有效数据分类寻优目标检测系统的检测方法,其特征是:
测序仪对所需测序基因进行测序并将测出的数据序列存储到数据库模块中,数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据处理模块按照如下步骤进行检测:
(1)从数据库模块中读取所测数据序列作为样本用S表示,样本总数计为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列无效;
1.1)归类参数R,若有i个,则每个参数计为R1、R2、……、Ri,归类子模块个数也为为i个,计为:R1、R2、……、RI,归类循环级数为i-1级;
1.2)根据归类参数的个数i,将所测数据序列总样本n分为i份,每份数据序列计为S1、S2、……、Si,每份序列中对应的序列个数相近;
1.3)1级循环归类子模块的归类过程如下:
所测数据序列总样本n分为i份,每份数据序列计为S1、S2、……、Si,对应的1级归类子模块个数也为i个,计为R1、R2、……、RI,则1级归类对应关系为:
S1-R1、S2-R2、……、Si-RI;
输出的对应数据序列计为1S1、1S2、……、1Si;
1.4)2级循环归类子模块的归类过程如下:
对应的2级归类子模块个数仍为i个,计为R1、R2、……、RI,经由1级归类子模块输出的对应数据序列计为1S1、1S2、……、1Si,则2级归类对应关系为:
1S1-R2、1S2-R3、……、1Si-R1;
则输出的对应数据序列计为2S1、2S2、……、2Si;
1.5)依此类推,i-1级循环归类子模块的归类过程如下:
对应的i-1级归类子模块个数仍为i个,计为R1、R2、……、RI,经由i-2级归类子模块输出的对应数据序列计为(i-2)S1、(i-2)S2、……、(i-2)Si,则i-1级归类对应关系为:
(i-2)S1-RI、(i-2)S2-R1、……、(i-2)Si-R(I-1);
则输出的对应数据序列计为(i-1)S1、(i-1)S2、……、(i-1)Si;
1.6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
1.7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
1.8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
1.9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
1.10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块;
(2)经过各级子模块循环递近归类后的数据序列,用以下方法进行有效数据检测:
测序数据经过数据归类子模块的循环递近归类后,要同时满足所有归类参数有效值或有效定义的检测;通过检测的序列,若是多于或者少于预定的实验分析数据序列数,则进行数据优化;所述数据优化是采用对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的实验分析数据序列数为止;
(3)对有效数据进行处理:
3.1)进行数据序列的截取;
3.2)去掉数据序列中的启动子序列;
3.3)去掉数据序列中的标签序列;
3.4)去掉数据序列中的控制序列;
(4)对处理后的有效数据进行操作单元分类:
4.1)选择一个相似度值,对有效数据序列进行操作单元分类;
4.2)操作单元分类可否满足实验分析要求,若满足则计算分类单元出现的频率并输出;
4.3)操作单元分类可否满足实验分析要求,若不满足则进行相似度寻优;
(5)相似度寻优:按照相似度的不同,设定相似度间隔百分点,将处理后获得的有效数据序列进行重新分类,输出操作单元分类结果及计算分类单元出现的频率。
7.根据权利要求6所述的基于高通量基因测序的有效数据分类寻优目标检测系统的检测方法,其特征是:将目标检测结果、有效数据结果、操作单元分类结果和计算分类单元出现频率的结果通过显示模块显示。
8.根据权利要求6或7所述的基于高通量基因测序的有效数据分类寻优目标检测系统的检测方法,其特征是:步骤(1)(2)中的无效数据归入无效数据模块。
CN201310585089.8A 2013-11-19 2013-11-19 一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法 Active CN103559425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310585089.8A CN103559425B (zh) 2013-11-19 2013-11-19 一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310585089.8A CN103559425B (zh) 2013-11-19 2013-11-19 一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法

Publications (2)

Publication Number Publication Date
CN103559425A true CN103559425A (zh) 2014-02-05
CN103559425B CN103559425B (zh) 2017-02-15

Family

ID=50013671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310585089.8A Active CN103559425B (zh) 2013-11-19 2013-11-19 一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法

Country Status (1)

Country Link
CN (1) CN103559425B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933218A (zh) * 2020-07-01 2020-11-13 广州基迪奥生物科技有限公司 一种优化的宏基因组binning分析微生物群落的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996038589A1 (en) * 1995-06-02 1996-12-05 Smithkline Beecham Corporation Method for analyzing partial gene sequences
US5970500A (en) * 1996-12-12 1999-10-19 Incyte Pharmaceuticals, Inc. Database and system for determining, storing and displaying gene locus information
JP2000060553A (ja) * 1998-08-19 2000-02-29 Fujitsu Ltd 遺伝子のモチーフ抽出処理装置及び遺伝子のモチーフ抽出処理方法並びに遺伝子のモチーフ抽出処理プログラムを記録した記録媒体
WO2004057511A2 (en) * 2002-12-23 2004-07-08 Universität Karlsruhe Methods for the analysis, classification and/or tree construction of sequences using correlation analysis
US20070047823A1 (en) * 2001-03-26 2007-03-01 Monq System and method for structuring and searching sets of signals
WO2007053962A1 (en) * 2005-11-09 2007-05-18 Smartgene Gmbh Computer-implemented method and computer system for identifying organisms
CN101137991A (zh) * 2005-02-11 2008-03-05 智明基因有限责任公司 验证dna测序数据的计算机实施的方法和基于计算机的系统
CN102521528A (zh) * 2011-12-05 2012-06-27 中国科学院计算机网络信息中心 一种基因序列数据的筛选方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996038589A1 (en) * 1995-06-02 1996-12-05 Smithkline Beecham Corporation Method for analyzing partial gene sequences
US5970500A (en) * 1996-12-12 1999-10-19 Incyte Pharmaceuticals, Inc. Database and system for determining, storing and displaying gene locus information
JP2000060553A (ja) * 1998-08-19 2000-02-29 Fujitsu Ltd 遺伝子のモチーフ抽出処理装置及び遺伝子のモチーフ抽出処理方法並びに遺伝子のモチーフ抽出処理プログラムを記録した記録媒体
US20070047823A1 (en) * 2001-03-26 2007-03-01 Monq System and method for structuring and searching sets of signals
WO2004057511A2 (en) * 2002-12-23 2004-07-08 Universität Karlsruhe Methods for the analysis, classification and/or tree construction of sequences using correlation analysis
CN101137991A (zh) * 2005-02-11 2008-03-05 智明基因有限责任公司 验证dna测序数据的计算机实施的方法和基于计算机的系统
WO2007053962A1 (en) * 2005-11-09 2007-05-18 Smartgene Gmbh Computer-implemented method and computer system for identifying organisms
CN102521528A (zh) * 2011-12-05 2012-06-27 中国科学院计算机网络信息中心 一种基因序列数据的筛选方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BIBIKOVA M, ET AL.,: "High-throughput DNA methylation profiling using universal bead arrays", 《HIGH-THROUGHPUT DNA METHYLATION PROFILING USING UNIVERSAL BEAD ARRAYS》 *
DUNBAR S A.: "Applications of Luminex xMAP technology for rapid, high-throughput multiplexed nucleic acid detection", 《CLINICA CHIMICA ACTA》 *
JOSSERAND, TM: "Classification of gene expression data using PCA-based fault detection and identification", 《2008 IEEE INTERNATIONAL WORKSHOP ON GENOMIC SIGNAL PROCESSING AND STATISTICS》 *
MATTHIAS MEYER, ET AL.,: "Targeted high-throughput sequencing of tagged nucleic acid samples", 《NUCLEIC ACIDS RESEARCH》 *
MATTIE M D, ET AL.,: "Optimized high-throughput microRNA expression profiling provides novel biomarker assessment of clinical prostate and breast cancer biopsies", 《MOLECULAR CANCER》 *
张骏: "新一代基因测序的数据处理中的相关问", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊 )》 *
聂志扬等: "DNA测序技术与仪器的发展", 《中国医疗器械信息》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933218A (zh) * 2020-07-01 2020-11-13 广州基迪奥生物科技有限公司 一种优化的宏基因组binning分析微生物群落的方法

Also Published As

Publication number Publication date
CN103559425B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN112071366A (zh) 一种基于二代测序技术的宏基因组数据分析方法
CN105740650A (zh) 一种快速准确鉴定高通量基因组数据污染源的方法
CN105279391A (zh) 一种宏基因组16S rRNA的高通量测序数据处理及分析流程控制方法
CN109559780A (zh) 一种高通量测序的rna数据处理方法
JP6066924B2 (ja) Dna配列のデータ解析法
CN111599413B (zh) 一种测序数据的分类单元组分计算方法
CN110751984A (zh) 宏基因组或宏转录组测序数据自动化分析方法及系统
Fields et al. MAUI‐seq: Metabarcoding using amplicons with unique molecular identifiers to improve error correction
CN110444253B (zh) 一种适用于混池基因定位的方法及系统
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
CN103810402B (zh) 用于基因组的数据处理方法和装置
CN110970091A (zh) 标签质控的方法及装置
CN103559425A (zh) 一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法
CN113096737A (zh) 一种用于对病原体类型进行自动分析的方法及系统
CN110970093B (zh) 一种筛选引物设计模板的方法、装置及应用
CN106709273B (zh) 微藻蛋白质特征序列标签匹配的快速检测方法及系统
CN110232951B (zh) 判断测序数据饱和的方法、计算机可读介质和应用
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
JP5403563B2 (ja) 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
CN104573409B (zh) 基因定位的多重检验方法
CN113744806A (zh) 一种基于纳米孔测序仪的真菌测序数据鉴定方法
CN113658641A (zh) 一种噬菌体分类方法、装置、设备及存储介质
CN107533592A (zh) 微生物群落分析系统、判定系统、微生物群落分析方法及判定方法
Aldawiri et al. A Novel Approach for Mapping Ambiguous Sequences of Transcriptomes
Fields et al. MAUI-seq: Multiplexed, high-throughput amplicon diversity profiling using unique molecular identifiers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant