CN117012285A - 一种高通量测序数据处理及分析流程管控系统 - Google Patents
一种高通量测序数据处理及分析流程管控系统 Download PDFInfo
- Publication number
- CN117012285A CN117012285A CN202311282213.3A CN202311282213A CN117012285A CN 117012285 A CN117012285 A CN 117012285A CN 202311282213 A CN202311282213 A CN 202311282213A CN 117012285 A CN117012285 A CN 117012285A
- Authority
- CN
- China
- Prior art keywords
- gene
- module
- sequence
- unit
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 59
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 title claims abstract description 34
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 227
- 238000012163 sequencing technique Methods 0.000 claims abstract description 44
- 230000007547 defect Effects 0.000 claims abstract description 16
- 230000005540 biological transmission Effects 0.000 claims abstract description 10
- 239000012634 fragment Substances 0.000 claims description 54
- 238000000034 method Methods 0.000 claims description 22
- 239000003153 chemical reaction reagent Substances 0.000 claims description 18
- 238000005215 recombination Methods 0.000 claims description 10
- 230000006798 recombination Effects 0.000 claims description 10
- 230000000903 blocking effect Effects 0.000 claims description 9
- 108091008053 gene clusters Proteins 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 102000004533 Endonucleases Human genes 0.000 claims description 3
- 108010042407 Endonucleases Proteins 0.000 claims description 3
- 238000012408 PCR amplification Methods 0.000 claims description 3
- 108091027544 Subgenomic mRNA Proteins 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 239000003480 eluent Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims 1
- 238000012546 transfer Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 108020005198 Long Noncoding RNA Proteins 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108700019146 Transgenes Proteins 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种高通量测序数据处理及分析流程管控系统,包括高通量测序系统、基因库、分析系统、存储模块和用户终端。所述分析系统包括信息模块、索引模块、选择模块、搜索模块、对比模块和显示模块。所述对比模块用于对比被测基因和基因库中的基因,所述对比模块包括对比单元、检索单元、网络信息传输通道和判断单元;所述判断单元用于判断被测基因的缺陷种类。本发明根据用户的选择,将被测基因与子基因库内不同组的基因进行对比,通过与内部网络中登陆的内容进行比对,能够对患者的状况进行分析;分析系统直接对高通量测序系统的测序结果进行分析,不需要中转,降低了对设备的要求,提高了整体的智能化程度。
Description
技术领域
本发明涉及DNA测序领域,尤其涉及一种高通量测序数据处理及分析流程管控系统。
背景技术
高通量测序技术又称第二代测序技术,或大规模平行测序。区别于传统Sanger(双脱氧法)测序,能够一次并行对大量核酸分子进行平行序列测定的技术,通常一次测序反应能产出不低于100Mb的测序数据。随着第二代测序技术的迅猛发展,科学界也开始越来越多地应用第二代测序技术来解决生物学问题。比如在基因组水平上对还没有参考序列的物种进行从头测序,获得该物种的参考序列,为后续研究和分子育种奠定基础;对有参考序列的物种,进行全基因组重测序,在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。
如现有技术CN115775593A公开的一种m6A高通量测序数据生物信息分析方法,属于生物信息学技术领域。所述分析方法包括原始数据产出统计与预处理、数据污染过滤、测序数据与基因组比对、全基因组层面Peak Calling与注释、样本间差异Peak分析、基因序列motif分析、基因与lncRNA表达丰度分析、差异基因表达谱分析、差异lncRNA表达谱分析。
再来看如CN111534602A的现有技术公开的一种基于高通量测序分析人类血型基因型的方法,属于生物信息学领域。本发明首先获得人类血样样本DNA的高通量测序数据,进一步通过序列比对、变异检测、基因注释对测序数据进行处理,完成血型基因型的分析和验证。
目前,对于DNA高通量测序在医学方面的应用五花八门,高通量测序往往被运用于疾病的预防,但是在这方面的应用技术并没有一个最佳的方案,想要通过测序结果实现不同的功能往往需要采用不同的软件甚至是不同的设备,针对这方面现有技术所存在的问题,提出了本方案。
发明内容
本发明的目的在于,针对目前所存在的不足,提出了一种高通量测序数据处理及分析流程管控方法及系统。
为了克服现有技术的不足,本发明采用如下技术方案:
一种高通量测序数据处理及分析流程管控系统,其特征在于:所述高通量测序数据处理及分析流程管控系统包括高通量测序系统、基因库、分析系统、存储模块和用户终端;所述高通量测序系统用于获取被测基因的基因片段和被测基因的基因序列;所述基因库用于保存各种的基因序列,所述基因库包括目录和多个子基因库,多个子基因库用于满足所述分析系统的不同的分析需求;所述分析系统用于对被测基因进行分析;所述存储模块用于存储被测基因片段的序列;所述用户终端用于接收用户命令并向各个模块发送操作指令;
所述高通量测序系统包括信号接收端、处理端、测序装置和信号发送端;所述信号接收端用于接受所述用户终端所发送的指令;所述处理端用于处理所述信号接收端所接收的指令并根据指令控制所述测序装置进行测序;所述信号发送端用于将所述测序装置测序结果发送到所述存储模块;
所述测序装置包括,试剂库、试剂注射器、反应器和拍摄装置;所述试剂库包括多种用于实现高通量测序的试剂;所述试剂注射器用于向所述反应器内注射试剂;所述反应器用于进行测序过程中的各种反应;所述拍摄装置用于拍摄已被荧光标记的基因片段;
所述分析系统包括信息模块、索引模块、选择模块、搜索模块、对比模块和显示模块;所述信息模块用于从所述存储模块中提取被测基因的序列并将其数据化;所述索引模块用于建立所述分析系统和所述基因库之间的索引关系;所述选择模块用于接受来自用户的选择的指令;所述搜索模块由于从所述基因库中搜索需要的基因;所述对比模块用于对比被测基因和基因库中的基因;所述显示模块用于显示所述信息模块所提取的基因序列以及所述对比模块的对比结果。
更进一步的,所述信息模块包括接收单元、信息重组单元和数据化单元;所述接收单元用于从所述存储模块中接收基因片段的序列;所述信息重组单元用于对多个基因片段的序列进行重组,进而得到一个完整的基因序列;所述数据化单元用于对所述信息重组单元得到的基因序列数据化并发送到所述显示模块。
更进一步的,所述对比模块包括对比单元、检索单元、网络信息传输通道和判断单元;所述对比单元用于对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列;所述网络信息传输通道用于连接内部网络;所述判断单元用于判断被测基因的缺陷种类。
更进一步的,所述对比单元内置有算法存储器,所述算法存储器用于存储能够实现对比功能的算法,包括BLAST算法和Smith-Waterman算法。
更进一步的,高通量测序包括以下步骤:
STEP1, 在反应器内使用内切酶将被测基因打断为多个300-500bp的基因片段,并对基因片段进行补齐;
STEP2,在基因片段的尾部加上包含引物和标签的一小段序列;
STEP3,通过桥式PCR扩增基因片段,形成不同的基因簇;
PCR扩增形成的基因簇,每一个基因簇都对应一个不同的基因片段,通过PCR技术能够提高基因的可见度,方便进行检测;
STEP4,加入四种特殊碱基来延续基因,所述特殊碱基包括荧光基团和阻断基团;
STEP5,加入洗脱剂对荧光基团进行洗脱,同时放出阻断基团,开放基因后续合成部分;
STEP6,通过高精度拍照辨色确定碱基,并返回STEP4,直到得到基因片段的所有序列信息。
更进一步的,所述分析系统的工作流程包括以下步骤:
S1,所述选择模块接收来自用户选择的指令,并将该指令发送到所述分析系统的各个模块;
S2,所述信息模块从所述存储模块中提取被测基因的序列;
S3,所述索引模块根据用户指令对子基因库进行筛选和排序,并向所述搜索模块发送导向指令;
S4,所述搜索模块根据导向指令和用户指令,在对应的子基因库内搜索对应的基因;
S5,所述对比模块将搜索到的基因或基因集合与所述信息模块得到的数据化后的基因序列进行对比,并将对比结果发送到所述显示模块;
S6,所述显示模块将对比结果发送到显示屏上。
更进一步的,所述信息重组单元重组信息包括以下步骤:
S21,所述接收单元从所述存储模块中接收多个基因片段的序列;
S22,所述信息重组单元根据碱基种类与荧光颜色的对应关系,对每一个基因片段的序列进行字母化;
S23,根据标签,对基因片段的字母序列进行排序;
S24,对相邻的基因片段的字母序列进行去重化,得到被测基因的字母化序列。
更进一步的,还包括一种分析被测基因的持有者基因状况的方法,包括以下步骤:
S41,所述对比模块对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列;
所述对比模块能够通过基因的对比从而筛选出被测基因所携带的缺陷部分;
S42,所述检索单元通过所述网络信息传输通道,在内部网络搜索被测基因所携带的缺陷部分的相关信息以及基因持有者的身体检查资料;
S43,所述判断单元对所述检索单元的检索结果进行比对,判断被测基因的缺陷种类。
本发明所取得的有益效果是:能够根据用户的选择,将被测基因与子基因库内不同组的基因进行对比,通过与内部网络中登陆的内容进行比对,能够对患者的状况进行分析;分析系统可直接对高通量测序系统的测序结果进行分析,不需要中转,降低了对设备的要求,提高了整体的智能化程度。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在不同的视图中,相同的附图标记指定相同的部分。
图1为本发明的整体结构示意图。
图2为本发明高通量测序的流程示意图。
图3为本发明分析系统的工作流程示意图。
图4为本发明信息重组的流程示意图。
图5为本发明分析被测基因的持有者基因状况的流程示意图。
图6为本发明实施例三的初始化算法矩阵H示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一。
根据图1到图5,本实施例提供一种高通量测序数据处理及分析流程管控系统,所述高通量测序数据处理及分析流程管控系统包括:高通量测序系统、基因库、分析系统、存储模块和用户终端;所述高通量测序系统用于获取被测基因的基因片段和被测基因的基因序列;所述基因库用于保存各种的基因序列,所述基因库包括目录和多个子基因库,多个子基因库用于满足所述分析系统的不同的分析需求;所述分析系统用于对被测基因进行分析;所述存储模块用于存储被测基因片段的序列;所述用户终端用于接收用户命令并向各个模块发送操作指令;
所述高通量测序系统包括信号接收端、处理端、测序装置和信号发送端;所述信号接收端用于接受所述用户终端所发送的指令;所述处理端用于处理所述信号接收端所接收的指令并根据指令控制所述测序装置进行测序;所述信号发送端用于将所述测序装置测序结果发送到所述存储模块;
所述测序装置包括,试剂库、试剂注射器、反应器和拍摄装置;所述试剂库包括多种用于实现高通量测序的试剂;所述试剂注射器用于向所述反应器内注射试剂;所述反应器用于进行测序过程中的各种反应;所述拍摄装置用于拍摄已被荧光标记的基因片段;
所述分析系统包括信息模块、索引模块、选择模块、搜索模块、对比模块和显示模块;所述信息模块用于从所述存储模块中提取被测基因的序列并将其数据化;所述索引模块用于建立所述分析系统和所述基因库之间的索引关系;所述选择模块用于接受来自用户的选择的指令;所述搜索模块由于从所述基因库中搜索需要的基因;所述对比模块用于对比被测基因和基因库中的基因;所述显示模块用于显示所述信息模块所提取的基因序列以及所述对比模块的对比结果。
具体的,不同碱基对应的荧光标记的颜色不同;所述拍摄装置通过按顺序多次拍摄荧光照片并根据荧光颜色的排列顺序,能够得到一个基因片段的序列,所述存储模块中保存的测序结果是以照片组的形式保存的。
更进一步的,所述信息模块包括接收单元、信息重组单元和数据化单元;所述接收单元用于从所述存储模块中接收基因片段的序列;所述信息重组单元用于对多个基因片段的序列进行重组,进而得到一个完整的基因序列;所述数据化单元用于对所述信息重组单元得到的基因序列数据化并发送到所述显示模块。
值得说明的是,在所述存储模块中保存的测序结果是以多张荧光照片的形式保存的,所述信息模块的作用是将存储模块中保存的测序结果以更直观的形式显示在所述显示模块上。
更进一步的,所述对比模块包括对比单元、检索单元、网络信息传输通道和判断单元;所述对比单元用于对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列;所述网络信息传输通道用于连接内部网络;所述判断单元用于判断被测基因的缺陷种类。
更进一步的,所述对比单元内置有算法存储器,所述算法存储器用于存储能够实现对比功能的算法,包括BLAST算法和Smith-Waterman算法。
值得说明的是,所述算法存储器内所储存的算法也可以是其他能够完成基因序列对比功能的算法,此处不做限定,所述BLAST算法和Smith-Waterman算法属于常见的用于基因序列对比的算法,在此不多做赘述。
本实施例能够根据用户的选择,自动将被测基因与子基因库内不同组的基因进行对比,通过与内部网络中登陆的内容进行比对,能够对患者的状况进行分析;分析系统可直接对高通量测序系统的测序结果进行分析,不需要中转,降低了对设备的要求,提高了整体的智能化程度。
实施例二。
本实施例应当理解为包含前述任一一个实施例的全部特征,并在其基础上进一步改进,在此基础上提出一种高通量测序数据处理及分析流程管控方法:
方法包括以下步骤:
STEP1, 在反应器内使用内切酶将被测基因打断为多个300-500bp的基因片段,并对基因片段进行补齐;
STEP2,在基因片段的尾部加上包含引物和标签的一小段序列;
值得说明的是,所述标签用于对基因片段进行标记,从而区分不同的基因片段;
STEP3,通过桥式PCR扩增基因片段,形成不同的基因簇;
PCR扩增形成的基因簇,每一个基因簇都对应一个不同的基因片段,通过PCR技术能够提高基因的可见度,方便进行检测;
STEP4,加入四种碱基来延续基因,所述碱基包括荧光基团和阻断基团;
值得说明的是,所述碱基是一个含有荧光基团和阻断基团的碱基,当荧光基团在碱基上时,不显色;当阻断基团在该碱基上时,基因停止合成,当阻断基团脱离碱基时,基因开始合成;
STEP5,加入洗脱剂对荧光基团进行洗脱,同时放出阻断基团,开放基因后续合成部分;
STEP6,通过高精度拍照辨色确定碱基,并返回STEP4,直到得到基因片段的所有序列信息。
更进一步的,所述分析系统的工作流程包括以下步骤:
S1,所述选择模块接收来自用户选择的指令,并将该指令发送到所述分析系统的各个模块;
S2,所述信息模块从所述存储模块中提取被测基因的序列;
S3,所述索引模块根据用户指令对子基因库进行筛选和排序,并向所述搜索模块发送导向指令;
S4,所述搜索模块根据导向指令和用户指令,在对应的子基因库内搜索对应的基因;
S5,所述对比模块将搜索到的基因或基因集合与所述信息模块得到的数据化后的基因序列进行对比,并将对比结果发送到所述显示模块;
S6,所述显示模块将对比结果发送到显示屏上。
更进一步的,所述信息重组单元重组信息包括以下步骤:
S21,所述接收单元从所述存储模块中接收多个基因片段的序列;
值得说明的是,所述存储模块中基因片段的序列的保存形式是以图片形式保存的;
S22,所述信息重组单元根据碱基种类与荧光颜色的对应关系,对每一个基因片段的序列进行字母化;
具体的,通过对基因片段的序列进行字母化,可以将基因片段序列的表达形式从照片转换为字母序列,更方便查看;
S23,根据标签,对基因片段的字母序列进行排序;
S24,对相邻的基因片段的字母序列进行去重化,得到被测基因的字母化序列。
更进一步的,还包括一种分析被测基因的持有者基因状况的方法,包括以下步骤:
S41,所述对比模块对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列;
所述对比模块能够通过基因的对比从而筛选出被测基因所携带的缺陷部分;
S42,所述检索单元通过所述网络信息传输通道,在内部网络搜索被测基因所携带的缺陷部分的相关信息以及基因持有者的身体检查资料;
S43,所述判断单元对所述检索单元的检索结果进行比对,判断被测基因的缺陷种类;其中该缺陷种类为现有技术已知的类型,在此不再赘述。
本实施例在前述实施例的系统基础上进一步公开了具体的高通量测序方法,能够根据用户的选择,将被测基因与子基因库内不同组的基因进行对比,通过与内部网络中登陆的内容进行比对,能够对患者的状况进行分析;分析系统可直接对高通量测序系统的测序结果进行分析,不需要中转,降低了对设备的要求,提高了整体的智能化程度。
实施例三。
本实施例应当理解为包含前述任一一个实施例的全部特征,并在其基础上进一步改进,根据图6,图6是初始化算法矩阵H,还在于所述高通量测序数据处理及分析流程管控方法还包括以下步骤:
第一步,定义LD(A,B)为基因序列A和基因序列B的编辑距离;所述编辑距离为将基因序列A转换为基因序列B所用的最少碱基操作数;
第二步,初始化算法矩阵H;
第三步,根据下式计算H中的每一项的LD(i,j);
;
具体的,如图6所示,图6为H的一种样例示意图,其行表示基因序列A的碱基,列表示基因序列B 的碱基,例如A为GGATCAG,B为GAATTCAGTTA,图6中的“^”为预设的空碱基;A和B共同围成一个LD(i,j)的集合,LD(i,j)为第i行第j列的编辑距离,具体的,LD(i,j)对应序列A的第一个碱基到第i个碱基组成的片段到序列B的第一个碱基到第j个碱基的片段的编辑距离,同理,LD(i-1,j-1)为第i-1行第j-1列的编辑距离,LD(i-1,j)为第i-1行第j列的编辑距离,LD(i,j-1)为第i行第j-1列的编辑距离;为基因序列A的第i个碱基,/>为基因序列B的第j个碱基;
第四步,取i和j最大时LD(i,j)的值,这个值为基因序列A和基因序列B的编辑距离;
进一步的,方法还包括第五步,从i=a,j=a开始判断是否满足,若是,则令i=i+1、j=j+1,继续判断,直到/>不等于,并获取此时的i值或j值,在此判断过程中i=j,由此得到基因序列A和基因序列B碱基排列相同的基因段的序列长度为结束判断时的i-1或j-1值,当需要对基因进行编辑时直接从A的第i个或B的第j个开始编辑,其中a为系统预设值;通过如此设计有利于减少了基因编辑的工作量;
本实施例具有以下有益效果:能够通过简洁的步骤计算两个基因序列的编辑距离,从而分析两个基因序列间的差异,有利于提高分析基因的效率,在基因重组、转基因和分子生物学等领域均能起到提高计算效率的作用。
Claims (8)
1.一种高通量测序数据处理及分析流程管控系统,其特征在于:所述高通量测序数据处理及分析流程管控系统包括高通量测序系统、基因库、分析系统、存储模块和用户终端;所述高通量测序系统用于获取被测基因的基因片段和被测基因的基因序列;所述基因库用于保存各种的基因序列,所述基因库包括目录和多个子基因库,多个子基因库用于满足所述分析系统的不同的分析需求;所述分析系统用于对被测基因进行分析;所述存储模块用于存储被测基因片段的序列;所述用户终端用于接收用户命令并向各个模块发送操作指令;
所述高通量测序系统包括信号接收端、处理端、测序装置和信号发送端;所述信号接收端用于接受所述用户终端所发送的指令;所述处理端用于处理所述信号接收端所接收的指令并根据指令控制所述测序装置进行测序;所述信号发送端用于将所述测序装置测序结果发送到所述存储模块;
所述测序装置包括,试剂库、试剂注射器、反应器和拍摄装置;所述试剂库包括多种用于实现高通量测序的试剂;所述试剂注射器用于向所述反应器内注射试剂;所述反应器用于进行测序过程中的各种反应;所述拍摄装置用于拍摄已被荧光标记的基因片段;
所述分析系统包括信息模块、索引模块、选择模块、搜索模块、对比模块和显示模块;所述信息模块用于从所述存储模块中提取被测基因的序列并将其数据化;所述索引模块用于建立所述分析系统和所述基因库之间的索引关系;所述选择模块用于接受来自用户的选择的指令;所述搜索模块由于从所述基因库中搜索需要的基因;所述对比模块用于对比被测基因和基因库中的基因;所述显示模块用于显示所述信息模块所提取的基因序列以及所述对比模块的对比结果。
2.根据权利要求1所述的一种高通量测序数据处理及分析流程管控系统,其特征在于:所述信息模块包括接收单元、信息重组单元和数据化单元;所述接收单元用于从所述存储模块中接收基因片段的序列;所述信息重组单元用于对多个基因片段的序列进行重组,进而得到一个完整的基因序列;所述数据化单元用于对所述信息重组单元得到的基因序列数据化并发送到所述显示模块。
3.根据权利要求2所述的一种高通量测序数据处理及分析流程管控系统,其特征在于:所述对比模块包括对比单元、检索单元、网络信息传输通道和判断单元;所述对比单元用于对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列;所述网络信息传输通道用于连接内部网络;所述判断单元用于判断被测基因的缺陷种类。
4.根据权利要求3所述的一种高通量测序数据处理及分析流程管控系统,其特征在于:所述对比单元内置有算法存储器,所述算法存储器用于存储能够实现对比功能的算法,包括BLAST算法和Smith-Waterman算法。
5.一种高通量测序数据处理及分析流程管控的方法,其应用于如权利要求4所述的系统,其特征在于,高通量测序包括以下步骤:
STEP1, 在反应器内使用内切酶将被测基因打断为多个300-500bp的基因片段,并对基因片段进行补齐;
STEP2,在基因片段的尾部加上包含引物和标签的一小段序列;
STEP3,通过桥式PCR扩增基因片段,形成不同的基因簇;
PCR扩增形成的基因簇,每一个基因簇都对应一个不同的基因片段;
STEP4,加入四种特殊碱基来延续基因,所述特殊碱基包括荧光基团和阻断基团;
STEP5,加入洗脱剂对荧光基团进行洗脱,同时放出阻断基团,开放基因后续合成部分;
STEP6,通过高精度拍照辨色确定碱基,并返回STEP4,直到得到基因片段的所有序列信息。
6.根据权利要求5所述的一种高通量测序数据处理及分析流程管控的方法,其特征在于,所述分析系统的工作流程包括以下步骤:
S1,所述选择模块接收来自用户选择的指令,并将该指令发送到所述分析系统的各个模块;
S2,所述信息模块从所述存储模块中提取被测基因的序列;
S3,所述索引模块根据用户指令对子基因库进行筛选和排序,并向所述搜索模块发送导向指令;
S4,所述搜索模块根据导向指令和用户指令,在对应的子基因库内搜索对应的基因;
S5,所述对比模块将搜索到的基因或基因集合与所述信息模块得到的数据化后的基因序列进行对比,并将对比结果发送到所述显示模块;
S6,所述显示模块将对比结果发送到显示屏上。
7.根据权利要求6所述的一种高通量测序数据处理及分析流程管控的方法,其特征在于,所述信息重组单元重组信息包括以下步骤:
S21,所述接收单元从所述存储模块中接收多个基因片段的序列;
S22,所述信息重组单元根据碱基种类与荧光颜色的对应关系,对每一个基因片段的序列进行字母化;
S23,根据标签,对基因片段的字母序列进行排序;
S24,对相邻的基因片段的字母序列进行去重化,得到被测基因的字母化序列。
8.根据权利要求7所述的一种高通量测序数据处理及分析流程管控的方法,其特征在于,还包括一种分析被测基因持有者基因状况的方法,包括以下步骤:
S41,所述对比模块对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列;
所述对比模块能够通过基因的对比从而筛选出被测基因所携带的缺陷部分;
S42,所述检索单元通过所述网络信息传输通道,在内部网络搜索被测基因所携带的缺陷部分的相关信息以及基因持有者的身体检查资料;
S43,所述判断单元对所述检索单元的检索结果进行比对,判断被测基因的缺陷种类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311282213.3A CN117012285B (zh) | 2023-10-07 | 2023-10-07 | 一种高通量测序数据处理及分析流程管控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311282213.3A CN117012285B (zh) | 2023-10-07 | 2023-10-07 | 一种高通量测序数据处理及分析流程管控系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117012285A true CN117012285A (zh) | 2023-11-07 |
CN117012285B CN117012285B (zh) | 2024-05-14 |
Family
ID=88567595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311282213.3A Active CN117012285B (zh) | 2023-10-07 | 2023-10-07 | 一种高通量测序数据处理及分析流程管控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117012285B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105063208A (zh) * | 2015-08-10 | 2015-11-18 | 北京吉因加科技有限公司 | 一种血浆中游离的目标dna低频突变富集测序方法 |
CN105488422A (zh) * | 2015-11-19 | 2016-04-13 | 上海交通大学 | 基于同态加密隐私数据保护的编辑距离计算系统 |
CN108985008A (zh) * | 2018-06-29 | 2018-12-11 | 郑州云海信息技术有限公司 | 一种快速比对基因数据的方法和比对系统 |
US20200350035A1 (en) * | 2017-10-27 | 2020-11-05 | Sysmex Corporation | Gene analysis method, gene analysis apparatus, management server, gene analysis system, program, and storage medium |
CN115132276A (zh) * | 2022-07-08 | 2022-09-30 | 天津见康华美医学诊断技术有限公司 | 一种实体瘤突变基因检测分析方法及系统 |
CN116434837A (zh) * | 2023-06-12 | 2023-07-14 | 广州盛安医学检验有限公司 | 一种基于ngs的染色体平衡易位检测分析系统 |
-
2023
- 2023-10-07 CN CN202311282213.3A patent/CN117012285B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105063208A (zh) * | 2015-08-10 | 2015-11-18 | 北京吉因加科技有限公司 | 一种血浆中游离的目标dna低频突变富集测序方法 |
CN105488422A (zh) * | 2015-11-19 | 2016-04-13 | 上海交通大学 | 基于同态加密隐私数据保护的编辑距离计算系统 |
US20200350035A1 (en) * | 2017-10-27 | 2020-11-05 | Sysmex Corporation | Gene analysis method, gene analysis apparatus, management server, gene analysis system, program, and storage medium |
CN108985008A (zh) * | 2018-06-29 | 2018-12-11 | 郑州云海信息技术有限公司 | 一种快速比对基因数据的方法和比对系统 |
CN115132276A (zh) * | 2022-07-08 | 2022-09-30 | 天津见康华美医学诊断技术有限公司 | 一种实体瘤突变基因检测分析方法及系统 |
CN116434837A (zh) * | 2023-06-12 | 2023-07-14 | 广州盛安医学检验有限公司 | 一种基于ngs的染色体平衡易位检测分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117012285B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7991560B2 (en) | System, method, and computer software for the presentation and storage of analysis results | |
US20060142949A1 (en) | System, method, and computer program product for dynamic display, and analysis of biological sequence data | |
CA2935941C (en) | Systems and methods for use of known alleles in read mapping | |
Ermolaeva et al. | Data management and analysis for gene expression arrays | |
CN101233509A (zh) | 对双标记序列进行处理和/或基因组定位的方法 | |
US20070087368A1 (en) | Method, System and Computer Software Providing a Genomic Web Portal for Functional Analysis of Alternative Splice Variants | |
CN112522371A (zh) | 一种空间转录组测序数据的分析方法 | |
Fellenberg et al. | Microarray data warehouse allowing for inclusion of experiment annotations in statistical analysis | |
Wang et al. | Computational resources for ribosome profiling: from database to Web server and software | |
CN103069427B (zh) | qPCR基因分型数据的可视化工具 | |
EP4152334A1 (en) | Gene sequencing analysis method and apparatus, and storage medium and computer device | |
CN110910950A (zh) | 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 | |
US20040030504A1 (en) | System, method, and computer program product for the representation of biological sequence data | |
CN115662516A (zh) | 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法 | |
CN109524060B (zh) | 一种遗传病风险提示的基因测序数据处理系统与处理方法 | |
CN110970091A (zh) | 标签质控的方法及装置 | |
CN117012285B (zh) | 一种高通量测序数据处理及分析流程管控系统 | |
US20020059326A1 (en) | System, method, and computer program product for management of biological experiment information | |
Adsera et al. | Integrative analysis of 10,000 epigenomic maps across 800 samples for regulatory genomics and disease dissection | |
US20050123971A1 (en) | System, method, and computer software product for generating genotype calls | |
Koide et al. | SpotWhatR: a user-friendly microarray data analysis system | |
CN115948521A (zh) | 一种检测非整倍体缺失染色体信息的方法 | |
CN112885407B (zh) | 一种基于二代测序的微单倍型检测分型系统和方法 | |
US20040138821A1 (en) | System, method, and computer software product for analysis and display of genotyping, annotation, and related information | |
CN112908413A (zh) | 一种基于abo基因的血型分型方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |