CN117012285A

CN117012285A - 一种高通量测序数据处理及分析流程管控系统

Info

Publication number: CN117012285A
Application number: CN202311282213.3A
Authority: CN
Inventors: 谢杰; 文妍; 杨聪颖; 梁丽敏
Original assignee: Guangzhou Shengan Medical Laboratory Co ltd
Current assignee: Guangzhou Shengan Medical Laboratory Co ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-07
Anticipated expiration: 2043-10-07
Also published as: CN117012285B

Abstract

本发明提供了一种高通量测序数据处理及分析流程管控系统，包括高通量测序系统、基因库、分析系统、存储模块和用户终端。所述分析系统包括信息模块、索引模块、选择模块、搜索模块、对比模块和显示模块。所述对比模块用于对比被测基因和基因库中的基因，所述对比模块包括对比单元、检索单元、网络信息传输通道和判断单元；所述判断单元用于判断被测基因的缺陷种类。本发明根据用户的选择，将被测基因与子基因库内不同组的基因进行对比，通过与内部网络中登陆的内容进行比对，能够对患者的状况进行分析；分析系统直接对高通量测序系统的测序结果进行分析，不需要中转，降低了对设备的要求，提高了整体的智能化程度。

Description

一种高通量测序数据处理及分析流程管控系统

技术领域

本发明涉及DNA测序领域，尤其涉及一种高通量测序数据处理及分析流程管控系统。

背景技术

高通量测序技术又称第二代测序技术，或大规模平行测序。区别于传统Sanger（双脱氧法）测序，能够一次并行对大量核酸分子进行平行序列测定的技术，通常一次测序反应能产出不低于100Mb的测序数据。随着第二代测序技术的迅猛发展，科学界也开始越来越多地应用第二代测序技术来解决生物学问题。比如在基因组水平上对还没有参考序列的物种进行从头测序，获得该物种的参考序列，为后续研究和分子育种奠定基础；对有参考序列的物种，进行全基因组重测序，在全基因组水平上扫描并检测突变位点，发现个体差异的分子基础。

如现有技术CN115775593A公开的一种m6A高通量测序数据生物信息分析方法，属于生物信息学技术领域。所述分析方法包括原始数据产出统计与预处理、数据污染过滤、测序数据与基因组比对、全基因组层面Peak Calling与注释、样本间差异Peak分析、基因序列motif分析、基因与lncRNA表达丰度分析、差异基因表达谱分析、差异lncRNA表达谱分析。

再来看如CN111534602A的现有技术公开的一种基于高通量测序分析人类血型基因型的方法，属于生物信息学领域。本发明首先获得人类血样样本DNA的高通量测序数据，进一步通过序列比对、变异检测、基因注释对测序数据进行处理，完成血型基因型的分析和验证。

目前，对于DNA高通量测序在医学方面的应用五花八门，高通量测序往往被运用于疾病的预防，但是在这方面的应用技术并没有一个最佳的方案，想要通过测序结果实现不同的功能往往需要采用不同的软件甚至是不同的设备，针对这方面现有技术所存在的问题，提出了本方案。

发明内容

本发明的目的在于，针对目前所存在的不足，提出了一种高通量测序数据处理及分析流程管控方法及系统。

为了克服现有技术的不足，本发明采用如下技术方案：

一种高通量测序数据处理及分析流程管控系统，其特征在于：所述高通量测序数据处理及分析流程管控系统包括高通量测序系统、基因库、分析系统、存储模块和用户终端；所述高通量测序系统用于获取被测基因的基因片段和被测基因的基因序列；所述基因库用于保存各种的基因序列，所述基因库包括目录和多个子基因库，多个子基因库用于满足所述分析系统的不同的分析需求；所述分析系统用于对被测基因进行分析；所述存储模块用于存储被测基因片段的序列；所述用户终端用于接收用户命令并向各个模块发送操作指令；

所述高通量测序系统包括信号接收端、处理端、测序装置和信号发送端；所述信号接收端用于接受所述用户终端所发送的指令；所述处理端用于处理所述信号接收端所接收的指令并根据指令控制所述测序装置进行测序；所述信号发送端用于将所述测序装置测序结果发送到所述存储模块；

所述测序装置包括，试剂库、试剂注射器、反应器和拍摄装置；所述试剂库包括多种用于实现高通量测序的试剂；所述试剂注射器用于向所述反应器内注射试剂；所述反应器用于进行测序过程中的各种反应；所述拍摄装置用于拍摄已被荧光标记的基因片段；

所述分析系统包括信息模块、索引模块、选择模块、搜索模块、对比模块和显示模块；所述信息模块用于从所述存储模块中提取被测基因的序列并将其数据化；所述索引模块用于建立所述分析系统和所述基因库之间的索引关系；所述选择模块用于接受来自用户的选择的指令；所述搜索模块由于从所述基因库中搜索需要的基因；所述对比模块用于对比被测基因和基因库中的基因；所述显示模块用于显示所述信息模块所提取的基因序列以及所述对比模块的对比结果。

更进一步的，所述信息模块包括接收单元、信息重组单元和数据化单元；所述接收单元用于从所述存储模块中接收基因片段的序列；所述信息重组单元用于对多个基因片段的序列进行重组，进而得到一个完整的基因序列；所述数据化单元用于对所述信息重组单元得到的基因序列数据化并发送到所述显示模块。

更进一步的，所述对比模块包括对比单元、检索单元、网络信息传输通道和判断单元；所述对比单元用于对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列；所述网络信息传输通道用于连接内部网络；所述判断单元用于判断被测基因的缺陷种类。

更进一步的，所述对比单元内置有算法存储器，所述算法存储器用于存储能够实现对比功能的算法，包括BLAST算法和Smith-Waterman算法。

更进一步的，高通量测序包括以下步骤：

STEP1, 在反应器内使用内切酶将被测基因打断为多个300-500bp的基因片段，并对基因片段进行补齐；

STEP2，在基因片段的尾部加上包含引物和标签的一小段序列；

STEP3，通过桥式PCR扩增基因片段，形成不同的基因簇；

PCR扩增形成的基因簇，每一个基因簇都对应一个不同的基因片段，通过PCR技术能够提高基因的可见度，方便进行检测；

STEP4，加入四种特殊碱基来延续基因，所述特殊碱基包括荧光基团和阻断基团；

STEP5，加入洗脱剂对荧光基团进行洗脱，同时放出阻断基团，开放基因后续合成部分；

STEP6，通过高精度拍照辨色确定碱基，并返回STEP4，直到得到基因片段的所有序列信息。

更进一步的，所述分析系统的工作流程包括以下步骤：

S1，所述选择模块接收来自用户选择的指令，并将该指令发送到所述分析系统的各个模块；

S2，所述信息模块从所述存储模块中提取被测基因的序列；

S3，所述索引模块根据用户指令对子基因库进行筛选和排序，并向所述搜索模块发送导向指令；

S4，所述搜索模块根据导向指令和用户指令，在对应的子基因库内搜索对应的基因；

S5，所述对比模块将搜索到的基因或基因集合与所述信息模块得到的数据化后的基因序列进行对比，并将对比结果发送到所述显示模块；

S6，所述显示模块将对比结果发送到显示屏上。

更进一步的，所述信息重组单元重组信息包括以下步骤：

S21，所述接收单元从所述存储模块中接收多个基因片段的序列；

S22，所述信息重组单元根据碱基种类与荧光颜色的对应关系，对每一个基因片段的序列进行字母化；

S23，根据标签，对基因片段的字母序列进行排序；

S24，对相邻的基因片段的字母序列进行去重化，得到被测基因的字母化序列。

更进一步的，还包括一种分析被测基因的持有者基因状况的方法，包括以下步骤：

S41，所述对比模块对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列；

所述对比模块能够通过基因的对比从而筛选出被测基因所携带的缺陷部分；

S42，所述检索单元通过所述网络信息传输通道，在内部网络搜索被测基因所携带的缺陷部分的相关信息以及基因持有者的身体检查资料；

S43，所述判断单元对所述检索单元的检索结果进行比对，判断被测基因的缺陷种类。

本发明所取得的有益效果是：能够根据用户的选择，将被测基因与子基因库内不同组的基因进行对比，通过与内部网络中登陆的内容进行比对，能够对患者的状况进行分析；分析系统可直接对高通量测序系统的测序结果进行分析，不需要中转，降低了对设备的要求，提高了整体的智能化程度。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定相同的部分。

图1为本发明的整体结构示意图。

图2为本发明高通量测序的流程示意图。

图3为本发明分析系统的工作流程示意图。

图4为本发明信息重组的流程示意图。

图5为本发明分析被测基因的持有者基因状况的流程示意图。

图6为本发明实施例三的初始化算法矩阵H示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的精神下进行各种修饰与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

实施例一。

根据图1到图5，本实施例提供一种高通量测序数据处理及分析流程管控系统，所述高通量测序数据处理及分析流程管控系统包括：高通量测序系统、基因库、分析系统、存储模块和用户终端；所述高通量测序系统用于获取被测基因的基因片段和被测基因的基因序列；所述基因库用于保存各种的基因序列，所述基因库包括目录和多个子基因库，多个子基因库用于满足所述分析系统的不同的分析需求；所述分析系统用于对被测基因进行分析；所述存储模块用于存储被测基因片段的序列；所述用户终端用于接收用户命令并向各个模块发送操作指令；

具体的，不同碱基对应的荧光标记的颜色不同；所述拍摄装置通过按顺序多次拍摄荧光照片并根据荧光颜色的排列顺序，能够得到一个基因片段的序列，所述存储模块中保存的测序结果是以照片组的形式保存的。

值得说明的是，在所述存储模块中保存的测序结果是以多张荧光照片的形式保存的，所述信息模块的作用是将存储模块中保存的测序结果以更直观的形式显示在所述显示模块上。

值得说明的是，所述算法存储器内所储存的算法也可以是其他能够完成基因序列对比功能的算法，此处不做限定，所述BLAST算法和Smith-Waterman算法属于常见的用于基因序列对比的算法，在此不多做赘述。

本实施例能够根据用户的选择，自动将被测基因与子基因库内不同组的基因进行对比，通过与内部网络中登陆的内容进行比对，能够对患者的状况进行分析；分析系统可直接对高通量测序系统的测序结果进行分析，不需要中转，降低了对设备的要求，提高了整体的智能化程度。

实施例二。

本实施例应当理解为包含前述任一一个实施例的全部特征，并在其基础上进一步改进，在此基础上提出一种高通量测序数据处理及分析流程管控方法：

方法包括以下步骤：

值得说明的是，所述标签用于对基因片段进行标记，从而区分不同的基因片段；

STEP3，通过桥式PCR扩增基因片段，形成不同的基因簇；

STEP4，加入四种碱基来延续基因，所述碱基包括荧光基团和阻断基团；

值得说明的是，所述碱基是一个含有荧光基团和阻断基团的碱基，当荧光基团在碱基上时，不显色；当阻断基团在该碱基上时，基因停止合成，当阻断基团脱离碱基时，基因开始合成；

更进一步的，所述分析系统的工作流程包括以下步骤：

S2，所述信息模块从所述存储模块中提取被测基因的序列；

S6，所述显示模块将对比结果发送到显示屏上。

更进一步的，所述信息重组单元重组信息包括以下步骤：

值得说明的是，所述存储模块中基因片段的序列的保存形式是以图片形式保存的；

具体的，通过对基因片段的序列进行字母化，可以将基因片段序列的表达形式从照片转换为字母序列，更方便查看；

S23，根据标签，对基因片段的字母序列进行排序；

S43，所述判断单元对所述检索单元的检索结果进行比对，判断被测基因的缺陷种类；其中该缺陷种类为现有技术已知的类型，在此不再赘述。

本实施例在前述实施例的系统基础上进一步公开了具体的高通量测序方法，能够根据用户的选择，将被测基因与子基因库内不同组的基因进行对比，通过与内部网络中登陆的内容进行比对，能够对患者的状况进行分析；分析系统可直接对高通量测序系统的测序结果进行分析，不需要中转，降低了对设备的要求，提高了整体的智能化程度。

实施例三。

本实施例应当理解为包含前述任一一个实施例的全部特征，并在其基础上进一步改进，根据图6，图6是初始化算法矩阵H，还在于所述高通量测序数据处理及分析流程管控方法还包括以下步骤：

第一步，定义LD（A，B）为基因序列A和基因序列B的编辑距离；所述编辑距离为将基因序列A转换为基因序列B所用的最少碱基操作数；

第二步，初始化算法矩阵H；

第三步，根据下式计算H中的每一项的LD（i，j）；

；

具体的，如图6所示，图6为H的一种样例示意图，其行表示基因序列A的碱基，列表示基因序列B 的碱基，例如A为GGATCAG，B为GAATTCAGTTA，图6中的“^”为预设的空碱基；A和B共同围成一个LD（i，j）的集合，LD（i，j）为第i行第j列的编辑距离，具体的，LD（i，j）对应序列A的第一个碱基到第i个碱基组成的片段到序列B的第一个碱基到第j个碱基的片段的编辑距离，同理，LD（i-1，j-1）为第i-1行第j-1列的编辑距离，LD（i-1，j）为第i-1行第j列的编辑距离，LD（i，j-1）为第i行第j-1列的编辑距离；为基因序列A的第i个碱基，/>为基因序列B的第j个碱基；

第四步，取i和j最大时LD（i，j）的值，这个值为基因序列A和基因序列B的编辑距离；

进一步的，方法还包括第五步，从i=a，j=a开始判断是否满足，若是，则令i=i+1、j=j+1，继续判断，直到/>不等于，并获取此时的i值或j值，在此判断过程中i=j，由此得到基因序列A和基因序列B碱基排列相同的基因段的序列长度为结束判断时的i-1或j-1值，当需要对基因进行编辑时直接从A的第i个或B的第j个开始编辑，其中a为系统预设值；通过如此设计有利于减少了基因编辑的工作量；

本实施例具有以下有益效果：能够通过简洁的步骤计算两个基因序列的编辑距离，从而分析两个基因序列间的差异，有利于提高分析基因的效率，在基因重组、转基因和分子生物学等领域均能起到提高计算效率的作用。

Claims

1.一种高通量测序数据处理及分析流程管控系统，其特征在于：所述高通量测序数据处理及分析流程管控系统包括高通量测序系统、基因库、分析系统、存储模块和用户终端；所述高通量测序系统用于获取被测基因的基因片段和被测基因的基因序列；所述基因库用于保存各种的基因序列，所述基因库包括目录和多个子基因库，多个子基因库用于满足所述分析系统的不同的分析需求；所述分析系统用于对被测基因进行分析；所述存储模块用于存储被测基因片段的序列；所述用户终端用于接收用户命令并向各个模块发送操作指令；

2.根据权利要求1所述的一种高通量测序数据处理及分析流程管控系统，其特征在于：所述信息模块包括接收单元、信息重组单元和数据化单元；所述接收单元用于从所述存储模块中接收基因片段的序列；所述信息重组单元用于对多个基因片段的序列进行重组，进而得到一个完整的基因序列；所述数据化单元用于对所述信息重组单元得到的基因序列数据化并发送到所述显示模块。

3.根据权利要求2所述的一种高通量测序数据处理及分析流程管控系统，其特征在于:所述对比模块包括对比单元、检索单元、网络信息传输通道和判断单元；所述对比单元用于对比所述搜索模块搜索到的基因和所述信息模块得到的数据化后的基因序列；所述网络信息传输通道用于连接内部网络；所述判断单元用于判断被测基因的缺陷种类。

4.根据权利要求3所述的一种高通量测序数据处理及分析流程管控系统，其特征在于:所述对比单元内置有算法存储器，所述算法存储器用于存储能够实现对比功能的算法，包括BLAST算法和Smith-Waterman算法。

5.一种高通量测序数据处理及分析流程管控的方法，其应用于如权利要求4所述的系统，其特征在于，高通量测序包括以下步骤：

STEP3，通过桥式PCR扩增基因片段，形成不同的基因簇；

PCR扩增形成的基因簇，每一个基因簇都对应一个不同的基因片段；

6.根据权利要求5所述的一种高通量测序数据处理及分析流程管控的方法，其特征在于，所述分析系统的工作流程包括以下步骤：

S2，所述信息模块从所述存储模块中提取被测基因的序列；

S6，所述显示模块将对比结果发送到显示屏上。

7.根据权利要求6所述的一种高通量测序数据处理及分析流程管控的方法，其特征在于，所述信息重组单元重组信息包括以下步骤：

S23，根据标签，对基因片段的字母序列进行排序；

8.根据权利要求7所述的一种高通量测序数据处理及分析流程管控的方法，其特征在于，还包括一种分析被测基因持有者基因状况的方法，包括以下步骤：