CN105733921A - 下一代测序分析系统及其下一代测序分析方法 - Google Patents

下一代测序分析系统及其下一代测序分析方法 Download PDF

Info

Publication number
CN105733921A
CN105733921A CN201410748830.2A CN201410748830A CN105733921A CN 105733921 A CN105733921 A CN 105733921A CN 201410748830 A CN201410748830 A CN 201410748830A CN 105733921 A CN105733921 A CN 105733921A
Authority
CN
China
Prior art keywords
gene
sequencing analysis
analysis system
data
reference sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410748830.2A
Other languages
English (en)
Inventor
郑少桦
邱育贤
庄曜宇
卢子彬
董恒元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN105733921A publication Critical patent/CN105733921A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种下一代测序分析系统及其下一代测序分析方法。下一代测序分析系统接收一目标基因输入,并根据基因数据库的基因关联数据,决定目标基因输入的至少一基因群组。下一代测序分析系统根据至少一基因群组,将标准基因参考序列调整为特征基因参考序列,并将待测基因片段数据与特征基因参考序列进行比对,以分析待测基因片段数据与特征基因参考序列的基因变异率。

Description

下一代测序分析系统及其下一代测序分析方法
技术领域
本发明系关于一种下一代测序分析系统及其下一代测序分析方法,更具体而言,本发明的下一代测序分析系统及其下一代测序分析方法主要系以特征化的标准基因序列作为基因比对基础。
背景技术
相较于传统的基因测序(sequencing)方法,下一代测序(NextGenerationSequencing)方法在改良的化学测序方式以及基因自动化工程辅助的情况下,将可更有效地缩短测序的时间,并同时降低测序的成本。
惟下一代测序方法及其变异分析过程中,待测基因样本皆须以标准基因参考序列为标准进行比对。其中,标准基因参考序列的位点个数动辄数亿为单位。因此,若以现行的下一代测序及变异分析方式进行基因分析,单笔基因数据平均分析耗时将长达12~24小时。
虽目前有专为下一代测序方法设计用以加速测序及分析的相关演算法以及硬件,然在大部分加强效能的演算法实用性偏低,且提升硬件等级的同时将大幅提升成本的情况下,目前下一代测序方法的处理效率仍遭遇相当程度的瓶颈。
据此,如何利用现有的资源,有效地提升下一代测序方法及分析结果的处理效率,乃业界亟需努力的目标。
发明内容
本发明的主要目的系提供一种用于下一代测序分析系统的下一代测序分析方法。下一代测序分析系统与基因数据库连线。下一代测序分析方法包含:(a)令下一代测序分析系统接收目标基因输入;(b)令下一代测序分析系统根据基因数据库的基因关联数据,决定目标基因输入的至少一基因群组;(c)令下一代测序分析系统根据至少一基因群组,将基因数据库的标准基因参考序列调整为特征基因参考序列;(d)令下一代测序分析系统将多份待测基因片段数据与特征基因参考序列进行比对;(e)令下一代测序分析系统分析多份待测基因片段数据与特征基因参考序列的基因变异率。
为完成前述目的,本发明又提供一种下一代测序分析系统,包含传输接口、输入接口、存储器以及处理单元。传输接口用以与基因数据库连线,其中,基因数据库具有基因关联数据以及标准基因参考序列。输入接口用以接收目标基因输入。存储器存有多份待测基因片段数据。处理单元用以:根据基因关联数据,决定目标基因输入的至少一基因群组;根据至少一基因群组,将标准基因参考序列调整为特征基因参考序列;将多份待测基因片段数据与特征基因参考序列进行比对;分析多份待测基因片段数据与特征基因参考序列的基因变异率。
参阅图式及随后描述的实施方式后,所属技术领域具有通常知识者可更了解本发明的技术手段及具体实施态样。
附图说明
图1A系本发明第一实施例的下一代测序分析系统的示意图;
图1B系本发明第一实施例的基因群组化示意图;
图1C系本发明第一实施例的参考序列特征化示意图;
图1D系本发明第一实施例的待测基因片段数据与特征基因参考序列比对示意图;以及
图2系本发明第二实施例的下一代测序分析方法的流程图。
附图标记说明
1下一代测序分析系统
10目标基因输入
11传输接口
13输入单元
15处理单元
17存储器
170待测基因片段数据
2基因数据库
20基因关联数据
22标准基因参考序列
24特征基因参考序列
GroupsA、B、C基因群组
具体实施方式
以下将透过本发明的实施例来阐释本发明。然而,该等实施例并非用以限制本发明需在如实施例所述的任何环境、应用程式或方式方能实施。因此,以下实施例的说明仅在于阐释本发明,而非用以限制本发明。在以下实施例及图式中,与本发明非直接相关的元件已省略而未绘示,且绘示于图式中的各元件之间的尺寸关系仅为便于理解,而非用以限制为实际的实施比例。
请参考图1A,其系本发明第一实施例的一下一代测序系统1的示意图。下一代测序系统1包含一传输接口11、一输入单元13、一处理单元15以及一存储器17。传输接口11与一基因数据库2连线,藉以撷取基因数据库2内存的一基因关联数据20以及一标准基因参考序列22(如加州大学公布的UCSCHG19)。存储器17存有多份待测基因片段数据170。下一代测序分析的过程将于下文中予以进一步阐述。
首先,使用者可针对所欲研究分析的基因数据,对下一代测序分析系统1进行操作。具体而言,使用者对下一代测序分析系统1输入一目标基因输入10,其包含欲进行分析的基因标的。随即,下一代测序分析系统1的输入单元13便接收目标基因输入10。
请同时参考图1B,其系本发明第一实施例的基因群组化示意图。具体来说,下一代测序分析系统1的处理单元15根据基因数据库2记录的基因关联数据20,决定目标基因输入10的至少一基因群组GroupsA、B、C。详言之,由于基因关联数据20主要系记录基因蛋白质相关各级结构、共同运作及功能等数据,因此,下一代测序分析系统1便可据以判断与目标基因输入10的基因标的相关的基因,并将其群组化。
举例而言,假设使用者欲研究与乳癌高度相关的AKT3基因,则使用者便可将目标基因输入定为AKT3。接着,由于基因关联数据中包含基因家族(GeneFamily)相关数据,因此,下一代测序分析系统便可据以判断AKT3隶属的基因家族(如AKT1、AKAP13、ANLN),并将AKT3的基因家族所记录的相关基因群组化。
类似地,基因关联数据中亦可包含基因路径(GenePathway)相关数据,因此,下一代测序分析系统同样可据以判断AKT3隶属的基因路径(如并将AKT3的基因路径所通过的相关基因群组化。进一步而言,下一代测序分析系统更可同时根据基因家族以及基因路径,将AKT3的基因家族中的基因及其各自所通过的基因路径扩大群组化的范围。
如此一来,透过前述方式,便可得到与目标基因输入高度相关的基因群组。须特别说明,第一实施例的基因群组个数为三,惟其非用以限制基因群组织数量,且前述范例亦非用以将基因关联数据限定于基因家族以及基因路径。本领域技术人员应可透过本发明的内容,轻易理解基因关联数据亦可包含使用者自订或自行研究的基因相关数据,且不同的基因将因为不同的基因关联数据而具有不同的基因群组数量。
更者,前述群组化的方式主要系透过基因家族以及基因路径的关联性完成,然其同样非用以限定基因群组化的方式,本领域技术人员应可轻易理解,如何将利用不同分组演算法的技术(如k-means分组演算法)应用于本发明,以针对目标基因输入的基因丛集完成基因的分组,于此不再赘述。
接着,请同时参考图1C,其系本发明第一实施例的参考序列特征化示意图。具体而言,下一代测序分析系统1的处理单元15判断目标基因输入10的基因群组GroupsA、B、C后,便据以将标准基因参考序列22调整为一特征基因参考序列24。
更进一步来说,由于基因群组GroupsA、B、C各自包含其所代表的基因,因此,下一代测序分析系统1的处理单元15便可根据基因群组GroupsA、B、C的内容,于标准基因参考序列22中挑选相应的基因段落,并将其筛选为特征基因参考序列24。换言之,特征基因参考序列24主要系针对目标基因输入10的基因群组GroupsA、B、C所得的参考序列。
随后,请同时参考图1D,其系本发明第一实施例的待测基因片段数据与特征基因参考序列比对示意图。下一代测序分析系统1的处理单元15便可将待测基因片段170与特征基因参考序列24进行比对,并根据比对结果分析待测基因片段170与特征基因参考序列24的一基因变异率(未绘示)。须特别说明,由于将基因片段与参考序列进行测序、比对及分析的技术为本领域技术人员常见的技术手段,于此不再赘述。
本发明的一第二实施例系为一下一代测序分析方法,其流程图请参考图2。第二实施例的方法系用于一下一代测序分析系统(例如前述实施例的下一代测序分析系统1)。下一代测序分析系统与一基因数据库连线,基因数据库中存有一基因关联数据以及一标准基因参考序列。第二实施例的详细步骤如下所述。
首先,执行步骤201,令下一代测序分析系统接收使用者输入的一目标基因输入。其中,目标基因输入包含使用者欲研究分析的基因数据。接着,执行步骤202,令下一代测序分析系统根据基因数据库的基因关联数据,决定目标基因输入的至少一基因群组。
同样地,由于基因关联数据可包含基因家族、基因路径或自订基因群组的关联性数据,因此前述决定至少一基因群组的步骤主要可依据基因家族、基因路径或自订基因群组的关联性数据完成。类似地,基因分组的方式亦可利用不同分组演算法的技术(如k-means分组演算法)完成。
随后,执行步骤203,令下一代测序分析系统根据至少一基因群组,将基因数据库的标准基因参考序列调整为一特征基因参考序列。换言之,即针对至少一基因群组的基因内容,于标准基因参考序列上筛选出相对应的段落,以形成特征基因参考序列。
执行步骤204,令下一代测序分析系统将多份待测基因片段数据与特征基因参考序列进行比对。最后,执行步骤205,令下一代测序分析系统分析多份待测基因片段数据与特征基因参考序列的一基因变异率。
综上所述,本发明的下一代测序分析系统及其下一代测序分析方法,可先根据欲分析的基因进行基因群组化,并利用群组化的基因将标准基因参考序列进行特征化,换言之,即将其大幅简化为基因特征参考序列,则后续仅需针对长度较短的基因特征参考序列进行测序、分析以及变异搜寻,如此一来,将有效地缩短基因数据的分析处理时间。
惟上述实施例仅为例示性说明本发明的实施态样,以及阐释本发明的技术特征,并非用来限制本发明的保护范畴。任何熟悉此技艺的人士可轻易完成的改变或均等性的安排均属于本发明所主张的范围,本发明的权利保护范围应以申请专利范围为准。

Claims (8)

1.一种用于一下一代测序(NextGenerationSequencing)分析系统的下一代测序分析方法,该下一代测序分析系统与一基因数据库连线,包含:
(a)令该下一代测序分析系统接收一目标基因输入;
(b)令该下一代测序分析系统根据该基因数据库的一基因关联数据,决定该目标基因输入的至少一基因群组;
(c)令该下一代测序分析系统根据该至少一基因群组,将该基因数据库的一标准基因参考序列调整为一特征基因参考序列;
(d)令该下一代测序分析系统将多份待测基因片段数据与该特征基因参考序列进行比对;
(e)令该下一代测序分析系统分析该等待测基因片段数据与该特征基因参考序列的一基因变异率。
2.如权利要求1所述的下一代测序分析方法,其中,该基因关联数据包含一基因家族(GeneFamily)数据,步骤(b)更包含:
(b1)令该下一代测序分析系统根据该基因数据库的该基因家族数据,决定该目标基因输入的该至少一基因群组。
3.如权利要求1所述的下一代测序分析方法,其中,该基因关联数据包含一基因路径(GenePathway)数据,步骤(b)更包含:
(b1)令该下一代测序分析系统根据该基因数据库的该基因路径数据,决定该目标基因输入的该至少一基因群组。
4.如权利要求1所述的下一代测序分析方法,其中,步骤(b)更包含:
(b1)令该下一代测序分析系统根据该基因数据库的该基因关联数据,透过一分组演算法决定该目标基因输入的该至少一基因群组。
5.一种下一代测序(NextGenerationSequencing)分析系统,包含:
一传输接口,用以与一基因数据库连线,其中,该基因数据库具有一基因关联数据以及一标准基因参考序列;
一输入接口,用以接收一目标基因输入;
一存储器,存有多份待测基因片段数据;
一处理单元,用以:
根据该基因关联数据,决定该目标基因输入的至少一基因群组;
根据该至少一基因群组,将该标准基因参考序列调整为一特征基因参考序列;
将该等待测基因片段数据与该特征基因参考序列进行比对;
分析该等待测基因片段数据与该特征基因参考序列的一基因变异率。
6.如权利要求5所述的下一代测序分析系统,其中,该基因关联数据包含一基因家族(GeneFamily)数据,该处理单元系根据该基因家族数据决定该目标基因输入的该至少一基因群组。
7.如权利要求5所述的下一代测序分析系统,其中,该基因关联数据包含一基因路径(GenePathway)数据,该处理单元系根据该基因路径数据决定该目标基因输入的该至少一基因群组。
8.如权利要求5所述的下一代测序分析系统,其中,该处理单元系根据该基因数据库的该基因关联数据,透过一分组演算法决定该目标基因输入的该至少一基因群组。
CN201410748830.2A 2014-12-01 2014-12-09 下一代测序分析系统及其下一代测序分析方法 Pending CN105733921A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW103141576 2014-12-01
TW103141576A TWI571763B (zh) 2014-12-01 2014-12-01 次世代定序分析系統及其次世代定序分析方法

Publications (1)

Publication Number Publication Date
CN105733921A true CN105733921A (zh) 2016-07-06

Family

ID=56079372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410748830.2A Pending CN105733921A (zh) 2014-12-01 2014-12-09 下一代测序分析系统及其下一代测序分析方法

Country Status (3)

Country Link
US (1) US20160154929A1 (zh)
CN (1) CN105733921A (zh)
TW (1) TWI571763B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108004302A (zh) * 2017-12-12 2018-05-08 中国农业科学院麻类研究所 一种转录组参考的关联分析方法及其应用

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709276A (zh) * 2017-01-21 2017-05-24 深圳昆腾生物信息有限公司 一种基因变异成因分析方法及系统
CN109785905B (zh) * 2018-12-18 2021-07-23 中国科学院计算技术研究所 一种面向基因比对算法的加速装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102154452A (zh) * 2010-12-30 2011-08-17 深圳华大基因科技有限公司 一种鉴定顺式和反式调控作用的方法和系统
CN102277351A (zh) * 2010-06-10 2011-12-14 中国科学院上海生命科学研究院 从无基因组参考序列物种获得基因信息及功能基因的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8428882B2 (en) * 2005-06-14 2013-04-23 Agency For Science, Technology And Research Method of processing and/or genome mapping of diTag sequences
KR101287431B1 (ko) * 2010-05-07 2013-07-19 (주)진매트릭스 표적 유전자의 다양한 변이가 존재하는 유전자 영역을 증폭하기 위한 프라이머 조성물, 이를 이용한 표적 유전자 증폭 방법 및 이를 포함하는 pcr 증폭 키트 그리고 이를 이용한 표적 유전자의 유전자형 분석방법
JP6314091B2 (ja) * 2012-02-08 2018-04-18 ダウ アグロサイエンシィズ エルエルシー Dna配列のデータ分析
EP2848690B1 (en) * 2012-12-12 2020-08-19 The Broad Institute, Inc. Crispr-cas component systems, methods and compositions for sequence manipulation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102277351A (zh) * 2010-06-10 2011-12-14 中国科学院上海生命科学研究院 从无基因组参考序列物种获得基因信息及功能基因的方法
CN102154452A (zh) * 2010-12-30 2011-08-17 深圳华大基因科技有限公司 一种鉴定顺式和反式调控作用的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUMAR ET AL: "MEGA3:Integrated software for Molecular Evolutionary Genetics Analysis and sequence alignment", 《BRIEFINGS IN BIOINFORMATICS》 *
LI ET AL: "Genome-Wide Analysis of Basic/Helix-Loop-Helix Transcription Factor Family in Rice and Arabidopsis", 《GENOME ANALYSIS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108004302A (zh) * 2017-12-12 2018-05-08 中国农业科学院麻类研究所 一种转录组参考的关联分析方法及其应用

Also Published As

Publication number Publication date
TW201621732A (zh) 2016-06-16
TWI571763B (zh) 2017-02-21
US20160154929A1 (en) 2016-06-02

Similar Documents

Publication Publication Date Title
WO2020132572A1 (en) Source of origin deconvolution based on methylation fragments in cell-free-dna samples
US11686703B2 (en) Automated analysis of analytical gels and blots
Gong et al. lncRNA-screen: an interactive platform for computationally screening long non-coding RNAs in large genomics datasets
CN106777070B (zh) 一种基于分块的Web记录链接的系统及方法
Amin et al. A comparison of two oversampling techniques (smote vs mtdf) for handling class imbalance problem: A case study of customer churn prediction
CN105733921A (zh) 下一代测序分析系统及其下一代测序分析方法
Shujaat et al. Cr-prom: A convolutional neural network-based model for the prediction of rice promoters
CN105426700A (zh) 一种批量计算基因组直系同源基因进化速率的方法
CN103136440B (zh) 数据处理方法和装置
CN107103206B (zh) 基于标准熵的局部敏感哈希的dna序列聚类
CN110970093B (zh) 一种筛选引物设计模板的方法、装置及应用
CN107132268A (zh) 一种用于识别肺癌组织的数据处理装置及系统
González Calabozo et al. Gene Expression Array Exploration Using-Formal Concept Analysis
US11177018B2 (en) Stable genes in comparative transcriptomics
EP4100734A1 (en) Systems and methods for identifying samples of interest by comparing aligned time-series measurements
Iravani et al. An Interpretable Deep Learning Approach for Biomarker Detection in LC-MS Proteomics Data
Pojda et al. Comparing different data fusion strategies for cancer classification
Psiuk-Maksymowicz et al. Scalability of a genomic data analysis in the biotest platform
KR20190061771A (ko) Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법
CN109858121B (zh) 生存曲线目标因素的关键值确定方法、装置、设备及介质
Mohsen et al. Improving de novo metatranscriptome assembly via machine learning algorithms
Boc et al. An efficient algorithm for the detection and classification of horizontal gene transfer events and identification of mosaic genes
EP3189458B1 (en) Methods and storage medium for visualizing gene expression data
Wang Amplicon Sequencing Pipelines in Metagenomics
Bajo-Morales et al. COVID-19 Biomarkers Detection Using ‘KnowSeq’R Package

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160706