CN104937599A - 数据解析装置及其方法 - Google Patents

数据解析装置及其方法 Download PDF

Info

Publication number
CN104937599A
CN104937599A CN201380071119.1A CN201380071119A CN104937599A CN 104937599 A CN104937599 A CN 104937599A CN 201380071119 A CN201380071119 A CN 201380071119A CN 104937599 A CN104937599 A CN 104937599A
Authority
CN
China
Prior art keywords
targeting sequencing
sequence
data
database
critical sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380071119.1A
Other languages
English (en)
Other versions
CN104937599B (zh
Inventor
木村宏一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi High Tech Corp
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN104937599A publication Critical patent/CN104937599A/zh
Application granted granted Critical
Publication of CN104937599B publication Critical patent/CN104937599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明能够削减在进行染色体组/外显子组/转录物组解析等时所要进行的匹配处理的计算成本,并且在匹配目的地存在任意性的情况下能够避免产生依存于探索方法的偏差。因此,本发明能够对所有前导序列的所有循环置换或后缀进行分类后,以任意的碱基序列为关键序列进行检索(105)。此外,本发明在染色体组序列的各碱基位置,计算出从此处开始的部分序列在染色体组内成为唯一的最小长度(MLU:minimum length for uniqueness)并存储(110)。此外,本发明在变异解析中,扫描对象区域,调查在MLU的长度的部分序列匹配的前导序列的数量而推定为变异位置(114),在变异可能性较高的位置收集相应的前导序列后进行序列比较解析(117)。

Description

数据解析装置及其方法
技术领域
本发明涉及一种DNA序列的数据解析装置,尤其涉及一种从大规模并行型DNA序列装置得到的DNA序列数据的解析技术。
背景技术
对于癌、生活习惯病或遗传病等,作为所谓的个别化医疗,需要选择适于患者个人的治疗方法,或为了进行恢复后的预测而调查患者个人的遗传性背景。因此,进行染色体组或转录物组(转写产物)等的DNA(deoxyribonucleicacid,脱氧核糖核酸)序列解析。在此时所使用的DNA序列装置中,只能得到被片段化的较短的DNA序列。因此,与较长的参照染色体组序列相比,需要调查得到的片段序列是染色体组的哪个部分,并且进行用于调查这里所包含的单核苷酸变异(SNP,Single Nucleotide Polymorphism)或插入/缺失等变异的数据处理。一般,将这样的数据处理称为匹配处理。
在所谓的被称为下一代型DNA测序器的大规模并行型DNA测序器中,在1次的测量中能够得到数亿个以上的较短的100碱基程度的较长的片段序列(前导)。此外,人的情况下,参照染色体组序列的长度约为3千兆碱基(30亿碱基)。在匹配处理中,将这些前导序列与参照染色体组序列一个一个进行比较来确定对应的位置,确定这里包含的变异。这些需要非常大的计算成本,因此开发并利用专用的高效的算法。代表性的方法是将参照染色体组序列通过Burrows-Wheeler变换(BWT,Burrows-Wheeler Transformation)(非专利文献1)进行数据库化,将前导序列内的较短碱基序列作为检索关键词进行检索,在匹配的区域的前后考虑序列错误或变异的可能性而进行比对(非专利文献2)。
一般,在下一代型DNA测序器中产生1%程度的读取错误,此外,在较大的染色体组区域中,分散存在多个类似的序列。因此,在每一个前导的匹配结果中存在产生错误的可能性。例如,对于某前导序列,在参照染色体组序列内没有完全一致的区域,但假设少数序列错误时,有时能够发现多处对应的染色体组区域。该情况下,选择哪个区域存在任意性,且该判断依赖匹配处理的探索方法。因此,为了准确地进行变异解析,在后续的处理,即下游的处理中,进行比较多个前导的匹配结果而采用多数决定的再匹配处理(非专利文献3)。因此,在进行所有染色体组解析的情况下,通常,对能够覆盖染色体组整体数十倍的序列量(数十千兆碱基以上)进行排序。此外,在匹配目的地存在任意性时可能产生依存于匹配处理的偏差,因此比较多个种类的匹配工具的结果,还要确认没有产生这样的偏差。另外,作为与以上的技术关联的专利文献,例如有专利文献1。
现有技术文献
专利文献
专利文献1:日本特开2003-330934号公报
非专利文献
非专利文献1:M.Burrows and D.Wheeler:A block-sorting lossless datacompression algorithm.Technical Report 124,Digital Equipment Corporation,1994.
非专利文献2:Li H.and Durbin R.(2009)Fast and accurate short readalignment with Burrows-Wheeler Transform.Bioinformatics,25:1754-60.
非专利文献3:McKenna A,Hanna M,Banks E,Sivachenko A,Cibulskis K,Kernytsky A,Garimella K,Altshuler D,Gabriel S,Daly M,DePristo MA(2010).The Genome Analysis Toolkit:a MapReduce framework for analyzingnext-generation DNA sequencing data.Genome Res.20:1297-303.
非专利文献4:Mantaci,S.,Restivo,A.;Sciortino,M:“An extension of theBurrows Wheeler transform to k words.”Data Compression Conference,2005.Proceedings.DCC 2005.
非专利文献5:Markus J.Bauer,Anthony J.Cox,Giovanna Rosone:“Light-weight BWT Construction for Very Large String Collections,”Combinatorial Pattern Matching,Lecture Notes in Computer ScienceVolume 6661,2011,pp 219-231
非专利文献6:Paolo Ferragina,Travis Gagie,Giovanni Manzini:“Light-weight Data Indexing and Compression in External Memory,”Algorithmica,July 2012,Volume 63,Issue 3,pp 707-730.
非专利文献7:Kimura K,Suzuki Y,Sugano S,Koike A:“Computation ofrank and select functions on hierarchical binary string and its application to genomemapping problems for short-read DNA sequences,”J Comput Biol.2009Nov;16(11):1601-13.
非专利文献8:Ge Nong;Sen Zhang;Wai Hong Chan;,"Linear Suffix ArrayConstruction by Almost Pure Induced-Sorting,"Data Compression Conference,2009.DCC‘09.,vol.,no.,pp.193-202,16-18March 2009
发明内容
发明要解决的课题
在上述的下游处理中,为了得到较高的精度需要较大的计算成本,因此不能一并处理从DNA测序器得到的所有前导。因此,利用采用了高效的算法的匹配处理的结果,在要关注的基因区域选择出认为区域引起的可能性较高的前导序列,而对这些进行下游解析。
此外,在另一方面,已知的有:将通过前导长度较长(500碱基程度以上)、前导数量较少的(100个程度)的毛细管型DNA测序器进行多次解析而得到的前导序列数据数据库化,将染色体组内所关注的基因区域的序列作为查询进行同源性检索,对得到的前导序列进行多重比对而进行细菌的识别的方法(专利文献1)。然而,将人染色体组通过下一代型DNA测序器进行解析时的数据量巨大,达到几十千兆碱基以上,因此在实际运用所能承受的计算时间内不能进行同源性检索。
在进行人的所有染色体组解析的情况下,前导序列数据量多得总序列量达到几十千兆碱基,因此尽管采用高效的算法,匹配处理的计算成本也较大,从而存在降低该计算成本的问题。
此外,通过序列错误的处理方法在匹配目的地中存在任意性的情况下,在匹配处理中使用探索方法从其中选择匹配目的地表示产生依存于匹配处理的偏差。存在如下的问题:提供一种避免这样的探索方法的判断,无论哪个匹配目的地都能够等价使用的中立的处理方法。
当前,人的参照染色体组序列除了人白血球抗原(Human LeukocyteAntigen:HLA)区域等特殊的区域外,只有一种。但是,如果准备多种参照染色体组序列,则能够从中选择适于患者所属的人种群的序列而进行更精密的变异解析。对所有前导序列和参照染色体组序列的组合进行匹配处理,因此变更参照染色体组表示重新进行所有的匹配处理。因此,存在如下的问题:分别独立处理所有前导序列和参照染色体组序列,能够抑制变换其组合来进行解析时的计算成本的增加。
本发明的目的是提供一种至少解决一个上述课题,而能够降低匹配处理的计算成本或能够进行中立的处理的数据解析装置及其方法。
用于解决问题的手段
为了实现上述目的,在本发明的具备处理部和存储部的数据解析装置中,存储部存储将染色体组序列数据数据库化后的染色体组序列数据库和将前导序列数据数据库化后的前导序列数据库,处理部根据特定的解析对象的染色体组区域的序列来选择检索用碱基序列即关键序列;求出位于前导序列数据库中的关键序列的深度;提取包含位于前导序列数据库中的关键序列的前导序列数据,比较提取出的前导序列数据与染色体组区域的序列来进行数据解析。
此外,为了实现上述目的,在本发明的数据解析装置的处理部的数据解析方法中,使用将染色体组序列数据以能够检索的形式数据库化后的染色体组序列数据库和将前导序列数据以能够检索的形式数据库化后的前导序列数据库;根据特定的解析对象的染色体组区域的序列来选择检索用碱基序列即关键序列;求出位于前导序列数据库中的关键序列的深度;提取包含位于前导序列数据库中的关键序列的前导序列数据,比较提取出的前导序列数据与染色体组区域的序列来进行数据解析。
发明效果
根据本发明的解析装置及其方法,能够抑制计算成本。此外,不会发生依存于处理方法的偏差,而能够进行中立的处理。
附图说明
图1是表示实施例1的用于进行变异解析的处理顺序的流程图。
图2是用于说明实施例1的通过序列比较来判定有无变异的方法的说明图。
图3是表示实施例1的根据MLU和深度来推定有无变异的方法的流程图。
图4是对实施例1的由长度不一的多个前导序列构成的数据定义被一般化的Burrows-Wheeler变换(BWT)的说明图。
图5是表示实施例1的使用SLCP(sorted list of cyclic permutations,循环序列分类表)来计算字符串w的深度D(w)的方法的说明图。
图6是说明实施例1的利用BWT时所使用的辅助函数的说明图。
图7是实施例1的计算针对检索关键序列的深度的流程图。
图8是表示实施例1的将包含关键序列的所有前导序列根据位于关键序列的左方的碱基进行分类来求出相应的前导序列的数量的方法的流程图。
图9是表示实施例1的BWT的计算方法的流程图。
图10是表示实施例1的从旧字符串向新字符串的转记方法的说明图。
图11是表示实施例1的染色体组序列DB和前导序列DB的结构的说明图。
图12是表示实施例1的染色体组坐标x处的MLU值L(x)的计算方法的流程图。
图13是表示实施例2的从所关注的基因区域中,根据MLU和深度来推定产生剪接的可能性较高的位置,并且,在推定出的位置,根据序列比较来判定有无剪接的方法的说明图。
图14是用于说明实施例2的在进行正向搜索而推定为有剪接的位置,通过序列比较判定有无剪接的处理的说明图。
图15是表示实施例2的比较前导序列的共同序列S与染色体组序列来判定有无剪接的方法的流程图。
图16是表示实施例2的进行正向搜索在染色体组坐标x,根据MLU和深度来推定有无剪接的方法的流程图。
图17是表示实施例的解析装置的内部的一结构例的框图。
图18是表示实施例的数据解析方法的处理的式1~式3的图。
图19是表示实施例的数据解析方法的处理的式4~式7的图。
具体实施方式
以下,按照附图说明本发明的各种实施方式,但之前说明本发明的优选方式的概要。在本发明的数据解析装置及其方法中,按照词典式顺序(lexicographic order)分类所有的前导序列和它们全部的循环置换(cyclicpermutation)或后缀(suffix)后数据库化,以任意较短的碱基序列为关键词进行检索而能够立即回答包含关键序列的前导数量,并且,能够从所有前导序列中立即提取包含关键序列的所有前导序列。
并且,在参照染色体组序列侧,如果从各碱基位置开始的部分序列达到怎样碱基的长度,则在参照染色体组序列内,考虑互补链事先调查是否成为唯一而进行数据库化,在任意的碱基位置能够立即回答可保证这样的唯一性的最小长度(MLU,minimum length for uniqueness)。通过参照染色体组序列数据单独进行这样的计算。因此,只要对参照染色体组序列进行一次计算,就可以对任何的前导序列数据进行再次利用。
并且,在下游的变异解析处理中,1个碱基1个碱基地扫描所关注的基因区域内部,在各碱基位置在参照染色体组数据库查询MLU,并且向参照染色体组数据库查询而取得长度MLU的染色体组部分序列后,以其为检索关键词来向前导序列数据库查询,而得到包含关键序列的前导序列数量(深度,depth)。与周边进行比较而发现深度值大幅度下降的碱基位置时,推定为在此包含变异的可能性较高。
在推定为包含变异的可能性较高的位置,再次在其周边深度没有下降的其他位置在参照染色体组数据库查询MLU,并且向参照染色体组数据库查询而取得长度MLU的染色体组碱基序列后,以其为检索关键词向前导序列数据库查询,来提取包含关键序列的所有前导序列。由此,能够收集来自周边的可能性较高的前导序列。以这些为对象,进行详细的变异解析处理。
实施例1
实施例1是从关注的基因区域中,根据MLU和深度来推定包含变异的可能性较高的碱基位置,并且在推定出的位置,根据序列比较来判定有无变异的解析装置以及方法的实施例。
图1是表示通过本实施例进行变异解析的处理顺序的流程图。另外,实现各实施例的解析的解析装置通过具有通常的计算机结构的服务器等计算机来实现。
图17表示包含本实施例的所有实施例的解析装置的一结构例。在该图中,解析装置1700具备处理部即中央处理部(CPU:Central Processing Unit)1701、存储有程序等的存储部即存储器1702、用于操作的GUI(Graphical UserInterface,图形用户界面)或显示解析结果等的显示部1703、作为存储数据库(DB)等的存储部而起作用的硬盘驱动器(HDD)1704、进行参数输入等的键盘等输入部1705、用于与网络等连接的网络接口(NIF)1706与总线1707连接的结构。存储在HDD1704中的数据库(DB)可以存储在设置于解析装置1700的外部的存储装置中,也可以经由网络存储在数据中心等。在以下的实施例中说明的各种流程图可以通过CPU1701的程序执行等来实现。
于是,在图1所示的流程图中,通过大规模并行型DNA测序器102解析DNA样品101来得到由多个较短的碱基序列构成的前导序列数据103。与此相对,进行前导序列数据库(DB)化处理104,得到前导序列DB105。在前导序列DB化处理104中,按照词典式顺序分类所有前导序列和它们所有的循环置换(cyclic permutation)或后缀(suffix)。通过该DB化,以任意较短的碱基序列为关键词进行检索,而能够立即回答包含关键序列的前导数量(深度),并且,能够从所有前导序列中立即提取包含关键序列的所有前导序列。
参照染色体组序列数据106通过染色体组序列DB化处理107进行数据库化而构建染色体组序列DB108。在参照染色体组DB化处理中,在参照染色体组序列的各碱基位置,从此开始的部分序列达到怎样碱基的长度时,在参照染色体组序列内考虑互补链调查是否成为唯一后进行存储。通过预先DB化,在任意的碱基位置能够立即回答可保证这样的唯一性的最小长度(MLU)。此外,能够按照坐标顺序直接存储碱基序列,并立即回答任意指定的坐标范围的碱基序列。
将坐标x处的MLU,即从x开始的部分序列成为染色体组序列内唯一的最小长度表示为L(x)。此外,将以从坐标x开始的长度L(x)的染色体组部分序列为关键序列时的前导序列的深度表示为x处的深度和D(x)。以下,导入图18的式1所示的记法。使用图18的式1的记法时,向染色体组坐标增大的方向(正向,forward)进行搜索(扫描)的情况下,能够如图18的式2所示计算MLU和深度。或者,向染色体组坐标减少的方向(反向,backward)进行搜索的情况下,能够如图18的式3所示计算MLU和深度。
在图1的流程图中,输入用于规定所关注的基因区域的范围的坐标(Xmin,Xmax)(109)。对于Xmin以上Xmax以下的各x,向染色体组序列DB查询而得到MLU,即L(x)的值(110)。此外,向前导序列DB查询而得到各x处的深度D(x)(111)。
然后,输入成为有无变异的推定基准的参数(112),将x设为关注的区域的左端Xmin(113),开始以下的重复处理。根据MLU和深度,来推定x中有无变异(114)。在推定为无变异或不能推定的情况下,立即将x的值更新为x+1(120)。不是这样的情况下,根据深度选择一个x附近的其他碱基位置y,向染色体组序列DB查询来取得从y开始的长度L(y)的染色体组部分序列(115)。以改序列为关键序列,向前导序列DB进行查询来取得包含该序列的所有前导序列(116)。详细比较这些前导序列与参照染色体组序列来进行变异解析(117),在发现变异的情况下,将其结果输出给终端(122)或存储装置(123)(119)。之后,将x更新为x+1(120)。x没有超过区域的右端时,重复处理(121)。不是这样时,结束处理。
图2是用于说明在上述的实施例1的解析法中,向正向进行搜索,而在推定为有变异的位置x,通过序列比较来判定有无变异的方法的说明图。在反向搜索的情况下也相同。在图2的图表203中,横轴201表示染色体组位置坐标,纵轴202表示计数,并绘制了位置坐标x中的深度D(x)。在SNP位于染色体组的位置坐标z的情况下,如204的范围所示,从位置x开始的长度L(x)的染色体组部分序列通过z时,深度D(x)的值与周边相比大幅度下降。深度下降的位置在正向搜索中位于有变异的位置的相反侧。因此,在深度下降的位置x的正向侧的相邻的位置y采用一个深度D(y)没有下降的任意的位置y。向染色体组序列DB查询而取得从y开始的长度L(y)的染色体组部分序列,将该序列作为关键序列而向前导序列DB查询,来收集包含关键序列的所有前导序列。
206表示收集的前导序列,用下划线表示相当于关键序列的部分。205表示x周边的染色体组序列,用下划线表示相当于关键序列的部分。向染色体组序列DB查询而得到x周边的染色体组序列205。收集的前导序列206是大量存在的所有前导序列数据的极小一部分,因此能够抑制将它们与x周边的染色体组序列205进行比较的计算成本。以关键序列为基准匹配比对这些序列,在y的反向侧的附近搜索变异。发现变异的情况下(在例子中,在z的位置存在从粗体字所示的G向A的单核苷酸变异),判定为有变异。不是这样的情况下,判定为无变异。
图3是表示在本实施例中,在碱基位置x,根据MLU和深度来推定有无变异的方法的流程图。在包含x本身和x周边的各碱基位置y,作为染色体组序列DB与前导序列DB的查询结果,设为已取得MLU和深度的值,即L(y)和D(y)的值。此外,d1、d2、h1、h2、h3、l1是推定基准参数,在处理之前输入它们的值(112)。在位置x深度D(x)充分大时,推定为无变异(301)。如果在x的周边MLU变大,则推定为不能推定(302)。如果在x的周边平均深度充分变大,则认为不能推定(303)。与周边相比,如果在x深度大幅度降低,则推定为有变异,不是这样的情况下,推定为无变异(304)。
图4是在本实施例,对由长度不一的多个前导序列构成的数据定义被一般化的Burrows-Wheeler变换(BWT)的说明图。本来的BWT对1个字符串进行定义(参照上述的非专利文献1),对多个字符串一般化的定义已知有若干(参照在本实施例的说明的最后记载的非专利文献4、非专利文献5、非专利文献6)。在此,对长度不一的多个字符串,按如下方式进行一般化定义。在图4中,为了简单,说明了针对2个前导序列的定义,即使前导序列的数量增加几个,也能够同样地进行定义。
将该图的401和402设为成为对象的2个前导序列。将在这些的尾部附加了段落字符$的字符串设为403和404。将作为这些字符串的所有循环置换(cyclic permutation)(循环移位cyclic shift)而得到的字符串列表设为405和406。综合这些列表后,将按照词典式顺序(lexicographic order)分类而得到的字符串的列表设为407。但是,将拉丁字母的比较顺序设为$<A<C<G<T<N。在此,将N的顺序设为T之后是因为N是表示A、C、G、T的某个碱基的特殊的字符。此外,从最前面字符开始按照顺序比较2个字符串时,在相同字符位置出现了段落字符$的情况下,不进行从此以后的比较,将它们的顺序设为任意。将对这些已分类的字符串的尾部的字符按照分类顺序进行序列而得到的字符串设为408。在此,为了便于理解地表示对应关系,竖写字符串408。对于前导序列数据(401和402),在它们的尾部附加段落字符$,将这些全部的作为循环置换得到的字符串列表按照词典式顺序分类而得到字符串列表(407),将对得到的字符串列表(407)的尾部的字符按照分类顺序进行序列而得到的字符串408定义为前导序列数据(401和402)的BWT。此外,将此时在中途得到的407称为已分类循环的置换字符串列表(SLCP,sorted list ofcyclic permutations)。
图5是表示在本实施例中,使用SLCP来求出字符串w的深度D(w)的方法的说明图。501表示SLCP。连接了501的各要素的尾部的字符是BWT,但为了避免繁杂而省略图示。SLCP已按照词典式顺序分类,因此连接了501的最前面的字符的字符串成为图19的式4形式的字符串。
SLCP已按照词典式顺序分类,因此对于由A、C、G、T、N构成的任意的字符串w,从最前面的字符按照顺序比较w与SLCP的要素时,能够决定在SLCP内出现以w开始的要素紧前面的位置R(w)和紧后面的位置S(w)。在此,用0表示SLCP的最初的要素紧前面的位置,用SLCP的所有要素n表示SLCP的最后的要素的紧后面的位置。n等于前导序列数据内的总碱基数和前导序列数量的和,通过图19的式5来赋予。
在L S CP内,在w开始的要素只要有1个的情况下成为R(w)<S(w),其差S(w)-R(w)与在前导序列数据整体中字符串w出现的次数,即w的深度D(w)相等。另一方面,在这样的要素1个也没有的情况下成为R(w)=S(w),这表示不破坏词典式顺序地向SLCP追加w时的插入位置。将(R(w),S(w))称为字符串w的顺序区间。另外,在字符串的比较中,字符的比较从最前面字符开始按照顺序进行直到首次出现不同的字符或出现段落字符$为止,因此即使在w的尾部字符为$的情况下,也能够决定w的顺序区间(R(w),S(w))。
图6是说明在本实施例中利用BWT时所使用的辅助函数的说明图。BWT是连接SLCP(501)的各要素(字符串)的尾部字符而得到的字符串,这些字符串的长度一般是不同的,但在图6中示例了使这些尾部字符的最右侧一致,字符A到处出现的例子。
对于0以上n以下的任意的整数r和A、C、G、T、N、$的某个字符z,用O(z,r)表示在从字符串BWT的最前面字符到第r字符为止的范围内字符z出现的次数。关于从字符串的最前面到指定的位置r为止的范围中的特定的字符z的出现次数O(z,r),公知根据等级函数来有效地对其计算的方法(非专利文献7)。另外,在r=n的情况下,对于各z=$、A、C、G、T、N成为O(z,n)=n(z),这些值已通过事先扫描1次前导序列数据整体而求出。
SLCP按照词典顺序被分类,因此按照顺序提取其要素而得的要素也按照词典顺序被分类。尤其,对A、C、G、T、N、$的某个字符z,提取了以z开始的要素而得的要素,即从R(z)到S(z)的范围按照词典顺序被分类。此外,同样地,对A、C、G、T、N、$的某个字符z,提取了以z结束的要素而得的要素的整体也按照词典顺序被分类。SLCP由通过循环置换(循环移位)生成的所有字符串构成,因此以z开始的要素整体和以z结束的要素整体通过循环置换而一对一对应。尤其,对于由A、C、G、T、N构成的任意的字符串w,以zw开始的字符串整体与以w开始且在z结束的字符串整体通过循环置换而一对一对应。以zw开始的字符串整体通过SLCP内的顺序区间(R(zw),S(zw))被给予,以w开始且以z结束的字符串整体在SLCP内的顺序区间(R(w),S(w))中通过以z结束的要素整体被给予,这些一般占据SLCP的顺序区间(R(w),S(w))内的分散顺序。
图7是表示在本实施例中,利用该一对一的对应关系计算针对检索关键序列的深度的方法的流程图。输入关键序列k(701),将w设为由k的尾部的一字符z构成的字符串(k的后缀,suffix)。对于所有字符u,n(u)的值是已知的,因此能够立即计算针对w=z的R(w)和S(w)的值(702)。后缀w与关键序列k一致时,根据R(k)和S(k)的值计算深度D(k)的值后结束处理(706),不是这样的情况下,重复以下的处理(703)。在关键序列k,将后缀w之前的符号设为z,利用上述一对一的对应关系,计算R(zw)和S(zw)的值(704)。在此,与702同样地,能够计算R(z)的值作为针对比z顺序小的字符u的n(u)的总和。将zw设为新的w后(705),返回703重复进行处理。
图8是表示在本实施例中,将包含关键序列的所有前导序列通过位于关键序列的左方的碱基进行分类来求出相应的前导序列的数量的方法的流程图。假设已经通过上述方法计算出针对关键序列k的S(k)和R(k)的值。对A、C、G、T、N、$的各字符z重复以下的处理(803)。利用基于上述的循环置换的一对一的对应关系时,能够计算针对字符串zk的深度D(zk)(804)。其值为正时(805),存在D(zk)个包含zk的序列,因此进行报告(806)。
图8表示使用各碱基将关键序列向左方延长1个碱基而求出各自的深度的方法,通过重复进行该方法,使用各种碱基将关键序列向左方延长多个碱基,能够计算各自的深度。此外,如果按照各自的深度值所示的重复度重复这些被延长的序列,则能够从前导序列数据整体中,包含重复度地提取所有将包含原本的关键序列的前导序列向左方延长多个碱基而得到的序列。
图9是表示在本实施例中,BWT的计算方法的流程图。在BWT的计算中,利用基于上述的循环置换的一对一对应关系。
首先,在901,进行与在SLCP内的$开始的n($)个要素构成的子列表对应的处理。将与此对应的BWT的最前面的n($)字符的部分字符串用Q($)表示。在Q($)中包含所有的前导序列数据中的碱基字符A、C、G、T、N。如果在前导序列数据中包含空的前导序列,则预先去除这些。其结果,在Q($)中不包含$。在分类时的字符串比较中,不对$之后的字符进行比较,因此Q($)中的字符的序列顺序可以是任意的。因此,将Q($)设为图19的式6所示的字符串。用×表示字符的重复,用+或Σ表示字符的连接,由此通过在901内所示的公式计算出Q($)。
此外,在所有的前导序列r的最前面附加段落字符$,生成按照任意顺序排列的列表p。p是由属于字符串$的顺序区间的SLCP的要素构成的列表,将p的各要素的尾部字符作为BWT的部分字符串登录在Q($)中。此外,将z=$、I($)设为空的数值列表,对于各y=A、C、G、T、N,将P(y)和P’(y)初始化为空列表,Q’(y)初始化为空字符串,将I’(y)初始化为空的数值列表,而进行902以后的重复处理。()表示空列表,“”表示空字符串。
在902,将p设为由属于某字符串w$的顺序区间的SLCP的要素的$之后的字符串构成的列表,p的各要素的尾部字符已作为BWT的部分字符串登录在某Q(y)中,但设为使一对一对应的SLCP的要素(以下,称为位移后的要素)的尾部字符尚未登录在哪个Q(y)中,以便实施循环置换而使这些尾部字符成为最前面字符。
通过尾部符号对列表p的各要素进行分类。对于y=A、C、G、T、N,将由在y结束的要素所构成的p的子列表设为p(y)(902)。
接着,对于y=A、C、G、T、N,从p(y)的各要素的字符串中删除尾部字符y(903)。这些是位移后的要素的$之后的字符串列表。
对于y=A、C、G、T、N,将由p(y)的要素中$一字符构成的字符的数设为q($,y),对除此以外的p(y)的要素以尾部的字符x=A、C、G、T、N进行分类后进行计数,将这些数设为q(x,y)(904)。
在905,对于各y=A、C、G、T、N,将在903求出的列表p(y)的要素的尾部字符作为BWT的部分字符串登录在字符串Q’(z)之后。在分类时的字符串比较中,不对$之后的字符进行比较,因此这些中的字符的排列顺序可以是任意的。因此,将连接图19的式7的形式的字符串而得到的字符串设为新的Q’(z)(在905内的式中,用×表示字符的重复,用+或Σ表示字符的连接)。
在这些中,关于最初的q($,y)个要素(在尾部具有$),在901已经将位移后的要素的尾部字符登录在Q($)内。另一方面,关于通过剩余的下式8表示的个数的要素(在尾部具有A、C、G、T、N某个字符),位移后的要素的尾部字符尚未登录在任何Q(y)中。因此,为了后续的处理,对于各y=A、C、G、T、N,将在列表p’(y)之后连接有列表p(y)的列表设为新的列表p’(y)(另外,在图9的905内的式中,用+表示列表的连接)。
q(A,y)+q(C,y)+q(G,y)+q(T,y)+q(N,y)…(式8)
此外,在数值列表I’(y)后面追加2个要素:
q($,y),-(q(A,y)+q(C,y)+q(G,y)+q(T,y)+q(N,y))…(式9)。
在此,正数表示已登录的要素的数量,复数表示反转了在后续的处理中需要登录的要素的数量的符号的数量。
接着,调查数值列表I(z)是否为空(906)。
在这些不是空的情况下,提取列表最前面要素后删除,并将提取的要素设为i。在i为负的情况下,从字符串列表P(z)中提取最前面的(-i)个要素后删除,并将由提取出的要素构成的列表设为新的列表p。如905所述,该p满足在902假定的条件。因此,返回到902重复进行处理。另一方面,在i为正的情况下,使Q(z)的接下来的i个要素位移而得到的要素的尾部字符已被登录在某个Q(y)内,因此将这些转记到新的Q’(y)内,而将其转记量登录在各I’(y)中(910)。
此外,在906数值列表I(z)成为空的情况下,调查z是$还是与N相等(911)。在z不等于这些的情况下,将z转换为下个顺序的字符Next(z)(912),返回到906继续进行处理。在此,
Next(A)=C,Next(C)=G,Next(G)=T,Next(T)=N…(式10)
在911,z与$或N相等的情况下,对于所有的z=A、C、G、T、N调查P(z)是否为空列表(913)。在这些中有空列表的情况下,对所有的z=A、C、G、T、N,将P’(z)、Q’(z)、I’(z)分别设为新的P(z)、Q(z)、I(z)(914),另外将z设为最初的顺序的字符A(915),返回到906重复进行处理。
在913,对于所有的z=A、C、G、T、N,P(z)是空列表的情况下,连接字符串Q($)、Q(A)、Q(C)、Q(G)、Q(T)、Q(N)而得到BWT,并将其输出(916)。
图10是表示在图9的910中,从旧字符串Q向新字符串Q’的转记方法的说明图。对于各z=A、C、G、T、N,有表示Q(z)内的转记源的位置的转记源指示器,表示Q(z)内的转记目的地的位置的转记目的地指示器。这些在处理开始时全部被初始化为0,在910内重复地被更新,在914内全部被复位成0。此外,有用于选择转记对象的选择目的地指示器,这些表示Q(A)、Q(C)、Q(G)、Q(T)、Q(N)内的某个位置。选择目的地指示器在处理开始时被复位成Q(A)的最前面,在910内重复地被更新,在912被复位成针对新的z的Q(z)的最先面,在915被复位成Q(A)的最前面。对于旧字符串Q,使用选择目的地指示器和转记源指示器这2个种类,因此在图10中,为了避免混乱,重复显示选择目的地指示器所指示的Q和转记源指示器所指示的Q,但这些都是指同一物体。
为了在910转记从Q至Q’的1个要素,进行如下的处理。首先,读取选择目的地指示器所表示的字符串Q(z)内的字符y,使选择目的地指示器前进+1。在图10的例子中,z=A、y=C。选择Q(y),将该转记源指示器所示的字符(在图中的例子中为T)转记在Q’(y)的转记目的地指示器所示的位置上,使转记源指示器、转记目的地指示器都前进+1。为了在910转记从Q至Q’的i个要素,使1个要素的转记重复i次。其结果,对于各y=A、C、G、T、N,当Q’(y)的转记目的地指示器前进+i(y)时,在数值列表I’(y)的尾部增加i(y)。
图11是表示染色体组序列DB和前导序列DB的结构的说明图。前导序列DB(105)由前导序列(106)的BWT(408)和在BWT上进行等级函数的高速计算所需要的辅助表格(1101)构成。染色体组序列DB(108)由按照坐标顺序排列的染色体组的碱基序列数据(1102)和MLU数据(1103)构成。可以从碱基序列数据(1102)迅速地提取任意指定的范围的碱基序列。MLU数据由二进制编码数据(1104)和检索用辅助表格(1105)构成。
MLU的二进制编码数据(1104)是长度2n的二进制字符串,按如下方式构成。首先,将所有要素初始化为0。对于参照染色体组序列的所有碱基位置x,计算MLU的值L(x),作为
k(x)=2x+L(x)–1…(式11)
将二进制编码数据的第k(x)的要素设置成1。但是,可以将最前面要素计数为第0的要素。
在尾部以外的任意染色体组坐标x采用整数l=L(x)–1时,根据x中的MLU的定义,从x开始的与长度l的序列相等的序列位于与x不同的其他位置y。此时,忽略最前面的一字符时,从x+1开始的与长度(l-1)的序列相等的序列位于与x+1不同的其他位置y+1。因此,根据x+1中的MLU的定义,L(x+1)至少必须比(l-1)大。
因此,成为
l-1<L(x+1)∴L(x)-1=l≦L(x+1)…(式12)
其结果,成为
k(x)=2x+L(x)-1≦2x+L(x+1)<2x+1+L(x+1)=k(x+1)…(式13)
即,对于各碱基位置x,k(x)取得不同的值,这些指示二进制编码数据的不同的要素。此外,很明显如果x<y,则k(x)<k(y)。因此,如果得到了二进制编码数据,则能够求出任意染色体组坐标x中的L(x)的值。即,求出在二进制编码数据中第x出现1的位置k(x),按如下方式进行计算即可。
L(x)=k(x)-2x+1…(式14)
将求出在二进制编码数据中第x出现1的位置的函数k(x)=select(x)称为选择函数,使用辅助表格来高效地进行计算的方法是已知的(非专利文献7)。1105是在二进制编码数据(1104)上高速地计算选择函数时所使用的辅助表格。
图12是表示本实施例的解析方法中的、染色体组坐标x中的MLU值L(x)的计算方法的流程图。输入参照染色体组序列数据(106)(1201),生成连接双链的参照染色体组序列G(1202),计算G的后缀阵列(suffix array)SA(1203)。SA是按照词典式顺序分类了G的所有后缀(suffix)时,将表示后缀的开始位置的整数按照分类顺序排列的整数序列。在人的染色体组的情况下,染色体组尺寸为3千兆碱基程度,G的长度为6千兆碱基程度。对于该程度大小的G,使用公知的方法(非专利文献8)能够高效地计算SA。SA是将后缀的分类顺序变换为开始位置的对应表,但生成其逆变换的对应表即逆后缀阵列(ISA,inverse suffix array)(1204)。
此外,计算G的最长共同前缀长度序列(LCP,longest common prefix lengtharray)(1205)。将按照词典式顺序分类了G的后缀时的第r要素表示为s(r)时,LCP为整数序列,将其第r要素定义为s(r)和s(r-1)的最长共同前缀长度。能够使用公知的方法(引用—LCP)来高效地计算LCP。将s(r)和之前的s(r-1)从最前面字符开始按照顺序进行比较时,第LCP(r+1)+1字符的字符不同。同样地,将s(r)和之前的s(r+1)从前缀符号开始按照顺序进行比较时,第LCP(r+1)+1字符的字符不同。因此,具有由下式15所赋予的长度的s(r)的前缀在染色体组序列G内成为唯一。
max(LCP(r)+1,LCP(r+1)+1)…(式15)
在此,max表示采用最大值。因此,可以通过在1206内所示的公式来计算能够保证唯一性的序列长度(MLU,minimum length for uniqueness)。
作为本实施例中的DNA样品,可以使用所有染色体组解析的样品、所有外显子组(Exome)解析的样品,或浓缩了所关注的目标区域的DNA片段的样品等。
实施例2
作为实施例2,说明从关注的基因区域中,根据MLU和深度来推定产生剪接的可能性较高的位置,并且,在推定出的位置,根据序列比较来判定有无剪接的方法解析装置以及方法的实施例。
图13是表示在实施例2,用于进行转录物组的剪接解析的处理顺序的流程图。
通过大规模并行型DNA测序器(102)解析cDNA样品(1301)来得到由多个较短的碱基序列构成的前导序列数据(103)。以下,与实施例1同样地,进行前导序列DB化处理(104),得到前导序列DB(105)。
对于参照染色体组序列数据(106),与实施例1同样地,通过染色体组序列DB化处理(107)进行数据库化来构筑染色体组序列DB(108)。
输入用于规定所关注的基因区域的范围的坐标(Xmin,Xmax)(109)。对于Xmin以上Xmax以下的各x,与实施例1同样地,向染色体组序列DB查询而得到MLU,即L(x)的值(110)。此外,向前导序列DB查询而得到各x中的深度D(x)(111)。
输入成为剪接的有无推定基准的参数(1312),作为关注x的区域的左端Xmin(113),开始以下的重复处理。根据MLU和深度来推定x中有无剪接(1314)。推定为无剪接或不能推定的情况下,立即将x的值更新为x+1(120)。不是这样的情况下,根据深度选择一个x附近的其他碱基位置y,从y开始向染色体组序列DB查询而取得长度L(y)的染色体组部分序列。以这些为关键序列,向前导序列DB进行查询而取得包含这些的所有前导序列(116)。通过比较这些前导序列与参照染色体组序列来进行剪接的有无的判定(1317)。在判定为有剪接的情况下,将其结果输出给终端(122)或存储装置(123)(119)。之后,将x更新为x+1(120)。如果x没有超过区域的右端,则重复处理(121)。不是这样的情况下,结束处理。
图14是用于说明在本实施例,在正向(染色体组坐标增大的方向)进行探索而推定为有剪接的位置x,通过序列比较来判定剪接的有无的处理的说明图。在反向搜索的情况下也相同。横轴1401表示染色体组位置坐标,纵轴1402表示计数,图表1403绘制了位置坐标x中的深度D(x)。染色体组坐标在z位置,在其反向侧(染色体组坐标减少的方向)具有将z设为终端的内含子,在其正向侧产生具有外显子组那样的剪接。如1404的范围所示,将从位置x开始的长度L(x)的染色体组部分序列包含在内含子内部或通过z时深度D(x)的值与z的正向侧的周边相比大幅度下降。即,以z为边界,在z的反向侧与z的正向侧相比深度大幅度下降。
因此,对于与正向侧相比成为在反向侧深度大幅度下降的边界的位置坐标x,在x的正向侧的附近取得一个深度没有下降的任意的位置y。从y开始向染色体组序列DB查询而取得长度L(y)的染色体组部分序列,将该序列作为关键序列向前导序列DB进行查询,而收集包含关键序列的所有前导序列。1405表示x周边的染色体组序列,用下划线表示相当于关键序列的部分。1406表示收集的前导序列,用下划线表示相当于关键序列的部分。向染色体组序列DB查询而得到x周边的染色体组序列1405。
收集的前导序列1406是大量存在的所有前导序列数据的极小一部分,因此能够抑制以下处理的计算成本。1411表示前导的共同序列S。它是将属于1406的前导序列在关键序列的位置匹配进行比对,排列各碱基位置中以最高频率出现的碱基而得到的序列。在共同序列S上,使用延长在关键序列(下划线部分)对应的染色体组序列G的碱基位置坐标而得到的坐标系(1412)。对共同序列S进行解析而检测出剪接的情况下,报告该剪接。
在此,为了表示共同序列S的部分字符串、染色体组序列数据以及前导序列数据中的其深度,导入下式16所示的记述方法和用语。
S[z0,z1]:位置坐标为z0以上z1以下的S的部分序列
Occ(s,G):碱基序列s作为G的部分序列而出现的次数(出现次数)
(染色体组序列数据中的s的深度)
Occ(s,R):碱基序列s作为R的部分序列而出现的次数(出现次数)
(前导序列数据中的s的深度)
Loc(s,G):碱基序列s作为G的部分序列而唯一出现时的出现位置坐标
(Occ(s,G)=1时)…(式16)
在此,可以通过在实施例1使用图7说明的方法高效地计算出前导序列数据中的s的深度。此外,也可以使用参照染色体组序列G的BWT同样地计算出染色体组序列数据中的s的深度。可以根据G的后缀阵列直接计算出G的BWT,如实施例1所述可以使用公知的方法高效地计算出参照染色体组序列G的后缀阵列(非专利文献8)。此外,碱基序列s作为G的部分序列而出现的位置唯一时,可以使用G的BWT高效地计算出其位置坐标是公知的(非专利文献7)。
图15是表示在本实施例中,比较前导序列的共同序列S与x周边的染色体组序列来判定在x位置有无剪接的方法的流程图。在此,p0、p1、p2、p3是由用户指示的判定基准参数。首先,将变量x1初始设定成推定为有剪接的位置坐标x(1501)。比较x1与x(1502),两者相距p0以上的情况下,判定为无剪接,结束处理(1517)。不是这样的情况下,更新x0的值(1503),决定S的部分序列s(1504)。计算染色体组序列数据中的s的深度Occ(s,G)(1505),在其比1大的情况下,向x0的更新处理1506前进。除此以外的情况下,在Occ(s,G)等于1的情况下(1509),在前导序列数据中的s的深度Occ(s,R)比p1大的情况下(1510),向1511前进。另一方面,在Occ(s,G)为0的情况下(1509)或Occ(s,R)在p1以下的情况下(1510),向x1的更新处理1508前进。此外,在x0的更新处理(1506)后,确认共同序列S是否决定至x0,这样的情况下,返回到1504,更新s而继续进行处理。
不是这样的情况下,向x1的更新处理1508前进而继续进行处理。向1511前进的情况下,求出s的唯一出现位置v,如果从x到v的距离在p2以下,则判定为检测出p2以下的长度较短的缺失(1513),判定为无剪接(1517),结束处理。不是这样的情况下,v位于x的左方,并且,从x到v的距离在s3以下的情况下(1514),判定为有剪接而结束处理(1515)。不是这样的情况下,判定为检测出嵌合基因(融合基因)(1516),判定为有剪接(1515),结束处理。
图16是表示在本实施例中,正向进行搜索在碱基位置x,根据MLU和深度来推定有无剪接的方法的流程图。在包含x本身和x周边的各碱基位置y,作为染色体组序列DB与前导序列DB的查询结果,设为已取得MLU和深度的值,即L(y)和D(y)的值。此外,d1、d2、h1、h2、h3、h4、l1是推定基准参数,在处理之前输入这些值。在位置x深度D(x)充分大时,推定为无剪接(1601)。如果在x的周边MLU变大,则推定为不能推定(1602)。如果在x的正向侧的周边平均深度充分变大,则认为不能推定(1603)。与X的正向侧的周边相比,如果在x的反向侧的周边深度大幅度降低,则推定为有剪接,不是这样的情况下,推定为无剪接(1604)。
在以上说明的本发明中,对于各前导序列,考虑序列错误的各种可能性,不进行任何调查其匹配目的地的处理。对于前导序列数据,按照词典式顺序分类(包含前导序列本身)其所有的后缀。这样的分类处理较简单,不会留下任何的任意性。因此,不会发生依存于处理方法的偏差,能够进行中立的处理。此外,由于处理简单,与匹配处理进行比较,而能够抑制计算成本。
此外,完全独立地进行参照染色体组侧的MLU的计算和前导序列侧的所有后缀的分类处理。因此,在准备了多个参照染色体组序列的情况下,不需要进行依存于参照染色体组和前导序列的组合的处理。
并且,在下游的变异解析处理中,在想要解析的基因区域内,通过进行向参照染色体组序列数据库的查询(MLU,或MLU的长度的部分序列)和向前导序列数据库的查询(针对关键序列的深度、或包含关键序列的前导序列),推定包含变异的可能性较高的区域,从所有前导序列中检索成为对象的前导序列而能够进行详细的解析。因此,不进行以往的匹配处理,通过本发明检索对象而能够高效地进行变异解析。
另外,本发明并不局限于上述的实施例,还可以包括各种变形例。例如,上述的实施例是为了更好地理解本发明而进行的详细说明,并不一定必须具备说明的所有结构。此外,也可以将一实施例的结构的一部分置换成其他实施例的结构,并且,也可以对一实施例的结构增加其他实施例的结构。此外,可以对各实施例的结构的一部分进行其他结构的追加/删除/置换。
并且,上述的各结构、功能、处理部等说明了生成用于实现这些的一部分或全部的程序的例子,但这些的一部分或全部例如也可以通过集成电路进行设计等而通过硬件来实现。
符号说明
100、122 用户终端
101  DNA样品
102  大规模并行型DNA测序器
103  前导序列数据
104  前导序列数据库(DB)化处理
105  前导序列数据库(DB)
106  参照染色体组序列数据
107  染色体组序列数据库(DB)化处理
108  染色体组序列数据库(DB)
123  磁盘
407  已分类的循环置换字符串列表(SLCP)
408  前导序列数据的BWT
501  已分类的循环置换字符串列表(SLCP)
1104 染色体组序列的MLU(minimum length for uniqueness)的二进制编码数据
1700 解析装置
1701 处理部(CPU)
1702 存储器
1703 显示部
1704 存储装置(HDD)
1705 输入部
1706 网络接口(NIF)
1707 总线

Claims (15)

1.一种数据解析装置,其具备处理部和存储部,该数据解析装置的特征在于,
所述存储部存储将染色体组序列数据数据库化后的染色体组序列数据库和将前导序列数据数据库化后的前导序列数据库,
所述处理部根据特定的解析对象的染色体组区域的序列来选择检索用碱基序列即关键序列;求出位于所述前导序列数据库中的所述关键序列的深度;提取包含位于所述前导序列数据库中的所述关键序列的前导序列数据,比较提取出的所述前导序列数据与所述染色体组区域的序列来进行数据解析。
2.根据权利要求1所述的数据解析装置,其特征在于,
所述染色体组序列数据库能够输出以接受了查询的位置坐标作为起点的部分序列在染色体组序列内考虑互补链后成为唯一的最小的长度(MLU,minimum length for uniqueness),
所述处理部选择所述解析对象的染色体组区域的部分序列,且具有所述MLU的长度的序列作为选择的所述关键序列。
3.根据权利要求1所述的数据解析装置,其特征在于,
所述处理部扫描染色体组区域内,将在所述前导序列数据库中所述关键序列的深度局部下降的位置推定为存在变异的可能性高的位置;在推定出的所述位置,从所述前导序列数据库中提取包含所述关键序列的前导序列数据;比较提取出的所述前导序列数据与所述染色体组区域的序列,来进行变异解析。
4.根据权利要求1所述的数据解析装置,其特征在于,
所述处理部扫描染色体组区域内,将所述前导序列数据库中的所述关键序列的深度与前方相比在后方局部下降的位置推定为产生剪接的可能性高的位置;在推定为产生所述剪接的可能性高的位置,从所述前导序列数据库中提取包含所述关键序列的所述前导序列数据;比较提取出的所述前导序列数据与所述染色体组区域的序列,来进行剪接解析。
5.根据权利要求1所述的数据解析装置,其特征在于,
该数据解析装置还具备用于输入解析参数的输入部,
所述处理部根据所述前导序列数据库中的所述关键序列的深度,来进行是否从所述前导序列数据库中提取包含所述关键序列的所述前导序列数据的判断;能够通过从所述输入部输入的解析参数来调整该判断的基准。
6.根据权利要求5所述的数据解析装置,其特征在于,
所述处理部扫描染色体组区域内,将在所述前导序列数据库中所述关键序列的深度局部下降的位置推定为存在变异的可能性高的位置;在推定出的所述位置,从所述前导序列数据库中提取包含所述关键序列的前导序列数据;比较提取出的所述前导序列数据与所述染色体组区域的序列,来进行变异解析;能够通过所述解析参数来调整所述推定的基准。
7.根据权利要求5所述的数据解析装置,其特征在于,
所述处理部扫描染色体组区域内,将所述前导序列数据库中的所述关键序列的深度与前方相比在后方局部下降的位置推定为产生剪接的可能性高的位置;在推定为产生所述剪接的可能性高的位置,从所述前导序列数据库中提取包含所述关键序列的所述前导序列数据;比较提取出的所述前导序列数据与所述染色体组区域的序列,来进行剪接解析;能够通过所述解析参数来调整所述推定的基准。
8.根据权利要求1所述的数据解析装置,其特征在于,
该数据解析装置还具备用于显示所述处理部的所述数据解析的结果的显示部。
9.一种数据解析方法,其是数据解析装置的处理部的数据解析方法,该数据解析方法的特征在于,
使用将染色体组序列数据以能够检索的形式数据库化后的染色体组序列数据库和将前导序列数据以能够检索的形式数据库化后的前导序列数据的前导序列数据库;根据特定的解析对象的染色体组区域的序列来选择检索用碱基序列即关键序列;求出位于所述前导序列数据库中的所述关键序列的深度;提取包含位于所述前导序列数据库中的所述关键序列的前导序列数据,比较提取出的所述前导序列数据与所述染色体组区域的序列来进行数据解析。
10.根据权利要求9所述的数据解析方法,其特征在于,
所述染色体组序列数据库能够输出以接受了查询的位置坐标作为起点的部分序列在染色体组序列内考虑互补链后成为唯一的最小的长度(MLU,minimum length for uniqueness),
选择所述解析对象的染色体组区域的部分序列,且具有所述MLU的长度的序列作为选择的所述关键序列。
11.根据权利要求9所述的数据解析方法,其特征在于,
扫描染色体组区域内,将在所述前导序列数据库中所述关键序列的深度局部下降的位置推定为存在变异的可能性高的位置;在推定出的所述位置,从所述前导序列数据库中提取包含所述关键序列的前导序列数据;比较提取出的所述前导序列数据与所述染色体组区域的序列,来进行变异解析。
12.根据权利要求9所述的数据解析方法,其特征在于,
扫描染色体组区域内,将所述前导序列数据库中的所述关键序列的深度与前方相比在后方局部下降的位置推定为产生剪接的可能性高的位置;在推定为产生所述剪接的可能性高的位置,从所述前导序列数据库中提取包含所述关键序列的所述前导序列数据;比较提取出的所述前导序列数据与所述染色体组区域的序列,来进行剪接解析。
13.根据权利要求9所述的数据解析方法,其特征在于,
根据所述前导序列数据库中的所述关键序列的深度来进行是否从所述前导序列数据库中提取包含所述关键序列的所述前导序列数据的判断;通过用户指示的解析参数,来调整该判断的基准。
14.根据权利要求13所述的数据解析方法,其特征在于,
扫描染色体组区域内,将在所述前导序列数据库中所述关键序列的深度局部下降的位置推定为存在变异的可能性高的位置;在推定出的所述位置,从所述前导序列数据库中提取包含所述关键序列的前导序列数据;比较提取出的所述前导序列数据与所述染色体组区域的序列,来进行变异解析;通过所述解析参数,来调整所述推定的基准。
15.根据权利要求13所述的数据解析方法,其特征在于,
扫描染色体组区域内,将所述前导序列数据库中的所述关键序列的深度与前方相比在后方局部下降的位置推定为产生剪接的可能性高的位置;在推定为产生所述剪接的可能性高的位置,从所述前导序列数据库中提取包含所述关键序列的所述前导序列数据;比较提取出的所述前导序列数据与所述染色体组区域的序列,来进行剪接解析;通过所述解析参数,来调整所述推定的基准。
CN201380071119.1A 2013-02-28 2013-11-20 数据解析装置及其方法 Active CN104937599B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013038919 2013-02-28
JP2013-038919 2013-02-28
PCT/JP2013/081233 WO2014132497A1 (ja) 2013-02-28 2013-11-20 データ解析装置、及びその方法

Publications (2)

Publication Number Publication Date
CN104937599A true CN104937599A (zh) 2015-09-23
CN104937599B CN104937599B (zh) 2018-01-23

Family

ID=51427788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380071119.1A Active CN104937599B (zh) 2013-02-28 2013-11-20 数据解析装置及其方法

Country Status (5)

Country Link
US (1) US10192028B2 (zh)
EP (1) EP2963575B1 (zh)
JP (1) JP5985040B2 (zh)
CN (1) CN104937599B (zh)
WO (1) WO2014132497A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104541A (zh) * 2014-04-03 2016-11-09 株式会社日立高新技术 序列数据分析装置、dna分析系统以及序列数据分析方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
MX2017010142A (es) * 2015-02-09 2017-12-11 10X Genomics Inc Sistemas y metodos para determinar variacion estructural y ajuste de fases con datos de recuperacion de variantes.
WO2016143062A1 (ja) * 2015-03-10 2016-09-15 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
JP6648549B2 (ja) * 2016-02-19 2020-02-14 富士通株式会社 変異情報処理装置、方法及びプログラム
CN109643322B (zh) * 2016-09-02 2022-11-29 株式会社日立高新技术 字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统
TW201921277A (zh) * 2017-07-24 2019-06-01 國立研究開發法人農業 食品產業技術總合研究機構 插入、缺失、倒位、易位、取代之檢測方法
WO2019108851A1 (en) 2017-11-30 2019-06-06 10X Genomics, Inc. Systems and methods for nucleic acid preparation and analysis
WO2020182172A1 (en) * 2019-03-14 2020-09-17 Huawei Technologies Co., Ltd. Method and system for memory allocation to optimize computer operations of seeding for burrows wheeler alignment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922325A (zh) * 2003-12-23 2007-02-28 达尔塔生物技术有限公司 基因表达技术
US20100286925A1 (en) * 2009-02-03 2010-11-11 Halpern Aaron L Oligomer sequences mapping
CN102363051A (zh) * 2004-04-30 2012-02-29 祥丰医疗有限公司 具有可捕获遗传改变的细胞的涂层的医疗装置及其使用方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9522217B2 (en) 2000-03-15 2016-12-20 Orbusneich Medical, Inc. Medical device with coating for capturing genetically-altered cells and methods for using same
JP2003330934A (ja) 2002-05-10 2003-11-21 Celestar Lexico-Sciences Inc 変異体配列解析装置、変異体配列解析方法、プログラム、および、記録媒体
JP2006039867A (ja) * 2004-07-26 2006-02-09 Hitachi Software Eng Co Ltd cDNA配列のマッピング方法
EP1831375B1 (en) 2004-12-23 2014-07-16 Novozymes Biopharma DK A/S Gene expression technique
JP5183155B2 (ja) * 2007-11-06 2013-04-17 株式会社日立製作所 大量配列の一括検索方法及び検索システム
WO2010119783A1 (ja) * 2009-04-13 2010-10-21 株式会社日立製作所 ペア文字列検索システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922325A (zh) * 2003-12-23 2007-02-28 达尔塔生物技术有限公司 基因表达技术
CN102363051A (zh) * 2004-04-30 2012-02-29 祥丰医疗有限公司 具有可捕获遗传改变的细胞的涂层的医疗装置及其使用方法
US20100286925A1 (en) * 2009-02-03 2010-11-11 Halpern Aaron L Oligomer sequences mapping

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104541A (zh) * 2014-04-03 2016-11-09 株式会社日立高新技术 序列数据分析装置、dna分析系统以及序列数据分析方法
CN106104541B (zh) * 2014-04-03 2018-09-11 株式会社日立高新技术 序列数据分析装置、dna分析系统以及序列数据分析方法

Also Published As

Publication number Publication date
CN104937599B (zh) 2018-01-23
US10192028B2 (en) 2019-01-29
EP2963575A1 (en) 2016-01-06
EP2963575B1 (en) 2021-11-10
EP2963575A4 (en) 2016-10-26
JPWO2014132497A1 (ja) 2017-02-02
WO2014132497A1 (ja) 2014-09-04
US20150363549A1 (en) 2015-12-17
JP5985040B2 (ja) 2016-09-06

Similar Documents

Publication Publication Date Title
CN104937599A (zh) 数据解析装置及其方法
US7756847B2 (en) Method and arrangement for searching for strings
JP5183155B2 (ja) 大量配列の一括検索方法及び検索システム
US8972415B2 (en) Similarity search initialization
US10810239B2 (en) Sequence data analyzer, DNA analysis system and sequence data analysis method
WO2019165546A1 (en) Layered locality sensitive hashing (lsh) partition indexing for big data applications
Bhukya et al. Exact multiple pattern matching algorithm using DNA sequence and pattern pair
JP2008533619A (ja) 非バイナリ配列比較のためのシステム、方法及びコンピュータプログラム
Cheng et al. Clustering-based compression for population DNA sequences
Schnattinger et al. Bidirectional search in a string with wavelet trees
Lewenstein et al. Less space: Indexing for queries with wildcards
Procházka et al. Compressing similar biological sequences using fm-index
Kumar et al. Efficient read alignment using burrows wheeler transform and wavelet tree
Hon et al. Succinct indexes for circular patterns
CN111344794B (zh) 用于鉴定单体型的装置和方法
Yin et al. Variable length motif-based time series classification
Thankachan et al. An efficient algorithm for finding all pairs k-mismatch maximal common substrings
Biswas et al. Position-restricted substring searching over small alphabets
KR20190139227A (ko) K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법
Alatabbi et al. On the repetitive collection indexing problem
Kumar et al. Burrows Wheeler Transform and Wavelet Tree Based Retrieval of Genome Sequence in an Indexed Genome Database
Liu et al. K-mer index of DNA sequence based on hash algorithm
US20230178179A1 (en) Memory-efficient whole genome assembly of long reads
CN109787755B (zh) 一种密钥生成方法、密钥生成装置及电子设备
Keerthy et al. Pattern matching in compressed genomic sequence data

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant