JP2012078880A - Genome sequence specification device, genome sequence specification program and genome sequence specification method of genome sequence specification device - Google Patents
Genome sequence specification device, genome sequence specification program and genome sequence specification method of genome sequence specification device Download PDFInfo
- Publication number
- JP2012078880A JP2012078880A JP2010220392A JP2010220392A JP2012078880A JP 2012078880 A JP2012078880 A JP 2012078880A JP 2010220392 A JP2010220392 A JP 2010220392A JP 2010220392 A JP2010220392 A JP 2010220392A JP 2012078880 A JP2012078880 A JP 2012078880A
- Authority
- JP
- Japan
- Prior art keywords
- sequence data
- data
- mapping
- genome
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、ゲノムの塩基配列を特定するゲノム配列特定装置、ゲノム配列特定プログラムおよびゲノム配列特定装置のゲノム配列特定方法に関するものである。 The present invention relates to a genome sequence specifying device, a genome sequence specifying program, and a genome sequence specifying method of a genome sequence specifying device for specifying a base sequence of a genome.
高等生物のゲノムはおおむね数億から数十億の塩基が連なる塩基配列であるが、現在の技術では一度に1000程度の長さの塩基配列しか解読することができない。
そこで、ゲノム全体の塩基配列を解読するには、ゲノムを30〜1000塩基程度の短い塩基配列に断片化して解読し、解読した大量の断片配列からゲノム全体の塩基配列を復元する必要がある。
The genomes of higher organisms generally have base sequences consisting of hundreds of millions to billions of bases, but current technology can only decode base sequences as long as about 1000 at a time.
Therefore, in order to decode the base sequence of the entire genome, it is necessary to fragment the genome into short base sequences of about 30 to 1000 bases, decode it, and restore the base sequence of the entire genome from the large number of decoded fragment sequences.
ゲノムの復元手法として、近縁種ゲノムをヒントにして復元を試みる「リファレンスマッピング」と、ヒント無しで復元を試みる「デノボアセンブル」が用いられている。 As a method for restoring genomes, “reference mapping” that tries to restore using a related species genome as a hint and “de novo assembly” that tries to restore without a hint are used.
しかし、リファレンスマッピングは、近縁種ゲノムの塩基配列に対応しない部分を復元することができない。
また、デノボアセンブルは、復元できない部分が生じてしまう上、復元できた部分がゲノムのどの部分であるかを特定することができない。さらに、計算量が膨大であるため、処理能力が高い計算機を用意する必要がある。
However, reference mapping cannot restore a portion that does not correspond to the base sequence of a related species genome.
In addition, de novo assembly results in a part that cannot be restored, and it is not possible to specify which part of the genome the restored part is. Furthermore, since the calculation amount is enormous, it is necessary to prepare a computer with high processing capability.
本発明は、解読された大量の断片配列からゲノム全体の塩基配列を復元できるようにすることを目的とする。 An object of the present invention is to make it possible to restore the base sequence of the entire genome from a large number of decoded fragment sequences.
本発明のゲノム配列特定装置は、
対象ゲノムの塩基配列の断片を示す複数の断片配列データを入力し、塩基配列が特定された既知ゲノムの塩基配列を示す参照配列データを入力し、複数の断片配列データと前記参照配列データとを比較し、比較結果に基づいて複数の断片配列データを前記参照配列データに対応させて結合したデータをマッピング部分配列データとして生成するリファレンスマッピング部と、
複数の断片配列データから前記リファレンスマッピング部により生成されたマッピング部分配列データに含まれない複数の断片配列データを複数の非マッピング断片データとして抽出する非マッピング断片データ抽出部と、
前記リファレンスマッピング部により生成されたマッピング部分配列データから前記マッピング部分配列データの端部に含まれる断片配列データを端部配列データとして抽出する端部配列データ抽出部と、
前記端部配列データ抽出部により抽出された端部配列データと前記非マッピング断片データ抽出部により抽出された複数の非マッピング断片データとを比較し、比較結果に基づいて前記端部配列データと少なくともいずれかの非マッピング断片データとを一致部分で結合したデータをアセンブル部分配列データとして生成するデノボアセンブル部と、
前記リファレンスマッピング部により生成されたマッピング部分配列データと前記デノボアセンブル部により生成されたアセンブル部分配列データとを前記端部配列データを示す部分で結合したデータを前記対象ゲノムの塩基配列を示すゲノム配列データとして生成するゲノム配列データ生成部とを備える。
The genome sequence identification device of the present invention comprises:
Input a plurality of fragment sequence data indicating fragments of the base sequence of the target genome, input reference sequence data indicating a known genome base sequence whose base sequence is specified, and a plurality of fragment sequence data and the reference sequence data. A reference mapping unit that generates a mapping partial sequence data by combining and combining a plurality of fragment sequence data corresponding to the reference sequence data based on the comparison result;
A non-mapping fragment data extraction unit that extracts a plurality of fragment sequence data not included in the mapping partial sequence data generated by the reference mapping unit from a plurality of fragment sequence data as a plurality of non-mapping fragment data;
An end sequence data extraction unit that extracts, as end sequence data, fragment sequence data included in the end of the mapping partial sequence data from the mapping partial sequence data generated by the reference mapping unit;
The end sequence data extracted by the end sequence data extraction unit is compared with a plurality of non-mapping fragment data extracted by the non-mapping fragment data extraction unit, and at least the end sequence data is compared with the end sequence data based on the comparison result A de novo assembly part that generates data obtained by combining any non-mapping fragment data with a matching part as assembled partial array data;
Genomic sequence indicating the base sequence of the target genome by combining the mapping partial sequence data generated by the reference mapping unit and the assembled partial sequence data generated by the de novo assembly unit at a portion indicating the end sequence data A genome sequence data generation unit that generates data.
前記リファレンスマッピング部は、複数のマッピング部分配列データを生成し、
前記端部配列データ抽出部は、複数のマッピング部分配列データから複数の端部配列データを抽出し、
前記デノボアセンブル部は、複数の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいて複数のアセンブル部分配列データを生成し、
前記ゲノム配列データ生成部は、複数のマッピング部分配列データと複数のアセンブル部分配列データとを結合して前記ゲノム配列データを生成する。
The reference mapping unit generates a plurality of mapping partial array data,
The end sequence data extraction unit extracts a plurality of end sequence data from a plurality of mapping partial sequence data,
The de novo assembly part compares a plurality of end part arrangement data and a plurality of non-mapping fragment data, and generates a plurality of assembly partial arrangement data based on the comparison result,
The genome sequence data generation unit combines the plurality of mapping partial sequence data and the plurality of assembly partial sequence data to generate the genome sequence data.
前記端部配列データ抽出部は、前記参照配列データ内でいずれのマッピング部分配列データとも対応しない部分をギャップとして特定し、特定したギャップ毎にギャップ前後のマッピング部分配列データからギャップ側の端部の端部配列データを抽出し、
前記デノボアセンブル部は、複数の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいて複数のギャップに対応する複数のアセンブル部分配列データを生成し、
前記ゲノム配列データ生成部は、複数のマッピング部分配列データと複数のアセンブル部分配列データとを結合して前記ゲノム配列データを生成する。
The end sequence data extraction unit identifies a portion that does not correspond to any mapping partial sequence data in the reference sequence data as a gap, and for each identified gap, from the mapping partial sequence data before and after the gap, Extract edge sequence data,
The de novo assembly part compares a plurality of end array data and a plurality of non-mapping fragment data, and generates a plurality of assembled partial array data corresponding to a plurality of gaps based on the comparison result,
The genome sequence data generation unit combines the plurality of mapping partial sequence data and the plurality of assembly partial sequence data to generate the genome sequence data.
前記デノボアセンブル部は、ギャップ毎にギャップ前後の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいてアセンブル部分配列データをギャップ毎に生成し、
前記ゲノム配列データ生成部は、ギャップ毎にギャップ前後のマッピング部分配列データとギャップに対応するアセンブル部分配列データとを結合して前記ゲノム配列データを生成する。
The de novo assembly part compares the end arrangement data before and after the gap and a plurality of non-mapping fragment data for each gap, and generates assembly partial arrangement data for each gap based on the comparison result,
The genome sequence data generation unit generates the genome sequence data by combining the mapping partial sequence data before and after the gap and the assembled partial sequence data corresponding to the gap for each gap.
本発明のゲノム配列特定プログラムは、
対象ゲノムの塩基配列の断片を示す複数の断片配列データを入力し、塩基配列が特定された既知ゲノムの塩基配列を示す参照配列データを入力し、複数の断片配列データと前記参照配列データとを比較し、比較結果に基づいて複数の断片配列データを前記参照配列データに対応させて結合したデータをマッピング部分配列データとして生成するリファレンスマッピング処理と、
複数の断片配列データから前記リファレンスマッピング処理により生成されたマッピング部分配列データに含まれない複数の断片配列データを複数の非マッピング断片データとして抽出する非マッピング断片データ抽出処理と、
前記リファレンスマッピング処理により生成されたマッピング部分配列データから前記マッピング部分配列データの端部に含まれる断片配列データを端部配列データとして抽出する端部配列データ抽出処理と、
前記端部配列データ抽出処理により抽出された端部配列データと前記非マッピング断片データ抽出処理により抽出された複数の非マッピング断片データとを比較し、比較結果に基づいて前記端部配列データと少なくともいずれかの非マッピング断片データとを一致部分で結合したデータをアセンブル部分配列データとして生成するデノボアセンブル処理と、
前記リファレンスマッピング処理により生成されたマッピング部分配列データと前記デノボアセンブル処理により生成されたアセンブル部分配列データとを前記端部配列データを示す部分で結合したデータを前記対象ゲノムの塩基配列を示すゲノム配列データとして生成するゲノム配列データ生成処理とをコンピュータに実行させる。
The genome sequence identification program of the present invention includes:
Input a plurality of fragment sequence data indicating fragments of the base sequence of the target genome, input reference sequence data indicating a known genome base sequence whose base sequence is specified, and a plurality of fragment sequence data and the reference sequence data. A reference mapping process for generating, as mapping partial sequence data, a plurality of fragment sequence data corresponding to the reference sequence data and combining them based on the comparison results,
A non-mapping fragment data extraction process for extracting a plurality of fragment sequence data not included in the mapping partial sequence data generated by the reference mapping process from a plurality of fragment sequence data as a plurality of non-mapping fragment data;
End sequence data extraction processing for extracting fragment sequence data included in the end of the mapping partial sequence data from the mapping partial sequence data generated by the reference mapping processing as end sequence data;
The end sequence data extracted by the end sequence data extraction process is compared with a plurality of non-mapping fragment data extracted by the non-mapping fragment data extraction process, and at least the end sequence data is compared with the end sequence data based on the comparison result De novo assembly processing for generating data that combines any non-mapping fragment data with a matching part as assembled partial array data;
A genome sequence indicating the base sequence of the target genome, which is obtained by combining the mapping partial sequence data generated by the reference mapping process and the assembled partial sequence data generated by the de novo assembly process at a portion indicating the end sequence data The computer is caused to execute genome sequence data generation processing to be generated as data.
前記リファレンスマッピング処理は、複数のマッピング部分配列データを生成し、
前記端部配列データ抽出処理は、複数のマッピング部分配列データから複数の端部配列データを抽出し、
前記デノボアセンブル処理は、複数の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいて複数のアセンブル部分配列データを生成し、
前記ゲノム配列データ生成処理は、複数のマッピング部分配列データと複数のアセンブル部分配列データとを結合して前記ゲノム配列データを生成する。
The reference mapping process generates a plurality of mapping partial array data,
The end sequence data extraction process extracts a plurality of end sequence data from a plurality of mapping partial sequence data,
The de novo assembly process compares a plurality of end sequence data and a plurality of non-mapping fragment data, generates a plurality of assembled partial sequence data based on the comparison result,
In the genome sequence data generation process, a plurality of mapping partial sequence data and a plurality of assembled partial sequence data are combined to generate the genome sequence data.
前記端部配列データ抽出処理は、前記参照配列データ内でいずれのマッピング部分配列データとも対応しない部分をギャップとして特定し、特定したギャップ毎にギャップ前後のマッピング部分配列データからギャップ側の端部の端部配列データを抽出し、
前記デノボアセンブル処理は、複数の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいて複数のギャップに対応する複数のアセンブル部分配列データを生成し、
前記ゲノム配列データ生成処理は、複数のマッピング部分配列データと複数のアセンブル部分配列データとを結合して前記ゲノム配列データを生成する。
The end sequence data extraction processing specifies a portion that does not correspond to any mapping partial sequence data in the reference sequence data as a gap, and for each specified gap, the mapping sequence sequence data before and after the gap Extract edge sequence data,
The de novo assembly process compares a plurality of end sequence data and a plurality of non-mapping fragment data, generates a plurality of assembled partial sequence data corresponding to a plurality of gaps based on the comparison result,
In the genome sequence data generation process, a plurality of mapping partial sequence data and a plurality of assembled partial sequence data are combined to generate the genome sequence data.
前記デノボアセンブル処理は、ギャップ毎にギャップ前後の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいてアセンブル部分配列データをギャップ毎に生成し、
前記ゲノム配列データ生成処理は、ギャップ毎にギャップ前後のマッピング部分配列データとギャップに対応するアセンブル部分配列データとを結合して前記ゲノム配列データを生成する。
The de novo assembly process compares the end sequence data before and after the gap and a plurality of non-mapping fragment data for each gap, and generates assembled partial sequence data for each gap based on the comparison result,
In the genome sequence data generation process, the mapping partial sequence data before and after the gap and the assembled partial sequence data corresponding to the gap are combined for each gap to generate the genome sequence data.
本発明のゲノム配列特定方法は、
リファレンスマッピング部が、対象ゲノムの塩基配列の断片を示す複数の断片配列データを入力し、塩基配列が特定された既知ゲノムの塩基配列を示す参照配列データを入力し、複数の断片配列データと前記参照配列データとを比較し、比較結果に基づいて複数の断片配列データを前記参照配列データに対応させて結合したデータをマッピング部分配列データとして生成し、
非マッピング断片データ抽出部が、複数の断片配列データから前記リファレンスマッピング部により生成されたマッピング部分配列データに含まれない複数の断片配列データを複数の非マッピング断片データとして抽出し、
端部配列データ抽出部が、前記リファレンスマッピング部により生成されたマッピング部分配列データから前記マッピング部分配列データの端部に含まれる断片配列データを端部配列データとして抽出し、
デノボアセンブル部が、前記端部配列データ抽出部により抽出された端部配列データと前記非マッピング断片データ抽出部により抽出された複数の非マッピング断片データとを比較し、比較結果に基づいて前記端部配列データと少なくともいずれかの非マッピング断片データとを一致部分で結合したデータをアセンブル部分配列データとして生成し、
ゲノム配列データ生成部が、前記リファレンスマッピング部により生成されたマッピング部分配列データと前記デノボアセンブル部により生成されたアセンブル部分配列データとを前記端部配列データを示す部分で結合したデータを前記対象ゲノムの塩基配列を示すゲノム配列データとして生成する。
The genomic sequence identification method of the present invention comprises:
The reference mapping unit inputs a plurality of fragment sequence data indicating fragments of the base sequence of the target genome, inputs reference sequence data indicating the base sequence of a known genome whose base sequence is specified, a plurality of fragment sequence data and the above-mentioned Compared with reference sequence data, a plurality of fragment sequence data based on the comparison result corresponding to the reference sequence data to generate data as mapping partial sequence data,
A non-mapping fragment data extraction unit extracts a plurality of fragment sequence data not included in the mapping partial sequence data generated by the reference mapping unit from a plurality of fragment sequence data as a plurality of non-mapping fragment data;
An end sequence data extraction unit extracts fragment sequence data included at an end of the mapping partial sequence data as end sequence data from the mapping partial sequence data generated by the reference mapping unit,
The de novo assembly unit compares the end sequence data extracted by the end sequence data extraction unit with a plurality of non-mapping fragment data extracted by the non-mapping fragment data extraction unit, and based on the comparison result, Generating data as assembled partial sequence data by combining partial sequence data and at least one non-mapping fragment data at a matching portion;
The genome sequence data generating unit combines the target genome with data obtained by combining the mapping partial sequence data generated by the reference mapping unit and the assembled partial sequence data generated by the de novo assembly unit at a portion indicating the end sequence data. It is generated as genome sequence data indicating the nucleotide sequence.
本発明によれば、例えば、解読された大量の断片配列からゲノム全体の塩基配列を復元することができる。 According to the present invention, for example, the base sequence of the entire genome can be restored from a large number of decoded fragment sequences.
実施の形態1.
断片化した大量の塩基配列からゲノム全体を復元するゲノム復元装置、方法およびプログラムの形態について説明する。
Embodiment 1 FIG.
A genome restoration apparatus, method, and program configuration for restoring the entire genome from a large amount of fragmented base sequences will be described.
ゲノムとは、染色体、DNA(デオキシリボ核酸)、遺伝子などを意味する。 The genome means a chromosome, DNA (deoxyribonucleic acid), gene and the like.
図1は、実施の形態1におけるゲノム復元装置100の機能構成図である。
実施の形態1におけるゲノム復元装置100の機能構成について、図1に基づいて説明する。
FIG. 1 is a functional configuration diagram of the
A functional configuration of the
ゲノム復元装置100(ゲノム配列特定装置の一例)は、リファレンスマッピング部110、ギャップ近傍配列抽出部120、デノボアセンブル部130、完全ゲノム復元部140および配列データ記憶部190を備える。
The genome restoration device 100 (an example of a genome sequence identification device) includes a
以下、復元対象のゲノムを「対象ゲノム」という。
また、対象ゲノムを有する対象生物と種類が近い生物のゲノムを「近縁種ゲノム」という。
Hereinafter, the genome to be restored is referred to as “target genome”.
The genome of the target organism having the target genome is similar to that of the target organism.
配列データ記憶部190は、多数の断片配列データ191とリファレンス配列データ192を記憶する。
断片配列データ191は、対象ゲノムの塩基配列の断片を示すデータである。
リファレンス配列データ192(参照配列データ)は、近縁種ゲノム(既知ゲノム)の全体の塩基配列を示すデータである。
The sequence
The
Reference sequence data 192 (reference sequence data) is data indicating the entire base sequence of a related species genome (known genome).
リファレンスマッピング部110は、複数の断片配列データ191とリファレンス配列データ192とを配列データ記憶部190から入力する。
リファレンスマッピング部110は、複数の断片配列データ191とリファレンス配列データ192とを比較する。
リファレンスマッピング部110は、比較結果に基づいて複数の断片配列データ191をリファレンス配列データ192に対応させて結合したデータをマッピング部分配列データ101Aとして生成する。
The
The
The
さらに、リファレンスマッピング部110(非マッピング断片データ抽出部の一例)は、複数の断片配列データ191から複数のレフトオーバー配列データ102(非マッピング断片データ)を抽出する。
レフトオーバー配列データ102とは、マッピング部分配列データ101Aに含まれない複数の断片配列データ191である。
Further, the reference mapping unit 110 (an example of a non-mapping fragment data extraction unit) extracts a plurality of leftover sequence data 102 (non-mapping fragment data) from the plurality of
The
ギャップ近傍配列抽出部120(端部配列データ抽出部の一例)は、リファレンスマッピング部110により生成されたマッピング部分配列データ101Aからギャップ近傍配列データ103(端部配列データ)を抽出する。
ギャップ近傍配列データ103とは、マッピング部分配列データ101Aの端部に含まれる断片配列データ191である。
The gap neighborhood sequence extraction unit 120 (an example of the end sequence data extraction unit) extracts the gap neighborhood sequence data 103 (end sequence data) from the mapping partial sequence data 101A generated by the
The gap
具体的に、ギャップ近傍配列抽出部120は、複数のマッピング部分配列データ101Aから複数のギャップ近傍配列データ103を抽出する。
例えば、ギャップ近傍配列抽出部120は、リファレンス配列データ192内でいずれのマッピング部分配列データ101Aとも対応しない部分をギャップとして特定する。ギャップ近傍配列抽出部120は、特定したギャップ毎にギャップ前後のマッピング部分配列データ101Aからギャップ側の端部の断片配列データをギャップ近傍配列データ103として抽出する。
Specifically, the gap vicinity
For example, the gap neighborhood
デノボアセンブル部130は、ギャップ近傍配列抽出部120により抽出されたギャップ近傍配列データ103とリファレンスマッピング部110により抽出された複数のレフトオーバー配列データ102とを比較する。
デノボアセンブル部130は、比較結果に基づいてアセンブル部分配列データ104を生成する。
アセンブル部分配列データ104とは、ギャップ近傍配列データ103と少なくともいずれかのレフトオーバー配列データ102とを一致部分で結合したデータである。
The de
The de
The assembled
具体的に、デノボアセンブル部130は、複数のギャップ近傍配列データ103と複数のレフトオーバー配列データ102とを比較し、比較結果に基づいて複数のアセンブル部分配列データ104を生成する。
例えば、デノボアセンブル部130は、複数のギャップ近傍配列データ103と複数のレフトオーバー配列データ102とを比較し、比較結果に基づいて複数のギャップに対応する複数のアセンブル部分配列データを生成する。
また、デノボアセンブル部130は、ギャップ毎にギャップ前後のギャップ近傍配列データ103と複数のレフトオーバー配列データ102とを比較し、比較結果に基づいてアセンブル部分配列データ104をギャップ毎に生成する。
Specifically, the de
For example, the de
In addition, the de
完全ゲノム復元部140(ゲノム配列データ生成部の一例)は、リファレンスマッピング部110により生成されたマッピング部分配列データ101Aとデノボアセンブル部130により生成されたアセンブル部分配列データ104とを用いてゲノム配列データ105を生成する。
ゲノム配列データ105とは、マッピング部分配列データ101Aとアセンブル部分配列データ104とをギャップ近傍配列データ103を示す部分で結合したデータである。ゲノム配列データ105は対象ゲノムの塩基配列を示す。
The complete genome restoration unit 140 (an example of a genome sequence data generation unit) uses the mapping partial sequence data 101A generated by the
The genome sequence data 105 is data obtained by combining the mapping partial sequence data 101A and the assembled
具体的に、完全ゲノム復元部140は、複数のマッピング部分配列データ101Aと複数のアセンブル部分配列データ104とを結合してゲノム配列データ105を生成する。
例えば、完全ゲノム復元部140は、ギャップ毎にギャップ前後のマッピング部分配列データ101Aとギャップに対応するアセンブル部分配列データ104とを結合してゲノム配列データ105を生成する。
Specifically, the complete
For example, the complete
以下に、ゲノム復元装置100のゲノム復元方法について説明する。
Hereinafter, a genome restoration method of the
ゲノム復元装置100は、リファレンスマッピングとデノボアセンブルとを利用して多数の断片配列データ191から対象ゲノムの塩基配列データ(ゲノム配列データ105)を生成する。
The
断片配列データ191は、ゲノムの塩基配列の断片を「A(アデニン)」「T(チミン)」「G(グアニン)」「C(シトシン)」で示したテキストデータである。
The
断片配列データ191は、シーケンサーと呼ばれる塩基配列解読装置によって生成される。
シーケンサーは、ゲノムの断片を電気泳動により分離して塩基配列を解読し、解読結果をデータ化して出力する装置である。シーケンサーが解読できる塩基配列の長さは1000塩基程度である。
The
The sequencer is a device that separates genomic fragments by electrophoresis, decodes the base sequence, converts the decoded results into data, and outputs the data. The length of the base sequence that can be decoded by the sequencer is about 1000 bases.
図2は、リファレンスマッピングの概要図である。
リファレンスマッピングの概要について、図2に基づいて説明する。
FIG. 2 is a schematic diagram of reference mapping.
An overview of reference mapping will be described with reference to FIG.
リファレンスマッピングは、複数本の対象ゲノムから得られた多数の断片配列データを近縁種ゲノムの塩基配列データ(リファレンス配列データ)に対応させてマッピングすることにより、対象ゲノムの塩基配列データ(ゲノム配列データ)を生成する方法である。
リファレンスマッピングは、以下の処理手順で実行される。
In reference mapping, a large number of fragment sequence data obtained from multiple target genomes are mapped in correspondence with the base sequence data (reference sequence data) of the related species genome, so that the base sequence data (genome sequence) of the target genome is mapped. Data).
Reference mapping is executed by the following processing procedure.
手順1:各断片配列データとリファレンス配列データとを比較し、断片配列データ毎に当該断片配列データと一致(相同)する部分をリファレンス配列データから特定する。一致条件は完全一致以外の条件(例えば、所定割合以上で一致[類似])を含む。
図2において、断片配列データ(a)はリファレンス配列データの1文字目から1000文字目と一致し、断片配列データ(b)はリファレンス配列データの301文字目から1301文字目と一致している。
リファレンス配列データのいずれの部分とも一致しない断片配列データ(レフトオーバー配列データ)は、以後の手順2で使用しない。
Procedure 1: Each fragment sequence data is compared with the reference sequence data, and a portion that matches (homologizes) with the fragment sequence data is specified for each fragment sequence data from the reference sequence data. The matching condition includes conditions other than perfect matching (for example, matching [similarity] at a predetermined ratio or more).
In FIG. 2, the fragment sequence data (a) matches the first to 1000th characters of the reference sequence data, and the fragment sequence data (b) matches the 301st to 1301th characters of the reference sequence data.
Fragment sequence data (left-over sequence data) that does not match any part of the reference sequence data is not used in the subsequent procedure 2.
手順2:各断片配列データをリファレンス配列データ内の一致部分と同じデータ位置に設定してゲノム配列データを生成する。
例えば、断片配列データ(a)をゲノム配列データの1文字目から1000文字目に設定し、断片配列データ(b)をゲノム配列データの301文字目から1301文字目に設定する。ゲノム配列データの301文字目から1000文字目には断片配列データ(b)が上書きされる。
部分配列データ(A)は、断片配列データ(a)を含む9つの断片配列データから成る結合(連結、整列)データである。
ゲノム配列データは、部分配列データ(A)(B)(C)を含んでいる。
Procedure 2: Each fragment sequence data is set at the same data position as the matching portion in the reference sequence data, and genome sequence data is generated.
For example, the fragment sequence data (a) is set from the first character to the 1000th character of the genome sequence data, and the fragment sequence data (b) is set from the 301st character to the 1301st character of the genome sequence data. The fragment sequence data (b) is overwritten from the 301st character to the 1000th character of the genome sequence data.
The partial sequence data (A) is combined (linked, aligned) data composed of nine pieces of fragment sequence data including the fragment sequence data (a).
The genome sequence data includes partial sequence data (A) (B) (C).
リファレンスマッピングでは、リファレンス配列データと一致しない部分の塩基配列を特定することができず、対象ゲノム全体の塩基配列を特定することができない。
以下、塩基配列を特定できなかった部分を「ギャップ」という。
In reference mapping, the base sequence of the part which does not correspond with reference sequence data cannot be specified, and the base sequence of the whole target genome cannot be specified.
Hereinafter, the part where the base sequence could not be specified is referred to as “gap”.
手順1のレフトオーバー配列データはギャップ部分に設定すべきデータであると考えられる。 The leftover sequence data in Procedure 1 is considered to be data to be set in the gap portion.
リファレンスマッピングには以下の長所がある。
(1)リファレンス配列データを利用するため比較的少なめの断片配列データから部分配列データを構築することができる。
(2)デノボアセンブルに比べて計算量が少ないため、計算機に高い処理能力が要求されない。
Reference mapping has the following advantages:
(1) Since the reference sequence data is used, partial sequence data can be constructed from a relatively small amount of fragment sequence data.
(2) Since the calculation amount is small compared to de novo assembly, a high processing capacity is not required for the computer.
リファレンスマッピングには以下の短所がある。
(1)リファレンス配列データとして近縁種ゲノムの塩基配列データが必要である。
(2)ギャップが残ってしまう。
Reference mapping has the following disadvantages:
(1) The base sequence data of the related species genome is required as the reference sequence data.
(2) A gap remains.
図3は、デノボアセンブルの概要図である。
デノボアセンブルの概要について、図3に基づいて説明する。
FIG. 3 is a schematic diagram of de novo assembly.
An outline of de novo assembly will be described with reference to FIG.
デノボアセンブルは、複数本の対象ゲノムから得られた多数の断片配列データをアセンブルすることにより、対象ゲノムの塩基配列データ(ゲノム配列データ)を生成する方法である。 The de novo assembly is a method for generating base sequence data (genome sequence data) of a target genome by assembling a large number of fragment sequence data obtained from a plurality of target genomes.
デノボアセンブルは、以下の処理手順で実行される。 De novo assembly is executed by the following processing procedure.
手順1:複数の断片配列データから断片配列データを一つ選択する。
以下、選択した断片配列データを「選択配列データ」という。
Procedure 1: Select one piece of fragment sequence data from a plurality of fragment sequence data.
Hereinafter, the selected fragment sequence data is referred to as “selected sequence data”.
手順2:選択配列データの端部と他の断片配列データの端部とを比較し、選択配列データの端部と一致する端部を含んだ断片配列データを抽出する。比較する端部は先頭部または終端部の所定長のデータである。一致条件は完全一致以外の条件も含む。
以下、抽出した断片配列データを「抽出配列データ」という。
Procedure 2: The end of the selected sequence data is compared with the end of the other fragment sequence data, and the fragment sequence data including the end that matches the end of the selected sequence data is extracted. The end to be compared is data of a predetermined length at the beginning or end. Matching conditions include conditions other than perfect matching.
Hereinafter, the extracted fragment sequence data is referred to as “extracted sequence data”.
手順3:選択配列データと抽出配列データとを一致部分で結合して部分配列データを生成する。以後、部分配列データを断片配列データの一つとして扱う。選択配列データと抽出配列データとは削除する。 Step 3: Partial sequence data is generated by combining selected sequence data and extracted sequence data at a matching portion. Hereinafter, the partial sequence data is treated as one of the fragment sequence data. The selected sequence data and the extracted sequence data are deleted.
手順1から手順3は、互いの端部が一致する断片配列データの組み合わせが無くなるまで繰り返し行う。 Procedures 1 to 3 are repeated until there are no more combinations of fragment sequence data whose ends match each other.
図3は、ゲノム配列データとして部分配列データ(A)(B)(C)が生成されたことを示している。
例えば、部分配列データ(A)は断片配列データ(a)を含む9つの断片配列データから成る結合(連結、整列)データである。
FIG. 3 shows that partial sequence data (A), (B), and (C) are generated as genome sequence data.
For example, the partial sequence data (A) is combined (linked, aligned) data composed of nine pieces of fragment sequence data including the fragment sequence data (a).
デノボアセンブルでは、部分配列データ間にギャップが生じ、ゲノム全体の塩基配列を特定することができない。 In de novo assembly, a gap occurs between partial sequence data, and the base sequence of the entire genome cannot be specified.
デノボアセンブルには「リファレンス配列データが不要である」という長所がある一方で以下のような短所がある。
(1)精度良く部分配列データを生成するためには比較する端部の長さを長く設定する必要があるが、比較する端部の長さを長くすると互いの端部が一致せずギャップが増えてしまう。
(2)計算量が多いため、計算機に高い処理能力が要求される。
(3)ギャップが残ってしまう上、各部分配列データが対象ゲノムのどの部分の塩基配列を示しているか分からない。
While de novo assembly has the advantage that “reference sequence data is not required”, it has the following disadvantages.
(1) In order to generate partial sequence data with high accuracy, it is necessary to set the length of the end portion to be compared to be long. However, if the length of the end portion to be compared is increased, the end portions do not coincide with each other and a gap is generated. It will increase.
(2) Since the calculation amount is large, a high processing capacity is required for the computer.
(3) In addition to leaving a gap, it is not known which part of the target genome each partial sequence data indicates.
ゲノム復元装置100は、上記したリファレンスマッピングとデノボアセンブルとを利用して対象ゲノムの塩基配列データ(ゲノム配列データ105)を生成する。
The
図4は、実施の形態1におけるゲノム復元装置100のゲノム復元方法を示すフローチャートである。
実施の形態1におけるゲノム復元装置100のゲノム復元方法について、図4に基づいて説明する。
FIG. 4 is a flowchart showing the genome restoration method of the
A genome restoration method of the
S110(リファレンスマッピング処理の一例)において、リファレンスマッピング部110は、配列データ記憶部190から多数の断片配列データ191を入力すると共にリファレンス配列データ192を入力する。
配列データ記憶部190には、複数本の対象ゲノムから得られた多数の断片配列データ191と、近縁種ゲノムの塩基配列データ(リファレンス配列データ192)とが予め記憶されているものとする。
In S110 (an example of reference mapping processing), the
It is assumed that the sequence
リファレンスマッピング部110は、リファレンス配列データ192を用いて多数の断片配列データ191をリファレンスマッピングする(図2参照)。
以下、リファレンスマッピングにより生成されるゲノム配列データを「ゲノム暫定配列データ101」という。
The
Hereinafter, the genome sequence data generated by the reference mapping is referred to as “genome
ゲノム暫定配列データ101は、特定部分の塩基配列(部分配列)を「A」「T」「G」「C」から成る文字列で示し、塩基配列が特定されなかった部分(ギャップ)を所定の文字列(例えば、複数の「0」)で示す。
以下、ゲノム暫定配列データ101が示す部分配列を「マッピング部分配列データ101A」という。ゲノム暫定配列データ101は複数のマッピング部分配列データ101Aを含む。
S110の後、S120に進む。
The provisional
Hereinafter, the partial sequence indicated by the genome
It progresses to S120 after S110.
S120(非マッピング断片データ抽出処理の一例)において、リファレンスマッピング部110は、多数の断片配列データ191のうちゲノム暫定配列データ101に設定されなかった複数の断片配列データ191を特定する。
以下、S120で特定した各断片配列データ191を「レフトオーバー配列データ102」という。
S120の後、S130に進む。
In S120 (an example of non-mapping fragment data extraction processing), the
Hereinafter, each piece of
It progresses to S130 after S120.
S130(端部配列データ抽出処理の一例)において、ギャップ近傍配列抽出部120は、S110で生成されたゲノム暫定配列データ101を入力する。
ギャップ近傍配列抽出部120は、ゲノム暫定配列データ101に含まれるマッピング部分配列データ101Aからギャップ前後に設定されている所定長のデータ(断片配列データ191)を抽出する。
以下、S130で抽出したデータを「ギャップ近傍配列データ103」という。
In S130 (an example of end sequence data extraction processing), the gap vicinity
The gap vicinity
Hereinafter, the data extracted in S130 is referred to as “gap
リファレンスマッピング(S110)の際にリファレンスマッピング部110が各ギャップの前後に設定した断片配列データ191の識別情報を記録しておき、記録された識別情報で識別される断片配列データ191をギャップ近傍配列抽出部120がギャップ近傍配列データ103として配列データ記憶部190から入力しても構わない。
In the reference mapping (S110), the
S130の後、S140に進む。 It progresses to S140 after S130.
図5は、実施の形態1におけるゲノム復元方法のS110〜S130の概要を示す処理概要図である。
実施の形態1におけるゲノム復元方法のS110〜S130の概要について、図5に基づいて説明する。
FIG. 5 is a process outline diagram showing an outline of S110 to S130 of the genome restoration method according to the first embodiment.
An overview of S110 to S130 of the genome restoration method according to Embodiment 1 will be described with reference to FIG.
リファレンスマッピング部110は、リファレンス配列データ192の一部と一致する各断片配列データ191を一致部分と同じデータ位置に設定してゲノム暫定配列データ101を生成する(S110)。
リファレンスマッピング部110は、ゲノム暫定配列データ101に設定しなかった複数の断片配列データ191(レフトオーバー配列データ102)を特定する(S120)。
ギャップ近傍配列抽出部120は、ゲノム暫定配列データ101にギャップ前後のデータとして設定された複数の断片配列データ191(ギャップ近傍配列データ103)を抽出する(S130)。
The
The
The gap neighborhood
図4に戻り、ゲノム復元方法の説明を続ける。 Returning to FIG. 4, the description of the genome restoration method will be continued.
S140(デノボアセンブル処理の一例)において、デノボアセンブル部130は、S120で特定された複数のレフトオーバー配列データ102とS130で抽出された複数のギャップ近傍配列データ103とを入力する。
デノボアセンブル部130は、複数のレフトオーバー配列データ102と複数のギャップ近傍配列データ103とをデノボアセンブルする(図3参照)。
以下、デノボアセンブルにより生成される複数の部分配列データを「アセンブル部分配列データ104」という。
In S140 (an example of de novo assembly process), the de
The de
Hereinafter, a plurality of partial array data generated by de novo assembly is referred to as “assembled
例えば、デノボアセンブル部130は、ギャップ毎にギャップ前後のギャップ近傍配列データ103と全てのレフトオーバー配列データ102とをデノボアセンブルし、ギャップ毎にアセンブル部分配列データ104を生成する。
この場合、ゲノム復元装置100を複数の計算機(CPU)を備えた並列計算機として構成した上で各ギャップに対するデノボアセンブルを並列処理するとよい。これにより、処理時間を短縮することができる。また、ギャップ毎に別々にデノボアセンブルを行うため、特定のギャップのギャップ近傍配列データ103が他のギャップのギャップ近傍配列データ103と類似していてもギャップ近傍配列データ103の類似の影響を受けずに各ギャップのアセンブル部分配列データ104を生成することができる。
または、各ギャップに対するデノボアセンブルをギャップのデータ位置順(またはランダム)に行い、アセンブル部分配列データ104に設定済みのレフトオーバー配列データ102を次回以降のデノボアセンブルで除外してデータ量・計算量を削減してもよい。
For example, the de
In this case, the
Alternatively, de novo assembly for each gap is performed in the order of the data position of the gap (or randomly), and the
デノボアセンブル部130は、全てのギャップ近傍配列データ103と全てのレフトオーバー配列データ102とをまとめてデノボアセンブルし、複数のアセンブル部分配列データ104を一回のデノボアセンブルによって生成してもよい。
The de
S140の後、S150に進む。 After S140, the process proceeds to S150.
図6は、実施の形態1におけるゲノム復元方法のS140の概要を示す第1の処理概要図である。
図7は、実施の形態1におけるゲノム復元方法のS140の概要を示す第2の処理概要図である。
実施の形態1におけるゲノム復元方法のS140の概要として、ギャップ毎に行うデノボアセンブルの処理概要を図6に基づいて説明し、全ギャップに対してまとめて行うデノボアセンブルの処理概要を図7に基づいて説明する。
FIG. 6 is a first process overview diagram illustrating an overview of S140 of the genome restoration method according to the first embodiment.
FIG. 7 is a second process overview diagram illustrating an overview of S140 of the genome restoration method according to the first embodiment.
As an outline of S140 of the genome restoration method according to the first embodiment, an outline of the de novo assembly process performed for each gap will be described based on FIG. 6, and an outline of the de novo assembly process performed for all the gaps will be described based on FIG. I will explain.
図6において、デノボアセンブル部130は、第1ギャップのギャップ近傍配列データ103と全てのレフトオーバー配列データ102とを用いて第1の小規模デノボアセンブルを行い、第1ギャップに対応するアセンブル部分配列データ104を生成する。
さらに、デノボアセンブル部130は、第2ギャップのギャップ近傍配列データ103と全てのレフトオーバー配列データ102とを用いて第2の小規模デノボアセンブルを行い、第2ギャップに対応するアセンブル部分配列データ104を生成する。
In FIG. 6, the de
Further, the de
小規模デノボアセンブルとは、リファレンスマッピング(S110)でマッピングされなかった余りの断片配列データ191(レフトオーバー配列データ102)を用いて行うデノボアセンブルを意味する。 The small-scale de novo assembly means de novo assembly using the remaining fragment arrangement data 191 (leftover arrangement data 102) that has not been mapped in the reference mapping (S110).
図7において、デノボアセンブル部130は、第1ギャップのギャップ近傍配列データ103と第2ギャップのギャップ近傍配列データ103と全てのレフトオーバー配列データ102とを用いて小規模デノボアセンブルを行う。
これにより、第1ギャップに対応するアセンブル部分配列データ104と第2ギャップに対応するアセンブル部分配列データ104とが生成される。第Xギャップのギャップ近傍配列データ103を含んだデータが第Xギャップに対応するアセンブル部分配列データ104である。
In FIG. 7, the de
As a result, assembly
図4に戻り、ゲノム復元方法の説明を続ける。 Returning to FIG. 4, the description of the genome restoration method will be continued.
S150(ゲノム配列データ生成処理の一例)において、完全ゲノム復元部140は、S110で生成されたゲノム暫定配列データ101とS140で生成された複数のアセンブル部分配列データ104とを入力する。
完全ゲノム復元部140は、ゲノム暫定配列データ101の各ギャップに当該ギャップに対応するアセンブル部分配列データ104を設定する。
以下、ゲノム暫定配列データ101にアセンブル部分配列データ104を設定したデータを「ゲノム配列データ105」という。
In S150 (an example of genome sequence data generation processing), the complete
The complete
Hereinafter, data in which the assembled
ゲノム配列データ105は、ゲノム暫定配列データ101のギャップをアセンブル部分配列データ104で穴埋めしたデータであるため、対象ゲノムの全体の塩基配列を示すことができる。
S150により、ゲノム復元方法の処理は終了する。
Since the genome sequence data 105 is data in which the gap of the genome
By S150, the process of the genome restoration method ends.
図8は、実施の形態1におけるゲノム復元方法のS150の概要を示す処理概要図である。
実施の形態1におけるゲノム復元方法のS150の概要について、図8に基づいて説明する。
FIG. 8 is a process outline diagram showing an outline of S150 of the genome restoration method according to the first embodiment.
An overview of S150 of the genome restoration method according to Embodiment 1 will be described with reference to FIG.
ゲノム暫定配列データ101は、複数のマッピング部分配列データ101Aを含む。
完全ゲノム復元部140は、マッピング部分配列データ101A間のギャップにアセンブル部分配列データ104(ギャップ近傍配列データ103を除いた部分)を設定してゲノム配列データ105を生成する。
つまり、ゲノム配列データ105は、複数のマッピング部分配列データ101Aと複数のアセンブル部分配列データ104とをギャップ近傍配列データ103が重なるように結合させたデータである。
The temporary
The complete
That is, the genome sequence data 105 is data obtained by combining a plurality of mapping partial sequence data 101A and a plurality of assembly
図9は、実施の形態1におけるゲノム復元装置100のハードウェア資源の一例を示す図である。
図9において、ゲノム復元装置100は、CPU911(Central・Processing・Unit)(マイクロプロセッサ、マイクロコンピュータともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、通信ボード915、表示装置901、キーボード902、マウス903、ドライブ装置904、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。ドライブ装置904は、FD(Flexible・Disk・Drive)、CD(Compact Disc)、DVD(Digital・Versatile・Disc)などの記憶媒体を読み書きする装置である。
FIG. 9 is a diagram illustrating an example of hardware resources of the
In FIG. 9, the
通信ボード915は、有線または無線で、LAN(Local Area Network)、インターネット、電話回線などの通信網に接続している。
The
磁気ディスク装置920には、OS921(オペレーティングシステム)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。
The
プログラム群923には、実施の形態において「〜部」として説明する機能を実行するプログラムが含まれる。プログラムは、CPU911により読み出され実行される。すなわち、プログラムは、「〜部」としてコンピュータを機能させるものであり、また「〜部」の手順や方法をコンピュータに実行させるものである。
The
ファイル群924には、実施の形態において説明する「〜部」で使用される各種データ(入力、出力、判定結果、計算結果、処理結果など)が含まれる。
The
実施の形態において構成図およびフローチャートに含まれている矢印は主としてデータや信号の入出力を示す。 In the embodiment, arrows included in the configuration diagrams and flowcharts mainly indicate input and output of data and signals.
実施の形態において「〜部」として説明するものは「〜回路」、「〜装置」、「〜機器」であってもよく、また「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明するものは、ファームウェア、ソフトウェア、ハードウェアまたはこれらの組み合わせのいずれで実装されても構わない。 In the embodiment, what is described as “to part” may be “to circuit”, “to apparatus”, and “to device”, and “to step”, “to procedure”, and “to processing”. May be. That is, what is described as “to part” may be implemented by any of firmware, software, hardware, or a combination thereof.
実施の形態1において、リファレンスマッピングとデノボアセンブルとを組み合わせて対象ゲノムの塩基配列を特定するゲノム復元装置、方法およびプログラムについて説明した。
実施の形態1により、リファレンスマッピングでは特定できなかった対象ゲノムのギャップ部分の塩基配列を特定することができる。
また、リファレンスマッピングで余った断片配列データ(レフトオーバー配列データ)をデノボアセンブルすることにより、全ての断片配列データをデノボアセンブルする場合よりも計算量を減らし、処理能力が比較的低い計算機を用いて対象ゲノムの塩基配列を特定することができる。
In Embodiment 1, the genome restoration apparatus, method, and program for specifying the base sequence of the target genome by combining reference mapping and de novo assembly have been described.
According to Embodiment 1, it is possible to specify the base sequence of the gap portion of the target genome that could not be specified by reference mapping.
Also, by de novo assembling the remaining fragment sequence data (leftover sequence data) in the reference mapping, the amount of calculation is reduced as compared with the case of de novo assembling all the fragment sequence data, and a computer with relatively low processing capability is used. The base sequence of the target genome can be specified.
100 ゲノム復元装置、101 ゲノム暫定配列データ、101A マッピング部分配列データ、102 レフトオーバー配列データ、103 ギャップ近傍配列データ、104 アセンブル部分配列データ、105 ゲノム配列データ、110 リファレンスマッピング部、120 ギャップ近傍配列抽出部、130 デノボアセンブル部、140 完全ゲノム復元部、190 配列データ記憶部、191 断片配列データ、192 リファレンス配列データ、901 表示装置、902 キーボード、903 マウス、904 ドライブ装置、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 OS、922 ウィンドウシステム、923 プログラム群、924 ファイル群。 100 Genome Restoration Device, 101 Genome Temporary Sequence Data, 101A Mapping Partial Sequence Data, 102 Left Over Sequence Data, 103 Gap Near Sequence Data, 104 Assemble Partial Sequence Data, 105 Genome Sequence Data, 110 Reference Mapping Unit, 120 Gap Near Sequence Extraction Unit, 130 de novo assembly unit, 140 complete genome restoration unit, 190 sequence data storage unit, 191 fragment sequence data, 192 reference sequence data, 901 display device, 902 keyboard, 903 mouse, 904 drive device, 911 CPU, 912 bus, 913 ROM, 914 RAM, 915 communication board, 920 magnetic disk unit, 921 OS, 922 window system, 923 program group, 924 file group
Claims (9)
対象ゲノムの塩基配列の断片を示す複数の断片配列データを入力し、塩基配列が特定された既知ゲノムの塩基配列を示す参照配列データを入力し、複数の断片配列データと前記参照配列データとを比較し、比較結果に基づいて複数の断片配列データを前記参照配列データに対応させて結合したデータをマッピング部分配列データとして生成するリファレンスマッピング部と、
複数の断片配列データから前記リファレンスマッピング部により生成されたマッピング部分配列データに含まれない複数の断片配列データを複数の非マッピング断片データとして抽出する非マッピング断片データ抽出部と、
前記リファレンスマッピング部により生成されたマッピング部分配列データから前記マッピング部分配列データの端部に含まれる断片配列データを端部配列データとして抽出する端部配列データ抽出部と、
前記端部配列データ抽出部により抽出された端部配列データと前記非マッピング断片データ抽出部により抽出された複数の非マッピング断片データとを比較し、比較結果に基づいて前記端部配列データと少なくともいずれかの非マッピング断片データとを一致部分で結合したデータをアセンブル部分配列データとして生成するデノボアセンブル部と、
前記リファレンスマッピング部により生成されたマッピング部分配列データと前記デノボアセンブル部により生成されたアセンブル部分配列データとを前記端部配列データを示す部分で結合したデータを前記対象ゲノムの塩基配列を示すゲノム配列データとして生成するゲノム配列データ生成部と
を備えたことを特徴とするゲノム配列特定装置。 In a genome sequence identification device that identifies the base sequence of a target genome,
Input a plurality of fragment sequence data indicating fragments of the base sequence of the target genome, input reference sequence data indicating a known genome base sequence whose base sequence is specified, and a plurality of fragment sequence data and the reference sequence data. A reference mapping unit that generates a mapping partial sequence data by combining and combining a plurality of fragment sequence data corresponding to the reference sequence data based on the comparison result;
A non-mapping fragment data extraction unit that extracts a plurality of fragment sequence data not included in the mapping partial sequence data generated by the reference mapping unit from a plurality of fragment sequence data as a plurality of non-mapping fragment data;
An end sequence data extraction unit that extracts, as end sequence data, fragment sequence data included in the end of the mapping partial sequence data from the mapping partial sequence data generated by the reference mapping unit;
The end sequence data extracted by the end sequence data extraction unit is compared with a plurality of non-mapping fragment data extracted by the non-mapping fragment data extraction unit, and at least the end sequence data is compared with the end sequence data based on the comparison result A de novo assembly part that generates data obtained by combining any non-mapping fragment data with a matching part as assembled partial array data;
Genomic sequence indicating the base sequence of the target genome by combining the mapping partial sequence data generated by the reference mapping unit and the assembled partial sequence data generated by the de novo assembly unit at a portion indicating the end sequence data A genome sequence specifying apparatus comprising a genome sequence data generation unit that generates data.
前記端部配列データ抽出部は、複数のマッピング部分配列データから複数の端部配列データを抽出し、
前記デノボアセンブル部は、複数の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいて複数のアセンブル部分配列データを生成し、
前記ゲノム配列データ生成部は、複数のマッピング部分配列データと複数のアセンブル部分配列データとを結合して前記ゲノム配列データを生成する
ことを特徴とする請求項1記載のゲノム配列特定装置。 The reference mapping unit generates a plurality of mapping partial array data,
The end sequence data extraction unit extracts a plurality of end sequence data from a plurality of mapping partial sequence data,
The de novo assembly part compares a plurality of end part arrangement data and a plurality of non-mapping fragment data, and generates a plurality of assembly partial arrangement data based on the comparison result,
The genome sequence identification device according to claim 1, wherein the genome sequence data generation unit generates the genome sequence data by combining a plurality of mapping partial sequence data and a plurality of assembly partial sequence data.
前記デノボアセンブル部は、複数の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいて複数のギャップに対応する複数のアセンブル部分配列データを生成し、
前記ゲノム配列データ生成部は、複数のマッピング部分配列データと複数のアセンブル部分配列データとを結合して前記ゲノム配列データを生成する
ことを特徴とする請求項2記載のゲノム配列特定装置。 The end sequence data extraction unit identifies a portion that does not correspond to any mapping partial sequence data in the reference sequence data as a gap, and for each identified gap, from the mapping partial sequence data before and after the gap, Extract edge sequence data,
The de novo assembly part compares a plurality of end array data and a plurality of non-mapping fragment data, and generates a plurality of assembled partial array data corresponding to a plurality of gaps based on the comparison result,
The genome sequence identification device according to claim 2, wherein the genome sequence data generation unit generates the genome sequence data by combining a plurality of mapping partial sequence data and a plurality of assembly partial sequence data.
前記ゲノム配列データ生成部は、ギャップ毎にギャップ前後のマッピング部分配列データとギャップに対応するアセンブル部分配列データとを結合して前記ゲノム配列データを生成する
ことを特徴とする請求項3記載のゲノム配列特定装置。 The de novo assembly part compares the end arrangement data before and after the gap and a plurality of non-mapping fragment data for each gap, and generates assembly partial arrangement data for each gap based on the comparison result,
4. The genome according to claim 3, wherein the genome sequence data generation unit generates the genome sequence data by combining the mapping partial sequence data before and after the gap and the assembled partial sequence data corresponding to the gap for each gap. Sequence identification device.
対象ゲノムの塩基配列の断片を示す複数の断片配列データを入力し、塩基配列が特定された既知ゲノムの塩基配列を示す参照配列データを入力し、複数の断片配列データと前記参照配列データとを比較し、比較結果に基づいて複数の断片配列データを前記参照配列データに対応させて結合したデータをマッピング部分配列データとして生成するリファレンスマッピング処理と、
複数の断片配列データから前記リファレンスマッピング処理により生成されたマッピング部分配列データに含まれない複数の断片配列データを複数の非マッピング断片データとして抽出する非マッピング断片データ抽出処理と、
前記リファレンスマッピング処理により生成されたマッピング部分配列データから前記マッピング部分配列データの端部に含まれる断片配列データを端部配列データとして抽出する端部配列データ抽出処理と、
前記端部配列データ抽出処理により抽出された端部配列データと前記非マッピング断片データ抽出処理により抽出された複数の非マッピング断片データとを比較し、比較結果に基づいて前記端部配列データと少なくともいずれかの非マッピング断片データとを一致部分で結合したデータをアセンブル部分配列データとして生成するデノボアセンブル処理と、
前記リファレンスマッピング処理により生成されたマッピング部分配列データと前記デノボアセンブル処理により生成されたアセンブル部分配列データとを前記端部配列データを示す部分で結合したデータを前記対象ゲノムの塩基配列を示すゲノム配列データとして生成するゲノム配列データ生成処理と
をコンピュータに実行させるゲノム配列特定プログラム。 In the genome sequence identification program that identifies the base sequence of the target genome,
Input a plurality of fragment sequence data indicating fragments of the base sequence of the target genome, input reference sequence data indicating a known genome base sequence whose base sequence is specified, and a plurality of fragment sequence data and the reference sequence data. A reference mapping process for generating, as mapping partial sequence data, a plurality of fragment sequence data corresponding to the reference sequence data and combining them based on the comparison results,
A non-mapping fragment data extraction process for extracting a plurality of fragment sequence data not included in the mapping partial sequence data generated by the reference mapping process from a plurality of fragment sequence data as a plurality of non-mapping fragment data;
End sequence data extraction processing for extracting fragment sequence data included in the end of the mapping partial sequence data from the mapping partial sequence data generated by the reference mapping processing as end sequence data;
The end sequence data extracted by the end sequence data extraction process is compared with a plurality of non-mapping fragment data extracted by the non-mapping fragment data extraction process, and at least the end sequence data is compared with the end sequence data based on the comparison result De novo assembly processing for generating data that combines any non-mapping fragment data with a matching part as assembled partial array data;
A genome sequence indicating the base sequence of the target genome, which is obtained by combining the mapping partial sequence data generated by the reference mapping process and the assembled partial sequence data generated by the de novo assembly process at a portion indicating the end sequence data A genome sequence specifying program that causes a computer to execute genome sequence data generation processing to be generated as data.
前記端部配列データ抽出処理は、複数のマッピング部分配列データから複数の端部配列データを抽出し、
前記デノボアセンブル処理は、複数の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいて複数のアセンブル部分配列データを生成し、
前記ゲノム配列データ生成処理は、複数のマッピング部分配列データと複数のアセンブル部分配列データとを結合して前記ゲノム配列データを生成する
ことを特徴とする請求項5記載のゲノム配列特定プログラム。 The reference mapping process generates a plurality of mapping partial array data,
The end sequence data extraction process extracts a plurality of end sequence data from a plurality of mapping partial sequence data,
The de novo assembly process compares a plurality of end sequence data and a plurality of non-mapping fragment data, generates a plurality of assembled partial sequence data based on the comparison result,
6. The genome sequence identification program according to claim 5, wherein the genome sequence data generation processing generates the genome sequence data by combining a plurality of mapping partial sequence data and a plurality of assembly partial sequence data.
前記デノボアセンブル処理は、複数の端部配列データと複数の非マッピング断片データとを比較し、比較結果に基づいて複数のギャップに対応する複数のアセンブル部分配列データを生成し、
前記ゲノム配列データ生成処理は、複数のマッピング部分配列データと複数のアセンブル部分配列データとを結合して前記ゲノム配列データを生成する
ことを特徴とする請求項6記載のゲノム配列特定プログラム。 The end sequence data extraction processing specifies a portion that does not correspond to any mapping partial sequence data in the reference sequence data as a gap, and for each specified gap, the mapping sequence sequence data before and after the gap Extract edge sequence data,
The de novo assembly process compares a plurality of end sequence data and a plurality of non-mapping fragment data, generates a plurality of assembled partial sequence data corresponding to a plurality of gaps based on the comparison result,
The genome sequence identification program according to claim 6, wherein the genome sequence data generation processing generates the genome sequence data by combining a plurality of mapping partial sequence data and a plurality of assembly partial sequence data.
前記ゲノム配列データ生成処理は、ギャップ毎にギャップ前後のマッピング部分配列データとギャップに対応するアセンブル部分配列データとを結合して前記ゲノム配列データを生成する
ことを特徴とする請求項7記載のゲノム配列特定プログラム。 The de novo assembly process compares the end sequence data before and after the gap and a plurality of non-mapping fragment data for each gap, and generates assembled partial sequence data for each gap based on the comparison result,
8. The genome according to claim 7, wherein the genome sequence data generation processing combines the mapping partial sequence data before and after the gap and the assembled partial sequence data corresponding to the gap for each gap to generate the genomic sequence data. Sequence identification program.
リファレンスマッピング部が、対象ゲノムの塩基配列の断片を示す複数の断片配列データを入力し、塩基配列が特定された既知ゲノムの塩基配列を示す参照配列データを入力し、複数の断片配列データと前記参照配列データとを比較し、比較結果に基づいて複数の断片配列データを前記参照配列データに対応させて結合したデータをマッピング部分配列データとして生成し、
非マッピング断片データ抽出部が、複数の断片配列データから前記リファレンスマッピング部により生成されたマッピング部分配列データに含まれない複数の断片配列データを複数の非マッピング断片データとして抽出し、
端部配列データ抽出部が、前記リファレンスマッピング部により生成されたマッピング部分配列データから前記マッピング部分配列データの端部に含まれる断片配列データを端部配列データとして抽出し、
デノボアセンブル部が、前記端部配列データ抽出部により抽出された端部配列データと前記非マッピング断片データ抽出部により抽出された複数の非マッピング断片データとを比較し、比較結果に基づいて前記端部配列データと少なくともいずれかの非マッピング断片データとを一致部分で結合したデータをアセンブル部分配列データとして生成し、
ゲノム配列データ生成部が、前記リファレンスマッピング部により生成されたマッピング部分配列データと前記デノボアセンブル部により生成されたアセンブル部分配列データとを前記端部配列データを示す部分で結合したデータを前記対象ゲノムの塩基配列を示すゲノム配列データとして生成する
ことを特徴とするゲノム配列特定装置のゲノム配列特定方法。 In the genome sequence specifying method of the genome sequence specifying device for specifying the base sequence of the target genome,
The reference mapping unit inputs a plurality of fragment sequence data indicating fragments of the base sequence of the target genome, inputs reference sequence data indicating the base sequence of a known genome whose base sequence is specified, a plurality of fragment sequence data and the above-mentioned Compared with reference sequence data, a plurality of fragment sequence data based on the comparison result corresponding to the reference sequence data to generate data as mapping partial sequence data,
A non-mapping fragment data extraction unit extracts a plurality of fragment sequence data not included in the mapping partial sequence data generated by the reference mapping unit from a plurality of fragment sequence data as a plurality of non-mapping fragment data;
An end sequence data extraction unit extracts fragment sequence data included at an end of the mapping partial sequence data as end sequence data from the mapping partial sequence data generated by the reference mapping unit,
The de novo assembly unit compares the end sequence data extracted by the end sequence data extraction unit with a plurality of non-mapping fragment data extracted by the non-mapping fragment data extraction unit, and based on the comparison result, Generating data as assembled partial sequence data by combining partial sequence data and at least one non-mapping fragment data at a matching portion;
The genome sequence data generating unit combines the target genome with data obtained by combining the mapping partial sequence data generated by the reference mapping unit and the assembled partial sequence data generated by the de novo assembly unit at a portion indicating the end sequence data. A genome sequence specifying method for a genome sequence specifying apparatus, characterized in that the data is generated as genome sequence data indicating the base sequence of the genome sequence.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010220392A JP2012078880A (en) | 2010-09-30 | 2010-09-30 | Genome sequence specification device, genome sequence specification program and genome sequence specification method of genome sequence specification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010220392A JP2012078880A (en) | 2010-09-30 | 2010-09-30 | Genome sequence specification device, genome sequence specification program and genome sequence specification method of genome sequence specification device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012078880A true JP2012078880A (en) | 2012-04-19 |
Family
ID=46239105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010220392A Pending JP2012078880A (en) | 2010-09-30 | 2010-09-30 | Genome sequence specification device, genome sequence specification program and genome sequence specification method of genome sequence specification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012078880A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014089690A (en) * | 2012-10-29 | 2014-05-15 | Samsung Sds Co Ltd | System and method for aligning base sequence |
US9098523B2 (en) | 2011-12-05 | 2015-08-04 | Samsung Electronics Co., Ltd. | Method and apparatus for compressing and decompressing genetic information obtained by using next generation sequencing (NGS) |
-
2010
- 2010-09-30 JP JP2010220392A patent/JP2012078880A/en active Pending
Non-Patent Citations (2)
Title |
---|
JPN6013061460; 'Cost-Effective Sequencing of Full-Length cDNA Clones Powered by a De Novo-Reference Hybrid Assembly' PLoS One 5(5), 20100507, e10517 * |
JPN6013061462; Marshall Bern, Yuhan Cai, and David Goldberg: 'A Hybrid of de Novo Sequencing and Database Search for Protein Identification by Tandem Mass Spectro' Analytical Chemistry Vol.79 No.4, 20070215, p.1393-1400 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9098523B2 (en) | 2011-12-05 | 2015-08-04 | Samsung Electronics Co., Ltd. | Method and apparatus for compressing and decompressing genetic information obtained by using next generation sequencing (NGS) |
JP2014089690A (en) * | 2012-10-29 | 2014-05-15 | Samsung Sds Co Ltd | System and method for aligning base sequence |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7090148B2 (en) | DNA-based data storage and data retrieval | |
Garg et al. | RNA-Seq for transcriptome analysis in non-model plants | |
Peng et al. | Meta-IDBA: a de Novo assembler for metagenomic data | |
Kozich et al. | Development of a dual-index sequencing strategy and curation pipeline for analyzing amplicon sequence data on the MiSeq Illumina sequencing platform | |
Martin et al. | Next-generation transcriptome assembly | |
Muggli et al. | Misassembly detection using paired-end sequence reads and optical mapping data | |
US20200243164A1 (en) | Systems and methods for patient-specific identification of neoantigens by de novo peptide sequencing for personalized immunotherapy | |
Hawkins et al. | In‐solution hybridization for mammalian mitogenome enrichment: Pros, cons and challenges associated with multiplexing degraded DNA | |
JP2020515243A (en) | Nucleic acid based data storage | |
Kumar et al. | Coalescent-based genome analyses resolve the early branches of the euarchontoglires | |
Zhang et al. | Plastome phylogenomics of Saussurea (Asteraceae: cardueae) | |
Leung et al. | IDBA-MT: de novo assembler for metatranscriptomic data generated from next-generation sequencing technology | |
Alic et al. | Objective review of de novo stand‐alone error correction methods for NGS data | |
Ye et al. | Sparc: a sparsity-based consensus algorithm for long erroneous sequencing reads | |
Sharov et al. | Genome-wide assembly and analysis of alternative transcripts in mouse | |
WO2015151758A1 (en) | Sequence data analyzer, dna analysis system and sequence data analysis method | |
Karamichalis et al. | Additive methods for genomic signatures | |
KR20070083641A (en) | Gene identification signature(gis) analysis for transcript mapping | |
CN113571131B (en) | Pangenome construction method and corresponding structural variation mining method | |
US20140244639A1 (en) | Surprisal data reduction of genetic data for transmission, storage, and analysis | |
Peng et al. | A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes | |
JP2012078880A (en) | Genome sequence specification device, genome sequence specification program and genome sequence specification method of genome sequence specification device | |
Du et al. | Improve homology search sensitivity of PacBio data by correcting frameshifts | |
US9323889B2 (en) | System and method for processing reference sequence for analyzing genome sequence | |
Krause et al. | Sensitive and error-tolerant annotation of protein-coding DNA with BATH |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140513 |