JP7089804B2 - A storage medium that stores a data creation device, a data creation method, and a data creation program. - Google Patents

A storage medium that stores a data creation device, a data creation method, and a data creation program. Download PDF

Info

Publication number
JP7089804B2
JP7089804B2 JP2020508869A JP2020508869A JP7089804B2 JP 7089804 B2 JP7089804 B2 JP 7089804B2 JP 2020508869 A JP2020508869 A JP 2020508869A JP 2020508869 A JP2020508869 A JP 2020508869A JP 7089804 B2 JP7089804 B2 JP 7089804B2
Authority
JP
Japan
Prior art keywords
data
base sequence
difference
sequence data
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020508869A
Other languages
Japanese (ja)
Other versions
JPWO2019187100A1 (en
Inventor
竜 仲木
仙太郎 與島
真輝人 小林
大騎 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rhelixa
Original Assignee
Rhelixa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rhelixa filed Critical Rhelixa
Publication of JPWO2019187100A1 publication Critical patent/JPWO2019187100A1/en
Application granted granted Critical
Publication of JP7089804B2 publication Critical patent/JP7089804B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体に関する。 The present invention relates to a data creation device that creates data that can reproduce the reading frequency by a genome sequencer, a data creation method, and a storage medium that stores a data creation program.

生体のゲノム情報は、多様な用途に活用されることが期待されている。 It is expected that the genomic information of living organisms will be utilized for various purposes.

例えば、人又は動物のゲノム情報に基づいて、人又は動物の遺伝的体質を解析したり、人又は動物の疾病の発症を予測したり、人又は動物の病気の進行度合いを把握したりすることが期待されている。また、植物又は微生物のゲノム情報に基づいて、土壌、水又は生産物の最適化などを行うことも期待されている。 For example, analyzing the genetic constitution of a human or animal based on the genomic information of a human or an animal, predicting the onset of a disease of a human or an animal, or grasping the progress of a disease of a human or an animal. Is expected. It is also expected to optimize soil, water or products based on the genomic information of plants or microorganisms.

このようなゲノム情報の活用に当たっては、ゲノム情報を数多く収集することが必要となる。しかし、一般的に、ゲノム情報を示すデータは、非常に大きなデータ容量となることが多い。例えば、人のゲノム情報であるヒトゲノムを再現するための配列群データは数100ギガバイトのデータ容量に至る。 In utilizing such genomic information, it is necessary to collect a large amount of genomic information. However, in general, data showing genomic information often has a very large data capacity. For example, the sequence group data for reproducing the human genome, which is the human genome information, reaches a data capacity of several hundred gigabytes.

このため、すべてのゲノム情報をそのまま保存または送信すると、データベースの記憶容量が圧迫されたり、又は通信回線が逼迫したりする可能性がある。 Therefore, if all the genomic information is stored or transmitted as it is, the storage capacity of the database may be compressed or the communication line may be tight.

このため、ゲノム情報のデータ容量を削減することが重要な課題となる。 Therefore, it is an important issue to reduce the data capacity of genomic information.

特許文献1には、基準となるゲノムデータと各人のゲノムデータとを比較し、基準となるゲノムデータと各人のゲノムデータとで異なる塩基情報のみを保存し、伝送することで、通常のゲノムデータの約0.1%のデータ容量に圧縮する技術が提案されている。 In Patent Document 1, the reference genome data and each person's genome data are compared, and only the base information different between the reference genome data and each person's genome data is stored and transmitted. A technique for compressing the data volume to about 0.1% of the genomic data has been proposed.

国際公開第2015/146852号International Publication No. 2015/146852

しかしながら、特許文献1の技術は、各人のゲノムデータの塩基記号の並び(ACGTの並び)を再現するにとどまっている。すなわち、特許文献1の技術では、塩基記号以外の情報、例えば、ゲノムシーケンサーによる塩基情報の読み取り頻度等を再現することができなかった。 However, the technique of Patent Document 1 only reproduces the sequence of base symbols (sequence of ACGT) of the genome data of each person. That is, the technique of Patent Document 1 could not reproduce information other than the base symbol, for example, the frequency of reading the base information by the genome sequencer.

一般的に、ゲノムシーケンサーは、対象のゲノム情報を読み取るにあたり、一回の読み取りでは、ゲノム情報の全部(人の場合、約31億塩基対)ではなく、ゲノム情報の一部のデータ(以下、適宜「リード」という。)を読み取る。一回の読み取りで読み取られるリードに含まれる塩基配列は、例えば、50塩基対程度である。 In general, when a genome sequencer reads a target genome information, a single reading does not mean the entire genome information (about 3.1 billion base pairs in the case of a human), but a part of the genome information data (hereinafter referred to as “)”. Read "read" as appropriate). The base sequence contained in the read read by one reading is, for example, about 50 base pairs.

ゲノムシーケンサーは、読み取ったリードに含まれる塩基配列でゲノム情報の全部を再構成できる程度になるまで、リードを繰り返し読み取るように構成されている。 The genome sequencer is configured to read reads repeatedly until the base sequence contained in the read reads can reconstruct all of the genomic information.

ここで、ゲノムシーケンサーは、ゲノム情報の全体にわたってリードを均一に読み取るとは限らず、ある個所においては高頻度で読み取ったり、別なある個所では低頻度で読み取ったりする。この結果、それぞれの塩基配列の読み取り頻度にはばらつきが生じうる。 Here, the genome sequencer does not always read the read uniformly over the entire genomic information, and reads it frequently in one place and infrequently in another place. As a result, the frequency of reading each base sequence may vary.

ゲノムの分子修飾や相互作用たんぱく質が結合する部位とその統計的有意性を判断する上で、ゲノムシーケンサーによる読み取り頻度は有用な指標となる。ゲノムシーケンサーによる読み取り頻度のばらつきを解析することで、塩基記号の並びの再現以外の情報が得られる可能性がある。 The frequency of reading by the genome sequencer is a useful index for determining the site to which molecular modification of the genome and the interaction protein binds and its statistical significance. By analyzing the variation in reading frequency by the genome sequencer, it is possible to obtain information other than the reproduction of the sequence of base symbols.

しかし、上述したように、特許文献1の技術は、ゲノムシーケンサーによる読み取り頻度を再現することができなかった。 However, as described above, the technique of Patent Document 1 could not reproduce the reading frequency by the genome sequencer.

そこで、本発明は、データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体を提供することを目的とする。 Therefore, an object of the present invention is to provide a data creation device for creating data capable of reproducing the reading frequency by a genome sequencer, a data creation method, and a storage medium for storing a data creation program while suppressing the data capacity.

本発明のデータ作成装置は、長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部と、第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識する位置認識部と、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成する並替部と、前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識する基準要素認識部と、前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識する差分認識部と、前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータを作成するデータ作成部とを備えることを特徴とする。 The data creation device of the present invention has a first base sequence storage unit that stores first base sequence data having a length of the first base sequence, and the first base sequence data stored in the first base sequence storage unit. Based on this, for each second base sequence data whose individual length is a second base number shorter than the first base number, the position of the partial sequence in the first base sequence data corresponding to the second base sequence data. The position recognition unit that recognizes the numerical value indicating the value and the numerical value indicating the position of the partial sequence of the first base sequence data corresponding to each second base sequence data are rearranged in ascending or descending order to create a position sequence. A replacement unit, a reference element recognition unit that recognizes a reference element that is at least one element included in the array at the position, and a difference recognition unit that recognizes a difference between adjacent elements included in the array at the position. It is characterized by including a data creation unit that creates data including a reference element recognized by the reference element recognition unit and a difference between the elements recognized by the difference recognition unit.

当該構成のデータ作成装置によれば、位置認識部により、第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値が認識される。 According to the data creation device having the above configuration, the position recognition unit stores the first base sequence data in the first base sequence storage unit, and the individual lengths of the second base sequence data are shorter than the first base sequence data. For each second base sequence data which is the number of bases, a numerical value indicating the position of the partial sequence in the first base sequence data corresponding to the second base sequence data is recognized.

そして、並替部により、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列が作成される。ここで、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列の隣り合う要素は、昇順または降順で並べられているので、その差分はかなり小さくなりやすい。特に、ゲノムシーケンサーによって高頻度に読み取られた塩基配列に関連する塩基配列データについては、それらの位置を示す数値は同一またはほとんど差がないものとなる。 Then, the rearrangement unit rearranges the numerical values indicating the positions of the partial sequences of the first base sequence data corresponding to each second base sequence data in ascending or descending order, so that the first base sequence data corresponding to each second base sequence data can be sorted. An array of the positions of the partial sequences of the base sequence data is created. Here, since the adjacent elements of the sequence at the position of the partial sequence of the first base sequence data corresponding to each second base sequence data are arranged in ascending order or descending order, the difference tends to be considerably small. In particular, for the base sequence data related to the base sequences frequently read by the genome sequencer, the numerical values indicating their positions are the same or almost the same.

そして、基準要素認識部により、前記位置の配列に含まれる少なくとも一つの要素である基準要素が認識される。 Then, the reference element recognition unit recognizes the reference element which is at least one element included in the array at the position.

そして、差分認識部により、前記位置の配列に含まれ、かつ、隣り合う要素間の差分が認識される。 Then, the difference recognition unit recognizes the difference between the elements included in the array at the position and adjacent to each other.

そして、データ作成部により、前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータが作成される。 Then, the data creation unit creates data including the reference element recognized by the reference element recognition unit and the difference between the elements recognized by the difference recognition unit.

前述したようにゲノムシーケンサーによって高頻度で読み取られた塩基配列に関する要素間の差分はかなり小さくなりやすいので、要素間の差分を示すデータのデータ容量は、小さく抑えられうる。 As described above, the difference between the elements related to the base sequence frequently read by the genome sequencer tends to be considerably small, so that the data capacity of the data indicating the difference between the elements can be kept small.

一方、作成されたデータに含まれる基準要素と要素間の差分とを用いれば、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を逆算して求めることができる。このような各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値は、対象のゲノムデータの内のどの部分の塩基配列がどの程度の頻度で読み取られているものかを示すこととなる。 On the other hand, if the reference element included in the created data and the difference between the elements are used, the numerical value indicating the position of the partial sequence of the first base sequence data corresponding to each second base sequence data can be calculated back. can. The numerical value indicating the position of the partial sequence of the first base sequence data corresponding to each of the second base sequence data is such that the base sequence of which part of the target genomic data is read at what frequency. Will be shown.

以上の通り、本発明のデータ作成装置によれば、データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成しうる。 As described above, according to the data creation apparatus of the present invention, it is possible to create data that can reproduce the reading frequency by the genome sequencer while suppressing the data capacity.

本発明のデータ作成装置において、前記基準要素認識部は、位置の配列に含まれる要素のうち最小の値の要素を基準要素として認識するように構成されていることが好ましい。 In the data creation device of the present invention, it is preferable that the reference element recognition unit is configured to recognize the element having the smallest value among the elements included in the position array as the reference element.

当該構成のデータ作成装置によれば、前記基準要素認識部により、位置の配列に含まれる要素のうち最小の値の要素が基準要素として認識される。これにより、基準要素を示すデータのデータ容量を小さく抑えることができるので、より圧縮率を向上させうる。 According to the data creation device having the configuration, the element having the smallest value among the elements included in the position array is recognized as the reference element by the reference element recognition unit. As a result, the data capacity of the data indicating the reference element can be suppressed to a small size, so that the compression rate can be further improved.

本発明のデータ作成装置において、前記データ作成部は、前記要素間の差分を示すデータとして、先行又は後続するデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データを作成することが好ましい。 In the data creation device of the present invention, the data creation unit uses the first part indicating whether or not the preceding or succeeding data is related data and the data of 14 bits or less as the data indicating the difference between the elements. It is preferable to create variable length data including one or more second parts to be stored.

当該構成のデータ作成装置によれば、前記データ作成部により、前記要素間の差分を示すデータとして、先行又は後続のデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データが作成される。 According to the data creation device having the configuration, the data creation unit uses the first part indicating whether or not the preceding or succeeding data is related data as the data indicating the difference between the elements, and 14 bits or less. Variable length data is created that includes one or more second parts that store the data.

本願の出願人が検討したところによれば、位置の配列の連続する要素間の差分は、ほとんど14ビット以下で表すことができる。これにより、多くのデータについて、そのデータ容量を小さく抑えながら、各要素の差分を表現することが可能となる。 According to the applicants of the present application, the difference between consecutive elements of the array of positions can be represented by almost 14 bits or less. This makes it possible to express the difference between each element of a large amount of data while keeping the data capacity small.

また、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。 Further, the first part indicating whether the preceding or succeeding data is related data indicates that an appropriate number of second parts are used as data indicating the difference between the elements. Differences that are equal to or greater than the number of bits in the two parts can also be expressed by the variable length data.

当該構成のデータ作成装置において、前記第2部分は、6ビット以下であることが好ましい。 In the data creation device having the configuration, the second portion is preferably 6 bits or less.

本件出願人の検討によれば、要素間の差分は、約8割のデータが6ビット以下で表現できることが分かった。 According to the examination of the applicant, it was found that about 80% of the data can be expressed by 6 bits or less as the difference between the elements.

第2部分のデータを6ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。 By expressing the data of the second part with 6 bits or less, it is possible to further reduce the data capacity for a large amount of data. On the other hand, the first part, which indicates whether the preceding or succeeding data is related data, indicates that an appropriate number of second parts are used as the data indicating the difference between the elements. Differences that are equal to or greater than the number of bits in the two parts can also be expressed by the variable length data.

当該構成のデータ作成装置において、前記第2部分は、3ビット以下であることが好ましい。 In the data creation device having the configuration, the second portion is preferably 3 bits or less.

本件出願人の検討によれば、約6割のデータが3ビット以下で表現できることが分かった。第2部分のデータを3ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。 According to the examination of the applicant, it was found that about 60% of the data can be expressed in 3 bits or less. By expressing the data of the second part with 3 bits or less, it is possible to further reduce the data capacity for a large amount of data. On the other hand, the first part, which indicates whether the preceding or succeeding data is related data, indicates that an appropriate number of second parts are used as the data indicating the difference between the elements. Differences that are equal to or greater than the number of bits in the two parts can also be expressed by the variable length data.

データ作成システムの全体構成図。Overall configuration diagram of the data creation system. 第1塩基配列データの一例を示す図。The figure which shows an example of the 1st base sequence data. ゲノムシーケンサーにより読み込まれた複数の第2塩基配列データの一例を示す図。The figure which shows an example of a plurality of 2nd base sequence data read by a genome sequencer. データ作成処理のフローチャート。Flowchart of data creation process. SAM形式のファイルの一例を示す図。The figure which shows an example of the file of SAM format. 抽出後データの一例を示す図。The figure which shows an example of the data after extraction. 並替後データの一例を示す図。The figure which shows an example of the data after sorting. 差分認識後データの一例を示す図。The figure which shows an example of the data after difference recognition. データ作成処理によって作成されるデータに含まれる内容の一例を示す図。The figure which shows an example of the contents contained in the data created by the data creation process. データ作成処理によって作成されるデータの具体例を示す図。The figure which shows the specific example of the data created by the data creation process. データ作成処理によって作成されるデータの形式の一例を示す図。The figure which shows an example of the format of the data created by the data creation process. 一のデータ形式に従ったデータの表現を示す図。The figure which shows the representation of data according to one data format. 差分を表すのに必要なビット数と、各ビット数の頻度及び含有割合との関係を示すグラフ。A graph showing the relationship between the number of bits required to represent a difference and the frequency and content ratio of each bit number.

図1~図8を参照して、本発明の実施形態のデータ作成システムを説明する。 The data creation system of the embodiment of the present invention will be described with reference to FIGS. 1 to 8.

(データ作成システムの構成)
図1を参照して、データ作成システムの構成を説明する。
(Configuration of data creation system)
The configuration of the data creation system will be described with reference to FIG.

データ作成システムは、1又は複数のゲノムシーケンサー100と、1又は複数のデータ作成装置200と、データベース300と、を備える。 The data creation system includes one or more genome sequencers 100, one or more data creation devices 200, and a database 300.

1又は複数のデータ作成装置200は、それぞれ、有線接続又は無線接続を介して、1又は複数のゲノムシーケンサー100のそれぞれと接続されている。データベース300は、インターネット等の広域ネットワークを介して、データ作成装置200のそれぞれと接続されている。一又は複数のデータ作成装置200は、それぞれ異なるユーザに使用されうる。 The one or more data generation devices 200 are connected to each of the one or more genomic sequencers 100 via a wired or wireless connection, respectively. The database 300 is connected to each of the data creation devices 200 via a wide area network such as the Internet. The one or more data creation devices 200 may be used by different users.

(ゲノムシーケンサーの構成)
ゲノムシーケンサー100は、例えば、対象の生体Pからゲノム情報の一部を取得し、当該ゲノム情報に含まれる部分的な塩基配列を示すデータ(以下、「第2塩基配列データ」という。)を繰り返し出力するように構成されている。ゲノムシーケンサー100は、例えばHiSeqシステム(登録商標)で構成される。第2塩基配列データは、塩基記号(A、C、G又はT)の繰り返しで表現される。ゲノムシーケンサー100は、所定の設定またはユーザの指定にされた数だけ塩基記号が含まれるように、第2塩基配列データを読み取る。以下、第2塩基配列データに含まれる塩基記号の数を、適宜「第2塩基配列データの長さ」ともいう。第2塩基配列データは、塩基記号以外の符号、例えば、読取不能を示す記号としての「?」を含んでもよい。第2塩基配列データの長さが、本発明の「第2塩基数」の一例に該当する。
(Construction of genome sequencer)
For example, the genome sequencer 100 acquires a part of the genomic information from the target living body P, and repeats data showing a partial base sequence included in the genome information (hereinafter, referred to as “second base sequence data”). It is configured to output. The genome sequencer 100 is composed of, for example, the HiSeq system (registered trademark). The second base sequence data is represented by repeating the base symbol (A, C, G or T). The genome sequencer 100 reads the second base sequence data so that the number of base symbols is included in the predetermined setting or the number specified by the user. Hereinafter, the number of base symbols included in the second base sequence data is also appropriately referred to as "length of the second base sequence data". The second base sequence data may include a code other than the base symbol, for example, "?" As a symbol indicating unreadable. The length of the second base sequence data corresponds to an example of the "second base number" of the present invention.

(データ作成装置の構成)
一又は複数のデータ作成装置200は、細かくは個々の端末ごとに異なるけれども、概略的には以下のような構成を有する。
(Configuration of data creation device)
The one or more data creating devices 200 have the following configurations, although they differ in detail for each terminal.

データ作成装置200は、演算処理部210と、記憶部220とを備える。 The data creation device 200 includes an arithmetic processing unit 210 and a storage unit 220.

データ作成装置200は、ラップトップコンピュータ、タブレット型端末またはスマートフォンなど、ユーザによる携帯が可能なようにサイズ、形状および重量が設計されているコンピュータにより構成されていてもよく、デスクトップコンピュータなど、特定箇所に設置されるように、サイズ、形状および重量が設計されているコンピュータにより構成されていてもよい。 The data creation device 200 may be composed of a computer whose size, shape and weight are designed so that it can be carried by a user, such as a laptop computer, a tablet terminal or a smartphone, and a specific location such as a desktop computer. It may be configured by a computer whose size, shape and weight are designed to be installed in.

演算処理部210は、CPU(Central Processing Unit)等の演算処理装置、メモリ等の記憶装置及びI/O(Input/Output)デバイスなどにより構成されている。記憶部220には、外部よりダウンロードしたデータ作成プログラム223がインストールされている。記憶部220に記憶されたデータ作成プログラム223が起動されることにより、演算処理部210は、位置認識部211と、並替部212と、基準要素認識部213と、差分認識部214と、データ作成部215ととして機能するように構成されている。なお、データ作成プログラム223を記憶したデータ作成装置200が、本発明の「記憶媒体」の一例に相当する。 The arithmetic processing unit 210 is composed of an arithmetic processing device such as a CPU (Central Processing Unit), a storage device such as a memory, and an I / O (Input / Output) device. A data creation program 223 downloaded from the outside is installed in the storage unit 220. When the data creation program 223 stored in the storage unit 220 is activated, the arithmetic processing unit 210 includes a position recognition unit 211, a sort unit 212, a reference element recognition unit 213, a difference recognition unit 214, and data. It is configured to function as a creation unit 215. The data creation device 200 that stores the data creation program 223 corresponds to an example of the "storage medium" of the present invention.

演算処理部210は、有線通信またはWiFi(登録商標)等の遠距離での無線通信に適した通信規格にしたがった無線通信を介して、データベース300などの外部機器と相互通信するよう構成されている。 The arithmetic processing unit 210 is configured to communicate with an external device such as a database 300 via wired communication or wireless communication according to a communication standard suitable for long-distance wireless communication such as WiFi (registered trademark). There is.

記憶部220は、例えばROM(Read Only Memory),RAM(Random Access Memory)、HDD(Hard Disk Drive)等の記憶装置により構成されている。 The storage unit 220 includes, for example, a storage device such as a ROM (Read Only Memory), a RAM (Random Access Memory), and an HDD (Hard Disk Drive).

記憶部220は、演算処理部210による演算処理及び演算処理部210が受信したデータなどの演算処理部210が認識した情報を記憶するように構成されている。 The storage unit 220 is configured to store information recognized by the arithmetic processing unit 210, such as arithmetic processing by the arithmetic processing unit 210 and data received by the arithmetic processing unit 210.

なお、一の装置が情報を「認識する」とは、一の装置が他の装置から当該情報を受信すること、一の装置が当該一の装置に接続された記憶媒体に記憶された情報を読み取ること、一の装置が当該一の装置に接続されたセンサから出力された信号に基づいて情報を取得すること、一の装置が、受信した情報又は記憶媒体に記憶された情報又はセンサから取得した情報に基づいて、所定の演算処理(計算処理又は検索処理など)を実行することにより当該情報を導出すること、一の装置が他の装置による演算処理結果としての当該情報を当該他の装置から受信すること、一の装置が当該受信信号にしたがって内部記憶装置又は外部記憶装置から当該情報を読み取ること等、当該情報を取得するためのあらゆる演算処理が実行されることを意味する。 Note that one device "recognizes" information means that one device receives the information from another device, and that one device receives information stored in a storage medium connected to the one device. Reading, one device acquiring information based on the signal output from the sensor connected to the one device, one device acquiring from the received information or information stored in a storage medium or sensor. Deriving the information by executing a predetermined arithmetic process (calculation process, search process, etc.) based on the information It means that all arithmetic processing for acquiring the information is executed, such as receiving from, one device reading the information from the internal storage device or the external storage device according to the received signal.

記憶部220は、第1塩基配列記憶部221とデータ記憶部222とを備える。 The storage unit 220 includes a first base sequence storage unit 221 and a data storage unit 222.

第1塩基配列記憶部221は、図2Aに示されるように、塩基配列を示すデータ(以下、「第1塩基配列データ」という。)を格納している。これらのデータは、一又は複数の生体(ただし、「人類」又は「日本人」等のようにある程度共通項を有する生体)から読み取られた各塩基配列を示すデータを基に作成されうる。複数の生体から塩基配列を示すデータを作成された場合、第1塩基配列データは、各生体から読み取られた各塩基配列で共通の塩基についてはそのままの塩基記号で表され、それらの生体で異なる塩基については*等の塩基記号とは異なる記号で表される。一の第1塩基配列データは、chr1,chr2など、複数の塩基配列に分解され、それぞれの塩基配列ごとに記憶されていてもよい。これらのchr1,chr2などに分解された各塩基配列を、以下、適宜「リファレンス配列」という。また、chr1、chr2の各塩基配列を識別する文字列を、以下、適宜「リファレンス配列の名称」という。本実施例において、リファレンス配列の名称は、chr等の所定の文字列と、番号とで構成される。これらのリファレンス配列の長さは、第2塩基配列データの長さよりも長く設定される。リファレンス配列の長さの合計値が、本発明の「第1塩基数」の一例に相当する。 As shown in FIG. 2A, the first base sequence storage unit 221 stores data indicating the base sequence (hereinafter, referred to as “first base sequence data”). These data can be created based on the data showing each base sequence read from one or more living organisms (however, living organisms having some common items such as "human beings" or "Japanese"). When data showing a base sequence is created from a plurality of living organisms, the first base sequence data is represented by the same base symbol for the bases common to each base sequence read from each living body, and differs among those living bodies. The base is represented by a symbol different from the base symbol such as *. The first base sequence data may be decomposed into a plurality of base sequences such as chr1 and chr2 and stored for each base sequence. Each of these base sequences decomposed into chr1, chr2 and the like is hereinafter appropriately referred to as a "reference sequence". Further, the character string that identifies each of the base sequences of chr1 and chr2 is hereinafter appropriately referred to as "reference sequence name". In this embodiment, the name of the reference sequence is composed of a predetermined character string such as chr and a number. The length of these reference sequences is set longer than the length of the second base sequence data. The total value of the lengths of the reference sequences corresponds to an example of the "first number of bases" of the present invention.

第1塩基配列記憶部221は、生体の種別ごとに第1塩基配列データを記憶していてもよい。 The first base sequence storage unit 221 may store the first base sequence data for each type of living body.

なお、第1塩基配列データを作成するためのサンプルとなる生体は、後述するデータ作成処理の処理対象の生体Pと異なる生体である。ただし、生体の種別が共通していれば、個体が異なっても、そのほとんどの塩基配列は一致する。例えば、人類であれば、個体が異なっても、99.9%程度の塩基配列が一致することとなる。 The living body as a sample for creating the first base sequence data is a living body different from the living body P to be processed in the data creation process described later. However, if the types of living organisms are common, most of the base sequences will be the same even if the individuals are different. For example, in the case of human beings, even if the individuals are different, about 99.9% of the base sequences will match.

(データベースの構成)
データベース300は、CPU等の演算処理装置、ローカルメモリ、ROM,RAM、HDD等の記憶装置及びI/Oデバイスなどにより構成されている。データベース300は、データ作成装置200から受信したデータを記憶するように構成されている。データベース300は、一のプロセッサにより構成されてもよく、相互通信可能な複数のプロセッサにより構成されてもよい。
(Database configuration)
The database 300 is composed of an arithmetic processing unit such as a CPU, a storage device such as a local memory, a ROM, a RAM, and an HDD, and an I / O device. The database 300 is configured to store the data received from the data creation device 200. The database 300 may be configured by one processor or may be configured by a plurality of processors capable of intercommunication.

なお、データベース300を構成するコンピュータの一部または全部が、データ作成装置200を構成するコンピュータにより構成されていてもよい。たとえば、移動局としての一または複数のデータ作成装置200により、データベース300の一部または全部が構成されていてもよい。 A part or all of the computers constituting the database 300 may be configured by the computers constituting the data creation device 200. For example, a part or all of the database 300 may be configured by one or more data creation devices 200 as mobile stations.

また、データベース300は、WiFi又は有線接続などを介してネットワークとしての公衆通信網(例えばインターネット)に接続され、外部の機器(例えばデータ作成装置200)と通信するように構成されている。 Further, the database 300 is connected to a public communication network (for example, the Internet) as a network via WiFi or a wired connection, and is configured to communicate with an external device (for example, a data creation device 200).

(データ作成処理)
次に、図2~図8を参照して、データ作成装置200により実行されるデータ作成処理の流れを説明する。
(Data creation process)
Next, with reference to FIGS. 2 to 8, the flow of the data creation process executed by the data creation device 200 will be described.

位置認識部211は、ゲノムシーケンサー100から出力されたデータに基づいて、対象の生体Pの各第2塩基配列データを認識する(図3/STEP002)。対象の生体Pは、ゲノムシーケンサー100によってゲノム情報が読み取り可能な生体であればよく、例えば、人であっても良いし、動物であってもよいし、植物であってもよいし、微生物であってもよい。 The position recognition unit 211 recognizes each second base sequence data of the target living body P based on the data output from the genome sequencer 100 (FIG. 3 / STEP002). The target organism P may be any organism whose genomic information can be read by the genome sequencer 100, for example, a human being, an animal, a plant, or a microorganism. There may be.

ゲノムシーケンサー100から出力されたデータは、例えば、図2Bに示されるように、塩基記号の繰り返しを含むデータD1である。 The data output from the genome sequencer 100 is, for example, data D1 including repetition of the base symbol, as shown in FIG. 2B.

データD1は、所定の塩基数(例えば50)だけの塩基記号の繰り返しで示される複数の第2塩基配列データD11、D12、D13を含む。各第2塩基配列データD11、D12,D13は、例えばカンマで区切られている。また、各第2塩基配列データD11、D12,D13は、読取不能であった塩基を示す補助塩基記号D111,D121,D131を含む。 The data D1 includes a plurality of second base sequence data D11, D12, D13 represented by repetition of base symbols for a predetermined number of bases (for example, 50). The second base sequence data D11, D12, and D13 are separated by, for example, a comma. In addition, each of the second base sequence data D11, D12, and D13 includes auxiliary base symbols D111, D121, and D131 indicating unreadable bases.

位置認識部211は、図3/STEP002で認識した各第2塩基配列データと、第1塩基配列記憶部221に格納された第1塩基配列データとを対比することにより、各第2塩基配列データに対応する第1塩基配列データにおける第1塩基配列データの部分配列の位置を示す数値を認識する(図3/STEP004)。 The position recognition unit 211 compares each second base sequence data recognized in FIG. 3 / STEP002 with the first base sequence data stored in the first base sequence storage unit 221 to obtain each second base sequence data. Recognizes the numerical value indicating the position of the partial sequence of the first base sequence data in the first base sequence data corresponding to (FIG. 3 / STEP004).

例えば、位置認識部211は、第2塩基配列データに含まれる各塩基記号の出現順が、一致している割合が最も高い第1塩基配列データの部分配列(当該第2塩基配列データに対応する第1塩基配列データの部分配列)を認識する。そして、位置認識部211は、第1塩基配列データにおける部分配列の開始位置を示す数値を認識する。部分配列の位置は、当該部分配列を特定するための位置であればよく、開始位置に限られず、例えば終了位置であってもよいし、その他の位置であってもよい。 For example, the position recognition unit 211 corresponds to a partial sequence of the first base sequence data (corresponding to the second base sequence data) in which the appearance order of each base symbol included in the second base sequence data has the highest matching ratio. The partial sequence of the first base sequence data) is recognized. Then, the position recognition unit 211 recognizes a numerical value indicating the start position of the partial sequence in the first base sequence data. The position of the partial array may be any position as long as it is a position for specifying the partial array, and is not limited to the start position, and may be, for example, an end position or another position.

このような、部分配列の位置を示す数値の認識については、種々の公知の手法が採用されうる。 Various known methods can be adopted for recognizing such numerical values indicating the positions of partial sequences.

位置認識部211は、SAM(Sequence Alignment/Map)形式のファイルを作成する(図3/STEP006)。作成されたファイルは、記憶部220に記憶される。 The position recognition unit 211 creates a SAM (Sequence Alignment / Map) format file (FIG. 3 / STEP006). The created file is stored in the storage unit 220.

図4は、図3/STEP006で作成されるファイルの一例を示す図である。図4に示されるファイルは、ヘッダデータD21とボディデータD22とを含む。 FIG. 4 is a diagram showing an example of a file created in FIG. 3 / STEP006. The file shown in FIG. 4 includes header data D21 and body data D22.

ボディデータD22は、各第2塩基配列データのそれぞれについて、リファレンス配列の名称D221、第2塩基配列データに対応する第1塩基配列データのリファレンス配列における部分配列の開始位置D222と、第2塩基配列データに対応する第1塩基配列データにおけるペアエンドの場合の部分配列の開始位置D223と、第2塩基配列データの塩基配列D224とを含む。なお、リファレンス配列の名称と、リファレンス配列における部分配列の開始位置とが、本発明の「第1塩基配列データの部分配列の位置」の一例に相当する。 The body data D22 has the name D221 of the reference sequence, the start position D222 of the partial sequence in the reference sequence of the first base sequence data corresponding to the second base sequence data, and the second base sequence for each of the second base sequence data. The start position D223 of the partial sequence in the case of the pair end in the first base sequence data corresponding to the data and the base sequence D224 of the second base sequence data are included. The name of the reference sequence and the start position of the partial sequence in the reference sequence correspond to an example of the "position of the partial sequence of the first base sequence data" of the present invention.

並替部212は、リファレンス配列ごとに、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値を抽出する(図3/STEP008)。 The sorting unit 212 extracts a numerical value indicating the start position of the partial sequence in the first base sequence data corresponding to each second base sequence data for each reference sequence (FIG. 3 / STEP008).

並替部212は、図3/STEP008の処理により、例えば、図5Aに示される位置抽出後データD3を作成する。位置抽出後データD3は、各第2塩基配列データの塩基配列の長さD31と、各リファレンス配列の名称D32と、各リファレンス配列に対応付けられた第2塩基配列データの数D33と、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D34とを含む。各第2塩基配列データの塩基配列の長さD31は、各第2塩基配列データの長さから認識されてもよい。また、第2塩基配列データの長さが予め決まっている場合には、各第2塩基配列データの塩基配列の長さD31は、省略されてもよい。 The sorting unit 212 creates, for example, the post-position extraction data D3 shown in FIG. 5A by the process of FIG. 3 / STEP008. The position-extracted data D3 includes the length D31 of the base sequence of each second base sequence data, the name D32 of each reference sequence, the number D33 of the second base sequence data associated with each reference sequence, and each second. It includes the start position D34 of the partial sequence in the first base sequence data corresponding to the two base sequence data. The base sequence length D31 of each second base sequence data may be recognized from the length of each second base sequence data. When the length of the second base sequence data is predetermined, the length D31 of the base sequence of each second base sequence data may be omitted.

図5Aに示される位置抽出後データD3においては、5行目以降が、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置となっている。 In the position-extracted data D3 shown in FIG. 5A, the fifth and subsequent rows are the start positions of the partial sequences in the first base sequence data corresponding to the second base sequence data.

図5Aに示される位置抽出後データD3においては、3行目以降は、カンマ区切りで、2行目のリファレンス配列の名称D32のそれぞれに対応するデータが格納されている。 In the position-extracted data D3 shown in FIG. 5A, the data corresponding to each of the names D32 of the reference sequence in the second row are stored in the third and subsequent rows separated by commas.

例えば、3行目の最初の「719786」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データの数を示す。 For example, the first "719786" in the third row indicates the number of second base sequence data associated with the reference sequence "chr1".

また、3行目の二番目の「380912」は、リファレンス配列「chr2」に対応付けられた第2塩基配列データの数を示す。 Further, the second "380912" in the third row indicates the number of the second base sequence data associated with the reference sequence "chr2".

また、4行目の最初の「177644860」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データのうち、ある第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値である。 Further, the first "177644860" in the fourth row is the start of a partial sequence in the first base sequence data corresponding to a certain second base sequence data among the second base sequence data associated with the reference sequence "chr1". It is a numerical value indicating the position.

また、5行目の最初の「177644896」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データのうち、別の第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値である。 Further, the first "177644896" in the fifth row is a partial sequence of the first base sequence data corresponding to another second base sequence data among the second base sequence data associated with the reference sequence "chr1". It is a numerical value indicating the start position.

対応する開始位置がない場合は、空欄となる。 If there is no corresponding start position, it will be blank.

並替部212は、対応付けられたリファレンス配列ごとに、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置に代えて、第2塩基配列データに対応する第1塩基配列データにおけるペアエンドの場合の部分配列の開始位置を示す数値を抽出してもよい。 The rearrangement unit 212 replaces the start position of the partial sequence in the first base sequence data corresponding to each second base sequence data for each associated reference sequence with the first base corresponding to the second base sequence data. A numerical value indicating the start position of the partial array in the case of a pair end in the array data may be extracted.

並替部212は、リファレンス配列ごとに、開始位置を示す数値を昇順で並び替える(図3/STEP010)。 The sorting unit 212 sorts the numerical values indicating the start positions in ascending order for each reference array (FIG. 3 / STEP010).

並替部212は、図3/STEP010の処理の後、図5Bに示されるような並替後データD4を作成する。並替後データD4は、各第2塩基配列データの塩基配列の長さD41と、各リファレンス配列の名称D42と、各リファレンス配列に対応付けられた第2塩基配列データの数D43と、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D44、D45,D46とを含む。各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D44、D45,D46は、昇順で並び替えられている。このため、これらのうちの一番上の行(並替後データD4における4行目)のデータD44が、各リファレンス配列で最小の要素(開始位置)となっている。 After the processing of FIG. 3 / STEP010, the sorting unit 212 creates the post-sorting data D4 as shown in FIG. 5B. The rearranged data D4 includes the length D41 of the base sequence of each second base sequence data, the name D42 of each reference sequence, the number D43 of the second base sequence data associated with each reference sequence, and each second. The start positions D44, D45, and D46 of the partial sequence in the first base sequence data corresponding to the two base sequence data are included. The start positions D44, D45, and D46 of the partial sequence in the first base sequence data corresponding to each second base sequence data are rearranged in ascending order. Therefore, the data D44 in the top row (fourth row in the sorted data D4) is the smallest element (start position) in each reference sequence.

基準要素認識部213は、リファレンス配列ごとに、一又は複数の基準要素を認識する(図3/STEP012)。基準要素は、例えば、各リファレンス配列で最小の要素である。最小の要素以外の任意の要素が基準要素として認識されてもよい。また、位置のリファレンス配列について、複数の要素が基準要素として認識されてもよい。 The reference element recognition unit 213 recognizes one or a plurality of reference elements for each reference sequence (FIG. 3 / STEP012). The reference element is, for example, the smallest element in each reference sequence. Any element other than the smallest element may be recognized as a reference element. Further, a plurality of elements may be recognized as reference elements in the position reference array.

差分認識部214は、基準要素以外の要素について、隣り合う要素との差分の配列を認識する(図3/STEP014)。差分認識部214は、図3/STEP014の処理後に、例えば図5Cに示される差分認識後データD5を作成する。 The difference recognition unit 214 recognizes an array of differences between adjacent elements for elements other than the reference element (FIG. 3 / STEP014). The difference recognition unit 214 creates, for example, the difference recognition post-data D5 shown in FIG. 5C after the processing of FIG. 3 / STEP014.

差分認識後データD5には、各第2塩基配列データの塩基配列の長さD51と、各リファレンス配列の名称D52と、各リファレンス配列に対応付けられた第2塩基配列データの数D53と、各リファレンス配列の基準要素D54と、差分データD55、D56とが含まれている。 The difference recognition data D5 includes the length D51 of the base sequence of each second base sequence data, the name D52 of each reference sequence, the number D53 of the second base sequence data associated with each reference sequence, and each. The reference element D54 of the reference sequence and the difference data D55 and D56 are included.

例えば、図5Bに示される並替後データD4では、リファレンス配列chr1に含まれる部分配列の開始位置は、小さい順に、9997、9998、9998・・・である。 For example, in the rearranged data D4 shown in FIG. 5B, the start positions of the partial sequences included in the reference sequence chr1 are 9997, 9998, 9998, ... In ascending order.

図5Cに示される差分認識後データD5の第4行目(符号D54で示される行)には、リファレンス配列chr1における図3/STEP012で認識された基準要素9997が含まれている。 The fourth row (row represented by reference numeral D54) of the difference recognition data D5 shown in FIG. 5C contains the reference element 9997 recognized in FIG. 3 / STEP012 in the reference sequence chr1.

また、図5Cに示される差分認識後データD5の第5行目(符号D55で示される行)のリファレンス配列chr1に対応する要素に、図5Bの5行目(符号D45で示される行)の要素9998と、その前(4行目(符号D44で示される行))の要素9997との差分である1が含まれている。 Further, the element corresponding to the reference array chr1 in the fifth row (row represented by reference numeral D55) of the difference recognition data D5 shown in FIG. 5C is the fifth row (row indicated by reference numeral D45) in FIG. 5B. It contains 1 which is a difference between the element 9998 and the element 9997 before it (the fourth line (the line indicated by the reference numeral D44)).

また、図5Cに示される差分認識後データD5の第6行目(符号D55で示される行)のリファレンス配列chr1に対応する要素に、図5Bの6行目(符号D46で示される行)の要素9998と、その前(5行目(符号D45で示される行))の要素9998との差分である0が含まれている。 Further, the element corresponding to the reference sequence chr1 in the sixth row (row indicated by reference numeral D55) of the difference recognition data D5 shown in FIG. 5C is the element corresponding to the sixth row (row indicated by reference numeral D46) in FIG. 5B. It contains 0, which is the difference between the element 9998 and the element 9998 before it (the fifth line (the line indicated by the reference numeral D45)).

また、例えば、図5Bに示される並替後データD4では、リファレンス配列chr2に含まれる部分配列の開始位置は、小さい順に、10237、10286、10330・・・である。 Further, for example, in the rearranged data D4 shown in FIG. 5B, the start positions of the partial sequences included in the reference sequence chr2 are 10237, 10286, 10330, ... In ascending order.

図5Cに示される差分認識後データD5の第4行目(符号D54で示される行)には、リファレンス配列chr2における図3/STEP012で認識された基準要素10237が含まれている。 The fourth row (row represented by reference numeral D54) of the difference recognition data D5 shown in FIG. 5C contains the reference element 10237 recognized in FIG. 3 / STEP012 in the reference sequence chr2.

また、図5Cに示される差分認識後データD5の第5行目(符号D55で示される行)のリファレンス配列chr2に対応する要素に、図5Bの5行目(符号D45で示される行)の要素10286と、その前(4行目(符号D44で示される行))の要素10237との差分である49が含まれている。 Further, the element corresponding to the reference array chr2 in the fifth row (row indicated by reference numeral D55) of the difference recognition data D5 shown in FIG. 5C is the fifth row (row indicated by reference numeral D45) in FIG. 5B. 49 is included, which is the difference between the element 10286 and the element 10237 before it (the fourth line (the line indicated by the reference numeral D44)).

また、図5Cに示される差分認識後データD5の第6行目(符号D55で示される行)のリファレンス配列chr2に対応する要素に、図5Bの6行目(符号D46で示される行)の要素10330と、その前(5行目(符号D45で示される行))の要素10286との差分である44が含まれている。 Further, the element corresponding to the reference array chr2 in the sixth row (row represented by reference numeral D55) of the difference recognition data D5 shown in FIG. 5C is the sixth row (row indicated by reference numeral D46) in FIG. 5B. 44 is included, which is the difference between the element 10330 and the element 10286 before it (the fifth line (the line indicated by the reference numeral D45)).

データ作成部215は、図3/STEP012で認識された基準要素と、図3/STEP014で認識された隣り合う要素との差分とを含むデータを作成する(図3/STEP016)。 The data creation unit 215 creates data including the difference between the reference element recognized in FIG. 3 / STEP012 and the adjacent element recognized in FIG. 3 / STEP014 (FIG. 3 / STEP016).

例えば、データ作成部215は、図5Cに示される差分認識後データD5に基づいて、図3/STEP016で、リファレンス配列ごとに、図6Aに示されるようなデータD61を作成する。データD61は、第2塩基配列データの塩基配列の長さD61と、当該リファレンス配列の名称に含まれる番号D62と、当該リファレンス配列に対応付けられた第2塩基配列データの数D63と、基準要素D64と、差分D65、D66の配列とを含むデータである。 For example, the data creation unit 215 creates the data D61 as shown in FIG. 6A for each reference sequence in FIG. 3 / STEP016 based on the difference recognition data D5 shown in FIG. 5C. The data D61 includes the length D61 of the base sequence of the second base sequence data, the number D62 included in the name of the reference sequence, the number D63 of the second base sequence data associated with the reference sequence, and the reference element. This is data including D64 and an array of differences D65 and D66.

図3/STEP016で作成されるデータは、少なくとも差分を示すデータ部分に関しては、図7Aに示されるように、第1部分D1と、第2部分D2とを含む形式のデータとなっている。 The data created in FIG. 3 / STEP016 is in a format including the first portion D1 and the second portion D2, as shown in FIG. 7A, at least for the data portion showing the difference.

この第2部分D2は、何ビットでもよいが、14ビット以下であることが好ましいが、6ビット以下であることがより好ましく、3ビット以下であることがさらに好ましい。 The second portion D2 may have any number of bits, but is preferably 14 bits or less, more preferably 6 bits or less, and further preferably 3 bits or less.

第1部分D1は、先行又は後続するデータが関連するデータであるか否かを示す部分である。第2部分D2は、差分等の対象のデータの内容を示す部分である。第1部分D1は、例えば、1ビットで構成されていてもよい。 The first part D1 is a part indicating whether or not the preceding or succeeding data is related data. The second part D2 is a part showing the contents of the target data such as the difference. The first portion D1 may be composed of, for example, one bit.

第1部分D1が1ビットで構成される場合、例えば、第1部分が0の場合、後続する所定の長さのデータが関連しないことを意味し、第1部分が1の場合、後続する所定の長さのデータが関連することを意味してもよいが、第1部分により読み込む範囲が特定できれば、どのような規則であってもよい。 When the first part D1 is composed of 1 bit, for example, when the first part is 0, it means that the data of the following predetermined length is not related, and when the first part is 1, the succeeding predetermined It may mean that the data of the length of is related, but any rule may be used as long as the range to be read can be specified by the first part.

例えば、図7Bに示されるデータは、第1部分が1ビットで、第2部分が3ビットで構成された場合の例を示している。図7Bに示されるデータは、第1部分が0の場合、後続する所定の長さのデータが関連しないことを意味し、第1部分が1の場合、後続する所定の長さのデータが関連することを意味する。 For example, the data shown in FIG. 7B shows an example in which the first part is composed of 1 bit and the second part is composed of 3 bits. The data shown in FIG. 7B means that when the first part is 0, the subsequent data of a predetermined length is not related, and when the first part is 1, the subsequent data of a predetermined length is related. Means to do.

第2部分が3ビットである場合、10進数の1~7については、3ビットで十分に表現できるため後続するデータを使用する必要はない。このため、10進数の1、3について、図7Bに示されるように、第1部分は0となる。また、10進数の1、3については、図7Bに示されるように、第2部分は、それぞれ001、011となる。 When the second part is 3 bits, it is not necessary to use the following data because the decimal numbers 1 to 7 can be sufficiently expressed by 3 bits. Therefore, for decimal numbers 1 and 3, the first part is 0 as shown in FIG. 7B. Further, for decimal numbers 1 and 3, as shown in FIG. 7B, the second part is 001 and 011, respectively.

一方、10進数の8~31については、3ビットでは十分に表現できない。このため、これらのデータについては、図7Bに示されるように、最初のデータの第1部分は1となる。しかし、6ビットであれば十分に10進数の8~31を表現できるため、これらのデータについては、図7Bに示されるように、次のデータの第1部分は0となる。これらについては、関連する第2部分全体により、差分等の対象のデータの内容が示される。例えば、8であれば、図7Bに示されるように、最初の第2部分の001と、次の第2部分の000とを合わせた、001000により、2進数の8が表現される。 On the other hand, the decimal numbers 8 to 31 cannot be sufficiently expressed by 3 bits. Therefore, for these data, as shown in FIG. 7B, the first part of the first data is 1. However, since 6 bits can sufficiently represent decimal numbers 8 to 31, the first part of the next data is 0 for these data, as shown in FIG. 7B. For these, the contents of the target data such as differences are shown by the entire related second part. For example, in the case of 8, as shown in FIG. 7B, the binary number 8 is represented by 001000, which is the sum of 001 of the first second part and 000 of the next second part.

第2部分の大きさは、対象のデータのサイズ解析することで、最適化しうる。 The size of the second part can be optimized by analyzing the size of the target data.

図6Bは、このような第1部分と第2部分とを含むデータ形式で図6Aに示されるデータを作成した時の例を示す図である。 FIG. 6B is a diagram showing an example when the data shown in FIG. 6A is created in a data format including such a first portion and a second portion.

図6Bにおいては、当該リファレンス配列の名称に含まれる番号と、当該リファレンス配列に対応付けられた第2塩基配列データの総数と、基準要素と、各差分とが上記したデータ形式で表現されている。図3/STEP016で作成されるデータには、図6Bに示されるデータが、リファレンス配列の数だけ繰り返し含まれている。当該リファレンス配列に対応付けられた第2塩基配列データの総数は、このリファレンス配列ごとの区切りを示すために用いられる。 In FIG. 6B, the number included in the name of the reference sequence, the total number of the second base sequence data associated with the reference sequence, the reference element, and each difference are represented in the above-mentioned data format. .. The data created in FIG. 3 / STEP016 contains the data shown in FIG. 6B repeatedly as many as the number of reference sequences. The total number of the second base sequence data associated with the reference sequence is used to indicate the delimiter for each reference sequence.

データ作成部215は、作成したデータをバイナリ形式でデータ記憶部222に記憶するとともに、データベース300に送信する。データベース300は、データ作成装置200又は対象の生体Pを特定できる情報(例えばユーザIDなど)とともに受信したデータを記憶する。データ作成部215は、データベース300に、リファレンス配列と基準要素とを除外したデータを送信してもよい。このようにすることで、データベース300に記憶されたデータからは、全てのデータが復元できなくなるので、個人情報の保護が図られうる。 The data creation unit 215 stores the created data in the data storage unit 222 in a binary format and transmits the created data to the database 300. The database 300 stores the received data together with the information that can identify the data creation device 200 or the target living body P (for example, a user ID). The data creation unit 215 may send the data excluding the reference sequence and the reference element to the database 300. By doing so, all the data cannot be restored from the data stored in the database 300, so that personal information can be protected.

以上により、データ作成処理が終了する。 This completes the data creation process.

(データの復元)
図3/STEP016で作成されるデータから、データの復元をする方法について説明する。以下の処理は、第1塩基配列データにアクセス可能な一般的なコンピュータにより実行されうる。
(Data restoration)
A method of restoring data from the data created in FIG. 3 / STEP016 will be described. The following processing can be performed by a general computer having access to the first base sequence data.

まず、第1ステップにおいて、コンピュータは、図3/STEP016で作成されるデータを先頭から読み込み、各第2塩基配列データの塩基配列の長さと、一のリファレンス配列の名称に含まれる番号と、当該リファレンス配列に対応付けられた第2塩基配列データの総数とを認識する。 First, in the first step, the computer reads the data created in FIG. 3 / STEP016 from the beginning, the length of the base sequence of each second base sequence data, the number included in the name of one reference sequence, and the said. Recognize the total number of second base sequence data associated with the reference sequence.

次に、第2ステップにおいて、コンピュータは、基準要素を認識する。 Next, in the second step, the computer recognizes the reference element.

第3ステップにおいて、コンピュータは、一のリファレンス配列の名称に含まれる番号と、基準要素とから、基準要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、基準要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。 In the third step, the computer can recognize the start position of the partial sequence of the first base sequence data corresponding to the reference element from the number included in the name of one reference sequence and the reference element. The computer can recognize the partial sequence of the first base sequence data corresponding to the reference element based on the start position of the partial sequence and the length of the base sequence of each second base sequence data. Further, the computer subtracts 1 from the total number of the second base sequence data associated with the reference sequence.

第4ステップにおいて、コンピュータは、基準要素の次の差分を読み込む。コンピュータは、基準要素に当該差分を加えることで、2番目の要素の値を認識する。コンピュータは、この値に基づき、2番目の要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、2番目の要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。 In the fourth step, the computer reads the next difference of the reference element. The computer recognizes the value of the second element by adding the difference to the reference element. Based on this value, the computer can recognize the start position of the partial sequence of the first base sequence data corresponding to the second element. The computer can recognize the partial sequence of the first base sequence data corresponding to the second element based on the start position of the partial sequence and the length of the base sequence of each second base sequence data. Further, the computer subtracts 1 from the total number of the second base sequence data associated with the reference sequence.

第5ステップにおいて、コンピュータは、その次の差分を読み込む。コンピュータは、2番目の要素の値に当該差分を加えることで、3番目の要素の値を認識する。コンピュータは、この値に基づき、3番目の要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、3番目の要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。 In the fifth step, the computer reads the next difference. The computer recognizes the value of the third element by adding the difference to the value of the second element. Based on this value, the computer can recognize the start position of the partial sequence of the first base sequence data corresponding to the third element. The computer can recognize the partial sequence of the first base sequence data corresponding to the third element based on the start position of the partial sequence and the length of the base sequence of each second base sequence data. Further, the computer subtracts 1 from the total number of the second base sequence data associated with the reference sequence.

当該リファレンス配列に対応付けられた第2塩基配列データの総数がゼロになるまで、コンピュータは、第5ステップを繰り返す。第2塩基配列データの総数がゼロとなった場合、データの読み込みが完了するまで、コンピュータは、第1ステップ~第5ステップを繰り返し実行する。 The computer repeats the fifth step until the total number of the second base sequence data associated with the reference sequence becomes zero. When the total number of the second base sequence data becomes zero, the computer repeatedly executes the first step to the fifth step until the reading of the data is completed.

このようにすることで、コンピュータは、各第2塩基配列データに対応する第1塩基配列データの部分配列の群を認識することができる。この各第2塩基配列データに対応する第1塩基配列データの部分配列の群は、各第2塩基配列データとは完全には一致しないが、生体Pのゲノムシーケンサーによる読取頻度の解析をする上では十分に有用である。 By doing so, the computer can recognize a group of partial sequences of the first base sequence data corresponding to each second base sequence data. The group of partial sequences of the first base sequence data corresponding to each of the second base sequence data does not completely match each second base sequence data, but it is necessary to analyze the reading frequency by the genome sequencer of the living body P. Is useful enough.

(本実施形態の作用効果)
当該構成のデータ作成装置200によれば、位置認識部211により、第1塩基配列記憶部221に記憶された第1塩基配列データに基づいて、個々の長さが第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データD224に対応する第1塩基配列データ中の部分配列の位置D221、D222が認識される(図3/STEP004、図3/STEP006)。
(Action and effect of this embodiment)
According to the data creation device 200 having the configuration, each length is shorter than the number of first bases based on the first base sequence data stored in the first base sequence storage unit 221 by the position recognition unit 211. For each second base sequence data having 2 bases, the positions D221 and D222 of the partial sequence in the first base sequence data corresponding to the second base sequence data D224 are recognized (FIG. 3 / STEP004, FIG. 3 /. STEP006).

そして、並替部212により、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を昇順または降順で並び替えることにより(図3/STEP010)、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列(図5Bの第4行目以降)が作成される(図5B参照)。ここで、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列の隣り合う要素は、互いに近い位置となるので、その差分はかなり小さくなりやすい。特に、高頻度に読み取られた塩基配列に関連する塩基配列データについては、それらの位置は同一またはほとんど差がないものとなる。 Then, by rearranging the positions of the partial sequences of the first base sequence data corresponding to each second base sequence data in ascending or descending order by the rearrangement unit 212 (FIG. 3 / STEP010), each second base sequence data can be obtained. A sequence of the positions of the partial sequences of the corresponding first base sequence data (from the fourth row in FIG. 5B) is created (see FIG. 5B). Here, since the adjacent elements of the sequence at the position of the partial sequence of the first base sequence data corresponding to each second base sequence data are located close to each other, the difference tends to be considerably small. In particular, for the base sequence data related to the base sequence read frequently, their positions are the same or almost the same.

そして、基準要素認識部213により、前記位置の配列に含まれる少なくとも一つの位置である基準要素が認識される(図3/STEP012)。 Then, the reference element recognition unit 213 recognizes the reference element which is at least one position included in the array of the positions (FIG. 3 / STEP012).

そして、差分認識部214により、位置の配列の隣り合う要素間の差分の配列が認識される(図3/STEP014)。 Then, the difference recognition unit 214 recognizes the array of differences between adjacent elements of the array of positions (FIG. 3 / STEP014).

そして、データ作成部215により、基準要素認識部213により認識された基準要素と差分認識部214により認識された要素間の差分とを含むデータD6が作成される(図3/STEP016)。 Then, the data creation unit 215 creates data D6 including the reference element recognized by the reference element recognition unit 213 and the difference between the elements recognized by the difference recognition unit 214 (FIG. 3 / STEP016).

要素間の差分は、前述したように高頻度で読み取られた部分についてはかなり小さくなりやすいので、要素間の差分を示すデータのデータ容量は、小さく抑えられうる。 Since the difference between the elements tends to be considerably small for the portion read frequently as described above, the data capacity of the data indicating the difference between the elements can be kept small.

例えば、本発明者らが実験したところによると、図3/STEP016で作成されたデータのサイズは、図3/STEP006で作成されたSAMファイルのサイズの約0.33%となった。また、図3/STEP016で作成されたデータのサイズは、開始位置を示す数値を抜き出した図5Aのファイルのサイズと比較しても、約4.97%となった。 For example, according to the experiments conducted by the present inventors, the size of the data created in FIG. 3 / STEP016 was about 0.33% of the size of the SAM file created in FIG.3 / STEP006. Further, the size of the data created in FIG. 3 / STEP016 was about 4.97% even when compared with the size of the file in FIG. 5A from which the numerical value indicating the start position was extracted.

一方、作成されたデータに含まれる基準要素と要素間の差分とを用いれば、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を逆算して求めることができる。このような各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値は、対象のゲノムデータの内のどの部分の塩基配列がどの程度の頻度で読み取られているものかを示すこととなる。 On the other hand, if the reference element included in the created data and the difference between the elements are used, the position of the partial sequence of the first base sequence data corresponding to each second base sequence data can be calculated back. The numerical value indicating the position of the partial sequence of the first base sequence data corresponding to each of the second base sequence data is such that the base sequence of which part of the target genomic data is read at what frequency. Will be shown.

以上の通り、本発明のデータ作成装置200によれば、データ容量を抑えながら、ゲノムシーケンサー100による読み取り頻度を再現できるデータを作成しうる。 As described above, according to the data creation device 200 of the present invention, it is possible to create data that can reproduce the reading frequency by the genome sequencer 100 while suppressing the data capacity.

また、当該構成のデータ作成装置200によれば、基準要素認識部213により、位置の配列に含まれる要素のうち最小の値の要素が基準要素として認識される(図3/STEP012)。これにより、基準要素を示すデータのデータ容量を小さく抑えることができるので、より圧縮率を向上させうる。 Further, according to the data creation device 200 having the above configuration, the reference element recognition unit 213 recognizes the element having the smallest value among the elements included in the position array as the reference element (FIG. 3 / STEP012). As a result, the data capacity of the data indicating the reference element can be suppressed to a small size, so that the compression rate can be further improved.

当該構成のデータ作成装置200によれば、データ作成部215により、要素間の差分を示すデータとして、先行又は後続のデータが関連するデータであるか否かを示す第1部分D61と14ビット以下のデータを格納する第2部分D62とを一又は複数含む可変長データD6(図7A参照)が作成される(図3/STEP016)。 According to the data creation device 200 having the configuration, the data creation unit 215 uses the first portion D61 indicating whether or not the preceding or succeeding data is related data as the data indicating the difference between the elements, and 14 bits or less. Variable length data D6 (see FIG. 7A) including one or more of the second portion D62 for storing the data of the above is created (FIG. 3 / STEP016).

本願の出願人が検討したところによれば、位置の配列の連続する要素間の各差分は、ほとんど14ビット以下で表すことができる。 According to the applicants of the present application, each difference between consecutive elements of the array of positions can be represented by almost 14 bits or less.

例えば、図8は、ある生体(人間)から取得されたデータに基づいて作成されたグラフ理であり、差分が何ビットで表せるかを示したグラフである。図8のグラフの横軸は、差分が何ビットで表せるかを示す軸である。図8の左軸は、各ビットの出現頻度である。図8の右軸は、各ビットの出現頻度の割合を累計した割合である。図8に示されるように、各ビットの出現頻度の割合を累計した割合は、14ビットでほぼ100%となる。このため、第2部分は、14ビット以下であることが好ましい。 For example, FIG. 8 is a graph created based on data acquired from a certain living body (human), and is a graph showing how many bits the difference can be represented. The horizontal axis of the graph of FIG. 8 is an axis indicating how many bits the difference can be represented. The left axis of FIG. 8 is the frequency of appearance of each bit. The right axis of FIG. 8 is the cumulative ratio of the appearance frequency of each bit. As shown in FIG. 8, the cumulative ratio of the appearance frequency of each bit is 14 bits, which is almost 100%. Therefore, the second portion is preferably 14 bits or less.

これにより、多くのデータについて、そのデータ容量を小さく抑えながら、各要素の差分を表現することが可能となる。 This makes it possible to express the difference between each element of a large amount of data while keeping the data capacity small.

また、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、図7Bに示されるように、当該可変長データで表現することができる。 Further, the first part indicating whether the preceding or succeeding data is related data indicates that an appropriate number of second parts are used as data indicating the difference between the elements. As shown in FIG. 7B, a difference having a number of bits or more in two parts can also be expressed by the variable length data.

また、図8に示されるように、各ビットの出現頻度の割合を累計した割合は、6ビットでほぼ80%となる。このため、第2部分は、6ビット以下であってもよい。 Further, as shown in FIG. 8, the cumulative ratio of the appearance frequency of each bit is about 80% for 6 bits. Therefore, the second part may be 6 bits or less.

第2部分のデータを6ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。 By expressing the data of the second part with 6 bits or less, it is possible to further reduce the data capacity for a large amount of data. On the other hand, the first part, which indicates whether the preceding or succeeding data is related data, indicates that an appropriate number of second parts are used as the data indicating the difference between the elements. Differences that are equal to or greater than the number of bits in the two parts can also be expressed by the variable length data.

また、図8に示されるように、各ビットの出現頻度の割合を累計した割合は、3ビットでほぼ60%となる。このため、第2部分は、3ビット以下であってもよい。 Further, as shown in FIG. 8, the cumulative ratio of the appearance frequency of each bit is approximately 60% for 3 bits. Therefore, the second part may be 3 bits or less.

本件出願人の検討によれば、約6割のデータが3ビット以下で表現できることが分かった。第2部分のデータを3ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。 According to the examination of the applicant, it was found that about 60% of the data can be expressed in 3 bits or less. By expressing the data of the second part with 3 bits or less, it is possible to further reduce the data capacity for a large amount of data. On the other hand, the first part, which indicates whether the preceding or succeeding data is related data, indicates that an appropriate number of second parts are used as the data indicating the difference between the elements. Differences that are equal to or greater than the number of bits in the two parts can also be expressed by the variable length data.

(変形態様)
上述した実施形態では、第1塩基配列データは、複数のリファレンス配列に分解されたが、これに限られず、一の配列で表されてもよい。
(Deformation mode)
In the above-described embodiment, the first base sequence data is decomposed into a plurality of reference sequences, but the present invention is not limited to this, and the first base sequence data may be represented by a single sequence.

第1部分は、2ビットであってもよい。このデータ形式においては、例えば、第1部分が00である場合、第2部分が2ビットであることを示し、第1部分が01である場合、第2部分が6ビットであることを示し、第1部分が10である場合、第2部分が10ビットであることを示し、第1部分が11である場合、第2部分が10ビットであるとともに、後続するデータが関連するデータであることを示してもよい。 The first part may be 2 bits. In this data format, for example, when the first part is 00, it indicates that the second part is 2 bits, and when the first part is 01, it indicates that the second part is 6 bits. When the first part is 10, the second part is 10 bits, and when the first part is 11, the second part is 10 bits and the subsequent data is related data. May be shown.

また、第2部分は、関連するデータの数に応じてその長さが可変であってもよい。例えば、関連するデータの数が1である場合、第2部分が1ビットであり、関連するデータの数が2以上である場合、第2部分がそれぞれ3ビットとなるようなデータ形式であってもよい。 Further, the length of the second part may be variable depending on the number of related data. For example, if the number of related data is 1, the second part is 1 bit, and if the number of related data is 2 or more, the second part is 3 bits each. May be good.

データ作成部215は、このようなデータ形式に応じて、図3/STEP016におけるデータを作成してもよい。 The data creation unit 215 may create the data in FIG. 3 / STEP016 according to such a data format.

100‥ゲノムシーケンサー、200‥データ作成装置、210‥演算処理部、211‥位置認識部、212‥並替部、213‥基準要素認識部、214‥差分認識部、215‥データ作成部、220‥記憶部、221‥第1塩基配列記憶部、222‥データ記憶部、300‥データベース。
100 ... Genome sequencer, 200 ... Data creation device, 210 ... Arithmetic processing unit, 211 ... Position recognition unit, 212 ... Sorting unit, 213 ... Reference element recognition unit, 214 ... Difference recognition unit, 215 ... Data creation unit, 220 ... Storage unit, 221 ... First base sequence storage unit, 222 ... Data storage unit, 300 ... Database.

Claims (7)

長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部と、
第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識する位置認識部と、
各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成する並替部と、
前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識する基準要素認識部と、
前記位置の配列において並び順に2番目以降の各要素について、当該要素と前記並び順で当該要素より1つ前の要素との差分を隣り合う要素間の差分として認識する差分認識部と、
前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータを作成するデータ作成部とを備えることを特徴とするデータ作成装置。
A first base sequence storage unit for storing first base sequence data having a length of the first base, and a first base sequence storage unit.
Based on the first base sequence data stored in the first base sequence storage unit, each second base sequence data having an individual length shorter than the first base number is the second base sequence data. A position recognition unit that recognizes a numerical value indicating the position of a partial sequence in the first base sequence data corresponding to the base sequence data,
A rearrangement unit that creates a sequence of positions by rearranging the numerical values indicating the positions of the partial sequences of the first base sequence data corresponding to each second base sequence data in ascending or descending order.
A reference element recognition unit that recognizes a reference element that is at least one element included in the array at the position, and a reference element recognition unit.
A difference recognition unit that recognizes the difference between the element and the element immediately preceding the element in the order of arrangement as the difference between adjacent elements for each element after the second in the arrangement order in the arrangement of the positions.
A data creation device including a data creation unit that creates data including a reference element recognized by the reference element recognition unit and a difference between the elements recognized by the difference recognition unit.
請求項1記載のデータ作成装置において、
前記基準要素認識部は、位置の配列に含まれる要素のうち最小の値の要素を基準要素として認識するように構成されていることを特徴とするデータ作成装置。
In the data creation device according to claim 1,
The reference element recognition unit is a data creation device characterized in that it is configured to recognize the element having the smallest value among the elements included in the position array as a reference element.
請求項1又は2記載のデータ作成装置において、
前記データ作成部は、前記要素間の差分を示すデータとして、先行又は後続するデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データを作成することを特徴とするデータ作成装置。
In the data creating apparatus according to claim 1 or 2.
The data creation unit includes, as data indicating the difference between the elements, a first portion indicating whether or not the preceding or succeeding data is related data and a second portion storing data of 14 bits or less. Alternatively, a data creation device characterized in that variable length data including a plurality of data is created.
請求項3記載のデータ作成装置において、
前記第2部分は、6ビット以下であることを特徴とするデータ作成装置。
In the data creation device according to claim 3,
The second part is a data creation device characterized by having 6 bits or less.
請求項4記載のデータ作成装置において、
前記第2部分は、3ビット以下であることを特徴とするデータ作成装置。
In the data creation apparatus according to claim 4,
The second part is a data creation device characterized by having 3 bits or less.
長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部を備えるコンピュータが実行する方法であって、
第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識するステップと、
各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成するステップと、
前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識するステップと、
前記位置の配列において並び順に2番目以降の各要素について、当該要素と前記並び順で当該要素より1つ前の要素との差分を隣り合う要素間の差分として認識する認識するステップと、
前記基準要素と前記要素間の差分とを含むデータを作成するステップとを含むことを特徴とするデータ作成方法。
It is a method executed by a computer having a first base sequence storage unit for storing first base sequence data having a length of the first base.
Based on the first base sequence data stored in the first base sequence storage unit, each second base sequence data having an individual length shorter than the first base number is the second base sequence data. A step of recognizing a numerical value indicating the position of a partial sequence in the first base sequence data corresponding to the base sequence data, and
A step of creating a position sequence by rearranging the numerical values indicating the positions of the partial sequences of the first base sequence data corresponding to each second base sequence data in ascending or descending order.
A step of recognizing a reference element, which is at least one element contained in the array at the position,
A step of recognizing the difference between the element and the element one before the element in the order of arrangement as the difference between adjacent elements for each element after the second in the arrangement order in the arrangement of the positions.
A data creation method comprising a step of creating data including the reference element and a difference between the elements.
長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部を備えるコンピュータに、
第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識するステップと、
各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成するステップと、
前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識するステップと、
前記位置の配列において並び順に2番目以降の各要素について、当該要素と前記並び順で当該要素より1つ前の要素との差分を隣り合う要素間の差分として認識するステップと、
前記基準要素と前記要素間の差分とを含むデータを作成するステップとを実行させることを特徴とするデータ作成プログラムを格納した記憶媒体。
A computer provided with a first base sequence storage unit for storing first base sequence data having a length of the first base.
Based on the first base sequence data stored in the first base sequence storage unit, each second base sequence data having an individual length shorter than the first base number is the second base sequence data. A step of recognizing a numerical value indicating the position of a partial sequence in the first base sequence data corresponding to the base sequence data, and
A step of creating a position sequence by rearranging the numerical values indicating the positions of the partial sequences of the first base sequence data corresponding to each second base sequence data in ascending or descending order.
A step of recognizing a reference element, which is at least one element contained in the array at the position,
A step of recognizing the difference between the element and the element one before the element in the order of arrangement as the difference between adjacent elements for each element after the second in the arrangement order in the arrangement of the positions.
A storage medium containing a data creation program, which comprises executing a step of creating data including the reference element and a difference between the elements.
JP2020508869A 2018-03-30 2018-03-30 A storage medium that stores a data creation device, a data creation method, and a data creation program. Active JP7089804B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/013863 WO2019187100A1 (en) 2018-03-30 2018-03-30 Data creation device, data creation method and data creation program-storing storage medium

Publications (2)

Publication Number Publication Date
JPWO2019187100A1 JPWO2019187100A1 (en) 2021-03-11
JP7089804B2 true JP7089804B2 (en) 2022-06-23

Family

ID=68060547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020508869A Active JP7089804B2 (en) 2018-03-30 2018-03-30 A storage medium that stores a data creation device, a data creation method, and a data creation program.

Country Status (2)

Country Link
JP (1) JP7089804B2 (en)
WO (1) WO2019187100A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334769A (en) 2006-06-16 2007-12-27 Institute Of Physical & Chemical Research Array extractor, array extraction method, program, and recording medium
WO2015146852A1 (en) 2014-03-24 2015-10-01 株式会社 東芝 Method, device and program for generating reference genome data, method, device and program for generating differential genome data, and method, device and program for restoring data
JP2017224191A (en) 2016-06-16 2017-12-21 株式会社日立製作所 Dna sequence analysis device, dna sequence analysis method and dna sequence analysis system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334769A (en) 2006-06-16 2007-12-27 Institute Of Physical & Chemical Research Array extractor, array extraction method, program, and recording medium
WO2015146852A1 (en) 2014-03-24 2015-10-01 株式会社 東芝 Method, device and program for generating reference genome data, method, device and program for generating differential genome data, and method, device and program for restoring data
JP2017224191A (en) 2016-06-16 2017-12-21 株式会社日立製作所 Dna sequence analysis device, dna sequence analysis method and dna sequence analysis system

Also Published As

Publication number Publication date
JPWO2019187100A1 (en) 2021-03-11
WO2019187100A1 (en) 2019-10-03

Similar Documents

Publication Publication Date Title
Grabowski et al. Disk-based compression of data from genome sequencing
Hernaez et al. Genomic data compression
Choi et al. Libra: scalable k-mer–based tool for massive all-vs-all metagenome comparisons
US11632125B2 (en) Compressively-accelerated read mapping framework for next-generation sequencing
Johansson et al. Molecular support for a sister group relationship between Pici and Galbulae (Piciformes sensu Wetmore 1960)
Al Yami et al. LFastqC: A lossless non-reference-based FASTQ compressor
Sardaraz et al. SeqCompress: An algorithm for biological sequence compression
Al-Okaily et al. Toward a better compression for DNA sequences using Huffman encoding
Zhang et al. A FASTQ compressor based on integer-mapped k-mer indexing for biologist
WO2019076177A1 (en) Gene sequencing data compression preprocessing, compression and decompression method, system, and computer-readable medium
Banerjee et al. Design and development of bioinformatics feature based DNA sequence data compression algorithm
US20170098034A1 (en) Constructing custom knowledgebases and sequence datasets with publications
CN110168652A (en) For storing and accessing the method and system of bioinformatic data
JP7089804B2 (en) A storage medium that stores a data creation device, a data creation method, and a data creation program.
Majeed et al. RNAseq‐based phylogenetic reconstruction of Taxaceae and Cephalotaxaceae
Borgman et al. Deep learning encoding for rapid sequence identification on microbiome data
CN109727644B (en) Venn diagram making method and system based on microbial genome second-generation sequencing data
Long et al. GeneComp, a new reference-based compressor for SAM files
CN107169315B (en) Mass DNA data transmission method and system
US11250064B2 (en) System and method for generating filters for K-mismatch search
Zhou et al. Using protein clusters from whole proteomes to construct and augment a dendrogram
Díaz-Domínguez An index for sequencing reads based on the colored de bruijn graph
Numanagic Efficient high throughput sequencing data compression and genotyping methods for clinical environments
US20220207018A1 (en) Large data set negative information storage model
Zhan et al. A novel method to compress high-throughput DNA sequence read archive

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220606

R150 Certificate of patent or registration of utility model

Ref document number: 7089804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350