JP5952480B2 - Nucleic acid information processing apparatus and processing method thereof - Google Patents

Nucleic acid information processing apparatus and processing method thereof Download PDF

Info

Publication number
JP5952480B2
JP5952480B2 JP2015190668A JP2015190668A JP5952480B2 JP 5952480 B2 JP5952480 B2 JP 5952480B2 JP 2015190668 A JP2015190668 A JP 2015190668A JP 2015190668 A JP2015190668 A JP 2015190668A JP 5952480 B2 JP5952480 B2 JP 5952480B2
Authority
JP
Japan
Prior art keywords
target
base sequence
probe
nucleic acid
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015190668A
Other languages
Japanese (ja)
Other versions
JP2016028590A (en
Inventor
永典 奈須
永典 奈須
敦美 辻本
敦美 辻本
武廣 山川
武廣 山川
浩明 小野
浩明 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Software Management Co Ltd
Original Assignee
Japan Software Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Software Management Co Ltd filed Critical Japan Software Management Co Ltd
Priority to JP2015190668A priority Critical patent/JP5952480B2/en
Publication of JP2016028590A publication Critical patent/JP2016028590A/en
Application granted granted Critical
Publication of JP5952480B2 publication Critical patent/JP5952480B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、核酸情報の処理を行う技術に関する。   The present invention relates to a technique for processing nucleic acid information.

生物集団、個体、生体組織、細胞等の生物系の中には膨大な数と種類の遺伝子が存在し、それらの産物が相互に影響しあって、存在を保っている。従来、個々の遺伝子の有無や変動は、サザンブロッティングやノザンブロッティングに代表されるように、1つの実験で1つの遺伝子を調べる実験手法を用いて個々に解析されていたが、DNA(Deoxyribo Nucleic Acid)マイクロアレイ(本出願においては、便宜的にDNAチップと同義として扱う)の出現に伴い、多くの遺伝情報の有無や発現量を一回の物理的・生理的実験により横断的・網羅的に捉えることが可能となった。一方、これに先駆けて始まっていたゲノムプロジェクトの進行に伴って、DNA塩基配列決定技術についても、同時並行で解析可能なDNAフラグメントの数が桁違いに増加した次世代シークエンサーと呼ばれる機器群が実用化されている。当該機器群により、1回の次世代シークエンサーの稼動により解析可能なDNAのフラグメント数および塩基数は、飛躍的に増加した。このような技術は、特許文献1に記載されている。   There are an enormous number and types of genes in biological systems such as biological populations, individuals, biological tissues, and cells, and their products influence each other and remain there. Conventionally, the presence or variation of individual genes has been analyzed individually using an experimental technique that examines one gene in one experiment, as represented by Southern blotting and Northern blotting, but DNA (Deoxyribo Nucleic Acid ) With the advent of microarrays (for the sake of convenience, this is treated as synonymous with DNA chips in the present application), the presence or amount of genetic information and the expression level are comprehensively and comprehensively captured through a single physical and physiological experiment. It became possible. On the other hand, along with the progress of the genome project that had begun prior to this, a group of devices called next-generation sequencers in which the number of DNA fragments that can be analyzed in parallel has increased by an order of magnitude for practical use in DNA sequencing technology It has become. With the device group, the number of DNA fragments and the number of bases that can be analyzed by one-time operation of the next-generation sequencer have increased dramatically. Such a technique is described in Patent Document 1.

特開2010−193832号公報JP 2010-193832 A

しかし、上記したDNAマイクロアレイは、上述のように非常に有用な実験ツールであるが、3つの問題があると考えられる。一点目は、DNAマイクロアレイを用いた類似配列の頻度解析の結果は、再現性が100%とならず、精度が高いとはいえない点である。二点目は、DNAマイクロアレイを用いた実験では、プローブ分子にハイブリダイズしたターゲット分子の量は測定できるが、ターゲット分子の塩基配列情報は得られない点である。個々のプローブ塩基にハイブリダイズしたのが、ターゲット分子の塩基配列のどの部分であるのか、ハイブリダイズした部分の塩基配列はプローブ分子の塩基配列と100%一致するのか、ミスマッチがあるのか、ミスマッチがあるとすればどこなのか、等の詳細な情報は、DNAマイクロアレイによるハイブリダイゼーション実験のみでは得られない。三点目は、DNAマイクロアレイ実験に用いたDNAマイクロアレイ及びターゲットの核酸は、同じ状態での再使用が出来ない点である。   However, although the above-described DNA microarray is a very useful experimental tool as described above, it is considered that there are three problems. The first point is that the result of frequency analysis of similar sequences using a DNA microarray does not have 100% reproducibility and cannot be said to have high accuracy. The second point is that in the experiment using a DNA microarray, the amount of the target molecule hybridized to the probe molecule can be measured, but the base sequence information of the target molecule cannot be obtained. Which part of the base sequence of the target molecule is hybridized to each probe base, whether the base sequence of the hybridized part is 100% identical to the base sequence of the probe molecule, whether there is a mismatch, Detailed information, such as where it is, cannot be obtained only by hybridization experiments using DNA microarrays. The third point is that the DNA microarray and the target nucleic acid used in the DNA microarray experiment cannot be reused in the same state.

本発明は、このような従来技術に鑑み、DNAマイクロアレイに相当する使用有効期限のないプローブセットを用いて容易にハイブリダイゼーション結果を得ることを目的とする。   In view of such a conventional technique, an object of the present invention is to easily obtain a hybridization result using a probe set having no expiration date corresponding to a DNA microarray.

例えば、本願発明に係る核酸情報処理装置は、複数の塩基配列の情報を含む第一の塩基配列情報と、複数の塩基配列の情報を含む第二の塩基配列情報と、を記憶する記憶部と、類似度の閾値を特定する情報を受け付ける閾値受付手段と、前記第一の塩基配列情報に含まれる塩基配列をターゲットとし、前記第二の塩基配列情報に含まれる塩基配列をプローブとする一対一の組み合わせについて、類似度および類似部分の開始位置および終了位置を特定するハイブリダイゼーション手段と、特定した類似度が前記閾値以上となる前記ターゲットの数を、前記プローブごとに計数し、前記記憶部に記憶する類似塩基配列計数手段と、を備え、前記ハイブリダイゼーション手段は、前記類似度および類似部分の開始位置および終了位置を特定する処理において、一つまたは複数の前記ターゲットにより一つの前記プローブの塩基配列の全てを欠落なく対応付ける組み合わせを特定し、前記類似塩基配列計数手段は、前記一つまたは複数の前記ターゲットにより欠落なく対応付けられた前記プローブの数を計数し、前記記憶部に記憶する、ことを特徴とする。   For example, the nucleic acid information processing device according to the present invention includes a storage unit that stores first base sequence information including information on a plurality of base sequences and second base sequence information including information on the plurality of base sequences; One-to-one threshold receiving means for receiving information for specifying a threshold value of similarity and a base sequence included in the first base sequence information as a target and a base sequence included in the second base sequence information as a probe For each combination, the hybridization means for specifying the similarity and the start position and the end position of the similar portion, and the number of the targets for which the specified similarity is equal to or greater than the threshold are counted for each probe, and stored in the storage unit. Similar base sequence counting means for storing, wherein the hybridization means specifies the similarity and the start position and end position of the similar portion. In the method, the one or a plurality of the targets are used to identify a combination in which all of the base sequences of the one probe are associated with each other without omission, and the similar base sequence counting means is associated with the one or more targets without omission. In addition, the number of the probes is counted and stored in the storage unit.

また例えば、核酸情報処理装置による核酸情報処理の方法であって、前記核酸情報処理装置は、複数の塩基配列の情報を含む第一の塩基配列情報と、複数の塩基配列の情報を含む第二の塩基配列情報と、を記憶する記憶部と、処理部と、を備え、前記処理部は、類似度の閾値を特定する情報を受け付ける閾値受付ステップと、前記第一の塩基配列情報に含まれる塩基配列をターゲットとし、前記第二の塩基配列情報に含まれる塩基配列をプローブとする一対一の組み合わせについて、類似度および類似部分の開始位置および終了位置を特定するハイブリダイゼーション実施ステップと、特定した類似度が前記閾値以上となる前記ターゲットの数を、前記プローブごとに計数し、前記記憶部に記憶する類似塩基配列計数ステップと、を実施し、前記ハイブリダイゼーション実施ステップにおいては、前記類似度および類似部分の開始位置および終了位置を特定する処理において、一つまたは複数の前記ターゲットにより一つの前記プローブの塩基配列の全てを欠落なく対応付ける組み合わせを特定し、前記類似塩基配列計数ステップにおいては、前記一つまたは複数の前記ターゲットにより欠落なく対応付けられた前記プローブの数を計数し、前記記憶部に記憶する、ことを特徴とする。   Also, for example, a method of nucleic acid information processing by a nucleic acid information processing device, wherein the nucleic acid information processing device includes first base sequence information including information on a plurality of base sequences and second information including information on a plurality of base sequences. A storage unit for storing the base sequence information, and a processing unit, wherein the processing unit is included in the first base sequence information and a threshold receiving step for receiving information specifying a threshold value of similarity A hybridization step for identifying a similarity and a start position and an end position of a similar portion for a one-to-one combination with a base sequence as a target and a base sequence included in the second base sequence information as a probe, and Performing a similar base sequence counting step of counting the number of targets whose similarity is equal to or greater than the threshold for each probe and storing the same in the storage unit, In the hybridization execution step, in the process of specifying the similarity and the start position and end position of the similar portion, the combination that matches all of the base sequences of one probe with one or more targets is specified. In the similar base sequence counting step, the number of the probes associated without omission by the one or a plurality of the targets is counted and stored in the storage unit.

本発明を適用することで、DNAマイクロアレイに相当する使用有効期限のないプローブセットを用いて容易にハイブリダイゼーション結果を得ることが可能となる。   By applying the present invention, it is possible to easily obtain a hybridization result using a probe set having no expiration date corresponding to a DNA microarray.

本実施形態の核酸情報処理方法の概要を示す図である。It is a figure which shows the outline | summary of the nucleic acid information processing method of this embodiment. 本実施形態における核酸情報処理方法のハイブリダイゼーション処理の概要を示す図である。It is a figure which shows the outline | summary of the hybridization process of the nucleic acid information processing method in this embodiment. 本実施形態におけるハイブリダイゼーション処理の概要を示す図である。It is a figure which shows the outline | summary of the hybridization process in this embodiment. 本実施形態における核酸情報処理方法の仮想ハイブリダイゼーション処理の概要を示す図である。It is a figure which shows the outline | summary of the virtual hybridization process of the nucleic acid information processing method in this embodiment. 本実施形態における核酸情報処理装置の機能ブロック図である。It is a functional block diagram of the nucleic acid information processing apparatus in this embodiment. ターゲットフラグメント記憶部のデータ構造を示す図である。It is a figure which shows the data structure of a target fragment memory | storage part. プローブ記憶部のデータ構造を示す図である。It is a figure which shows the data structure of a probe memory | storage part. 類似度記憶部のデータ構造を示す図である。It is a figure which shows the data structure of a similarity memory | storage part. ハイブリ結果記憶部のデータ構造を示す図である。It is a figure which shows the data structure of a hybridization result storage part. クラスター記憶部のデータ構造を示す図である。It is a figure which shows the data structure of a cluster storage part. 本実施形態の核酸情報処理装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the nucleic acid information processing apparatus of this embodiment. クラスタリング処理の処理フローを示す図である。It is a figure which shows the processing flow of a clustering process. クラスタリング処理の処理フローを示す図である。It is a figure which shows the processing flow of a clustering process. 仮想ハイブリダイゼーション処理の処理フローを示す図である。It is a figure which shows the processing flow of a virtual hybridization process. 完全ハイブリ特定処理の処理フローを示す図である。It is a figure which shows the process flow of a complete hybrid specific process. ターゲット比較処理の処理フローを示す図である。It is a figure which shows the processing flow of a target comparison process. クラスタリング処理画面の例を示す図である。It is a figure which shows the example of a clustering process screen. クラスタリング処理結果画面の例を示す図である。It is a figure which shows the example of a clustering process result screen. クラスタリング処理結果画面の例を示す図である。It is a figure which shows the example of a clustering process result screen. クラスタリング処理結果画面の例を示す図である。It is a figure which shows the example of a clustering process result screen. 仮想ハイブリダイゼーション処理結果画面の例を示す図である。It is a figure which shows the example of a virtual hybridization process result screen. 仮想ハイブリダイゼーション処理結果画面の例を示す図である。It is a figure which shows the example of a virtual hybridization process result screen. ターゲット比較処理の概要を示す図である。It is a figure which shows the outline | summary of a target comparison process. ターゲット比較処理の処理結果画面の例を示す図である。It is a figure which shows the example of the process result screen of a target comparison process. ターゲット比較処理の処理結果画面の例を示す図である。It is a figure which shows the example of the process result screen of a target comparison process. 仮想ハイブリダイゼーション処理におけるターゲットの計数方法を示す図である。It is a figure which shows the target counting method in a virtual hybridization process.

上記した技術の第一の問題についての原因は、プローブ毎、アレイ毎および作成ロット毎の基板または基質に固定されるプローブ分子数およびプローブ配列の誤差や、ハイブリダイゼーション毎の物理化学的条件の誤差等が重なり合うためと考えられる。プローブ毎及びアレイ毎の固定分子数の誤差は、基板または基質にプローブDNAを固定する際、固定用の機器や酵素や化学反応の固定効率がプローブ毎及びアレイ毎に異なり、結果としてプローブ間及びアレイ間でスポット毎に固定されるスポットの分子数が異なることに起因すると考えられる。   The cause of the first problem of the above technique is the error in the number of probe molecules immobilized on the substrate or substrate for each probe, each array, and each production lot, the error in the probe arrangement, and the error in the physicochemical conditions for each hybridization. This is thought to be due to the overlap. The error in the number of immobilized molecules for each probe and each array is that when immobilizing the probe DNA to the substrate or substrate, the immobilization efficiency of the instrument, enzyme, or chemical reaction varies from probe to probe and from array to probe. This is considered to be due to the difference in the number of spots of molecules fixed for each spot between the arrays.

また、ハイブリダイゼーション毎の誤差は、ハイブリダイゼーションとこれに続くDNAマイクロアレイの洗浄において、温度・pH・イオン強度・フォルムアミド濃度・プローブ鎖長・プローブ量・ターゲットDNA濃度・プローブおよび/またはターゲットの核酸が2本鎖か1本鎖か、などの物理化学的条件のすべてをハイブリダイゼーション毎に厳密に再現することが困難なため、ハイブリダイゼーション毎にいずれかの条件が異なることに起因すると考えられる。   In addition, the error for each hybridization is the temperature, pH, ionic strength, formamide concentration, probe chain length, probe amount, target DNA concentration, probe and / or target nucleic acid in hybridization and subsequent DNA microarray washing. Since it is difficult to precisely reproduce all physicochemical conditions such as whether double-stranded or single-stranded for each hybridization, it is considered that one of the conditions differs for each hybridization.

これら全ての条件を毎回の実験で常に厳密に同一にすることは非常に困難なため、DNAマイクロアレイを用いた類似塩基配列の頻度解析結果の再現性は100%にはならないと考えられる。現実には、当該技術により解析を行う場合には、複数回の実験結果の平均値などの近似値を用いて解析を行わざるを得ない。   Since it is very difficult to always make all these conditions exactly the same in each experiment, it is considered that the reproducibility of the frequency analysis result of the similar base sequence using the DNA microarray is not 100%. In reality, when analysis is performed by the technique, the analysis must be performed using an approximate value such as an average value of a plurality of experimental results.

後述する本願発明に係る第一の実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に、すなわちコンピュータ上の処理として行う。そのため、上記のハイブリダイゼーションにおける物理化学的条件の入り込む余地は無く、誤差等は発生しない。したがって、第一の問題を解決できる。   In a first embodiment according to the present invention to be described later, hybridization is performed virtually, that is, as processing on a computer, using electronic information of a base sequence. Therefore, there is no room for the physicochemical conditions in the above hybridization, and no error or the like occurs. Therefore, the first problem can be solved.

上記した技術の第二の問題についての原因は、DNAマイクロアレイの実験では、プローブにハイブリダイズしたターゲットの核酸の量は測定できるが、ターゲットの核酸の塩基配列情報は得られない点にある。   The cause of the second problem of the above-described technique is that in the experiment of the DNA microarray, the amount of the target nucleic acid hybridized to the probe can be measured, but the base sequence information of the target nucleic acid cannot be obtained.

したがって、興味ある実験結果を得られたプローブ配列をピックアップし、それをもとに、ターゲットからそのプローブ塩基配列と類似度の高い塩基配列を持つ核酸を新たに回収し直して塩基配列を決定し、更に解析を進めるという手間がかかる。   Therefore, we pick up the probe sequences that have obtained interesting experimental results, and based on them, newly recover nucleic acids having a high base sequence similarity to the probe base sequence from the target and determine the base sequence. Further, it takes time and effort to proceed with the analysis.

後述する本願発明に係る実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に行う。そのため、上記のハイブリダイゼーションにおける結果の詳細は明確で、不明確となることはない。したがって、第二の問題を解決できる。   In an embodiment according to the present invention to be described later, hybridization is virtually performed using electronic information of a base sequence. Therefore, the details of the results in the above hybridization are clear and will not be unclear. Therefore, the second problem can be solved.

上記した技術の第三の問題については、完全に同一のターゲットは存在しないために、再度同一のターゲットを得ることはできず、1回に作成するDNAマイクロアレイの数は有限であるため、それらを使い尽くした後には、異なる再度DNAマイクロアレイを作成する必要がある。この作業は手間や費用がかかると同時に、作成ロット間の誤差を生じるという上述した第一の問題点を生む原因ともなる。   Regarding the third problem of the above technique, since there is no completely identical target, the same target cannot be obtained again, and the number of DNA microarrays to be created at one time is limited. After using up, it is necessary to create a different DNA microarray again. This work is time-consuming and expensive, and at the same time causes the above-mentioned first problem that an error occurs between production lots.

後述する本願発明に係る実施形態においては、ハイブリダイゼーションを、塩基配列の電子情報を用いて仮想的に、すなわちコンピュータ上の処理として行うため、ターゲットそのものの保存は問われない。または、同一のターゲットの塩基配列を複製・再現することは比較的容易である。したがって、第三の問題を解決できる。   In the embodiment according to the present invention to be described later, the hybridization is performed virtually using the electronic information of the base sequence, that is, as a process on the computer, and therefore the storage of the target itself is not questioned. Alternatively, it is relatively easy to duplicate and reproduce the base sequence of the same target. Therefore, the third problem can be solved.

以下に、本発明に係る第一の実施形態について図1〜図25を用いて説明する。   Below, 1st embodiment which concerns on this invention is described using FIGS.

図1は、本発明の第一の実施形態の例である核酸情報処理装置100を用いた核酸情報の処理の概要を示す図である。具体的には、図1は、デジタルDNAチップ(デジタルデータによるDNAマイクロアレイ)での類似塩基配列の頻度解析および核酸情報の比較の流れを表す図である。   FIG. 1 is a diagram showing an outline of processing of nucleic acid information using a nucleic acid information processing apparatus 100 as an example of the first embodiment of the present invention. Specifically, FIG. 1 is a diagram showing a flow of frequency analysis of similar base sequences and comparison of nucleic acid information in a digital DNA chip (DNA microarray based on digital data).

インポートデータ1には、シークエンサーから出力されたターゲットのフラグメント塩基配列情報であるシークエンス・データおよびDNAチップを用いた実験で得られたDNAチップ実験データがインポートされている。核酸情報処理装置100の処理機能2は、インポートしたシークエンス・データおよびDNAチップ実験データならびにこれらを用いて行う下記のような様々な解析結果を格納しておくデータベース3を利用して処理を行う。   Import data 1 includes sequence data, which is target fragment base sequence information output from the sequencer, and DNA chip experimental data obtained by experiments using a DNA chip. The processing function 2 of the nucleic acid information processing apparatus 100 performs processing using the imported sequence data, DNA chip experiment data, and the database 3 that stores various analysis results as described below using these data.

処理機能2は、解析の流れに沿って、シークエンス・データをクラスタリング処理する機能と、クラスタリングされたデータに基づいてプローブの塩基配列リストを作成し、それらの仮想的な平面上配置の設定も含むデジタルDNAチップを設計するデジタルDNAチップ設計機能と、シークエンサーから出力されたターゲットのフラグメント塩基配列情報を取り込み、プローブの塩基配列リストとの類似度およびその頻度を解析する仮想ハイブリダイゼーション機能と、仮想ハイブリダイゼーションの結果同士、またはインポートしたDNAチップ実験データ同士、あるいは仮想ハイブリダイゼーションの結果とDNAチップ実験データとの組み合わせのいずれの組み合わせでも、複数の類似塩基配列の頻度解析結果を比較する機能と、を備える。   Processing function 2 includes a function for clustering sequence data in accordance with the flow of analysis, a base sequence list of probes based on the clustered data, and setting of their virtual plane arrangement A digital DNA chip design function for designing a digital DNA chip, a virtual hybridization function for capturing the target fragment base sequence information output from the sequencer, and analyzing the similarity to the base sequence list of the probe and its frequency, A function for comparing the frequency analysis results of a plurality of similar base sequences in any combination of hybridization results, imported DNA chip experiment data, or a combination of virtual hybridization results and DNA chip experiment data, Obtain.

また、処理機能2は、上記機能による様々な解析結果をアウトプットして、コンピュータ画面に表示する機能をも備える。アウトプットするデータは、アウトプット・データ4に示したターゲットフラグメント群と、クラスタリング結果と、プローブ群と、プローブ塩基配列仮想配置リストと、仮想ハイブリダイゼーション結果と、比較解析結果等と、である。   The processing function 2 also has a function of outputting various analysis results by the above functions and displaying them on a computer screen. The data to be output includes the target fragment group shown in the output data 4, the clustering result, the probe group, the probe base sequence virtual arrangement list, the virtual hybridization result, the comparison analysis result, and the like.

図2は、核酸情報処理方法のハイブリダイゼーション処理の概要を示す図である。具体的には、図2では、DNAマイクロアレイによる解析13と、デジタルDNAチップによる解析14とについて、準備作業10と、類似塩基配列の頻度解析11と、得られる結果12と、により整理している。   FIG. 2 is a diagram showing an outline of the hybridization process of the nucleic acid information processing method. Specifically, in FIG. 2, the analysis 13 by the DNA microarray and the analysis 14 by the digital DNA chip are organized by a preparation operation 10, a frequency analysis 11 of similar base sequences, and a result 12 obtained. .

DNAマイクロアレイによる解析では、ターゲットの準備作業10として、材料採取、DNA抽出およびDNA増幅を行う。また、プローブの準備作業として、プローブ配列リストを作成してプローブDNAを作成し、DNAマイクロアレイを作成する。そして、類似塩基配列の頻度解析11において、ターゲットのDNAとDNAマイクロアレイとのいわゆるハイブリダイゼーションを行う。   In the analysis using the DNA microarray, as the target preparation operation 10, material collection, DNA extraction, and DNA amplification are performed. Also, as a probe preparation operation, a probe sequence list is created to create a probe DNA, and a DNA microarray is created. Then, in the frequency analysis 11 of the similar base sequence, so-called hybridization between the target DNA and the DNA microarray is performed.

当該ハイブリダイゼーションでは、DNAマイクロアレイに設けられた一本鎖の塩基配列と相補的なターゲットの一本鎖の塩基配列とが水素結合により相補鎖を形成する性質を利用する。なお、相補鎖に限らず、DNAマイクロアレイに設けられた塩基配列と同一の塩基配列を有するターゲットの一本鎖についても、陽性の反応として取得する。得られる結果12として、プローブごとのクラスター・メンバー数が挙げられる。   The hybridization utilizes the property that a single-stranded base sequence provided in the DNA microarray and a complementary single-stranded base sequence form a complementary strand by hydrogen bonding. In addition, not only a complementary strand but a single strand of a target having the same base sequence as that provided in the DNA microarray is also acquired as a positive reaction. Result 12 is the number of cluster members per probe.

デジタルDNAチップによる解析14では、ターゲットの準備作業10として、材料採取、DNA抽出およびターゲットフラグメント群作成を行う。ターゲットフラグメントは、塩基配列について、シークエンサーにより塩基の配列データを特定することで特定される。また、プローブの準備作業としては、プローブ群を作成する。プローブ群の作成では、過去に作成したターゲットフラグメント群のデータを再構成するものであってもよいし、既存のゲノムデータベース等のデータ、例えばGenomics & Genetics At The Sanger Institute(http://www.sanger.ac.uk/genetics/)の様々なデータベースのデータ、VAMPS(Visualization and Analysis of Microbial Population Structures)のデータベースのデータ(http://vamps.mbl.edu/)等の公開データベースや未公開で各研究機関等が独自に運営しているデータベース等を利用してもよい。そして、類似塩基配列の頻度解析11において、ターゲットフラグメントの塩基配列データとプローブ群の塩基配列データとの一対一照合を行う仮想ハイブリダイゼーションを行う。   In the analysis 14 using a digital DNA chip, as a target preparation operation 10, material collection, DNA extraction, and target fragment group generation are performed. The target fragment is identified by identifying the base sequence data with a sequencer. In addition, as a probe preparation operation, a probe group is created. In creating a probe group, data of a target fragment group created in the past may be reconstructed, or data such as an existing genome database, such as Genomics & Genetics At The Sanger Institute (http: // www. data of various databases of Sanger.ac.uk/genetics/), data of databases of VAMPS (Visualization and Analysis of Microorganization Structures) (public of http://vamps.mbl.edu), etc. You may use the database etc. which each research institution manages independently. Then, in the frequency analysis 11 of similar base sequences, virtual hybridization is performed in which one-to-one matching between the base sequence data of the target fragment and the base sequence data of the probe group is performed.

仮想ハイブリダイゼーションでは、塩基の相補性を利用して、ターゲットフラグメントの塩基配列ごとにプローブ群の塩基配列を相補的に、および相補的にではなくプローブ群の塩基配列との類似性に基づいてマッチング処理し、対応する組み合わせを特定する。得られる結果12として、プローブごとのクラスター・メンバー数と、ターゲットの全核酸フラグメントの塩基配列情報と、が挙げられる。また、プローブ群として用いた塩基配列情報は逸失せず、再度の利用が可能である。   Virtual hybridization uses base complementarity to match the base sequence of the probe group in a complementary manner for each base sequence of the target fragment and based on similarity to the base sequence of the probe group instead of being complementary. Process and identify the corresponding combination. The obtained result 12 includes the number of cluster members for each probe and the base sequence information of all target nucleic acid fragments. Moreover, the base sequence information used as the probe group is not lost and can be used again.

図3は、DNAマイクロアレイを用いた類似度の頻度解析の流れにおける、ハイブリダイゼーション処理の概要を示す図である。   FIG. 3 is a diagram showing an outline of hybridization processing in the flow of frequency analysis of similarity using a DNA microarray.

一般的に、ハイブリダイゼーション処理では、標識したターゲット核酸溶液21とDNAマイクロアレイ22を用いて、各々のプローブとターゲットの核酸分子同士の相補性の程度に基づくハイブリダイゼーション実験を行う。この際、DNAマイクロアレイを用いたハイブリダイゼーション実験では、ハイブリダイゼーションとこれに続くDNAマイクロアレイの洗浄ステップにおける実験単位ごとの物理化学的条件(温度・pH・イオン強度・フォルムアミド濃度・プローブ鎖長・プローブ量・ターゲット核酸濃度・プローブおよび/またはターゲットの核酸が2本鎖か1本鎖か、など)により、相補性の閾値を規定する。   In general, in the hybridization treatment, a hybridization experiment based on the degree of complementarity between each probe and the target nucleic acid molecule is performed using the labeled target nucleic acid solution 21 and the DNA microarray 22. At this time, in a hybridization experiment using a DNA microarray, physicochemical conditions (temperature, pH, ionic strength, formamide concentration, probe chain length, probe for each experimental unit in the hybridization and subsequent DNA microarray washing step are performed. Threshold, target nucleic acid concentration, probe and / or target nucleic acid is double stranded or single stranded, etc.).

ハイブリダイゼーション実験を行うと、例えばハイブリダイゼーション後のDNAマイクロアレイ23のような反応結果が得られる。そのDNAマイクロアレイの一部分24を拡大してみると、DNAマイクロアレイの一部分のハイブリダイゼーション結果の拡大図25に示すように、DNAマイクロアレイの基板26のプローブスポット領域27にプローブDNAフラグメント28が固定されている。そして、上述の物理化学的条件で規定された相補性の閾値よりもプローブDNAフラグメントとターゲット核酸フラグメントとの相補性が高い場合にプローブDNAフラグメントとターゲット核酸フラグメントとが二重鎖を形成する。この作用により、ハイブリダイズした標識したターゲット核酸フラグメント29の分子数の多寡に従ってスポット毎に標識シグナルの強弱が異なる、という物理化学的結果が得られる。   When a hybridization experiment is performed, a reaction result such as a DNA microarray 23 after hybridization is obtained. When the portion 24 of the DNA microarray is enlarged, the probe DNA fragment 28 is fixed to the probe spot region 27 of the substrate 26 of the DNA microarray as shown in the enlarged view 25 of the hybridization result of the portion of the DNA microarray. . When the complementarity between the probe DNA fragment and the target nucleic acid fragment is higher than the complementarity threshold defined by the above physicochemical conditions, the probe DNA fragment and the target nucleic acid fragment form a duplex. By this action, a physicochemical result is obtained in which the intensity of the labeling signal varies from spot to spot according to the number of molecules of the hybridized labeled target nucleic acid fragment 29.

DNAマイクロアレイを用いたハイブリダイゼーションでは、通常、数時間から一晩程度のハイブリダイゼーションの後に洗浄作業を行うため、ほぼ1日を必要とする。DNAマイクロアレイによる解析では、プローブ31ごとに二重鎖を形成したターゲットフラグメント数の概数(シグナル強度32で表される情報)の情報30が得られる。   Hybridization using a DNA microarray usually requires approximately one day because a washing operation is performed after hybridization for several hours to overnight. In the analysis by the DNA microarray, information 30 of the approximate number of target fragments (information represented by the signal intensity 32) that forms a double strand for each probe 31 is obtained.

図4は、デジタルDNAチップを用いた類似度の頻度解析の流れにおける、仮想ハイブリダイゼーション処理の概要を示す図である。   FIG. 4 is a diagram showing an outline of virtual hybridization processing in the flow of similarity frequency analysis using a digital DNA chip.

仮想ハイブリダイゼーション処理では、ターゲットに含まれる全てのフラグメントID42で特定される塩基配列43を一つあるいは複数含む核酸フラグメント・リスト41と、プローブID45で特定される塩基配列46を一つあるいは複数含むプローブ塩基配列リスト44の全プローブの塩基配列情報とを核酸情報処理装置100上において1対1で1塩基ごとに照合するマッチング処理47を行う。この際、ターゲットとプローブのフラグメント内の1塩基ペア毎の一致又は不一致、および相補鎖を形成すべき組合せか否かをプローブのフラグメント全域にわたって判定し、プローブのフラグメント内での一致条件の数字(総一致率、最長連続一致塩基数、最長連続一致率、など)により、類似度の閾値を規定する。   In the virtual hybridization process, a nucleic acid fragment list 41 including one or a plurality of base sequences 43 specified by all fragment IDs 42 included in the target and a probe including one or a plurality of base sequences 46 specified by the probe ID 45 On the nucleic acid information processing apparatus 100, matching processing 47 is performed in which the base sequence information of all probes in the base sequence list 44 is checked on a one-to-one basis for each base. At this time, it is determined over the entire probe fragment whether there is a match or mismatch for each base pair in the target and probe fragment, and whether or not the combination is to form a complementary strand, and the match condition number in the probe fragment ( The similarity threshold is defined by the total match rate, the longest continuous match base number, the longest continuous match rate, and the like.

マッチング処理47を行って、プローブの塩基配列とターゲット核酸の塩基配列を上述の手法により1:1で照合して算出した類似度の値が、上述のように数字で規定した類似度の閾値より高い値を示したターゲット核酸の塩基配列について、核酸情報処理装置100は、プローブID51により代表される塩基配列が類似したフラグメントの集合であるクラスターを特定し、仮想ハイブリダイゼーション結果表50の中のクラスター・メンバーとして追加する追加処理48を行う。具体的には、核酸情報処理装置100は、クラスター・メンバー数52をインクリメントし、クラスター・メンバーのフラグメントID53としてターゲットのフラグメントID42を追加し、クラスター・メンバーの塩基配列54としてターゲットの塩基配列43を追加する。   The similarity value calculated by performing the matching process 47 and collating the base sequence of the probe with the base sequence of the target nucleic acid 1: 1 by the above-described method is greater than the similarity threshold value defined by the numbers as described above. For the base sequence of the target nucleic acid showing a high value, the nucleic acid information processing device 100 identifies a cluster that is a set of fragments having similar base sequences represented by the probe ID 51, and clusters in the virtual hybridization result table 50. Add processing 48 to add as a member is performed. Specifically, the nucleic acid information processing device 100 increments the cluster member number 52, adds the target fragment ID 42 as the cluster member fragment ID 53, and sets the target base sequence 43 as the cluster member base sequence 54. to add.

なお、算出した類似度の値が類似度の閾値より低い値を示したターゲット核酸の塩基配列については、核酸情報処理装置100は、仮想ハイブリダイゼーション結果表50の照合相手のプローブの塩基配列のクラスターには加えず、照合相手の変更55(異なるプローブIDの塩基を照合相手とする)を行い、照合するプローブの塩基配列を変えてマッチング処理47を再度行う。核酸情報処理装置100は、すべてのプローブの塩基配列とのマッチング処理47を終えてもいずれのプローブの塩基配列のクラスター・メンバーにもならなかったターゲット核酸の塩基配列は、仮想ハイブリダイゼーション結果表50には入れず、反応陰性のグループとする。   For the target nucleic acid base sequence for which the calculated similarity value is lower than the similarity threshold value, the nucleic acid information processing device 100 uses the base sequence cluster of the matching partner probe in the virtual hybridization result table 50. In addition, the matching partner is changed 55 (the base of a different probe ID is used as the matching partner), the base sequence of the probe to be verified is changed, and the matching process 47 is performed again. The nucleic acid information processing apparatus 100 uses the virtual hybridization result table 50 for the base sequence of the target nucleic acid that has not become a cluster member of the base sequence of any probe even after completing the matching process 47 with the base sequences of all probes. Not a negative group.

こうして、核酸情報処理装置100は、いずれかのプローブの塩基配列のクラスターまたは反応陰性のグループへと照合対象のターゲット核酸の塩基配列の帰属先を決め終えたら、照合ペアの変更56を行って、照合するターゲット核酸の塩基配列とプローブの塩基配列のペアを新たに選択し、マッチング処理47等の処理を行う。ターゲット核酸のすべての塩基配列について、上記の操作を繰り返し終えると、核酸情報処理装置100は、仮想ハイブリダイゼーション結果表50の各々のプローブID51ごとに、クラスターに入れられたターゲット核酸の塩基配列の個数を集計して、クラスター・メンバー数として算出する。   Thus, when the nucleic acid information processing apparatus 100 determines the assignment destination of the base sequence of the target nucleic acid to be collated to a cluster of base sequences of any probe or a reaction negative group, the collation pair change 56 is performed, A new pair of target nucleic acid base sequence and probe base sequence to be collated is selected, and processing such as matching processing 47 is performed. When the above operation is repeated for all the base sequences of the target nucleic acid, the nucleic acid information processing apparatus 100 counts the number of base sequences of the target nucleic acid entered in the cluster for each probe ID 51 in the virtual hybridization result table 50. To calculate the number of cluster members.

デジタルDNAチップを用いた仮想ハイブリダイゼーションでは、核酸情報処理装置の演算性能等に大きく左右されるにしても、長くても数時間以内に終了することが十分に考えられる。したがって、処理時間はデジタルDNAチップを用いることで短縮できる可能性が高い。   Virtual hybridization using a digital DNA chip can be considered to be completed within a few hours at the longest, even if it greatly depends on the calculation performance of the nucleic acid information processing apparatus. Therefore, it is highly possible that the processing time can be shortened by using a digital DNA chip.

上記のような類似塩基配列の頻度解析を行い、最終結果として得られる情報は、デジタルDNAチップを用いた解析では、プローブごとにその塩基配列と所定の類似度を持つターゲットフラグメントのクラスターに属するフラグメント数、およびターゲット準備段階で得られたターゲットの全フラグメントの全塩基配列情報である。   The frequency of similar base sequences as described above is analyzed, and the information obtained as a final result is a fragment belonging to a cluster of target fragments having a predetermined similarity to the base sequence for each probe in the analysis using a digital DNA chip. And the total base sequence information of all fragments of the target obtained in the target preparation stage.

図5は、核酸情報処理装置100の機能ブロック図を示す図である。核酸情報処理装置100は、制御部110と、記憶部130と、出力表示部140と、入力受付部150と、通信処理部160と、を備える。制御部110は、入力処理部111と、出力処理部112と、プローブ生成部113と、ターゲットフラグメント生成部114と、ハイブリダイゼーション部115と、完全ハイブリ特定部116と、フラグメント比較部117と、クラスター制御部118と、類似度解析部119と、クラスター分類部120と、を備える。   FIG. 5 is a functional block diagram of the nucleic acid information processing apparatus 100. The nucleic acid information processing device 100 includes a control unit 110, a storage unit 130, an output display unit 140, an input reception unit 150, and a communication processing unit 160. The control unit 110 includes an input processing unit 111, an output processing unit 112, a probe generation unit 113, a target fragment generation unit 114, a hybridization unit 115, a complete hybrid identification unit 116, a fragment comparison unit 117, a cluster A control unit 118, a similarity analysis unit 119, and a cluster classification unit 120 are provided.

入力処理部111は、通信処理部160を介して、図示しないクライアント端末(例えば、Webブラウザを搭載したパーソナルコンピュータ)から送信された入力情報を受け付ける。なお、これに限られず、入力処理部111は、後述する入力装置101を介して入力情報を受け付けるものであってもよい。   The input processing unit 111 receives input information transmitted from a client terminal (not shown) (for example, a personal computer equipped with a Web browser) via the communication processing unit 160. However, the present invention is not limited to this, and the input processing unit 111 may receive input information via the input device 101 described later.

出力処理部112は、通信処理部160を介して、クライアント端末に対して、出力情報を送信する。出力情報は、図1に示したターゲットフラグメント群と、クラスタリング結果と、プローブ群と、プローブ塩基配列仮想配置リストと、仮想ハイブリダイゼーション結果と、比較解析結果等である。なお、出力処理部112は、後述する出力装置106を介して出力情報を出力するものであってもよい。   The output processing unit 112 transmits output information to the client terminal via the communication processing unit 160. The output information includes the target fragment group, clustering result, probe group, probe base sequence virtual arrangement list, virtual hybridization result, comparative analysis result, and the like shown in FIG. The output processing unit 112 may output output information via the output device 106 described later.

プローブ生成部113は、塩基配列データを用いて、デジタルDNAチップに相当するプローブ情報を生成する。具体的には、プローブ生成部113は、既存のデジタルDNAチップの情報や、その他のプローブとして用いる塩基配列データに対して、識別子となるプローブIDを割り当て、当該プローブIDが属するプローブセットIDを割り当て、DNAマイクロアレイ上の位置を特定する情報に相当するブロック位置とブロック上の位置を特定するスポット位置と、を順に割り当てる。そして、プローブ生成部113は、その塩基配列データの鎖長(塩基数)と、塩基配列を特定する情報とを対応付けて、後述するプローブ記憶部132に格納する。なお、プローブ生成部113は、例えば、FASTAやBLAST(Basic Local Alignment Search Tool)等の既存のソフトウェアパッケージで用いられる所定のデータ形式で提供される塩基配列データを、所定のデータ形式に変換を行うものであってもよい。なお、FASTAとは、バイオインフォマティクスで塩基配列クエリあるいはタンパク質のアミノ酸配列クエリを用いて塩基配列データベースあるいはアミノ酸データベースを検索し類似度を判定することが可能なソフトウェアである。当該FASTAでは、塩基配列の情報をプレーンテキストで記録するFASTAフォーマットという記述様式により塩基配列を記述する。本実施形態においては、BLASTとは、バイオインフォマティクスでDNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアライメントを行うためのアルゴリズムをいう。また、一般的な称呼に合わせて、そのアルゴリズムを実装したプログラムもBLASTと呼ぶ。BLASTは、例えば、未知の塩基配列を用いて、ゲノムのシーケンスデータベースに対して検索を行うと、類似度の高いシーケンス群と、その類似度と、一致率と、一致部分の開始位置/終了位置およびターゲット塩基配列上の一致部分の開始位置/終了位置を抽出することができる。   The probe generation unit 113 generates probe information corresponding to the digital DNA chip using the base sequence data. Specifically, the probe generation unit 113 assigns a probe ID serving as an identifier to information on existing digital DNA chips and base sequence data used as other probes, and assigns a probe set ID to which the probe ID belongs. The block position corresponding to the information for specifying the position on the DNA microarray and the spot position for specifying the position on the block are sequentially assigned. And the probe production | generation part 113 matches the chain length (base number) of the base sequence data, and the information which specifies a base sequence, and stores them in the probe memory | storage part 132 mentioned later. The probe generation unit 113 converts base sequence data provided in a predetermined data format used in an existing software package such as FASTA or BLAST (Basic Local Alignment Search Tool) into a predetermined data format. It may be a thing. FASTA is software capable of searching a base sequence database or an amino acid database using bioinformatics using a base sequence query or a protein amino acid sequence query to determine the similarity. In the FASTA, the base sequence is described in a description format called FASTA format in which the base sequence information is recorded in plain text. In the present embodiment, BLAST refers to an algorithm for performing sequence alignment of DNA base sequences or protein amino acid sequences by bioinformatics. In addition, a program that implements the algorithm is also called BLAST in accordance with a general name. For example, when a BLAST searches a genome sequence database using an unknown base sequence, a sequence group with high similarity, its similarity, a match rate, and a start position / end position of a match portion In addition, the start position / end position of the matching portion on the target base sequence can be extracted.

ターゲットフラグメント生成部114は、シークエンサー等により読み取ったターゲットを構成する一連の塩基配列の情報を、当該塩基配列を他の塩基配列から識別するフラグメントIDと対応付けて、後述するターゲットフラグメント記憶部131に格納する。具体的には、シークエンサーから出力される塩基配列データごとに一意の識別番号等を割り当ててターゲットフラグメント記憶部131に格納する。   The target fragment generation unit 114 associates information on a series of base sequences constituting a target read by a sequencer or the like with a fragment ID that identifies the base sequence from other base sequences, and stores the information in the target fragment storage unit 131 described later. Store. Specifically, a unique identification number or the like is assigned to each base sequence data output from the sequencer and stored in the target fragment storage unit 131.

ハイブリダイゼーション部115は、仮想ハイブリダイゼーションを行う。具体的には、ハイブリダイゼーション部115は、ターゲットフラグメント記憶部131に格納されたターゲットフラグメントの塩基配列と、プローブ記憶部132に格納されたプローブの塩基配列と、の類似度が閾値以上となる組み合わせについて特定し、プローブIDごとに類似度が所定の閾値以上となるターゲットフラグメントの数および完全ハイブリ特定部116により特定した完全ハイブリの数を計数する。なお、本実施形態における類似度とは、一般的な概念であり、類似率、アライメント率等により測定される。   The hybridization unit 115 performs virtual hybridization. Specifically, the hybridization unit 115 is a combination in which the similarity between the base sequence of the target fragment stored in the target fragment storage unit 131 and the base sequence of the probe stored in the probe storage unit 132 is equal to or greater than a threshold value. And the number of target fragments whose similarity is equal to or greater than a predetermined threshold for each probe ID and the number of complete hybrids identified by the complete hybrid identification unit 116 are counted. Note that the similarity in this embodiment is a general concept, and is measured by a similarity rate, an alignment rate, or the like.

完全ハイブリ特定部116は、類似度の解析を行った結果にもとづいて、一致部分データを抽出して連結させ、プローブ塩基配列の開始位置から終了位置までの全ての塩基配列と所定以上の値の類似度を持つ塩基配列を特定する。具体的には、完全ハイブリ特定部116は、類似度記憶部133から、プローブ塩基配列との類似率が所定以上となるターゲットフラグメントの塩基配列を含む、部分的に一致するターゲットフラグメントの塩基配列を一致部分データとして抽出し、一致の開始位置および終了位置に基づいて順に連結させ、プローブ塩基配列の終了位置まで連結可能であれば、連結させた一致部分データの配列を完全ハイブリとして特定する。   Based on the result of the similarity analysis, the complete hybrid identification unit 116 extracts and connects the matching portion data, and sets all the base sequences from the start position to the end position of the probe base sequence to a predetermined value or more. A base sequence having a similarity is specified. Specifically, the complete hybrid identification unit 116 receives the base sequence of the partially matching target fragment including the base sequence of the target fragment whose similarity with the probe base sequence is equal to or greater than a predetermined value from the similarity storage unit 133. Extracted as matching part data, sequentially connected based on the start position and end position of matching, and if it is possible to connect to the end position of the probe base sequence, the sequence of the connected matching part data is specified as a complete hybrid.

なお、完全ハイブリ特定部116は、一つの一致部分データとプローブ塩基配列との類似部分が、プローブの塩基配列の全てである場合には、当該一致部分データを完全ハイブリとして特定する。   The complete hybrid identification unit 116 identifies the matched portion data as a complete hybrid when the similar portion between one matched portion data and the probe base sequence is all of the probe base sequence.

また、完全ハイブリ特定部116は、このような処理に限らず、例えばプローブの開始終了端から中央へ向かって部分的に一致する一致部分データを連結させて行き、一致部分データが隙間無く連結される場合には、当該連結された一致部分データの組を完全ハイブリとして特定するようにしてもよい。   In addition, the complete hybrid identification unit 116 is not limited to such a process, and for example, the matching part data that is partially matched from the start / end end of the probe toward the center is connected, and the matching part data is connected without a gap. In this case, the concatenated matched portion data set may be specified as a complete hybrid.

すなわち、完全ハイブリ特定部116は、一つの一致部分データとプローブ塩基配列との類似部分が、プローブの塩基配列の全てである場合、または、プローブの塩基配列に仮想ハイブリしたターゲットフラグメント中の複数の核酸フラグメントの当該プローブの塩基配列との類似部分を隙間なく繋ぎ合わせると当該プローブの塩基配列との類似部分の全体が当該プローブ塩基配列の全てを含む場合、には、当該一致部分データを完全ハイブリとして特定するといえる。   That is, the complete hybrid identification unit 116, when the similar part between one matching part data and the probe base sequence is all of the base sequence of the probe, or a plurality of target fragments virtually hybridized to the base sequence of the probe If the similar parts of the nucleic acid fragment to the base sequence of the probe are joined together without gaps, and if the entire similar part to the base sequence of the probe contains all of the probe base sequence, the matching part data is completely hybridized. It can be said that it is specified as

フラグメント比較部117は、異なる2つのターゲットフラグメントセットの比較を行うターゲット比較処理を行う。例えば、フラグメント比較部117は、同一のプローブセットを用いた仮想ハイブリダイゼーションがなされた異なる2つのターゲットフラグメント群、例えば同一海域で異なる時期に採取された海水から抽出したターゲットフラグメント、についての結果情報について、同一のプローブに対するクラスター・メンバー数の相違を特定し、出力する。   The fragment comparison unit 117 performs target comparison processing for comparing two different target fragment sets. For example, the fragment comparison unit 117 is configured to obtain result information about two different target fragment groups that have undergone virtual hybridization using the same probe set, for example, target fragments extracted from seawater collected at different times in the same sea area. Identify and output the difference in the number of cluster members for the same probe.

クラスター制御部118は、ターゲットフラグメントを所定の数以下のクラスター群に分類するクラスタリング処理を行う。クラスター制御部118は、クラスターに分類する対象となるターゲットフラグメント群内で、ターゲットフラグメント同士の類似度に応じてグルーピングを行い、クラスターを形成する。具体的には、クラスター制御部118は、受け付けたクラスター上限数以下となるまで徐々に類似度の閾値を下げてグループを形成し、上限数以下となった場合にクラスター群への分類を終える。なお、クラスター制御部118は、類似度の閾値を徐々に下げて所定の値(例えば、1.0E+01)に達した場合には、当該値以下には閾値を下げずに固定して、それ以降は代表配列同士の類似度が閾値以上であればクラスターを併合する。   The cluster control unit 118 performs a clustering process for classifying target fragments into a predetermined number or less of cluster groups. The cluster control unit 118 performs grouping according to the degree of similarity between the target fragments within the target fragment group to be classified into clusters to form a cluster. Specifically, the cluster control unit 118 forms a group by gradually lowering the similarity threshold until the number of received clusters is less than or equal to the upper limit number, and ends the classification into cluster groups when the number is less than or equal to the upper limit number. When the cluster control unit 118 gradually decreases the similarity threshold value and reaches a predetermined value (for example, 1.0E + 01), the cluster control unit 118 fixes the threshold value below that value without lowering the threshold value, and thereafter If the similarity between representative sequences is greater than or equal to a threshold, clusters are merged.

類似度解析部119は、2つの塩基配列データの類似度を特定する。具体的には、類似度解析部119は、塩基の相補性に応じて、2つの塩基配列データの類似率、アライメント率、類似部分の開始位置と終了位置を特定する。すなわち、原理的には、片方の塩基配列データの塩基と対応する相補的な塩基が他方の塩基配列データに含まれる場合には、それらの塩基に隣接する塩基についても相補的に対応するか否かを判定する。これを対応しない塩基が出現するまで繰り返し、また、異なる塩基の対についても同様に対応を判定し、対応する部分を類似部分として特定する。なお、類似部分の開始位置と終了位置の距離が長い組合せが、当該塩基配列データの類似するデータとなる。なお、類似度解析部119は、塩基の相補的な対応を判定するだけでなく、塩基の同一性についても判定し、類似度を判定する。つまり、類似度解析部119は、片方の塩基配列データ(例えば、ターゲット)に含まれる一連の塩基配列が、他方の塩基配列データ(例えば、プローブ)に含まれる一連の塩基配列と所定以上の類似度を有する場合に、当該片方の一連の塩基配列を当該他方の塩基配列データとの類似部分とするといえる。この類似度の特定には、既存のBLAST等のアルゴリズムを利用することが考えられる。   The similarity analysis unit 119 identifies the similarity between the two base sequence data. Specifically, the similarity analysis unit 119 specifies the similarity rate, the alignment rate, and the start position and end position of the similar portion of the two base sequence data according to the complementarity of the bases. That is, in principle, when a complementary base corresponding to the base of one base sequence data is included in the other base sequence data, whether or not the base adjacent to those bases also corresponds complementarily. Determine whether. This is repeated until an uncorresponding base appears, and the correspondence between different base pairs is similarly determined, and the corresponding portion is identified as a similar portion. A combination having a long distance between the start position and the end position of the similar portion is data similar to the base sequence data. Note that the similarity analysis unit 119 determines not only the complementary correspondence of bases but also the identity of bases to determine the similarity. That is, the similarity analysis unit 119 determines that a series of base sequences included in one base sequence data (eg, target) is more than a predetermined similarity with a series of base sequences included in the other base sequence data (eg, probe). If it has a degree, it can be said that the series of base sequences on one side is a similar part to the other base sequence data. It is conceivable to use an existing algorithm such as BLAST to specify the similarity.

クラスター分類部120は、ターゲットフラグメントを類似度に応じて複数のクラスターに分類する。具体的には、クラスター分類部120は、ターゲットフラグメントから一つのフラグメントにより代表されるクラスターを一つ設け、その他のフラグメントが当該クラスターの代表フラグメントと所定以上の類似度を備えるか否かを判定し、所定以上の類似度を備える場合には当該クラスターに所属させる。所定以上の類似度を備えない場合には、クラスター分類部120は、他のクラスターがあればそのクラスターの代表フラグメントとの類似度を判定し、所定以上の類似度を備える場合には当該クラスターに所属させる。他のクラスターのいずれとも所定以上の類似度を備えないフラグメントについては、クラスター分類部120は、当該フラグメントを代表フラグメントとする新たなクラスターを設ける。   The cluster classification unit 120 classifies the target fragment into a plurality of clusters according to the similarity. Specifically, the cluster classification unit 120 provides one cluster represented by one fragment from the target fragments, and determines whether other fragments have a predetermined degree of similarity or more with the representative fragment of the cluster. In the case where the degree of similarity is equal to or higher than a predetermined level, the cluster belongs to the cluster. If there is no similarity higher than a predetermined level, the cluster classification unit 120 determines the similarity with the representative fragment of that cluster if there is another cluster, and if it has a higher similarity than the predetermined level, Make them belong. For a fragment that does not have a predetermined degree of similarity with any of the other clusters, the cluster classification unit 120 provides a new cluster with the fragment as a representative fragment.

記憶部130は、ターゲットフラグメント記憶部131と、プローブ記憶部132と、類似度記憶部133と、ハイブリ結果記憶部134と、クラスター記憶部135と、を格納する。また、記憶部130は、核酸情報処理装置100に固定的に設置される記憶装置等であってもよいし、独立したストレージ装置等であってもよい。   The storage unit 130 stores a target fragment storage unit 131, a probe storage unit 132, a similarity storage unit 133, a hybridization result storage unit 134, and a cluster storage unit 135. The storage unit 130 may be a storage device or the like that is fixedly installed in the nucleic acid information processing device 100, or may be an independent storage device or the like.

ターゲットフラグメント記憶部131は、図6に示すように、フラグメントを識別する情報を含むフラグメントID1311と、フラグメントID1311で特定されるフラグメントの塩基配列の情報である塩基配列情報1312と、を含む。   As illustrated in FIG. 6, the target fragment storage unit 131 includes a fragment ID 1311 that includes information for identifying a fragment, and base sequence information 1312 that is information on the base sequence of the fragment specified by the fragment ID 1311.

プローブ記憶部132は、図7に示すように、プローブが属するプローブセット(デジタルDNAチップ)を識別する情報を含むプローブセットID1321と、プローブの塩基配列を識別する情報を含むプローブID1322と、プローブID1322で特定される塩基配列の塩基数である鎖長1323と、プローブIDで特定されるプローブの塩基配列の情報である塩基配列情報1324と、プローブIDで特定されるプローブの塩基配列が、プローブセットID1321で特定されるデジタルDNAチップ上の概略の配置位置を特定するブロック位置1325と、ブロック内の詳細な配置位置を特定するスポット位置1326と、を含む。   As shown in FIG. 7, the probe storage unit 132 includes a probe set ID 1321 including information for identifying a probe set (digital DNA chip) to which the probe belongs, a probe ID 1322 including information for identifying the base sequence of the probe, and a probe ID 1322. The chain length 1323, which is the number of base sequences specified in, the base sequence information 1324, which is information on the base sequence of the probe specified by the probe ID, and the base sequence of the probe specified by the probe ID are the probe set. A block position 1325 for specifying a rough arrangement position on the digital DNA chip specified by the ID 1321 and a spot position 1326 for specifying a detailed arrangement position in the block are included.

類似度記憶部133は、図8に示すように、類似度を解析する対象の一つであるフラグメントの塩基配列を識別する情報を含むフラグメントID1331と、類似度を解析する対象の相手方であるプローブの塩基配列を識別する情報を含むプローブID1332と、フラグメントID1331で識別されるフラグメントの塩基配列と、プローブID1332で識別されるプローブの塩基配列と、の類似率1333と、アライメント率1334と、フラグメントの塩基配列上の類似部分の開始位置であるフラグメント上の開始位置1335と、フラグメントの塩基配列上の類似部分の終了位置であるフラグメント上の終了位置1336と、プローブの塩基配列上の類似部分の開始位置であるプローブ上の開始位置1337と、プローブの塩基配列上の類似部分の終了位置であるプローブ上の終了位置1338と、を含む。   As illustrated in FIG. 8, the similarity storage unit 133 includes a fragment ID 1331 including information for identifying a base sequence of a fragment that is one of the objects whose similarity is analyzed, and a probe that is a partner whose analysis is the similarity Of the probe ID 1332 including information for identifying the base sequence of the fragment, the base sequence of the fragment identified by the fragment ID 1331, the base sequence of the probe identified by the probe ID 1332, the alignment rate 1334, The start position 1335 on the fragment that is the start position of the similar part on the base sequence, the end position 1336 on the fragment that is the end position of the similar part on the base sequence of the fragment, and the start of the similar part on the base sequence of the probe Starting position 1337 on the probe that is the position, and the base sequence of the probe Including the end position 1338 on the probe which is the end position of the similar portions of the upper and.

ハイブリ結果記憶部134は、図9に示すように、仮想ハイブリダイゼーションの結果の情報を格納する記憶部であり、プローブの塩基配列を識別する情報を含むプローブID1341ごとに、類似度が所定の閾値以上であるフラグメントの数で示される頻度1342を対応付けて格納する。   As shown in FIG. 9, the hybridization result storage unit 134 is a storage unit that stores information on the result of virtual hybridization. For each probe ID 1341 that includes information for identifying the base sequence of the probe, the similarity is a predetermined threshold value. The frequency 1342 indicated by the number of fragments as described above is stored in association with each other.

クラスター記憶部135は、図10に示すように、クラスタリング処理により分類されたターゲットフラグメントの群を識別する情報を含むクラスターID1351ごとに、クラスターを代表するフラグメントと識別する情報を含む代表フラグメントID1352と、代表フラグメントの塩基配列の情報である代表フラグメント塩基配列情報1353と、を格納する。また、クラスター記憶部135は、クラスターID1351ごとに、当該クラスターに所属するフラグメントを識別する情報を含むフラグメントID1354と、当該フラグメントの塩基配列の情報である塩基配列情報1355と、を格納する。   As shown in FIG. 10, the cluster storage unit 135 includes, for each cluster ID 1351 including information identifying a group of target fragments classified by the clustering process, a representative fragment ID 1352 including information identifying a fragment representing the cluster, The representative fragment base sequence information 1353, which is information on the base sequence of the representative fragment, is stored. Further, the cluster storage unit 135 stores, for each cluster ID 1351, a fragment ID 1354 including information for identifying a fragment belonging to the cluster, and base sequence information 1355 that is information on the base sequence of the fragment.

出力表示部140は、核酸情報処理装置100のGUIあるいはCUI等の各種情報を出力する。入力受付部150は、GUIあるいはCUIの操作情報の入力を受け付ける。   The output display unit 140 outputs various information such as GUI or CUI of the nucleic acid information processing apparatus 100. The input receiving unit 150 receives input of GUI or CUI operation information.

通信処理部160は、図示しないネットワーク等を介して他の機器に接続し、接続した他の機器から送信された情報の受信を行い、接続した他の機器に対して情報の送信を行う。   The communication processing unit 160 connects to another device via a network (not shown), receives information transmitted from the other connected device, and transmits information to the other connected device.

図11は、本実施形態における核酸情報処理装置100のハードウェア構成を示す図である。   FIG. 11 is a diagram illustrating a hardware configuration of the nucleic acid information processing device 100 according to the present embodiment.

本実施形態においては、核酸情報処理装置100は、例えば、専用のハードウェア装置である。しかし、これに限られず、汎用性の高いPC(パーソナルコンピュータ)や、ワークステーション、サーバ装置、各種携帯電話端末、PDA(Personal Digital Assistant)などの計算機であってもよい。   In the present embodiment, the nucleic acid information processing device 100 is, for example, a dedicated hardware device. However, the present invention is not limited to this, and a computer such as a highly versatile PC (personal computer), a workstation, a server device, various mobile phone terminals, or a PDA (Personal Digital Assistant) may be used.

核酸情報処理装置100は、入力装置101と、外部記憶装置102と、演算装置103と、主記憶装置104と、通信装置105と、出力装置106と、それぞれの装置を互いに接続するバス107と、を有する。   The nucleic acid information processing device 100 includes an input device 101, an external storage device 102, an arithmetic device 103, a main storage device 104, a communication device 105, an output device 106, and a bus 107 that connects the devices to each other. Have

入力装置101は、例えばキーボードやマウス、あるいはタッチペン、その他ポインティングデバイスなどの入力を受け付ける装置である。   The input device 101 is a device that receives input from, for example, a keyboard, mouse, touch pen, or other pointing device.

外部記憶装置102は、例えばハードディスク装置やフラッシュメモリなどの不揮発性記憶装置である。   The external storage device 102 is a nonvolatile storage device such as a hard disk device or a flash memory.

演算装置103は、例えばCPU(Central Processing Unit)などの演算装置である。   The arithmetic device 103 is an arithmetic device such as a CPU (Central Processing Unit).

主記憶装置104は、例えばRAM(Random Access Memory)などのメモリ装置である。   The main storage device 104 is a memory device such as a RAM (Random Access Memory).

通信装置105は、アンテナを介して無線通信を行う無線通信装置、又はネットワークケーブルを介して有線通信を行う有線の通信装置である。   The communication device 105 is a wireless communication device that performs wireless communication via an antenna, or a wired communication device that performs wired communication via a network cable.

出力装置106は、例えばディスプレイなどの、表示を行う装置である。   The output device 106 is a device that performs display, such as a display.

核酸情報処理装置100の記憶部130は、主記憶装置104または外部記憶装置102により実現される。   The storage unit 130 of the nucleic acid information processing device 100 is realized by the main storage device 104 or the external storage device 102.

また、核酸情報処理装置100の入力処理部111と、出力処理部112と、プローブ生成部113と、ターゲットフラグメント生成部114と、ハイブリダイゼーション部115と、完全ハイブリ特定部116と、フラグメント比較部117と、クラスター制御部118と、類似度解析部119と、クラスター分類部120とは、核酸情報処理装置100の演算装置103に処理を行わせるプログラムによって実現される。   In addition, the input processing unit 111, the output processing unit 112, the probe generation unit 113, the target fragment generation unit 114, the hybridization unit 115, the complete hybrid identification unit 116, and the fragment comparison unit 117 of the nucleic acid information processing apparatus 100. The cluster control unit 118, the similarity analysis unit 119, and the cluster classification unit 120 are realized by a program that causes the arithmetic device 103 of the nucleic acid information processing device 100 to perform processing.

このプログラムは、主記憶装置104または外部記憶装置102内に記憶され、実行にあたって主記憶装置104上にロードされ、演算装置103により実行される。   This program is stored in the main storage device 104 or the external storage device 102, loaded onto the main storage device 104 for execution, and executed by the arithmetic device 103.

また、核酸情報処理装置100の出力表示部140は、核酸情報処理装置100の出力装置106によって実現される。   Further, the output display unit 140 of the nucleic acid information processing device 100 is realized by the output device 106 of the nucleic acid information processing device 100.

また、核酸情報処理装置100の入力受付部150は、核酸情報処理装置100の入力装置101によって実現される。   Further, the input receiving unit 150 of the nucleic acid information processing device 100 is realized by the input device 101 of the nucleic acid information processing device 100.

また、核酸情報処理装置100の通信部160は、核酸情報処理装置100の通信装置105によって実現される。   The communication unit 160 of the nucleic acid information processing device 100 is realized by the communication device 105 of the nucleic acid information processing device 100.

以上が、核酸情報処理装置100のハードウェア構成である。なお、核酸情報処理装置100のハードウェア構成および処理部等の構成は、上記の例に限られず、例えば代替可能な異なる部品等による異なる構成を備えるものであってもよい。   The above is the hardware configuration of the nucleic acid information processing apparatus 100. Note that the hardware configuration and the configuration of the processing unit and the like of the nucleic acid information processing apparatus 100 are not limited to the above examples, and may include different configurations such as different parts that can be replaced.

例えば、核酸情報処理装置100の入力処理部111と、出力処理部112と、プローブ生成部113と、ターゲットフラグメント生成部114と、ハイブリダイゼーション部115と、完全ハイブリ特定部116と、フラグメント比較部117と、クラスター制御部118と、類似度解析部119と、クラスター分類部120とは、核酸情報処理装置100の構成を理解容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。核酸情報処理装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。   For example, the input processing unit 111, the output processing unit 112, the probe generation unit 113, the target fragment generation unit 114, the hybridization unit 115, the complete hybrid identification unit 116, and the fragment comparison unit 117 of the nucleic acid information processing apparatus 100. The cluster control unit 118, the similarity analysis unit 119, and the cluster classification unit 120 are classified according to the main processing contents in order to facilitate understanding of the configuration of the nucleic acid information processing apparatus 100. Therefore, the present invention is not limited by the way of classifying the components and their names. The configuration of the nucleic acid information processing device 100 can be classified into more components depending on the processing content. Moreover, it can also classify | categorize so that one component may perform more processes.

また、核酸情報処理装置100の各機能部は、ハードウェア(ASIC、GPUなど)により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。   Further, each functional unit of the nucleic acid information processing device 100 may be constructed by hardware (ASIC, GPU, etc.). Further, the processing of each functional unit may be executed by one hardware or may be executed by a plurality of hardware.

[動作の説明]次に、本実施形態における核酸情報処理装置100が実施するクラスタリング処理のフローについて、図12、13に基づき説明する。図12および図13は、クラスタリング処理を示すフロー図である。なお、クラスタリング処理は、図示しないPC等のクライアント端末から、Webブラウザ等を介したクラスタリング処理の実行依頼を、ネットワークを介して受け付けると、開始される。   [Description of Operation] Next, the flow of clustering processing performed by the nucleic acid information processing apparatus 100 according to this embodiment will be described with reference to FIGS. 12 and 13 are flowcharts showing the clustering process. The clustering process is started when a clustering process execution request via a Web browser or the like is received from a client terminal such as a PC (not shown) via the network.

まず、クラスター制御部118は、クラスターの設定値(類似度閾値とクラスター上限数)の入力画面を構成する。そして、出力処理部112は、実行依頼の要求元へ構成した画面を送信する(ステップS001)。具体的には、クラスター制御部118は、類似度閾値としてE−valueおよび配列長、およびクラスター上限数の入力画面を構成し、出力処理部112は、実行依頼の要求元へ構成した画面を送信する。   First, the cluster control unit 118 configures an input screen for cluster setting values (similarity threshold value and cluster upper limit number). Then, the output processing unit 112 transmits the configured screen to the request source of the execution request (step S001). Specifically, the cluster control unit 118 configures an input screen for E-value, array length, and the upper limit number of clusters as the similarity threshold, and the output processing unit 112 transmits the configured screen to the requester of the execution request. To do.

入力処理部111は、類似度閾値と、クラスター上限数と、についての入力を受け付ける(ステップS002)。具体的には、入力処理部111は、クライアント端末のWebブラウザからパラメーターとして送信されたE−valueおよび配列長、およびクラスター上限数を受け付ける。   The input processing unit 111 accepts input regarding the similarity threshold and the upper limit number of clusters (step S002). Specifically, the input processing unit 111 receives the E-value and the array length, and the upper limit number of clusters transmitted as parameters from the Web browser of the client terminal.

クラスター制御部118は、入力処理部111等で指定を受け付けたクラスタリングの対象となるターゲットフラグメントの塩基配列データ全てを、BLASTソフトウェアにて取り扱い可能な形式のデータへ変換する(ステップS003)。具体的には、クラスター制御部118は、入力処理部111等で指定を受け付けたクラスタリングの対象となるターゲットフラグメントの塩基配列データ(例えば、FASTAソフトウェアにて処理可能な形式)の全てを、BLASTソフトウェアにて処理可能な形式のデータへ変換する。   The cluster control unit 118 converts all of the base sequence data of the target fragment to be clustered that has been designated by the input processing unit 111 or the like into data that can be handled by the BLAST software (step S003). Specifically, the cluster control unit 118 converts all of the base sequence data (for example, a format that can be processed by the FASTA software) of the target fragment to be clustered that has been designated by the input processing unit 111 or the like into the BLAST software. Convert to data in a format that can be processed with.

そして、クラスター分類部120は、クラスターに所属しないターゲットフラグメントを選択する(ステップS004)。具体的には、クラスター分類部120は、FASTAソフトウェアにて処理可能なデータ形式のターゲットフラグメント群から、いずれのクラスターにも所属せず、クラスターの分類処理を受けていないターゲットフラグメントを一つ選択する。   Then, the cluster classification unit 120 selects a target fragment that does not belong to the cluster (step S004). Specifically, the cluster classification unit 120 selects one target fragment that does not belong to any cluster and has not been subjected to cluster classification processing from a target fragment group in a data format that can be processed by the FASTA software. .

次に、クラスター分類部120は、未選択の既存のクラスターがあるか否か判定する(ステップS005)。具体的には、クラスター分類部120は、クラスタリング処理により形成された既存のクラスターのうち、未選択のクラスターが残っているか否かを判定する。   Next, the cluster classification unit 120 determines whether there is an unselected existing cluster (step S005). Specifically, the cluster classification unit 120 determines whether or not an unselected cluster remains among the existing clusters formed by the clustering process.

未選択の既存のクラスターがある場合(ステップS005にて「Yes」の場合)には、クラスター分類部120は、当該未選択の既存のクラスターを特定して、そのクラスターの代表配列を選択状態にする(ステップS006)。   When there is an unselected existing cluster (in the case of “Yes” in step S005), the cluster classification unit 120 identifies the unselected existing cluster and sets the representative sequence of the cluster to the selected state. (Step S006).

そして、類似度解析部119は、選択状態にした代表配列と、選択したターゲットフラグメントとの類似度を特定する(ステップS007)。具体的には、類似度解析部119は、BLASTソフトウェアと同様に、両配列の類似度(類似率、アライメント率、ターゲットフラグメント上の類似部分の開始位置と終了位置およびプローブ塩基配列上の類似部分の開始位置と終了位置)を特定し、類似度記憶部133に格納する。なお、当該処理において、類似度解析部119は、ステップS002にて受け付けた類似度閾値を用いて類似度を特定する。   Then, the similarity analysis unit 119 identifies the similarity between the selected representative sequence and the selected target fragment (step S007). Specifically, similar to the BLAST software, the similarity analysis unit 119 performs similarity between both sequences (similarity, alignment rate, start and end positions of similar parts on the target fragment, and similar parts on the probe base sequence). Are specified and stored in the similarity storage unit 133. In this process, the similarity analysis unit 119 specifies the similarity using the similarity threshold received in step S002.

そして、クラスター分類部120は、特定した類似度は類似度閾値以上であったか否かを判定する(ステップS008)。具体的には、クラスター分類部120は、ステップS007で特定した、選択状態にした代表配列と選択したターゲットフラグメントとの類似度が、ステップS002で受け付けた類似度閾値以上であるか否かを判定する。   Then, the cluster classification unit 120 determines whether or not the identified similarity is equal to or greater than a similarity threshold (step S008). Specifically, the cluster classification unit 120 determines whether or not the similarity between the representative sequence selected in step S007 and the selected target fragment is equal to or higher than the similarity threshold received in step S002. To do.

類似度閾値以上でない場合(ステップS008で「No」の場合)には、クラスター分類部120は、他のクラスターの代表フラグメントとの類似度を特定するために、制御をステップS005に戻す。   If it is not equal to or higher than the similarity threshold value (in the case of “No” in step S008), the cluster classification unit 120 returns control to step S005 in order to specify the similarity with the representative fragment of another cluster.

類似度閾値以上である場合(ステップS008で「Yes」の場合)には、クラスター分類部120は、ターゲットフラグメントおよびその同属クラスター内のフラグメントを選択した代表配列が属するクラスターに所属させる(ステップS009)。より具体的には、クラスター分類部120は、類似度を比較したターゲットフラグメントが所属していたクラスターがある場合には、当該クラスターに所属するフラグメントの全てとともに、ターゲットフラグメントを、類似度を比較した代表配列に代表される既存クラスターに所属させる。その際、所属先が変わったターゲットフラグメントについては、クラスター分類部120は、当該ターゲットフラグメントが属していたクラスターから、当該ターゲットフラグメントを削除する。   If the threshold is equal to or greater than the similarity threshold (“Yes” in step S008), the cluster classification unit 120 causes the target fragment and fragments in the cluster belonging to the target fragment to belong to the cluster to which the selected representative sequence belongs (step S009). . More specifically, when there is a cluster to which the target fragment to which the degree of similarity is compared belongs, the cluster classification unit 120 compares the degree of similarity of the target fragment with all of the fragments belonging to the cluster. Be assigned to an existing cluster represented by a representative sequence. At that time, for the target fragment whose affiliation has changed, the cluster classification unit 120 deletes the target fragment from the cluster to which the target fragment belongs.

そして、クラスター分類部120は、クラスター記憶部135にクラスター情報を格納する(ステップS010)。具体的には、クラスター分類部120は、ステップS009で所属させたフラグメントのすべてについて、クラスター記憶部135のフラグメントID1354および塩基配列情報1355に情報を格納する。なお、新たに所属させたフラグメントがない場合には、クラスター分類部120は、クラスター記憶部135に情報を格納する必要がないため、特に処理を行わない。   Then, the cluster classification unit 120 stores the cluster information in the cluster storage unit 135 (step S010). Specifically, the cluster classification unit 120 stores information in the fragment ID 1354 and the base sequence information 1355 of the cluster storage unit 135 for all of the fragments that belonged in step S009. Note that when there is no newly assigned fragment, the cluster classification unit 120 does not need to store information in the cluster storage unit 135, and thus does not perform any particular processing.

そして、クラスター分類部120は、未所属のターゲットフラグメントが残っているか否かを判定する(ステップS011)。具体的には、クラスター分類部120は、ターゲットフラグメント群に、いずれのクラスターにも所属していないターゲットフラグメントが残っているか否かを判定する。   Then, the cluster classification unit 120 determines whether or not unassigned target fragments remain (step S011). Specifically, the cluster classification unit 120 determines whether target fragments that do not belong to any cluster remain in the target fragment group.

未所属のターゲットフラグメントが残っている場合(ステップS011にて「Yes」の場合)には、クラスター分類部120は、ステップS004へ制御を戻す。   When the unaffiliated target fragment remains (“Yes” in step S011), the cluster classification unit 120 returns the control to step S004.

未所属のターゲットフラグメントが残っていない場合(ステップS011にて「No」の場合)には、クラスター制御部118は、後述するステップS013へ処理を進める。   If no unaffiliated target fragment remains (in the case of “No” in step S011), the cluster control unit 118 advances the process to step S013 described later.

上述したステップS005の判定において、未選択の既存のクラスターがない場合(ステップS005にて「No」の場合)には、クラスター分類部120は、ターゲットフラグメントを代表配列とするクラスターを新設する(ステップS012)。具体的には、クラスター分類部120は、ターゲットフラグメントについて代表フラグメント1352および代表フラグメント塩基配列情報1353に情報を格納する。   In the above-described determination in step S005, when there is no unselected existing cluster (in the case of “No” in step S005), the cluster classification unit 120 newly establishes a cluster having the target fragment as a representative sequence (step S012). Specifically, the cluster classification unit 120 stores information about the target fragment in the representative fragment 1352 and the representative fragment base sequence information 1353.

そして、クラスター制御部118は、クラスター数がクラスター上限数よりも多いか否かを判定する(ステップS013)。具体的には、クラスター制御部118は、クラスター記憶部135に格納されているクラスターID1351の数を計数し、ステップS002で入力を受け付けたクラスター上限数と比較する。クラスター数がクラスター上限数以下である場合(ステップS013にて「No」の場合)には、クラスター制御部118は、クラスタリング処理を終了させる。   Then, the cluster control unit 118 determines whether or not the number of clusters is greater than the upper limit number of clusters (step S013). Specifically, the cluster control unit 118 counts the number of cluster IDs 1351 stored in the cluster storage unit 135, and compares the number with the cluster upper limit number received in step S002. When the number of clusters is equal to or less than the upper limit number of clusters (in the case of “No” in step S013), the cluster control unit 118 ends the clustering process.

クラスター数がクラスター上限数よりも多い場合(ステップS013にて「Yes」の場合)、クラスター制御部118は、各クラスターの代表配列を集めてターゲットフラグメントを作成する(ステップS014)。   When the number of clusters is larger than the upper limit number of clusters (in the case of “Yes” in step S013), the cluster control unit 118 collects representative sequences of each cluster and creates a target fragment (step S014).

そして、クラスター制御部118は、類似度の閾値であるE−Valueを1.0E+10倍に設定して(ステップS015)、制御をステップS003に戻す。このようにすることで、類似度を緩めてクラスター代表配列同士の類似度を判定し、クラスターを上限数以下に抑えるために統合することができる。なお、E−Valueを1.0E+10倍に設定すると、E−Valueが予め定めた値である1.0E+01を超える場合には、クラスター制御部118は、E−Valueを1.0E+01に設定し、制御をステップS003に戻す。   Then, the cluster control unit 118 sets E-Value, which is a similarity threshold, to 1.0E + 10 times (step S015), and returns the control to step S003. By doing so, the similarity can be relaxed to determine the similarity between the cluster representative sequences, and the clusters can be integrated to keep the number below the upper limit. When E-Value is set to 1.0E + 10 times, when E-Value exceeds 1.0E + 01 which is a predetermined value, the cluster control unit 118 sets E-Value to 1.0E + 01, Control is returned to step S003.

以上が、クラスタリング処理のフローである。クラスタリング処理によると、核酸情報処理装置100は、指定された類似度閾値およびクラスター上限数に基づいてターゲットフラグメントをクラスタリングすることができる。つまり、ターゲットの類似度が所定以上となるようにターゲットを区分することができるといえる。本実施形態のクラスタリング処理により得られるクラスターは、代表配列同士のホモロジー間隔が一定以上離れる。この場合において、多種の生物体等が含まれるターゲットを対象としてクラスターに区分すると、大数の法則により、ホモロジー間隔がほぼ一定となるクラスター群が得られるといえる。これは、構成される塩基配列等が未知の生物体等を含むターゲットを対象として、塩基配列の構成の経時変化の傾向をつかむための実験等を行う場合等、類似度が一定のプローブを作成したい場合等に有効である。   The above is the flow of the clustering process. According to the clustering process, the nucleic acid information processing device 100 can cluster target fragments based on the specified similarity threshold and the upper limit number of clusters. That is, it can be said that the targets can be classified so that the degree of similarity of the targets is not less than a predetermined value. In the cluster obtained by the clustering process of the present embodiment, the homology interval between representative sequences is more than a certain distance. In this case, it can be said that when a target including various organisms is classified into clusters, a cluster group in which the homology interval is almost constant can be obtained according to the law of large numbers. This is a probe with a certain degree of similarity, such as when conducting experiments to grasp the tendency of the base sequence composition to change over time, targeting targets that include organisms with unknown base sequences. It is effective when you want to.

次に、本実施形態における核酸情報処理装置100が実施する仮想ハイブリダイゼーション処理のフローについて、図14に基づき説明する。図14は、仮想ハイブリダイゼーション処理を示すフロー図である。なお、仮想ハイブリダイゼーション処理は、図示しないPC等のクライアント端末から、Webブラウザ等を介した仮想ハイブリダイゼーション処理の実行依頼を、ネットワークを介して受け付けると、開始される。   Next, the flow of the virtual hybridization process performed by the nucleic acid information processing apparatus 100 according to this embodiment will be described with reference to FIG. FIG. 14 is a flowchart showing the virtual hybridization process. The virtual hybridization process is started when a virtual hybridization process execution request via a Web browser or the like is received from a client terminal such as a PC (not shown) via the network.

まず、プローブ生成部113は、既存のデジタルDNAチップ情報をプローブ配列としてBLASTデータへ変換する(ステップS101)。具体的には、プローブ生成部113は、既存のデジタルDNAチップの情報や、その他のプローブとして用いる塩基配列データに対して、識別子となるプローブIDを割り当て、当該プローブIDが属するプローブセットIDを割り当て、DNAマイクロアレイ上の位置を特定する情報に相当するブロック位置とブロック上の位置を特定するスポット位置と、を割り当てる。そして、プローブ生成部113は、その塩基配列データの鎖長(塩基数)と、塩基配列を特定する情報とを対応付けて、後述するプローブ記憶部132に格納する。そして、プローブ生成部113は、既存のデジタルDNAチップの情報や、その他のプローブとして用いる塩基配列データを、BLASTソフトウェアパッケージで用いられる所定のデータ形式に変換する。   First, the probe generation unit 113 converts existing digital DNA chip information into a BLAST data as a probe sequence (step S101). Specifically, the probe generation unit 113 assigns a probe ID serving as an identifier to information on existing digital DNA chips and base sequence data used as other probes, and assigns a probe set ID to which the probe ID belongs. The block position corresponding to the information for specifying the position on the DNA microarray and the spot position for specifying the position on the block are assigned. And the probe production | generation part 113 matches the chain length (base number) of the base sequence data, and the information which specifies a base sequence, and stores them in the probe memory | storage part 132 mentioned later. Then, the probe generation unit 113 converts existing digital DNA chip information and base sequence data used as other probes into a predetermined data format used in the BLAST software package.

そして、入力処理部111は、類似度閾値(E−Valueおよび配列長)の入力を受け付ける(ステップS102)。具体的には、出力処理部112が所定の類似度閾値の入力画面をクライアント端末に送信して表示させ、入力された類似度閾値の値を入力処理部111が受け付ける。   And the input process part 111 receives the input of a similarity threshold value (E-Value and arrangement | sequence length) (step S102). Specifically, the output processing unit 112 transmits and displays an input screen of a predetermined similarity threshold value to the client terminal, and the input processing unit 111 accepts the input similarity threshold value.

そして、ハイブリダイゼーション部115は、予めターゲットフラグメント生成部114がターゲットフラグメント記憶部131に格納した情報に基づいて、フラグメント配列ごとにプローブ配列(例えば、クラスターごとの代表配列)との類似度を解析する(ステップS103)。具体的には、ハイブリダイゼーション部115が、ターゲットフラグメントの塩基配列とプローブの塩基配列とのすべての組み合わせを対象として、類似度解析部119に処理を委譲して類似度およびターゲットフラグメントの塩基配列上およびプローブの塩基配列上の類似部分の開始位置および終了位置をそれぞれ特定する。   Then, the hybridization unit 115 analyzes the degree of similarity with the probe sequence (for example, the representative sequence for each cluster) for each fragment sequence based on the information previously stored in the target fragment storage unit 131 by the target fragment generation unit 114. (Step S103). Specifically, the hybridization unit 115 delegates the processing to the similarity analysis unit 119 for all combinations of the target fragment base sequence and the probe base sequence, and uses the similarity and the target fragment base sequence. And the start position and end position of the similar part on the probe base sequence are specified, respectively.

そして、ハイブリダイゼーション部115は、類似度を解析した結果を、類似度記憶部133に格納する(ステップS104)。   Then, the hybridization unit 115 stores the result of analyzing the similarity in the similarity storage unit 133 (step S104).

ハイブリダイゼーション部115は、類似度解析結果から、類似度閾値以上の類似度を持つフラグメント数をプローブごとに計数し、ハイブリ結果記憶部134に格納する(ステップS105)。   The hybridization unit 115 counts, for each probe, the number of fragments having a similarity equal to or higher than the similarity threshold from the similarity analysis result, and stores it in the hybridization result storage unit 134 (step S105).

以上が、仮想ハイブリダイゼーション処理のフローである。仮想ハイブリダイゼーション処理によると、核酸情報処理装置100は、指定された類似度閾値以上の類似度を備えるターゲットフラグメントの数を、プローブ塩基配列ごとに計数することができる。すなわち、プローブ塩基配列がクラスターの代表配列である場合には、ターゲット内に含まれる塩基配列について、クラスターごとの頻度を特定することができるといえる。また、仮想ハイブリダイゼーション処理により、核酸情報処理装置100は、全てのターゲットとプローブの組み合わせについて類似の度合いとその部位を特定することができる。なお、上記処理のステップS105において、ハイブリダイゼーション部115は、後述する完全ハイブリ特定処理により完全ハイブリであると判定された一連の塩基配列をプローブごとに計数し、ハイブリ結果記憶部134に格納するようにしてもよい。これにより、フラグメントがプローブ配列よりも細片化している場合であっても、適切な頻度を得ることができるといえる。   The above is the flow of the virtual hybridization process. According to the virtual hybridization process, the nucleic acid information processing device 100 can count the number of target fragments having a similarity equal to or higher than a specified similarity threshold for each probe base sequence. That is, when the probe base sequence is a representative sequence of clusters, it can be said that the frequency for each cluster can be specified for the base sequence contained in the target. Moreover, the nucleic acid information processing apparatus 100 can specify the degree of similarity and its part for all combinations of targets and probes by the virtual hybridization process. In step S105 of the above process, the hybridization unit 115 counts a series of base sequences determined to be complete hybrids by the complete hybrid identification process described later for each probe, and stores them in the hybridization result storage unit 134. It may be. Thereby, it can be said that an appropriate frequency can be obtained even when the fragment is more fragmented than the probe sequence.

次に、本実施形態における核酸情報処理装置100が実施する完全ハイブリ特定処理のフローについて、図15に基づき説明する。図15は、完全ハイブリ特定処理を示すフロー図である。なお、完全ハイブリ特定処理は、仮想ハイブリダイゼーション処理の結果を用いて処理を実施するため、仮想ハイブリダイゼーション処理に続けて開始される。または、図示しないPC等のクライアント端末から、Webブラウザ等を介した完全ハイブリ特定処理の実行依頼を、ネットワークを介して受け付けると、開始される。   Next, the flow of complete hybrid identification processing performed by the nucleic acid information processing device 100 according to this embodiment will be described with reference to FIG. FIG. 15 is a flowchart showing the complete hybrid identification process. The complete hybrid identification process is performed after the virtual hybridization process because the process is performed using the result of the virtual hybridization process. Alternatively, it is started when a request for execution of the complete hybrid identification process via a Web browser or the like is received via a network from a client terminal such as a PC (not shown).

まず、完全ハイブリ特定部116は、類似度記憶部133から、一致部分データを抽出する(ステップS201)。一致部分データには、完全一致部分データが含まれる。なお、本実施形態において、一致部分データとは、ターゲットフラグメントのうち、プローブ配列との類似度が所定以上の値を示す類似部分(すなわちプローブ配列と所定の類似性を示す類似部分)を有するターゲットフラグメントの塩基配列データである。また、完全一致部分データとは、ターゲットフラグメントのうち、プローブ配列との類似度が完全一致を示す類似部分のみを備えるターゲットフラグメントの塩基配列データである。   First, the complete hybrid identification unit 116 extracts matched portion data from the similarity storage unit 133 (step S201). The matched portion data includes completely matched portion data. In the present embodiment, the matched portion data is a target having a similar portion in which the degree of similarity with the probe sequence is a predetermined value or higher among the target fragments (that is, a similar portion showing a predetermined similarity with the probe sequence). This is base sequence data of a fragment. The completely matched portion data is base sequence data of a target fragment that includes only a similar portion that shows a perfect match with the probe sequence among the target fragments.

完全ハイブリ特定部116は、抽出した一致部分データのうち、プローブ上の開始位置の昇順に未処理の一件を抽出し、クエリとする(ステップS202)。具体的には、完全ハイブリ特定部116は、ステップS201で抽出した一致部分データを、プローブ上の開始位置1337の昇順にソートし、ソートされた先頭の一致部分データと類似部分の開始位置がプローブ上の開始位置1337と同一の一致部分データのうち未処理の一件を対象にクエリとして抽出を試みる。なお、その際、完全ハイブリ特定部116は、さらに、一致部分データの類似部分の終了位置(すなわち、フラグメント上の終了位置1336)が、一致部分データの終了位置(すなわち、フラグメントの最後尾の位置)と一致するターゲットフラグメントのみ(すなわち、完全一致部分データを含む)を抽出する対象とする。   The complete hybrid identification unit 116 extracts one unprocessed item from the extracted matched portion data in ascending order of the start position on the probe and sets it as a query (step S202). Specifically, the complete hybrid identification unit 116 sorts the matching portion data extracted in step S201 in ascending order of the starting position 1337 on the probe, and the sorted starting matching portion data and the start position of the similar portion are probed. An attempt is made to extract an unprocessed one of the matching partial data identical to the start position 1337 above as a query. At this time, the complete hybrid identification unit 116 further determines that the end position of the similar portion of the matching portion data (that is, the end position 1336 on the fragment) is the end position of the matching portion data (that is, the last position of the fragment). ) Only target fragments (that is, including completely matched partial data) are extracted.

完全ハイブリ特定部116は、クエリが抽出できたか否かを判定する(ステップS203)。抽出できなかった場合(ステップS203にて「No」である場合)には、完全ハイブリ特定部116は、完全ハイブリ特定処理を終了させる。   The complete hybrid identification unit 116 determines whether or not the query has been extracted (step S203). If extraction is not possible (if “No” in step S203), the complete hybrid identification unit 116 ends the complete hybrid identification process.

クエリが抽出できた場合(ステップS203にて「Yes」の場合)には、完全ハイブリ特定部116は、当該クエリの塩基配列の類似部分の終了位置(フラグメント上の終了位置1336)が、一致したプローブの終了位置(プローブ上の終了位置1338)であるか否かを判定する(ステップS204)。   When the query can be extracted (in the case of “Yes” in step S203), the complete hybrid identification unit 116 matches the end position (end position 1336 on the fragment) of the similar part of the base sequence of the query. It is determined whether or not it is the probe end position (end position 1338 on the probe) (step S204).

プローブの終了位置である場合(ステップS204にて「Yes」の場合)には、完全ハイブリ特定部116は、探索した一連のクエリを完全ハイブリとして記憶部130の所定の領域に格納する(ステップS205)。そして、完全ハイブリ特定部116は、制御をステップS202に戻す。   If it is the probe end position (“Yes” in step S204), the complete hybrid identification unit 116 stores the searched series of queries as a complete hybrid in a predetermined area of the storage unit 130 (step S205). ). Then, the complete hybrid identification unit 116 returns the control to step S202.

プローブの終了位置でない場合(ステップS204にて「No」の場合)には、完全ハイブリ特定部116は、クエリの一致部分データの類似部分の終了位置(すなわち、フラグメント上の開始位置1336)が、一致部分データの終了位置(すなわち、フラグメントの最後尾の位置)であるか否かを判定し(ステップS206)、一致部分データの終了位置ではない場合には、ステップS206により探索した一致部分データとは別の一致部分データをクエリとして選びなおし(ステップS207)、制御をステップS204に戻す。一致部分データの終了位置である場合には、完全ハイブリ特定部116は、クエリの終了位置の次の位置を開始位置とする一致部分データを探索する(ステップS208)。なお、その際、完全ハイブリ特定部116は、さらに、一致部分データの類似部分の開始位置(すなわち、フラグメント上の開始位置1335)が、一致部分データの開始位置(すなわち、フラグメントの先頭の位置)であるターゲットフラグメントのみ(すなわち、完全一致部分データを含む)を抽出する対象とする。   If it is not the end position of the probe (in the case of “No” in step S204), the complete hybrid identification unit 116 determines that the end position of the similar part of the matched part data of the query (that is, the start position 1336 on the fragment) It is determined whether or not it is the end position of the matching partial data (that is, the last position of the fragment) (step S206). If it is not the end position of the matching partial data, the matching partial data searched in step S206 and Reselects another matching portion data as a query (step S207), and returns control to step S204. If it is the end position of the matching part data, the complete hybrid identification unit 116 searches for the matching part data starting from the position next to the end position of the query (step S208). At this time, the complete hybrid identification unit 116 further determines that the start position of the similar portion of the matched portion data (that is, the start position 1335 on the fragment) is the start position of the matched portion data (that is, the start position of the fragment). Only target fragments (that is, including completely matched partial data) are extracted.

そして、完全ハイブリ特定部116は、探索の結果ヒットした一致部分データがあるか否かを判定する(ステップS209)。ヒットした一致部分データが無い場合(ステップS209にて「No」の場合)には、完全ハイブリ特定部116は、制御をステップS202に戻す。   Then, the complete hybrid identification unit 116 determines whether there is matching partial data hit as a result of the search (step S209). If there is no matching part data hit (in the case of “No” in step S209), the complete hybrid identification unit 116 returns the control to step S202.

ヒットした一致部分データがある場合(ステップS209にて「Yes」の場合)には、完全ハイブリ特定部116は、ヒットした一致部分データをクエリとして一件抽出する(ステップS210)。そして、完全ハイブリ特定部116は、制御をステップS204に戻す。   When there is a hit matching part data (“Yes” in step S209), the complete hybrid identification unit 116 extracts one hit matching part data as a query (step S210). Then, the complete hybrid identification unit 116 returns the control to step S204.

以上が、完全ハイブリ特定処理のフローである。完全ハイブリ特定処理によると、核酸情報処理装置100は、一致部分データ(類似部分がフラグメント長全域にわたる完全一致部分フラグメントを含む)を1つまたは複数組み合わせると、プローブの開始位置から終了位置までの全ての塩基配列に対して所定以上の値の類似度を有する塩基配列を特定することができる。すなわち、ターゲットフラグメントの塩基鎖長が短くても、仮想ハイブリダイゼーションの精度を一定程度維持することができる。また、完全ハイブリ特定処理では、上記に限らず、例えばプローブ上の類似部分の一部について重複する類似部分を有するターゲットフラグメント同士を複数組み合わせるとプローブと完全に一致する塩基配列を完全ハイブリとして特定するようにしてもよい。このようにすることで、類似部分の一部が重複する(つまり、オーバーラップ部分のある)複数のターゲットフラグメントによる完全ハイブリを許容することができる。   The above is the flow of the complete hybrid identification process. According to the complete hybrid identification process, the nucleic acid information processing apparatus 100 combines all or one of a plurality of pieces of coincidence portion data (similar portion includes a completely coincident portion fragment covering the entire fragment length) from the start position to the end position of the probe. A base sequence having a degree of similarity greater than or equal to a predetermined value can be identified. That is, even if the base fragment length of the target fragment is short, the accuracy of virtual hybridization can be maintained to a certain degree. In addition, the complete hybrid identification process is not limited to the above. For example, when a plurality of target fragments having similar portions overlapping with respect to a portion of similar portions on the probe are combined, a base sequence that completely matches the probe is identified as a complete hybrid. You may do it. By doing so, it is possible to allow complete hybridization by a plurality of target fragments in which a part of similar parts overlap (that is, there are overlapping parts).

この点について、図26を用いて説明する。図26は、本実施形態における仮想ハイブリダイゼーション処理におけるターゲットの計数方法を示す図である。   This point will be described with reference to FIG. FIG. 26 is a diagram showing a target counting method in the virtual hybridization process in the present embodiment.

本実施形態においては、ターゲットの計数方法として3種類を想定している。一つ目は、上記したように、ターゲットフラグメント単位での計数方法501である。これは、ハイブリダイゼーションしたターゲットフラグメント単位に計数する方法、すなわち類似部分を含むターゲットフラグメントの数を単純に計数する方法である。二つ目は、上記したように、直線連結単位での計数方法502である。これは、ターゲットフラグメントの類似部分が隙間無く連結される複数のターゲットフラグメントの組の数を計数する方法である。例えば、3つのターゲットフラグメントの類似部分を隙間無く連結すると、プローブと類似する場合には、当該3つのターゲットフラグメントの組を計数する方法である。三つ目は、上記したように、連結単位での計数方法503である。これは、複数のターゲットフラグメントの類似部分の一部同士を連結される複数のターゲットフラグメントの組の数を計数する方法である。これは、直線連結単位での計数方法502とは異なり、ターゲットフラグメントの連結の際に、類似部分が一部オーバーラップする組であっても計数する方法である。すなわち、直線連結単位での計数方法502について、多少の誤差を許容する計数方法といえる。   In this embodiment, three types of target counting methods are assumed. The first is the counting method 501 in units of target fragments as described above. This is a method of counting in units of hybridized target fragments, that is, a method of simply counting the number of target fragments containing similar parts. The second is the counting method 502 in the linear connection unit as described above. This is a method of counting the number of sets of a plurality of target fragments in which similar parts of target fragments are connected without gaps. For example, if similar parts of three target fragments are connected without a gap, and if they are similar to a probe, a set of the three target fragments is counted. The third is the counting method 503 in the unit of connection as described above. This is a method of counting the number of sets of a plurality of target fragments in which a part of similar parts of a plurality of target fragments are linked together. This is different from the counting method 502 in the unit of linear connection, and is a method of counting even a pair in which similar parts partially overlap when connecting target fragments. That is, it can be said that the counting method 502 in the unit of linear connection is a counting method that allows some errors.

次に、本実施形態における核酸情報処理装置100が実施するターゲット比較処理のフローについて、図16に基づき説明する。図16は、ターゲット比較処理を示すフロー図である。なお、ターゲット比較処理は、仮想ハイブリダイゼーション処理の結果を用いて処理を実施するため、仮想ハイブリダイゼーション処理に続けて開始される。または、図示しないPC等のクライアント端末から、Webブラウザ等を介した完全ハイブリ特定処理の実行依頼を、ネットワークを介して受け付けると、開始される。   Next, a flow of target comparison processing performed by the nucleic acid information processing device 100 according to the present embodiment will be described with reference to FIG. FIG. 16 is a flowchart showing target comparison processing. The target comparison process is started after the virtual hybridization process because the process is performed using the result of the virtual hybridization process. Alternatively, it is started when a request for execution of the complete hybrid identification process via a Web browser or the like is received via a network from a client terminal such as a PC (not shown).

まず、入力処理部111は、同一プローブセットを用いた2つの仮想ハイブリダイゼーション結果の指定を受け付ける(ステップS301)。具体的には、入力処理部111は、同一プローブセットを用いた2つの仮想ハイブリダイゼーション結果、すなわち同一のプローブ群に対して仮想ハイブリダイゼーションを施した異なるターゲットフラグメント群のハイブリ結果記憶部134の指定を受け付ける。   First, the input processing unit 111 accepts designation of two virtual hybridization results using the same probe set (step S301). Specifically, the input processing unit 111 designates two hybrid hybridization results using the same probe set, that is, the designation of the hybridization result storage unit 134 of different target fragment groups obtained by performing virtual hybridization on the same probe group. Accept.

フラグメント比較部117は、受け付けた仮想ハイブリダイゼーション結果情報を抽出する(ステップS302)。具体的には、フラグメント比較部117は、受け付けた2つのハイブリ結果記憶部134の情報をそれぞれ読み出す。   The fragment comparison unit 117 extracts the received virtual hybridization result information (step S302). Specifically, the fragment comparison unit 117 reads the received information from the two hybridization result storage units 134.

そして、フラグメント比較部117は、同一プローブごとに、仮想ハイブリダイゼーション結果の差分を特定する(ステップS303)。具体的には、フラグメント比較部117は、共通のプローブについて、クラスター・メンバー数を各々特定し、一方から他方を減算して差を求める。   Then, the fragment comparison unit 117 identifies the difference in the virtual hybridization result for each identical probe (step S303). Specifically, the fragment comparison unit 117 specifies the number of cluster members for each common probe and subtracts the other from one to obtain the difference.

フラグメント比較部117は、同一プローブごとに、仮想ハイブリダイゼーション結果の比を特定する(ステップS304)。具体的には、フラグメント比較部117は、共通のプローブについて、クラスター・メンバー数を各々特定し、一方の他方に対する比を求める。   The fragment comparison unit 117 specifies the ratio of the virtual hybridization results for each identical probe (step S304). Specifically, the fragment comparison unit 117 specifies the number of cluster members for each common probe, and obtains the ratio of one to the other.

出力処理部112は、同一プローブごとに、仮想ハイブリダイゼーション結果の差分と比を出力する(ステップS305)。具体的には、出力処理部112は、共通のプローブについて、ステップS304およびステップS305で求めたクラスター・メンバー数の差と、比と、を出力する。   The output processing unit 112 outputs the difference and ratio of the virtual hybridization result for each identical probe (step S305). Specifically, the output processing unit 112 outputs the difference and the ratio of the number of cluster members obtained in step S304 and step S305 for the common probe.

また、出力処理部112は、同一プローブごとに、仮想ハイブリダイゼーション結果について、比の順に整列させて出力する(ステップS306)。具体的には、出力処理部112は、共通のプローブについて、クラスター・メンバー数の比の降順に整列させて、出力する。なお、当然ながら、出力処理部112は、クラスター・メンバー数の比の昇順に整列させて、出力するようにしてもよい。   Further, the output processing unit 112 outputs the virtual hybridization results arranged in the order of the ratio for each probe (step S306). Specifically, the output processing unit 112 outputs common probes arranged in descending order of the ratio of the number of cluster members. Of course, the output processing unit 112 may output the data by arranging them in ascending order of the ratio of the number of cluster members.

以上が、ターゲット比較処理のフローである。ターゲット比較処理によると、2つのターゲット間の成分の比較を容易に行うことができる。なお、ターゲット比較処理においては、仮想ハイブリダイゼーションの結果同士、またはインポートしたDNAチップ実験データ同士、あるいは仮想ハイブリダイゼーションの結果とDNAチップ実験データとの組み合わせのいずれの組み合わせでも、複数の類似塩基配列の頻度解析結果を比較することができる。なお、上記のとおり、仮想ハイブリダイゼーション処理による結果は、プローブ毎のフラグメント数という数値データで情報を得るものであり、DNAチップ実験データによる結果は、蛍光色素の蛍光強度の相対値を得るものであるため、両者を単純に比較することは難しい。そのため、ターゲット比較処理において、フラグメント比較部117は、仮想ハイブリダイゼーションの結果については、フラグメントの全体数に対するプローブ毎の計数値の割合を求め、DNAチップ実験データによる結果については、チップ全体の蛍光強度に対するプローブ毎の蛍光強度の割合を求めて、両者を比較するようにしてもよい。   The above is the flow of the target comparison process. According to the target comparison process, it is possible to easily compare components between two targets. In the target comparison process, a plurality of similar base sequences may be used in any combination of virtual hybridization results, imported DNA chip experimental data, or a combination of virtual hybridization results and DNA chip experimental data. The frequency analysis results can be compared. As described above, the result of the virtual hybridization process is information obtained by numerical data such as the number of fragments for each probe, and the result of the DNA chip experiment data is a result of obtaining a relative value of the fluorescence intensity of the fluorescent dye. Because of this, it is difficult to simply compare the two. Therefore, in the target comparison process, the fragment comparison unit 117 calculates the ratio of the count value for each probe with respect to the total number of fragments for the virtual hybridization result, and the result of the DNA chip experiment data indicates the fluorescence intensity of the entire chip. Alternatively, the ratio of the fluorescence intensity for each probe may be obtained and compared.

以上、本願発明に係る第一の実施形態について説明した。本願発明に係る第一の実施形態によると、プローブ塩基配列とターゲット塩基配列とを仮想的にハイブリダイズすることができる。また、ターゲット塩基配列からクラスタリング処理によりクラスターを構成し、クラスターに基づいてプローブ塩基配列を作成することもできる。また、同一のプローブに対するハイブリダイゼーションの結果同士を比較して、その差を示すことができる。例えば、同一海域で異なる時期に採取された海水から抽出したターゲットフラグメントについて、同一のプローブに対するクラスター・メンバー数の変化を出力することができる。これは、同一海域に含まれる核酸塩基配列の構成の経時変化を顕著に示すことができるため、例えば特定の成分の変化の統計をとり、所定の異常(赤潮等)発生の兆候等を予測することに活用可能と考えられる。   The first embodiment according to the present invention has been described above. According to the first embodiment of the present invention, the probe base sequence and the target base sequence can be virtually hybridized. In addition, a cluster can be formed from the target base sequence by clustering, and a probe base sequence can be created based on the cluster. In addition, the results of hybridization to the same probe can be compared to show the difference. For example, for target fragments extracted from seawater collected at different times in the same sea area, changes in the number of cluster members for the same probe can be output. This can show changes over time in the structure of nucleic acid base sequences contained in the same sea area, so for example, statistics of changes in specific components are taken to predict signs of occurrence of a predetermined abnormality (red tide, etc.) In particular, it can be used.

本願発明に係る第一の実施形態によると、解析対象の全ての核酸の塩基配列を決定し、これを用いて該材料に含まれる核酸塩基配列の種類と頻度の解析をすべてコンピュータ上での情報解析として行うことで、DNAマイクロアレイを用いた実験による類似塩基配列の頻度解析を行った場合と異なり、次なる解析時に再度ターゲットフラグメントの塩基配列情報を得る必要はなくなる。   According to the first embodiment of the present invention, the base sequences of all nucleic acids to be analyzed are determined, and the analysis of the types and frequencies of the nucleic acid base sequences contained in the material is all performed on the computer. By performing the analysis, it is not necessary to obtain the base sequence information of the target fragment again at the time of the next analysis, unlike the case where the frequency analysis of similar base sequences is performed by an experiment using a DNA microarray.

また、塩基配列決定の過程で実験誤差が生じる可能性は残るが、決定された塩基配列情報にもとづく類似塩基配列の頻度解析は誤差がないため、仮想ハイブリダイゼーションにより得られる類似塩基配列の頻度解析により得られる結果は、同一のプローブ塩基配列のリストとターゲットフラグメントの塩基配列のセットとの組合せを用いる限り、100%の再現性を持つ精度の高いデータが得られる。   In addition, there is a possibility that an experimental error will occur in the process of determining the base sequence, but since there is no error in the frequency analysis of similar base sequences based on the determined base sequence information, the frequency analysis of similar base sequences obtained by virtual hybridization As long as a combination of the same list of probe base sequences and a set of base sequences of target fragments is used, highly accurate data with 100% reproducibility can be obtained.

また、DNAマイクロアレイを用いた実験による類似塩基配列の頻度解析においては、プローブDNAのGC含有率や配列特性は個々に異なるため、実際のハイブリダイゼーションにおける類似度の程度は同一マイクロアレイ内でもプローブ毎に異なっており、その違いを補正することは非常に困難である。しかし、仮想ハイブリダイゼーションをすべてコンピュータ上で情報解析のみで行うことにより、上記のように、プローブ塩基配列とターゲットの核酸フラグメントの塩基配列との類似度の程度を、プローブ塩基配列全体に対するターゲットフラグメントの塩基配列の一致率及び/またはプローブ塩基配列に対するターゲットフラグメントの塩基配列の一致塩基配列の長さを任意の確定した数値で規定することが出来る。   In addition, in the frequency analysis of similar base sequences by experiments using DNA microarrays, the GC content rate and sequence characteristics of probe DNA differ individually, so the degree of similarity in actual hybridization is different for each probe even within the same microarray. It is different and it is very difficult to correct the difference. However, by performing all of the virtual hybridization only by information analysis on a computer, as described above, the degree of similarity between the probe base sequence and the base sequence of the target nucleic acid fragment can be determined using the target fragment relative to the entire probe base sequence. The coincidence rate of the base sequence and / or the length of the coincident base sequence of the base sequence of the target fragment with respect to the probe base sequence can be defined by any fixed numerical value.

また、単数または複数のターゲットに含まれる核酸フラグメントの繋ぎ合わせによって、プローブ塩基配列の全体に渡って所定以上の類似度を持つ結果が得られたときのみ完全な仮想的ハイブリダイゼーションが得られたとして陽性とし、その頻度を解析することで、プローブ塩基配列に対する類似度の程度を高めて解析することができる。   In addition, complete hypothetical hybridization is obtained only when a result having a similarity of a predetermined level or more over the entire probe base sequence is obtained by joining nucleic acid fragments contained in one or more targets. By analyzing the frequency as positive and analyzing the frequency, the degree of similarity to the probe base sequence can be increased and analyzed.

このうち、特に、プローブ塩基配列の全体に渡って類似度を持つような複数のターゲットに含まれる核酸フラグメントの繋ぎ合わせが可能かどうかという解析は、情報処理量が多く複雑なため、従来は実験として行えなかったが、これを容易に行うことができる。例えば特定の遺伝子や領域の全体に渡って一定以上の類似度をもつようなターゲットに含まれる核酸の種類や頻度の解析を行う場合に、このような解析手法は非常に有効である。   Of these, the analysis of whether or not nucleic acid fragments contained in multiple targets that have similarities across the entire probe base sequence can be joined is a complex process, so it has been an experiment in the past. However, this can be easily done. For example, such an analysis technique is very effective when analyzing the type and frequency of a nucleic acid contained in a target having a certain degree of similarity over a specific gene or region.

また、DNAマイクロアレイを用いた実験ではターゲットフラグメントの塩基配列は不明であるが、デジタルDNAチップによる解析では準備作業の段階で全ターゲットフラグメントの全塩基配列を決定するため、ターゲットに含まれる核酸フラグメントの塩基配列のリストの中から任意の条件でプローブ塩基配列のリストを何度でも作成することができる。したがって、それらを用いれば、常に100%の再現性を持つ新たなプローブ配列のリストに対する仮想ハイブリダイゼーションを何度でも行うことができる。このことは、DNAマイクロアレイを用いた実験では実験毎にターゲットの核酸を消費するため、新たなプローブ塩基配列を持つDNAマイクロアレイを用いる実験を行える回数に制限があることに対して、非常に大きな利点である。   In addition, the base sequence of the target fragment is unknown in experiments using a DNA microarray, but in the analysis using a digital DNA chip, the entire base sequence of all target fragments is determined at the stage of preparation work. A list of probe base sequences can be created any number of times from a list of base sequences under arbitrary conditions. Therefore, if they are used, virtual hybridization can be performed any number of times for a list of new probe sequences that are always 100% reproducible. This is because the experiment using a DNA microarray consumes a target nucleic acid for each experiment, so there is a limit to the number of times that an experiment using a DNA microarray having a new probe base sequence can be performed. It is.

また、基準とする核酸フラグメントに対する所定以上の類似度の有無を1フラグメントずつ順番に解析してクラスタリングを行い、所定以上の類似度がある場合にはクラスターを特定するため、ターゲットに含まれる全ての核酸フラグメントの塩基配列同士の所定以上の類似度の有無を総当りで判定するよりも、クラスタリングのために類似度の有無を判定する作業の回数をはるかに減らすことが出来るため、クラスタリングに要する時間を短くし、クラスタリングに要するコンピュータ容量を小さくすることが出来る。   In addition, clustering is performed by sequentially analyzing the presence or absence of a predetermined degree of similarity to the reference nucleic acid fragment one fragment at a time. The time required for clustering can be greatly reduced because the number of operations for determining the presence or absence of similarity for clustering can be greatly reduced rather than determining the presence or absence of similarity between nucleic acid fragment base sequences beyond a predetermined value. The computer capacity required for clustering can be reduced.

また、クラスターの分類を行う場合、クラスター数の上限の数は、ターゲットに含まれるフラグメント数を最大値として任意に決めることが出来る。この上限値の決め方により、クラスターの大きさを加減することが出来る。この結果、たとえばメタゲノム解析にこのクラスター分類方法を用いる際に、クラスター数の上限を決めて分類を行うことにより、クラスターの分類レベルを、種の分類程度に相当する大きさのクラスター、属の分類程度に相当する大きさのクラスター、科の分類程度に相当する大きさのクラスターなどのように加減することが可能となり、解析対象の分類結果の概要がわかりやすくなる。   Further, when classifying clusters, the upper limit of the number of clusters can be arbitrarily determined with the number of fragments included in the target as the maximum value. The size of the cluster can be adjusted depending on how the upper limit is determined. As a result, for example, when this cluster classification method is used for metagenomic analysis, classification is performed by determining the upper limit of the number of clusters, so that the classification level of the cluster is the size of the cluster corresponding to the classification of the species, the classification of the genus It is possible to adjust the size of the cluster corresponding to the degree of the class, the size of the cluster corresponding to the degree of the classification of the family, and the like, and the summary of the classification result of the analysis target becomes easy to understand.

また、ターゲットに含まれる核酸フラグメントの塩基配列のリストの中から任意の条件でプローブ塩基配列のリストを作成すれば、容量の小さなコンピュータで、迅速に、新たなプローブ塩基配列のリストが作成できる。   Further, if a list of probe base sequences is created from a list of base sequences of nucleic acid fragments included in the target under arbitrary conditions, a new list of probe base sequences can be quickly created with a computer having a small capacity.

また、上記したように、同一のプローブ塩基配列のリストを用いて複数のターゲットに含まれる核酸の種類と頻度をそれぞれ仮想ハイブリダイゼーションにより解析し、該複数ターゲット間でプローブ毎のクラスター・メンバー数を比較し、ターゲット間でクラスター・メンバー数の異なるクラスターを抽出すれば、仮想ハイブリダイゼーションによる解析全ての情報がターゲット間の核酸の種類と頻度の違いを再現性100%で解析することが出来る。これは、DNAマイクロアレイを用いた実験による解析では、ハイブリダイゼーションの結果もそれに由来する複数ターゲット間の比較データも再現性を100%にすることはできないという欠点を補うことになる。   In addition, as described above, the types and frequencies of nucleic acids contained in a plurality of targets are analyzed by virtual hybridization using the same list of probe base sequences, and the number of cluster members for each probe is determined between the plurality of targets. By comparing and extracting clusters with different numbers of clusters and members between targets, all the information analyzed by virtual hybridization can be analyzed with 100% reproducibility for differences in the types and frequencies of nucleic acids between targets. This compensates for the drawback that the reproducibility of the result of the hybridization and the comparison data between a plurality of targets derived therefrom cannot be made 100% in the analysis by the experiment using the DNA microarray.

また、仮想ハイブリダイゼーションにより複数ターゲットに含まれる核酸の種類と頻度を比較解析する手法を、時系列的に採取されたターゲットの解析に用いれば、100%の再現性をもってプローブごとのクラスター・メンバー数の変化を捉えることができるため、そのような変化の現状把握や今後の動向予測の精度を、DNAマイクロアレイによる解析よりも高めることができる。   In addition, if a method for comparing and analyzing the types and frequencies of nucleic acids contained in multiple targets by virtual hybridization is used for analyzing targets collected in time series, the number of cluster members per probe with 100% reproducibility. Therefore, the accuracy of grasping the current state of such changes and predicting future trends can be improved as compared with the analysis by the DNA microarray.

また、デジタルDNAチップを用いた解析は、個々の生物個体、部位、組織、細胞のいずれかまたはそれらの組合せの解析にも用いることが出来る。さらに、デジタルDNAチップのは、ターゲットに含まれる全ての核酸フラグメントの塩基配列のリストをすべてのターゲットについて作成してあるため、統合が容易である。そのため、複数の細胞の解析結果を統合して新たに組織や部位としての解析をし直すことなど、解析結果の統合により新たなステップでのデジタルDNAチップ解析を行うことが可能である。   The analysis using the digital DNA chip can also be used for analysis of individual organisms, parts, tissues, cells, or combinations thereof. Furthermore, the digital DNA chip is easy to integrate because a list of base sequences of all nucleic acid fragments contained in the target is prepared for all targets. Therefore, it is possible to perform a digital DNA chip analysis at a new step by integrating the analysis results, such as integrating analysis results of a plurality of cells and re-analyzing as a tissue or site.

また、デジタルDNAチップによる解析結果同士の比較は、複数の生物個体、部位、組織、細胞及びそれらの混合物のいずれの解析にも用いることが出来る。この場合にも、比較解析の結果は再現性が100%である。   Moreover, the comparison of the analysis results by the digital DNA chip can be used for any analysis of a plurality of living organisms, sites, tissues, cells, and mixtures thereof. Also in this case, the result of the comparative analysis is 100% reproducibility.

また、デジタルDNAチップの解析結果同士の比較は、複数の生物個体、部位、組織、細胞及びそれらの混合物を含む生物材料を含んだ液体、固体または気体のいずれの解析にも用いることが出来る。例えば特定海域の海水中に棲息する微生物集団の構造解析やその変化の解析などが、これにあてはまる。この場合にも、比較解析の結果は再現性が100%である。   The comparison between the analysis results of the digital DNA chip can be used for any analysis of liquid, solid, or gas containing a biological material including a plurality of living organisms, sites, tissues, cells, and mixtures thereof. For example, structural analysis of microbial populations living in seawater in a specific sea area and analysis of changes thereof apply. Also in this case, the result of the comparative analysis is 100% reproducibility.

以上、本発明の実施の形態について、実施の形態に基づき具体的に説明したが、これに限定されるものではなく、その要旨を逸脱しない範囲で種々の変更が可能である。   As mentioned above, although embodiment of this invention was described concretely based on embodiment, it is not limited to this, A various change is possible in the range which does not deviate from the summary.

例えば、上記実施形態においては、類似度解析処理をBLASTソフトウェア等の既存技術により実施するものとしているが、これに限られない。例えば、類似度解析を行うことができる他のアルゴリズムを用いて類似度の解析を実施するようにしてもよい。そのようにすることで、より柔軟な解析を行うことができる。また、上記実施形態においては、類似度の解析結果や仮想ハイブリダイゼーション処理の結果は主にデータベース等に格納されるが、クラスタリング処理や仮想ハイブリダイゼーション処理の進度に応じて、逐次画面上に経過や結果を表示するようにしてもよい。そのようにすることで、処理の進度を目視できるようになり、処理の終了までに必要な時間の予測等が行いやすくなる。   For example, in the above-described embodiment, the similarity analysis process is performed by an existing technique such as BLAST software, but the present invention is not limited to this. For example, the similarity analysis may be performed using another algorithm capable of performing the similarity analysis. By doing so, more flexible analysis can be performed. In the above embodiment, the analysis result of the similarity and the result of the virtual hybridization process are mainly stored in a database or the like. The result may be displayed. By doing so, it becomes possible to visually check the progress of the process, and it becomes easy to predict the time required until the end of the process.

また例えば、上記実施形態においては、核酸情報処理装置100は、専用のハードウェアを有する装置であるが、これに限られず、例えば遺伝子情報を読み取るシークエンサーに実装されるものであってもよい。このようにすることで、ハードウェア装備を簡便化することができる。   Further, for example, in the above-described embodiment, the nucleic acid information processing apparatus 100 is an apparatus having dedicated hardware, but is not limited thereto, and may be implemented in, for example, a sequencer that reads genetic information. By doing in this way, hardware equipment can be simplified.

なお、上記実施形態における核酸情報処理装置100は、装置として取引対象とするだけでなく、機器の動作を実現するプログラム部品単位で取引対象とすることも可能である。   In addition, the nucleic acid information processing apparatus 100 in the above-described embodiment is not only a transaction target as a device, but can also be a transaction target in units of program parts that realize the operation of the device.

以下に、本発明にかかる実施例について具体的に説明する。ただし、本発明はこの実施例に限定されるものではない。   Below, the Example concerning this invention is described concretely. However, the present invention is not limited to this embodiment.

本実施例では、海水中の微生物DNAの塩基配列をDNAシークエンサーにより決定し、その情報を用いてクラスタリングによりプローブ塩基配列のリストを作成し、DNAシークエンサーにより決定した海水中の微生物DNAの全ての塩基配列とこのプローブ塩基配列のリストとの仮想ハイブリダイゼーションを行って解析した。さらに、2組の海水中の微生物DNAのターゲットフラグメント群をそれぞれ「Y022L08_C10000_chip」と名づけたデジタルDNAチップに仮想ハイブリダイゼーションさせた結果の比較も行った。   In this example, the base sequence of microbial DNA in seawater is determined by a DNA sequencer, a list of probe base sequences is created by clustering using the information, and all bases of microbial DNA in seawater determined by the DNA sequencer are used. Analysis was performed by performing virtual hybridization between the sequence and the list of probe base sequences. In addition, comparison was made of the results of virtual hybridization of two sets of target fragments of microbial DNA in seawater to digital DNA chips each named “Y022L08_C10000_chip”.

まず、特定海域の海水中に存在する微生物すべてのDNAの塩基配列からターゲット塩基配列のデータを得る作業を行った。横浜市金沢区福浦付近の海岸で採取し、ガラス繊維濾紙(Whatman社製、結合剤フリー、ポアサイズ0.7μm)で濾過した約21リットルの海水から、Water DNA Isolation Kit(MO BIO Laboratories社製、UltraClean with 0.22μm Water Filterキット)を用いて、20μgのゲノムDNAを抽出した。   First, work was performed to obtain target base sequence data from the base sequences of the DNA of all microorganisms present in seawater in a specific sea area. Water DNA Isolation Kit (manufactured by MO BIO Laboratories, Inc.) from about 21 liters of seawater collected at the coast near Fukuura, Kanazawa-ku, Yokohama and filtered with glass fiber filter paper (manufactured by Whatman, binder-free, pore size 0.7 μm) 20 μg of genomic DNA was extracted using an UltraClean with 0.22 μm Water Filter kit).

このゲノムDNA溶液を、マイクロコンYM−100(ミリポア社製)を用いて約3倍に濃縮し、Ribonuclease (DNase free) Solution(ニッポンジーン社製)を用いて、最終濃度10μg/mlにて室温で1時間、RNA消化を行った。   This genomic DNA solution is concentrated about 3 times using Microcon YM-100 (Millipore), and Ribonuclease (DNase free) Solution (Nippon Gene) at a final concentration of 10 μg / ml at room temperature. RNA digestion was performed for 1 hour.

次に、Phenol/Chloroform/Isoamyl alcohol (25:24:1、ニッポンジーン社製)をゲノムDNA溶液に等量加えて室温で5分間ゆっくり混合後、微量高速遠心機にて20,400gで20℃、5分間遠心して溶液層を分離し、水層溶液を回収する操作を2回行った。この水層溶液にクロロホルム(和光純薬工業社製、試薬特級)を等量加え室温で5分間ゆっくり混合した後、微量高速遠心機にて20,400gで20℃、5分間遠心して溶液層を分離し、水層溶液を回収する操作を2回行った。   Next, Phenol / Chloroform / Isoamyl alcohol (25: 24: 1, manufactured by Nippon Gene) was added to the genomic DNA solution in an equal amount and slowly mixed at room temperature for 5 minutes. The solution layer was separated by centrifuging for 5 minutes, and the operation of recovering the aqueous layer solution was performed twice. An equal amount of chloroform (special grade reagent manufactured by Wako Pure Chemical Industries, Ltd.) was added to this aqueous layer solution, and after slowly mixing at room temperature for 5 minutes, the solution layer was centrifuged at 20,400 g at 20 ° C. for 5 minutes in a micro high speed centrifuge. The operation of separating and recovering the aqueous layer solution was performed twice.

この水層溶液に3M Sodium Acetate(ニッポンジーン社製)を最終濃度0.2Mとなるように加え混合し、更にエタノール(和光純薬工業社製、試薬特級、99.5%)を水層溶液の2倍量を加えて、−20℃で2時間エタノール沈殿を行った。これを微量高速遠心機にて20,400gで4℃、20分間遠心してゲノムDNAを回収し、エタノール(和光純薬工業社製、試薬特級、99.5%)をニッポンジーン社製Distilled Water(Deionized, Sterile)で最終濃度70%に希釈した溶液500μlで洗浄し、乾燥させた。   To this aqueous layer solution, 3M Sodium Acetate (Nippon Gene) was added and mixed to a final concentration of 0.2M, and ethanol (Wako Pure Chemical Industries, reagent special grade, 99.5%) was further added to the aqueous layer solution. Two times the amount was added and ethanol precipitation was performed at −20 ° C. for 2 hours. This was centrifuged at 20,400 g at 4 ° C. for 20 minutes in a micro high-speed centrifuge to recover genomic DNA, and ethanol (made by Wako Pure Chemical Industries, reagent special grade, 99.5%) was used as a distributed water (Deionized) manufactured by Nippon Gene. , Sterile) with 500 μl of a solution diluted to a final concentration of 70% and dried.

得られたゲノムDNAをTE(ニッポンジーン社製、pH8.0) 100μlに溶解し、5μgのゲノムDNAを得た。このうち500ngを用い、ロシュ・ダイアグノスティックス株式会社のシークエンサーGS FLXチタニウム用のマニュアルに従って塩基配列決定用ターゲットを準備し、GS FLXチタニウムを用いて、このターゲットに含まれる全てのDNAフラグメントの塩基配列を決定した。塩基配列はシークエンサーのサンプル解析全面を2区画に区切って、それぞれに得られた結果を1.GAC.454Reads.fnaおよび2.GAC.454Reads.fnaと名付けた。これらを合わせたものがGS FLXチタニウムを用いた一回分の最大限のシークエンス結果である。   The obtained genomic DNA was dissolved in 100 μl of TE (Nippon Gene, pH 8.0) to obtain 5 μg of genomic DNA. Of these, 500 ng was used, and a target for base sequence determination was prepared according to the manual for the sequencer GS FLX Titanium of Roche Diagnostics, and the bases of all DNA fragments contained in this target were prepared using GS FLX Titanium. The sequence was determined. The base sequence was divided into two sections for the entire sampler analysis of the sequencer. GAC. 454Reads. fna and 2. GAC. 454Reads. It was named fna. The combination of these is the maximum sequence result for one batch using GS FLX titanium.

この結果、ロシュ・ダイアグノスティックス株式会社の推奨する塩基配列の品質を満たす塩基配列として、1.GAC.454Reads.fnaで、661,821フラグメント分293,720,669塩基の塩基配列データ、および2.GAC.454Reads.fnaで、619,241フラグメント分261,548,803塩基の塩基配列データ、合わせて総フラグメント数1,281,062個、総塩基数555,269,472塩基分の塩基配列が得られた。   As a result, as a base sequence satisfying the quality of the base sequence recommended by Roche Diagnostics Co., Ltd. GAC. 454Reads. 1. fna, base sequence data of 293,720,669 bases for 661,821 fragments; GAC. 454Reads. In fna, base sequence data of 261,548,803 bases for 619,241 fragments and a base sequence of 1,281,062 total fragments and 555,269,472 bases in total were obtained.

このデータを、デジタルDNAチップを用いた核酸情報処理装置100で解析するため、核酸情報処理装置100にインポートし、まず仮想ハイブリダイゼーションのためのプローブ塩基配列のリストを作成するために、全データのうちから1フラグメントの塩基数データが100塩基以上のデータのみを用いて、BLAST方式でクラスタリング処理を行い、プローブ生成処理を行った。この方法でプローブ塩基配列のセットを作成することができるのは、ターゲットに含まれる全ての核酸の塩基配列データが存在するためであり、これがデジタルDNAチップによる解析方法の大きな利点である。   In order to analyze this data with the nucleic acid information processing apparatus 100 using a digital DNA chip, the data is imported into the nucleic acid information processing apparatus 100, and in order to create a list of probe base sequences for virtual hybridization, Using only the data with 100 or more bases in one fragment, clustering processing was performed by the BLAST method, and probe generation processing was performed. The set of probe base sequences can be created by this method because base sequence data of all nucleic acids contained in the target exists, which is a great advantage of the analysis method using a digital DNA chip.

クラスタリングの途中経過のアウトプットを、図17〜図20に例示した。まず、1.GAC.454Reads.fnaおよび2.GAC.454Reads.fnaを合わせて551,980,508塩基・1,235,592フラグメント分の塩基配列を、クラスター数10,000個を目標にクラスタリングして、図17に示す表200の結果を得た。   The output in the middle of clustering is illustrated in FIGS. First, 1. GAC. 454Reads. fna and 2. GAC. 454Reads. The base sequences of 551, 980, 508 bases, 1,235, 592 fragments in combination with fna were clustered with the goal of 10,000 clusters, and the results in Table 200 shown in FIG. 17 were obtained.

表200は、ターゲットフラグメント群201、項目202、データ203の表示大項目を備え、核酸フラグメント数211、総塩基数212、核酸フラグメント鎖長最短213、核酸フラグメント鎖長最長214、核酸フラグメント鎖長平均215、クラスタリング条件としての手法216、ターゲットクラスター数217、反復クラスタリング回数218、類似度の閾値とクラスター数の推移219〜221、クラスター・ファイル名222、クラスター数223、代表配列鎖長最短224、代表配列鎖長最長225、代表配列鎖長平均226、等が表示されるよう構成されている。各表示項目は、クラスター制御部118が所定の値を取得し、出力処理部112にて表示させる。   The table 200 includes display target items of the target fragment group 201, item 202, and data 203. The number of nucleic acid fragments 211, the total number of bases 212, the shortest nucleic acid fragment chain length 213, the longest nucleic acid fragment chain length 214, the average nucleic acid fragment chain length 215, method 216 as a clustering condition, target cluster number 217, iterative clustering number 218, transition of similarity threshold and number of clusters 219 to 221, cluster file name 222, cluster number 223, representative sequence chain length minimum 224, representative The maximum sequence chain length 225, the average representative sequence chain length 226, etc. are displayed. For each display item, the cluster control unit 118 acquires a predetermined value and causes the output processing unit 112 to display it.

本実施例においては、E−valueの閾値をまず1.0E−30に設定してBLAST方式でクラスタリングを行い、得られたクラスター数は482,014であった。そこで、E−valueの閾値を1.0E−20にあげて、クラスター代表配列のクラスタリングを行った。その結果得られたクラスター数は445,858であった。これは、目標上限の10,000よりも多いため、その後、E−valueの閾値を、1.0E−10、1.0E+00、さらに、1.0E+01まで下げてクラスタリングを繰り返した。しかし、得られたクラスター数は、29,463であり、目標の上限以下とはならなかった。そこでさらに、E−valueの値を1.0E+01に固定して、得られたクラスターが10,000以下になるまで、クラスタリングを繰り返した。のべ6回のクラスタリングにより、クラスター数8,224を得て、このクラスタリング結果のクラスターセットを「Y022L08_C10000」と名付けた。   In this example, the E-value threshold was first set to 1.0E-30 and clustering was performed using the BLAST method. The number of clusters obtained was 482,014. Thus, cluster representative sequences were clustered by raising the threshold of E-value to 1.0E-20. As a result, the number of clusters obtained was 445,858. Since this is higher than the target upper limit of 10,000, clustering was repeated after lowering the E-value threshold to 1.0E-10, 1.0E + 00, and further 1.0E + 01. However, the number of clusters obtained was 29,463, which was not less than the target upper limit. Therefore, the value of E-value was fixed to 1.0E + 01, and clustering was repeated until the obtained cluster was 10,000 or less. A total of 8,224 clusters were obtained by clustering a total of 6 times, and the cluster set of the clustering result was named “Y022L08_C10000”.

このクラスターセットに含まれるクラスターは、図18に示すクラスター名252ごとの概要を一覧表示した表250で示されている。表250には、クラスターID251ごとにクラスター名252、代表配列鎖長253、クラスター配列数254が含まれる。したがって、代表塩基配列鎖長253や各クラスターに属するフラグメントの数(クラスター配列数254の欄の数値であり、結合フラグメント数に当たる)を一覧できる。なお、本実施例では、クラスター数が多いため、図18では表250の一部だけを表示した。   The clusters included in this cluster set are shown in a table 250 that lists the outline of each cluster name 252 shown in FIG. The table 250 includes a cluster name 252, a representative sequence chain length 253, and a cluster sequence number 254 for each cluster ID 251. Therefore, the representative base sequence chain length 253 and the number of fragments belonging to each cluster (the number in the column of the number of cluster sequences 254, which corresponds to the number of binding fragments) can be listed. In this embodiment, since there are many clusters, only a part of the table 250 is displayed in FIG.

次に、上記のクラスターセット「Y022L08_C10000」の代表塩基配列すべてを仮想ハイブリダイゼーション用のプローブ塩基配列のセットとして、「Y022L08_C10000_chip」と名付けたデジタルDNAチップのファイルに登録し、二次元の仮想プローブの配置を決定した。この結果であるプローブ塩基配列仮想配置リスト260を図19に示す。プローブ塩基配列仮想配置リスト260は、プローブ記憶部132の内容と略同様の情報を備える。   Next, all the representative base sequences of the above cluster set “Y022L08_C10000” are registered as a set of probe base sequences for virtual hybridization in a file of a digital DNA chip named “Y022L08_C10000_chip”, and the arrangement of two-dimensional virtual probes It was determined. FIG. 19 shows a probe base sequence virtual arrangement list 260 as a result. The probe base sequence virtual arrangement list 260 includes information that is substantially the same as the contents of the probe storage unit 132.

プローブ塩基配列仮想配置リスト260は、平板のDNAチップ基板上に、「Y022L08_C10000_chip」のプローブ塩基配列を仮想的に長方形状に配置した位置を仮想的に示している。すなわち、8,224種のプローブ塩基配列の位置を、まず24行4列のブロックに分け、さらにブロック内の位置を8行12列に分けて、特定したものである。なお、本実施例では、プローブ塩基配列の数が多いため、図19では表の一部だけを表示した。   The probe base sequence virtual arrangement list 260 virtually indicates a position where the probe base sequence “Y022L08_C10000_chip” is virtually arranged in a rectangular shape on a flat DNA chip substrate. That is, the positions of 8,224 types of probe base sequences are first divided into 24 rows and 4 columns of blocks, and the positions within the blocks are further divided into 8 rows and 12 columns and specified. In this example, since the number of probe base sequences is large, only a part of the table is shown in FIG.

仮想的に二次元配置された各々のプローブの塩基配列の詳細な情報は、図20に例示したような、プローブごとの詳細情報270で表示される。詳細情報270には、プローブを特定するプローブID271ごとに、当該プローブの名称であるプローブ名272、当該プローブが属するクラスターの塩基配列数であるクラスター配列数273、当該プローブの配列鎖長である代表配列鎖長274、当該プローブの塩基配列である代表塩基配列275、が含まれる。   Detailed information on the base sequences of the probes virtually arranged two-dimensionally is displayed as detailed information 270 for each probe as illustrated in FIG. The detailed information 270 includes, for each probe ID 271 that identifies a probe, a probe name 272 that is the name of the probe, a cluster sequence number 273 that is the number of base sequences of the cluster to which the probe belongs, and a representative that is the sequence chain length of the probe. The sequence chain length 274 and the representative base sequence 275 which is the base sequence of the probe are included.

次に、核酸情報処理装置100に格納されているターゲットフラグメントである塩基配列データセットの中から、1.GAC.454Reads.fnaおよび2.GAC.454Reads.fnaの2つのファイルを選択し、これら両方を合わせたデータセットと「Y022L08_C10000_chip」との仮想ハイブリダイゼーションを、E−valueの閾値を1.0Eに設定して行った。   Next, from the base sequence data set which is the target fragment stored in the nucleic acid information processing apparatus 100, 1. GAC. 454Reads. fna and 2. GAC. 454Reads. Two files of fna were selected, and virtual hybridization between a data set obtained by combining both files and “Y022L08_C10000_chip” was performed by setting the E-value threshold to 1.0E.

得られた仮想ハイブリダイゼーションの結果のファイルを「Y022L08_C10000_chip_vs_454海水データ」と名付け、2通りの形式で表示したのが、図21および図22である。「Y022L08_C10000_chip_vs_454海水データ」をプローブ毎の結合フラグメント数の表として表示したのが、図21の仮想ハイブリダイゼーション結果表280である。仮想ハイブリダイゼーション結果表280には、仮想ハイブリダイゼーションファイル名281と、プローブID282と、プローブ名283と、デジタルDNAチップ上のプローブの位置を特定するためのブロック284とブロック内の位置を特定するためのスポット285と、プローブに類似するフラグメントの数である結合フラグメント数286と、が含まれる。本実施例では、プローブ塩基配列の数が多いため、表の一部だけを表示した。   The obtained virtual hybridization result file is named “Y022L08_C10000_chip_vs_454 seawater data” and displayed in two formats as shown in FIG. 21 and FIG. The virtual hybridization result table 280 of FIG. 21 displays “Y022L08_C10000_chip_vs_454 seawater data” as a table of the number of binding fragments for each probe. The virtual hybridization result table 280 includes a virtual hybridization file name 281, a probe ID 282, a probe name 283, a block 284 for specifying the position of the probe on the digital DNA chip, and a position in the block. Spot 285 and a bound fragment number 286, which is the number of fragments similar to the probe. In this example, since there are many probe base sequences, only a part of the table is displayed.

また、この結果を、DNAマイクロアレイの画像イメージに合わせて擬似的に画像表示したのが、図22の「仮想ハイブリダイゼーション・イメージ」のイメージ300である。イメージ300においては、プローブ配列リスト「Y022L08_C10000_chip」中の各プローブを、プローブIDの番号の若いプローブ塩基配列から順に、図22の上方から下方に向かって表示している。色が明るいスポットほど、その位置に仮想的に配置したプローブ塩基配列に仮想的にハイブリダイゼーションするターゲット核酸フラグメントの数が多いことを示している。仮想ハイブリダイゼーションしたターゲットフラグメントの数が最多のプローブには、10,326のターゲット核酸フラグメントが仮想ハイブリされた。   Further, an image 300 of “virtual hybridization image” in FIG. 22 is a pseudo-image display of this result in accordance with the image image of the DNA microarray. In the image 300, the probes in the probe sequence list “Y022L08_C10000_chip” are displayed from the top to the bottom of FIG. 22 in order from the probe base sequence with the smallest probe ID number. The brighter the spot, the greater the number of target nucleic acid fragments that are virtually hybridized to the probe base sequence virtually placed at that position. 10,326 target nucleic acid fragments were virtually hybridized to the probe having the largest number of virtual hybridized target fragments.

本実施例では、仮想ハイブリダイゼーションにおけるターゲット核酸フラグメントとプローブ塩基配列の1:1の類似度の解析は、総当りで行い、ターゲットフラグメントの長さがプローブ鎖長以上で、プローブ全域にわたって塩基配列が完全一致しているプローブを特定するごとに、該プローブは仮想ハイブリダイゼーションしたものとして計数した。したがって、ターゲット核酸フラグメント内の異なる部位のそれぞれが、それぞれ異なるプローブと仮想ハイブリダイゼーションされたとして、複数回計数されている。   In this example, the analysis of the 1: 1 similarity between the target nucleic acid fragment and the probe base sequence in the virtual hybridization is performed brute force, the length of the target fragment is longer than the probe chain length, and the base sequence is extended over the entire probe. Each time a probe with a perfect match was identified, the probe was counted as virtually hybridized. Therefore, each of the different sites in the target nucleic acid fragment is counted a plurality of times as being virtually hybridized with different probes.

本実施例において、核酸情報処理装置100にインポートした海水中の微生物の塩基配列データを用いて、クラスタリングにより「Y022L08_C10000_chip」というプローブ塩基配列のリストを作成するのに要した時間は、CPUとしてXeon X5520 Quad Core 2.26GHzを2基搭載し、RAMメモリを8GB備えるという性能のコンピュータ5台からなるグリッドコンピュータを用いて約30時間であり、また、「Y022L08_C10000_chip」と1.GAC.454Reads.fnaおよび2.GAC.454Reads.fnaの2つのファイルを結合したファイルとの仮想ハイブリダイゼーションに要した時間は、同じコンピュータで合計約30分であった。   In this example, the time required to create the probe base sequence list “Y022L08_C10000_chip” by clustering using the base sequence data of the microorganisms in seawater imported to the nucleic acid information processing apparatus 100 is Xeon X5520 as the CPU. It is about 30 hours using a grid computer composed of five computers each having two quad cores 2.26 GHz and having a RAM memory of 8 GB, and “Y022L08_C10000_chip” and 1. GAC. 454Reads. fna and 2. GAC. 454Reads. The total time required for virtual hybridization with the file obtained by combining the two files of fna was about 30 minutes on the same computer.

DNAチップを用いた実験では、プローブ塩基配列のリスト作成の後にリストに従ってすべてのプローブDNAを化学合成し、それらをDNAチップ基板または其質に場所を決めて固定するという作業が必要であり、これらの作業には通常数日が必要である。これに対し、本実施例の仮想ハイブリダイゼーションでは、プローブ塩基配列のリストを作成しただけで、そのデータをそのまま仮想ハイブリダイゼーションに用いることが出来、DNAチップ作成に要する手間と時間は不要である。また、DNAチップを用いた実験によるハイブリダイゼーションは通常一晩程度かかるのに比較すると、コンピュータを用いた情報処理による仮想ハイブリダイゼーションにかかる時間はわずか30分程度であった。   In an experiment using a DNA chip, it is necessary to chemically synthesize all the probe DNAs according to the list after creating a list of probe base sequences, and fix them on the DNA chip substrate or its material. The work usually requires several days. On the other hand, in the virtual hybridization of the present embodiment, only by creating a list of probe base sequences, the data can be used as it is for virtual hybridization, and the labor and time required for preparing a DNA chip are unnecessary. In addition, compared with the case where hybridization by experiments using a DNA chip usually takes about one night, the time required for virtual hybridization by information processing using a computer is only about 30 minutes.

次に、1.GAC.454Reads.fnaと2.GAC.454Reads.fnaの2つのターゲットフラグメント群をそれぞれプローブ群「Y022L08_C10000_chip」に仮想ハイブリダイゼーションして得られた結果のファイル海水20101217_454ファイル1と海水20101217_454ファイル2について、同一のプローブに仮想ハイブリダイゼーションしたそれぞれのターゲットフラグメント数を、図23の概要表400のように比較表示した。概要表400には、項目401と、ファイル番号402と、仮想ハイブリファイル名403と、ファイル作成元データ404と、頻度比較プローブ数405と、が含まれる。この比較解析にかかる時間は、わずか10分であった。   Next, 1. GAC. 454Reads. fna and 2. GAC. 454Reads. The resulting file seawater 20101217_454 file 1 and seawater 20101217_454 file 2 obtained by virtually hybridizing the two target fragment groups of fna to the probe group “Y022L08_C10000_chip”, respectively, the number of target fragments virtually hybridized to the same probe Are compared and displayed as shown in the summary table 400 of FIG. The summary table 400 includes an item 401, a file number 402, a virtual hybrid file name 403, file creation source data 404, and a frequency comparison probe number 405. This comparative analysis took only 10 minutes.

この結果を、海水20101217_454ファイル1の仮想ハイブリダイゼーションフラグメント数の多いプローブ順に並べなおして結果表示画面410にしたものが図24に示されている。結果表示画面410には、プローブID411、ブロック412、スポット413、プローブと類似する仮想ハイブリダイゼーションフラグメント数414、ファイル間頻度差415、ファイル間頻度比416が含まれる。ここで、ファイル間頻度比416は、海水20101217_454ファイル1と海水20101217_454ファイル2の2つのデータ間の補正のため、2つのデータファイルのプローブごとの仮想ハイブリダイゼーションフラグメント数414を正規化した後に相対値を求め、プローブ毎の相対値同士の比率を求めたものである。なお、本実施例は、プローブ塩基配列の数が多いため、図24では、画面の一部だけを表示した。結果表示画面410では、図24の右端から二つ目の欄(ファイル間頻度差415)に示したような、2つの仮想ハイブリダイゼーション結果におけるプローブごとの仮想ハイブリダイゼーションフラグメント数の差であるファイル間頻度差、および、右端の欄(ファイル間頻度比416)に示したような、2つの仮想ハイブリダイゼーション結果におけるプローブごとの仮想ハイブリダイゼーションフラグメント数の比であるファイル間頻度比(ここでは小数点第2位を四捨五入した数値を表示)が表示された。   FIG. 24 shows a result display screen 410 in which the results are rearranged in the order of probes having the largest number of virtual hybridization fragments in the seawater 20101217_454 file 1. The result display screen 410 includes a probe ID 411, a block 412, a spot 413, a virtual hybridization fragment number 414 similar to the probe, a frequency difference 415 between files, and a frequency ratio 416 between files. Here, the inter-file frequency ratio 416 is a relative value after normalizing the number of virtual hybridization fragments 414 for each probe in the two data files for correction between the two data of the seawater 20101217_454 file 1 and the seawater 20101217_454 file 2. And the ratio of the relative values for each probe is obtained. In this example, since the number of probe base sequences is large, only a part of the screen is displayed in FIG. In the result display screen 410, as shown in the second column from the right end of FIG. 24 (inter-file frequency difference 415), the difference between the numbers of virtual hybridization fragments for each probe in the two virtual hybridization results is shown. The frequency difference and the inter-file frequency ratio (here, the second decimal point), which is the ratio of the number of virtual hybridization fragments for each probe in the two virtual hybridization results as shown in the rightmost column (inter-file frequency ratio 416). Is displayed).

結果表示画面410において、頻度差の大きい順にデータを整列しなおせば、2つの仮想ハイブリダイゼーション結果で存在数の差の大きいプローブフラグメントを検出できる。また、図25の結果表示画面420ように、ファイル間頻度比の大きい順にデータを整列・表示しなおせば、2つの仮想ハイブリダイゼーション結果で存在数の比の大きなプローブフラグメントを検出できる。結果表示画面420では、結果を見やすくするための昇順番号421が追加され表全体の途中部分を表示していること以外は、図24の結果表示画面410と基本的に同様である。なお、本実施例ではプローブ塩基配列の数が多いため、図25では、結果表示画面420の途中の一部だけを表示した。   In the result display screen 410, by rearranging the data in descending order of frequency difference, it is possible to detect a probe fragment having a large difference in the number of existing two virtual hybridization results. In addition, as shown in the result display screen 420 in FIG. 25, if the data is rearranged and displayed again in descending order of the inter-file frequency ratio, probe fragments having a large ratio of existing numbers can be detected from the two virtual hybridization results. The result display screen 420 is basically the same as the result display screen 410 of FIG. 24 except that an ascending order number 421 for making the results easier to see is added and the middle part of the entire table is displayed. In this example, since the number of probe base sequences is large, only a part of the result display screen 420 is displayed in FIG.

比較ファイルとして、例えば、A地点のある日時の海水のターゲットフラグメント群で得られた仮想ハイブリダイゼーション結果と、同じA地点の別の日時の海水のターゲットフラグメント群で得られた仮想ハイブリダイゼーション結果とを選択すれば、A地点の時間的推移に伴って大きく存在量やその比が変化したプローブフラグメントの塩基配列を抽出することが出来るといえる。また、異なる地点で得られたターゲットフラグメント同士を比較すれば、地点により存在量が大きく異なるプローブフラグメントの塩基配列を抽出することも出来るといえる。なお、仮想ハイブリダイゼーションフラグメント数をその頻度差や頻度比で複数のターゲットフラグメント間の比較を行う場合、たとえば単位体積あたりの海水からのDNA抽出量の比率などもパラメーターとして数値を補正すれば、より正確な比較をすることができると考えられる。   As a comparison file, for example, a virtual hybridization result obtained with a target fragment group of seawater at a certain date and time at point A and a virtual hybridization result obtained with a target fragment group of seawater at another date and time at the same point A If selected, it can be said that it is possible to extract the base sequence of the probe fragment whose abundance and ratio change greatly with the time transition of the point A. Further, if target fragments obtained at different points are compared with each other, it can be said that the base sequences of probe fragments whose abundance varies greatly depending on the points can be extracted. In addition, when comparing the number of virtual hybridization fragments between multiple target fragments with the frequency difference or frequency ratio, for example, if the numerical value is corrected as a parameter such as the ratio of the amount of DNA extracted from seawater per unit volume, more It is thought that an accurate comparison can be made.

以上のように、本発明に係る実施形態に従って作成したデジタルDNAチップを用いた核酸情報処理装置100によって塩基配列情報をコンピュータ上で解析することにより、時間と労力を大幅に節約して、類似塩基配列の頻度解析を行うことが出来た。   As described above, the base sequence information is analyzed on the computer by the nucleic acid information processing apparatus 100 using the digital DNA chip created according to the embodiment of the present invention, so that time and labor can be greatly saved, and similar bases can be saved. Sequence frequency analysis could be performed.

1・・・インポートデータ、2・・・処理機能、3・・・データベース、4・・・アウトプットデータ、100・・・核酸情報処理装置、101・・・入力装置、102・・・外部記憶装置、103・・・演算装置、104・・・主記憶装置、105・・・通信装置、106・・・出力装置、107・・・バス、110・・・制御部、130・・・記憶部、140・・・出力表示部、150・・・入力受付部、160・・・通信処理部 DESCRIPTION OF SYMBOLS 1 ... Import data, 2 ... Processing function, 3 ... Database, 4 ... Output data, 100 ... Nucleic acid information processing apparatus, 101 ... Input device, 102 ... External storage Device 103, arithmetic unit 104, main storage device 105, communication device 106, output device 107, bus 110, control unit 130, storage unit 140 ... output display unit, 150 ... input reception unit, 160 ... communication processing unit

Claims (22)

複数の塩基配列の情報を含む第一の塩基配列情報と、複数の塩基配列の情報を含む第二の塩基配列情報と、を記憶する記憶部と、
類似度の閾値を特定する情報を受け付ける閾値受付手段と、
前記第一の塩基配列情報に含まれる塩基配列をターゲットとし、前記第二の塩基配列情報に含まれる塩基配列をプローブのフラグメントとする一対一の組み合わせについて、類似度および類似部分の開始位置および終了位置を特定するハイブリダイゼーション手段と、
特定した類似度が前記閾値以上となる前記ターゲットの数を、前記プローブのフラグメントごとに計数し、前記記憶部に記憶する類似塩基配列計数手段と、
を備え、
前記ハイブリダイゼーション手段は、前記類似度および類似部分の開始位置および終了位置を特定する処理において、一つまたは複数の前記ターゲットにより一つの前記プローブのフラグメントの塩基配列の全てを欠落なく対応付ける組み合わせを特定し、
前記類似塩基配列計数手段は、前記一つまたは複数の前記ターゲットにより欠落なく対応付けられた前記プローブのフラグメントの数を計数し、前記記憶部に記憶し、
前記閾値受付手段は、ターゲットとプローブのフラグメント内の1塩基ペア毎の一致又は不一致、および相補鎖を形成すべき組合せか否かをプローブのフラグメント全域にわたって判定し、プローブのフラグメント内での一致条件の数字により、類似度の閾値を規定する、
ことを特徴とする核酸情報処理装置。
A storage unit that stores first base sequence information including information on a plurality of base sequences and second base sequence information including information on the plurality of base sequences;
Threshold receiving means for receiving information for specifying a similarity threshold;
For the one-to-one combination with the base sequence included in the first base sequence information as the target and the base sequence included in the second base sequence information as the probe fragment, the similarity and the start position and end of the similar portion A hybridization means for specifying the position;
Similar base sequence counting means for counting the number of the targets whose identified similarity is equal to or greater than the threshold for each fragment of the probe, and storing the same in the storage unit;
With
In the process of specifying the similarity and the start position and the end position of the similar part, the hybridization means specifies a combination in which all of the base sequences of one of the probe fragments are associated with each other by one or a plurality of the targets. And
The similar base sequence counting means counts the number of fragments of the probe associated with the one or more targets without omission, and stores them in the storage unit,
The threshold acceptance means determines whether or not the combination of each target pair in the fragment of the target and the probe is a combination to form a complementary strand, and whether or not it is a combination to form a complementary strand. The threshold of similarity is defined by the number of
A nucleic acid information processing apparatus characterized by that.
請求項1に記載の核酸情報処理装置であって、
前記ハイブリダイゼーション手段は、前記ターゲットの塩基配列に含まれる一連の塩基配列が、前記プローブのフラグメントの塩基配列に含まれる一連の塩基配列と対応する場合に、当該ターゲットの一連の塩基配列部分を前記プローブのフラグメントとの類似部分とする、
ことを特徴とする核酸情報処理装置。
The nucleic acid information processing apparatus according to claim 1,
The hybridization means, when a series of base sequences contained in the base sequence of the target corresponds to a series of base sequences contained in the base sequence of the probe fragment, Similar to the probe fragment,
A nucleic acid information processing apparatus characterized by that.
請求項1または2に記載の核酸情報処理装置であって、
前記類似塩基配列計数手段は、
a)前記類似度が前記閾値以上であって、前記いずれかのプローブのフラグメントの塩基配列との類似部分が、当該プローブのフラグメントの開始位置から終了位置までの部分に該当する前記ターゲットの数と、
b)前記類似度が前記閾値以上となる2つ以上の前記ターゲットの類似部分を連結させると、前記プローブのフラグメントの塩基配列と対応する塩基配列となる結合ターゲットの組の数と、
を前記プローブのフラグメントごとに計数し、前記記憶部に記憶する、
ことを特徴とする核酸情報処理装置。
The nucleic acid information processing device according to claim 1 or 2,
The similar base sequence counting means includes:
a) The similarity is equal to or higher than the threshold, and the number of the targets corresponding to the portion from the start position to the end position of the probe fragment is similar to the base sequence of the probe fragment. ,
b) When two or more similar parts of the target having the similarity equal to or higher than the threshold are linked, the number of sets of binding targets that form a base sequence corresponding to the base sequence of the fragment of the probe;
For each fragment of the probe and store in the storage unit,
A nucleic acid information processing apparatus characterized by that.
請求項3に記載の核酸情報処理装置であって、
前記類似塩基配列計数手段は、前記結合ターゲットに関し、
当該連結の先端となるターゲットは、ターゲットの類似部分の終了位置が当該ターゲットの終了位置であり、
当該連結の後端となるターゲットは、ターゲットの類似部分の開始位置が当該ターゲットの開始位置であり、
前記連結の先端となるターゲットと、後端となるターゲットと、の間に連結されるターゲットは、ターゲットの類似部分の開始位置および終了位置が当該ターゲットの開始位置および終了位置である、
ことを満たすターゲットをそれぞれ特定して連結させ、前記結合ターゲットの組として特定する、
ことを特徴とする核酸情報処理装置。
The nucleic acid information processing device according to claim 3,
The similar base sequence counting means relates to the binding target,
For the target that is the tip of the connection, the end position of the similar part of the target is the end position of the target,
The target at the rear end of the connection is that the start position of the similar part of the target is the start position of the target,
The target connected between the target that is the leading end of the connection and the target that is the rear end, the start position and end position of the similar part of the target are the start position and end position of the target,
Each of the targets that satisfy the above is identified and connected, and specified as a set of the combined targets.
A nucleic acid information processing apparatus characterized by that.
請求項3に記載の核酸情報処理装置であって、
前記類似塩基配列計数手段は、
前記類似度が閾値以上となるターゲットのうち、当該ターゲットの塩基配列の開始位置から終了位置までの部分が類似部分となる前記ターゲットについて、類似部分の終了位置の次の位置が開始位置となるターゲットを複数連結させ、
前記ターゲットの類似部分の開始位置が前記プローブのフラグメントの開始位置である類似部分を有するターゲットを当該連結の先端とし、
前記ターゲットの類似部分の終了位置が前記プローブのフラグメントの終了位置である類似部分を有するターゲットを当該連結の後端とする
結合ターゲットの組の数を前記プローブのフラグメントごとに計数する、
ことを特徴とする核酸情報処理装置。
The nucleic acid information processing device according to claim 3,
The similar base sequence counting means includes:
Among the targets whose similarity is equal to or greater than the threshold, for the target whose portion from the start position to the end position of the target base sequence is a similar portion, the target whose start position is the position next to the end position of the similar portion Multiple
A target having a similar part in which the start position of the similar part of the target is the start position of the fragment of the probe is defined as the tip of the connection;
Counting the number of sets of binding targets for each probe fragment, with the target having a similar part whose end position of the similar part of the target is the end position of the fragment of the probe as the rear end of the connection;
A nucleic acid information processing apparatus characterized by that.
請求項4または5に記載の核酸情報処理装置であって、
前記類似塩基配列計数手段は、
前記連結の処理においては、連結されるターゲットの類似部分が重複するものであっても連結する、
ことを特徴とする核酸情報処理装置。
The nucleic acid information processing device according to claim 4 or 5,
The similar base sequence counting means includes:
In the connection process, even if similar parts of the target to be connected overlap,
A nucleic acid information processing apparatus characterized by that.
請求項1〜6のいずれか一項に記載の核酸情報処理装置であって、さらに、
異なる2つの前記第一の塩基配列情報についての同一の前記第二の塩基配列情報とのハイブリダイゼーションの結果得られた異なる2つの結果情報の指定を受け付ける結果指定受付手段と、
前記指定された2つの結果情報に含まれる同一のプローブのフラグメントについての前記ターゲットの数の差異を出力する出力手段と、
を備えることを特徴とする核酸情報処理装置。
The nucleic acid information processing apparatus according to any one of claims 1 to 6, further comprising:
Result designation accepting means for accepting designation of two different result information obtained as a result of hybridization with the same second base sequence information for two different first base sequence information;
Output means for outputting a difference in the number of targets for fragments of the same probe included in the two specified result information;
A nucleic acid information processing apparatus comprising:
請求項7に記載の核酸情報処理装置であって、
前記異なる2つの前記第一の塩基配列情報の一方は、他方とは異なる時点で取得された所定の対象から得られた塩基配列情報である、
ことを特徴とする核酸情報処理装置。
The nucleic acid information processing device according to claim 7,
One of the two different first base sequence information is base sequence information obtained from a predetermined target obtained at a different time from the other.
A nucleic acid information processing apparatus characterized by that.
請求項8に記載の核酸情報処理装置であって、
前記所定の対象は、複数の生物個体、部位、組織、細胞及びそれらの混合物を含む生物材料の混合物である、
ことを特徴とする核酸情報処理装置。
The nucleic acid information processing device according to claim 8,
The predetermined object is a mixture of biological materials including a plurality of biological individuals, sites, tissues, cells, and mixtures thereof.
A nucleic acid information processing apparatus characterized by that.
請求項8または9に記載の核酸情報処理装置であって、
前記所定の対象は、所定の地理的位置において採取された対象である、
ことを特徴とする核酸情報処理装置。
The nucleic acid information processing apparatus according to claim 8 or 9, wherein
The predetermined object is an object collected at a predetermined geographical location;
A nucleic acid information processing apparatus characterized by that.
核酸情報処理装置による核酸情報処理方法であって、
前記核酸情報処理装置は、
複数の塩基配列の情報を含む第一の塩基配列情報と、複数の塩基配列の情報を含む第二の塩基配列情報と、を記憶する記憶部と、処理部と、を備え、
前記処理部は、
類似度の閾値を特定する情報を受け付ける閾値受付ステップと、
前記第一の塩基配列情報に含まれる塩基配列をターゲットとし、前記第二の塩基配列情報に含まれる塩基配列をプローブのフラグメントとする一対一の組み合わせについて、類似度および類似部分の開始位置および終了位置を特定するハイブリダイゼーション実施ステップと、
特定した類似度が前記閾値以上となる前記ターゲットの数を、前記プローブのフラグメントごとに計数し、前記記憶部に記憶する類似塩基配列計数ステップと、
を実施し、
前記ハイブリダイゼーション実施ステップにおいては、前記類似度および類似部分の開始位置および終了位置を特定する処理において、一つまたは複数の前記ターゲットにより一つの前記プローブのフラグメントの塩基配列の全てを欠落なく対応付ける組み合わせを特定し、
前記類似塩基配列計数ステップにおいては、前記一つまたは複数の前記ターゲットにより欠落なく対応付けられた前記プローブのフラグメントの数を計数し、前記記憶部に記憶し、
前記閾値受付ステップにおいては、ターゲットとプローブのフラグメント内の1塩基ペア毎の一致又は不一致、および相補鎖を形成すべき組合せか否かをプローブのフラグメント全域にわたって判定し、プローブのフラグメント内での一致条件の数字により、類似度の閾値を規定する、
ことを特徴とする核酸情報処理方法。
A nucleic acid information processing method using a nucleic acid information processing apparatus,
The nucleic acid information processing apparatus comprises:
A storage unit that stores first base sequence information including information on a plurality of base sequences and second base sequence information including information on a plurality of base sequences, and a processing unit,
The processor is
A threshold acceptance step for accepting information for identifying a threshold of similarity;
For the one-to-one combination with the base sequence included in the first base sequence information as the target and the base sequence included in the second base sequence information as the probe fragment, the similarity and the start position and end of the similar portion Performing a hybridization step for identifying a position;
A similar base sequence counting step of counting the number of the targets for which the identified similarity is equal to or greater than the threshold for each fragment of the probe, and storing the same in the storage unit;
Carried out
In the hybridization step, in the process of specifying the similarity and the start position and end position of the similar portion, a combination in which all of the base sequences of one of the probe fragments are associated with one or more of the targets without omission Identify
In the similar base sequence counting step, the number of fragments of the probe correlated without loss by the one or more targets is counted, and stored in the storage unit,
In the threshold acceptance step, it is determined whether there is a match or mismatch for each base pair in the fragment of the target and the probe, and a combination that should form a complementary strand, over the entire fragment of the probe, and the match in the probe fragment The threshold of similarity is defined by the number of conditions.
Nucleic acid information processing method characterized by the above.
請求項11に記載の核酸情報処理方法であって、
前記ハイブリダイゼーション実施ステップでは、前記ターゲットの塩基配列に含まれる一連の塩基配列が、前記プローブのフラグメントの塩基配列に含まれる一連の塩基配列と対応する場合に、当該ターゲットの塩基配列部分を前記プローブのフラグメントとの類似部分とする、
ことを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to claim 11,
In the hybridization step, when a series of base sequences contained in the base sequence of the target corresponds to a series of base sequences contained in the base sequence of the fragment of the probe, the base sequence portion of the target is used as the probe. A similar part to the fragment of
Nucleic acid information processing method characterized by the above.
請求項11または12に記載の核酸情報処理方法であって、
前記類似塩基配列計数ステップでは、
a)前記類似度が前記閾値以上であって、前記いずれかのプローブのフラグメントの塩基配列との類似部分が、当該プローブのフラグメントの開始位置から終了位置までの部分に該当する前記ターゲットの数と、
b)前記類似度が前記閾値以上となる2つ以上の前記ターゲットの類似部分を連結させると、前記プローブのフラグメントの塩基配列と対応する塩基配列となる結合ターゲットの組の数と、
を前記プローブのフラグメントごとに計数し、前記記憶部に記憶する、
ことを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to claim 11 or 12,
In the similar base sequence counting step,
a) The similarity is equal to or higher than the threshold, and the number of the targets corresponding to the portion from the start position to the end position of the probe fragment is similar to the base sequence of the probe fragment. ,
b) When two or more similar parts of the target having the similarity equal to or higher than the threshold are linked, the number of sets of binding targets that form a base sequence corresponding to the base sequence of the fragment of the probe;
For each fragment of the probe and store in the storage unit,
Nucleic acid information processing method characterized by the above.
請求項13に記載の核酸情報処理方法であって、
前記類似塩基配列計数ステップでは、前記結合ターゲットに関し、
当該連結の先端となるターゲットは、ターゲットの類似部分の終了位置が当該ターゲットの終了位置であり、
当該連結の後端となるターゲットは、ターゲットの類似部分の開始位置が当該ターゲットの開始位置であり、
前記連結の先端となるターゲットと、後端となるターゲットと、の間に連結されるターゲットは、ターゲットの類似部分の開始位置および終了位置が当該ターゲットの開始位置および終了位置である、
ことを満たすターゲットをそれぞれ特定して連結させ、前記結合ターゲットの組として特定する、
ことを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to claim 13,
In the similar base sequence counting step, for the binding target,
For the target that is the tip of the connection, the end position of the similar part of the target is the end position of the target,
The target at the rear end of the connection is that the start position of the similar part of the target is the start position of the target,
The target connected between the target that is the leading end of the connection and the target that is the rear end, the start position and end position of the similar part of the target are the start position and end position of the target,
Each of the targets that satisfy the above is identified and connected, and specified as a set of the combined targets.
Nucleic acid information processing method characterized by the above.
請求項13に記載の核酸情報処理方法であって、
前記類似塩基配列計数ステップでは、
前記類似度が閾値以上となるターゲットのうち、当該ターゲットの塩基配列の開始位置から終了位置までの部分が類似部分となる前記ターゲットについて、類似部分の終了位置の次の位置が開始位置となるターゲットを複数連結させ、
前記ターゲットの類似部分の開始位置が前記プローブのフラグメントの開始位置である類似部分を有するターゲットを当該連結の先端とし、
前記ターゲットの類似部分の終了位置が前記プローブのフラグメントの終了位置である類似部分を有するターゲットを当該連結の後端とする
結合ターゲットの組の数を前記プローブのフラグメントごとに計数する、
ことを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to claim 13,
In the similar base sequence counting step,
Among the targets whose similarity is equal to or greater than the threshold, for the target whose portion from the start position to the end position of the target base sequence is a similar portion, the target whose start position is the position next to the end position of the similar portion Multiple
A target having a similar part in which the start position of the similar part of the target is the start position of the fragment of the probe is used as the tip of the connection;
Counting the number of sets of binding targets for each probe fragment, with the target having a similar part whose end position of the similar part of the target is the end position of the fragment of the probe as the rear end of the connection;
Nucleic acid information processing method characterized by the above.
請求項14または15に記載の核酸情報処理方法であって、
前記類似塩基配列計数ステップでは、
前記連結の処理においては、連結されるターゲットの類似部分が重複するものであっても連結する、
ことを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to claim 14 or 15,
In the similar base sequence counting step,
In the connection process, even if similar parts of the target to be connected overlap,
Nucleic acid information processing method characterized by the above.
請求項11〜16のいずれか一項に記載の核酸情報処理方法であって、さらに、
異なる2つの前記第一の塩基配列情報についての同一の前記第二の塩基配列情報とのハイブリダイゼーションの結果得られた異なる2つの結果情報の指定を受け付ける結果指定受付ステップと、
前記指定された2つの結果情報に含まれる同一のプローブのフラグメントについての前記ターゲットの数の差異を出力する出力ステップと、
を実施することを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to any one of claims 11 to 16, further comprising:
A result designation accepting step for accepting designation of two different result information obtained as a result of hybridization with the same second base sequence information for two different first base sequence information;
An output step of outputting a difference in the number of the targets for the same probe fragment included in the two specified result information;
The nucleic acid information processing method characterized by implementing.
請求項17に記載の核酸情報処理方法であって、
前記異なる2つの前記第一の塩基配列情報の一方は、他方とは異なる時点で取得された所定の対象から得られた塩基配列情報である、
ことを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to claim 17,
One of the two different first base sequence information is base sequence information obtained from a predetermined target obtained at a different time from the other.
Nucleic acid information processing method characterized by the above.
請求項18に記載の核酸情報処理方法であって、
前記所定の対象は、複数の生物個体、部位、組織、細胞及びそれらの混合物を含む生物材料の混合物である、
ことを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to claim 18, comprising:
The predetermined object is a mixture of biological materials including a plurality of biological individuals, sites, tissues, cells, and mixtures thereof.
Nucleic acid information processing method characterized by the above.
請求項18または19に記載の核酸情報処理方法であって、
前記所定の対象は、所定の地理的位置において採取された対象である、
ことを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to claim 18 or 19,
The predetermined object is an object collected at a predetermined geographical location;
Nucleic acid information processing method characterized by the above.
請求項1〜10のいずれか一項に記載の核酸情報処理装置であって、
二次元平面状に所定の順序に等間隔に並べた前記プローブのフラグメントごとに、前記ターゲットにより欠落なく対応付けられた前記ターゲットの組み合わせの数に応じた表示色に着色して表示する表示手段、
を備えることを特徴とする核酸情報処理装置。
The nucleic acid information processing device according to any one of claims 1 to 10,
Display means for coloring and displaying a display color according to the number of combinations of the targets associated with the target without omission, for each of the probe fragments arranged in a predetermined order in a two-dimensional planar shape,
A nucleic acid information processing apparatus comprising:
請求項11〜20のいずれか一項に記載の核酸情報処理方法であって、
前記核酸情報処理装置は、
二次元平面状に所定の順序に等間隔に並べた前記プローブのフラグメントごとに、前記ターゲットにより欠落なく対応付けられた前記ターゲットの組み合わせの数に応じた表示色に着色して表示する表示ステップ、
を実施することを特徴とする核酸情報処理方法。
The nucleic acid information processing method according to any one of claims 11 to 20,
The nucleic acid information processing apparatus comprises:
A display step of coloring and displaying a display color according to the number of combinations of the targets associated with the target without omission, for each of the probe fragments arranged in a predetermined order in a two-dimensional planar shape,
The nucleic acid information processing method characterized by implementing.
JP2015190668A 2015-09-29 2015-09-29 Nucleic acid information processing apparatus and processing method thereof Expired - Fee Related JP5952480B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015190668A JP5952480B2 (en) 2015-09-29 2015-09-29 Nucleic acid information processing apparatus and processing method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015190668A JP5952480B2 (en) 2015-09-29 2015-09-29 Nucleic acid information processing apparatus and processing method thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011003106A Division JP2012146067A (en) 2011-01-11 2011-01-11 Nucleic acid information processing apparatus and processing method thereof

Publications (2)

Publication Number Publication Date
JP2016028590A JP2016028590A (en) 2016-03-03
JP5952480B2 true JP5952480B2 (en) 2016-07-13

Family

ID=55434880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015190668A Expired - Fee Related JP5952480B2 (en) 2015-09-29 2015-09-29 Nucleic acid information processing apparatus and processing method thereof

Country Status (1)

Country Link
JP (1) JP5952480B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7424368B2 (en) * 2002-11-11 2008-09-09 Affymetix, Inc. Methods for identifying DNA copy number changes
JP4805586B2 (en) * 2005-02-22 2011-11-02 独立行政法人理化学研究所 Gene structure prediction method and gene structure prediction program

Also Published As

Publication number Publication date
JP2016028590A (en) 2016-03-03

Similar Documents

Publication Publication Date Title
Grün et al. Design and analysis of single-cell sequencing experiments
CN105793859B (en) System for detecting sequence variants
WO2016201215A1 (en) Systems and methods for identifying microorganisms
CN108350494A (en) System and method for genome analysis
WO2018237209A1 (en) Systems and methods for identification of nucleic acids in a sample
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
JP5825790B2 (en) Nucleic acid information processing apparatus and processing method thereof
Matsumura et al. SuperSAGE: a modern platform for genome-wide quantitative transcript profiling
CN115087750B (en) Eukaryotic organism species identification method based on whole genome analysis and application
Menon et al. Bioinformatics tools and methods to analyze single-cell RNA sequencing data
CN107475449A (en) A kind of transcript profile sequence measurement spliced suitable for dwarf virus section and geminivirus infection coe virus genome
WO2012096016A1 (en) Nucleic acid information processing device and processing method thereof
Duan et al. FBA: feature barcoding analysis for single cell RNA-Seq
Foster et al. A targeted capture approach to generating reference sequence databases for chloroplast gene regions
JP5952480B2 (en) Nucleic acid information processing apparatus and processing method thereof
KR20200102182A (en) Method and apparatus of the Classification of Species using Sequencing Clustering
US20230193301A1 (en) Method and use for identifying plant species based on whole genome analysis and genome editing
JP2008161056A (en) Dna sequence analyzer and method and program for analyzing dna sequence
Allen et al. DNA signatures for detecting genetic engineering in bacteria
US6994965B2 (en) Method for displaying results of hybridization experiment
US20230420078A1 (en) Scrnaseq analysis systems
De Lannoy From squiggle to sequence: bioinformatics in the era of single-molecule biopolymer analysis
CN105787294A (en) Method for determining probe set, kit and use thereof
CN108251517A (en) A kind of method of similar sequences relative populations in analysis system
Chua et al. Exploiting DNA microarrays in renal transplantation

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160609

R150 Certificate of patent or registration of utility model

Ref document number: 5952480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees