CN103348350B

CN103348350B - 核酸信息处理装置及其处理方法

Info

Publication number: CN103348350B
Application number: CN201180064773.0A
Authority: CN
Inventors: 奈须永典; 辻本敦美; 山川武广; 小野浩明
Original assignee: Japan Software Management Co Ltd
Current assignee: Japan Software Management Co Ltd
Priority date: 2011-01-11
Filing date: 2011-06-27
Publication date: 2016-09-21
Anticipated expiration: 2031-06-27
Also published as: JP2012146066A; WO2012096015A1; CN103348350A; EP2665010A4; EP2665010A1; JP5825790B2; US20140058682A1

Abstract

本发明的目的在于能够容易地设计和改变相当于DNA微阵列的、容易再次使用的探针组。一种核酸信息处理装置，包括：存储部，存储多个碱基序列信息；阈值接收单元，接收用来确定相似度阈值的信息；集群组成单元，依据所述相似度阈值划分所述多个碱基序列，组成集群；以及代表碱基序列设定单元，将所述集群中包含的所述碱基序列中的一个设定为代表碱基序列。

Description

核酸信息处理装置及其处理方法

技术领域

本发明涉及一种核酸信息的处理技术。本发明要求2011年1月11日申请的申请编号为2011-3104的日本专利的优先权，指定国家认可参照文献后加入的内容时，该申请中记载的内容通过参照加入到本申请中。

背景技术

在生物群、个体、生物组织、细胞等生物系统中有着数量庞大和种类繁多的基因，它们的产物相互影响着保持存在。以往，会以Southern印迹法和Northern印迹法为代表，以1个实验调查1个基因的实验方法，对各基因的有无和变动进行逐个分析，但随着DNA（Deoxyribo NucleicAcid）微阵列（出于方便的考虑，本申请中将其作为与DNA芯片意义相同）的出现，已经能够通过一次物理或生理实验对众多遗传信息的有无和发现数量进行横向的、全面的掌握。另外，随着在其之前开始的基因组计划的推进，在DNA碱基序列决定技术方面，一种被称为新一代定序器的机器组被投入到实际应用当中，利用该新一代定序器，可大幅增加能够进行同时并行分析的DNA片段的数量。利用该机器组，运行1次新一代定序器即可进行分析的DNA的片段数量和碱基数量出现了飞跃性的增加。此种技术已记载在专利文献1中。

专利文献1：日本专利特开2010-193832号公报

发明内容

但是，使用上述DNA微阵列而进行的分析虽然如上所述是非常有用的实验工具，但DNA微阵列和靶核酸无法以相同状态再次使用。

鉴于上述现有技术，本发明的目的在于能够容易地对相当于DNA微阵列的、容易再次使用的探针组进行设计和变更。

例如，本发明所述的核酸信息处理装置，包括：存储部，存储多个碱基序列信息；阈值接收单元，接收用来确定相似度阈值的信息；集群组成单元，依据所述相似度阈值划分所述多个碱基序列，组成集群；以及代表碱基序列设定单元，将所述集群中含有的所述碱基序列中的一个设定为代表碱基序列。

此外例如，一种利用核酸信息处理装置进行核酸信息处理的方法，所述核酸信息处理装置包括存储多个碱基序列信息的存储部和处理部，所述处理部实施以下步骤：阈值接收步骤，接收用来确定相似度阈值的信息；集群组成步骤，依据所述相似度阈值划分所述多个碱基序列并构成集群；以及代表碱基序列设定步骤，将所述集群中含有的所述碱基序列中的一个设定为代表碱基序列。

通过使用本发明，能够容易地对相当于DNA微阵列的、容易再次使用的探针组进行设计和变更。

附图说明

图1是表示本实施方式的核酸信息处理方法的概要的图。

图2是表示本实施方式所述核酸信息处理方法的杂交处理的概要的图。

图3是表示本实施方式所述杂交处理的概要的图。

图4是表示本实施方式所述核酸信息处理方法的虚拟杂交处理的概要的图。

图5是本实施方式所述核酸信息处理装置的功能方块图。

图6是表示靶片段存储部的数据结构的图。

图7是表示探针存储部的数据结构的图。

图8是表示相似度存储部的数据结构的图。

图9是表示杂交结果存储部的数据结构的图。

图10是表示集群存储部的数据结构的图。

图11是表示本实施方式的核酸信息处理装置的硬件构成的图。

图12是表示聚类处理的处理流程的图。

图13是表示聚类处理的处理流程的图。

图14是表示虚拟杂交处理的处理流程的图。

图15是表示完全杂交确定处理的处理流程的图。

图16是表示靶标比较处理的处理流程的图。

图17是表示聚类处理画面的例子的图。

图18是表示聚类处理结果画面的例子的图。

图19是表示聚类处理结果画面的例子的图。

图20是表示聚类处理结果画面的例子的图。

图21是表示虚拟杂交处理结果画面的例子的图。

图22是表示虚拟杂交处理结果画面的例子的图。

图23是表示靶标比较处理的概要的图。

图24是表示靶标比较处理的处理结果画面的例子的图。

图25是表示靶标比较处理的处理结果画面的例子的图。

图26是表示虚拟杂交处理中靶标的计数方法的图。

符号说明

1……导入数据

2……处理功能

3……数据库

4……导出数据

100……核酸信息处理装置

101……输入装置

102……外部存储装置

103……运算装置

104……主存储装置

105……通信装置

106……输出装置

107……总线

110……控制部

130……存储部

140……输出显示部

150……输入接收部

160……通信处理部

具体实施方式

针对上述技术中存在的问题，由于不存在完全相同的靶标，所以无法再次获得相同的靶标，而且1次所能制作的DNA微阵列的数量有限，因此在将其用尽后，必须再次制作不同的DNA微阵列。该作业不仅需要花费时间、精力和费用，同时还会在制作批次间产生误差。

后述本发明的实施方式中，由于使用碱基序列的电子信息虚拟地也就是说作为计算机上的处理，实施杂交，所以无需考虑靶标自身的保存问题。而且，能够比较容易地对相同靶标的碱基序列进行复制和再现。因此，上述问题就能够解决了。

下面，使用图1～图25，说明本发明的第一实施方式。

图1是显示使用核酸信息处理装置100即本发明的第一实施方式的例子处理核酸信息的概要的图。具体地说，图1是显示使用数字DNA芯片（数字数据的DNA微阵列）进行相似碱基序列的频率分析和核酸信息的比较的流程的图。

导入数据1中导入有从定序器输出的靶标的序列数据即片段碱基序列信息和通过使用DNA芯片而进行的实验所获得的DNA芯片的实验数据。核酸信息处理装置100的处理功能2，利用所导入的序列数据、DNA芯片的实验数据以及数据库3进行处理，数据库3中预先存储有使用上述两种数据进行下述各种分析后的结果。

处理功能2包括：按照分析流程，对序列数据进行聚类处理的功能；依据所聚类的数据制作探针的碱基序列列表，并设计包括它们在虚拟平面上的配置设定在内的数字DNA芯片的数字DNA芯片设计功能；读入从定序器输出的靶片段的碱基序列信息，并分析与探针的碱基序列列表的相似度及其频率的虚拟杂交功能；以及对两个虚拟杂交结果的组合、或者两个导入的DNA芯片实验数据的组合、或者虚拟杂交结果与DNA芯片实验数据的组合等组合中的任一组合，也可进行多个相似碱基序列的频率分析结果比较的功能。

此外，处理功能2还包括输出上述功能的各种分析结果，并显示在计算机画面中的功能。输出的数据为输出数据4中所示的靶片段组、聚类结果、探针组、探针碱基序列虚拟配置列表、虚拟杂交结果、以及比较分析结果等。

图2是显示核酸信息处理方法的杂交处理的概要的图。具体地说，图2中，使用DNA微阵列而进行的分析13和使用数字DNA芯片而进行的分析14包括准备作业10、相似碱基序列的频率分析11、以及所获得的结果12。

使用DNA微阵列而进行的分析中，作为靶标的准备作业10，将实施材料采集、DNA提取和DNA扩增。此外，作为探针的准备作业，将在制作探针序列列表后制作探针DNA，并制作DNA微阵列。然后，相似碱基序列的频率分析11中，将实施靶DNA与DNA微阵列的所谓杂交。

该杂交中，将会利用DNA微阵列中设置的单链的碱基序列可与具有互补性的靶标的单链的碱基序列通过氢键形成互补链的性质。另外，不仅是互补链，针对具有与DNA微阵列中设置的碱基序列相同的碱基序列的靶标的单链，也可作为阳性反应而获得。作为所获得的结果12，可列举每个探针的集群成员数。

利用数字DNA芯片而进行的分析14中，作为靶标的准备作业10，将实施材料采集、DNA提取和靶片段组制作。对于靶片段，通过利用定序器针对碱基序列确定碱基的序列数据来进行确定。此外，作为探针的准备作业，将制作探针组。探针组的制作中，既可以把过去制作的靶片段组数据重新组合，也可以利用现有的基因组数据库等的数据，例如Genomics＆Genetics At The Sanger Institute（http：//www.sanger.ac.uk/genetics/）的各种数据库的数据、VAMPS（Visualization and Analysis of Microbial Population Structures）的数据库的数据（http：//vamps.mbl.edu/）等公开数据库或未公开的各研究机关等独立运营的数据库等的数据。然后，相似碱基序列的频率分析11中，实施虚拟杂交，将靶片段的碱基序列数据与探针组的碱基序列数据一对一对照。

虚拟杂交中，利用碱基的互补性，按照每个靶片段的碱基序列，对探针组的碱基序列进行互补性的匹配处理，以及进行非互补性的而是依据与探针组的碱基序列的相似性的匹配处理，并确定对应的组合。作为所获得的结果12，可列举每个探针的集群成员数和所有靶核酸片段的碱基序列信息。此外，用作探针组的碱基序列信息不会损失，能够重复利用。

图3是显示使用DNA微阵列进行相似度的频率分析的流程中的杂交处理的概要的图。

一般说来，杂交处理中，会使用标记的靶核酸溶液21与DNA微阵列22，依据各探针与靶标的核酸分子之间的互补性的程度实施杂交实验。此时，使用DNA微阵列进行的杂交实验中，将会根据杂交及其后续的DNA微阵列的洗脱步骤中每个实验单位的物理化学条件（温度、pH值、离子强度、甲酰胺浓度、探针链长、探针量、靶核酸浓度、探针以及/或者靶标的核酸为双链还是单链等），规定互补性阈值。

实施杂交实验时，可获得例如杂交后的DNA微阵列23般的反应结果。放大查看该DNA微阵列的一部分24时，如DNA微阵列的一部分的杂交结果的放大图25所示，探针DNA片段28固定在DNA微阵列的基片26的探针样点区域27中。然后，当探针DNA片段和靶核酸片段的互补性高于上述物理化学条件下规定的互补性阈值的情况下，探针DNA片段和靶核酸片段会形成双链。根据该作用，可获得以下的物理化学结果，即依据杂交后标记的靶核酸片段29的分子数的多少，每个样点的标记信号的强弱会有所不同。

使用DNA微阵列进行的杂交中，通常会在数小时至一晩左右的杂交后进行洗脱作业，因此几乎需要1天时间。使用DNA微阵列进行的分析中，可获得每个探针ID31形成双链的靶片段数的概数（通过信号强度32表示的信息）的信息30。

图4是显示使用数字DNA芯片进行相似度的频率分析的流程中的虚拟杂交处理的概要的图。

虚拟杂交处理中会进行匹配处理47，在核酸信息处理装置100上按照每个碱基1对1地对照核酸片段列表41和探针碱基序列列表44的所有探针的碱基序列信息，该核酸片段列表41含有一个或多个以靶标中所含的所有以片段ID42确定的碱基序列43，探针碱基序列列表44中含有一个或多个以探针ID45确定的碱基序列46。此时，在探针的整个片段区域判定靶标与探针的片段内每个碱基对是否一致以及是否为应形成互补链的组合，并根据探针的片段内的一致条件的数字（总一致率、最长连续一致碱基数、最长连续一致率等）规定相似度阈值。

关于靶核酸的碱基序列，当实施匹配处理47，并按照上述方法1：1对照探针的碱基序列和靶核酸的碱基序列后计算出的相似度的值高于上述以数字规定的相似度阈值时，核酸信息处理装置100会确定由探针ID51代表的碱基序列为相似的片段的集合的集群，并且实施追加处理48，将其追加为虚拟杂交结果表50中的集群成员。具体地说，核酸信息处理装置100会增加集群成员数52，并追加靶标的片段ID42作为集群成员的片段ID53，追加靶标的碱基序列43作为集群成员的碱基序列54。

另外，关于靶核酸的碱基序列，当计算出的相似度的值低于相似度阈值时，核酸信息处理装置100不会将其追加到虚拟杂交结果表50中作为对照对象的探针的碱基序列的集群中，而是进行对照对象的变更55（以不同的探针ID的碱基作为对照对象），变更要对照的探针的碱基序列，再次实施匹配处理47。当靶核酸的碱基序列在结束与所有探针的碱基序列的匹配处理47后仍未成为任一个探针的碱基序列的集群成员时，核酸信息处理装置100不会将其加入虚拟杂交结果表50中，而是将其作为阴性反应组。

这样，核酸信息处理装置100在将对照对象的靶核酸的碱基序列归属为任一个探针的碱基序列的集群或者阴性反应组后，会实施对照对的变更56，重新选择要对照的靶核酸的碱基序列和探针的碱基序列的对，并实施匹配处理47等处理。关于靶核酸的所有碱基序列，在重复完成上述操作后，核酸信息处理装置100会按照虚拟杂交结果表50的各探针ID51，统计加入了集群的靶核酸的碱基序列的个数，将其作为集群成员数而算出。

完全可以认为，即使在使用数字DNA芯片进行的虚拟杂交中受到核酸信息处理装置的演算性能等的较大影响，该处理最多也可在数小时以内结束。因此，通过使用数字DNA芯片可缩短处理时间的可能性极大。

实施上述相似碱基序列的频率分析，并作为最终结果而获得的信息是指，在使用数字DNA芯片进行的分析中，每个探针中与该碱基序列具有规定相似度的靶片段的集群中所属的片段数、以及在靶准备段阶获得的所有靶片段的所有碱基序列信息。

图5是显示核酸信息处理装置100的功能方块图。核酸信息处理装置100具有控制部110、存储部130、输出显示部140、输入接收部150、以及通信处理部160。控制部110具有输入处理部111、输出处理部112、探针生成部113、靶片段生成部114、杂交部115、完全杂交确定部116、片段比较部117、集群控制部118、相似度分析部119、以及集群分类部120。

输入处理部111通过通信处理部160接收从未图示的客户终端（例如装有Web浏览器的个人计算机）发出的输入信息。另外，并不仅限于此，输入处理部111也可通过下述输入装置101接收输入信息。

输出处理部112通过通信处理部160向客户终端发送输出信息。输出信息为图1所示的靶片段组、聚类结果、探针组、探针碱基序列虚拟配置列表、虚拟杂交结果、以及比较分析结果等。另外，输出处理部112也可通过后述输出装置106输出输出信息。

探针生成部113使用碱基序列数据，生成与数字DNA芯片相当的探针信息。具体地说，探针生成部113会针对现有的数字DNA芯片的信息以及用作其他探针的碱基序列数据，依序分配构成识别码的探针ID、该探针ID所属的探针组ID、与确定DNA微阵列上的位置的信息相当的块位置、以及用来确定块上的位置的样点位置。然后，探针生成部113将该碱基序列数据的链长（碱基数）与用来确定碱基序列的信息建立对应关系，存储到后述探针存储部132中。另外，探针生成部113也可以将以例如FASTA和BLAST（Basic Local Alignment Search Tool）等现有软件包中使用的规定数据形式提供的碱基序列数据转换为规定的数据形式。另外，FASTA是指能够在生物信息学方面使用碱基序列查询或者蛋白质的氨基酸序列查询来检索碱基序列数据库或者氨基酸数据库，并判定相似度的软件。该FASTA中通过以纯文本方式记录碱基序列的信息的记载方式即FASTA格式来记载碱基序列。本实施方式中，BLAST是指在生物信息学方面进行DNA的碱基序列或者蛋白质的氨基酸序列的序列比对时所需的算法。此外，按照一般的叫法，实际安装了该算法的程序也称为BLAST。例如使用未知的碱基序列对基因组的序列数据库进行检索时，BLAST可提取出相似度较高的序列组、其相似度、一致率、一致部分的开始位置/结束位置、以及靶碱基序列上的一致部分的开始位置/结束位置。

靶片段生成部114可将通过定序器等读取的构成靶标的一系列碱基序列的信息与从其他碱基序列中识别出该碱基序列的片段ID建立对应关系后，存储到后述靶片段存储部131中。具体地说，对每个从定序器输出的碱基序列数据分配独有的识别编号等，并存储到靶片段存储部131中。

杂交部115进行虚拟杂交。具体地说，杂交部115将确定存储在靶片段存储部131中的靶片段的碱基序列与存储在探针存储部132中的探针的碱基序列的相似度为阈值以上的组合，并计数每个探针ID中相似度为规定阈值以上的靶片段的数量以及由完全杂交确定部116确定的完全杂交的数量。另外，本实施方式的相似度是指一般的概念，可通过相似率、比对率等进行测定。

完全杂交确定部116依据实施过相似度分析的结果，提取一致部分数据并使其连接，确定与从探针碱基序列的开始位置到结束位置的整个碱基序列的相似度为规定值以上的碱基序列。具体地说，完全杂交确定部116会从相似度存储部133中提取含有与探针碱基序列的相似率为规定值以上的靶片段的碱基序列在内的部分一致的靶片段的碱基序列，将其作为一致部分数据，并依据一致的开始位置和结束位置依序连接，如果可连接到探针碱基序列的结束位置，则将连接的一致部分数据的序列确定为完全杂交。

另外，完全杂交确定部116在一个一致部分数据与探针碱基序列的相似部分为探针的全部碱基序列的情况下，将该一致部分数据确定为完全杂交。

此外，完全杂交确定部116不仅限于这种处理，也可以例如从探针的开始端和结束端向中央连接部分地一致的一致部分数据，一致部分数据不间断地连接的情况下，将该连接好的一致部分数据的组确定为完全杂交。

也就是说，完全杂交确定部116在一个一致部分数据与探针碱基序列的相似部分为探针的全部碱基序列的情况下，或者探针的碱基序列中虚拟杂交的靶片段中的多个核酸片段与该探针的碱基序列的相似部分不间断地连接后，整个与该探针的碱基序列的相似部分中包括该探针的全部碱基序列的情况下，将该一致部分数据确定为完全杂交。

片段比较部117实施靶标比较处理，比较不同的2个靶片段组。例如，片段比较部117会确定针对同一个探针的集群成员数的差异，并输出使用相同探针组进行虚拟杂交的2个不同的靶片段组、例如从同一海域不同时期采集的海水中提取的靶片段的结果信息。

集群控制部118进行聚类处理，将靶片段分类为规定数以下的集群群。集群控制部118在成为分类为集群的对象的靶片段组内，根据靶片段之间的相似度进行分组，形成多个集群。具体地说，集群控制部118将相似度阈值慢慢下降到接收的集群上限数以下并形成组，成为上限数以下的情况下，结束分类到集群群的处理。另外，集群控制部118将相似度的阈值慢慢下降到规定值（例如1.0E+01）的情况下，不会将阈值下降到该值以下而是进行固定，其后如果代表序列之间的相似度为阈值以上，则将集群进行合并。

相似度分析部119可确定2个碱基序列数据的相似度。具体地说，相似度分析部119会根据碱基的互补性，确定2个碱基序列数据的相似率、比对率、相似部分的开始位置和结束位置。也就是说，其原理为，当与一个碱基序列数据的碱基对应的具有互补性碱基包含在另一个碱基序列数据中的情况下，判断与这些碱基邻接的碱基是否也呈互补性地对应。重复操作直至出现不与其对应的碱基，此外对不同的碱基对的对应也同样进行判定，并将对应的部分确定为相似部分。另外，相似部分的开始位置与结束位置的距离较长的组合为该碱基序列数据的相似数据。另外，相似度分析部119不仅判定碱基的互补性对应，也对碱基的同一性进行判定，并判定相似度。也就是说，相似度分析部119在一个碱基序列数据（例如靶标）中所含的一系列碱基序列与另一个碱基序列数据（例如探针）中所含的一系列碱基序列具有规定值以上的相似度的情况下，将该一个一系列碱基序列称为该另一个碱基序列数据的相似部分。确定该相似度时，可以利用现有的BLAST等算法。

集群分类部120根据相似度，将靶片段分类为多个集群。具体地说，集群分类部120根据靶片段中的一个片段设定一个代表集群，判断其他片段与该集群的代表片段的相似度是否为规定以上，如果相似度为规定以上，则属于该集群。相似度并非规定以上的情况下，集群分类部120在有其他集群时，会判定其与该集群的代表片段的相似度，如果相似度为规定以上，则属于该集群。片段中的其他集群的相似度全都并非规定以上时，集群分类部120会设定以该片段为代表片段的新集群。

存储部130包括靶片段存储部131、探针存储部132、相似度存储部133、杂交结果存储部134、以及集群存储部135。此外，存储部130可以是固定设置在核酸信息处理装置100中的存储装置等，也可以是独立的储存装置等。

靶片段存储部131如图6所示，包括含有用来识别片段的信息的片段ID1311、以及通过片段ID1311确定的碱基序列信息1312即片段的碱基序列信息。

探针存储部132如图7所示，包括：探针组ID1321，其含有用来识别探针所属的探针组（数字DNA芯片）的信息；探针ID1322，其含有用来识别探针的碱基序列的信息；链长1323，即通过探针ID1322确定的碱基序列的碱基数；碱基序列信息1324，即通过探针ID确定的探针的碱基序列的信息；块位置1325，其确定通过探针ID确定的探针的碱基序列在通过探针组ID1321确定的数字DNA芯片上的大概配置位置；以及样点位置1326，其确定块内的详细配置位置。

相似度存储部133如图8所示，包括：含有用来识别分析相似度的一个对象即片段的碱基序列的信息的片段ID1331、含有用来识别分析相似度的对象的对象即探针的碱基序列的信息的探针ID1332、通过片段ID1331识别的片段的碱基序列与通过探针ID1332识别的探针的碱基序列的相似度1333、比对率1334、片段的碱基序列上的相似部分的开始位置即片段上的开始位置1335、片段的碱基序列上的相似部分的结束位置即片段上的结束位置1336、探针的碱基序列上的相似部分的开始位置即探针上的开始位置1337、以及探针的碱基序列上的相似部分的结束位置即探针上的结束位置1338。

杂交结果存储部134如图9所示，是存储虚拟杂交的结果信息的存储部，按每个含有用来识别探针的碱基序列的信息的探针ID1341，建立对应关系并存储以相似度为规定阈值以上的片段数量表示的频率1342。

集群存储部135如图10所示，对应每个含有用来识别通过聚类处理分类好的靶片段组的信息的集群ID1351，存储着代表片段ID1352以及代表片段碱基序列信息1353即代表片段的碱基序列信息，代表片段ID1352含有用来识别代表集群的片段的信息。此外，集群存储部135对应每个集群ID1351，存储着片段ID1354以及该片段的碱基序列的信息即碱基序列信息1355，片段ID1354含有用来识别属于该集群的片段的信息。

输出显示部140可输出核酸信息处理装置100的GUI或者CUI等各种信息。输入接收部150可接收GUI或者CUI的操作信息的输入。

通信处理部160可通过未图示的网络等连接到其他机器，接收来自所连接的其他机器的信息，并向所连接的其他机器发送信息。

图11是显示本实施方式中核酸信息处理装置100的硬件构成的图。

本实施方式中，核酸信息处理装置100可例如为专用的硬件装置。但并不限定于此，也可以是具有高通用性的PC（个人计算机）、工作站、服务器装置、各种移动电话终端、以及PDA（Personal Digital Assistant，个人数码助理）等计算机。

核酸信息处理装置100具有输入装置101、外部存储装置102、运算装置103、主存储装置104、通信装置105、输出装置106、以及将各装置相互连接的总线107。

输入装置101是例如键盘、鼠标、触笔、其他定点设备等可接收输入的装置。

外部存储装置102是例如硬盘装置和闪存等非易失性存储装置。

运算装置103是例如CPU（Central Processing Unit，中央处理器）等运算装置。

主存储装置104是例如RAM（Random Access Memory，随机存取存储器）等存储器装置。

通信装置105是通过天线进行无线通信的无线通信装置或者通过网络电缆进行有线通信的有线通信装置。

输出装置106是例如显示器等进行显示的装置。

核酸信息处理装置100的存储部130可通过主存储装置104或者外部存储装置102得以实现。

此外，核酸信息处理装置100的输入处理部111、输出处理部112、探针生成部113、靶片段生成部114、杂交部115、完全杂交确定部116、片段比较部117、集群控制部118、相似度分析部119、以及集群分类部120可通过使核酸信息处理装置100的运算装置103进行处理的程序来实现。

该程序存储在主存储装置104或者外部存储装置102内，执行时读取到主存储装置104上，由运算装置103来执行。

此外，核酸信息处理装置100的输出显示部140可通过核酸信息处理装置100的输出装置106来实现。

此外，核酸信息处理装置100的输入接收部150可通过核酸信息处理装置100的输入装置101来实现。

此外，核酸信息处理装置100的通信部160可通过核酸信息处理装置100的通信装置105来实现。

以上为核酸信息处理装置100的硬件构成。另外，核酸信息处理装置100的硬件构成和处理部等的构成并不限定于上述例，也可以使用例如可替代的不同部件等形成不同的构成。

例如，为便于理解核酸信息处理装置100的构成，可根据主要的处理内容，分类为核酸信息处理装置100的输入处理部111、输出处理部112、探针生成部113、靶片段生成部114、杂交部115、完全杂交确定部116、片段比较部117、集群控制部118、相似度分析部119、以及集群分类部120。因此，本发明并不受限于构成要素的分类方法及其名称。核酸信息处理装置100的构成也可以根据处理内容，再分类为更多的构成要素。此外，也可以分类为1个构成要素执行更多的处理。

此外，核酸信息处理装置100的各功能部也可由硬件（ASIC、GPU等）构筑而成。此外，各功能部的处理可由一个硬件来执行，也可由多个硬件来执行。

［动作说明］接着，依据图12、13说明本实施方式中核酸信息处理装置100实施的聚类处理的流程。图12和图13是显示聚类处理的流程图。另外，通过网络从未图示的PC等客户终端接收了通过Web浏览器等委托执行的聚类处理后，将开始聚类处理。

首先，集群控制部118会构成输入集群设定值（相似度阈值和集群上限数）画面。然后，输出处理部112将构成的画面发送给委托执行的要求方（步骤S001）。具体地说，集群控制部118构成作为相似度阈值的E-value和序列长度、以及集群上限数的输入画面，输出处理部112将构成的画面发送给委托执行的要求方。

输入处理部111接收有关相似度阈值和集群上限数的输入（步骤S002）。具体地说，输入处理部111将接收由客户终端的Web浏览器作为参数发送来的E-value和序列长度、以及集群上限数。

集群控制部118将通过输入处理部111等接收了指定的成为聚类对象的靶片段的碱基序列数据全部转换为可使用BLAST软件进行处理的形式的数据（步骤S003）。具体地说，集群控制部118将通过输入处理部111等接收了指定的成为聚类对象的靶片段的碱基序列数据（例如可使用FASTA软件进行处理的形式）全部转换为可使用BLAST软件进行处理的形式的数据。

然后，集群分类部120将选择不属于集群的靶片段（步骤S004）。具体地说，集群分类部120从可使用FASTA软件进行处理的数据形式的靶片段组中，选择一个不属于任何集群且未经过集群的分类处理的靶片段。

接着，集群分类部120将判定现有集群中有无未选择的集群（步骤S005）。具体地说，集群分类部120将判定通过聚类处理形成的现有集群中是否留有未选择的集群。

如果现有集群中有未选择的集群（步骤S005为“是”时），集群分类部120会确定该未选择的现有集群，将该集群的代表序列设为选中状态（步骤S006）。

然后，相似度分析部119将确定处于选中状态的代表序列和所选择的靶片段的相似度（步骤S007）。具体地说，相似度分析部119将与BLAST软件同样地确定两序列的相似度（相似率、比对率、靶片段上的相似部分的开始位置和结束位置以及探针碱基序列上的相似部分的开始位置和结束位置），并存储到相似度存储部133中。另外，该处理中，相似度分析部119将使用步骤S002中接收的相似度阈值，确定相似度。

然后，集群分类部120将判定所确定的相似度是否为相似度阈值以上（步骤S008）。具体地说，集群分类部120将判定步骤S007中确定的处于选中状态的代表序列与所选择的靶片段的相似度是否为步骤S002中接收的相似度阈值以上。

并非相似度阈值以上的情况下（步骤S008为“否”时），为了确定与其他集群的代表片段的相似度，集群分类部120会将控制返回到步骤S005。

为相似度阈值以上的情况下（步骤S008为“是”时），集群分类部120会使靶片段及其同属集群内的片段归属于所选择的代表序列所属的集群（步骤S009）。更具体地说，当有比较过相似度的靶片段归属过的集群时，集群分类部120会使靶片段与属于该集群的所有片段一同归属于比较过相似度的代表序列所代表的现有集群。此时，关于改变了所属对象的靶片段，集群分类部120会从该靶片段之前所属的集群中删除该靶片段。

然后，集群分类部120会将集群信息存储到集群存储部135中（步骤S010）。具体地说，集群分类部120会将步骤S009中归属的片段的所有信息存储到集群存储部135的片段ID1354和碱基序列信息1355中。另外，没有新归属的片段的情况下，集群分类部120无需将信息存储到集群存储部135中，因此不用特别进行处理。

然后，集群分类部120将判定是否留有未归属的靶片段（步骤S011）。具体地说，集群分类部120将判定靶片段组中是否留有不属于任何集群的靶片段。

有未归属的靶片段的情况下（步骤S011为“是”时），集群分类部120会将控制返回到步骤S004。

未留有未归属的靶片段的情况下（步骤S011为“否”时），集群控制部118会将处理推进到下述步骤S013。

上述步骤S005的判定中，现有集群中并无未选择的集群的情况下（步骤S005为“否”时），集群分类部120会新设以靶片段为代表序列的集群（步骤S012）。具体地说，集群分类部120会将靶片段的信息存储到代表片段1352和代表片段碱基序列信息1353中。

然后，集群控制部118将判定集群数是否大于集群上限数（步骤S013）。具体地说，集群控制部118将计数存储在集群存储部135中的集群ID1351的数量，并与步骤S002中接收输入的集群上限数进行比较。集群数为集群上限数以下的情况下（步骤S013为“否”时），集群控制部118将结束聚类处理。

集群数大于集群上限数的情况下（步骤S013为“是”时），集群控制部118将集中各集群的代表序列，制作靶片段（步骤S014）。

然后，集群控制部118将E-Value即相似度阈值设定为1.0E+10倍（步骤S015），并将控制返回到步骤S003。如此，能够在放宽相似度后判定集群代表序列之间的相似度，并进行整合，将集群控制为上限数以下。另外，将E-Value设定为1.0E+10倍后，如果E-Value超过1.0E+01即预设值，则集群控制部118会将E-Value设定为1.0E+01，并将控制返回到步骤S003。

以上为聚类处理的流程。通过聚类处理，核酸信息处理装置100可依据所指定的相似度阈值和集群上限数，对靶片段进行聚类。也就是说，可对靶标进行划分，使靶标的相似度为规定以上。通过本实施方式的聚类处理获得的集群中，代表序列之间的同源性间隔为固定以上。此时可以认为，以含有多种生物体等的靶标为对象划分为集群时，根据大数法则，可获得同源性间隔大致固定的多个集群。这在以含有所构成的碱基序列等未知的生物体等的靶为对象，想要制作相似度固定的探针等时有效，例如为掌握碱基序列的构成随时间而发生的变化的趋势而实施实验等时。

接着，依据图14说明本实施方式中核酸信息处理装置100实施的虚拟杂交处理的流程。图14是显示虚拟杂交处理的流程图。另外，通过网络从未图示的PC等客户终端接收了通过Web浏览器等委托执行的虚拟杂交处理后，将开始虚拟杂交处理。

首先，探针生成部113会以现有的数字DNA芯片信息为探针序列，转换为BLAST数据（步骤S101）。具体地说，探针生成部113会针对现有的数字DNA芯片的信息以及用作其他探针的碱基序列数据，分配构成识别码的探针ID、该探针ID所属的探针组ID、与确定DNA微阵列上的位置的信息相当的块位置、以及用来确定块上的位置的样点位置。然后，探针生成部113将该碱基序列数据的链长（碱基数）与用来确定碱基序列的信息建立对应关系，存储到后述探针存储部132中。然后，探针生成部113会将现有的数字DNA芯片的信息和用作其他探针的碱基序列数据转换为BLAST软件包中使用的规定数据形式。

然后，输入处理部111将接收相似度阈值（E-Value和序列长度）的输入（步骤S102）。具体地说，输出处理部112将向客户终端发送并显示规定的相似度阈值的输入画面，输入处理部111将接收所输入的相似度阈值的值。

然后，杂交部115依据靶片段生成部114预先存储于靶片段存储部131中的信息，对每个片段序列分析与探针序列（例如每个集群的代表序列）的相似度（步骤S103）。具体地说，杂交部115以靶片段的碱基序列和探针的碱基序列的所有组合为对象，委托相似度分析部119进行处理，分别确定相似度以及靶片段的碱基序列上和探针的碱基序列上的相似部分的开始位置和结束位置。

然后，杂交部115将分析相似度后的结果存储到相似度存储部133中（步骤S104）。

杂交部115根据相似度分析结果，按照每个探针计数相似度为相似度阈值以上的片段数，并存储到杂交结果存储部134中（步骤S105）。

以上为虚拟杂交处理的流程。通过虚拟杂交处理，核酸信息处理装置100能够对每个探针碱基序列计数相似度为所指定的相似度阈值以上的靶片段的数量。也就是说，探针碱基序列为集群的代表序列的情况下，能够针对靶内所含的碱基序列，按每个集群分别确定其频率。此外，通过虚拟杂交处理，核酸信息处理装置100能够确定所有靶标与探针的组合的相似度及其部位。另外，上述处理的步骤S105中，杂交部115也可以按每个探针计数通过下述完全杂交确定处理判定为完全杂交的一系列碱基序列，并存储到杂交结果存储部134中。如此，即使片段为比探针序列更小的细片的情况下，也能够获得恰当的频率。

接着，依据图15说明本实施方式中核酸信息处理装置100实施的完全杂交确定处理的流程。图15是显示完全杂交确定处理的流程图。另外，由于完全杂交确定处理会使用虚拟杂交处理的结果实施处理，所以会接着虚拟杂交处理开始。或者通过网络从未图示的PC等客户终端接收了通过Web浏览器等委托执行的完全杂交确定处理后，将开始完全杂交确定处理。

首先，完全杂交确定部116会从相似度存储部133中提取一致部分数据（步骤S201）。一致部分数据中含有完全一致部分数据。另外，本实施方式中，一致部分数据是指靶片段中具有与探针序列的相似度为规定值以上的相似部分（也就是说与探针序列的相似性为规定的相似部分）的靶片段的碱基序列数据。此外，完全一致部分数据是指靶片段中仅具有与探针序列的相似度为完全一致的相似部分的靶片段的碱基序列数据。

完全杂交确定部116从所提取的一致部分数据中以探针上的开始位置的升序提取未处理的一件，并作为查询（步骤S202）。具体地说，完全杂交确定部116将步骤S201中提取的一致部分数据按照探针上的开始位置1337的升序进行排序，从排序好的前端的一致部分数据的相似部分的开始位置和探针上的开始位置1337相同的一致部分数据中，将未处理的一件为对象，尝试提取其作为查询。另外，此时完全杂交确定部116还仅以一致部分数据的相似部分的结束位置（也就是片段上的结束位置1336）与一致部分数据的结束位置（也就是片段的最末尾位置）一致的靶片段（也就是说，包括完全一致部分数据）作为提取对象。

完全杂交确定部116判定能否提取查询（步骤S203）。不能提取的情况下（步骤S203为“否”时），完全杂交确定部116会结束完全杂交确定处理。

能够提取查询的情况下（步骤S203为“是”时），完全杂交确定部116会判定该查询的碱基序列的相似部分的结束位置（片段上的结束位置1336）是否为一致的探针的结束位置（探针上的结束位置1338）（步骤S204）。

是探针的结束位置的情况下（步骤S204为“是”时），完全杂交确定部116会将查找过的一系列查询作为完全杂交，存储在存储部130的规定区域中（步骤S205）。然后，完全杂交确定部116会将控制返回到步骤S202。

并非探针的结束位置的情况下（步骤S204为“否”时），完全杂交确定部116会判定查询的一致部分数据的相似部分的结束位置（也就是片段上的开始位置1336）是否为一致部分数据的结束位置（也就是片段的最末尾的位置）（步骤S206），并非一致部分数据的结束位置的情况下，会作为查询重新选择与通过步骤S206查找的一致部分数据不同的一致部分数据（步骤S207），并将控制返回到步骤S204。是一致部分数据的结束位置的情况下，完全杂交确定部116会查找以查询的结束位置的下一位置为开始位置的一致部分数据（步骤S208）。另外，此时完全杂交确定部116还仅以一致部分数据的相似部分的开始位置（也就是片段上的开始位置1335）为一致部分数据的开始位置（也就是片段的前端位置）的靶片段（也就是说，包括完全一致部分数据）作为提取对象。

然后，完全杂交确定部116将判定查找的结果中有无符合的一致部分数据（步骤S209）。没有相符的一致部分数据的情况下（步骤S209为“否”时），完全杂交确定部116会将控制返回到步骤S202。

有相符的一致部分数据的情况下（步骤S209为“是”时），完全杂交确定部116会以符合的一致部分数据作为查询，提取一件（步骤S210）。然后，完全杂交确定部116会将控制返回到步骤S204。

以上为完全杂交确定处理的流程。通过完全杂交确定处理，核酸信息处理装置100在组合一个或多个一致部分数据（包括相似部分覆盖整个片段长度区域的完全一致部分片段）后，能够针对从探针的开始位置到结束位置的所有碱基序列，确定相似度为规定值以上的碱基序列。也就是说，即使靶片段的碱基链长较短，也能够将虚拟杂交的精度维持在一定程度。此外，完全杂交确定处理中并不限定于上述，例如也可以将探针上的相似部分的一部分中存在重复的相似部分的多个靶片段进行组合后，将与探针完全一致的碱基序列确定为完全杂交。如此，能够允许使用相似部分的一部分存在重复（也就是说，有重叠部分）的多个靶片段进行完全杂交。

以下，使用图26说明此内容。图26是显示本实施方式中虚拟杂交处理的靶标的计数方法的图。

本实施方式中，设想了3种靶标的计数方法。第一种如上所述，是以靶片段为单位的计数方法501。这是以杂交的靶片段为单位进行计数的方法，也就是说单纯计数含有相似部分的靶片段的数量的方法。第二种如上所述，是以直线连接为单位的计数方法502。这是计数靶片段的相似部分不间断地连接的多个靶片段组的数量的方法。例如，不间断地连接3个靶片段的相似部分时，如果其与探针相似，则计数该3个靶片段的组的方法。第三种如上所述，是以连接为单位的计数方法503。这是计数多个靶片段的相似部分的一部分相互连接的多个靶片段的组的数量的方法。这与以直线连接为单位的计数方法502不同，是一种即使在连接靶片段时组中的相似部分存在部分重叠，也会进行计数的方法。也就是说，以直线连接为单位的计数方法502可以认为是允许略微误差的计数方法。

接着，依据图16说明本实施方式的核酸信息处理装置100实施的靶标比较处理的流程。图16是显示靶标比较处理的流程图。另外，由于靶标比较处理会使用虚拟杂交处理的结果实施处理，所以会接着虚拟杂交处理开始。或者通过网络从未图示的PC等客户终端接收了通过Web浏览器等委托执行的完全杂交确定处理后，将开始完全杂交确定处理。

首先，输入处理部111会接收使用同一个探针组的2个虚拟杂交结果的指定（步骤S301）。具体地说，输入处理部111会接收使用同一个探针组的2个虚拟杂交结果、也就是说对于同一个探针组实施虚拟杂交的不同靶片段组的杂交结果存储部134的指定。

片段比较部117会提取所接收的虚拟杂交结果信息（步骤S302）。具体地说，片段比较部117会分别读取所接收的2个杂交结果存储部134的信息。

然后，片段比较部117会按照同一个探针确定虚拟杂交结果的差值（步骤S303）。具体地说，片段比较部117会对共同的探针分别确定集群成员数，将其中一个减去另一个，求得差值。

片段比较部117会按照同一个探针确定虚拟杂交结果的比值（步骤S304）。具体地说，片段比较部117会对共通的探针分别确定集群成员数，并求得其中一个与另一个的比值。

输出处理部112会按照同一个探针输出虚拟杂交结果的差值和比值（步骤S305）。具体地说，输出处理部112会对共通的探针输出在步骤S304和步骤S305中求得的集群成员数的差值和比值。

此外，输出处理部112会按同一个探针，以比的顺序排列输出虚拟杂交结果（步骤S306）。具体地说，输出处理部112会对共通的探针按照集群成员数的比值的降序进行排列并输出。另外，当然输出处理部112也可以按照集群成员数的比值的升序进行排列并输出。

以上为靶标比较处理的流程。通过靶标比较处理，能够容易地比较2个靶标的成分。另外，靶标比较处理过程中，也可以在虚拟杂交的结果之间、或者所导入的DNA芯片实验数据之间、或者虚拟杂交的结果与DNA芯片实验数据的组合中的任一种组合内，比较多个相似碱基序列的频率分析结果。另外，如上所述，虚拟杂交处理的结果可通过数值数据即每个探针的片段数来获得信息，DNA芯片实验数据的结果可获得荧光色素的荧光强度的相对值，因此很难单纯地将两者进行比较。因此，靶标比较处理过程中，片段比较部117也可以针对虚拟杂交的结果，计算每个探针的计数值与片段总数的比例，针对DNA芯片实验数据的结果，计算每个探针的荧光强度与整个芯片的荧光强度的比例，然后比较两者。

以上说明了本发明的第一实施方式。根据本发明的第一实施方式，能够将探针碱基序列与靶碱基序列进行虚拟地杂交。此外，也能够通过聚类处理由靶碱基序列构成集群，并依据集群制作探针碱基序列。此外，也能够在相对于同一个探针的杂交结果之间进行比较，并显示它们的差值。例如，关于从在同一海域不同时期采集的海水中提取的靶片段，能够输出相对于同一个探针的集群成员数的变化。由于能够显著地显示同一海域中所含的核酸碱基序列的结构的随时间发生的变化，所以这能够运用到例如统计特定成分的变化，预测发生规定异常（赤潮等）的发生征兆等的操作中。

根据本发明的第一实施方式，可测定分析对象的所有核酸的碱基序列，并使用其全部在计算机上对该材料中含有的核酸碱基序列的种类和频率进行信息分析，因此与通过使用DNA微阵列的实验来进行相似碱基序列的频率分析时不同，在下一次分析时无需再次获得靶片段的碱基序列信息。

此外，虽然测序过程中仍可能会产生实验误差，但基于所决定的碱基序列信息的相似碱基序列的频率分析并无误差，因此只要使用同一个探针碱基序列的列表与靶片段的碱基序列组的组合，根据通过虚拟杂交获得的相似碱基序列的频率分析得出的结果便可获得具有100%再现性的高精度的数据。

此外，通过使用DNA微阵列的实验进行的相似碱基序列的频率分析中，由于探针DNA的GC含有率和序列特性各不相同，所以即使在同一个微阵列内，实际的杂交中相似度的程度也会根据每个探针而有所不同，并且很难修正该差异。但是，由于对虚拟杂交全部在计算机上仅进行信息分析，所以如上所述，能够通过将靶片段的碱基序列对于整个探针碱基序列的一致率以及/或者靶片段的碱基序列对于探针碱基序列的一致碱基序列的长度确定为任意数值，从而规定探针碱基序列和靶标的核酸片段的碱基序列的相似度的程度。

此外，随着将单个或者多个靶标中含有的核酸片段连接，仅在得出整个探针碱基序列中相似度为规定值以上的结果时，将其作为获得了完全虚拟的杂交，并将其设为阳性，分析其频率，因此在分析时能够提高相对于探针碱基序列的相似度程度。

其中，特别是在分析能否将整个探针碱基序列中具有相似度的多个靶标中含有的核酸片段进行连接时，信息处理量会非常大且很复杂，因此以往无法通过实验来处理，但通过上述分析方法可容易地实现。例如对确定的基因或者整个区域中相似度为一定值以上的靶标中含有的核酸的种类和频率进行分析的情况下，这种分析方法非常有效。

此外，虽然使用DNA微阵列进行实验时靶片段的碱基序列不明，但使用数字DNA芯片进行分析时，可在准备作业的阶段测定所有靶片段的所有碱基序列，因此能够从靶中含有的核酸片段的碱基序列的列表中，以任意条件多次制作探针碱基序列的列表。因此，使用该方法能够对始终具有100%再现性的新的探针序列的列表多次实施虚拟杂交。由于使用DNA微阵列进行实验时，每次实验都会消耗靶核酸，可使用具有新的探针碱基序列的DNA微阵列进行实验的次数存在限制，因此该方法具有非常大的优点。

此外，由于会对于作为基准的核酸片段，一个片段一个片段地依序分析相似度是否为规定值以上后再进行聚类，并在相似度为规定值以上时确定集群，因此与循环判定靶中含有的所有核酸片段的碱基序列之间的相似度是否为规定值以上的方法相比，能够大幅减少为进行聚类而判定有无相似度的作业次数，因此能够缩短聚类所需的时间，减小聚类所需的计算机容量。

此外，进行集群的分类的情况下，能够以靶标中含有的片段数设为最大值，任意地决定集群数的上限数。通过该上限值的决定方法，能够增减集群的大小。其结果是，例如宏基因组分析中使用该集群分类方法时，通过决定集群数的上限后进行分类，能够将集群的分类等级增减为例如大小与种的分类程度相当的集群、大小与属的分类程度相当的集群、以及大小与科的分类程度相当的集群等，可容易地知晓分析对象的分类结果的概要。

此外，如果以任意条件从靶标中含有的核酸片段的碱基序列的列表中制作探针碱基序列的列表，则即使是小容量的计算机，也能够迅速地制作新的探针碱基序列的列表。

此外，如上所述，如果使用同一个探针碱基序列的列表分别通过虚拟杂交对多个靶中含有的核酸的种类和频率进行分析，并在该多个靶之间比较每个探针的集群成员数，在靶间提取集群成员数不同的集群，则通过虚拟杂交进行分析的所有的信息，能够将靶间的核酸的种类和频率的差异以100%的再现性分析出来。因此，可以弥补在通过使用DNA微阵列的实验进行的分析中，杂交的结果以及由此产生的多个靶间的比较数据无法实现再现性100%的缺点。

此外，如果使用通过虚拟杂交比较分析多个靶标中含有的核酸的种类和频率的方法来分析按时间系列采集的靶标，则能够以100%的再现性掌握每个探针的集群成员数的变化，因此与使用DNA微阵列的分析相比，能够提高对这种变化的现状把握以及对今后动向的预测精度。

此外，使用数字DNA芯片进行的分析也能够用于对各生物个体、部位、组织、细胞中的任一种或者它们的组合的分析。并且，数字DNA芯片是针对所有靶标制作靶标中含有的所有核酸片段的碱基序列的列表，因此容易进行整合。因此，能够通过分析结果的整合以新的步骤实施数字DNA芯片分析，例如在整合多个细胞的分析结果后，重新作为新的组织和部位进行分析等。

此外，在使用数字DNA芯片的分析结果之间进行的比较也可用于多个生物个体、部位、组织、细胞及其混合物中任一种的分析。此时，比较分析的结果的再现性也为100%。

此外，在数字DNA芯片的分析结果之间进行的比较也能够用于包含生物材料的液体、固体或者气体中任一种的分析，该生物材料具有多个生物个体、部位、组织、细胞及其混合物。例如可将其用于栖息在特定海域的海水中的微生物群的结构分析及其变化的分析等。此时，比较分析的结果的再现性也为100%。

以上，依据实施方式对本发明的实施方式进行了具体说明，但并不限定于此，可在不超出其思想的范围进行各种变更。

例如，上述实施方式中使用BLAST软件等现有技术实施相似度分析处理，但并不限定于此。例如，也可使用能够进行相似度分析的其他算法实施相似度的分析。如此，则能够实施更灵活的分析。此外，上述实施方式中，相似度的分析结果和虚拟杂交处理的结果主要存储在数据库等中，但也可根据聚类处理和虚拟杂交处理的进度，依次在画面上显示经过和结果。如此，则能够目视确认处理的进度，容易预测处理结束前所需的时间等。

此外，例如在上述实施方式中，核酸信息处理装置100是具有专用硬件的装置，但并不限定于此，例如也可以实际安装在可读取基因信息的定序器上。如此，则能够使硬件装备更简便。

另外，上述实施方式中的核酸信息处理装置100不仅能够作为装置而成为事务处理的对象，也能够作为实现机器的动作的程序部件单位而成为事务处理的对象。

实施例

以下具体说明本发明的实施例。但是，本发明并不限定于该实施例。

本实施例中，利用DNA定序器决定海水中的微生物DNA的碱基序列，使用该信息通过聚类制作探针碱基序列的列表，实施利用DNA定序器决定的海水中的微生物DNA的所有碱基序列与该探针碱基序列的列表的虚拟杂交，并进行了分析。并且，比较使2组海水中的微生物DNA的靶片段组分别在命名为“Y022L08_C10000_chip”的数字DNA芯片中进行虚拟杂交的结果。

首先，实施作业，从存在于特定海域的海水中的微生物DNA的碱基序列中获得靶碱基序列的数据。从在横滨市金泽区福浦附近的海岸进行采集，并经过玻璃纤维滤纸（Whatman公司制、无粘结剂、孔径0.7μm）过滤的约21升的海水中，使用Water DNA Isolation Kit（MO BIOLaboratories公司制、UltraClean with0.22μm Water Filter套件）提取20μg的基因组DNA。

使用微型控制器YM-100（Millipore公司制）将该基因组DNA溶液浓缩至约3倍，再使用Ribonuclease（DNase free）Solution（Nippon Gene公司制）以最终浓度10μg/ml在室温下实施RNA消化1小时。

接着，在基因组DNA溶液中等量添加Phenol/Chloroform/Isoamylalcohol（25:24:1、Nippon Gene公司制），在室温下慢慢混合5分钟后，利用微量高速离心机在20,400g、20℃的条件下离心5分钟，分离溶液层并回收水层溶液，实施本操作2次。在该水层溶液中等量添加氯仿（和光纯药工业公司制、试剂特级），在室温下慢慢混合5分钟后，利用微量高速离心机在20,400g、20℃的条件下离心5分钟，分离溶液层并回收水层溶液，实施本操作2次。

在该水层溶液中添加混合3M Sodium Acetate（Nippon Gene公司制），使最终浓度为0.2M，再加入水层溶液的2倍量的乙醇（和光纯药工业公司制、试剂特级、99.5%），在-20℃下实施乙醇沉淀2小时。利用微量高速离心机在20,400g、4℃的条件下将其离心20分钟后回收基因组DNA，使用利用Nippon Gene公司制Distilled Water（Deionized，Sterile）将乙醇（和光纯药工业公司制、试剂特级、99.5%）稀释为最终浓度70%的溶液500μl进行洗脱，并使其干燥。

将所获得的基因组DNA溶解于TE（Nippon Gene公司制、pH8.0）100μl中，获得5μg的基因组DNA。使用其中的500ng，按照RocheDiagnostics株式会社的定序器GS FLX钛用手册准备测序用靶标，并使用GS FLX钛决定该靶标中含有的所有DNA片段的碱基序列。碱基序列在整个定序器的样本分析中分为2部分，并将分别获得的结果命名为1.GAC.454Reads.fna和2.GAC.454Reads.fna。两者相加就是使用GS FLX钛的单次最大限度的序列结果。

其结果为，作为满足Roche Diagnostics株式会社推荐的碱基序列的品质的碱基序列，可获得1.GAC.454Reads.fna中661,821片段293,720,669碱基的碱基序列数据加上2.GAC.454Reads.fna中619,241片段261,548,803碱基的碱基序列数据即总片段数为1,281,062个、总碱基数为555,269,472的碱基序列。

为了利用使用数字DNA芯片的核酸信息处理装置100分析该数据，要将该数据导入核酸信息处理装置100中，首先制作虚拟杂交所需的探针碱基序列的列表，在所有数据中仅使用1片段的碱基数数据为100碱基以上的数据，以BLAST方式实施聚类处理，并实施探针生成处理。由于存在靶标中含有的所有核酸的碱基序列数据，所以使用该方法制作探针碱基序列组时，具有使用数字DNA芯片的分析方法的巨大优点。

图17～图20中例示了聚类的中途经过的导出。首先，加上1.GAC.454Reads.fna和2.GAC.454Reads.fna，将551,980,508碱基和1,235,592片段的碱基序列以集群数10,000个为靶进行聚类，获得图17所示的表200的结果。

表200具有靶片段组201、项目202、数据203这三大显示项目，其构成具体显示为核酸片段数211、碱基总数212、核酸片段链长最短213、核酸片段链长最长214、核酸片段链长平均215、作为聚类条件的方法216、靶集群数217、反复聚类次数218、相似度的阈值和集群数的推移219～221、集群文件名称222、集群数223、代表序列链长最短224、代表序列链长最长225、以及代表序列链长平均226等。集群控制部118获得规定值后，会在输出处理部112显示各显示项目。

本实施例中，首先将E-value阈值设定为1.0E-30，并以BLAST方式进行聚类，获得的集群数为482,014。于是，将E-value阈值提高为1.0E-20，实施集群代表序列的聚类。其结果为，所获得的集群数为445,858。由于其大于目标上限10,000，所以在其后将E-value阈值降低为1.0E-10、1.0E+00、甚至1.0E+01，重复进行聚类。但是，所获得的集群数为29,463，仍高出靶标的上限。于是再将E-value的值固定为1.0E+01，重复聚类，直至所获得的集群为10,000以下。通过总计6次的聚类，获得集群数8,224，将该聚类结果的集群组命名为“Y022L08_C10000”。

该集群组中含有的集群按照如图18所示的各集群名252，将其概要一览显示在表250中。表250中含有各集群ID251的集群名称252、代表序列链长253、以及集群序列数254。因此，能够一览显示代表碱基序列链长253和属于各集群的片段的数量（集群序列数254一栏的数值，相当于结合片段数）。另外，由于本实施例中集群数较多，所以图18中仅显示了表250的一部分。

接着，将上述集群组“Y022L08_C10000”的代表碱基序列全都作为虚拟杂交用的探针碱基序列的组，注册到命名为“Y022L08_C10000_chip”的数字DNA芯片的文件中，决定虚拟探针的二维配置。图19中显示了其结果即探针碱基序列虚拟配置列表260。探针碱基序列虚拟配置列表260具有与探针存储部132的内容大致相同的信息。

探针碱基序列虚拟配置列表260虚拟地显示了将“Y022L08_C10000_chip”的探针碱基序列在平板的DNA芯片基板上虚拟地配置为长方形状的位置。也就是说，将8,224种探针碱基序列的位置首先分为24行4列的块，再将块内的位置分为8行12列，然后进行确定。另外，由于本实施例中探针碱基序列的数量较多，所以图19中仅显示了表的一部分。

如图20所示，可通过每个探针的详细信息270，显示经过虚拟地二维配置的各个探针的碱基序列的详细信息。详细信息270中按照用来确定探针的每个探针ID271，含有该探针的名称即探针名称272、该探针所属的集群的碱基序列数即集群序列数273、该探针的序列链长即代表序列链长274、以及该探针的碱基序列即代表碱基序列275。

接着，从存储于核酸信息处理装置100中的靶片段即碱基序列数据组中选择了1.GAC.454Reads.fna和2.GAC.454Reads.fna这2个文件，将两者相加的数据组和“Y022L08_C10000_chip”进行虚拟杂交，并将E-value阈值设定成了1.0E。

将所获得的虚拟杂交的结果的文件命名为“Y022L08_C10000_chip_vs_454海水数据”，以2种形式显示为图21和图22。图21的虚拟杂交结果表280作为每个探针的结合片段数的表，显示了“Y022L08_C10000_chip_vs_454海水数据”。虚拟杂交结果表280中含有虚拟杂交文件名称281、探针ID282、探针名称283、用来确定数字DNA芯片上的探针的位置的块284和用来确定块内的位置的样点285、以及结合片段数286即与探针相似的片段数量。由于本实施例中探针碱基序列的数量较多，所以仅显示了表的一部分。

此外，图22的“虚拟杂交图像”的图像300中，结合DNA微阵列的图像，模拟地图像显示了该结果。图像300中，从探针ID的编号小的探针碱基序列开始，依序从图22的上方向下方显示了探针序列列表“Y022L08_C10000_chip”中的各探针。样点的颜色越亮，则表示与虚拟地配置在该位置的探针碱基序列进行虚拟杂交的靶核酸片段的数量越多。虚拟杂交的靶片段的数量最多的探针中，虚拟杂交了10,326个靶核酸片段。

本实施例中，循环分析了虚拟杂交中靶核酸片段与探针碱基序列的1:1的相似度，每次确定靶片段的长度为探针链长以上、且在整个探针区域中碱基序列为完全一致的探针时，该探针作为经过了虚拟杂交的探针进行了计数。因此，靶核酸片段内的各不同部位作为已经分别与不同探针进行过虚拟杂交，进行了多次计数。

本实施例中，如果使用由5台性能为搭载2个Xeon X5520Quad Core2.26GHz作为CPU，并具有8GB的RAM存储器的计算机构成的网格计算机，则使用导入到核酸信息处理装置100中的海水中的微生物的碱基序列数据，通过聚类制作命名为“Y022L08_C10000_chip”的探针碱基序列的列表所需的时间约为30小时，此外，使用相同计算机时，将“Y022L08_C10000_chip”与结合1.GAC.454Reads.fna和2.GAC.454Reads.fna这2个文件的文件进行虚拟杂交所需的时间合计约为30分钟。

使用DNA芯片的实验中，必须实施在制作探针碱基序列的列表后，按照列表将所有探针DNA进行化学合成，在决定场所后将它们固定在DNA芯片基片或者基质中的作业，这些作业通常需要数天时间。与此相对，本实施例的虚拟杂交中仅需制作探针碱基序列的列表，便能够直接将该数据用于虚拟杂交，无需花费时间和精力来制作DNA芯片。此外，通过使用DNA芯片的实验进行杂交时通常需要一晩左右的时间，与此相比，通过使用计算机的信息处理进行虚拟杂交时，所需时间仅为30分钟左右。

接着，如图23的概要表400所示，比较显示将1.GAC.454Reads.fna和2.GAC.454Reads.fna这2个靶片段组分别与探针组“Y022L08_C10000_chip”进行虚拟杂交后获得的结果文件即海水20101217_454文件1和海水20101217_454文件2与同一个探针进行虚拟杂交的各靶片段数。概要表400中含有项目401、文件编号402、虚拟杂交文件名称403、文件制作源数据404、以及频率比较探针数405。该比较分析所需的时间仅为10分钟。

如图24所示，从海水20101217_454文件1的虚拟杂交片段数较多的探针开始依序重新排列该结果，并形成结果显示画面410。结果显示画面410中含有探针ID411、块412、样点413、与探针相似的虚拟杂交片段数414、文件间频率差415、以及文件间频率比416。此处，文件间频率比416是指，为了在海水20101217_454文件1和海水20101217_454文件2这2个数据间进行修正，使这2个数据文件的每个探针的虚拟杂交片段数414正规化后计算相对值，并计算每个探针的相对值之间的比率。另外，由于本实施例中探针碱基序列的数量较多，所以图24中仅显示了画面的一部分。结果显示画面410中显示了从图24的右端数起第二栏（文件间频率差415）所示的2个虚拟杂交结果中每个探针的虚拟杂交片段数的差即文件间频率差、以及如最右端栏（文件间频率比416）所示的2个虚拟杂交结果中每个探针的虚拟杂交片段数的比即文件间频率比（此处显示将小数点第2位四舍五入的数值）。

结果显示画面410中，如果重新按照频率差从大到小的顺序排列数据，则能够根据2个虚拟杂交结果检测出存在数量的差较大的探针片段。此外，如图25的结果显示画面420所示，如果重新按照文件间频率比从大到小的顺序排列显示数据，则能够根据2个虚拟杂交结果检测出存在数量的比较大的探针片段。结果显示画面420中，除了为了便于查看结果追加了升序编号421并显示了整个表的中间部分以外，与图24的结果显示画面410基本相同。另外，由于本实施例中探针碱基序列的数量较多，所以图25中仅显示了结果显示画面420的中间一部分。

作为比较文件，例如，如果选择通过A地点的某日期某时间的海水的靶片段组获得的虚拟杂交结果和通过相同A地点的其他日期其他时间的海水的靶片段组获得的虚拟杂交结果，则能够提取出存在数量及其比会随着A地点的随时间推移发生很大变化的探针片段的碱基序列。此外，如果在不同的地点获得的靶片段之间进行比较，则还能够提取出存在量根据不同地点而出现明显不同的探针片段的碱基序列。另外，根据其频率差和频率比，在多个靶片段间进行虚拟杂交片段数的比较的情况下，如果也将例如来自每单位体积的海水的DNA提取量的比率等作为参数来修正数值，则能够更准确地进行比较。

如上所述，可利用使用了按照本发明的实施方式制作的数字DNA芯片的核酸信息处理装置100，在计算机上对碱基序列信息进行分析，因此能够在实施相似碱基序列的频率分析时大幅节约时间和劳动力。

Claims

1.一种核酸信息处理装置，其特征在于，包括：

存储部，存储多个碱基序列信息；

阈值接收单元，接收用来确定相似度阈值的信息；

集群组成单元，依据所述相似度阈值划分所述多个碱基序列，组成集群；

代表碱基序列设定单元，将所述集群中含有的所述碱基序列中的一个设定为代表碱基序列；

杂交处理单元，使用同源性间隔大致固定的探针组进行杂交处理，该同源性间隔大致固定的探针组是使用由上述代表碱基序列设定单元设定的集群的代表碱基序列所制作的；以及

片段处理单元，将所述杂交处理单元的处理结果进行多次比较，确定存在数量之比较大的探针组，进行检测处理。

2.根据权利要求1所述的核酸信息处理装置，其特征在于，

所述集群组成单元在所述多个碱基序列中的一个与已组成的集群的代表碱基序列的相似度满足所述阈值的情况下，将该碱基序列中的一个划分到该代表碱基序列所属的集群。

3.根据权利要求1或权利要求2所述的核酸信息处理装置，其特征在于，

所述集群组成单元在不存在已组成的集群的情况下，组成以所述碱基序列中的一个为代表碱基序列的集群。

4.根据权利要求1或2所述的核酸信息处理装置，其特征在于，

所述集群组成单元在所述多个碱基序列中的一个与已组成的集群的代表碱基序列的相似度都不满足所述阈值的情况下，组成以该碱基序列中的一个为代表碱基序列的集群。

5.根据权利要求1或2所述的核酸信息处理装置，其特征在于，还包括：

集群上限数接收单元，接收用来确定集群数上限的信息；以及

重组单元，在利用所述集群组成单元组成的集群的数量超过所述集群数的上限的情况下，变更所述相似度阈值，重组集群。

6.根据权利要求5所述的核酸信息处理装置，其特征在于，

所述重组单元在所述重组集群的处理中，划分利用所述集群组成单元组成的集群的代表碱基序列，组成集群。

7.一种利用核酸信息处理装置进行核酸信息处理的方法，其特征在于，

所述核酸信息处理装置包括：

存储多个碱基序列信息的存储部和处理部，

所述处理部实施以下步骤：

阈值接收步骤，接收用来确定相似度阈值的信息；

集群组成步骤，依据所述相似度的阈值划分所述多个碱基序列，组成集群；

代表碱基序列设定步骤，将所述集群中含有的所述碱基序列中的一个设定为代表碱基序列；

杂交处理步骤，使用同源性间隔大致固定的探针组进行杂交处理，该同源性间隔大致固定的探针组是使用由上述代表碱基序列设定单元设定的集群的代表碱基序列所制作的；以及

片段处理步骤，将所述杂交处理单元的处理结果进行多次比较，确定存在数量之比较大的探针组，进行检测处理。

8.根据权利要求7所述的核酸信息处理方法，其特征在于，

所述集群组成步骤中，在所述多个碱基序列中的一个与已组成的集群的代表碱基序列的相似度满足所述阈值的情况下，将该碱基序列中的一个划分到该代表碱基序列所属的集群。

9.根据权利要求7或权利要求8所述的核酸信息处理方法，其特征在于，

所述集群组成步骤中，在不存在已组成的集群的情况下，组成以所述碱基序列中的一个为代表碱基序列的集群。

10.根据权利要求7或8所述的核酸信息处理方法，其特征在于，

所述集群组成步骤中，在所述多个碱基序列中的一个与已构成的集群的代表碱基序列的相似度都不满足所述阈值的情况下，组成以该碱基序列中的一个为代表碱基序列的集群。

11.根据权利要求7或8所述的核酸信息处理方法，其特征在于，

所述核酸信息处理装置还包括：

集群上限数接收步骤，接收用来确定集群数上限的信息；以及

重组步骤，在利用所述集群组成步骤组成的集群的数量超过所述集群数的上限的情况下，变更所述相似度阈值，重组集群。

12.根据权利要求11所述的核酸信息处理方法，其特征在于，

所述重组步骤在所述集群重组的处理中，划分所述集群组成步骤中组成的集群的代表碱基序列，组成集群。