CN1550557A - 信息处理装置和信息处理方法以及记录介质、程序 - Google Patents
信息处理装置和信息处理方法以及记录介质、程序 Download PDFInfo
- Publication number
- CN1550557A CN1550557A CNA2004100446451A CN200410044645A CN1550557A CN 1550557 A CN1550557 A CN 1550557A CN A2004100446451 A CNA2004100446451 A CN A2004100446451A CN 200410044645 A CN200410044645 A CN 200410044645A CN 1550557 A CN1550557 A CN 1550557A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- information
- probe
- biological species
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
根据本发明,即使是在检体中存在多个具有相互类似碱基序列的生物种时,也可以简易、费用低、而且在短时间对生物种进行高精度地进行判定。为了达到这样的目的,本发明涉及到的信息处理装置是使用配置了作为与生物种核酸序列的一部分互补的核酸的探针的DNA微阵列,对有关使所定检体进行杂交反应结果得到的DNA微阵列上的各个探针的信号强度的信息进行处理的信息处理装置,其特征是具备保持已知样品的手段、取得有关使所定检体进行杂交反应结果得到的未知样品的手段、在上述已知和未知样品中,提取与所定生物种有关的向量的手段、和通过对上述提取手段的上述已知样品的向量和上述未知样品的向量进行比较,对上述所定检体是否含有该所定生物种进行判定的判定手段。
Description
技术领域
本发明涉及到使用所谓的DNA微阵列进行核酸序列解析,特别是涉及到对菌等微生物的种类进行判定的技术。
背景技术
作为对得了传染病的患者的病原菌进行判定的技术,称之为“培养法”的技术就一直存在。该方法是通过对从患者采集的血液中含有的菌在特定培养基中进行培养,观察增殖的菌,对传染病的病原菌进行特别判定。
该技术的缺点是对病原菌的判定需要数日的时间,在决定对患者的治疗方针之前判定病原菌几乎是不可能的。就是说,本来希望在对患者使用抗生素等治疗药之前预先对病原菌进行特别判定,但若等待数日后的判定结果,患者的病情有可能恶化,耽误治疗。因此,在进行病原菌判定之前,必须使用相对应于多种可能性的药剂,结果使患者蒙受着与药效相反的副作用的危险。
作为用于解决这样问题的一个方法有通过解析病原菌的DNA,对传染病的病原菌进行判定的方法。该方法是使用例如PCR(Polymerase Chain Reaction)法或LAMP法等生物化学方法对病原菌基因组的某一特定部分进行扩增,对该扩增的核酸序列进行破译判定病原菌的方法,利用这样方法在短时间内进行判定是可能的,而且不管病原菌的种类如何,对多个病原菌都可以判定。
而作为解决上述问题的其他方法,例如有美国专利第6040138号说明书中公开的通过使扩增的来自目标生物的核酸片段与称为为探针的核酸片段进行杂交反应,对来自目标生物的核酸片段的量进行定量的方法。
根据同一说明书(美国专利第6040138号说明书),通过使用高密度集积的DNA微阵列,对一个目标核酸片段可以设定多个探针,其结果是,在短时间内就可以得到与破译目标核酸片段的序列大致相同的信息。
然而,上述以往技术给出的方法中,通过病原菌的DNA解析对传染病的病原菌进行判定的方法存在着对核酸序列的破译需要非常高的技术技能和高费用的问题。虽然PCR法和LAMP法等DNA扩增手法本身步骤简单可以实施,但为了破译核酸序列,要求扩增的核酸片段的纯度高。另外,称之为测序仪的“核酸序列的读出仪器”价格昂贵,读出操作远比通过PCR法和LAMP法等的DNA扩增复杂,通常的检查技师的技艺实施往往都很困难。
而利用杂交反应的方法(美国专利第6040138号说明书所述方法)虽然与测序仪相比无论是必要的技能和花费都可以压低,但需要根据杂交反应的结果对生物种类进行判定的程序。当对生物种类进行判定时,一般都使用所谓的“同源性检索”的方法,这样的方法存在着对碱基序列相似的病原菌进行区别、判定困难的问题。这是由于“同源性检索”是根据杂交反应导出各个病原菌的存在概率,最后对生物种类进行特别判定的手法。
一般来说,为了对在同源性检索中碱基序列类似的病原菌进行区别、判定,在DNA微阵列的杂交反应中大前提是“对不同种类的核酸片段设定的不同探针各个都是独立的”。例如,对应于基因A的探针有10个时,前提是来自基因B的核酸片段不与该探针反应。而有了这样的前提,例如根据通过将上述10个探针的杂交反应结果得到的信号强度(例如荧光强度)平均得到的基因A的推定量应当可以正确地判定病原菌的有无(存在概率)。
然而,即使是来自不同的生物种类的核酸片段,他们非常相似时,探针之间独立的上述前提是不现实的,例如,即使是针对上述基因A设计的探针,往往可以与基因B进行杂交反应(这样的现象称为“交叉杂交”)。因此,“使用通过对该目标核酸片段的多个探针的平均操作得到的代表值,导出该目标核酸片段的存在概率”的上述手法对含有多个类似的碱基序列的检体中的病原菌进行特别判定时是不现实的,通过这样的手法得到的判定精度存在着缺乏可靠性的问题。
发明内容
本发明是鉴于上述课题做出的发明,目的在于当检体中存在多个相互具有类似碱基序列的生物种类时,简易、费用低、而且在短时间内高精度地对生物种类进行判定。
为了达到上述目的,本发明的信息处理装置具备以下那样的构成。即:
是使用配置了作为与生物种的核酸序列的一部分互补的核酸的探针的DNA微阵列,对有关对所定检体进行杂交反应结果得到的各个探针的信号强度的有关信息进行处理的信息处理装置,
具备对与使已知生物种进行杂交反应结果得到的上述各个探针的信号强度有关的第1信息进行保持的保持手段,
取得有关使上述所定检体进行杂交反应结果得到的各个探针的信号强度有关的第2信息的取得手段,
在上述第1以及第2信息中,提取与所定生物种有关的信息的提取手段,和
进行依据通过上述提取手段提取的上述第1信息中与所定生物种有关的信息与上述第2信息中与所定生物种有关的信息的比较,对上述所定检体是否含有该所定生物种进行判定的判定手段。
根据本发明,当检体中存在多个相互具有类似碱基序列的生物种时,可以简易、费用低、而且在短时间内高精度地对生物种类进行判定。
附图的简单说明
图1是表示包括本发明的信息处理方法的检查整体的流程图。
图2是表示用于实现本发明的一实施方式的信息处理方法(生物种类判定方法)的信息处理装置构成的方块图。
图3是表示DNA微阵列上杂交样子的图。
图4是用于说明使用DNA微阵列的杂交反应实验的所有实验步骤的图。
图5是用于说明对传染病菌进行特别判定的DNA微阵列的原理的图。
图6是用于说明杂交溶液中多种类碱基序列存在的理由的图。
图7是表示一例显示杂交反应后荧光强度图像的图。
图8A、B是表示一例向量的分布图和判定该向量的分类树的图。
图9是用于对本发明一实施方式的生物种类判定方法的处理进行说明的功能方块图。
图10是表示同类探针具有多个点的DNA微阵列的例子的图。
图11是表示在本发明一实施方式的信息处理方法中使用的原始向量过滤的一个例子的图。
图12是表示主成分分析处理流程的流程图。
图13是说明学习阶段和图形识别阶段的图。
图14是表示分类树作成处理的流程的流程图。
图15是用于对决定分支点(node)判定函数的步骤进行说明的图。
具体实施方式
图1是表示包括本发明的信息处理方法的检查处理整体的流程图。就象该图表示的那样,当进行检查时,首先使用DNA微阵列,进行已知检体的杂交反应实验(步骤S101)、将该结果得到的DNA微阵列的荧光强度代表的有关信号强度的信息(扫描图形)作为标准样品的反应结果贮存(步骤S102、S104),然后就有关未知样品反实验的结果得到的DNA微阵列的荧光强度有关信息(扫描图形),根据该标准样品的反应结果进行生物种类的判定处理(步骤S102、S103)。以下就步骤S101以及S103的处理按顺序进行详细说明。
1.有关杂交反应实验(步骤S101)的说明
[1-1.杂交反应实验的流程]
首先,利用图4就使用DNA微阵列的杂交反应实验的整个实验过程进行说明。
所谓的401“样品”是理应含有目标核酸的液体或固体等的检体。例如,对传染病的病原菌进行特别判定时,来自人、家畜等动物的血液、痰、胃液、阴道分泌物、口腔内粘液等体液、尿以及粪便那样的排泄物等所有被认为有细菌存在的物质作为样品。另外,也可以将成为食物中毒、污染对象的食品、饮料水以及温泉水那样环境中的水等有可能由于细菌引起污染的介质用作样品。另外,进出口时被检疫等的动植物也是检体对象。
样品401是使用402所示的“生物化学扩增”方法扩增的。例如,在对传染病的病原菌进行特别判定时,使用在16s rRNA检测用中设计的PCR反应用引物,有时通过PCR法扩增目标核酸,或以PCR扩增物为基础再进行PCR反应等调整目标核酸。另外,也可以通过PCR以外的LAMP法等扩增方法调整。
扩增的样品、或原来的样品401可以通过各种标记法进行标记(标记搀入403)以便于信号强度的检测。本发明中所谓的信号强度是通过适当手段适于检测和可测定的信号强度,包括荧光、放射能、化学发光等,优选荧光强度。作为这样的标记物质最好使用通常的Cy3、Cy5、Rodamin等荧光物质。另外,在生物化学扩增处理(402)中,也可以搀入标记分子。
使用附加标记分子的核酸,与DNA微阵列404进行杂交反应(405)(后面详细叙述)。例如,对传染病的病原菌进行特别判定时,作为DNA微阵列404使用在基板上固定了对菌特异的探针。各个菌的探针的设计,应当设计为例如来自包括编码16s rRNA的基因组部分,预期对相关菌特异性非常高,而且使用各个探针碱基序列“尽可能”没有误差的杂交灵敏度。对DNA微阵列404的探针进行固定的载体(基板)考虑使用玻璃基板、塑料基板、硅晶片等平面基板。另外,也可以使用具有凹凸的三维结构体、球珠那样的球状物品、棒状、带状、线状的物质(材料)等。
通常,上述基板使用进行了能够固定探针DNA的表面处理的基板。特别是在表面导入可进行化学反应的官能团的基板由于在杂交反应过程中使探针稳定结合,在重现性方面可以说是理想状态。
而在固化时,例如有使用马来酰亚胺基和巯基(-SH)基的组合的例子。即,通过预先使巯基结合在核酸探针末端,通过将固相表面预先处理为含有马来酰亚胺基,供给到固相表面的核酸探针的硫基与固相表面的马来酰亚胺基进行反应之后,对核酸探针进行固化。
在导入马来酰亚胺基时,首先在玻璃基板使氨基硅烷偶联剂反应,然后,通过这一氨基与EMCS试剂(N-(6-Maleimidocaproyloxy)succinimide:Dojin公司制造)反应,将马来酰亚胺基导入。SH基向DNA导入可以通过使用DNA自动合成仪上5’-Thiol-ModifierC6(Glen Research公司制造)来进行。
另外,在固化中利用官能团的组合是指除上述巯基和马来酰亚胺基的组合以外,还有例如环氧基(固相上)和氨基(核酸探针的末端)的组合等。由各种氨基硅烷偶联剂进行的表面处理也是有效的,也可以使用导入了与由该氨基硅烷偶联剂导入的官能团可发生反应的官能团的寡核苷酸。还有,对含有官能团的树脂进行包覆的方法也有效。
进行杂交反应的DNA微阵列404的表面被洗涤,没有与探针结合的核酸脱落后,(通常)使其干燥。然后通过对DNA微阵列基板照射激发光,测定荧光量(406)。另外,通过在照射激发光的状态下进行扫描,可以得到与荧光强度成比例的扫描图像(407)。
[1-2.杂交反应的概要]
以下利用图3对上述的杂交反应(405)的概要进行说明。图3是表示DNA微阵列上的杂交样子的图。在生物体内,几乎所有的DNA都为双螺旋结构,该双链之间的结合是通过碱基间氢键实现的。而RNA通常多是以单链存在的。碱基的种类,DNA中为ACGT 4种,而RNA为ACGU 4种,可以分别形成氢键的碱基对为A-T(U)、G-C碱基对。
一般所谓的杂交反应指的是单链状态的核酸分子之间通过其中的部分碱基序列部分结合的状态。而本实施方式为假定附着在图3上侧的基板上的核酸分子(探针301)比处于下侧样品中的核酸分子(302)短的情形。因此对于存在于样品中的核酸分子含有探针碱基序列时,该杂交反应顺利进行,样品中的靶核酸分子应当被DNA微阵列捕获。
[1-3.DNA微阵列的原理]
以下利用图5对用于特别判定传染病菌的DNA微阵列的原理进行说明。图5所述的DNA微阵列(500-1、500-2)是一例以特别判定金黄色葡萄球菌为目的制作的DNA微阵列。
该图左面一列是使用DNA微阵列时处理来自金黄色葡萄球菌野生株DNA的处理系列,右面一列是使用DNA微阵列时处理来自大肠杆菌野生株DNA的处理系列。例如,可以认为左面是处理感染金黄色葡萄球菌的患者的血液的流程,而右面是处理感染大肠杆菌的患者血液的流程。
无论哪一面基本上都进行同样处理。即,首先从例如菌感染患者的血液、或痰等中提取DNA(501-1、501-2)。此时一般来说,也可能含有来自患者体细胞的人的DNA。
而当提取的DNA少时,用PCR法等进行扩增。此时一般可以搀入标记的荧光物质或搀入使荧光物质结合的物质作为标记(502-1、502-2)。
不进行扩增时,可以使用提取的DNA,在制作互补链时搀入荧光物质或搀入可以使荧光物质结合的物质作为标记(503-1、503-2)。或者,在直接提取的DNA上附加作为标记的荧光物质或可以使荧光物质结合的物质。
通常进行PCR扩增时,只要目的是特别判定传染病菌,一般都是对构成称之为16s rRNA的核糖体RNA的碱基序列的部分进行扩增。此时,左侧的金黄色葡萄球菌的PCR引物和右侧的大肠杆菌的PCR引物应当使用几乎相同的引物。更具体地讲,使用编码无论什么样的菌的16s rRNA可以扩增的引物组,都可以进行多重PCR。此时,结果图5右和左中任一个杂交溶液都应当含有多种碱基序列。其理由通过下面的图详细叙述。
而当希望进行更详细的序列解析时,可以分别设定例如金黄色葡萄球菌用的PCR引物组、大肠杆菌用的PCR引物组。这时,如果设定的引物只是有选择地扩增菌的基因组的特定部分,那么杂交溶液中含有的碱基序列的种类非常有限。尽管如此,由于通常存在于自然界的菌株达到数种,存在于杂交溶液的碱基序列的种类为1种是很稀少的。
如果用于判定金黄色葡萄球菌为目的设计的DNA微阵列正确运转的话,在左侧的杂交溶液中,点反应为阳性(500-1),而在右侧的杂交溶液中,点反应为阴性(500-2)。
与金黄色葡萄球菌完全相同,如果用于判定大肠杆菌为目的设计的DNA微阵列正确运转的话,在左侧的杂交溶液中,点反应为阴性,而在右侧的杂交溶液中,点反应为阳性。在本实施方式中,使用同时排列了对各种各样的菌特异反应的数种类的点的DNA微阵列,对感染菌进行判定。
[1-4.多个碱基序列存在的理由]
以下,利用图6对在图5的杂交溶液中存在数种碱基序列的理由进行说明。通常自然界存在的菌频繁发生突变。其结果,经淘汰活下来的主要的数种菌株有时同时存在。例如,由于引起院内感染等问题的菌株,通常应当没有抗药性的菌通过突变获得抗药性而出现。获得抗药性的结果,有时即使进行了努力杀菌的卫生环境也出现维持旺盛繁殖力的菌。这样一来,自然界存在的同样的菌的碱基序列是具有数种变化的序列。
图6表示的是金黄色葡萄球菌中的Mu50和MW2的两种菌株的基因组结构。各个菌株的基因组的总碱基数分别为2878040和2820462。另外,编码16s核糖体RNA的部位,在Mu50中存在正向2处,反向3处,合计5处,而对于MW2,存在正向3处,反向3处,合计6处。
这些16s核糖体RNA的各个部位的碱基序列各个非常类似,但都不相同。就是说,在研究的菌感染患者的体内存在的菌株的种类即使是一种,如果在象图5那样的一般处理中制备杂交溶液,在杂交溶液中也应当存在数种类似的碱基序列。而对于数种类似的碱基序列在使用DNA微阵列进行实验时,也可以稳定地进行生物种的判定,这是本申请的生物种类判定方法的主要目的。
[1-5.杂交反应实验的实施例]
以下就以传染病的病原菌的特别判定为目的实际进行杂交反应实验的具体实施例进行详细说明。但本发明的生物种类判定方法并不限定于以以下叙述的传染菌的病原菌特别判定为目的的例子,也可以用于MHC等人体质判定、以及与癌等疾病相关的DNA、RNA的解析等。
[1-5-1.探针DNA的制备]
作为阴沟肠杆菌检测(Enterobacter cloacae)用探针设计了表1表示的核酸序列(I-n)(n为数字)。
具体来说,从编码16s rRNA的基因组部分选择以下所示的探针碱基序列。这些探针碱基序列组被设计成预期对该菌的特异性非常高,充分而且用各个探针碱基序列“尽可能”无误差的杂交灵敏度。
表1
I-1 | CAgAgAgCTTgCTCTCgggTgA |
I-2 | gggAggAAggTgTTgTggTTAATAAC |
I-3 | ggTgTTgTggTTAATAACCACAgCAA |
I-4 | gCggTCTgTCAAgTCggATgTg |
I-5 | ATTCgAAACTggCAggCTAgAgTCT |
I-6 | TAACCACAgCAATTgACgTTACCCg |
I-7 | gCAATTgACgTTACCCgCAgAAgA |
表中所示的探针作为用于固定于DNA微阵列的官能团合成后,按照常规方法在核酸的5′末端导入巯基。导入官能团后,进行精制、冷冻干燥。冷冻干燥过的内部标准用探针保存在-30℃的冷库中。
关于金黄色葡萄球菌(A-n)、表皮葡萄球菌(B-n)、大肠杆菌(C-n)、肺炎杆菌(D-n)、绿浓杆菌(E-n)、沙雷氏菌(F-n)、肺炎双球菌(G-n)、流感杆菌(H-n)、以及粪肠球菌(J-n)(n为数字)也通过同样手法设计以下所示探针组。
表2-1
A-1 | gAACCgCATggTTCAAAAgTgAAAgA |
A-2 | CACTTATAgATggATCCgCgCTgC |
A-3 | TgCACATCTTgACggTACCTAATCAg |
A-4 | CCCCTTAgTgCTgCAgCTAACg |
A-5 | AATACAAAgggCAgCgAAACCgC |
A-6 | CCggTggAgTAACCTTTTAggAgCT |
A-7 | TAACCTTTTAggAgCTAgCCgTCgA |
A-8 | TTTAggAgCTAgCCgTCgAAggT |
A-9 | TAgCCgTCgAAggTgggACAAAT |
表2-2
B-1 | gAACAgACgAggAgCTTgCTCC |
B-2 | TAgTgAAAgACggTTTTgCTgTCACT |
B-3 | TAAgTAACTATgCACgTCTTgACggT |
B-4 | gACCCCTCTAgAgATAgAgTTTTCCC |
B-5 | AgTAACCATTTggAgCTAgCCgTC |
B-6 | gAgCTTgCTCCTCTgACgTTAgC |
B-7 | AgCCggTggAgTAACCATTTgg |
表2-3
C-1 | CTCTTgCCATCggATgTgCCCA |
C-2 | ATACCTTTgCTCATTgACgTTACCCg |
C-3 | TTTgCTCATTgACgTTACCCgCAg |
C-4 | ACTggCAAgCTTgAgTCTCgTAgA |
C-5 | ATACAAAgAgAAgCgACCTCgCg |
C-6 | CggACCTCATAAAgTgCgTCgTAgT |
C-7 | gCggggAggAAgggAgTAAAgTTAAT |
表2-4
D-1 | TAgCACAgAgAgCTTgCTCTCgg |
D-2 | TCATgCCATCAgATgTgCCCAgA |
D-3 | CggggAggAAggCgATAAggTTAAT |
D-4 | TTCgATTgACgTTACCCgCAgAAgA |
D-5 | ggTCTgTCAAgTCggATgTgAAATCC |
D-6 | gCAggCTAgAgTCTTgTAgAgggg |
表2-5
E-1 | TgAgggAgAAAgTgggggATCTTC |
E-2 | TCAgATgAgCCTAggTCggATTAgC |
E-3 | gAgCTAgAgTACggTAgAgggTgg |
E-4 | gTACggTAgAgggTggTggAATTTC |
E-5 | gACCACCTggACTgATACTgACAC |
E-6 | TggCCTTgACATgCTgAgAACTTTC |
E-7 | TTAgTTACCAgCACCTCgggTgg |
E-8 | TAgTCTAACCgCAAgggggACg |
表2-6
表2-7
F-1 | TAgCACAgggAgCTTgCTCCCT |
F-2 | AggTggTgAgCTTAATACgCTCATC |
F-3 | TCATCAATTgACgTTACTCgCAgAAg |
F-4 | ACTgCATTTgAAACTggCAAgCTAgA |
F-5 | TTATCCTTTgTTgCAgCTTCggCC |
F-6 | ACTTTCAgCgAggAggAAggTgg |
G-1 | AgTAgAACgCTgAAggAggAgCTTg |
G-2 | CTTgCATCACTACCAgATggACCTg |
G-3 | TgAgAgTggAAAgTTCACACTgTgAC |
G-4 | gCTgTggCTTAACCATAgTAggCTTT |
G-5 | AAgCggCTCTCTggCTTgTAACT |
G-6 | TAgACCCTTTCCggggTTTAgTgC |
G-7 | gACggCAAgCTAATCTCTTAAAgCCA |
表2-8
H-1 | gCTTgggAATCTggCTTATggAgg |
H-2 | TgCCATAggATgAgCCCAAgTgg |
H-3 | CTTgggAATgTACTgACgCTCATgTg |
H-4 | ggATTgggCTTAgAgCTTggTgC |
H-5 | TACAgAgggAAgCgAAgCTgCg |
H-6 | ggCgTTTACCACggTATgATTCATgA |
H-7 | AATgCCTACCAAgCCTgCgATCT |
H-8 | TATCggAAgATgAAAgTgCgggACT |
表2-9
J-1 | TTCTTTCCTCCCgAgTgCTTgCA |
J-2 | AACACgTgggTAACCTACCCATCAg |
J-3 | ATggCATAAgAgTgAAAggCgCTT |
J-4 | gACCCgCggTgCATTAgCTAgT |
J-5 | ggACgTTAgTAACTgAACgTCCCCT |
J-6 | CTCAACCggggAgggTCATTgg |
J-7 | TTggAgggTTTCCgCCCTTCAg |
[1-5-2.检体扩增用PCR引物的制备]
作为病原菌检测用的16s rRNA核酸(靶核酸)扩增用PCR引物设计了如表2所示的核酸序列。
具体来说,在特异扩增编码16s rRNA基因组部分的探针组,即,在大约1500碱基长度的16s rRNA编码区的两端部分设计了特异融解温度尽可能一致的引物。另外,设计了同时可扩增变异菌株,或基因组上存在的多个16s rRNA编码区的多种引物。
表3
引物No. | 序列 | |
正向引物 | F-1 | 5’GCGGCGTGCCTAATACATGCAAG 3’ |
F-2 | 5’GCGGCAGGCCTAACACATGCAAG 3’ | |
F-3 | 5’GCGGCAGGCTTAACACATGCAAG 3’ | |
反向引物 | R-1 | 5’ATCCAGCCGCACCTTCCGATAC 3’ |
R-2 | 5’ATCCAACCGCAGGTTCCCCTAC 3’ | |
R-3 | 5’ATCCAGCCGCAGGTTCCCCTAC 3’ |
表中所示的引物合成后经高效液相色谱(HPLC)精制,将3种正向引物和3种反向引物混合,溶解于TE缓冲液中,各个引物的最终浓度为10pmol/μl。
[1-5-3.阴沟肠杆菌基因组DNA(模式检体)的提取]
[1-5-3-1]微生物的培养和基因组DNA提取的预处理
首先按照常规方法对阴沟肠杆菌(Enterobacter cloacae)标准株进行培养。取1.0ml(OD600=0.7)的该微生物培养液放到1.5ml容量的微量管中,经离心分离回收菌体(8500rpm、5min、4℃)。
去掉上清后,加300μl的酶缓冲液(50mM Tris-HCl:p.H.8.0,25mM EDTA),用搅拌器再悬浮。再悬浮的菌液再次通过离心分离回收菌体(8500rpm、5min、4℃)。
去掉上清后,向回收的菌体中加入以下的酶溶液,用搅拌器再悬浮。
溶菌酶 50μl(20mg/ml在酶缓冲液中)
N-乙酰胞壁酸酶SG 50μl(0.2 mg/ml在酶缓冲液中)
接下来,将加入酶溶液再悬浮的菌液在37℃的温育箱中静置30分钟,进行细胞壁的溶解处理。
[1-5-3-2]基因组DNA的提取
以下给出的微生物基因组DNA的提取是使用核酸精制试剂盒(MagExtractor-Genome-:TOYOBO公司制造)进行的。
具体来说,首先,在进行了预处理的微生物悬浮液中加入溶解和吸附液750μl和磁珠40μl,使用试管搅拌器,剧烈地搅拌10分钟(步骤1)。
然后,将微量管插到分离用架(Magical Trapper)上,静置30秒,让磁珠集中在管壁,在管插在架上的状态下,将上清液去掉(步骤2)。
接着,加入清洗液900μl,用搅拌器搅拌5秒钟左右,再悬浮(步骤3)。
然后,将微量管插到分离用架上,静置30秒,让磁珠集中在管壁,在管插在架上的状态下,将上清液去掉(步骤4)。
反复进行步骤3、4后,清洗二次(步骤5),然后加入70%乙醇900μl,用搅拌器搅拌5秒钟左右再悬浮(步骤6)。
接下来,将微量管插到分离用架上,静置30秒,让磁珠集中在管壁,在管插在架上的状态下,将上清液去掉(步骤7)。
反复进行步骤6、7,用70%乙醇清洗二次(步骤8)后,在回收的磁珠中加入纯水100μl,用试管搅拌器搅拌10分钟。
然后,将微量管插到分离用架上,静置30秒,让磁珠集中在管壁,在管插在架上的状态下,将上清液回收到新的管中。
[1-5-3-3]回收的基因组DNA的检查
回收的微生物(阴沟肠杆菌株)的基因组DNA,根据常规方法,进行琼脂糖凝胶电泳以及260/280nm的吸光度测定,测定其品质(低分子核酸的混入量、分解程度)和回收量。
在本实施例中,大约回收到10μg的基因组DNA,没有发现基因组DNA的降解或rRNA的混入。回收的基因组DNA溶解于TE缓冲液中,使其最终浓度达到50ng/μl,在以下的实施例中使用。
[1-5-4.DNA微阵列的制作]
[1-5-4-1]玻璃基板的洗涤
将合成石英玻璃基板(大小:25mm×75mm×1mm,饭山特殊玻璃公司制造)放在耐热、耐碱的架上,在调制到所定浓度的超声波洗涤用的洗涤液中浸泡。在洗涤液中浸泡一夜后,进行20分钟超声波洗涤。然后取出基板,轻轻地用纯水进行冲洗,再在超纯水中进行20分钟超声波洗涤。然后,将基板在加热到80℃的1N NaOH水溶液中浸泡10分钟,再用纯水和超纯水进行洗涤,制备成DNA芯片用的石英玻璃基板。
[1-5-4-2]表面处理
将硅烷偶联剂KBM-603(信越硅公司制造)溶解在纯水中,使之浓度达到1%,室温下搅拌2小时。接着,将先前洗涤的玻璃基板浸入硅烷偶联剂的水溶液中,室温下放置20分钟。取出玻璃基板,轻轻地用纯水洗涤表面后,用氮气吹干基板的两面,使其干燥。接着,将干燥的基板在加热到120℃的烤箱中烘1小时,完成偶联剂处理,将氨基导入到基板表面。然后,准备将同仁化学研究所公司制造的N-(6-马来酰亚胺己酰氧)琥珀酰亚胺(以下略称为EMCS)溶解在二甲亚砜与乙醇的1∶1混合溶剂中,使最终浓度达到0.3mg/ml的EMCS溶液。将烘烤完了的玻璃基板放置冷却,室温下在调制好的EMCS溶液中浸泡2小时。经过这样处理,通过硅烷偶联剂导入在表面的氨基与EMCS的琥珀酰亚胺基发生反应,使玻璃基板表面导入马来酰亚胺基。从EMCS液中取出玻璃基板,用溶解了先前所述EMCS的混合溶剂对玻璃基板进行洗涤,再进一步用乙醇洗涤后,氮气气氛环境下使之干燥。
[1-5-4-3]探针DNA
将本实施例中制作的微生物检测用探针溶解在纯水中,使最终浓度(溶解墨水时)分别达到10μM,分注后,进行冷冻干燥,将水分除去。
[1-5-4-4]利用BJ点样器喷出DNA,以及与基板的结合
准备含有丙三醇7.5wt%、硫二甘醇7.5wt%、尿素7.5wt%、Acetylenol EH 1.0wt%(川研フアインケミカル公司制造)的水溶液。接着,将先前准备的7种探针(表1)溶解于上述的混合溶剂中,使之达到规定浓度。将得到的DNA溶液充填在バブルジエツト(注册商标)点样器(商品名:BJF-850佳能公司制造)用墨盒中,装在印字头上。
另外,这里使用的バブルジエツト点样器(注册商标)是可以改造成在平板上印刷的仪器。这个バブルジエツト点样器(注册商标)通过按所指定的文件作成方法输入印字图形,大约5微微升的DNA溶液可以点印在约120μm间距上。
使用这个改造的バブルジエツト点样器(注册商标),对一块基板进行点印操作,制备成DNA微阵列。确认了点印已确切进行后,于加湿箱内中静止30分钟,使玻璃基板表面的马来酰亚胺基与核酸探针末端的巯基发生反应。
[1-5-4-5]清洗
反应30分钟后,用含有100mM NaCl的10mM磷酸缓冲液(pH7.0)冲洗表面残留的DNA溶液,得到玻璃基板表面上固定了单链DNA的DNA微阵列。
[1-5-5.检体的扩增和标记(PCR扩增 & 荧光标记的整合)]
检体微生物DNA的扩增,以及标记反应如下所示。
预混合PCR试剂(TAKARA ExTaq) 25μl
模板基因组DNA 2μl(100ng)
正向引物混合物 2μl(20pmol/每试管)
反向引物混合物 2μl(20pmol/每试管)
Cy-3 dUTP(1mM) 2μl(2nmol/每试管)
水 17μl
共计 50μl
上述组成的反应液按以下程序,用市售的热循环仪进行扩增反应。
95℃ 10分钟
72℃ 10分钟
反应结束后,使用精制用柱(QIAGEN QIAquick PCRPurification Kit)将引物除去后,对扩增产物进行定量,作为标记检体。
[1-5-6.杂交]
使用上述[1-5-4.DNA微阵列制作]中制备的DNA微阵列与[1-5-5.检体的扩增和标记(PCR扩增&荧光标记的整合)]制备的标记检体,进行检测反应。
[1-5-6-1]DNA微阵列的封闭
将BSA(牛血清白蛋白级分V:Sigma公司制造)溶解在100mM氯化钠/10mM磷酸缓冲液中使成为1wt%,将[1-5-4.DNA微阵列的制作]制备的DNA微阵列于室温下在该溶液中浸泡2小时,进行封闭。封闭结束后,用含有0.1wt%SDS(十二烷基硫酸纳)的2×SSC溶液(氯化钠300mM、柠檬酸纳(柠檬酸三钠二水合物C6H5Na3·2H2O)30mM、pH7.0)进行清洗,用纯水漂洗后,用旋转干燥装置除去水。
[1-5-6-2]杂交
将除去水后的DNA微阵列置于杂交装置(Genomic Solutions Inc.Hybridization Station)中,在以下([1-5-6-3]、[1-5-6-4])所示的杂交溶液、条件下进行杂交反应。
[1-5-6-3]杂交溶液
6×SSPE/10%甲酰胺/靶(第二次PCR产物全量)
(6×SSPE:NaCl 900mM、NaH2PO4·H2O 60mM、EDTA 6mM、pH 7.4)。
[1-5-6-4]杂交条件
65℃3分钟→92℃2分钟→45℃3小时→在25℃用2×SSC/0.1%SDS清洗→在20℃用2×SSC清洗→(用纯水漂洗:Manual)→旋转干燥(65℃3分钟、92℃2分钟、于45℃下进行3小时杂交反应后、于25℃用2×SSC/0.1%SDS清洗、20℃下用2×SSC清洗、纯水漂洗、旋转干燥)。
[1-5-7.微生物的检测(荧光测定)]
将上述杂交反应结束后的DNA微阵列用DNA微阵列荧光检测装置(Axon公司制造、GenePix 4000B)进行荧光测定。
图7示出了一例以上实施例结果得到的扫描图像。在图7中,荧光强度强的探针用深色表示。
701是使含有金黄色葡萄球菌的基因组的样品与DNA微阵列反应得到的扫描图像,702是一例使含有大肠杆菌的基因组的样品与DNA微阵列反应得到的扫描图像。
图左侧写的字母表是探针序列的字母表,从A到J分别为设计成与下列各个菌特异结合的探针:金黄色葡萄球菌(A)、表皮葡萄球菌(B)、大肠杆菌(C)、肺炎杆菌(D)、绿脓杆菌(E)、沙雷氏菌(F)、肺炎双球菌(G)、流感杆菌(H)、阴沟肠杆菌(I)、以及粪肠球菌(J)。
2.关于生物种类判定处理(步骤S103)的说明
以下就使用实施步骤S101中得到的扫描图像进行的生物种类判定处理(步骤S103)进行说明。
[2-1.系统构成]
图2是表示用于实现本发明的一实施方式的信息处理方法(生物种类判定方法)的信息处理装置的构成的方块图。
生物种类判定方法是在由外部记录装置201、中央处理装置(CPU)202、存储203、输入输出装置204构成的装置中实现的。外部记录装置201保持实现本实施方式的生物种类判定方法的程序以及杂交反应结果得到的扫描图像。另外还具有保持通过本实施方式得到的生物种类判定结果的功能。中央处理装置(CPU)202执行生物种类判定方法的程序,进行所有装置的调控。而存储203暂时记录经中央处理装置(CPU)202处理的程序、以及子程序和数据。输入输出装置204进行与用户的交流。另外,程序执行启动用户通过输入输出装置204输入。还有,用户通过输入输出装置204可以看到判定结果,或设定程序的参数。
[2-2.一般的生物种类判定处理的概要]
以下在对本发明的信息处理方法进行详细说明前,就要明确本方法特征的通过杂交反应实验得到的扫描图像给出了以往判定处理方法的具体例子,对其问题方面进行研究。
[2-2-1.通过同源性检索进行判定处理时]
就象上述“以往技术”中列举的美国专利第6040138号说明书已经叙述的那样,为了判定未知样品生物种类,有通过同源性检索对存在的多个病原菌进行判定的方法。
例如,通过使用DNA微阵列的表达解析进行的解析手法,即,在图7中,从A组多个探针到J组多个探针,在将各个组的多个探针的平均荧光强度作为目标菌的荧光强度基础上,将各个菌的存在概率作为{(X组的荧光强度)/(A~J组的荧光强度的总合)}(X为A~J组中的任一个)的解析手法。通过这样的解析手法,未知样品中即使混入多个病原菌,也可以适当推导出各个菌存在的概率。
然而,就象以往技术已经叙述的那样,使用这样的解析手法时,不能严格区别碱基序列类似的病原菌有没有存在。举一个例子,理想状态下,杂交反应结果最好是只有701的A行的探针荧光强度变高,而702的C行的探针荧光强度也变高(该701的理想结果与图5给出的实验结果的例子相同)。
这里,所有的探针如果都具有图5所示那样的理想性质,从A组探针到J组探针,可以将各个组的探针的平均荧光强度作为目标菌的强度,此时由于一个样品的实验结果成了A~J组的荧光强度的10个的值,所以将例如各个菌存在概率作为{(X组的荧光强度)/(A~J组的荧光强度的总合)}(X为A~J组中的任一个)是可能的。
然而,就象图7所示那样,实际上不象理想那样发生所谓的“杂交反应”,对于701,A以外的行的探针荧光强度也强,另外,对于702,C以外的行的探针荧光强度也变强,更进一步对于702即使在C行也存在荧光强度弱的探针。
象上述那样求存在概率的作法虽然是在使用以往DNA微阵列的mRNA的定量分析等中适用的方法,但不适用于象图7那样结果的传染病的病原菌的判定。
[2-2-2.通过其他方法进行判定处理]
利用杂交反应的结果判定生物种类的方法除了上述同源性检索之外还可以考虑另外几种方法。例如预先存储从预先已知的生物种类构成的标准样品经杂交反应结果得到的扫描图像,根据来自该已知生物种类的标准样品的扫描图像识别图像,对未知样品的生物种类进行判定的方法等。
以下,就通过图像识别实现生物种类判定的可能性进行研究。这里,就标准样品和未知样品的各个样品,将所有的已知的荧光强度归纳在一起,表示为一个向量,对用两者的向量进行判定的方法进行研究。
例如,如果得到象图7那样的荧光强度,将A~J组合计72个探针归纳做成一个72维向量。即,从一个样品(标准样品或未知样品)的实验结果得到一个向量(这样的向量称为“统合向量”)。而通过对从多个标准样品得到的多个统合向量和从未知样品得到的统合向量进行比较,通过图像识别可以判定未知样品对应于哪种生物种类。
在图8A、B中,作为一个例子,给出了根据2维向量(即,探针数为2个(X、Y)DNA微阵列得到的扫描图像导出的统合向量)中的图像识别例子(此时探针X和探针Y希望都设计成对金黄色葡萄球菌特异的探针)。
在图8A、B中,作为标准样品给出了合计64个样品,从他们的测定结果得到64个统合向量(在该图中,X轴、Y轴分别表示探针X、探针Y的荧光强度(实际上,是将各个样品的测定值进行了归一化))。64个样品中,例如来自金黄色葡萄球菌的统合向量用黑点表示,而来自大肠杆菌的统合向量用白点表示。而在这里,为了便于说明,将探针定为两种,通常象图7那样存在多种,测定结果为维数高的向量。
而对于图8B示出的来自多个标准样品的统合向量分布图,可以利用分类树(图8A)进行图像识别。
所谓分类树是按阶层对标准样品分布的特征空间进行分割的方法,例如,如果按照图8B所示的基准集合作成分类树,可以作成图8A所示那样构造的图像。图8A所示的分类树的各个分支点表示图8B中用粗线表示的边界线,总体上看,可以将特征空间分割成7个部分区间。各个部分区间对应于分类树的平结点,用白圈和黑圈表示。对于图8A、B给出的例子,金黄色葡萄球菌的部分区间分为4个,而大肠杆菌的部分区间分为3个。
使用分类树的判定方法在给出了来自未知样品的统合向量时,对属于哪一部分区间进行判断,可以将对应于该附属的部分区间的生物种类作为判定结果(图8A、B,例如,如果X的值在0.5以下,Y值也在0.5以下,属于来自金黄色葡萄球菌的统合向量分布的区域,而如果X的值在0.5以下,Y值在0.75以上,属于来自大肠杆菌的统合向量分布的区域)。
另外,通过按阶层对分类树进行探索,由于可以判定来自未知样品的统合向量属于哪一部分区间,一般来说具有可以非常高速地对生物种类进行判定的优点。
就象通过以上说明所了解的那样,用统合向量进行图像识别时,每一种生物种类至少预先需要准备一个以上样品的标准样品,如果标准样品少,该生物种类的判定精度降低,或不能判定。当然,对于只存在一个病原菌时,不会有什么样问题,但象上述那样的传染病的病原菌的判定情形,通常存在多个病原菌,在这样的情况下,不能获得正确的判定结果。这是由于进行杂交反应的检体中含有的病原菌的组合使得统合向量的取向、大小变得不同的缘故。即,检体中存在多个病原菌时,由于导出的统合向量接近符合多个病原菌的结果的结论,所以根据这样的统合向量进行上述的图像识别,得到未知样品也不与任一个标准样品类似的判定结果。
作为对策,对于一个生物种类预先准备多个与各种各样病原菌组合的标准样品,需要预先蓄积有关各个样品杂交反应的结果。但是,预先准备针对所有病原菌的组合的标准样品是不现实的。因此,这样的图像识别直接运用于含有具有类似碱基序列的病原菌的情况的生物种类判定是不合适的。
[2-3.根据本申请进行生物种类判定处理的特征]
在上述背景的基础上,本申请进行的生物种类判定处理中,采用通过用于解决上述“2-2-1.同源性检索的情况”问题的图像识别的判定方法,考虑有关利用图像识别时的问题的上述研究,即使不预先准备所有病原菌的组合,已经可以精度高地判定类似的碱基序列。具体来说,当对标准样品和未知样品的向量进行对比时,特征在于附加向量过滤处理方面。以下进行详细说明。
[2-4.根据本申请进行的生物种类判定处理的流程]
图9是用于说明本实施方式的生物种类判定方法的处理的功能方块图。901是“对标准样品的扫描图像”,使含有来自靶生物种类的核酸片段的标准样品杂交反应结果得到的图像。通常在该核酸片段中,附加荧光物质等标记分子后,可以简单地测定与DNA微阵列的杂交反应强度。
902是杂交反应数值化部,对上述DNA微阵列和上述标准样品的杂交反应强度进行数值化处理。903是测定结果向量化部,在对上述杂交反应数值化部得到的DNA微阵列上的各个探针的测定值进行统计处理后,以n维向量表示,进行矫正处理。904是向量归一化部,对生成的向量进行归一化。向量化的归一化数据(标准向量数据)储存在标准向量数据收集部905。
909是主成分分析部,就储存在标准向量数据收集部905的标准向量数据进行主成分分析。主成分分析部909中的主成分分析的的结果在向量过滤部905中进行过滤处理时使用。
907是“对未知样品的扫描图像”,与对标准样品的扫描图像同样,在杂交反应数值化部902进行数值化处理,于测定结果向量化部903中变换为向量表示,然后在向量归一化部904被归一化(未知向量数据)。
在生物种类判定部908中,通过图像识别对未知样品的生物种类进行判定,在判定时,使用在向量过滤部905中被过滤的向量。即,对从针对未知样品的扫描图像得到的归一化的未知向量数据经向量过滤部905过滤的向量数据和储存在标准向量数据部906中的标准向量数据经向量过滤部905过滤的向量数据进行对比,判定未知样品的生物种类。
[2-5.处理的详细说明]
以下就图9的各部分的处理进行详细说明。
[2-5-1.向量归一化处理]
所谓在向量归一化部904进行的向量归一化处理指的是对根据每个样品得到的荧光强度导出的向量进行归一化的处理。
例如,在DNA微阵列上同一探针有多个点时,一般都是将该荧光强度的平均值作为探针的荧光强度。
图10中示出了有多个点相同探针的DNA微阵列的例子。在图10的DNA微阵列中,4组基板上固定了20种探针,存在合计80个点。此时,分别将4个同种类探针的平均强度作为该探针的测定值,归纳为20维的向量。
在图10所示的DNA微阵列的例子中,左上的探针为阳性对照。例如作为阳性对照,预先点上无论哪一个探针都不干涉的核酸,在将要进行杂交反应前,对作为该探针碱基序列的互补链的寡核苷酸加附加了荧光色素的物质。另外,也可以将具有样品中必定含有的那样的部分碱基序列的探针作为阳性对照。
在DNA微阵列的实验中,荧光强度整体有时高,有时低。在这样的情况中,通过使用阳性对照,可以对所有的探针的荧光强度进行归一化。另外,也可以将DNA微阵列中荧光辉度最高的点的测定值作为基准,对整个探针的荧光强度进行归一化的方法。
[2-5-2.向量过滤处理]
以下就作为本发明特征的在向量过滤部905中的向量过滤处理进行说明。首先,就向量过滤处理的概念进行说明。象上述那样,杂交反应结果得到的统合向量在由探针数决定的多维空间中是由每个样品决定的。此时,由于检体中含有什么样的病原菌,在相关多维空间中的统合向量有很大不同。
例如,由只含有单一病原菌的检体的反应结果得到的统合向量和除了该病原菌之外也含有其他病原菌的检体的反应结果得到的统合向量变成了差别很大的向量。
即,将对于含有什么样组合的病原菌的检体的反应结果作为标准样品对判定结果影响很大。因此,也可以考虑准备含有所有组合的病原菌的杂交反应结果得到的标准样品的方法,但已经讲过这是不现实的。
因此,本发明的特征在于在极力排除组合的影响的状态下进行判定的方面。具体来说,通过对统合向量加以过滤,一方面从未知样品中提取所定的病原菌的向量成分(特定向量),另一方面对于标准样品的统合向量也同样进行所定的病原菌的特定向量提取。然后通过对该特定向量之间进行比较,进行图像识别,可以一边控制标准样品的数,一边高精度地判定该所定的病原菌的有无。
这样一来,通过进行向量过滤处理,提取排除了所定病原菌以外的向量成分的特定向量,只制备有限的标准样品,就可以得到正确的判定结果。
以下就在向量过滤部905中的具体处理进行说明。图11示出了向量过滤部906的最原始的算法。1101是金黄色葡萄球菌用的过滤器,黑点的系数是1,而白点的系数意味着0。例如,得到象图7那样的杂交反应的结果时,1101过滤器对701的实验数据和702的实验数据都适用。结果72维的向量被过滤成9维。
同样,1102指的是大肠杆菌用的过滤器,黑点的系数是1,而白点的系数意味着0。将该过滤器应用于例如象图7那样的实验数据,72维的向量应当被过滤成7维。如果得到象图7那样的2个标准样品的实验结果,在图9的标准向量数据收集部906,应当收集到2个9维的向量,2个7维的特定向量。而由未知样品的实验数据各得到一个9维的特定向量和7维的特定向量,将他们分别与上述同维的基准向量进行比较,可以推定有无金黄色葡萄球菌、大肠杆菌各个菌的存在。这样一来,就象图10所示的金黄色葡萄球菌的过滤器和大肠杆菌的过滤器那样,在对每一种生物种类准备过滤器中,通过用该过滤器对向量进行过滤求特定向量,利用图像识别可以探求有无生物种类存在。
[2-5-3.主成分分析处理]
在图10中,为便于说明,给出了将对应于各个生物种类探针的测定值设为1,而其他的探针设为0的单纯的过滤器的例子,一般来说,根据预先得到的见解,通过对每一个探针的测定值设置从0到1之间的常数,可以实现过滤。以下就过滤器的构成方法进行说明。
一般来说,在对向量组的信息进行压缩的技术中有主成分分析(详细的技术参照例如书籍《回归分析和主成分分析 统计解析程序讲座2》芳贺 敏郎,桥本 茂司(著),出版社:日科技连出版社;ISBN:4817120118;(1980/05))。这是对从多个测定结果向量得到的协方差矩阵进行固有值分解,利用对应于各个固有值的固有向量,对测定结果向量进行主成分分解(光谱分解)的方法。由于固有向量可以成为正规直交基底,主成分分解(光谱分解)变成了所谓的直交座标变换。因此,主成分分解前的向量的维数和主成分分解后的向量的维数基本上没有变化。然而主成分分解后,可以忽略对应于固有值极端小的值的成分的情形很多,此时可以将向量维数变小。而这又起到过滤作用。
以下就对每种生物种类进行主成分分析,在构成过滤的主成分分析部909中的处理进行说明。
图12是表示在图9的主成分分析部909中的处理流程的流程图。首先选择制造过滤的生物种类。对于传染病的病原菌判定的情形,对例如金黄色葡萄球菌或大肠杆菌等进行指定。然后在图9的标准向量收集部906中收集的标准样品的统合向量中,只选择来自步骤S1201中选择的生物种类向量。此时,通常对来自在1201选择的生物种类的标准样品的统合向量数据都进行选择。另外,对来自在步骤1201选择的生物种以往的生物种的标准样品的统合向量数据也进行选择。
然后,求步骤1202和1203中选择的统合向量数据组的协方差矩阵,计算固有值,忽略固有值小的成分。这样一来,为了对步骤S1202中选择的生物种进行判定,重要的探针的测定值应当被过滤。
例如,如果探针有n个,由步骤1202和1203中选择的统合向量数据组得到的协方差矩阵变成了nxn的对称非负矩阵(Symmetvicalnon-negative matrix),其固有值也存在n个。如果将固有值按照大的顺序排列变成λi(i=1,2,…n),直至第m成分的累积比率(accumulated propotion)可以用下式计算。
数1
这个值在例如80%以上时,停止主成分分解(光谱分解),忽略对应于比他小的固有值的成分。而在上述例子中所谓的80%的数字可以设定为用户给予的任意比率。另外,将对于用户的各个固有向量与固有值一起表示后看到,也可以使用户选择可忽略的主成分分解成分。
此时,也可以对来自在步骤S1201选择的生物种以外的生物种的标准样品的统合向量数据都进行选择,但要判定的生物种多时,会出现在步骤S1203中选择的统合向量数比步骤S1202中选择的统合向量数多得多的状况。如果那样的话,其后的主成分分析结果被拖到步骤S1203选择的统合向量,结果所有生物种类主成分分析的结果几乎都相同了。为了避免这样的结果,要在例如使步骤S1203中选择的统合向量数与步骤S1202中选择的统合向量数变成同样的程度上想想办法。
例如,从来自在步骤S1201选择的生物种类以外的生物种类的标准样品的统合向量数据中随机选择只与步骤S1202中选择的统合向量数相同的数目。此时,为了对各种各样生物种类的标准样品的统合向量数据进行选择,如果要判定的生物种的数为N,例如,可以对每一生物种类收集的统合向量的1/(N-1)数的标准样品的统合向量进行随机选择。这样在步骤S1203选择的统合向量数就与在步骤1202中选择的统合向量数几乎相同了。
[2-5-4.判定处理]
一般来说,向量之间的比较、分类通过称之为“图像识别”的技术来进行。其详细的技术内容在例如IEEE Transaction on PatternAnalysis and Machine Learning,Vol.22,No.1,January 2000,pp.4-pp.37中的“Statistical Pattern Recognition:A Review”Anil K.Jain,Robert P.W.Duin,and Jianchan Mao.的论文中有综述。在本发明的生物种类判定方法中可以适用作为图像识别技术的k-Nearest-Neighbor法、分类树、Support Vector Machine、ベイズ(Bayes)识别法、ブ-ステイング(boosting)法、ニユ-ラルネツト(neural net)等任一种方法。
这里就利用k-Nearest-Neighbor法的图像识别和实验分类树的图像识别进行说明。K-Nearest-Neighbor法是在图像识别的算法中最原始的方法。所谓k-Nearest-Neighbor法是计算标准样品和未知样品的特定向量之间的距离,将与基本上处于近距离的标准样品相同的生物种类作为判定结果的方法。一般对于特定向量之间的距离用以数2式表示的欧几里得(Euclidean)距离。
数2
数3
另外,也可以用数3式表示的绝对值距离。所谓k-Nearest-Neighbor法按照距离近的顺序排列基准样品,将从最近方开始的K个中的数最多的标准样品的生物种类作为判定结果的方法。尤其1-Nearest-Neighbor法是将与来自未知样品的特定向量最近的标准样品的生物种作为判定结果的方法。
以下用图13~15就使用分类树的图像识别进行说明。首先用图13就使用分类树的图像识别的概要进行说明。就象图13所示的那样,在使用分类树的图像识别中,首先,实行作成从学习图像1301到多个分类树1303的分类树作成处理(1302)。
该学习图像称之为“教师赋予数据”,预先知道属于哪个范畴的图像。用传染病病原菌判定的例子说,在树中含有DNA芯片的杂交图像和该菌成对的信息。而一般将作成该分类树1303的工序称之为学习阶段。
然后使用学习阶段中做成的分类树1303对所属种类不明的图像(未知图像1304)进行图像核对(1305),对所属的种类进行推定。用传染病病原菌判定例子来说,以DNA芯片的杂交图像为基础,进行该菌的判定。一般来说,将对该未知图像1304进行图像核对的工序称之为图像识别阶段。
在本实施方式中,在学习阶段由同一学习图像1301做成多个分类树1303。当在学习阶段中做成的分类树1303为n个时,即使在图像识别阶段,对应于各个分类树1303应该得到n个识别结果。而最终识别结果1306是通过这些n个识别结果的多数决定投票进行的。另外,当作成的各个分类树1303也是含有概率的分类树时,使所有n个有概率的识别结果适合每一类,将概率更高的种类作为整体的识别结果1306(这样的算法一般称之为嵌合算法(ensemble algorithm))。
以下用图14就上述分类树作成处理(1302)进行详细说明。图14是表示分类树作成处理(1302)流程的流程图。就象该图所示的那样,在做成分类树时,首先,作为初期设定在步骤S1401中将根分支点设定为现行分支点。这里所谓现行是着眼于现在的分支点,含有学习图像的子集合(也可能含有全集合或根集合)。而所谓根分支点是分类树的最亲的分支点,包括所有的学习图像。
然后对在步骤S1402中的现行分支点是否含有学习图像进行判定。对于现行分支点是根分支点时,通常含有学习图像,进行分类树作成处理的分类树被细分化的结果,下位层的分支点变成现行分支点时,有时在该现行分支点中也会出现不含有学习图像的时候。假如不含有时,进入到步骤S1408,将现行分支点当做NULL分支点。这里所谓NULL分支点是判定结果不清楚的分支点,当未知图像落入到NULL分支点时,将其亲代的分支点的种类存在概率作为图像识别结果。
当现行分支点设定为NULL分支点时,关于该分支点由于不需要生成以上子代分支点,返回到该分支点的亲代分支点(就是说,将该分支点的亲代分支点设定为现行分支点(步骤S1410))。
另外,现行分支点含有学习图像时(不是NULL分支点时),在步骤S1403中对是否满足平分支点进行确认。所谓平分支点指的是不具有子代分支点,当进行确认时,求例如学习分支点中含有的学习图像的熵,如果该熵为某一阈值以下时,判定为平分支点。而此时用的阈值如果设定为0,在平分支点中应当只含有属于单独种类的学习图像。
步骤S1403中确认的结果如果满足平分支点的条件时,进入到步骤S1409,将学习分支点作为平分支点。象上述那样由于平分支点是不具有子代分支点的分支点,对该分支点不生成子代分支点,所以返回到该分支点的亲代分支点(就是说,将该分支点的亲分支点设定为现行分支点(步骤S1410))。
另一方面,当现行分支点既不是NULL分支点,也不是平分支点时,在步骤S1404中决定分支点的判定函数,生成子代分支点(步骤S1405)。而在步骤S1407中,将各个子代分支点依次设定为现行分支点,反复进行从步骤S1402到步骤S1405以及从步骤S1407到步骤S1410的处理,进一步作成分类树。
另外,在本实施方式中,分类树使用2叉分类树,在步骤S1405中生成的子代分支点的数通常为2个(这样的算法称之为2分叉分类树嵌合算法)。在程序中实际安装这样的算法时,将现行分支点设定为子代分支点是用循环实现的,所谓的2分叉,循环的次数应当为2。
如果根分支点以下的所有的子代分支点被展开,即,最终根分支点以下的所有的分支点的末端都变成NULL分支点或平分支点(在步骤S1406中变成“否”),进入到步骤S1411,对亲代分支点是否是根分支点进行确认。根分支点以下的所有的子代分支点都被展开时,现行分支点位于分类树的下位层的分支点时,通过反复进行步骤S1411、步骤S1410、步骤S1406,移到到上位层的分支点,在现行分支点移到到一个根分支点以下的分支点为止时,完成了处理。
以下用图15对在分支点中决定判定函数的工序(步骤S1404)的概要进行说明。通过图14能够说明的分类树作成处理(1302)在分类树作成算法中是普遍的处理。而在各个分类树作成处理中作成的分类树由于得到很高的识别率,所有在各个分支点中,用什么样的算法决定判定函数的点变得重要。在本实施方式中,使用随机取样,决定判定函数。
图15是用随机取样决定决定函数的处理的概要图进行说明的图,1501表示现行分支点含有的学习图像的分布。这里,为了简化说明,种类定为用白和黑表示的2种,在现行分支点中白的学习图像有7个,而黑的学习图像有5个,合计含有12个学习图像。
在决定判定函数时,首先,从含有现行分支点决定的所有学习图像中随机选一个学习图像,然后从与属于该选择的学习图像的种类不同的其他种类的学习图像中随机选择一个学习图像(1503选择的学习图像)。然后将表示靠近这两个学习图像中任一个的函数作为判定函数。
成为求表示与两个学习图像中的哪一个近的函数时的指标的“近”通常使用欧几里得距离,但不限定于此,只要是可以构成距离空间的距离尺度无论什么样的距离都可以。如果学习图像向量采用欧几里得距离,被判定函数隔开的判定曲线1502变成超平面。一般来说,如果使用复杂的距离长度,可以得到更复杂的判定曲线。而对于图15的情况,判定曲线1502的纸面右侧是靠近黑的学习图像的区域,判定曲线1502的纸面左侧变成了靠近白的学习图像的区域。
另外,随机选择的学习图像的个数不限于2个,从某个种类选m个、从其他种类选m个,求各个m个的平均图像,通过测定这两个图像的距离,也可以求判定函数。
这样一来,在本实施方式中当进行分类树作成处理时,在使用2分叉分类树嵌合算法的同时,还可以通过用表示靠近从存在于各个分支点的学习数据中随机选分类树各个分支点的判定函数的相互类别不同的两个学习图像中的哪一个的函数再进行定义,有可能在作成的分类树中实现高的识别率。
3.总结
就象以上说明所阐明的那样,在本实施方式中,代替以往的培养法,通过使用通过DNA微阵列进行的杂交反应,进行判定,可以实现简易、价廉,而且在短时间内的对生物种类判定。
另外,当利用杂交反应结果得到的扫描图像进行生物种的判定时,代替以往的求存在概率的方法,根据与标准样品的对比,通过使用图像识别,即使是具有相互类似的碱基序列的生物种类也可以进行判定。
此时,在与标准样品的对比中,不使用对标准样品上的所有的荧光强度进行统合的统合向量,而是用从统合向量中提取所定的病原菌成分得到的特定向量,即使预先制备的标准样品的数目少,也可以进行判定。
还有,用于从统合向量提取特定向量时的每个病原菌的向量过滤是通过对所定病原菌含有的多个标准样品的统合向量进行主成分分析获得的。
另外,本发明可适用于由多个仪器(例如,主计算机、连系装置、读数装置、打印机等)构成的系统,也适用于由一个仪器构成的装置(例如复印机、传真装置等)。
另外,本发明的目的通过将记录实现上述实施方式功能的软件的程序表的记录介质供给系统或装置,对记录介质中储存了该系统或装置的计算机(或CPU和MPU)的程序表实施读出,不用说也可以达到。
此时,通过从记录介质读出的程序表本身实现上述实施方式的功能,记录该程序表的记录介质构成了本发明。
作为用于供给程序表的记录介质,可以使用例如软盘(注册商标)、硬盘、光盘、光磁盘、CD-ROM、CD-R、磁带、没有挥发性的存储卡、ROM等。
另外,通过实行计算机读出的程序卡,不仅可以实现上述的实施方式的功能,而且根据该程序卡的指示,在计算机上运转的OS(操作系统)等进行实际处理的一部分或全部,通过这样的处理,不用说也包括实现上述实施方式的功能的情形。
另外,从记录介质读出的程序卡被写入到插入计算机的功能扩张卡或连接在计算机的功能扩张单元中备有的存储中后,按照该程序卡的指示,该功能扩张卡或功能扩张单元备有的CPU等可以实际处理的一部分或全部,不用说通过该处理,也包括实现上述实施方式的功能的情形。
序列表
<110>佳能株式会社
<120>信息处理装置和信息处理方法以及记录介质、程序
<130>XXXXX
<150>2003-140793
<151>2003-05-19
<160>78
<170>PatentIn version 3.2
<210>1
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>1
cagagagctt gctctcgggt ga 22
<210>2
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>2
gggaggaagg tgttgtggtt aataac 26
<210>3
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>3
ggtgttgtgg ttaataacca cagcaa 26
<210>4
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>4
gcggtctgtc aagtcggatg tg 22
<210>5
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>5
attcgaaact ggcaggctag agtct 25
<210>6
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>6
taaccacagc aattgacgtt acccg 25
<210>7
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>7
gcaattgacg ttacccgcag aaga 24
<210>8
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>8
gaaccgcatg gttcaaaagt gaaaga 26
<210>9
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>9
cacttataga tggatccgcg ctgc 24
<210>10
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>10
tgcacatctt gacggtacct aatcag 26
<210>11
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>11
ccccttagtg ctgcagctaa cg 22
<210>12
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>12
aatacaaagg gcagcgaaac cgc 23
<210>13
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>13
ccggtggagt aaccttttag gagct 25
<210>14
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>14
taacctttta ggagctagcc gtcga 25
<210>15
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>15
tttaggagct agccgtcgaa ggt 23
<210>16
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>16
tagccgtcga aggtgggaca aat 23
<210>17
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>17
gaacagacga ggagcttgct cc 22
<210>18
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>18
tagtgaaaga cggttttgct gtcact 26
<210>19
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>19
taagtaacta tgcacgtctt gacggt 26
<210>20
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>20
gacccctcta gagatagagt tttccc 26
<210>21
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>21
agtaaccatt tggagctagc cgtc 24
<210>22
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>22
gagcttgctc ctctgacgtt agc 23
<210>23
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>23
agccggtgga gtaaccattt gg 22
<210>24
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>24
ctcttgccat cggatgtgcc ca 22
<210>25
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>25
atacctttgc tcattgacgt tacccg 26
<210>26
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>26
tttgctcatt gacgttaccc gcag 24
<210>27
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>27
actggcaagc ttgagtctcg taga 24
<210>28
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>28
atacaaagag aagcgacctc gcg 23
<210>29
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>29
cggacctcat aaagtgcgtc gtagt 25
<210>30
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>30
gcggggagga agggagtaaa gttaat 26
<210>31
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>31
tagcacagag agcttgctct cgg 23
<210>32
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>32
tcatgccatc agatgtgccc aga 23
<210>33
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>33
cggggaggaa ggcgataagg ttaat 25
<210>34
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>34
ttcgattgac gttacccgca gaaga 25
<210>35
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>35
ggtctgtcaa gtcggatgtg aaatcc 26
<210>36
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>36
gcaggctaga gtcttgtaga gggg 24
<210>37
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>37
tgagggagaa agtgggggat cttc 24
<210>38
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>38
tcagatgagc ctaggtcgga ttagc 25
<210>39
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>39
gagctagagt acggtagagg gtgg 24
<210>40
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>40
gtacggtaga gggtggtgga atttc 25
<210>41
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>41
gaccacctgg actgatactg acac 24
<210>42
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>42
tggccttgac atgctgagaa ctttc 25
<210>43
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>43
ttagttacca gcacctcggg tgg 23
<210>44
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>44
tagtctaacc gcaaggggga cg 22
<210>45
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>45
tagcacaggg agcttgctcc ct 22
<210>46
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>46
aggtggrgag cttaatacgc tcatc 25
<210>47
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>47
tcatcaattg acgttactcg cagaag 26
<210>48
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>48
actgcatttg aaactggcaa gctaga 26
<210>49
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>49
ttatcctttg ttgcagcttc ggcc 24
<210>50
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>50
actttcagcg aggaggaagg tgg 23
<210>51
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>51
agtagaacgc tgaaggagga gcttg 25
<210>52
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>52
cttgcatcac taccagatgg acctg 25
<210>53
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>53
tgagagtgga aagttcacac tgtgac 26
<210>54
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>54
gctgtggctt aaccatagta ggcttt 26
<210>55
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>55
aagcggctct ctggcttgta act 23
<210>56
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>56
tagacccttt ccggggttta gtgc 24
<210>57
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>57
gacggcaagc taatctctta aagcca 26
<210>58
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>58
gcttgggaat ctggcttatg gagg 24
<210>59
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>59
tgccatagga tgagcccaag tgg 23
<210>60
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>60
cttgggaatg tactgacgct catgtg 26
<210>61
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>61
ggattgggct tagagcttgg tgc 23
<210>62
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>62
tacagaggga agcgaagctg cg 22
<210>63
<211>26
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>63
ggcgtttacc acggtatgat tcatga 26
<210>64
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>64
aatgcctacc aagcctgcga tct 23
<210>65
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>65
tatcggaaga tgaaagtgcg ggact 25
<210>66
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>66
ttctttcctc ccgagtgctt gca 23
<210>67
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>67
aacacgtggg taacctaccc atcag 25
<210>68
<211>24
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>68
atggcataag agtgaaaggc gctt 24
<210>69
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>69
gacccgcggt gcattagcta gt 22
<210>70
<211>25
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>70
ggacgttagt aactgaacgt cccct 25
<210>71
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>71
ctcaaccggg gagggtcatt gg 22
<210>72
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA探针
<400>72
ttggagggtt tccgcccttc ag 22
<210>73
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA用作正向引物
<400>73
gcggcgtgcc taatacatgc aag 23
<210>74
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA用作正向引物
<400>74
gcggcaggcc taacacatgc aag 23
<210>75
<211>23
<212>DNA
<213>人工
<220>
<223>合成的DNA用作正向引物
<400>75
gcggcaggct taacacatgc aag 23
<210>76
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA用作反向引物
<400>76
atccagccgc accttccgat ac 22
<210>77
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA用作反向引物
<400>77
atccaaccgc aggttcccct ac 22
<210>78
<211>22
<212>DNA
<213>人工
<220>
<223>合成的DNA用作反向引物
<400>78
atccagccgc aggttcccct ac 22
Claims (14)
1、信息处理装置,是使用配置了作为与生物种核酸序列的一部分互补的核酸的探针的DNA微阵列,对涉及到的使所定检体进行杂交反应结果得到的DNA微阵列上的各个探针的信号强度的有关信息进行处理的信息处理装置,其特征是具备以下手段:
对与使已知生物种进行杂交反应结果得到的上述各个探针的信号强度有关的第1信息进行保持的保持手段,
取得有关使上述所定检体进行杂交反应结果得到的各个探针的信号强度的信息的第2信息的取得手段,
在上述第1以及第2信息中,提取与所定生物种有关的信息的提取手段,和
依据通过上述提取手段提取的上述第1信息中与所定生物种有关的信息与上述第2信息中与所定生物种有关的信息,对上述所定检体是否含有该所定生物种类进行判定的判定手段。
2、权利要求1所述的信息处理装置,其特征是:所谓的上述第1和第2信息是在对应于上述DNA微阵列上的探针数的多维空间,以该各个探针的信号强度作为成分的向量数据。
3、权利要求2所述的信息处理装置,其特征是:上述提取手段是进行削减作为上述第1和第2信息的向量数据的维数的变换。
4、权利要求2所述的信息处理装置,其特征是:上述提取手段是根据对保持在上述保持手段的上述第1信息的向量数据中的含有上述所定生物种的多个向量数据进行的主成分分析,提取与上述所定生物种有关的信息。
5、权利要求1所述的信息处理装置,其特征是:上述判定手段是通过图形识别处理进行判定的。
6、权利要求5所述的信息处理装置,其特征是:上述判定手段是分类树,该分类树是用2分叉分类树嵌合算法(ensemble algorithm)作成的,而且位于该分类树的各个分支点的判定函数是用表示接近从存在于该各个分支点的学习数据中随机选择出来的不同种类的两个学习图形中的一个的函数定义的。
7、信息处理方法,是使用配置了作为与生物种核酸序列的一部分互补的核酸的探针的DNA微阵列,对有关使所定检体进行杂交反应结果得到的DNA微阵列上的各个探针的信号强度的信息进行处理的信息处理方法,其特征是具备以下工序:
对与使已知生物种进行杂交反应结果得到的上述各个探针的信号强度有关的第1信息进行保持的保持工序,
取得有关对上述所定检体进行杂交反应结果得到的各个探针的信号强度的第2信息的取得工序,
在上述第1以及第2信息中,提取与所定生物种有关的信息的提取工序,和
依据通过上述提取手段提取的上述第1信息中与所定生物种有关的信息与上述第2信息中与所定生物种有关的信息,对上述所定检体是否含有该所定生物种进行判定的判定工序。
8、权利要求7所述的信息处理方法,其特征是:所谓的上述第1和第2信息是在对应于上述DNA微阵列上的探针数的多维空间,以该各个探针的信号强度作为成分的向量数据。
9、权利要求8所述的信息处理方法,其特征是:上述提取工序是进行削减作为上述第1和第2信息的向量数据的维数的变换。
10、权利要求8所述的信息处理方法,其特征是:上述提取工序根据对保持在上述保持工序的上述第1信息的向量数据中的含有上述所定生物种的多个向量数据进行的主成分分析,提取与上述所定生物种有关的信息。
11、权利要求7所述的信息处理方法,上述判定工序是通过图形识别处理进行判定的。
12、权利要求11所述的信息处理方法,其特征是:上述判定工序通过分类树进行处理的,该分类树是用2分叉分类树嵌合算法做成的,而且位于该分类树的各个分支点的判定函数是用表示接近从存在于该各个分支点的学习数据中随机选择出来的不同种类的两个学习图形中的一个的函数定义的。
13、用于通过计算机使权利要求7至12任一项所述的信息处理方法实现的调控程序。
14、贮存用于通过计算机使权利要求7至12任一项所述的信息处理方法实现的调控程序的记录介质。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003140793 | 2003-05-19 | ||
JP140793/2003 | 2003-05-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1550557A true CN1550557A (zh) | 2004-12-01 |
CN100510102C CN100510102C (zh) | 2009-07-08 |
Family
ID=33095391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100446451A Expired - Fee Related CN100510102C (zh) | 2003-05-19 | 2004-05-19 | 信息处理装置和信息处理方法以及记录介质、程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20050164217A1 (zh) |
EP (1) | EP1480155A3 (zh) |
CN (1) | CN100510102C (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100296711A1 (en) * | 2005-08-05 | 2010-11-25 | Canon Kabushiki Kaisha | Method of determining a biospecies |
JP2007148752A (ja) * | 2005-11-28 | 2007-06-14 | Canon Inc | 標的物質の自動解析装置および判定ソフトウェア更新方法 |
JP5037905B2 (ja) * | 2006-11-10 | 2012-10-03 | キヤノン株式会社 | プローブ、プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP2008118908A (ja) * | 2006-11-10 | 2008-05-29 | Canon Inc | プローブ、プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP5596893B2 (ja) * | 2006-11-10 | 2014-09-24 | キヤノン株式会社 | プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP5596892B2 (ja) * | 2006-11-10 | 2014-09-24 | キヤノン株式会社 | プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP2008118907A (ja) * | 2006-11-10 | 2008-05-29 | Canon Inc | プローブ、プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP5201818B2 (ja) * | 2006-11-10 | 2013-06-05 | キヤノン株式会社 | プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP5037906B2 (ja) * | 2006-11-10 | 2012-10-03 | キヤノン株式会社 | プローブ、プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP5596891B2 (ja) * | 2006-11-10 | 2014-09-24 | キヤノン株式会社 | プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP5596894B2 (ja) * | 2006-11-10 | 2014-09-24 | キヤノン株式会社 | プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP2008118904A (ja) * | 2006-11-10 | 2008-05-29 | Canon Inc | プローブ、プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP2008118914A (ja) * | 2006-11-10 | 2008-05-29 | Canon Inc | プローブ、プローブセット、プローブ固定担体及び遺伝子検査方法 |
JP5538967B2 (ja) * | 2009-06-18 | 2014-07-02 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
JP5706647B2 (ja) * | 2010-09-03 | 2015-04-22 | キヤノン株式会社 | 情報処理装置、およびその処理方法 |
WO2014022441A1 (en) * | 2012-07-30 | 2014-02-06 | Khalid Sayood | Classification of nucleotide sequences by latent semantic analysis |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6040138A (en) * | 1995-09-15 | 2000-03-21 | Affymetrix, Inc. | Expression monitoring by hybridization to high density oligonucleotide arrays |
US5930392A (en) * | 1996-07-12 | 1999-07-27 | Lucent Technologies Inc. | Classification technique using random decision forests |
JP3634574B2 (ja) * | 1997-07-11 | 2005-03-30 | キヤノン株式会社 | 情報処理方法及び装置 |
US6395562B1 (en) * | 1998-04-22 | 2002-05-28 | The Regents Of The University Of California | Diagnostic microarray apparatus |
US6625585B1 (en) * | 2000-02-18 | 2003-09-23 | Bioreason, Inc. | Method and system for artificial intelligence directed lead discovery though multi-domain agglomerative clustering |
KR100451108B1 (ko) * | 2000-05-30 | 2004-10-06 | 주식회사 바이오메드랩 | 마이코박테리아 균동정 및 약제내성 탐지를 위한 유전자진단키트 및 그 키트의 제조방법 |
CA2363518A1 (en) * | 2000-11-21 | 2002-05-21 | Affymetrix, Inc. | Methods and computer software products for predicting nucleic acid hybridization affinity |
-
2004
- 2004-05-14 EP EP04252807A patent/EP1480155A3/en not_active Ceased
- 2004-05-19 CN CNB2004100446451A patent/CN100510102C/zh not_active Expired - Fee Related
- 2004-05-19 US US10/848,126 patent/US20050164217A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20050164217A1 (en) | 2005-07-28 |
CN100510102C (zh) | 2009-07-08 |
EP1480155A3 (en) | 2008-12-03 |
EP1480155A2 (en) | 2004-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1550557A (zh) | 信息处理装置和信息处理方法以及记录介质、程序 | |
CN1806051A (zh) | 通过(例如)t细胞受体v/d/j基因中的重复鉴定克隆性细胞 | |
CN100351391C (zh) | 使用放大标记的测序方法 | |
CN1370242A (zh) | 基因组分布分析:一种检测复杂生物样品中多种类型生物的存在的快速方法 | |
CN1566366A (zh) | 一种基于dna芯片的基因分型方法及其应用 | |
CN1071955A (zh) | 分支杆菌引物及探针 | |
CN1286985C (zh) | 与疾病相关的核酸 | |
CN1683565A (zh) | 一套检测常见肠道致病菌的寡核苷酸探针及其用途 | |
CN1723217A (zh) | 使用单核苷酸多态性组分析受损样品的方法和组合物 | |
CN1918305A (zh) | 核酸检测方法及其应用 | |
CN1777684A (zh) | 用于多元结合分析的寡核苷酸对 | |
CN1085957A (zh) | 由sod族衍生的寡核苷酸类 | |
CN1255555C (zh) | 猪病毒病诊断性基因芯片及其用途 | |
CN1958808A (zh) | 检测牛传染病病毒的基因芯片、检测方法、试剂盒 | |
CN101045944A (zh) | 检测六种腹泻致病菌的基因芯片、制备方法及试剂盒 | |
CN101045945A (zh) | 检测多种常见细菌病原体的基因芯片、制备方法、试剂盒 | |
CN1261595C (zh) | 鸡病毒病诊断性基因芯片及其用途 | |
CN1610756A (zh) | B组链球菌的分子分型 | |
CN1304599C (zh) | 耐药菌检测芯片及其制备方法和应用方法 | |
CN1912139A (zh) | 细胞色素p450基因遗传变异的检测芯片及其应用 | |
CN1255554C (zh) | 猪传染性腹泻病诊断性基因芯片及其用途 | |
CN1255553C (zh) | 动物细菌检测基因芯片及其用途 | |
CN1257287C (zh) | 鸡常见传染病诊断性基因芯片及其用途 | |
CN1488001A (zh) | 试验肿瘤细胞对于抗癌药剂敏感性的方法 | |
CN1274849C (zh) | 猪常见传染病诊断性基因芯片及其用途 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090708 Termination date: 20200519 |