CN102051412B - 判断罹患疾病的装置 - Google Patents

判断罹患疾病的装置 Download PDF

Info

Publication number
CN102051412B
CN102051412B CN201010526277.XA CN201010526277A CN102051412B CN 102051412 B CN102051412 B CN 102051412B CN 201010526277 A CN201010526277 A CN 201010526277A CN 102051412 B CN102051412 B CN 102051412B
Authority
CN
China
Prior art keywords
gene
disease
gene group
judgement
expression amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010526277.XA
Other languages
English (en)
Other versions
CN102051412A (zh
Inventor
吉田雄一郎
小林雅树
大友泰裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sysmex Corp
Original Assignee
Sysmex Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sysmex Corp filed Critical Sysmex Corp
Publication of CN102051412A publication Critical patent/CN102051412A/zh
Application granted granted Critical
Publication of CN102051412B publication Critical patent/CN102051412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了判断罹患疾病的装置,其包括:测定装置,其用于测定从疑似罹患作为判断对象的疾病的受试者得到的活体样品中属于基因群的至少1种基因的转录产物表达量,所述基因群用于判断与所述疾病相关的至少2种疾病;及控制器,其用于进行下列操作,所述操作包括:将从测定装置得到的表达量基于多个健康者中相应基因的转录产物表达量进行标准化,从而取得显示偏差的值,取得所述疾病判断用基因群各自中属于所述基因群的基因的显示偏差的值的平均值,及使用所述平均值判断所述受试者是否罹患作为判断对象的疾病。本发明还公开了控制系统。

Description

判断罹患疾病的装置
技术领域
本发明涉及用于判断受试者是否罹患作为判断对象的疾病的装置。更具体而言,本发明涉及可基于从受试者采取的活体样品中有的特定基因的转录产物表达量的测定来判断该受试者是否罹患作为判断对象的疾病的装置。
背景技术
大量的基因或它们的转录产物的表达量的网络的解析由于可发现关联于某特定疾病而表达量变化的基因,期待着可利用于该罹患疾病判断的可能性。因此,至今大量进行着对于基于这样的网络的解析的数据,判断受试者是否罹患某特定疾病的方法的研究。
但是,基因或其转录产物的表达量的网络的解析中,由于也大量检测假阳性的基因,或者测定系统所致的误差,基因表达的再现性的不良等,存在提取显示真正显著的表达量的变化的基因困难的问题。
而为了解决这样的问题,至今研究及开发着对于解析数据的各种统计方法。
例如,特开2005-323573号公报公开了通过多变量解析获自DNA微阵列的基因的表达量数据,判断不同的2条件间的基因表达是否显著不同的方法。
此外,美国专利申请公开No.2009/0297494公开了基于与细胞内谷胱甘肽水平的调节相关的基因的表达水平来诊断精神障碍的方法。
发明内容
本发明的范围仅由权利要求确定,不以任何方式受到此发明内容部分的影响。因此,本发明提供以下技术方案。
(1)判断罹患疾病的装置,其包括:
●测定装置,其用于测定从疑似罹患作为判断对象的疾病的受试者得到的活体样品中属于基因群的至少1种基因的转录产物表达量,所述基因群用于判断与所述疾病相关的至少2种疾病;及
●控制器,其用于进行下列操作,所述操作包括:
■将从测定装置得到的表达量基于多个健康者中相应基因的转录产物表达量进行标准化,从而取得显示偏差的值,
■取得所述疾病判断用基因群各自中属于所述基因群的基因的显示偏差的值的平均值,及
■使用所述平均值判断所述受试者是否罹患作为判断对象的疾病。
(2)(1)的判断罹患疾病的装置,其中所述疾病判断用基因群如下鉴定:
(a)测定从罹患作为判断对象的疾病的多个患者各自及多个健康者各自得到的活体样品中的基因的转录产物表达量,
(b)通过将对于所述多个患者各自的基因的转录产物表达量基于所述多个健康者中相应基因的转录产物表达量进行标准化来取得对于所述多个患者各自的显示偏差的值,通过标准化对于所述多个健康者各自的基因的转录产物表达量来取得对于所述多个健康者各自的显示偏差的值,
(c)将所述测定了表达量的基因用基于基因所编码的分子功能的分类系统分类为至少2种基因群,对于所述多个患者各自及所述多个健康者各自,取得所述基因群各自中属于基因群的基因的显示偏差的值的平均值作为所述基因群的平均值,
(d)取得对于所述多个患者的各基因群的平均值与对于所述多个健康者的相应各基因群的平均值之间的显著性概率,及
(e)将所述显著性概率为0.05以下的基因群鉴定为与作为判断对象的疾病相关联的疾病判断用基因群。
(3)(2)的判断罹患疾病的装置,其中所述基于基因所编码的分子功能的分类系统是:Gene Ontology、KEGG(KyotoEncyclopedia of Genes and Genomes)、MetaCyc、GenMAPP、BioCarta、KeyMolnet或OMIM(Online Mendelian Inheritance inMan)。
(4)(1)的判断罹患疾病的装置,其中所述作为判断对象的疾病选自:克罗恩病、亨廷顿病或子宫内膜症。
(5)(1)的判断罹患疾病的装置,其中,
●所述作为判断对象的疾病是克罗恩病,
●所述疾病判断用基因群是选自下列的至少2种:G蛋白关联基因群、血液凝固关联基因群、氧化应激关联基因群、吞噬作用关联基因群或脂肪氧化关联基因群。
(6)(1)的判断罹患疾病的装置,其中,
●所述作为判断对象的疾病是亨廷顿病,
●所述疾病判断用基因群是选自下列的至少2种:微管关联基因群,线粒体关联基因群或前列腺素关联基因群。
(7)(1)的罹患判断装置,其中,
●所述作为判断对象的疾病是子宫内膜症,
●所述疾病判断用基因群是选自下列的至少2种:细胞因子合成通路关联基因群,细胞因子介导的信号关联基因群或免疫球蛋白介导的免疫应答关联基因群。
(8)(1)的罹患判断装置,其中测定装置在基因的转录产物表达量的测定中测定至少3种疾病判断用基因群各自中属于基因群的至少1种基因的表达量。
(9)(5)的判断罹患疾病的装置,其中,
●所述G蛋白关联基因群的基因选自以下列基因符号表示的基因:GNG3,GNG7,GNA15,GNB5,GNAS,GNG5,GNG11,GNB1及GNG4,
●所述血液凝固关联基因群的基因选自以下列基因符号表示的基因:GP1BA,GP1BB,ITGB3,GP9及F13A1,
●所述氧化应激关联基因群的基因选自以下列基因符号表示的基因:GPX1,PTGS1,CLU及PDLIM1,
●所述吞噬作用关联基因群的基因选自以下列基因符号表示的基因:FCER1G,CLEC7A,VAMP7及FCGR1A,
●所述脂肪氧化关联基因群的基因选自以下列基因符号表示的基因:ACOX1,ADIPOR2,ADIPOR1及ALOX12。
(10)(6)的判断罹患疾病的装置,其中,
●所述微管关联基因群的基因选自以下列基因符号表示的基因:DYNC1LI1,DYNLL1,DYNLT1,及DYNLT3,
●所述线粒体关联基因群的基因选自以下列基因符号表示的基因:ATP5F1,ATP5J,ATP5L,ATP5C1,ATP5O,COX6A1,COX7A2,CYCS,MRPL18,MRPS35,NDUFA4,NDUFA9,NDUFB1,NDUFB3,NDUFB5,NDUFC1,NDUFS4,TIMM17A,TIMM8B,TOMM20,TOMM7,UQCRH,UQCR及UQCRQ,
●所述前列腺素关联基因群的基因选自以下列基因符号表示的基因:PTGER2,PTGER4及PTGES3。
(11)(7)的判断罹患疾病的装置,其中,
●所述细胞因子合成通路关联基因群的基因选自以下列基因符号表示的基因:CEBPE及CD28,
●所述细胞因子介导的信号关联基因群的基因选自以下列基因符号表示的基因:EREG,STAT3,STAT5A,STAT5B,SOCS1,SOCS5,RELA,CEBPA,DUOX2,DUOX1,STAT4,ZNF675,IL2RB,IRAK3,KIT,LRP8,TNFRSF1A,PLP2,TNFRSF1B,TGM2,CCR1,CCR2,PF4,CX3CL1,IL1R1,CSF2RB,CLCF1及NUP85,
●所述免疫球蛋白介导的免疫应答关联基因群的基因选自以下列基因符号表示的基因:IGHG3,IGHM,CD74,FCER1G,BCL10,PRKCD,CD27,MYD88及TLR8。
(12)(1)的判断罹患疾病的装置,其中所述活体样品是血液。
(13)(1)~(12)中任一项的判断罹患疾病的装置,其中所述判断通过将从疑似罹患作为判断对象的疾病的受试者取得的平均值代入基于属于所述基因群的基因的显示偏差的值的平均值得到的判断式来进行,所述属于所述基因群的基因:
●用从健康者采取的活体样品得到,及
●用从罹患作为判断对象的疾病的患者采取的活体样品得到。
(14)(13)的判断罹患疾病的装置,其中所述判断式用判别分析的方法作成。
(15)(14)的判断罹患疾病的装置,其中所述判别分析的方法是:支持向量机,线性判别分析,神经网络,K-means算法,决策树或随机森林。
(16)能使计算机进行操作的控制系统,包括:
●接收从疑似罹患作为判断对象的疾病的受试者得到的活体样品中属于所述基因群的至少1种基因的转录产物表达量,所述基因群用于判断与作为判断对象的疾病相关联的至少2种疾病;
●通过将所述表达量基于多个健康者中相应基因的表达量进行标准化来取得显示偏差的值;
●取得所述疾病判断用基因群各自中属于所述基因群的基因的显示偏差的值的平均值;
●使用所述平均值判断所述受试者是否罹患所述对象疾病;及
●输出所述判断结果。
(17)(16)的控制系统,其中所述操作还包括:
●接收从罹患所述作为判断对象的疾病的多个患者各自及多个健康者各自得到的活体样品中的基因的转录产物表达量;
●通过将对于所述多个健康者各自的基因的转录产物表达量基于所述多个健康者中相应基因的转录产物表达量进行标准化来取得所述多个患者各自的显示偏差的值,通过标准化对于所述多个健康者各自的基因的转录产物表达量来取得所述多个健康者各自的显示偏差的值;
●将所述测定了表达量的基因根据用基于基因所编码的分子功能的分类系统的分类来分类为至少2种基因群,对于所述多个患者各自及所述多个健康者各自,取得所述基因群各自中属于基因群的基因的显示偏差的值的平均值作为所述基因群的平均值;
●取得对于所述多个患者的各基因群的平均值与对于所述多个健康者的相应各基因群的平均值之间的显著性概率;及
●将所述显著性概率为0.05以下的基因群鉴定为与作为判断对象的疾病相关联的疾病判断用基因群。
(18)(16)的控制系统,其中判断包括判别分析的方法。
通过本发明的装置及控制系统(control system),可使用从该受试者的活体样品来简便判断疑似罹患作为判断对象的疾病的受试者是否罹患该疾病。此外,可提供受试者罹患该疾病的有无的,客观的判断手段。再者,使相比以往,作为作为判断对象的疾病的诊断的帮助,稳定提供精度高的指标成为可能。
附图说明
【图1】显示用到本实施方式的程序的罹患作为判断对象的疾病的判断用装置的一例的图。
【图2】显示运行本实施方式的程序的计算机系统的一例的图。
【图3】通过本实施方式的程序的具体动作的流程图。
【图4】鉴定疾病判断用基因群时的通过本实施方式的程序的具体动作的流程图。
【图5】显示从属于G蛋白关联基因群,血液凝固关联基因群,氧化应激关联基因群,吞噬作用关联基因群及脂肪氧化关联基因群的基因的转录产物表达量求出的健康者及克罗恩病患者的Z评分的平均值的分布。
【图6A】显示使用从克罗恩病判断用基因群各自中该基因群的鉴定中使用的健康者及克罗恩病患者的基因的转录产物表达量数据求出的Z评分的平均值来进行判断的结果。
【图6B】显示使用从克罗恩病判断用基因群各自中与该基因群的鉴定中使用的数据不同的健康者及克罗恩病患者的基因的转录产物表达量数据求出的Z评分的平均值来进行判断的结果。
【图7A】显示使用属于克罗恩病判断用基因群的基因中该基因群的鉴定中使用的健康者及克罗恩病患者的基因的转录产物表达量数据来进行判断的结果。
【图7B】显示使用属于克罗恩病判断用基因群的基因中与该基因群的鉴定中使用的数据不同的健康者及克罗恩病患者的基因的转录产物表达量数据来进行判断的结果。
【图8】显示从克罗恩病判断用基因群的鉴定中使用的健康者及克罗恩病患者的基因的转录产物表达量数据鉴定的,在健康者与克罗恩病患者之间有显著差异的基因的表达量的分布。
【图9A】显示使用在健康者与克罗恩病患者之间有显著差异的基因中克罗恩病判断用基因群的鉴定中使用的健康者及克罗恩病患者的基因的转录产物表达量数据来进行判断的结果。
【图9B】显示使用在健康者与克罗恩病患者之间有显著差异的基因中与克罗恩病判断用基因群的鉴定中使用的数据不同的健康者及克罗恩病患者的基因的转录产物表达量数据来进行判断的结果。
【图10】显示从属于微管关联基因群,线粒体关联基因群及前列腺素关联基因群的基因的转录产物表达量求出的健康者及亨廷顿病患者的Z评分的平均值的分布。
【图11A】显示使用从亨廷顿病判断用基因群各自中该基因群的鉴定中使用的健康者及亨廷顿病患者的基因的转录产物表达量数据求出的Z评分的平均值来进行判断的结果。
【图11B】显示使用从亨廷顿病判断用基因群各自中与该基因群的鉴定中使用的数据不同的健康者及亨廷顿病患者的基因的转录产物表达量数据求出的Z评分的平均值来进行判断的结果。
【图12A】显示使用属于亨廷顿病判断用基因群的基因中该基因群的鉴定中使用的健康者及亨廷顿病患者的基因的转录产物表达量数据来进行判断的结果。
【图12B】显示使用属于亨廷顿病判断用基因群的基因中与该基因群的鉴定中使用的数据不同的健康者及亨廷顿病患者的基因的转录产物表达量数据来进行判断的结果。
【图13】显示从亨廷顿病判断用基因群的鉴定中使用的健康者及亨廷顿病患者的基因的转录产物表达量数据鉴定的,在健康者与亨廷顿病患者之间有显著差异的基因的表达量的分布。
【图14A】显示使用在健康者与亨廷顿病患者之间有显著差异的基因中亨廷顿病判断用基因群的鉴定中使用的健康者及亨廷顿病患者的基因的转录产物表达量数据来进行判断的结果。
【图14B】显示使用在健康者与亨廷顿病患者之间有显著差异的基因中与亨廷顿病判断用基因群的鉴定中使用的数据不同的健康者及亨廷顿病患者的基因的转录产物表达量数据来进行判断的结果。
【图15】显示从属于细胞因子合成通路关联基因群,细胞因子介导的信号关联基因群及免疫球蛋白介导的免疫应答关联基因群的基因的转录产物表达量求出的正常组织及子宫内膜症的病变部组织的Z评分的平均值的分布。
【图16A】显示使用从子宫内膜症判断用基因群各自中该基因群的鉴定中使用的正常组织及子宫内膜症的病变部组织的基因的转录产物表达量数据求出的Z评分的平均值来进行判断的结果。
【图16B】显示使用从子宫内膜症判断用基因群各自中与该基因群的鉴定中使用的数据不同的正常组织及子宫内膜症的病变部组织的基因的转录产物表达量数据求出的Z评分的平均值来进行判断的结果。
【图17A】显示使用属于子宫内膜症判断用基因群的基因中该基因群的鉴定中使用的正常组织及子宫内膜症的病变部组织的基因的转录产物表达量数据来进行判断的结果。
【图17B】显示使用属于子宫内膜症判断用基因群的基因中与该基因群的鉴定中使用的数据不同的正常组织及子宫内膜症的病变部组织的基因的转录产物表达量数据来进行判断的结果。
【图18】显示从子宫内膜症判断用基因群的鉴定中使用的正常组织及子宫内膜症的病变部组织的基因的转录产物表达量数据鉴定的,在正常组织与子宫内膜症的病变部组织之间有显著差异的基因的表达量的分布。
【图19A】显示使用在正常组织与子宫内膜症的病变部组织之间有显著差异的基因中子宫内膜症判断用基因群的鉴定中使用的正常组织及子宫内膜症的病变部组织的基因的转录产物表达量数据来进行判断的结果。
【图19B】显示使用在正常组织与子宫内膜症的病变部组织之间有显著差异的基因中与子宫内膜症判断用基因群的鉴定中使用的数据不同的正常组织及子宫内膜症的病变部组织的基因的转录产物表达量数据来进行判断的结果。
实施方式
以下参照附图说明本发明的优选实施方式。
本实施方式的判断方法中,首先测定从疑似罹患作为判断对象的疾病的受试者得到的活体样品中的,与所述疾病相关的至少2种疾病判断用基因群各自中,属于基因群的至少1种基因的转录产物表达量。
本实施方式的判断方法中作为判断对象的疾病(作为判断对象的疾病)不特别限定,例如,为了诊断而要求CT或MRI等的高级医疗设备的疾病,由于缺乏特异的症状或知识而一般进行着排除性诊断的疾病等。作为这样的疾病,可例举例如,癌(肺癌,乳癌,胃癌,大肠癌,子宫颈癌,黑素瘤等),自身免疫疾病(类风湿,全身性红斑狼疮,肖格伦综合征,Guillain Barr综合征,溃疡性大肠炎等),感染症(疟疾,日本脑炎,霍乱,斑疹伤寒,痢疾等),精神或神经系疾病(综合失调症,双极性障碍,阿尔茨海默病,亨廷顿病等),原因不明的疾病(克罗恩病,子宫内膜症等)。
本说明书中,疑似罹患作为判断对象的疾病的受试者(以下也简称“受试者”)是指有罹患上述作为判断对象的疾病的可能性的,可利用本实施方式的判断方法判断罹患的有无的受试者。
活体样品只要是从可从其中提取基因的转录产物的活体提取的样品,就不特别限定,可使用受试者的血液(包括全血,血浆,血清),唾液,尿,体毛等。
本说明书中,“与作为判断对象的疾病相关联的疾病判断用基因群”是指与作为判断对象的疾病相关联的,以医学的,生物学的或统计学的方式明晰的基因群。只要明晰这样的关联,用于本实施方式的判断方法的疾病判断用基因群就不特别限定。再者,本实施方式的判断方法中,可将根据后述顺序鉴定的基因群用作与作为判断对象的疾病相关联的疾病判断用基因群。
本说明书中,基因的转录产物是指可通过基因转录得到的产物,核糖核酸(RNA),具体而言是信使RNA(mRNA)。
此外,本说明书中,“基因的转录产物表达量”是指上述活体样品中的基因的转录产物的存在量或反映该存在量的物质的量。因此,本实施方式的判断方法中,可测定基因的转录产物(mRNA)的量,或可从mRNA得到的互补脱氧核糖核酸(cDNA)或互补RNA(cRNA)的量。通常情况下,由于活体样品中的mRNA量微,优选测定可通过从其逆转录及体外转录(IVT)得到的cDNA或cRNA的量。
从活体样品提取基因的转录产物的方法可使用所属技术领域已知的RNA提取法来进行。例如,可通过离心活体样品,将包括RNA的细胞沉淀,将该细胞通过物理方式或酶方式破坏,除去细胞碎片来得到RNA提取物。RNA的提取也可使用市售的RNA提取试剂盒等来进行。
对于从如上所述得到的基因的转录产物的提取物测定基因的转录产物表达量时优选不混入的活体样品来源的混入成分,例如,活体样品是血液时,也可进行用于除去球蛋白的mRNA等的处理。
对于如上所述得到的基因的转录产物的提取物,测定已知与作为判断对象的疾病的关联的至少2种疾病判断用基因群各自中,属于基因群的至少1种基因的转录产物表达量。
基因的转录产物表达量的测定虽然可根据已公知的方法进行,但从可进行大量的基因的转录产物的表达解析的观点来看,优选定量PCR法或使用核酸芯片的测定方法。
使用核酸芯片来测定基因的转录产物表达量时,例如,使基板上固定的20~25聚体左右的核酸探针与由基因的转录产物的提取物或基因的转录产物制备的cDNA或cRNA接触,杂交体的形成的有无,通过测定萤光,发色,电流等的指标的变化,可测定目的基因的转录产物表达量。
对于1种基因的转录产物使用至少1种上述核酸探针即可,也可根据基因的转录产物的长度等,使用多种探针。探针的序列可根据欲测定的基因的转录产物的序列由本领域技术人员适宜确定。
作为使用核酸芯片测定基因的转录产物表达量的方法,可使用例如,Affymetrix公司提供的GeneChip系统。
使用核酸芯片时,为了易于与核酸探针的杂交体形成,优选片段化基因的转录产物或其cDNA或cRNA。片段化可利用所属领域中公知的方法进行,例如,可使用核糖核酸酶,脱氧核糖核酸酶等的核酸分解酶来进行。
通常情况下,核酸芯片中,待与核酸探针接触的基因的转录产物或其cDNA或cRNA在5~20μg左右即可。通常情况下,接触条件是于45℃接触16小时左右。
对于与核酸探针接触而形成杂交体的基因的转录产物或其cDNA或cRNA,可基于萤光物质,染料或杂交体形成所致的核酸芯片上流过的电流量的变化等检测其杂交体形成的有无及杂交体形成量。
通过萤光物质或染料的检测来测定杂交体的形成时,优选使用用于萤光物质或染料的检测的标记物来标记基因的转录产物或其cDNA或cRNA。此类标记物可使用所属领域中通常使用的标记物。通常情况下,通过将生物素化的核苷酸或生物素化的核糖核苷酸作为合成cDNA或cRNA时的核苷酸或核糖核苷酸底物来混合,而得到的cDNA或cRNA可用生物素标记。一旦cDNA或cRNA被生物素标记,则可在核酸芯片上结合对于生物素的结合偶体的亲和素或链霉亲和素。可通过亲和素或链霉亲和素与适当的萤光物质或染料结合来检测杂交体的形成。作为萤光物质可例举:异硫氰酸荧光素(FITC),绿色荧光蛋白(GFP),萤光素,藻红蛋百等。通常情况下,由于有藻红蛋百-链霉亲和素的缀合物市售,可方便地使用它。
此外,也可使针对亲和素或链霉亲和素的标记抗体与亲和素或链霉亲和素接触来检测标记抗体的萤光物质或染料。
此步骤得到的基因的转录产物表达量只要是相对于活体样品中的各基因的转录产物的存在量显示的值,就不特别限定。进行利用上述核酸芯片的测定时,表达量可为可从基于萤光强度,发色强度,电流量等的核酸芯片得到的信号。
这些信号可使用核酸芯片用的测定装置来测定。
接下来,通过将测定的表达量基于多个健康者中相应基因的转录产物表达量标准化,取得显示偏差的值。
本说明书中,“相应基因的转录产物”是指与对于受试者测定表达量的转录产物相同的基因的转录产物。
多个健康者中相应基因的转录产物表达量可根据与对于从上述受试者的活体样品进行的同样的方法,使用从健康者采取的活体样品,通过测定被测定对象的基因的转录产物表达量得到。
本说明书中,“健康者”是指可基于本实施方式的判断方法以外的基准来确认未罹患作为判断对象的疾病的者。例如,作为判断对象的疾病为:癌时,通过组织诊,CT,MRI,肿瘤标记物等;自身免疫疾病时,通过血液检查等;感染症时,通过血液检查等;精神或神经系统疾病时,通过脑图像诊断,基因检查,问诊,问卷等;克罗恩病时,通过内窥镜检查,消化管造影检查等;子宫内膜症时,通过CT,MRI,内窥镜检查等来可确认未罹患作为判断对象的疾病的者。
此外,本说明书中,“多个健康者”是指统计学充分的人数的健康者,只要是30名以上,优选40名以上的人数即可。
本说明书中,“基于多个健康者中相应基因的转录产物表达量标准化”是指通过下式求出显示偏差的值。
显示偏差的值=(受试者中的基因的转录产物表达量-多个健康者中的相应基因的转录产物表达量的平均值)/多个健康者中的相应基因的转录产物表达量的标准偏差
上述显示偏差的值是作为Z评分也已知的值,显示受试者的基因的转录产物表达量以何程度从多个健康者中基因的转录产物表达量偏离的值。
此外,本实施方式的判断方法中,通过将受试者中的基因的转录产物表达量除以多个健康者中的相应基因的转录产物表达量的平均值,取得显示对于健康者的受试者的表达量比的值,代替上述显示偏差的值,显示该表达比的值也可用于下一步骤。
显示上述表达量比的值是显示受试者的基因的转录产物表达量对于多个健康者中的相应基因的转录产物表达量的平均值以何程度大的值。
接下来,在选择的疾病判断用基因群各自中,取得属于基因群的基因的显示偏差的值的平均值。
再者,本说明书中,“平均值”是指欲取得平均值的上述基因群之中,仅得到对于1种基因的显示偏差的值时,对于所述1种基因的显示偏差的值;得到对于2种以上的基因的显示偏差的值时,它们的显示偏差的值取平均的值。
对于选自已知与作为判断对象的疾病的关联的疾病判断用基因群的至少2种基因群取得上述平均值。再者,选择的基因群的数多多益善。
使用如上所述得到的平均值来判断受试者是否患作为判断对象的疾病。
此判断可通过将如上所述从受试者取得的平均值代入基于使用从健康者采取的活体样品如同上述各步骤预得到的平均值和使用从作为判断对象的疾病的患者采取的活体样品如同上述各步骤预得到的平均值得到的判断式中来进行。
上述判断式可使用已公知的判别分析的方法来制作。判别分析的方法是,当事先已知被分为赋予的数据互相不同的2个组时,得到用于判别新得到的数据是否为属于该2个组中的任一个的数据的基准的统计学的方法。作为这样的判别分析的方法,可例举例如,支持向量机(SVM),线性判别分析,神经网络,K-means算法,决策树,随机森林等。这些判别分析的方法之中,优选使用统计解析软件GeneSpring中也搭载的SVM来制作上述判断式。
可通过向预代入从上述健康者的平均值和从作为判断对象的疾病的患者的平均值而制作了判断式的SVM中代入由从受试者采取的活体样品求出的平均值来判断此受试者是否罹患作为判断对象的疾病。
如上所述,本实施方式的判断方法中使用“与作为判断对象的疾病相关联的疾病判断用基因群”,作为这样的基因群的一例,可例举与作为判断对象的疾病统计学相关的基因群。此与作为判断对象的疾病统计学相关的基因群的鉴定,例如,可通过包括以下步骤的顺序进行:
(a)测定从罹患作为判断对象的疾病的多个患者各自及多个健康者各自得到的活体样品中的基因的转录产物表达量的步骤,
(b)通过将对于所述多个患者各自的表达量基于所述多个健康者中相应基因的转录产物表达量标准化来取得对于所述多个患者各自的显示偏差的值,通过标准化对于所述多个健康者各自的表达量来取得对于所述多个健康者各自的显示偏差的值的步骤,
(c)将所述测定了表达量的基因用基于基因所编码的分子功能的分类系统分类为至少2种基因群,对于所述多个患者各自及所述多个健康者各自取得所述基因群各自中属于基因群的基因的显示偏差的值的平均值作为所述基因群的平均值的步骤,
(d)取得对于所述多个患者的各基因群的平均值与对于所述多个健康者的相应各基因群的平均值之间的显著性概率的步骤,
(e)将所述显着性概率为0.05以下的基因群鉴定为与作为判断对象的疾病相关联的疾病判断用基因群步骤。
首先测定分别从罹患作为判断对象的疾病的多个患者及多个健康者得到的活体样品中的基因的转录产物表达量。
本说明书中,“罹患作为判断对象的疾病的患者”(以下也简称“患者”)是指可基于本实施方式的判断方法以外的基准确认罹患作为判断对象的疾病的者。例如,作为判断对象的疾病为,癌时,通过组织诊,CT,MRI,肿瘤标记物等;自身免疫疾病时,通过血液检查;感染症时,通过血液检查;精神或神经系统疾病时,通过脑图像诊断,基因检查,问诊等;克罗恩病时,通过内窥镜检查,消化管造影检查等;子宫内膜症时,通过CT,MRI,内窥镜检查等来可确认罹患作为判断对象的疾病的人。
此外,本说明书中,“多个患者”是指统计学充分的人数的患者,只要是30名以上,优选40名以上的人数即可。再者,“健康者”及“多个健康者”的定义如上所述。
此外,对于此步骤中基因的转录产物的提取及该产物的表达量的测定,可使用从罹患作为判断对象的疾病的多个患者各自及多个健康者各自得到的活体样品来,如同上述本实施方式的判断方法的各步骤进行。
接下来,通过将对于多个患者各自的表达量基于多个健康者中相应基因的转录产物表达量标准化,取得多个患者各自的显示偏差的值。
本说明书中,“将对于多个患者各自的表达量基于多个健康者中相应基因的转录产物表达量标准化”是指通过下式求出多个患者全员的显示偏差的值。
对于患者的显示偏差的值=(对于各患者的基因的转录产物表达量-多个健康者中的相应基因的转录产物表达量的平均值)/多个健康者中的相应基因的转录产物表达量的标准偏差
此外,通过标准化对于多个健康者各自的表达量,取得对于多个健康者各自的显示偏差的值。
此时的“标准化”具有如同统计学领域中通常使用含义。即,可通过下式取得多个健康者全员的显示偏差的值。
对于健康者的显示偏差的值=(各健康者中的基因的转录产物表达量-多个健康者中的基因的转录产物表达量的平均值)/多个健康者中的基因的转录产物表达量的标准偏差
再者,如同求出显示对于上述健康者的受试者的表达量比的值求出对于健康者的平均值的多个患者及多个健康者各自的表达量比,这些值可分别用对于多个患者的显示偏差的值及多个健康者对于的显示偏差的值代替。
接下来,使用基于基因所编码的分子功能的分类系统来将测定了表达量的基因分类为至少2种基因群,对于多个患者各自及多个健康者各自,取得该基因群各自中属于基因群的基因的显示偏差的值的平均值作为所述基因群的平均值。
本说明书中,“基于基因所编码的分子功能的分类系统”是指根据基因所编码的分子的功能分类基因的数据库。这样的数据库可使用本身公知的数据库,可例举例如,Gene Ontology(GO),KEGG(KyotoEncyclopedia of Genes and Genomes),MetaCyc,GenMAPP,BioCarta,KeyMolnet,OMIM(Online Mendelian Inheritance in Man)等,其中优选使用被称为“GO Term”的定义基因群的GeneOntology。
再者,这些数据库可由以下的表1所示的URL访问或利用。
【表1】
  数据库   URL
  GO   http://www.geneontology.org/index.shtml
  KEGG   http://www.kegg.jp/kegg/brite.html
  MetaCyc   http://metacyc.org/META/class-tree?object=Gene-Ontology-Terms
  GenMAPP   http://www.genmapp.org/
  BioCarta   http://www.biocarta.com/genes/allPathways.asp
  KeyMolnet   http://www.immd.co.jp/keymolnet/index.html
  OMIM   http://www.ncbi.nlm.nih.gov/omim/
此步骤中,首先使用上述分类系统来将测定了表达量的基因分类为至少2种基因群。然后,如同取得对于上述受试者的平均值的步骤,取得分类的各基因群中对于多个患者及多个健康者的平均值。
接下来,取得对于多个患者的各基因群的平均值与对于多个健康者的相应各基因群的平均值之间的显著性概率。
本说明书中,“相应基因群”是指与对于多个患者取得平均值的基因群相同的基因群。
对于多个患者的各基因群的平均值与对于多个健康者的相应各基因群的平均值之间的显著性概率(以下也称为“p值”)可通过T检验取得。
然后,将如上所述得到的p值为0.05以下的基因群鉴定为与作为判断对象的疾病相关联的疾病判断用基因群。
本实施方式的判断方法中,将从根据上述顺序鉴定的基因群任意选择的至少2种用作与作为判断对象的疾病相关联的疾病判断用基因群。再者,选择的疾病判断用基因群数多多益善。
本实施方式的判断方法中,不是使用基因的转录产物表达量本身,而是从该表达量取得显示偏差的值,将此显示偏差的值用上述疾病判断用基因群取得平均值,通过使用得到的平均值,可从健康者明确且稳定区别罹患作为判断对象的疾病的受试者。
此外,本实施方式的判断方法特别适于例如,克罗恩病,亨廷顿病,子宫内膜症等的罹患的判断。
克罗恩病包括伴随溃疡或纤维化的肉芽肿性炎症性病变,是口腔至肛门的消化管全域发症的原因不明的疾病。日本国内中,现在2万人以上罹患此病。作为症状,以腹痛,腹泻,体重减少,发热,肛门病变为常见。克罗恩病的确诊通过内窥镜检查进行,但也被认为可通过血液检查等的侵袭度低的检查筛选检查进行来早期发现。利用本实施方式的判断方法判断疑似罹患克罗恩病的受试者,则可得到可信赖的判断结果作为诊断的指标。
利用本实施方式的判断方法判断克罗恩病的罹患时,作为疾病判断用基因群,可例举例如,G蛋白关联基因群,血液凝固关联基因群,氧化应激关联基因群,吞噬作用关联基因群及脂肪氧化关联基因群。
上述5种基因群是在GO Term中分别被分类为“heterotrimericG-protein complex”(GO:0005834),“blood coagulation”(GO:GO:0007596),“response to oxidative stress”(GO:0006979),“phagocytosis,engulfment”(GO:GO:0006911)及“fatty acidoxidation”(GO:0019395)的基因类别。
亨廷顿病是以舞踏病运动为主的不随意运动,并且以精神症状及认知症为主要症状的慢性进行性神经变性疾病。诊断中,需要鉴别为脑出血等的脑血管障碍所致的症状性舞踏病,抗精神病药等所致的药剂性舞踏病,威尔孙病等的疾病。因此,利用本实施方式的判断方法判断疑似罹患亨廷顿病的受试者,则可得到更可信赖的判断结果作为诊断的指标。
利用本实施方式的判断方法判断亨廷顿病的罹患时,作为疾病判断用基因群,可例举例如,微管关联基因群,线粒体关联基因群及前列腺素关联基因群。
上述3种基因群是在GO Term中分别被分类为“microtube”(GO:0005874),“mitochondrion”(GO:0005739)及“signaltransduction”(GO:0007165)的基因类别。
子宫内膜症是子宫内膜或与其类似的组织在子宫内腔或子宫体部以外增殖的疾病。由于子宫内膜症的主要症状是月经痛及月经困难,子宫内膜症是难以与月经困难症鉴别的疾病。因此,利用本实施方式的判断方法判断疑似罹患子宫内膜症的受试者,则可得到更可信赖的判断结果作为诊断的指标。
利用本实施方式的判断方法判断子宫内膜症的罹患时,作为疾病判断用基因群,可例举例如,细胞因子合成通路关联基因群,细胞因子介导的信号关联基因群及免疫球蛋白介导的免疫应答关联基因群。
上述3种基因群是在GO Term中分别被分类为“cytokinebiosynthetic process”(GO:0042089),“cytokine-mediated signalingpathway”(GO:0019221)及“immunoglobulin mediated immuneresponse”(GO:0016064)的基因类别。
本实施方式的判断方法将作为判断对象的疾病的患者判断为“阳性”的灵敏度为,优选80%以上,更优选85%以上,再优选90%以上。此外,本实施方式的判断方法将健康者判断为“阴性”的特异度为,优选80%以上,更优选85%以上,再优选90%以上。
本实施方式的判断方法由于显示如此高的灵敏度及特异度,与其说是作为判断对象的疾病的诊断的帮助,不如说是可稳定提供精度高的指标。
用于通过计算机进行上述本实施方式的判断方法的罹患疾病判断用程序也是本实施方式的1种。即,本实施方式的程序是使计算机起如下作用的罹患疾病判断用程序:
接收从疑似罹患作为判断对象的疾病的受试者得到的活体样品中的,与所述疾病相关的至少2种疾病判断用基因群各自中,属于基因群的至少1种基因的转录产物表达量的接收装置,
通过将所述表达量基于多个健康者中相应基因的表达量进行标准化来取得显示偏差的值的偏差取得装置,
取得所述疾病判断用基因群各自中属于基因群的基因的显示偏差的值的平均值的平均值取得装置,
使用所述平均值判断受试者是否罹患对象疾病的判断装置,
输出判断装置的判断结果的输出装置。
此外,上述本实施方式的程序也可使计算机起鉴定疾病判断用基因的装置的作用。即,本实施方式的程序是使计算机起如下作用的罹患疾病判断用程序:
接收从罹患作为判断对象的疾病的多个患者各自及多个健康者各自得到的活体样品中的基因的转录产物表达量的接收装置,
通过将对于所述多个患者各自的表达量基于所述多个健康者中相应基因的转录产物表达量标准化,取得所述多个患者各自的显示偏差的值,通过标准化对于所述多个健康者各自的表达量取得所述多个健康者各自的显示偏差的值的偏差取得装置,
所述测定了表达量的基因を,根据基于基因所编码的分子功能的分类系统分类为至少2种基因群,对于所述多个患者各自及所述多个健康者各自取得所述基因群各自中属于基因群的基因的显示偏差的值的平均值作为所述基因群的平均值的平均值取得装置,
取得对于所述多个患者的各基因群的平均值与对于所述多个健康者的相应各基因群的平均值之间的显着性概率的显着性概率取得装置,
将所述显着性概率为0.05以下的基因群鉴定为与作为判断对象的疾病相关联的疾病判断用基因群的基因群鉴定装置。
图1中显示用到本实施方式的程序的作为判断对象的疾病的罹患判断用装置的一例。该装置由基因的转录产物表达量测定装置1,计算机2,连接这些的电缆3构成。基于由基因的转录产物表达量测定装置1测定的萤光强度,电流量等的信号等的表达量的数据可通过电缆3发送至计算机2。此外,基因的转录产物表达量测定装置1也可不与计算机2连接,此时,可将表达量的数据输入计算机来运行上述程序。
在计算机2中,从得到的表达量取得上述显示偏差的值,将得到的显示偏差的值作为至少2种基因群各自中的平均值取得,基于该平均值,判断受试者是否罹患作为判断对象的疾病。
本实施方式的程序可与配备中央处理装置,存储部,光盘或软盘(注册商标)等的存储介质的读取装置,键盘等的输入部,及显示器等的输出部的计算机2协作实现上述本实施方式的判断方法。用于实施上述方法的更具体的计算机系统的一例示于图2。
图2所示的计算机2主要由本体110,显示器120,输入部130构成。本体110主要由CPU110a,ROM110b,RAM110c,硬盘110d,读取装置110e,输入输出接口110f,图像输出接口110g构成;CPU110a,ROM110b,RAM110c,硬盘110d,读取装置110e,输入输出接口110f,及图像输出接口110g通过总线110h以可进行数据通信的方式连接。
CPU110a可运行ROM110b中存储的计算机程序及RAM110c中安装的计算机程序。
ROM110b由掩模型ROM,PROM,EPROM,EEPROM等构成,存储着CPU110a中运行的计算机程序及用于其中的数据等。
RAM110c由SRAM或DRAM等构成。RAM110c在ROM110b及硬盘110d中存储的计算机程序的读取中使用。此外,运行这些计算机程序时作为CPU110a的工作区域被利用。
硬盘110d存储着操作系统及应用程序等,CPU110a中运行的用于的各种计算机程序及该计算机程序的运行中使用的数据。本实施方式中,硬盘110d中存储的数据包括:多个健康者中相应基因的转录产物表达量相关数据(以下称为“存储表达量数据”),疾病判断用基因群相关数据(以下称为“疾病判断用基因群数据”)及用于判断受试者是否患作为判断对象的疾病的判断式。其中,该判断式是使用上述判别分析的方法,基于使用从健康者采取的活体样品来求出的预得到的平均值和使用从作为判断对象的疾病的患者采取的活体样品来求出的预得到的平均值得到的判断式。再者,后述应用程序140a也安装在此硬盘110d中。
读取装置110e由软盘驱动器,CD-ROM驱动器,或DVD-ROM驱动器等构成,可读取可移动存储介质140中存储的计算机程序或数据。此外,可移动存储介质140中存储着用于在计算机中运行本实施方式的方法的应用程序140a,CPU110a可从所述可移动存储介质140读取本实施方式涉及的应用程序140a,将该应用程序140a安装在硬盘110d中。
再者,上述应用程序140a不限于由可移动存储介质140提供,也可通过电通信线路(无论有线,无线)由与计算机本体110以可通信的方式连接的外部机器通过所述电通信线路提供。例如,上述应用程序140a也可存储在互联网上的服务器计算机的硬盘内,CPU110a可通过访问此服务器计算机,下载该应用程序,将其安装在硬盘110d中。
此外,硬盘110d中安装有例如美国微软公司制造出售的Windows(注册商标)等提供的图形用户界面环境的操作系统。以下的说明中,本实施方式涉及的应用程序140a是在该操作系统上运行的应用程序。
输入输出接口110f由包括例如,USB,IEEE1394,RS-232C等的串行接口,SCSI,IDE,IEEE1284等的并行接口,及D/A变换器,A/D变换器等的模拟接口等构成。输入输出接口110f通过电缆3与转录产物表达量测定装置1连接,可将由转录产物表达量测定装置1测定的表达量的数据输入计算机本体110。此外,输入输出接口110f连接着包括键盘及鼠标的输入部130,用户可通过使用该输入部130向计算机本体110输入数据。
图像输出接口110g与由LCD或CRT等构成的显示器120连接,将相应于由CPU110a赋予的图像数据的映像信号输出到显示器120。显示器120根据输入的映像信号显示图像(画面)。
作为由本实施方式的程序的装置的更具体的计算机2的运行的流程图示于图3。
首先,一旦由基因的转录产物表达量测定装置1测定基因的转录产物表达量,则转录产物表达量测定装置1向计算机2输出测定的表达量相关数据(以下称为“测定表达量数据”)。CPU110a接收输出的测定表达量数据,存储在RAM110c中(步骤S11)。
接下来,CPU110a读取硬盘110d中预存储的存储表达量数据,基于输入的测定表达量数据及存储表达量数据,取得示显示偏差的值的数据(以下称为“偏差数据”)(步骤S12)。
接下来,CPU110a读取硬盘110d中预存储的疾病判断用基因群数据,通过判断对应于偏差数据的基因是否为疾病判断用基因群,将取得的偏差数据根据疾病判断用基因群分类(步骤S13)。
接下来,CPU110a使用根据疾病判断用基因群分类的偏差数据来,分别取得显示各疾病判断用基因群的显示偏差的值的平均值的数据(以下称为“平均值数据”)(步骤S14)。
接下来,CPU110a读取硬盘110d中预存储的判断式,将平均值数据适用于该判断式,判断受试者是否患作为判断对象的疾病(步骤S15)。
然后,CPU110a将由判断式的判断该受试者是否患作为判断对象的疾病的结果存储在RAM110c中,同时通过图像输出接口110g显示于计算机的显示器120(步骤S16)。
再者,本实施方式中,虽然CPU110a由转录产物表达量测定装置1,通过输入输出接口110f取得测定表达量数据,但不限于此。例如,操作者也可通过将从与计算机2独立的转录产物表达量测定装置得到的基因的转录产物表达量使用输入部130输入到计算机2来向计算机2输入测定表达量数据。
此外,使计算机起鉴定疾病判断用基因的装置的作用时的由本实施方式的程序的具体计算机2的运行流程图示于图4。再者,本实施方式中硬盘110d中存储着基于基因所编码的分子功能的分类系统相关数据(以下称为“分类系统数据”)。
首先,一旦由基因的转录产物表达量测定装置1测定多个患者及多个健康者的基因的转录产物表达量,则转录产物表达量测定装置1向计算机2输出多个患者的测定的表达量相关数据(以下称为“患者测定表达量数据”)及多个健康者的测定的表达量相关数据(以下称为“健康者测定表达量数据”)。CPU110a接收输出的患者测定表达量数据及健康者测定表达量数据,存储在RAM110c中(步骤S21)。
接下来,CPU110a通过将输入的对于多个患者各自的患者测定表达量数据基于多个健康者中相应基因的转录产物的健康者测定表达量数据标准化,取得显示对于多个患者各自的显示偏差的值的数据(以下称为“患者偏差数据”),此外,通过标准化对于多个健康者各自的测定表达量数据,取得显示对于多个健康者各自的显示偏差的值的数据(以下称为“健康者偏差数据”)(步骤S22)。
然后,CPU110a读取硬盘110d中预存储的分类系统数据,将患者偏差数据基于对应于患者偏差数据的基因,根据基因群分类。同样,CPU110a将健康者偏差数据基于对应于健康者偏差数据的基因,根据基因群分类(步骤S23)。
接下来,CPU110a使用根据基因群分类的患者偏差数据来分别取得显示各基因群的显示偏差的值的平均值的数据(以下称为“患者平均值数据”)。同样,CPU110a使用根据基因群分类的健康者偏差数据来分别取得显示各基因群的显示偏差的值的平均值的数据(以下称为“患者平均值数据”)(步骤S24)。
接下来,CPU110a使用得到的各基因群的患者平均值数据及健康者平均值数据来取得显示对于多个患者的平均值与对于多个健康者的平均值之间的显著性概率的数据(以下称为“显著性概率数据”)(步骤S25)。
接下来,CPU110a使用得到的显著性概率数据来鉴定显著性概率为0.05以下的基因群(步骤S26)。
然后,CPU110a将鉴定的基因群存储在RAM110c中,同时通过图像输出接口110g显示于计算机的显示器120(步骤S27)。
再者,本实施方式中,虽然CPU110a由转录产物表达量测定装置1,通过输入输出接口110f取得患者测定表达量数据及健康者测定表达量数据,但不限于此。例如,操作者也可通过将从与计算机2独立的转录产物表达量测定装置得到的多个患者及多个健康者的基因的转录产物表达量使用输入部130输入到计算机2来向计算机2输入患者测定表达量数据及健康者测定表达量数据。
此外,本实施方式中,步骤S27中,虽然将鉴定的基因群显示于显示器120,但也可将该鉴定的基因群相关数据作为疾病判断用基因群数据仅存储在RAM110c中。该存储的疾病判断用基因群数据也可在例如,图2所示的计算机2的运行中使用。
实施例
将在以下的实施例中更详细说明本发明,但本发明不旨在受这些实施例的限制。
实施例1:克罗恩病的罹患的判断方法
(1)克罗恩病判断用基因群的鉴定
实施例1中,作为克罗恩病患者及健康者的血液中的基因的转录产物表达量数据,使用了由作为基因表达数据库的the GeneExpression Omnibus(GEO;http://www.ncbi.nlm.nih.gov/geo可从利用)提供的数据。再者,该数据作为将测定的信号的原始数据经标准化处理的数据,可从http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS1615访问。
(1-1)检体的选择及探针组的限定
从上述数据随机选择克罗恩病患者1(29个检体)的数据及健康者1(21个检体)的数据,将这些数据作为了用于克罗恩病判断用基因群的鉴定的数据。
对于从上述GEO访问的克罗恩病患者及健康者的数据是通过使用了作为DNA芯片的GeneChip(注册商标)U133A(Affimetrix社)的解析得到的数据。此DNA芯片中配置有22283种探针组,这些探针组中也包括对于同一基因的多种探针组。
所以,对应于上述DNA芯片的探针组的基因中,对于包括对于同一基因的多种探针组的基因而言,仅提取显示最大的信号值的探针组。另外,信号值为50以下的探针组被认为测定值的再现性低而除外。结果,对于对应于9331种探针组的基因进行以下解析。
(1-2)表达量的Z评分化
对于对应于如上所述选择的9331种探针组的基因的转录产物,使用从健康者1(21个检体)得到的信号值全部来取得平均值及标准偏差。使用此值,对于9331种基因各自,使用下式求出该基因各自的显示偏差的值(Z评分)。
Z评分=(各基因的转录产物的信号值-健康者1(21个检体)的相应基因的转录产物的信号值的平均值)/健康者1(21个检体)的相应基因的转录产物的信号值的标准偏差
(1-3)基因的分类及各基因群中的平均值的取得
基于Gene Ontology(可从http://www.geneontology.org/index.shtml浏览)的分类将上述9331种基因分类为基因群(GO Term),对于各GO Term内的基因,对于上述(1-2)中求出的克罗恩病患者1(29个检体)的Z评分取平均而求出平均值。
此外,对于健康者1(21个检体),也如同上述求出各GO Term中的平均值。
(1-4)在健康者与克罗恩病患者之间有显著差异的基因群的选择
使用对于如上所述得到的健康者和克罗恩病患者的各GO Term的平均值来进行T检验,取得显著性概率(p值)。
从所用GO Term提取了得到的p值为0.05以下(p值≤5.0E-02)的GO Term。
接下来,使用对于提取的GO Term所含的全部基因的Z评分来进行分级群聚,选择同步变化的基因的聚群。再者,群聚中使用了软件Cluster3.0(可从http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/software.htm访问),其结果的显示则使用了JavaTreeView(可从http://sourceforge.net/projects/jtreeview/files/访问)。
将各聚群所含的基因的Z评分的平均值作为聚群的评分,对于健康者1(21个检体)和克罗恩病患者1(29个检体)进行T检验。从得到的p值为0.05以下的聚群选择G蛋白关联基因群,血液凝固关联基因群,氧化应激关联基因群,吞噬作用关联基因群及脂肪氧化关联基因群作为克罗恩病判断用基因群。这些基因群并且属于各群的基因及各群的p值示于表2。
对于上述选择的各基因群中健康者1及克罗恩病患者1的Z评分的平均值的分布示于图5。
【表2】
Figure BDA0000029960940000261
Figure BDA0000029960940000271
(2)本发明的判断方法的精度的评价
(2-1)对于克罗恩病判断用基因群的鉴定中使用的检体的判断
将上述5种克罗恩病判断用基因群各自中对于健康者1(21个检体)及克罗恩病患者1(29个检体)的平均值分别输入支持向量机(SVM;统计解析软件GeneSpring中搭载)。然后,使用输入了这些50个检体的平均值的SVM来判断各检体是阳性(克罗恩病)或阴性(健康)。
其结果示于图6A。图6A中,“灵敏度”是指将克罗恩病患者判断为“阳性”的比例,“特异度”是指将健康者判断为健康者的比例。此外,“一致率”是指将克罗恩病患者判断为“阳性(+)”,将健康者判断为“阴性(-)”的比例。从其结果得知,通过本发明的判断方法可以90%以上的灵敏度及特异度鉴定克罗恩病患者及健康者。
(2-2)本发明的判断方法的再现性的评价
另外,为了评价本发明的判断方法的再现性,使用了与上述(1-1)中选择的数据不同的克罗恩病患者2(30个检体)的数据及健康者2(21个检体)的数据。然后,对于这些数据,使用输入了在上述(2-1)中克罗恩病判断用基因群的鉴定中使用的检体的平均值的SVM来进行了判断。
其结果示于图6B。从其结果得知,通过本发明的判断方法,对于与克罗恩病判断用基因群的鉴定中使用的检体不同的检体,也可以95%以上的灵敏度及90%以上的特异度稳定区别健康者和克罗恩病患者。
比较例1:利用以往的判断方法的克罗恩病的判断
其中,作为以往的判断方法,使用了基于健康者及患者的基因的转录产物表达量本身判断罹患疾病的方法。对使用此类以往的判断方法来判断克罗恩病的罹患时的判断精度进行了评价。
(1)使用了属于克罗恩病判断用基因群的基因的判断
(1-1)对于克罗恩病判断用基因群的鉴定中使用的检体
将表1的26种基因各自中对于上述健康者1(21个检体)及克罗恩病患者1(29个检体)的表达量分别输入SVM。然后,使用输入了这些50个检体的表达量的SVM来,对于各检体被判断为阳性,或被判断为阴性,进行了判断精度的评价。
其结果示于图7A。从其结果得知,通过以往的判断方法可以100%的灵敏度及特异度鉴定克罗恩病患者及健康者。
(1-2)以往的判断方法的再现性的评价
接下来,为了评价以往的判断方法的再现性,使用了上述克罗恩病患者2(30个检体)的数据及健康者2(21个检体)的数据。然后,对于这些检体,使用输入了在上述(1-1)中对于健康者1(21个检体)及克罗恩病患者1(29个检体)的表达量的SVM来进行了判断。
其结果示于图7B。从其结果得知,对于与克罗恩病判断用基因群的鉴定中使用的检体不同的检体,以往的判断方法的灵敏度虽然为90%以上,但特异度下降至65%以下。因此得知,以往的判断方法显示将健康者当作克罗恩病患者的错误的判断结果的可能性比本发明的判断方法高。
(2)使用了与属于克罗恩病判断用基因群的基因不同的基因的判断
(2-1)对于克罗恩病判断用基因群的鉴定中使用的检体
为了研究使用了与属于克罗恩病判断用基因群的基因(表1的26基因)不同的基因的情况,新鉴定了这样的基因。具体而言,通过T检验求出对于上述健康者1(21个检体)的表达量与对于克罗恩病患者1(29个检体)的表达量之间的显著性概率(p值),将得到的p值为0.05以下的表达量的基因作为了判断中使用的基因。其结果,鉴定了5种基因。这些基因及各基因的p值示于表3。此外,对于各基因中健康者1和克罗恩病患者1,将基因的转录产物表达量的分布示于图8。
【表3】
  探针组ID   基因符号   基因名称   p值
  202162_s_at   CNOT8   CCR4-NOT转录复合物,亚基8   8.06E-15
  200828_s_at   ZNF207   锌指蛋白207   8.60E-15
  201133_s_at   PJA2   praja环指2   5.92E-14
  204725_s_at   NCK1   NCK衔接子蛋白1   1.11E-13
  203432_at   AW272611   促胸腺生成素   3.16E-13
将这些基因各自中对于上述健康者1(21个检体)及克罗恩病患者1(29个检体)的表达量分别输入SVM。然后,使用输入了这些50个检体的表达量的SVM来,对于各检体被判断为阳性,或被判断为阴性,进行了判断精度的评价。
其结果示于图9A。从其结果得知,使用了与属于克罗恩病判断用基因群的基因不同的基因的以往的判断方法可以95%以上的灵敏度及特异度鉴定克罗恩病患者及健康者。
(2-2)以往的判断方法的再现性的评价
接下来,为了评价使用上述5种基因的以往的判断方法的再现性,使用了上述克罗恩病患者2(30个检体)的数据及健康者2(21个检体)的数据。然后,对于这些检体,使用输入了在上述(2-1)中对于健康者1(21个检体)及克罗恩病患者1(29个检体)的表达量的SVM来进行了判断。
其结果示于图9B。从其结果得知,对于与克罗恩病判断用基因群的鉴定中使用的检体不同的检体,以往的判断方法的灵敏度虽然为90%以上,但特异度下降至40%以下。因此得知,使用了与属于克罗恩病判断用基因群的基因不同的基因的以往的判断方法显示将健康者当作克罗恩病患者的错误的判断结果的可能性比本发明的判断方法高。
从实施例1及比较例1结果得知,本发明的判断方法相比基于健康者及克罗恩病患者的基因的转录产物表达量本身判断克罗恩病的罹患的通常的方法,可更稳定进行高精度的判断。
实施例2:亨廷顿病的罹患的判断方法
(1)亨廷顿病判断用基因群的鉴定
实施例2中,作为亨廷顿病患者及健康者的血液中的基因的转录产物表达量数据,使用了从GEO访问的数据。再者,该数据作为将测定的信号的原始数据经标准化处理的数据,可从http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1751访问。
(1-1)检体的选择及探针组的限定
从上述数据随机选择亨廷顿病患者1(6个检体)的数据及健康者3(7个检体)的数据,将这些数据作为了用于亨廷顿病判断用基因群的鉴定的数据。
对于从上述GEO访问的亨廷顿病患者及健康者的数据是通过使用了GeneChip(注册商标)U133A(Affimetrix社)的解析得到的数据。如同实施例1的(1-1),对应于上述DNA芯片的探针组的基因中,对于包括对于同一基因的多种探针组的基因而言,仅提取显示最大的信号值的探针组。另外,信号值为50以下的探针组被认为测定值的再现性低而除外。结果,对于对应于8370种探针组的基因进行以下解析。
(1-2)表达量的Z评分化
对于对应于如上所述选择的8370种探针组的基因的转录产物,使用从健康者3(7个检体)得到的信号值全部来取得平均值及标准偏差。使用此值,对于8370种基因各自,使用下式求出该基因各自的显示偏差的值(Z评分)。
Z评分=(各基因的转录产物的信号值-健康者3(7个检体)的相应基因的转录产物的信号值的平均值)/健康者3(7个检体)的相应基因的转录产物的信号值的标准偏差
(1-3)基因的分类及各基因群中的平均值的取得
基于Gene Ontology的分类将上述8370种基因分类为基因群(GOTerm),对于各GO Term内的基因,对于上述(1-2)中求出的亨廷顿病患者1(6个检体)的Z评分取平均而求出平均值。
此外,对于健康者3(7个检体),也如同上述求出各GO Term中的平均值。
(1-4)在健康者与亨廷顿病患者之间有显著差异的基因群的选择
使用对于如上所述得到的健康者和亨廷顿病患者的各GO Term的平均值来进行T检验,取得显著性概率(p值)。
从所用GO Term提取了得到的p值为0.05以下(p值≤5.0E-02)的GO Term。
接下来,使用对于提取的GO Term所含的全部基因的Z评分来进行分级群聚,选择同步变化的基因的聚群。再者,群聚中使用了软件Cluster3.0(可从http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/software.htm访问),其结果的显示则使用了JavaTreeView(可从http://sourceforge.net/projects/jtreeview/files/访问)。
将各聚群所含的基因的Z评分的平均值作为聚群的评分,对于健康者3(7个检体)和亨廷顿病患者1(6个检体)进行T检验。从得到的p值为0.05以下的聚群选择微管关联基因群,线粒体关联基因群及前列腺素关联基因群作为亨廷顿病判断用基因群。这些基因群并且属于各群的基因及各群的p值示于表4。
上述选择的各基因群中对于健康者3及亨廷顿病患者1的Z评分的平均值的分布示于图10。
【表4】
(2)本发明的判断方法的精度的评价
(2-1)对于亨廷顿病判断用基因群的鉴定中使用的检体的判断
将上述3种亨廷顿病判断用基因群各自中对于健康者3(7个检体)及亨廷顿病患者1(6个检体)的平均值分别输入SVM。然后,使用输入了这些13个检体的平均值的SVM来判断各检体是阳性(亨廷顿病)或阴性(健康)。
其结果示于图11A。从其结果得知,通过本发明的判断方法可以100%的灵敏度及特异度鉴定亨廷顿病患者及健康者。
(2-2)本发明的判断方法的再现性的评价
另外,为了评价本发明的判断方法的再现性,使用了与上述(1-1)中选择的数据不同的亨廷顿病患者2(6个检体)的数据及健康者4(7个检体)的数据。然后,对于这些数据,使用输入了在上述(2-1)中亨廷顿病判断用基因群的鉴定中使用的检体的平均值的SVM来进行了判断。
其结果示于图11B。从其结果得知,通过本发明的判断方法,对于与亨廷顿病判断用基因群的鉴定中使用的检体不同的检体,也可以80%以上的灵敏度及100%的特异度稳定区别健康者和亨廷顿病患者。
比较例2:利用以往的判断方法的亨廷顿病的判断
其中,作为以往的判断方法,使用了基于健康者及患者的基因的转录产物表达量本身判断罹患疾病的方法。对使用此类以往的判断方法来判断亨廷顿病的罹患时的判断精度进行了评价。
(1)使用了属于亨廷顿病判断用基因群的基因的判断
(1-1)对于亨廷顿病判断用基因群的鉴定中使用的检体
将表3的27种基因各自中对于上述健康者3(7个检体)及亨廷顿病患者1(6个检体)的表达量分别输入SVM。然后,使用输入了这些13个检体的表达量的SVM来,对于各检体被判断为阳性,或被判断为阴性,进行了判断精度的评价。
其结果示于图12A。从其结果得知,以往的判断方法可以100%的灵敏度及特异度鉴定亨廷顿病患者及健康者。
(1-2)以往的判断方法的再现性的评价
接下来,为了评价以往的判断方法的再现性,使用了上述亨廷顿病患者2(6个检体)的数据及健康者4(7个检体)的数据。然后,对于这些检体,使用输入了在上述(1-1)中对于健康者3(7个检体)及亨廷顿病患者1(6个检体)的表达量的SVM来进行了判断。
其结果示于图12B。从其结果得知,对于与亨廷顿病判断用基因群的鉴定中使用的检体不同的检体,以往的判断方法的特异度虽然为100%,但灵敏度下降至70%以下。因此得知,以往的判断方法显示将亨廷顿病患者当作健康者的错误的判断结果的可能性比本发明的判断方法高。
(2)使用了与属于亨廷顿病判断用基因群的基因不同的基因的判断
(2-1)对于亨廷顿病判断用基因群的鉴定中使用的检体
为了研究使用了与属于亨廷顿病判断用基因群的基因(表3的27基因)不同的基因的情况,新鉴定了这样的基因。具体而言,通过T检验求出对于上述健康者3(7个检体)的表达量与对于亨廷顿病患者1(6个检体)的表达量之间的显著性概率(p值),将得到的p值为0.05以下的表达量的基因作为了判断中使用的基因。其结果,鉴定了10种基因。这些基因及各基因的p值示于表5。此外,对于各基因中健康者3和亨廷顿病患者1,将基因的转录产物表达量的分布示于图13。
【表5】
将这些基因各自中对于上述健康者3(7个检体)及亨廷顿病患者1(6个检体)的表达量分别输入SVM。然后,使用输入了这些13个检体的表达量的SVM来,对于各检体被判断为阳性,或被判断为阴性,进行了判断精度的评价。
其结果示于图14A。从其结果得知,使用了与属于亨廷顿病判断用基因群的基因不同的基因的以往的判断方法可以100%的灵敏度及特异度鉴定亨廷顿病患者及健康者。
(2-2)以往的判断方法的再现性的评价
接下来,为了评价使用上述10种基因的以往的判断方法的再现性,使用了上述亨廷顿病患者2(6个检体)的数据及健康者4(7个检体)的数据。然后,对于这些检体,使用输入了在上述(2-1)中对于健康者3(7个检体)及亨廷顿病患者1(6个检体)的表达量的SVM来进行了判断。
其结果示于图14B。从其结果得知,对于与亨廷顿病判断用基因群的鉴定中使用的检体不同的检体,以往的判断方法的特异度虽然为100%,但灵敏度下降至50%。因此得知,使用了与属于亨廷顿病判断用基因群的基因不同的基因的以往的判断方法显示将亨廷顿病患者当作健康者的错误的判断结果的可能性比本发明的判断方法高。
从实施例2及比较例2结果得知,本发明的判断方法相比基于健康者及亨廷顿病患者的基因的转录产物表达量本身判断亨廷顿病的罹患的通常的方法,可更稳定进行高精度的判断。
实施例3:子宫内膜症的罹患的判断方法
(1)子宫内膜症判断用基因群的鉴定
实施例3中,作为获自子宫内膜症患者的病变部组织及正常组织各自的基因的转录产物表达量数据,使用了从GEO访问的数据。再者,该数据作为将测定的信号的原始数据经标准化处理的数据,可从http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE7305及http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE6364访问。
(1-1)检体的选择及探针组的限定
从上述数据随机选择病变部组织1(9个检体)的数据及正常组织1(8个检体)的数据,将这些数据作为了用于子宫内膜症判断用基因群的鉴定的数据。
对于从上述GEO访问的病变部组织及正常组织的数据是通过使用了作为DNA芯片的GeneChip(注册商标)U133plus2.0(Affimetrix社)的解析得到的数据。此DNA芯片中配置有54675个探针组,这些探针组中也包括对于同一基因的多种探针组。
所以,对应于上述DNA芯片的探针组的基因中,对于包括对于同一基因的多种探针组的基因而言,仅提取显示最大的信号值的探针组。另外,信号值为100以下的探针组被认为测定值的再现性低而除外。结果,对于对应于16207种探针组的基因进行以下解析。
(1-2)表达量的Z评分化
对于对应于如上所述选择的16207种探针组的基因的转录产物,使用从正常组织1(8个检体)得到的信号值全部来取得平均值及标准偏差。使用此值,对于16207种基因各自,使用下式求出该基因各自的显示偏差的值(Z评分)。
Z评分=(各基因的转录产物的信号值-正常组织1(8个检体)的相应基因的转录产物的信号值的平均值)/正常组织1(8个检体)的相应基因的转录产物的信号值的标准偏差
(1-3)基因的分类及各基因群中的平均值的取得
基于Gene Ontology的分类将上述16207种基因分类为基因群(GO Term),对于各GO Term内的基因,对于上述(1-2)中求出的病变部组织1(9个检体)的Z评分取平均而求出平均值。
此外,对于正常组织1(8个检体),也如同上述求出各GO Term中的平均值。
(1-4)在正常组织与病变部组织之间有显著差异的基因群的选择
使用对于如上所述得到的正常组织及病变部组织的各GO Term的平均值来进行T检验,取得显著性概率(p值)。
从所用GO Term提取了得到的p值为0.05以下(p值≤5.0E-02)的GO Term。
接下来,使用对于提取的GO Term所含的全部基因的Z评分来进行分级群聚,选择同步变化的基因的聚群。再者,群聚中使用了软件Cluster3.0(可从http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/software.htm访问),其结果的显示则使用了JavaTreeView(可从http://sourceforge.net/projects/jtreeview/files/访问)。
将各聚群所含的基因的Z评分的平均值作为聚群的评分,对于正常组织1(8个检体)和病变部组织1(9个检体)进行T检验。从得到的p值为0.05以下的聚群选择细胞因子合成通路关联基因群,细胞因子介导的信号关联基因群及免疫球蛋白介导的免疫应答关联基因群作为子宫内膜症判断用基因群。这些基因群并且属于各群的基因及各群的p值示于表6。
上述选择的各基因群中对于正常组织1及病变部组织1的Z评分的平均值的分布示于图15。
【表6】
Figure BDA0000029960940000381
(2)本发明的判断方法的精度的评价
(2-1)对于子宫内膜症判断用基因群的鉴定中使用的检体的判断
将上述3种子宫内膜症判断用基因群各自中对于正常组织1(8个检体)及病变部组织1(9个检体)的平均值分别输入SVM。然后,使用输入了这些17个检体的平均值的SVM来判断各检体是阳性(子宫内膜症)或阴性(健康)。
其结果示于图16A。从其结果得知,通过本发明的判断方法可以85%以上的灵敏度及100%的特异度鉴定对于正常组织及病变部组织的检体。
(2-2)本发明的判断方法的再现性的评价
另外,为了评价本发明的判断方法的再现性,使用了与上述(1-1)中选择的数据不同的病变部位组织2(9个检体)的数据及正常组织2(8个检体)的数据。然后,对于这些数据,使用输入了在上述(2-1)中子宫内膜症判断用基因群的鉴定中使用的检体的平均值的SVM来进行了判断。
其结果示于图16B。从其结果得知,通过本发明的判断方法,对于与子宫内膜症判断用基因群的鉴定中使用的检体不同的检体,也可以75%的灵敏度及85%以上的特异度稳定区别对于正常组织的检体和对于病变部组织的检体。
比较例3:利用以往的判断方法的子宫内膜症的判断
其中,作为以往的判断方法,使用了基于健康者及患者的基因的转录产物表达量本身判断罹患疾病的方法。对使用此类以往的判断方法来判断对于子宫内膜症的病变部组织的检体时的判断精度进行了评价。
(1)使用了属于子宫内膜症判断用基因群的基因的判断
(1-1)对于子宫内膜症病判断用基因群的鉴定中使用的检体
将表5的39种基因各自中对于上述正常组织1(8个检体)及病变部组织1(9个检体)的表达量分别输入SVM。然后,使用输入了这些17个检体的表达量的SVM来,对于各检体被判断为阳性,或被判断为阴性,进行了判断精度的评价。
其结果示于图17A。从其结果得知,以往的判断方法可以100%的灵敏度及特异度鉴定对于正常组织及病变部组织的检体。
(1-2)以往的判断方法的再现性的评价
接下来,为了评价以往的判断方法的再现性,使用了上述正常组织2(8个检体)及病变部组织2(9个检体)的数据。然后,对于这些检体,使用输入了在上述(1-1)中对于正常组织1(8个检体)及病变部组织1(9个检体)的表达量的SVM来进行了判断。
其结果示于图17B。从其结果得知,对于与子宫内膜症判断用基因群的鉴定中使用的检体不同的检体,以往的判断方法的特异度虽然为100%,但灵敏度下降至65%以下。因此得知,以往的判断方法显示将子宫内膜症患者当作健康者的错误的判断结果的可能性比本发明的判断方法高。
(2)使用了与属于子宫内膜症判断用基因群的基因不同的基因的判断
(2-1)对于子宫内膜症判断用基因群的鉴定中使用的检体
为了研究使用了与属于子宫内膜症判断用基因群的基因(表5的39基因)不同的基因的情况,新鉴定了这样的基因。具体而言,通过T检验求出对于上述正常组织1(8个检体)的表达量和对于病变部组织1(9个检体)的表达量之间的显著性概率(p值),将得到的p值为0.05以下的表达量的基因作为了判断中使用的基因。其结果,鉴定了10种基因。这些基因及各基因的p值示于表7。此外,对于各基因中健康者3和子宫内膜症患者1,将基因的转录产物表达量的分布示于图18。
【表7】
Figure BDA0000029960940000411
将这些基因各自中对于上述正常组织1(8个检体)及病变部组织1(9个检体)的表达量分别输入SVM。然后,使用输入了这些17个检体的表达量的SVM来,对于各检体被判断为阳性,或被判断为阴性,进行了判断精度的评价。
其结果示于图19A。从其结果得知,使用了与属于子宫内膜症判断用基因群的基因不同的基因的以往的判断方法可以100%的灵敏度及特异度鉴定对于正常组织及病变部组织的检体。
(2-2)以往的判断方法的再现性的评价
接下来,为了评价使用上述10种基因的以往的判断方法的再现性,使用了上述正常组织2(8个检体)的数据及正常组织2(8个检体)的数据。然后,对于这些检体,使用输入了在上述(2-1)中对于健康者3(7个检体)及子宫内膜症患者1(6个检体)的表达量的SVM来进行了判断。
其结果示于图19B。从其结果得知,对于与子宫内膜症判断用基因群的鉴定中使用的检体不同的检体,以往的判断方法的特异度虽然为100%,但灵敏度下降至0%。因此得知,使用了与属于子宫内膜症判断用基因群的基因不同的基因的以往的判断方法显示将子宫内膜症患者当作健康者的错误的判断结果的可能性比本发明的判断方法极高。
从实施例3及比较例3结果得知,本发明的判断方法相比基于健康者及子宫内膜症患者的基因的转录产物表达量本身判断子宫内膜症的罹患的通常的方法,可更稳定进行高精度的判断。

Claims (14)

1.判断罹患疾病的装置,其包括:
(1)测定装置,其用于测定活体样品中属于基因群的至少1种基因的转录产物表达量,
(i)所述活体样品获自疑似罹患作为判断对象的疾病的受试者,
(ii)所述基因群用于判断与所述疾病相关的至少2种疾病;及
(2)控制器,其用于进行下列操作,所述操作包括:
(i)将从测定装置得到的表达量基于多个健康者中相应基因的转录产物表达量进行标准化,从而取得显示偏差的值,
(ii)取得基因的显示偏差的值的平均值,所述基因是所述疾病判断用基因群中的每一个中属于所述基因群的基因,及
(iii)使用所述平均值判断所述受试者是否罹患作为判断对象的疾病,
其中所述疾病判断用基因群是如下鉴定的基因群:
(a)测定活体样品中的基因的转录产物表达量,所述活体样品获自:
(i)罹患作为判断对象的疾病的多个患者中的每一个、及
(ii)多个健康者中的每一个,
(b)(i)取得所述多个患者中的每一个的显示偏差的值,其通过将所述多个患者中的每一个的基因的转录产物表达量基于所述多个健康者中相应基因的转录产物表达量进行标准化来取得,
(ii)取得所述多个健康者中的每一个的显示偏差的值,其通过标准化所述多个健康者中的每一个的基因的转录产物表达量来取得,
(c)(i)将所述测定了表达量的基因用分类系统分类为至少2种基因群,所述分类系统基于基因所编码的分子功能,
(ii)对于所述多个患者中的每一个及对于所述多个健康者中的每一个,取得基因的显示偏差的值的平均值作为所述基因群的平均值,所述基因是所述基因群中的每一个中属于基因群的基因,
(d)取得所述多个患者的各基因群的平均值与所述多个健康者的相应各基因群的平均值之间的显著性概率,及
(e)将所述显著性概率为0.05以下的基因群鉴定为与作为判断对象的疾病相关联的疾病判断用基因群。
2.权利要求1的判断罹患疾病的装置,其中所述基于基因所编码的分子功能的分类系统是:Gene Ontology、KEGG(KyotoEncyclopedia of Genes and Genomes)、MetaCyc、GenMAPP、BioCarta、KeyMolnet或OMIM(Online Mendelian Inheritance inMan)。
3.权利要求1的判断罹患疾病的装置,其中所述作为判断对象的疾病选自:克罗恩病、亨廷顿病或子宫内膜症。
4.权利要求1的判断罹患疾病的装置,其中,
(1)所述作为判断对象的疾病是克罗恩病,
(2)所述疾病判断用基因群是选自下列的至少2种:G蛋白关联基因群、血液凝固关联基因群、氧化应激关联基因群、吞噬作用关联基因群或脂肪氧化关联基因群。
5.权利要求1的判断罹患疾病的装置,其中,
(1)所述作为判断对象的疾病是亨廷顿病,
(2)所述疾病判断用基因群是选自下列的至少2种:微管关联基因群,线粒体关联基因群或前列腺素关联基因群。
6.权利要求1的判断罹患疾病的装置,其中,
(1)所述作为判断对象的疾病是子宫内膜症,
(2)所述疾病判断用基因群是选自下列的至少2种:细胞因子合成通路关联基因群,细胞因子介导的信号关联基因群或免疫球蛋白介导的免疫应答关联基因群。
7.权利要求1的判断罹患疾病的装置,其中测定装置在基因的转录产物表达量的测定中测定疾病判断用基因群中的每一个中属于基因群的至少1种基因的表达量,所述疾病判断用基因群是至少3种。
8.权利要求4的判断罹患疾病的装置,其中,
(1)所述G蛋白关联基因群的基因选自以下列基因符号表示的基因:GNG3,GNG7,GNA15,GNB5,GNAS,GNG5,GNG11,GNB1及GNG4,
(2)所述血液凝固关联基因群的基因选自以下列基因符号表示的基因:GP1BA,GP1BB,ITGB3,GP9及F13A1,
(3)所述氧化应激关联基因群的基因选自以下列基因符号表示的基因:GPX1,PTGS1,CLU及PDLIM1,
(4)所述吞噬作用关联基因群的基因选自以下列基因符号表示的基因:FCER1G,CLEC7A,VAMP7及FCGR1A,
(5)所述脂肪氧化关联基因群的基因选自以下列基因符号表示的基因:ACOX1,ADIPOR2,ADIPOR1及ALOX12。
9.权利要求5的判断罹患疾病的装置,其中,
(1)所述微管关联基因群的基因选自以下列基因符号表示的基因:DYNC1LI1,DYNLL1,DYNLT1,及DYNLT3,
(2)所述线粒体关联基因群的基因选自以下列基因符号表示的基因:ATP5F1,ATP5J,ATP5L,ATP5C1,ATP5O,COX6A1,COX7A2,CYCS,MRPL18,MRPS35,NDUFA4,NDUFA9,NDUFB1,NDUFB3,NDUFB5,NDUFC1,NDUFS4,TIMM17A,TIMM8B,TOMM20,TOMM7,UQCRH,UQCR及UQCRQ,
(3)所述前列腺素关联基因群的基因选自以下列基因符号表示的基因:PTGER2,PTGER4及PTGES3。
10.权利要求6的判断罹患疾病的装置,其中
(1)所述细胞因子合成通路关联基因群的基因选自以下列基因符号表示的基因:CEBPE及CD28,
(2)所述细胞因子介导的信号关联基因群的基因选自以下列基因符号表示的基因:EREG,STAT3,STAT5A,STAT5B,SOCS1,SOCS5,RELA,CEBPA,DUOX2,DUOX1,STAT4,ZNF675,IL2RB,IRAK3,KIT,LRP8,TNFRSF1A,PLP2,TNFRSF1B,TGM2,CCR1,CCR2,PF4,CX3CL1,IL1R1,CSF2RB,CLCF1及NUP85,
(3)所述免疫球蛋白介导的免疫应答关联基因群的基因选自以下列基因符号表示的基因:IGHG3,IGHM,CD74,FCER1G,BCL10,PRKCD,CD27,MYD88及TLR8。
11.权利要求1的判断罹患疾病的装置,其中所述活体样品是血液。
12.权利要求1~11中任一项的判断罹患疾病的装置,其中所述判断通过将平均值代入判断式来进行,
(1)所述平均值从疑似罹患作为判断对象的疾病的受试者取得,
(2)所述判断式基于属于所述基因群的基因的显示偏差的值的平均值得到,所述属于所述基因群的基因:
(i)用从健康者采取的活体样品得到,及
(ii)用从罹患作为判断对象的疾病的患者采取的活体样品得到。
13.权利要求12的判断罹患疾病的装置,其中所述判断式用判别分析的方法作成。
14.权利要求13的判断罹患疾病的装置,其中所述判别分析的方法是:支持向量机,线性判别分析,神经网络,K-means算法,决策树或随机森林。
CN201010526277.XA 2009-10-30 2010-10-29 判断罹患疾病的装置 Active CN102051412B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-251017 2009-10-30
JP2009251017A JP5503942B2 (ja) 2009-10-30 2009-10-30 疾患の罹患の判定方法

Publications (2)

Publication Number Publication Date
CN102051412A CN102051412A (zh) 2011-05-11
CN102051412B true CN102051412B (zh) 2014-06-18

Family

ID=43827500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010526277.XA Active CN102051412B (zh) 2009-10-30 2010-10-29 判断罹患疾病的装置

Country Status (4)

Country Link
US (2) US20110106739A1 (zh)
EP (1) EP2328105A3 (zh)
JP (1) JP5503942B2 (zh)
CN (1) CN102051412B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2733634A1 (en) * 2012-11-16 2014-05-21 Siemens Aktiengesellschaft Method for obtaining gene signature scores
WO2017138627A1 (ja) * 2016-02-10 2017-08-17 公立大学法人福島県立医科大学 食道類基底細胞癌罹患鑑別方法
CN107025386B (zh) * 2017-03-22 2020-07-17 杭州电子科技大学 一种基于深度学习算法进行基因关联分析的方法
WO2019069067A1 (en) * 2017-10-02 2019-04-11 Oxford Biodynamics Limited BIOMARKER
CN111383736A (zh) * 2018-12-28 2020-07-07 康多富国际有限公司 免疫系统疾病保健食品组合确定方法及其可读取储存媒体
KR102176721B1 (ko) * 2019-03-20 2020-11-09 한국과학기술원 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법
CN113943798B (zh) * 2020-07-16 2023-10-27 中国农业大学 一种circ RNA作为肝细胞癌诊断标志物及治疗靶点的应用
CN112017732B (zh) * 2020-10-23 2021-02-05 平安科技(深圳)有限公司 一种终端设备、装置、疾病分类方法及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101156067A (zh) * 2005-02-16 2008-04-02 惠氏公司 用于白血病诊断、预后和治疗选择的方法和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059367A2 (en) * 2000-11-30 2002-08-01 Board Of Supervisors Of Louisiana State University And Agricultural And Mechanical College Diagnostic microarray for inflammatory bowel disease, crohn's disease and ulcerative colitis
US20040018513A1 (en) * 2002-03-22 2004-01-29 Downing James R Classification and prognosis prediction of acute lymphoblastic leukemia by gene expression profiling
US20090297494A1 (en) * 2004-01-15 2009-12-03 Michel Cuenod Diagnostic and treatment of a mental disorder
JP2005323573A (ja) 2004-05-17 2005-11-24 Sumitomo Pharmaceut Co Ltd 遺伝子発現データ解析方法および、疾患マーカー遺伝子の選抜法とその利用
WO2006030822A1 (ja) * 2004-09-14 2006-03-23 Toudai Tlo, Ltd. 遺伝子発現データの処理方法、および、処理プログラム
WO2006091254A1 (en) * 2005-02-18 2006-08-31 The Government Of The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Identification of molecular diagnostic markers for endometriosis in blood lymphocytes
US20070015183A1 (en) * 2005-06-03 2007-01-18 The General Hospital Corporation Biomarkers for huntington's disease
JP2011217705A (ja) * 2010-04-14 2011-11-04 Osaka City Univ 慢性疲労症候群の判定方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101156067A (zh) * 2005-02-16 2008-04-02 惠氏公司 用于白血病诊断、预后和治疗选择的方法和系统

Also Published As

Publication number Publication date
CN102051412A (zh) 2011-05-11
EP2328105A3 (en) 2016-05-18
US20110106739A1 (en) 2011-05-05
JP2011092137A (ja) 2011-05-12
EP2328105A2 (en) 2011-06-01
US9898574B2 (en) 2018-02-20
JP5503942B2 (ja) 2014-05-28
US20140287965A1 (en) 2014-09-25

Similar Documents

Publication Publication Date Title
CN102051412B (zh) 判断罹患疾病的装置
US20240153593A1 (en) Population based treatment recommender using cell free dna
Spinelli et al. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses
WO2019169049A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
KR101642270B1 (ko) 진화 클러스터링 알고리즘
JP2003021630A (ja) 臨床診断サービスを提供するための方法
WO2006065658A2 (en) A physiogenomic method for predicting clinical outcomes of treatments in patients
Larsson et al. Comparative microarray analysis
Scheubert et al. Tissue-based Alzheimer gene expression markers–comparison of multiple machine learning approaches and investigation of redundancy in small biomarker sets
Zhao et al. Identification of diagnostic markers for major depressive disorder using machine learning methods
Evans et al. Genetic variant pathogenicity prediction trained using disease-specific clinical sequencing data sets
Fu et al. A novel hierarchical clustering approach for joint analysis of multiple phenotypes uncovers obesity variants based on ARIC
Liu et al. Cross-generation and cross-laboratory predictions of Affymetrix microarrays by rank-based methods
Yu et al. Genetic clustering of depressed patients and normal controls based on single-nucleotide variant proportion
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
Fronza et al. A graph based framework to model virus integration sites
US20200135300A1 (en) Applying low coverage whole genome sequencing for intelligent genomic routing
CN114333979A (zh) 一种骨关节炎相关基因筛选与功能分析方法
Ruan et al. Identification of telomere-related genes associated with aging-related molecular clusters and the construction of a diagnostic model in Alzheimer's disease based on a bioinformatic analysis
Ali et al. Machine learning in early genetic detection of multiple sclerosis disease: A survey
Wang et al. The periphery and the core properties explain the omnigenic model in the human interactome
CN111518882A (zh) 通过分子标志物辨识激素性股骨头坏死的中医证型的系统
San Lucas et al. Classifying mild traumatic brain injuries with functional network analysis
Brown et al. Concordant B and T Cell Heterogeneity Inferred from the Multiomic Landscape of Peripheral Blood Mononuclear Cells in a Crohn’s Disease Cohort
Tian et al. MSdb: An integrated expression atlas of human musculoskeletal system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant