CN1647067A - 数据解析装置及方法 - Google Patents

数据解析装置及方法 Download PDF

Info

Publication number
CN1647067A
CN1647067A CNA038075237A CN03807523A CN1647067A CN 1647067 A CN1647067 A CN 1647067A CN A038075237 A CNA038075237 A CN A038075237A CN 03807523 A CN03807523 A CN 03807523A CN 1647067 A CN1647067 A CN 1647067A
Authority
CN
China
Prior art keywords
aforementioned
variable
validation
achievement
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038075237A
Other languages
English (en)
Inventor
石川俊夫
久米隆志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ishihara Sangyo Kaisha Ltd
Original Assignee
Ishihara Sangyo Kaisha Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ishihara Sangyo Kaisha Ltd filed Critical Ishihara Sangyo Kaisha Ltd
Publication of CN1647067A publication Critical patent/CN1647067A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Organic Chemistry (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Plant Pathology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

在确定生物体的状态和多个基因表达量和/或细胞内物质的量的相关模型的数据解析中,以生物体的状态或随时间概率性发生的生物体的状态的变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量的数据集合中,选择包含在数据中的说明变量,对于含有选择的说明变量和目的变量的相关模型计算交互验证成绩,评价判定其结果。这里通过进行说明变量的选择、交互验证成绩的计算、其结果的评价判定,直到交互验证成绩不再改善,确定部分最小二乘法模型。由此提供多变量的基因表达信息的有效的信息处理。

Description

数据解析装置及方法
技术领域
本发明涉及一种生物体的状态和基因表达量和/或细胞内物质的量的多变量解析处理和可以以此为基础的测定机械材料、检验方法等。
背景技术
自2000年6月发布的人类基因组的解读宣言以来,可以说已经跨入了阐明基因组中所写的遗传信息如何发现、并起着怎样的作用的后基因组时代。在人类基因组计划的进展中,也发展了测定基因组表达状态的方法论。已知转录组(mRNA)的测定方法有寡核苷酸阵列及微型芯片。另外在蛋白质组(蛋白质)测定方法中,在以前的2维电泳基础上,最近发展了质量分析的方法。抗体芯片等先进的技术也正受到人们的关注。与迄今为止的在短时间内可很快测定生物体的状态参数的技术相比较,可以说这些测定技术是具有划时代意义的。
有效测定基因表达状态的技术例如有如下几种。已知指定转录组(mRNA的总体)的技术是在基底装载多种DNA,检测与其互补的mRNA的DNA芯片。在代表性的DNA芯片中存在基因芯片和DNA微阵列。另外,在测定蛋白质组(蛋白质的总体)的过程中有使用2维电泳、抗体芯片、质谱技术的。另外,尝试利用质量分析等测定代谢物组(包含代谢中间体的代谢产物的总体)的方法也得到了发展。
为了通过基因产物的测定更好地描述生物体内的细胞状态,即使在现在这样诊断标记物信息不足的情况下,人们依然期待着可以更高精度地进行诊断。例如有如下的研究工作。
P.O.Brown等利用DNA芯片测定淋巴肿瘤患者的细胞中的转录组,通过群集分析将恶性和良性的淋巴肿瘤(DLBCL)分成特定群集(Nature 403(3),503-11(2000))。但是,这不是一种获得因果关系(相关关系)的模型,不能判断某个基因起着何等重要的作用。
A.Alaiya等利用2维电泳测定40位子宫癌患者细胞中的转录组,利用其中22位的数据构建部分最小二乘法诊断模型,说明恶性度(Int.J.Cancer,86,731-36(2000)Electrophoresis,21,210-17(2000);国际公开WO 00/70340)。当时在全变量模型中,通过从153个变量限定到装载(loading)的大的170个变量,使交互验证成绩变好(Q2=0.84),以11/18的比率正确回答剩余的18位患者的患病深度(3阶段)。表明了交互验证法作为模型构建时的指标的思路。但是,在该方法中,得到装载时必须首先成立全变量模型。另外,还没有考察其它的变量选择方法。
J.Khan等利用DNA芯片测定小儿癌患者的细胞,通过神经网络说明了恶性度(nature Medicine,7(6),673-79(2001))。测定小儿癌(SRBCT)患者88人的转录组(6567基因),利用其中63人的数据采用主成分分析进行10维压缩,然后,构建人工神经网络诊断模型。这里,利用交互验证法缩进具有影响力的主基因,以96基因得到了最佳成绩(100%)。利用该模型预测剩余的25人,得到93~100%的结果。但是,采用该方法在获得影响力时首先必须成立全变量模型。另外,还没有考察除此之外的变量选择方法。尽管可以处理10维这样少变量的情况,但是,不能应用于变量数再大的场合。
另外,最近由D.M.Rocke和D.V.Nguyen报告了使用部分最小二乘法解析DNA芯片的研究(国际公开WO 02/25405;Bioinformatics 18(1),39-50(2002);Bioinformatics 18(9),1216-26(2002);Bioinformatics 18(12),1625-32(2002))。报告显示在使用部分最小二乘法的潜在变量作为线形判断分析等多变量解析的说明变量的情况下,可以得到良好的结果。这是由于部分最小二乘法是一种可以同时进行维数压缩和模型拟合的方法,因而是可能的。在报告显示的实施例中,显示部分最小二乘法作为构建DNA芯片信息的模型方法是优越的。但是,报告中没有触及选拔重要的基因表达量的方法的最小二乘法的应用,完全使用事先的前处理而选择的说明变量进行解析,在这一点上存在着和上述的A.Alaiya等的研究相同的问题。
即使在现有的诊断标记物信息不足的情况下,人们依然期待着通过灵活使用遗传发现信息,可以更高精度(分辨率)地进行诊断。基因表达状态的测定结果具有的特征是可以得到前所未有的庞大的信息量,相反由于信息量多,不进行有效的数据处理就不能灵活使用数据。因此,为了获得有用的知识,有效的信息处理是必不可少的。如前所述,现实情况中主要采用群集解析方法,但是,也可以采用主成分分析等的方法。群集解析和主成分分析由于不是附带教师的学习方法,故不能得到与病状有因果关系(相关关系)的模型。也就是难点在于从解析结果不能得到某种基因所起作用的重要程度。另一方面,尽管部分最小二乘法是一种同时进行维数压缩和模型拟合的强大的多变量解析方法,但是面临的现状是在变量数庞大的情况下常常不能得到显著的结果。因此,希望进行有效的信息处理,从庞大的基因表达信息等中可以获得有用的知识。另外,期待着得到以所述的信息处理的结果为基础的有效的测定机械材料、检验处理等。
发明内容
(发明欲解决的问题)
本发明的目的在于提供多变量的基因表达信息、细胞内物质信息的有效的信息处理。
另外,本发明的目的在于提供有效的检验处理。
(解决方法)
本发明涉及的数据解析装置是以生物体的状态或随时间概率性发生的生物体的状态变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量,确定相关模型的数据解析装置,该装置包括:输入装置,输入生物体的状态或导出该状态的数据或者随时间概率性发生的生物体的状态的变化相关的数据,和由多个基因表达量和/或细胞内物质的量构成的样品的集合;和(1)选择说明变量的选择装置,(2)执行部分最小二乘法计算交互验证成绩的计算装置,或者使上述生物体的状态的变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,将得到的概率进行假定分布条件下的变换或者没有假定为前提条件下的变换,将该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算装置,(3)评价上述(2)的计算装置的结果,判断说明变量的采用、不采用的评价判断装置,(4)执行上述(1)的选择装置和上述(2)的计算装置和上述(3)的评价判断装置,不断改善以部分最小二乘法模型的至少具有交互验证成绩为独立变量的函数,确定部分最小二乘法模型的确定装置。选择装置例如逐次取舍选择说明变量,并使用遗传性运算法则选择说明变量。计算装置例如逐次排除1个样品,或者逐次排除多个样品,执行部分最小二乘法计算交互验证成绩。评价判定装置例如从计算装置的结果求得由各计算中排除的样品的基因表达显示所预测的生物体状态的目的变量值,和显示前述排除的样品的生物体状态的目的变量值的误差的代表值,在该误差的代表值小的情况下,判定该交互验证成绩得到了改善,在取舍选择说明变量的同时,反复评价判定交互验证成绩。或者也可以使用不是交互验证成绩,至少以部分最小二乘法模型的交互验证成绩为独立变量的函数是否得到改善为评价判定的基准。确定装置例如反复执行选择装置和计算装置和评价判定装置,不断改善部分最小二乘法模型的交互验证成绩,确定部分最小二乘法模型。另外,也可以通过多个计算机执行选择装置和计算装置。这样,在构成相关模型时,通过使交互验证成绩最适合基准,由此取舍选择说明变量,减少说明变量的维数,得到良好的模型。
上述在假定的分布的条件下变换或没有假定为前提的条件下变换是为了可以用说明变量的多项式解析生物体的状态变化的概率而进行的。在假定了分布的情况下,可以考虑用将概率进行对数变换后变成负值的结果除以观测的状态变化的时间而进行的变换;用概率进行对数变换后变为负数的结果再变为对数的结果除以观测状态变化的时间进行的变换、或者计算1减去概率得到的值进行概率单位变换的结果,用观测的状态变化的时间除进行的变换等。另一方面,在不假定分布的条件下考虑分对数(logit transformation)变换的方法。通过判断分布中是否形成某种假设或者不构成某种假设,可以根据各种场合适当地选择变换的方法。至少以部分最小二乘法模型的交互验证成绩作为独立变量的函数,例如可以考虑选拔作为前述误差的代表值的说明变量的数的函数,或者也可以包含其他的独立变量。优选函数是误差代表值的单调减少函数,并且是说明函数的数量的单调减少函数。为了不增加计算量,优选的是可以简单计算的函数。具体可以考虑-PRESS×αNP函数。这里,PRESS为预测残差平方和,NP为采用的说明变量的数量,α为1或比1大的实数。另外,也可以考虑-PRESS×(NP+α)γ或-PRESS×(β-NP)形成的函数。这里γ为正的实数。
当说明变量的个数减少时,则可以应用通常的统计学方法或多变量解析方法。在本发明中使用部分最小二乘法选拔的说明变量作为统计学方法或多变量解析方法的说明变量可以得到更良好的模型。或者以使用选拔的说明变量的部分最小二乘法模型的潜在变量作为统计方法或多变量解析方法的说明变量,可以得到更良好的模型。这里所述的潜在变量是部分最小二乘法中通常使用的,在目的变量(Yil)和说明变量(Xil)的背后,抽出共同的维数少的潜在变量(Tik)是部分最小二乘法的维压缩,是模型拟合。
Yil=∑Qkl×Tik+Fil
Xij=∑Pkj×Tik+Eij
(i是样品号、l是目的变量编号、j是说明变量编号、k是潜在变量编号、F,E为残差)。
另外,统计学方法或多变量解析方法例如有多元回归分析法、线性判别分析法、相关最小二乘法、对数回归分析法、比例风险解析法、使用マハラノビス(马氏)距离的判别分析法、kNN法、人工神经网络等。
本发明者最新发现在Q2或PRESS值等的交互验证成绩基础上,通过使含有说明变量个数为第2独立变量的函数最优化,可以任意缩进选拔的说明变量。利用通常的统计方法或多变量解析方法,抽出的说明变量的个数NP优选的范围有时通过与样品数结合确定。这种情况下,根据目的选择数可以任意变更函数。例如,在函数形式设定为-PRESS×αNP的情况下,为了使说明变量的个数从数个缩进到数十个,通常优选1.0~3.0中的值作为常数α。更优选α为1.0~2.0中的值。即使是其他的函数形式f(PRESS,NP),在实际选择的说明变量的数量MP和当时的PRESS值PRESS_NP的四周,形成f(PRESS_MP÷α,MP+1)f(PRESS_MP,MP)的函数在变量选择的点上有时也具有同样的效果。这样通过使用适当的函数,可以选择优选范围的NP个数的说明变量。这样,当进一步缩进使用交互验证成绩确定的模型中采用的说明变量时,可以构建统计学方法或多变量解析方法使用的模型。因此,可以采用其性质充分清楚的统计方法或多变量解析方法进行解析。
另外,使用从随时间概率性地发生的生物体的状态的变化导出的量作为目的变量,可以确定随时间概率性地发生的生物体的状态的变化和多个基因表达量和/或细胞内物质的量的相关模型。所谓“随时间概率性地发生的生物体的状态的变化”是指例如生存时间。这里,在所述的部分最小二乘法中组合Kaplan-Meier法或Cutler-Ederer法和分对数(logit)变换。部分最小二乘法的目的变量是使随时间而概率发生的生物体状态的变化对应的数据应用Kaplan-Meier法或Cutler-Ederer法的生命表,计算不发生变换的概率,将其进行分对数变换得到的数值。所谓的分对数(logit)值是以分类后的数据的,以某种分类的比例(概率)P为基础,利用下述式logit=log{P/(1-P)}计算得到的。执行以分对数值为目的变量的部分最小二乘法计算交互验证成绩。这样,与先前述说明同样,抽出考虑部分最小二乘法的交互验证成绩的说明变量,来解析生存时间。
当减小说明变量的个数时,通常的统计方法或多变量解析方法则可以使用。由此使用确定的模型中采用的说明变量或其潜在变量,构建说明随时间概率性发生的生物体的状态变化的统计方法或多变量解析方法所依据的模型。例如,使用以分对数值为目的变量求得的说明变量,进行其他的统计方法或多变量解析方法(例如比例风险解析法、或溶入参量分布中的回归分析法),由此可以得到更良好的模型。所述比例风险解析法是由Cox提出的方法,在生存率的解析中考虑时间,而且处理多变量。在比例风险解析法中,在每次观测的情况下存在一个称作风险值的左右生存率的值,作为存在一个导出该值的函数(假定模型的情况下)进行解析。Kaplan-Meier法显示每个集团整体或群体的生存率的推移。另外所谓参量的分布是利用高斯提出的正交分布计算的概率分布,在生存时间解析中使用指数分布、威伯尔分析、对数正交分布。通过溶入使用指数分布等,在运算式中存在多项式,可以应用考虑前述的部分最小二乘法的交互验证成绩的说明变数的抽出。
所述的通过输入装置作为说明变量输入的多个基因的存在量和/或细胞内物质的量,不一定限于物质的绝对浓度测定值,也可以是加工计算的值、相对的值、间接地表示物质量的量等。例如,应用质谱可以测定蛋白质表达量,可以构建表示生物体状态的目的变量和质谱形成直接关系的相关模型。另外利用Affymetrix公司典型的DNA芯片(基因芯片),不一定单一的部位特定存在单一的基因,有时多个部位开始集聚,特定存在单一的基因。这里以各部位的测定量作为说明变量可以得到直接说明生物体状态的相关模型。而且蛋白质的电泳图形的各峰不能对单一的蛋白质进行归属,多数是多个蛋白质的重叠。这种情况下,也可以使用各峰强度作为说明生物体状态的说明变量。这可以根据上述Alaiya等采用电泳图形的峰强度作为子宫癌的诊断的说明变量进行的研究中得到解释。如上所述在后序列时代的转录组解析、蛋白质组解析、代谢物组解析等研究领域中,具有整体考虑生物体(细胞)内物质的特征的的实验性方法正在引起人们的关注。不一定必须对每一个物质进行绝对的定量,直接、间接地表现由上述的实验方法定量的物质量的测定值或其加工计算值可以形成说明生物体状态的说明变量。另外在表现以上的物质量的说明变量以外,根据不同情况当追加问诊数据等其他的说明变量时,有时还可以得到有效的解析结果。
本发明涉及的数据解析方法是一种以生物体的状态或随时间概率性发生的生物体状态的变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量,确定相关模型的解析方法,包括输入步骤,输入生物体的状态或导出该状态的数据或者伴随时间概率性发生的生物体的状态的变化相关的数据,和多个基因表达量和/或细胞内物质的量构成的样品的集合;确定步骤,包括(1)选择说明变量的选择步骤;(2)执行部分最小二乘法计算交互验证成绩的计算步骤或者计算上述生物体的状态的变化相关的数据中应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,将得到的概率进行假定分布的条件下的变换或者没有假定为前提的条件下的变换,将该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算步骤;(3)具有评价上述(2)的计算步骤的结果,判断说明变量的采用、不采用的评价判断步骤,(4)执行上述(1)的选择步骤和上述(2)的计算步骤和上述(3)的评价判断步骤,不断改善以部分最小二乘法模型的至少具有交互验证成绩为独立变量所得函数,确定部分最小二乘法模型的确定步骤。
在该数据解析方法中,选择步骤例如逐次取舍选择说明变量,使用遗传运算法则选择说明变量。计算步骤例如逐次排除1个样品,或逐次排除多个样品,执行部分最小二乘法计算交互验证成绩。评价判定步骤例如从计算步骤的结果,求得由各计算中排除的样品的基因表达显示所预测的生物体状态的目的变量值,和显示前述排除的样品的生物体状态的目的变量值的误差的代表值,在该误差的代表值小的情况下,判定该交互验证成绩得到了改善,在取舍选择说明变量的同时,反复进行交互验证成绩的评价判定。确定步骤例如反复执行选择步骤和计算步骤以及评价判定步骤,不断改善部分最小二乘法模型的交互验证成绩,确定部分最小二乘法模型。另外,也可以利用多个计算机执行选择步骤和计算步骤。
本发明涉及的数据解析程序是以生物体的状态或随时间概率性发生的生物体状态变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量确定相关模型的,是由计算机执行的数据解析程序,包括输入步骤,输入生物体的状态或导出该状态的数据或者随时间概率性发生的生物体状态的变化相关的数据,和多个基因表达量和/或细胞内物质的量构成的样品的集合;确定步骤,包括(1)选择说明变量的选择步骤;(2)执行部分最小二乘法计算交互验证成绩的计算步骤,或者使上述生物体的状态的变化相关的数据中应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,将得到的概率进行假定分布条件下的变换或者没有假定为前提的条件下的变换,将该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算步骤;(3)评价上述(2)的计算步骤的结果,判断说明变量的采用、不采用的评价判断步骤,(4)执行上述(1)的选择步骤和上述(2)的计算步骤和上述(3)的评价判断步骤,不断改善以部分最小二乘法模型的至少具有交互验证成绩为独立变量所得的函数,确定部分最小二乘法模型。
在该数据解析程序中,选择程序例如逐次取舍选择说明变量,使用遗传运算法则,选择说明变量。计算步骤例如逐次排除1个样品,或逐次排除多个样品,执行部分最小二乘法计算交互验证成绩。评价判定步骤例如从计算步骤的结果,求得由各计算中排除的样品的基因表达显示所预测的生物体状态的目的变量值,和显示前述排除的样品的生物体状态的目的变量值的误差的代表值,在至少该误差的代表值为独立变量的函数的该误差的代表值的单调减少函数的值小的情况下,判定该交互验证成绩得到了改善,取舍选择说明变量,反复评价判定交互验证成绩。确定步骤例如反复执行选择步骤和计算步骤以及评价判定步骤,不断改善部分最小二乘法模型的交互验证成绩作为独立变量的函数,确定部分最小二乘法模型。另外,也可以通过多个计算机执行选择步骤和计算步骤。而且在前述的说明变量的选择中,例如也可以在初期状态下完全不含有说明变量,或者在初期状态下含有全说明变量。
所述数据解析程序中,上述生物体的状态是例如表现疾病类型的测定值、表示病重程度的测定值、表示疾病种类的医疗诊断结果、表示病重程度的医疗诊断结果、或者将其2次加工的数值。例如,下面的实施例所示,预测患者的生存时间可以对判断包含QOL(quality of life:生活质量)的医疗计划或人生设计等提供重要的信息,可以提供具有社会价值的诊断模型。预测癌症复发的可能性对制订考虑QOL的治疗计划、对医师或该患者进行选择性判断方面提供宝贵的信息。
另外本发明还包括数据解析装置、数据解析方法、数据解析程序,其中数据解析装置包括输入装置,对于确定的前述相关模型和预测对象的样品输入在该模型中采用的说明变量;预测判断装置,该装置基于输入的该说明变量预测判断该样品的生物体状态。数据解析方法,其中包括输入步骤,对前述确定的相关模型和预测对象的样品输入在该模型中采用的说明变量;预测判断步骤,该步骤基于输入的该说明变量预测判断该样品的生物体状态。数据解析程序,其中包括输入步骤,对于前述确定的相关模型和预测对象的样品输入在该模型中采用的说明变量;预测判断步骤,该步骤基于输入的该说明变量预测判断该样品的生物体状态。
本发明涉及的利用计算机可读取的记录媒体记录上述几个程序。
本发明涉及的检定扩散性大B细胞淋巴瘤的病重度中使用的细胞内物质测定机械材料和测定方法以及扩散性大B细胞淋巴瘤的病重度检定方法实质性检测存在基因文库编号U15085、M23452、X52479、U70426、H57330及S69790构成的基因族。而且,也可以检出存在基因文库编号U03398、M65066、AK001546、BC003536、X00437、U12979、H96306、AA830781及AA804793中的至少一种基因。
另外,本发明涉及的检定乳腺癌的病重度使用的细胞内物质测定机械材料和测定方法以及乳腺癌的病重度检定方法,实质性检测包含基因文库编号AA598572、AA703058及AA453345构成的基因产物的细胞内物质。而且也可以检出包含基因文库编号AA406242、H73335、W84753、N71160、AA054669、N32820及R05667中的至少一种基因产物的细胞内物质。
另外,本发明涉及的检定乳腺癌的复发性使用的细胞内物质测定机械材料和测定方法以及乳腺癌的复发性检定方法实质上检测含有基因文库编号W84753、H08581、AA045730及AI250654构成的基因产物的细胞内物质。而且也可以检测包含基因文库编号AA448641、R78516、R05934、AA629838及H53037中的至少一种基因产物的细胞内物质。
另外,本发明涉及的检定乳腺癌的复发性使用的细胞内物质测定机械材料和测定方法以及乳腺癌的复发性检定方法实质上检测含有基因文库编号AA434397、T83209、N53427、N29639、AA485739、AA425861、H84971、T64312、T59518及AA037488构成的基因产物的细胞内物质。而且也可以检测包含基因文库编号AA406231中的基因产物的细胞内物质。
另外,本发明涉及的检定乳腺癌的复发性使用的细胞内物质测定机械材料和测定方法以及乳腺癌的复发性检定方法实质上检测含有基因文库编号H11482、T64312及AA045340构成的基因产物的细胞内物质。
细胞内物质测定机械材料例如有:DNA微阵列、基因芯片、寡聚DNA型的DNA芯片、电化学DNA芯片(ECA芯片)、纤维型DNA芯片、磁性空心颗粒状DNA芯片(PSS)、卷丝DNA芯片(PSS)等的DNA芯片、微阵列、抗体芯片、测定用试剂配件等。另外也可以是适当地组合上述机械材料的测定机械。
附图说明
图1是基因表达解析系统的模块图。
图2是解析软件的流程图。
图3是交互验证成绩CV的计算流程图。
图4是变量选择的第1模型构建方法的流程图。
图5是变量选择的第2模型构建方法的流程图。
图6是变量选择的第3模型构建方法的流程图。
图7是变量选择的第4模型构建方法的流程图。
图8是变量选择的第5模型构建方法的流程图。
图9是显示最小二乘法模型成绩的图。
图10是各种DLBCL患者的生存时间和诊断指标的曲线比较图。
图11是实施例2的DLBCL患者的生存时间诊断指标的曲线图。
图12是实施例3的乳腺癌患者的生存时间诊断指标的曲线图。
图13是实施例3的乳腺癌患者的变量消除基准采用P≥0.0005时的生存时间诊断指标的曲线图。
图14是实施例7的乳腺癌患者的复发时间诊断指标的曲线图。
图15是实施例7的乳腺癌患者的变量消除基准采用P≥0.025时的复发时间诊断指标的曲线图。
图16是显示实施例9的基因运算法则涉及的部分最小二乘法模型的最优化状况的图。
图17是显示实施例10的分级型人工神经网络中的4个拓扑的图。
图18是显示使用实施例11的潜在变量的比例风险模型的乳腺癌患者的生存时间诊断指标的图。
图19是显示使用实施例11的潜在变量的比例风险模型的乳腺癌患者的生存时间诊断指标的预测值和计算值的图。
具体实施方式
以面参照附图说明本发明的实施形态。
下面对确定选择的生物体的状态和基因表达量以及/或者细胞内物质的量的相关模型进行说明。这里基因表达术语用作包含mRNA表达(转录组)或mRNA的翻译所生成的蛋白质(蛋白质组)物质。另外,所述的细胞内物质的量这里是指例如包含有全部的代谢中间体的代谢产物的代谢物组。例如,在转录组(mRNA)或蛋白质组(蛋白质)的解析中,各样品数据由生物体状态和基因表达量等构成,各样品含有例如1000个以上的庞大的基因表达量。生物体的状态是例如疾病种类或疾病诊断指标,但一般地只要是生物体信息就可以。在「疾病诊断指标」中,除疾病的发病程度之外,还包括由疾病的类型、危急程度、严重程度等的表现所表示出的。在此,因为基因表达量等测定数据由庞大的信息量构成,因而需要使用计算机进行有效的多变量解析。
在数据收集中,对几个样品预先判定生物体的状态(例如诊断指标),从采集的样品中得到细胞液,测定该细胞液中的多个基因产物的表达量等。在本发明的实施形态的数据解析中,输入这样获得的基因产物的表达量等和生物体的状态(例如诊断指标),得到相关模型(例如部分最小二乘法模型)。这里使用计算机中的多变量解析程序,进行以诊断指标为目的变量,以基因表达量和/或细胞内物质的量为说明变量的因果关系型的解析,得到各说明变量的重要性及影响度的相关信息。另外所述目的变量不一定是其测定值本身,可以使用分对数变化后的值或表示群的离散值,这种情况下,也可以得到显著的解析结果。
本发明者发现在基因表达医疗诊断领域中,通过选择变量使数据解析中的交互验证(cross validation)的成绩至少为独立变量之一的函数最优化,可以得到良好的相关模型(例如部分最小二乘法模型)。利用交互验证法将掌握的数据分割成多个群,使用仅由其中的一部分数据群(训练集合)拟合得到的模型,预测剩余的其它的数据群(测试集合),由此试验模型的预测力。尽管在通常的部分最小二乘法(PLS)中使用交互验证法进行潜在变量的维选择,但是这里在部分最小二乘法中,将潜在变量固定在1维,逐次取舍选择1或1以上的输入变量(说明变量),同时使具有交互验证成绩(例如平方和的预测误差)至少为独立变量之一的函数最优化。但是本发明的效果不限于潜在变量的维为1。其结果,在采用全变量的场合不能得到显著的相关模型,在这种情况下,也判定可以得到良好的而且具有预测力的相关模型。通过使用该交互验证法逐次进行取舍选择进行变量选择,可以得到稳定的相关模型。另外本发明者发现通过适当地设定函数形式缩进说明变量,可以得到良好的部分最小二乘法以外的统计学或多变量解析的良好的相关模型,可以得到适合记述各个生物体状态的目的变量的相关模型。这里所述的最优化是指交互验证成绩在用于取舍选择说明变量的,当时的解析条件范围内改进,直至不能改善为止,不是指交互验证成绩在所有的说明变量的组合中发现最优的结果。在使用该变量选择方法时,可以少数指定确定病状的因素,设计廉价的诊断用材料(DNA芯片、抗体芯片、含有DNA的载体等),其本身具有特有的价值。另外,该变量选择方法可以和预先设定的各种变量选择条件同时运用。
如上所述,说明变量以交互验证成绩为基准逐次取舍进行选择。这里为了取舍选择,使用以交互验证成绩至少为独立变量之一的函数。追加说明变量的场合,对该说明变量在判定前述函数没有改善的情况下排除该说明变量,在判定改善的情况下追加该说明变量。另外在排除说明变量的场合,对该说明变量在判定前述函数没有改善的情况下不排除该说明变量,在判定改善的情况下排除该说明变量。这里在选择1或1以上的说明变量的场合,交互验证成绩评价按如下进行。从n个样品中逐次排除几个样品,求得部分最小二乘法模型,求得显示由各模型中排除的样品的基因表达量预测的生物体的状态的目的变量,和显示的排除的样品的生物体的状态的目的变量相关的各个误差的代表值。所述代表值是附加和、平均、最大值、中位值、最频值等的数据特征的值。并且在以该误差的代表值作为至少一个独立变量的函数变小的场合,判定交互验证成绩得到改善,追加或消除该说明变量。使该交互验证成绩评价在取舍选择说明变量的同时逐次反复进行,不断改善前述函数。只要不改善就以交互验证成绩作为最优化结束说明变量的取舍选择。结果可以得到通过取舍选择缩进的数的说明变量构成的最优部分最小二乘法模型。具体地,采用预想残差二乘和(PRESS)作为在计算装置中所计算的交互验证成绩的数值指标,在评价判断装置中,预想残差平方和的值在每个说明变量以特定的阀值以下的比率变小的情况下,通过判定采用其说明变量,可以执行上述的处理。
在因果关系型的解析方法中需要考虑避免过拟合(over fitting)。这里所述的过拟合(over fitting)是指尽管由于说明变量过多碰巧预测结果和成绩相一致,但是有碍获得真正的相关关系,故在用于模型拟合的数据以外没有预测能力。这里使用部分最小二乘法作为相关模型,但是部分最小二乘法是一种同时进行维压缩和模型拟合的强有力的多变量解析方法,对于过拟合问题处理得比较好。但是在如基因表达状态解析这样处理庞大的变量的情况下,面临的问题是不能得到显著的结果。现有技术说明的Alaiya或Khan的方法是以全变量模型有效成立为前提,故一般不能应用于变量缩进。对此,本发明通过缩进变量优选交互验证预测结果,可以减少过拟合。另外本发明和前述Khan的方法不同,是一种不利用主成分分析等的前处理的方法。利用现有技术,在说明变量庞大的场合不能得到有效的模型,故使用预先以全说明变量为基础,例如利用主成分分析等进行维压缩的前处理,利用由此得到的说明变量进行解析的方法。但是利用该方法由于利用构成的模型进行预测,一定需要作为模型构成基础的全说明变量,例如当说明变量是基因表达量时,则诊断用基因芯片上支持的基因需要全部的用于模型构成的基因,或者需要使用其它的方法进行变量选择。另一方面,本发明中由于利用说明变量的选择缩进说明变量,因而只要说明变量为基因表达量,则在诊断用遗传芯片上支持的基因就可以支持选择的说明变量相当的基因。
Todeschini等为了预测有机化合物在大气中的分解,通过基因运算法则进行变量选择以使交互验证成绩最优化。得到逐步回归模型(P.Gramatics,V.Consonni andR.Todeschini,Chemosphere38(5),1371-78(1999))。用53化合物和175描述符进行模型构建(Q2=0.79)、选择7变量、对98化合物进行预测(Q2=0.75)。在选择变量使交互验证成绩最优化的这点是和本实施形态相同的方法。但是为了采用逐步回归模型,通过说明变量的选择过程选择的变量不得不限于少数几个上,不能应用在多个基因表达量和/或细胞内物质的量的解析中。在本发明者所调查的范围内,采用最优化Q2或PRESS值的方法,所选拔的说明变量从一百左右至几百左右,不能采用逐步回归模型进行解析。另外,Todeschini等没有言及用于缩压说明变量的有效方法。这是因为原来的说明变量的备选至多175个,不需要为缩进说明变量特别考虑。基因表达解析领域与其完全不同,相对数十至数百的样品数存在数百至数千、数万个说明变量备选。因而需要考虑和以前的差异。
利用本实施方式在确定生物体的状态和多个基因表达量和/或细胞内物质的量的相关模型时,通过逐次追加·排除说明变量以使具有交互验证成绩至少为独立变量之一的函数最优化,从而选拔说明变量,得到良好的相关模型。这样的方法优先性如下所示从下述的实施例可以推测。
(1)可以推测/确定在疾病或生物体现象背后起作用的重要的基因或机理,加深理解。
(2)可以设计集中在只有重要的基因产物或细胞内物质的廉价的诊断用材料(DNA芯片、抗体芯片等)。
在本实施方式中,阶段性地取舍选择说明变量以使具有交互验证成绩至少为独立变量之一的函数最优化,具体的例如配合使用选择装置,选择分段法(Step wise)所代表的说明变量;计算装置,该装置在逐一排除(leave-one-out)法所代表的交互验证法中应用部分最小二乘法进行计算;评价判定装置,该装置评价前述计算装置的结果,判定说明变量的采用、不采用。也就是,从m个说明变量中选择1或1以上的说明变量,然后执行部分最小二乘法,计算交互验证成绩,再评价该计算结果,判定选择的说明变量的采用、不采用。利用该评价判定,从计算装置的结果求得各计算中排除的样品的基因表达所预测的表示生物体状态的目的变量值,和表示前述排除的样品的生物体状态的目的变量值的误差的代表值,在至少以该误差的代表值为独立变量的函数的该误差的代表值单调减少函数的值变小的情况下,判定说明变量的取舍选择。这样使用选择装置和计算装置和评价判定装置不断改善至少以部分最小二乘法模型的交互验证成绩为独立变量的函数,改进直至不能再改善为止,确定部分最小二乘法模型。另外在本实施方式中,使样品一个一个逐次排除(逐一排除法),取而代之可以排除多个样品评价交互验证成绩(逐n排除法),另外也可以使用Khan et al.采用的3分割法(3包three-fold)等的其它方法。利用3分割法可以将说明变量进行无规混合分成3组。使用其中的2个组构成模型,用剩余的一个组评价模型。另外,说明变量的选择方法也可以使用分段法、非线性运算法则(例如遗传性运算法则等),对于变量选择只要预先分成几个条件就可以据此限定研究范围。
下面具体地说明数据的收集和解析。图1显示基因表达解析系统。为了收集数据,预先对几个样品判定诊断指标(例如包括疾病的类型或发展情况),再从其采集的样品中获得细胞液,使用DNA芯片测定该细胞液中的多个基因产物的表达量。测定中使用共焦型激光扫描仪(例如Affymetrix公司、428阵列扫描仪)10。利用吸光度测定mRNA的量。该数据收集方法是一种公知的方法。测定数据可以送入计算机12进行解析。计算机12是设有CPU14的具有通常结构的计算机,在其中所连接的记忆装置(例如硬盘装置)16的记录媒体(例如硬盘)中容纳测定数据18或解析软件20。使用该解析软件20解析数据18,确定生物体的状态和基因表达量等的相关模型。
另外也可以通过多个计算机执行说明变量的选择和在交互验证法中应用部分最小二乘法的计算。可以通过使交互验证预测的计算分散在多个计算机中加速计算。
图2显示利用计算机12执行的,用于得到生物体的状态和基因表达量等的相关模型的数据解析软件20的流程图。这里为了简单地进行说明,采用-PRESS作为至少以部分最小二乘法模型的交互验证成绩为独立变量的函数,但这不限定发明的范围,在实施例2~5中采用其它的函数。首先输入用于制成相关模型的数据(S10)。数据是使用DNA芯片收集的。输入数据(样品集合)分别由目的变量(例如诊断指标)和m个(例如2000个)说明变量(例如基因表达量)构成。另外根据情况,在上述数据(训练集合)之外输入测试集合的数据。这里所述的测试集合不是指用于评价交互验证的数据群,是模型确定结束之后测试模型预测力的数据群。
首先,初始设定是将选择的说明变量设定为0,将交互验证成绩CV的最佳值CV0设定为-∞(S12)。然后进行说明变量的选择。首先将表示说明变量的编号i设定为1(S14),假设采用第i变量(基因表达量)(S16),执行部分最小二乘法,计算交互验证成绩CV(S18、参照图3)。这里采用逐一排除法处理。该方法是在例如由50个样品构成的训练集合中,将所有的1号至50号逐次排除1个,用剩余的49个样品预测的结果和当时排除的1个结果比较,其误差大时判定假设选择的说明变量(第i变量)不适合。如果得到的成绩CV可以比现在的最佳值CV0更优(用S20YES),则采用第i变量,而且将成绩CV更新成新的最佳值(S22)。但是得到的成绩CV0比最佳值CV0不大(用S20NO),不采用第i变量(S24)。然后返回至步骤S14,反复进行同样的处理。使该处理反复进行直到交互验证成绩CV不再改善(用S26NO)为止。这里对于相关模型采用的说明变量每1个阶段性地增加(追加)或减少(除外),评价判定成绩CV。也就是,在逐次判定为了解析中是否添加各说明变量以使整体的符合程度好的同时,进行说明变量的取舍选择,使其反复进行直至整体的符合程度不再改善为止。当通过以上处理得到改善时,再返回至步骤S14的开始(i=1),以在此之前选择的说明变量为基础再反复进行说明变量的选择。另外这里为了判断模型的预测力使用预先分割成训练集合和测试集合的数据集合进行数据解析,上述解析因为是使用训练集合进行的结果,故可以由该结果对测试集合进行预测,评价(S28)与实测数据的符合度。这样的评价不一定需要,但是对于判断预测力是有效的。
图3显示包含逐一排除法处理的交互验证成绩CV的计算(图2、S18)的流程图。这里对选择的变量计算交互验证成绩。首先将PRESS的初期值设定为0(S180)。然后将表示n个集合内的样品的编号j设定为1(S182)、用第j样品以外的(n-1)个样品执行部分最小二乘法(S184)、预测第j样品的目的变量(S186)。计算差的平方,加和于PREE中(S190)。然后使编号j增加1(S182)进行同样的处理。对各样品反复处理直至编号j=n。得到的PRESS是逐次排除1个样品计算得到的预测值和实测值的差的平方和,是一个表示预测误差的量。将改变该预测残差平方和PREE的符合的结果设定为交互验证成绩CV(S192)。
在本实施方式中,使用交互验证法在使输入变量(说明变量)阶段性地每一个进行追加·排除的同时,使交互验证成绩(CV=-PRESS)最优化。这里为了使说明变量的阶段性追加·排除的内容容易理解,下面对具体的5个模型构建方法进行说明。这些是说明变量的逐次性选择的步骤的差异。
图4显示第1模型构建方法。将在数据集合中任何说明变量都不选择的状态设定为初期状态(S112)。然后对于每个从第1号的说明变量到最后(第m号)的说明变量的还未选择的说明变量,逐次反复进行使用逐一排除法处理的交互验证成绩评价步骤(S118),判定(S120)在选择了其说明变量的场合下交互验证成绩评价是否得到改善,在改善的情况下追加其说明变量(S114~S124)。从第1个说明变量开始反复进行上述逐次判断操作,直到这样的改善和追加结束(用S126NO)为止,。
下面更详细地说明,首先初期设定将选择的说明变量的数NP设定为0,将交互验证成绩CV的最佳值CV0设定为-∞(S112)。然后进行说明变量的选择。首先将变量i设定为1(S114),假设采用第i变量(S116)。但是只要是第i变量已经采用(用S115YES),则返回至步骤S114。然后,执行部分最小二乘法,计算交互验证成绩CV(S118)。这里采用逐一排除法进行处理。如果得到的成绩比现在的最佳值CV0优化(用S120YES),采用第i变量,而且将成绩CV更新成新的最佳值CV0(S122)。但是得到的成绩CV如果比最佳值CV0不大(用S120NO),则不采用第i变量(S124)。然后返回至步骤S114,反复进行同样的处理。使该处理反复进行直到交互验证成绩CV不再改善(用S126NO)。当通过以上处理得到改善时,则再返回至步骤S114,开始新的循环。这里以在此之前选择的变量为基础,反复进行进一步的变量选择。这样得到使用数据集合选择的变量的相关模型。
图5显示第2模型构建方法。利用该方法,将所有的说明变量选择的状态设定为初期状态(S212)。然后对每个从第1号说明变量到最后(第m号)的说明变量的选择的说明变量,逐次反复进行使用逐一排除法处理的交互验证成绩评价步骤(S218),判定(S220)在排除该说明变量的场合下交互验证成绩评价是否得到改善,在改善的情况下排除其说明变量(S214~S224)。从第1号的说明变量开始反复进行上述逐次判定操作,直至没有这样的改善和排除(用S226NO)为止,。
再详细地进行说明,首先初期设定将选择的说明变量的数NP设定为m,将交互验证成绩CV的最佳值CV0设定为-∞(S212)。即,选择所有的说明变量。然后进行说明变量的选择。首先将变量i设定为1(S214),假设排除第i变量(S216)。但是只要第i变量已经被排除(用S215YES),则返回至步骤S214。执行部分最小二乘法,计算交互验证成绩CV(S218)。这里采用逐一排除法进行处理。如果得到的成绩比现在的最佳值CV0最佳(用S220YES),则排除第i变量,而且将成绩CV更新成新的最佳值CV0(S222)。但是得到的成绩CV如果比最佳值CV0不大(用S220NO),则不排除第i变量(S224)。然后返回至步骤S214,反复进行同样的处理。使该处理反复进行直到交互验证成绩CV不改善(用S226NO)为止。当通过以上处理得到改善时,则再返回至步骤S214,开始新的循环。这里以在此之前可以选择的变量为基础,进一步反复进行变量的选择。这样得到使用数据集合选择的变量的相关模型。
图6显示第3模型构建方法。该方法是将第1和第2方法的串联性组合。首先将任何变量都不选择的状态设定为初期状态(S112)。然后对每个第1号的说明变量到最后(第m号)的说明变量还没有选择的说明变量,逐次反复进行使用逐一排除法处理的交互验证成绩评价步骤,判定在选择该说明变量的场合下交互验证成绩是否得到改善,在得到改善的情况下追加选择其说明变量,从第1个说明变量开始反复进行上述逐次判定操作(S114~S116),直至这样的改善和追加不再进行为止。然后对每个第1号的说明变量到最后(第m号)的说明变量所选择的说明变量,逐次反复进行使用逐一排除法处理的交互验证成绩评价步骤,判定在排除该说明变量的场合下交互验证成绩是否得到改善,在得到改善的情况下排除其说明变量,从第1个说明变量开始反复进行上述逐次判定操作(S214~S226),直至这样的改善和排除不再进行。
图7显示第4模型构建方法。该方法是将第3方法的变形。首先将任何变量都不选择的状态设定为初期状态(S112)。然后对每个第1号的说明变量到最后(第m号)的说明变量尚未选择的说明变量,逐次反复进行使用逐一排除法处理的交互验证成绩评价步骤(S118),判定(120)在选择该说明变量的场合下交互验证成绩是否得到改善,在得到改善的情况下追加选择(S114~S124)其说明变量,从第1个说明变量开始反复进行上述逐次判定操作,直至这样的改善不再追加(用S126NO)为止。然后对每个第1号的说明变量到最后(第m号)的说明变量所选择的说明变量,逐次反复进行使用逐一排除法处理的交互验证成绩评价步骤(S218),同时判定(S220)在排除该说明变量的场合交互验证成绩是否得到改善,在得到改善的情况下排除其说明变量(S214~S224)。从第1个说明变量开始反复进行上述逐次判定操作,直至这样的改善和排除不再进行为止(用S226NO)。上述逐次判断追加改善步骤或上述逐次判定改善步骤中只要有至少一次改善(用S227YES),则返回至步骤S112,反复进行上述操作(S12~S227)。直至进行到使其不再改善为止。
图8显示第5模型构建方法。该方法是第1和第2方法的并联性组合。将任何变量都不选择的状态设定为初期状态(S112)。然后对每个第1号的说明变量到最后(第m号)的说明变量的说明变量,逐次反复进行使用逐一排除法处理的交互验证成绩评价步骤(S118),同时判定(S120)在该说明变量还没有选择的场合下选择该说明变量的情况下,交互验证成绩是否得到改善,在得到改善的情况下追加(S114~S124)该说明变量。另外,对于每个选择的说明变量在该说明变量已经被选择的情况下,反复进行使用逐一排除法处理的交互验证成绩评价步骤(S218),同时判定(S220)在排除该说明变量的场合交互验证成绩是否得到改善,在得到改善的情况下排除其说明变量(S216~S224),从第1个说明变量开始反复进行上述逐次判定操作,直至这样的改善不再追加或排除(用S126NO)为止。
下面以表1的数据集合为例说明应用第4模型构建方法(图7)的场合。对于该数据集合使用部分最小二乘法进行的解析求得相关模型,在用表1中的数据中,样品数n为10,另外为了容易地说明,将说明变量的数m减少为19。在表1中p1表示目的变量,p2~p20表示说明变量。与(但是在表1中为了表示的方便省略p16以下的数据。)第4方法(图7)的步骤S114、S214不同,表示说明变量的I逆逐次处理p20至p2。CV评价值在这里采用预测残差平方和(PRESS)。PRESS越小CV评价值越好。在初期状态下采用的说明变量的数NP为0,PRESS=∞(CV0=-∞)。
表1 10个样品的数据
#    p1     p2     p3     p4     p5     p6     p7     p8     p9     p10    p11    p12    p13    p14    p15
1    0.713  0.106  0.782  0.426  0.164  0.023  0.696  0.543  0.333  0.691  0.336  0.668  0.017  0.061  0.5
2    0.133  0.009  0.071  0.002  0.793  0.872  0.092  0.391  0.63   0.241  0.517  0.369  0.166  0.841  0.1
3    0.545  0.193  0.765  0.334  0.109  0.538  0.578  0.652  0.38   0.501  0.729  0.91   0.865  0.389  0.8
4    0.752  0.915  0.472  0.999  0.798  0.363  0.622  0.487  0.353  0.967  0.778  0.484  0.517  0.982  0.0
5    0.9    0.407  0.534  0.816  0.806  0.42   0.572  0.957  0.12   0.696  0.833  0.051  0.377  0.849  0.4
6    0.455  0.587  0.721  0.53   0.252  0.434  0.882  0.486  0.741  0.243  0.893  0.947  0.462  0.952  0.2
7    0.427  0.652  0.515  0.426  0.764  0.592  0.595  0.595  0.551  0.606  0.416  0.163  0.316  0.718  0.6
8    0.042  0.902  0.274  0.899  0.402  0.469  0.668  0.945  0.746  0.912  0.97   0.515  0.368  0.514  0.4
9    0.935  0.276  0.936  0.101  0.54   0.356  0.899  0.71   0.924  0.792  0.486  0.329  0.501  0.076  0.6
10   0.54   0.021  0.505  0.224  0.724  0.431  0.071  0.968  0.482  0.322  0.773  0.543  0.363  0.107  0.9
表2表1中数据的10个阶段中的变量选择结果
0             ∞     -
1  追加  p20  0.111  p20
2  追加  p18  0.090  p18 & p20
3  追加  p16  0.073  p16 & p18 & p20
4  追加  p10  0.073  p10 & p16 & p18 & p20
5  追加  p6   0.062  p6  & p10 & p16 & p18 & p20
6  追加  p3   0.060  p3  & p6  & p10 & p16 & p18 & p20
7  追加  p12  0.055  p3  & p6  & p10 & p12 & p16 & p18 & p20
8  排除  p20  0.053  p3  & p6  & p10 & p12 & p16 &
9  排除  p10  0.050  p3  & p6  & p12 & p16 & p18
10 追加  p13  0.048  p3  & p6  & p12 & p13 & p16 & p15
如前所述,变量按照p20到p2的逆顺序进行处理,表2显示对于表1中的样品,左端的数字通过变量的取舍选择可见改善的10段。其中,0是指初期状态。下一列的追加和排除是指追加的循环和排除的循环处理。下一列的变量显示被追加或排除的变量。下一列显示交互验证成绩(用PRESS除以样品数后的结果)。右端的列显示在该段选择的变量。
初期状态是完全没有变量的状态,PRESS为∞。如表2所示,当最初采用p20为说明变量时,PRESS=0.111,因为与初期值相比得到改善,故进行说明变量p20的追加。然后添加变量p19,当将p19和p20这两个设定为说明变量时,PRESS=0.129,没有改善,故p19不追加。然后,当添加说明变量p18时PRESS=0.090,得到改善,故追加p18,以p18和p20作为说明变量。以下同样继续进行如表2所示。(这里追加采用p10是为了在小数点以下第4位得到改善。)在结束说明变量p20~p2的第1次循环的时间,说明变量为p3、p6、p10、p16、p18和p20,PRESS=0.60。第2次循环中,说明变量p12追加,PRESS=0.55。第3次循环中通过追加没有改善,第一首先结束S114~S126的追加处理,转移至S214。这时的部分最小二乘法的拟合和逐一排除法预测状况如表3所示。
表3显示10个样品的处理到表2中的7所示的段时间上的部分最小二乘法的拟合和逐一排除法预测状况。这里显示在分别进行模型预测和逐一排除法预测中,计算值和实测值的误差。而且再其下侧显示误差的平方平均、相关系数R的平方和预测相关系数Q的平方。
表3表2的7段中的处理结果
              模型预测值            逐一排除法预测
#     实测值    计算值    误差      计算值    误差
1     0.713     0.757     -0.044    0.693     0.020
2     0.133     -0.056    0.189     -0.051    0.184
3     0.545     0.497     0.048     0.480     0.065
4     0.752     0.646     0.106     0.495     0.257
5     0.900     0.687     0.214     0.557     0.343
6     0.455     0.489     -0.034    0.512     -0.057
7     0.427     0.624     -0.198    0.672     -0.245
8     0.042     0.349     -0.307    0.517     -0.475
9     0.935     0.865     0.070     0.782     0.153
10    0.154     0.197     -0.044    0.285     -0.132
      0.093               0.024               0.055
            R2=0.744        Q2=0.407
然后,在从步骤S214开始的排除处理的第1次的循环中,排除说明变量p10和p20得到改善。在第2次循环中没有改善,结束步骤S214~S226,通过步骤S227的判定再返回至S112。然后在追加处理的第1次循环中,只有p13的追加得到改善,但是在连续的排除处理的第1次循环中没有改善。再返回至步骤S112,通过步骤S114~S126和步骤S214~S226确认没有改善,结束处理。这样选择的说明变量为p3、p6、p12、p13、p16和p18这5个,PRESS=0.048。详细情况如表4所示。
表4显示处理进行到表2的段10时间的部分最小二乘法的拟合和逐一排除预测状况。
表4表2的10段中的处理结果
                模型预测            逐一排除法预测
#     实测值    计算值    误差      计算值    误差
1     0.713     0.771     -0.058    0.663     0.050
2     0.133     -0.013    0.146     0.041     0.092
3     0.545     0.610     -0.065    0.595     -0.050
4     0.752     0.524     0.228     0.380     0.372
5     0.900     0.696     0.205     0.543     0.357
6     0.455     0.591     -0.137    0.623     -0.168
7     0.427     0.638     -0.211    0.696     -0.269
8     0.042     0.189     -0.147    0.268     -0.226
9     0.935     0.841     0.094     0.756     0.179
10    0.154     0.209     -0.055    0.294     -0.140
      0.093               0.022               0.048
              R2=0.765           Q2=0.482
另外,说明变量的数多时处理强的是部分最小二乘法,但是在采用所有的p20~p2作为说明变量的情况下,如表5所示PRESS=0.124。也就是逐一排除法处理比平均值带来的误差(0.093)的成绩差。
表5采用所有的说明变量的情况下的处理结果
              模型预测              逐一排除法预测
#     实测值    计算值    误差      计算值    误差
1     0.713     0.712     0.001     0.527     0.186
2     0.133     -0.073    0.206     0.222     -0.090
3     0.545     0.561     -0.016    0.538     0.007
4     0.752     0.656     0.096     0.351     0.402
5     0.900     0.691     0.209     0.432     0.469
6     0.455     0.519     -0.064    0.562     -0.107
7     0.427     0.583     -0.156    0.629     -0.203
8     0.042     0.430     -0.388    0.724     -0.682
9     0.935     0.794     0.140     0.480     0.454
10    0.164     0.182     -0.029    0.457     -0.303
      0.093               0.029               0.124
                 R2=0.684         Q2=-0.330
实施例
下面通过实施例更详细地说明本发明,但是本发明不受所述实施例的任何限制。
实施例1:通过考虑部分最小二乘法的交互验证成绩的特征抽出对DLBCL患者进行数据解析。
将从P.O.Brown等的主页(http://11mpp.nih.gov/lymphoma/)获得的28名DLBCL(淋巴肿瘤)患者的数据分成20名数据组成的训练集合和8名数据构成的测试集合。采用生存月数作为目的变量,采用在184321点中,28名数据中ch1、ch2同时为正数的12832点的log(ch1/ch2)值作为说明变量。
在训练集合中试验部分最小二乘法(PLS)的模型确定。使用所有的12832变量进行部分最小二乘法解析,逐一排除法预测无效(Q2>0.5)。然后将说明变量阶段性地增减1,使逐一排除法预测误差为最小。模型构成方法除前述第3模型构成方法中,追加和排除说明变量的顺序以及逐一排除法处理中的样品排除顺序不同之外,其它使用相同的方法。也就是将任何说明变量都不选择的状态设定为初期状态(S112)。然后对于每个从最后(第m号)的说明变量到最初(第1号)的说明变量的还没有选择的说明变量,逐次反复进行使用逐一排除法(这里从最后(n号)样品逐次排除最初(第1号)的样品)处理的交互验证成绩评价步骤,同时判定在选择其说明变量后的情况下,交互验证成绩是否改善,在改善的情况下追加选择其说明变量。从第m个说明变量开始反复进行(S114~S126)上述逐次判断操作,直到这样的改善和追加结束(用S126N0)为止。然后对于每个从最后(第m号)的说明变量到最初(第1号)的说明变量中的可以选择的说明变量,逐次反复进行使用逐一排除法{这里也是从最后(第n号)样品逐次进行排除}处理的交互验证成绩评价步骤,判定在选择其说明变量后的情况下交互验证成绩是否得到改善,在改善的情况下排除其说明变量,从第m个说明变量开始反复进行(S214~S226)上述逐次判断操作,直到这样的改善和排除结束(用S126N0)为止。结果得到有效的模型(R2=0.988、Q2=0.895、NP=342)。图9显示这些数据的最小二乘法成绩。图9中菱形(fit)显示训练集合的数据(20人),三角(cv)显示对此进行的交互验证成绩的数据。另外方框(test)显示测试集合的数据(8人)。得到的部分最小二乘法模型对测试集合,4/8进行非常好地预测,1/8进行良好地预测。
另外在利用上述多变量解析进行的数据解析中,处理的样品是使用DNA芯片得到的数据。但是可以容易地推测出该数据解析不限于使用DNA芯片得到的数据,对于蛋白质表达量、细胞内物质的量等数据也将有用。
在以下的实施例2~7中,对使用部分最小二乘法选拔的少数几个的说明变量应用通常的统计方法或多变量解析方法(比例风险法、多元回归分析、相关最小二乘法、对数回归分析法、线型判别分析法等)。
实施例2
通过考虑部分最小二乘法的交互验证成绩的特征抽出和比例风险解析对240名DLBCL患者进行数据解析。
从Rosenwald等在网络上下载使用(http://11mpp.nih.gov/DLBCL)公开的24名DLBCL(扩散性大B细胞淋巴肿瘤)的数据集合,利用所有的数据作为训练集合。对于利用点模型排除x1或x2为0的7399点计算log(x1/x2),以其作为说明变量。本实施例和实施例1不同,考虑生存时间中混合了观测结束时间和死亡时间,使用Kaplan-Meier法依据的生命表求得事件发生时间的生存概率(PKM),以对数变换(log(PKM/1-PKM))得到的值作为目的变量。Kaplan-Meier法依据的生命表表示集团的生存概率,但是这里使用新的考虑方法,将包含个人j的集团在事件发生时间的残存概率(没有变化的残存概率)替换读作个人j事件发生时间的残存时间。将该概率进行分对数变换,变换成表现变化发生倾向的分对数值,作为目的变量。训练集合内的交互验证利用逐一排除法进行,逐次取舍选择参数使PRESS×1.02NP变小,得到部分最小二乘法。这里,取代交互验证成绩(CV=-PRESS),改善至少以交互验证成绩为独立变量的函数之一的函数-PRESS×1.02NP,得到部分最小二乘法模型。这里PRESS是逐一排除法预测的残差平方和,NP是选择的说明变量数。
将图7流程中的交互验证成绩CV替换读作PRESS×1.02NP,执行处理,由此下述19个基因表达选拔为说明变量。这里data ID是网络数据源中的ID编号。另外ACCESSION是GenBank的附加编号,没有附加编号的行是只有在数据源中明确的基因(Unknown)或EST,可以利用论文记载的方法获得。
ACCESSION data ID      comment
U03398  #(27876)     tumor necrosis factor(ligand)
                     superfamily,member 9
M65066  #(27394)     protein kinase,cAMP-dependent,
                     regulatory,type I,beta
--      #(27104)     (Unknown)
AK001546#(25048)     Homo sapiens cDNA FLJ10684 fis,clone
                     NT2RP3000220
--      #(31372)     (Unknown)
U15085  #(28178)     major histocompatibility complex,
                     class II,DM beta
BC003536#(24983)     hypothetical protein MGC10796
--      #(16113)     (Unknown)
M23452  #(16822)     small inducible cytokine A3
        #(24433)     (Unknown)
X00437  #(27480)     T cell receptor beta locus
U12979  #(24377)     activated RNA polymerase II
                     transcription cofactor 4
X52479  #(17773)     protein kinase C,alpha
H96306  #(16578)     bone marrow stromal cell antigen 1
U70426  #(19255)     regulator of G-protein signaling 16
AA830781#(33358)     EST
AA804793#(25022)     EST
H57330  #(26383)     EST
S69790  #(27184)     WAS protein family,member 3
以这些基因表达作为备用说明变量试验比例风险(ha)解析。所述比例风险法是一种在生存率的解析中考虑时间的统计性方法。解析的执行是使用程序组JMP(JMPSales SAS Campus Drive Cary,NC 27513 USA)进行的。通过采用P≥0.05作为变量消除基准的变量减少法进一步缩进,结果得到以下14基因表达构成的比例风险式。这里用Genbank(ジ—ンバンク)的附加编号或数据ID显示的各项是各基因的对数Log(x1/x2)值,另外P是统计性的、显著性不成立的危险率。从该式的右侧求得的风险值(hazard)越大,死亡倾向越大。
hazard=0.37 #(27104)+0.589 AK001546 -0.366 #(31372)-0.276 U15085
        -0.307 #(16113)+0.409 M23452 -0.350 #(24433)-0.297 X00437
        +0.321 U12979 -0.585 X52479 -0.457 U70426 +0.561 aa830781
        -0.430 H57330 +0.433 S69790
P<0.0001
Rosenwald等进行单相关的比例风险解析,选拔5组(17基因)的诊断指标。在图10中比较了本实施例得到的风险值(表示为Hazard、图中Hazard(PLS(14)))和Rosenwald等的诊断指标是否可以说明何种程度、生存时间。由于利用同时采用Rosenwald的5组参数的比较风险式,存在Prolifiration参数采用P>0.05统计性不显著等问题,故为了比较也刊载了同时包含将其排除的4组参数的风险值(图中显示为Hazard(Rosenwald/4para))。这里菱形显示死亡的人或观察结束人的数据,方框表示生存的人的数据。
在这些诊断中,由本实施例求得的风险值和生存时间的相关是显而易见的。也就是风险值随生存时间而衰减,风险值大的患者显示不能长时间生存。另外,Rosenwald等的指标都在诊断生存时间时是不充分的。从数百、数千数的参数中有效地发现最适合的参数组值只通过比例风险解析是不行的。但是如上所述,通过配合使用考虑使用Kaplan-Meier法、对数变换、部分最小二乘法的交互验证的特征抽出、比例风险解析,可以得到迄今为止没有的有效的诊断指标。通过这样统计学地配合非均质模型得到了这样良好的结果也是一种意外,也是令人感兴趣的。预测患者的生存时间对判断包含QOL的治疗计划及人生设计等方面可以提供重要的信息,本实施例求得的诊断模型对社会是有价值的。
另外利用采用P≥0.001作为变量消除基准的变量减少法进一步缩进,可以得到6基因表达构成的以下比例风险式。这样通过改变变量消除基准可以控制选择的说明变量的数。
hazard=-0.426 U15085 +0.350 M23452-0.521 X52479
        -0.450 U70426 -0.586 H57330+0.476 S69790
图11显示以右侧计算求得的风险值为纵轴,以生存时间为横轴的图。和图10相同,图11中菱形显示死亡的人或观察结束的人的数据,方框表示生存的人的数据。
实施例3
通过考虑部分最小二乘法的交互验证成绩的特征抽出和比例风险解析对40名乳腺癌患者的生存时间进行解析。
下载使用Sorle等在网络上(http://genome-www.stanford.edu/breast_cacer/mopo_clinical/)公开的乳腺癌患者的数据组。利用所有的数据作为训练集合。数据组中的大部分是由利用A,B这2种DNA芯片测定的,分别由40名、24名患者组成的,这里使用类型A的数据。和实施例2相同从生存时间数据求得分对数值,作为目的变量。说明变量采用排除数据中具有缺测的基因的6891件的LOG_RAT2N_MEAN值。并且是一个至少以交互验证成绩为独立变量的函数之一,逐次取舍选择参数使交互验证成绩和说明变量NP的函数PRESS×1.13NP变小,得到部分最小二乘法模型。将图7的流程中的交互验证成绩CV改读作-PRESS×1.13NP,通过执行处理,使下述的10个基因表达作为说明变量选拔。
ACCESSION      comment
AA406242     (guanosine monophosphate reductase)
AA598572     (spleen tyrosine kinase)
H73335       (Homo sapiens mRNA full length insert cDNA clone EUROIMAGE
             980547)
W84753       (Homo sapiens cDNA FLJ13510 fis,clone PLACE1005146)
AA703058     (myeloperoxidase)
N71160       (cytochrome c oxidase subunit Vib)
AA453345     (a protein tyrosine kinase)
AA054669     (Homo sapiens,clone IMAGE:3611719,mRNA,partial cds)
N32820       (ESTs,Weakly similar to ALU1_HUMAN ALU SUBFAMILY J SEQUENCE
             CONTAMINATION WARNING ENTRY [H.sapiens])
R05667       (suppressor of potassium transport defect 3)
以上述作为说明变量的备选,在比例风险解析中试验采用P≥0.05作为变量消除的变量减少法,得到7基因表达构成的以下比例风险式。这里用附加编号表示的各项为各个基因的LOG_RAT2N_MEAN。
hazard=-0.821 AA406242 +1.556 AA 598572-1.074 H7335+1.418 W84753
        -1.290 AA 703058 +2.182 N71160+0.828 AA453345
P<0.0001变量的P<0.05
图12显示以右侧计算求得的风险值为纵轴,以生存时间为横轴的图。这里也表示作为风险值好的诊断指标。图12中菱形显示死亡的人或观察结束的人的数据,方框表示生存的人的数据。
利用采用P≥0.001作为变量消除基准的变量减少法进一步缩进,由此可以得到3基因表达组成的以下比例风险式。这样通过改变变量消除基准可以控制选择的说明变量的数。
hazard=1.453 AA 598572 -1.473 AA 703058+1.071 AA453345
图13显示以右侧计算求得的风险值为纵轴,以生存时间为横轴的图。这里菱形显示死亡的人或观察结束的人的数据,方框表示生存的人的数据。
实施例4
通过考虑部分最小二乘法的交互验证成绩的特征抽出和多元回归分析对40名乳腺癌患者进行复发预测解析。
使用40名患者的用Sorle等的DNA芯片测定6891基因表达作为数据组。以有无复发作为目的变量,逐次取舍选择参数使-PRESS×1.13NP变小,得到由11基因表达构成的部分最小二乘法模型。
ACCESSION    comment
AA434397     integrin,beta 5
T83209       ESTs
N53427       KIAA1628 protein
N29639       cytidine monophosphate-N-acetylneuraminic acid
             hydroxylase
AA485739     major histocompatibility complex,class II,
             DR beta 5
AA425861     enoyl Coenzyme A hydratase 1,peroxisomal
H84871       Ste-20 related kinase
T64312       prostate cancer overexpressed gene 1
T59518       solute carrier family 2,(facilitated glucose
             transporter)member 8
AA406231     KIAA0381 protein
AA037488     prolactin
然后,以选拔的基因表达为说明变量,以有无复发作为目的变量,通过通常的多变量解析法之一的多元回归分析执行判别分析。执行解析使用程序组JMP进行的。通过采用P≥0.15作为变量消除基准的变量减少法进一步缩进,结果得到10基因表达构成的以下逐步回归式。利用该式计算的OLS值为正时,复发的可能性高,负时复发的可能性低。
OLS=-0.215 AA434397 +0.227 T83209 -0.209 N53427 +0.139 N29639
     +0.165 AA485739 +0.133 AA425861 -0.084 H84871 -0.193 T64312
     +0.237 T59518 +0.176 AA037488 -0.278
R2=0.84797、判别正确答案率97.5%
将分别使用1个上式中含有的各参数制成判别分析式的情况下的P值和确定系数表示在下表6中。
表6
附加编号No. P value 确定系数(R2)
AA434397 0.0334 0.090273
T83209 0.0601 0.066005
N53427 0.0004 0.268678
N29639 0.0552 0.069483
AA485739 0.0421 0.080733
AA425861 0.0861 0.05122
H84871 0.087566 0.087566
T64312 0.0004 0.263207
T59518 0.0066 0.157196
AA037488 0.0031 0.187627
单独没有显著性(P>0.05)的参数存在3个,另外,任何参数都是确定系数小。因而只一个一个选择参数不能得到上述良好的判别式。从数百、数千个数的参数中有效的选出最佳的参数不可能只用多元回归分析。但是如上所述通过考虑部分最小二乘法的交互验证成绩抽出特征,可以得到从未过的有效的诊断指标。预测乳腺癌复发的可能性不仅是建立判断考虑QOL的治疗计划方面的需求,而且也是社会的需求。
实施例5
通过考虑部分最小二乘法的交互验证成绩的特征抽出和逐步最小二乘法对40+24名乳腺癌患者进行复发预测解析。
仅对DNA芯片的类型A(40名)和类型B(24名)所共有的3448基因进行解析。逐次取舍选择参数使-PRESS×1.17NP变小,得到部分最小二乘法模型。以选拔的基因表达为说明变量,利用最小二乘法执行判别分析,结果的得到下式。当利用下式计算的ALS值比0.5大时,存在复发的危险性。
ALS=0.31 H11482 -0.29 T64312 -0.32 AA045340 +0.01
R2=0.65、eps=0.13  判别正确答案率90.0%
如下述表7所示,H11482是一个单相关不显著,通过和其他的变量同时使用才开始起作用的参数。另外,表8是使用上式预测类型B的患者的结果。得到了统计性显著的结果:本判别式的灵敏度=81.8%、奇异度=53.8%,x2=3.233(5%<P<10%)、判别正确答案率66.7%。尽管类型A、B是一个被认为存在因DNA芯片的构成不同而导致的测定误差的数据,但是利用由类型A训练的模型,以10%以下的危险率成功地预测类型B是一个需要勇气的结果。
另外,在选择使-PRESS×1.13NP变小的情况下,得到以下述基因表达为说明变量的部分最小二乘法模型。
H11482、T64312、R99749、T65211、AA427625、AA455506
以此作为说明变量的备选,将逐一排除法做为指标,进一步进行缩进,结果得到下述判别式。
ALS=0.53 H11482 -0.31 T64312 -0.33 R99749 -0.26 AA455506 +0.10
R2=1.00,eps=0.10,判别正确答案率100.0%
只通过一个一个地选择参数不能得到上述良好的判别式。从数百、数千个数的参数中有效的选择出最佳参数组仅利用逐步最小二乘法、对数回归分析、其它的判别分析方法是不行的。但是如上所述通过考虑部分最小二乘进行特征抽出,可以得到从未有过的有效的诊断指标。
表7参数的混合作用
 参数     R  Nmis(/40)
 H22482T64312AA045340T64312 & AA045340H11482 & T64312 & AA045340   0.3610.6070.5720.7160.804     148964
表8 24个类型B患者的预测
  观察值   预测值     频率
    -+-+     --++     7269
实施例6:通过考虑部分最小二乘法的交互验证成绩的特征抽出和对数回归分析法或线型判别分析法对40+24名乳腺癌患者进行复发预测解析。
将实施例5中的第1个利用逐步最小二乘法进行的解析替换成对数回归分析法,这时得到如下的判别式。
LORA=7.92 H11482 -5.69 T64312 -6.41 AA045340 -9.73
R2=0.63,x2=35.00(p<0.0001),判别正确答案率90.0%
用右边求得的LORA值为正的情况下,存在复发的危险。系数比率或相关系数尽管和实施例5的逐步最小二乘法的场合不同,但是各个患者的识别结果完全相同。另外预测类型B的患者的结果也和表7相同。
然后,将第实施例5中的逐步最小二乘法进行的解析替换成线型判别分析进行解析,得到如下的判别式。
LDA=2.45 H11482 -2.35 T64312 -2.56 AA045340 -4.03
判别正确答案率80.0%
用右边求得的LDA值为正的情况下,存在复发的危险。系数比率或相关系数尽管和实施例5的逐步最小二乘法的场合不同,各个患者的识别结果尽管也有若干不同,但大致相同。另外预测类型B的患者的结果也和表7相同。
在以上的实施例4,5,6中,设定乳腺癌有无复发为目的变量。于是,显示考虑部分最小二乘法的交互验证成绩进行特征抽出的方法在目的变量为名义尺度或顺序尺度等数据的情况下也是有效的。另外所谓的名义尺度是在测定区分对象(样品)是否属于某分类时的分类,在分类中间没有大小或顺序。另外,所谓顺序尺度是对对象的特定的分类测定区分时的分类,在分类中间存在大小、高低的顺序。
实施例7:通过考虑部分最小二乘法的交互验证成绩的特征抽出和比例风险解析对40名乳腺癌患者的复发时间解析。
使用和实施例4相同的数据,以复发时系列数据为基础,利用和实施例2同样的方法求得的分对数值作为目的变量,逐次取舍选择参数使PRESS×1.15NP变小,得到由9基因表达构成的部分最小二乘法模型。以这些基因表达的测定值为说明变量在比例风险解析中,试验采用P≥0.05作为变量消除基准的变量减少法,得到8基因构成的,以下比例风险式。
hazard=1.122 AA 448641 -1.781 R78516 -1.434 r05934+2.165 w84753-1.923 AA 629838+2.665 H08581+1.875 AA045730+1.269 AI250654P<0.0001
图14显示以右侧计算求得的风险值为纵轴,以复发时间为横轴的图。这里菱形显示没有复发的人的数据,方框表示复发的人的数据。这里也形成风险值优越的诊断指标,显示本发明的方法作为不限定生存时间,解析随时间概率发生的生物体的状态的变化的方法是有效的。
在利用采用P≥0.005作为变量消除基准的变量减少法进一步缩进的场合,得到4基因表达组成的以下比例风险式。
hazard=1.559 W84753+2.265 H08581+1.473 AA045730+1.237 AI250654
图15显示以右侧计算求得的风险值为纵轴,以复发时间为横轴的图。这里菱形显示没有复发的人的数据,方框表示复发的人的数据。
实施例8:诊断包含Genbank附加编号H11482、T64312、AA045340的乳腺癌患者复发时间时使用的DNA芯片的制作和测定。一致交叉
根据实验医学别册「基因组机能研究プロトコ一ル」(ISBN4-89706-932-7)p34-38记载的关直彦、永杉友美、東孝典、铃木収、村松正明等的方法制作和测定DNA芯片。使用Genbank附加编号H11482、T64312、AA045340的cDNA。
用乙醇(和光纯药,Cat#057-00456)使用作探针的各PCR产物沉淀,用双蒸水DDW调整使其为2μg/μl。等量添加硝酸纤维素(GibcoBRLCat#41051-012)4mg/ml的DMSO溶液,充分混合,在100℃进行5分钟的热变性,在冰上急速冷却。然后返回到室温,使用DNA探针SPBI02000(日立软件工程)快速测定转向碳二酰亚胺滑动玻璃(日清紡)的位置。确认位置的干燥,使用紫外交联剂(Amershzm Pharmacia Biotech公司)在60mJ/cm处交联处理,做成玻璃齿条室温保存。
3%BSA、0.2M NaCl、0.1M Tris(PH7.5)、0.05%Triton X-100构成的封闭液上浸渍上述微阵列,放置约30分钟。然后去除附着在玻璃上的溶液,在37℃使其干燥。用TE缓冲液(PH8.0,日本基因公司Cat #316-90025)轻轻洗涤3次,放在加热板上轻轻离心(1000rpm,1分钟)除去多余的水分。
然后利用乳腺正常株SV-40和乳腺癌细胞株MCF-7、MDA-MB-468或T-47-D各细胞液,使用TRIZOL(GibcoBRL,Cat#15596-018)、Oligotex Dt30<Super>(TaKaRa,Cat#W9021A)按照手册提取mRNA。2μg的mRNA溶于DEPC处理的6.4μl的DDW中,添加寡聚dT引物9μl、5×SuperScript II缓冲液(GibcoBRL,Cat#W18089-011)6μl、DTT(SuperScript的附带品)3μl、50×dNTP 0.6μl、Cy3-dUTP(AmershamPharmacia Biotech Cat#PA53022)或Cy5-dUTP(Amersham Pharmacia BiotechCat#PA53022)3μl、SuperScript II 2μl构成的溶液,在42℃使其反应2小时,在反应过程中经过1小时的时间补加1μl的SuperScriptII。加入1.5μl的碱缓冲液(1N NaOH/20nM EDTA),在65℃使其反应10分钟,加入TE缓冲液270μl,1N HCl 1.5μl,将贴有Cy3、Cy5标签的反应液取出2份,转移至1个Microcon-YM-30(Millipore/Amicon,Cat#42410)中。在10,000rpm条件下,继续离心至剩余在上面杯子中的液体量约为10μl,穿过杯子的液体转移至另外的管子中,然后在上面的杯子中添加TE缓冲液500μl、Human Cot-1 DNA(GibcoBRLCat#15279-011)20μg,再继续离心至液体量为10μl或10μl以下。在3,000rpm条件下离心3分钟,回收荧光标记过的DNA。添加DDW和酵母RNA(Sigma,Cat#R7125)50μg、poly(A)(罗氏诊断试剂、Cat#108 626)50μg,制成20μl,转移至用于PCR的管中,再添加4.25μl 20×SSC(GibcoBRL,Cat#15553-035)和0.75μl10%SDS(GibcoBRL,Cat#15553-035),使用PCR仪使其在100℃进行热变性1分钟,然后在室温下放置30分钟,慢慢地冷却。
将全部量的荧光标记过的DNA加在玻璃盖片上,注意不要引入气泡,套在前述微阵列上,放入覆盖水润湿的纸巾于底部的杂交室中,密闭。每分钟2~4个循环轻轻振荡,在65℃杂交1晚上。从杂交室去除微阵列,在装有玻璃盖片的状态下静静地放入2×SSC/0.1%SDS溶液中,振荡5分钟,等待玻璃盖片自然脱落。玻璃盖片脱落后将微阵列放入滑动玻璃胶中,用2×SSC/0.1%SDS溶液中轻轻振荡5分钟洗涤。再在0.2×SSC/0.1%SDS40℃溶液中洗涤5分钟2次,用0.2×SSC冲洗。将微阵列转移至另外干燥的阵列样品容器中,在微滴定板离心机上轻轻地离心(1000rpm,1分钟室温)除去微阵列上的水分。然后用ScanArray4000(GSI liminonics公司)读入信号,在解析软件中使用Quant Array(GSI liminonics公司)以及Chip Space(日立软件工程)。
实施例9:利用遗传运算法则对部分最小二乘法模型最优化
利用实施例4中使用的Sorle等的DNA芯片测定40名患者的6891基因表达,将其作为数据组使用。遗传运算法则是由伊庭齐志在“遗传运算法则的基础”(ォ—ム公司(1994))中进行说明的。使用所述数据进行遗传运算法则进行的说明变量选择。下面用“”区分的术语是遗传运算法则中通常使用的专业术语,在特别必要的场合添加了解说。[适合度](fitness)采用PRESS×1.01NP。各「个体」的「遗传型」设定{b1,b2,b3,…}数列,其中,在采用说明变量的场合取1,不采用的场合为0。
设定个体集合的大小为100个,初期的个体的「遗传型」(GTYPE)准备使用随机数,采用平均min_of(Ns,Ng,300)/2个的说明变量。这里Ns为样品数(患者数)、Ng为说明变量的备选数,300是实际安装情况下设定的常数。
从集合中随机选拔2个个体,将「遗传型」的进行“一致交叉”的一方设定为新的个体。也就是,对每个“各基因座”以1/2的概率选择任何一个“新个体”的数列值(0或1),设定其代入的结果为新“个体”。接着对每个新“个体”的“各遗传座”,在1的场合(采用说明变量的场合)以1.1/采用的说明变量的数的概率,在0的场合(不采用的场合)以1.1/不采用的说明变量备选的数的概率,进行0←→1反演。
比较上述的“交叉·突然变异操作”准备的新的“个体”的“适合度”和随机选拔的形成“分段对手”的集合中的“个体”的“适合度”,在新“个体”的适合度优胜的场合,以0.76的概率,在差的场合以0.25的概率取代“个体”。但是在“分段对手”为集合中的最佳解的场合采用禁止取代的“ェリ—ト战略”。
反复进行以上的“交叉”→“突然变异”→“选拔”循环,进行最优化。将循环数除以集合大小的结果作为“代数数据”。以最大“代数数据”的初值为100,每发现新的最佳解使最大“代数数据”增加10,反复循环直至执行“代数数据”到最大“代数数据”为止。
将以上反复进行初期集合的准备~最优化以及至结束一系列处理设定为一次操作(run),进行15次操作。图16是总括15次操作最优化的的状况。最良好的结果为使用25个说明变量。
实施例10:通过分级型人工网络(MLP)进行模型构建
在实施例5的乳腺癌患者的复发性判别解析中,说明3个说明变量,该变量是利用DNA芯片类型type A(40名)和type B(24名)共同的3448基因,使PRESS×1.17NP变小,通过PLS-CV进行特征抽出的。
在说明解析方法时,MLP设定为3层,设定中间层(tk)只进行1次S型的变换的结构,试验图17的4个拓扑法。通过Back propagation(逆传播)运算法则进行网络重新学习。使用在中间层(tk)只进行1次S型的变换的3层MLP,。
sik=∑jwkj·Pij
tij=1/(1+exp{-sik})
yi=∑kvk·tik
网络拓扑I和拓扑Iib的结果如下所示。另外拓扑IIa和拓扑Iic的结果比拓扑IIb差。拓扑I:
y=0.76-1.77 t1
s1=12.48-42.89 H11482+39.38 AA045340+29.65 T64312
R2=0.717 Q2=0.142
拓扑IIb:
y=1.19-0.86 t1-1.43t2
t1=2.65+18.25 AA045340
t2=-0.40-2.29 H11482+3.55 T64312
R2=0.626 Q2=0.416
实施例11:使用潜在变量的比例风险模型的构建.
以实施例3的PLS-CV法选拔的10基因表达量为说明变量,抽出1个使用生存率的对数logit值在PLS解析过程中制成的潜在变量,作为目的变量。以该抽出的潜在变量为说明变量试验比例风险模型进行解析,结果做成的式形成以P≤0.0001显著。图18中显示以右侧计算得到的风险值为纵轴,以生存时间为横轴的图。
为了评价本技术得到的风险式的预测性能,从使用的40例中排除1例,使用剩余的39例的数据做成风险式,预测排除的1例的风险值。将利用39例得到的风险式预测的值和40例得到的风险式得到的计算值作图,如图19,显示本技术在预测风险值上具有良好的成绩。
下面对本发明的效果进行说明,在确定生物体的状态和多个基因表达量和/或细胞内物质的量的相关模型时,可以使用说明变量的选择和交互验证法缩进变量。由此得到良好的而且具有预测能力的多变量解析模型(相关模型)。特别是如基因表达的量一样,在说明变量的数为例如1000或1000以上这样庞大的情况下有用。通过减少变量的数,可以推测/特定疾病或生物体现象的背后起作用的重要的基因或机理,加深理解。另外,可以设计提供只针对重要的基因产物或细胞内物质的廉价的诊断用材料(DNA芯片、含有DNA的向量、抗体芯片等)。
另外,使用由随时间概率性发生的生物体的状态的变化导出的量作为目的变量,可以确定随时间概率性发生的生物体的状态的变化和多个基因表达量和/或细胞内物质的量的相关模型。
另外,当使用部分最小二乘法减少说明变量的个数时,可以应用通常的统计学方法或多变量解析方法。

Claims (61)

1.一种数据解析装置,该装置确定以生物体的状态或随时间概率性发生的生物体的状态变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量的相关模型,
其特征在于,该数据解析装置包括:输入装置和确定装置,其中输入装置输入生物体的状态或导出该状态的数据或者随时间概率性发生的与生物体的状态变化相关的数据,和由多个基因表达量和/或细胞内物质的量构成的样品的集合;确定装置,该装置包括:(1)选择说明变量的选择装置,(2)执行部分最小二乘法,计算交互验证成绩的计算装置,或者将前述生物体的状态变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者没有假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算装置,(3)评价上述(2)的计算装置的结果,判断说明变量的采用、不采用的评价判断装置,并且,(4)执行前述(1)的选择装置和前述(2)的计算装置和前述(3)的评价判断装置,不断改善以部分最小二乘法模型的至少交互验证成绩为独立变量的函数,确定部分最小二乘法模型。
2.如权利要求1所述的数据解析装置,其特征在于,目的变量为生物体的状态,利用前述输入装置输入的数据是生物体的状态或导出该状态的数据,前述(2)的计算装置是执行部分最小二乘法计算交互验证成绩的计算装置。
3.如权利要求1所述的数据解析装置,其特征在于,目的变量是随时间概率性发生的生物体的状态变化,利用前述输入装置输入的数据是随时间概率性发生的生物体状态变化相关的数据,前述(2)的计算装置是将前述生物体的状态变化相关数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者未假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算装置。
4.如权利要求1、2或3的任一项所述的数据解析装置,其特征在于,设有最终模型确定装置,该装置使用在由前述确定装置确定的部分最小二乘法模型中采用的说明变量或该模型的潜在变量,构建统计学方法或多变量解析方法依据的模型。
5.如权利要求1~4任何一项所述的数据解析装置,其特征在于,在前述选择装置中逐次取舍选择说明变量。
6.如权利要求1~4任何一项所述的数据解析装置,其特征在于,在前述选择装置中使用遗传性运算法则选择说明变量。
7.如权利要求1~6任何一项所述的数据解析装置,其特征在于,在前述计算装置中逐次排除1个样品,执行部分最小二乘法,计算交互验证成绩。
8.如权利要求1~6任何一项所述的数据解析装置,其特征在于,在前述计算装置中逐次排除多个样品,执行部分最小二乘法,计算交互验证成绩。
9.如权利要求7或8所述的数据解析装置,其特征在于,在前述计算装置中,求得表示由各计算中排除的基因表达预测的生物体状态的目的变量值,和显示前述排除的样品的生物体状态的目的变量值相关的误差的代表值,使用该误差作为交互验证成绩的指标。
10.如权利要求1~9任何一项所述的数据解析装置,其特征在于,前述函数为交互验证成绩。
11.如权利要求1~9任何一项所述的数据解析装置,其特征在于,所述函数是交叉验证成绩与选择的说明变量个数相关的函数。
12.如权利要求5所述的数据解析装置,其特征在于,在前述确定装置中,在改善至少具有交互验证成绩为独立变量的函数的同时,反复进行评价判定。
13.如权利要求1~12任何一项所述的数据解析装置,其特征在于,用多个计算机执行所述(1)的选择装置和前述(2)的计算装置。
14.一种数据解析装置,其特征在于,该装置由对权利要求1、2、3和4确定的相关模型和预测对象的样品输入该模型中所采用的说明变量的输入装置,和根据输入的该说明变量预测判断该样品的生物体的状态的预测判断装置构成。
15.如权利要求2所述的数据解析装置,其中,设置用名义尺度、顺序尺度或连续量表现生物体状态的目的变量。
16.如权利要求2或4所述的数据解析装置,其特征在于,最终模型确定装置使用的前述统计学方法或多变量解析方法,是比例风险法或融入参数的分布中的回归分析法。
17.一种数据解析方法,该方法确定以生物体的状态或随时间概率性发生的生物体状态变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量的相关模型,
其特征在于,包括输入步骤,该输入步骤输入生物体的状态或导出该状态的数据或者随时间概率性发生的与生物体状态变化相关的数据,和由多个基因表达量和/或细胞内物质的量构成的样品的集合;和
(1)选择说明变量的选择步骤;
(2)执行部分最小二乘法,计算交互验证成绩的计算步骤,或者将前述生物体的状态变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者未假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算步骤;
(3)评价前述(2)的计算步骤的结果,判断说明变量的采用、不采用的评价判断步骤;和
(4)执行前述(1)的选择步骤和前述(2)的计算步骤和前述(3)的评价判断步骤,不断改善以部分最小二乘法模型的具有至少交互验证成绩为独立变量的函数,确定部分最小二乘法模型的确定步骤。
18.如权利要求17所述的数据解析方法,其特征在于,目的变量为生物体的状态,利用前述输入步骤输入的数据是生物体的状态或导出其状态的数据,前述(2)的计算步骤是执行部分最小二乘法计算交互验证成绩的计算步骤。
19.如权利要求17所述的数据解析方法,其特征在于,目的变量是随时间概率性发生的生物体状态变化,利用前述输入步骤输入的数据是随时间概率性发生的生物体状态变化相关的数据,前述(2)的计算步骤是将前述生物体状态变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行在假定分布条件下的变换或者未假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算步骤。
20.如权利要求17、18或19所述的数据解析方法,其特征在于,设有最终模型确定步骤,使用在由前述确定步骤确定的部分最小二乘法模型中采用的说明变量或该模型的潜在变量,构建统计学方法或多变量解析方法依据的模型。
21.如权利要求17~20任何一项所述的数据解析方法,其特征在于,在前述选择步骤中逐次取舍选择说明变量。
22.如权利要求17~22任何一项所述的数据解析方法,其特征在于,在前述选择步骤中使用遗传性运算法则选择说明变量。
23.如权利要求1~6任何一项所述的数据解析方法,其特征在于,在前述计算步骤中逐次排除1个样品,执行部分最小二乘法,计算交互验证成绩。
24.如权利要求17~22任何一项所述的数据解析方法,其特征在于,在前述计算步骤中逐次排除多个样品,执行部分最小二乘法,计算交互验证成绩。
25.如权利要求23或24所述的数据解析方法,其特征在于,在前述计算步骤中求得表示由各计算中排除的基因表达预测的生物体状态的目的变量值,与显示前述排除的样品的生物体状态的目的变量值的误差的代表值,使用该误差作为交互验证成绩的指标。
26.如权利要求17~25任何一项所述的数据解析方法,其特征在于前述函数为交互验证成绩。
27.如权利要求17~25任何一项所述的数据解析方法,其特征在于,所述函数是交互验证成绩与选择的说明变量个数的函数。
28.如权利要求21所述的数据解析方法,其特征在于,在前述确定步骤中,在改善至少具有交互验证成绩为独立变量的函数的同时反复进行评价判定。
29.如权利要求17~28任何一项所述的数据解析方法,其特征在于,用多个计算机执行所述(1)的选择步骤和前述(2)的计算步骤。
30.一种数据解析方法,其特征在于,该方法由对权利要求17、18、19和20确定的相关模型和预测对象的样品输入该模型中采用的说明变量的输入步骤,和根据输入的该说明变量预测判断该样品的生物体状态的预测判断步骤构成。
31.如权利要求18所述的数据解析方法,其中,设置用名义尺度、顺序尺度或连续量表现生物体的状态的目的变量。
32.如权利要求18或20所述的数据解析方法,其特征在于,该方法由依据前述统计学方法或多变量解析方法即比例风险法或者融入参数的分布中的回归分析法构建模型的最终模型确定步骤构成。
33.一种数据解析程序,该程序确定以生物体的状态或随时间概率性发生的生物体的状态的变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量的相关模型,
其特征在于,该数据解析程序包括输入步骤,该输入步骤输入生物体的状态或导出该状态的数据或者随时间概率性发生的与生物体状态变化相关的数据,和由多个基因表达量和/或细胞内物质的量构成的样品的集合;和
(1)选择说明变量的选择步骤;
(2)执行部分最小二乘法,计算交互验证成绩的计算步骤,或者将前述生物体的状态的变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者没有假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算步骤,
(3)评价前述(2)的计算步骤的结果,判断说明变量的采用、不采用的评价判断步骤,以及
(4)执行前述(1)的选择步骤和前述(2)的计算步骤和前述(3)的评价判断步骤,不断改善以部分最小二乘法模型的具有至少交互验证成绩为独立变量的函数,确定部分最小二乘法模型的确定步骤。
34.如权利要求33所述的数据解析程序,其特征在于,该程序中的目的变量为生物体的状态,利用前述输入步骤输入的数据是生物体的状态或导出其状态的数据,前述(2)的计算步骤是执行部分最小二乘法计算交互验证成绩的计算步骤。
35.如权利要求33所述的数据解析程序,其特征在于,该程序中,目的变量是随时间概率性发生的生物体状态变化,利用前述输入步骤输入的数据是一个随时间概率性发生的与生物体状态变化相关的数据,前述(2)的计算步骤是将前述与生物体状态变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者未假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算步骤。
36.如权利要求33、34或35所述的数据解析程序,其特征在于,设有最终模型确定步骤,使用在由前述确定步骤确定的部分最小二乘法模型中采用的说明变量或该模型的潜在变量,构建统计学方法或多变量解析方法依据的模型。
37.如权利要求33~36中任何一项所述的数据解析程序,其特征在于,在前述选择步骤中逐次取舍选择说明变量。
38.如权利要求33~36中任何一项所述的数据解析程序,其特征在于,在前述选择步骤中使用遗传性运算法则选择说明变量。
39.如权利要求33~38中任何一项所述的数据解析程序,其特征在于,在前述计算步骤中逐次排除1个样品,执行部分最小二乘法,计算交互验证成绩。
40.如权利要求33~38中任何一项所述的数据解析程序,其特征在于,在前述计算步骤中逐次排除多个样品,执行部分最小二乘法,计算交互验证成绩。
41.如权利要求39或40所述的数据解析程序,其特征在于,在前述计算步骤中求得表示由各计算中排除的基因表达预测的生物体状态的目的变量值,与显示前述排除的样品的生物体的状态的目的变量值相关的误差的代表值,使用该误差作为交互验证成绩的指标。
42.如权利要求33~41中任何一项所述的数据解析程序,其特征在于前述函数为交互验证成绩。
43.如权利要求33~41中任何一项所述的数据解析程序,其特征在于,所述函数是交互验证成绩与选择的说明变量个数的函数。
44.如权利要求37所述的数据解析程序,其特征在于,在前述确定步骤中,在改善至少具有交互验证成绩为独立变量的函数的同时反复进行评价判定。
45.如权利要求33~44中任何一项所述的数据解析程序,其特征在于,用多个计算机执行所述(1)的选择步骤和前述(2)的计算步骤。
46.一种数据解析程序,其特征在于,该程序由对权利要求33、34、35和36确定的相关模型和预测对象的样品输入该模型中采用的说明变量的输入步骤,和根据输入的该说明变量预测判断该样品的生物体的状态的预测判断步骤构成。
47.如权利要求34所述的数据解析程序,其中,设置用名义尺度、顺序尺度或连续量表现生物体的状态的目的变量。
48.如权利要求34或36所述的数据解析程序,其特征在于,前述统计学方法或多变量解析方法由比例风险法或融入参数的分布中的回归分析法构建模型的最终模型确定步骤构成。
49.如权利要求37所述的程序,其特征在于,在前述的说明变量的选择中,在初期状态下完全不含有说明变量。
50.如权利要求37所述的程序,其特征在于,在前述的说明变量的选择中,在初期状态下完全含有全部的说明变量。
51.如权利要求37~50中任何一项所述的程序,其特征在于,所述生物体的状态是表现疾病类型的测定值、病重度的测定值、表现疾病类型的医疗诊断结果、表现病重度的医疗诊断结果、或者将这些进行2次处理的数值。
52.一种记录媒体,记录有如权利要求33~48中任何一项所述的程序,可以利用计算机读取。
53.一种扩散性大B细胞淋巴瘤的程度检定用的细胞内物质测定机械材料和测定方法以及扩散性大B细胞淋巴瘤的病症程度检定方法,其特征在于,实质性地检测基因文库编号U15085、M23452、X52479、U70426、H57330及S69790构成的基因组的表达。
54.如权利要求53所述的扩散性大B细胞淋巴瘤的病症程度检定用的细胞内物质测定机械材料和测定方法以及扩散性大B细胞淋巴瘤的程度检定方法,其特征在于,检出基因文库编号U03398、M65066、AK001546、BC003536、X00437、U12979、H96306、AA830781及AA804793中的至少一种基因的表达。
55.一种乳腺癌的病症程度检定用的细胞内物质测定机械材料和测定方法以及乳腺癌的病症程度检定方法,其特征在于,实质性地检测含有基因文库编号AA598572、AA703058及AA453345中的基因产物的细胞内物质。
56.如权利要求55乳腺癌的病症程度检定用的细胞内物质测定机械材料和测定方法以及乳腺癌的病症程度检定方法,其特征在于,检测包含基因文库编号AA406242、H73335、W84753、N71160、AA054669、N32820及R05667中的至少一种基因产物的细胞内物质。
57.一种乳腺癌的复发性检定用的细胞内物质测定机械材料和测定方法以及乳腺癌的复发性检定方法,其特征在于,实质性地检测含有基因文库编号W84753、H08581、AA045730及AI250654中的基因产物的细胞内物质。
58.如权利要求57所述的乳腺癌的复发性检定用的细胞内物质测定机械材料和测定方法以及乳腺癌的复发性检定方法,其特征在于,检测包含基因文库编号AA448641、R78516、R05934、AA629838及H53037中的至少一种基因产物的细胞内物质。
59.一种乳腺癌的复发性检定用的细胞内物质测定机械材料和测定方法以及乳腺癌的复发性检定方法,其特征在于,实质性地检测含有基因文库编号AA434397、T83209、N53427、N29639、AA485739、AA425861、H84971、T64312、T59518及AA037488中的基因产物的细胞内物质。
60.如权利要求59所述的乳腺癌的复发性检定用的细胞内物质测定机械材料和测定方法以及乳腺癌的复发性检定方法,其特征在于,检测含有基因文库编号AA406231的基因产物的细胞内物质。
61.一种乳腺癌的复发性检定用的细胞内物质测定机械材料和测定方法以及乳腺癌的复发性检定方法,其特征在于,实质性地检测含有基因文库编号H11482、T64312及AA045340中的基因产物的细胞内物质。
CNA038075237A 2002-04-04 2003-03-31 数据解析装置及方法 Pending CN1647067A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP102743/2002 2002-04-04
JP2002102743 2002-04-04
JP2002352645 2002-12-04
JP352645/2002 2002-12-04

Publications (1)

Publication Number Publication Date
CN1647067A true CN1647067A (zh) 2005-07-27

Family

ID=28793526

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038075237A Pending CN1647067A (zh) 2002-04-04 2003-03-31 数据解析装置及方法

Country Status (8)

Country Link
US (1) US20050159896A1 (zh)
EP (1) EP1498825A1 (zh)
JP (1) JPWO2003085548A1 (zh)
KR (1) KR20040111456A (zh)
CN (1) CN1647067A (zh)
AU (1) AU2003220998A1 (zh)
CA (1) CA2481485A1 (zh)
WO (1) WO2003085548A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908037B (zh) * 2005-12-20 2013-04-03 霍夫曼-拉罗奇有限公司 利用双s形的曲率分析的pcr肘确定
CN103324866A (zh) * 2013-03-26 2013-09-25 张弘 Ripple系统
CN104718547A (zh) * 2013-10-11 2015-06-17 文化便利俱乐部株式会社 顾客数据解析系统
CN107582041A (zh) * 2012-11-19 2018-01-16 株式会社东芝 管状构造解析装置及管状构造解析方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7747391B2 (en) 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
CA2568650C (en) * 2004-06-01 2010-04-13 Prophagia Inc. Index and method of use of adapted food compositions for dysphagic persons
EP1811411A4 (en) * 2004-10-26 2014-05-07 Nat Univ Corp Yokohama Nat Uni MULTI-VARIABLE MODEL LASER SYSTEM, PROCESS, AND PROGRAMMEDIUM
JPWO2006088208A1 (ja) * 2005-02-21 2008-07-10 大日本住友製薬株式会社 生体の生理変化の予測方法および装置
JPWO2006098192A1 (ja) * 2005-03-16 2008-08-21 味の素株式会社 生体状態評価装置、生体状態評価方法、生体状態評価システム、生体状態評価プログラム、評価関数作成装置、評価関数作成方法、評価関数作成プログラムおよび記録媒体
JP4714869B2 (ja) * 2005-12-02 2011-06-29 国立大学法人山口大学 有効因子抽出システム
JP5011830B2 (ja) * 2006-06-09 2012-08-29 富士通セミコンダクター株式会社 データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
AU2007284724B2 (en) * 2006-08-10 2014-03-13 Millennium Pharmaceuticals, Inc. For the identification, assessment, and treatment of patients with cancer therapy
JP5307996B2 (ja) * 2006-09-06 2013-10-02 株式会社Dnaチップ研究所 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
CN104021317A (zh) * 2006-09-20 2014-09-03 皇家飞利浦电子股份有限公司 分子诊断决策支持系统
US8374795B2 (en) 2008-05-13 2013-02-12 Roche Molecular Systems, Inc. Systems and methods for step discontinuity removal in real-time PCR fluorescence data
JP2012256182A (ja) * 2011-06-08 2012-12-27 Sharp Corp データ解析装置、データ解析方法およびデータ解析プログラム
CN102539326B (zh) * 2012-01-13 2014-03-12 江苏大学 茶叶汤色品质的量化评价方法
JP5794160B2 (ja) * 2012-01-26 2015-10-14 富士通株式会社 説明変数の決定のための情報処理装置、情報処理方法及びプログラム
JP6377078B2 (ja) 2013-01-31 2018-08-22 コデクシス, インコーポレイテッド 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア
US9928516B2 (en) * 2013-12-30 2018-03-27 Nice Ltd. System and method for automated analysis of data to populate natural language description of data relationships
EP3155592B1 (en) 2014-06-10 2019-09-11 Leland Stanford Junior University Predicting breast cancer recurrence directly from image features computed from digitized immunohistopathology tissue slides
CN108271422A (zh) 2015-06-25 2018-07-10 株式会社国际电气通信基础技术研究所 基于器官间串扰系统的预测装置及预测程序
US11180539B2 (en) 2016-03-29 2021-11-23 Karydo Therapeutix, Inc. Pharmaceutical composition or food composition, and method for assessing effect of active ingredient in vivo
EP3640946A1 (en) * 2018-10-15 2020-04-22 Sartorius Stedim Data Analytics AB Multivariate approach for biological cell selection
US11410064B2 (en) * 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables
JP7214672B2 (ja) * 2020-03-13 2023-01-30 株式会社東芝 情報処理装置、情報処理方法及びコンピュータプログラム
CN111652302B (zh) * 2020-05-28 2023-05-23 泰康保险集团股份有限公司 一种解释保险核保分类结果的方法、装置
CN117275220B (zh) * 2023-08-31 2024-06-18 云南云岭高速公路交通科技有限公司 基于非完备数据的山区高速公路实时事故风险预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233011A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 独立要因抽出法
JPH09167152A (ja) * 1995-12-19 1997-06-24 Hitachi Ltd 対話的モデル作成方法
WO2000070340A2 (en) * 1999-05-14 2000-11-23 Karolinska Innovations Ab Materials and methods relating to disease diagnosis
WO2002025405A2 (en) * 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908037B (zh) * 2005-12-20 2013-04-03 霍夫曼-拉罗奇有限公司 利用双s形的曲率分析的pcr肘确定
CN107582041A (zh) * 2012-11-19 2018-01-16 株式会社东芝 管状构造解析装置及管状构造解析方法
CN107582041B (zh) * 2012-11-19 2021-07-06 株式会社东芝 血管解析装置及血管解析方法
CN103324866A (zh) * 2013-03-26 2013-09-25 张弘 Ripple系统
CN104718547A (zh) * 2013-10-11 2015-06-17 文化便利俱乐部株式会社 顾客数据解析系统

Also Published As

Publication number Publication date
WO2003085548A1 (fr) 2003-10-16
JPWO2003085548A1 (ja) 2005-08-11
AU2003220998A1 (en) 2003-10-20
CA2481485A1 (en) 2003-10-16
KR20040111456A (ko) 2004-12-31
EP1498825A1 (en) 2005-01-19
US20050159896A1 (en) 2005-07-21

Similar Documents

Publication Publication Date Title
CN1647067A (zh) 数据解析装置及方法
CN1293203C (zh) 大规模鉴定疾病基因型的方法和6型脊髓小脑共济失调的诊断试验
CN1313891A (zh) 使用基因表达特征监控疾病状态和治疗的方法
CN1286989C (zh) 检测致病真菌生物芯片
CN1177059C (zh) 与il-1基因座多态性相关之炎性疾病的预测方法
CN1862551A (zh) 治疗效果预测系统、治疗效果预测方法及其计算机程序产品
CN1639357A (zh) 检测人乳头瘤病毒mRNA的方法
CN1806051A (zh) 通过(例如)t细胞受体v/d/j基因中的重复鉴定克隆性细胞
CN1542143A (zh) 结直肠癌的预后
CN1500151A (zh) Pcr方法
CN1335893A (zh) 细胞表达特征的统计合并
CN1701232A (zh) 核酸浓度定量分析芯片、装置和分析方法
CN101076806A (zh) 败血症的早期检测
CN1298486A (zh) 评价化学和生物学分析的方法
CN1904900A (zh) 人类的内源性siRNA序列及其应用和筛选方法
CN1867922A (zh) 疾病危险度判定用基因多态的确定方法、疾病危险度判定方法及判定用阵列
CN1718742A (zh) 用于诊断β-地中海贫血的核酸杂交膜条及试剂盒
CN1304599C (zh) 耐药菌检测芯片及其制备方法和应用方法
CN1754000A (zh) 预测治疗中自杀行为的方法
CN1125172C (zh) 用于微生物学诊断的设备,套件和方法
CN1769496A (zh) 核酸扩增分析法及装置
CN101061239A (zh) 通过URLC8的tRNA-二氢尿苷合酶活性诊断非小细胞肺癌的方法
CN1678189A (zh) 开发动物模型的方法
CN100342030C (zh) 试验肿瘤细胞对于抗癌药剂敏感性的方法
CN1860990A (zh) 机体模拟系统及记录介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication