CN111742369A - 使用靶基因表达的数学建模评估mapk-ap-1细胞信号传导途径活性 - Google Patents

使用靶基因表达的数学建模评估mapk-ap-1细胞信号传导途径活性 Download PDF

Info

Publication number
CN111742369A
CN111742369A CN201880089769.1A CN201880089769A CN111742369A CN 111742369 A CN111742369 A CN 111742369A CN 201880089769 A CN201880089769 A CN 201880089769A CN 111742369 A CN111742369 A CN 111742369A
Authority
CN
China
Prior art keywords
mapk
signaling pathway
activity
subject
cellular signaling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880089769.1A
Other languages
English (en)
Inventor
A·范德斯托尔佩
L·H·F·M·霍尔特泽尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innomark Ltd
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN111742369A publication Critical patent/CN111742369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)

Abstract

本发明涉及用于基于在对象样品中测量的MAPK‑AP‑1细胞信号传导途径的三个或更多个靶基因的表达水平来推测对象中MAPK‑AP‑1细胞信号传导途径活性的计算机执行方法。本发明进一步涉及用于推测对象中MAPK‑AP‑1细胞信号传导途径活性的装置、非暂时性存储介质和计算机程序。本发明进一步涉及用于测量对象样品中MAPK‑AP‑1细胞信号传导途径的三个或更多个靶基因的表达水平的试剂盒,用于推测对象中MAPK‑AP‑1细胞信号传导途径活性的试剂盒,以及这些试剂盒在进行所述方法中的应用。

Description

使用靶基因表达的数学建模评估MAPK-AP-1细胞信号传导途 径活性
发明领域
本发明一般性涉及生物信息学、基因组处理、蛋白质组处理以及相关领域。更具体地,本发明涉及由数字处理设备进行的推测对象中MAPK-AP-1细胞信号传导途径活性的计算机执行方法,其中所述推测基于在所述对象的样品中测量的所述MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平。本发明还涉及用于推测对象中MAPK-AP-1细胞信号传导途径活性的装置,其包括配置为进行所述方法的数字处理器,涉及用于推测对象中MAPK-AP-1细胞信号传导途径活性的非暂时性存储介质,其存储可由数字处理设备执行以进行所述方法的指令,以及涉及用于推测对象中MAPK-AP-1细胞信号传导途径活性的计算机程序,其包括程序代码模块,当所述计算机程序在数字处理设备上运行时其用于使所述数字处理设备进行所述方法。本发明还涉及测量对象样品中MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平的试剂盒,还涉及用于推测对象中MAPK-AP-1细胞信号传导途径活性的试剂盒,以及所述试剂盒在进行所述方法中的应用。
发明背景
基因组和蛋白质组学分析已经在医学领域例如肿瘤学中基本实现并有望在临床上得到应用,其中已知各种癌症与基因组突变/变异和/或特定基因的高或低表达水平的特定组合相关,其在癌症的生长和进化例如细胞增殖和转移中起作用。
异常MAPK途径活性在癌症和许多其它疾病中起重要作用。激活物蛋白1(AP-1)是一种可诱导转录因子,在MAPK刺激后被强力激活。AP-1转录因子是MAPK信号传导的关键靶点,并调节参与增殖、分化和凋亡(即对癌症进展至关重要的生物学过程)的多种基因的表达。AP-1主要由Jun(例如c-Jun,JunB和JunD)和/或Fos(例如c-Fos,FosB,Fra-1和Fra-2)和/或ATF和/或JDP家庭成员组成。在细胞核中,AP-1与基因的启动子结合并诱导促进癌症进展所需的多种细胞过程的遗传程序(也参见图1)。
关于MAPK在例如癌症中的信号传导,重要的是能检测异常MAPK-AP-1信号传导活性以便能正确选择靶向药物治疗。目前正在使用抗MAPK疗法且新疗法正在开发(参见Perego P.et al.,“Modulation of cell sensitivity to antitumor agents bytargeting survival pathways”,Biochemical Pharmacology,Vol.80,No.10,pages1459to 1465)。然而,目前尚无可用于评估关于MAPK-AP-1细胞信号传导途径活性的功能状态的临床检测方法,活跃(active)状态是指例如与其不活跃(passive)状态相比更有可能是肿瘤促进性的。因此,期望能改善鉴定患有疾病如癌症例如乳腺癌、肺癌、宫颈癌、子宫内膜癌、卵巢癌、胰腺癌或前列腺癌或者免疫失调(其至少部分由异常的MAPK-AP-1细胞信号传导途径活性驱动,及因此可能应答于MAPK-AP-1细胞信号传导途径的抑制剂)患者的可能性。
发明概述
根据本发明的主要方面,上述问题通过一种计算机执行方法得以解决,所述方法由数字处理设备进行以推测对象中MAPK-AP-1细胞信号传导途径的活性,其中所述推测包括:
接收在所述对象的样品中测量的MAPK-AP-1细胞信号传导途径的三个或更多个靶基因例如3、4、5、6、7、8、9、10、11个或更多个靶基因的表达水平,
确定所述对象的样品中AP-1转录因子(TF)元件的活性水平,所述AP-1TF元件控制所述三个或更多个AP-1靶基因的转录,所述确定基于评估将所述三个或更多个AP-1靶基因的表达水平与所述AP-1TF元件的活性水平相关联的经校准的数学模型途径,以及
基于所述确定的所述对象的样品中AP-1TF元件的活性水平来推测所述对象中MAPK-AP-1细胞信号传导途径的活性,
其中所述三个或更多个AP-1靶基因选自:BCL2L11,CCND1,DDIT3,DNMT1,EGFR,ENPP2,EZR,FASLG,FIGF,GLRX,IL2,IVL,LOR,MMP1,MMP3,MMP9,SERPINE1,PLAU,PLAUR,PTGS2,SNCG,TIMP1,TP53和VIM,优选选自:CCND1,EGFR,EZR,GLRX,MMP1,MMP3,PLAU,PLAUR,SERPINE1,SNCG和TIMP1。
本文中,TF元件的“活性水平”是指TF元件关于其靶基因转录的活性水平。
本发明基于发明人的创新,即鉴别MAPK-AP-1细胞信号传导途径中发生的作用的合适方法可以基于测量MAPK-AP-1细胞信号传导途径的信号传导输出,其是例如靶基因的转录,由MAPK-AP-1细胞信号传导途径控制的AP-1转录因子(TF)元件控制。发明人的这一创新假设样品中的TF活性水平处于准稳定状态,可以通过例如AP-1靶基因的表达值检测。已知本文靶向的MAPK-AP-1细胞信号传导途径控制人类许多细胞类型的许多功能,例如增殖、分化和凋亡。对于病理性失调,例如癌症(如乳腺癌,宫颈癌,肺癌,子宫内膜癌,卵巢癌,胰腺癌或前列腺癌),异常MAPK-AP-1细胞信号传导活性起着重要作用,可在靶基因表达谱中检测到,因此通过经校准的数学途径模型进行利用。
本发明使得可以通过以下方式确定对象中MAPK-AP-1细胞信号传导途径的活性:(i)确定所述对象的样品中AP-1TF元件的活性水平,其中所述确定基于评估经校准的数学模型,其将MAPK-AP-1细胞信号传导途径的三个或更多个靶基因(其转录受所述AP-1TF元件控制)的表达水平与所述AP-1TF元件的活性水平相关联,以及通过(ii)基于所确定的所述对象的样品中所述AP-1TF元件的活性水平来推测所述对象中MAPK-AP-1细胞信号传导途径的活性。这优选地允许改善鉴定患有疾病的患者的可能性,所述疾病例如癌症如乳腺癌、宫颈癌,肺癌、子宫内膜癌、卵巢癌、胰腺癌或前列腺癌,所述疾病至少部分地由异常的MAPK-AP-1细胞信号传导途径活性驱动,并因此可能会应答MAPK-AP-1细胞信号传导途径的抑制剂。在特定的实施方案中,治疗决定可以基于特定的MAPK-AP-1细胞信号传导途径活性。在一个特定的实施方案中,可以将MAPK-AP-1细胞信号传导状态设定为MAPK-AP-1细胞信号传导途径是活跃的几率的截断值,例如10:1,5:1,4:1,2:1,1:1,1:2,1:4,1:5,或者1:10。
在本文中,术语“AP-1转录因子元件”或“AP-1TF元件”或“TF元件”被定义为是一种蛋白质复合物,其包含至少一个Jun(例如c-Jun,JunB和JunB)家族成员和/或Fos(例如c-Fos,FosB,Fra-1和Fra-2)家族成员和/或ATF家族成员和/或JDP家族成员,形成例如能够结合特定DNA序列的Jun~Jun或Jun~Fos二聚体,优选应答元件12-O-十四酰佛波醇-13-乙酯(TPA),具有结合基序5'-TGA G/C TCA-3'的应答元件(TRE)或具有结合基序5'-TGACGTCA-3'的环状AMP应答元件(CRE),从而控制靶基因的转录。优选地,该术语是指由AP-1诱导配体例如生长因子(如EGF)和细胞因子与其受体或中间下游信号传导物质结合而触发的或者是由存在AP-1激活突变而触发的蛋白质或蛋白质复合物转录因子。
所述经校准的数学途径模型可以是概率模型,优选贝叶斯网络模型,其基于将AP-1TF元件的活性水平与所述三个或更多个AP-1靶基因的表达水平相关联的条件概率,或者所述经校准的数学途径模型可以基于所述三个或更多个AP-1靶基因的表达水平的一或多种线性组合。特别地,可以如公开的国际专利申请WO2013/011479A2(“Assessment ofcellular signaling pathway activity using probabilistic modeling of targetgene expression”)所述或者如公开的国际专利申请WO2014/102668A2(“Assessment ofcellular signaling pathway activity using linear combination(s)of target geneexpressions”)所述进行MAPK-AP-1细胞信号传导途径活性的推测,所述专利申请全文引入本文。关于用靶基因表达的数学建模推测细胞信号传导途径活性的进一步细节可见于Verhaegh W.et al.,“Selection of personalized patient therapy through the useof knowledge-based computational models that identify tumor-driving signaltransduction pathways”,Cancer Research,Vol.74,No.11,2014,pages 2936to 2945。
本文所用术语“对象”是指任何活的生物。在一些实施方案中,所述对象是动物,优选哺乳动物。在一些实施方案中,所述对象是人类,优选医学对象。在其它实施方案中,所述对象是细胞系。
本文所用术语“靶基因”是指其转录被AP-1转录因子元件直接或间接控制的基因。“靶基因”可以是“直接靶基因”和/或“间接靶基因”(如本文所述)。另外,“多个靶基因”可以是“多个直接靶基因”和/或“多个间接靶基因”(如本文所述)。
特别合适的AP-1靶基因在下面段落中和在实施例中描述(见例如下表1和表2)。
因此,根据一个优选的实施方案,所述AP-1靶基因选自下表1或表2所列的AP-1靶基因。
本发明人已经发现,较短列表中的AP-1靶基因对于确定MAPK-AP-1细胞信号传导途径活性是更有可能的。
本发明的另一方面涉及一种方法(如本文所述),进一步包括:
基于推测的对象中MAPK-AP-1细胞信号传导途径活性确定对象中MAPK-AP-1细胞信号传导途径是否运行异常。
本发明还涉及一种方法(如本文所述),进一步包括:
为对象推荐处方一种药物,以纠正所述MAPK-AP-1细胞信号传导途径的异常运行,
其中如果基于推测的MAPK-AP-1细胞信号传导途径活性确定MAPK-AP-1细胞信号传导途径在对象中运行异常,则进行所述推荐。
短语“细胞信号传导途径运行异常”是指该途径的“活性”不是预期的情况,其中术语“活性”可以指转录因子复合物驱动靶基因表达的活性,即靶基因被转录的速度。“正常”可以是指在其预期是非活跃(inactive)的组织中其是非活跃的,而在预期其是活跃时其是活跃的。此外,一定水平的活性可以被视为“正常”,而任何更高或更低的活性可以被视为“异常”。
本发明还涉及一种方法(如本文所述),其中MAPK-AP-1细胞信号传导途径的异常运行是其中MAPK-AP-1细胞信号传导途径在对象中作为肿瘤促进物(promoter)运行的运行。
用于本发明的样品可以是提取的样品,即已经从对象提取的样品。样品的实例包括但不限于对象的组织、细胞、血液和/或体液。如果对象是患有或可能患有癌症或者其它疾病如自身免疫疾病的医学对象,则其可以是例如得自如下的样品:癌症病变、怀疑患有癌症的病变、转移性肿瘤、存在被癌细胞污染的体液的体腔(例如胸腔或腹腔或膀胱腔)或者含有癌细胞的其它体液,或者在患者患有其它疾病的情况中来自受累组织或细胞等的样品,优选通过活检程序或其它样品提取程序获得。提取样品的细胞也可以是血液恶性肿瘤(例如白血病或淋巴瘤)的肿瘤细胞。在一些情况下,所述细胞样品也可以是循环肿瘤细胞,即已经进入血流并且可以使用合适分离技术例如单采血液分离术或常规静脉抽血来提取的肿瘤细胞。除血液外,提取样品的体液可以是尿液、胃肠道内容物或渗出物。本文所用术语“样品”还涵盖这样的情况,其中例如对象的组织和/或细胞和/或体液已从对象获取,并且例如被置于显微镜载玻片上,以及为了进行权利要求的方法已经例如通过激光捕获显微切割(LCM)、或从载玻片上刮下感兴趣的细胞、或通过荧光激活细胞分选技术,提取该样品的一部分。另外,本文所用术语“样品”还涵盖这样的情况,其中例如对象的组织和/或细胞和/或体液已从对象获取,且被置于显微镜载玻片上,在所述载玻片上进行权利要求的方法。
根据另一个公开的方面,用于推测对象中MAPK-AP-1细胞信号传导途径活性的装置包括配置为进行本文所述的本发明方法的数字处理器。
根据另一个公开的方面,用于推测对象中MAPK-AP-1细胞信号传导途径活性的非暂时性存储介质存储可由数字处理设备执行的指令以进行本文所述的本发明方法。所述非暂时性存储介质可以是计算机可读存储介质,如硬盘驱动器或其它磁性存储介质,光盘或其它光学存储介质,随机存取存储器(RAM),只读存储器(ROM),闪存或其它电子存储介质,网络服务器等。所述数字处理设备可以是手持设备(例如个人数据助理或智能电话),笔记本计算机,台式计算机,平板计算机或设备,远程网络服务器等。
根据另一个公开的方面,用于推测对象中MAPK-AP-1细胞信号传导途径活性的计算机程序包括程序代码模块(program code means),当所述计算机程序在数字处理设备上运行时,所述程序代码模块使所述数字处理设备进行本文所述的本发明方法。所述数字处理设备可以是手持设备(例如个人数据助理或智能电话),笔记本计算机,台式计算机,平板计算机或设备,远程网络服务器等。
根据另一个公开的方面,用于测量对象样品中MAPK-AP-1细胞信号传导途径的三个或更多个例如3、4、5、6、7、8、9、10、11或更多个靶基因的表达水平的试剂盒包括:
用于确定对象样品中所述三个或更多个AP-1靶基因的表达水平的一或多个组分,
其中所述三个或更多个AP-1靶基因选自:BCL2L11,CCND1,DDIT3,DNMT1,EGFR,ENPP2,EZR,FASLG,FIGF,GLRX,IL2,IVL,LOR,MMP1,MMP3,MMP9,SERPINE1,PLAU,PLAUR,PTGS2,SNCG,TIMP1,TP53和VIM,优选选自:CCND1,EGFR,EZR,GLRX,MMP1,MMP3,PLAU,PLAUR,SERPINE1,SNCG和TIMP1。
所述用于测量所述三个或更多个AP-1靶基因表达水平的一或多个组分或手段可以选自:DNA阵列芯片,寡核苷酸阵列芯片,蛋白质阵列芯片,抗体,多个探针例如标记的探针,一组RNA逆转录酶测序组分和/或RNA或DNA(包括cDNA)扩增引物。在一个实施方案中,所述试剂盒包括一组针对本文所述的三个或更多个AP-1靶基因的mRNA或cDNA序列的一部分的标记的探针。在一个实施方案中,所述试剂盒包括针对所述三个或更多个AP-1靶基因的mRNA或cDNA序列的一部分的一组引物和探针。在一个实施方案中,所述标记的探针包含在标准化的96孔板中。在一个实施方案中,所述试剂盒进一步包括针对一组参考基因的引物或探针。这样的参考基因可以是例如组成型表达的基因,用于使本文描述的靶基因表达水平的表达水平正常化或标准化。
在一个实施方案中,所述用于测量对象样品中MAPK-AP-1细胞信号传导途径的三个或更多个例如3、4、5、6、7、8、9、10、11或更多个靶基因的表达水平的试剂盒包括:
针对所述三个或更多个AP-1靶基因的聚合酶链反应引物,
针对所述三个或更多个AP-1靶基因的探针,和
其中所述三个或更多个AP-1靶基因选自:BCL2L11,CCND1,DDIT3,DNMT1,EGFR,ENPP2,EZR,FASLG,FIGF,GLRX,IL2,IVL,LOR,MMP1,MMP3,MMP9,SERPINE1,PLAU,PLAUR,PTGS2,SNCG,TIMP1,TP53和VIM,优选选自:CCND1,EGFR,EZR,GLRX,MMP1,MMP3,PLAU,PLAUR,SERPINE1,SNCG和TIMP1。
根据另一个公开的方面,用于推测对象中MAPK-AP-1细胞信号传导途径活性的试剂盒包括:
本文所述的本发明的试剂盒,和
本文所述的本发明的装置、本文所述的本发明的非暂时性存储介质或本文所述的本发明的计算机程序。
根据另一个公开的方面,本文所述的本发明的试剂盒用于进行本文所述的本发明的方法。
本文所述的本发明还可以例如有利地用于至少一项如下活动中:
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的诊断;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的预后;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的药物处方;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的药效预测;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的副作用预测;
药效监测;
药物开发;
测定开发;
途径研究;
癌症分期;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性临床试验对象的招募;
要进行的后续测试的选择;和
伴随诊断测试的选择。
在阅读和理解附图、以下的描述并且尤其是在阅读下面提供的详细实施例之后,进一步的优点对于本领域普通技术人员将是明显的。
应该理解的是,权利要求1的方法、权利要求7的装置、权利要求8的非暂时性存储介质、权利要求9的计算机程序、权利要求10-12的试剂盒以及权利要求13的试剂盒的用途具有相似和/或相同的优选实施方案,特别是如从属权利要求所限定的。
应当理解,本发明的优选实施方案也可以是从属权利要求或以上实施方案与各个独立权利要求的任意组合。
本发明的这些及其它方面参考下述实施方案将是明显的及阐明。
附图简述
图1示意性及示例性示出MAPK-AP-1细胞信号传导途径。激活蛋白1(AP-1)是一种可诱导转录因子,在MAPK刺激后被强力激活。AP-1转录因子是MAPK-AP-1信号传导的关键靶点,调节参与增殖、分化和凋亡(即对癌症进展至关重要的生物学过程)的多种基因的表达。AP-1主要由Jun(例如c-Jun,JunB和JunD)和/或Fos(例如c-Fos,FosB,Fra-1和Fra-2)和/或ATF和/或JDP家庭成员组成。在细胞核中,AP-1与基因的启动子结合并诱导促进癌症进展所需的多种细胞过程的遗传程序。
图2示意性及示例性示出数学模型,在本文是贝叶斯网络模型,用于对MAPK-AP-1细胞信号传导途径的转录程序进行建模。
图3示出流程图,其示例性示出基于在对象样品中测量的MAPK-AP-1细胞信号传导途径的靶基因的表达水平来推测对象中MAPK-AP-1细胞信号传导途径活性的过程。
图4示出流程图,其示例性示出用于获得如本文所述的经校准的数学途径模型的过程。
图5示出流程图,其示例性示出如本文所述的用于确定对象样品中的AP-1转录因子(TF)元件的活性水平的过程。
图6示出了流程图,其示例性地示出使用离散可观察量来推测对象中MAPK-AP-1细胞信号传导途径活性的过程。
图7示出流程图,其示例性示出使用连续可观察量来推测对象中MAPK-AP-1细胞信号传导途径活性的过程。
图8示出流程图,其示例性示出用于从MAPK-AP-1细胞信号传导途径的靶基因的RT-qPCR分析中确定Cq值的过程。
图9示出训练的示例性贝叶斯网络模型使用表1的靶基因证据汇总列表(evidencecurated list)(24个靶基因列表)对来自GSE28878的18个样品的MAPK-AP-1细胞信号传导途径活性预测。
图10示出训练的示例性贝叶斯网络模型使用表1的靶基因证据汇总列表(24个靶基因列表)对来自GSE45417的12个样品的MAPK-AP-1细胞信号传导途径活性预测。
图11示出训练的示例性贝叶斯网络模型使用表1的靶基因证据汇总列表(24个靶基因列表)对来自GSE66853的18个样品的MAPK-AP-1细胞信号传导途径活性预测。
图12示出训练的示例性贝叶斯网络模型使用表1的靶基因证据汇总列表(24个靶基因列表)对来自E-MEXP-2213的2个样品的MAPK-AP-1细胞信号传导途径活性预测。
图13示出训练的示例性贝叶斯网络模型使用表1的靶基因证据汇总列表(24个靶基因列表)对来自GSE2677、GSE2842和GSE39338的25个样品的MAPK-AP-1细胞信号传导途径活性预测。
图14示出训练的示例性贝叶斯网络模型使用来自表2的11个靶基因入选列表(shortlist)对来自GSE40117的15个样品的MAPK-AP-1细胞信号传导途径活性预测。
图15示出训练的示例性贝叶斯网络模型使用来自表2的11个靶基因入选列表对来自GSE58235的18个样品的MAPK-AP-1细胞信号传导途径活性预测。
图16示出训练的示例性贝叶斯网络模型使用来自表2的11个靶基因入选列表对来自E-MEXP-2573的12个样品的MAPK-AP-1细胞信号传导途径活性预测。
图17示出训练的示例性贝叶斯网络模型使用来自表2的11个靶基因入选列表对来自GSE21618的56个样品的MAPK-AP-1细胞信号传导途径活性预测。
图18示出训练的示例性贝叶斯网络模型使用来自表2的11个靶基因入选列表对来自GSE6532、GSE9195、GSE12276、GSE20685、GSE21653、GSE58812、GSE66986、GSE102484和E-MTAB-365的样品中乳腺癌亚组的进一步验证结果。
图19示出具有高AP-1活性的乳腺癌患者的Kaplan-Meier曲线(使用表1中靶基因证据汇总列表(24个靶基因列表)用训练的示例性贝叶斯网络模型检测)。
图20示出了训练的示例性贝叶斯网络模型使用所述模型使用来自表1的靶基因证据汇总列表(24个靶基因列表)对来自GSE5060、GSE10006、GSE10245、GSE13933、GSE19667、GSE28582、GSE30219、GSE33532、GSE43346和GSE50081的样品的乳腺癌亚组的进一步验证结果。
图21示出了分别使用来自表1的靶基因证据汇总列表(24个靶基因列表)和来自表2的11个靶基因入选列表,训练的示例性贝叶斯网络模型对来自公共数据集的5307个样品之间的相关性。
实施方案详述
以下实施例仅说明特别优选的方法和与此相关的所选方面。其中提供的教导可用于构建一些测试和/或试剂盒,例如以检测、预测和/或诊断MAPK-AP-1细胞信号传导途径的异常活性。此外,在使用本文所述的方法时,可以有利地指导药物处方,可以进行药物应答预测和药物功效(和/或副作用)的监测,可以预测和监测耐药性,例如选择要进行的后续测试(例如伴随诊断测试)。以下实施例不应解释为限制本发明的范围。
实施例1:数学模型构建
如已公开的国际专利申请WO2013/011479A2(“Assessment of cellularsignaling pathway activity using probabilistic modeling of target geneexpression”)中所详述,通过构建概率模型例如贝叶斯网络模型及合并细胞信号传导途径(在此为MAPK-AP-1细胞信号传导途径)的三个或更多个靶基因的表达水平与转录因子(TF)元件(在此为AP-1TF元件)的活性水平之间的条件概率关系(所述TF元件控制所述细胞信号传导途径的所述三个或更多个靶基因的转录),这种模型可以用于高准确性确定所述细胞信号传导途径的活性。此外,通过调整所述条件概率和/或在所述模型加入新节点以表示其它信息源,可以容易地更新所述概率模型以合并以后临床研究获得的其它知识。由此可以适当地更新所述概率模型以体现最新的医学知识。
在已公开的国际专利申请WO2014/102668A2(“Assessment of cellularsignaling pathway activity using linear combination(s)of target geneexpressions”)中详细描述了另一种易于理解和解释的方法,细胞信号传导途径(在此是MAPK-AP-1细胞信号传导途径)的活性可以通过构建和评估线性或(伪)线性模型而确定,所述模型合并了所述细胞信号传导途径的三个或更多个靶基因的表达水平与转录因子(TF)元件(在此是AP-1TF元件)的水平之间的关系,所述TF元件控制所述细胞信号传导途径的所述三个或更多个靶基因的转录,所述模型基于所述三个或更多个靶基因的表达水平的一或多种线性组合。
在这两种方法中,所述三个或更多个靶基因的表达水平可以优选是测量mRNA水平,这可以是例如使用与靶基因mRNA序列相关的探针的(RT)-PCR和微阵列技术以及RNA测序的结果。在另一个实施方案中,所述三个或更多个靶基因的表达水平可以通过蛋白水平例如由所述靶基因编码的蛋白质的浓度和/或活性来测量。
前述表达水平可以任选地以可能更好或不适合所述应用的许多方式转换。例如,表达水平的四种不同转化,例如基于微阵列的mRNA水平,可以是:
-“连续数据”,即使用熟知的算法例如MAS5.0和fRMA预处理微阵列之后获得的表达水平,
-“z得分”,即按比例的连续表达水平,由此所有样品的平均值为0,标准偏差为1,
-“离散”,即高于某个阈值的每个表达设置为1,低于其设置为0(例如可以选择探针组的阈值在一组阳性和相同数目阴性临床样品中作为其值(加权)中值),
-“模糊”,即使用以下格式的sigmoid函数将连续表达水平转换为0-1之间的值:1/(1+exp((thr–expr)/se)),expr是连续表达水平,thr是前面提到的阈值,se是影响0-1之间差异的软化参数。
可以构建的最简单的线性模型之一是在第一层中具有代表转录因子(TF)元件(此处为AP-1TF元件)的节点及在第二层中代表靶基因表达水平直接测量值的加权节点的模型,所述表达水平例如在微阵列或(q)PCR实验中通过与特定靶基因特别高度相关的一个探针组测量。权重可以基于从训练数据集的计算或者基于专业知识。在可能测量每个靶基因的多个表达水平的情况下使用这种方法(例如在微阵列实验中,可以用多个探针组测量一个靶基因),每个靶基因只有一个表达水平特别简单。选择用于特定靶基因的一个表达水平的一种特定方法是使用来自探针组的表达水平,其能最佳地分离训练数据集的活跃和不活跃样品。确定这种探针组的一种方法是进行统计学检验,例如t检验,并选择具有最低p值的探针组。根据定义,训练数据集的具有最低p值的探针组的表达水平是(已知)活跃和不活跃样品的表达水平重叠的可能性最低的探针组。另一种选择方法是基于几率比。在这种模型中,为所述三个或更多个靶基因的每一个提供一个或多个表达水平,及所述一或多种线性组合包括这样的线性组合,即包括所述三个或更多个靶基因每一个的加权项,每个加权项基于为相应靶基因提供的所述一或多个表达水平中的仅一个表达水平。如果如上所述每个靶基因仅选择一个表达水平,则该模型可以称为“最具辨别性(most discriminant)探针组”模型。
在所述“最具辨别性探针组”模型的一种替代中,在每个靶基因可能测量多个表达水平的情况下,可以利用为每个靶基因提供的所有表达水平。在这种模型中,为所述三个或更多个靶基因的每一个提供一或多个表达水平,及所述一或多种线性组合包括为所述三个或更多个靶基因提供的所述一或多个表达水平的所有表达水平的线性组合。换句话说,对于所述三个或更多个靶基因的每一个,各个靶基因的一或多个表达水平的每一个都可以在所述线性组合通过其自身(个体)权重来加权。这个变体可以称为“全探针组”模型。其具有在使用所有提供的表达水平时相对简单的优点。
如上所述的两个模型的共同点是其可以被视为“单层”模型,其中TF元件的活性水平基于所述三个或更多个靶基因的所述一或多个探针组的表达水平的线性组合计算。
在通过评估各个模型确定了TF元件(此处为AP-1TF元件)的活性水平之后,可以对确定的TF元件活性水平进行阈值设定以推测所述细胞信号传导途径(此处为MAPK-AP-1细胞信号传导途径)的活性。计算这种合适阈值的优选方法是通过比较已知具有不活跃细胞信号传导途径的训练样品和具有活跃细胞信号传导途径的训练样品的确定的TF元件活性水平wlc(加权线性组合)。通过使用阈值给出一种这样做的方法,该方法还考虑了这些组中的方差
Figure BDA0002639845330000091
其中σ和μ是训练样品确定的TF元件活性水平wlc的标准偏差和平均值。在活跃和/或不活跃训练样品中只有少量样品可用的情况下,可以基于两组方差的平均值将伪计数加入计算的方差中:
Figure BDA0002639845330000092
其中v是确定的各组TF元件活性水平wlc的方差,x是正的伪计数,例如1或10,nact和npas分别是活跃和不活跃样品数。接下来,可以通过求出方差v的平方根获得标准偏差σ。
为了便于解释,可以从确定的TF元件活性水平wlc中减去阈值,从而得出细胞信号传导途径的活性评分,其中负值对应于不活跃细胞信号传导途径,正值对应于活跃细胞信号传导途径。
作为上述“单层”模型的一种替代,“两层”模型也可用于实例中。在这种模型中,使用基于其相关探针组的测量强度的线性组合计算每个靶基因的汇总值(“第一(底)层”)。随后使用进一步的线性组合将计算的汇总值与细胞信号传导途径的其它靶基因的汇总值组合(“第二(上)层”)。同样,可以从训练数据集或者根据专业知识或其组合学习权重。换句话说,在所述“两层”模型中,为所述三个或更多个靶基因的每一个提供一或多个表达水平及所述一或多种线性组合包括所述三个或更多个靶基因的每一个的第一线性组合(为各个靶基因提供的一或多个表达水平的所有表达水平的组合)(“第一(底)层”)。所述模型进一步基于进一步的线性组合,其包括针对所述三个或更多个靶基因的每一个的加权项,每个加权项基于各个靶基因的第一线性组合(“第二(上)层”)。
在“两层”模型的优选形式中,汇总值的计算可以包括使用训练数据为每个靶基因定义阈值以及从计算的线性组合中减去所述阈值,从而得出靶基因汇总值。在此,可以选择阈值,使得靶基因负汇总值对应于下调的靶基因,而靶基因正汇总值对应于上调的靶基因。同样,在将靶基因汇总值组合在“第二(上)层”中之前,可以使用例如上述转换方式(模糊,离散等)转化靶基因汇总值。
如上所述,在通过评估“两层”模型确定了TF元件的活性水平之后,可以将确定的TF元件活性水平设定阈值以推测细胞信号传导途径的活性。
在下文中,上述模型统称为“(伪)线性”模型。在下文实施例3中提供了概率模型例如贝叶斯网络模型的训练和使用的更详细描述。
实施例2:靶基因的选择
转录因子(TF)能通过与特定DNA序列结合以调节靶基因转录从而控制从DNA到mRNA的遗传信息转录的是蛋白质复合物(即在特定结构中结合在一起的蛋白质组合)或者蛋白质。由于TF复合物的这种作用而直接产生的mRNA在本文中被称为(转录因子的)“直接靶基因”。细胞信号传导途径激活也可能导致更多的次级基因转录,称为“间接靶基因”。在下文中,优选包含作为细胞信号传导途径活性和mRNA水平之间的直接链接的直接靶基因或由这些直接靶基因组成的(伪)线性模型或贝叶斯网络模型(例如数学模型),但是直接靶基因和间接靶基因之间的区别并不总是明显。在本文中,提出了一种基于可用的科学文献数据使用评分函数选择直接靶基因的方法。但是,由于信息有限以及生物学变异和不确定性,不能排除偶然选择间接靶基因。为了选择靶基因,使用了美国国立卫生研究院(www.ncbi.nlm.nih.gov/pubmed并在本文中进一步称为“Pubmed”)的MEDLINE数据库以产生靶基因列表。此外,基于靶基因表达的经检验性质,选择靶基因的一个额外列表。
在2017年第一季度和第二季度通过使用查询词如(“AP-1”AND“target gene”)搜索包含推定的AP-1靶基因的出版物。仔细搜索不同的可能的AP-1二聚体的靶基因,例如Jun和Fos家族成员的不同组合。按照下面更详细描述的方法,对所得出版物进行进一步人工分析。
通过使用分级系统从科学文献中选择特定的细胞信号传导途径mRNA靶基因,在所述分级系统中,根据积累了证据的科学实验的类型,对特定靶基因的科学证据进行评级。虽然一些实验证据仅提示一个基因是直接靶基因,例如通过增加已知MAPK-AP-1细胞信号传导途径是活跃的细胞系的微阵列上探针组的强度检测到mRNA增加,但其它证据可能非常强,例如在刺激细胞中特定细胞信号传导途径之后,在染色质免疫沉淀测定(ChIP)中鉴别的AP-1TF结合位点的组合及这个位点提取(retrieval)的组合,以及在细胞系中特异性刺激细胞信号传导途径之后mRNA的增加。
在科学文献中可以鉴定一些类型的实验以发现特定的细胞信号传导途径靶基因:
1.ChIP实验,其中示出感兴趣的细胞信号传导途径的TF与基因组上其结合位点的直接结合。实例:通过使用染色质免疫沉淀(ChIP)技术,随后鉴别了有和没有活跃诱导MAPK-AP-1细胞信号传导途径(例如通过用TPA刺激)的细胞系的DNA中推定的功能性AP-1TF结合位点,,作为仅基于核苷酸序列识别的结合位点的子集。推定的功能性被鉴定为是发现TF与DNA结合位点结合的ChIP衍生证据。
2.电泳迁移率(EMSA)测定,其示出TF与包含结合序列的DNA片段的体外结合。与基于ChIP的证据相比,基于EMSA的证据不那么强,因为其不能转换为体内情况。
3.刺激细胞信号传导途径及使用微阵列、RNA测序、定量PCR或其它技术测量mRNA表达,使用MAPK-AP-1细胞信号传导途径可诱导的细胞系并在诱导后的至少一个、但优选几个时间点测量mRNA谱,在存在抑制翻译为蛋白质的环己酰亚胺的情况下进行,因此认为诱导的mRNA是直接靶基因。
4.与3相似,但是另外使用蛋白质丰度测量例如western印迹进一步下游测量mRNA表达。
5.使用生物信息学方法鉴定基因组中TF结合位点。AP-1TF元件的实例:使用结合基序TGA G/C TCA(TRE),在基因启动子区域鉴定出潜在的结合位点。
6.与3相似,唯一不同是不存在环己酰亚胺。
7.与4相似,唯一不同是不存在环己酰亚胺。
在最简单的形式中,对于这些实验方法的每一种可以给每个潜在基因1分,其中该基因被鉴定为是AP-1转录因子家族的靶基因。使用这种相对分级策略,可以列出最可信的靶基因列表。
或者,可以使用另一种分级方式通过对体内直接靶基因提供最多证据的技术赋予更高分以鉴定最可能是直接靶基因的靶基因。在上面的列表中,对于实验方法1)赋予7分,对于2)赋予6分,对于实验方法7)降低至1分。这种列表可以被称为“一般靶基因列表”。
此外,与“动物”证据相比,通过赋予“人类”证据更多权重,可以区分来自人类组织/细胞系和动物组织/细胞系的实验的证据。
尽管存在生物学差异和不确定性,但本发明人假设直接靶基因最有可能以组织非依赖性方式被诱导。这些靶基因的列表可以称为“靶基因证据汇总列表”。这种靶基因证据汇总列表已用于构建MAPK-AP-1细胞信号传导途径的计算模型,可应用于来自不同组织来源的样品。
下文示例性地描述了对于MAPK-AP-1细胞信号传导途径如何特异性地构建选择证据汇总靶基因列表。
本发明引进了在出版物中报道的一种评分函数,其为每种类型的实验证据例如ChIP、EMSA、差异表达、敲低/敲除、荧光素酶基因报告基因测定、序列分析等赋分。进行进一步分析以仅针对具有多样类型的实验证据的基因,而不是仅具有一种类型的实验证据的基因(例如差异表达)。选择那些具有一种以上类型的可用实验证据并且鉴定了TF结合位点的基因(如表1所示)。
本发明人进一步选择了靶基因的证据汇总列表(列于表2)。选择了被证明在确定训练样品的MAPK-AP-1信号传导途径的活性方面更有证明力的证据汇总列表靶基因。在此,使用了TPA处理的细胞系的可用表达数据集,即来自数据集GSE8742、GSE28878、GSE40117、GSE45417、GSE58235、GSE66853和EMTAB2091的样品的子集。用TPA处理的细胞是MAPK-AP-1活跃的,用对照物处理的细胞是MAPK-AP-1不活跃的。在来自GSE8742,GSE28878、GSE40117、GSE45417、GSE58235、GSE66853和EMTAB2091数据集的AP-1活跃和非活跃样品之间比较表1的“靶基因证据汇总列表”(24个靶基因列表)的基因表达值。如果靶基因的表达水平在途径活跃和非活跃组之间有明显差异,这表明该靶基因可用于区分途径活跃和非活跃组,然后选择所述靶基因。这样获得了表2示出的针对MAPK-AP-1模型的“11个靶基因入选列表”。
表1:在MAPK-AP-1细胞信号传导途径模型中使用的MAPK-AP-1细胞信号传导途径的“靶基因证据汇总列表”(24个靶基因列表)和用于测量靶基因mRNA表达水平的相关探针组
Figure BDA0002639845330000121
表2:基于AP-1靶基因的证据汇总列表的AP-1靶基因的“11个靶基因入选列表”(相关探针组与表1相同)
Figure BDA0002639845330000122
Figure BDA0002639845330000131
实施例3:训练和使用数学模型
在可以使用数学模型来推测对象中细胞信号传导途径(在本文中是MAPK-AP-1细胞信号传导途径)的活性之前,必须对模型进行适当训练。
如果数学途径模型是基于将AP-1TF元件的活性水平与在对象样品中测量的MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平相关联的条件概率的概率模型,例如贝叶斯网络模型,优选可以按照公开的国际专利申请WO2013/011479A2(“Assessmentof cellular signaling pathway activity using probabilistic modeling of targetgene expression”)中的详细描述进行训练。
如果数学途径模型是基于在对象样品中测量的MAPK-AP-1细胞信号传导途径的三个或更多个靶基因表达水平的一或多种线性组合,则训练可优选按照公开的国际专利申请WO2014/102668A2(“Assessment of cellular signaling pathway activity usinglinear combination(s)of target gene expressions”)中的详细描述进行。
在本文中,使用如图2所示的示例性贝叶斯网络模型以简单方式对MAPK-AP-1细胞信号传导途径的转录程序建模。该模型由三种类型的节点组成:(a)第一层1中的转录因子(TF)元件(状态为“不存在”和“存在”);(b)第二层2中的靶基因TG1、TG2、TGn(状态为“下调”和“上调”),以及(c)第三层3中与靶基因表达水平相连的测量节点。这些可以是微阵列探针组PS1,1、PS1,2、PS1,3,PS2,1、PSn,1、PSn,m(状态为“低”和“高”),如本文中优选使用的,也可以是其它基因表达测量如RNAseq或RT-qPCR。
数学模型(本文中是示例性贝叶斯网络模型)的合适实施基于微阵列数据。该模型描述了(i)靶基因的表达水平如何依赖于TF元件的激活,以及(ii)探针组强度又如何依赖于各个靶基因的表达水平。对于后者,探针组强度可以取自fRMA预处理的Affymetrix HG-U133Plus2.0微阵列,其可广泛得自Gene Expression Omnibus(GEO,www.ncbi.nlm.nih.gov/geo)和ArrayExpress(www.ebi.ac.uk/arrayexpress)。
由于示例性贝叶斯网络模型是细胞信号传导途径(在本文是MAPK-AP-1细胞信号传导途径)生物学的简化,并且由于生物学测量通常有噪音,因此选择了概率方法,即(i)TF元件和靶基因以及(ii)靶基因及其各自的探针组之间的关系以概率术语描述。此外,假定驱动肿瘤生长的致癌细胞信号传导途径的活性不是瞬时和动态改变的,而是长期甚至不可逆地改变的。因此,示例性贝叶斯网络模型被开发用于解释静态细胞状况。为此,复杂的动态细胞信号传导途径特征未纳入模型。
一旦建立并校准了示例性贝叶斯网络模型(参见下文),,所述模型可以如下用在新样品的微阵列数据上:通过在第三层3中输入探针组测量值作为观察值,并在模型中倒推TF元件为“存在”时的概率必须为多少。在这里,“存在”被认为是TF元件与DNA结合并控制细胞信号传导途径的靶基因转录的现象,而“不存在”是TF元件不控制转录的情况。因此,该概率是主要读数,可用于指示细胞信号传导途径(在本文是MAPK-AP-1细胞信号传导途径)的活性,接下来可以通过采用以下比率将其转换为细胞信号传导途径是活跃的几率:所述比率是所述细胞信号传导途径是活跃和是不活跃的概率比(即几率由p/(1-p)给出,其中p是细胞信号传导途径是活跃的预测概率)。
在示例性贝叶斯网络模型中,概率关系已被量化以允许定量概率推理。为了改善跨组织类型的泛化行为,精心手工挑选了描述(i)TF元件与靶基因之间的概率关系的参数。如果TF元件“不存在”,则靶基因最可能是“下调”,因此为此选择了0.95的概率,而为靶基因“上调”则选择了0.05的概率。后一(非零)概率是为了解释靶基因受其它因子调控或被偶然观察到为“上调”(例如由于测量噪声)的(罕见)可能性。如果TF元件“存在”,则概率为0.70,靶基因被认为是“上调”,而概率为0.30,靶基因被认为是“下调”。之所以如此选择后者数值,是因为可能有多种原因导致即使存在TF元件,靶基因也不高表达,例如,由于基因的启动子区域被甲基化。在靶基因不是被TF元件上调而是被下调的情况下,以类似方式选择概率,但是反映TF元件存在时下调。描述(ii)靶基因及其各自探针组之间关系的参数已在实验数据上进行了校准。对于后者,在本实施例中,使用了来自未处理细胞系用作不活跃MAPK-AP-1细胞信号传导途径样品而TPA处理的同一数据集的细胞系用作活跃MAPK-AP-1细胞信号传导途径样品的细胞系实验的微阵列数据,但是也可以使用其它细胞系实验或具有已知细胞信号传导途径活性状态的患者样品进行。所得的条件概率表如下给出:
A:对于上调的靶基因
Figure BDA0002639845330000141
B:对于下调的靶基因
Figure BDA0002639845330000142
在这些表中,变量ALi,j、AHi,j、PLi,j和PHi,j指示分别具有“低”(L)或“高”(H)探针组强度的“不存在”(A)或“存在”(P)转录复合物的校准样品数。已添加虚拟计数以避免极端概率0和1。
为了离散化所观察到的探针组强度,对于每个探针组PSi,j,使用阈值ti,j,在该阈值以下,观察值称为“低”,在该阈值以上,观察值称为“高”。该阈值已选择为所用校准数据集中的探针组的(加权)中位值强度。由于微阵列数据的噪音,当将观察到的探针组强度与其阈值进行比较时,采用一种模糊方法,假设所报道的强度周围是正态分布,标准偏差为0.25(在log2标尺上),并确定概率质量低于和高于所述阈值。
如果采用上述实施例1中所述的(伪)线性模型代替上述示例性贝叶斯网络,则在模型能够用于推测测试样品中的细胞信号传导途径活性之前,需要确定指示节点之间的相关性的符号和大小的权重以及调用节点是否为“不存在”或“存在”的阈值。可以使用专家知识先验地填充权重和阈值,但是典型地是使用一组代表性的训练样品对模型进行训练,优选是其中的基础事实是已知的,例如,具有已知的“存在”转录因子复合物(=活跃细胞信号传导途径)或“不存在”转录因子复合物(=不活跃细胞信号传导途径)的样品中的探针组的表达数据。
在本领域中已知多种训练算法(例如,回归),这些训练算法考虑模型拓扑并改变模型参数,在此是权重和阈值,由此模型输出(在此是加权线性分数)被优化。或者,也可以直接从观察到的表达水平计算权重,而无需优化算法。
在本文中被称为“黑白”方法的第一种方法归结为三元系统,其中每个权重是集合{-1,0,1}的元素。如果将其置于生物学背景中,则-1和1分别对应于在细胞信号传导途径活性的情况下被下调和上调的靶基因或探针组。如果无法通过统计学方式证明探针组或靶基因被上调或下调,则其权重为0。在一个实例中,可以使用活跃细胞信号传导途径样品的表达水平相对于具有不活跃细胞信号传导途径的样品的表达水平的左侧和右侧两样品t检验来确定根据所使用的训练数据,探针或基因是否是上调或下调的。在活跃样品的平均值在统计学上大于不活跃样品的情况下(即p值低于某个阈值,例如0.3),确定靶基因或探针组是上调的。相反,在活跃样品的平均值在统计学上低于不活跃样品的情况下,确定在激活细胞信号传导途径后,靶基因或探针组是下调的。如果最低p值(左侧或右侧)超过上述阈值,则可以将靶基因或探针组的权重定义为0。
第二种方法在本文中被称为“对数几率”-权重(“log odds”-weights),其基于几率比的对数(例如,底数e)。基于探针组/靶基因水平高于和低于相应阈值(例如,所有训练样品的(加权)中位值)的阳性和阴性训练样品的数量,计算每个靶基因或探针组的几率比。可以加入伪计数来规避除以零。进一步的改进是通过更概率的方式计数高于或低于阈值的样品,假设探针组/靶基因水平为例如在其观察值周围正态分布,具有一定特定标准偏差(例如在2-log标尺为0.25),并计算高于和低于所述阈值的概率质量。在本文中,与伪计数结合并且使用概率质量而不是确定性测量值来计算的几率比被称为“软”几率比。
关于使用靶基因表达的数学建模推测细胞信号传导途径活性的进一步细节可以见于Verhaegh W.et al.,“Selection of personalized patient therapy through theuse of knowledge-based computational models that identify tumor-drivingsignal transduction pathways”,Cancer Research,Vol.74,No.11,2014,2936-2945页。
在此,我们使用可公开获得的数据,其包含已用PKC激活物例如12-O-十四酰佛波-13-乙酯((TPA,也称作PMA,见例如Mudduluru G.et al,“PMA up-regulates thetranscription of Axl by AP-1transcription factor binding to TRE sequences viathe MAPK cascade in leukaemia cells”,Biology of the Cell,Vol.103,pages 21to33,2010)处理的细胞系,其增加AP-1活性。在这些数据集中,具有TPA处理的细胞系的样品被认为是AP-1活跃的,而包含未经TPA处理的细胞系的样品被认为是AP-1非活跃的。以下数据集已用于搜索校准样品:来自ArrayExpress(https://www.ebi.ac.uk/arrayexpress/):EMTAB2091、EMEXP2573、EMEXP2213、EMEXP3107;来自Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/gds/):GSE45417、GSE58235、GSE66853、GSE8742、GSE13710、GSE28878、GSE40117。在选择校准样品之前,对数据集进行质量控制以确保样品可靠。
为了从这些数据集中选择校准样品,进行如下程序:
-进行数据集的差别亚选择:
·基于处理,例如仅是对其除了TPA处理之外无其它处理的样品(AP-1活跃的),和仅是对其根本未进行处理的样品(AP-1非活跃的)。
·基于组织类型,例如,通过除去基于特定组织如肝脏或血液的所有样品。或者仅选择基于特定组织如肝脏或血液的样品。
·基于数据集:仅包括来自特定数据集(例如GSE28878)的样品。
·上述组合。
-基于如下对样品排名:
·相应于表1的AP-1靶基因的所有探针组水平的总和。
·相应于表1的AP-1靶基因的所有探针组水平的加权总和。
-选择前20个活跃样品和前20个非活跃样品作为校准样品。如果由于选择标准而导致样品总数明显减少,则选择较少的样品数。
-对于每个亚选择和排名建立一个模型。
-每个模型均在上述所有数据集上运行。
-根据样品是否经过TPA处理,将其分为活跃样品和非活跃样品(真实情况)。
-对于每个模型,将推测的AP-1活性(log2几率>0→AP-1=活跃;log2几率<0→AP-1=非活跃)与真实情况进行比较。
-使用以下标准评估推测的MAPK-AP-1细胞信号传导途径活性:
·均衡的精确性。
·来自各个数据集的活跃样品的平均推测的AP-1活性与非活跃样品的平均推测的AP-1活性(真实情况)之间的最小差异。(其基本原理是数据集内活跃与非活跃样品的推测的AP-1活性的差异不应太小。)
·来自各个数据集的活跃样品的平均推测的AP-1活性与非活跃样品的平均推测的AP-1活性(真实情况)之间的最大差异。(其基本原理是数据集内活跃与非活跃样品的推测的AP-1活性的差异不应太大。)
·来自各个数据集的活跃样品的平均推测的AP-1活性与非活跃样品的平均推测的AP-1活性(真实情况)之间的平均差异。(其基本原理是数据集内活跃与非活跃样品的推测的AP-1活性的较高平均差异是优选的。)
·来自各个数据集的活跃样品的平均推测的AP-1活性与非活跃样品的平均推测的AP-1活性(真实情况)之间差异的标准偏差。(其基本原理是数据集内活跃与非活跃样品的推测的AP-1活性的平均差异优选相似。)
-基于这5个标准的每一个对模型进行排名(1=最佳模型,n=最差模型)
-汇总所有排名,选择总排名最低的模型作为最终的AP-1模型。
最终的校准样品包含在如下数据集中:GSE40117,GSE58235,GSE28878,GSE8742,GSE45417,GSE66853,E-MTAB-2091。
经校准的模型在来自GEO数据库的众多公共数据集上进行验证,这些数据集包含有关AP-1活性的真实情况,即其中AP-1活性被诱导或抑制的细胞系(例如用TPA处理,或敲除AP-1亚基之一)。作为一个应用示例,将该模型在乳腺癌样品数据集和肺癌样品数据集上运行。
在下文中,经训练的示例性贝叶斯网络模型使用来自表1的靶基因的证据汇总列表(24个靶基因列表)的验证结果示于图9-13。
图9示出使用表1的靶基因证据汇总列表(24个靶基因列表),经训练的示例性贝叶斯网络模型对来自GSE28878(见Magkoufopoulou C.et al.,“A transcriptomics-basedin vitro assay for predicting chemical genotoxicity in vivo”,Carcinogenesis,Vol.33,No.7,pages 1421to 1429,2012)的18个样品的MAPK-AP-1细胞信号传导途径活性预测。将HepG2细胞系用作为对照运载体的DMSO处理(第1组:12h,所有3个样品均为校准数据集的一部分;第3组:24h,2个样品均为校准数据集的一部分;第5组:48h,1个样品是校准数据集的一部分)或用500nM TPA处理(第2组:12h,1个样品是校准数据集的一部分;第4组:24h,所有3个样品均是校准数据集的一部分;第6组:48h)。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的的几率,其中水平轴上方的值相应于TF元件更可能是“存在”/活跃的,而水平轴下方的值表示TF元件“不存在”/不活跃的几率大于其“存在”/活跃的几率。MAPK-AP-1模型准确检测到在暴露于TPA之后AP-1活性的明显增加。
图10示出使用表1的靶基因的证据汇总列表(24个靶基因列表),经训练的示例性贝叶斯网络模型对来自数据集GSE45417(Ramsey J.E.and Fontes J.D.,“The ZincFinger Transcription Factor ZXDC Activates CCL2 Gene Expression by OpposingBCL6-mediated Repression”,Molocular Immunology,Vo.56,No.4,pages 768to 780,2013)的12个样品的MAPK-AP-1细胞信号传导途径活性预测。将U937(组织细胞性淋巴瘤)细胞系用作为对照运载体的0.1%DMSO处理(第1组:所有3个样品均是校准数据集的一部分;及第3组)或用100nM TPA处理(第2组:所有3个样品均为校准数据集的一部分;及第4组)。此外,使用强力霉素诱导ZXDC1敲低(第3组和第4组)。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率,其中水平轴上方的值相应于TF元件更可能是“存在”/活跃的,而水平轴下方的值指示TF元件“不存在”/不活跃的几率大于其“存在”/活跃的几率。在这两种情况中,MAPK-AP-1模型准确地检测到在暴露于TPA之后,不依赖于ZXDC1敲低的AP-1活性的明显增加。
图11示出使用表1的靶基因证据汇总列表(24个靶基因列表),经训练的示例性贝叶斯网络模型对来自数据集GSE66853(见Steinmetz B.et al.,“The oncogeneEVI1enhances transcriptional and biological responses of human myeloid cellsto all-trans retinoic acid”,Cell Cycle,Vol.13,No.18,pages 2931to 2943,2014)的18个样品的MAPK-AP-1细胞信号传导途径活性预测。将U937细胞用作为对照运载体的乙醇处理(第1组:所有3个样品均是校准数据集的一部分;及第3组)或用50ng/ml TPA处理(第2组:1个样品是校准数据集的一部分;以及第4组)处理24小时。将U937细胞用空载体(第1和2组)或用EVI1表达载体(第3和4组)传导。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率,其中水平轴上方的值相应于TF元件更可能是“存在”/活跃的,而水平轴下方的值指示TF元件“不存在”/不活跃的几率大于其“存在”/活跃的几率。在这两种情况中,MAPK-AP-1模型准确地检测到在暴露于TPA之后,相较于乙醇处理组,AP-1活性明显增加。尽管已知FOS和JUN启动子区包含EVI1结合位点,但与加入50ng/ml TPA相比,这对AP-1活性的影响似乎非常小。
图12示出使用表1的靶基因证据汇总列表(24个靶基因列表),经训练的示例性贝叶斯网络模型对来自数据集E-MEXP-2213(见Navarro F.et al.,“miR-34a contributesto megakaryocytic differentiation of K562 cells independently of p53”,Blood,Vol.114,No.10.,pages 2181to 2192,2009)的2个样品的MAPK-AP-1细胞信号传导途径活性预测。将K562(红白血病)细胞不予处理(第1组)或用10nM TPA处理(第2组)。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率,其中水平轴上方的值相应于TF元件更可能是“存在”/活跃的,而水平轴下方的值指示TF元件“不存在”/不活跃的几率大于其“存在”/活跃的几率。MAPK-AP-1模型准确地检测到在暴露于TPA之后AP-1活性明显增加。
图13示出使用表1的靶基因证据汇总列表(24个靶基因列表),经训练的示例性贝叶斯网络模型对来自数据集GSE2677、GSE2842(见Schmidt S.et al.,“Identification ofglucocorticoid-response genes in children with acute lymphoblastic leukemia”,Blood Vol.107,No.5,pages 2061to 2069,2006)和GSE39338(见Chen D.W.et al.,“Ergand AP-1as determinants of glucocorticoid response in acute lymphoblasticleukemia”,Oncogene,Vol.32,No.25,pages 3039to 3048,2013)的25个样品的MAPK-AP-1细胞信号传导途径活性预测。将急性淋巴细胞白血病(ALL)细胞是糖皮质激素敏感(S0h;左)或糖皮质激素抗性(R0h;右)。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率。ChenD.W.et al.发现在糖皮质激素敏感细胞中,c-Jun被明显诱导。MAPK-AP-1模型准确地检测到与糖皮质激素抗性细胞相比,在糖皮质激素敏感细胞中较高的AP-1活性。
在下文中,图14-17示出使用表2的11个靶基因入选列表,经训练的示例性贝叶斯网络模型的验证结果。
图14示出使用表2的11个靶基因入选列表,经训练的示例性贝叶斯网络模型对来自数据集GSE40117(见Doktorova T.Y.et al.,“Transcriptomic responses generatedby hepatocarcinogens in a battery of liver-based in vitro models”,Carcinogenesis,Vol.34,No.6,pages 1393to 1402,2013)的15个样品的MAPK-AP-1细胞信号传导途径活性预测。将人胚胎干细胞衍生的肝细胞样细胞(hES-Hep)用0.11μM TPA处理(第2组:所有3个样品均为校准数据集的一部分)并与对照条件进行比较(第1组)。将HepG2(人肝癌细胞系)用0.0001μM TPA处理(第4组:3个样品均是校准数据集的一部分)并与对照条件进行比较(第3组:1个样品是校准数据集的一部分)。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率,其中水平轴上方的值相应于TF元件更可能是“存在”/活跃的,而水平轴下方的值指示TF元件“不存在”/不活跃的几率大于其“存在”/活跃的几率。在这两种情况中,MAPK-AP-1模型准确检测到在暴露于TPA之后AP-1活性明显增加。
图15示出使用表2的11个靶基因入选列表,经训练的示例性贝叶斯网络模型对来自数据集GSE58235(见Deferme L.et al.,“Oxidative stress mechanisms do notdiscriminate between genotoxic and nongenotoxic liver carcinogens”,ChemicalResearch in Toxicology,Vol.28,No.8,pages 1636to 1646,2015)的18个样品的MAPK-AP-1细胞信号传导途径活性预测。将HepG2(人类肝癌)细胞系用0.5%DMSO(第1组:所有3个样品均为校准数据集的一部分;第4组:1个样品为校准数据集的一部分)、0.5%乙醇(第2组和第5组)或500nM TPA(第3组:所有3个样品都是校准数据集的一部分;及第6组)处理24小时(第1至3组)或48小时(第4至6组)。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率,其中水平轴上方的值相应于TF元件更可能是“存在”/活跃的,而水平轴下方的值指示TF元件“不存在”/不活跃的几率大于其“存在”/活跃的几率。在这两种情况中,MAPK-AP-1模型准确地检测到与DMSO和乙醇处理组相比,在暴露于TPA之后AP-1活性明显增加。
图16示出使用表2的11个靶基因入选列表,经训练的示例性贝叶斯网络模型对来自数据集E-MEXP-2573(见Goodfellow S.J.et al.,“WT1 and its transcriptionalcofactor BASP1 redirect the differentiation pathway of an established bloodcell line”,Biochemical Journal,Vol.435,pages 113to 125,2011)的12个样品的MAPK-AP-1细胞信号传导途径活性预测。24小时后从K562(红细胞白血病)细胞中提取RNA(第1组和第3组),或者将细胞用100nM TPA再处理48小时后从中提取RNA(第2组和第4组)。K562用对照空载体(第1组和第2组)或含BASP1的载体(第3组和第4组)转染。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率,其中水平轴上方的值相应于TF元件更可能是“存在”/活跃的,而水平轴下方的值指示TF元件“不存在”/不活跃的几率大于其“存在”/活跃的几率。在这两种情况中,MAPK-AP-1模型准确地检测到在暴露于TPA之后AP-1活性明显增加。
图17示出使用表2的11个靶基因入选列表,经训练的示例性贝叶斯网络模型对来自数据集GSE21618(Oyama M.et al.,“Integrated quantitative analysis of thephosphoproteome and transcriptome in taximofen-resistant breast cancer”,TheJournal Of Biological Chemistry,Vol.286,No.1,pages 818to 829,2011)的56个样品的MAPK-AP-1细胞信号传导途径活性预测。MCF-7人乳腺癌细胞系保持为野生型(HRG-WT;左)或者使其对它莫昔芬(tamoxifen)抗性,用调节蛋白(HRG-TamR;中)刺激或用17β-雌二醇(E2-WT;右)刺激。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率。Oyama M.等发现JUN家族(c-JUN,JUNB和JUNB)基序在HRG刺激的TamR细胞中比在野生型细胞中具有更高的得分,但其调节在E2刺激的细胞中却相反。实际上,MAPK-AP-1模型发现在HRG刺激的TamR细胞中AP-1活性比在野生型细胞中更高,对于E2刺激的细胞却发现了相反的结果。
图18示出使用所述模型使用表2的11个靶基因入选列表,经训练的示例性贝叶斯网络模型对来自GSE6532、GSE9195、GSE12276、GSE20685、GSE21653、GSE58812、GSE66986、GSE102484和E-MTAB-365的样品中乳腺癌亚组进行的进一步验证结果(亚组(从左至右):基底;HER2;管腔A型(LumA);管腔B型(LumB);和正常样(NormL))。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率。在这些数据集中乳腺癌样品中观测到高和低两种AP-1活性,而基底和HER2亚型具有平均高AP-1活性。进行单向ANOVA及随后的Games-Howell post-hoc检验的结果表明,除HER2 vs.Basal、NormL vs.LumA之外,几乎所有组都有显著差异,见表3所示。
表3:图18示出比较乳腺癌样品不同亚组的Games-Howell post-hoc检验结果。p值<0.05被认为是显著的。
对比 p adj
HER2-基底 1
LumA-基底 0
LumB-基底 0
NormL-基底 2.87e-09
LumA-HER2 2.87e-09
LumB-HER2 0
NormL-HER2 2.45e-09
LumB-LumA 5.34e-06
NormL-LumA 1
NormL-LumB 5.40e-05
图19示出Kaplan-Meier曲线,该曲线显示具有高AP-1活性的乳腺癌患者(如使用经过训练的示例性贝叶斯网络模型使用表1的靶基因证据汇总列表(24个靶基因列表)进行检测)与具有低AP-1活性的患者相比具有明显较差的预后(p=0.000569,对数秩检验)。数据来自GSE6532,GSE9195,GSE20685,GSE21653和E-MTAB-365。
图20示出使用所述模型用表1的靶基因证据汇总列表(24个靶基因列表),经训练的示例性贝叶斯网络模型对来自GSE5060、GSE10006、GSE10245、GSE13933、GSE19667、GSE28582、GSE30219、GSE33532、GSE43346和GSE50081的样品中肺癌亚组的进一步验证结果(亚组(从左至右):正常;非小细胞肺癌–腺癌(NSCLC-ADC);非小细胞肺癌–鳞状细胞癌(NSCLC)-SQC);小细胞肺癌(SCLC))。在该图中,垂直轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率。当与正常样品相比时,在这些数据集中的NSCLC样品中观察到了高AP-1活性。从科学文献中得知,AP-1在肺癌中起作用(见例如Eferl R.and Wagner E.F.,“AP-1:a double-edgedsword in tumorigenesis”,Nature Reviews Cancer,Vol.3,No.11,pages 859to 868,2003)。与正常样品相比,在SCLC样品中观察到较低的AP-1活性。
图21示出分别用表1的靶基因证据汇总列表(24个靶基因列表)和表2的11个靶基因入选列表对来自公共数据集的5307个样品进行的经训练的示例性贝叶斯网络模型之间的相关性。在该图中,水平轴表示TF元件“存在”相对于“不存在”的几率(log2标尺),其相应于MAPK-AP-1细胞信号传导途径是活跃的相对于不活跃的几率,如通过经训练的示例性贝叶斯网络模型使用表1的靶基因证据汇总列表(24个靶基因列表)预测。垂直轴表示相同信息,如通过经训练的示例性贝叶斯网络模型使用表1的11个靶基因入选列表预测(数据集GSE2677,GSE2842,GSE6532,GSE8742,GSE9195,GSE10245,GSE12276,GSE13710,GSE19804,GSE20685,GSE21618,GSE21653,GSE23630,GSE24290,GSE27914,GSE28878,GSE31912,GSE33532,GSE39338,GSE40117,GSE43346,GSE45417,GSE50081,GSE58235,GSE58812,GSE59230,GSE63074,GSE66082,GSE66853,GSE69986,GSE77803,GSE102287,GSE102484,E-MEXP-2213,E-MEXP-2573,E-MEXP-3040,E-MEXP-3107,E-MTAB-365,E-MTAB-2091,E-TABM-782)。这两个模型显著相关,p值为2.2e-16,相关系数为0.9853。
代替对来自微阵列或RNA测序的mRNA输入数据应用经校准的数学模型例如示例性贝叶斯网络模型,在临床应用中开发专用测定以例如在集成平台上使用qPCR确定靶基因mRNA水平来进行样品测量可能是有益的。然后可以使用公开的靶基因的RNA/DNA序列来确定在这种平台上选择哪些引物和探针。
可以通过使用基于微阵列的数学模型作为参考模型,并验证所开发的测定是否在一组验证样品上给出相似的结果,来进行此类专用测定的验证。除了专用测定,还可以使用RNA测序数据作为输入测量来建立和校准相似的数学模型。
基于使用经校准的数学模型例如示例性贝叶斯网络模型的基于微阵列/RNA测序的研究,发现最佳指示特异细胞信号传导途径活性的靶基因组,例如表1和表2,可以转换成在对象样品上和/或在计算机上进行的多重定量PCR分析,以解释表达测量结果和/或推测MAPK-AP-1细胞信号传导途径的活性。为了开发这种针对细胞信号传导途径活性的测试(例如,在中央服务实验室中的FDA批准的或免于CLIA的测试,或者仅用于研究目的的实验室开发的测试),需要开发标准化测试试剂盒,在临床试验中需临床验证以获得监管部门批准。
本发明涉及通过数字处理装置进行的推测对象中MAPK-AP-1细胞信号传导途径活性的计算机执行方法,其中所述推测基于在对象样品中测量的MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平。本发明进一步涉及一种用于推测对象中MAPK-AP-1细胞信号传导途径活性的设备,其包括配置为执行所述方法的数字处理器,涉及一种用于推测对象中MAPK-AP-1细胞信号传导途径活性的非暂时性存储介质,其存储可由数字处理装置执行的指令以执行所述方法,以及涉及一种用于推测对象中MAPK-AP-1细胞信号传导途径活性的计算机程序,该计算机程序包括当计算机程序在数字处理装置上运行时用于使数字处理装置执行所述方法的程序代码模块。
所述方法可以例如用于诊断MAPK-AP-1细胞信号传导途径的(异常)活性,用于基于MAPK-AP-1细胞信号传导途径的推测的活性的预后,用于基于推测的MAPK-AP-1细胞信号传导途径活性的临床试验对象的招募,用于选择要进行的后续测试,用于选择伴随诊断测试,用于临床决策支持系统等等。在此方面,参考公开的国际专利申请WO 2013/011479 A2(“Assessment of cellular signaling pathway activity using probabilisticmodeling of target gene expression”)、公开的国际专利申请WO 2014/102668 A2(“Assessment ofcellular signaling pathway activity using linear combination(s)of target gene expressions”),以及Verhaegh W.et al.,“Selection ofpersonalized patient therapy through the use of knowledge-based computationalmodels that identify tumor-driving signal transduction pathways”,CancerResearch,Vol.74,No.11,2014,pages 2936to 2945,其更详细地描述了这些申请。
实施例4:例证本发明的进一步信息
(1)测量基因表达水平
使用本文所述的方法,进一步利用源自本文所述的独特的靶基因组的数据来推测MAPK-AP-1细胞信号传导途径的活性。
分析提取样品中基因表达水平的方法是公知的。例如,诸如Northern印迹、使用PCR、巢式PCR、定量实时PCR(qPCR)、RNA-seq或微阵列之类的方法都可以用于获得基因表达水平数据。本文包括本领域已知的用于分析靶基因的基因表达的所有方法。
使用基于PCR的方法确定基因表达产物的方法可能特别有用。为了使用PCR定量基因表达的水平,典型地使用常规定量实时PCR(qPCR)估算每个感兴趣PCR产物的量,以在每轮扩增循环后实时测量PCR产物的积累。这典型地利用可检测的报告分子,例如嵌合染料、小沟结合染料或荧光探针,从而通过施加光激发报告分子发出荧光,并且典型地使用CCD相机或光电倍增检测系统检测所产生的荧光,例如在美国专利号6,713,297中所公开的,该专利并入本文作参考。
在一些实施方案中,用于在定量实时PCR(qPCR)测定中检测PCR产物的探针可以包括荧光标记。有许多荧光标记是可商业获得的。例如,Molecular Probes,Inc.(Eugene,Oreg.)出售各种荧光染料。非限制性例子包括Cy5、Cy3、TAMRA、R6G、R110、ROX、JOE、FAM、Texas RedTM和Oregon GreenTM。其它荧光标记可以包括qPCR测定中的具有传统5’水解探针的IDT ZEN Double-Quenched探针。这些探针可以含有例如5′FAM染料,其具有3’TAMRAQuencher,3’Black Hole Quencher(BHQ,Biosearch Technologies),或者内部ZENQuencher和3’Iowa Black Fluorescent Quencher(IBFQ)。
可以使用本领域公知的方法将根据本发明有用的荧光染料连接至寡核苷酸引物。例如,向寡核苷酸添加荧光标记的一种常见方法是使染料的N-羟基琥珀酰亚胺(NHS)酯与靶的反应性氨基反应。通过例如在核碱基上包含烯丙基胺基,可以修饰核苷酸以携带反应性氨基。经由烯丙基胺的标记描述于例如美国专利号5,476,928和5,958,691,所述专利引入本文作参考。荧光标记核苷酸、寡核苷酸和多核苷酸的其它手段是本领域技术人员公知的。
其它发荧光的方法包括使用通用检测系统,例如SYBR-绿色染料,当其插入来自任何基因表达产物的扩增的DNA时,其发出荧光,如美国专利5,436,134和5,658,751所述,所述专利引入本文作参考。
确定靶基因表达水平的另一种有用方法包括RNA-seq,一种用于转录组分析的功能强大的分析工具,包括不同生理条件之间的基因表达水平差异,或在发育或疾病进展过程中发生的变化。
确定基因表达水平的另一种方法包括使用微阵列,例如RNA和DNA微阵列,这是本领域公知的。微阵列可用于同时定量大量基因的表达。
(2)确定MAPK-AP-1细胞信号传导活性的通用工作流程
图3示例性地示出了用于推测分离自对象的样品中MAPK-AP-1细胞信号传导活性的方法的流程图。首先,分离来自样品的mRNA(11)。其次,使用本领域已知的用于测量基因表达的方法来测量本文所述的一组独特的至少三个或更多个AP-1靶基因的mRNA表达水平(12)。接下来,使用经校准的数学途径模型(14)确定AP-1转录因子(TF)元件的活性水平(13),所述模型将所述三个或更多个AP-1靶基因的表达水平与AP-1TF元件的活性水平相关联。最后,基于所确定的对象样品中AP-1TF元件的活性水平,推测对象中MAPK-AP-1细胞信号传导途径的活性(15)。例如,如果活性高于某个阈值,则确定MAPK-AP-1细胞信号传导途径是活跃的;如果活性低于某个阈值,则可以归类为不活跃。
(3)经校准的数学途径模型
如本文中预期的,使用本文中进一步描述的经校准的数学途径模型,将本文所述的独特的三个或更多个AP-1靶基因组的表达水平用于确定AP-1TF元件的活性水平。所述经校准的数学途径模型将所述三个或更多个AP-1靶基因的表达水平与AP-1TF元件的活性水平相关联。
如本文所预期的,经校准的数学途径模型是基于数学途径模型的应用。例如,经校准的数学途径模型可以基于概率模型,例如贝叶斯网络模型,或线性或伪线性模型。
在一个实施方案中,经校准的数学途径模型是结合条件概率关系的概率模型,所述条件概率关系将AP-1TF元件和所述三个或更多个AP-1靶基因的表达水平相关联。在一个实施方案中,所述概率模型是贝叶斯网络模型。
在另一个实施方案中,经校准的数学途径模型可以是线性或伪线性模型。在一个实施方案中,所述线性或伪线性模型是如本文进一步描述的线性或伪线性组合模型。
图4中示出了示例性说明生成经校准的数学途径模型的方法的流程图。作为初始步骤,采集并标准化mRNA表达水平的训练数据。可以使用例如微阵列探针组强度(101)、实时PCR Cq值(102)、原始RNAseq读数(103)或本领域已知的其它测量方式(104)来采集数据。原始表达水平数据然后可以通过标准化算法的标准化而分别针对每种方法标准化,例如,冻结鲁棒多阵列分析(fRMA)或MAS5.0(111),标准化至参考基因的平均Cq(112),将读数标准化为读数/片段每千碱基转录物每百万映射读数(reads/fragments per kilobase oftranscript per million mapped reads)(RPKM/FPKM)(113),或根据参考基因/蛋白质标准化(114)。这种标准化程序分别导致针对每种方法的标准化探针组强度(121),标准化Cq值(122),标准化RPKM/FPKM(123)或标准化测量(124),其表示训练样品中的靶基因表达水平。
一旦训练数据已经标准化,就获得一个或多个训练样品ID(131),并且从确定基因表达的方法之一获得这些特定样品的训练数据(132)。来自训练样品的最终基因表达结果作为训练数据输出(133)。合并来自各种训练样品的所有数据以校准模型(包括例如,阈值,CPT,例如在概率或贝叶斯网络的情况下;权重,例如在线性或伪线性模型的情况下等)(144)。此外,途径的靶基因和测量节点(141)用于生成模型结构,例如,如图2所述(142)。然后将所得的途径模型结构(143)与训练数据(133)合并以校准模型(144),其中靶基因的基因表达水平指示转录因子元件活性。作为训练样品中TF元件确定的结果,生成一个经校准的途径模型(145),该模型基于训练样品中的靶基因表达水平为后续检验的感兴趣样品分配MAPK-AP-1细胞信号传导途径活性,例如来自患有癌症的对象的样品。
(4)TF元件确定
图5中示出了示例性说明用于确定TF元件的活性水平的方法的流程图。来自从对象提取的样品的表达水平数据(测试数据)(163)被输入经校准的数学途径模型(145)中。所述数学途径模型可以是概率模型,例如贝叶斯网络模型,线性模型或伪线性模型。
所述数学途径模型可以是概率模型,例如贝叶斯网络模型,其基于将AP-1TF元件与在对象样品中测量的MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平相关联的条件概率,或者所述数学模型可以基于在对象样品中测量的MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平的一种或多种线性组合。特别地,可以如公开的国际专利申请WO 2013/011479 A2(“Assessment of cellular signaling pathwayactivity using probabilistic modeling of target gene expression”)中所述进行MAPK-AP-1细胞信号传导途径活性的确定,所述专利全文引入本文。简而言之,将数据输入贝叶斯网络(BN)推理引擎调用(inference engine call)(例如BNT工具箱)中(154)。这导致针对BN中所有节点的计算的边际BN概率的一组值(155)。根据这些概率,确定转录因子(TF)节点的概率(156)并确定TF元件活性水平(157)。
或者,所述数学模型可以是线性模型。例如,可以如公开的国际专利申请WO 2014/102668 A2(“Assessment of cellular signaling pathway activity using linearcombination(s)of target gene expressions”)所述使用线性模型,该专利全文引入本文。关于用靶基因表达的数学建模计算/确定细胞信号传导途径活性的进一步细节可见于Verhaegh W.et al.,"Selection of personalized patient therapy through the useof knowledge-based computational models that identify tumor-driving signaltransduction pathways",Cancer Research,Vol.74,No.11,2014,pages 2936to 2945。简而言之,将数据输入到计算的加权线性组合得分(w/c)(151)。这导致针对计算的加权线性组合得分的一组值(152)。根据这些加权线性组合得分,确定转录因子(TF)节点的加权线性组合得分(153)并确定TF元件活性水平(157)。
(5)离散观察值的程序
图6示出了流程图,示例性说明以离散观察值推测对象中MAPK-AP-1细胞信号传导途径活性的方法。首先,提取测试样品并给予测试样品ID(161)。接下来,采集和标准化mRNA表达水平的测试数据(162)。可以使用与图5中训练样品所讨论的方法相同的方法,使用微阵列探针组强度(101)、实时PCR Cq值(102)、原始RNAseq读数(103)或替代测量方法(104)来采集测试数据。然后可以针对每种方法分别对原始表达水平数据进行标准化:使用算法进行标准化,例如fRMA或MAS5.0(111),标准化为参考基因的平均Cq(112),将读数标准化为RPKM/FPKM(113)和针对参考基因/蛋白质标准化(114)。这种标准化程序对于每种方法分别导致标准化探针组强度(121),标准化Cq值(122),标准化RPKM/FPKM(123)或标准化测量值(124)。
一旦测试数据已被标准化,则基于经校准的数学途径模型(145)在阈值化(thresholding)步骤(164)中分析所得的测试数据(163),产生阈值化的测试数据(165)。在使用离散观察值时,在一个非限制性实例中,例如,特定阈值以上的每个表达被赋予为1的值,而低于该阈值的值被赋予为0的值,或者在另一实施方案中,高于本文所述阈值的概率质量被用作阈值化值。基于经校准的数学途径模型,该值表示TF元件的活性水平(157),然后将其用于计算细胞信号传导途径的活性(171)。最终输出给出对象中细胞信号传导途径活性(172)。
(6)连续观察值的程序
图7示出了流程图,示例性说明以连续观察值推测对象中MAPK-AP-1细胞信号传导途径活性的方法。首先,提取测试样品并给予测试样品ID(161)。接下来,采集和标准化mRNA表达水平的测试数据(162)。可以使用与图5中训练样品所讨论的方法相同的方法,使用微阵列探针组强度(101)、实时PCR Cq值(102)、原始RNAseq读数(103)或替代测量方法(104)来采集测试数据。然后可以针对每种方法分别对原始表达水平数据进行标准化:使用算法进行标准化,例如fRMA(111),标准化为参考基因的平均Cq(112),将读数标准化为RPKM/FPKM(113)和针对参考基因/蛋白质标准化(114)。这种标准化程序对于每种方法分别导致标准化探针组强度(121),标准化Cq值(122),标准化RPKM/FPKM(123)或标准化测量值(124)。
一旦测试数据已被标准化,则在经校准的数学途径模型(145)中分析所得的测试数据(163)。在使用连续观察值时,作为一个非限制性实例,使用本文进一步描述的S型函数将表达水平转换为0到1之间的值。本文所述的TF元件确定被用于与经校准的数学途径模型组合解释测试数据,所得的值表示TF元件的活性水平(157),然后将其用于计算细胞信号传导途径的活性(171)。最终输出给出对象中细胞信号传导途径的活性(172)。
(7)靶基因表达水平确定程序
图8示出了流程图,示例性说明用于从提取自对象的样品中获得靶基因表达水平的方法。在一个示例性实施方案中,在实验室中接收并登记样品。样品可包括,例如,福尔马林固定的石蜡包埋的(FFPE)样品(181)或新鲜冷冻(FF)样品(180)。FF样品可以直接裂解(183)。对于FFPE样品,可以在添加蛋白酶K后通过加热保温步骤去除石蜡(182)。然后裂解细胞(183),破坏细胞和核膜,使核酸(NA)可用于进一步处理。核酸与固相(184)结合,固相可以是例如珠或滤膜。然后用洗涤缓冲液洗涤核酸以去除裂解后存在的所有细胞碎片(185)。然后用洗脱缓冲液将纯净的核酸与固相分离(186)。通过DNAse处理去除DNA,以确保样品中仅存在RNA(187)。然后可以将核酸样品直接用于RT-qPCR样品混合物中(188)。RT-qPCR样品混合物包含RNA样品、用于从RNA样品制备cDNA的RT酶和用于扩增cDNA的PCR酶、确保酶功能的缓冲液,并且可以含有分子级水以设置固定浓度体积。样品混合物然后可以加入到含有干的RT-qPCR测定的多孔板(即96孔或384孔板)(189)。然后在PCR仪中根据特定方案进行RT-qPCR(190)。一个举例的PCR方案包括i)50℃ 30分钟;ii)95℃ 5分钟;iii)95℃15秒;iv)60℃ 45秒;v)重复步骤iii和iv 50个循环。然后用二阶导数法用原始数据确定Cq值(191)。输出Cq值用于分析(192)。
(8)MAPK-AP-1介导的疾病和病症及治疗方法
如本文中所预期的,本发明的方法和设备可以用于评估对象中的MAPK-AP-1细胞信号传导途径活性,所述对象例如是怀疑患有或患有疾病或病症的对象,其中MAPK-AP-1信号传导途径的状态全部或部分地证明疾病的存在或进展。在一个实施方案中,本文提供一种治疗对象的方法,包括:接收MAPK-AP-1细胞信号传导途径的活性状态相关的信息,所述信息是使用本文所述方法从提取自对象的样品中得出,以及给予对象表示活跃MAPK-AP-1细胞信号传导途径的途径。在一个特定实施方案中,MAPK-AP-1细胞信号传导途径活性指示设置成MAPK-AP-1细胞信号传导途径是活跃的几率的截断值10:1、5:1、4:1、2:1、1:1、1:2、1:4、1:5、1:10。
本申请描述了一些优选的实施方案。在阅读和理解前面的详细描述之后,其它人会想到修改和改变。本申请意在解释为包括所有这样的修改和改变,只要其符合所附权利要求或其等同物的范围内。
通过研究附图、公开内容和所附权利要求,本领域技术人员在实施所要求保护的发明时可以理解和实现所公开的实施方案的其它变型。
在权利要求中,词语“包含”不排除其它要素或步骤,并且不定冠词“一”或“一个”不排除多个。
单个单元或装置可以实现权利要求中描述的若干项的功能。在互不相同的从属权利要求中描述某些措施的事实并不意味着不能有利地使用这些措施的组合。
由一个或几个单元或装置执行的风险评分确定之类的计算可以由任何其它数量的单元或装置执行。
计算机程序可以与其它硬件一起提供或作为其它硬件的一部分在适当的介质例如光存储介质或固态介质上存储/分发,但也可以以其它形式分发,例如通过互联网或其它有线或无线通讯系统分发。
实施例5:申请中使用的序列列表
序列表:
Figure BDA0002639845330000261
Figure BDA0002639845330000271
序列表
<110> 皇家飞利浦有限公司
<120> 使用靶基因表达的数学建模评估MAPK-AP-1细胞信号传导途径活性
<130> 2017PF02554
<160> 24
<170> PatentIn version 3.5
<210> 1
<211> 5106
<212> DNA
<213> Homo sapiens
<400> 1
acttcgctcc gcgcagccgc ctggtctgca gtttgttgga gctctgcgtc cagcgccgct 60
gccgctgccg ccgccgccgc cgccgccgcc gccgccgccg ccgccgccac taccaccact 120
tgattcttgc agccaccctg cgaaccctgc cacactgcga tcgcatcatc gcggtattcg 180
gttcgctgcg ttcccgccgc caccgcctcg gcgccctttc ttggcccttg ttcccccaaa 240
tgtctgactc tgactctcgg actgagaaac gcaagaaaaa aagaccaaat ggcaaagcaa 300
ccttctgatg taagttctga gtgtgaccga gaaggtagac aattgcagcc tgcggagagg 360
cctccccagc tcagacctgg ggcccctacc tccctacaga cagagccaca aggtaatcct 420
gaaggcaatc acggaggtga aggggacagc tgcccccacg gcagccctca gggcccgctg 480
gccccacctg ccagccctgg cccttttgct accagatccc cgcttttcat ctttatgaga 540
agatcctccc tgctgtctcg atcctccagt gggtatttct cttttgacac agacaggagc 600
ccagcaccca tgagttgtga caaatcaaca caaaccccaa gtcctccttg ccaggccttc 660
aaccactatc tcagtgcaat ggcttccatg aggcaggctg aacctgcaga tatgcgccca 720
gagatatgga tcgcccaaga gttgcggcgt attggagacg agtttaacgc ttactatgca 780
aggagggtat ttttgaataa ttaccaagca gccgaagacc acccacgaat ggttatctta 840
cgactgttac gttacattgt ccgcctggtg tggagaatgc attgacaggt tctttgcgga 900
gccgagatac catgcagaca ttttgcttgt tcaaaccaac aagacccagc accgcggtct 960
cctggtgcca ttattatgca gccagcggtt ctcttgtgga gggggcaggt gacgtttcag 1020
aagacaccga gctggatggg actacctttc tgttcatcac cacacagcag aatttctaat 1080
ggaagtttgt tgtgaatgta aaggagggag cattctttgc tttttaatat acaaaccatg 1140
gttttttgga gcaggatttt gtgtaagaat ggtgtttaca tgcagtgtgt tttccccctc 1200
accttcaata aggtttttca aaaaggaaat ggaaactttt taaccaattt gtgaataact 1260
tttgtattaa aattttaaga acctacggcc tattctcaga ggattatgta acccctgcag 1320
tggaaactga gccagctaac ttaaaaagct gccttagttt atttttagag attacagaat 1380
ttttaaacag ggagacgtgt gatatactcc ctcccttccc tactattgcc tctctgacct 1440
ttttaaatta tttttaatac caaaagagtt cttttgaaat ggaactgatt aaaagggcag 1500
agggtctgtt gccagcctgc attgatatac cagtcccatt tgtaaatatt tacgtacctt 1560
tataaattca gttgcatctg tggcaaaatt tcagactatt tttgcgtctt tcctcatcac 1620
tttttgtgat gcaactccag tctggactca gatgcataga tttggtccag tgtattttca 1680
tgataaagtg aaattgagtc agaacaagag ttaatatctg cctgtatctt gcacagttcg 1740
agcgatctgt tattaactgg gaagcatttg gtgttggttt tcattccatt tcgacgagca 1800
tgttattggg aagtattctg aagaggcaat agcagtaata acaacagact taagtgctac 1860
gcccctttgt gctgctggct tttctggttg caggctttcc catggtcaca ggatgcactg 1920
tcagcatcag gtcccagagg gccaccgtgt ccattacagc agagtccagc tgcagcatcc 1980
agctcacgcc ctcatgggaa ttggcacagg cctggggcag ggcttctgat ggccatttgc 2040
ttggcctcct gcattttagt ccaactcaca gtccactagc ttcactcctt taaattcact 2100
ttgaaacagg cctcatccca cttccaccag caccatagaa gaataattct gggcagaagt 2160
ctgttttttt tcatttttcc aggacagttg gatattgtca ggccacttgt gaccccagcc 2220
atgtagtgag ggtgctcttt ctctgtgcct gctccttatg agtgcagtgg aaggaagcca 2280
cacactggtc agtcatttca gaggcagcag atgcccaggg agacccaaga aagagtcagg 2340
ttagggagca gtgaaagtga ggagggaaga caattctgtg aactctgtaa ctcttaaaat 2400
ttttgaaaac tccatcgtta aacaactttt aaaagaaata actaaatttt caaatgagta 2460
agcagtgcca ccaactagtg ttttgcccga tagaagagcc agcatgttca cgttatttaa 2520
attaggtgga aaaatctaaa catttttatc ttcataattt aaaaaatata tatgtatata 2580
ttgcatattc actttttcct ttaggtagag atgatttcaa tccaaatact cttactttaa 2640
aaaatttcct ttccccaaga atctccttgg gactttgact tatttttaaa gctgtgttgg 2700
agctcatctt gttccctgat gtgtctcgag cccattggta gggtcataca aagcccacgg 2760
ttacaagcag tggtaggatt gcagccgtgg gcctgctgga cacacacata caccaaagat 2820
gtatttggat ctgggcaccc cctcccagga tccctgtact cacgtgccag tctcctgact 2880
agagcacttt actctgtttc ctcagccctg cagcccctgg gagcacacac tgggtgcagc 2940
cctgggccag gcacgggagg ccctgccctg tgctgcccag gggctgtgtg caccacatga 3000
gcacatttcc ctctggcctg gcggcctcca ggctggctgt ggaaacagtt cctgaggaaa 3060
ttagagattc tatgaattgt aggagtatta aagaccaggc tgttggcacc agaacttaaa 3120
gcgatgactg gatgtctctg tactgtatgt atctggttat caagatgcct ctgtgcagaa 3180
agtatgcctc ccgtgggtat acgtttttac cttttttaaa aaacattttt gtagaaaaaa 3240
taattaaatc ccctttttgg aaacttactg caggttttgt gccttgacaa cctctcccta 3300
tgtgaggttt gtaaaaagtg tcctgtgact taacacagaa acgcaataaa cacacacaaa 3360
atagtttcat gagtgattct tcagatgccc ttcccaactg gttagttgat caagaatttt 3420
gggggtgggg gttgcggaga aatcaagttt aaaattcctt ctgattaaaa aaatatagtg 3480
gaatacaatt gtctgccgtt tccccttctt aatgtatata ttgtgagtat ttattagatt 3540
cgtaggtcat attacttatc aactgagcca aatgtctgtg tgcaattgtg tttcctttac 3600
cttgtaaaat tttgtacagc ataaataagt aaaaaaatca ctgtttttct caactttttc 3660
aaaatcaagg attgtaaata ttgtagattc tttttctgtg tgatgtgtcc tactgtttca 3720
taatgctgta acttgtagaa atattgtata tttattttct gcttatttaa tgtcttaatt 3780
tctgaaaagt attaacatcc ctgtctccca ctcccctgcc gtcccatgaa gttaactcct 3840
gagagttgtc gggggtgact ggagagctca ttgcagacca cgtggtcctc cagggtggct 3900
ctccaccttc gggtcctggt atttccagtc aagtgggttt caattcttgg gctttgccgc 3960
ccttatgatg aagtgtgtgt ttgatgccag tgagaaactc agtctggcag gctacaaaat 4020
tctactccaa gaaataccca gcaaccttct gtttgttcca aagcaactag cttatcatgc 4080
aagcaaattt tgctgactcc aggctttatc tttaggaaaa caaaaaaacc aaagtattat 4140
cagcaggtgg gaaagatttt tctattgaaa atttatccct gacaactcag cgtttagaaa 4200
agaaataaaa tgtgccactt ccagaggtgc tgcattgcag ttgttcaggg ctagggccag 4260
gcaggacaag tgaatgggtg ggacaggtgg ctcctgccta aggaccacct caggccacta 4320
accccttgtg gacaactgtg agtagctggg ttttccccca cctgctgtgc aacttcctgt 4380
gctttgaggt tggactaact tgtcttcagg agctaattaa ctgtacagcc ctccccacgc 4440
cccacccata cggtcactgc atttggtcag cctgcttctt caggtcgatg ccctccttct 4500
gatactccat ctccttcagg ggaggttggg gccccactgg actgggtgtc aagatgtgaa 4560
agcttatggg agctttaagg agacttcatg gtggttccat gcaggtggtt ctgccatccc 4620
tgctgattta gcctggtgcc tgtgtgtgtc cactcacgta cacgtggggt gggggaaacg 4680
tgtctacaga tgacgctaaa tcagttgggg tctactctaa acagcattgt gtgtaagaag 4740
catcctcaag ctcccagtta agtaacttga ctacttttat ttgggaattt cagactatag 4800
aagctctctt atgttttatg tccagattct gtgaccacta gttactgtat cagaactcat 4860
caggtaccca cttataaata gcactgatct ggctgtatac tgatccatca ctaacctgtt 4920
ttctaggacc cagcgtatgt agcatttgta ttgcagtttc cctggcttac ttgtgttttg 4980
cactgatgaa ttttgacagg gtaattgcca ctttacttgt gcaatactgc tgtaaataac 5040
tgcagatttt taaacaatct tttatgttaa ttttataaaa ataaaacttt caactagtta 5100
aaaaaa 5106
<210> 2
<211> 4304
<212> DNA
<213> Homo sapiens
<400> 2
cacacggact acaggggagt tttgttgaag ttgcaaagtc ctggagcctc cagagggctg 60
tcggcgcagt agcagcgagc agcagagtcc gcacgctccg gcgaggggca gaagagcgcg 120
agggagcgcg gggcagcaga agcgagagcc gagcgcggac ccagccagga cccacagccc 180
tccccagctg cccaggaaga gccccagcca tggaacacca gctcctgtgc tgcgaagtgg 240
aaaccatccg ccgcgcgtac cccgatgcca acctcctcaa cgaccgggtg ctgcgggcca 300
tgctgaaggc ggaggagacc tgcgcgccct cggtgtccta cttcaaatgt gtgcagaagg 360
aggtcctgcc gtccatgcgg aagatcgtcg ccacctggat gctggaggtc tgcgaggaac 420
agaagtgcga ggaggaggtc ttcccgctgg ccatgaacta cctggaccgc ttcctgtcgc 480
tggagcccgt gaaaaagagc cgcctgcagc tgctgggggc cacttgcatg ttcgtggcct 540
ctaagatgaa ggagaccatc cccctgacgg ccgagaagct gtgcatctac accgacaact 600
ccatccggcc cgaggagctg ctgcaaatgg agctgctcct ggtgaacaag ctcaagtgga 660
acctggccgc aatgaccccg cacgatttca ttgaacactt cctctccaaa atgccagagg 720
cggaggagaa caaacagatc atccgcaaac acgcgcagac cttcgttgcc ctctgtgcca 780
cagatgtgaa gttcatttcc aatccgccct ccatggtggc agcggggagc gtggtggccg 840
cagtgcaagg cctgaacctg aggagcccca acaacttcct gtcctactac cgcctcacac 900
gcttcctctc cagagtgatc aagtgtgacc cggactgcct ccgggcctgc caggagcaga 960
tcgaagccct gctggagtca agcctgcgcc aggcccagca gaacatggac cccaaggccg 1020
ccgaggagga ggaagaggag gaggaggagg tggacctggc ttgcacaccc accgacgtgc 1080
gggacgtgga catctgaggg cgccaggcag gcgggcgcca ccgccacccg cagcgagggc 1140
ggagccggcc ccaggtgctc ccctgacagt ccctcctctc cggagcattt tgataccaga 1200
agggaaagct tcattctcct tgttgttggt tgttttttcc tttgctcttt cccccttcca 1260
tctctgactt aagcaaaaga aaaagattac ccaaaaactg tctttaaaag agagagagag 1320
aaaaaaaaaa tagtatttgc ataaccctga gcggtggggg aggagggttg tgctacagat 1380
gatagaggat tttatacccc aataatcaac tcgtttttat attaatgtac ttgtttctct 1440
gttgtaagaa taggcattaa cacaaaggag gcgtctcggg agaggattag gttccatcct 1500
ttacgtgttt aaaaaaaagc ataaaaacat tttaaaaaca tagaaaaatt cagcaaacca 1560
tttttaaagt agaagagggt tttaggtaga aaaacatatt cttgtgcttt tcctgataaa 1620
gcacagctgt agtggggttc taggcatctc tgtactttgc ttgctcatat gcatgtagtc 1680
actttataag tcattgtatg ttattatatt ccgtaggtag atgtgtaacc tcttcacctt 1740
attcatggct gaagtcacct cttggttaca gtagcgtagc gtgcccgtgt gcatgtcctt 1800
tgcgcctgtg accaccaccc caacaaacca tccagtgaca aaccatccag tggaggtttg 1860
tcgggcacca gccagcgtag cagggtcggg aaaggccacc tgtcccactc ctacgatacg 1920
ctactataaa gagaagacga aatagtgaca taatatattc tatttttata ctcttcctat 1980
ttttgtagtg acctgtttat gagatgctgg ttttctaccc aacggccctg cagccagctc 2040
acgtccaggt tcaacccaca gctacttggt ttgtgttctt cttcatattc taaaaccatt 2100
ccatttccaa gcactttcag tccaataggt gtaggaaata gcgctgtttt tgttgtgtgt 2160
gcagggaggg cagttttcta atggaatggt ttgggaatat ccatgtactt gtttgcaagc 2220
aggactttga ggcaagtgtg ggccactgtg gtggcagtgg aggtggggtg tttgggaggc 2280
tgcgtgccag tcaagaagaa aaaggtttgc attctcacat tgccaggatg ataagttcct 2340
ttccttttct ttaaagaagt tgaagtttag gaatcctttg gtgccaactg gtgtttgaaa 2400
gtagggacct cagaggttta cctagagaac aggtggtttt taagggttat cttagatgtt 2460
tcacaccgga aggtttttaa acactaaaat atataattta tagttaaggc taaaaagtat 2520
atttattgca gaggatgttc ataaggccag tatgatttat aaatgcaatc tccccttgat 2580
ttaaacacac agatacacac acacacacac acacacacaa accttctgcc tttgatgtta 2640
cagatttaat acagtttatt tttaaagata gatcctttta taggtgagaa aaaaacaatc 2700
tggaagaaaa aaaccacaca aagacattga ttcagcctgt ttggcgtttc ccagagtcat 2760
ctgattggac aggcatgggt gcaaggaaaa ttagggtact caacctaagt tcggttccga 2820
tgaattctta tcccctgccc cttcctttaa aaaacttagt gacaaaatag acaatttgca 2880
catcttggct atgtaattct tgtaattttt atttaggaag tgttgaaggg aggtggcaag 2940
agtgtggagg ctgacgtgtg agggaggaca ggcgggagga ggtgtgagga ggaggctccc 3000
gaggggaagg ggcggtgccc acaccgggga caggccgcag ctccattttc ttattgcgct 3060
gctaccgttg acttccaggc acggtttgga aatattcaca tcgcttctgt gtatctcttt 3120
cacattgttt gctgctattg gaggatcagt tttttgtttt acaatgtcat atactgccat 3180
gtactagttt tagttttctc ttagaacatt gtattacaga tgcctttttt gtagtttttt 3240
ttttttttat gtgatcaatt ttgacttaat gtgattactg ctctattcca aaaaggttgc 3300
tgtttcacaa tacctcatgc ttcacttagc catggtggac ccagcgggca ggttctgcct 3360
gctttggcgg gcagacacgc gggcgcgatc ccacacaggc tggcgggggc cggccccgag 3420
gccgcgtgcg tgagaaccgc gccggtgtcc ccagagacca ggctgtgtcc ctcttctctt 3480
ccctgcgcct gtgatgctgg gcacttcatc tgatcggggg cgtagcatca tagtagtttt 3540
tacagctgtg ttattctttg cgtgtagcta tggaagttgc ataattatta ttattattat 3600
tataacaagt gtgtcttacg tgccaccacg gcgttgtacc tgtaggactc tcattcggga 3660
tgattggaat agcttctgga atttgttcaa gttttgggta tgtttaatct gttatgtact 3720
agtgttctgt ttgttattgt tttgttaatt acaccataat gctaatttaa agagactcca 3780
aatctcaatg aagccagctc acagtgctgt gtgccccggt cacctagcaa gctgccgaac 3840
caaaagaatt tgcaccccgc tgcgggccca cgtggttggg gccctgccct ggcagggtca 3900
tcctgtgctc ggaggccatc tcgggcacag gcccaccccg ccccacccct ccagaacacg 3960
gctcacgctt acctcaacca tcctggctgc ggcgtctgtc tgaaccacgc gggggccttg 4020
agggacgctt tgtctgtcgt gatggggcaa gggcacaagt cctggatgtt gtgtgtatcg 4080
agaggccaaa ggctggtggc aagtgcacgg ggcacagcgg agtctgtcct gtgacgcgca 4140
agtctgaggg tctgggcggc gggcggctgg gtctgtgcat ttctggttgc accgcggcgc 4200
ttcccagcac caacatgtaa ccggcatgtt tccagcagaa gacaaaaaga caaacatgaa 4260
agtctagaaa taaaactggt aaaaccccaa aaaaaaaaaa aaaa 4304
<210> 3
<211> 924
<212> DNA
<213> Homo sapiens
<400> 3
gaggtcagag acttaagtct aaggcactga gcgtatcatg ttaaagatga gcgggtggca 60
gcgacagagc caaaatcaga gctggaacct gaggagagag tgttcaagaa ggaagtgtat 120
cttcatacat caccacacct gaaagcagat gtgcttttcc agactgatcc aactgcagag 180
atggcagctg agtcattgcc tttctccttc gggacactgt ccagctggga gctggaagcc 240
tggtatgagg acctgcaaga ggtcctgtct tcagatgaaa atgggggtac ctatgtttca 300
cctcctggaa atgaagagga agaatcaaaa atcttcacca ctcttgaccc tgcttctctg 360
gcttggctga ctgaggagga gccagaacca gcagaggtca caagcacctc ccagagccct 420
cactctccag attccagtca gagctccctg gctcaggagg aagaggagga agaccaaggg 480
agaaccagga aacggaaaca gagtggtcat tccccagccc gggctggaaa gcagcgcatg 540
aaggagaaag aacaggagaa tgaaaggaaa gtggcacagc tagctgaaga gaatgaacgg 600
ctcaagcagg aaatcgagcg cctgaccagg gaagtagagg cgactcgccg agctctgatt 660
gaccgaatgg tgaatctgca ccaagcatga acaattggga gcatcagtcc cccacttggg 720
ccacactacc cacctttccc agaagtggct actgactacc ctctcactag tgccaatgat 780
gtgaccctca atcccacata cgcaggggga aggcttggag tagacaaaag gaaaggtctc 840
agcttgtata tagagattgt acatttattt attactgtcc ctatctatta aagtgacttt 900
ctatgagcca aaaaaaaaaa aaaa 924
<210> 4
<211> 5422
<212> DNA
<213> Homo sapiens
<400> 4
tccgcgtggg gggggtgtgt gcccgccttg cgcatgcgtg ttccctgggc atggccggct 60
ccgttccatc cttctgcaca gggtatcgcc tctctccgtt tggtacatcc cctcctcccc 120
cacgcccgga ctggggtggt agacgccgcc tccgctcatc gcccctcccc atcggtttcc 180
gcgcgaaaag ccggggcgcc tgcgctgccg ccgccgcgtc tgctgaagcc tccgagatgc 240
cggcgcgtac cgccccagcc cgggtgccca cactggccgt cccggccatc tcgctgcccg 300
acgatgtccg caggcggctc aaagatttgg aaagagacag cttaacagaa aaggaatgtg 360
tgaaggagaa attgaatctc ttgcacgaat ttctgcaaac agaaataaag aatcagttat 420
gtgacttgga aaccaaatta cgtaaagaag aattatccga ggagggctac ctggctaaag 480
tcaaatccct tttaaataaa gatttgtcct tggagaacgg tgctcatgct tacaaccggg 540
aagtgaatgg acgtctagaa aacgggaacc aagcaagaag tgaagcccgt agagtgggaa 600
tggcagatgc caacagcccc cccaaacccc tttccaaacc tcgcacgccc aggaggagca 660
agtccgatgg agaggctaag cctgaacctt cacctagccc caggattaca aggaaaagca 720
ccaggcaaac caccatcaca tctcattttg caaagggccc tgccaaacgg aaacctcagg 780
aagagtctga aagagccaaa tcggatgagt ccatcaagga agaagacaaa gaccaggatg 840
agaagagacg tagagttaca tccagagaac gagttgctag accgcttcct gcagaagaac 900
ctgaaagagc aaaatcagga acgcgcactg aaaaggaaga agaaagagat gaaaaagaag 960
aaaagagact ccgaagtcaa accaaagaac caacacccaa acagaaactg aaggaggagc 1020
cggacagaga agccagggca ggcgtgcagg ctgacgagga cgaagatgga gacgagaaag 1080
atgagaagaa gcacagaagt caacccaaag atctagctgc caaacggagg cccgaagaaa 1140
aagaacctga aaaagtaaat ccacagattt ctgatgaaaa agacgaggat gaaaaggagg 1200
agaagagacg caaaacgacc cccaaagaac caacggagaa aaaaatggct cgcgccaaaa 1260
cagtcatgaa ctccaagacc caccctccca agtgcattca gtgcgggcag tacctggacg 1320
accctgacct caaatatggg cagcacccac cagacgcggt ggatgagcca cagatgctga 1380
caaatgagaa gctgtccatc tttgatgcca acgagtctgg ctttgagagt tatgaggcgc 1440
ttccccagca caaactgacc tgcttcagtg tgtactgtaa gcacggtcac ctgtgtccca 1500
tcgacaccgg cctcatcgag aagaatatcg aactcttctt ttctggttca gcaaaaccaa 1560
tctatgatga tgacccatct cttgaaggtg gtgttaatgg caaaaatctt ggccccataa 1620
atgaatggtg gatcactggc tttgatggag gtgaaaaggc cctcatcggc ttcagcacct 1680
catttgccga atacattctg atggatccca gtcccgagta tgcgcccata tttgggctga 1740
tgcaggagaa gatctacatc agcaagattg tggtggagtt cctgcagagc aattccgact 1800
cgacctatga ggacctgatc aacaagatcg agaccacggt tcctccttct ggcctcaact 1860
tgaaccgctt cacagaggac tccctcctgc gacacgcgca gtttgtggtg gagcaggtgg 1920
agagttatga cgaggccggg gacagtgatg agcagcccat cttcctgaca ccctgcatgc 1980
gggacctgat caagctggct ggggtcacgc tgggacagag gcgagcccag gcgaggcggc 2040
agaccatcag gcattctacc agggagaagg acaggggacc cacgaaagcc accaccacca 2100
agctggtcta ccagatcttc gatactttct tcgcagagca aattgaaaag gatgacagag 2160
aagacaagga gaacgccttt aagcgccggc gatgtggcgt ctgtgaggtg tgtcagcagc 2220
ctgagtgtgg gaaatgtaaa gcctgcaagg acatggttaa atttggtggc agtggacgga 2280
gcaagcaggc ttgccaagag cggaggtgtc ccaatatggc catgaaggag gcagatgacg 2340
atgaggaagt cgatgataac atcccagaga tgccgtcacc caaaaaaatg caccagggga 2400
agaagaagaa acagaacaag aatcgcatct cttgggtcgg agaagccgtc aagactgatg 2460
ggaagaagag ttactataag aaggtgtgca ttgatgcgga aaccctggaa gtgggggact 2520
gtgtctctgt tattccagat gattcctcaa aaccgctgta tctagcaagg gtcacggcgc 2580
tgtgggagga cagcagcaac gggcagatgt ttcacgccca ctggttctgc gctgggacag 2640
acacagtcct cggggccacg tcggaccctc tggagctgtt cttggtggat gaatgtgagg 2700
acatgcagct ttcatatatc cacagcaaag tgaaagtcat ctacaaagcc ccctccgaaa 2760
actgggccat ggagggaggc atggatcccg agtccctgct ggagggggac gacgggaaga 2820
cctacttcta ccagctgtgg tatgatcaag actacgcgag attcgagtcc cctccaaaaa 2880
cccagccaac agaggacaac aagttcaaat tctgtgtgag ctgtgcccgt ctggctgaga 2940
tgaggcaaaa agaaatcccc agggtcctgg agcagctcga ggacctggat agccgggtcc 3000
tctactactc agccaccaag aacggcatcc tgtaccgagt tggtgatggt gtgtacctgc 3060
cccctgaggc cttcacgttc aacatcaagc tgtccagtcc cgtgaaacgc ccacggaagg 3120
agcccgtgga tgaggacctg tacccagagc actaccggaa atactccgac tacatcaaag 3180
gcagcaacct ggatgcccct gagccctacc gaattggccg gatcaaagag atcttctgtc 3240
ccaagaagag caacggcagg cccaatgaga ctgacatcaa aatccgggtc aacaagttct 3300
acaggcctga gaacacccac aagtccactc cagcgagcta ccacgcagac atcaacctgc 3360
tctactggag cgacgaggag gccgtggtgg acttcaaggc tgtgcagggc cgctgcaccg 3420
tggagtatgg ggaggacctg cccgagtgcg tccaggtgta ctccatgggc ggccccaacc 3480
gcttctactt cctcgaggcc tataatgcaa agagcaaaag ctttgaagat cctcccaacc 3540
atgcccgtag ccctggaaac aaagggaagg gcaagggaaa agggaagggc aagcccaagt 3600
cccaagcctg tgagccgagc gagccagaga tagagatcaa gctgcccaag ctgcggaccc 3660
tggatgtgtt ttctggctgc ggggggttgt cggagggatt ccaccaagca ggcatctctg 3720
acacgctgtg ggccatcgag atgtgggacc ctgcggccca ggcgttccgg ctgaacaacc 3780
ccggctccac agtgttcaca gaggactgca acatcctgct gaagctggtc atggctgggg 3840
agaccaccaa ctcccgcggc cagcggctgc cccagaaggg agacgtggag atgctgtgcg 3900
gcgggccgcc ctgccagggc ttcagcggca tgaaccgctt caattcgcgc acctactcca 3960
agttcaaaaa ctctctggtg gtttccttcc tcagctactg cgactactac cggccccggt 4020
tcttcctcct ggagaatgtc aggaactttg tctccttcaa gcgctccatg gtcctgaagc 4080
tcaccctccg ctgcctggtc cgcatgggct atcagtgcac cttcggcgtg ctgcaggccg 4140
gtcagtacgg cgtggcccag actaggaggc gggccatcat cctggccgcg gcccctggag 4200
agaagctccc tctgttcccg gagccactgc acgtgtttgc tccccgggcc tgccagctga 4260
gcgtggtggt ggatgacaag aagtttgtga gcaacataac caggttgagc tcgggtcctt 4320
tccggaccat cacggtgcga gacacgatgt ccgacctgcc ggaggtgcgg aatggagcct 4380
cggcactgga gatctcctac aacggggagc ctcagtcctg gttccagagg cagctccggg 4440
gcgcacagta ccagcccatc ctcagggacc acatctgtaa ggacatgagt gcattggtgg 4500
ctgcccgcat gcggcacatc cccttggccc cagggtcaga ctggcgcgat ctgcccaaca 4560
tcgaggtgcg gctctcagac ggcaccatgg ccaggaagct gcggtatacc caccatgaca 4620
ggaagaacgg ccgcagcagc tctggggccc tccgtggggt ctgctcctgc gtggaagccg 4680
gcaaagcctg cgaccccgca gccaggcagt tcaacaccct catcccctgg tgcctgcccc 4740
acaccgggaa ccggcacaac cactgggctg gcctctatgg aaggctcgag tgggacggct 4800
tcttcagcac aaccgtcacc aaccccgagc ccatgggcaa gcagggccgc gtgctccacc 4860
cagagcagca ccgtgtggtg agcgtgcggg agtgtgcccg ctcccagggc ttccctgaca 4920
cctaccggct cttcggcaac atcctggaca agcaccggca ggtgggcaat gccgtgccac 4980
cgcccctggc caaagccatt ggcttggaga tcaagctttg tatgttggcc aaagcccgag 5040
agagtgcctc agctaaaata aaggaggagg aagctgctaa ggactagttc tgccctcccg 5100
tcacccctgt ttctggcacc aggaatcccc aacatgcact gatgttgtgt ttttaacatg 5160
tcaatctgtc cgttcacatg tgtggtacat ggtgtttgtg gccttggctg acatgaagct 5220
gttgtgtgag gttcgcttat caactaatga tttagtgatc aaattgtgca gtactttgtg 5280
cattctggat tttaaaagtt ttttattatg cattatatca aatctaccac tgtatgagtg 5340
gaaattaaga ctttatgtag tttttatatg ttgtaatatt tcttcaaata aatctctcct 5400
ataaaccacc aaaaaaaaaa aa 5422
<210> 5
<211> 6369
<212> DNA
<213> Homo sapiens
<400> 5
gtccgggcag cccccggcgc agcgcggccg cagcagcctc cgccccccgc acggtgtgag 60
cgcccgacgc ggccgaggcg gccggagtcc cgagctagcc ccggcggccg ccgccgccca 120
gaccggacga caggccacct cgtcggcgtc cgcccgagtc cccgcctcgc cgccaacgcc 180
acaaccaccg cgcacggccc cctgactccg tccagtattg atcgggagag ccggagcgag 240
ctcttcgggg agcagcgatg cgaccctccg ggacggccgg ggcagcgctc ctggcgctgc 300
tggctgcgct ctgcccggcg agtcgggctc tggaggaaaa gaaagtttgc caaggcacga 360
gtaacaagct cacgcagttg ggcacttttg aagatcattt tctcagcctc cagaggatgt 420
tcaataactg tgaggtggtc cttgggaatt tggaaattac ctatgtgcag aggaattatg 480
atctttcctt cttaaagacc atccaggagg tggctggtta tgtcctcatt gccctcaaca 540
cagtggagcg aattcctttg gaaaacctgc agatcatcag aggaaatatg tactacgaaa 600
attcctatgc cttagcagtc ttatctaact atgatgcaaa taaaaccgga ctgaaggagc 660
tgcccatgag aaatttacag gaaatcctgc atggcgccgt gcggttcagc aacaaccctg 720
ccctgtgcaa cgtggagagc atccagtggc gggacatagt cagcagtgac tttctcagca 780
acatgtcgat ggacttccag aaccacctgg gcagctgcca aaagtgtgat ccaagctgtc 840
ccaatgggag ctgctggggt gcaggagagg agaactgcca gaaactgacc aaaatcatct 900
gtgcccagca gtgctccggg cgctgccgtg gcaagtcccc cagtgactgc tgccacaacc 960
agtgtgctgc aggctgcaca ggcccccggg agagcgactg cctggtctgc cgcaaattcc 1020
gagacgaagc cacgtgcaag gacacctgcc ccccactcat gctctacaac cccaccacgt 1080
accagatgga tgtgaacccc gagggcaaat acagctttgg tgccacctgc gtgaagaagt 1140
gtccccgtaa ttatgtggtg acagatcacg gctcgtgcgt ccgagcctgt ggggccgaca 1200
gctatgagat ggaggaagac ggcgtccgca agtgtaagaa gtgcgaaggg ccttgccgca 1260
aagtgtgtaa cggaataggt attggtgaat ttaaagactc actctccata aatgctacga 1320
atattaaaca cttcaaaaac tgcacctcca tcagtggcga tctccacatc ctgccggtgg 1380
catttagggg tgactccttc acacatactc ctcctctgga tccacaggaa ctggatattc 1440
tgaaaaccgt aaaggaaatc acagggtttt tgctgattca ggcttggcct gaaaacagga 1500
cggacctcca tgcctttgag aacctagaaa tcatacgcgg caggaccaag caacatggtc 1560
agttttctct tgcagtcgtc agcctgaaca taacatcctt gggattacgc tccctcaagg 1620
agataagtga tggagatgtg ataatttcag gaaacaaaaa tttgtgctat gcaaatacaa 1680
taaactggaa aaaactgttt gggacctccg gtcagaaaac caaaattata agcaacagag 1740
gtgaaaacag ctgcaaggcc acaggccagg tctgccatgc cttgtgctcc cccgagggct 1800
gctggggccc ggagcccagg gactgcgtct cttgccggaa tgtcagccga ggcagggaat 1860
gcgtggacaa gtgcaacctt ctggagggtg agccaaggga gtttgtggag aactctgagt 1920
gcatacagtg ccacccagag tgcctgcctc aggccatgaa catcacctgc acaggacggg 1980
gaccagacaa ctgtatccag tgtgcccact acattgacgg cccccactgc gtcaagacct 2040
gcccggcagg agtcatggga gaaaacaaca ccctggtctg gaagtacgca gacgccggcc 2100
atgtgtgcca cctgtgccat ccaaactgca cctacggatg cactgggcca ggtcttgaag 2160
gctgtccaac gaatgggcct aagatcccgt ccatcgccac tgggatggtg ggggccctcc 2220
tcttgctgct ggtggtggcc ctggggatcg gcctcttcat gcgaaggcgc cacatcgttc 2280
ggaagcgcac gctgcggagg ctgctgcagg agagggagct tgtggagcct cttacaccca 2340
gtggagaagc tcccaaccaa gctctcttga ggatcttgaa ggaaactgaa ttcaaaaaga 2400
tcaaagtgct gggctccggt gcgttcggca cggtgtataa gggactctgg atcccagaag 2460
gtgagaaagt taaaattccc gtcgctatca aggaattaag agaagcaaca tctccgaaag 2520
ccaacaagga aatcctcgat gaagcctacg tgatggccag cgtggacaac ccccacgtgt 2580
gccgcctgct gggcatctgc ctcacctcca ccgtgcagct catcacgcag ctcatgccct 2640
tcggctgcct cctggactat gtccgggaac acaaagacaa tattggctcc cagtacctgc 2700
tcaactggtg tgtgcagatc gcaaagggca tgaactactt ggaggaccgt cgcttggtgc 2760
accgcgacct ggcagccagg aacgtactgg tgaaaacacc gcagcatgtc aagatcacag 2820
attttgggct ggccaaactg ctgggtgcgg aagagaaaga ataccatgca gaaggaggca 2880
aagtgcctat caagtggatg gcattggaat caattttaca cagaatctat acccaccaga 2940
gtgatgtctg gagctacggg gtgactgttt gggagttgat gacctttgga tccaagccat 3000
atgacggaat ccctgccagc gagatctcct ccatcctgga gaaaggagaa cgcctccctc 3060
agccacccat atgtaccatc gatgtctaca tgatcatggt caagtgctgg atgatagacg 3120
cagatagtcg cccaaagttc cgtgagttga tcatcgaatt ctccaaaatg gcccgagacc 3180
cccagcgcta ccttgtcatt cagggggatg aaagaatgca tttgccaagt cctacagact 3240
ccaacttcta ccgtgccctg atggatgaag aagacatgga cgacgtggtg gatgccgacg 3300
agtacctcat cccacagcag ggcttcttca gcagcccctc cacgtcacgg actcccctcc 3360
tgagctctct gagtgcaacc agcaacaatt ccaccgtggc ttgcattgat agaaatgggc 3420
tgcaaagctg tcccatcaag gaagacagct tcttgcagcg atacagctca gaccccacag 3480
gcgccttgac tgaggacagc atagacgaca ccttcctccc agtgcctgaa tacataaacc 3540
agtccgttcc caaaaggccc gctggctctg tgcagaatcc tgtctatcac aatcagcctc 3600
tgaaccccgc gcccagcaga gacccacact accaggaccc ccacagcact gcagtgggca 3660
accccgagta tctcaacact gtccagccca cctgtgtcaa cagcacattc gacagccctg 3720
cccactgggc ccagaaaggc agccaccaaa ttagcctgga caaccctgac taccagcagg 3780
acttctttcc caaggaagcc aagccaaatg gcatctttaa gggctccaca gctgaaaatg 3840
cagaatacct aagggtcgcg ccacaaagca gtgaatttat tggagcatga ccacggagga 3900
tagtatgagc cctaaaaatc cagactcttt cgatacccag gaccaagcca cagcaggtcc 3960
tccatcccaa cagccatgcc cgcattagct cttagaccca cagactggtt ttgcaacgtt 4020
tacaccgact agccaggaag tacttccacc tcgggcacat tttgggaagt tgcattcctt 4080
tgtcttcaaa ctgtgaagca tttacagaaa cgcatccagc aagaatattg tccctttgag 4140
cagaaattta tctttcaaag aggtatattt gaaaaaaaaa aaaagtatat gtgaggattt 4200
ttattgattg gggatcttgg agtttttcat tgtcgctatt gatttttact tcaatgggct 4260
cttccaacaa ggaagaagct tgctggtagc acttgctacc ctgagttcat ccaggcccaa 4320
ctgtgagcaa ggagcacaag ccacaagtct tccagaggat gcttgattcc agtggttctg 4380
cttcaaggct tccactgcaa aacactaaag atccaagaag gccttcatgg ccccagcagg 4440
ccggatcggt actgtatcaa gtcatggcag gtacagtagg ataagccact ctgtcccttc 4500
ctgggcaaag aagaaacgga ggggatggaa ttcttcctta gacttacttt tgtaaaaatg 4560
tccccacggt acttactccc cactgatgga ccagtggttt ccagtcatga gcgttagact 4620
gacttgtttg tcttccattc cattgttttg aaactcagta tgctgcccct gtcttgctgt 4680
catgaaatca gcaagagagg atgacacatc aaataataac tcggattcca gcccacattg 4740
gattcatcag catttggacc aatagcccac agctgagaat gtggaatacc taaggatagc 4800
accgcttttg ttctcgcaaa aacgtatctc ctaatttgag gctcagatga aatgcatcag 4860
gtcctttggg gcatagatca gaagactaca aaaatgaagc tgctctgaaa tctcctttag 4920
ccatcacccc aaccccccaa aattagtttg tgttacttat ggaagatagt tttctccttt 4980
tacttcactt caaaagcttt ttactcaaag agtatatgtt ccctccaggt cagctgcccc 5040
caaaccccct ccttacgctt tgtcacacaa aaagtgtctc tgccttgagt catctattca 5100
agcacttaca gctctggcca caacagggca ttttacaggt gcgaatgaca gtagcattat 5160
gagtagtgtg gaattcaggt agtaaatatg aaactagggt ttgaaattga taatgctttc 5220
acaacatttg cagatgtttt agaaggaaaa aagttccttc ctaaaataat ttctctacaa 5280
ttggaagatt ggaagattca gctagttagg agcccacctt ttttcctaat ctgtgtgtgc 5340
cctgtaacct gactggttaa cagcagtcct ttgtaaacag tgttttaaac tctcctagtc 5400
aatatccacc ccatccaatt tatcaaggaa gaaatggttc agaaaatatt ttcagcctac 5460
agttatgttc agtcacacac acatacaaaa tgttcctttt gcttttaaag taatttttga 5520
ctcccagatc agtcagagcc cctacagcat tgttaagaaa gtatttgatt tttgtctcaa 5580
tgaaaataaa actatattca tttccactct attatgctct caaatacccc taagcatcta 5640
tactagcctg gtatgggtat gaaagataca aagataaata aaacatagtc cctgattcta 5700
agaaattcac aatttagcaa aggaaatgga ctcatagatg ctaaccttaa aacaacgtga 5760
caaatgccag acaggaccca tcagccaggc actgtgagag cacagagcag ggaggttggg 5820
tcctgcctga ggagacctgg aagggaggcc tcacaggagg atgaccaggt ctcagtcagc 5880
ggggaggtgg aaagtgcagg tgcatcaggg gcaccctgac cgaggaaaca gctgccagag 5940
gcctccactg ctaaagtcca cataaggctg aggtcagtca ccctaaacaa cctgctccct 6000
ctaagccagg ggatgagctt ggagcatccc acaagttccc taaaagttgc agcccccagg 6060
gggattttga gctatcatct ctgcacatgc ttagtgagaa gactacacaa catttctaag 6120
aatctgagat tttatattgt cagttaacca ctttcattat tcattcacct caggacatgc 6180
agaaatattt cagtcagaac tgggaaacag aaggacctac attctgctgt cacttatgtg 6240
tcaagaagca gatgatcgat gaggcaggtc agttgtaagt gagtcacatt gtagcattaa 6300
attctagtat ttttgtagtt tgaaacagta acttaataaa agagcaaaag ctaaaaaaaa 6360
aaaaaaaaa 6369
<210> 6
<211> 3278
<212> DNA
<213> Homo sapiens
<400> 6
aatagactaa acccagagcc tcaaagcagt gcactccgtg aaggcaaaga gaacacgctg 60
caaaaggctt tccaagaatc ctcgacatgg caaggaggag ctcgttccag tcgtgtcaga 120
taatatccct gttcactttt gccgttggag tcaatatctg cttaggattc actgcacatc 180
gaattaagag agcagaagga tgggaggaag gtcctcctac agtgctatca gactccccct 240
ggaccaacat ctccggatct tgcaagggca ggtgctttga acttcaagag gctggacctc 300
ctgattgtcg ctgtgacaac ttgtgtaaga gctataccag ttgctgccat gactttgatg 360
agctgtgttt gaagacagcc cgtggctggg agtgtactaa ggacagatgt ggagaagtca 420
gaaatgaaga aaatgcctgt cactgctcag aggactgctt ggccagggga gactgctgta 480
ccaattacca agtggtttgc aaaggagagt cgcattgggt tgatgatgac tgtgaggaaa 540
taaaggccgc agaatgccct gcagggtttg ttcgccctcc attaatcatc ttctccgtgg 600
atggcttccg tgcatcatac atgaagaaag gcagcaaagt catgcctaat attgaaaaac 660
taaggtcttg tggcacacac tctccctaca tgaggccggt gtacccaact aaaacctttc 720
ctaacttata cactttggcc actgggctat atccagaatc acatggaatt gttggcaatt 780
caatgtatga tcctgtattt gatgccactt ttcatctgcg agggcgagag aaatttaatc 840
atagatggtg gggaggtcaa ccgctatgga ttacagccac caagcaaggg gtgaaagctg 900
gaacattctt ttggtctgtt gtcatccctc acgagcggag aatattaacc atattgcagt 960
ggctcaccct gccagatcat gagaggcctt cggtctatgc cttctattct gagcaacctg 1020
atttctctgg acacaaatat ggccctttcg gccctgagga gagtagttat ggctcacctt 1080
ttactccggc taagagacct aagaggaaag ttgcccctaa gaggagacag gaaagaccag 1140
ttgctcctcc aaagaaaaga agaagaaaaa tacataggat ggatcattat gctgcggaaa 1200
ctcgtcagga caaaatgaca aatcctctga gggaaatcga caaaattgtg gggcaattaa 1260
tggatggact gaaacaacta aaactgcatc ggtgtgtcaa cgtcatcttt gtcggagacc 1320
atggaatgga agatgtcaca tgtgatagaa ctgagttctt gagtaattac ctaactaatg 1380
tggatgatat tactttagtg cctggaactc taggaagaat tcgatccaaa tttagcaaca 1440
atgctaaata tgaccccaaa gccattattg ccaatctcac gtgtaaaaaa ccagatcagc 1500
actttaagcc ttacttgaaa cagcaccttc ccaaacgttt gcactatgcc aacaacagaa 1560
gaattgagga tatccattta ttggtggaac gcagatggca tgttgcaagg aaacctttgg 1620
atgtttataa gaaaccatca ggaaaatgct ttttccaggg agaccacgga tttgataaca 1680
aggtcaacag catgcagact gtttttgtag gttatggctc aacatttaag tacaagacta 1740
aagtgcctcc atttgaaaac attgaacttt acaatgttat gtgtgatctc ctgggattga 1800
agccagctcc taataatggg acccatggaa gtttgaatca tctcctgcgc actaatacct 1860
tcaggccaac catgccagag gaagttacca gacccaatta tccagggatt atgtaccttc 1920
agtctgattt tgacctgggc tgcacttgtg atgataaggt agagccaaag aacaagttgg 1980
atgaactcaa caaacggctt catacaaaag ggtctacaga agagagacac ctcctctatg 2040
ggcgacctgc agtgctttat cggactagat atgatatctt atatcacact gactttgaaa 2100
gtggttatag tgaaatattc ctaatgccac tctggacatc atatactgtt tccaaacagg 2160
ctgaggtttc cagcgttcct gaccatctga ccagttgcgt ccggcctgat gtccgtgttt 2220
ctccgagttt cagtcagaac tgtttggcct acaaaaatga taagcagatg tcctacggat 2280
tcctctttcc tccttatctg agctcttcac cagaggctaa atatgatgca ttccttgtaa 2340
ccaatatggt tccaatgtat cctgctttca aacgggtctg gaattatttc caaagggtat 2400
tggtgaagaa atatgcttcg gaaagaaatg gagttaacgt gataagtgga ccaatcttcg 2460
actatgacta tgatggctta catgacacag aagacaaaat aaaacagtac gtggaaggca 2520
gttccattcc tgttccaact cactactaca gcatcatcac cagctgtctg gatttcactc 2580
agcctgccga caagtgtgac ggccctctct ctgtgtcctc cttcatcctg cctcaccggc 2640
ctgacaacga ggagagctgc aatagctcag aggacgaatc aaaatgggta gaagaactca 2700
tgaagatgca cacagctagg gtgcgtgaca ttgaacatct caccagcctg gacttcttcc 2760
gaaagaccag ccgcagctac ccagaaatcc tgacactcaa gacatacctg catacatatg 2820
agagcgagat ttaactttct gagcatctgc agtacagtct tatcaactgg ttgtatattt 2880
ttatattgtt tttgtattta ttaatttgaa accaggacat taaaaatgtt agtattttaa 2940
tcctgtacca aatctgacat attatgcctg aatgactcca ctgtttttct ctaatgcttg 3000
atttaggtag ccttgtgttc tgagtagagc ttgtaataaa tactgcagct tgagttttta 3060
gtggaagctt ctaaatggtg ctgcagattt gatatttgca ttgaggaaat attaattttc 3120
caatgcacag ttgccacatt tagtcctgta ctgtatggaa acactgattt tgtaaagttg 3180
cctttatttg ctgttaactg ttaactatga cagatatatt taagccttat aaaccaatct 3240
taaacataat aaatcacaca ttcagttttt tctggttt 3278
<210> 7
<211> 3172
<212> DNA
<213> Homo sapiens
<400> 7
agtgctgggc ggggcgctga ctcacccggg cccgggctgg ccggttctta agcggcagcg 60
cgctgcgggc gccgagtgtc gggcgcggca ggaggacgag gcagggcggg cgggcgctct 120
aagggttctg ctctgactcc aggttgggac agcgtcttcg ctgctgctgg atagtcgtgt 180
tttcggggat cgaggatact caccagaaac cgaaaatgcc gaaaccaatc aatgtccgag 240
ttaccaccat ggatgcagag ctggagtttg caatccagcc aaatacaact ggaaaacagc 300
tttttgatca ggtggtaaag actatcggcc tccgggaagt gtggtacttt ggcctccact 360
atgtggataa taaaggattt cctacctggc tgaagctgga taagaaggtg tctgcccagg 420
aggtcaggaa ggagaatccc ctccagttca agttccgggc caagttctac cctgaagatg 480
tggctgagga gctcatccag gacatcaccc agaaactttt cttcctccaa gtgaaggaag 540
gaatccttag cgatgagatc tactgccccc ctgagactgc cgtgctcttg gggtcctacg 600
ctgtgcaggc caagtttggg gactacaaca aagaagtgca caagtctggg tacctcagct 660
ctgagcggct gatccctcaa agagtgatgg accagcacaa acttaccagg gaccagtggg 720
aggaccggat ccaggtgtgg catgcggaac accgtgggat gctcaaagat aatgctatgt 780
tggaatacct gaagattgct caggacctgg aaatgtatgg aatcaactat ttcgagataa 840
aaaacaagaa aggaacagac ctttggcttg gagttgatgc ccttggactg aatatttatg 900
agaaagatga taagttaacc ccaaagattg gctttccttg gagtgaaatc aggaacatct 960
ctttcaatga caaaaagttt gtcattaaac ccatcgacaa gaaggcacct gactttgtgt 1020
tttatgcccc acgtctgaga atcaacaagc ggatcctgca gctctgcatg ggcaaccatg 1080
agttgtatat gcgccgcagg aagcctgaca ccatcgaggt gcagcagatg aaggcccagg 1140
cccgggagga gaagcatcag aagcagctgg agcggcaaca gctggaaaca gagaagaaaa 1200
ggagagaaac cgtggagaga gagaaagagc agatgatgcg cgagaaggag gagttgatgc 1260
tgcggctgca ggactatgag gagaagacaa agaaggcaga gagagagctc tcggagcaga 1320
ttcagagggc cctgcagctg gaggaggaga ggaagcgggc acaggaggag gccgagcgcc 1380
tagaggctga ccgtatggct gcactgcggg ctaaggagga gctggagaga caggcggtgg 1440
atcagataaa gagccaggag cagctggctg cggagcttgc agaatacact gccaagattg 1500
ccctcctgga agaggcgcgg aggcgcaagg aggatgaagt tgaagagtgg cagcacaggg 1560
ccaaagaagc ccaggatgac ctggtgaaga ccaaggagga gctgcacctg gtgatgacag 1620
cacccccgcc cccaccaccc cccgtgtacg agccggtgag ctaccatgtc caggagagct 1680
tgcaggatga gggcgcagag cccacgggct acagcgcgga gctgtctagt gagggcatcc 1740
gggatgaccg caatgaggag aagcgcatca ctgaggcaga gaagaacgag cgtgtgcagc 1800
ggcagctgct gacgctgagc agcgagctgt cccaggcccg agatgagaat aagaggaccc 1860
acaatgacat catccacaac gagaacatga ggcaaggccg ggacaagtac aagacgctgc 1920
ggcagatccg gcagggcaac accaagcagc gcatcgacga gttcgaggcc ctgtaacagc 1980
caggccagga ccaagggcag aggggtgctc atagcgggcg ctgccagccc cgccacgctt 2040
gtgtctttag tgctccaagt ctaggaactc cctcagatcc cagttccttt agaaagcagt 2100
tacccaacag aaacattctg ggctgggaac cagggaggcg ccctggtttg ttttccccag 2160
ttgtaatagt gccaagcagg cctgattctc gcgattattc tcgaatcacc tcctgtgttg 2220
tgctgggagc aggactgatt gaattacgga aaatgcctgt aaagtctgag taagaaactt 2280
catgctggcc tgtgtgatac aagagtcagc atcattaaag gaaacgtggc aggacttcca 2340
tctgtgccat acttgttctg tattcgaaat gagctcaaat tgatttttta atttctatga 2400
aggatccatc tttgtatatt tacatgctta gaggggtgaa aattattttg gaaattgagt 2460
ctgaagcact ctcgcacaca cagtgattcc ctcctcccgt cactccacgc agctggcaga 2520
gagcacagtg atcaccagcg tgagtggtgg aggaggacac ttggattttt ttttttgttt 2580
tttttttttt tgcttaacag ttttagaata cattgtactt atacacctta ttaatgatca 2640
gctatatact atttatatac aagtgataat acagatttgt aacattagtt ttaaaaaggg 2700
aaagttttgt tctgtatatt ttgttacctt ttacagaata aaagaattac atatgaaaaa 2760
ccctctaaac catggcactt gatgtgatgt ggcaggaggg cagtggtgga gctggacctg 2820
cctgctgcag tcacgtgtaa acaggattat tattagtgtt ttatgcatgt aatggactat 2880
gcacactttt aattttgtca gattcacaca tgccactatg agctttcaga ctccagctgt 2940
gaagagactc tgtttgcttg tgtttgtttg tttgcagtct ctctctgcca tggccttggc 3000
aggctgctgg aaggcagctt gtggaggccg ttggttccgc ccactcattc cttctcgtgc 3060
actgctttct ccttcacagc taagatgcca tgtgcaggtg gattccatgc cgcagacatg 3120
aaataaaagc tttgcaaagg cacgaagcaa aaaaaaaaaa aaaaaaaaaa aa 3172
<210> 8
<211> 1907
<212> DNA
<213> Homo sapiens
<400> 8
agaatcagag agagagagat agagaaagag aaagacagag gtgtttccct tagctatgga 60
aactctataa gagagatcca gcttgcctcc tcttgagcag tcagcaacag ggtcccgtcc 120
ttgacacctc agcctctaca ggactgagaa gaagtaaaac cgtttgctgg ggctggcctg 180
actcaccagc tgccatgcag cagcccttca attacccata tccccagatc tactgggtgg 240
acagcagtgc cagctctccc tgggcccctc caggcacagt tcttccctgt ccaacctctg 300
tgcccagaag gcctggtcaa aggaggccac caccaccacc gccaccgcca ccactaccac 360
ctccgccgcc gccgccacca ctgcctccac taccgctgcc acccctgaag aagagaggga 420
accacagcac aggcctgtgt ctccttgtga tgtttttcat ggttctggtt gccttggtag 480
gattgggcct ggggatgttt cagctcttcc acctacagaa ggagctggca gaactccgag 540
agtctaccag ccagatgcac acagcatcat ctttggagaa gcaaataggc caccccagtc 600
caccccctga aaaaaaggag ctgaggaaag tggcccattt aacaggcaag tccaactcaa 660
ggtccatgcc tctggaatgg gaagacacct atggaattgt cctgctttct ggagtgaagt 720
ataagaaggg tggccttgtg atcaatgaaa ctgggctgta ctttgtatat tccaaagtat 780
acttccgggg tcaatcttgc aacaacctgc ccctgagcca caaggtctac atgaggaact 840
ctaagtatcc ccaggatctg gtgatgatgg aggggaagat gatgagctac tgcactactg 900
ggcagatgtg ggcccgcagc agctacctgg gggcagtgtt caatcttacc agtgctgatc 960
atttatatgt caacgtatct gagctctctc tggtcaattt tgaggaatct cagacgtttt 1020
tcggcttata taagctctaa gagaagcact ttgggattct ttccattatg attctttgtt 1080
acaggcaccg agaatgttgt attcagtgag ggtcttctta catgcatttg aggtcaagta 1140
agaagacatg aaccaagtgg accttgagac cacagggttc aaaatgtctg tagctcctca 1200
actcacctaa tgtttatgag ccagacaaat ggaggaatat gacggaagaa catagaactc 1260
tgggctgcca tgtgaagagg gagaagcatg aaaaagcagc taccaggtgt tctacactca 1320
tcttagtgcc tgagagtatt taggcagatt gaaaaggaca ccttttaact cacctctcaa 1380
ggtgggcctt gctacctcaa gggggactgt ctttcagata catggttgtg acctgaggat 1440
ttaagggatg gaaaaggaag actagaggct tgcataataa gctaaagagg ctgaaagagg 1500
ccaatgcccc actggcagca tcttcacttc taaatgcata tcctgagcca tcggtgaaac 1560
taacagataa gcaagagaga tgttttgggg actcatttca ttcctaacac agcatgtgta 1620
tttccagtgc aattgtaggg gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt gtatgactaa 1680
agagagaatg tagatattgt gaagtacata ttaggaaaat atgggttgca tttggtcaag 1740
attttgaatg cttcctgaca atcaactcta atagtgctta aaaatcattg attgtcagct 1800
actaatgatg ttttcctata atataataaa tatttatgta gatgtgcatt tttgtgaaat 1860
gaaaacatgt aataaaaagt atatgttagg atacaaaaaa aaaaaaa 1907
<210> 9
<211> 2084
<212> DNA
<213> Homo sapiens
<400> 9
aagacacatg cttctgcaag cttccatgaa ggttgtgcaa aaaagtttca atccagagtt 60
gggttccagc tttctgtagc tgtaagcatt ggtggccaca ccacctcctt acaaagcaac 120
tagaacctgc ggcatacatt ggagagattt ttttaatttt ctggacatga agtaaattta 180
gagtgctttc taatttcagg tagaagacat gtccaccttc tgattatttt tggagaacat 240
tttgattttt ttcatctctc tctccccacc cctaagattg tgcaaaaaaa gcgtaccttg 300
cctaattgaa ataatttcat tggattttga tcagaactga ttatttggtt ttctgtgtga 360
agttttgagg tttcaaactt tccttctgga gaatgccttt tgaaacaatt ttctctagct 420
gcctgatgtc aactgcttag taatcagtgg atattgaaat attcaaaatg tacagagagt 480
gggtagtggt gaatgttttc atgatgttgt acgtccagct ggtgcagggc tccagtaatg 540
aacatggacc agtgaagcga tcatctcagt ccacattgga acgatctgaa cagcagatca 600
gggctgcttc tagtttggag gaactacttc gaattactca ctctgaggac tggaagctgt 660
ggagatgcag gctgaggctc aaaagtttta ccagtatgga ctctcgctca gcatcccatc 720
ggtccactag gtttgcggca actttctatg acattgaaac actaaaagtt atagatgaag 780
aatggcaaag aactcagtgc agccctagag aaacgtgcgt ggaggtggcc agtgagctgg 840
ggaagagtac caacacattc ttcaagcccc cttgtgtgaa cgtgttccga tgtggtggct 900
gttgcaatga agagagcctt atctgtatga acaccagcac ctcgtacatt tccaaacagc 960
tctttgagat atcagtgcct ttgacatcag tacctgaatt agtgcctgtt aaagttgcca 1020
atcatacagg ttgtaagtgc ttgccaacag ccccccgcca tccatactca attatcagaa 1080
gatccatcca gatccctgaa gaagatcgct gttcccattc caagaaactc tgtcctattg 1140
acatgctatg ggatagcaac aaatgtaaat gtgttttgca ggaggaaaat ccacttgctg 1200
gaacagaaga ccactctcat ctccaggaac cagctctctg tgggccacac atgatgtttg 1260
acgaagatcg ttgcgagtgt gtctgtaaaa caccatgtcc caaagatcta atccagcacc 1320
ccaaaaactg cagttgcttt gagtgcaaag aaagtctgga gacctgctgc cagaagcaca 1380
agctatttca cccagacacc tgcagctgtg aggacagatg cccctttcat accagaccat 1440
gtgcaagtgg caaaacagca tgtgcaaagc attgccgctt tccaaaggag aaaagggctg 1500
cccaggggcc ccacagccga aagaatcctt gattcagcgt tccaagttcc ccatccctgt 1560
catttttaac agcatgctgc tttgccaagt tgctgtcact gtttttttcc caggtgttaa 1620
aaaaaaaatc cattttacac agcaccacag tgaatccaga ccaaccttcc attcacacca 1680
gctaaggagt ccctggttca ttgatggatg tcttctagct gcagatgcct ctgcgcacca 1740
aggaatggag aggaggggac ccatgtaatc cttttgttta gttttgtttt tgttttttgg 1800
tgaatgagaa aggtgtgctg gtcatggaat ggcaggtgtc atatgactga ttactcagag 1860
cagatgagga aaactgtagt ctctgagtcc tttgctaatc gcaactcttg tgaattattc 1920
tgattctttt ttatgcagaa tttgattcgt atgatcagta ctgactttct gattactgtc 1980
cagcttatag tcttccagtt taatgaacta ccatctgatg tttcatattt aagtgtattt 2040
aaagaaaata aacaccatta ttcaagccat ataaaaaaaa aaaa 2084
<210> 10
<211> 1661
<212> DNA
<213> Homo sapiens
<400> 10
attgcattcc tgggcattgc taactagtga agtataccag atggaaatgt cttcgaagct 60
gtccctttaa aactcgagca agctaccagg caaactccgc ctccagggag gttccttatt 120
aaataggagc caactggctg ggtcggggct caatacccca agcaatacct gcaactgagg 180
attcttcccg gggagaccgc agcccatcgg catggctcaa gagtttgtga actgcaaaat 240
ccagcctggg aaggtggttg tgttcatcaa gcccacctgc ccgtactgca ggagggccca 300
agagatcctc agtcaattgc ccatcaaaca agggcttctg gaatttgtcg atatcacagc 360
caccaaccac actaacgaga ttcaagatta tttgcaacag ctcacgggag caagaacggt 420
gcctcgagtc tttattggta aagattgtat aggcggatgc agtgatctag tctctttgca 480
acagagtggg gaactgctga cgcggctaaa gcagattgga gctctgcagt aaccacagaa 540
caggccccat gctgacgtcc ctcctcaaga gctggatggc attgcaaatg atgacagcac 600
ttctggtgga tgaatttggg ggcacaaaca gcttttttcc tcttttggct cagtatttaa 660
aagtggacca acttgctctt aatcacaggg ccaagaaggt tgacgggcca tcttggtttt 720
cttctggatg tgctctttgg ttttcagaag actgtgacaa gttctggccc aggattcgct 780
cactgaccct caattgtcct ctttggcatg cgtttcttac tgttctccat gtgtcggcat 840
gtctctacct ctaagccagt gtttttcaac tatgtttatc cagactcctt ctccacaatg 900
atgaatccac agttggttat ctgctactgc ccattagcta aaatcatttt gctgcttgac 960
tttatggagt ttgtattatg aaatcagtgg gtattttgaa tgtgttcttt ctaactacat 1020
gcatctctcc actcaactcc accccatccc atcccacctt gaaaatcact gctctgaacc 1080
agtgttctcc accttgtcct ccacagatct cataggaaat gttcaacaat tctgtgaaag 1140
gtcacaggac ccaattggag aaatcatatg aaaagcatag ttggtcttgg tgtcatatgg 1200
atcagaggca caagtgcaga ggctgtggtc atgcggaaca ctctgttatt taagatggct 1260
atccagataa tcctgaacac tgtgtattta ttttatttag actaccagca aagattaaag 1320
catgaaatgt aaaacatctg ataaaactta cagcccccta caccaagagt gtatctgtga 1380
aagagctcct acactttgaa aacttaagaa tcccttatca tgaagtttgc ctgttctaga 1440
attgtaagat tgttaatttc cttcaatctc tagtgacaac acttaatttc ttttctaata 1500
aaaaaaacct atagatgatt cagtgatttt tgtccaattc atttgcatgt tctcaagaca 1560
ttaaggaatg ttatgcgaaa tacactaact taaaactgtg tttatatttg gccctgccat 1620
tataaataaa gacacgtgct gctgtcaaaa aaaaaaaaaa a 1661
<210> 11
<211> 822
<212> DNA
<213> Homo sapiens
<400> 11
agttccctat cactctcttt aatcactact cacagtaacc tcaactcctg ccacaatgta 60
caggatgcaa ctcctgtctt gcattgcact aagtcttgca cttgtcacaa acagtgcacc 120
tacttcaagt tctacaaaga aaacacagct acaactggag catttactgc tggatttaca 180
gatgattttg aatggaatta ataattacaa gaatcccaaa ctcaccagga tgctcacatt 240
taagttttac atgcccaaga aggccacaga actgaaacat cttcagtgtc tagaagaaga 300
actcaaacct ctggaggaag tgctaaattt agctcaaagc aaaaactttc acttaagacc 360
cagggactta atcagcaata tcaacgtaat agttctggaa ctaaagggat ctgaaacaac 420
attcatgtgt gaatatgctg atgagacagc aaccattgta gaatttctga acagatggat 480
taccttttgt caaagcatca tctcaacact gacttgataa ttaagtgctt cccacttaaa 540
acatatcagg ccttctattt atttaaatat ttaaatttta tatttattgt tgaatgtatg 600
gtttgctacc tattgtaact attattctta atcttaaaac tataaatatg gatcttttat 660
gattcttttt gtaagcccta ggggctctaa aatggtttca cttatttatc ccaaaatatt 720
tattattatg ttgaatgtta aatatagtat ctatgtagat tggttagtaa aactatttaa 780
taaatttgat aaatataaaa aaaaaaaaaa aaaaaaaaaa aa 822
<210> 12
<211> 2183
<212> DNA
<213> Homo sapiens
<400> 12
tcagcactcc accaaagcct ctgcctcagc cttactgtga gtctggttga cagtagcttc 60
taagatgtcc cagcaacaca cactgccagt gaccctctcc cctgccctca gtcaggagct 120
cctcaagact gttcctcctc cagtcaatac ccatcaggag caaatgaaac agccaactcc 180
actgcctccc ccatgccaga aggtgcctgt cgagctccca gtggaggtcc catcaaagca 240
agaggaaaag cacatgactg ctgtaaaggg actgcctgag caagaatgtg agcaacagca 300
gaaggagcca caggagcagg agctgcagca acagcactgg gaacagcatg aggaatatca 360
gaaagcagaa aacccagagc agcagcttaa gcaggagaaa acacaaaggg atcagcagct 420
aaacaaacag ctggaagaag agaagaagct cttagaccag caactggatc aagagctagt 480
caagagagat gagcaactgg gaatgaagaa agagcaactg ttggagctcc cagagcagca 540
ggaggggcac ctgaagcacc tagagcagca ggagggacag ctgaagcacc cggagcagca 600
ggaggggcag ctggagctcc cagagcagca ggaggggcag ctggagctcc cagagcagca 660
ggaggggcag ctggagctcc cagagcagca ggaggggcag ctggagctcc cagagcagca 720
ggaggggcag ctggagctcc cagagcagca ggaggggcag ctggagctcc cacagcagca 780
ggaggggcag ctggagctct ctgagcagca ggaggggcag ctggagctct ctgagcagca 840
ggagggacag ctgaagcacc tggagcacca ggaggggcag ctggaggtcc cagaggagca 900
gatggggcag ctgaagtacc tggaacagca ggaggggcag ctgaagcacc tggatcagca 960
ggagaagcag ccagagctcc cagagcagca gatggggcag ctgaagcacc tggagcagca 1020
ggaggggcag cctaagcatc tggagcagca ggaggggcaa ctggagcagc tggaggagca 1080
ggaggggcag ctgaagcacc tggagcagca ggaggggcag ctggagcacc tggagcacca 1140
ggaagggcag ctggggctcc cagagcagca ggtgctgcag ctgaagcagc tagagaagca 1200
gcaggggcag ccaaagcacc tggaggagga ggaggggcag ctgaagcacc tggtgcagca 1260
ggaggggcag ctgaagcatc tggtgcagca ggaggggcag ctggagcagc aggagaggca 1320
ggtggagcac ctggagcagc aggtggggca gctgaagcac ctagaggagc aggagggaca 1380
actgaagcat ctggagcagc agcaggggca gttggaggtc ccagagcagc aggtggggca 1440
gccaaagaac ctggagcagg aggagaagca actggagctc ccagagcagc aagagggcca 1500
ggtgaagcac ctggagaagc aggaggcaca gctggagctc ccagagcagc aggtaggaca 1560
gccaaagcac ctggaacagc aggaaaagca cctagagcac ccagagcagc aggacggaca 1620
actaaaacat ctggagcagc aggaggggca gctgaaggac ctggagcagc agaaggggca 1680
gctggagcag cctgtgtttg ccccagctcc aggccaggtc caagacattc aaccagccct 1740
gcccacaaag ggagaagtat tgcttcctgt agagcaccag cagcagaagc aggaggtgca 1800
gtggccaccc aaacataaat aaccacccgc agtgtccaga ggccctcaga tcgtctcata 1860
caagggaaga gagagccact ggctccactt atttcgggtc cgctaggtgg cccgtctcat 1920
ctgtgaactt gactctgtcc ctctacatgt ctctttaatg gggtgagggt gggggagaga 1980
gggaattatt gtccagtgcc aaccccaatg accccaatcc caacctcagg tgagcagagc 2040
ctctacttga gggactattg ttactatagg aatccttact tccccagtat tgaagctgaa 2100
tcagtgagtg tgtacaatga tacataataa atcctggaag tcttgggatc ctaaaaaaaa 2160
aaaaaaaaaa aaaaaaaaaa aaa 2183
<210> 13
<211> 1229
<212> DNA
<213> Homo sapiens
<400> 13
ctctcctcac tcacccttcc tggtgctttg ggctctcctt ccttctcaga caagatgtct 60
tatcagaaaa agcagcccac ccctcagccc ccagtggact gcgtgaagac ctctggcggc 120
ggtggcggtg gcggcggcag cggcggtggt ggctgcggct tcttcggcgg cggcggctca 180
gggggcggta gcagcggttc tggctgcggc tactccggcg gcggtggcta ctctggcggc 240
ggctgcggcg ggggctcctc cggcggcggg ggcgggggcg gcattggagg ctgcggaggg 300
ggctccggtg ggagcgtcaa gtactccgga ggcggcggct cctccggcgg gggctctggc 360
tgtttctcca gcggtggggg cggctccggc tgcttctcct ccggtggcgg cggctcctcc 420
gggggcggct ccggctgctt ctccagcggt gggggcggct cctccggggg cggctccggc 480
tgcttctcct ccggcggcgg cggcttctcg ggccaggcgg tccagtgcca gagctacgga 540
ggcgtctcta gcggcggctc ctccgggggc ggctccggct gcttctccag cggcgggggc 600
ggcggctctg tctgcggcta ctctggcggc ggctctggct gcggcggagg ctcctctggc 660
ggcagcggct ccggctacgt ctcctcgcag caggtcactc agacctcgtg cgcgccccag 720
ccgagttacg gaggggggtc gtccggcggc ggcggcagcg gcggaagcgg ctgcttctcc 780
agcggcgggg gcggcgggag ctccggctgc ggcggcggct cctccgggat tggcagcggc 840
tgcatcatca gtggcggggg ctccgtctgc ggaggtggtt cctctggagg cggcggcggc 900
ggctcctccg tgggtggctc cgggagtggc aagggcgtcc cgatctgcca ccagacccag 960
cagaagcagg cgcctacctg gccgtccaaa tagatccccc agggtaccac ggaggcgaag 1020
gagttggagg tgttttccag gggcaccgat gggcttagag ctctcatgat gctacccgag 1080
gtttgcaaat ccttcatgtc ttaacctacc tggaagaagc cattgagctc tccggctgca 1140
tctagttctg ctgtttagcc tctttggttt ctgtacaact acctcccaac cccagtgcct 1200
cagtcaataa atttgcaaat tcatgagaa 1229
<210> 14
<211> 2081
<212> DNA
<213> Homo sapiens
<400> 14
agcatgagtc agacagcctc tggctttctg gaagggcaag gactctatat atacagaggg 60
agcttcctag ctgggatatt ggagcagcaa gaggctggga agccatcact taccttgcac 120
tgagaaagaa gacaaaggcc agtatgcaca gctttcctcc actgctgctg ctgctgttct 180
ggggtgtggt gtctcacagc ttcccagcga ctctagaaac acaagagcaa gatgtggact 240
tagtccagaa atacctggaa aaatactaca acctgaagaa tgatgggagg caagttgaaa 300
agcggagaaa tagtggccca gtggttgaaa aattgaagca aatgcaggaa ttctttgggc 360
tgaaagtgac tgggaaacca gatgctgaaa ccctgaaggt gatgaagcag cccagatgtg 420
gagtgcctga tgtggctcag tttgtcctca ctgaggggaa ccctcgctgg gagcaaacac 480
atctgaccta caggattgaa aattacacgc cagatttgcc aagagcagat gtggaccatg 540
ccattgagaa agccttccaa ctctggagta atgtcacacc tctgacattc accaaggtct 600
ctgagggtca agcagacatc atgatatctt ttgtcagggg agatcatcgg gacaactctc 660
cttttgatgg acctggagga aatcttgctc atgcttttca accaggccca ggtattggag 720
gggatgctca ttttgatgaa gatgaaaggt ggaccaacaa tttcagagag tacaacttac 780
atcgtgttgc agctcatgaa ctcggccatt ctcttggact ctcccattct actgatatcg 840
gggctttgat gtaccctagc tacaccttca gtggtgatgt tcagctagct caggatgaca 900
ttgatggcat ccaagccata tatggacgtt cccaaaatcc tgtccagccc atcggcccac 960
aaaccccaaa agcgtgtgac agtaagctaa cctttgatgc tataactacg attcggggag 1020
aagtgatgtt ctttaaagac agattctaca tgcgcacaaa tcccttctac ccggaagttg 1080
agctcaattt catttctgtt ttctggccac aactgccaaa tgggcttgaa gctgcttacg 1140
aatttgccga cagagatgaa gtccggtttt tcaaagggaa taagtactgg gctgttcagg 1200
gacagaatgt gctacacgga taccccaagg acatctacag ctcctttggc ttccctagaa 1260
ctgtgaagca tatcgatgct gctctttctg aggaaaacac tggaaaaacc tacttctttg 1320
ttgctaacaa atactggagg tatgatgaat ataaacgatc tatggatcca ggttatccca 1380
aaatgatagc acatgacttt cctggaattg gccacaaagt tgatgcagtt ttcatgaaag 1440
atggattttt ctatttcttt catggaacaa gacaatacaa atttgatcct aaaacgaaga 1500
gaattttgac tctccagaaa gctaatagct ggttcaactg caggaaaaat tgaacattac 1560
taatttgaat ggaaaacaca tggtgtgagt ccaaagaagg tgttttcctg aagaactgtc 1620
tattttctca gtcattttta acctctagag tcactgatac acagaatata atcttattta 1680
tacctcagtt tgcatatttt tttactattt agaatgtagc cctttttgta ctgatataat 1740
ttagttccac aaatggtggg tacaaaaagt caagtttgtg gcttatggat tcatataggc 1800
cagagttgca aagatctttt ccagagtatg caactctgac gttgatccca gagagcagct 1860
tcagtgacaa acatatcctt tcaagacaga aagagacagg agacatgagt ctttgccgga 1920
ggaaaagcag ctcaagaaca catgtgcagt cactggtgtc accctggata ggcaagggat 1980
aactcttcta acacaaaata agtgttttat gtttggaata aagtcaacct tgtttctact 2040
gttttataca ctttcaaaaa aaaaaaaaaa aaaaaaaaaa a 2081
<210> 15
<211> 1906
<212> DNA
<213> Homo sapiens
<400> 15
aaagcaagga tgagtcaagc tgcgggtgat ccaaacaaac actgtcactc tttaaaagct 60
gcgctcccga ggttggacct acaaggaggc aggcaagaca gcaaggcata gagacaacat 120
agagctaagt aaagccagtg gaaatgaaga gtcttccaat cctactgttg ctgtgcgtgg 180
cagtttgctc agcctatcca ttggatggag ctgcaagggg tgaggacacc agcatgaacc 240
ttgttcagaa atatctagaa aactactacg acctcaaaaa agatgtgaaa cagtttgtta 300
ggagaaagga cagtggtcct gttgttaaaa aaatccgaga aatgcagaag ttccttggat 360
tggaggtgac ggggaagctg gactccgaca ctctggaggt gatgcgcaag cccaggtgtg 420
gagttcctga tgttggtcac ttcagaacct ttcctggcat cccgaagtgg aggaaaaccc 480
accttacata caggattgtg aattatacac cagatttgcc aaaagatgct gttgattctg 540
ctgttgagaa agctctgaaa gtctgggaag aggtgactcc actcacattc tccaggctgt 600
atgaaggaga ggctgatata atgatctctt ttgcagttag agaacatgga gacttttacc 660
cttttgatgg acctggaaat gttttggccc atgcctatgc ccctgggcca gggattaatg 720
gagatgccca ctttgatgat gatgaacaat ggacaaagga tacaacaggg accaatttat 780
ttctcgttgc tgctcatgaa attggccact ccctgggtct ctttcactca gccaacactg 840
aagctttgat gtacccactc tatcactcac tcacagacct gactcggttc cgcctgtctc 900
aagatgatat aaatggcatt cagtccctct atggacctcc ccctgactcc cctgagaccc 960
ccctggtacc cacggaacct gtccctccag aacctgggac gccagccaac tgtgatcctg 1020
ctttgtcctt tgatgctgtc agcactctga ggggagaaat cctgatcttt aaagacaggc 1080
acttttggcg caaatccctc aggaagcttg aacctgaatt gcatttgatc tcttcatttt 1140
ggccatctct tccttcaggc gtggatgccg catatgaagt tactagcaag gacctcgttt 1200
tcatttttaa aggaaatcaa ttctgggcta tcagaggaaa tgaggtacga gctggatacc 1260
caagaggcat ccacacccta ggtttccctc caaccgtgag gaaaatcgat gcagccattt 1320
ctgataagga aaagaacaaa acatatttct ttgtagagga caaatactgg agatttgatg 1380
agaagagaaa ttccatggag ccaggctttc ccaagcaaat agctgaagac tttccaggga 1440
ttgactcaaa gattgatgct gtttttgaag aatttgggtt cttttatttc tttactggat 1500
cttcacagtt ggagtttgac ccaaatgcaa agaaagtgac acacactttg aagagtaaca 1560
gctggcttaa ttgttgaaag agatatgtag aaggcacaat atgggcactt taaatgaagc 1620
taataattct tcacctaagt ctctgtgaat tgaaatgttc gttttctcct gcctgtgctg 1680
tgactcgagt cacactcaag ggaacttgag cgtgaatctg tatcttgccg gtcattttta 1740
tgttattaca gggcattcaa atgggctgct gcttagcttg caccttgtca catagagtga 1800
tctttcccaa gagaagggga agcactcgtg tgcaacagac aagtgactgt atctgtgtag 1860
actatttgct tatttaataa agacgatttg tcagttattt tatctt 1906
<210> 16
<211> 2387
<212> DNA
<213> Homo sapiens
<400> 16
agacacctct gccctcacca tgagcctctg gcagcccctg gtcctggtgc tcctggtgct 60
gggctgctgc tttgctgccc ccagacagcg ccagtccacc cttgtgctct tccctggaga 120
cctgagaacc aatctcaccg acaggcagct ggcagaggaa tacctgtacc gctatggtta 180
cactcgggtg gcagagatgc gtggagagtc gaaatctctg gggcctgcgc tgctgcttct 240
ccagaagcaa ctgtccctgc ccgagaccgg tgagctggat agcgccacgc tgaaggccat 300
gcgaacccca cggtgcgggg tcccagacct gggcagattc caaacctttg agggcgacct 360
caagtggcac caccacaaca tcacctattg gatccaaaac tactcggaag acttgccgcg 420
ggcggtgatt gacgacgcct ttgcccgcgc cttcgcactg tggagcgcgg tgacgccgct 480
caccttcact cgcgtgtaca gccgggacgc agacatcgtc atccagtttg gtgtcgcgga 540
gcacggagac gggtatccct tcgacgggaa ggacgggctc ctggcacacg cctttcctcc 600
tggccccggc attcagggag acgcccattt cgacgatgac gagttgtggt ccctgggcaa 660
gggcgtcgtg gttccaactc ggtttggaaa cgcagatggc gcggcctgcc acttcccctt 720
catcttcgag ggccgctcct actctgcctg caccaccgac ggtcgctccg acggcttgcc 780
ctggtgcagt accacggcca actacgacac cgacgaccgg tttggcttct gccccagcga 840
gagactctac acccaggacg gcaatgctga tgggaaaccc tgccagtttc cattcatctt 900
ccaaggccaa tcctactccg cctgcaccac ggacggtcgc tccgacggct accgctggtg 960
cgccaccacc gccaactacg accgggacaa gctcttcggc ttctgcccga cccgagctga 1020
ctcgacggtg atggggggca actcggcggg ggagctgtgc gtcttcccct tcactttcct 1080
gggtaaggag tactcgacct gtaccagcga gggccgcgga gatgggcgcc tctggtgcgc 1140
taccacctcg aactttgaca gcgacaagaa gtggggcttc tgcccggacc aaggatacag 1200
tttgttcctc gtggcggcgc atgagttcgg ccacgcgctg ggcttagatc attcctcagt 1260
gccggaggcg ctcatgtacc ctatgtaccg cttcactgag gggcccccct tgcataagga 1320
cgacgtgaat ggcatccggc acctctatgg tcctcgccct gaacctgagc cacggcctcc 1380
aaccaccacc acaccgcagc ccacggctcc cccgacggtc tgccccaccg gaccccccac 1440
tgtccacccc tcagagcgcc ccacagctgg ccccacaggt cccccctcag ctggccccac 1500
aggtcccccc actgctggcc cttctacggc cactactgtg cctttgagtc cggtggacga 1560
tgcctgcaac gtgaacatct tcgacgccat cgcggagatt gggaaccagc tgtatttgtt 1620
caaggatggg aagtactggc gattctctga gggcaggggg agccggccgc agggcccctt 1680
ccttatcgcc gacaagtggc ccgcgctgcc ccgcaagctg gactcggtct ttgaggagcg 1740
gctctccaag aagcttttct tcttctctgg gcgccaggtg tgggtgtaca caggcgcgtc 1800
ggtgctgggc ccgaggcgtc tggacaagct gggcctggga gccgacgtgg cccaggtgac 1860
cggggccctc cggagtggca gggggaagat gctgctgttc agcgggcggc gcctctggag 1920
gttcgacgtg aaggcgcaga tggtggatcc ccggagcgcc agcgaggtgg accggatgtt 1980
ccccggggtg cctttggaca cgcacgacgt cttccagtac cgagagaaag cctatttctg 2040
ccaggaccgc ttctactggc gcgtgagttc ccggagtgag ttgaaccagg tggaccaagt 2100
gggctacgtg acctatgaca tcctgcagtg ccctgaggac tagggctccc gtcctgcttt 2160
ggcagtgcca tgtaaatccc cactgggacc aaccctgggg aaggagccag tttgccggat 2220
acaaactggt attctgttct ggaggaaagg gaggagtgga ggtgggctgg gccctctctt 2280
ctcacctttg ttttttgttg gagtgtttct aataaacttg gattctctaa cctttaaaaa 2340
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaa 2387
<210> 17
<211> 3207
<212> DNA
<213> Homo sapiens
<400> 17
ggcccacaga ggagcacagc tgtgtttggc tgcagggcca agagcgctgt caagaagacc 60
cacacgcccc cctccagcag ctgaattcct gcagctcagc agccgccgcc agagcaggac 120
gaaccgccaa tcgcaaggca cctctgagaa cttcaggatg cagatgtctc cagccctcac 180
ctgcctagtc ctgggcctgg cccttgtctt tggtgaaggg tctgctgtgc accatccccc 240
atcctacgtg gcccacctgg cctcagactt cggggtgagg gtgtttcagc aggtggcgca 300
ggcctccaag gaccgcaacg tggttttctc accctatggg gtggcctcgg tgttggccat 360
gctccagctg acaacaggag gagaaaccca gcagcagatt caagcagcta tgggattcaa 420
gattgatgac aagggcatgg cccccgccct ccggcatctg tacaaggagc tcatggggcc 480
atggaacaag gatgagatca gcaccacaga cgcgatcttc gtccagcggg atctgaagct 540
ggtccagggc ttcatgcccc acttcttcag gctgttccgg agcacggtca agcaagtgga 600
cttttcagag gtggagagag ccagattcat catcaatgac tgggtgaaga cacacacaaa 660
aggtatgatc agcaacttgc ttgggaaagg agccgtggac cagctgacac ggctggtgct 720
ggtgaatgcc ctctacttca acggccagtg gaagactccc ttccccgact ccagcaccca 780
ccgccgcctc ttccacaaat cagacggcag cactgtctct gtgcccatga tggctcagac 840
caacaagttc aactatactg agttcaccac gcccgatggc cattactacg acatcctgga 900
actgccctac cacggggaca ccctcagcat gttcattgct gccccttatg aaaaagaggt 960
gcctctctct gccctcacca acattctgag tgcccagctc atcagccact ggaaaggcaa 1020
catgaccagg ctgccccgcc tcctggttct gcccaagttc tccctggaga ctgaagtcga 1080
cctcaggaag cccctagaga acctgggaat gaccgacatg ttcagacagt ttcaggctga 1140
cttcacgagt ctttcagacc aagagcctct ccacgtcgcg caggcgctgc agaaagtgaa 1200
gatcgaggtg aacgagagtg gcacggtggc ctcctcatcc acagctgtca tagtctcagc 1260
ccgcatggcc cccgaggaga tcatcatgga cagacccttc ctctttgtgg tccggcacaa 1320
ccccacagga acagtccttt tcatgggcca agtgatggaa ccctgaccct ggggaaagac 1380
gccttcatct gggacaaaac tggagatgca tcgggaaaga agaaactccg aagaaaagaa 1440
ttttagtgtt aatgactctt tctgaaggaa gagaagacat ttgccttttg ttaaaagatg 1500
gtaaaccaga tctgtctcca agaccttggc ctctccttgg aggaccttta ggtcaaactc 1560
cctagtctcc acctgagacc ctgggagaga agtttgaagc acaactccct taaggtctcc 1620
aaaccagacg gtgacgcctg cgggaccatc tggggcacct gcttccaccc gtctctctgc 1680
ccactcgggt ctgcagacct ggttcccact gaggcccttt gcaggatgga actacggggc 1740
ttacaggagc ttttgtgtgc ctggtagaaa ctatttctgt tccagtcaca ttgccatcac 1800
tcttgtactg cctgccaccg cggaggaggc tggtgacagg ccaaaggcca gtggaagaaa 1860
caccctttca tctcagagtc cactgtggca ctggccaccc ctccccagta caggggtgct 1920
gcaggtggca gagtgaatgt cccccatcat gtggcccaac tctcctggcc tggccatctc 1980
cctccccaga aacagtgtgc atgggttatt ttggagtgta ggtgacttgt ttactcattg 2040
aagcagattt ctgcttcctt ttatttttat aggaatagag gaagaaatgt cagatgcgtg 2100
cccagctctt caccccccaa tctcttggtg gggaggggtg tacctaaata tttatcatat 2160
ccttgccctt gagtgcttgt tagagagaaa gagaactact aaggaaaata atattattta 2220
aactcgctcc tagtgtttct ttgtggtctg tgtcaccgta tctcaggaag tccagccact 2280
tgactggcac acacccctcc ggacatccag cgtgacggag cccacactgc caccttgtgg 2340
ccgcctgaga ccctcgcgcc ccccgcgccc ctctttttcc ccttgatgga aattgaccat 2400
acaatttcat cctccttcag gggatcaaaa ggacggagtg gggggacaga gactcagatg 2460
aggacagagt ggtttccaat gtgttcaata gatttaggag cagaaatgca aggggctgca 2520
tgacctacca ggacagaact ttccccaatt acagggtgac tcacagccgc attggtgact 2580
cacttcaatg tgtcatttcc ggctgctgtg tgtgagcagt ggacacgtga ggggggggtg 2640
ggtgagagag acaggcagct cggattcaac taccttagat aatatttctg aaaacctacc 2700
agccagaggg tagggcacaa agatggatgt aatgcacttt gggaggccaa ggcgggagga 2760
ttgcttgagc ccaggagttc aagaccagcc tgggcaacat accaagaccc ccgtctcttt 2820
aaaaatatat atattttaaa tatacttaaa tatatatttc taatatcttt aaatatatat 2880
atatatttta aagaccaatt tatgggagaa ttgcacacag atgtgaaatg aatgtaatct 2940
aatagaagcc taatcagccc accatgttct ccactgaaaa atcctctttc tttggggttt 3000
ttctttcttt cttttttgat tttgcactgg acggtgacgt cagccatgta caggatccac 3060
aggggtggtg tcaaatgcta ttgaaattgt gttgaattgt atgctttttc acttttgata 3120
aataaacatg taaaaatgtt tcaaaaaaat aataaaataa ataaatacga agaatatgtc 3180
aggacagtca aaaaaaaaaa aaaaaaa 3207
<210> 18
<211> 2398
<212> DNA
<213> Homo sapiens
<400> 18
ctgatataga gcaggcgccg cgggtcgcag cacagtgcgg agaccgcagc cccggagccc 60
gggccagggt ccacctgtcc ccgcagcgcc ggctcgcgcc ctcctgccgc agccaccgag 120
ccgccgtcta gcgccccgac ctcgccacca tgagagccct gctggcgcgc ctgcttctct 180
gcgtcctggt cgtgagcgac tccaaaggca gcaatgaact tcatcaagtt ccatcgaact 240
gtgactgtct aaatggagga acatgtgtgt ccaacaagta cttctccaac attcactggt 300
gcaactgccc aaagaaattc ggagggcagc actgtgaaat agataagtca aaaacctgct 360
atgaggggaa tggtcacttt taccgaggaa aggccagcac tgacaccatg ggccggccct 420
gcctgccctg gaactctgcc actgtccttc agcaaacgta ccatgcccac agatctgatg 480
ctcttcagct gggcctgggg aaacataatt actgcaggaa cccagacaac cggaggcgac 540
cctggtgcta tgtgcaggtg ggcctaaagc cgcttgtcca agagtgcatg gtgcatgact 600
gcgcagatgg aaaaaagccc tcctctcctc cagaagaatt aaaatttcag tgtggccaaa 660
agactctgag gccccgcttt aagattattg ggggagaatt caccaccatc gagaaccagc 720
cctggtttgc ggccatctac aggaggcacc gggggggctc tgtcacctac gtgtgtggag 780
gcagcctcat cagcccttgc tgggtgatca gcgccacaca ctgcttcatt gattacccaa 840
agaaggagga ctacatcgtc tacctgggtc gctcaaggct taactccaac acgcaagggg 900
agatgaagtt tgaggtggaa aacctcatcc tacacaagga ctacagcgct gacacgcttg 960
ctcaccacaa cgacattgcc ttgctgaaga tccgttccaa ggagggcagg tgtgcgcagc 1020
catcccggac tatacagacc atctgcctgc cctcgatgta taacgatccc cagtttggca 1080
caagctgtga gatcactggc tttggaaaag agaattctac cgactatctc tatccggagc 1140
agctgaaaat gactgttgtg aagctgattt cccaccggga gtgtcagcag ccccactact 1200
acggctctga agtcaccacc aaaatgctgt gtgctgctga cccacagtgg aaaacagatt 1260
cctgccaggg agactcaggg ggacccctcg tctgttccct ccaaggccgc atgactttga 1320
ctggaattgt gagctggggc cgtggatgtg ccctgaagga caagccaggc gtctacacga 1380
gagtctcaca cttcttaccc tggatccgca gtcacaccaa ggaagagaat ggcctggccc 1440
tctgagggtc cccagggagg aaacgggcac cacccgcttt cttgctggtt gtcatttttg 1500
cagtagagtc atctccatca gctgtaagaa gagactggga agataggctc tgcacagatg 1560
gatttgcctg tgccacccac cagggcgaac gacaatagct ttaccctcag gcataggcct 1620
gggtgctggc tgcccagacc cctctggcca ggatggaggg gtggtcctga ctcaacatgt 1680
tactgaccag caacttgtct ttttctggac tgaagcctgc aggagttaaa aagggcaggg 1740
catctcctgt gcatgggtga agggagagcc agctcccccg acggtgggca tttgtgaggc 1800
ccatggttga gaaatgaata atttcccaat taggaagtgt aacagctgag gtctcttgag 1860
ggagcttagc caatgtggga gcagcggttt ggggagcaga gacactaacg acttcagggc 1920
agggctctga tattccatga atgtatcagg aaatatatat gtgtgtgtat gtttgcacac 1980
ttgtgtgtgg gctgtgagtg taagtgtgag taagagctgg tgtctgattg ttaagtctaa 2040
atatttcctt aaactgtgtg gactgtgatg ccacacagag tggtctttct ggagaggtta 2100
taggtcactc ctggggcctc ttgggtcccc cacgtgacag tgcctgggaa tgtattattc 2160
tgcagcatga cctgtgacca gcactgtctc agtttcactt tcacatagat gtccctttct 2220
tggccagtta tcccttcctt ttagcctagt tcatccaatc ctcactgggt ggggtgagga 2280
ccactcctgt acactgaata tttatatttc actattttta tttatatttt tgtaatttta 2340
aataaaagtg atcaataaaa tgtgattttt ctgatgacaa aaaaaaaaaa aaaaaaaa 2398
<210> 19
<211> 1570
<212> DNA
<213> Homo sapiens
<400> 19
gccgagccag ccccttcacc accagccggc cgcgccccgg gaagggaagt ttgtggcgga 60
ggaggttcgt acgggaggag ggggaggcgc ccacgcatct ggggctgact cgctctttcg 120
caaaacgtct gggaggagtc cctggggcca caaaactgcc tccttcctga ggccagaagg 180
agagaagacg tgcagggacc ccgcgcacag gagctgccct cgcgacatgg gtcacccgcc 240
gctgctgccg ctgctgctgc tgctccacac ctgcgtccca gcctcttggg gcctgcggtg 300
catgcagtgt aagaccaacg gggattgccg tgtggaagag tgcgccctgg gacaggacct 360
ctgcaggacc acgatcgtgc gcttgtggga agaaggagaa gagctggagc tggtggagaa 420
aagctgtacc cactcagaga agaccaacag gaccctgagc tatcggactg gcttgaagat 480
caccagcctt accgaggttg tgtgtgggtt agacttgtgc aaccagggca actctggccg 540
ggctgtcacc tattcccgaa gccgttacct cgaatgcatt tcctgtggct catcagacat 600
gagctgtgag aggggccggc accagagcct gcagtgccgc agccctgaag aacagtgcct 660
ggatgtggtg acccactgga tccaggaagg tgaagaaggg cgtccaaagg atgaccgcca 720
cctccgtggc tgtggctacc ttcccggctg cccgggctcc aatggtttcc acaacaacga 780
caccttccac ttcctgaaat gctgcaacac caccaaatgc aacgagggcc caatcctgga 840
gcttgaaaat ctgccgcaga atggccgcca gtgttacagc tgcaagggga acagcaccca 900
tggatgctcc tctgaagaga ctttcctcat tgactgccga ggccccatga atcaatgtct 960
ggtagccacc ggcactcacg aaccgaaaaa ccaaagctat atggtaagag gctgtgcaac 1020
cgcctcaatg tgccaacatg cccacctggg tgacgccttc agcatgaacc acattgatgt 1080
ctcctgctgt actaaaagtg gctgtaacca cccagacctg gatgtccagt accgcagtgg 1140
ggctgctcct cagcctggcc ctgcccatct cagcctcacc atcaccctgc taatgactgc 1200
cagactgtgg ggaggcactc tcctctggac ctaaacctga aatccccctc tctgccctgg 1260
ctggatccgg gggacccctt tgcccttccc tcggctccca gccctacaga cttgctgtgt 1320
gacctcaggc cagtgtgccg acctctctgg gcctcagttt tcccagctat gaaaacagct 1380
atctcacaaa gttgtgtgaa gcagaagaga aaagctggag gaaggccgtg ggccaatggg 1440
agagctcttg ttattattaa tattgttgcc gctgttgtgt tgttgttatt aattaatatt 1500
catattattt attttatact tacataaaga ttttgtacca gtggacaagg ccaaaaaaaa 1560
aaaaaaaaaa 1570
<210> 20
<211> 4507
<212> DNA
<213> Homo sapiens
<400> 20
gaccaattgt catacgactt gcagtgagcg tcaggagcac gtccaggaac tcctcagcag 60
cgcctccttc agctccacag ccagacgccc tcagacagca aagcctaccc ccgcgccgcg 120
ccctgcccgc cgctgcgatg ctcgcccgcg ccctgctgct gtgcgcggtc ctggcgctca 180
gccatacagc aaatccttgc tgttcccacc catgtcaaaa ccgaggtgta tgtatgagtg 240
tgggatttga ccagtataag tgcgattgta cccggacagg attctatgga gaaaactgct 300
caacaccgga atttttgaca agaataaaat tatttctgaa acccactcca aacacagtgc 360
actacatact tacccacttc aagggatttt ggaacgttgt gaataacatt cccttccttc 420
gaaatgcaat tatgagttat gtgttgacat ccagatcaca tttgattgac agtccaccaa 480
cttacaatgc tgactatggc tacaaaagct gggaagcctt ctctaacctc tcctattata 540
ctagagccct tcctcctgtg cctgatgatt gcccgactcc cttgggtgtc aaaggtaaaa 600
agcagcttcc tgattcaaat gagattgtgg aaaaattgct tctaagaaga aagttcatcc 660
ctgatcccca gggctcaaac atgatgtttg cattctttgc ccagcacttc acgcatcagt 720
ttttcaagac agatcataag cgagggccag ctttcaccaa cgggctgggc catggggtgg 780
acttaaatca tatttacggt gaaactctgg ctagacagcg taaactgcgc cttttcaagg 840
atggaaaaat gaaatatcag ataattgatg gagagatgta tcctcccaca gtcaaagata 900
ctcaggcaga gatgatctac cctcctcaag tccctgagca tctacggttt gctgtggggc 960
aggaggtctt tggtctggtg cctggtctga tgatgtatgc cacaatctgg ctgcgggaac 1020
acaacagagt atgcgatgtg cttaaacagg agcatcctga atggggtgat gagcagttgt 1080
tccagacaag caggctaata ctgataggag agactattaa gattgtgatt gaagattatg 1140
tgcaacactt gagtggctat cacttcaaac tgaaatttga cccagaacta cttttcaaca 1200
aacaattcca gtaccaaaat cgtattgctg ctgaatttaa caccctctat cactggcatc 1260
cccttctgcc tgacaccttt caaattcatg accagaaata caactatcaa cagtttatct 1320
acaacaactc tatattgctg gaacatggaa ttacccagtt tgttgaatca ttcaccaggc 1380
aaattgctgg cagggttgct ggtggtagga atgttccacc cgcagtacag aaagtatcac 1440
aggcttccat tgaccagagc aggcagatga aataccagtc ttttaatgag taccgcaaac 1500
gctttatgct gaagccctat gaatcatttg aagaacttac aggagaaaag gaaatgtctg 1560
cagagttgga agcactctat ggtgacatcg atgctgtgga gctgtatcct gcccttctgg 1620
tagaaaagcc tcggccagat gccatctttg gtgaaaccat ggtagaagtt ggagcaccat 1680
tctccttgaa aggacttatg ggtaatgtta tatgttctcc tgcctactgg aagccaagca 1740
cttttggtgg agaagtgggt tttcaaatca tcaacactgc ctcaattcag tctctcatct 1800
gcaataacgt gaagggctgt ccctttactt cattcagtgt tccagatcca gagctcatta 1860
aaacagtcac catcaatgca agttcttccc gctccggact agatgatatc aatcccacag 1920
tactactaaa agaacgttcg actgaactgt agaagtctaa tgatcatatt tatttattta 1980
tatgaaccat gtctattaat ttaattattt aataatattt atattaaact ccttatgtta 2040
cttaacatct tctgtaacag aagtcagtac tcctgttgcg gagaaaggag tcatacttgt 2100
gaagactttt atgtcactac tctaaagatt ttgctgttgc tgttaagttt ggaaaacagt 2160
ttttattctg ttttataaac cagagagaaa tgagttttga cgtcttttta cttgaatttc 2220
aacttatatt ataagaacga aagtaaagat gtttgaatac ttaaacactg tcacaagatg 2280
gcaaaatgct gaaagttttt acactgtcga tgtttccaat gcatcttcca tgatgcatta 2340
gaagtaacta atgtttgaaa ttttaaagta cttttggtta tttttctgtc atcaaacaaa 2400
aacaggtatc agtgcattat taaatgaata tttaaattag acattaccag taatttcatg 2460
tctacttttt aaaatcagca atgaaacaat aatttgaaat ttctaaattc atagggtaga 2520
atcacctgta aaagcttgtt tgatttctta aagttattaa acttgtacat ataccaaaaa 2580
gaagctgtct tggatttaaa tctgtaaaat cagtagaaat tttactacaa ttgcttgtta 2640
aaatatttta taagtgatgt tcctttttca ccaagagtat aaaccttttt agtgtgactg 2700
ttaaaacttc cttttaaatc aaaatgccaa atttattaag gtggtggagc cactgcagtg 2760
ttatcttaaa ataagaatat tttgttgaga tattccagaa tttgtttata tggctggtaa 2820
catgtaaaat ctatatcagc aaaagggtct acctttaaaa taagcaataa caaagaagaa 2880
aaccaaatta ttgttcaaat ttaggtttaa acttttgaag caaacttttt tttatccttg 2940
tgcactgcag gcctggtact cagattttgc tatgaggtta atgaagtacc aagctgtgct 3000
tgaataatga tatgttttct cagattttct gttgtacagt ttaatttagc agtccatatc 3060
acattgcaaa agtagcaatg acctcataaa atacctcttc aaaatgctta aattcatttc 3120
acacattaat tttatctcag tcttgaagcc aattcagtag gtgcattgga atcaagcctg 3180
gctacctgca tgctgttcct tttcttttct tcttttagcc attttgctaa gagacacagt 3240
cttctcatca cttcgtttct cctattttgt tttactagtt ttaagatcag agttcacttt 3300
ctttggactc tgcctatatt ttcttacctg aacttttgca agttttcagg taaacctcag 3360
ctcaggactg ctatttagct cctcttaaga agattaaaag agaaaaaaaa aggccctttt 3420
aaaaatagta tacacttatt ttaagtgaaa agcagagaat tttatttata gctaatttta 3480
gctatctgta accaagatgg atgcaaagag gctagtgcct cagagagaac tgtacggggt 3540
ttgtgactgg aaaaagttac gttcccattc taattaatgc cctttcttat ttaaaaacaa 3600
aaccaaatga tatctaagta gttctcagca ataataataa tgacgataat acttcttttc 3660
cacatctcat tgtcactgac atttaatggt actgtatatt acttaattta ttgaagatta 3720
ttatttatgt cttattagga cactatggtt ataaactgtg tttaagccta caatcattga 3780
tttttttttg ttatgtcaca atcagtatat tttctttggg gttacctctc tgaatattat 3840
gtaaacaatc caaagaaatg attgtattaa gatttgtgaa taaattttta gaaatctgat 3900
tggcatattg agatatttaa ggttgaatgt ttgtccttag gataggccta tgtgctagcc 3960
cacaaagaat attgtctcat tagcctgaat gtgccataag actgaccttt taaaatgttt 4020
tgagggatct gtggatgctt cgttaatttg ttcagccaca atttattgag aaaatattct 4080
gtgtcaagca ctgtgggttt taatattttt aaatcaaacg ctgattacag ataatagtat 4140
ttatataaat aattgaaaaa aattttcttt tgggaagagg gagaaaatga aataaatatc 4200
attaaagata actcaggaga atcttcttta caattttacg tttagaatgt ttaaggttaa 4260
gaaagaaata gtcaatatgc ttgtataaaa cactgttcac tgtttttttt aaaaaaaaaa 4320
cttgatttgt tattaacatt gatctgctga caaaacctgg gaatttgggt tgtgtatgcg 4380
aatgtttcag tgcctcagac aaatgtgtat ttaacttatg taaaagataa gtctggaaat 4440
aaatgtctgt ttatttttgt actatttaaa aattgacaga tcttttctga agaaaaaaaa 4500
aaaaaaa 4507
<210> 21
<211> 1002
<212> DNA
<213> Homo sapiens
<400> 21
gagccctgca ggcagggggc ttccaggctt gggacacctg ggcattcctg ggccaggaaa 60
gcacccaaca aacctgcaac tcagaagcca aatgagacct atcccaggca ggtccgctct 120
gcgatggtgg ctctcataca ccgcacagaa gtgaggcatc ggggacagcc gctgcggcag 180
cactcgagcc agctcaagcc cgcagctcgc agggagatcc agctccgtcc tgcctgcagc 240
agcacaaccc tgcacaccca ccatggatgt cttcaagaag ggcttctcca tcgccaagga 300
gggcgtggtg ggtgcggtgg aaaagaccaa gcagggggtg acggaagcag ctgagaagac 360
caaggagggg gtcatgtatg tgggagccaa gaccaaggag aatgttgtac agagcgtgac 420
ctcaggcctg ccttggggct ggggctgggg tggaggccag ccagtgtcct cccatagtgg 480
ccgagaagac caaggagcag gccaacgccg tgagcgaggc tgtggtgagc agcgtcaaca 540
ctgtggccac caagaccgtg gaggaggcgg agaacatcgc ggtcacctcc ggggtggtgc 600
gcaaggagga cttgaggcca tctgcccccc aacaggaggg tgaggcatcc aaagagaaag 660
aggaagtggc agaggaggcc cagagtgggg gagactagag ggctacaggc cagcgtggat 720
gacctgaaga gcgctcctct gccttggaca ccatcccctc ctagcacaag gagtgcccgc 780
cttgagtgac atgcggctgc ccacgctcct gccctcgtct ccctggccac ccttggcctg 840
tccacctgtg ctgctgcacc aacctcactg ccctccctcg gccccaccca ccctctggtc 900
cttctgaccc cacttatgct gctgtgaatt ttttttttaa atgattccaa ataaaacttg 960
agcccactcc tgcaaaaaaa aaaaaaaaaa aaaaaaaaaa aa 1002
<210> 22
<211> 931
<212> DNA
<213> Homo sapiens
<400> 22
tttcgtcggc ccgccccttg gcttctgcac tgatggtggg tggatgagta atgcatccag 60
gaagcctgga ggcctgtggt ttccgcaccc gctgccaccc ccgcccctag cgtggacatt 120
tatcctctag cgctcaggcc ctgccgccat cgccgcagat ccagcgccca gagagacacc 180
agagaaccca ccatggcccc ctttgagccc ctggcttctg gcatcctgtt gttgctgtgg 240
ctgatagccc ccagcagggc ctgcacctgt gtcccacccc acccacagac ggccttctgc 300
aattccgacc tcgtcatcag ggccaagttc gtggggacac cagaagtcaa ccagaccacc 360
ttataccagc gttatgagat caagatgacc aagatgtata aagggttcca agccttaggg 420
gatgccgctg acatccggtt cgtctacacc cccgccatgg agagtgtctg cggatacttc 480
cacaggtccc acaaccgcag cgaggagttt ctcattgctg gaaaactgca ggatggactc 540
ttgcacatca ctacctgcag ttttgtggct ccctggaaca gcctgagctt agctcagcgc 600
cggggcttca ccaagaccta cactgttggc tgtgaggaat gcacagtgtt tccctgttta 660
tccatcccct gcaaactgca gagtggcact cattgcttgt ggacggacca gctcctccaa 720
ggctctgaaa agggcttcca gtcccgtcac cttgcctgcc tgcctcggga gccagggctg 780
tgcacctggc agtccctgcg gtcccagata gcctgaatcc tgcccggagt ggaagctgaa 840
gcctgcacag tgtccaccct gttcccactc ccatctttct tccggacaat gaaataaaga 900
gttaccaccc agcagaaaaa aaaaaaaaaa a 931
<210> 23
<211> 2591
<212> DNA
<213> Homo sapiens
<400> 23
gatgggattg gggttttccc ctcccatgtg ctcaagactg gcgctaaaag ttttgagctt 60
ctcaaaagtc tagagccacc gtccagggag caggtagctg ctgggctccg gggacacttt 120
gcgttcgggc tgggagcgtg ctttccacga cggtgacacg cttccctgga ttggcagcca 180
gactgccttc cgggtcactg ccatggagga gccgcagtca gatcctagcg tcgagccccc 240
tctgagtcag gaaacatttt cagacctatg gaaactactt cctgaaaaca acgttctgtc 300
ccccttgccg tcccaagcaa tggatgattt gatgctgtcc ccggacgata ttgaacaatg 360
gttcactgaa gacccaggtc cagatgaagc tcccagaatg ccagaggctg ctccccccgt 420
ggcccctgca ccagcagctc ctacaccggc ggcccctgca ccagccccct cctggcccct 480
gtcatcttct gtcccttccc agaaaaccta ccagggcagc tacggtttcc gtctgggctt 540
cttgcattct gggacagcca agtctgtgac ttgcacgtac tcccctgccc tcaacaagat 600
gttttgccaa ctggccaaga cctgccctgt gcagctgtgg gttgattcca cacccccgcc 660
cggcacccgc gtccgcgcca tggccatcta caagcagtca cagcacatga cggaggttgt 720
gaggcgctgc ccccaccatg agcgctgctc agatagcgat ggtctggccc ctcctcagca 780
tcttatccga gtggaaggaa atttgcgtgt ggagtatttg gatgacagaa acacttttcg 840
acatagtgtg gtggtgccct atgagccgcc tgaggttggc tctgactgta ccaccatcca 900
ctacaactac atgtgtaaca gttcctgcat gggcggcatg aaccggaggc ccatcctcac 960
catcatcaca ctggaagact ccagtggtaa tctactggga cggaacagct ttgaggtgcg 1020
tgtttgtgcc tgtcctggga gagaccggcg cacagaggaa gagaatctcc gcaagaaagg 1080
ggagcctcac cacgagctgc ccccagggag cactaagcga gcactgccca acaacaccag 1140
ctcctctccc cagccaaaga agaaaccact ggatggagaa tatttcaccc ttcagatccg 1200
tgggcgtgag cgcttcgaga tgttccgaga gctgaatgag gccttggaac tcaaggatgc 1260
ccaggctggg aaggagccag gggggagcag ggctcactcc agccacctga agtccaaaaa 1320
gggtcagtct acctcccgcc ataaaaaact catgttcaag acagaagggc ctgactcaga 1380
ctgacattct ccacttcttg ttccccactg acagcctccc acccccatct ctccctcccc 1440
tgccattttg ggttttgggt ctttgaaccc ttgcttgcaa taggtgtgcg tcagaagcac 1500
ccaggacttc catttgcttt gtcccggggc tccactgaac aagttggcct gcactggtgt 1560
tttgttgtgg ggaggaggat ggggagtagg acataccagc ttagatttta aggtttttac 1620
tgtgagggat gtttgggaga tgtaagaaat gttcttgcag ttaagggtta gtttacaatc 1680
agccacattc taggtagggg cccacttcac cgtactaacc agggaagctg tccctcactg 1740
ttgaattttc tctaacttca aggcccatat ctgtgaaatg ctggcatttg cacctacctc 1800
acagagtgca ttgtgagggt taatgaaata atgtacatct ggccttgaaa ccacctttta 1860
ttacatgggg tctagaactt gacccccttg agggtgcttg ttccctctcc ctgttggtcg 1920
gtgggttggt agtttctaca gttgggcagc tggttaggta gagggagttg tcaagtctct 1980
gctggcccag ccaaaccctg tctgacaacc tcttggtgaa ccttagtacc taaaaggaaa 2040
tctcacccca tcccacaccc tggaggattt catctcttgt atatgatgat ctggatccac 2100
caagacttgt tttatgctca gggtcaattt cttttttctt tttttttttt ttttttcttt 2160
ttctttgaga ctgggtctcg ctttgttgcc caggctggag tggagtggcg tgatcttggc 2220
ttactgcagc ctttgcctcc ccggctcgag cagtcctgcc tcagcctccg gagtagctgg 2280
gaccacaggt tcatgccacc atggccagcc aacttttgca tgttttgtag agatggggtc 2340
tcacagtgtt gcccaggctg gtctcaaact cctgggctca ggcgatccac ctgtctcagc 2400
ctcccagagt gctgggatta caattgtgag ccaccacgtc cagctggaag ggtcaacatc 2460
ttttacattc tgcaagcaca tctgcatttt caccccaccc ttcccctcct tctccctttt 2520
tatatcccat ttttatatcg atctcttatt ttacaataaa actttgctgc cacctgtgtg 2580
tctgaggggt g 2591
<210> 24
<211> 2195
<212> DNA
<213> Homo sapiens
<400> 24
aagaaaaacc ttcccggtgc aatcgtgatc tgggaggccc acgtatggcg cctctccaaa 60
ggctgcagaa gtttcttgct aacaaaaagt ccgcacattc gagcaaagac aggctttagc 120
gagttattaa aaacttaggg gcgctcttgt cccccacagg gcccgaccgc acacagcaag 180
gcgatggccc agctgtaagt tggtagcact gagaactagc agcgcgcgcg gagcccgctg 240
agacttgaat caatctggtc taacggtttc ccctaaaccg ctaggagccc tcaatcggcg 300
ggacagcagg gcgcgtcctc tgccactctc gctccgaggt ccccgcgcca gagacgcagc 360
cgcgctccca ccacccacac ccaccgcgcc ctcgttcgcc tcttctccgg gagccagtcc 420
gcgccaccgc cgccgcccag gccatcgcca ccctccgcag ccatgtccac caggtccgtg 480
tcctcgtcct cctaccgcag gatgttcggc ggcccgggca ccgcgagccg gccgagctcc 540
agccggagct acgtgactac gtccacccgc acctacagcc tgggcagcgc gctgcgcccc 600
agcaccagcc gcagcctcta cgcctcgtcc ccgggcggcg tgtatgccac gcgctcctct 660
gccgtgcgcc tgcggagcag cgtgcccggg gtgcggctcc tgcaggactc ggtggacttc 720
tcgctggccg acgccatcaa caccgagttc aagaacaccc gcaccaacga gaaggtggag 780
ctgcaggagc tgaatgaccg cttcgccaac tacatcgaca aggtgcgctt cctggagcag 840
cagaataaga tcctgctggc cgagctcgag cagctcaagg gccaaggcaa gtcgcgcctg 900
ggggacctct acgaggagga gatgcgggag ctgcgccggc aggtggacca gctaaccaac 960
gacaaagccc gcgtcgaggt ggagcgcgac aacctggccg aggacatcat gcgcctccgg 1020
gagaaattgc aggaggagat gcttcagaga gaggaagccg aaaacaccct gcaatctttc 1080
agacaggatg ttgacaatgc gtctctggca cgtcttgacc ttgaacgcaa agtggaatct 1140
ttgcaagaag agattgcctt tttgaagaaa ctccacgaag aggaaatcca ggagctgcag 1200
gctcagattc aggaacagca tgtccaaatc gatgtggatg tttccaagcc tgacctcacg 1260
gctgccctgc gtgacgtacg tcagcaatat gaaagtgtgg ctgccaagaa cctgcaggag 1320
gcagaagaat ggtacaaatc caagtttgct gacctctctg aggctgccaa ccggaacaat 1380
gacgccctgc gccaggcaaa gcaggagtcc actgagtacc ggagacaggt gcagtccctc 1440
acctgtgaag tggatgccct taaaggaacc aatgagtccc tggaacgcca gatgcgtgaa 1500
atggaagaga actttgccgt tgaagctgct aactaccaag acactattgg ccgcctgcag 1560
gatgagattc agaatatgaa ggaggaaatg gctcgtcacc ttcgtgaata ccaagacctg 1620
ctcaatgtta agatggccct tgacattgag attgccacct acaggaagct gctggaaggc 1680
gaggagagca ggatttctct gcctcttcca aacttttcct ccctgaacct gagggaaact 1740
aatctggatt cactccctct ggttgatacc cactcaaaaa ggacacttct gattaagacg 1800
gttgaaacta gagatggaca ggttatcaac gaaacttctc agcatcacga tgaccttgaa 1860
taaaaattgc acacactcag tgcagcaata tattaccagc aagaataaaa aagaaatcca 1920
tatcttaaag aaacagcttt caagtgcctt tctgcagttt ttcaggagcg caagatagat 1980
ttggaatagg aataagctct agttcttaac aaccgacact cctacaagat ttagaaaaaa 2040
gtttacaaca taatctagtt tacagaaaaa tcttgtgcta gaatactttt taaaaggtat 2100
tttgaatacc attaaaactg cttttttttt tccagcaagt atccaaccaa cttggttctg 2160
cttcaataaa tctttggaaa aactctttta aaaaa 2195

Claims (12)

1.一种由数字处理装置执行的用于推测对象中MAPK-AP-1细胞信号传导途径活性的计算机执行方法,其中所述推测包括:
接收在所述对象的样品中测量的MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平,
确定所述对象样品中AP-1转录因子(TF)元件的活性水平,所述AP-1TF元件控制所述三个或更多个AP-1靶基因的转录,所述确定是基于评估经校准的数学途径模型,所述经校准的数学途径模型将所述三个或更多个AP-1靶基因的表达水平与AP-1TF元件的活性水平相关联,以及
基于在所述对象样品中确定的AP-1TF元件的活性水平来推测所述对象中MAPK-AP-1细胞信号传导途径的活性,
其中所述三个或更多个AP-1靶基因选自:BCL2L11、CCND1、DDIT3、DNMT1、EGFR、ENPP2、EZR、FASLG、FIGF、GLRX、IL2、IVL、LOR、MMP1、MMP3、MMP9、SERPINE1、PLAU、PLAUR、PTGS2、SNCG、TIMP1、TP53和VIM、优选选自:CCND1、EGFR、EZR、GLRX、MMP1、MMP3、PLAU、PLAUR、SERPINE1、SNCG和TIMP1。
2.权利要求1的方法,进一步包括:
基于推测的所述对象中MAPK-AP-1细胞信号传导途径的活性确定对象中MAPK-AP-1细胞信号传导途径是否异常运行。
3.权利要求2的方法,进一步包括:
为所述对象推荐处方一种药物以校正MAPK-AP-1细胞信号传导途径的异常运行,
其中如果基于推测的MAPK-AP-1细胞信号传导途径活性确定MAPK-AP-1细胞信号传导途径在所述对象中异常运行,则进行所述推荐。
4.权利要求2或3的方法,其中MAPK-AP-1细胞信号传导途径的异常运行是其中MAPK-AP-1细胞信号传导途径在对象中作为肿瘤促进物的运行。
5.权利要求1-4任一项的方法,其中所述方法被用于以下活动的至少一项中:
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的诊断;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的预后;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的药物处方;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的药效预测;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的副作用预测;
监测药效;
药物开发;
测定开发;
途径研究;
癌症分期;
基于推测的对象中MAPK-AP-1细胞信号传导途径活性的临床试验对象的招募;
要进行的后续测试的选择;和
伴随诊断测试的选择。
6.权利要求1-5任一项的方法,其中所述经校准的数学途径模型是概率模型,优选为贝叶斯网络模型,其基于将所述AP-1TF元件的活性水平与所述三个或更多个AP-1靶基因的表达水平相关联的条件概率,或者其中所述数学途径模型基于所述三个或更多个AP-1靶基因的表达水平的一种或多种线性组合。
7.一种用于推测对象中MAPK-AP-1细胞信号传导途径活性的设备,其包括配置为执行权利要求1-6任一项的方法的数字处理器。
8.一种用于推测对象中MAPK-AP-1细胞信号传导途径活性的非暂时性存储介质,其存储可由数字处理装置执行的指令以执行权利要求1-6任一项的方法。
9.一种用于推测对象中MAPK-AP-1细胞信号传导途径活性的计算机程序,其包括程序代码模块,当所述计算机程序在数字处理装置上运行时,所述程序代码模块使所述数字处理装置执行权利要求1-6任一项的方法。
10.一种用于测量对象样品中MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平的试剂盒,其包含:
针对所述三个或更多个AP-1靶基因的聚合酶链反应引物,
针对所述三个或更多个AP-1靶基因的探针,和
权利要求7的设备,权利要求8的非暂时性存储介质或权利要求9的计算机程序,
其中所述三个或更多个AP-1靶基因选自:BCL2L11、CCND1、DDIT3、DNMT1、EGFR、ENPP2、EZR、FASLG、FIGF、GLRX、IL2、IVL、LOR、MMP1、MMP3、MMP9、SERPINE1、PLAU、PLAUR、PTGS2、SNCG、TIMP1、TP53和VIM、优选选自:CCND1、EGFR、EZR、GLRX、MMP1、MMP3、PLAU、PLAUR、SERPINE1、SNCG和TIMP1。
11.一种用于推测对象中MAPK-AP-1细胞信号传导途径活性的试剂盒,其包含:
用于确定对象样品中MAPK-AP-1细胞信号传导途径的三个或更多个靶基因的表达水平的一或多个组分,
其中所述一或多个组分优选选自:DNA阵列芯片,寡核苷酸阵列芯片,蛋白质阵列芯片,抗体,多个探针例如标记的探针,一组RNA逆转录酶测序组分,和/或RNA或DNA包括cDNA扩增引物,及
权利要求7的设备,权利要求8的非暂时性存储介质或权利要求9的计算机程序,
其中所述三个或更多个AP-1靶基因选自:BCL2L11、CCND1、DDIT3、DNMT1、EGFR、ENPP2、EZR、FASLG、FIGF、GLRX、IL2、IVL、LOR、MMP1、MMP3、MMP9、SERPINE1、PLAU、PLAUR、PTGS2、SNCG、TIMP1、TP53和VIM、优选选自:CCND1、EGFR、EZR、GLRX、MMP1、MMP3、PLAU、PLAUR、SERPINE1、SNCG和TIMP1。
12.权利要求10和11的试剂盒在进行权利要求1-6任一项的方法中的应用。
CN201880089769.1A 2017-12-20 2018-09-28 使用靶基因表达的数学建模评估mapk-ap-1细胞信号传导途径活性 Pending CN111742369A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17209053.2A EP3502279A1 (en) 2017-12-20 2017-12-20 Assessment of mapk-ap 1 cellular signaling pathway activity using mathematical modelling of target gene expression
EP17209053.2 2017-12-20
PCT/EP2018/076513 WO2019120658A1 (en) 2017-12-20 2018-09-28 Assessment of mapk-ap 1 cellular signaling pathway activity using mathematical modelling of target gene expression

Publications (1)

Publication Number Publication Date
CN111742369A true CN111742369A (zh) 2020-10-02

Family

ID=60954714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880089769.1A Pending CN111742369A (zh) 2017-12-20 2018-09-28 使用靶基因表达的数学建模评估mapk-ap-1细胞信号传导途径活性

Country Status (4)

Country Link
US (1) US11776661B2 (zh)
EP (2) EP3502279A1 (zh)
CN (1) CN111742369A (zh)
WO (1) WO2019120658A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7135824B2 (ja) * 2018-12-17 2022-09-13 日本電信電話株式会社 学習装置、推定装置、学習方法、推定方法、及びプログラム
EP3882363A1 (en) 2020-03-17 2021-09-22 Koninklijke Philips N.V. Prognostic pathways for high risk sepsis patients
EP3978628A1 (en) 2020-10-01 2022-04-06 Koninklijke Philips N.V. Prognostic pathways for viral infections
EP4136261A1 (en) 2020-04-16 2023-02-22 InnoSIGN B.V. Prognostic pathways for viral infections
EP3940704A1 (en) 2020-07-14 2022-01-19 Koninklijke Philips N.V. Method for determining the differentiation state of a stem cell
EP3960875A1 (en) 2020-08-28 2022-03-02 Koninklijke Philips N.V. Pcr method and kit for determining pathway activity
EP3974540A1 (en) 2020-09-25 2022-03-30 Koninklijke Philips N.V. Method for predicting immunotherapy resistance
EP4015651A1 (en) 2020-12-17 2022-06-22 Koninklijke Philips N.V. Treatment prediction and effectiveness of anti-tnf alpha treatment in ibd patients
EP4039825A1 (en) 2021-02-09 2022-08-10 Koninklijke Philips N.V. Comparison and standardization of cell and tissue culture
JP2024514404A (ja) 2021-03-11 2024-04-02 コーニンクレッカ フィリップス エヌ ヴェ 高リスク敗血症患者のための予後経路
WO2024033063A1 (en) 2022-08-12 2024-02-15 Innosign B.V. Prediction and monitoring of immunotherapy in cancer

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030148954A1 (en) * 2001-11-02 2003-08-07 Wisconsin Alumni Research Foundation Agents and methods for modulating activator protein-1-mediated cellular processes
CN1458841A (zh) * 2000-07-17 2003-11-26 克里斯蒂安·西蒙 应用基质金属蛋白酶抑制剂治疗癌症
US20040156854A1 (en) * 2002-12-06 2004-08-12 Millennium Pharmaceuticals, Inc. Methods for the identification, assessment, and treatment of patients with proteasome inhibition therapy
US20070172847A1 (en) * 2005-11-15 2007-07-26 The Regents Of The University Of California Molecular signaling pathways triggered by rituximab: prognostic, diagnostic, and therapeutic uses
WO2008079269A2 (en) * 2006-12-19 2008-07-03 Genego, Inc. Novel methods for functional analysis of high-throughput experimental data and gene groups identified therfrom
CN103649337A (zh) * 2011-07-19 2014-03-19 皇家飞利浦有限公司 使用目标基因表达的概率建模评估细胞信号传导途径活性
WO2014102668A2 (en) * 2012-12-26 2014-07-03 Koninklijke Philips N.V. Assessment of cellular signaling pathway activity using linear combination(s) of target gene expressions;
US20150099645A1 (en) * 2012-03-14 2015-04-09 Stephen Marx Means and methods for diagnostics and therapeutics of diseases
US20160298196A1 (en) * 2014-01-03 2016-10-13 Koninklijke Philips N.V. Assessment of the pi3k cellular signaling pathway activity using mathematical modelling of target gene expression
CN106817904A (zh) * 2014-02-27 2017-06-09 博德研究所 T细胞平衡基因表达、物质组合物及其使用方法
CN107077536A (zh) * 2014-10-24 2017-08-18 皇家飞利浦有限公司 使用靶基因表达的数学建模评价TGF‑β细胞信号传导途径的活性

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4711955A (en) 1981-04-17 1987-12-08 Yale University Modified nucleotides and methods of preparing and using same
US6004761A (en) 1986-11-19 1999-12-21 Sanofi Method for detecting cancer using monoclonal antibodies to new mucin epitopes
US5660985A (en) 1990-06-11 1997-08-26 Nexstar Pharmaceuticals, Inc. High affinity nucleic acid ligands containing modified nucleotides
US5436134A (en) 1993-04-13 1995-07-25 Molecular Probes, Inc. Cyclic-substituted unsymmetrical cyanine dyes
US5658751A (en) 1993-04-13 1997-08-19 Molecular Probes, Inc. Substituted unsymmetrical cyanine dyes with selected permeability
US6720149B1 (en) 1995-06-07 2004-04-13 Affymetrix, Inc. Methods for concurrently processing multiple biological chip assays
US5545531A (en) 1995-06-07 1996-08-13 Affymax Technologies N.V. Methods for making a device for concurrently processing multiple biological chip assays
US6146897A (en) 1995-11-13 2000-11-14 Bio-Rad Laboratories Method for the detection of cellular abnormalities using Fourier transform infrared spectroscopy
US6391550B1 (en) 1996-09-19 2002-05-21 Affymetrix, Inc. Identification of molecular sequence signatures and methods involving the same
NZ516848A (en) 1997-06-20 2004-03-26 Ciphergen Biosystems Inc Retentate chromatography apparatus with applications in biology and medicine
US6308170B1 (en) 1997-07-25 2001-10-23 Affymetrix Inc. Gene expression and evaluation system
US6953662B2 (en) 1997-08-29 2005-10-11 Human Genome Sciences, Inc. Follistatin-3
US6020135A (en) 1998-03-27 2000-02-01 Affymetrix, Inc. P53-regulated genes
US6884578B2 (en) 2000-03-31 2005-04-26 Affymetrix, Inc. Genes differentially expressed in secretory versus proliferative endometrium
US6783934B1 (en) 2000-05-01 2004-08-31 Cepheid, Inc. Methods for quantitative analysis of nucleic acid amplification reaction
JP2004536276A (ja) 2000-11-16 2004-12-02 シファーゲン バイオシステムズ, インコーポレイテッド 質量スペクトルを分析する方法
WO2002079491A2 (en) 2001-02-16 2002-10-10 Ciphergen Biosystems, Inc. Method for correlating gene expression profiles with protein expression profiles
DK2258872T3 (da) 2002-03-13 2013-11-18 Genomic Health Inc Genekspressionsprofilering i biopsier af tumorvæv
US7097976B2 (en) 2002-06-17 2006-08-29 Affymetrix, Inc. Methods of analysis of allelic imbalance
EP1570080A4 (en) 2002-11-15 2006-03-01 Genomic Health Inc GENE EXPRESSION PROFILING OF EGFR-POSITIVE CANCER DISEASE
US20040231909A1 (en) 2003-01-15 2004-11-25 Tai-Yang Luh Motorized vehicle having forward and backward differential structure
EP3170906B1 (en) 2003-06-24 2018-08-22 Genomic Health, Inc. Prediction of likelihood of cancer recurrence
WO2005008213A2 (en) 2003-07-10 2005-01-27 Genomic Health, Inc. Expression profile algorithm and test for cancer prognosis
PL1836629T3 (pl) 2004-11-05 2020-06-15 Genomic Health, Inc. Przewidywanie odpowiedzi na chemioterapię z zastosowaniem markerów ekspresji genu
US7754861B2 (en) 2005-03-23 2010-07-13 Bio-Rad Laboratories, Inc. Method for purifying proteins
WO2007067476A2 (en) 2005-12-05 2007-06-14 Merck & Co., Inc. Methods for predicting treatment response based on the expression profiles of protein and transcription biomakers
KR100806274B1 (ko) 2005-12-06 2008-02-22 한국전자통신연구원 멀티 쓰레디드 프로세서 기반의 병렬 시스템을 위한 적응형실행 방법
EP1974058B1 (en) 2006-01-11 2014-06-11 Genomic Health, Inc. Gene expression markers for colorectal cancer prognosis
WO2007123772A2 (en) 2006-03-31 2007-11-01 Genomic Health, Inc. Genes involved in estrogen metabolism
US8518639B2 (en) 2006-04-11 2013-08-27 Bio-Rad Innovations HPV detection and quantification by real-time multiplex amplification
CA2697106A1 (en) 2007-08-28 2009-03-12 Donald Bergstrom Expression profiles of biomarker genes in notch mediated cancers
US7816084B2 (en) 2007-11-30 2010-10-19 Applied Genomics, Inc. TLE3 as a marker for chemotherapy
US8067178B2 (en) 2008-03-14 2011-11-29 Genomic Health, Inc. Gene expression markers for prediction of patient response to chemotherapy
US7544476B1 (en) 2008-07-11 2009-06-09 Aveo Pharmaceuticals, Inc. Identifying cancers sensitive to treatment with inhibitors of notch signaling
CN102272325B (zh) 2008-11-17 2015-07-22 威拉赛特公司 用于疾病诊断的分子表达谱的方法和组合物
US8762069B2 (en) 2009-03-11 2014-06-24 Institute for Medical Biomathematics Therapeutic implications of dickkopf affecting cancer stem cell fate
US8765383B2 (en) 2009-04-07 2014-07-01 Genomic Health, Inc. Methods of predicting cancer risk using gene expression in premalignant tissue
EP2460005A4 (en) 2009-07-31 2012-11-21 Translational Genomics Res Inst METHOD FOR ASSESSING A CANCER PROGRESSION RISK
US8451450B2 (en) 2009-09-14 2013-05-28 Bio-Rad Laboratories, Inc. Near real time optical phase conjugation
WO2011146619A2 (en) 2010-05-19 2011-11-24 The Regents Of The University Of California Systems and methods for identifying drug targets using biological networks
US8703736B2 (en) 2011-04-04 2014-04-22 The Translational Genomics Research Institute Therapeutic target for pancreatic cancer cells
EP2705370A2 (en) 2011-05-06 2014-03-12 Xentech Markers for cancer prognosis and therapy and methods of use
SG195208A1 (en) 2011-06-02 2013-12-30 Almac Diagnostics Ltd Molecular diagnostic test for cancer
MX351626B (es) 2012-01-31 2017-10-23 Genomic Health Inc Algoritmo de perfil de expresion genica y prueba para determinar la prognosis de cancer de prostata.
US10081838B2 (en) 2012-05-03 2018-09-25 Qiagen Sciences, Llc Gene expression signature for IL-6/STAT3 signaling pathway and use thereof
WO2014174003A1 (en) 2013-04-26 2014-10-30 Koninklijke Philips N.V. Medical prognosis and prediction of treatment response using multiple cellular signalling pathway activities
WO2015050844A1 (en) 2013-10-01 2015-04-09 Dana-Farber Cancer Institute, Inc. Methods of treating cancer with atovaquone-related compounds
JP6704861B2 (ja) 2014-06-16 2020-06-03 ワールドワイド・イノベイティブ・ネットワークWorldwide Innovative Network 癌処置のための個別化三剤治療を選択するための方法
JP7065610B6 (ja) 2014-10-24 2022-06-06 コーニンクレッカ フィリップス エヌ ヴェ 複数の細胞シグナル伝達経路活性を用いる治療応答の医学的予後及び予測

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458841A (zh) * 2000-07-17 2003-11-26 克里斯蒂安·西蒙 应用基质金属蛋白酶抑制剂治疗癌症
US20030148954A1 (en) * 2001-11-02 2003-08-07 Wisconsin Alumni Research Foundation Agents and methods for modulating activator protein-1-mediated cellular processes
US20040156854A1 (en) * 2002-12-06 2004-08-12 Millennium Pharmaceuticals, Inc. Methods for the identification, assessment, and treatment of patients with proteasome inhibition therapy
US20070172847A1 (en) * 2005-11-15 2007-07-26 The Regents Of The University Of California Molecular signaling pathways triggered by rituximab: prognostic, diagnostic, and therapeutic uses
WO2008079269A2 (en) * 2006-12-19 2008-07-03 Genego, Inc. Novel methods for functional analysis of high-throughput experimental data and gene groups identified therfrom
CN103649337A (zh) * 2011-07-19 2014-03-19 皇家飞利浦有限公司 使用目标基因表达的概率建模评估细胞信号传导途径活性
US20150099645A1 (en) * 2012-03-14 2015-04-09 Stephen Marx Means and methods for diagnostics and therapeutics of diseases
WO2014102668A2 (en) * 2012-12-26 2014-07-03 Koninklijke Philips N.V. Assessment of cellular signaling pathway activity using linear combination(s) of target gene expressions;
US20160298196A1 (en) * 2014-01-03 2016-10-13 Koninklijke Philips N.V. Assessment of the pi3k cellular signaling pathway activity using mathematical modelling of target gene expression
CN106817904A (zh) * 2014-02-27 2017-06-09 博德研究所 T细胞平衡基因表达、物质组合物及其使用方法
CN107077536A (zh) * 2014-10-24 2017-08-18 皇家飞利浦有限公司 使用靶基因表达的数学建模评价TGF‑β细胞信号传导途径的活性

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ELIZABETH C. MARTIN,等: "miR-155 induced transcriptome changes in the MCF-7 breast cancer cell line leads to enhanced mitogen activated protein kinase signaling", 《GENES & CANCER》, vol. 5, no. 9, pages 353 - 364 *
梁占强: "PPARγ和P38、AP-1在肝细胞癌中的表达及临床意义", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 10, pages 072 - 310 *
罗非君,等: "AP-1信号转导通路与肿瘤", 《国外医学 生理、病理科学与临床分册》, vol. 21, no. 5, pages 332 - 334 *

Also Published As

Publication number Publication date
EP3502279A1 (en) 2019-06-26
US11776661B2 (en) 2023-10-03
EP3729439B1 (en) 2023-08-30
WO2019120658A1 (en) 2019-06-27
EP3729439C0 (en) 2023-08-30
US20190188359A1 (en) 2019-06-20
EP3729439A1 (en) 2020-10-28

Similar Documents

Publication Publication Date Title
CN111742369A (zh) 使用靶基因表达的数学建模评估mapk-ap-1细胞信号传导途径活性
US20210371934A1 (en) Tumor grading and cancer prognosis
CN107077536B (zh) 使用靶基因表达的数学建模评价TGF-β细胞信号传导途径的活性
CN107743524B (zh) 前列腺癌预后的方法
CN111183233A (zh) 使用靶基因表达的数学建模评估Notch细胞信号传导途径活性
DK2681333T3 (en) EVALUATION OF RESPONSE TO GASTROENTEROPANCREATIC NEUROENDOCRINE NEOPLASIS (GEP-NENE) THERAPY
Ishikawa et al. Experimental trial for diagnosis of pancreatic ductal carcinoma based on gene expression profiles of pancreatic ductal cells
JP6404304B2 (ja) メラノーマ癌の予後予測
CN111448325A (zh) 使用靶基因表达的数学建模评估jak-stat3细胞信号传导途径活性
CN111479933A (zh) 使用靶基因表达的数学建模评估jak-stat1/2细胞信号传导途径活性
DK2771481T3 (en) MARKET GENERATIONS FOR CLASSIFICATION OF PROSTATACANCES
BRPI0616090A2 (pt) métodos e materiais para identificação da origem de um carcinoma de origem primária desconhecida
US20060195266A1 (en) Methods for predicting cancer outcome and gene signatures for use therein
KR20150090246A (ko) 암을 위한 분자 진단 테스트
JP4913331B2 (ja) 結腸直腸癌の予後
KR20120065959A (ko) 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법
KR20110057188A (ko) 바이오마커 프로파일 측정 시스템 및 방법
KR20140006898A (ko) 결장암 유전자 발현 시그니처 및 이용 방법
JP2010521981A (ja) 膀胱癌の診断および/または予後方法
EP2304630A1 (en) Molecular markers for cancer prognosis
US20230390280A1 (en) Biomarkers for the diagnosis and treatment of fibrotic lung disease
CN111742061A (zh) 基于pde4d7表达和术前临床变量的术前风险分层
KR20180082328A (ko) 전립선 암 예측 방법
JP2019537436A (ja) 進行性胃癌患者の手術後の予後または抗癌剤適合性予測システム
CN101111768A (zh) 肺癌预后

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220913

Address after: Holland Ian Deho Finn

Applicant after: Innomark Ltd.

Address before: Holland Ian Deho Finn

Applicant before: KONINKLIJKE PHILIPS N.V.