CN111183233A - 使用靶基因表达的数学建模评估Notch细胞信号传导途径活性 - Google Patents

使用靶基因表达的数学建模评估Notch细胞信号传导途径活性 Download PDF

Info

Publication number
CN111183233A
CN111183233A CN201880064647.7A CN201880064647A CN111183233A CN 111183233 A CN111183233 A CN 111183233A CN 201880064647 A CN201880064647 A CN 201880064647A CN 111183233 A CN111183233 A CN 111183233A
Authority
CN
China
Prior art keywords
notch
signaling pathway
activity
cell signaling
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880064647.7A
Other languages
English (en)
Inventor
A·范德斯托尔佩
L·H·F·M·霍尔特泽尔
W·F·J·费尔哈格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innomark Ltd
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN111183233A publication Critical patent/CN111183233A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/50Determining the risk of developing a disease
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/56Staging of a disease; Further complications associated with the disease
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Physiology (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)

Abstract

本发明涉及一种计算机执行方法,其基于在对象样品中测量的Notch细胞信号传导途径的三个或更多个靶基因的表达水平来推测对象中Notch细胞信号传导途径的活性。本发明还涉及用于推测对象中Notch细胞信号传导途径的活性的设备,非暂时性存储介质和计算机程序。本发明进一步涉及用于测量对象样品中Notch细胞信号传导途径的三个或更多个靶基因的表达水平的试剂盒,用于推测对象中Notch细胞信号传导途径的活性的试剂盒以及这种试剂盒在实施所述方法中的应用。

Description

使用靶基因表达的数学建模评估Notch细胞信号传导途径 活性
发明领域
本发明一般性涉及生物信息学、基因组处理、蛋白质组学处理以及相关领域。更特别地,本发明涉及由数字处理装置进行的推测对象中Notch细胞信号传导途径的活性的计算机执行方法,其中所述推测基于在所述对象的样品中测量的所述Notch细胞信号传导途径的三个或更多个靶基因的表达水平。本发明进一步涉及一种推测对象中Notch细胞信号传导途径的活性的设备,其包括被配置为进行该方法的数字处理器,及涉及一种推测对象中Notch细胞信号传导途径的活性的非暂时性存储介质,其存储可由数字处理装置执行的指令以进行所述方法,以及涉及推测对象中Notch细胞信号传导途径的活性的计算机程序,其包括程序代码模块,当所述计算机程序在数字处理装置上运行时使得所述数字处理装置进行该方法。本发明进一步涉及用于测量对象样品中Notch细胞信号传导途径的三个或更多个靶基因的表达水平的试剂盒,涉及推测对象的Notch细胞信号传导途径的活性的试剂盒以及涉及所述试剂盒在进行所述方法中的应用。
发明背景
基因组和蛋白质组学分析在医学领域的临床应用例如肿瘤学中已经广泛实施及具有潜在前景,其中已知多种癌症与特定组合的基因组突变/变异和/或特定基因的高或低表达水平相关,其在癌症的生长和进化例如细胞增殖和转移中起作用。
Notch是一种可诱导转录因子,调节参与胚胎发育、免疫反应和癌症的许多基因的表达。对于病理性疾病例如癌症(如乳腺癌或卵巢癌),异常Notch途径活性起重要作用(参见Aster J.C.et al.,“The varied roles of Notch in cancer”,Annual Review ofPathology,Vol.12,No.1,December 2016,245-275页)。Notch细胞信号传导途径由Notch家族的蛋白质受体和诱导结合的受体裂解的(细胞结合的)配体家族(DSL家族)组成,由此裂解的细胞内片段移动至细胞核,在此其与其它蛋白质一起形成一种活性转录因子复合物,该复合物结合并激活一组明确定义的靶基因(也见图1,其基于Guruharsha K.G.et al.,“The Notch signaling system:recent insights into the complexity of aconserved pathway”,Nature Reviews Genetics,Vol.13,September 2012,654-666页)。
关于在例如癌症中的Notch信号传导,重要的是能检测到异常的Notch信号传导活性,以能正确选择靶向药物治疗。目前正在开发抗Notch疗法(参见Espinoza I.and MieleL.,“Notch inhibitors for cancer treatment”,Pharmacology&Therapeutics,Vol.139,No.2,August 2013,95-110页)。然而,目前尚无可用于评估关于Notch细胞信号传导途径的功能状态或活性的临床检测方法,Notch细胞信号传导途径的活跃(active)状态表示例如与其非活跃(passive)状态相比更有可能促进肿瘤。因此,期望能改良鉴定患有疾病的患者的可能性,所述疾病例如是癌症如乳腺癌、宫颈癌、子宫内膜癌、卵巢癌、胰腺癌或前列腺癌,或者是免疫疾病,其至少部分是由Notch细胞信号传导途径的异常活性所驱动,因此可能应答Notch细胞信号传导途径的抑制剂。
发明概述
根据本发明的主要方面,上述问题通过一种计算机执行方法来解决,其通过数字处理装置推测对象中Notch细胞信号传导途径的活性,其中所述推测包括:
接受在对象样品中测量的Notch细胞信号传导途径的3个或更多个靶基因、例如3、4、5、6、7、8、9、10、11、12或更多个靶基因的表达水平,
确定所述对象的样品中Notch转录因子(TF)元件的活性水平,所述Notch TF元件控制所述3个或更多个Notch靶基因的转录,所述确定基于评估使所述3个或更多个Notch靶基因的表达水平与所述Notch TF元件的活性水平相关的经校准的数学模型途径,以及
基于确定的所述对象的样品中所述Notch TF元件的活性水平,推测所述对象中所述Notch细胞信号传导途径的活性,
其中所述3或更多个Notch靶基因选自:CD28,CD44,DLGAP5,DTX1,EPHB3,FABP7,GFAP,GIMAP5,HES1,HES4,HES5,HES7,HEY1,HEY2,HEYL,KLF5,MYC,NFKB2,NOX1,NRARP,PBX1,PIN1,PLXND1,PTCRA,SOX9和TNC,优选其中2个或更多个例如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC,NRARP和PTCRA,以及一或多个例如2、3、4或更多个Notch靶基因选自:CD28,CD44,DLGAP5,EPHB3,FABP7,GFAP,GIMAP5,HES7,HEY1,HEYL,KLF5,NFKB2,NOX1,PBX1,PIN1,PLXND1,SOX9和TNC。
在此,TF元件的“活性水平”表示TF元件关于其靶基因的转录的活性水平。
本发明基于发明人的创新,即鉴别Notch细胞信号传导途径中发生的作用的合适方式可以基于测量Notch细胞信号传导途径的信号输出,即例如靶基因的转录,其由Notch细胞信号传导途径控制的Notch转录因子(TF)元件控制。本发明人的这项创新假设TF活性水平在样品中处于准稳定状态,这可以通过例如Notch靶基因的表达值等检测。已知本文涉及的Notch细胞信号传导途径在人体中控制许多细胞类型的许多功能,例如增殖、分化和伤口愈合。对于病理性紊乱,例如癌症(如乳腺癌,宫颈癌,子宫内膜癌,卵巢癌,胰腺癌或前列腺癌),异常Notch细胞信号转导活性起重要作用,其在靶基因的表达谱中可检测并因此通过经校准的数学途径模型而被利用。
本发明使得可以通过如下方式确定Notch细胞信号传导途径的活性:(i)确定对象样品中Notch TF元件的活性水平,其中所述确定基于评估使所述Notch细胞信号转导途径的三个或更多个靶基因(其转录由所述Notch TF元件控制)的表达水平与所述Notch TF元件的活性水平相关的经校准的数学模型,及(ii)基于确定的对象样品中所述Notch TF元件的活性水平推测对象中所述Notch细胞信号传导途径的活性。这优选可以改良鉴定患有疾病及因此可能应答Notch细胞信号传导途径抑制剂的患者的可能性,所述疾病例如癌症,如乳腺癌、宫颈癌、子宫内膜癌、卵巢癌、胰腺癌或前列腺癌,其至少部分由所述Notch细胞信号传导途径的异常活性驱动。在特定实施方案中,治疗决定可以基于特定的Notch细胞信号传导途径活性。在特定实施方案中,所述Notch细胞信号传导状态可设置为Notch细胞信号传导途径是活跃的几率的截止值,例如10:1、5:1、4:1、2:1、1:1、1:2、1:4、1:5或1:10。
在本文中,术语“Notch转录因子元件”或“Notch TF元件”或“TF元件”被定义为是一种蛋白质复合物,其至少含有一种Notch蛋白(Notch1,Notch2,Notch3和Notch4,具有相应的胞内结构域N1ICD,N2ICD,N3ICD和N4ICD)的胞内结构域以及辅因子如DNA结合转录因子CSL(CBF1/RBP-Jκ,Su(H)和LAG-1),其能结合特定的DNA序列,优选来自Mastermind-like(MAML)家族的一种共激活蛋白(MAML1,MAML2和MAML3),这是激活转录所需的,从而控制靶基因的转录。优选地,该术语指通过Notch蛋白质之一(Notch1,Notch2,Notch3和Notch4)的裂解产生的Notch胞内结构域(N1ICD,N2ICD,N3ICD和N4ICD)触发的蛋白质或蛋白质复合物转录因子。例如,已知在相邻细胞上表达的DSL配体(DLL1,DLL3,DLL4,Jagged1和Jagged2)与Notch蛋白质/受体的胞外结构域结合,启动胞内Notch信号传导途径并且Notch胞内结构域参与控制表达的Notch信号传导级联。
所述经校准的数学途径模型可以是基于将所述Notch TF元件的活性水平与所述三个或更多个Notch靶基因的表达水平相关的条件概率的概率模型,优选贝叶斯网络模型,或者所述经校准的数学途径模型可以基于所述三个或更多个Notch靶基因的表达水平的一或多种线性组合。特别地,可以如公开的国际专利申请WO 2013/011479A2(“Assessment ofcellular signaling pathway activity using probabilistic modeling of targetgene expression”)所揭示或者如公开的国际专利申请WO 2014/102668 A2中(“Assessment of cellular signaling pathway activity using linear combination(s)of target gene expressions”)所述进行所述Notch细胞信号传导途径的活性的推测,所述专利以其全部内容并入本文。关于使用靶基因表达的数学建模来推测细胞信号传导途径活性的更多细节可见于Verhaegh W.et al.,“Selection of personalized patienttherapy through the use of knowledge-based computational models that identifytumor-driving signal transduction pathways”,Cancer Research,Vol.74,No.11,2014,2936-2945页。
如本文所用,术语“对象”是指任何生物。在一些实施方案中,所述对象是动物,优选是哺乳动物。在某些实施方案中,所述对象是人,优选医学对象。在其它实施方案中,所述对象是细胞系。
如本文所用,术语“靶基因”是指其转录受Notch转录因子元件直接或间接控制的基因。“靶基因”可以是“直接靶基因”和/或“间接靶基因”(如本文所述)。此外,“靶基因”可以是“直接靶基因”和/或“间接靶基因”(如本文所述)。
特别优选的是一种方法(如本文所述),其中所述三个或更多个Notch靶基因选自:CD44,DTX1,EPHB3,HES1,HES4,HES5,HES7,HEY1,HEY2,HEYL,MYC,NFKB2,NOX1,NRARP,PBX1,PIN1,PLXND1和SOX9,优选其中两个或多个例如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,以及一或多个例如3、4或更多个Notch靶基因选自:CD44,EPHB3,HES7,HEY1,HEYL,NFKB2,NOX1,PBX1,PIN1,PLXND1和SOX9。
特别优选的是一种方法(如本文所述),其中所述三个或更多个Notch靶基因选自:DTX1,EPHB3,HES1,HES4,HES5,HEY2,MYC,NFKB2,NRARP,PIN1,PLXND1和SOX9,优选其中两个或更多个例如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,以及一或多个例如3、4或更多个Notch靶基因选自:EPHB3,NFKB2,PIN1,PLXND1和SOX9。
在下面的文字段落以及实施例中描述了特别合适的Notch靶基因(见例如下表1-3)。
因此,根据优选的实施方案,Notch靶基因选自下表1、表2或表3中列出的Notch靶基因。
本发明人已经发现,在依次更短的列表中的Notch靶基因越来越可能用于确定Notch细胞信号传导途径的活性。
本发明的另一方面涉及一种方法(如本文所述),其进一步包括:
基于所述对象中所述Notch细胞信号传导途径的推测的活性,确定所述Notch细胞信号传导途径在所述对象中是否异常运行。
本发明还涉及一种方法(如本文所述),其进一步包括:
为所述对象建议处方药物,以纠正所述Notch细胞信号传导途径的异常运行,
其中,如果基于所述Notch细胞信号传导途径的推测的活性确定所述Notch细胞信号传导途径在所述对象中异常运行,则进行所述建议。
短语“细胞信号传导途径异常运行”是指该途径的“活性”与预期不符的情况,其中术语“活性”可以指转录因子复合物驱动靶基因表达的活性,即靶基因被转录的速度。“正常”可以是指其在其预期无活性(inactive)的组织中是非活跃的,而在其预期有活性的组织中是活跃的。此外,一定水平的活性被视为“正常”,而任何较高或较低的活性可以被视为“异常”。
本发明还涉及一种方法(如本文所述),其中Notch细胞信号传导途径的异常运行是其中Notch细胞信号传导途径在对象中作为肿瘤促进物的运行。
根据本发明使用的样品可以是提取的样品,即已经从对象提取的样品。所述样品的实例包括但不限于对象的组织、细胞、血液和/或体液。如果对象是患有或可能患有癌症的医学对象,则其可以是例如得自癌变组织或疑似癌变组织、转移肿瘤的样品,或者得自其中存在污染癌细胞的体液的体腔(例如胸膜腔或腹腔或膀胱腔)的样品,或者得自含有癌细胞的其它体液的样品,优选通过活检程序或其它样品提取程序获得。提取的样品的细胞也可以是血液恶性肿瘤(例如白血病或淋巴瘤)的肿瘤细胞。在某些情况下,细胞样品也可以是循环肿瘤细胞,即已经进入血流且可以使用合适分离技术例如单采血液成分术或常规静脉抽血提取的肿瘤细胞。除血液外,提取样品的体液也可以是尿液、胃肠道内容物或渗出物。如本文所用,术语“样品”还涵盖例如其中已经从对象采集了对象的组织和/或细胞和/或体液且例如已经将其置于显微镜载玻片上的情况,以及为了进行权利要求请求保护的方法而提取这种样品的一部分(例如通过激光捕获显微切割术(LCM)或者通过从该载玻片刮下感兴趣的细胞或通过荧光激活的细胞分选技术进行)的情况。另外,如本文所用,术语“样品”还涵盖例如其中已经从对象采集了对象的组织和/或细胞和/或体液并将其置于显微镜载玻片上以及在该载玻片上进行权利要求请求保护的方法的情况。另外,如本文所用,术语“样品”还涵盖例如其中基于从对象采集的细胞/组织/体液产生细胞系和/或细胞培养物的情况。
根据另一个公开的方面,用于推测对象中Notch细胞信号传导途径的活性的设备包括配置为进行本文所述的本发明方法的数字处理器。
根据另一个公开的方面,用于推测对象中Notch细胞信号传导途径的活性的非暂时性存储介质存储可由数字处理装置执行以进行本文所述的本发明方法的指令。所述非暂时性存储介质可以是计算机可读存储介质,例如硬盘驱动器或其它磁性存储介质,光盘或其它光学存储介质,随机存取存储器(RAM),只读存储器(ROM),闪存或其它电子存储介质,网络服务器等。所述数字处理装置可以是手持装置(例如个人数据助理或智能电话),笔记本电脑,台式计算机,平板计算机或装置,远程网络服务器等。
根据另一个公开的方面,用于推测对象中Notch细胞信号传导途径的活性的计算机程序包括程序代码模块,其使得当所述计算机程序在数字处理装置上运行时使该数字处理装置进行本文所述的本发明方法。所述数字处理装置可以是手持装置(例如个人数据助理或智能电话),笔记本电脑,台式计算机,平板计算机或装置,远程网络服务器等。
根据另一个公开的方面,用于测量对象样品中Notch细胞信号传导途径的三个或更多个靶基因例如3、4、5、6、7、8、9、10、11、12或更多个靶基因的表达水平的试剂盒包括:
用于确定所述对象的样品中所述三个或更多个Notch靶基因的表达水平的一或多种组分,
其中所述三个或更多个Notch靶基因选自:CD28,CD44,DLGAP5,DTX1,EPHB3,FABP7,GFAP,GIMAP5,HES1,HES4,HES5,HES7,HEY1,HEY2,HEYL,KLF5,MYC,NFKB2,NOX1,NRARP,PBX1,PIN1,PLXND1,PTCRA,SOX9和TNC,优选地,其中两或更多个例如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC,NRARP和PTCRA,以及一或多个例如3、4或更多个Notch靶基因选自:CD28,CD44,DLGAP5,EPHB3,FABP7,GFAP,GIMAP5,HES7,HEY1,HEYL,KLF5,NFKB2,NOX1,PBX1,PIN1,PLXND1,SOX9和TNC。
特别优选的是这样的试剂盒(如本文所述),其中所述三个或更多个Notch靶基因选自:CD44,DTX1,EPHB3,HES1,HES4,HES5,HES7,HEY1,HEY2,HEYL,MYC,NFKB2,NOX1,NRARP,PBX1,PIN1,PLXND1和SOX9,优选其中两个或更多个如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,以及一或多个例如3、4或更多个Notch靶基因选自:CD44,EPHB3,HES7,HEY1,HEYL,NFKB2,NOX1,PBX1,PIN1,PLXND1和SOX9。
特别优选这样的试剂盒(如本文所述),其中所述三个或更多个Notch靶基因选自:DTX1,EPHB3,HES1,HES4,HES5,HEY2,MYC,NFKB2,NRARP,PIN1,PLXND1和SOX9,优选其中两个或更多个例如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,以及一或多个例如3、4或更多个Notch靶基因选自:EPHB3,NFKB2,PIN1,PLXND1和SOX9。
用于测量所述三个或更多个Notch靶基因的表达水平的一或多种组分或手段可以选自:DNA阵列芯片,寡核苷酸阵列芯片,蛋白质阵列芯片,抗体,多种探针例如标记的探针,一组RNA逆转录酶测序组分和/或RNA或DNA(包括cDNA),扩增引物。在一个实施方案中,所述试剂盒包括针对本文所述的所述三个或更多个Notch靶基因的mRNA或cDNA序列的一部分的一组标记的探针。在一个实施方案中,所述试剂盒包括针对所述三个或更多个Notch靶基因的mRNA或cDNA序列的一部分的一组引物和探针。在一个实施方案中,所述标记的探针包含在标准化96孔平板中。在一个实施方案中,所述试剂盒进一步包括针对一组参考基因的引物或探针。这种参考基因可以是例如组成型表达的基因,可用于将本文所述靶基因表达水平归一化或标准化。
在一个实施方案中,所述用于测量对象样品中Notch细胞信号传导途径的三个或更多个例如3、4、5、6、7、8、9、10、11、12或更多个靶基因的表达水平的试剂盒包括:
针对所述三个或更多个Notch靶基因的聚合酶链反应引物,
针对所述三个或更多个Notch靶基因的探针,
其中所述三个或更多个Notch靶基因选自:CD28,CD44,DLGAP5,DTX1,EPHB3,FABP7,GFAP,GIMAP5,HES1,HES4,HES5,HES7,HEY1,HEY2,HEYL,KLF5,MYC,NFKB2,NOX1,NRARP,PBX1,PIN1,PLXND1,PTCRA,SOX9和TNC,优选其中两个或更多个例如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC,NRARP和PTCRA,以及一或多个例如3、4或更多个Notch靶基因选自:CD28,CD44,DLGAP5,EPHB3,FABP7,GFAP,GIMAP5,HES7,HEY1,HEYL,KLF5,NFKB2,NOX1,PBX1,PIN1,PLXND1,SOX9和TNC。
特别优选的是这样的试剂盒(如本文所述),其中所述三个或更多个Notch靶基因选自:CD44,DTX1,EPHB3,HES1,HES4,HES5,HES7,HEY1,HEY2,HEYL,MYC,NFKB2,NOX1,NRARP,PBX1,PIN1,PLXND1和SOX9,优选其中两个或更多个例如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,以及一或多个例如3、4或更多个Notch靶基因选自:CD44,EPHB3,HES7,HEY1,HEYL,NFKB2,NOX1,PBX1,PIN1,PLXND1和SOX9。
特别优选的是这样的试剂盒(如本文所述),其中所述三个或更多个Notch靶基因选自:DTX1,EPHB3,HES1,HES4,HES5,HEY2,MYC,NFKB2,NRARP,PIN1,PLXND1和SOX9,优选其中两个或更多个例如3、4、5、6或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,以及一或多个如3、4或更多个Notch靶基因选自:EPHB3,NFKB2,PIN1,PLXND1和SOX9。
根据另一个公开的方面,用于推测对象中Notch细胞信号传导途径的活性的试剂盒包括:
如本文所述的本发明的试剂盒,及
如本文所述的本发明的设备,如本文所述的本发明的非暂时性存储介质或者如本文所述的本发明的计算机程序。
根据另一个公开的方面,本文所述的本发明的试剂盒用于进行本文所述的本发明的方法。
如本文所述,本发明还可例如有利地用于以下活动中的至少一项:
基于对象中Notch细胞信号传导途径的推测的活性的诊断;
基于对象中Notch细胞信号传导途径的推测的活性的预后;
基于对象中Notch细胞信号传导途径的推测的活性的药物处方;
基于对象中Notch细胞信号传导途径的推测的活性的药物功效预测;
基于对象中Notch细胞信号传导途径的推测的活性的不良反应预测;
药物功效监测;
药物开发;
分析测定开发;
途径研究;
癌症分期;
基于对象中Notch细胞信号传导途径的推测的活性的临床试验对象招募;
要进行的后续测试的选择;及
伴随诊断测试的选择。
通过阅读和理解附图、下文描述及尤其是阅读下文提供的详细实施例,进一步的优势对于本领域技术人员将是明显的。
应理解,权利要求1的方法、权利要求9的设备、权利要求10的非暂时性存储介质、权利要求11的计算机程序、权利要求12-14的试剂盒以及权利要求15的试剂盒的应用具有相似和/或相同的优选实施方案,特别如在所附权利要求书中定义。
应理解,本发明的优选实施方案也可以是从属权利要求或者上述实施方案以及各自独立权利要求的任意组合。
参考下文描述的实施方案,本发明的这些和其它方面将变得明显并得到阐明。
附图简述
图1示意性且示例性地示出Notch细胞信号传导途径。当Notch胞外结构域与DSL配体结合时,所述途径被激活。在受体裂解后,Notch胞内结构域移动至细胞核并与其它蛋白质一起形成活性转录因子复合物(参见Guruharsha K.G.et al.,“The Notch signalingsystem:recent insights into the complexity of a conserved pathway”NatureReviews Genetics,Vol.13,September 2012,654-666页;“TS”=转录开关,“TG”=靶基因)。
图2示意性且示例性地示出用于对Notch细胞信号传导途径的转录程序进行建模的数学模型,在本文是贝叶斯网络模型。
图3示出流程图,示例性示出基于在对象样品中测量的Notch细胞信号传导途径的靶基因的表达水平来推测对象中Notch细胞信号传导途径的活性的方法。
图4示出流程图,示例性示出获得如本文所述的经校准的数学途径模型的方法。
图5示出流程图,示例性示出如本文所述确定对象样品中Notch转录因子(TF)元件的活性水平的方法。
图6示出流程图,示例性示出使用离散的可观测量来推测对象中Notch细胞信号传导途径的活性的方法。
图7示出流程图,示例性示出使用连续可观测量来推测对象中Notch细胞信号传导途径的活性的方法。
图8示出流程图,示例性示出从Notch细胞信号传导途径的靶基因的RT-qPCR分析中确定Cq值的方法。
图9示出基于表2的18个靶基因入选列表和本文所述方法的贝叶斯网络模型的校准结果,使用11个正常卵巢(第1组)和20个高级别乳头状浆液性卵巢癌(第2组)样品的可公开获得的表达数据集(样品子集取自数据集GSE2109,GSE9891,GSE7307,GSE18520,GSE29450,GSE36668)。
图10示出基于表1的靶基因的证据汇总列表(26个靶基因列表)和本文所述方法的贝叶斯网络模型的校准结果,使用11个正常卵巢(第1组)和20个高级别乳头状浆液性卵巢癌(第2组)样品的可公开获得的表达数据集(样品子集取自数据集GSE2109,GSE9891,GSE7307,GSE18520,GSE29450,GSE36668)。
图11示出用表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对来自数据集GSE6495的MOLT4细胞系的三个独立培养物的Notch细胞信号传导途径活性预测。
图12示出用表2的靶基因证据汇总列表(26个靶基因列表),训练的示例性贝叶斯网络模型对来自数据集GSE6495的MOLT4细胞系的三个独立培养物的Notch细胞信号传导途径活性预测。
图13示出用表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对用可诱导Notch3-胞内构建体转染的IMR32细胞的Notch细胞信号传导途径活性预测。
图14示出用表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对CD34+CD45RA-Lin-HPC的Notch细胞信号传导途径活性预测,所述CD34+CD45RA-Lin-HPC用分级剂量的塑料固定的Notch配体Delta1ext-IgG培养72小时(数据集GSE29524)。
图15示出用表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对已知具有高Notch活性的CUTLL1细胞的Notch细胞信号传导途径活性预测。
图16示出用表1的靶基因的证据汇总列表(26个靶基因列表),训练的示例性贝叶斯网络模型对已知具有高Notch活性的CUTLL1细胞的Notch细胞信号传导途径活性预测。
图17示出用表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对经COUP-TFII siRNA转染的HUVEC细胞的Notch细胞信号传导途径活性预测(数据集GSE33301)。
图18示出用表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对来自GSE6532、GSE9195、GSE12276、GSE20685、GSE21653和EMTAB365的样品中乳腺癌亚组的Notch细胞信号传导途径活性预测。
图19示出用表3的12个靶基因入选列表,训练的示例性贝叶斯网络模型对CD34+CD45RA-Lin-HPC的Notch细胞信号传导途径活性预测,所述CD34+CD45RA-Lin-HPC用分级剂量的塑料固定的Notch配体Delta1ext-IgG培养72小时(数据集GSE29524)。
图20示出用表3的12个靶基因入选列表,训练的示例性贝叶斯网络模型对已知具有高Notch活性的CUTLL1细胞的Notch细胞信号传导途径活性预测。
图21示出使用分别来自表1的靶基因的证据汇总列表(26个靶基因列表)和来自表3的12个靶基因入选列表,训练的示例性贝叶斯网络模式之间的相关性。
图22示出使用7个Notch靶基因列表与10个Notch靶基因列表的Notch细胞信号传导途径活性预测的比较。
图23示出使用8个Notch靶基因列表与12个Notch靶基因列表的Notch细胞信号传导途径活性预测的比较。
图24示出基于表6的10个靶基因小鼠列表和本文所述方法的贝叶斯模型的校准结果,所述方法使用含有2个对照胚胎干细胞(ESc)、2个对照中胚层祖细胞(MPc)、2个非OHT处理的含有他莫昔芬诱导型NERT构建体(NotchIC)的ESc样品、2个经OHT处理的含有他莫昔芬诱导型NERT构建体(NotchIC)的ESc样品、4个非OHT处理的含有他莫昔芬诱导型NERT构建体(NotchIC)的MPc样品、4个经OHT处理的含有他莫昔芬诱导型NERT构建体(NotchIC)的MPc样品的可公开获得的表达数据集GSE15268。
图25示出用表6的10个靶基因小鼠列表,训练的示例性贝叶斯网络模型对具有可诱导的组成型活性Notch1胞内结构域(NICD1)的小鼠乳腺的Notch细胞信号传导途径活性预测(数据集GSE51628)。
图26示出用表6的10个靶基因小鼠列表,训练的示例性贝叶斯网络模型对使用条件转基因系统以激活Notch1的小鼠卵黄囊组织及具有RBPJ(Notch转录因子复合物的一部分)功能丧失的转基因小鼠的小鼠卵黄囊组织的Notch细胞信号传导途径活性预测(数据集GSE22418)。
图27示出用表6的10个靶基因小鼠列表,训练的示例性贝叶斯网络模型对具有条件性获得Notch2受体的功能等位基因的小鼠骨髓细胞(成年骨髓红系祖细胞)的Notch细胞信号传导途径活性预测(数据集GSE46724)。
实施方案详述
以下实施例仅示例了特别优选的方法和与此相关的所选方面。其中提供的教导可用于构建一些测试和/或试剂盒,例如以检测、预测和/或诊断Notch细胞信号传导途径的异常活性。此外,基于使用本文所述的方法,可以有利地指导药物处方,可以进行药物反应预测和监测药物功效(和/或不良反应),可以预测和监测耐药性,例如以选择要进行的后续测试(例如伴随诊断测试)。如下实施例不应解释为限制本发明的范围。
实施例1:数学模型构建
如公开的国际专利申请WO 2013/011479 A2(“Assessment of cellularsignaling pathway activity using probabilistic modeling of target geneexpression”)中所述,通过构建概率模型例如贝叶斯网络模型并结合细胞信号传导途径(在此为Notch细胞信号传导途径)的三个或更多个靶基因的表达水平与转录因子(TF)元件(在此为Notch TF元件)(所述TF元件控制所述细胞信号传导途径的所述三个或更多个靶基因的转录)的活性水平之间的条件概率关系,这种模型可用于高精确度地确定所述细胞信号传导途径的活性。此外,通过调整所述条件概率和/或在所述模型中加入新节点以表示额外的信息源,可以轻松地更新所述概率模型以整合随后临床研究获得的其它知识。以此方式,可以适当地更新所述概率模型以体现最新的医学知识。
在公开的国际专利申请WO 2014/102668 A2(“Assessment of cellularsignaling pathway activity using linear combination(s)of target geneexpressions”)中详细描述的另一种易于理解和解释的方法中,细胞信号传导途径的活性(在此是Notch细胞信号传导途径)可以通过构建和评估线性或(伪)线性模型来确定,该模型整合了所述细胞信号传导途径的三个或更多个靶基因的表达水平与转录因子(TF)元件(在此为Notch TF元件)(所述TF元件控制所述细胞信号传导途径的所述三个或更多个靶基因的转录)的水平之间的关系,所述模型基于所述三个或更多个靶基因的表达水平的一或多种线性组合。
在这两种方法中,所述三个或更多个靶基因的表达水平可优选是测量mRNA水平,这可以是例如使用(RT)-PCR和与靶基因mRNA序列相关探针的微阵列技术以及RNA测序的结果。在另一个实施方案中,所述三个或更多个靶基因的表达水平可以通过蛋白质水平测量,例如由所述靶基因编码的蛋白质的浓度和/或活性。
前述表达水平可任选地在可能更适合或不适合所述应用的众多方式中转换。例如,表达水平例如基于微阵列的mRNA水平的四种不同转化可以是:
-“连续数据”,即使用熟知算法如MAS5.0和fRMA对微阵列进行预处理后获得的表达水平,
-“z得分”,即经缩放(scaled)的连续表达水平,由此所有样品的平均值为0,标准偏差为1,
-“离散”,即高于一定阈值的每个表达设置为1,低于其设置为0(例如在一组阳性临床样品和相同数目的阴性临床样品中,可以选择探针集的阈值作为其数值的(加权)中位数),
-“模糊”,即使用以下形式的S型函数将连续表达水平转换为0-1之间的值:1/(1+exp((thr–expr)/se)),其中expr是连续表达水平,thr是前文提及的阈值,和se是影响0和1之间差异的软化参数。
可以构建的最简单的线性模型之一是这样的模型,其在第一层中具有代表转录因子(TF)元件(在此为Notch TF元件)的节点,及在第二层中具有代表靶基因表达水平直接测量值的加权节点,例如通过例如在微阵列或(q)PCR实验中与特定靶基因特别高度相关的一个探针集测量。权重可以基于训练数据集计算或基于专业知识。在每个靶基因均可能测量多个表达水平的情况下使用这种方法(例如在微阵列实验中,可以用多个探针集测量一个靶基因),每个靶基因只有一个表达水平特别简单。选择用于特定靶基因的所述一个表达水平的一种特定方式是使用探针集的表达水平,其能最佳地分离训练数据集的主动和被动样品。确定这种探针集的一种方法是进行统计学检验,例如t检验,及选择具有最低p值的探针集。根据定义,p值最低的探针集的训练数据集的表达水平是(已知)主动和被动样品的表达水平重叠的可能性最低的探针集。另一种选择方法是基于几率比。这种模型中,为所述三个或更多个靶基因的每一个提供一或多个表达水平,并且一或多种线性组合包括对于所述三个或更多个靶基因的每一个包括加权项的线性组合,每个加权项仅基于为各个靶基因提供的一或多个表达水平中的一个表达水平。如果如上所述每个靶基因仅选择一个表达水平,则该模型可以称为“最判别探针集(most discriminant probeset)”模型。
作为“最判别探针集”模型的替代,在可能测量每个靶基因的多个表达水平的情况下,可以使用为每个靶基因提供的所有表达水平。在这种模型中,为所述三个或更多个靶基因的每一个提供一或多个表达水平并且一或多种线性组合包括为所述三个或更多个靶基因提供的所述一或多个表达水平的所有表达水平的线性组合。换句话说,对于所述三个或更多个靶基因的每一个,可以通过其自身(个体)权重,在线性组合中对为各个靶基因提供的所述一或多个表达水平的每一个进行加权。这种变化形式可以称为“所有探针集”模型。其具有在使用所有提供的表达水平时相对简单的优点。
如上所述的两个模型的共同点是其可以被认为是“单层”模型,其中TF元件的活性水平基于所述三个或更多个靶基因的一或多个探针集的表达水平的线性组合计算。
通过评估各个模型确定了TF元件(在此为Notch TF元件)的活性水平之后,可以对确定的TF元件活性水平进行阈值确定以推测细胞信号传导途径(在此为Notch细胞信号传导途径)的活性。计算这种合适阈值的一种优选方法是通过比较已知具有非活跃细胞信号传导途径的训练样品和具有活跃细胞信号传导途径的训练样品的确定的TF元件活性水平wlc(加权线性组合)。如此以及还考虑了这些组中差异的方法通过使用阈值给出,
Figure BDA0002437165600000101
其中σ和μ是训练样品的确定的TF元件活性水平wlc的标准偏差和平均值。在活跃和/或非活跃训练样品中只有少量样品可用的情况下,可以基于两组方差的平均值将伪计数加入计算的方差中:
Figure BDA0002437165600000111
其中v是各组确定的TF元件活性水平wlc的方差,x是正伪计数,例如1或10,nact和npas分别是活跃和非活跃样品的数量。接下来,可以通过获取方差v的平方根获得标准偏差σ。
为便于解释,可以从确定的TF元件活性水平wlc中减去阈值,获得细胞信号传导途径的活性评分,其中负值相应于非活跃细胞信号传导途径,而正值相应于活跃细胞信号传导途径。
作为上述“单层”模型的替代,在实施例中也可以使用“两层”模型。在这种模型中,基于其相关探针集的测量的强度使用线性组合计算每个靶基因的汇总值(“第一(下)层”)。随后使用进一步的线性组合将计算的汇总值与细胞信号传导途径的其它靶基因的汇总值组合(“第二(上层)”)。同样,可以从训练数据集中或者基于专家知识或其组合学习权重。换句话说,在“两层”模型中,提供所述三个或多个靶基因的每一个的一或多个表达水平并且所述三个或多个靶基因的每一个的一或多种线性组合包含各个靶基因的所述一或多个表达水平的所有表达水平的第一线性组合(“第一(下)层”)。所述模型进一步基于进一步的线性组合,包括所述三个或更多个靶基因的每一个的加权项,每个加权项基于各个靶基因的第一线性组合(“第二(上)层”)。
在“两层”模型的优选形式中,汇总值的计算可以包括使用训练数据为每个靶基因定义阈值并从计算的线性组合中减去阈值,产生靶基因汇总值。在此可以选择阈值,由此负靶基因汇总值相应于下调的靶基因,而正靶基因汇总值对应于上调的靶基因。而且,在将靶基因汇总值组合在“第二(上)层”中之前,可以使用例如上述转化之一(模糊,离散等)将靶基因汇总值转化。
如上所述,通过评估所述“两层”模型确定了TF元件的活性水平之后,可以对确定的TF元件活性水平进行阈值设定以推测细胞信号传导途径的活性。
在下文中,上述模型统称为“(伪)线性”模型。在下文实施例3中提供了对概率模型例如贝叶斯网络模型的训练和使用的更详细描述。
实施例2:靶基因的选择
转录因子(TF)是蛋白质复合物(即在特定结构中结合在一起的蛋白质组合)或能够通过与特定DNA序列结合来调节靶基因转录从而控制遗传信息从DNA转录到mRNA的蛋白质。由于TF复合物的这种作用而直接产生的mRNA在本文中被称为(转录因子的)直接靶基因”。细胞信号传导途径激活也可以导致更多的二级基因转录,称为“间接靶基因”。在下文中,优选(伪)线性模型或贝叶斯网络模型(作为示例数学模型),其包含作为细胞信号传导途径活性和mRNA水平之间直接联系的直接靶基因或由其组成,但是直接靶基因和间接靶基因之间的区别基因并不总是明显的。在本文中,提出了一种基于可用的科学文献数据使用评分函数选择直接靶基因的方法。但是,由于信息有限以及生物学变异和不确定性,不能排除间接靶基因的偶然选择。为选择靶基因,使用在“www.ncbi.nlm.nih.gov/pubmed”可访问并在本文中还被称为“Pubmed”的美国国立卫生研究院的MEDLINE数据库产生靶基因列表。此外,根据其表达的检验性质选择了另外两个靶基因列表。
在2016年第四季度和2017年第一季度期间,通过使用查询词如“Notch”AND“target gene”)搜索含有推定Notch靶基因的出版物。Notch途径是一种取决于胚胎谱系而激活不同(但重叠)靶基因谱的胚胎途径(参见Meier-Stiegen F.et al.,“ActivatedNotch1 target genes during embryonic cell differentiation depend on thecellular context and include lineage determinants and inhibitors”,PLoS One,Vol.5,No.7,July 2010)。搜索集中于在来自三种不同胚胎谱系(外胚层,内胚层,中胚层)的细胞类型/组织/器官衍生物之间差异表达的靶基因集合,特别着重于在外胚层和内胚层衍生的器官/组织/细胞中表达的靶基因。按照下面更详细描述的方法学对所得出版物进一步进行手工分析。
通过使用分级系统从科学文献中选择特定的细胞信号传导途径mRNA靶基因,在所述分级系统中根据积累了证据的科学实验的类型,对特定靶基因的科学证据进行评级。尽管一些实验证据仅提示某基因是直接靶基因,例如通过其中已知Notch细胞信号转导途径是有活跃的细胞系的微阵列上探针集的强度增加检测到mRNA增加,但是其它证据可能非常强,例如在细胞中刺激特定的细胞信号传导途径后,在染色质免疫沉淀(ChIP)测定中鉴别的Notch细胞信号传导途径TF结合位点和该位点提取(retrieval)的组合,以及在特异性刺激细胞系中细胞信号传导途径后mRNA的增加。
在科学文献中可以鉴定一些类型的实验可以发现特定的细胞信号传导途径靶基因:
1.ChIP实验,其中示出感兴趣的细胞信号传导途径的TF与基因组上其结合位点的直接结合。实例:通过使用染色质免疫沉淀(ChIP)技术,鉴别了有或没有活跃诱导Notch细胞信号传导途径(例如通过用Notch配体刺激或用NICD转染)的细胞系的DNA中推定的功能性Notch TF结合位点,作为完全基于核苷酸序列识别的结合位点的子集。推定的功能性被认为是发现TF与DNA结合位点结合的ChIP派生证据。
2.电泳迁移率(EMSA)测定,其示出TF与包含结合序列的DNA片段的体外结合。与基于ChIP的证据相比,基于EMSA的证据不那么强,因为其不能转换为体内情况。
3.刺激细胞信号传导途径及使用微阵列、RNA测序、定量PCR或其它技术测量mRNA表达,使用Notch细胞信号传导途径可诱导的细胞系及测量mRNA谱,至少测量一次,但优选在存在环己酰亚胺下诱导后多个时间点测量,环己酰亚胺抑制翻译为蛋白质,因此诱导的mRNA被认为是直接靶基因。
4.与3类似,但在蛋白质丰度测量如western印迹之后替代地进一步测量mRNA表达下游。
5.使用Notch抑制剂例如γ-分泌酶抑制剂(GSI))抑制细胞信号传导途径,及使用微阵列、RNA测序、定量PCR或其它技术测量mRNA表达,使用Notch细胞信号传导途径活跃细胞系并在抑制后至少在一个但优选几个时间点测量mRNA谱。
6.与5类似,但在蛋白质丰度测量如western印迹后替代地进一步测量mRNA表达下游。
7.使用生物信息学方法鉴定基因组中的TF结合位点。用于Notch TF元件的实例:使用CSL/RBP-J结合基序5'-CGTGGGAA-3',在人基因组序列上运行软件程序,并在基因启动子区域和其它基因组区域鉴别潜在的结合位点。
8.与3类似,仅在不存在环己酰亚胺的情况下进行。
9.与4类似,仅在不存在环己酰亚胺的情况下进行。
在最简单的形式中,对于这些实验方法的每一种可以给每个潜在基因1个点,其中该基因被鉴别是Notch转录因子家族的靶基因。使用这种相对分级策略,可以列出最可信的靶基因表。
或者,可以使用另一种分级方法通过对体内直接靶基因提供最多证据的技术更高点数,以鉴别最有可能是直接靶基因的靶基因。在上面的列表中,对于实验方法1)而言这是9个点,对于2)是8个点,而对于实验方法9)则降低至1个点。这种列表可以被称为“一般靶基因列表”。
尽管存在生物学差异和不确定性,但发明人假设直接靶基因最有可能以组织非依赖性方式被诱导。这些靶基因的列表可以被称为“靶基因的证据汇总列表(evidencecurated list of target genes)”。这种靶基因的证据汇总列表已用于构建Notch细胞信号传导途径的计算模型,可应用于来自不同组织的样品。
下文示例性描述了对于Notch细胞信号传导途径怎样特异构建证据汇总靶基因列表。
本发明介绍了一种评分函数,其为在出版物中报道的每种类型的实验证据如ChIP、EMSA、差异表达、敲低/敲除、荧光素酶基因报告基因测定、序列分析等给出点数。进行进一步分析以仅针对具有多样类型的实验证据的基因,而不是仅具有一或两种类型的实验证据(例如差异表达)的基因。选择那些具有两种以上类型的可用实验证据的基因(如表1所示)。
本发明人进一步选择了靶基因的证据汇总列表(在表2中列出,“18个靶基因入选列表”)。通过除去证据汇总列表中的具有相对较少证据(例如仅在一份稿件中发现的证据)和/或高特异性的例如对于血液或脑组织高特异性的靶基因进行所述选择。从经证实在确定Notch信号传导途径活性方面更有证据性的“18个靶基因入选列表”的靶基因中选择“12个靶基因入选列表”(在表3中列出,“12个靶基因入选列表”)。在此,选择这样的12个靶基因,其在分别来自一组高级别乳头状浆液性卵巢癌患者(Notch活跃,取自GSE2109和GSE9891的子集)、来自Gene Expression Omnibus(GEO,www.ncbi.nlm.nih.gov/geo/,上次访问时间为2016年12月3日)以及相应的一组正常卵巢组织样品(Notch无活性,取自GSE7307、GSE18520、GSE29450和GSE36668的子集)的患者样品中具有最高几率比,和/或在证据分级中得分非常高。
表1:用于Notch细胞信号传导途径模型中的Notch细胞信号传导途径的“靶基因证据汇总列表”(26个靶基因列表)以及用于测量靶基因mRNA表达水平的相关探针集
Figure BDA0002437165600000131
Figure BDA0002437165600000141
表2:基于Notch靶基因的证据汇总列表的Notch靶基因的“18个靶基因入选列表”(相关的探针集与表1中的相同)
Figure BDA0002437165600000142
Figure BDA0002437165600000151
表3:基于Notch靶基因的证据汇总列表的Notch靶基因的“12个靶基因入选列表”(相关的探针集与表1中的相同)
靶基因
DTX1
EPHB3
HES1
HES4
HES5
HEY2
MYC
NFKB2
NRARP
PIN1
PLXND1
SOX9
实施例3:训练和使用数学模型
在数学模型可用于推测对象中细胞信号传导途径(在本文中是Notch细胞信号传导途径)的活性之前,必须对模型适当训练。
如果数学途径模型是基于将Notch TF元件的活性水平与在对象样品中测得的Notch细胞信号传导途径的三个或更多个靶基因的表达水平相关联的条件概率的概率模型,例如贝叶斯网络模型,训练可以优选地如公开的国际专利申请WO 2013/011479 A2(“Assessment of cellular signaling pathway activity using probabilisticmodeling of target gene expression”)的详细描述进行。
如果数学途径模型基于对象样品中测得的Notch细胞信号传导途径的三个或更多个靶基因的表达水平的一或多种线性组合,训练可以优选地如公开的国际专利申请WO2014/102668A2(“Assessment of cellular signaling pathway activity using linearcombination(s)of target gene expressions”)中的详细描述进行。
在本文中,使用如图2所示的示例性贝叶斯网络模型以简单方式对Notch细胞信号传导途径的转录程序建模。该模型由三种类型的节点组成:(a)第一层1中的转录因子(TF)元件(状态为“不存在”和“存在”);(b)第二层2中的靶基因TG1、TG2、TGn(状态为“下调”和“上调”)以及(c)第三层3中与靶基因的表达水平相关的测量节点。这些可以是如本文中优选使用的微阵列探针PS1,1、PS1,2、PS1,3、PS2,1、PSn,1、PSn,m(状态为“低”和“高”),也可以是其它基因表达测量如RNAseq或RT-qPCR。
数学模型(本文中是示例性的贝叶斯网络模型)的合适执行基于微阵列数据。该模型描述了(i)靶基因的表达水平如何依赖于TF元件的激活,以及(ii)探针集强度又如何依赖于各个靶基因的表达水平。对于后者,探针集强度可以取自fRMA预处理的AffymetrixHG-U133Plus2.0微阵列,其可广泛得自Gene Expression Omnibus(GEO,www.ncbi.nlm.nih.gov/geo)和ArrayExpress(www.ebi.ac.uk/arrayexpress)。
由于示例性贝叶斯网络模型是细胞信号传导途径(本文为Notch细胞信号传导途径)生物学的简化,并且由于生物学测量通常有噪音,因此选择了概率方法,即(i)TF元件和靶基因以及(ii)靶基因及其各自的探针集之间的关系以概率术语描述。此外,假定驱动肿瘤生长的致癌细胞信号传导途径的活性不是瞬时和动态改变的,而是长期甚至不可逆地改变的。因此,示例性贝叶斯网络模型被开发用于解释静态细胞状况。由于这个原因,复杂的动态细胞信号传导途径特征未纳入该模型。
一旦建立并校准了示例性的贝叶斯网络模型(见下文),所述模型可以如下用在新样品的微阵列数据上:输入探针集测量值作为第三层3的观察值,并在模型中倒推TF元件为“存在”时的概率必须为多少。在这里,“存在”被认为是TF元件与DNA结合并控制细胞信号传导途径的靶基因转录的现象,而“不存在”是TF元件不控制转录的情况。因此该概率是主要读数,可用于指示细胞信号传导途径(在本文中是Notch细胞信号传导途径)的活性,接下来可以通过采用以下比率将其转换为细胞信号传导途径是活跃的几率:所述比率是所述细胞信号传导途径是活跃和非活跃的概率比(即几率由p/(1-p)给出,其中p是细胞信号传导途径是活跃的预测概率)。
在示例性贝叶斯网络模型中,概率关系已被量化以允许量化概率推测。为改善跨组织类型的泛化行为,精心手动挑选了描述(i)TF元件与靶基因之间的概率关系的参数。如果TF元件“不存在”,则靶基因最可能“下调”,因此为此选择了0.95的概率,对于靶基因“上调”选择了0.05的概率。后者(非零)的概率是为了解释靶基因受其它因子调控或被偶然观察到为“上调”(例如由于测量噪声)的(罕见)可能性。如果TF元件“存在”,则概率为0.70,靶基因被认为是“上调”,而概率为0.30,靶基因被认为是“下调”。之所以如此选择后者数值,是因为可能有多种原因导致即使存在TF元件,靶基因也不高表达,例如由于基因的启动子区域被甲基化。在靶基因不是被TF元件上调而是被下调的情况中,以相似方式选择概率,但是反映TF元件存在时的下调。描述(ii)靶基因与其各自探针集之间关系的参数已在实验数据上进行了校准。对于后者,在此实施例中,使用了来自已知具有活跃Notch细胞信号传导途径的患者样品的微阵列数据,而来自不同数据集的正常健康样品用作非活跃Notch细胞信号传导途径样品,但这也可以使用具有已知的细胞信号传导途径活性状态的细胞系实验或其它患者样品进行。所得的条件概率表如下示出:
A:对于上调的靶基因
Figure BDA0002437165600000161
B:对于下调的靶基因
Figure BDA0002437165600000162
Figure BDA0002437165600000171
在这些表中,变量ALi,j、AHi,j、PLi,j和PHi,j指示具有“不存在”(A)或“存在”(P)转录复合物的校准样品数,其分别具有“低”(L)或“高”(H)探针集强度。已添加虚拟计数以避免极端概率0和1。
为离散化所观察到的探针集强度,对于每个探针集PSi,j,使用阈值ti,j,在该阈值以下的观察值称为“低”,在该阈值以上的称为“高”。该阈值已选择为所用校准数据集中探针集的(加权)中位强度。由于微阵列数据的噪声,当将观察的探针集强度与其阈值进行比较时,采用一种模糊方法,假设报告的强度附近是正态分布,标准差为0.25(log2标尺),并确定低于和高于所述阈值的概率质量。
如果采用上述实施例1中描述的(伪)线性模型而不是上述示例性贝叶斯网络,则在模型可用于推测测试样品中的细胞信号传导途径活性之前,需要确定权重和阈值,所述权重指示节点之间的相关性的符号和大小,所述阈值是调用节点是否为“不存在”或“存在”。可以使用专家知识先验地填充权重和阈值,但是通常是使用训练样品的代表性集合来训练模型,其中优选已知基本事实(ground truth),例如,具有已知“存在”转录因子复合物(=活跃细胞信号传导途径)或“不存在”转录因子复合物(=非活跃细胞信号传导途径)的样品中的探针集的表达数据。
在本领域中已知多种训练算法(例如回归),其考虑了模型拓扑并改变了模型参数(此处是权重和阈值),使得模型输出(这里是加权线性分数)被优化。或者,也可以直接从观察到的表达水平计算权重,而无需优化算法。
第一种方法在本文中被称为“黑白”方法,归结为三元系统,其中每个权重是集合{-1,0,1}中的元素。如果将其置于生物学环境中,则-1和1分别对应于在细胞信号传导途径活性情况中下调和上调的靶基因或探针集。如果无法从统计学上证明探针集或靶基因被上调或下调,则其权重为0。在一个实例中,可以使用活跃细胞信号传导途径样品的表达水平相对于具有非活跃细胞信号传导途径的样品的表达水平的左侧和右侧两样品t检验来确定探针或基因根据使用的训练数据是否被上调或下调。在活跃样品的平均值在统计学上大于非活跃样品的情况下,即p值低于某个阈值例如0.3,则确定靶基因或探针集被上调。相反,在活跃样品的平均值在统计学上低于非活跃样品的情况下,则确定靶基因或探针集在细胞信号传导途径激活时被下调。如果最低p值(左侧或右侧)超过上述阈值,则可以将靶基因或探针集的权重定义为0。
第二种方法在本文中被称为“对数几率(log odds)”权重,其基于几率比(oddsratio)的对数(例如底数e)。基于探针集/靶基因水平高于和低于相应阈值(例如,所有训练样品的(加权)中位值)的阳性和阴性训练样品的数量,计算每个靶基因或探针集的几率比。可以添加伪计数来规避被零除。进一步的改进是以更概率的方式对高于/低于阈值的样品进行计数,其是假定探针集/靶基因水平例如在其观测值周围为正态分布,具有某一特定的标准偏差(例如在2-log标尺上为0.25),并计数阈值之上和之下的概率质量。在本文中,与伪计数组合并且使用概率质量代替确定性测量值而计算的几率比被称为“软”几率比。
用靶基因表达的数学建模推测细胞信号传导途径活性的进一步细节可见Verhaegh W.et al.,“Selection of personalized patient therapy through the useof knowledge-based computational models that identify tumor-driving signaltransduction pathways”,Cancer Research,Vol.74,No.11,2014,2936-2945页。
本文中,我们使用了患者样品表达的公开数据,其分别来自一组高级别乳头状浆液性卵巢癌患者(数据集GSE2109和GSE9891,来自gene expression omnibus(GEO,www.ncbi.nlm.nih.gov/geo/,最后访问2016年12月3日)和相应一组正常卵巢组织样品(数据集GSE7307、GSE18520、GSE29450和GSE36668)。在大多数情况下,已知高级浆液性卵巢癌具有活跃Notch细胞信号传导途径,而正常卵巢组织样品具有非活跃Notch细胞信号传导途径。在选择校准样品之前,对数据集进行质量控制以确保样品是可信的。出于校准目的,从可用集合中选择最活跃的Notch卵巢癌样品,通过将每个单独样品的所有靶基因的Affymetrix mRNA表达值相加,然后根据总值对样品进行排名来确定。假设排名最高的20个样品是Notch活跃的。从通过质量控制的12个正常卵巢样品中,选择11个样品作为Notch非活跃校准样品(1个正常卵巢样品被发现是Notch活跃的),样品号:GSM176237、GSM729048、GSM462651、GSM729050、GSM729051、GSM175789、GSM462652、GSM176131、GSM176318、GSM898306、GSM898307。(来自数据集GSE42259的样品也被认为是Notch非活跃校准样品,但是在质量控制之后,这些样品都没有保留。)这些样品分别用于针对Notch活性和非活性(passivity)对模型进行校准。在来自GEO数据库的大量公共数据集上评估了经校准的模型,该数据集含有关于Notch活性的基本事实,即其中Notch活性被诱导或抑制(例如用Notch抑制剂如γ-分泌酶处理,或可能细胞内诱导Notch3)的细胞系。作为一个应用实例,该模型在已知生存数据的乳腺癌样品数据集上运行。
图9显示基于表2的18个靶基因入选列表和本文所述方法的贝叶斯网络模型的校准结果,其中使用了11个正常卵巢(第1组)和20个高级别乳头状浆液性卵巢癌(第2组)样品的公共可获得的表达数据集(取自数据集GSE2109、GSE9891、GSE7307、GSE18520、GSE29450、GSE36668的样品的子集)。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。该模型能够清楚地将非活跃与活跃校准样品分开。
图10显示基于表1的靶基因证据汇总列表(26个靶基因列表)和本文所述方法的贝叶斯网络模型的校准结果,其中使用了11个正常卵巢(第1组)和20个高级别乳头状浆液性卵巢癌(第2组)样品的公共可获得的表达数据集(取自数据集GSE2109、GSE9891、GSE7307、GSE18520、GSE29450、GSE36668的样品的子集)。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。同样,该模型能够清楚地将非活跃与活跃校准样品分开。
在下文中,分别用靶基因的证据汇总列表(26个靶基因列表)和18个靶基因入选列表的训练的示例性贝叶斯网络模型的验证结果显示在图11-18中。
图11示出了用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对来自数据集GSE6495的MOLT4细胞系的三个独立培养物的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。已知MOLT4细胞系具有高Notch信号传导,被该模型正确预期(第1组)。细胞用5μMγ-分泌酶抑制剂(GSI)DAPT处理48小时(第2组)。已知GSI抑制Notch信号传导,该模型正确检测出该组中Notch活性的降低(参见Dohda T.et al.,“Notch signaling induces SKP2 expressionand promotes reduction of p27Kip1 in T-cell acute lymphoblastic leukemiacell”,Experimental Cell Research,Vol.313,No.14,August 2007,3141-3152页)。
图12示出了用来自表1的靶基因证据汇总列表(26个靶基因列表),训练的示例性贝叶斯网络模型对来自数据集GSE6495的MOLT4细胞系的三个独立培养物的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。已知MOLT4细胞系具有高Notch信号传导,被该模型正确预期(第1组)。细胞用5μMγ-分泌酶抑制剂(GSI)DAPT处理48小时(第2组)。已知GSI抑制Notch信号传导,该模型正确检测出该组中Notch活性的降低(参见Dohda T.et al.,“Notch signaling induces SKP2expression and promotes reduction of p27Kip1 in T-cell acute lymphoblasticleukemia cell”,Experimental Cell Research,Vol.313,No.14,August 2007,3141-3152页)。
图13示出了用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对用可诱导的Notch3-胞内构建体转染的IMR32细胞的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。示出两个独立的单细胞衍生克隆(c6,c8),其在50ng/mL多西环素存在下驱动Notch3-胞内表达。在t=0hr,对于这两个克隆,使用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型检测到低Notch活性。诱导细胞内Notch3后,我们正确地观察到Notch活性在两个克隆中均升高并在t=24小时时稳定(数据集GSE16477,van Nes J.et al.,“A NOTCH3 TranscriptionalModule Induces Cell Motility in Neuroblastoma”,Clinical Cancer Research,Vol.19,No.13,July 2013,3485-3494页)。
图14示出了用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对用分级剂量的塑料固定的Notch配体Delta1ext-IgG培养72小时的CD34+CD45RA-Lin-HPCs的Notch细胞信号传导途径活性预测(数据集GSE29524)。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。使用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型正确预测在Delta1ext-IgG(第2组)上培养的细胞中比对照(第1组)更高的Notch活性。
图15示出了用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对已知具有高Notch活性的CUTLL1细胞的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。用γ-分泌酶抑制剂(GSI)处理抑制Notch信号传导。在数据集GSE29544中,观察到在GSI洗去2小时后,Notch活性高。在此图中,合并了未经处理的CUTLL1细胞和GSI洗去后的CUTLL1细胞的数据,因为在这两种情况下,预期Notch活性均高。可以分为六组:1)未经处理的CUTLL1细胞和GSI洗去后的CUTLL1细胞。在此使用18个靶基因入选列表,训练的示例性贝叶斯网络模型正确预测了该组中的高Notch活性。2)经GSI处理的CUTLL1细胞,所述模型正确预测了其低Notch活性。3+4)用空MigRI逆转录病毒处理的CUTLL1细胞,预期不会影响Notch信号传导。在这里,使用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型正确预测GSI洗去后的细胞(第3组)和GSI处理的细胞(第4组)的高Notch活性。5+6)用MigRI显性阴性MAML1病毒转导的CUTLL细胞。DNMAML1是一种Notch拮抗剂,预期Notch信号传导在这些细胞中低。所述模型正确地预测GSI洗去后的细胞(第5组)和GSI处理的细胞(第6组)的低Notch活性(参见Wang H.etal.,“Genome-wide analysis reveals conserved and divergent features of Notch1/RBPJ binding in human and murine T-lymphoblastic leukemia cells”,Proceedingsof the National Academy of Sciences of the USA,Vol.108,No.36,2011,14908-14913页)。
图16示出了用来自表1的靶基因证据汇总列表(26个靶基因列表),训练的示例性贝叶斯网络模型对已知具有高Notch活性的CUTLL1细胞的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。用γ-分泌酶抑制剂(GSI)处理抑制Notch信号传导。在数据集GSE29544中,观察到在GSI洗去2小时后,Notch活性高。在此图中,合并了未经处理的CUTLL1细胞和GSI洗去后的CUTLL1细胞的数据,因为在这两种情况下,预期Notch活性均高。可以分为六组:1)未经处理的CUTLL1细胞和GSI洗去后的CUTLL1细胞。在此使用18个靶基因入选列表,训练的示例性贝叶斯网络模型正确预测了该组中的高Notch活性。2)经GSI处理的CUTLL1细胞,所述模型正确预测了其低Notch活性。3+4)用空MigRI逆转录病毒处理的CUTLL1细胞,预期不会影响Notch信号传导。在此使用来自表1的靶基因证据汇总列表(26个靶基因列表),训练的示例性贝叶斯网络模型正确预测GSI洗去后的细胞(第3组)和GSI处理的细胞(第4组)的高Notch活性。5+6)用MigRI显性阴性MAML1病毒转导的CUTLL细胞。DNMAML1是一种Notch拮抗剂,预期Notch信号传导在这些细胞中低。所述模型正确地预测GSI洗去后的细胞(第5组)和GSI处理过的细胞(第6组)二者的低Notch活性(参见Wang H.et al.,“Genome-wide analysis reveals conserved anddivergent features of Notch1/RBPJ binding in human and murine T-lymphoblasticleukemia cells”,Proceedings of the National Academy of Sciences of the USA,Vol.108,No.36,2011,14908-14913页)。
图17示出用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对用COUP-TFII siRNA转染的HUVEC细胞(数据集GSE33301)的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。已知COUP-TFII阻遏Notch信号传导(参见You L.R.et al.,“Suppression of Notch signaling bythe COUP-TFII transcription factor regulates vein identity”,Vol.435,No.7038,May 2005,98-104页)。使用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型正确检测到在COUP-TFII siRNA转染的细胞(第2组)中比对照细胞(第1组)更高的Notch活性(参见Chen X.et al.,“COUP-TFII is a major regulator of cell cycle and Notchsignaling pathways”,Molecular Endocrinology,Vol.26,No.8,August 2012,1268-1277页)。
图18示出用18个靶基因入选列表,训练的示例性贝叶斯网络模型对来自GSE6532、GSE9195、GSE12276、GSE20685、GSE21653和EMTAB365的样品的乳腺癌亚组的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的。据观察,在那些数据集中,所有乳腺癌样品中的Notch活性都高。进行单向ANOVA并随后进行Games-Howell post-hoc检验的结果表明,几乎所有组都存在显著差异,除了NormL vs.基底和LumA vs.HER2,参见表4(亚组:基底,HER2,LumA=管腔A型,LumB=管腔B型,NormL=正常样)。
表4:图18所示比较乳腺癌样品不同亚组的Games-Howell post-hoc检验结果。P值<0.05被认为是显著的。
比较 p adj
HER2-基底 2.2e-04
LumA-基底 7.0e-08
LumB-基底 9.2e-10
NormL-基底 1
LumA-HER2 1
LumB-HER2 1.5e-03
NormL-HER2 5.6e-03
LumB-LumA 1.5e-03
NormL-LumA 2.6e-04
NormL-LumB 3.2e-09
表5示出用所述18个靶基因入选列表,经训练的示例性贝叶斯网络模型对图18中使用的数据集对Notch活性进行Cox回归的结果。对于所有样品,更具体地说,对于管腔A型和管腔B型,随着我们模型预测的Notch活性增加,预后显著更差。最近的出版物支持了这一点,其中发现Notch1测试阳性的患者无病生存期更短(参见Zhong Y.et al.,“NOTCH1 is aPoor Prognostic Factor for Breast Cancer and Is Associated With Breast CancerStem Cells”,Oncotargets and Therapy,Vol.9,November 2016,6865-6871页)。
表5:使用来自表2的18个靶基因入选列表,训练的示例性贝叶斯网络模型对图18中使用的数据集的Notch活性的Cox回归结果
Cox’s coef HR se(Cox’s coef) z p
所有 0.0593 1.061093 0.015547 3.814204 0.000137
基底 -0.00439 0.995624 0.036854 -0.11899 0.905283
HER2 0.085358 1.089107 0.04685 1.821967 0.06846
LumA 0.075129 1.078023 0.036091 2.081647 0.037375
LumB 0.076441 1.079439 0.024199 3.158812 0.001584
NormL 0.080338 1.083653 0.054621 1.470822 0.141339
图19示出用来自表3的12个靶基因入选列表,训练的示例性贝叶斯网络模型对用分级剂量的塑料固定的Notch配体Delta1ext-IgG培养72小时的CD34+CD45RA-Lin-HPCs(数据集GSE29524)的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。使用来自表3的12个靶基因入选列表,训练的示例性贝叶斯网络模型正确预测与对照(第1组)相比,在Delta1ext-IgG(第2组)上培养的细胞中Notch活性更高。
图20示出用来自表3的12个靶基因入选列表,训练的示例性贝叶斯网络模型对已知具有高Notch活性的CUTLL1细胞的Notch细胞信号传导途径活性预测。在该图中,垂直轴表示TF元件为“存在”或“不存在”的几率,其相应于Notch细胞信号传导途径是活跃的或非活跃的,其中水平轴上方的值相应于TF元件更可能“存在”/活跃,而水平轴下方的值指示TF元件“不存在”/非活跃的几率大于其“存在”/活跃的几率。用γ-分泌酶抑制剂(GSI)处理抑制Notch信号传导。在数据集GSE29544中,观察到在GSI洗去2小时后,Notch活性高。在此图中,合并了未经处理的CUTLL1细胞和GSI洗去后的CUTLL1细胞的数据,因为在这两种情况下,预期Notch活性均高。可以分为六组:1)未经处理的CUTLL1细胞和GSI洗去后的CUTLL1细胞。本文中,使用所述18个靶基因入选列表,训练的示例性贝叶斯网络模型正确预测了该组中的高Notch活性。2)经GSI处理的CUTLL1细胞,所述模型正确预测了其低Notch活性。3+4)用空MigRI逆转录病毒处理的CUTLL1细胞,预期其不会影响Notch信号传导。本文中,使用来自表3的12个靶基因入选列表,训练的示例性贝叶斯网络模型正确预测GSI洗去后的细胞(第3组)和GSI处理的细胞(第4组)的高Notch活性。5+6)用MigRI显性阴性MAML1病毒转导的CUTLL细胞。DNMAML1是一种Notch拮抗剂,预期Notch信号传导在这些细胞中低。所述模型正确地预测GSI洗去后的细胞(第5组)和GSI处理的细胞(第6组)二者的低Notch活性(参见Wang H.et al.,“Genome-wide analysis reveals conserved and divergent featuresof Notch1/RBPJ binding in human and murine T-lymphoblastic leukemia cells”,Proceedings of the National Academy of Sciences of the USA,Vol.108,No.36,2011,14908-14913页)。
图21示出了分别使用来自表1的靶基因的证据汇总列表(26个靶基因列表)和来自表3的12个靶基因入选列表的训练的示例性贝叶斯网络模型之间的相关性。在该图中,水平轴表示TF元件“存在”或“不存在”的几率(以log2标尺),其相应于Notch细胞信号传导途径是活跃的或非活跃的,如使用来自表1的靶基因的证据汇总列表(26个靶基因列表)的训练的示例性贝叶斯网络模型所预测的。垂直轴指示相同信息,如使用来自表3的12个靶基因入选列表的训练的示例性贝叶斯网络模型所预测的(数据集GSE5682,GSE5716,GSE6495,GSE9339,GSE14995,GSE15947,GSE16477,GSE16906,GSE18198,GSE20011,GSE20285,GSE20667,GSE24199,GSE27424,GSE29524,GSE29544,GSE29850,GSE29959,GSE32375,GSE33301,GSE33562,GSE34602,GSE35340,GSE36176,GSE37645,GSE39223,GSE42259,GSE46909,GSE49673,GSE53537,GSE54378,GSE57022,GSE61827,GSE74996,GSE81156,GSE82298)。这两个模型显著相关,p值为2.2e-16,相关系数为0.929。
图22和23示出使用(i)7个Notch靶基因列表(DTX1、HES1、HES4、HES5、HEY2、MYC和NRARP)和10个Notch靶基因列表(所述7个Notch靶基因加上EPHB3、SOX9和NFKB2)以及(ii)8个Notch靶基因列表(DTX1、HES1、HES4、HES5、HEY2、MYC、NRARP和PTCRA)和12个Notch靶基因列表(所述8个靶基因列表加上HEYL、HEY1、PLXND1和GFAP),训练的示例性贝叶斯网络模型的Notch细胞信号传导途径活性预测的额外比较。所述7个Notch靶基因包括在表1至表3的每个靶基因列表中,所述8个Notch靶基因中包括一个额外的靶基因(PTCRA),其仅包括在来自表1的靶基因的证据汇总列表(26个靶基因列表)中。所述10个Notch靶基因列表中的3个额外靶基因取自表3的12个靶基因入选列表,所述12个Notch靶基因列表中的4个额外靶基因不同于所述3个额外靶基因,取自表1的靶基因的证据汇总列表(26个靶基因列表)。所述比较示例性地示出使用7个Notch靶基因列表(其是表1至表3每一个靶基因列表的子集)和8个Notch靶基因列表(其是表1的靶基因的证据汇总列表(26个靶基因列表)的子集)的训练的示例性贝叶斯网络模型的Notch细胞信号传导途径活性预测可以通过从相应列表中添加额外靶基因来进一步改善。详细地:
图22示出了使用所述7个Notch靶基因列表与所述10个Notch靶基因列表的Notch细胞信号传导途径活性预测的比较。在用可诱导的Notch3-细胞内构建体转染的IMR32细胞样品上运行模型。在该图中,水平轴表示以小时为单位的时间,而垂直轴表示相对Notch细胞信号传导途径活性(log2几率标尺)。两种模型都正确示出Notch3-细胞内构建体诱导后预期的Notch活性的增加。但是,与所述7-靶基因模型(实线)相比,所述10-靶基因模型(点划线)显示出更大的活性增加。t=0小时的Notch活性设为0,以使比较更容易(数据集GSE16477,也参见van Nes J.et al.,“A NOTCH3 Transcriptional Module Induces CellMotility in Neuroblastoma”,Clinical Cancer Research,Vol.19,No.13,July2013,3485-3494页)。
图23示出使用所述8个Notch靶基因列表与所述12个Notch靶基因列表的Notch细胞信号传导途径活性预测的比较。该模型在用Jag1逆转录病毒感染的子宫内膜基质细胞样品(数据集GSE16906)上运行。Jag1是Notch配体,其在结合时诱导Notch受体的裂解,由此最终诱导Notch靶基因转录。与所述8-靶基因模型(图的左侧)相比,所述12-靶基因模型(图的右侧)显示出更好的区分对照组(图中的“C”)和Jag1感染的细胞(图中的“Jag1 INF”)之间的Notch活性(在纵轴上表示为log2几率)(也参见Mikhailik A.et al.“Notch ligand-dependent gene expression in human endometrial stromal cells”,Biochemical andBiophysical Research Communications,Vol.388,No.3,October 2009,479-482页)。
代替在来自微阵列或RNA测序的mRNA输入数据上应用经校准的数学模型(例如示例性贝叶斯网络模型),在临床应用中开发专用的测定以进行样品测量可能是有益的,例如在集成平台上使用qPCR确定靶基因的mRNA水平。公开的靶基因的RNA/DNA序列可以随后用于确定在这种平台上选择哪些引物和探针。
可以通过将基于微阵列的数学模型用作参考模型,并验证所开发的测定是否在一组验证样品上给出相似的结果,来进行此类专用测定的验证。除了专用测定,还可以使用RNA测序数据作为输入测量来建立和校准类似的数学模型。
基于使用经校准的数学模型(例如示例性贝叶斯网络模型)的基于微阵列/RNA测序的研究发现的最能指示特定细胞信号传导途径活性的一组靶基因,例如表1至表3,可以转换成在对象样品上和/或计算机上进行的多重定量PCR测定,以解释表达测量结果和/或推测Notch细胞信号传导途径的活性。要开发针对细胞信号传导途径活性的测试(例如,在中央服务实验室中的FDA批准的测试或免于CLIA的测试,或仅针对研究目的由实验室开发的测试),需要开发标准化的测试试剂盒,这需要在临床试验中经过临床验证以获得监管部门批准。
本发明涉及由数字处理装置进行的用于推测对象中Notch细胞信号传导途径的活性的计算机实现方法,其中所述推测基于在对象样品中所测量的Notch细胞信号传导途径的三个或更多个靶基因的表达水平。本发明进一步涉及用于推测对象中Notch细胞信号传导途径的活性的设备(其包括配置用于执行所述方法的数字处理器),涉及用于推测对象中Notch细胞信号传导途径的活性的非暂时性存储介质(其存储可由数字处理装置执行的指令以进行所述方法),以及用于推测对象中Notch细胞信号传导途径的活性的计算机程序(其包括程序代码模块,当计算机程序在数字处理装置上运行时,该程序代码模块使所述数字处理装置进行所述方法)。
所述方法可用于例如诊断Notch细胞信号传导途径的(异常)活性,基于Notch细胞信号传导途径的推测活性的预后,基于Notch细胞信号传导途径的推测活性的临床试验对象招募,要进行的后续测试的选择,伴随诊断测试的选择,临床决策支持系统等。在此方面,参照公开的国际专利申请WO 2013/011479A2(“Assessment of cellular signalingpathway activity using probabilistic modeling of target gene expression”)、公开的国际专利申请WO 2014/102668 A2(“Assessment of cellular signaling pathwayactivity using linear combination(s)of target gene expressions”)及VerhaeghW.et al.,“Selection of personalized patient therapy through the use ofknowledge-based computational models that identify tumor-driving signaltransduction pathways”,Cancer Research,Vol.74,No.11,2014,2936-2945页,其更详细地描述了这些应用。
实施例4:小鼠组织的额外结果
信号转导途径通常跨不同物种是保守的,具有相似功能和相似直接靶基因。然而直接靶基因并不完全相同,并且基因的DNA/mRNA序列在不同物种之间通常是不同的。物种之间的基因序列相似性(同源性)取决于这些物种之间的进化距离,例如小鼠与人之间的差异小于人与蜥蜴之间的差异。
由于物种之间的这些相似性,动物模型通常用于研究生物学过程,例如(器官/组织)发育、细胞分裂和疾病。小鼠是一种流行的模型生物,因为它与人类遗传接近。一个例子是使用小鼠模型研究神经系统失调,例如癫痫和阿尔茨海默病。对于此类失调,获取人体组织是侵入性的(与癌症相反,其通常要进行肿瘤活检),已经开发出模拟失调的小鼠模型。
能够评估小鼠模型中信号转导途径活性非常有用,因为其告诉我们有关提取组织中细胞功能状态的一些信息。对于疾病小鼠模型,因为通常会生成这些小鼠模型以最好的方式反映人类疾病,所以信号转导途径活性可以提供有关人类疾病形式的信息。
Notch细胞信号传导途径模型最初是为人类组织开发的,即表1至表3中选择的靶基因是人中的直接靶基因,该模型的输入是人mRNA的表达水平(例如来自微阵列、qPCR或RNAseq实验),并在人类样品的表达数据上进行校准。
在本文中我们也示出了用于小鼠中的Notch细胞信号传导途径模型。通过选择鼠中Notch细胞信号传导途径的直接靶基因并使用合适的校准样品(来自公共数据库的Affymetrix微阵列数据),创建了一个模型,该模型使用小鼠mRNA表达水平作为输入并从所述输入推测Notch细胞信号传导途径的活性。我们然后使用独立的样品(来自公共数据库的Affymetrix微阵列数据)对其进行了验证,以表明其正确地测量小鼠Notch细胞信号传导途径的活性。
小鼠Notch细胞信号传导途径模型的直接靶基因的选择以与前述相似的方式进行。将用于人类Notch模型的26个基因列表用作起点。该列表根据证据评分(按前述方法计算)进行排名,使用检索关键词(例如“小鼠”AND“直接靶基因”)和来自先前针对人类直接靶基因发现的文献的参考文献进行文献检索获得排名最高的基因。
首先证实所述基因确实存在于小鼠中,然后确认所述基因也是小鼠中的直接Notch靶基因。使用与人类靶基因相似的证据(即存在转录因子复合物结合位点、实验证据如ChIP、萤光素酶测定、差异表达、GSI处理等)来完成此操作。如果发现多个证据来源,则该基因被认为是小鼠Notch的直接靶基因。以这种方式为Notch小鼠模型选择了10个直接靶基因,如表6所示。
表6:基于Notch靶基因的证据汇总列表,Notch靶基因的“10个小鼠靶基因列表”(来自Affymetrix小鼠基因组Genome 430 2.0阵列)
Figure BDA0002437165600000251
Figure BDA0002437165600000261
已在来自数据集GSE15268的样品上校准了Notch小鼠模型,该数据集是来自GEO(Gene Expression Omnibus)数据库的公开可得数据集。该数据集包含来自小鼠胚胎干细胞的Affymetrix微阵列数据,这些小鼠胚胎干细胞具有NotchIC(Notch胞内域)可诱导构建体(通过添加他莫昔芬(hydrotamoxifen)(OHT)诱导)。从该数据集中,将未诱导NotchIC的4个样品用作Notch无活性样品(GSM381312,GSM381313,GSM381317,GSM381316),将其中通过添加OHT诱导Notch的4个样品用作Notch活跃样品(GSM381324,GSM381325,GSM381320,GSM381321)。
然后在多个数据集上运行经校准的Notch小鼠模型:校准集和几个独立的验证集,表明该模型可以成功区分Notch活跃样品和Notch无活性样品。这些结果示于图24-27中。
图24示出了基于来自表6的10个小鼠靶基因列表和本文所述方法的贝叶斯模型的校准结果,其使用公开可获得的表达数据集GSE15268,所述数据集包含2个对照胚胎干细胞(图中的“C ESc”)、2个对照中胚层祖细胞(图中的“C MPc”)、2个含有他莫昔芬诱导型NERT构建体(NotchIC)未经OHT处理的ESc样品(图中的“NERT ESc,无OHT”)、2个含有他莫昔芬诱导型NERT构建体(NotchIC)经OHT处理的ESc样品(图中的“NERT ESc,OHT”)、4个含有他莫昔芬诱导型NERT构建体(NotchIC)未经OHT处理的MPc样品(图中的“NERT MPc,无OHT”)和4个含有他莫昔芬诱导型NERT构建体(NotchIC)经OHT处理的MPc样品(图中的“NERT MPc,OHT”)。该模型能够清楚地将无活性校准样品(对照ESc和对照MPc)与活跃校准样品(NERTMPc,OHT)分开。数据集中的其它样品也被正确分开(也参见Meier-Stiegen F.et al.“Activated Notch1 Target Genes during Embryonic Cell Differentiation Dependon the Cellular Context and Include Lineage Determinants and Inhibitors”,PLoSOne,Vol.5,No.7,July 2010)。
图25示出使用来自表6的10个小鼠靶基因,训练的示例性贝叶斯网络模型对具有诱导型组成性活跃的Notch1胞内域(NICD1)的小鼠乳腺(数据集GSE51628)的Notch细胞信号传导途径活性预测。对于其中NICD1未被诱导的乳腺样品(图中的“M g”),Notch小鼠模型(10个靶基因)检测到低Notch活性。如所预期,其中NICD1用多西环素正确诱导的乳腺样品(图中的“M g,NICD1 a”)显示出显著更高的Notch活性。此图中时间点48h和96h已被合并(也参见Abravanel D.L.et al.“Notch promotes recurrence of dormant tumor cellsfollowing HER2/neu-targeted therapy”,Journal of Clinical Investigation,Vol.125,No.6,June 2015,2484-2496页)。
图26示出使用来自表6的10个小鼠靶基因,训练的示例性贝叶斯网络模型对具有条件转基因系统以激活Notch1的小鼠卵黄囊组织及来自具有RBPJ(Notch转录因子复合物的一部分)功能丧失的转基因小鼠的小鼠卵黄囊组织的Notch细胞信号传导途径活性预测(数据集GSE22418)。野生型样品(图中的“W t”)和RBPJ功能丧失样品(图中的“RBPJ l-o-f”)均显示低Notch活性,来自其中Notch1被激活的卵黄囊组织的样品(图中的“Notch1 a”)显示升高的Notch活性,如预期(也参见Copeland J.N.et al.“Notch signalingregulates remodeling and vessel diameter in the extraembryonic yolk sac”,BMCDevelopmental Biology,February 2011)。
图27示出使用来自表6的10个小鼠靶基因,训练的示例性贝叶斯网络模型对具有Notch2受体等位基因的条件增益的小鼠骨髓细胞(成年骨髓红系祖细胞)的Notch细胞信号传导途径活性预测(数据集GSE46724)。小鼠Notch模型(10个靶基因)正确计算出与ICN2阴性样品(图中的“ICN2 p”)相比,ICN2阳性(IntraCellular Notch2)样品(图中“ICN2 p”)的Notch活性更高(也参见Oh P.et al.“In vivo mapping of notch pathway activity innormal and stress hematopoiesis”,Cell Stem Cell,Vol.13,No.1,August 2013,190-204页)。
实施例5:例证本发明的进一步信息
(1)测量基因表达水平
使用本文所述方法,进一步利用源自本文所述的独特靶基因集合的数据推测Notch细胞信号传导途径的活性。
分析提取样品中基因表达水平的方法是众所周知的。例如,如Northern印迹、使用PCR、巢式PCR、定量实时PCR(qPCR)、RNA-seq或微阵列等的方法都可以用于产生基因表达水平数据。本文涉及本领域已知用于分析靶基因的基因表达的所有方法。
使用基于PCR的方法确定基因表达产物的方法可以特别有用。为使用PCR定量基因表达水平,通常使用常规的定量实时PCR(qPCR)估算每个感兴趣PCR产物的量,以在每个扩增循环后实时测量PCR产物的积累。这通常利用可检测的报告分子,例如嵌入染料、小沟结合染料或荧光探针,从而用光激发报告分子发出荧光,典型地使用如在美国专利号6,713,297(其通过引用并入本文)中公开的CCD相机或光电倍增管检测系统检测所产生的荧光。
在一些实施方案中,在定量实时PCR(qPCR)测定中用于检测PCR产物的探针可以包括荧光标记。许多荧光标记是可商购的。例如,Molecular Probes,Inc(Eugene,Oreg.)销售各种荧光染料。非限制性实例包括Cy5,Cy3,TAMRA,R6G,R110,ROX,JOE,FAM,Texas RedTM和Oregon GreenTM。其它荧光标记可以包括qPCR测定中的具有传统5'水解探针的IDT ZEN双猝灭探针。这些探针可以含有例如具有3'TAMRA猝灭剂、3'Black Hole猝灭剂(BHQ,BiosearchTechnologies)或内部ZEN猝灭剂和3'Iowa Black荧光猝灭剂(IBFQ)的5'FAM染料。
可以使用本领域公知的方法将用于本发明的荧光染料连接至寡核苷酸引物。例如,向寡核苷酸添加荧光标记的一种常用方法是使染料的N-羟基琥珀酰亚胺(NHS)酯与靶上的反应性氨基反应。可通过例如使核碱基上包括烯丙基胺基团来修饰核苷酸以携带反应性氨基。经由烯丙基胺的标记描述于例如美国专利号5,476,928和5,958,691,其通过引用并入本文。本领域技术人员熟知荧光标记核苷酸、寡核苷酸和多核苷酸的其它手段。
其它荧光方法包括使用通用检测系统,如SYBR-绿色染料,当嵌入来自任何基因表达产物的扩增的DNA时发出荧光,如美国专利号5,436,134和5,658,751所述,所述专利通过引用并入本文。
确定靶基因表达水平的另一种有用方法包括RNA-seq,一种用于转录组分析的强大分析工具,包括不同生理条件之间的基因表达水平差异,或在疾病发展过程中或疾病进展过程中发生的变化。
确定基因表达水平的另一种方法包括使用微阵列,例如RNA和DNA微阵列,这是本领域公知的。微阵列可用于同时定量大量基因的表达。
(2)确定Notch细胞信号传导活性的通用工作流程
图3示出示例性地说明用于推测分离自受试者的样品的Notch细胞信号转导活性的过程的流程图。首先,自样品分离mRNA(11)。其次,使用本领域已知用于测量基因表达的方法测量(12)如本文所述的至少三个或更多个Notch靶基因的独特集合的mRNA表达水平。接下来,使用经校准的数学途径模型(14)将所述三个或更多个Notch靶基因的表达水平与Notch TF元件的活性水平相关来确定Notch转录因子(TF)元件(13)的活性水平。最后,基于确定的对象样品中Notch TF元件的活性水平推测(15)对象中Notch细胞信号传导途径的活性。例如,如果活性高于某个阈值,则Notch细胞信号传导途径被确定为活性,如果活性低于某个阈值,则可以归类为非活跃。
(3)经校准的数学途径模型
如本文所述,使用本文中进一步描述的经校准的数学途径模型,将本文所述的三个或更多个Notch靶基因的独特集合的表达水平用于确定Notch TF元件的活性水平。经校准的数学途径模型将所述三个或更多个Notch靶基因的表达水平与Notch TF元件的活性水平相关联。
如本文所述,所述经校准的数学途径模型基于数学途径模型的应用。例如,所述经校准的数学途径模型可以基于概率模型例如贝叶斯网络模型或者线性或伪线性模型。
在一个实施方案中,所述经校准的数学途径模型是结合了将Notch TF元件和所述三个或更多个Notch靶基因的表达水平相关联的条件概率关系的概率模型。在一个实施方案中,所述概率模型是贝叶斯网络模型。
在另一个实施方案中,所述经校准的途径数学模型可以是线性或伪线性模型。在一个实施方案中,所述线性或伪线性模型是如本文进一步描述的线性或伪线性组合模型。
示例性说明用于生成经校准的数学途径模型的过程的流程图在图4示出。作为初始步骤,收集并标准化mRNA表达水平的训练数据。可以使用例如微阵列探针集强度(101)、实时PCR Cq值(102)、原始RNAseq读数(103)或本领域已知的另外测量方式(104)来收集数据。然后可以通过以下方法分别针对每种方法对原始表达水平数据进行标准化:使用标准化算法进行标准化,例如冻结鲁棒多阵列分析(fRMA)或MAS5.0(111),针对参考基因平均Cq标准化(112),将读数标准化为读数/片段每千碱基转录物每百万映射读数(reads/fragments per kilobase of transcript per million mapped reads)(RPKM/FPKM)(113),或针对参考基因/蛋白质标准化(114)。该标准化程序针对每种方法分别导致标准化探针集强度(121),标准化Cq值(122),标准化RPKM/FPKM(123)或标准化测量(124),其指示训练样品内的靶基因表达水平。
一旦训练数据已经标准化,就获得一个或多个训练样品ID(131),并且从确定基因表达的方法之一中获得这些特定样品的训练数据(132)。来自训练样品的最终基因表达结果作为训练数据输出(133)。合并来自各个训练样品的所有数据以校准模型(包括例如阈值,CPT(例如在概率网络或贝叶斯网络的情况下),权重(例如在线性或伪线性模型的情况下)等)(144)。此外,途径的靶基因和测量节点(141)被用于生成模型结构,例如图2所述(142)。然后将所得的途径模型结构(143)与训练数据(133)合并以校准模型(144),其中靶基因的基因表达水平指示转录因子元件活性。作为训练样品中TF元件确定的结果,生成经校准的途径模型(145),基于训练样品中靶基因表达水平,该模型将Notch细胞信号传导途径活性分配给随后检查的感兴趣样品(例如来自患有癌症的对象)。
(4)TF元件确定
图5中示例性说明用于确定TF元件的活性水平的方法的流程图。来自从对象提取的样品的表达水平数据(测试数据)(163)被输入到经校准的数学途径模型(145)中。所述数学途径模型可以是概率模型例如贝叶斯网络模型、线性模型或伪线性模型。
所述数学途径模型可以是概率模型,例如贝叶斯网络模型,其基于将Notch TF元件和在对象样品中测量的Notch细胞信号传导途径的所述三个或更多个靶基因的表达水平相关联的条件概率,或者所述数学模型可以基于在对象样品中测量的Notch细胞信号传导途径的所述三个或更多个靶基因的表达水平的一或多种线性组合。特别地,可以如已公开的国际专利申请WO 2013/011479 A2(“Assessment of cellular signaling pathwayactivity using probabilistic modeling of target gene expression”)中所公开的那样确定Notch细胞信号传导途径的活性,该申请内容全文并入本文。简言之,将数据输入到贝叶斯网络(BN)推理引擎调用(例如BNT工具箱)(154)。这导致一组计算出的BN中所有节点的边际BN概率值(155)。根据这些概率,确定转录因子(TF)节点的概率(156)并确立TF元件的活性水平(157)。
或者,所述数学模型可以是线性模型。例如,可以使用如公开的国际专利申请WO2014/102668 A2(“Assessment of cellular signaling pathway activity usinglinear combination(s)of target gene expressions”)中所述的线性模型,该申请全部内容并入本文。关于使用靶基因表达的数学建模来计算/确定细胞信号传导途径活性的更多详细信息也可见于Verhaegh W.et al.,"Selection of personalized patienttherapy through the use of knowledge-based computational models that identifytumor-driving signal transduction pathways",Cancer Research,Vol.74,No.11,2014,2936-2945页。简言之,将数据输入计算的加权线性组合得分(w/c)(151)。这导致一组计算的加权线性组合得分值(152)。根据这些加权线性组合得分,确定转录因子(TF)节点的加权线性组合得分(153)并确立TF元件活性水平(157)。
(5)用于离散观测值的程序
图6示出了流程图,示例性说明推测作为离散观测值的对象中Notch细胞信号传导途径的活性的方法。首先,提取测试样品并给予测试样品ID(161)。接下来,收集并标准化mRNA表达水平的测试数据(162)。测试数据的收集可以使用与图5中训练样品所讨论的相同方法,使用微阵列探针集强度(101)、实时PCR Cq值(102)、原始RNAseq读数(103)或另外的测量方式(104)。然后可以分别通过以下方法对每种方法的原始表达水平数据进行标准化:使用算法例如fRMA或MAS5.0进行标准化(111),针对参考基因平均Cq进行标准化(112),将读数标准化为RPKM/FPKM(113)和针对参考基因/蛋白质标准化(114)。该标准化程序针对每种方法分别导致标准化探针集强度(121),标准化Cq值(122),标准化RPKM/FPKM(123)或标准化测量(124)。
一旦测试数据被标准化,则基于经校准的数学途径模型(145)在阈值化步骤(164)中分析所得测试数据(163),产生阈值化测试数据(165)。在使用离散观测值时,在一个非限制性实例中,在给定特定阈值以上的每个表达给定值为1,低于阈值的值给定值为0,或者在另一实施方案中,高于如本文所述的阈值的概率质量被用作阈值化的值。基于经校准的数学途径模型,该值表示TF元件的活性水平(157),然后将其用于计算细胞信号传导途径的活性(171)。最终输出给出对象中细胞信号传导途径的活性(172)。
(6)用于连续观测值的程序
图7示出了流程图,示例性说明推测作为连续观测值的对象中Notch细胞信号传导途径的活性的方法。首先,提取测试样品并给予测试样品ID(161)。接下来,收集并标准化mRNA表达水平的测试数据(162)。测试数据的收集可以使用与图5中训练样品所讨论的相同方法,使用微阵列探针集强度(101)、实时PCR Cq值(102)、原始RNAseq读数(103)或另外的测量方式(104)。然后可以分别通过以下方法对每种方法的原始表达水平数据进行标准化:使用算法例如fRMA进行标准化(111),针对参考基因平均Cq进行标准化(112),将读数标准化为RPKM/FPKM(113),和针对参考基因/蛋白质标准化(114)。该标准化程序针对每种方法分别导致标准化探针集强度(121),标准化Cq值(122),标准化RPKM/FPKM(123)或标准化测量(124)。
一旦测试数据被标准化,则在经校准的数学途径模型(145)中分析所得测试数据(163)。在使用连续观测值时,作为一个非限制性实例,使用本文中进一步详细描述的S形函数将表达水平转换为0至1之间的值。本文所述的TF元件确定与经校准的数学途径模型结合用于解释测试数据,所得值代表TF元件的活性水平(157),然后其用于计算细胞信号传导途径的活性(171)。最终输出给出对象中细胞信号传导途径的活性(172)。
(7)靶基因表达水平确定程序
图8示出流程图,示例性说明从对象提取的样品中获得靶基因表达水平的方法。在一个示例性实施方案中,在实验室中接收并登记样品。样品可包括例如福尔马林固定的石蜡包埋的(FFPE)样品(181)或新鲜冷冻(FF)样品(180)。FF样品可以直接裂解(183)。对于FFPE样品,可以在添加蛋白酶K后通过加热孵育步骤除去石蜡(182)。然后裂解细胞(183),其破坏细胞和核膜,从而使核酸(NA)可用于进一步处理。核酸与固相(184)结合,固相可以是例如珠或滤膜。然后用洗涤缓冲液洗涤核酸以去除裂解后存在的所有细胞碎片(185)。然后用洗脱缓冲液将纯净核酸与固相分离(186)。通过DNAse处理去除DNA以确保样品中仅存在RNA(187)。然后可以将核酸样品直接用于RT-qPCR样品混合物中(188)。RT-qPCR样品混合物含有RNA样品、用于从RNA样品制备cDNA的RT酶和用于扩增cDNA的PCR酶、用于确保酶发挥功能的缓冲液,并且可以潜在含有分子级水以设定固定浓度体积。然后可以将样品混合物添加到多孔板(即96孔板或384孔板)中,该板含有干燥的RT-qPCR测定(189)。然后可以根据指定方案在PCR机器中运行RT-qPCR(190)。一个示例PCR方案包括:i)50℃30分钟;ii)95℃5分钟;iii)95℃15秒;iv)60℃45秒;v)重复步骤iii和iv 50个循环。然后,通过使用二阶导数方法,利用原始数据确定Cq值(191)。导出Cq值以进行分析(192)。
(8)Notch介导的疾病和失调及治疗方法
如本文所述,本发明的方法和设备可用于评估对象的Notch细胞信号传导途径活性,所述对象例如是怀疑患有或患有疾病或失调的对象,其中Notch信号传导途径的状态全部或部分证明疾病的存在或进展。在一个实施方案中,本文提供一种治疗对象的方法,该方法包括:接收使用本文所述方法从提取自对象的样品中获得的Notch细胞信号传导途径的活性状态相关的信息,如果关于Notch细胞信号传导途径活性的信息指示活跃Notch信号传导途径,则给对象施用Notch抑制剂。在一个特定的实施方案中,将Notch细胞信号传导途径活性指示设定为Notch细胞信号传导途径是活跃的几率的截断值为10:1、5:1、4:1、2:1、1:1、1:2、1:4、1:5、1:10。
可用于本发明的Notch抑制剂是熟知的。Notch抑制剂的例子包括但不限于DAPT,PF-03084014,MK-0752,RO-4929097,LY450139,BMS-708163,LY3039478,IMR-1,二苯并氮卓,LY411575,FLI-06。
Notch途径在多种疾病中起作用,特别是在不同类型的肿瘤例如癌、肉瘤和血液系统恶性病、免疫介导的疾病、变性疾病、炎性疾病、传染病中。这些疾病可以根据其主要发生的胚胎谱系器官或组织例如脑、乳房、皮肤、食道、胃肠道、血液(血液学)、卵巢等进行分类。
在一个特定实施方案中,所述对象患有或怀疑患有乳腺癌、肺癌、结肠癌、胰腺癌、脑癌、血液癌症、卵巢癌。在一个特定实施方案中,所述对象患有或怀疑患有乳腺癌。
在另一特定实施方案中,所述对象患有或怀疑患有脑癌或更优选患有神经母细胞瘤癌。在另一特定实施方案中,所述对象患有或怀疑患有血液癌症,或更优选患有T细胞淋巴母细胞性白血病。
本申请描述了若干优选实施方案。在阅读和理解了前面详细描述之后,其它人可以想到修改和改变。本申请包括所有这样的修改和改变,只要其在所附权利要求或其等价物的范围内即可。
通过研究附图、公开内容和所附权利要求,本领域技术人员在实施所要求保护的发明时可以理解和实现所公开的实施方案的其它变型。
在权利要求中,词语“包含”不排除其它元件或步骤,并且不定冠词“一”或“一个”不排除复数。
单个单元或装置可以实现权利要求中记载的若干项的功能。在互相不同的从属权利要求中记载某些措施的事实并不表示不能有利地使用这些措施的组合。
类似于由一个或几个单元或装置执行的风险评分确定之类的计算可以由任何其它数量的单元或装置进行。
计算机程序可以存储/分配在与其它硬件一起提供或作为其它硬件的一部分的适当介质(例如光存储介质或固态介质)上,但也可以以其它形式分配,例如通过互联网或其它有线或无线通讯系统。
实施例5:申请中使用的序列表
序列表:
Figure BDA0002437165600000311
Figure BDA0002437165600000321
序列表
<110> 皇家飞利浦有限公司
<120> 使用靶基因表达的数学建模评估Notch细胞信号传导途径活性
<130> 2016PF01362
<160> 26
<170> PatentIn version 3.5
<210> 1
<211> 4900
<212> DNA
<213> Homo sapiens
<400> 1
taaagtcatc aaaacaacgt tatatcctgt gtgaaatgct gcagtcagga tgccttgtgg 60
tttgagtgcc ttgatcatgt gccctaaggg gatggtggcg gtggtggtgg ccgtggatga 120
cggagactct caggccttgg caggtgcgtc tttcagttcc cctcacactt cgggttcctc 180
ggggaggagg ggctggaacc ctagcccatc gtcaggacaa agatgctcag gctgctcttg 240
gctctcaact tattcccttc aattcaagta acaggaaaca agattttggt gaagcagtcg 300
cccatgcttg tagcgtacga caatgcggtc aaccttagct gcaagtattc ctacaatctc 360
ttctcaaggg agttccgggc atcccttcac aaaggactgg atagtgctgt ggaagtctgt 420
gttgtatatg ggaattactc ccagcagctt caggtttact caaaaacggg gttcaactgt 480
gatgggaaat tgggcaatga atcagtgaca ttctacctcc agaatttgta tgttaaccaa 540
acagatattt acttctgcaa aattgaagtt atgtatcctc ctccttacct agacaatgag 600
aagagcaatg gaaccattat ccatgtgaaa gggaaacacc tttgtccaag tcccctattt 660
cccggacctt ctaagccctt ttgggtgctg gtggtggttg gtggagtcct ggcttgctat 720
agcttgctag taacagtggc ctttattatt ttctgggtga ggagtaagag gagcaggctc 780
ctgcacagtg actacatgaa catgactccc cgccgccccg ggcccacccg caagcattac 840
cagccctatg ccccaccacg cgacttcgca gcctatcgct cctgacacgg acgcctatcc 900
agaagccagc cggctggcag cccccatctg ctcaatatca ctgctctgga taggaaatga 960
ccgccatctc cagccggcca cctcaggccc ctgttgggcc accaatgcca atttttctcg 1020
agtgactaga ccaaatatca agatcatttt gagactctga aatgaagtaa aagagatttc 1080
ctgtgacagg ccaagtctta cagtgccatg gcccacattc caacttacca tgtacttagt 1140
gacttgactg agaagttagg gtagaaaaca aaaagggagt ggattctggg agcctcttcc 1200
ctttctcact cacctgcaca tctcagtcaa gcaaagtgtg gtatccacag acattttagt 1260
tgcagaagaa aggctaggaa atcattcctt ttggttaaat gggtgtttaa tcttttggtt 1320
agtgggttaa acggggtaag ttagagtagg gggagggata ggaagacata tttaaaaacc 1380
attaaaacac tgtctcccac tcatgaaatg agccacgtag ttcctattta atgctgtttt 1440
cctttagttt agaaatacat agacattgtc ttttatgaat tctgatcata tttagtcatt 1500
ttgaccaaat gagggatttg gtcaaatgag ggattccctc aaagcaatat caggtaaacc 1560
aagttgcttt cctcactccc tgtcatgaga cttcagtgtt aatgttcaca atatactttc 1620
gaaagaataa aatagttctc ctacatgaag aaagaatatg tcaggaaata aggtcacttt 1680
atgtcaaaat tatttgagta ctatgggacc tggcgcagtg gctcatgctt gtaatcccag 1740
cactttggga ggccgaggtg ggcagatcac ttgagatcag gaccagcctg gtcaagatgg 1800
tgaaactccg tctgtactaa aaatacaaaa tttagcttgg cctggtggca ggcacctgta 1860
atcccagctg cccaagaggc tgaggcatga gaatcgcttg aacctggcag gcggaggttg 1920
cagtgagccg agatagtgcc acagctctcc agcctgggcg acagagtgag actccatctc 1980
aaacaacaac aacaacaaca acaacaacaa caaaccacaa aattatttga gtactgtgaa 2040
ggattatttg tctaacagtt cattccaatc agaccaggta ggagctttcc tgtttcatat 2100
gtttcagggt tgcacagttg gtctctttaa tgtcggtgtg gagatccaaa gtgggttgtg 2160
gaaagagcgt ccataggaga agtgagaata ctgtgaaaaa gggatgttag cattcattag 2220
agtatgagga tgagtcccaa gaaggttctt tggaaggagg acgaatagaa tggagtaatg 2280
aaattcttgc catgtgctga ggagatagcc agcattaggt gacaatcttc cagaagtggt 2340
caggcagaag gtgccctggt gagagctcct ttacagggac tttatgtggt ttagggctca 2400
gagctccaaa actctgggct cagctgctcc tgtaccttgg aggtccattc acatgggaaa 2460
gtattttgga atgtgtcttt tgaagagagc atcagagttc ttaagggact gggtaaggcc 2520
tgaccctgaa atgaccatgg atatttttct acctacagtt tgagtcaact agaatatgcc 2580
tggggacctt gaagaatggc ccttcagtgg ccctcaccat ttgttcatgc ttcagttaat 2640
tcaggtgttg aaggagctta ggttttagag gcacgtagac ttggttcaag tctcgttagt 2700
agttgaatag cctcaggcaa gtcactgccc acctaagatg atggttcttc aactataaaa 2760
tggagataat ggttacaaat gtctcttcct atagtataat ctccataagg gcatggccca 2820
agtctgtctt tgactctgcc tatccctgac atttagtagc atgcccgaca tacaatgtta 2880
gctattggta ttattgccat atagataaat tatgtataaa aattaaactg ggcaatagcc 2940
taagaagggg ggaatattgt aacacaaatt taaacccact acgcagggat gaggtgctat 3000
aatatgagga ccttttaact tccatcattt tcctgtttct tgaaatagtt tatcttgtaa 3060
tgaaatataa ggcacctccc acttttatgt atagaaagag gtcttttaat ttttttttaa 3120
tgtgagaagg aagggaggag taggaatctt gagattccag atcgaaaata ctgtactttg 3180
gttgattttt aagtgggctt ccattccatg gatttaatca gtcccaagaa gatcaaactc 3240
agcagtactt gggtgctgaa gaactgttgg atttaccctg gcacgtgtgc cacttgccag 3300
cttcttgggc acacagagtt cttcaatcca agttatcaga ttgtatttga aaatgacaga 3360
gctggagagt tttttgaaat ggcagtggca aataaataaa tacttttttt taaatggaaa 3420
gacttgatct atggtaataa atgattttgt tttctgactg gaaaaatagg cctactaaag 3480
atgaatcaca cttgagatgt ttcttactca ctctgcacag aaacaaagaa gaaatgttat 3540
acagggaagt ccgttttcac tattagtatg aaccaagaaa tggttcaaaa acagtggtag 3600
gagcaatgct ttcatagttt cagatatggt agttatgaag aaaacaatgt catttgctgc 3660
tattattgta agagtcttat aattaatggt actcctataa tttttgattg tgagctcacc 3720
tatttgggtt aagcatgcca atttaaagag accaagtgta tgtacattat gttctacata 3780
ttcagtgata aaattactaa actactatat gtctgcttta aatttgtact ttaatattgt 3840
cttttggtat taagaaagat atgctttcag aatagatatg cttcgctttg gcaaggaatt 3900
tggatagaac ttgctattta aaagaggtgt ggggtaaatc cttgtataaa tctccagttt 3960
agcctttttt gaaaaagcta gactttcaaa tactaatttc acttcaagca gggtacgttt 4020
ctggtttgtt tgcttgactt cagtcacaat ttcttatcag accaatggct gacctctttg 4080
agatgtcagg ctaggcttac ctatgtgttc tgtgtcatgt gaatgctgag aagtttgaca 4140
gagatccaac ttcagccttg accccatcag tccctcgggt taactaactg agccaccggt 4200
cctcatggct attttaatga gggtattgat ggttaaatgc atgtctgatc ccttatccca 4260
gccatttgca ctgccagctg ggaactatac cagacctgga tactgatccc aaagtgttaa 4320
attcaactac atgctggaga ttagagatgg tgccaataaa ggacccagaa ccaggatctt 4380
gattgctata gacttattaa taatccaggt caaagagagt gacacacact ctctcaagac 4440
ctggggtgag ggagtctgtg ttatctgcaa ggccatttga ggctcagaaa gtctctcttt 4500
cctatagata tatgcatact ttctgacata taggaatgta tcaggaatac tcaaccatca 4560
caggcatgtt cctacctcag ggcctttaca tgtcctgttt actctgtcta gaatgtcctt 4620
ctgtagatga cctggcttgc ctcgtcaccc ttcaggtcct tgctcaagtg tcatcttctc 4680
ccctagttaa actaccccac accctgtctg ctttccttgc ttatttttct ccatagcatt 4740
ttaccatctc ttacattaga catttttctt atttatttgt agtttataag cttcatgagg 4800
caagtaactt tgctttgttt cttgctgtat ctccagtgcc cagagcagtg cctggtatat 4860
aataaatatt tattgactga gtgaaaaaaa aaaaaaaaaa 4900
<210> 2
<211> 5748
<212> DNA
<213> Homo sapiens
<400> 2
gagaagaaag ccagtgcgtc tctgggcgca ggggccagtg gggctcggag gcacaggcac 60
cccgcgacac tccaggttcc ccgacccacg tccctggcag ccccgattat ttacagcctc 120
agcagagcac ggggcggggg cagaggggcc cgcccgggag ggctgctact tcttaaaacc 180
tctgcgggct gcttagtcac agcccccctt gcttgggtgt gtccttcgct cgctccctcc 240
ctccgtctta ggtcactgtt ttcaacctcg aataaaaact gcagccaact tccgaggcag 300
cctcattgcc cagcggaccc cagcctctgc caggttcggt ccgccatcct cgtcccgtcc 360
tccgccggcc cctgccccgc gcccagggat cctccagctc ctttcgcccg cgccctccgt 420
tcgctccgga caccatggac aagttttggt ggcacgcagc ctggggactc tgcctcgtgc 480
cgctgagcct ggcgcagatc gatttgaata taacctgccg ctttgcaggt gtattccacg 540
tggagaaaaa tggtcgctac agcatctctc ggacggaggc cgctgacctc tgcaaggctt 600
tcaatagcac cttgcccaca atggcccaga tggagaaagc tctgagcatc ggatttgaga 660
cctgcaggta tgggttcata gaagggcacg tggtgattcc ccggatccac cccaactcca 720
tctgtgcagc aaacaacaca ggggtgtaca tcctcacatc caacacctcc cagtatgaca 780
catattgctt caatgcttca gctccacctg aagaagattg tacatcagtc acagacctgc 840
ccaatgcctt tgatggacca attaccataa ctattgttaa ccgtgatggc acccgctatg 900
tccagaaagg agaatacaga acgaatcctg aagacatcta ccccagcaac cctactgatg 960
atgacgtgag cagcggctcc tccagtgaaa ggagcagcac ttcaggaggt tacatctttt 1020
acaccttttc tactgtacac cccatcccag acgaagacag tccctggatc accgacagca 1080
cagacagaat ccctgctacc actttgatga gcactagtgc tacagcaact gagacagcaa 1140
ccaagaggca agaaacctgg gattggtttt catggttgtt tctaccatca gagtcaaaga 1200
atcatcttca cacaacaaca caaatggctg gtacgtcttc aaataccatc tcagcaggct 1260
gggagccaaa tgaagaaaat gaagatgaaa gagacagaca cctcagtttt tctggatcag 1320
gcattgatga tgatgaagat tttatctcca gcaccatttc aaccacacca cgggcttttg 1380
accacacaaa acagaaccag gactggaccc agtggaaccc aagccattca aatccggaag 1440
tgctacttca gacaaccaca aggatgactg atgtagacag aaatggcacc actgcttatg 1500
aaggaaactg gaacccagaa gcacaccctc ccctcattca ccatgagcat catgaggaag 1560
aagagacccc acattctaca agcacaatcc aggcaactcc tagtagtaca acggaagaaa 1620
cagctaccca gaaggaacag tggtttggca acagatggca tgagggatat cgccaaacac 1680
ccaaagaaga ctcccattcg acaacaggga cagctgcagc ctcagctcat accagccatc 1740
caatgcaagg aaggacaaca ccaagcccag aggacagttc ctggactgat ttcttcaacc 1800
caatctcaca ccccatggga cgaggtcatc aagcaggaag aaggatggat atggactcca 1860
gtcatagtat aacgcttcag cctactgcaa atccaaacac aggtttggtg gaagatttgg 1920
acaggacagg acctctttca atgacaacgc agcagagtaa ttctcagagc ttctctacat 1980
cacatgaagg cttggaagaa gataaagacc atccaacaac ttctactctg acatcaagca 2040
ataggaatga tgtcacaggt ggaagaagag acccaaatca ttctgaaggc tcaactactt 2100
tactggaagg ttatacctct cattacccac acacgaagga aagcaggacc ttcatcccag 2160
tgacctcagc taagactggg tcctttggag ttactgcagt tactgttgga gattccaact 2220
ctaatgtcaa tcgttcctta tcaggagacc aagacacatt ccaccccagt ggggggtccc 2280
ataccactca tggatctgaa tcagatggac actcacatgg gagtcaagaa ggtggagcaa 2340
acacaacctc tggtcctata aggacacccc aaattccaga atggctgatc atcttggcat 2400
ccctcttggc cttggctttg attcttgcag tttgcattgc agtcaacagt cgaagaaggt 2460
gtgggcagaa gaaaaagcta gtgatcaaca gtggcaatgg agctgtggag gacagaaagc 2520
caagtggact caacggagag gccagcaagt ctcaggaaat ggtgcatttg gtgaacaagg 2580
agtcgtcaga aactccagac cagtttatga cagctgatga gacaaggaac ctgcagaatg 2640
tggacatgaa gattggggtg taacacctac accattatct tggaaagaaa caaccgttgg 2700
aaacataacc attacaggga gctgggacac ttaacagatg caatgtgcta ctgattgttt 2760
cattgcgaat cttttttagc ataaaatttt ctactctttt tgttttttgt gttttgttct 2820
ttaaagtcag gtccaatttg taaaaacagc attgctttct gaaattaggg cccaattaat 2880
aatcagcaag aatttgatcg ttccagttcc cacttggagg cctttcatcc ctcgggtgtg 2940
ctatggatgg cttctaacaa aaactacaca tatgtattcc tgatcgccaa cctttccccc 3000
accagctaag gacatttccc agggttaata gggcctggtc cctgggagga aatttgaatg 3060
ggtccatttt gcccttccat agcctaatcc ctgggcattg ctttccactg aggttggggg 3120
ttggggtgta ctagttacac atcttcaaca gaccccctct agaaattttt cagatgcttc 3180
tgggagacac ccaaagggtg aagctattta tctgtagtaa actatttatc tgtgtttttg 3240
aaatattaaa ccctggatca gtcctttgat cagtataatt ttttaaagtt actttgtcag 3300
aggcacaaaa gggtttaaac tgattcataa taaatatctg tacttcttcg atcttcacct 3360
tttgtgctgt gattcttcag tttctaaacc agcactgtct gggtccctac aatgtatcag 3420
gaagagctga gaatggtaag gagactcttc taagtcttca tctcagagac cctgagttcc 3480
cactcagacc cactcagcca aatctcatgg aagaccaagg agggcagcac tgtttttgtt 3540
ttttgttttt tgtttttttt ttttgacact gtccaaaggt tttccatcct gtcctggaat 3600
cagagttgga agctgaggag cttcagcctc ttttatggtt taatggccac ctgttctctc 3660
ctgtgaaagg ctttgcaaag tcacattaag tttgcatgac ctgttatccc tggggcccta 3720
tttcatagag gctggcccta ttagtgattt ccaaaaacaa tatggaagtg ccttttgatg 3780
tcttacaata agagaagaag ccaatggaaa tgaaagagat tggcaaaggg gaaggatgat 3840
gccatgtaga tcctgtttga catttttatg gctgtatttg taaacttaaa cacaccagtg 3900
tctgttcttg atgcagttgc tatttaggat gagttaagtg cctggggagt ccctcaaaag 3960
gttaaaggga ttcccatcat tggaatctta tcaccagata ggcaagttta tgaccaaaca 4020
agagagtact ggctttatcc tctaacctca tattttctcc cacttggcaa gtcctttgtg 4080
gcatttattc atcagtcagg gtgtccgatt ggtcctagaa cttccaaagg ctgcttgtca 4140
tagaagccat tgcatctata aagcaacggc tcctgttaaa tggtatctcc tttctgaggc 4200
tcctactaaa agtcatttgt tacctaaact tatgtgctta acaggcaatg cttctcagac 4260
cacaaagcag aaagaagaag aaaagctcct gactaaatca gggctgggct tagacagagt 4320
tgatctgtag aatatcttta aaggagagat gtcaactttc tgcactattc ccagcctctg 4380
ctcctccctg tctaccctct cccctccctc tctccctcca cttcacccca caatcttgaa 4440
aaacttcctt tctcttctgt gaacatcatt ggccagatcc attttcagtg gtctggattt 4500
ctttttattt tcttttcaac ttgaaagaaa ctggacatta ggccactatg tgttgttact 4560
gccactagtg ttcaagtgcc tcttgttttc ccagagattt cctgggtctg ccagaggccc 4620
agacaggctc actcaagctc tttaactgaa aagcaacaag ccactccagg acaaggttca 4680
aaatggttac aacagcctct acctgtcgcc ccagggagaa aggggtagtg atacaagtct 4740
catagccaga gatggttttc cactccttct agatattccc aaaaagaggc tgagacagga 4800
ggttattttc aattttattt tggaattaaa tacttttttc cctttattac tgttgtagtc 4860
cctcacttgg atatacctct gttttcacga tagaaataag ggaggtctag agcttctatt 4920
ccttggccat tgtcaacgga gagctggcca agtcttcaca aacccttgca acattgcctg 4980
aagtttatgg aataagatgt attctcactc ccttgatctc aagggcgtaa ctctggaagc 5040
acagcttgac tacacgtcat ttttaccaat gattttcagg tgacctgggc taagtcattt 5100
aaactgggtc tttataaaag taaaaggcca acatttaatt attttgcaaa gcaacctaag 5160
agctaaagat gtaatttttc ttgcaattgt aaatcttttg tgtctcctga agacttccct 5220
taaaattagc tctgagtgaa aaatcaaaag agacaaaaga catcttcgaa tccatatttc 5280
aagcctggta gaattggctt ttctagcaga acctttccaa aagttttata ttgagattca 5340
taacaacacc aagaattgat tttgtagcca acattcattc aatactgtta tatcagagga 5400
gtaggagaga ggaaacattt gacttatctg gaaaagcaaa atgtacttaa gaataagaat 5460
aacatggtcc attcaccttt atgttataga tatgtctttg tgtaaatcat ttgttttgag 5520
ttttcaaaga atagcccatt gttcattctt gtgctgtaca atgaccactg ttattgttac 5580
tttgactttt cagagcacac ccttcctctg gtttttgtat atttattgat ggatcaataa 5640
taatgaggaa agcatgatat gtatattgct gagttgaaag cacttattgg aaaatattaa 5700
aaggctaaca ttaaaagact aaaggaaaca gaaaaaaaaa aaaaaaaa 5748
<210> 3
<211> 2993
<212> DNA
<213> Homo sapiens
<400> 3
agcaaaccaa tcgcaagcct cgttgagtgg aaggggtggg atcttccccg gaagtgttgg 60
ttaaagcccc tccaatcagc ggctcggtgc ggcaagtttg aatttcgtgg aggctcgggt 120
tgtgagggtt cctgcttcgg agtcggcggt ggtcgtccag accgagtgtt ctttactttt 180
tgtttggttg aggtttcacg ctagaaggtg gctcaggatg tcttcatcac attttgccag 240
tcgacacagg aaggatataa gtactgaaat gattagaact aaaattgctc ataggaaatc 300
actgtctcag aaagaaaata gacataagga atacgaacga aatagacact ttggtttgaa 360
agatgtaaac attccaacct tggaaggtag aattcttgtt gaattagatg agacatctca 420
agggcttgtt ccagaaaaga ccaatgttaa gccaagggca atgaaaacta ttctaggtga 480
tcaacgaaaa cagatgctcc aaaaatacaa agaagaaaag caacttcaaa aattgaaaga 540
gcagagagag aaagctaaac gaggaatatt taaagtgggt cgttatagac ctgatatgcc 600
ttgttttctt ttatcaaacc agaatgctgt gaaagctgag ccaaaaaagg ctattccatc 660
ttctgtacgg attacaaggt caaaggccaa agaccaaatg gagcagacta agattgataa 720
cgagagtgat gttcgagcaa tccgacctgg tccaagacaa acttctgaaa agaaagtgtc 780
agacaaagag aaaaaagttg tgcagcctgt aatgcccacg tcgttgagaa tgactcgatc 840
agctactcaa gcagcaaagc aggttcccag aacagtctca tctaccacag caagaaagcc 900
agtcacaaga gctgctaatg aaaacgaacc agaaggaaag gtgccaagta aaggaagacc 960
tgccaaaaat gtagaaacaa aacccgacaa gggtatttct tgtaaagtcg atagtgaaga 1020
aaatactttg aattcacaaa ctaatgcaac aagtggaatg aatccagatg gagtcttatc 1080
aaaaatggaa aacttacctg agataaatac tgcaaaaata aaagggaaga attcctttgc 1140
acctaaggat tttatgtttc agccactgga tggtctgaag acctatcaag taacacctat 1200
gactcccaga agtgccaatg cttttttgac acccagttac acctggactc ctttaaaaac 1260
agaagttgat gagtctcaag caacaaaaga aattttggca caaaaatgta aaacttactc 1320
taccaagaca atacagcaag attcaaataa attgccatgt cctttgggtc ctctaactgt 1380
ttggcatgaa gaacatgttt taaataaaaa tgaagctact actaaaaatt taaatggcct 1440
tccaataaaa gaagtcccat cacttgaaag aaatgaaggt cgaattgctc agccccacca 1500
tggtgtgcca tatttcagaa atatcctcca gtcagaaact gagaaattaa cttcacattg 1560
cttcgagtgg gacaggaaac ttgaattgga cattccagat gatgctaaag atcttattcg 1620
cacagcagtt ggtcaaacaa gactccttat gaaggaaagg tttaaacagt ttgaaggact 1680
ggttgatgat tgtgaatata aacgaggtat aaaggagact acctgtacag atctggatgg 1740
attttgggat atggttagtt ttcagataga agatgtaatc cacaaattca acaatctgat 1800
caaacttgag gaatctgggt ggcaagtcaa taataatatg aatcataata tgaacaaaaa 1860
tgtctttagg aaaaaagttg tctcaggtat agcaagtaaa ccaaaacagg atgatgctgg 1920
aagaattgca gcgagaaatc gcctagctgc cataaaaaat gcaatgagag agagaattag 1980
gcaggaagaa tgtgctgaaa cagcagtttc tgtgatacca aaggaagttg ataaaatagt 2040
gttcgatgct ggatttttca gagttgaaag tcctgttaaa ttattctcag gactttctgt 2100
ctcttctgaa ggcccttctc aaagacttgg aacacctaag tctgtcaaca aagctgtatc 2160
tcagagtaga aatgagatgg gcattccaca acaaactaca tcaccagaaa atgccggtcc 2220
tcagaatacg aaaagtgaac atgtgaagaa gactttgttt ttgagtattc ctgaaagcag 2280
gagcagcata gaagatgctc agtgtcctgg attaccagat ttaattgaag aaaatcatgt 2340
tgtaaataag acagacttga aggtggattg tttatccagt gagagaatga gtttgcctct 2400
tcttgctggt ggagtagcag atgatattaa tactaacaaa aaagaaggaa tttcagatgt 2460
tgtggaagga atggaactga attcttcaat tacatcacag gatgttttga tgagtagccc 2520
tgaaaaaaat acagcttcac aaaatagcat cttagaagaa ggggaaacta aaatttctca 2580
gtcagaacta tttgataata aaagtctcac tactgaatgc caccttcttg attcaccagg 2640
tctaaactgc agtaatccat ttactcagct ggagaggaga catcaagaac atgccagaca 2700
catttctttt ggtggtaacc tgattacttt ttcacctcta caaccaggag aattttgaat 2760
ttaaaaataa atccaaacat tttccttcat attatcaatg cttatatatt ccttagacta 2820
ttgaaatttt ggagaaaatg tatttgtgtt cacttctata gcatataatg ttttaatatt 2880
ctgtgttcat caaagtgtat tttagatata ctctttctca agggaagtgg ggatattttg 2940
tacattttca acacagaata aaaaatgtac tgtgccttgc ctctcttgtt taa 2993
<210> 4
<211> 3317
<212> DNA
<213> Homo sapiens
<400> 4
cgaacagggg cggctgcctc actccctacc tgagccagcc gagggggcca aggactttag 60
agctgtttcc tccggcataa gagagacact tgctttccag ggcagcaccc tttatcggag 120
aaggctctac agggaagggg tctttgcagc ctggatggcc atcccacatt cctttaacgg 180
aggtctctag gcctcagaga gaacccagag ttagaaagga ggccagacgg tccttgctgt 240
ccccctgggg agagaggaag ttgccgcctg ctgccaggcc caggaggagc tgggcctgca 300
atagtggggg acctggcccc tgaggcagtg gcggccatgt cacggccagg ccacggtggg 360
ctgatgcctg tgaatggtct gggcttccca ccgcagaacg tggcccgggt ggtggtgtgg 420
gagtggctga atgagcacag ccgctggcgg ccctacacgg ccaccgtgtg ccaccacatt 480
gagaacgtgc tgaaggagga cgctcgcggt tccgtggtcc tggggcaggt ggacgcccag 540
cttgtgccct acatcatcga cctgcagtcc atgcaccagt ttcgccagga cacaggcacc 600
atgcggcccg tgcggcgcaa cttctacgac ccgtcgtcgg cgccgggcaa gggcatcgtg 660
tgggagtggg agaacgacgg cggcgcatgg acggcctacg atatggacat ctgcatcacc 720
atccagaacg cctacgagaa gcagcacccg tggctcgacc tctcatcgct aggcttctgc 780
tacctcatct acttcaacag catgtcgcag atgaaccgcc agacgcgccg gcgccgccgc 840
ctgcgccgcc gcctggacct cgcctacccg ctcaccgtgg gctccatccc taagtcgcag 900
tcgtggcccg tgggcgccag ctcgggccag ccctgctcct gccagcagtg cctgctggtc 960
aacagcacgc gcgccgcctc caacgccatc ctggcctcgc agcgccgcaa ggcgcccccc 1020
gcgcccccgc tgccgccgcc gccgccacct ggagggcctc caggcgcgct tgccgtgcgc 1080
cccagcgcca ccttcacagg cgccgcgctc tgggcagcgc ccgccgccgg ccccgccgag 1140
cccgcgccgc ctcccggggc gcccccacgg agcccgggcg cccccggcgg agcgcgcacc 1200
ccggggcaga acaacctcaa ccggcccggg ccccagcgca ccaccagcgt gagcgcgcgc 1260
gcctccatcc cgccgggggt ccccgcactc ccggtgaaga acttgaatgg tactgggccg 1320
gtccatccgg ccctggcagg gatgaccggg atactgctgt gcgcggccgg gctgcccgtg 1380
tgcctgacgc gggcccccaa gcccatcctg cacccgccgc ccgtgagcaa gagcgacgtg 1440
aagcccgtgc ctggcgtgcc cggggtgtgc cgcaagacca agaagaagca ccttaaaaag 1500
agtaagaatc ccgaggatgt ggttcgaaga tacatgcaga aggtgaaaaa cccacctgat 1560
gaggactgca ccatctgcat ggagcgactg gtcacagcat caggctacga gggcgtgctt 1620
cggcacaagg gcgtgcggcc tgagctcgtg ggccgcctgg gccgctgtgg ccacatgtac 1680
cacctgctgt gcctcgtggc catgtactcc aatggcaaca aggatggcag cctgcagtgc 1740
cccacctgca aggccatcta cggggagaag acgggtacgc agccgcctgg gaagatggag 1800
ttccacctca tcccccactc gctgcccggc ttccctgata cccagaccat ccgcatcgtc 1860
tatgacatcc ccacaggcat ccagggccct gagcacccca accccgggaa gaagttcacc 1920
gcaagaggat tccctcgcca ctgctatcta cccaacaacg agaaaggccg gaaggtgctg 1980
cggctgctca tcacggcctg ggagagaaga ctcatcttca ctatcggcac gtccaacacc 2040
acgggcgagt cggacaccgt ggtgtggaac gagatccacc acaagaccga gtttggatcc 2100
aacctcacgg gccacggcta cccggacgct agctacctag acaacgtgct ggctgagctc 2160
acagcccagg gcgtatccga ggctgcagcc aaggcttgag gcccaaggct gcccaccttc 2220
cctcctgctt tgcccctggt ccggcaaatg cctccttcgc caggtgtgtc ctggtagccc 2280
aggttcaggg ctggggagga gcctgcggaa ggggccgcag ccattcaggg gacctgcctg 2340
gtggcagctg ggatgaagag agatggcatg tcaggctggc cccgaatcat agctccctga 2400
gagggccaag cagagagtac tggaaacctc cctaccaaaa agacagagac ccgccccctc 2460
acacacaaac acacatgtcc tgttgaactc atgcacgcac acccacgtgc ctgtacttgc 2520
ccccaggctg gaagagaaga gacagaaaga ccccatgacc cccccatgtg gatccccatc 2580
tgtgtctcag ttgcatctgt acagccttgt ctgcaaactg gaggatgcgg ggcaagccct 2640
taggggcctg ccagggctcg gggggcaaag agggactcgg gaaactcagt gtaccccaga 2700
tgcctcaccc attccgtgtc atcacccatg tctgccaccc actgattggg caattgtggg 2760
cccatggggt ggaagccccc agatgactga gcagttctac aaaagaatgg ccagcacgag 2820
cggggactag agggtcctga ttttgtgtct gtgcctcttc atctctctgg actctgatct 2880
ccttctccct tcccatctcc aggccttctg tctgtcccag ataaaggcgc tgttctccca 2940
tcctccctac cccatcctct ccaccaaatc gctcccaatt ttgagagcca aaggctggcg 3000
cttctgactt caggagcgaa aggaggaggc ctagtttggg ccgatgtatt ttaaagcaga 3060
gtggacagca gagagtcaat ttccctttcg ttgggagtgg gcagtggggt ggctaattgt 3120
cttcggccaa ccaggggcct gttgcccagg caactcacca gctccgcctc tgctgattgg 3180
ctgccacggt gggagtcagc caagatttaa agggatgcca gcgattgctc ttttcaaaac 3240
ctaccagtcc cactgtgggt ggagaaataa atggtctttc tcctcctcaa aaaaaaaaaa 3300
aaaaaaaaaa aaaaaaa 3317
<210> 5
<211> 4234
<212> DNA
<213> Homo sapiens
<400> 5
cgtgagcggc gcagcaagat cccagctcgg accccggacg gcgcgcgccc ccgaagcccc 60
ggatcccagt cgggcccgca gctgaccgcc agattactgt gcatcccgaa tcacgaccac 120
ctgcaccctc ctgccccggc ccgcccccca agtcctcagg cacccagctc cccggcgccc 180
cggatcctcc tggaccggtc cgtccagatt cccgcgggac cgacctgtcc gcatccccag 240
gaccgccggg ctcggtgcac cgcctcggtc ccggagccgc ccgcctggat tgcattccct 300
cctctcctgg atctcctggg acccgacgcg agcctgcccc ggagcccgcc gagcgcaccc 360
tctctcgggt gcctgcagcc ccgccggcgc ggcccggccc ggcgcggccc ggctcggctc 420
ctagagctgc cacggccatg gccagagccc gcccgccgcc gccgccgtcg ccgccgccgg 480
ggcttctgcc gctgctccct ccgctgctgc tgctgccgct gctgctgctg cccgccggct 540
gccgggcgct ggaagagacc ctcatggaca caaaatgggt aacatctgag ttggcgtgga 600
catctcatcc agaaagtggg tgggaagagg tgagtggcta cgatgaggcc atgaatccca 660
tccgcacata ccaggtgtgt aatgtgcgcg agtcaagcca gaacaactgg cttcgcacgg 720
ggttcatctg gcggcgggat gtgcagcggg tctacgtgga gctcaagttc actgtgcgtg 780
actgcaacag catccccaac atccccggct cctgcaagga gaccttcaac ctcttctact 840
acgaggctga cagcgatgtg gcctcagcct cctccccctt ctggatggag aacccctacg 900
tgaaagtgga caccattgca cccgatgaga gcttctcgcg gctggatgcc ggccgtgtca 960
acaccaaggt gcgcagcttt gggccacttt ccaaggctgg cttctacctg gccttccagg 1020
accagggcgc ctgcatgtcg ctcatctccg tgcgcgcctt ctacaagaag tgtgcatcca 1080
ccaccgcagg cttcgcactc ttccccgaga ccctcactgg ggcggagccc acctcgctgg 1140
tcattgctcc tggcacctgc atccctaacg ccgtggaggt gtcggtgcca ctcaagctct 1200
actgcaacgg cgatggggag tggatggtgc ctgtgggtgc ctgcacctgt gccaccggcc 1260
atgagccagc tgccaaggag tcccagtgcc gcccctgtcc ccctgggagc tacaaggcga 1320
agcagggaga ggggccctgc ctcccatgtc cccccaacag ccgtaccacc tccccagccg 1380
ccagcatctg cacctgccac aataacttct accgtgcaga ctcggactct gcggacagtg 1440
cctgtaccac cgtgccatct ccaccccgag gtgtgatctc caatgtgaat gaaacctcac 1500
tgatcctcga gtggagtgag ccccgggacc tgggtggccg ggatgacctc ctgtacaatg 1560
tcatctgcaa gaagtgccat ggggctggag gggcctcagc ctgctcacgc tgtgatgaca 1620
acgtggagtt tgtgcctcgg cagctgggcc tgacggagcg ccgggtccac atcagccatc 1680
tgctggccca cacgcgctac acctttgagg tgcaggcggt caacggtgtc tcgggcaaga 1740
gccctctgcc gcctcgttat gcggccgtga atatcaccac aaaccaggct gccccgtctg 1800
aagtgcccac actacgcctg cacagcagct caggcagcag cctcacccta tcctgggcac 1860
ccccagagcg gcccaacgga gtcatcctgg actacgagat gaagtacttt gagaagagcg 1920
agggcatcgc ctccacagtg accagccaga tgaactccgt gcagctggac gggcttcggc 1980
ctgacgcccg ctatgtggtc caggtccgtg cccgcacagt agctggctat gggcagtaca 2040
gccgccctgc cgagtttgag accacaagtg agagaggctc tggggcccag cagctccagg 2100
agcagcttcc cctcatcgtg ggctccgcta cagctgggct tgtcttcgtg gtggctgtcg 2160
tggtcatcgc tatcgtctgc ctcaggaagc agcgacacgg ctctgattcg gagtacacgg 2220
agaagctgca gcagtacatt gctcctggaa tgaaggttta tattgaccct tttacctacg 2280
aggaccctaa tgaggctgtt cgggagtttg ccaaggagat cgacgtgtcc tgcgtcaaga 2340
tcgaggaggt gatcggagct ggggaatttg gggaagtgtg ccgtggtcga ctgaaacagc 2400
ctggccgccg agaggtgttt gtggccatca agacgctgaa ggtgggctac accgagaggc 2460
agcggcggga cttcctaagc gaggcctcca tcatgggtca gtttgatcac cccaatataa 2520
tccggctcga gggcgtggtc accaaaagtc ggccagttat gatcctcact gagttcatgg 2580
aaaactgcgc cctggactcc ttcctccggc tcaacgatgg gcagttcacg gtcatccagc 2640
tggtgggcat gttgcggggc attgctgccg gcatgaagta cctgtccgag atgaactatg 2700
tgcaccgcga cctggctgct cgcaacatcc ttgtcaacag caacctggtc tgcaaagtct 2760
cagactttgg cctctcccgc ttcctggagg atgacccctc cgatcctacc tacaccagtt 2820
ccctgggcgg gaagatcccc atccgctgga ctgccccaga ggccatagcc tatcggaagt 2880
tcacttctgc tagtgatgtc tggagctacg gaattgtcat gtgggaggtc atgagctatg 2940
gagagcgacc ctactgggac atgagcaacc aggatgtcat caatgccgtg gagcaggatt 3000
accggctgcc accacccatg gactgtccca cagcactgca ccagctcatg ctggactgct 3060
gggtgcggga ccggaacctc aggcccaaat tctcccagat tgtcaatacc ctggacaagc 3120
tcatccgcaa tgctgccagc ctcaaggtca ttgccagcgc tcagtctggc atgtcacagc 3180
ccctcctgga ccgcacggtc ccagattaca caaccttcac gacagttggt gattggctgg 3240
atgccatcaa gatggggcgg tacaaggaga gcttcgtcag tgcggggttt gcatcttttg 3300
acctggtggc ccagatgacg gcagaagacc tgctccgtat tggggtcacc ctggccggcc 3360
accagaagaa gatcctgagc agtatccagg acatgcggct gcagatgaac cagacgctgc 3420
ctgtgcaggt ctgacaccgg ctcccacggg gaccctgagg accgtgcagg gatgccaagc 3480
agccggctgg actttcggac tcttggactt ttggatgcct ggccttaggc tgtggcccag 3540
aagctggaag tttgggaaag gcccaagctg ggacttctcc aggcctgtgt tccctcccca 3600
ggaagtgcgc cccaaacctc ttcatattga agatggatta ggagaggggg tgatgacccc 3660
tccccaagcc cctcagggcc cagaccttcc tgctctccag caggggatcc ccacaacctc 3720
acacttgtct gttcttcagt gctggaggtc ctggcagggt caggctgggg taagccgggg 3780
ttccacaggg cccagccctg gcaggggtct ggccccccag gtaggcggag agcagtccct 3840
ccctcaggaa ctggaggagg ggactccagg aatggggaaa tgtgacacca ccatcctgaa 3900
gccagcttgc acctccagtt tgcacaggga tttgttctgg gggctgaggg ccctgtcccc 3960
acccccgccc ttggtgctgt cataaaaggg caggcagggg caggctgagg agttgccctt 4020
tgccccccag agactgactc tcagagccag agatgggatg tgtgagtgtg tgtgtgtgtg 4080
tgtgtgtgtg cgcgcgcgcg cgcgtgtgtg tgtgcacgca ctggcctgca cagagagcat 4140
gggtgagcgt gtaaaagctt ggccctgtgc cctacaatgg ggccagctgg gccgacagca 4200
gaataaaggc aataagatga aaaaaaaaaa aaaa 4234
<210> 6
<211> 1047
<212> DNA
<213> Homo sapiens
<400> 6
tttctcaggc ataagggctg tagtgtgagg attgggagga actcgaccta ctccgctaac 60
ccagtggcct gagccaatca caaagaggat tggagcctca ctcgagcgct ccttcccttc 120
tcctctctct gtgacagcct cttggaaaga gggacactgg aggggtgtgt ttgcaattta 180
aatcactgga tttttgccca ccctctttcc aaataagaag gcaggagctg cttgctgagg 240
tgtaaagggt cttctgagct gcagtggcaa ttagaccaga agatccccgc tcctgtctct 300
aaagagggga aagggcaagg atggtggagg ctttctgtgc tacctggaag ctgaccaaca 360
gtcagaactt tgatgagtac atgaaggctc taggcgtggg ctttgccact aggcaggtgg 420
gaaatgtgac caaaccaacg gtaattatca gtcaagaagg agacaaagtg gtcatcagga 480
ctctcagcac attcaagaac acggagatta gtttccagct gggagaagag tttgatgaaa 540
ccactgcaga tgatagaaac tgtaagtctg ttgttagcct ggatggagac aaacttgttc 600
acatacagaa atgggatggc aaagaaacaa attttgtaag agaaattaag gatggcaaaa 660
tggttatgac ccttactttt ggtgatgtgg ttgctgttcg ccactatgag aaggcataaa 720
aatgttcctg gtcggggctt ggaagagctc ttcagttttt ctgtttcctc aagtctcagt 780
gctatcctat tacaacatgg ctgatcatta attagaaggt tatccttggt gtggaggtgg 840
aaaatggtga tttaaaaact tgttactcca agcaacttgc ccaattttaa tctgaaaatt 900
tatcatgttt tataatttga attaaagttt tgtccccccc cccctttttt ttataaacaa 960
gtgaatacat tttataattt cttttggaat gtaaatcaaa tttgaataaa aatcttacac 1020
gtgaaattta aaaaaaaaaa aaaaaaa 1047
<210> 7
<211> 3097
<212> DNA
<213> Homo sapiens
<400> 7
atcgccagtc tagcccactc cttcataaag ccctcgcatc ccaggagcga gcagagccag 60
agcaggatgg agaggagacg catcacctcc gctgctcgcc gctcctacgt ctcctcaggg 120
gagatgatgg tggggggcct ggctcctggc cgccgtctgg gtcctggcac ccgcctctcc 180
ctggctcgaa tgccccctcc actcccgacc cgggtggatt tctccctggc tggggcactc 240
aatgctggct tcaaggagac ccgggccagt gagcgggcag agatgatgga gctcaatgac 300
cgctttgcca gctacatcga gaaggttcgc ttcctggaac agcaaaacaa ggcgctggct 360
gctgagctga accagctgcg ggccaaggag cccaccaagc tggcagacgt ctaccaggct 420
gagctgcgag agctgcggct gcggctcgat caactcaccg ccaacagcgc ccggctggag 480
gttgagaggg acaatctggc acaggacctg gccactgtga ggcagaagct ccaggatgaa 540
accaacctga ggctggaagc cgagaacaac ctggctgcct atagacagga agcagatgaa 600
gccaccctgg cccgtctgga tctggagagg aagattgagt cgctggagga ggagatccgg 660
ttcttgagga agatccacga ggaggaggtt cgggaactcc aggagcagct ggcccgacag 720
caggtccatg tggagcttga cgtggccaag ccagacctca ccgcagccct gaaagagatc 780
cgcacgcagt atgaggcaat ggcgtccagc aacatgcatg aagccgaaga gtggtaccgc 840
tccaagtttg cagacctgac agacgctgct gcccgcaacg cggagctgct ccgccaggcc 900
aagcacgaag ccaacgacta ccggcgccag ttgcagtcct tgacctgcga cctggagtct 960
ctgcgcggca cgaacgagtc cctggagagg cagatgcgcg agcaggagga gcggcacgtg 1020
cgggaggcgg ccagttatca ggaggcgctg gcgcggctgg aggaagaggg gcagagcctc 1080
aaggacgaga tggcccgcca cttgcaggag taccaggacc tgctcaatgt caagctggcc 1140
ctggacatcg agatcgccac ctacaggaag ctgctagagg gcgaggagaa ccggatcacc 1200
attcccgtgc agaccttctc caacctgcag attcgagaaa ccagcctgga caccaagtct 1260
gtgtcagaag gccacctcaa gaggaacatc gtggtgaaga ccgtggagat gcgggatgga 1320
gaggtcatta aggagtccaa gcaggagcac aaggatgtga tgtgaggcag gacccacctg 1380
gtggcctctg ccccgtctca tgaggggccc gagcagaagc aggatagttg ctccgcctct 1440
gctggcacat ttccccagac ctgagctccc caccacccca gctgctcccc tccctcctct 1500
gtccctaggt cagcttgctg ccctaggctc cgtcagtatc aggcctgcca gacggcaccc 1560
acccagcacc cagcaactcc aactaacaag aaactcaccc ccaaggggca gtctggaggg 1620
gcatggccag cagcttgcgt tagaatgagg aggaaggaga gaaggggagg agggcggggg 1680
gcacctacta catcgccctc cacatccctg attcctgttg ttatggaaac tgttgccaga 1740
gatggaggtt ctctcggagt atctgggaac tgtgcctttg agtttcctca ggctgctgga 1800
ggaaaactga gactcagaca ggaaagggaa ggccccacag acaaggtagc cctggccaga 1860
ggcttgtttt gtcttttggt ttttatgagg tgggatatcc ctatgctgcc taggctgacc 1920
ttgaactcct gggctcaagc agtctaccca cctcagcctc ctgtgtagct gggattatag 1980
attggagcca ccatgcccag ctcagagggt tgttctccta gactgaccct gatcagtcta 2040
agatgggtgg ggacgtcctg ccacctgggg cagtcacctg cccagatccc agaaggacct 2100
cctgagcgat gactcaagtg tctcagtcca cctgagctgc catccaggga tgccatctgt 2160
gggcacgctg tgggcaggtg ggagcttgat tctcagcact tgggggatct gttgtgtacg 2220
tggagaggga tgaggtgctg ggagggatag aggggggctg cctggccccc agctgtgggt 2280
acagagaggt caagcccagg aggactgccc cgtgcagact ggaggggacg ctggtagaga 2340
tggaggagga ggcaattggg atggcgctag gcatacaagt aggggttgtg ggtgaccagt 2400
tgcacttggc ctctggattg tgggaattaa ggaagtgact catcctcttg aagatgctga 2460
aacaggagag aaaggggatg tatccatggg ggcagggcat gactttgtcc catttctaaa 2520
ggcctcttcc ttgctgtgtc ataccaggcc gccccagcct ctgagcccct gggactgctg 2580
cttcttaacc ccagtaagcc actgccacac gtctgaccct ctccacccca tagtgaccgg 2640
ctgcttttcc ctaagccaag ggcctcttgc ggtcccttct tactcacaca caaaatgtac 2700
ccagtattct aggtagtgcc ctattttaca attgtaaaac tgaggcacga gcaaagtgaa 2760
gacactggct catattcctg cagcctggag gccgggtgct cagggctgac acgtccaccc 2820
cagtgcaccc actctgcttt gactgagcag actggtgagc agactggtgg gatctgtgcc 2880
cagagatggg actgggaggg cccacttcag ggttctcctc tcccctctaa ggccgaagaa 2940
gggtccttcc ctctccccaa gacttggtgt cctttccctc cactccttcc tgccacctgc 3000
tgctgctgct gctgctaatc ttcagggcac tgctgctgcc tttagtcgct gaggaaaaat 3060
aaagacaaat gctgcgccct tccccaaaaa aaaaaaa 3097
<210> 8
<211> 1895
<212> DNA
<213> Homo sapiens
<400> 8
atgacaggaa gtgacccgtt aaggaagcag cacatcgctg cattcggctg gttttcaggg 60
tcttgttccc aatcagtttc cagccaacac cagggtgtcc tagtccgcag aggtgtgggg 120
gacacactcc ataatctcta cttttctttt tgtgcagctg agtcatggag ctttcagccc 180
cagcacatgg ctcctcctta actgcgtctg ctcaacctcc ctcagccctg tgaacagcat 240
ccccgcacac agacgcagag caggactctc tctgctgcca cttcaccttc ctgagagagg 300
accagcggcc agagcctcag tgactgccac cctggaggac agggcacaac aaccgtttct 360
ggagagaatg ggaggattcc agaggggcaa atatggaact atggctgaag gtagatcaga 420
agataacttg tctgcaacac caccggcatt gaggattatc ctagtgggca aaacaggctg 480
cgggaaaagt gccacaggga acagcatcct tggccagccc gtgtttgagt ccaagctgag 540
ggcccagtca gtgaccagga cgtgccaggt gaaaacagga acatggaacg ggaggaaagt 600
cctggtggtt gacacgccct ccatctttga gtcacaggcc gatacccaag agctgtacaa 660
gaacatcggg gactgctacc tgctctctgc cccggggccc cacgtcctgc ttctggtgat 720
ccagctgggg cgtttcactg ctcaggacac agtggccatc aggaaggtga aagaggtctt 780
tgggacaggg gccatgagac atgtggtcat cctcttcacc cacaaagagg acttaggggg 840
ccaggccctg gatgactatg tagcaaacac ggacaactgc agcctgaaag acctggtgcg 900
ggagtgtgag agaaggtact gtgccttcaa caactggggc tctgtggagg agcagaggca 960
gcagcaggca gagctcctgg ctgtgattga gaggctgggg agggagcgag agggctcctt 1020
ccacagcaat gacctcttct tggatgccca gctgctccaa agaactggag ctggggcctg 1080
ccaggaagac tacaggcagt accaggccaa agtggaatgg caggtggaga agcacaagca 1140
agagctgagg gagaacgaga gtaactgggc atacaaggcg ctcctcagag tcaaacactt 1200
gatgcttttg cattatgaga tttttgtttt tctattgttg tgcagcatac tttttttcat 1260
tatttttctg ttcatctttc attacattta aatctctgga ccctggagca cttctaatgt 1320
atcaccccat ggagtcattg ttctaataat caccaattca gactcagatc ctcgtggtct 1380
atggagcatg ctgcttgctg tctgtgcagc tcccatttcc ccttcttcct gatagacttg 1440
gagctgtgtg cctccactcc aaggctgcct gcctgctgta aacactattc cactctgtct 1500
gccaacaact gcttcaggaa tgggcctgag atcccatgca ggtccctgag aagtgagtaa 1560
aagtccgcag aggtggggat ggaagatctc tccttagata gaacctgtct tcctccctgg 1620
cattgtgggg tctgggcgtg acactgggac tctcagcagc tttgtgctgc caacctgaga 1680
ttgaaggcag tgcctcagag cagcacagag agttggggcc ccctgagccc tgagccacca 1740
gccctgcagc ctgccctatc tccgcatttc cagttgtatt agccaataga tttcctactt 1800
atttaagcta tttgagctcc gggtctcttc tacctgcatt ctaaaacatt caaagtaata 1860
aaaatttctc cacattcaaa aaaaaaaaaa aaaaa 1895
<210> 9
<211> 1475
<212> DNA
<213> Homo sapiens
<400> 9
gggatcacac aggatccgga gctggtgctg ataacagcgg aatcccccgt ctacctctct 60
ccttggtcct ggaacagcgc tactgatcac caagtagcca caaaatataa taaaccctca 120
gcacttgctc agtagttttg tgaaagtctc aagtaaaaga gacacaaaca aaaaattctt 180
tttcgtgaag aactccaaaa ataaaattct ctagagataa aaaaaaaaaa aaaaggaaaa 240
tgccagctga tataatggag aaaaattcct cgtccccggt ggctgctacc ccagccagtg 300
tcaacacgac accggataaa ccaaagacag catctgagca cagaaagtca tcaaagccta 360
ttatggagaa aagacgaaga gcaagaataa atgaaagtct gagccagctg aaaacactga 420
ttttggatgc tctgaagaaa gatagctcgc ggcattccaa gctggagaag gcggacattc 480
tggaaatgac agtgaagcac ctccggaacc tgcagcgggc gcagatgacg gctgcgctga 540
gcacagaccc aagtgtgctg gggaagtacc gagccggctt cagcgagtgc atgaacgagg 600
tgacccgctt cctgtccacg tgcgagggcg ttaataccga ggtgcgcact cggctgctcg 660
gccacctggc caactgcatg acccagatca atgccatgac ctaccccggg cagccgcacc 720
ccgccttgca ggcgccgcca ccgcccccac cgggacccgg cggcccccag cacgcgccgt 780
tcgcgccgcc gccgccactc gtgcccatcc ccgggggcgc ggcgccccct cccggcggcg 840
ccccctgcaa gctgggcagc caggctggag aggcggctaa ggtgtttgga ggcttccagg 900
tggtaccggc tcccgatggc cagtttgctt tcctcattcc caacggggcc ttcgcgcaca 960
gcggccctgt catccccgtc tacaccagca acagcggcac ctccgtgggc cccaacgcag 1020
tgtcaccttc cagcggcccc tcgcttacgg cggactccat gtggaggccg tggcggaact 1080
gagggggctc aggccacccc tcctcctaaa ctccccaacc cacctctctt ccctccggac 1140
tctaaacagg aacttgaata ctgggagaga agaggacttt tttgattaag tggttacttt 1200
gtgttttttt aatttctaag aagttacttt ttgtagagag agctgtatta agtgactgac 1260
catgcactat atttgtatat attttatatg ttcatattgg attgcgcctt tgtattataa 1320
aagctcagat gacatttcgt tttttacacg agatttcttt tttatgtgat gccaaagatg 1380
tttgaaaatg ctcttaaaat atcttccttt ggggaagttt atttgagaaa atataataaa 1440
agaaaaaagt aaaggctttt aaaaaaaaaa aaaaa 1475
<210> 10
<211> 962
<212> DNA
<213> Homo sapiens
<400> 10
gggaaagaat gcggagccgg gttcacacac cccgcggcgg cgaggcctta aatagggaaa 60
cggcctgagg cgcgcgcggg cctggagccg ggatccgccc taggggctcg gatcgccgcg 120
cgctcgccgc tcgcccgcca gcccgcccgt ggtccgtggc ggcgcgctcc acccggcacg 180
gggaggcgcg gggcgcacca tggccgcaga cacgccgggg aaaccgagcg cctcgccgat 240
ggcaggagcg ccggccagcg ccagccggac cccagacaag ccccggagcg cggccgagca 300
ccgcaagtcc tccaagccgg tcatggagaa gcggcgccga gcgcgtatta acgagagcct 360
cgctcagctc aaaaccctca tcctggacgc cctcagaaaa gagagctccc gccactcgaa 420
gctggagaag gcggacatcc tggagatgac cgtgagacac ctgcggagcc tgcgtcgcgt 480
gcaggtgacg gccgcgctca gcgccgaccc cgccgttctg ggcaagtacc gcgccggctt 540
ccacgagtgt ctggcggagg tgaaccgctt cctggccggc tgcgagggcg tcccggccga 600
cgtgcgctcc cgcctgctgg gccacctggc agcctgcctg cgccagctgg gaccctcccg 660
ccgcccggcc tcgctgtccc cggctgcccc cgcagaggcc ccagcgcccg aggtctacgc 720
gggccgcccg ctgctgccat cgctcggcgg ccccttccct ctgctcgcgc cgccgctgct 780
gccgggtctg acccgggcgc tgcccgccgc ccccagggcg gggccgcagg gcccgggtgg 840
gccctggagg ccgtggctgc gctgaggctg tggccctgag actgcatcgg aggcggcgcc 900
ccgttctagg gccgtggcct ttgccgagac tgtagcagag aaaacgtatt tattattcca 960
ga 962
<210> 11
<211> 1319
<212> DNA
<213> Homo sapiens
<400> 11
cgcgcttggc cttgcccgcg cccgctcgcc tcgtctcgcc cggcctcccc gcgtcgcctc 60
gtcgcctgtt ccgcgccagg catggccccc agcactgtgg ccgtggagct gctcagcccc 120
aaagagaaaa accgactgcg gaagccggtg gtggagaaga tgcgccgcga ccgcatcaac 180
agcagcatcg agcagctgaa gctgctgctg gagcaggagt tcgcgcggca ccagcccaac 240
tccaagctgg agaaggccga catcctggag atggctgtca gctacctgaa gcacagcaaa 300
gccttcgtcg ccgccgccgg ccccaagagc ctgcaccagg actacagcga aggctactcg 360
tggtgcctgc aggaggccgt gcagttcctg acgctccacg ccgccagcga cacgcagatg 420
aagctgctgt accacttcca gcggcccccg gccgcgcccg ccgcgcccgc caaggagccc 480
aaggcgccgg gcgccgcgcc cccgcccgcg ctctccgcca aggccaccgc cgccgccgcc 540
gccgcgcacc agcccgcctg cggcctctgg cggccctggt gacccggcgg gacctgcggg 600
cgcgcggccc gacgaccaga gggcgagcct gctcctctcg cctgtaggga agcgccttcc 660
cgccgtcgtc cgccccgggc ttggacgcgc ccttctccgg aaggctctgg ccccaagctg 720
gccggcccgc aggagcccca ttctcagaga atgtgtgtgc agagtccctg ccgttttagg 780
acaatcaggg cccatcttct gccaagtgtc tgaccccatg gggttgttct gtgtttgcat 840
ttaagcaagt gacttctggg aagtccccgg ccgcccgggg ttctatgata tttgtagtgc 900
cggggctcgc acactgctgc ccccagcctg tagaggactt tcttcagggc ccgtagctgc 960
tgggcgtacc cctggcaggc gggctgtgcc gcgggcacat ttgccttttg tgaaggccga 1020
actcgagctg tatcctcata ggaaacagtg atcaccccgg acgggcgtcc aggaccctga 1080
gggccatggc caaaaggctc ctgagtgtgc ctggtggtct ggctggggct cacggtgggc 1140
tgtctgggga gggtgggtgc ctccactatg atccttaaag gattcctctg tgtgggtgga 1200
tgcgtgtggg cacgactttg tactcagaaa ttgaactctc agtcacgtgg aagccacggg 1260
actgctccga agccgccata ataaaatctg attgttcagc ccccaaaaaa aaaaaaaaa 1319
<210> 12
<211> 1684
<212> DNA
<213> Homo sapiens
<400> 12
gaggagcaat ggtcacccgg gatcgagctg agaataggga cggccccaag atgctcaagc 60
cgcttgtgga gaagcggcgc cgggaccgca tcaaccgcag cctggaagag ctgaggctgc 120
tgctgctgga gcggacccgg gaccagaacc tccggaaccc gaagctggag aaagcggaga 180
tattggagtt cgccgtgggc tacttgaggg agcgaagccg ggtggagccc ccgggggttc 240
cccggtcccc agtccaggac gccgaggcgc tcgccagctg ctacttgtcc ggtttccgcg 300
agtgcctgct tcgcttggcg gccttcgcgc acgacgccag cccggccgcc cgcgcccagc 360
tcttctccgc gctgcacggc tatctgcgcc ccaaaccgcc ccggcccaag ccggtagatc 420
cgaggcctcc agcgccgcgc ccatccctgg accccgccgc accggccctt ggccctgcgc 480
tgcaccagcg ccccccagtg caccagggcc accctagccc gcgctgcgca tggtccccat 540
ccctctgctc cccgcgcgcc ggggattctg gcgcgccggc gcccctcacc ggactgctgc 600
cgccgccacc gccgcctcac agacaagacg gggcgcccaa ggccccgctg cccccgccgc 660
ccgctttctg gagaccttgg ccctgagcct tggggggtgg tgggggcggg gtctaggggt 720
ggggtagaga ctccagcccg agggcagcag agggacccgg gcgtccgggc gagcaggtgt 780
tggggagggc agtggggcgc gcgggctcag cgcgcgggtg agatgtggtc tatattagag 840
tatctatata aatatatatt tccctggttc ctgtcccttt tccctgcccc aacttctccc 900
ttgcgtctag gattgtactc tctctgcccc tcagcccagt cccagtccct tcccgagtcc 960
ctagtgcatg gaataaagtg gttattaaat ccccgtgtgt ccccgagcca ggggcctgcc 1020
tttatctcga cgtccacgcc cactttccct tcccttctgt ctcccaccct cagtcctgct 1080
ctccatggcc caagccccgg ggcagacagg taagtaaaga agagagcaga gcgggaactg 1140
agatcgaaat tgaaaccagg tggaaagaga gagatagggt agggggagaa gggatggggg 1200
cctttaagaa aaaaacggat aaaaaggaaa aattgaaata aaatcgactc tggtgggatt 1260
cgaacccaca acctttgaat tgctctattc gtcactagaa gtccaatgcg ctatccattg 1320
cgccacagag ccacccgacg aacggcggcg tcttgtagct tacgggtact agagtgggaa 1380
tggggcaggg ttggggagcg gggctaaggg acttgggcgg gacatgccag gagggcgcgg 1440
tttggatctc agaggccaag ccaggtagag gtagcgggcg caaagcatgt tagccaggtg 1500
agagagaggg cgcacatggg tcgaaaaaac agggagggag agcaaccgaa aatggctgag 1560
cgagcgagtg cagagctccg gctgcccgct tggggggtgt ttccggctca ggcgctcccc 1620
actcccagat atagtcccac ccaaataaac tagttttgtt gtaaattaaa aaaaaaaaaa 1680
aaaa 1684
<210> 13
<211> 2319
<212> DNA
<213> Homo sapiens
<400> 13
ttccccactc ccccgccctc cccagggccc tgggaagggg ctcagcgtgg gaaaggatgg 60
ttgagtttta accagaggca aagcgtgagc gggatcagtg tgtgcggaac gcaagcagcc 120
gagagcggag aggcgccgct gtagttaact cctccctgcc cgccgcgccg accctcccca 180
ggaaccccca gggagccagc atgaagcgag ctcaccccga gtacagctcc tcggacagcg 240
agctggacga gaccatcgag gtggagaagg agagtgcgga cgagaatgga aacttgagtt 300
cggctctagg ttccatgtcc ccaactacat cttcccagat tttggccaga aaaagacgga 360
gaggaataat tgagaagcgc cgacgagacc ggatcaataa cagtttgtct gagctgagaa 420
ggctggtacc cagtgctttt gagaagcagg gatctgctaa gctagaaaaa gccgagatcc 480
tgcagatgac cgtggatcac ctgaaaatgc tgcatacggc aggagggaaa ggttactttg 540
acgcgcacgc ccttgctatg gactatcgga gtttgggatt tcgggaatgc ctggcagaag 600
ttgcgcgtta tctgagcatc attgaaggac tagatgcctc tgacccgctt cgagttcgac 660
tggtttcgca tctcaacaac tacgcttccc agcgggaagc cgcgagcggc gcccacgcgg 720
gcctcggaca cattccctgg gggaccgtct tcggacatca cccgcacatc gcgcacccgc 780
tgttgctgcc ccagaacggc cacgggaacg cgggcaccac ggcctcaccc acggaaccgc 840
accaccaggg caggctgggc tcggcacatc cggaggcgcc tgctttgcga gcgcccccta 900
gcggcagcct cggaccggtg ctccctgtgg tcacctccgc ctccaaactg tcgccgcctc 960
tgctctcctc agtggcctcc ctgtcggcct tccccttctc tttcggctcc ttccacttac 1020
tgtctcccaa tgcactgagc ccttcagcac ccacgcaggc tgcaaacctt ggcaagccct 1080
atagaccttg ggggacggag atcggagctt tttaaagaac tgatgtagaa tgagggaggg 1140
gaaagtttaa aatcccagct gggctggact gttgccaaca tcaccttaaa gtcgtcagta 1200
aaagtaaaaa ggaaaaaggt acactttcag ataatttttt ttttaaagac taaaggtttg 1260
ttggtttact tttatctttt ttaatgtttt tttcatcatg tcatgtatta gcagttttta 1320
aaaactagtt gttaaatttt gttcaagaca ttaaattgaa atagtgagta taagccaaca 1380
ctttgtgata ggtttgtact gtgcctaatt tactttgtaa accagaatga ttccgttttt 1440
gcctcaaaat ttggggaatc ttaacattta gtatttttgg tctgtttttc tccttgtata 1500
gttatggtct gtttttagaa ttaattttcc aaaccactat gcttaatgtt aacatgattc 1560
tgtttgttaa tattttgaca gattaaggtg ttgtataaat aatattcttt tggggggagg 1620
ggaactatat tgaattttat atttctgagc aaagcgttga caaatcagat gatcagcttt 1680
atccaagaaa gaagactagt aaattgtctg cctcctatag cagaaaggtg aatgtacaaa 1740
ctgttggtgg ccctgaatcc atctgaccag ctgctggtat ctgccaggac tggcagttct 1800
gatttagtta ggagagagcc gctgataggt taggtctcat ttggagtgtt ggtggaaagg 1860
aaactgaagg taattgaata gaatacgcct gcatttacca gccccagcaa cacaaagaat 1920
ttttaatcac acggatctca aattcacaaa tgttaacatg gataagtgat catggtgtgc 1980
gagtggtcaa ttgagtagta cagtggaaac tgttaaatgc ataacctaat tttcctggga 2040
ctgccatatt ttcttttaac tggaaatttt tatgtgagtt ttccttttgg tgcatggaac 2100
tgtggttgcc aaggtattta aaagggcttt cctgcctcct tctctttgat ttatttaatt 2160
tgatttgggc tataaaatat catttttcag gtttattctt ttagcaggtg tagttaaacg 2220
acctccactg aactgggttt gacctctgtt gtactgatgt gttgtgacta aataaaaaag 2280
aaagaacaaa gtaaaaaaaa aaaaaaaaaa aaaaaaaaa 2319
<210> 14
<211> 2672
<212> DNA
<213> Homo sapiens
<400> 14
gcgtggccgg cgccggctct tgcggccgag cagagttgcg gcgtgggaaa gagccgctag 60
gagcagaccg cgccgccgcc ggagccgcgc ctgcccaggc ccggggaggg aggaggcggg 120
cgtcagggtg ctgcgccccg ctcggcgtcc gagcttccgg ccgggctgtg ccccgcgcgg 180
tcttcgccgg gatgaagcgc ccctgcgagg agacgacctc cgagagcgac atggacgaga 240
ccatcgacgt ggggagcgag aacaattact cggggcaaag tactagctct gtgattagat 300
tgaattctcc aacaacaaca tctcagatta tggcaagaaa gaaaaggaga gggattatag 360
agaaaaggcg tcgggatcgg ataaataaca gtttatctga gttgagaaga cttgtgccaa 420
ctgcttttga aaaacaagga tctgcaaagt tagaaaaagc tgaaatattg caaatgacag 480
tggatcattt gaagatgctt caggcaacag ggggtaaagg ctactttgac gcacacgctc 540
ttgccatgga cttcatgagc ataggattcc gagagtgcct aacagaagtt gcgcggtacc 600
tgagctccgt ggaaggcctg gactcctcgg atccgctgcg ggtgcggctt gtgtctcatc 660
tcagcacttg cgccacccag cgggaggcgg cggccatgac atcctccatg gcccaccacc 720
atcatccgct ccacccgcat cactgggccg ccgccttcca ccacctgccc gcagccctgc 780
tccagcccaa cggcctccat gcctcagagt caaccccttg tcgcctctcc acaacttcag 840
aagtgcctcc tgcccacggc tctgctctcc tcacggccac gtttgcccat gcggattcag 900
ccctccgaat gccatccacg ggcagcgtcg ccccctgcgt gccacctctc tccacctctc 960
tcttgtccct ctctgccacc gtccacgccg cagccgcagc agccaccgcg gctgcacaca 1020
gcttccctct gtccttcgcg ggggcattcc ccatgcttcc cccaaacgca gcagcagcag 1080
tggccgcggc cacagccatc agcccgccct tgtcagtatc agccacgtcc agtcctcagc 1140
agaccagcag tggaacaaac aataaacctt accgaccctg ggggacagaa gttggagctt 1200
tttaaatttt tcttgaactt cttgcaatag taactgaatg tcctccattt cagagtcagc 1260
ttaaaacctc tgcaccctga aggtagccat acagatgccg acagatccac aaaggaacaa 1320
taaagctatt tgagacacaa acctcacgag tggaaatgtg gtattctctt ttttttctct 1380
cccttttttg tttggttcaa ggcagctcgg taactgacat cagcaacttt tgaaaacttc 1440
acacttgtta ccatttagaa gtttcctgga aaatatatgg accgtaccat ccagcagtgc 1500
atcagtatgt ctgaattggg gaagtaaaat gccctgactg aattctcttg agactagatg 1560
ggacatacat atatagagag agagtgagag agtcgtgttt cgtaagtgcc tgagcttagg 1620
aagttttctt ctggatatat aacattgcac aagggaagac gagtgtggag gataggttaa 1680
gaaaggaaag ggacagaagt cttgcaatag gctgcagaca ttttaatacc atgccagaga 1740
agagtattct gctgaaacca acaggtttta ctggtcaaaa tgactgctga aaataatttt 1800
caagttgaaa gatctagttt tatcttagtt tgccttcttt gtacagacat gccaagaggt 1860
gacatttagc agtgcattgg tataagcaat tatttcatca gttctcagat taacaagcat 1920
ttctgctctg cctgcaggcc cccaggcact tttttttttg gatggctcaa aatatggtgc 1980
tgctttatat aaaccttaca tttatatagt gcacctatga gcagttgcct accatgtgtc 2040
caccagaggc tatttaattc atgccaactt gaaaactctc cagtttgtag gagtttggtt 2100
taatttattc agtttcatta ggactatttt tatatattta tcctcttcat tttctcctaa 2160
tgatgcaaca tctattcttg tcaccctttg ggagaagtta catttctgga ggtgatgaag 2220
caaggaggga gcactaggaa gagaaaagct acaattttta aagctctttg tcaagttagt 2280
gattgcattt gatcccaaaa caagatgaat gtatgcaatg ggatgtacat aagttatttt 2340
tgcccatgcc taaactagtg ctatgtaatg gggttgtggt tttgtttttt tcgatttcgt 2400
ttaatgacaa aataatctct taatatgctg aaatcaagca cgtgagagtt tttgtttaaa 2460
agataagaga cacagcatgt attatgcact tcatttctct actgtgtgga gaaagcaata 2520
aacattatga gaatgttaaa cgttatgcaa aattatactt ttaaatattt gttttgaaat 2580
tactgtacct agtctttttt gcattacttt gtaacctttt tctatgcaag agtctttaca 2640
taccactaat taaatgaagt cctttttgac ta 2672
<210> 15
<211> 4131
<212> DNA
<213> Homo sapiens
<400> 15
ccgactggga gccttagccg cggggctgag accaggcagc ctgcgttcgc catgaagcga 60
cccaaggagc cgagcggctc cgacggggag tccgacggac ccatcgacgt gggccaagag 120
ggccagctga gccagatggc caggccgctg tccaccccca gctcttcgca gatgcaagcc 180
aggaagaaac gcagagggat catagagaaa cggcgtcgag accgcatcaa cagtagcctt 240
tctgaattgc gacgcttggt ccccactgcc tttgagaaac agggctcttc caagctggag 300
aaagccgagg tcttgcagat gacggtggat cacttgaaaa tgctccatgc cactggtggg 360
acaggattct ttgatgcccg agccctggca gttgacttcc ggagcattgg ttttcgggag 420
tgcctcactg aggtcatcag gtacctgggg gtccttgaag ggcccagcag ccgtgcagac 480
cccgtccgga ttcgccttct ctcccacctc aacagctacg cagccgagat ggagccttcg 540
cccacgccca ctggcccttt ggccttccct gcctggccct ggtctttctt ccatagctgt 600
ccagggctgc cagccctgag caaccagctc gccatcctgg gaagagtgcc cagccctgtc 660
ctccccggtg tctcctctcc tgcttacccc atcccagccc tccgaaccgc tccccttcgc 720
agagccacag gcatcatcct gccagcccgg aggaatgtgc tgcccagtcg aggggcatct 780
tccacccgga gggcccgccc cctagagagg ccagcgaccc ctgtgcctgt cgcccccagc 840
agcagggctg ccaggagcag ccacatcgct cccctcctgc agtcttcctc cccaacaccc 900
cctggtccta cagggtcggc tgcttacgtg gctgttccca cccccaactc atcctcccca 960
gggccagctg ggaggccagc gggagccatg ctctaccact cctgggtctc tgaaatcact 1020
gaaatcgggg ctttctgagc tgccccttca ccaccccgcc ccaaggaata aggaaggttc 1080
ttttaccagg agcccaaaaa agggcactgc cttttctgct ttgcttcatg gactggctca 1140
tatgtgaagg cacgttctcc agccatcaga ggccccctcc tcctccaacc catctctcct 1200
tctcactgtt atcccagctt atccacccag ctctcctgga gctgttctgg tctcagaggc 1260
ttggttccat ttctcacctg aacagatgag tcctgggaga gaccctcaga gatccgccca 1320
gacccctctc ctgccctctg cacaccagca gcaggcatga accttgggtc tgggaaaaag 1380
ctttaacctg cagggcacca ggacccaagg caggctgttc cttggggcgg tcagacccca 1440
gtcaggagca atgactgact ggctgcagcc ttcccacgcc aagaggctgg aacatagtgt 1500
ctgcctcgct tcctggagat agtaactgag caggggctac aaagaggtct cctgggaacc 1560
ctgtctgccc cttcccacct gtccttgggc cacaccatca cactgaacca caggacagac 1620
cctttctcca ccacagccaa ggcctggaga ctgggggccc agcagagcct gctcccaccc 1680
tcctcccagc agcagacacc caccctctca ctgactaaca ggtccctgca cacagctggc 1740
ctggtaaacc cagctgggag gtttctaggc agcagcaaaa ctctgtgaca gggtgtcctc 1800
acaccaggcc ttggacagct ctcccagaca ggagccaggg ttgagcaatg gagagcccag 1860
cccccacgtc ttacagtcgc catcctccag gcgtgtggtc cctccccatt gggtgcacag 1920
tgcagagggg ccgtggcccc atgtgatggt gcgcagagag gaacctcttg ggattcagca 1980
ccagacgtct gtgctgcctg gtttgcatcc ggctcacaga gcccagactg ctggaacagc 2040
caaggactgt caggctggac aaaaataact gcaaggaggg gcaagagaaa ggatgattcg 2100
aggcaccttg gcccttcaag gtcatgcagt gggtcgagcg cctgagatcc tgttcaccag 2160
gactccacag agctggctct gctcagaagc catttcattc cccggctcca ccctaggcca 2220
ctttttctaa cagaggaaac aaatggtcca gcagtcgttc ccagcagaac agcggagcct 2280
ggactgacac ccagtgggac cagtgttgcc acaccagttg ataaaatgca gaaacccttc 2340
tgtactcgtt ggtaaatatc tactccccca agtgactcca ggtgcccccc accgcctggc 2400
acttccccca ggactcctac gatctggtta ctgcctggcc gatccaaggc tgtggagtcc 2460
cagagccagc agttcactgg tgctcattcc acactggtta gatacttcag ttgtcacccc 2520
tgggaagatt ctcccacctc ctccctttga tggaaccacc ctccccagag gctgcattga 2580
ggagactcca cagactgaaa agtgagtttg cagaaacctt ggggaaaagg gccctttcaa 2640
agaagtggat aagagggagg agatcattga gtgacccaga aagctctttt gaaaagacag 2700
actcctcaag gagagataaa gaggaaagca cctctttcat tttttagtgt gagctaattc 2760
catcagactg ctgtcctcct ggacccatct gagatgtgca gtagcaagga gaggggggat 2820
cattttagag agtgggtcat tggcagggag tgctccggag ggaggcagag gggagactgt 2880
ggtagaagga agacagaact cacacatgct cccaggattg gggacaggga cagaggaggt 2940
aacagaaggc aaaggccagt ttccccgtta tcatgaaggg gcccactcag gacaggaaca 3000
aggacaactc ctcctcctcc tcctcctctc ctgctgctcc tgggatacca ggtcagtgat 3060
gtagtcttgc agtttggcaa cttcctagcc tgagaatccc tagtggggct gtgggaaaca 3120
catttccacg ttgcaagcat gcaactccaa agaatctgtg atgccactga aatgagatgg 3180
gaatgatcca gctctttcag catcttggtt gaacttgctt tcattgtccc tgggatattg 3240
tggaaggaaa ggtgactgtg tgatctgatt ctgtggtcaa ggacttgcat cttgtgtttc 3300
tatccccaag ccttcctggt gtctccaact cctaccccat tgcatgggtt gttgcggaca 3360
tccaataaag atttttttag tgcttctgga aacttccagt agattctact tctaaactat 3420
ctctggagtc catccacttc tgtctgcacc cacagccatc ctggccaggc cacatcacct 3480
cccccagatc actgccctgg cctcagaaag gtcttccctc ttgctttgtc aatcagttct 3540
cagtagcagc agagagaaat tgaaagctgc aggtcatatc gtatcatctt tagtttgaaa 3600
acctcactct cttaccctat tgttctaaag gtcttctttt ggtcccaacc tcatttccag 3660
cctcatttct tgccagtccc agacttgctc cctgagcttc tgccacctgc ccttccttca 3720
tttcctcgac attccagcct tgttcccacc tccagcactt tgcatatgct gttccctttg 3780
ccaagaatgc tcttccccta ccctgtgcat ggctgagttc tgcagaccct caggccttgg 3840
cttcaacgtt gcctcgtcca agaggccttc ctcgactact ttacttgtgg agttcctcta 3900
tcacaaggcc tctgttcttt cccttcatgg agaatttgcc actgcatatc catttgtgta 3960
atttacttgt tggttgactg tgcctcccac tcgagtgtaa gctcatgagg ccaggtgcca 4020
tgcctggttc agtctccact ctgtacccag cattgagcac agggcctggt ccatagttgg 4080
cgttcaataa atacttgttg aagaagtgaa ctgaaaaaaa aaaaaaaaaa a 4131
<210> 16
<211> 2969
<212> DNA
<213> Homo sapiens
<400> 16
actttagctc agacctttct tttaaccttg cctatcatgt ttcgagtcag aatttaaata 60
ctgtgcagtt taagctacaa tacgcttggc ctataacttg gttccaggca tttatattta 120
tgtcactttt gtctacttat tatactaaca aggtggaaaa agcaatccca gtctctccaa 180
aagacaagat gtgaaatgga gaagtatctg acacctcagc ttcctccagt tcctataatt 240
ccagagcata aaaagtatag acgagacagt gcctcagtcg tagaccagtt cttcactgac 300
actgaagggt taccttacag tatcaacatg aacgtcttcc tccctgacat cactcacctg 360
agaactggcc tctacaaatc ccagagaccg tgcgtaacac acatcaagac agaacctgtt 420
gccattttca gccaccagag tgaaacgact gcccctcctc cggccccgac ccaggccctc 480
cctgagttca ccagtatatt cagctcacac cagaccgcag ctccagaggt gaacaatatt 540
ttcatcaaac aagaacttcc tacaccagat cttcatcttt ctgtccctac ccagcagggc 600
cacctgtacc agctactgaa tacaccggat ctagatatgc ccagttctac aaatcagaca 660
gcagcaatgg acactcttaa tgtttctatg tcagctgcca tggcaggcct taacacacac 720
acctctgctg ttccgcagac tgcagtgaaa caattccagg gcatgccccc ttgcacatac 780
acaatgccaa gtcagtttct tccacaacag gccacttact ttcccccgtc accaccaagc 840
tcagagcctg gaagtccaga tagacaagca gagatgctcc agaatttaac cccacctcca 900
tcctatgctg ctacaattgc ttctaaactg gcaattcaca atccaaattt acccaccacc 960
ctgccagtta actcacaaaa catccaacct gtcagataca atagaaggag taaccccgat 1020
ttggagaaac gacgcatcca ctactgcgat taccctggtt gcacaaaagt ttataccaag 1080
tcttctcatt taaaagctca cctgaggact cacactggtg aaaagccata caagtgtacc 1140
tgggaaggct gcgactggag gttcgcgcga tcggatgagc tgacccgcca ctaccggaag 1200
cacacaggcg ccaagccctt ccagtgcggg gtgtgcaacc gcagcttctc gcgctctgac 1260
cacctggccc tgcatatgaa gaggcaccag aactgagcac tgcccgtgtg acccgttcca 1320
ggtcccctgg gctccctcaa atgacagacc taactattcc tgtgtaaaaa caacaaaaac 1380
aaacaaaagc aagaaaacca caactaaaac tggaaatgta tattttgtat atttgagaaa 1440
acagggaata cattgtatta ataccaaagt gtttggtcat tttaagaatc tggaatgctt 1500
gctgtaatgt atatggcttt actcaagcag atctcatctc atgacaggca gccacgtctc 1560
aacatgggta aggggtgggg gtggagggga gtgtgtgcag cgtttttacc taggcaccat 1620
catttaatgt gacagtgttc agtaaacaaa tcagttggca ggcaccagaa gaagaatgga 1680
ttgtatgtca agattttact tggcattgag tagttttttt caatagtagg taattcctta 1740
gagatacagt atacctggca attcacaaat agccattgaa caaatgtgtg ggtttttaaa 1800
aattatatac atatatgagt tgcctatatt tgctattcaa aattttgtaa atatgcaaat 1860
cagctttata ggtttattac aagtttttta ggattctttt ggggaagagt cataattctt 1920
ttgaaaataa ccatgaatac acttacagtt aggatttgtg gtaaggtacc tctcaacatt 1980
accaaaatca tttctttaga gggaaggaat aatcattcaa atgaacttta aaaaagcaaa 2040
tttcatgcac tgattaaaat aggattattt taaatacaaa aggcatttta tatgaattat 2100
aaactgaaga gcttaaagat agttacaaaa tacaaaagtt caacctctta caataagcta 2160
aacgcaatgt catttttaaa aagaaggact tagggtgtcg ttttcacata tgacaatgtt 2220
gcatttatga tgcagtttca agtaccaaaa cgttgaattg atgatgcagt tttcatatat 2280
cgagatgttc gctcgtgcag tactgttggt taaatgacaa tttatgtgga ttttgcatgt 2340
aatacacagt gagacacagt aattttatct aaattacagt gcagtttagt taatctatta 2400
atactgactc agtgtctgcc tttaaatata aatgatatgt tgaaaactta aggaagcaaa 2460
tgctacatat atgcaatata aaatagtaat gtgatgctga tgctgttaac caaagggcag 2520
aataaataag caaaatgcca aaaggggtct taattgaaat gaaaatttaa ttttgttttt 2580
aaaatattgt ttatctttat ttattttgtg gtaatatagt aagttttttt agaagacaat 2640
tttcataact tgataaatta tagttttgtt tgttagaaaa gttgctctta aaagatgtaa 2700
atagatgaca aacgatgtaa ataattttgt aagaggcttc aaaatgttta tacgtggaaa 2760
cacacctaca tgaaaagcag aaatcggttg ctgttttgct tctttttccc tcttattttt 2820
gtattgtggt catttcctat gcaaataatg gagcaaacag ctgtatagtt gtagaatttt 2880
ttgagagaat gagatgttta tatattaacg acaatttttt ttttggaaaa taaaaagtgc 2940
ctaaaagatg taaaaaaaaa aaaaaaaaa 2969
<210> 17
<211> 4518
<212> DNA
<213> Homo sapiens
<400> 17
ggagtttatt cataacgcgc tctccaagta tacgtggcaa tgcgttgctg ggttatttta 60
atcattctag gcatcgtttt cctccttatg cctctatcat tcctccctat ctacactaac 120
atcccacgct ctgaacgcgc gcccattaat acccttcttt cctccactct ccctgggact 180
cttgatcaaa gcgcggccct ttccccagcc ttagcgaggc gccctgcagc ctggtacgcg 240
cgtggcgtgg cggtgggcgc gcagtgcgtt ctcggtgtgg agggcagctg ttccgcctgc 300
gatgatttat actcacagga caaggatgcg gtttgtcaaa cagtactgct acggaggagc 360
agcagagaaa gggagagggt ttgagaggga gcaaaagaaa atggtaggcg cgcgtagtta 420
attcatgcgg ctctcttact ctgtttacat cctagagcta gagtgctcgg ctgcccggct 480
gagtctcctc cccaccttcc ccaccctccc caccctcccc ataagcgccc ctcccgggtt 540
cccaaagcag agggcgtggg ggaaaagaaa aaagatcctc tctcgctaat ctccgcccac 600
cggcccttta taatgcgagg gtctggacgg ctgaggaccc ccgagctgtg ctgctcgcgg 660
ccgccaccgc cgggccccgg ccgtccctgg ctcccctcct gcctcgagaa gggcagggct 720
tctcagaggc ttggcgggaa aaagaacgga gggagggatc gcgctgagta taaaagccgg 780
ttttcggggc tttatctaac tcgctgtagt aattccagcg agaggcagag ggagcgagcg 840
ggcggccggc tagggtggaa gagccgggcg agcagagctg cgctgcgggc gtcctgggaa 900
gggagatccg gagcgaatag ggggcttcgc ctctggccca gccctcccgc tgatccccca 960
gccagcggtc cgcaaccctt gccgcatcca cgaaactttg cccatagcag cgggcgggca 1020
ctttgcactg gaacttacaa cacccgagca aggacgcgac tctcccgacg cggggaggct 1080
attctgccca tttggggaca cttccccgcc gctgccagga cccgcttctc tgaaaggctc 1140
tccttgcagc tgcttagacg ctggattttt ttcgggtagt ggaaaaccag cagcctcccg 1200
cgacgatgcc cctcaacgtt agcttcacca acaggaacta tgacctcgac tacgactcgg 1260
tgcagccgta tttctactgc gacgaggagg agaacttcta ccagcagcag cagcagagcg 1320
agctgcagcc cccggcgccc agcgaggata tctggaagaa attcgagctg ctgcccaccc 1380
cgcccctgtc ccctagccgc cgctccgggc tctgctcgcc ctcctacgtt gcggtcacac 1440
ccttctccct tcggggagac aacgacggcg gtggcgggag cttctccacg gccgaccagc 1500
tggagatggt gaccgagctg ctgggaggag acatggtgaa ccagagtttc atctgcgacc 1560
cggacgacga gaccttcatc aaaaacatca tcatccagga ctgtatgtgg agcggcttct 1620
cggccgccgc caagctcgtc tcagagaagc tggcctccta ccaggctgcg cgcaaagaca 1680
gcggcagccc gaaccccgcc cgcggccaca gcgtctgctc cacctccagc ttgtacctgc 1740
aggatctgag cgccgccgcc tcagagtgca tcgacccctc ggtggtcttc ccctaccctc 1800
tcaacgacag cagctcgccc aagtcctgcg cctcgcaaga ctccagcgcc ttctctccgt 1860
cctcggattc tctgctctcc tcgacggagt cctccccgca gggcagcccc gagcccctgg 1920
tgctccatga ggagacaccg cccaccacca gcagcgactc tgaggaggaa caagaagatg 1980
aggaagaaat cgatgttgtt tctgtggaaa agaggcaggc tcctggcaaa aggtcagagt 2040
ctggatcacc ttctgctgga ggccacagca aacctcctca cagcccactg gtcctcaaga 2100
ggtgccacgt ctccacacat cagcacaact acgcagcgcc tccctccact cggaaggact 2160
atcctgctgc caagagggtc aagttggaca gtgtcagagt cctgagacag atcagcaaca 2220
accgaaaatg caccagcccc aggtcctcgg acaccgagga gaatgtcaag aggcgaacac 2280
acaacgtctt ggagcgccag aggaggaacg agctaaaacg gagctttttt gccctgcgtg 2340
accagatccc ggagttggaa aacaatgaaa aggcccccaa ggtagttatc cttaaaaaag 2400
ccacagcata catcctgtcc gtccaagcag aggagcaaaa gctcatttct gaagaggact 2460
tgttgcggaa acgacgagaa cagttgaaac acaaacttga acagctacgg aactcttgtg 2520
cgtaaggaaa agtaaggaaa acgattcctt ctaacagaaa tgtcctgagc aatcacctat 2580
gaacttgttt caaatgcatg atcaaatgca acctcacaac cttggctgag tcttgagact 2640
gaaagattta gccataatgt aaactgcctc aaattggact ttgggcataa aagaactttt 2700
ttatgcttac catctttttt ttttctttaa cagatttgta tttaagaatt gtttttaaaa 2760
aattttaaga tttacacaat gtttctctgt aaatattgcc attaaatgta aataacttta 2820
ataaaacgtt tatagcagtt acacagaatt tcaatcctag tatatagtac ctagtattat 2880
aggtactata aaccctaatt ttttttattt aagtacattt tgctttttaa agttgatttt 2940
tttctattgt ttttagaaaa aataaaataa ctggcaaata tatcattgag ccaaatctta 3000
agttgtgaat gttttgtttc gtttcttccc cctcccaacc accaccatcc ctgtttgttt 3060
tcatcaattg ccccttcaga gggtggtctt aagaaaggca agagttttcc tctgttgaaa 3120
tgggtctggg ggccttaagg tctttaagtt cttggaggtt ctaagatgct tcctggagac 3180
tatgataaca gccagagttg acagttagaa ggaatggcag aaggcaggtg agaaggtgag 3240
aggtaggcaa aggagataca agaggtcaaa ggtagcagtt aagtacacaa agaggcataa 3300
ggactgggga gttgggagga aggtgaggaa gaaactcctg ttactttagt taaccagtgc 3360
cagtcccctg ctcactccaa acccaggaat tctgcccagt tgatggggac acggtgggaa 3420
ccagcttctg ctgccttcac aaccaggcgc cagtcctgtc catgggttat ctcgcaaacc 3480
ccagaggatc tctgggagga atgctactat taaccctatt tcacaaacaa ggaaatagaa 3540
gagctcaaag aggttatgta acttatctgt agccacgcag ataatacaaa gcagcaatct 3600
ggacccattc tgttcaaaac acttaaccct tcgctatcat gccttggttc atctgggtct 3660
aatgtgctga gatcaagaag gtttaggacc taatggacag actcaagtca taacaatgct 3720
aagctctatt tgtgtcccaa gcactcctaa gcattttatc cctaactcta catcaacccc 3780
atgaaggaga tactgttgat ttccccatat tagaagtaga gagggaagct gaggcacaca 3840
aagactcatc cacatgccca agattcactg atagggaaaa gtggaagcga gatttgaacc 3900
caggctgttt actcctaacc tgtccaagcc acctctcaga cgacggtagg aatcagctgg 3960
ctgcttgtga gtacaggagt tacagtccag tgggttatgt tttttaagtc tcaacatcta 4020
agcctggtca ggcatcagtt cccctttttt tgtgatttat tttgttttta ttttgttgtt 4080
cattgtttaa tttttccttt tacaatgaga aggtcaccat cttgactcct accttagcca 4140
tttgttgaat cagactcatg acggctcctg ggaagaagcc agttcagatc ataaaataaa 4200
acatatttat tctttgtcat gggagtcatt attttagaaa ctacaaactc tccttgcttc 4260
catccttttt tacatactca tgacacatgc tcatcctgag tccttgaaaa ggtatttttg 4320
aacatgtgta ttaattataa gcctctgaaa acctatggcc caaaccagaa atgatgttga 4380
ttatataggt aaatgaagga tgctattgct gttctaatta cctcattgtc tcagtctcaa 4440
agtaggtctt cagctccctg tactttggga ttttaatcta ccaccaccca taaatcaata 4500
aataattact ttctttga 4518
<210> 18
<211> 3125
<212> DNA
<213> Homo sapiens
<400> 18
ccgcaaccag agccgccgcc acggtgagtg gctggattca gacccctggg tggccgggac 60
aagagaaaag agggaggagg gcctttagcg gacagcgcct ggggctggag agcagcagct 120
gcacacagcc ggaaagggcg cgcaggcgac gacactcgga tccacgtcga caccgttgta 180
caaagatacg cggacccgcg ggcgtctaaa attctgggaa gcagaacctg gccggagcca 240
ctagacagag ccgggcctag cccagagaca tggagagttg ctacaaccca ggtctggatg 300
gtattattga atatgatgat ttcaaattga actcctccat tgtggaaccc aaggagccag 360
ccccagaaac agctgatggc ccctacctgg tgatcgtgga acagcctaag cagagaggct 420
tccgatttcg atatggctgt gaaggcccct cccatggagg actgcccggt gcctccagtg 480
agaagggccg aaagacctat cccactgtca agatctgtaa ctacgaggga ccagccaaga 540
tcgaggtgga cctggtaaca cacagtgacc cacctcgtgc tcatgcccac agtctggtgg 600
gcaagcaatg ctcggagctg gggatctgcg ccgtttctgt ggggcccaag gacatgactg 660
cccaatttaa caacctgggt gtcctgcatg tgactaagaa gaacatgatg gggactatga 720
tacaaaaact tcagaggcag cggctccgct ctaggcccca gggccttacg gaggccgagc 780
agcgggagct ggagcaagag gccaaagaac tgaagaaggt gatggatctg agtatagtgc 840
ggctgcgctt ctctgccttc cttagagcca gtgatggctc cttctccctg cccctgaagc 900
cagtcatctc ccagcccatc catgacagca aatctccggg ggcatcaaac ctgaagattt 960
ctcgaatgga caagacagca ggctctgtgc ggggtggaga tgaagtttat ctgctttgtg 1020
acaaggtgca gaaagatgac attgaggttc ggttctatga ggatgatgag aatggatggc 1080
aggcctttgg ggacttctct cccacagatg tgcataaaca gtatgccatt gtgttccgga 1140
caccccccta tcacaagatg aagattgagc ggcctgtaac agtgtttctg caactgaaac 1200
gcaagcgagg aggggacgtg tctgattcca aacagttcac ctattaccct ctggtggaag 1260
acaaggaaga ggtgcagcgg aagcggagga aggccttgcc caccttctcc cagcccttcg 1320
ggggtggctc ccacatgggt ggaggctctg ggggtgcagc cgggggctac ggaggagctg 1380
gaggaggtgg cagcctcggt ttcttcccct cctccctggc ctacagcccc taccagtccg 1440
gcgcgggccc catgggctgc tacccgggag gcgggggcgg ggcgcagatg gccgccacgg 1500
tgcccagcag ggactccggg gaggaagccg cggagccgag cgccccctcc aggacccccc 1560
agtgcgagcc gcaggccccg gagatgctgc agcgagctcg agagtacaac gcgcgcctgt 1620
tcggcctggc gcagcgcagc gcccgagccc tactcgacta cggcgtcacc gcggacgcgc 1680
gcgcgctgct ggcgggacag cgccacctgc tgacggcgca ggacgagaac ggagacacac 1740
cactgcacct agccatcatc cacgggcaga ccagtgtcat tgagcagata gtctatgtca 1800
tccaccacgc ccaggacctc ggcgttgtca acctcaccaa ccacctgcac cagacgcccc 1860
tgcacctggc ggtgatcacg gggcagacga gtgtggtgag ctttctgctg cgggtaggtg 1920
cagacccagc tctgctggat cggcatggag actcagccat gcatctggcg ctgcgggcag 1980
gcgctggtgc tcctgagctg ctgcgtgcac tgcttcagag tggagctcct gctgtgcccc 2040
agctgttgca tatgcctgac tttgagggac tgtatccagt acacctggcg gtccgagccc 2100
gaagccctga gtgcctggat ctgctggtgg acagtggggc tgaagtggag gccacagagc 2160
ggcagggggg acgaacagcc ttgcatctag ccacagagat ggaggagctg gggttggtca 2220
cccatctggt caccaagctc cgggccaacg tgaacgctcg cacctttgcg ggaaacacac 2280
ccctgcacct ggcagctgga ctggggtacc cgaccctcac ccgcctcctt ctgaaggctg 2340
gtgctgacat ccatgctgaa aacgaggagc ccctgtgccc actgccttca ccccctacct 2400
ctgatagcga ctcggactct gaagggcctg agaaggacac ccgaagcagc ttccggggcc 2460
acacgcctct tgacctcact tgcagcacca aggtgaagac cttgctgcta aatgctgctc 2520
agaacaccat ggagccaccc ctgaccccgc ccagcccagc agggccggga ctgtcacttg 2580
gtgatacagc tctgcagaac ctggagcagc tgctagacgg gccagaagcc cagggcagct 2640
gggcagagct ggcagagcgt ctggggctgc gcagcctggt agacacgtac cgacagacaa 2700
cctcacccag tggcagcctc ctgcgcagct acgagctggc tggcggggac ctggcaggtc 2760
tactggaggc cctgtctgac atgggcctag aggagggagt gaggctgctg aggggtccag 2820
aaacccgaga caagctgccc agcacagcag aggtgaagga agacagtgcg tacgggagcc 2880
agtcagtgga gcaggaggca gagaagctgg gcccaccccc tgagccacca ggagggctct 2940
gccacgggca cccccagcct caggtgcact gacctgctgc ctgcccccag cccccttccc 3000
ggaccccctg tacagcgtcc ccacctattt caaatcttat ttaacacccc acacccaccc 3060
ctcagttggg acaaataaag gattctcatg ggaaggggag gacccctcct tcccaactta 3120
tggca 3125
<210> 19
<211> 2529
<212> DNA
<213> Homo sapiens
<400> 19
gctgatagca cagttctgtc cagagaagga aggcagaata aacttattca ttcccaggaa 60
ctcttggggt aggtgtgtgt ttttcacatc ttaaaggctc acagaccctg cgctggacaa 120
atgttccatt cctgaaggac ctctccagaa tccggattgc tgaatcttcc ctgttgccta 180
gaagggctcc aaaccacctc ttgacaatgg gaaactgggt ggttaaccac tggttttcag 240
ttttgtttct ggttgtttgg ttagggctga atgttttcct gtttgtggat gccttcctga 300
aatatgagaa ggccgacaaa tactactaca caagaaaaat ccttgggtca acattggcct 360
gtgcccgagc gtctgctctc tgcttgaatt ttaacagcac gctgatcctg cttcctgtgt 420
gtcgcaatct gctgtccttc ctgaggggca cctgctcatt ttgcagccgc acactgagaa 480
agcaattgga tcacaacctc accttccaca agctggtggc ctatatgatc tgcctacata 540
cagctattca catcattgca cacctgttta actttgactg ctatagcaga agccgacagg 600
ccacagatgg ctcccttgcc tccattctct ccagcctatc tcatgatgag aaaaaggggg 660
gttcttggct aaatcccatc cagtcccgaa acacgacagt ggagtatgtg acattcacca 720
gcattgctgg tctcactgga gtgatcatga caatagcctt gattctcatg gtaacttcag 780
ctactgagtt catccggagg agttattttg aagtcttctg gtatactcac caccttttta 840
tcttctatat ccttggctta gggattcacg gcattggtgg aattgtccgg ggtcaaacag 900
aggagagcat gaatgagagt catcctcgca agtgtgcaga gtcttttgag atgtgggatg 960
atcgtgactc ccactgtagg cgccctaagt ttgaagggca tccccctgag tcttggaagt 1020
ggatccttgc accggtcatt ctttatatct gtgaaaggat cctccggttt taccgctccc 1080
agcagaaggt tgtgattacc aaggttgtta tgcacccatc caaagttttg gaattgcaga 1140
tgaacaagcg tggcttcagc atggaagtgg ggcagtatat ctttgttaat tgcccctcaa 1200
tctctctcct ggaatggcat ccttttactt tgacctctgc tccagaggaa gatttcttct 1260
ccattcatat ccgagcagca ggggactgga cagaaaatct cataagggct ttcgaacaac 1320
aatattcacc aattcccagg attgaagtgg atggtccctt tggcacagcc agtgaggatg 1380
ttttccagta tgaagtggct gtgctggttg gagcaggaat tggggtcacc ccctttgctt 1440
ctatcttgaa atccatctgg tacaaattcc agtgtgcaga ccacaacctc aaaacaaaaa 1500
agatctattt ctactggatc tgcagggaga caggtgcctt ttcctggttc aacaacctgt 1560
tgacttccct ggaacaggag atggaggaat taggcaaagt gggttttcta aactaccgtc 1620
tcttcctcac cggatgggac agcaatattg ttggtcatgc agcattaaac tttgacaagg 1680
ccactgacat cgtgacaggt ctgaaacaga aaacctcctt tgggagacca atgtgggaca 1740
atgagttttc tacaatagct acctcccacc ccaagtctgt agtgggagtt ttcttatgtg 1800
gccctcggac tttggcaaag agcctgcgca aatgctgtca ccgatattcc agtctggatc 1860
ctagaaaggt tcaattctac ttcaacaaag aaaatttttg agttatagga ataaggacgg 1920
taatctgcat tttgtctctt tgtatcttca gtaatttact tggtctcgtc aggtttgagc 1980
agtcacttta ggataagaat gtgcctctca agccttgact ccctggtatt ctttttttga 2040
ttgcattcaa cttcgttact tgagcttcag caacttaaga acttctgaag ttcttaaagt 2100
tctgaagttc ttaaagccca tggatccttt ctcagaaaaa taactgtaaa tctttctgga 2160
cagccatgac tgtagcaagg cttgatagca gaggtttggt ggttcagagt tatacaacta 2220
atcccaggtg attttatcaa ttccagtgtt accatctcct gagttttggt ttgtaatctt 2280
ttgtccctcc cacccccaca gaagatttct aagtagggtg actttttaaa taaaaattta 2340
ttgaataatt aatgataaaa cataataata aacataaata ataaacaaaa ttaccgagaa 2400
ccccatcccc atataacacc aacagtgtac atgtttactg tcacttttga tatggtctta 2460
tccagtgtga acagcaattt attcttattt ttgctcatca aaaaataaag gattttcttc 2520
ttcacttga 2529
<210> 20
<211> 2639
<212> DNA
<213> Homo sapiens
<400> 20
ggcgccttgg gaccgcgtgg gagccgcagc cgaaccgagt agggaccggg accgcgcggc 60
gccgccgtcc ccggccgggc ccggcccccg cgagccgagc gcgcgccccc gtcgcccacc 120
cgggcgcggc tggatgcggc ggggtccccg cggcggcgac ccccggcccc gagcgcccgg 180
agcgcccaga ggcggcgtgc ggggcccggg gacgccgcgc cctccatgcg ccgaggcgcg 240
ccccgagaca gccgggggcc cgcgccgcag ccgccgcccg cgctgagccc cggcccggcc 300
cgcggcccgc gcccggcggc agcatgagcc aggccgagct gtccacctgc tccgcgccgc 360
agacgcagcg catcttccag gaggctgtgc gcaagggcaa cacgcaggag ctgcagtcgc 420
tgctgcagaa catgaccaac tgcgagttca acgtgaactc gttcgggccc gagggccaga 480
cggcgctgca ccagtcggtc atcgacggca acctggagct cgtgaagctg ctggtcaagt 540
tcggcgccga catccgcctg gccaaccgcg acggctggag cgcgctgcac atcgccgcgt 600
tcggtggcca ccaggacatc gtgctctatc tcatcaccaa ggcgaagtac gcggccagcg 660
gccggtgatg cccgccggga ccccggaccc cggccctgcg cccgcgtcgt ctctgctgta 720
ccttcccgcc aactacctcg gtgcgcgccc ggctcgcagg ccccgccaga aggcccgtgg 780
ccacggcgaa tacggcgcgt gcgtcccggc cccagggtcc ggcagccccg ccggccgagc 840
gcctccctgc ggcctagccg ggcccggccg ggccggagca gcttcccacg gcccccaccc 900
gctcgcctgc ccgccgcctc gcgggtgggg gcggggcgcg ggctccagcc ccttttgaaa 960
tttgagtctc gcaaccagca agttcggaat cccgagatac cggatcctct gcgcaaaatg 1020
ttttctcccg aaggtgaaag gcgggcggcg ggagccgaag gcggactcgg agcgctccgc 1080
cgccgccttc aggacccgcc cgcaggcccg ggacgcgccg atgccggctg cagccgagga 1140
gcagccccga ggtccgaggt ccgcgccgct ggcgcgcggc cgaggagacg ctcggctgtt 1200
cgctgttgct ggtgttctaa actatttatc ttgtgtgtgt acatttgtgg gtggagtttg 1260
tgcgcctggt ttttttgttt ggaaaacact gcgtggtcaa tgtggttatg ggggggagtg 1320
atgcattttt ttctagtctt aaaactaaaa acttgagtct accatttctt ggttgcactg 1380
aaaataccgc ccagcctgat ggtgttcccg tgctgtccct cccccttccc ttctccccgc 1440
gtctacctcc ccaccccgtt ctgttccccc tccctccttc tccctctccc tcaaatccgt 1500
gagttttgga agccccaggg cctctctccc ccgcccctcc tggatgaggc caccatcccc 1560
caaaccggct tgttttgcag tttccccagg atcctggaag ctcgctggcg ctcgagggtg 1620
gcggggacac gggggggtgg gtgaaggttc gttacctttt ctagtgcgtt ctatcatagt 1680
taacggttgc acactttttt aaaaaaagta aatggatttg ccacaattaa atgtcataac 1740
atttatgaca gaatataaaa tattaacata ttttaagcca agttttaggt gtattttttg 1800
aatcttggtt ataaacccaa ttttaaaggg cgatgtatcc agcgttgtga aggcaacaga 1860
gtgtacccat atttatattt ttataaaata cctataagac tgtgaatctc ttgtgctaat 1920
ggctgagtta attgaaggat cgttttgccc ctttttagcc tcccagagct tcgaggactc 1980
aattcgaacc cgaaatcctg ccgtggggga ggggttgcgt cgagacctgg gcccggggag 2040
gttctcctgc gtcactttct gtcctgaaag gcgcccttcc tggtttctgt ggctccaatt 2100
ttctatgcag ccccacaccc cttgttgttt tgatcctgag aaataaaagg gaggctgaat 2160
tattcaaatt taaatgaggt ttccccttca tggaagtgct gctgaccctt cgtgcagaaa 2220
tggggagcac ttgaggacac aggtgggtgg aggccctttg tgcgtggctg gtcgtattcg 2280
ggcagccctc cgtcgctttt tataaaactt tgtgtgagaa gaatatattg ataatgtcag 2340
tgaaacaagc agacattgaa atggaggcac agattactcc acaaggagtt cttctgtata 2400
ttttttctag atgcaaatac ctttttaatt atgttaatta atgttaagac tttctaggct 2460
tatatcgaag ctgtgtgtgg gtcacggggt gatcactgct aactggataa agtttgtgca 2520
gcacattcct gagtgtacga tattgacctg tagcccagcg tgaaaaattt ataaataaat 2580
ttttcattga tctttttata ttaaaaaaaa gtttcttggt caaaaaaaaa aaaaaaaaa 2639
<210> 21
<211> 6918
<212> DNA
<213> Homo sapiens
<400> 21
aaagtttgca ttgcaatccc cctgccttcc tctcctttct cccgatcaat gcatatttgc 60
aaaaggatta agccacagat ttaagcgccg ggagcccatt tctgccttgc aaaggagacc 120
ggactgaaaa acctaaagcc agctctgatt tcttttcgcc aagtgggaag gtggtttatt 180
tttcttgctt tttggagtca acacccttcc ccaccagccc ttatccccac cctcaccccg 240
caaccccttc acgccccctc cccctccccc tcctcatcct cccaccatcc tctaaagagg 300
caaagggatt ttttttttct tttggtcttc ttttttcccc cttccctgtt tatcctgaaa 360
aggatttgaa gacaagcttg aaggataaaa agccttggtg cttcccagga gccgagccga 420
ggagcagaag aggaagagcc gggggctgcc gtagcctttg gagatggacg agcagcccag 480
gctgatgcat tcccatgctg gggtcgggat ggccggacac cccggcctgt cccagcactt 540
gcaggatggg gccggaggga ccgaggggga gggcgggagg aagcaggaca ttggagacat 600
tttacagcaa attatgacca tcacagacca gagtttggat gaggcgcagg ccagaaaaca 660
tgctttaaac tgccacagaa tgaagcctgc cttgtttaat gtgttgtgtg aaatcaaaga 720
aaaaacagtt ttgagtatcc gaggagccca ggaggaggaa cccacagacc cccagctgat 780
gcggctggac aacatgctgt tagcggaagg cgtggcgggg cctgagaagg gcggagggtc 840
ggcggcagcg gcggcagcgg cggcggcttc tggaggggca ggttcagaca actcagtgga 900
gcattcagat tacagagcca aactctcaca gatcagacaa atctaccata cggagctgga 960
gaaatacgag caggcctgca acgagttcac cacccacgtg atgaatctcc tgcgagagca 1020
aagccggacc aggcccatct ccccaaagga gattgagcgg atggtcagca tcatccaccg 1080
caagttcagc tccatccaga tgcagctcaa gcagagcacg tgcgaggcgg tgatgatcct 1140
gcgttcccga tttctggatg cgcggcggaa gagacggaat ttcaacaagc aagcgacaga 1200
aatcctgaat gaatatttct attcccatct cagcaaccct taccccagtg aggaagccaa 1260
agaggagtta gccaagaagt gtggcatcac agtctcccag gtatcaaact ggtttggaaa 1320
taagcgaatc cggtacaaga agaacatagg taaatttcaa gaggaagcca atatttatgc 1380
tgccaaaaca gctgtcactg ctaccaatgt gtcagcccat ggaagccaag ctaactcgcc 1440
ctcaactccc aactcggctg gttcttccag ttcttttaac atgtcaaact ctggagattt 1500
gttcatgagc gtgcagtcac tcaatgggga ttcttaccaa ggggcccagg ttggagccaa 1560
cgtgcaatca caggtggata cccttcgcca tgttatcagc cagacaggag gatacagtga 1620
tggactcgca gccagtcaga tgtacagtcc gcagggcatc agtgctaatg gaggttggca 1680
ggatgctact accccttcat cagtgacctc ccctacagaa ggccctggca gtgttcactc 1740
tgatacctcc aactgatctc ccagcaatcg catcccggct gaccctgtgc cccagttggg 1800
gcaggggcag gagggagggt ttctctccca acgctgaagc ggtcagactg gaggtcgaag 1860
caatcagcaa acacaataag agtctccttc tcttctcttc tttgggatgc tatttcagcc 1920
aatctggaca cttctttata ctctcttccc ttttttttct gggtagaagc cacccttccc 1980
tgcctccagc tgtcagcctg gttttcgtca tcttccctgc ccctgtgcct ctgtcctaga 2040
ctcccggggt ccccgccctc tctcatatca ctgaaggata ttttcaacaa ttagaggaat 2100
ttaaagagga aaaaaattac aaagaaaata ataaaagtgt ttgtacgttt tcatgctggt 2160
ggtttgagga gccaaattta cctcactcga atccctcact ccctatgtta acaggcaatc 2220
cttctctgtt tctcttatta ctctcactac ctcttagcag gaatactcca cattgcccta 2280
ttcattccag gcctccctgc ttcctcttgc tcttcctccc tggggacagt actgattgga 2340
acactttcct cctcttcctt cctagcccca gctattcact ggggactgtc atagctggga 2400
ttctaaaggt gccacatttt tcagtttcat ctccactagg ttggttcccg ggcaggaagt 2460
caggcagcag ggaaggacac gggaacagca ggtggagaat tcctacagtc tttcttaccc 2520
tgctagcaat agctctcagt ttcagaggca cagtctttgg agaccattca gcactgagaa 2580
agcaatattt agaacctatt gcaaaactgg gcctgagtta ggcatggtga tgaatgcatc 2640
agcaaggaat agaaagttct tatcgtgaaa cccttcaacc tcaactatgc cttcatagac 2700
acacacgttc atgcacatgt aggcacatgt accatctcac atcttcactt tcccgagatg 2760
ccatatacaa ttacctacat taataactgt agcactatgc cttttgagcc cgagagaggg 2820
aattagtgac tctaagtgaa ggtcactgac acagagaagc agtatgtgtc tggggcttcc 2880
aggacctgca ggcccactag cgtgcactta ccagaatggc atacacagga cctgatcatg 2940
aggaagacca ggtttccagt gtaaactact cttgttccca ccacctctgg agcactcagg 3000
gagccccata cagtacttac aatgtcttta atggacttga ttctgtttaa ttttttgttt 3060
tatattaggc acactgtatt aattttccaa aatgttatac cacactatgt tcttggtcct 3120
gacctattgc tctggaggaa agagttgtat aagaacgtgg ctcatgtgaa cttttgctag 3180
cttcatttga ggacctgaga atcatgggga aagggaaggt aatgttttca ttgaaatcat 3240
cacagtgatt tttattccct gggaacacag cgtgtactaa aaatacatga gaaaatagca 3300
tgtatatgaa agctattctc aaaagtcacc tgagctcacc atcttcatag ccaaccctac 3360
cagttataaa gatggcagct ctatcacttg attaagtggg aggtggtcaa atattttggt 3420
gcctcatttt cttcatctgt gagatgggaa ctgttatgcc tggcttacta agagtcttgt 3480
gagagactga gaagttgatt ttgttcatat ccaatctgta aatgcgaagt caggggaagt 3540
aatgtccctg aaataaacgg gttcatgcca tctagggaca ataaatggtt ttcttgttgt 3600
aacttctggt taatatcagt accttgatgt catcaccgtg atgacaaaga gaagagttat 3660
tgttgatctt cttggttttg gtctgtctct tttcttagga taaagaaaaa cttccaaact 3720
agaaaaacag gccctggttc ccttagtttg cacttgaacc caatatgttg ccttgtacat 3780
acttggtccc tgtcacattg actgcttggg aggcttccag ggagaagtat gagaccctga 3840
ggggtgagaa tgggcagcta gcaagaacat ggaaattctg cttggcacta cagtcataaa 3900
tagaaaacac tgtgtgtgct caggggagca ggggatgcca ctgaagaaac tcaagggaat 3960
gtgtatttga aggaaatgca aaaactaagt atttagcaaa atgaaattat gccttgatga 4020
ctaaaaggca ctagaaaggt tgtgtctact aacttcagcc ctaatcagaa cagatgccta 4080
gaaggagcat ttttgtgaca acttcatagt gattagaatc agtggagaac tccatcttag 4140
tggcaggaat ataatgaaac tacccacgca agaacatggt tgaatcacat ttgcttgact 4200
tagggcaaag tacgaaagag agacaaaagg gttctcttgg aaacaagaag agtgactcca 4260
gatgtggcct gaataattgc catgttaagt taatgcaaaa gatcagaaca gggctacatt 4320
tgcacaggca gtttctctcc gggccgtagt tttcactgat gatcaccttt cacagcattt 4380
tccccaacca gcatttcact tagtcttctc tatacccagc acctcccccg gcacccccgg 4440
caagcccact atcacttccg acttccaacg tggcatccgt gagatctgtc cacattaggc 4500
gaagcaggag aacactgaga gcagcaggat gggtttggaa agagcatgcc tctggaaaca 4560
cagcttcctg ggaattcaca tgaggccagt cctacagaga gcaagatgca ccccaggatt 4620
tcttcatttt ctaatagatg tgggagtgct ccattttccc cgacagcgaa tttcccctga 4680
gaaacgatac tagaccctgg gtttgcccac cttgtaactc ttccttatct cctccttttc 4740
atccctaatc catcctccct ctggcatgga attgacgccc gtgcagtaca tttgccaagt 4800
ggcaccttct ttcaatttat gttttatttt gctatggtgg tgattcttta tttgctggtt 4860
gtcttttctc acacatcttt ctctctgtct ctctctttcc tgctctttgt ttttctgccc 4920
agaaaaacct gacttcgata ccaaaaaaga tgaaactaca gaaactcaaa tttaaaaaaa 4980
actttaaaag aaacaaaaaa atactcaacg attctttcag ctttattaac attttccatt 5040
gtttcttgcg acttgtgtct cgttctttgt agtattgatg atgaacattt gataatgaat 5100
gttcttgtat attcagataa agaaaaaaaa aaccaaaaaa gcggtctgaa tttaatagtg 5160
tttataataa aaattttaaa aatgaccctc atagcacgca aaacaggatg gggaatttcc 5220
cctcttcttt ctgtgacaat gcgcatcatt cctgcattag tttttaacac cagactacct 5280
acattcatca tttccctcat ttttctttta ttttcttgca tttgtgaatt agttcaagaa 5340
tgctagaaaa gtgtcgagtt gtgcacatcc atttcttgtt tcacaatgtt taaaagtgac 5400
agtaattcat tttgtaaact aaaaaaaaaa aaaaaaaggt tggaatagtg agcataatag 5460
gtacaaccta acacattatt atgtttatta actttgagac ccagaaataa attcttttct 5520
tttcttgatt cttgctctta aaaatacaaa aaaaaaaatg ttttgttttg tgttattttt 5580
ggtttgttta ttggggggct ttttttaatt gtcaggatta tgatcttgct gtttttcttc 5640
aatatgtata caaggtgatg tgaaaagatg acttgggcag aggagtaaga acaagtaggc 5700
ttgttcttct actttgcttc agaattcagt taatgccaaa agcgaagatc aagcccatgt 5760
tgatgtctcg ttgctcacct gcatttccag agagtgtgac actcatgcag tccctgagaa 5820
aaataaaatc agggacatac ttctcctttt agccttttaa aaattcaaaa acgtttagtc 5880
caagggaact ttttatgcta tcaggaaagg tttttgctgt ttttgattct gattatcaca 5940
gccaagtact ttgttttatt tctccctaat taataactac attccatgag gcctcttcca 6000
accaaagagg ccttttcttc caggagagtc ccgcaggaga tgctggtatg atgggcacca 6060
ttggttaagt aaactacatg caggaagaag tccttggggc cagtctgcca gctgagtcct 6120
ggttttggat gaagagttaa tgagatattg ggccaggctc aatgctgtag ttttaatgct 6180
aagaggttac gtttacttca cagagtacac ctcttagtaa cctctgactt aggcagctgc 6240
ttaaagcaaa ttgcaaaact ggcttgattt ggaatgtttt tattagagga aaaaagaaag 6300
ccatattatc tggaaaaaaa ttcattttaa ataccatcat tcaacaaatt atgttcagaa 6360
agtggtcaga acttaagcaa gaaaagtaaa gaaagaatgc agaattgtgg agcaatgctt 6420
taggaaatat ttctacctga acacttgtac tcttgaagtc acaacaaaat aatgatgagc 6480
ttttcacatc acctttatgg tttcaatccc tagctcaaag cttcctggaa tcttttattt 6540
tttgtaaact tttttttctt ttgttaaaat aaataaaaca ttcaatgttt ttctcctttt 6600
ctctcttatt acttctttcc tttggcattt tcaatttgaa atgctttcct ttggttgttg 6660
gttttattct ccccctaccc ctcccctttt cttattattc agaatataaa cctgcaaagc 6720
tctgctctgt tttggttttg aaagtttaag cttttctgct tctgtgagag cacaggcttc 6780
tgtccctttt gattccaact gaacttttgt gttctctaat gatactaaca cggtgtaggt 6840
tttacagtct cctaatttgt actggtaatg catattccaa ataaatagtt tcttttgttg 6900
caaaaaaaaa aaaaaaaa 6918
<210> 22
<211> 1138
<212> DNA
<213> Homo sapiens
<400> 22
ggaccgttag ggagcccaat gggcgtcgcc gccaggcccc gttgcagagc gcgtctagcc 60
aataggcagc ggcggcgggc gggcgcgggc gacaggcggc gcagctgagg cggagcaggc 120
gctgcggcag gagggaagat ggcggacgag gagaagctgc cgcccggctg ggagaagcgc 180
atgagccgca gctcaggccg agtgtactac ttcaaccaca tcactaacgc cagccagtgg 240
gagcggccca gcggcaacag cagcagtggt ggcaaaaacg ggcaggggga gcctgccagg 300
gtccgctgct cgcacctgct ggtgaagcac agccagtcac ggcggccctc gtcctggcgg 360
caggagaaga tcacccggac caaggaggag gccctggagc tgatcaacgg ctacatccag 420
aagatcaagt cgggagagga ggactttgag tctctggcct cacagttcag cgactgcagc 480
tcagccaagg ccaggggaga cctgggtgcc ttcagcagag gtcagatgca gaagccattt 540
gaagacgcct cgtttgcgct gcggacgggg gagatgagcg ggcccgtgtt cacggattcc 600
ggcatccaca tcatcctccg cactgagtga gggtggggag cccaggcctg gcctcggggc 660
agggcagggc ggctaggccg gccagctccc ccttgcccgc cagccagtgg ccgaaccccc 720
cactccctgc caccgtcaca cagtatttat tgttcccaca atggctggga gggggccctt 780
ccagattggg ggccctgggg tccccactcc ctgtccatcc ccagttgggg ctgcgaccgc 840
cagattctcc cttaaggaat tgacttcagc aggggtggga ggctcccaga cccagggcag 900
tgtggtggga ggggtgttcc aaagagaagg cctggtcagc agagccgccc cgtgtccccc 960
caggtgctgg aggcagactc gagggccgaa ttgtttctag ttaggccacg ctcctctgtt 1020
cagtcgcaaa ggtgaacact catgcggccc agccatgggc cctctgagca actgtgcagc 1080
accctttcac ccccaattaa acccagaacc actgctctgc aaaaaaaaaa aaaaaaaa 1138
<210> 23
<211> 6977
<212> DNA
<213> Homo sapiens
<400> 23
cccgggcccg ccccccgcct cccgccgcct ccgggctccc ggctcccggc cgcgcctcgc 60
cccatgcact cgccgcgccg cgcagcccgc gcacgcccgg atggctcctc gcgccgcggg 120
cggcgcaccc cttagcgccc gggccgccgc cgccagcccc ccgccgttcc agacgccgcc 180
gcggtgcccg gtgccgctgc tgttgctgct gctcctgggg gcggcgcggg ccggcgccct 240
ggagatccag cgtcggttcc cctcgcccac gcccaccaac aacttcgccc tggacggcgc 300
ggcggggacc gtgtacctgg cggccgtcaa ccgcctctat cagctgtcgg gcgccaacct 360
gagcctggag gccgaggcgg ccgtgggccc ggtgcccgac agcccgctgt gtcacgctcc 420
gcagctgccg caggcctcgt gcgagcaccc gcggcgcctc acggacaact acaacaagat 480
cctgcagctg gaccccggcc agggcctggt agtcgtgtgc gggtccatct accagggctt 540
ctgccagctg cggcgccggg gcaacatctc ggccgtggcc gtgcgcttcc cgcccgccgc 600
gccgcccgcc gagcccgtca cggtgttccc cagcatgctg aacgtggcgg ccaaccaccc 660
gaacgcgtcc accgtggggc tagttctgcc tcccgccgcg ggcgcggggg gcagccgcct 720
gctcgtgggc gccacgtaca ccggttacgg cagctccttc ttcccgcgca accgcagcct 780
ggaggaccac cgcttcgaga acacgcccga gatcgccatc cgctccctgg acacgcgcgg 840
cgacctggcc aagctcttca ccttcgacct caacccctcc gacgacaaca tcctcaagat 900
caagcagggc gccaaggagc agcacaagct gggcttcgtg agcgccttcc tgcacccgtc 960
cgacccgccg ccgggtgcac agtcctacgc gtacctggcg ctcaacagcg aggcgcgcgc 1020
gggcgacaag gagagccagg cgcggagcct gctggcgcgc atctgcctgc cccacggcgc 1080
cggcggcgac gccaagaagc tcaccgagtc ctacatccag ttgggcttgc agtgcgcggg 1140
cggcgcgggc cgcggcgacc tctacagccg cctggtgtcg gtcttcccag cccgggagcg 1200
gctctttgct gtcttcgagc ggccccaggg gtcccccgcg gcccgcgctg ctccggccgc 1260
actctgcgcc ttccgcttcg ccgacgtgcg agccgccatc cgagctgcgc gcaccgcctg 1320
cttcgtggaa ccggcgcccg acgtggtggc ggtgctcgac agcgtggtgc agggcacggg 1380
accggcctgc gagcgcaagc tcaacatcca gctccagcca gagcagctgg actgtggagc 1440
tgctcacctg cagcacccgc tgtccatcct gcagcccctg aaggccacgc ccgtgttccg 1500
cgccccgggc ctcacctccg tggccgtggc cagcgtcaac aactacacag cggtcttcct 1560
gggcacggtc aacgggaggc ttctcaagat caacctgaac gagagcatgc aggtggtgag 1620
caggcgggtg gtgactgtgg cctatgggga gcccgtgcac catgtcatgc agtttgaccc 1680
agcagactcc ggttaccttt acctgatgac gtcccaccag atggccaggg tgaaggtcgc 1740
cgcctgcaac gtgcactcca cctgtgggga ctgcgtgggt gcggcggacg cctactgcgg 1800
ctggtgtgcc ctggagacgc ggtgcacctt gcagcaggac tgcaccaatt ccagccagca 1860
gcatttctgg accagtgcca gcgagggccc cagccgctgt cctgccatga ccgtcctgcc 1920
ttccgagatc gatgtgcgcc aggagtaccc aggcatgatc ctgcagatct cgggcagcct 1980
gcccagcctc agtggcatgg agatggcctg tgactatggg aacaacatcc gcactgtggc 2040
tcgggtccca ggccctgcct ttggtcacca gattgcctac tgcaacctcc tgccgaggga 2100
ccagtttccg cccttccccc ccaaccagga ccacgtgact gttgagatgt ctgtgagggt 2160
caatgggcgg aacatcgtca aggccaattt caccatctac gactgcagcc gcactgcaca 2220
agtgtacccc cacacagcct gtaccagctg cctgtcggca cagtggccct gtttctggtg 2280
cagccagcag cactcctgtg tttccaacca gtctcggtgc gaggcctcac caaaccccac 2340
gagccctcag gactgccccc ggaccctgct ctcacccctg gcacccgtgc ctacgggtgg 2400
ctcccagaac atcctggtgc ctctggccaa cactgccttt ttccagggtg cagccctgga 2460
gtgtagtttt gggctggagg agatcttcga ggctgtgtgg gtgaatgagt ctgttgtacg 2520
ctgtgaccag gtggtgctgc acacgacccg gaagagccag gtgttcccgc tcagcctcca 2580
actaaagggg cggccagccc gattcctgga cagccctgag cccatgacag tcatggtcta 2640
taactgtgcc atgggcagcc ccgactgttc ccagtgcctg ggccgcgaag acctgggtca 2700
cctgtgcatg tggagtgatg gctgccgcct gcgggggcct ctgcagccca tggctggcac 2760
ctgccccgcc cccgagatcc gcgcgattga gcccctgagt ggcccgttgg acggtgggac 2820
cctgctgacc atccgaggaa ggaacctggg ccggcggctc agtgacgtgg cccacggcgt 2880
gtggattggt ggtgtggcct gtgagccact gcctgacaga tacacggtgt cggaggagat 2940
cgtgtgtgtc acagggccag ccccaggacc actctcaggt gtggtgaccg tgaacgcctc 3000
taaggagggc aagtcccggg accgcttctc ctacgtgctg cccctggtcc actccctgga 3060
gcctaccatg ggccccaagg ccgggggcac caggatcacc atccatggga atgacctcca 3120
tgtaggctcc gagctccagg tcctggtgaa cgacacagac ccctgcacgg agctgatgcg 3180
cacagatacc agcatcgcct gcaccatgcc tgagggggcc ctgccggctc cggtgcctgt 3240
gtgtgtgcgc ttcgagcgtc ggggctgcgt gcacggcaac ctcaccttct ggtacatgca 3300
gaacccggtc atcacggcca tcagtccccg ccgcagccct gtcagtggcg gcaggaccat 3360
cacagtggct ggtgagcgtt tccacatggt gcagaatgtg tccatggccg tccaccacat 3420
tggccgggag cccacgctct gcaaggttct caactccacc ctcatcacct gcccgtcccc 3480
cggggccctg agcaacgcat cagcgccagt ggacttcttc atcaatgggc gggcctacgc 3540
agacgaggtg gctgtggctg aggagctact ggaccccgag gaggcacagc ggggcagcag 3600
gttccgcctg gactacctcc ccaacccaca gttctctacg gccaagaggg agaagtggat 3660
caagcaccac cccggggagc ctctcaccct cgttatccac aaggagcagg acagcctggg 3720
gctccagagt cacgagtacc gggtcaagat aggccaagta agctgcgaca tccagattgt 3780
ctctgacaga atcatccact gctcggtcaa cgagtccctg ggcgcggccg tggggcagct 3840
gcccatcaca atccaggtag ggaacttcaa ccagaccatc gccacactgc agctgggggg 3900
cagcgagacg gccatcatcg tgtccatcgt catctgcagc gtcctgctgc tgctctccgt 3960
ggtggccctg ttcgtcttct gtaccaagag ccgacgtgct gagcgttact ggcagaagac 4020
gctgctgcag atggaggaga tggaatctca gatccgagag gaaatccgca aaggcttcgc 4080
tgagctgcag acagacatga cagatctcac caaggagctg aaccgcagcc agggcatccc 4140
cttcctggag tataagcact tcgtgacccg caccttcttc cccaagtgtt cctcccttta 4200
tgaagagcgt tacgtgctgc cctcccagac cctcaactcc cagggcagct cccaggcaca 4260
ggaaacccac ccactgctgg gagagtggaa gattcctgag agctgccggc ccaacatgga 4320
agagggaatt agcttgttct cctcactact caacaacaag cacttcctca tcgtctttgt 4380
ccacgcgctg gagcagcaga aggactttgc ggtgcgcgac aggtgcagcc tggcctcgct 4440
gctgaccatc gcgctgcacg gcaagctgga gtactacacc agcatcatga aggagctgct 4500
ggtggacctc attgacgcct cggccgccaa gaaccccaag ctcatgctgc ggcgcacaga 4560
gtctgtggtg gagaagatgc tcaccaactg gatgtccatc tgcatgtaca gctgtctgcg 4620
ggagacggtg ggggagccat tcttcctgct gctgtgtgcc atcaagcagc aaatcaacaa 4680
gggctccatc gacgccatca caggcaaggc ccgctacaca ctcaatgagg agtggctgct 4740
gcgggagaac atcgaggcca agccccggaa cctgaacgtg tccttccagg gctgtggcat 4800
ggactcgctg agcgtgcggg ccatggacac cgacacgctg acacaggtca aggagaagat 4860
cctggaggcc ttctgcaaga atgtgcccta ctcccagtgg ccgcgtgcag aggacgtcga 4920
ccttgagtgg ttcgcctcca gcacacagag ctacatcctt cgggacctgg acgacacctc 4980
agtggtggaa gacggccgca agaagcttaa cacgctggcc cattacaaga tccctgaagg 5040
tgcctccctg gccatgagtc tcatagacaa gaaggacaac acactgggcc gagtgaaaga 5100
cttggacaca gagaagtatt tccatttggt gctgcctacg gacgagctgg cggagcccaa 5160
gaagtctcac cggcagagcc atcgcaagaa ggtgctcccg gaaatctacc tgacccgcct 5220
gctctccacc aagggcacgt tgcagaagtt tctggatgac ctgttcaagg ccattctgag 5280
tatccgtgaa gacaagcccc cactggctgt caagtacttt ttcgacttcc tggaggagca 5340
ggctgagaag aggggaatct ccgaccccga caccctacac atctggaaga ccaacagcct 5400
tcctctccgg ttctgggtga acatcctgaa gaacccccag tttgtctttg acatcgacaa 5460
gacagaccac atcgacgcct gcctttcagt catcgcgcag gccttcatcg acgcctgctc 5520
catctctgac ctgcagctgg gcaaggattc gccaaccaac aagctcctct acgccaagga 5580
gattcctgag taccggaaga tcgtgcagcg ctactacaag cagatccagg acatgacgcc 5640
gctcagcgag caagagatga atgcccatct ggccgaggag tcgaggaaat accagaatga 5700
gttcaacacc aatgtggcca tggcagagat ttataagtac gccaagaggt atcggccgca 5760
gatcatggcc gcgctggagg ccaaccccac ggcccggagg acacaactgc agcacaagtt 5820
tgagcaggtg gtggctttga tggaggacaa catctacgag tgctacagtg aggcctgaga 5880
cacatggaga gttggtcagg ctgctgctgg gagaaatgga cgcccactgg gcctcaactt 5940
gatcttctac cccgtgcctg tgactcagac tgggaaatac tgagcagaga cggctggggc 6000
gggggcagga ggaggggctg ctctctgaga caggggcgcc cccgccttga cccctgggca 6060
cctccatccc ctcccacctg tccccagatc agtctctggg atggaggcca gagagctggt 6120
caggctcccc catctgccca gcacggcctg cactgtgccc acccacttgc tccacaacgt 6180
ccagttggtc ctgctgccaa gagccccgtg catccaggcg gccaagcaca aactggggga 6240
gaggaggccg ccagcccgga ggctgcagcc cagaaactct acctcatcca cactggtgca 6300
gggagccctc cttgaactga cctttgattg gtttctgctt caactaccaa aatgttatct 6360
ccacttcccc ctcacccgta gaggatcctg gccacagaca gtttcaagta gtgtcagatt 6420
tttgttgctt gggcggctgt tggtagagtg ggcagtgccc gcgccatggg gtgctctgtg 6480
ggcttctcca ggagcaggga gggtggaggg gagggatggg gggcacagga gctgggagcc 6540
ccgtctccag gaaaaggaga ggggttaaga tgcaccgagg ctgtagctgg gctacttgat 6600
cttgctgaaa gtgtttctaa agatagcacc actttttttt ttaaagcttt tatatattaa 6660
aaaacgtatc atgcaccaac tgtgaatagc tgccgcttgc gcagaggacc cggggagggg 6720
tcccgagagg ctccccatgc aacactggaa atgactgttc cagagagcgg gcagacctgg 6780
cagagcgccc ctggcgcctg agactaccac ccactccgtt cctgccagaa acgaccctct 6840
gtggccgatg ggccatgcgg gcccctcgca gccaactcag ccagtgttgg gactggctca 6900
gagcccatgg gggctggagg ggggcagctg ggactctgga atcttcttta taataaaagc 6960
cttacggaca aacctac 6977
<210> 24
<211> 1097
<212> DNA
<213> Homo sapiens
<400> 24
tagaaggcag tcttgtgggt gcctcctccc ccagccgcaa ctcaggtctg cagctgggtc 60
ctgcctcctt ccgagtgggc catggccggt acatggctgc tacttctcct ggcccttggg 120
tgtccagccc tacccacagg tgtgggcggc acaccctttc cttctctggc cccaccaatc 180
atgctgctgg tggatggaaa gcagcagatg gtggtggtct gcctggtcct tgatgttgca 240
ccccctggcc ttgacagccc catctggttc tcagccggca atggcagtgc actggatgcc 300
ttcacctatg gcccttcccc agcaacggat ggcacctgga ccaacttggc ccatctctcc 360
ctgccttctg aggagctggc atcctgggag cctttggtct gccacactgg gcctggggct 420
gagggtcaca gcaggagtac acagcccatg catctgtcag gagaggcttc tacagccagg 480
acctgccccc aggagcctct cagggggaca ccgggtgggg cgctgtggct gggggtcctg 540
cggctgctgc tcttcaagct gctgctgttt gacctgctcc tgacctgcag ctgcctgtgc 600
gaccccgcgg gcccgctgcc ttcccccgca accaccaccc gcctgcgagc cctcggctcc 660
catcgactgc acccggccac ggagactggg ggacgagagg ccaccagctc acccagaccc 720
cagcctcggg accgccgctg gggtgacacc cctccgggtc ggaagcccgg gagcccagta 780
tggggggaag ggtcttacct cagcagttac cccacttgcc cagcacaggc ctggtgctca 840
agatctgccc tcagggctcc ttcctccagt cttggagcat tttttgcagg tgacctgcct 900
cctcctctgc aggctggagc tgcctgaggg cagggctcta cctcccctgc gtcacactgt 960
gtgaggctgt gtctctgcca tccaaaaggg ggccccttga gaatggtgat ccacccagtt 1020
acaggggcat ttagggagca gatgactgag aacattaaaa aagaacttaa atgacacagc 1080
aaaaaaaaaa aaaaaaa 1097
<210> 25
<211> 3963
<212> DNA
<213> Homo sapiens
<400> 25
ggagagccga aagcggagct cgaaactgac tggaaacttc agtggcgcgg agactcgcca 60
gtttcaaccc cggaaacttt tctttgcagg aggagaagag aaggggtgca agcgccccca 120
cttttgctct ttttcctccc ctcctcctcc tctccaattc gcctcccccc acttggagcg 180
ggcagctgtg aactggccac cccgcgcctt cctaagtgct cgccgcggta gccggccgac 240
gcgccagctt ccccgggagc cgcttgctcc gcatccgggc agccgagggg agaggagccc 300
gcgcctcgag tccccgagcc gccgcggctt ctcgcctttc ccggccacca gccccctgcc 360
ccgggcccgc gtatgaatct cctggacccc ttcatgaaga tgaccgacga gcaggagaag 420
ggcctgtccg gcgcccccag ccccaccatg tccgaggact ccgcgggctc gccctgcccg 480
tcgggctccg gctcggacac cgagaacacg cggccccagg agaacacgtt ccccaagggc 540
gagcccgatc tgaagaagga gagcgaggag gacaagttcc ccgtgtgcat ccgcgaggcg 600
gtcagccagg tgctcaaagg ctacgactgg acgctggtgc ccatgccggt gcgcgtcaac 660
ggctccagca agaacaagcc gcacgtcaag cggcccatga acgccttcat ggtgtgggcg 720
caggcggcgc gcaggaagct cgcggaccag tacccgcact tgcacaacgc cgagctcagc 780
aagacgctgg gcaagctctg gagacttctg aacgagagcg agaagcggcc cttcgtggag 840
gaggcggagc ggctgcgcgt gcagcacaag aaggaccacc cggattacaa gtaccagccg 900
cggcggagga agtcggtgaa gaacgggcag gcggaggcag aggaggccac ggagcagacg 960
cacatctccc ccaacgccat cttcaaggcg ctgcaggccg actcgccaca ctcctcctcc 1020
ggcatgagcg aggtgcactc ccccggcgag cactcggggc aatcccaggg cccaccgacc 1080
ccacccacca cccccaaaac cgacgtgcag ccgggcaagg ctgacctgaa gcgagagggg 1140
cgccccttgc cagagggggg cagacagccc cctatcgact tccgcgacgt ggacatcggc 1200
gagctgagca gcgacgtcat ctccaacatc gagaccttcg atgtcaacga gtttgaccag 1260
tacctgccgc ccaacggcca cccgggggtg ccggccacgc acggccaggt cacctacacg 1320
ggcagctacg gcatcagcag caccgcggcc accccggcga gcgcgggcca cgtgtggatg 1380
tccaagcagc aggcgccgcc gccacccccg cagcagcccc cacaggcccc gccggccccg 1440
caggcgcccc cgcagccgca ggcggcgccc ccacagcagc cggcggcacc cccgcagcag 1500
ccacaggcgc acacgctgac cacgctgagc agcgagccgg gccagtccca gcgaacgcac 1560
atcaagacgg agcagctgag ccccagccac tacagcgagc agcagcagca ctcgccccaa 1620
cagatcgcct acagcccctt caacctccca cactacagcc cctcctaccc gcccatcacc 1680
cgctcacagt acgactacac cgaccaccag aactccagct cctactacag ccacgcggca 1740
ggccagggca ccggcctcta ctccaccttc acctacatga accccgctca gcgccccatg 1800
tacaccccca tcgccgacac ctctggggtc ccttccatcc cgcagaccca cagcccccag 1860
cactgggaac aacccgtcta cacacagctc actcgacctt gaggaggcct cccacgaagg 1920
gcgaagatgg ccgagatgat cctaaaaata accgaagaaa gagaggacca accagaattc 1980
cctttggaca tttgtgtttt tttgtttttt tattttgttt tgttttttct tcttcttctt 2040
cttccttaaa gacatttaag ctaaaggcaa ctcgtaccca aatttccaag acacaaacat 2100
gacctatcca agcgcattac ccacttgtgg ccaatcagtg gccaggccaa ccttggctaa 2160
atggagcagc gaaatcaacg agaaactgga ctttttaaac cctcttcaga gcaagcgtgg 2220
aggatgatgg agaatcgtgt gatcagtgtg ctaaatctct ctgcctgttt ggactttgta 2280
attatttttt tagcagtaat taaagaaaaa agtcctctgt gaggaatatt ctctatttta 2340
aatattttta gtatgtactg tgtatgattc attaccattt tgaggggatt tatacatatt 2400
tttagataaa attaaatgct cttatttttc caacagctaa actactctta gttgaacagt 2460
gtgccctagc ttttcttgca accagagtat ttttgtacag atttgctttc tcttacaaaa 2520
agaaaaaaaa aatcctgttg tattaacatt taaaaacaga attgtgttat gtgatcagtt 2580
ttgggggtta actttgctta attcctcagg ctttgcgatt taaggaggag ctgccttaaa 2640
aaaaaataaa ggccttattt tgcaattatg ggagtaaaca atagtctaga gaagcatttg 2700
gtaagcttta tcatatatat attttttaaa gaagagaaaa acaccttgag ccttaaaacg 2760
gtgctgctgg gaaacatttg cactctttta gtgcatttcc tcctgccttt gcttgttcac 2820
tgcagtctta agaaagaggt aaaaggcaag caaaggagat gaaatctgtt ctgggaatgt 2880
ttcagcagcc aataagtgcc cgagcacact gcccccggtt gcctgcctgg gccccatgtg 2940
gaaggcagat gcctgctcgc tctgtcacct gtgcctctca gaacaccagc agttaacctt 3000
caagacattc cacttgctaa aattatttat tttgtaagga gaggttttaa ttaaaacaaa 3060
aaaaaattct tttttttttt tttttccaat tttaccttct ttaaaatagg ttgttggagc 3120
tttcctcaaa gggtatggtc atctgttgtt aaattatgtt cttaactgta accagttttt 3180
ttttatttat ctctttaatc tttttttatt attaaaagca agtttctttg tattcctcac 3240
cctagatttg tataaatgcc tttttgtcca tccctttttt ctttgttgtt tttgttgaaa 3300
acaaactgga aacttgtttc tttttttgta taaatgagag attgcaaatg tagtgtatca 3360
ctgagtcatt tgcagtgttt tctgccacag acctttgggc tgccttatat tgtgtgtgtg 3420
tgtgggtgtg tgtgtgtttt gacacaaaaa caatgcaagc atgtgtcatc catatttctc 3480
tgcatcttct cttggagtga gggaggctac ctggagggga tcagcccact gacagacctt 3540
aatcttaatt actgctgtgg ctagagagtt tgaggattgc tttttaaaaa agacagcaaa 3600
cttttttttt tatttaaaaa aagatatatt aacagtttta gaagtcagta gaataaaatc 3660
ttaaagcact cataatatgg catccttcaa tttctgtata aaagcagatc tttttaaaaa 3720
gatacttctg taacttaaga aacctggcat ttaaatcata ttttgtcttt aggtaaaagc 3780
tttggtttgt gttcgtgttt tgtttgtttc acttgtttcc ctcccagccc caaacctttt 3840
gttctctccg tgaaacttac ctttcccttt ttctttctct tttttttttt tgtatattat 3900
tgtttacaat aaatatacat tgcattaaaa agaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3960
aaa 3963
<210> 26
<211> 8605
<212> DNA
<213> Homo sapiens
<400> 26
aattcgccaa ctgaaaaagt gggaaaggat gtctggaggc gaggcgtccc attacagagg 60
aaggagctcg ctatataagc cagccaaagt tggctgcacc ggccacagcc tgcctactgt 120
cacccgcctc tcccgcgcgc agatacacgc ccccgcctcc gtgggcacaa aggcagcgct 180
gctggggaac tcgggggaac gcgcacgtgg gaaccgccgc agctccacac tccaggtact 240
tcttccaagg acctaggtct ctcgcccatc ggaaagaaaa taattctttc aagaagatca 300
gggacaactg atttgaagtc tactctgtgc ttctaaatcc ccaattctgc tgaaagtgag 360
ataccctaga gccctagagc cccagcagca cccagccaaa cccacctcca ccatgggggc 420
catgactcag ctgttggcag gtgtctttct tgctttcctt gccctcgcta ccgaaggtgg 480
ggtcctcaag aaagtcatcc ggcacaagcg acagagtggg gtgaacgcca ccctgccaga 540
agagaaccag ccagtggtgt ttaaccacgt ttacaacatc aagctgccag tgggatccca 600
gtgttcggtg gatctggagt cagccagtgg ggagaaagac ctggcaccgc cttcagagcc 660
cagcgaaagc tttcaggagc acacagtgga tggggaaaac cagattgtct tcacacatcg 720
catcaacatc ccccgccggg cctgtggctg tgccgcagcc cctgatgtta aggagctgct 780
gagcagactg gaggagctgg agaacctggt gtcttccctg agggagcaat gtactgcagg 840
agcaggctgc tgtctccagc ctgccacagg ccgcttggac accaggccct tctgtagcgg 900
tcggggcaac ttcagcactg aaggatgtgg ctgtgtctgc gaacctggct ggaaaggccc 960
caactgctct gagcccgaat gtccaggcaa ctgtcacctt cgaggccggt gcattgatgg 1020
gcagtgcatc tgtgacgacg gcttcacggg cgaggactgc agccagctgg cttgccccag 1080
cgactgcaat gaccagggca agtgcgtaaa tggagtctgc atctgtttcg aaggctacgc 1140
cggggctgac tgcagccgtg aaatctgccc agtgccctgc agtgaggagc acggcacatg 1200
tgtagatggc ttgtgtgtgt gccacgatgg ctttgcaggc gatgactgca acaagcctct 1260
gtgtctcaac aattgctaca accgtggacg atgcgtggag aatgagtgcg tgtgtgatga 1320
gggtttcacg ggcgaagact gcagtgagct catctgcccc aatgactgct tcgaccgggg 1380
ccgctgcatc aatggcacct gctactgcga agaaggcttc acaggtgaag actgcgggaa 1440
acccacctgc ccacatgcct gccacaccca gggccggtgt gaggaggggc agtgtgtatg 1500
tgatgagggc tttgccggtg tggactgcag cgagaagagg tgtcctgctg actgtcacaa 1560
tcgtggccgc tgtgtagacg ggcggtgtga gtgtgatgat ggtttcactg gagctgactg 1620
tggggagctc aagtgtccca atggctgcag tggccatggc cgctgtgtca atgggcagtg 1680
tgtgtgtgat gagggctata ctggggagga ctgcagccag ctacggtgcc ccaatgactg 1740
tcacagtcgg ggccgctgtg tcgagggcaa atgtgtatgt gagcaaggct tcaagggcta 1800
tgactgcagt gacatgagct gccctaatga ctgtcaccag cacggccgct gtgtgaatgg 1860
catgtgtgtt tgtgatgacg gctacacagg ggaagactgc cgggatcgcc aatgccccag 1920
ggactgcagc aacaggggcc tctgtgtgga cggacagtgc gtctgtgagg acggcttcac 1980
cggccctgac tgtgcagaac tctcctgtcc aaatgactgc catggccagg gtcgctgtgt 2040
gaatgggcag tgcgtgtgcc atgaaggatt tatgggcaaa gactgcaagg agcaaagatg 2100
tcccagtgac tgtcatggcc agggccgctg cgtggacggc cagtgcatct gccacgaggg 2160
cttcacaggc ctggactgtg gccagcactc ctgccccagt gactgcaaca acttaggaca 2220
atgcgtctcg ggccgctgca tctgcaacga gggctacagc ggagaagact gctcagaggt 2280
gtctcctccc aaagacctcg ttgtgacaga agtgacggaa gagacggtca acctggcctg 2340
ggacaatgag atgcgggtca cagagtacct tgtcgtgtac acgcccaccc acgagggtgg 2400
tctggaaatg cagttccgtg tgcctgggga ccagacgtcc accatcatcc aggagctgga 2460
gcctggtgtg gagtacttta tccgtgtatt tgccatcctg gagaacaaga agagcattcc 2520
tgtcagcgcc agggtggcca cgtacttacc tgcacctgaa ggcctgaaat tcaagtccat 2580
caaggagaca tctgtggaag tggagtggga tcctctagac attgcttttg aaacctggga 2640
gatcatcttc cggaatatga ataaagaaga tgagggagag atcaccaaaa gcctgaggag 2700
gccagagacc tcttaccggc aaactggtct agctcctggg caagagtatg agatatctct 2760
gcacatagtg aaaaacaata cccggggccc tggcctgaag agggtgacca ccacacgctt 2820
ggatgccccc agccagatcg aggtgaaaga tgtcacagac accactgcct tgatcacctg 2880
gttcaagccc ctggctgaga tcgatggcat tgagctgacc tacggcatca aagacgtgcc 2940
aggagaccgt accaccatcg atctcacaga ggacgagaac cagtactcca tcgggaacct 3000
gaagcctgac actgagtacg aggtgtccct catctcccgc agaggtgaca tgtcaagcaa 3060
cccagccaaa gagaccttca caacaggcct cgatgctccc aggaatcttc gacgtgtttc 3120
ccagacagat aacagcatca ccctggaatg gaggaatggc aaggcagcta ttgacagtta 3180
cagaattaag tatgccccca tctctggagg ggaccacgct gaggttgatg ttccaaagag 3240
ccaacaagcc acaaccaaaa ccacactcac aggtctgagg ccgggaactg aatatgggat 3300
tggagtttct gctgtgaagg aagacaagga gagcaatcca gcgaccatca acgcagccac 3360
agagttggac acgcccaagg accttcaggt ttctgaaact gcagagacca gcctgaccct 3420
gctctggaag acaccgttgg ccaaatttga ccgctaccgc ctcaattaca gtctccccac 3480
aggccagtgg gtgggagtgc agcttccaag aaacaccact tcctatgtcc tgagaggcct 3540
ggaaccagga caggagtaca atgtcctcct gacagccgag aaaggcagac acaagagcaa 3600
gcccgcacgt gtgaaggcat ccactgaaca agcccctgag ctggaaaacc tcaccgtgac 3660
tgaggttggc tgggatggcc tcagactcaa ctggaccgca gctgaccagg cctatgagca 3720
ctttatcatt caggtgcagg aggccaacaa ggtggaggca gctcggaacc tcaccgtgcc 3780
tggcagcctt cgggctgtgg acataccggg cctcaaggct gctacgcctt atacagtctc 3840
catctatggg gtgatccagg gctatagaac accagtgctc tctgctgagg cctccacagg 3900
ggaaactccc aatttgggag aggtcgtggt ggccgaggtg ggctgggatg ccctcaaact 3960
caactggact gctccagaag gggcctatga gtactttttc attcaggtgc aggaggctga 4020
cacagtagag gcagcccaga acctcaccgt cccaggagga ctgaggtcca cagacctgcc 4080
tgggctcaaa gcagccactc attataccat caccatccgc ggggtcactc aggacttcag 4140
cacaacccct ctctctgttg aagtcttgac agaggaggtt ccagatatgg gaaacctcac 4200
agtgaccgag gttagctggg atgctctcag actgaactgg accacgccag atggaaccta 4260
tgaccagttt actattcagg tccaggaggc tgaccaggtg gaagaggctc acaatctcac 4320
ggttcctggc agcctgcgtt ccatggaaat cccaggcctc agggctggca ctccttacac 4380
agtcaccctg cacggcgagg tcaggggcca cagcactcga ccccttgctg tagaggtcgt 4440
cacagaggat ctcccacagc tgggagattt agccgtgtct gaggttggct gggatggcct 4500
cagactcaac tggaccgcag ctgacaatgc ctatgagcac tttgtcattc aggtgcagga 4560
ggtcaacaaa gtggaggcag cccagaacct cacgttgcct ggcagcctca gggctgtgga 4620
catcccgggc ctcgaggctg ccacgcctta tagagtctcc atctatgggg tgatccgggg 4680
ctatagaaca ccagtactct ctgctgaggc ctccacagcc aaagaacctg aaattggaaa 4740
cttaaatgtt tctgacataa ctcccgagag cttcaatctc tcctggatgg ctaccgatgg 4800
gatcttcgag acctttacca ttgaaattat tgattccaat aggttgctgg agactgtgga 4860
atataatatc tctggtgctg aacgaactgc ccatatctca gggctacccc ctagtactga 4920
ttttattgtc tacctctctg gacttgctcc cagcatccgg accaaaacca tcagtgccac 4980
agccacgaca gaggccctgc cccttctgga aaacctaacc atttccgaca ttaatcccta 5040
cgggttcaca gtttcctgga tggcatcgga gaatgccttt gacagctttc tagtaacggt 5100
ggtggattct gggaagctgc tggaccccca ggaattcaca ctttcaggaa cccagaggaa 5160
gctggagctt agaggcctca taactggcat tggctatgag gttatggtct ctggcttcac 5220
ccaagggcat caaaccaagc ccttgagggc tgagattgtt acagaagccg aaccggaagt 5280
tgacaacctt ctggtttcag atgccacccc agacggtttc cgtctgtcct ggacagctga 5340
tgaaggggtc ttcgacaatt ttgttctcaa aatcagagat accaaaaagc agtctgagcc 5400
actggaaata accctacttg cccccgaacg taccagggac ataacaggtc tcagagaggc 5460
tactgaatac gaaattgaac tctatggaat aagcaaagga aggcgatccc agacagtcag 5520
tgctatagca acaacagcca tgggctcccc aaaggaagtc attttctcag acatcactga 5580
aaattcggct actgtcagct ggagggcacc cacagcccaa gtggagagct tccggattac 5640
ctatgtgccc attacaggag gtacaccctc catggtaact gtggacggaa ccaagactca 5700
gaccaggctg gtgaaactca tacctggcgt ggagtacctt gtcagcatca tcgccatgaa 5760
gggctttgag gaaagtgaac ctgtctcagg gtcattcacc acagctctgg atggcccatc 5820
tggcctggtg acagccaaca tcactgactc agaagccttg gccaggtggc agccagccat 5880
tgccactgtg gacagttatg tcatctccta cacaggcgag aaagtgccag aaattacacg 5940
cacggtgtcc gggaacacag tggagtatgc tctgaccgac ctcgagcctg ccacggaata 6000
cacactgaga atctttgcag agaaagggcc ccagaagagc tcaaccatca ctgccaagtt 6060
cacaacagac ctcgattctc caagagactt gactgctact gaggttcagt cggaaactgc 6120
cctccttacc tggcgacccc cccgggcatc agtcaccggt tacctgctgg tctatgaatc 6180
agtggatggc acagtcaagg aagtcattgt gggtccagat accacctcct acagcctggc 6240
agacctgagc ccatccaccc actacacagc caagatccag gcactcaatg ggcccctgag 6300
gagcaatatg atccagacca tcttcaccac aattggactc ctgtacccct tccccaagga 6360
ctgctcccaa gcaatgctga atggagacac gacctctggc ctctacacca tttatctgaa 6420
tggtgataag gctgaggcgc tggaagtctt ctgtgacatg acctctgatg ggggtggatg 6480
gattgtgttc ctgagacgca aaaacggacg cgagaacttc taccaaaact ggaaggcata 6540
tgctgctgga tttggggacc gcagagaaga attctggctt gggctggaca acctgaacaa 6600
aatcacagcc caggggcagt acgagctccg ggtggacctg cgggaccatg gggagacagc 6660
ctttgctgtc tatgacaagt tcagcgtggg agatgccaag actcgctaca agctgaaggt 6720
ggaggggtac agtgggacag caggtgactc catggcctac cacaatggca gatccttctc 6780
cacctttgac aaggacacag attcagccat caccaactgt gctctgtcct acaaaggggc 6840
tttctggtac aggaactgtc accgtgtcaa cctgatgggg agatatgggg acaataacca 6900
cagtcagggc gttaactggt tccactggaa gggccacgaa cactcaatcc agtttgctga 6960
gatgaagctg agaccaagca acttcagaaa tcttgaaggc aggcgcaaac gggcataaat 7020
tccagggacc actgggtgag agaggaataa ggcccagagc gaggaaagga ttttaccaaa 7080
gcatcaatac aaccagccca accatcggtc cacacctggg catttggtga gagtcaaagc 7140
tgaccatgga tccctggggc caacggcaac agcatgggcc tcacctcctc tgtgatttct 7200
ttctttgcac caaagacatc agtctccaac atgtttctgt tttgttgttt gattcagcaa 7260
aaatctccca gtgacaacat cgcaatagtt ttttacttct cttaggtggc tctgggaatg 7320
ggagaggggt aggatgtaca ggggtagttt gttttagaac cagccgtatt ttacatgaag 7380
ctgtataatt aattgtcatt atttttgtta gcaaagatta aatgtgtcat tggaagccat 7440
cccttttttt acatttcata caacagaaac cagaaaagca atactgtttc cattttaagg 7500
atatgattaa tattattaat ataataatga tgatgatgat gatgaaaact aaggattttt 7560
caagagatct ttctttccaa aacatttctg gacagtacct gattgtattt tttttttaaa 7620
taaaagcaca agtacttttg agtttgttat tttgctttga attgttgagt ctgaatttca 7680
ccaaagccaa tcatttgaac aaagcgggga atgttgggat aggaaaggta agtagggata 7740
gtggtcaagt gggaggggtg gaaaggagac taaagactgg gagagaggga agcacttttt 7800
ttaaataaag ttgaacacac ttgggaaaag cttacaggcc aggcctgtaa tcccaacact 7860
ttgggaggcc aaggtgggag gatagcttaa ccccaggagt ttgagaccag cctgagcaac 7920
atagtgagaa cttgtctcta cagaaaaaaa aaaaaaaaaa aatttaatta ggcaagcgtg 7980
gtagtgcgca cctgtcgtcc cagctactca ggaggctgag gtaggaaaat cactggagcc 8040
caggagttag aggttacagt gagctatgat cacactactg cactccagcc tgggcaacag 8100
agggagaccc tgtctctaaa taaaaaaaga aaagaaaaaa aaagcttaca acttgagatt 8160
cagcatcttg ctcagtattt ccaagactaa tagattatgg tttaaaagat gcttttatac 8220
tcattttcta atgcaactcc tagaaactct atgatatagt tgaggtaagt attgttacca 8280
cacatgggct aagatcccca gaggcagact gcctgagttc aattcttggc tccaccattc 8340
ccaagttccc taacctctct atgcctcagt ttcctcttct gtaaagtagg gacactcata 8400
cttctcattt cagaacattt ttgtgaagaa taaattatgt tatccatttg aggcccttag 8460
aatggtaccc ggtgtatatt aagtgctagt acatgttagc tatcatcatt atcactttat 8520
atgagatgga ctggggttca tagaaaccca atgacttgat tgtggctact actcaataaa 8580
taatagaatt tggatttaaa aaaaa 8605

Claims (12)

1.一种通过数字处理装置执行的用于推测对象中Notch细胞信号传导途径的活性的计算机执行方法,其中所述推测包括:
接收在所述对象的样品中测量的所述Notch细胞信号传导途径的三个或更多个靶基因的表达水平,
确定所述对象的样品中Notch转录因子(TF)元件的活性水平,所述Notch TF元件控制所述三个或更多个Notch靶基因的转录,所述确定是基于评估使所述三个或更多个Notch靶基因的表达水平与所述Notch TF元件的活性水平相关的经校准的数学途径模型,以及
基于确定的所述对象的样品中所述Notch TF元件的活性水平,推测所述对象中所述Notch细胞信号传导途径的活性,
其中所述三个或更多个Notch靶基因选自:DTX1,EPHB3,HES1,HES4,HES5,HEY2,MYC,NFKB2,NRARP,PIN1,PLXND1和SOX9,其中两个或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,以及一或多个Notch靶基因选自:EPHB3,NFKB2,PIN1,PLXND1和SOX9。
2.权利要求1的方法,进一步包括:
基于所述对象中所述Notch细胞信号传导途径的推测的活性,确定所述Notch细胞信号传导途径在所述对象中是否异常运行。
3.权利要求2的方法,进一步包括:
为所述对象推荐处方药物,以纠正所述Notch细胞信号传导途径的异常运行,
其中,如果基于所述Notch细胞信号传导途径的推测的活性确定所述Notch细胞信号传导途径在所述对象中异常运行,则进行所述推荐。
4.权利要求2或3的方法,其中所述Notch细胞信号传导途径的异常运行是其中所述Notch细胞信号传导途径在所述对象中作为肿瘤促进物起作用的运行。
5.权利要求1-4任一项的方法,其中所述方法用于以下活动中的至少一项:
基于所述对象中所述Notch细胞信号传导途径的推测的活性的诊断;
基于所述对象中所述Notch细胞信号传导途径的推测的活性的预后;
基于所述对象中所述Notch细胞信号传导途径的推测的活性的药物处方;
基于所述对象中所述Notch细胞信号传导途径的推测的活性的药物功效预测;
基于所述对象中所述Notch细胞信号传导途径的推测的活性的不良反应预测;
药物功效的监测;
药物开发;
测定分析开发;
途径研究;
癌症分期;
基于所述对象中所述Notch细胞信号传导途径的推测的活性的临床试验对象的招募;
要进行的后续测试的选择;和
伴随诊断测试的选择。
6.权利要求1-5任一项的方法,其中所述经校准的数学途径模型是基于使所述NotchTF元件的活性水平与所述三个或更多个Notch靶基因的表达水平相关的条件概率的概率模型,优选贝叶斯网络模型,或者其中所述数学途径模型基于所述三个或更多个Notch靶基因的表达水平的一种或多种线性组合。
7.一种推测对象中Notch细胞信号传导途径的活性的设备,其包括配置为进行权利要求1-6任一项的方法的数字处理器。
8.一种用于推测对象中Notch细胞信号传导途径的活性的非暂时性存储介质,其存储可由数字处理装置执行以进行权利要求1-6任一项的方法的指令。
9.一种推测对象中Notch细胞信号传导途径的活性的计算机程序,包括程序代码模块,当所述计算机程序在数字处理装置上运行时,所述程序代码模块使所述数字处理装置进行权利要求1-6任一项的方法。
10.一种用于测量对象样品中Notch细胞信号传导途径的三个或更多个靶基因的表达水平的试剂盒,其包括:
针对所述三个或更多个Notch靶基因的聚合酶链反应引物,
针对所述三个或更多个Notch靶基因的探针,以及
权利要求7的设备,权利要求8的非暂时性存储介质或权利要求9的计算机程序,
其中所述三个或更多个Notch靶基因选自:DTX1,EPHB3,HES1,HES4,HES5,HEY2,MYC,NFKB2,NRARP,PIN1,PLXND1和SOX9,其中两个或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,及一个或多个Notch靶基因选自:EPHB3,NFKB2,PIN1,PLXND1和SOX9。
11.用于推测对象中Notch细胞信号传导途径的活性的试剂盒,其包括:
一或多种组分,用于确定所述对象的样品中所述Notch细胞信号传导途径的三个或更多个靶基因的表达水平,和
权利要求7的设备,权利要求8的非暂时性存储介质或权利要求9的计算机程序,
其中所述一或多种组分优选选自:DNA阵列芯片,寡核苷酸阵列芯片,蛋白质阵列芯片,抗体,多种探针,例如标记的探针,一组RNA逆转录酶测序组分和/或RNA或DNA,包括cDNA,扩增引物,
其中所述三个或更多个Notch靶基因选自:DTX1,EPHB3,HES1,HES4,HES5,HEY2,MYC,NFKB2,NRARP,PIN1,PLXND1和SOX9,其中两个或更多个Notch靶基因选自:DTX1,HES1,HES4,HES5,HEY2,MYC和NRARP,及一或多个Notch靶基因选自:EPHB3,NFKB2,PIN1,PLXND1和SOX9。
12.权利要求10或11的试剂盒在进行权利要求1-6任一项的方法中的应用。
CN201880064647.7A 2017-10-02 2018-09-28 使用靶基因表达的数学建模评估Notch细胞信号传导途径活性 Pending CN111183233A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17194288.1A EP3462349A1 (en) 2017-10-02 2017-10-02 Assessment of notch cellular signaling pathway activity using mathematical modelling of target gene expression
EP17194288.1 2017-10-02
PCT/EP2018/076488 WO2019068585A1 (en) 2017-10-02 2018-09-28 EVALUATION OF THE NOTCH CELL SIGNALING PATH ACTIVITY USING THE MATHEMATICAL MODELING OF THE TARGET GENE EXPRESSION

Publications (1)

Publication Number Publication Date
CN111183233A true CN111183233A (zh) 2020-05-19

Family

ID=60119805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880064647.7A Pending CN111183233A (zh) 2017-10-02 2018-09-28 使用靶基因表达的数学建模评估Notch细胞信号传导途径活性

Country Status (8)

Country Link
US (1) US20190100790A1 (zh)
EP (2) EP3462349A1 (zh)
JP (1) JP2020536530A (zh)
CN (1) CN111183233A (zh)
AU (1) AU2018344383A1 (zh)
BR (1) BR112020006484A2 (zh)
CA (1) CA3076635A1 (zh)
WO (1) WO2019068585A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112582030A (zh) * 2020-12-18 2021-03-30 广州大学 一种基于dna存储介质的文本存储方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210553A1 (en) 2016-06-03 2017-12-07 Hough Ear Institute Combination therapies for inner ear sensory hair cell regeneration/replacement
EP3835433A1 (en) * 2019-12-12 2021-06-16 Koninklijke Philips N.V. Notch signaling pathway activity as prognostic marker in bladder cancer
EP3882363A1 (en) 2020-03-17 2021-09-22 Koninklijke Philips N.V. Prognostic pathways for high risk sepsis patients
US20230223108A1 (en) 2020-04-16 2023-07-13 Innosign B.V. Prognostic pathways for viral infections
EP3978628A1 (en) 2020-10-01 2022-04-06 Koninklijke Philips N.V. Prognostic pathways for viral infections
EP3940704A1 (en) * 2020-07-14 2022-01-19 Koninklijke Philips N.V. Method for determining the differentiation state of a stem cell
EP3960875A1 (en) 2020-08-28 2022-03-02 Koninklijke Philips N.V. Pcr method and kit for determining pathway activity
EP3974540A1 (en) 2020-09-25 2022-03-30 Koninklijke Philips N.V. Method for predicting immunotherapy resistance
EP4015651A1 (en) 2020-12-17 2022-06-22 Koninklijke Philips N.V. Treatment prediction and effectiveness of anti-tnf alpha treatment in ibd patients
EP4039825A1 (en) 2021-02-09 2022-08-10 Koninklijke Philips N.V. Comparison and standardization of cell and tissue culture
WO2022189530A1 (en) 2021-03-11 2022-09-15 Koninklijke Philips N.V. Prognostic pathways for high risk sepsis patients
CN113177359B (zh) * 2021-04-30 2023-04-18 上海电机学院 一种基于假人模型的身体组织状态预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110166028A1 (en) * 2007-08-28 2011-07-07 Donald Bergstrom Methods for predicting treatment response based on the expression profiles of biomarker genes in notch mediated cancers
CN103649337A (zh) * 2011-07-19 2014-03-19 皇家飞利浦有限公司 使用目标基因表达的概率建模评估细胞信号传导途径活性
US20160125127A1 (en) * 2014-10-29 2016-05-05 Council Of Scientific & Industrial Research Identification of minimal combinations of oncoproteins in notch pathway to suppress human glioblastoma

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4711955A (en) 1981-04-17 1987-12-08 Yale University Modified nucleotides and methods of preparing and using same
US5660985A (en) 1990-06-11 1997-08-26 Nexstar Pharmaceuticals, Inc. High affinity nucleic acid ligands containing modified nucleotides
US5436134A (en) 1993-04-13 1995-07-25 Molecular Probes, Inc. Cyclic-substituted unsymmetrical cyanine dyes
US5658751A (en) 1993-04-13 1997-08-19 Molecular Probes, Inc. Substituted unsymmetrical cyanine dyes with selected permeability
US6783934B1 (en) 2000-05-01 2004-08-31 Cepheid, Inc. Methods for quantitative analysis of nucleic acid amplification reaction
US7544476B1 (en) * 2008-07-11 2009-06-09 Aveo Pharmaceuticals, Inc. Identifying cancers sensitive to treatment with inhibitors of notch signaling
EP2606884A1 (en) * 2011-12-21 2013-06-26 Ecole Polytechnique Fédérale de Lausanne (EPFL) Inhibitors of notch signaling pathway and use thereof in treatment of cancers
AU2013368945B2 (en) 2012-12-26 2020-01-23 Innosign B.V. Assessment of cellular signaling pathway activity using linear combination(s) of target gene expressions
CA2965442A1 (en) * 2014-10-24 2016-04-28 Koninklijke Philips N.V. Assessment of tgf-b cellular signaling pathway activity using mathematical modelling of target gene expression
ES2838923T3 (es) * 2014-10-24 2021-07-02 Koninklijke Philips Nv Pronóstico médico y predicción de la respuesta a tratamiento usando múltiples actividades de la ruta de señalización celular
ES2861400T3 (es) * 2015-08-14 2021-10-06 Koninklijke Philips Nv Evaluación de la actividad de la ruta de señalización celular de NFkB usando modelos matemáticos de la expresión de genes diana
KR20160086775A (ko) * 2016-02-11 2016-07-20 성균관대학교산학협력단 Pin1 저해제를 유효성분으로 포함하는 뇌졸중 예방 또는 치료용 약학적 조성물

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110166028A1 (en) * 2007-08-28 2011-07-07 Donald Bergstrom Methods for predicting treatment response based on the expression profiles of biomarker genes in notch mediated cancers
CN103649337A (zh) * 2011-07-19 2014-03-19 皇家飞利浦有限公司 使用目标基因表达的概率建模评估细胞信号传导途径活性
US20160125127A1 (en) * 2014-10-29 2016-05-05 Council Of Scientific & Industrial Research Identification of minimal combinations of oncoproteins in notch pathway to suppress human glioblastoma

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SUDHIR S. RAO等: "Inhibition of NOTCH signaling by gamma secretase inhibitor engages the RB pathway and elicits cell cycle exit in T-cell acute lymphoblastic leukemia cells", 《CANCER RES.》 *
李大川等: "Notch信号通路与恶性肿瘤侵袭、转移关系的研究进展", 《胃肠病学和肝病学杂志》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112582030A (zh) * 2020-12-18 2021-03-30 广州大学 一种基于dna存储介质的文本存储方法
CN112582030B (zh) * 2020-12-18 2023-08-15 广州大学 一种基于dna存储介质的文本存储方法

Also Published As

Publication number Publication date
EP3692537A1 (en) 2020-08-12
EP3692537B1 (en) 2022-01-19
BR112020006484A2 (pt) 2020-10-13
JP2020536530A (ja) 2020-12-17
AU2018344383A1 (en) 2020-05-21
CA3076635A1 (en) 2019-04-11
US20190100790A1 (en) 2019-04-04
EP3462349A1 (en) 2019-04-03
WO2019068585A1 (en) 2019-04-11

Similar Documents

Publication Publication Date Title
CN111183233A (zh) 使用靶基因表达的数学建模评估Notch细胞信号传导途径活性
CN109790583B (zh) 对肺腺癌亚型分型的方法
CN109863251B (zh) 对肺鳞状细胞癌亚型分型的方法
KR102023584B1 (ko) 위장관췌장 신경내분비 신생물 (GEP-NENs)의 예측 방법
CN107077536B (zh) 使用靶基因表达的数学建模评价TGF-β细胞信号传导途径的活性
RU2721916C2 (ru) Способы прогнозирования рака предстательной железы
AU2013277971B2 (en) Molecular malignancy in melanocytic lesions
KR101446626B1 (ko) 신장암 진단, 신장암 환자 예후 예측을 위한 조성물 및 방법
US20030175736A1 (en) Expression profile of prostate cancer
CN110382521A (zh) 从氧化应激区分肿瘤抑制性foxo活性的方法
US20230416827A1 (en) Assay for distinguishing between sepsis and systemic inflammatory response syndrome
BRPI0616090A2 (pt) métodos e materiais para identificação da origem de um carcinoma de origem primária desconhecida
KR20150090246A (ko) 암을 위한 분자 진단 테스트
KR101421326B1 (ko) 유방암 예후 예측을 위한 조성물 및 이를 포함하는 키트
CN112795650A (zh) 使用靶基因表达的数学建模评价pi3k细胞信号传导途径活性
CN111479933A (zh) 使用靶基因表达的数学建模评估jak-stat1/2细胞信号传导途径活性
WO2003042661A2 (en) Methods of diagnosis of cancer, compositions and methods of screening for modulators of cancer
CA2430981A1 (en) Gene expression profiling of primary breast carcinomas using arrays of candidate genes
CN101573453A (zh) 使用生物学途径基因表达分析来预测淋巴结阴性原发性乳腺癌的远处转移的方法
CN111448325A (zh) 使用靶基因表达的数学建模评估jak-stat3细胞信号传导途径活性
CN111742369A (zh) 使用靶基因表达的数学建模评估mapk-ap-1细胞信号传导途径活性
US20030068636A1 (en) Compositions, kits and methods for identification, assessment, prevention, and therapy of breast and ovarian cancer
KR20140140069A (ko) 전반적 발달장애의 진단 및 치료용 조성물 및 그 진단 및 치료 방법
KR20160117606A (ko) 항-혈관형성 약물에 대한 반응 및 암의 예후를 예측하기 위한 분자적 진단 시험
KR20110057188A (ko) 바이오마커 프로파일 측정 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220909

Address after: Holland Ian Deho Finn

Applicant after: Innomark Ltd.

Address before: Holland Ian Deho Finn

Applicant before: KONINKLIJKE PHILIPS N.V.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200519