CN109072312A - 癌症表观遗传谱分析 - Google Patents

癌症表观遗传谱分析 Download PDF

Info

Publication number
CN109072312A
CN109072312A CN201780023350.1A CN201780023350A CN109072312A CN 109072312 A CN109072312 A CN 109072312A CN 201780023350 A CN201780023350 A CN 201780023350A CN 109072312 A CN109072312 A CN 109072312A
Authority
CN
China
Prior art keywords
enhancer
biological sample
super enhancer
super
cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780023350.1A
Other languages
English (en)
Inventor
陈文炜
黄文锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of CN109072312A publication Critical patent/CN109072312A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P43/00Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/5308Immunoassay; Biospecific binding assay; Materials therefor for analytes not provided for elsewhere, e.g. nucleic acids, uric acid, worms, mites
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6875Nucleoproteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Cell Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Veterinary Medicine (AREA)
  • General Chemical & Material Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及用于基于组蛋白修饰H3K27ac的信号强度确定癌性生物样品中至少一个超级增强子的存在或不存在的方法。本发明还涉及用于确定受试者中癌症的预后的方法、确定受试者对癌症或胃肠疾病的易感性的方法,以及通过确定至少一个超级增强子的存在或不存在来预测癌细胞存活或癌细胞活力的方法。本发明还涉及CDX2和/或HNF4α抑制剂,例如二甲双胍,和其用于调节超级增强子的活性的用途。

Description

癌症表观遗传谱分析
相关申请的交叉引用
本申请要求2016年2月16日提交的新加坡申请号10201601141X和2016年8月16日提交的新加坡申请号10201606828P的优先权,这些新加坡申请的内容出于所有目的在此以引用方式整体并入。
技术领域
本发明涉及癌症,特别是癌症中的调控元件。
背景技术
异常的基因表达模式是人恶性肿瘤的通用标志,驱动临床上重要的性状,例如增殖、侵袭和转移。包括体细胞突变、拷贝数改变和结构变异在内的基于DNA序列的改变具有通过改变信号传导分子和转录因子(TF)的活性和表达来重编程癌症转录组的能力。除蛋白质编码基因外,非编码基因组区域中的顺式调控元件(例如增强子)也可通过促进或限制TF可及性来影响转录程序。
增强子是位于启动子和转录起始位点(TSS)远端的调控元件。已显示占人基因组10-15%的增强子通过调控处于远距离(>1Mb)的一个或多个基因而在细胞属性(cellidentity)和组织特异性表达中发挥重要作用。增强子在人疾病中发挥重要作用,并且它们的重要性提升了对于不同细胞类型和疾病状况下的一系列增强子的需求。虽然已有研究来描述癌症中的调控元件,但迄今为止这些研究中的大多数依赖于具有两种限制的体外培养的癌细胞系。首先,已知体外细胞系在重复传代后经历重大的表观基因组改变。其次,对于许多癌细胞系,通常不能获得匹配的正常对应物,这使得鉴别真正的体细胞改变的能力变得复杂。因此,需要克服或至少改善上述一个或多个缺点的对癌症中的调控元件进行谱分析的方法。
发明内容
在一个方面,提供了用于确定相对于非癌性生物样品在癌性生物样品中至少一个超级增强子的存在或不存在的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定所述癌性生物样品中所述至少一个超级增强子的存在或不存在。
在一个方面,提供了用于确定受试者中至少一个癌症相关超级增强子的存在的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定受试者中至少一个癌症相关超级增强子的存在,
其中所述癌性生物样品中所述至少一个超级增强子相对于所述非癌性生物样品的信号强度增加指示至少一个癌症相关超级增强子的存在。
在一个方面,提供了用于检测受试者中的癌症的生物标志物,所述生物标志物包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或与癌症相关转录因子结合位点相对于未改变的超级增强子的增加相关的至少一个超级增强子,或两者。
在一个方面,提供了用于确定受试者中的癌症预后的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述癌性生物样品中所述至少一个超级增强子相对于所述非癌性生物样品的所述信号强度的变化,确定受试者中至少一个癌症相关超级增强子的存在或不存在,
其中至少一个癌症相关超级增强子的存在或不存在指示所述受试者中所述癌症的所述预后。
在一个方面,提供了确定受试者对癌症或胃肠疾病的易感性的方法,其包括:
a)使从所述受试者获得的生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述生物样品中的至少一个超级增强子;
e)比较所述生物样品中所述至少一个超级增强子的所述信号强度与从对照生物样品获得的所述至少一个超级增强子的参考信号;和
f)基于所述至少一个超级增强子的信号强度的变化来确定所述至少一个超级增强子的存在或不存在;
g)将所述至少一个超级增强子的存在或不存在相对于包含癌症或胃肠疾病相关SNP的参考基因组序列作图,
其中与一种或多种癌症或胃肠疾病相关SNP相关的至少一个超级增强子的存在或不存在指示所述受试者对癌症或胃肠疾病的易感性。
在一个方面,提供了用于调节细胞中至少一个癌症相关超级增强子的活性的方法,其包括向所述细胞施用CDX2和/或HNF4α抑制剂。
在一个方面,提供了用于检测受试者中的癌症的生物标志物,其包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或与癌症相关转录因子结合位点相对于未改变的超级增强子的增加相关的至少一个超级增强子,或两者。
在一个方面,提供了生物标志物在制造用于检测受试者中的癌症的药物中的用途,所述生物标志物包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或与癌症相关转录因子结合位点相对于未改变的超级增强子的增加相关的至少一个超级增强子,或两者。
在一个方面,提供了CDX2和/或HNF4α抑制剂,其用于调节细胞中至少一个癌症相关超级增强子的活性。
在一个方面,提供了CDX2和/或HNF4α抑制剂在制造用于调节细胞中至少一个癌症相关超级增强子的活性的药物中的用途。
在一个方面,提供了预测从受试者获得的癌性生物样品中的癌细胞存活或癌细胞活力的方法,其包括:
a)使所述癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定受试者中至少一个癌症相关超级增强子的存在,
其中所述癌性生物样品中所述至少一个超级增强子相对于所述非癌性生物样品的信号强度增加预测癌细胞存活或癌细胞活力。
定义
本文所用的以下词语和术语应当具有所指示的含义:
术语“超级增强子”是指彼此接近出现的DNA增强子元件簇。DNA增强子元件是能够整合多种细胞和信号传导输入以调控效应基因表达程序的DNA区域。与典型的增强子相比,超级增强子可在大小上更大,可展现出更高的转录因子结合密度,并且可与关键细胞属性调控物更强烈地缔合,类似于基因座控制区域(LCR)、DNA甲基化谷(DNAmethylationvalley)、转录起始平台和延伸增强子(stretch enhancer)。超级增强子还可富集疾病相关的遗传变体,并且可由癌细胞于关键癌基因获得并且对治疗性扰动更敏感。
术语“组蛋白修饰”是指组蛋白的共价修饰。组蛋白修饰包括但不限于甲基化、磷酸化、乙酰化、泛素化和小泛素化(sumoylation)。组蛋白的修饰可能改变染色质结构并影响基因表达。通常的理解是,组蛋白的修饰可在一种或多种组蛋白中的一个或多个氨基酸处发生。
术语“注释的基因组序列”是指已鉴别出包括但不限于编码区和非编码区、调控区或基序、转录起始位点和基因在内的信息的基因组序列。术语“注释的转录起始位点”是指鉴别的转录起始位点。
如本文所用的术语“参考”、“对照”或“标准”是指可进行比较的样品或受试者。“参考”、“对照”或“标准”的示例包括从同一受试者获得的非癌性样品、从非转移性肿瘤获得的样品、从没有癌症的受试者获得的样品或从具有不同癌症亚型的受试者获得的样品。如本文所用的术语“参考”、“对照”或“标准”还可指染色质修饰的平均信号强度。如本文所用的术语“参考”、“对照”或“标准”还可指未罹患癌症或正罹患不同类型的癌症的受试者。如本文所用的术语“参考”、“对照”或“标准”还可指可进行比较的核酸序列。例如,参考或对照或标准可以是未转染的细胞。
如本文所用的术语“癌性”涉及受癌症特有的异常影响或显示癌症特有的异常。
如本文所用的术语“抗体(antibody或antibodies)”是指具有免疫球蛋白样结构域的分子,且包括抗原结合片段、单克隆抗体、重组抗体、多克隆抗体、嵌合抗体、完全人抗体、人源化抗体、双特异性抗体和异源缀合抗体;单一可变结构域、单链Fv、结构域抗体、免疫有效片段和双链抗体(diabodies)。
如本文所用的术语“分离的”或“分离”涉及一种生物组分(如核酸分子、蛋白质或细胞器),所述生物组分已基本上与该组分天然存在的生物体细胞中的其他生物组分(即其他染色体和染色体外的DNA和RNA、蛋白质和细胞器)中被分离或纯化出来。已“分离”的核酸和蛋白质包括通过标准纯化方法纯化的核酸和蛋白质。该术语还涵盖通过在宿主细胞中重组表达所制备的核酸和蛋白质以及化学合成的核酸。
如本文所用的术语“核酸”是指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物,并且除非另有限制,否则涵盖天然核苷酸的已知类似物,所述类似物以与天然存在的核苷酸类似的方式与核酸杂交。“核苷酸”包括但不限于包含连接到糖的碱(例如嘧啶、嘌呤或其合成类似物)或连接到氨基酸的碱(如在肽核酸中(PNA))的单体。核苷酸是多核苷酸中的一种单体。核苷酸序列是指多核苷酸中的碱基序列。
如本文所用的术语“生物标志物”是指生物状态或状态的指示物。
如本文所用的术语“样品”或“生物样品”是指已从受试者获得、移出或分离的一个或多个细胞、细胞片段、组织或流体。如本文所用的术语“从……获得或来源于……”意在包含性地使用。也就是说,意图涵盖直接从生物样品分离的任何核苷酸序列或来源于样品的任何核苷酸序列。样品的示例是肿瘤组织活检标本。样品可以是冷冻新鲜组织、石蜡包埋组织或福尔马林固定石蜡包埋(FFPE)组织。生物样品或流体样品的示例包括但不限于血液、粪便、血清、唾液、尿液、脑脊液和骨髓液。
如本文所用的术语“预后”或其语法变体是指对临床病况或疾病的可能过程和结局的预测。通常通过评价指示疾病的有利或不利过程或结局的疾病的因素或症状来进行患者的预后。术语“预后”并不是指以100%准确度预测病况的过程或结局的能力。而是,术语“预后”是指某一过程或结局将发生的概率增加;也就是说,当与未展现出给定病况的个体相比时,在展现出该病况的患者中更可能发生该过程或结局。
如本文所用的术语“对癌症的易感性”是指受试者发展成癌症的可能性或概率。易患癌症的受试者可能已经或可能尚未罹患癌症,或者可能罹患不同类型的癌症。
如本文所用的术语“抑制剂”是指降低或抑制生物活性的试剂。例如,抑制剂可降低或沉默基因的表达。抑制剂还可降低蛋白质、酶或转录因子的活性。抑制剂的示例包括但不限于寡核苷酸、小分子或化合物。寡核苷酸可以是干扰RNA(iRNA),包括但不限于小干扰RNA(siRNA)或短发夹RNA(shRNA)。小分子在本领域中通常被理解为具有低分子量的化合物。抑制剂的另一示例可以是成簇的规则间隔的短回文重复(CRISPR)基因组编辑系统。CRISPR基因组编辑系统可以是CRISPR/Cas系统。CRISPR/Cas系统可通过修饰基因组来抑制基因表达。基因组的修饰包括但不限于核苷酸的缺失、插入或取代。CRISPR/Cas系统还可通过一种或多种组蛋白的翻译后修饰来抑制基因表达。在一些实施方案中,CRISPR/Cas系统可以是CRISPR/Cas9。
在本公开通篇内,某些实施方案可以范围形式被公开。应当理解,呈范围形式的描述仅仅是为了方便和简洁且不应当被解释为对所公开范围的范畴的不可改变的限制。因此,对一个范围的描述应当被认为已经具体地公开了所述范围内的所有可能的子范围以及单个数值。例如,对一个范围(例如1到6)的描述应当被认为已经公开了子范围(例如1到3、1到4、1到5、2到4、2到6、3到6等)以及所述范围内的单个数字(例如,1、2、3、4、5和6)。不管所述范围的宽度如何,这都是适用的。不管所述范围的宽度如何,这都是适用的。
某些实施方案也可在本文中被宽泛地和一般地描述。落入该一般公开的每个较窄的类和次一般的组合也构成本公开的一部分。这包括带有将任何主题从一般性中去除的附带条件或负面限制来一般性地描述实施方案,而不管被去除的内容是否在本文中明确述及。
除非上下文另有要求或有明确相反说明,否则本文叙述为单数整数、步骤或要素的本发明的整数、步骤或要素明确涵盖所述整数、步骤或要素的单数形式和复数形式。
词语“基本上”并不排除“完全”,例如“基本上不含”Y的组合物可完全不含Y。在需要的情况下,可从本发明的定义中省略词语“基本上”。
本文所说明性地描述的本发明可在不存在本文未明确公开的任何一种或多种要素、一种或多种限制的情况下被合适地实施。因此,例如,术语“包含”、“包括”、“含有”等应当被宽泛地解读并且没有限制。另外,本文所采用的术语和表达是以描述而非限制的术语被使用,并且使用这些术语和表达并不意在排除所显示和描述的特征或其部分的任何等同物,而应认识到可在所要求保持的本发明范围内作出各种修改。因此,应当理解,虽然已经通过优选实施方案和任选特征具体地公开了本发明,但本领域技术人员可采用本文所公开的优选实施方案和任选特征中所体现的本发明的修改和变更,并且认为此类修改和变更在本发明范围内。
本文已对本发明进行了宽泛的和一般性的描述。落入该一般公开的每个较窄的类和次一般的组合也构成本发明的一部分。这包括带有将任何主题从一般性中去除的附带条件或负面限制来一般性地描述本发明,而不管被除去的内容是否在本文中明确述及。
其他实施方案在以下权利要求书和非限制性实施例内。另外,在用马库什组(Markush group)描述本发明的特征或方面时,本领域技术人员将认识到,由此也是以马库什组的任何单个成员或成员亚组来描述本发明。
附图简单说明
当结合非限制性实施例和附图考虑时,参考具体实施方式将更好地理解本发明,其中:
图1GC细胞系的远端预测性增强子全貌(landscape)。
a.OCUM-1和NCC59GC细胞的组蛋白谱显示在DDX47转录起始位点(TSS)周围H3K27ac和H3K4me3的富集。鉴别出展现H3K27ac富集并且远离DDX47TSS>2.5Kb的预测性增强子元件。
b.11个GC细胞系中的4个中的远端H3K27ac谱的快照,其显现前2,000个预测性增强子的活性和预测性增强子周围的全基因组平均H3K27ac信号。
c.GC细胞系中预测性增强子和活性TSS周围的全基因组平均H3K4me3信号。
d.在两个或更多个胃癌细胞系中发现的常见调控元件的百分比(增强子-深灰色;启动子-浅灰色),其作为细胞系数目的函数。
e.预测性增强子相对于随机选择区域的染色质可及性。来自正常胃组织的DNaseI超敏感(DHS)数据42用作替代物。使用单侧韦尔奇(Welch's t-test)检验测试DHS信号的分布的统计学显著性。
f.来自来源于9个不同组织/细胞类别的50个表观基因组谱的预测性增强子、染色质可及区域(表示为DHS+,x轴)和活性调控元件(表示为H3K27ac+,y轴)之间的重叠百分比。
g.预测性增强子与EP300和转录因子结合位点重叠的百分比。
h.预测性增强子和随机选择区域中最大Phast评分的分布(DNA序列保守性的量度)。
图2GC细胞系来源的预测性超级增强子
a.H3K27ac ChIP-seq信号的分布揭示了显示不均匀的高H3K27ac信号的预测性超级增强子的位置。指示了与预测性超级增强子接近的已知癌症相关基因。显示了两种细胞系。
b.在所有数目递增的GC细胞系中显示H3K27ac富集高于随机选择区域(>99%)的远端调控元件(预测性典型增强子-浅灰色,预测性超级增强子-深灰色)的百分比。
c.MALAT1基因座处的H3K27ac ChIP-seq信号显示预测性增强子的延伸,对应于具有高H3K27ac信号的预测性超级增强子(实心框)。
d.与重现的远端调控元件(预测性超级增强子和居前位的预测性典型增强子)相关的最显著相关的生物过程的示例。使用来自GOrilla的负对数转换的原始p值。
图3原发性GC样品和匹配的正常样品中的体细胞预测性超级增强子。
a.细胞系来源的预测性超级增强子在19个原发性肿瘤样品和匹配的正常样品中的活性。显现了以列转换的RPKM值(z-评分)为单位的H3K27ac预测性超级增强子信号。体外GC细胞系中活性预测性超级增强子的频率呈现为顶部直方图(黑色,在热图上方)。将预测性超级增强子归类为体细胞增益(somatic gain)、体细胞损失(somatic loss)、未改变和无活性。在每个类别中,预测性超级增强子通过它们在肿瘤和正常样品之间减小的平均差异来排序(从左到右)。
b.使用重现的体细胞增益预测性超级增强子信号的主成分分析建立肿瘤和正常样品之间的分离。
c.在以下三个预测性超级增强子类别中使用来自5个肿瘤和匹配的正常样品的H3K4me1谱的H3K4me1(T-N)信号(RPKM)差异:体细胞增益、体细胞损失和未改变。*P<2.2×10-16,单侧韦尔奇t检验。
d.预测性超级增强子中的差异性β值表明肿瘤与匹配的正常样品之间的甲基化状态:过甲基化(>0)或低甲基化(<0)。
e.ABLIM2基因座处的体细胞增益预测性超级增强子中的DNA低甲基化。
f.SLC1A2基因座处的体细胞损失预测性超级增强子中的DNA过甲基化。
图4体细胞预测性超级增强子与基因表达和染色质相互作用之间的相关性
a.不同类别的预测性超级增强子(未改变、体细胞增益、体细胞损失)之间的基因表达的对数转换的倍数变化和预测性靶基因表达之间的关联性。
b.来自涵盖12个体细胞增益预测性超级增强子的20个捕获点的相互作用热图。每个环表示来自由黑色箭头表示的单个捕获点的谱。预测性超级增强子的位置由每个环中的基因座指示。在整个基因组内以100kb的连锁区段(bin)计算全基因组相互作用信号。显现位于捕获点两侧的200万个碱基内的区域处的信号。
c.CLDN4基因座处的体细胞增益预测性超级增强子和与邻近基因的相互作用的示例。体细胞增益活性与原发性GC中CLDN4和邻近基因(CLDN3和ABHD11)的上调相关。通过Capture-C使用两个捕获点(33号和34号)在SNU16细胞中检测到相互作用。汇总的相互作用(Q<0.05,r3Cseq)被呈现为最后一个轨迹。使用CRISPR/Cas9基因组编辑在SNU16细胞中独立地缺失两个预测性组成增强子(e1和e2)。
d.预测性超级增强子活性与长程相互作用之间的关联性。用在SNU16和OCUM-1细胞中有活性的预测性超级增强子检测到与SLC35D3启动子的长程相互作用(浅灰色三角形)。在KATO-III细胞中未观察到此类相互作用,其中也未检测到预测性超级增强子。
图5体细胞预测性超级增强子提供患者存活和疾病风险信息。
a.使用显示重现的体细胞增益、重现的体细胞损失和未改变的H3K27ac信号的预测性超级增强子的癌症标志分析。使用来自单侧费雪精确检验(Fisher’s exact test)的负对数转换的p值。
b.比较患者组的存活分析,所述患者组的样品展现来自与居前位的重现的体细胞增益预测性超级增强子相关的基因的低(浅灰色)和高(深灰色)表达。该标签(signature)在848名GC患者的汇编物中具有预后性(P=1.8×10-2,对数秩检验),对于具有高标签表达的肿瘤患者观察到较差的预后(危险比,95%置信区间:1.30(1.05-1.61);校正阶段、年龄、患者地域性和劳伦氏(Lauren)组织学亚型之后的Cox回归p值=4.4×10-2)。每10个月指示存活数据。
c.预测性超级增强子中疾病相关SNP的富集。使用卡方检验对两类预测性超级增强子进行了富集测试:重现的体细胞改变的预测性超级增强子和未改变的预测性超级增强子。仅分析了具有在所有预测性超级增强子中发现的至少10个SNP的疾病/性状。
d.有和无结肠直肠癌相关SNP的预测性超级增强子中的差异性H3K27ac信号。有或无SNP的患者的总数以括号指示。使用单侧韦尔奇t检验测试两组之间的差异。
图6GC中的体细胞增益预测性超级增强子与CDX2和HNF4α的占据相关。
a.使用ReMap数据库,在重现的体细胞增益预测性超级增强子和未改变的预测超级增强子处前10位的转录因子结合富集。
b.与未改变的预测性超级增强子相比,在重现的体细胞增益预测性超级增强子处的ReMap转录因子的富集或耗竭。
c.使用CDX2结合位点和从头HOMER基序鉴别对候选CDX2结合配偶体的检测。
d.使用来自19个原发性肿瘤和匹配的正常样品的RNA-seq所确定的CDX2和前20种CDX2候选结合配偶体的成对表达关联性。
e.OCUM-1细胞中在500bp窗口内与HNF4α结合位点共现的CDX2结合位点的百分比。
f.重现的体细胞增益预测性超级增强子和未改变的预测性超级增强子之间的差异性CDX2(左)和HNF4α(右)平均结合信号分析。预测性超级增强子也在OCUM-1中有活性。
g.对于单TF沉默和双TF沉默来说,OCUM-1细胞中体细胞增益预测性超级增强子和预测性典型增强子之间的H3K27ac耗竭量级的分布。使用单侧威尔科克森秩和检验(Wilcoxon rank sum test)评价统计学显著性。
h.体细胞增益预测性超级增强子中的H3K27ac亚区域耗竭相对于CDX2、HNF4α或CDX2/HNF4α共结合位点之间的相关性。将距离均匀地分为三个类别:离结合位点近、中、远。使用单侧威尔科克森秩和检验评价统计学显著性。
图7不同作图质量过滤器(MAPQ≥10和MAPQ≥20)之间的比较。
a.使用MAPQ≥20检测到的作图读段与使用MAPQ≥10的总作图读段(read)相比的百分比。
b.使用MAPQ≥20发现的ChIP富集峰与使用MAPQ≥10的ChIP富集峰的总数相比的百分比。
图8来自KATO-III细胞的生物重复中H3K27ac富集峰的一致性。使用Nano-ChIPseq生成重复1和2,而使用常规的ChIPseq方法产生来自Baek等Oncotarget(2016)的数据。来自重复1和2的作图读段的总数是Baek等的数据的>10×,因此在我们的重复中检测到更多的峰。使用BEDTools合并来自重复的峰。使用这种方法,确定了30,734个独特的峰。计算重复中发现的重叠峰与独特峰总数相比的百分比。
图9胃癌细胞系中远端预测性增强子和活性TSS两侧的全基因组H3K4me1信号。
图10GC细胞系中的预测性超级增强子。
a.分别在OCUM-1和NCC59中的KLF5-和MYC-相关的预测性超级增强子。
b.与居前位的重现的预测性超级增强子(深灰色)和预测性典型增强子(浅灰色)连锁的基因的表达水平(以百分位数为单位,跨细胞系)。使用相同数目的随机选择的基因(黑色)作为参考。按百分位数从最高到最小的顺序分选基因。
图11使用公用数据集对重现的预测性超级增强子/基因相互作用的验证。百分比值反映了原始预测性超级增强子/基因分配(参见结果和方法)。
图12使用GREAT分析工具确定的与重现的预测性超级增强子相关的生物过程。由黑色箭头突出显示的过程是指通过GOrilla(参见结果)和GREAT两者观察到的过程。
图13使用来自原始样品的组蛋白H3K27ac谱对细胞系来源的预测性超级增强子的归类。
a.GCNT4基因座处的三个肿瘤(T)/匹配正常(N)对中的体细胞损失预测性超级增强子。
b.在CMIP基因座处的T/N20020720、T/N2001206和T/N980401中未改变的预测性超级增强子。
c.在FU97和YCC22GC细胞中检测到的预测性超级增强子在ZNF326基因座处的三个T/N对中显示无活性状态。
图14拷贝数改变与预测性超级增强子之间的相关性。
a.在拷贝数中性区域中检测到的体细胞增益预测性超级增强子的示例。
b.在KATO-III细胞中的体细胞拷贝数增益的区域检测到FGFR2相关的预测性超级增强子。
c.在T/N980447中具有拷贝数增益的区域中检测到的体细胞增益预测性超级增强子。
d.在CLDN4基因座处检测到高度重现的体细胞增益(H3K27ac)预测性超级增强子。该区域与拷贝数增益无关。
图15使用Capture-C技术在OCUM-1细胞中检测到的TM4SF1基因座处的预测性超级增强子(黑色矩形)和TM4SF4启动子之间的长程相互作用。底部轨迹指示来自捕获点17号的汇总相互作用。
图16Capture-C相互作用谱。
a.TMEM1和EHBP1基因的EHBP1预测性超级增强子(黑色矩形)与启动子的相互作用。在OCUM-1细胞中检测到预测性超级增强子,在原发性肿瘤T20020720中显示出体细胞增益,并且与TMEM1和EBHP1的上调表达相关。
b.YWHAZ基因座处的预测性超级增强子(黑色矩形)与YWHAZ启动子的相互作用。在SNU16细胞中检测到预测性超级增强子,在原发性肿瘤样品T990275中显示出体细胞增益,并且与YWHAZ的上调表达相关。
图17 4C相互作用谱。
a.ELF3基因座处的体细胞增益预测性超级增强子和与邻近基因(例如ELF3、RNPEP、ARL8A和LMOD1)的相互作用的示例。体细胞增益活性与原发性GC中ELF3的上调相关。使用4C在OCUM-1细胞中检测到相互作用(Q<0.05,r3Cseq)。使用Basic4CSeq包生成4C信号图(以RPM为单位)。使用CRISPR/Cas9基因组编辑技术在OCUM-1细胞中独立地缺失两个组成增强子(e3和e4)。
b.在OCUM-1细胞中检测到KLF5基因座处的预测性超级增强子与KLF5启动子之间的长程相互作用。原发性肿瘤(T76629543)中的体细胞增益活性与匹配样品中KLF5表达的上调相关。
c.基因(包括CABLES1和RIOK3)的CABLES1基因座处的预测性超级增强子与相邻非编码区和启动子的相互作用。
图18比较来自Capture-C和4C的相互作用谱。
a.维恩图(Venn diagram)显示来自OCUM-1和SNU16细胞的两个生物重复之间预测性超级增强子/基因相互作用(来自4C)的重叠。针对所有已鉴别的相互作用,计算重复之间的一致性(括号中的百分比)。
b.维恩图显示在相同细胞中的预测性超级增强子/基因相互作用(来自Capture-C)与来自4C的一组一致的相互作用的重叠。75%-80%通过使用Capture-C鉴别的相互作用在使用4C的结果中被再次发现。
图19预测性超级增强子活性与长程相互作用的存在之间的关联性的示例。用在OCUM-1和KATO-III细胞中有活性的预测性超级增强子(黑色矩形)检测到与EHBP1启动子的长程相互作用(浅灰色三角形)。在其中也未检测到预测性超级增强子的SNU16细胞中未观察到此类相互作用。
图20使用CRISPR/Cas9缺失的预测性增强子缺失。a)SNU16中的组成增强子(e1)、b)OCUM-1中的组成增强子(e2)、c)OCUM-1中的组成增强子(e3和e4)的CRISPR/Cas9缺失的PCR分析。(e-f)在OCUM-1和SNU16细胞中使用RT-qPCR进行突变体(具有一个预测性增强子缺失)和野生型细胞之间的差异性基因表达。分析汇集的细胞。*P<0.05,#P=0.055,单侧t检验;wt:野生型;lad:DNA梯状条带(ladder)(Bioline HyperLadder I);c1-c3:使用GAPDH引物的野生型细胞。
图21其他细胞和组织类型中GC相关预测性超级增强子全貌。与随机选择区域相比,与在86个细胞和组织样品中检测到的超级增强子重叠的在GC中鉴别的重现的体细胞增益预测性超级增强子的富集比。癌细胞系用星号标记;具有统计学上不显著(P>0.001)富集比的样品为灰色。
图22转录因子沉默对组蛋白修饰和基因表达的影响。
a.重现的体细胞增益预测性超级增强子和未改变的预测性超级增强子之间的差异性CDX2(左)和HNF4α(右)平均结合信号分析。预测性超级增强子也在SNU16中有活性。
b.同时使一种或两种转录因子(深灰色)沉默后,H3K27ac的全局变化。由两个对照(NTCDX2和NTHNF4α)之间的差异产生背景变化。
c.OCUM-1细胞中使转录因子沉默后的H3K27ac耗竭的量级。
d.显示OCUM-1细胞中在CDX2沉默后,在FGL1基因座处的预测性超级增强子中的H3K27ac耗竭的直观示例。
e.在SNU16细胞中,体细胞增益预测性超级增强子中的H3K27ac耗竭相对于CDX2或HNF4α结合位点之间的相关性。将距离均匀地分布分类为三个类别:离结合位点近、中、远。使用单侧威尔科克森秩和检验评价统计学显著性。
f.在同时使单转录因子或双转录因子(NT-siTF)沉默后检查与OCUM-1中的体细胞增益预测性超级增强子相关的基因表达。指示表达变化(FPKM差异>0为下调;<0为上调)的基因的百分比。使用经验方法(参见方法)测试下调基因的比例。
图23通过蛋白质印迹法(Western blotting)和实时(RT)PCR获得的CDX2、HNF4α敲低效率。
a.测量SNU16细胞和OCUM-1细胞中在CDX2敲低之前(siNT)和CDX2敲低之后(siCDX2)的CDX2蛋白质丰度的蛋白质印迹。GADPH蛋白质丰度被用作对照。
b.测量SNU16细胞和OCUM-1细胞中在HNF4α敲低之前(siNT)和HNF4α敲低之后(siHNF4α)的HNF4α蛋白质丰度的蛋白质印迹。GADPH蛋白质丰度被用作对照。
c.在OCUM-1细胞中使用RT-PCR以两次重复测量CDX2相对于对照的RNA丰度。
d.在OCUM-1细胞中使用RT-PCR以三次重复测量HNF4α相对于对照的RNA丰度。
图24GC细胞对CLDN4e1CRISPR缺失的抗性。相对于SNU16细胞,在H1E细胞中观察到更高比率的e1纯合缺失(20%相对于1%)。已确认CLDN4e1亚区在SNU16中是二倍体。
图25使用PCR对来自SNU16细胞的91个克隆中的增强子e1缺失确认。
a.使用外部引物产生的PCR条带。
b.使用内部引物产生的PCR条带。具有纯合缺失的克隆使用外部引物显示约450bp条带,并且使用内部引物显示没有条带;具有杂合缺失的克隆使用外部和内部引物显示450bp条带。
图26使用PCR对来自H1细胞的48个克隆中的增强子e1缺失确认。
a.使用外部引物产生的PCR条带。
b.使用内部引物产生的PCR条带。具有纯合缺失的克隆使用外部引物显示约450bp条带,并且使用内部引物显示没有条带;具有杂合缺失的克隆使用外部和内部引物显示450bp条带。
图27使用桑格(Sanger)测序确认H1ES细胞中两个等位基因中的纯合e1-缺失。空白空间指示缺失的子序列,灰色突出指示sgRNA。
图28使用桑格测序确认SNU16细胞中两个等位基因中的纯合e1-缺失。空白空间指示缺失的子序列,灰色突出指示sgRNA。
具体实施方式
在一个方面,本发明涉及用于确定相对于非癌性生物样品在癌性生物样品中至少一个超级增强子的存在或不存在的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种或多种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个或多个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定所述癌性生物样品中所述至少一个超级增强子的存在或不存在。
在一个实施方案中,癌性生物样品和非癌性生物样品可包括单个细胞、多个细胞、细胞片段、体液或组织。在一个实施方案中,癌性生物样品和非癌性生物样品可从同一受试者获得。
在一个实施方案中,癌性生物样品和非癌性生物样品各自从不同的受试者获得。
根据如本文所述方法的接触步骤可包括至少一种对组蛋白修饰特异的抗体。组蛋白修饰的示例包括但不限于H3K27ac、H3K4me3、H3K4me1和H2BK20ac。在优选的实施方案中,组蛋白修饰是H3K27ac。
根据如本文所述方法的分离步骤可包括通过染色质的免疫沉淀从癌性生物样品分离核酸。在一个实施方案中,分离的核酸包含至少一个对组蛋白修饰特异的区域。组蛋白修饰的示例包括但不限于H3K27ac、H3K4me3、H3K4me1和H2BK20ac。在优选的实施方案中,至少一个对组蛋白修饰特异的区域是对组蛋白修饰H3K27ac特异的区域。
根据如本文所述方法的作图步骤可包括使用基于组蛋白修饰的信号强度的注释基因组序列。在一个实施方案中,组蛋白修饰是H327ac。在一个实施方案中,注释的基因组序列是可公开获得的序列。在一个实施方案中,注释的基因组序列是表观基因组路线图(Epigenome Roadmap)。在另一实施方案中,注释的基因组序列是GENCODEv19。
根据如本文所述方法的作图步骤还可包括距注释的转录起始位点至少1kb、至少1.5kb、至少2kb、至少2.5kb、至少3kb、至少3.5kb、至少4kb、至少4.5kb、至少5kb、至少5.5kb、至少6kb、至少6.5kb、至少7kb、至少7.5kb、至少8kb、至少8.5kb、至少9kb、至少9.5kb或至少10kb的至少一个增强子。
所述方法可进一步包括将分离的核酸中的至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子。
在一些实施方案中,至少一种参考核酸序列可包括来源于以下的核酸序列:i)注释的基因组序列;ii)从头的转录组装配物;和/或iii)非癌性核酸序列文库或数据库。
在一个实施方案中,从至少一种癌细胞系获得至少一种参考核酸序列。
在一个实施方案中,至少一个超级增强子的信号强度基于组蛋白修饰H3K27ac的每千个碱基的转录物每百万的读段(Reads Per Kilobase of transcript per million)(RPKM)值。在一个实施方案中,至少一个超级增强子的信号强度基于组蛋白修饰H3K27ac的每千个碱基的转录物每百万的片段(Fragments Per Kilobase of transcript permillion)(FPKM)值。
在一个实施方案中,使用ROSE(超级增强子分级)算法鉴别癌性生物样品中的至少一个超级增强子。
在一些实施方案中,癌性生物样品中的至少一个超级增强子包含与至少一个参考核酸序列中的至少一个增强子重叠的至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个或至少十个核酸碱基对。
在优选的实施方案中,癌性生物样品中的至少一个超级增强子包含与至少一个参考核酸序列中的至少一个增强子重叠的至少一个核酸碱基对。
在一个实施方案中,确定至少一个超级增强子的存在或不存在的步骤可包括确定癌性生物样品中的至少一个超级增强子的RKPM值为:i)相对于从非癌性生物样品获得的至少一个超级增强子的RPKM值,RPKM值的大于1.5倍变化、大于2倍变化、大于3倍变化、大于4倍变化、大于5倍变化、大于6倍变化、大于7倍变化、大于8倍变化、大于9倍变化或大于10倍变化;和ii)相对于从非癌性生物样品获得的至少一个超级增强子的RPKM值,大于0.5RPKM、大于1.0RPKM、大于1.5RPKM、大于2.0RPKM、大于2.5RPKM、大于3.0RPKM、大于3.5RPKM、大于4.0RPKM、大于4.5RPKM或大于5.0RPKM的绝对差。
在优选的实施方案中,确定至少一个超级增强子的存在或不存在的步骤包括确定癌性生物样品中的至少一个超级增强子的RKPM值为:i)相对于从非癌性生物样品获得的至少一个超级增强子的RPKM值,RPKM值的大于2倍变化;和ii)相对于从非癌性生物样品获得的至少一个超级增强子的RPKM值,大于0.5RPKM的绝对差。
在一个实施方案中,相对于非癌性生物样品的RPKM值,来自癌性生物样品的RPKM值的增加指示所述癌性生物样品中至少一个超级增强子的存在。
在一个实施方案中,相对于非癌性生物样品的RPKM值,来自癌性生物样品的RPKM值的降低指示所述癌性生物样品中至少一个超级增强子的不存在。
在一些实施方案中,确定至少一个超级增强子的存在或不存在的步骤可包括确定癌性生物样品中的至少一个超级增强子的FKPM值为:i)相对于从非癌性生物样品获得的至少一个超级增强子的FPKM值,FPKM值的大于1.5倍变化、大于2倍变化、大于3倍变化、大于4倍变化、大于5倍变化、大于6倍变化、大于7倍变化、大于8倍变化、大于9倍变化或大于10倍变化;和ii)相对于从非癌性生物样品获得的至少一个超级增强子的FPKM值,大于0.5FPKM、大于1.0FPKM、大于1.5FPKM、大于2.0FPKM、大于2.5FPKM、大于3.0FPKM、大于3.5FPKM、大于4.0FPKM、大于4.5FPKM或大于5.0FPKM的绝对差。
在优选的实施方案中,确定至少一个超级增强子的存在或不存在的步骤包括确定癌性生物样品中的至少一个超级增强子的FPKM值为:i)相对于从非癌性生物样品获得的至少一个超级增强子的FPKM值,FPKM值的大于2倍变化;和ii)相对于从非癌性生物样品获得的至少一个超级增强子的FPKM值,大于0.5FPKM的绝对差。
在一个实施方案中,相对于非癌性生物样品的FPKM值,来自癌性生物样品的FPKM值的增加指示所述癌性生物样品中至少一个超级增强子的存在。
在一个实施方案中,相对于非癌性生物样品的FPKM值,来自癌性生物样品的FPKM值的降低指示所述癌性生物样品中至少一个超级增强子的不存在。
在一些实施方案中,至少一个超级增强子位于离基因转录起始位点的500kb、600kb、700kb、800kb、900kb、1000kb、1100kb、1200kb、1300kb、1400kb、1500kb或2000kb以内。在优选的实施方案中,至少一个超级增强子位于离基因转录起始位点的1000kb以内。
在一个实施方案中,所述基因是癌症相关基因、血管生成基因、细胞增殖基因、细胞侵袭基因、与基因组不稳定性相关的基因、细胞死亡抗性基因、细胞能量转换基因(cellular energetics gene)、细胞周期基因或肿瘤促进基因。
在一些实施方案中,所述基因选自由以下组成的组:CLDN4、ABHD11、WBSCR28、ATAD2、KLH38、WDYHV1、CDH17、CCAT1、CLDN1、SMURF1、GDPD5、ADAMTS12、ASCL2、ASPM、ATP11A、AURKA、CAMK2N1、CBX2、CCNE1、CD9、CDC25B、CDCA7、CDK1、CXCL1、E2F7、ECT2、LAMC2、NID2、PMEPA1、RARRES1、RFC3、SLC39A10、TFAP2A、TMEM158、LINC00299和其组合。
在一个实施方案中,癌性生物样品是胃癌。
在本发明的另一方面,提供了用于确定受试者中至少一个癌症相关超级增强子的存在的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种或多种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个或多个对所述组蛋白修饰H3K27ac特异的区域;
c)使用基于所述组蛋白修饰H3K27ac的信号强度的注释的基因组序列对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定受试者中至少一个癌症相关超级增强子的存在,
其中所述癌性生物样品中所述至少一个超级增强子相对于所述非癌性生物样品的信号强度增加指示至少一个癌症相关超级增强子的存在。
在本发明的另一方面,提供了用于检测受试者中的癌症的生物标志物,所述生物标志物包括用于检测受试者中的癌症的生物标志物,所述生物标志物包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或与癌症相关转录因子结合位点相对于未改变的超级增强子的增加相关的至少一个超级增强子,或两者。在一些实施方案中,癌症相关转录因子结合位点是胃癌相关转录因子结合位点。
在一些实施方案中,胃癌相关转录因子选自由CDX2、KLF5和HNF4α组成的组。在一些实施方案中,胃癌相关转录因子选自由CDX2、KLF5、HNF4α和其组合组成的组。
在本发明的另一方面,提供了用于确定受试者中的癌症预后的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种或多种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个或多个对所述组蛋白修饰H3K27ac特异的区域;
c)使用基于所述组蛋白修饰H3K27ac的信号的注释的基因组序列对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述癌性生物样品中所述至少一个超级增强子相对于所述非癌性生物样品的所述信号强度的变化,确定受试者中至少一个癌症相关超级增强子的存在或不存在,
其中至少一个癌症相关超级增强子的存在或不存在指示所述受试者中所述癌症的所述预后。
在一个实施方案中,癌性生物样品中至少一个癌症相关超级增强子的存在指示受试者中癌症存活的不良预后。
在一个实施方案中,癌性生物样品中至少一个癌症相关超级增强子的不存在指示受试者中癌症存活的改善预后。
在一个实施方案中,至少一个癌症相关超级增强子与以下中的一个或多个相关:细胞侵袭基因、血管生成基因或细胞死亡抗性基因、癌症相关基因、细胞增殖基因、与基因组不稳定性相关的基因、细胞能量转换基因、细胞周期基因或肿瘤促进基因。
在一个实施方案中,至少一个癌症相关超级增强子与选自由以下组成的组的基因相关:CLDN4、ABHD11、WBSCR28、ATAD2、KLH38、WDYHV1、CDH17、CCAT1、CLDN1、SMURF1、GDPD5、ADAMTS12、ASCL2、ASPM、ATP11A、AURKA、CAMK2N1、CBX2、CCNE1、CD9、CDC25B、CDCA7、CDK1、CXCL1、E2F7、ECT2、LAMC2、NID2、PMEPA1、RARRES1、RFC3、SLC39A10、TFAP2A、TMEM158、LINC00299和其组合。
在本发明的另一方面,提供了确定受试者对癌症或胃肠疾病的易感性的方法,其包括:
a)使从所述受试者获得的生物样品与至少一种或多种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述生物样品分离核酸,其中所述分离的核酸包含至少一个或多个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述生物样品中的至少一个超级增强子;
e)比较所述生物样品中所述至少一个超级增强子的所述信号强度与从对照生物样品获得的所述至少一个超级增强子的参考信号;和
f)基于所述至少一个超级增强子的信号强度的变化来确定所述至少一个超级增强子的存在或不存在;
g)将所述至少一个超级增强子的存在或不存在相对于包含癌症或胃肠疾病相关SNP的参考基因组序列作图,
其中与一种或多种癌症或胃肠疾病相关SNP相关的至少一个超级增强子的存在或不存在指示所述受试者对癌症或胃肠疾病的易感性。
在一个实施方案中,胃肠疾病选自以下中的一种或多种:失弛缓症、巴雷特食管(Barrett’s oesophagus)、肝硬化、胆汁性肝硬化、腹腔疾病、结肠直肠息肉、克罗恩氏病(Crohn’s disease)、憩室病、憩室炎、脂肪肝、胆结石、胃炎、幽门螺杆菌(Helicobacterpylori)、血色素沉着症、肝炎、肠易激综合征、显微镜下结肠炎(microscopic colitis)、食管癌、胰腺炎、消化性溃疡、回流性食管炎、溃疡性结肠炎、结肠直肠癌和便秘。
在一个实施方案中,癌症选自以下中的一种或多种:胃癌、食管癌、结肠直肠癌、乳腺癌和前列腺癌。
在本发明的另一方面,提供了用于调节细胞中至少一个癌症相关超级增强子的活性的方法,其包括向所述细胞施用CDX2和/或HNF4α抑制剂。
在一个实施方案中,抑制剂是小干扰RNA(siRNA)。在另一实施方案中,抑制剂是短发夹RNA(shRNA)。
在一个实施方案中,抑制剂是小分子或抗体。
在一个实施方案中,抑制剂是二甲双胍。
在一个实施方案中,细胞中至少一个癌症相关超级增强子的活性可由CRISPR基因组编辑系统调节。在另一实施方案中,CRISPR基因组编辑系统是CRISPR/Cas9。
在一个实施方案中,细胞中至少一个癌症相关超级增强子的活性可由CRISPR基因组编辑系统抑制。在另一实施方案中,CRISPR基因组编辑系统是CRISPR/Cas9。
在本发明的另一方面,提供了用于检测受试者中的癌症的生物标志物,其包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或与癌症相关转录因子结合位点相对于未改变的超级增强子的增加相关的至少一个超级增强子,或两者。
在本发明的另一方面,提供了生物标志物在制造用于检测受试者中的癌症的药物中的用途,所述生物标志物包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或与癌症相关转录因子结合位点相对于未改变的超级增强子的增加相关的至少一个超级增强子,或两者。
在本发明的另一方面,提供了CDX2和/或HNF4α抑制剂,其用于调节细胞中至少一个癌症相关超级增强子的活性。
在本发明的另一方面,提供了CDX2和/或HNF4α抑制剂在制造用于调节细胞中至少一个癌症相关超级增强子的活性的药物中的用途。
在一个方面,提供了预测从受试者获得的癌性生物样品中的癌细胞存活或癌细胞活力的方法,其包括:
a)使所述癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定受试者中至少一个癌症相关超级增强子的存在,
其中所述癌性生物样品中所述至少一个超级增强子相对于所述非癌性生物样品的信号强度增加预测癌细胞存活或癌细胞活力。
本文所说明性地描述的本发明可在不存在本文未明确公开的任何一种或多种要素、一种或多种限制的情况下被合适地实施。因此,例如,术语“包含”、“包括”、“含有”等应当被宽泛地解读并且没有限制。另外,本文所采用的术语和表达是以描述而非限制的术语被使用,并且使用这些术语和表达并不意在排除所显示和描述的特征或其部分的任何等同物,而应认识到可在所要求保持的本发明范围内作出各种修改。因此,应当理解,虽然已经通过优选实施方案和任选特征具体地公开了本发明,但本领域技术人员可采用本文所公开的优选实施方案和任选特征中所体现的本发明的修改和变更,并且认为此类修改和变更在本发明范围内。
本文已对本发明进行了宽泛的和一般性的描述。落入该一般公开的每个较窄的类和次一般的组合也构成本发明的一部分。这包括带有将任何主题从一般性中去除的附带条件或负面限制来一般性地描述本发明,而不管被除去的内容是否在本文中明确述及。
其他实施方案在以下权利要求书和非限制性实施例内。另外,在用马库什组描述本发明的特征或方面时,本领域技术人员将认识到,由此也是以马库什组的任何单个成员或成员亚组来描述本发明。
实验部分
将通过参考特定实施例来进一步更详细地描述本发明的非限制性实施例和比较实施例,这不应被解释为以任何方式限制本发明的范围。
方法
原始组织样品和细胞系
从SingHealth组织库获得原始患者样品,且获得SingHealth集中机构审查委员会(SingHealth Centralised Institutional Review Board)批准并签署患者知情同意书。用于该研究中的“正常”(即非恶性)样品是指从胃中远离肿瘤的部位收获,并且在手术评估时没有显示肿瘤或肠上皮化生/发育异常的可见迹象的样品。通过冷冻切片确认肿瘤样品含有>40%的肿瘤细胞。从Japan Health Science Research Resource Bank获得FU97、MKN7、OCUM-1和RERF-GC-1B细胞系。从美国典型培养物保藏中心(American Type CultureCollection)获得KATO-III和SNU16细胞。从Korean Cell Line Bank获得NCC-59。YCC3、YCC7、YCC21、YCC22是来自韩国延世癌症中心(Yonsei Cancer Centre,South Korea)的礼物。通过在转化研究和诊断中心(Centre for Translational Research and Diagnostics(新加坡癌症科学研究所,新加坡)(Cancer Science Institute of Singapore,Singapore)进行的STR DNA谱分析来确认细胞系属性。根据标准ANSI/ATCC ASN-0002-2011命名法评估STR谱,并且我们的细胞系的谱显示与参考数据库具有>80%的相似性。MKN7细胞(一种通常被ICLAC(http://iclac.org/databases/cross-contaminations/)错误鉴别的细胞系)通过显示与日该研究生物资源细胞库保藏中心(Japanese Collection ofResearch Bioresources Cell Bank)中的MKN7参考谱完美匹配(100%)得以确认。MycoAlertTM支原体检测试剂盒(Lonza)和MycoSensor qPCR测定试剂盒(AgilentTechnologies)被用于检测支原体污染。所有细胞系均对支原体污染为阴性。对于该研究,出于两个原因选择OCUM-1和SNU16细胞作为主要细胞系模型。首先,OCUM-1和SNU16细胞最初是从患有低分化胃腺癌的患者中分离出来的,并且该研究中的大多数原发性GC是低分化的(63%)。其次,OCUM-1和SNU16先前已在许多其他已公布的研究中用作胃癌(GC)模型,因此被认为是该领域中公认的GC模型。因此,将OCUM-1和SNU16用作用于几个实验的一致性细胞系模型,包括Capture-C、4C、增强子CRISPR、转录因子结合和转录因子敲低。
Nano ChIPseq
如所述在略微修改的情况下进行Nano-ChIPseq。对于原始组织,使用剃刀刀片在液氮中解剖新鲜冷冻的癌症组织和正常组织,以获得约5mg大小的块用于每个ChIP。将组织块在室温下在1%甲醛/PBS缓冲液中固定10min。通过将甘氨酸添加到125mM的终浓度来终止固定。用TBSE缓冲液将组织块洗涤3次。对于细胞系,将1百万个新鲜收获的细胞在室温下在1%甲醛/培养基缓冲液中固定10分钟(min)。通过将甘氨酸添加到125mM的终浓度来终止固定。将固定的细胞用TBSE缓冲液洗涤3次,并离心(5,000r.p.m.,5min)。将沉淀的细胞和粉碎的组织在100μl 1%SDS裂解缓冲液中裂解,并使用Bioruptor(Diagenode)超声处理到300-500bp。使用以下抗体进行ChIP:H3K4me3(07-473,Millipore);H3K4me1(ab8895,Abcam);H3K27ac(ab4729,Abcam)。
在回收ChIP和输入DNA之后,使用WGA4试剂盒(Sigma-Aldrich)和BpmI-WGA引物进行全基因组扩增。使用PCR纯化柱(QIAGEN)纯化扩增的DNA,并用BpmI(New EnglandBiolabs)消化以去除WGA衔接子。将30ng扩增的DNA用于每个测序文库制备(New EnglandBiolabs)。将8个文库多重复用(multiplexed)(New England Biolabs)并在Hiseq2500(Illumina)的2个泳道上测序到每个文库2000-3000万个读段的平均深度。
序列作图和ChIP-seq密度分析
在比对之前修剪前10个和最后10个碱基之后,使用Burrows-Wheeler Aligner(BWA-MEM,第0.7.0版)将序列读段针对人参考基因组(hg19)作图。仅保留高质量的作图读段(MAPQ≥10)用于下游分析。选择MAPQ值(≥10),因为i)这先前已被报告为用于良好/置信读段作图的良好值;ii)BWA算法的开发人员还指出MAPQ≥10是用于使用其软件进行置信作图的适合阈值;并且iii)评估用于读段比对的各种算法的研究也显示,作图质量评分与读段作图为真实/精确的可能性并不很好地关联,并且已显示针对作图精确度所获得的精确度水平在10-12MAPQ阈值之间达到平稳。该研究集中于在多个样品中可靠检测的重现的预测性增强子和超级增强子,这增加了分析的稳健性。使用具有50bp窗口大小和扩展到200bp的读段长度的MEDIPS计算测序覆盖率。使用CCAT(第3版)检测相对于输入文库具有显著ChIP富集(FDR<5%)的峰。通过计算由文库和区域大小所归一化的作图读段(等同于每千个碱基的每百万作图读段的读段(RPKM)的度量)的总数来计算区域内的峰密度。该归一化方法针对由于读段落入较长区域的较高概率所致的偏差进行调整,并且已被应用于先前的研究中。该研究选择应用基于RPKM的归一化,以使该研究与这些其他研究相当。为了考虑背景信号,针对相应的输入文库校正每个ChIP库的读段密度。使用COMBAT针对潜在的批次效应(例如ChIP测定的日期)校正整个样品内的读段密度并确保相同的样品变化。在两个或更多个细胞系中检测到的17,360个重现的预测性增强子中,98%存在于至少一个原始样品(正常或GC)中。
Nano-ChIPseq数据的质量控制评估
使用两种不同方法来评估ChIP文库(H3K27ac、H3K4me3和H3K4me1)的质量。首先,ChIP质量、特别是H3K27ac和H3K4me3通过查询它们在蛋白质编码基因的注释启动子处的富集水平来估计。具体地说,该研究计算了与高表达的蛋白质编码基因相关的1,000个启动子处的输入和输入校正的ChIP信号的中值读段密度。对于每个样品,将H3K27ac相对于输入的读段密度比率作为数据质量的替代物进行比较,仅保留H3K27ac/输入比率大于4倍的那些样品。使用该准则,50个H3K27ac样品(GC细胞系和原始样品)中的48个展现出大于4倍的富集,表明成功富集。还对H3K4me3文库(启动子标记)进行了类似的分析,并且所有42个文库均满足该质量控制准则。其次,使用CHANCE(CHip-seq分析学和置信估计(CHip-seqANalytics and Confidence Estimation)),这是指示库是显示成功富集还是弱富集的用于ChIP-seq质量控制和方案优化的软件。发现所述研究中的大部分(85%)样品均展现出如通过CHANCE所评估的成功富集。如通过两种方法所评估的每个文库的评估状态报告于表1中。
表1:组蛋白ChIP-seq文库的作图统计和质量评估。
该研究使用KATO-III细胞以实验方式生成了H3K27ac Nano-ChIP-seq的第二生物重复,并且还将结果与从常规ChIP-seq方案生成的独立H3K27ac KATO-III数据进行了比较。将已公布的测序读段与NanoChIP-seq文库类似地进行处理,不包括序列修剪。比较通过CCAT在FDR<5%下检测到的峰。
染色质可及性、保守性和结合富集
从Gene Expression Omnibus(GSM1027325、GSM1027320)获得表观基因组路线图正常胃组织的染色质可及性谱。针对预测性增强子区域计算染色质可及性谱的读段密度,并与以RPKM单位计的100,000个随机选择区域进行比较。该研究还从25个路线图染色质可及性和H3K27ac谱计算了与开放染色质区域(.narrowPeak)和活性调控元件(H3K27ac,.gappedPeak)重叠的预测性增强子的分数。对于转录因子结合富集分析,从UCSC基因组浏览器下载由ENCODE(wgEncodeRegTfbsClusteredV3.bed)呈现的P300和其他转录因子结合坐标。使用BEDTools intersect鉴别至少1bp的重叠。使用PhastConst评分(CasteloR.phastCons100way.UCSC.hg19:用于hg19的UCSC phastCons保守评分,R包第3.2.0版)评估进化序列保守水平。使用距增强子中点500bp以内的最大评分作为增强子保守评分。还计算了10,000个随机选择区域的保守性评分,不包括预先检测到的增强子区域。
预测性超级增强子的鉴别
预测性增强子被定义为距离注释的转录起始位点(TSS)至少2.5kb并且还显示H3K4me1富集和H3K4me3耗竭的富集的H3K27ac区域。用于该研究的TSS注释来源于GENCODE第19版。使用来自GC细胞系和原始样品的聚集的H3K4me3和H3K4me1信号计算H3K4me3/H3K4me1对数比。展现出高H3K27ac信号,但展现出高H3K4me3/H3K4me1对数比(>2.4)的远端预测性增强子被分类为错误预测,因此被排除在分析之外。然后使用ROSE算法将预测性增强子进一步细分为预测性超级增强子或典型增强子。使用BEDTools合并在多个GC细胞系内具有至少一个碱基重叠的预测性超级增强子区域,并且将定位到不同于预测性超级增强子区域的区域的预测性增强子称为预测性典型增强子。通过高于背景的H3K27ac富集水平(P<0.01,经验检验)确定单个样品中预测性典型增强子或预测性超级增强子的存在,后者是来自100,000个随机选择区域的H3K27ac信号(以RPKM计)。为了将预测性增强子/超级增强子分配给基因,计算从预测性增强子/超级增强子中心到最近的活性转录起始位点(TSS)的距离,定义为H3K27ac富集高于随机选择区域的启动子(在TSS两侧的500bp)。使用单侧费雪精确检验测试与重现的预测性超级增强子相关的基因的癌基因富集。使用前500个癌基因。为了鉴别重现的预测性增强子和预测性超级增强子,根据信号强度对每个GC细胞系中的区域进行分级。将整个细胞系内的每个预测性增强子/超级增强子的等级相乘以计算秩积(rankproduct)。为了确定秩积的统计学显著性,比较观察到的秩积与零分布,对各系中的秩重洗(reshuffled)并计算秩积。将重洗程序重复10,000次迭代。观察到的小于零分布的秩积被认为是统计学显著的。
预测性相互作用的验证
使用三个正交相互作用数据集验证超级增强子/基因分配。这些包括:
i)通过PreSTIGE从12种细胞系中检测到的预定相互作用。PreSTIGE相互作用数据从PreSTIGE网站(prestige.case.edu)下载,涉及顺式调控元件和靶基因。
ii)使用默认参数通过GREAT进行顺式调控元件/基因分配
iii)来自K562、HCT-116、NB4、MCF-7、HeLa-S3和GM12878细胞中的RNAPII ChIA-PET研究的增强子-启动子相互作用的参考组。ChIA-PET相互作用数据从encodeproject.org和GSE72816下载。在每个生物重复中鉴别的所有相互作用均被考虑用于验证。这些相互作用涉及两个基因座(锚),其中一个在TSS的2.5kb之内,另一个锚与我们的研究中发现的预测性超级增强子区域重叠。
除了i)-iii)之外,还对细胞系使用Capture-C分析进行了另外的验证(参见图4)。
功能富集分析
将GOrilla用于鉴别富集重现的预测性超级增强子/基因启动子或预测性典型增强子/基因启动子相互作用的生物过程(Gene Ontology注释)。使用默认的GOrilla参数,并使用来自GENCODE v19的基因作为背景。为了确保可比性,选择在整个细胞系内具有最高H3K27ac的预测性典型增强子以匹配相同数目的重现的预测性超级增强子。为了选择前者,将预测性典型增强子在每一细胞系中分级并且基于秩积评分来选择。然后将与重现的预测性超级增强子相关的最有效项(>1.5倍富集)与与居前位的预测性典型增强子相关的富集水平进行比较。除GOrilla之外,还使用GREAT利用默认参数研究与重现的预测性超级增强子和居前位的预测性典型增强子相关的功能性富集,因为GREAT提供针对两侧为较大基因间区域的基因的校正。基于二项式p值对有效项(也具有>1.5倍富集)排序。
原始样品中的细胞系来源的超级增强子
显示2倍或更大的H3K27ac富集或耗竭且具有大于0.5RPKM的绝对差的区域被认为在GC样品和匹配的正常样品之间差异存在。对于主成分分析(PCA),使用来自显示在两名或更多名患者中的体细胞增益的预测性超级增强子的信号。使用R进行PCA分析并使用‘pca3d’包进行标绘。基于来自肿瘤样品和正常样品的100个预测性超级增强子(表2)的平均信号估计实现80%功效(power)和5%I型误差所需的样品大小(http://powerandsamplesize.com/)。该结果产生了13(平均值)的推荐样品大小,这在研究(19N/T)中得到满足。基于原始样品定义了三类预测性超级增强子:i)体细胞增益、ii)体细胞损失和iii)未改变的。与i)、ii)和iii)相关的基因被作图到先前在Hnisz,2013中报道的基因组,其中每组是几个基因本体论类别的汇编物并且用作各种癌症标志的代表。使用单侧费雪精确检验在R中计算统计显著性。为了在不同的组织类型中评估反复获得的体细胞预测性超级增强子的谱系特异性,针对其他非胃组织计算胃预测性超级增强子之间的重叠。基于观察到的总重叠与偶然的总重叠计算与每个非胃组织的富集比。
表2:显示10名或更多患者中的体细胞增益的前100个超级增强子和分配基因。
Capture-C和数据分析
如前所述进行Capture-C。简要地说,将1×107个细胞用2%甲醛交联,之后进行裂解、均质化、DpnII消化、连接和去交联。使用Covaris将DNA超声处理到150-200bp以产生适于寡核苷酸捕获的DNA。将3μg剪切的DNA用于测序文库制备(New England Biolabs)。通过与定制的生物素化寡核苷酸(IDT,表3)依序杂交和用Dynabeads(LifeTech)富集对预测性超级增强子序列进行双重捕获。使用150bp配对末端配置在Illumina MiSEQ上对捕获的DNA进行测序。
表3:用于Capture-C技术中的捕获点坐标和序列。
进行原始读段的预处理以去除衔接子序列(trim_galore,http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/),并使用FLASH合并重叠读段。为了实现到hg19参考基因组的短读段作图,然后将所得预处理读段用DpnII进行计算机(in-silico)消化并使用Bowtie(使用P1、m2、最佳(best)和层(strata)设置)比对。使用Capture-C分析仪处理比对读段以(i)去除PCR重复,和(ii)将亚片段分类为“捕获”,如果它们包含在捕获片段内;“邻近排除(proximity exclusion)”,如果它们在捕获片段的任一侧的1kb以内;或“报告子”,如果他们在“捕获”和“邻近排除”区域之外。另外,该研究使用关于捕获和报告子片段的r3Cseq包来鉴别视点(viewpoint)和缩放背景的显著相互作用(Q<0.05,FDR),并且还比较不同细胞系之间的相互作用谱。
4C-seq和数据分析
使用先前公布的稍作修改的方案制备4C模板。简单地说,将培养的细胞稀释成单细胞悬浮液,并将染色质用1%甲醛在室温下交联10min。将细胞裂解并用第一限制酶HindIII-HF[R3104L,New England Biolabs(NEB)]消化交联的DNA。接下来,使用T4DNA连接酶(EL0013,Thermo Scientific)对HindIII消化的DNA进行邻近连接,之后使用蛋白酶K(AM2546,Ambion)进行交联去除,获得3C文库。然后使用DpnII(R0543L,NEB)对3C文库进行第二次限制酶消化,之后使用T4DNA连接酶进行环化反应。对于每个视点,使用3.2μg所得4C模板进行按比例放大的反向巢式PCR(表4),其中汇集32个反应物(各100ng)并使用MinElute PCR纯化试剂盒(Qiagen)加以纯化。然后在4-20%TBE PAGE凝胶(每孔5μg)上运行10μg PCR产物。在凝胶上,切下200bp到600bp的污迹(smear)并去除不想要的PCR产物条带。然后从切出的凝胶块中提取DNA,用于在Illumina Miseq上的下一代测序(2×250bp)。
表4:用于所选目标区域的巢式引物对。粗体字体指示索引(Index)试剂盒-PCR引物;斜体字体指示i5索引(N502);普通字体指示i7索引(从上到下,N705到N708);下划线字体指示转座酶序列,并且黑色突出指示设计的巢式引物序列。
基于视点概念设计反向引物。使用UCSC Genome Browser[装配:2009年2月(GRCh37/hg19)]来定位目标区域。在添加HindIII和DpnII轨迹后,鉴别出目标区域两侧的两个HindIII限制位点,并选择最近的HindIII和DpnII限制位点之间的序列作为视点区域。基于该区域,使用Primer-BLAST程序[国家生物技术信息中心(National Center forBiotechnology Information)(NCBI)]设计两对引物(外部和巢式),并对默认设置进行以下调整:最佳引物解链温度为58℃,最低温度为55℃,最高温度为60℃;GC含量为39%到60%。然后将适当的衔接子(索引试剂盒-PCR引物,转座酶序列)和索引序列添加到巢式引物对中。用于该研究中的外部引物和巢式引物分别呈现于表5和表4中。
表5:用于所选目标区域的外引物对(4C-seq)。
使用TagDust2修剪测序读段的5'末端的引物序列,并使用Bowtie2(2.2.6)作图到参考基因组(hg19)。未比对的读段在将它们重新比对到参考基因组之前,在前50个碱基对处进行修剪。在下游分析中仅使用MAPQ≥30的唯一作图读段。使用r3Cseq利用非重叠窗口方法(窗口大小=5kb)检测统计显著相互作用(Q<0.05,FDR)。使用Basic4CSeq生成4C数据的信号图。不包括DNA扩增区域内检测到的相互作用。然后使用与相互作用重叠的启动子(距离来自GENCODE v19的注释转录起始位点+/-2.5kb)将相互作用作图到基因。
CRISPR/Cas9增强子缺失
使用由Feng Zhang实验室创建的在线软件(http://tools.genome- engineering.org)进行CRISPR sgRNA靶标搜索。设计sgRNA对以靶向鉴别缺失的增强子两侧的序列。简单地说,将对应于增强子5'末端的上游100bp/下游20bp的序列和对应于增强子3'末端的上游20bp/下游100bp的序列用于搜索。选择具有最低水平的编码区脱靶预测的最高命中(hit)。将sgRNA克隆到pSpCas9(BB)-2A-GFP或-Puro载体(Addgene)中。简单地说,针对每个CRISPR靶标设计寡核苷酸对并从Integrated DNA Technologies公司获得。然后将寡核苷酸对退火以形成在两侧均含有突出端的DNA双链体,以便于克隆。将用于靶向单个增强子5'末端的引导RNA克隆到Bbs I消化的pSpCas9(BB)-2A-GFP载体中,而将靶向每个增强子3'末端的sgRNA克隆到Bbs I消化的pSpCas9(BB)-2A-Puro载体中。使用T4DNA连接酶(New England Biolabs)连接插入物和载体。用连接产物转化DH5α细胞,并将其平铺在补充有氨苄西林(ampicillin)的LB琼脂上。挑取菌落并培养,并且使用Wizard Plus SVMinipreps DNA纯化系统(Promega)提取质粒。通过进行桑格测序确认质粒的序列。用于这些实验的寡核苷酸列于表6中。
表6:用于使用CRISPR/Cas9基因组编辑技术进行增强子缺失中的引物。
表7:使用PScanChIP的CDX2候选结合配偶体和其与CDX2表达的表达关联性。
使SNU16和OCUM-1细胞在补充有10%FBS、1×P/S和0.5×NEAA的RPMI中生长到80-90%铺满。收获细胞并旋转沉淀,用胰蛋白酶在37℃处理5min,并通过移液重悬以获得单细胞悬浮液。对细胞数计数,并用1×PBS将细胞洗涤一次,然后以1×107个细胞/ml重悬于重悬缓冲液中。对于1ml重悬缓冲液中的每1×107个细胞,将25μg pCas9-GFP-sgRNA和25μgpCas9-Puro-sgRNA质粒与SNU16或OCUM-1细胞混合。使用100μl氖移液管在含有3ml电解缓冲液(E2)的氖管中电穿孔100μl的每种细胞悬浮液。电穿孔条件为:脉冲,V 1050,MS 30,2次。在电穿孔之后,将细胞平铺到8ml补充有10%FBS、1×P/S和0.5×NEAA的RPMI上。在初次转染之后24小时,用10μg嘌呤霉素将细胞处理48小时,并使用FACS分选剩余的GFP阳性细胞。然后使用qPCR分析剩余的存活细胞(GFP阳性细胞和嘌呤霉素抗性细胞两者)以估计敲除效率。
进行定量PCR(qPCR)以确定CRISPR/Cas9靶向细胞中单个增强子的缺失效率。使用AllPrep DNA Micro Kit(QIAGEN)提取靶向细胞和非靶向细胞(汇集的)的基因组DNA,并使用KAPA SYBR FAST qPCR Master Mix(Kapa Biosystems)在CFX96Touch实时PCR检测系统(Bio-Rad Laboratories公司)上以三次技术性重复进行qPCR。用于这些反应中的引物列于表6中(名称中带有“Int”的引物用于该目的)。使用归一化为GAPDH基因且相对于非靶向细胞的比较CT(ΔΔCT)方法计算存在于基因组DNA样品中的特定靶向区域的相对量。
使用先前所述的方案从分选的细胞中提取基因组DNA。简单地说,将细胞在0.5×直接裂解缓冲液(Direct-Lyse buffer)(10mM Tris pH 8.0,2.5mM EDTA,0.2M NaCl,0.15%SDS,0.3%Tween-20)中磨碎,并进行以下加热和冷却程序:65℃30s,8℃30s,65℃1.5min,97℃3min,8℃1min,65℃3min,97℃1min,65℃1min,和80℃,10min。随后,将裂解物在水中稀释大约4×,并将3μl的稀释裂解物用于使用Taq DNA聚合酶(Life Technologies)进行20-μl PCR反应。所用的引物在表6中(用于每个增强子的“5'F”和“3'R”的引物对)。
进行RT-qPCR以测量基因表达水平
针对GFP阳性细胞对细胞进行FACS分选,并使用AllPrep DNA/RNA Micro Kit(QIAGEN)从细胞中提取总RNA。使用iScript Select cDNA合成试剂盒(Bio-Rad)与随机引物对汇集的细胞进行逆转录。使用TaqMan Gene Expression Master Mix和TaqMan探针(Applied Biosystems)在CFX384Touch实时PCR检测系统(Bio-Rad)上进行qPCR。所有qPCR实验均一式三份运行,并且使用平均值来确定mRNA水平。使用以GAPDH作为参考基因且利用式2-ΔΔCT的比较CT方法进行相对定量。
拷贝数改变和DNA甲基化
将来自胃肿瘤和匹配的正常胃组织的基因组DNA在Affymetrix SNP6.0阵列(Affymetrix,Santa Clara,California,USA)上杂交。按以下顺序处理.CEL格式的数据:(1)归一化:使用Affymetrix Genotyping Console 4.2处理原始.CEL文件。根据杂交批次从正常胃组织的SNP6.0谱创建参考模型。通过使用来自原始正常样品的参考模型确定细胞系和原始肿瘤样品中的拷贝数变化。(2)分割:使用在DNAcopy R包中实施的循环二进制分割(circular binary segmentation)(CBS)算法产生拷贝数分割数据。用于检测变化点的p值截止值为0.01,置换数为10,000。拷贝数增益和损失区域被定义为分别显示>0.6和<-1.0的平均对数比。Illumina HumanMethylation450(HM450)Infinium DNA甲基化阵列也用于测定DNA甲基化水平。使用methylumi R BioConductor包计算甲基化β值并进行背景校正。使用BMIQ方法(R中的watermelon包)进行归一化。
RNAseq和分析
使用Qiagen RNeasy小型试剂盒提取总RNA。使用Illumina Stranded Total RNASample Prep Kit v2(Illumina,San Diego,California,USA)Ribo-Zero Gold option(Epicentre,Madison,Wisconsin,USA)和1μg总RNA,根据制造商说明书构建RNA-seq文库。利用Agilent生物分析仪(Agilent Technologies,Palo Alto,CA)验证完成的文库,并通过Illumina Cluster Station将其施加至Illumina流动池(flow cell)。使用配对末端101bp读段选项进行测序。使用TopHat2-2.0.12(默认参数和--library-type fr-firststrand)将RNA-seq读段与人基因组(hg19)比对。使用FastQC第0.10.1版(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)评估作图读段的每碱基序列质量和每序列质量评分。通过cufflinks估计基因水平下的转录本丰度。使用ComBat针对潜在批次效应校正显示大于零的变异的原始样品的基因表达。以FPKM单位测量基因表达值。组间差异表达被鉴别为显示出至少两倍的改变表达和0.5FPKM的绝对差的基因。
存活分析
使用K中心点(K-medoids)方法使来自7个独立研究的GC样品聚类。在分析中仅使用具有所有7个研究中的表达值的基因。采用卡普兰-梅尔(Kaplan-Meier)存活分析,以总体存活作为结局指标。使用对数秩检验来评估卡普兰-梅尔曲线的显著性。使用Cox回归进行涉及额外变量(例如年龄、肿瘤分期、劳伦氏的组织学亚型和地域性(亚洲与非亚洲))的多变量分析。
疾病相关的SNP分析
从全基因组相关性研究的UCSC浏览器(2015年8月27日)下载与性状相关的SNP。对于该研究,我们集中于在非编码区域中发生的SNP并且排除了编码区域内的SNP。使用BEDtools‘intersect’计算来自每种性状/疾病的SNP和体细胞预测性超级增强子之间的重叠(nGWAS),并将nGWAS与预测性超级增强子之外的疾病相关SNP的总数(nGWAS')进行比较。作为另外的对照,使用来自两个常用SNP阵列(Illumina HumanHap550和Affymetrix SNP6)的一组所有SNP创建“SNP背景”模型。计算来自SNP背景的与预测性超级增强子重叠的SNP的数目(n背景),并与预测性超级增强子之外的背景SNP的总数(n背景')进行比较。将预测性超级增强子中正常SNP的比率计算为n背景/n背景'。预计预测性超级增强子中的疾病相关SNP数目的增加与这些区域中SNP的高普遍性相关,因此我们的零假设是疾病相关SNP的比率与正常SNP的比率(富集比)之间没有差异。进行卡方检验,<0.01的富集p值被认为是统计学显著的。为了理解风险相关SNP和组蛋白修饰之间的关系,该研究在至少两个独立研究中鉴别出在胃肠疾病(例如溃疡性结肠炎和结肠直肠癌)中发现的与疾病相关的经验证的SNP。使用GATK Unified Genotyper,基于疾病相关SNP的存在将样品分成两组。比较了具有或不具有疾病相关SNP的样品中肿瘤与匹配正常之间的H3K27ac信号的差异。
转录因子结合基序分析
该研究使用ReMap数据库查询了体细胞增益预测性超级增强子和未改变的预测超级增强子中转录因子的富集。对与预测性超级增强子具有至少60%重叠的转录因子结合位点进行计数,并比较前10个最富集的转录因子的等级。将转录因子的结合密度计算为在所述区域中检测到的总结合位点除以所述区域的以百万碱基对(Mbp)为单位的总大小。对于CDX2,使用具有默认参数的HOMER,在反复获得的体细胞预测性超级增强子中检查CDX2结合位点以预测其他转录因子的邻近结合。从HOMER输出中鉴别的前20种转录因子用于表达关联性分析。另外,还使用PScanChIP与JASPAR 2016鉴别了CDX2共结合基序。评价CDX2和潜在的共结合配偶体之间的表达关联性(斯皮尔曼关联性)。
siRNA转染
根据制造商说明书,使用ON-TARGETplus人siRNA siRNA SMARTpool(HNF4α和CDX2)、单个的ON-TARGETplus人个体siRNA(HNF4α)和ON-TARGETplus非靶向siRNA对照(Dharmacon/Thermo Fisher Scientific)在6孔板中,使用Dharmafect 1转染试剂以50nM转染细胞(2×105个)。使用定量RT-PCR和/或蛋白质印迹分析检查72hr RNAi处理之后的敲低效率(图23)。
蛋白质印迹法
将细胞(2×105个)收获于RIPA缓冲液(Sigma)中并在冰上裂解10min。使用PierceBCA蛋白质测定(Thermo Scientific)测量上清液的浓度。将CDX2(1:500;MU392A-UC,Biogenex)、HNF4α(1:1000;sc-8987,Santa Cruz Biotechnology)和GAPDH(1:3000;60004-1-Ig,Proteintech Group)抗体用于探测裂解产物。
定量RT-PCR
使用RNeasy小型试剂盒(Qiagen)分离总RNA,并使用无RNase的DNase套件(RNase-Free DNase Set)(Qiagen)去除DNA。使用Superscript III第一链合成系统(SuperscriptIII First Strand Synthesis System)(Invitrogen)逆转录2μg RNA,并使用SYBRGreenPCR Master Mix(Applied Biosystems)扩增互补DNA。将倍数变化归一化为GAPDH。引物序列如下:HNF4α:F1-5'GTGCGGAAGAACCACATGTACTC 3'(SEQ ID NO:143)、R1-5'CGGAAGCATTTCTTGAGCCTG 3'(SEQ ID NO:144)、F2-5'CTGCAGGCTCAAGAAATGCTT 3'(SEQ IDNO:145)、R2-5'TCATTCTGGACGGCTTCCTT 3'(SEQ ID NO:146)、F3-5'TGTCCCGACAGATCACCTC3'(SEQ ID NO:147)、R3-5'CACTCAACGAGAACCAGCAG 3'(SEQ ID NO:148);CDX2:F1-5'GCAGCCAAGTGAAAACCAGG 3'(SEQ ID NO:149)、R1-5'CCTCCGGATGGTGATGTAGC 3'(SEQ IDNO:150)、F2-5'AGTCGCTACATCACCATCCG 3'(SEQ ID NO:151)、R2-5'TTCCTCTCCTTTGCTCTGCG3'(SEQ ID NO:152);GAPDH:F-5'CCAGGGCTGCTTTTAACTC 3'(SEQ ID NO:153)、R-5'GCTCCCCCCTGCAAATGA 3'(SEQ ID NO:154)。
CDX2和HNF4αChIP-seq和分析
将细胞在室温下用1%甲醛交联10分钟,并通过将甘氨酸添加到0.2M的最终浓度来终止。提取染色质并超声处理到500bp。将CDX2(MU392A-UC,Biogenex)和HNF4α(sc-8987,Santa Cruz Biotechnology)抗体用于染色质免疫沉淀(ChIP)。将ChIPed DNA(10ng)用于依照制造商方案的ChIP与DNA测序(ChIP-seq)文库构建(New England Biolabs)将来自免疫沉淀之前的细胞的输入DNA用于归一化ChIP-seq峰调用。在测序之前,使用qPCR来验证在线性范围内扩增的阳性对照ChIP区域和阴性对照ChIP区域。使用生物分析仪(AgilentTechnologies)检查文库样品的大小分布。在比较对肠型GC和弥漫型GC特异的反复获得的预测性超级增强子(10个为肠型,6个为弥漫型)的初始分析中,在两个亚型之间没有观察到CDX2结合的显著差异。然而,更深入的分析揭示了相同亚型的个体肿瘤之间CDX2表达的高亚型内变异性,这与CDX2表达与肠亚型GC并不完全相关的先前报道一致。因此,该研究进行了互补分析,其中GC按它们单个的CDX2表达水平排序并进行检查。然后计算在显示高(n=8)和低(n=8)CDX2表达的GC样品中鉴别的重现的体细胞增益预测性超级增强子的CDX2结合密度。在差异结合信号分析中,针对跨越那些预测性超级增强子的200个连锁区段计算CDX2和HNF4α的结合信号,所述预测性超级增强子显示原始样品中的体细胞增益或无改变,并且也在OCUM-1或SNU16细胞系中检测到。以RPKM单位测量信号。为了估计转录因子(TF)敲低对H3K27ac强度的影响,定义了内部对照,其包括在独立野生型(WT)样品之间观察到的H3K27ac信号的变化。测量WT样品与TF沉默(siCDX2、siHNF4α或双TF)样品之间的差异,然后将其与该背景变化进行比较。差异>背景变化的99%的亚区被称为H3K27ac耗竭;而差异<背景变化的1%的亚区被称为H3K27ac增益。使用单侧费雪精确检验进行对应于预测性超级增强子的H3K27ac耗竭的亚区的统计学富集。为了研究差异区域和它们与邻近CDX2/HNF4α结合位点的距离之间的关系,所述区域也基于其距离分布被分成三个类别(近、中、远)。CDX2峰顶(summit)和HNF4α峰顶之间的中点位置用于分析H3K27ac耗竭的亚区和CDX2-HNF4α共结合位点之间的距离。为了研究TF沉默细胞中的基因表达和体细胞增益预测性超级增强子之间的相关性,我们选择与预测性超级增强子连锁的基因,所述预测性超级增强子展现出与原始样品中H3K27ac预测性超级增强子信号显著的正表达关联性(r>0.4;P<0.05,双侧t-检验)并且还在GC细胞系中观察到。为了评估转录因子敲低对预测性超级增强子靶基因表达的重要性,使用了置换方法。具体地说,集中于在TF沉默后展现出H3K27ac耗竭的预测性超级增强子,我们将实际的超级增强子到基因的分配置换10,000次。然后通过对置换的基因/超级增强子组中下调基因的数目超过实际基因/超级增强子组中下调基因的实验观察到的数目的倍数进行计数来推导经验P值。
数据可用性
在该研究期间生成的组蛋白NanoChIP-seq(GSE76153和GSE75898)、SNP阵列(GSE85466)、RNA-seq(GSE85465)和DNA甲基化数据(GSE85464)已保藏在Gene ExpressionOmnibus中。用于该研究中的先前保藏的组蛋白ChIP-seq(GSE51776和GSE75595)和SNP阵列(GSE31168和GSE36138)数据可在Gene Expression Omnibus中获得。从Gene ExpressionOmnibus(GSM1027325、GSM1027320)获得来自表观基因组路线图的正常胃组织的染色质可及性谱。从encodeproject.org和Gene Expression Omnibus(GSE72816)获得该研究中分析的RNAPII ChIA-PET数据。
结果
GC细胞系的远端预测性增强子全貌
使用Nano-ChIPseq,生成来自19个原发GC、19个匹配的正常胃组织和11个覆盖多个组蛋白H3修饰(H3K27ac、H3K4me3、H3K4me1)的GC细胞系的110个染色质谱(每个谱平均约3.3×107个读段)。原发性GC的临床信息和分子分类呈现于表8中,测序统计呈现于表1中并且GC细胞系的临床病理学细节呈现于表9中。所述系列包含10个形成腺体的腺癌(53%,肠型)、6个具有高度浸润性分离细胞的样品(32%,弥散型)和3个混合组织学的GC样品(15%)。超过60%的肿瘤(n=12)为3期或以上(AJCC第7版)。对Nano-ChIPseq数据进行了广泛的质量控制分析,包括作图质量过滤器的变化、生物重复和启动子ChIP富集的分析,以及通过质量控制软件CHANCE(CHip-seq分析学和置信估计)进行的评估。增加作图阈值严格性(MAPQ≥10到20)没有明显改变作图统计-保留了总作图读段的>90%,并且分别再次发现了85%的ChIP富集峰和98%的预测性增强子(图7)。通过Nano-ChIPseq生成的KATO-III细胞的生物重复之间的组蛋白峰一致性,以及对照通过常规ChIP-seq生成的独立KATO-IIIH3K27ac数据确认了高再现性(约85%和约90%的重叠)(图8)。在与高表达的蛋白质编码基因相关的1,000个启动子处的输入和输入校正的H3K27ac和H3K4me3信号的比较分别揭示50个H3K27ac文库中的48个(96%)和42个H3K4me3文库中的42个(100%)的成功富集。特别是对于H3K4me1(在启动子处耗竭)的ChIP富集的CHANCE分析揭示大多数(85%)样品展现成功富集(方法)。这些结果证实Nano-ChIPseq队列的良好技术质量。除Nano-ChIPseq之外,还处理样品用于DNA甲基化分析(Infinium HumanMethylation 450K BeadChip阵列)、拷贝数分析(Affymetrix SNP阵列)和Illumina RNA测序。
表8:用于组蛋白ChIP-seq、RNA-seq、Affymetrix SNP6.0阵列和InfiniumHumanMethylation 450K BeadChip阵列中的患者的临床信息。
表9:胃癌细胞系信息
选择GC细胞系作为发现队列以发现GC中的癌症相关性远端增强子,因为细胞系本质上是纯上皮的,具有最高的数据质量,并且因为先前的研究已显示原始组织中的基质污染可影响基因组结果。该研究还集中于存在于多个GC样品中的重现的表观遗传改变,这减少了与个体化细胞系特征相关的“自用(private)”表观遗传改变的引入。首先,基于先前显示标记活性启动子和增强子的H3K27ac信号对全基因组顺式调控元件作图。为了富集增强子元件,该研究集中于远离已知的注释转录起始位点(TSS;>2.5kb)定位的H3K27ac信号(图1a)。然后,该研究使用聚集的H3K4me1和H3K4me3数据进一步改进了增强子预测,排除了展现出高H3K4me3/H3K4me1对数比(>2.4)的预测性增强子的分析。使用该方法,在GC细胞系中鉴别出3,017到14,338个推定的远端增强子(图1b),平均基因组足迹为25Mb/细胞系。
该研究总共检测到36,973个预测性远端增强子区域,跨越约140Mb或大约5%的人基因组。所述预测性增强子展现出双峰H3K27ac信号分布(图1b),耗竭H3K4me3,并且富集H3K4me1信号(图1c和图9)。这些H3K27ac富集区域的目视比较揭示一些区域在多个细胞系中活跃(“重现”),而其他区域仅在一个细胞系中活跃(“自有”)。大约47%的预测性增强子是重现的,在至少两个GC细胞系中展现出活性(图1d)。与启动子相比,重现的增强子的百分比显著更低(67%相对于47%,P<2.2×10-16,单侧比例检验),表明增强子活性在整个GC细胞系中高度可变。
通过整合可公开获得的表观基因组数据集来验证预测性增强子。使用来自表观基因组路线图的正常胃组织的DNase I超敏感(DHS)数据,发现预测性增强子处的DHS信号分布(对数转换的RPKM)显著大于随机选择区域(P<2.2×10-16,单侧韦尔奇t检验;图1e,方法),表明预测性增强子与开放染色质相关。当与9个不同组织和细胞类别的DHS和H3K27ac数据进行比较时,预测性增强子与来自消化和上皮组织(胎儿肠,胃和小肠)的DHS阳性和H3K27ac阳性区域表现出最高重叠,并且不同于非上皮组织类型,如血液和T细胞(图1f)。支持其调控潜力,54%的预测性增强子(n=20,127)与EP300结合位点相关(图1g;P<0.001,经验检验),且92%与转录因子(TF)结合位点相关。在DNA序列水平下,63%的预测性增强子序列在进化上是保守的(图1h;P<0.0001,经验检验)。
超级增强子富集于癌症标签中
使用ROSE算法,鉴别出每个GC细胞系133到1,318个预测性超级增强子,共同涵盖3,759个非冗余预测性超级增强子(图2a)。因此估计约10%的GC细胞系预测性增强子与预测性超级增强子活性相关。与预测性典型增强子相比,预测性超级增强子展现出显著更大的再现倾向(图2b;单侧比例检验,P<2×10-16),其中3,345种预测性超级增强子在至少两种GC细胞系中有活性。观察到与已知的编码蛋白质的GC癌基因(例如MYC和KLF5;图10a)相关并且还处于非蛋白质编码基因区域(例如处于MALAT1基因座)(图2c)的预测性超级增强子,所述MALAT1基因座编码最近显示促进GC增殖的长非编码RNA(lncRNA)。
基于展现最接近的活性TSS(定义为在注释TSS的500bp以内启动子处的H3K27ac富集)的区域,将预测性超级增强子分配给靶基因。仅53%的预测性超级增强子/基因相互作用涉及最近的近端基因(参见方法,平均距离76kb)。使用三个正交相互作用数据集验证预测性超级增强子/基因分配:(i)通过PreSTIGE预测的预定相互作用,(ii)GREAT,和(iii)公布的RNAPII ChIA-PET数据(encodeproject.org,GSE72816)。在与蛋白质编码基因的2,677次预测性相互作用中,88%由这三个数据集中的至少一个支持(图11)。该数字可能是下限,因为用于i)-iii)中后一验证数据的生物样品不涉及胃组织(参见后续部分)。为了理解与预测性超级增强子相关的生物学主题,所述研究应用了GOrilla途径分析,并发现似乎与癌症发展有关的生物过程,例如信号转导、程序性细胞死亡和细胞增殖的调控与预测性超级增强子连锁基因强相关(p值为6.7×10-22到2.3×10-13,通过GOrilla的超几何检测)(图2d)。当通过GREAT分析重现的预测性超级增强子时,这些过程中的许多(例如程序性细胞死亡、细胞增殖的调控)保持显著相关,表明这些富集不是由于对大基因间区域两侧的基因的偏向(图12)。采用与居前位的预测性典型增强子连锁的基因的类似分析获得较低程度的富集(图2d)。预测性超级增强子相关基因也富集了癌基因(P=1.7×10-8,单侧费雪精确检验)。当与基因表达关联时,与重现的预测性超级增强子和典型增强子相关的基因均与RNA表达显著关联(图10b)。
原发性肿瘤中的超级增强子异质性
为了确定哪些细胞系预测性超级增强子还与体内体细胞改变相关,该研究比较了这些区域在19个原发性GC和匹配的正常胃组织中的H3K27ac富集水平。虽然先前的研究已表明存在不同的GC分子亚型,但由于样品大小有限,因此目前的研究选择集中于在多个GC组织中相对于匹配的正常组织保守的预测性增强子差异(参见讨论)。在分析之前,通过与公布的谱相关联,确认原始胃正常样品确实反映了胃上皮(参见“原始胃非恶性样品与表观基因组路线图的比较”部分)。在3,759个细胞系预测性超级增强子中,三分之二展现肿瘤和匹配的正常样品之间的差异富集(图3a,表2,此后称为体细胞改变)。接近一半的预测性超级增强子(n=1,748;47%)展现出在2个或更多原发性GC中的体细胞增益(肿瘤中>2倍的富集,最小0.5RPKM差异),并且使用这些获得的预测超级增强子的主成分分析(PCA)确认了GC和匹配的正常组织之间的分离(图3b)。支持这些结果的一致性,当仅使用通过所有质量控制准则的那些正常/肿瘤(N/T)主要对(14对,参见前文)时,这些重现的体细胞增益预测性超级增强子中的绝大多数(85%,>1.5倍变化阈值)被再次发现。出乎意料的是,尽管它们在癌细胞系中具有活性,但相当大比例的预测超级增强子(18%)与原发性GC中的体细胞损失而不是体细胞增益相关(图3a)。可能这些后面的区域可代表原发性肿瘤中在表观遗传学上沉默,但在体外培养期间在细胞系中重新激活的区域(图13a)。11%的预测性超级增强子(n=416)在GC和正常组织之间展现出未改变的H3K27ac水平(图3a、图13b),这与不与癌症相关但与“持家”功能或一般组织功能有关的这些区域一致。最后,21%(n=808)的细胞系预测性超级增强子在用于分析的原始样品中未展现出足够的H3K27ac富集(RPKM<0.5)(图13c)。有趣的是,该类别还与GC细胞系中的低反复性相关(图3a-黑色直方图)。总的来说,这些结果证实,来源于细胞系的预测性超级增强子可使用来自原发性肿瘤和匹配的正常对照的组蛋白修饰数据进一步细分成至少3个类别-体细胞增益、体细胞损失和未改变。前100个体细胞预测性超级增强子的列表呈现于表2中。
支持它们的生物学独特性,属于这三个类别的预测性超级增强子还展现出其他体内表观遗传学差异。例如,预测性超级增强子在H3K27ac中的改变与H3K4me1增强子标记改变类似地关联(图3c),并且在DNA甲基化水平下,体细胞增益预测性超级增强子展现出显著更低的DNA甲基化水平,而体细胞损失超级增强子展现出增加的DNA甲基化(P=3.8×10-229,单侧韦尔奇t检验)。未改变的预测性超级增强子占据中间范围(图3d)。作为直观示例,与匹配的正常(N2000721)相比,在GC T2000721中观察到降低的DNA甲基化(由较低的β值指示),作图到ABLIM2基因座处的体细胞增益预测性超级增强子(图3e)。相比之下,与N2000639相比,T2000639中SLC1A2预测性超级增强子的H3K27ac信号的体细胞损失显示增加的DNA甲基化(图3f)。这些结果进一步支持胃组织中预测性超级增强子的生物学和分子异质性。
超级增强子展现复杂的染色质相互作用
对拷贝数数据的整合揭示大多数体细胞预测性超级增强子定位于拷贝数中性区域(图14a-c,标题为“胃癌中拷贝数改变与预测性超级增强子之间的相关性”的部分)。为了检查预测性超级增强子和基因表达之间的相关性,该研究使用与先前途径分析相同的预测性超级增强子/基因分配来查询来自相同原始样品的RNA-seq信息(图2)。体细胞增益预测性超级增强子与相对于匹配的正常样品升高的基因表达相关,而体细胞损失预测性超级增强子与降低的表达相关(P<2.2×10-16,单侧韦尔奇t检验;图4a)。
先前的研究还显示,增强子经常参与可影响多个基因表达的长程染色质相互作用。为了鉴别与GC中体细胞预测性超级增强子相关的长程相互作用,该研究应用Capture-C技术来调查36个预测性超级增强子的相互作用,所述增强子选自在原始肿瘤样品中展现出重现的体细胞增益并且还证实在GC细胞系中的活性的区域。分析了三个GC细胞系(OCUM-1、SNU16、KATO-III),探测了36个预测性超级增强子内的多个基因组位置(n=92,称为“捕获点”),鉴别出具有显著相互作用的88个捕获点(Q<0.05,r3Cseq包)。图4b描绘了覆盖20个捕获点的12个代表性的预测性超级增强子。平均来说,每个预测性超级增强子表现出分别与其他基因组位置和启动子的20-26次和5-7次相互作用。捕获点和检测到的相互作用之间的平均距离为大约17.0kb(标准偏差:30.5kb)。该研究还鉴别了长程相互作用,包括在OCUM-1细胞中预测性超级增强子与TM4SF4启动子以约100kb的距离的相互作用(图15)。值得注意的是,对于具有提供信息的相互作用数据的区域,实验性Capture-C信息的可用性还允许进一步验证93%(n=62)原始预测性超级增强子/基因相互作用。对来自所述细胞系的表达数据的整合揭示约70%的相互作用启动子与可检测到的基因表达(FPKM>0)相关。
作为代表性实施例,图4c描绘了SNU16细胞中CLDN4基因组区域的长程相互作用全貌(其他实施例为图16)。选择该区域,因为先前已将CLDN4表达与GC进展和预后相关,并且在多个原发性GC中观察到CLDN4预测性超级增强子的重现的增益(图14d)。具体地说,该研究试图调查涉及两个预测性亚超级增强子区域的相互作用,所述亚超级增强子区域展现出高H3K27ac信号以及CDX2和HNF4α共结合(参见后文)。除了与CLDN4启动子的相互作用之外,还检测到与其他远端启动子(高达约100kb)(例如WBSCR27、CLDN3、ABHD11和ABHD11-AS1)的相互作用。ABHD11-AS1是一种长的非编码RNA,先前已被证明在胃癌中高表达。为了验证Capture-C数据,该研究还在两个GC细胞系(OCUM-1、SNU16)中对4个所选的预测性超级增强子进行了环化染色体构象捕获测定(4C)(图17)。观察到Capture-C和4C数据之间的75%一致性,类似于4C实验重复之间的一致率(图18)。由于4C测序的深度显著更大,因此还鉴别了额外的相互作用,例如距离为约350kb的预测性超级增强子和KLF5启动子之间的长程相互作用(图17b)。
先前的报告已表明,某些长程相互作用与超级增强子活性相关,而其他相互作用则更加不变且反映细胞谱系。与这些发现一致,在展示GC细胞系之间的差异活性的22个(36个中)预测性超级增强子中,4个预测性超级增强子展现出预测性超级增强子活性和长程相互作用的存在之间的良好关联性(图4d和图19)。对于剩余的18个预测性超级增强子,独立于预测性超级增强子活性观察到长程相互作用。
为了调查预测性超级增强子和基因表达之间的因果作用,该研究使用CRISPR/Cas9基因组编辑来使CLDN4预测性超级增强子区域内的两个增强子区域(e1和e2;参见图4c)缺失。在确认OCUM-1细胞和SNU16细胞(图20a-c)中的CRISPR缺失效率之后,通过RT-qPCR比较增强子缺失细胞和野生型细胞之间的预测性靶基因表达水平。在两个细胞系中,e1CRISPR-缺失均引起多个CLDN4基因座基因的下调,包括ABHD11、CLDN3和CLDN4(SNU16细胞中的CLDN4,图20d)。以类似的方式,该研究还观察到OCUM-1细胞中在e2缺失之后ABHD11、CLDN3和CLDN4的下调(e2-缺失的SNU16细胞无法存活,因此排除了基因表达分析;图20e)。为了延伸这些结果,该研究然后在OCUM-1细胞中使来自ELF3预测性超级增强子的其他两个预测性增强子元件(e3和e4)CRISPR缺失(图17a、图20c),因为ELF3已被报道为几种恶性肿瘤中的癌基因。e3和e4两者的缺失均导致包括ARL8A、ELF3、RNPEP和TIMM17A在内的多个ELF3基因座基因的下调(图20f)。总的来说,这些结果支持预测性超级增强子活性和肿瘤基因表达之间的因果关系。
体细胞超级增强子和临床结果
为了进一步探讨预测性超级增强子异质性的生物学和临床相关性,该研究进行了通过体细胞修饰状态(增益、缺失、未改变)归类的癌症标志分析。在10种癌症标志中,体细胞增益预测性超级增强子显著富集于与侵袭(P=8.6×10-11,单侧费雪精确检验)、血管生成(P=2.4×10-4,单侧费雪精确检验)和细胞死亡抗性(P=7.8×10-3,单侧费雪精确检验)有关的基因中,超过体细胞损失和预测的未改变超级增强子一个数量级(图5a)。这些结果表明,体细胞增益预测性超级增强子可能与与侵袭性GC相关的性状有关。当与86个细胞和组织样品的预测性超级增强子谱比较时,GC中>60%的体细胞增益预测性超级增强子展现出高的组织特异性。还观察到了与先前在其他癌症类型(例如结肠直肠癌、乳腺癌、宫颈癌和胰腺癌)中所述的预测性超级增强子的显著重叠(P<0.001,经验检验)(图21),表明某些GC相关的预测性超级增强子也可能在其他癌症类型中有活性。
所述研究接下来探询,与体细胞增益预测性超级增强子相关的基因表达模式是否可与GC患者的存活相关。选择与前50个预测性超级增强子相关的基因,所述超级增强子来自展现出在多个GC患者中反应出现的体细胞增益并且还展现出与靶基因表达的最高关联性的区域。支持该方法的有效性,观察到以这种方式选择的几个基因先前已显示在GC中过表达,例如CDH17和CCAT1。基因列表还包括潜在的新颖的GC相关基因,例如SMURF1和LINC00299(表10)。
表10:与居前位的预测性超级增强子相关的基因(带星号)。将用于评价患者存活的基因指示为“是”。
在包含848名GC患者的3个非亚洲GC队列和4个亚洲GC队列中进行存活分析。具有展现表达预测性超级增强子相关基因的高表达的GC的患者与其中这些基因相对低表达的GC样品相比显示出差的总体存活(图5b,P=1.8×10-2,对数秩检验)。支持这种相关性的稳健性,即使在改变预测性超级增强子的数目之后,与患者存活的关系仍然显著(n=30,P=0.02,对数秩检验;n=60,P=0.03,对数秩检验)。在多变量分析中,即使在针对其他风险因素(例如年龄、阶段、患者地域性和组织学亚型)进行调整之后,与生存的相关性也保持统计学上显著(P=0.044,沃尔德检验(Wald test))。该数据表明,由GC中的体细胞增益预测性超级增强子驱动的基因可能在临床上是重要的。
为了解决不同预测性超级增强子类别和疾病风险之间的关系,考虑了显示疾病相关的单核苷酸多态性(SNP)在调控元件处富集的先前全基因组相关性研究(GWAS)研究。该研究针对那些展现出重现的体细胞改变(增益或损失)的预测性超级增强子或未改变的预测性超级增强子对从1,470个全基因组相关性研究报告的一系列疾病相关SNP进行了作图。体细胞预测性超级增强子富集与各种癌症(前列腺癌、结肠直肠癌、乳腺癌;富集比=3.0-7.2;P<4.4×10-3,卡方检验)和胃肠疾病(例如溃疡性结肠炎)(富集比=3.3;P=5.2×10-4,卡方检验)相关的疾病风险SNP(图5c)。相比之下,未改变的预测性超级增强子没有展现出类似的富集。出乎意料的是,我们还观察到体细胞改变的预测性超级增强子中多发性硬化SNP的富集(富集比=4.3;P=1.8×10-7,卡方检验),表明癌症和自身免疫应答之间的相互联系。为了探讨预测性超级增强子疾病SNP是否可与染色质修饰的局部变化相关,该研究随后集中于至少两项研究中报告的与结肠直肠癌相关并且在至少1/3的GC患者中展现杂合性的SNP(参见讨论)。两个SNP满足这些准则(rs10411210和rs10505477)。具有rs10411210SNP的样品展现出在肿瘤中相对于匹配正常显著更高的H3K27ac信号(图5d;P=0.01,单侧韦尔奇t-检验),并且在具有rs10505477SNP的样品中也观察到类似的趋势(P=0.07,单侧韦尔奇t检验)。此类相关性表明疾病相关风险SNP和癌症相关组蛋白修饰之间的关系。
超级增强子展现出致密的转录因子占据
最后,探讨了与体细胞增益预测性超级增强子相关的反式作用因子。GC预测性超级增强子展现出与其他基因组区域相比显著富集的ENCODE TF结合谱,支持前者作为TF“热点”(P<2.2×10-16,单侧比例检验)。查询ReMap数据库,该研究随后鉴别了与不同的预测性超级增强子类别相关的特定TF。体细胞增益预测性超级增强子和未改变的预测性超级增强子两者均展现出CEBPB、MYC和FOXA1结合的富集。然而,在前10个富集的TF中,CDX2展现出在体细胞增益预测性超级增强子(等级2)中升高的富集,与未改变的预测性超级增强子(等级8)相比,结合密度增加大约30%(图6a和6b)。
由于TF经常以合作方式起作用,因此通过使用HOMER(一种从头基序发现算法)鉴别潜在的CDX2配偶体。HOMER分析鉴别了与CDX2结合相关的HNF4α、KLF5和GATA4结合基序(图6c)。该研究还使用PScanChIP与JASPAR 2016分析了CDX2共结合基序。使用PScanChIP,该研究预测367种蛋白质作为潜在的CDX2配偶体,再次包括HNF4α、KLF5和GATA4(表7)。基因共表达分析揭示HNF4α(斯皮尔曼关联性,r=0.80)和KLF5(r=0.58)是具有CDX2表达的最强关联候选者,表明HNF4α和KLF5可能是CDX2配偶体(图6d)。值得注意的是,CDX2先前已在GC中被鉴别为肠化生的驱动物,并且KLF5和GATA4/6先前已被报告为GC中协同上调HNF4α的致癌转录因子。
为了以实验方式确认CDX2与HNF4α(最高关联因子)的基因组共同占据,对OCUM-1胃细胞进行CDX2和HNF4α的ChIP-seq,并将TF结合位置与预测性超级增强子位置整合。在OCUM-1细胞中,CDX2和HNF4α的结合峰顶(q<0.01,MACS2)展现出高共现(500bp窗口),76%的CDX2结合与HNF4α共现(称为CDX2/HNF4α位点)(图6e)。比较前50%的高CDX2表达GC与最低的50%,我们发现在前一些样品中,重现的体细胞增益预测超级增强子确实与更高的CDX2结合密度相关(123个结合每百万碱基对(Mbp),相对于92Mbp;参见方法)。相对于未改变的预测超级增强子,CDX2/HNF4α位点优先定位于体细胞增益预测性超级增强子(P=2.4×10-4,卡方检验),并且相对于在未改变的预测超级增强子处,CDX2和HNF4α结合信号两者在体细胞增益预测性超级增加处均增加(图6f)。在SNU16细胞中也获得了类似的CDX2和HNF4αChIP-seq结果(图22a)。该结果表明GC中的体细胞增益预测性超级增强子与CDX2和HNF4α的占据相关。
为了测试CDX2和HNF4α是否可在GC超级增强子维持中发挥作用,单个地或同时对两个因子进行每个TF的沉默,然后进行全基因组H3K27ac谱分析。单个地或组合地耗竭任一因子都不会诱导OCUM-1细胞中H3K27ac的全局变化(图22b)。然而,CDX2和HNF4α沉默分别导致基因组的9.7Mb和4.3Mb的特异性H3K27ac改变,并且双TF敲低诱导显著更大的H3K27ac耗竭(与单独的CDX2和HNF4α相比,P=3.4×10-29和1.2×10-88,单侧威尔科克森秩和检验)(图22c)。对于单TF沉默和双TF沉默两者来说,与预测性典型增强子相比,H3K27ac耗竭在体细胞增益预测性超级增强子处更显著地发生,表明超级增强子活性对TF耗竭的敏感性增加(图6g、图2d、表11a到11d;P=5.3×10-7;P=1.8×10-17;P=1.5×10-10,分别对于CDX2、HNF4α和CDX2/HNF4α,单侧威尔科克森秩和检验)。支持这些作用的特异性,预测性超级增强子处的H3K27ac耗竭在以CDX2或HNF4α结合位点、特别是在被两个因子共同占据的位点为中心的区域更明显(图6h)。在SNU16细胞中也获得了类似的结果(图22e)。接下来,为了评估预测性超级增强子和基因表达之间的关系,该研究集中于在TF沉默后展现出H3K27ac耗竭的预测性超级增强子。观察到>60%的预测性超级增强子靶基因在TF沉默后也展现出降低的表达(siCDX2,P=4×10-4,经验检验;siHNF4α,P<1×10-4,经验检验;si(CDX2/HNF4α),P<1×10-4,经验检验;图22f)。如通过置换分析(方法)所评估的,该比例显著超过偶然预期的比例。总的来说,这些结果支持对于CDX2和HNF4α在GC超级增强子维持中的功能要求。
表11a:OCUM1中的体细胞增益预测性超级增强子。a.在CDX2沉默后的预测性超级增强子中具有耗竭的H3K27ac信号的亚区的富集显著性。
表11b:在HNF4α沉默后的预测性超级增强子中具有耗竭的H3K27ac信号的亚区的富集显著性。
表11c:在同时使CDX2和HNF4α沉默后的预测性超级增强子中具有耗竭的H3K27ac信号的亚区的富集显著性。
表11d:在OCUM1细胞中沉默任一因子或同时沉默两者之后CDX2和HNF4α的倍数变化。负值表明,与对照相比,具有沉默TF的细胞中的表达较低。
癌症中的谱系特异性增强子元件
作为一些增强子亚区可能展示癌症特异性必需性的概念验证(proof ofconcept),该研究测试了CLDN4亚增强子区域(e1)在GC细胞或正常ES细胞中可被缺失的程度(图15、图16;表12)。如图24中所示的,在H1ES细胞中容易实现CLDN4e1增强子亚区的纯合缺失(图26、图27),但在SNU16GC细胞中未实现(图25、图28),表明保留单拷贝的CLDN4e1可能是SNU16癌细胞存活所必需的。
表12:用于增强子e1缺失的单导向RNA(sgRNA)的设计。
这允许在chr7:73,262,400-73,266,700周围的缺失。缺失的大小在实际实验中有所不同。因此,上述缺失区域仅是基于sgRNA设计的估计。sgRNA的序列示于表13中。
表13:sgRNA的序列
5’sgRNA CGGGACTCAGACCTTAGTCATGG(SEQ ID NO:141)
3’sgRNA GAGGATTTCTTAAGCCCAGAAGG(SEQ ID NO:142)
基因表达和远端预测调控元件之间的关联性
为了将通过Nano-ChIPseq定义的远端预测性调控元件与基因表达相关联,鉴别出在多个细胞系中展现高重现的80个预测性超级增强子(P<0.0001,经验检验)。相同的方法还被用于鉴别高度重现的预测性典型增强子。对于预测性超级增强子和预测性典型增强子两者,与远端调控元件相关的基因展现出高于随机选择基因的表达(图10b)。比较预测性超级增强子/典型增强子相关基因的表达揭示了预测性超级增强子相关基因的更高的总体表达水平(以百分位为单位)(P=5.2×10-3,单侧威尔科克森秩和检验)。这些结果表明预测性超级增强子和预测性典型增强子中的H3K27ac富集与靶基因表达之间的正相关。
原始胃非恶性样品与表观基因组路线图的比较
为了确认该研究中的非恶性胃组织确实反映了胃上皮,而不是肌肉、免疫细胞等,将来自该研究的非恶性胃H3K27ac谱与先前公布的正常胃谱以及胃平滑肌谱进行了比较。对于每个Nano-ChIPseq谱,70%(平均值)的H3K27ac信号与公布的正常胃谱重叠,而仅34%(平均值)与胃平滑肌重叠。结果表明,非恶性胃样品确实反映了胃上皮而不是胃平滑肌。
胃癌中拷贝数改变与预测性超级增强子之间的相关性
该研究调查了重现的体细胞改变的预测性超级增强子可能与体细胞拷贝数改变(sCNA)相关的程度。使用内部生成的Affymetrix SNP6.0阵列数据计算来自细胞系和原发性GC的预测性超级增强子与拷贝数信息之间的重叠。该分析局限于每10kb至少6个SNP探针所覆盖的区域(为平均全基因组覆盖率的2倍),以允许可靠地鉴别sCNA区域。确认sCNA分析的可靠性,所述分析中平均98%的拷贝数增益和82%的拷贝数损失也在癌细胞系百科全书(Cancer Cell Line Encyclopedia)中针对在后面发现的GC细胞系(FU97、KATO-III、MKN7、OCUM-1、RERFGC1B、SNU16)进行了报告。
在所述细胞系中,发现仅5%至6%(±6%标准偏差)的预测性超级增强子与拷贝数增益相关(平均log2比>0.6)。例如,在KATO-III中检测到的FGFR2相关预测性超级增强子与拷贝数增益重叠(图14b),表明所述基因座处观察到的较高H3K27ac读段密度潜在地由区域基因组扩增驱动。另一方面,在GC细胞系中检测到的大多数预测性超级增强子定位于拷贝数中性区域,表明预测性超级增强子的建立与体细胞拷贝数事件无关。该分数大于通过随机机会获得的(P<0.01,经验检验)。
类似地,在原发性GC中,该研究能够计算19个主要T/N对中1,748个重现的体细胞增益预测性超级增强子的CNA/SE关联性。发现仅一小部分体细胞增益预测性超级增强子(<2%±3%s.d)与拷贝数增益重叠(图14c),在拷贝数中性区域内检测到>90%的在单个T/N对中发现的体细胞增益预测性超级增强子(图14a)。该结果表明,在预测性超级增强子中的H3K27ac的体细胞增益与拷贝数变化之间没有强相关性,并且肿瘤样品中预测性超级增强子处的H3K27ac获得可能由与拷贝数改变分开的机制驱动。
讨论
GC是临床异质性疾病,且除了手术和化学疗法之外,只有曲妥珠单抗(traztuzumab)(抗HER2)和雷莫芦单抗(ramucirumab)(抗VEGFR2)在临床上获得批准,其他分子靶向药剂迄今证明不成功。表观基因组去调节(deregulation)已成为胃肿瘤发生中的重要途径,其中染色质修饰基因(例如ARID1A)在GC中频繁地突变,并且表观遗传改变与胃癌变前期(pre-malignancy)相关。然而,迄今为止,绝大多数GC表观基因组学研究都集中在肿瘤抑制基因沉默背景下的启动子DNA甲基化。相比之下,目前对GC中的远端调控元件(即增强子)知之甚少。
该研究分析了通过对原发性胃肿瘤、匹配的非恶性组织和GC细胞系进行微型组蛋白修饰分析而鉴别的>35k的预测性增强子元件。已知小规模ChIP方案在技术上具有挑战性,并且有时可能导致显著的样品间变异性。令人欣慰的是,作者先前已证实,肿瘤和正常样本之间的Nano-ChIP信号展现与正交ChIP-qPCR结果的良好一致性,并且在本研究中,作者还进行了广泛的质量控制分析,包括作图严格性的变化、生物重复分析、启动子ChIP富集和CHANCE分析,以确认绝大多数(85%到100%)的Nano-ChIPseq文库具有可接受的质量。集中于存在于多个样品中的重现的表观基因组改变进一步确保了生物学结论可能是稳健的,如通过以下观察结果所示:当分析仅限于那些同时通过基于启动子的分析和CHANCE质量分析的“高质量”肿瘤/正常对时,仍然再次发现84%的重现的体细胞增益预测性超级增强子。
在该研究中,重现的预测性超级增强子主要表现在已知的癌基因和参与致癌过程的基因上(图2d)。还观察到单个样品之间超过近端启动子元件的高水平的增强子变异(图1d)。当与其他组织和肿瘤类型进行比较时,几乎60%的GC预测性超级增强子是组织特异性的(图21)。值得注意的是,在目前的研究中,将GC作为一般类别对照匹配的非恶性胃组织研究以获得最大灵敏度。然而,存在不同的组织病理学和分子GC亚型,这表明在GC的不同组织学亚型中可能存在不同的增强子改变。此类发现反映了增强子元件的精巧的组织特异性性质,并因此需要在扩展的患者队列和许多不同的肿瘤类型中生成全面的增强子目录。
所述研究中分析的大多数样品是直接来自患者的原始组织,而不是体外培养的细胞系。通过比较肿瘤和匹配的正常之间的预测性增强子活性(H3K27ac),可根据体细胞改变状态(体细胞增益、体细胞损失和未改变)进一步对细胞系预测性超级增强子进行细分类。支持其生物学独特性,亚归类的预测性超级增强子还展示了其他正交特征的特定差异,包括表观基因组模式(H3K4me1、DNA甲基化)、基因转录和癌症标志。值得注意的是,在我们的数据中,仅一小部分体细胞增益预测性超级增强子定位于拷贝数扩增区域。根据真正的体细胞增益或损失对预测性超级增强子进行细分类的能力可能改善下游尝试以查明负责建立癌症中的超级增强子的致癌机制。此类方法还可能可扩展到其他疾病状态。
在分析与疾病风险相关的种系变体时,先验地考虑预测性超级增强子异质性也可能被证明是有用的。虽然先前的发现已报告疾病相关SNP通常在调控元件中过度呈现,但发现体细胞改变的、而非未改变的预测性超级增强子特异性地富集与癌症和炎性胃肠疾病(胃肠癌的已知风险因素)相关的SNP。这些区域中的SNP可通过几种非排他性机制改变疾病风险和癌症发展,包括TF结合基序的修饰、长程染色质相互作用的调控或H3K27ac水平的改变。实际上,在该研究中,观察到与结肠直肠癌(CRC)风险相关的两个SNP(rs10505477和rs10411210)也与原发性GC中染色质修饰的局部变化相关。将CRC风险数据与GC整合可能似乎合理的原因有几个。首先,已报道这些CRC风险SNP中的至少一个(rs10505477)还在治疗反应和患者存活两方面影响GC临床结局。其次,还已知与GC预测性超级增强子相关的关键转录因子(CDX2、HNF4α)可调控结肠发育。第三,肠化生(IM)作为GC的癌变前(pre-malignant)风险因素的作用是公认的,并且在IM中,胃上皮细胞呈现类似于结肠上皮的细胞结构和外观。在CRC中也观察到这些遗传变体虽然存在于种系DNA中,但可能影响肿瘤中的染色质结构和基因表达的观察结果。这些结果进一步突出了研究异常表观遗传状态以提高我们对疾病易感性的种系过程的理解的重要性。
所述研究的结果表明关于GC中单个超级增强子可如何与顺式和反式作用转录机制相互作用的某些一般原则。使用两种不同的长程染色质相互作用测定(Capture-C和4C),观察到同时参与展现出肿瘤表达升高的近端基因和远端基因的几个体细胞增益预测性超级增强子。已提出与体细胞增益预测性超级增强子连锁的基因可能占据通过粘连蛋白介导的增强子-启动子环建立的类似的拓扑缔合结构域。体细胞增益预测性超级增强子影响近端基因和远端基因两者表达的能力暗示预测性超级增强子作为胃肿瘤中异常基因表达的关键调控物,其可促成疾病进展和化学应答(chemoresponse)(图5b)。在反式水平下,数据揭示GC中的体细胞增益预测性超级增强子与CDX2和HNF4α的占据相关。先前的研究已显示,胃中的异常CDX2表达与粘膜上皮细胞的肠化生(这是胃肿瘤形成中的重要早期事件)相关,并且CDX2具有作为GC癌基因起作用的潜力。HNF4α最近也被证明与GC有关,为谱系特异性癌基因KLF5和GATA因子以及AMPK信号传导途径的靶标。原发性人肿瘤中的结果受小鼠小肠的最近发现支持,其中已发现CDX2调控HNF4α占据以控制肠基因表达。与这些研究相呼应,还发现CDX2/HNF4α耗竭导致集中在CDX2和/或HNF4α结合位点的局部区域处的染色质改变。
总之,该研究证实了异质性在预测性超级增强子中的作用以及使来自原始组织和细胞系的染色质谱相交以解析调控生物学的效用。GC远端增强子的该第一代路线图现在使未来的综合研究成为可能,所述研究涉及与GC预测性增强子(eRNA)相关的转录特征,和鉴别扰乱预测性超级增强子活性的体细胞调控突变。
序列表
<110> 新加坡科技研究局
<120> 癌症表观遗传谱分析
<130> 9869SG4258
<160> 170
<170> PatentIn version 3.5
<210> 1
<211> 120
<212> DNA
<213> 人
<400> 1
atctctttcc ttcagcctgc cgttctttct gcagcaccag ggccctggga ccagctggtg 60
gtttccacca gagcagcctc ggggtgaatt tagtcaggaa tgtgccctca gctcaagaga 120
<210> 2
<211> 120
<212> DNA
<213> 人
<400> 2
gctaagtgag gtgcaaacaa gaaacctggg ttgcctttgc cctctgtccg ccccttgtcc 60
tctgtttaca tcctcccttc ccgtaaatga gttgggtgct gggccccact ggccctgatc 120
<210> 3
<211> 120
<212> DNA
<213> 人
<400> 3
atctggaagg cttttcccag cttagcgtgg tcaagatagg gatgggccga ggctggcact 60
gatgctagac ttccgtgcac agggcaagta tggacaagcc ccaagtggct ttgtgaggcc 120
<210> 4
<211> 120
<212> DNA
<213> 人
<400> 4
atcccggaga tggggggtgg ccctgggcca aatcaggcac ctccctttct caccaggtag 60
tgcctccctg cacgttcaca cccaatgctg tgttgtcagg ggctgtaacc tgagccctgg 120
<210> 5
<211> 120
<212> DNA
<213> 人
<400> 5
gctagccatc tgttgaacca cacccctgcc ccaaccattc tagaaagaaa tataaatctc 60
ttttacagct gtaaatggag agctctgtaa ctctaatatg gagggagata cacgctgatc 120
<210> 6
<211> 120
<212> DNA
<213> 人
<400> 6
ttaaatcatt agagggattt atttcctttc cggaagagtc actcttctgc ggtccttcca 60
cacccagctt tggactgggc cacctggcaa gggtgtgaag tggacttgtg gttgatgatc 120
<210> 7
<211> 120
<212> DNA
<213> 人
<400> 7
atccacagtc tgaagggcat tgcattaggg ccagcccagg gcgagtggcc ttagctgggc 60
tggctatagc gtgtagcaga ggtcagtatg gaaaatggcc ctaggtgcat tctggggctc 120
<210> 8
<211> 120
<212> DNA
<213> 人
<400> 8
atcattctga aattgcttta gggggaaaga cgtgggaact tcacacttcc acccagggtg 60
ccccctcagc aatctggaat gatggactaa ccattagctg agggaggagg gggcaggaca 120
<210> 9
<211> 120
<212> DNA
<213> 人
<400> 9
atcacttggt ctgaatatag gctagtaagg cccatatcat aaggccggta agattcaaaa 60
aaggtaaaaa aaaaaacatc tagtttcgca gactgcaatc ttaaatacag caagccattt 120
<210> 10
<211> 120
<212> DNA
<213> 人
<400> 10
atctttttgc caaattggat gtgagctgac tcactgacat atttctcaag tgacccattg 60
gttcaatgag taacatcctg gaagaaacat gagttattgt taatcataat tattccttca 120
<210> 11
<211> 120
<212> DNA
<213> 人
<400> 11
acaagctgtt cctcccactc aaaccttggc caggaaactg gtggatgatt tgcccttgat 60
tcagaggcaa tcattcttaa ttgcctcaca tggttggaag gtgagtaagt gtctaagatc 120
<210> 12
<211> 120
<212> DNA
<213> 人
<400> 12
atcagtaaag cgacgctttg agaaggggaa ttccttaacc agcctaaatc agtgaatagg 60
attttgcaga gggaattagc taaatacatt ccaaattagg gaagaaggga ttttgacagc 120
<210> 13
<211> 120
<212> DNA
<213> 人
<400> 13
aacacagatg cttcaagtgc caacagccaa taacctataa cccgaatgac attaggctgg 60
gactgaaaga agtcaggcag caggcaggca agccttttaa agaaaactga atccaagatc 120
<210> 14
<211> 120
<212> DNA
<213> 人
<400> 14
atctgctgag ccttcaaaag atgttctttc ttttctggac tcagctgtaa tgcactgggc 60
tggtggtagg gtaataaagt gccctggttt gccctggacg aaaaccaaca gtgttttcta 120
<210> 15
<211> 120
<212> DNA
<213> 人
<400> 15
cagacccttt tggggccctg atttacaggt gccctgaagg gggaggtatt gttctaatgg 60
ccctgcggga ggatgaggtc acttctgtgg gactgtctta ctctggcctg cgctgagatc 120
<210> 16
<211> 120
<212> DNA
<213> 人
<400> 16
atcaattgtt atttggaaga tggttccaga agaatgacag aagtgaatga agaggatatt 60
cctggctgga aaacttgata aaattgttga aaagggagtt gagtaattta tttgtctttg 120
<210> 17
<211> 120
<212> DNA
<213> 人
<400> 17
ctgtcacttg aaagagccta accctgtaca gtaaggagaa aaatgcctgt tacccttcca 60
gggaggctga tacttgcagc acctggtaga aaggaccagt gcctaactgg ggtgatgatc 120
<210> 18
<211> 120
<212> DNA
<213> 人
<400> 18
ctctgatgag acccttcaga atagctgtcc ctaagaggaa ctaaatcagg aattggggat 60
agctggcaag aagacatcaa agaaagctca ggatgtggaa tctctacatt gccctggatc 120
<210> 19
<211> 120
<212> DNA
<213> 人
<400> 19
atctccagtt gcctgtcact accctctgtc aagacccttg gagtcatgac taacaggaag 60
ggagcaggtg gcagcgtggc cacctgccat gcagaaagac tgggtcactt cctgttggta 120
<210> 20
<211> 120
<212> DNA
<213> 人
<400> 20
ttgtgaaact gagttgaatg gagagggttg gctggagacc tgaaagagga tttttaaagg 60
cccaggtctc atcatcaacg tggccactca ctaggtggtg gaaggaatgt agaaaggatc 120
<210> 21
<211> 120
<212> DNA
<213> 人
<400> 21
tctgcagagc ggctctccca cctgctggga ttctccagag gaatcctttt tcttccgtct 60
gagttcagca aacttcctgc ttcctctacc cagcgcagcg agcccctctc tgtactgatc 120
<210> 22
<211> 120
<212> DNA
<213> 人
<400> 22
ctgccacctc agctttgcag cgcctggtgg gtaaactctt gtcccctctc cgtggctctg 60
gtcaaaggta ccttcatttg tgaggtcttc tcagaaccct caggcacagt taaattgatc 120
<210> 23
<211> 120
<212> DNA
<213> 人
<400> 23
atcccaagcc tgtgggttca cctgctctaa gaaatcaata agtcaaggga aacatcaaag 60
ggcattacac atatgggctt tgacgccagg ccgaccaact tcaatccagg tctaaatgag 120
<210> 24
<211> 120
<212> DNA
<213> 人
<400> 24
ggacaggtga ggcaggccag aaccggtgac tcatgggctc cccttggtca ggagggctgg 60
agcaggtaaa gcccgcccac agccggggaa cccacaccca gcacacgttc tctcctgatc 120
<210> 25
<211> 120
<212> DNA
<213> 人
<400> 25
ggaatgaggt ggggcaggac ctgagagcaa agtgtgagct ggtgtgcaga accacccgga 60
ggtggaagga agctagaatc tagtgtaggg tgcctctgac acttgtccca cacatagatc 120
<210> 26
<211> 120
<212> DNA
<213> 人
<400> 26
atcaactcct ttcggaccca caacctcttc tttttaaggc tgcttgaact atttattagt 60
ctgtaattag agtcccaagc gtttccttct gtttcctaaa gggttggaaa aatgccccga 120
<210> 27
<211> 120
<212> DNA
<213> 人
<400> 27
atccatgttc cctatttaac atgctattcc tgtccccaga aaaatcctaa gacacataca 60
cgcgtgctct ctctctcacc tctcacattg cttaaataag agaccacaac atactgtgaa 120
<210> 28
<211> 120
<212> DNA
<213> 人
<400> 28
catagggctt tgctcttgtc tccatccctg aaaaatcctt cctaagcact gtatggtata 60
aatattttag tatctgtcca tggattggct tgttgtcttt gttgagttgc acgcatgatc 120
<210> 29
<211> 120
<212> DNA
<213> 人
<400> 29
atagagtcta gatagaagac cctcctctcc gagcccatcc ccctcagaag gctcgcagcc 60
ctctgaatcc tggtcgaagc tggacagcga aggaatacac agcctgccag tttggggatc 120
<210> 30
<211> 120
<212> DNA
<213> 人
<400> 30
atctgcacag tcagaagata ctcaacagct gcgttttaat gaaggcacag taacccatgg 60
catggcaagt ggttgctaca tattttatgt gtatttttaa ataggaaaat accttcatag 120
<210> 31
<211> 120
<212> DNA
<213> 人
<400> 31
tccttttaga catcagaggc ctgtgttcat caggaacctg atgctgaatc attggagggt 60
aaatgaacct tccaaggttc agtgtttaga atgttgtaga ccagcagtct catcatgatc 120
<210> 32
<211> 120
<212> DNA
<213> 人
<400> 32
agcccgccct cctaggagaa gcctggccag gttccagtgg ggtggtggcc cggcccataa 60
acaggagggg tttatggccc agtgacaggc aaaactggtg gggcaagccc aggctagatc 120
<210> 33
<211> 120
<212> DNA
<213> 人
<400> 33
atctggcagc tggacttctt gggctctgag aaggcaagag attagtatct gtgtgtgaca 60
ggagagggcg tggctggtgt ccacccatcc atgctgggag acgtgggaga gatggggcgg 120
<210> 34
<211> 120
<212> DNA
<213> 人
<400> 34
aaaccagaag ggcactactg aatcagggta caggcagtgt ctgagactct ggttagccta 60
cagagtcatc aacgcacgtg tgctgtagac ttttttgttt ttgcaaatga gggtgagatc 120
<210> 35
<211> 120
<212> DNA
<213> 人
<400> 35
catttcatga aaggagtctg atgcttgtaa actagctcaa attacctact ggatgaccag 60
agatgcaagg ctagagaaag aggagctcta ttgcatcagg agctgaggca ggagaggatc 120
<210> 36
<211> 120
<212> DNA
<213> 人
<400> 36
atcaagaaca accccattca ctcctaatca aatgaccaac ctggcctttg gccttaatag 60
gaagtaaaag tgtctcttcc ggcattgtat cagtggtatg tgccgcacct accacacctg 120
<210> 37
<211> 120
<212> DNA
<213> 人
<400> 37
gtgaggaaca aacttaattg ggtagaagtg tttcgcctca agcaacttgt aattactggc 60
atcgctgtag tcacaggaag aataacaaat gagaggttcc agaatccttc tggaaggatc 120
<210> 38
<211> 120
<212> DNA
<213> 人
<400> 38
atctgcccat gcaaggtgtg tcttcacttc ctaaggaagt aatactgcag agaggaatgt 60
catgactact cctctcatat aattgcagta gaaagacacg agatgatgaa gaaaggaagg 120
<210> 39
<211> 120
<212> DNA
<213> 人
<400> 39
gctgaaggca tccctcctgc tcactgctcc ttccacttta gatgaacagc tggaactcac 60
ataacacagc ctcttccgac aagatttcct ttagagagag aacattctag ggatgtgatc 120
<210> 40
<211> 120
<212> DNA
<213> 人
<400> 40
actaggatga aaggcagcta aaaaagaaat atatggccag gccagtttac ctggagtaag 60
atacaagtag aataacagga gttgtaatta caaagcttgg tgggaaggct atgttagatc 120
<210> 41
<211> 120
<212> DNA
<213> 人
<400> 41
atctccttga ccctgcagcc aatgcctcgg tcagccagtg cacctgtact gtctctcctc 60
ttgggatagg gtccctctcc atcaggtaca atatatggga aatcgagggg tggcctttgt 120
<210> 42
<211> 120
<212> DNA
<213> 人
<400> 42
ggagggcagc tggcaggggc aggctctgaa agcacagctg tgtgaaggtc cggttcaata 60
tccgcttcag aagacacaca gccctttgtt gctcatgtct gttgctgtct aaagttgatc 120
<210> 43
<211> 120
<212> DNA
<213> 人
<400> 43
atccctgagg gaatgagcca cggttcagca cccaaccccc acttgaactc tgcagtttcc 60
cagtttcatt aagaagccca ttgttgagtc tggccatgcg tcaaggacac gtggactctt 120
<210> 44
<211> 120
<212> DNA
<213> 人
<400> 44
gaggcctcag cactccactg actcatcaac ccttctgtcc tttgatgggt aggatggggt 60
gaacgctaat gccagcagac ctggtttcat aatatcttag tgtgttctgc atgtgtgatc 120
<210> 45
<211> 120
<212> DNA
<213> 人
<400> 45
atcctgtttg ttcttgctgg cactgcctgg cccggcttcc tgaggagtga atcagcccat 60
ccaaggcttg gcatgcagta gtgagccaag ggttgccatg gagatgggcg aggcccagag 120
<210> 46
<211> 120
<212> DNA
<213> 人
<400> 46
agggcccgcg ggaacggcct ggcccaggcc cgcgcgccct gccctgtgtt cccgggaggc 60
gcggtctcct ggcggcaggg gagtcccggg agggcgcagg gcggcgcaga gcctgggatc 120
<210> 47
<211> 120
<212> DNA
<213> 人
<400> 47
atcatttgca tagctcttag ttatttgagc aacacattca tttaattcca cagcaatgtg 60
gggaatgagg gactcttccc tgctttccag gtcagcaaca ggaaaaacaa atgatttgct 120
<210> 48
<211> 120
<212> DNA
<213> 人
<400> 48
ggttgcctgg ggcaaccctg ggaaggtgag gccctggatt tcctggtctg gcctctgaga 60
acctcctagc accccagaac tcccagacag aatgttaggt aatgccaatg agcacagatc 120
<210> 49
<211> 120
<212> DNA
<213> 人
<400> 49
atccaagtta tcaaaagtgg gtaacaaagc aacatcaaga aactgtgtcc ttaaaactaa 60
gagaatatac aagacattct aatccacatg gttcttaggg tgaaatctag cctctgggca 120
<210> 50
<211> 120
<212> DNA
<213> 人
<400> 50
cttcctgtgt ttcaaccttc ttatctgaag acacacagtt atagtacagc attgtgaagt 60
taaatgaact atactgtggc tcatgataac aatcagtaag tgttagtcat tataatgatc 120
<210> 51
<211> 120
<212> DNA
<213> 人
<400> 51
gctgcatgcc tggcagctag taggtactgc ataaatacaa gttcattggc tctccttgag 60
ttgtctggct ggggtcccag agactgaaac tttgctcttg gctgcagcag gggcaagatc 120
<210> 52
<211> 120
<212> DNA
<213> 人
<400> 52
atctggtaac gttgggccct atttcagttg acaatgagag tcagggttga gttgtgactg 60
tcacctttaa agaaagtaca tagagtaggc taggcgacaa tgacaaaata tcagcaactt 120
<210> 53
<211> 120
<212> DNA
<213> 人
<400> 53
ctctttagaa cgtctcttcc tcccgtggga ttggaaagaa catttgtcct cagcggcaaa 60
ggcagggctt catcaaagac gagtgactca gtgcttttcc tgctgtctgg ccacatgatc 120
<210> 54
<211> 120
<212> DNA
<213> 人
<400> 54
atccccccaa caatcgtctt gtattttttt cagctcagtt tcctgagcct gccacaccga 60
gggccccaca gtcggaaacc acgtttggtt cgaagctctc ctgttctcat ctggaaattc 120
<210> 55
<211> 120
<212> DNA
<213> 人
<400> 55
gaagataaaa atctattagc tgccaagagg attgctggga aaagccaagc cgtgattcat 60
agggtaataa atagaaagac agtcccggcc ccggggctgc atcttccttg catgctgatc 120
<210> 56
<211> 120
<212> DNA
<213> 人
<400> 56
tattttccct tcagaaatag catccttaac tttctttttt ttttccttat taaaaatgta 60
ctcatgtaat ccacatgcac tggctgtgag aaattccaaa atgtcttttg gagagagatc 120
<210> 57
<211> 120
<212> DNA
<213> 人
<400> 57
ttgtgaagtg ggatatgttt ttaaatttca gagaacagga agatgaattg tttttaatgg 60
atttttttta ataggcaaag ctgtgtatgc acaaatgctg gccagtgtag ggctatgatc 120
<210> 58
<211> 120
<212> DNA
<213> 人
<400> 58
atctatttct cttatttttt tttaaatcta gtgtttcata atgtctaaaa gaaagtgttt 60
gcaagtcatt gtggtttttt tttttcatca aagtattcct tgtttcactc tctgtcgcat 120
<210> 59
<211> 120
<212> DNA
<213> 人
<400> 59
atcctgtctc atcttggatg taattcctac agttagactt ctatcaaagg gtcattgtgc 60
caactggaat tctttccaat tcgagaaata agaatttgag gaatctctaa gggtagaaat 120
<210> 60
<211> 120
<212> DNA
<213> 人
<400> 60
atctccttac ataaggagaa attttcagaa attaataaaa tgaagttcag ccttaaggaa 60
tgtgactaat acatctgaga taagtgactc aaacactaga agagggagat acttgcagtt 120
<210> 61
<211> 120
<212> DNA
<213> 人
<400> 61
atcttgacaa acactagaga cccatcagcc agagtgaatt cccttagtga aatcactatt 60
ctctgccaag aatcaaaggt catcccagtg gagtgccgtc ttcgtgttca gcagctacgg 120
<210> 62
<211> 120
<212> DNA
<213> 人
<400> 62
ctctgtgagt cagcgaaatg gattgaatta taaaccagaa accagcactt caatctgatg 60
aaactcatcc tatagaggaa agtgtcacta catgttggca gtttgtaaaa tgtgatgatc 120
<210> 63
<211> 120
<212> DNA
<213> 人
<400> 63
atcagaactg gaactgagcg atagagcttc agagaaactt gttgtttaca ttggcaagaa 60
atcttatcca gcaagaggat taaaataaaa ccatgaccaa aacagtaaag ggtgtgaaga 120
<210> 64
<211> 120
<212> DNA
<213> 人
<400> 64
atcctagtac atagaggtat ctggaaggtt attatgttat ctgaatcttg aatagaatca 60
gttacctgaa gccagtgtta ccttaggaat tccatatgtg tgattgaaga ttgcttatta 120
<210> 65
<211> 120
<212> DNA
<213> 人
<400> 65
gccacagggc cccccaggta aaggactgac agccagccat gcaagcccct gggactgacc 60
cagatgcaga actgaccaat gtggcgacaa ccatcaccca accctgtggg gctgtagatc 120
<210> 66
<211> 120
<212> DNA
<213> 人
<400> 66
tacacaagga ggactgggtt gcactcggtg cattttaaag aaagcccggc ggacacacgg 60
gttctcctgc tggtgctgcc agcctggaaa atgacagctg agactcaagc aggcaggatc 120
<210> 67
<211> 120
<212> DNA
<213> 人
<400> 67
atccagtgac tatacctgga atttggcctc taagcgagtg tttctttttg cacttggact 60
tcttgagaga ttactcatta ctcaggagat aacaccaaag cattctcaaa accaatcttt 120
<210> 68
<211> 120
<212> DNA
<213> 人
<400> 68
aatataggag aaaggtcaca gtggcttgga gatgaattcc aggacacagc actgcaggag 60
ggaccatgcc cctcgaggct tcttatatgt ggttcctcag ttcttggcta agttaggatc 120
<210> 69
<211> 120
<212> DNA
<213> 人
<400> 69
tgtgggctgt taacaactac gcttggctca gtgccccaca ggtttctaaa gtccccccca 60
ggaggaaaca ccacttccac caaaggccct ggaagaaagc aatcactaag tgagctgatc 120
<210> 70
<211> 120
<212> DNA
<213> 人
<400> 70
gctgtttgct catctgtttg taaagcctta gacccagcca gtcaccggcc ccacccaggt 60
gccagttgac gtgagtcatg cagtttctcc tgacactact gttacaaagt ctagcagatc 120
<210> 71
<211> 120
<212> DNA
<213> 人
<400> 71
atcctccatt cccgagatga gaaaaatgtg actctgaggc agctgtggtc tctcctgggg 60
tggcttggct ggtgggtgac aggccagtat tttaaaccaa cccaggctcc agcctggggc 120
<210> 72
<211> 120
<212> DNA
<213> 人
<400> 72
atctcaatac taacaaatgt ttatttacag gaaggctttg ttaattgagt gatggaagct 60
attgctctca cttgctattt agagactatt gacattacct ttatttcctg gtcctaaaca 120
<210> 73
<211> 120
<212> DNA
<213> 人
<400> 73
atccctagaa gatttctgaa ttagctgaat gacaaacaca agatacttag atgacccatt 60
cgaaccagga agccttgcaa catcaagtaa ggagtcctca attaacagcc ttagaagaca 120
<210> 74
<211> 120
<212> DNA
<213> 人
<400> 74
atcaaagaat actttttttc aggggggagg atgttggtat ttacttaact cactgatgga 60
gaaaaagaac gctcccactc tataaatgtt tagcatgtgt gtaaaggtcg taggtctggt 120
<210> 75
<211> 120
<212> DNA
<213> 人
<400> 75
taggtttgag tccagagcat gacctttggg cttatcagac agtgaaggga tgggtcagaa 60
cttgtcacct gtgttcacgg gatgctgatt cactcagcaa ggatgaagtc ttttcagatc 120
<210> 76
<211> 120
<212> DNA
<213> 人
<400> 76
atcaagaagg gagcacaaat tctctccctc cacatgggag ggtgctccgg tccaccgctg 60
cttgtgactg atgggacagt ctgtcttatt aggatacaag gacacactca gccacattct 120
<210> 77
<211> 120
<212> DNA
<213> 人
<400> 77
atcaataatg cattagataa tggtgttctg aggcaggatt tcaatgaaag gctaagtgct 60
gtaactatgt aacaaaacac cagcacagga caaagagtag gtttctcaat caacaaggat 120
<210> 78
<211> 120
<212> DNA
<213> 人
<400> 78
agtctttcca gtgcttcgga tgcatggtaa agttggagaa ccatggctgt aaagtatcag 60
tagtcgagga gcaggaagat atttccactg gttgtacatt ttagtttaga atgcttgatc 120
<210> 79
<211> 120
<212> DNA
<213> 人
<400> 79
gtaatgattc ggagtgagac ccctaacacc tcccgaatgg gggcaagaag ctcaggactc 60
tggtagccca ggcagagtct gagtaactgg cgttgcctct cttcatgcat ctacctgatc 120
<210> 80
<211> 120
<212> DNA
<213> 人
<400> 80
atcctgaaga agcagtgcca gctcctccca gacagcccgc cccagctggc ccgctggctc 60
cagcccagcc aggagcgagg gcagtggggg agccccacag gagggaacgg gggctcagga 120
<210> 81
<211> 120
<212> DNA
<213> 人
<400> 81
atctccccca gcctgcaccc cacccagcaa ggacatgcaa gccaagcagt tcccacaccc 60
cgttcctggt ggctgccaga agcttcctta caaggcccca gcgctgagct ggctcagctg 120
<210> 82
<211> 120
<212> DNA
<213> 人
<400> 82
atgtttgggc cccgggctga aggtgtgggt ggcagggaag gtggaggatt tgaggtgggg 60
aggctcactt cccgctccca gggctcgagg gcagggcaag ccagctggga ctgccagatc 120
<210> 83
<211> 120
<212> DNA
<213> 人
<400> 83
atcgtgctag ttaaatgaat gaacatgtgg tggttacagg caaacccaca atgccacaca 60
ggacaccgac caacaactga aaacggtgac agctgccctt acccgcagct ccccagcgta 120
<210> 84
<211> 120
<212> DNA
<213> 人
<400> 84
agctgagcga aactcttcct cctccacgag gcctctccca gcccttcagt tcatgacgcc 60
ttggtgagag aggtctgtat agcaacacgg ctgcactgaa gcttcctttg taggtcgatc 120
<210> 85
<211> 120
<212> DNA
<213> 人
<400> 85
atccgtgcca gggggccact gagctctcat tcccagaagc caaccagagc cagtgaaggg 60
gccgcagaga ctccgacaca tcattttcat aaaaacagcc caaggagagc attgcattag 120
<210> 86
<211> 120
<212> DNA
<213> 人
<400> 86
atcctgtaag tcaaagacac aacctgttcc aggaaggact ttgcaacagc aattactcta 60
acaagttaca attcgcagag tccggccttt aaggggcttt gaagagagag aaacccatga 120
<210> 87
<211> 120
<212> DNA
<213> 人
<400> 87
atcatatcac atctgagtta ggccatatgc acccaggggg aatctcaaga gcaaactaat 60
ctaaactcca agaaatagac cactaagacc cacccaggta gtactcactg aacgctcttc 120
<210> 88
<211> 120
<212> DNA
<213> 人
<400> 88
agattcactt aaatacatca tgaatgatag actggaatat ttttgaatca tattcaccaa 60
aacattagaa gtgaatcagt agtagtgtgg tctctgaagt caactttaaa agaattgatc 120
<210> 89
<211> 120
<212> DNA
<213> 人
<400> 89
ccagagacac aaagcagttg atgctgttca tgttctgggg ttcactcgca agcacttgaa 60
gggaaacgac tggacagttc ctgtgaagac agggttttct tgagagtttc taggaagatc 120
<210> 90
<211> 120
<212> DNA
<213> 人
<400> 90
gtccccacct tagctccatt ctcactccca gctgtcaact ctatgaggtc aaggtctcta 60
acacaactgg gtccctggcg gctcacagcc gtggctgctg gcacgggaaa gatgccgatc 120
<210> 91
<211> 120
<212> DNA
<213> 人
<400> 91
tgatgctgtc tgactgaggt caaaaggatg ggtgtggaag gcatcacacc tttctcccat 60
ttagaaatcc attgtccctt ccttctccct tattgggtta cattcctctg tccatagatc 120
<210> 92
<211> 120
<212> DNA
<213> 人
<400> 92
caacatcagc ctcagcctga actctgccag taaacttgta actttccaag gaaacttact 60
ctactgtaac agttcttttt catccggaga caaaatgtat ctgattcgca gtcaccgatc 120
<210> 93
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 93
gtctgcgcct caggaaaat 19
<210> 94
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 94
aaggctgttt cctgtcttgg 20
<210> 95
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 95
ccctaccact ttcccttttc 20
<210> 96
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 96
tatgcaaggg catcaattag g 21
<210> 97
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 97
cttgaggaac acagaagggc 20
<210> 98
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 98
cagcactctg caaacagact 20
<210> 99
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 99
aaagtctctg ccatctccca g 21
<210> 100
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 100
aaatcaaagc tcagaggact gg 22
<210> 101
<211> 91
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 101
aatgatacgg cgaccaccga gatctacacc tctctattcg tcggcagcgt cagatgtgta 60
taagagacag ttgtccatcc ccatatcttg g 91
<210> 102
<211> 86
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 102
caagcagaag acggcatacg agataggagt ccgtctcgtg ggctcggaga tgtgtataag 60
agacagaggc tgtttcctgt cttggg 86
<210> 103
<211> 95
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 103
aatgatacgg cgaccaccga gatctacacc tctctattcg tcggcagcgt cagatgtgta 60
taagagacag gtcaactgaa tcaagacata aattc 95
<210> 104
<211> 86
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 104
caagcagaag acggcatacg agatcatgcc tagtctcgtg ggctcggaga tgtgtataag 60
agacagggga gtccttcagt gtaacc 86
<210> 105
<211> 90
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 105
aatgatacgg cgaccaccga gatctacacc tctctattcg tcggcagcgt cagatgtgta 60
taagagacag ccccacttcc catttcccaa 90
<210> 106
<211> 86
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 106
caagcagaag acggcatacg agatgtagag aggtctcgtg ggctcggaga tgtgtataag 60
agacagacct aacaaagcgc tcagct 86
<210> 107
<211> 93
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 107
aatgatacgg cgaccaccga gatctacacc tctctattcg tcggcagcgt cagatgtgta 60
taagagacag gttgctttgg ctaactattt gga 93
<210> 108
<211> 86
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 108
caagcagaag acggcatacg agatcctctc tggtctcgtg ggctcggaga tgtgtataag 60
agacagtaat agccttggtc cccagg 86
<210> 109
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 109
caccgcccca tgtccccata caggc 25
<210> 110
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 110
aaacgcctgt atggggacat ggggc 25
<210> 111
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 111
caccggcaca ccaggcagga ttcc 24
<210> 112
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 112
aaacggaatc ctgcctggtg tgcc 24
<210> 113
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 113
caccgcggga ctcagacctt agtca 25
<210> 114
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 114
aaactgacta aggtctgagt cccgc 25
<210> 115
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 115
caccgaggat ttcttaagcc caga 24
<210> 116
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 116
aaactctggg cttaagaaat cctc 24
<210> 117
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 117
caccgtgagg gaggataggc gggcc 25
<210> 118
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 118
aaacggcccg cctatcctcc ctcac 25
<210> 119
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 119
caccgcacct agaggcctgc tttag 25
<210> 120
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 120
aaacctaaag caggcctcta ggtgc 25
<210> 121
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 121
caccgaagag aactccaccg ggtg 24
<210> 122
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 122
aaaccacccg gtggagttct cttc 24
<210> 123
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 123
caccgcagac atgacctagg ttccc 25
<210> 124
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 124
aaacgggaac ctaggtcatg tctgc 25
<210> 125
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 125
gccttccctt cctgatgtc 19
<210> 126
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 126
taatggcaag actggtatcc ac 22
<210> 127
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 127
cttgtggtac tgttcccaga c 21
<210> 128
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 128
cagcctggga agcatattga 20
<210> 129
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 129
ctgggttccc acctgataat 20
<210> 130
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 130
gatgaaatcc aagtcattgt gtcc 24
<210> 131
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 131
cttctgggtt caagtgagtc t 21
<210> 132
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 132
catgagcaaa ggtcctccta c 21
<210> 133
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 133
cagtaggtac acctggcaat ag 22
<210> 134
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 134
atcctgcttc ctcttggaat atc 23
<210> 135
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 135
ccagcttctt tcctctcctt atc 23
<210> 136
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 136
ggtgaaatcc catctccact aaa 23
<210> 137
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 137
atccagacac acctgtagga 20
<210> 138
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 138
cagaacaaag tccagagaga gg 22
<210> 139
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 139
cctgcctctc ttctgctttc 20
<210> 140
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 140
gttcatgccc tgccttatct 20
<210> 141
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> sgRNA
<400> 141
cgggactcag accttagtca tgg 23
<210> 142
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> sgRNA
<400> 142
gaggatttct taagcccaga agg 23
<210> 143
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 143
gtgcggaaga accacatgta ctc 23
<210> 144
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 144
cggaagcatt tcttgagcct g 21
<210> 145
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 145
ctgcaggctc aagaaatgct t 21
<210> 146
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 146
tcattctgga cggcttcctt 20
<210> 147
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 147
tgtcccgaca gatcacctc 19
<210> 148
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 148
cactcaacga gaaccagcag 20
<210> 149
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 149
gcagccaagt gaaaaccagg 20
<210> 150
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 150
cctccggatg gtgatgtagc 20
<210> 151
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 151
agtcgctaca tcaccatccg 20
<210> 152
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 152
ttcctctcct ttgctctgcg 20
<210> 153
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 153
ccagggctgc ttttaactc 19
<210> 154
<211> 18
<212> DNA
<213> 人工序列
<220>
<223> 引物
<400> 154
gctcccccct gcaaatga 18
<210> 155
<211> 2001
<212> DNA
<213> 人
<400> 155
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 156
<211> 2001
<212> DNA
<213> 人
<400> 156
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 157
<211> 2001
<212> DNA
<213> 人
<400> 157
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 158
<211> 2001
<212> DNA
<213> 人
<400> 158
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 159
<211> 2001
<212> DNA
<213> 人
<400> 159
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 160
<211> 2001
<212> DNA
<213> 人
<400> 160
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 161
<211> 2001
<212> DNA
<213> 人
<400> 161
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 162
<211> 2001
<212> DNA
<213> 人
<400> 162
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 163
<211> 2001
<212> DNA
<213> 人
<400> 163
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 164
<211> 2001
<212> DNA
<213> 人
<400> 164
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 165
<211> 2001
<212> DNA
<213> 人
<400> 165
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 166
<211> 2001
<212> DNA
<213> 人
<400> 166
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 167
<211> 2001
<212> DNA
<213> 人
<400> 167
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 168
<211> 2001
<212> DNA
<213> 人
<400> 168
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 169
<211> 2001
<212> DNA
<213> 人
<400> 169
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001
<210> 170
<211> 2001
<212> DNA
<213> 人
<400> 170
gctacaggaa ggactgactg tgagttctct gccagcctgc tgagatggca aagaatggga 60
atgaaattga ctgaaagaaa ataaacatgg atgcttgttg cacggatgtg ggtgaggaga 120
gccagcctgt atggggacat ggggatggag actgatgctg ggggggtagt gacaccaact 180
gggtggcagc tggcaggccc ctgggcatcc acactccccc tgctcagttg gagagaagca 240
agaaagcata aagggaggga gggagggagg aaaagaggtg ggagatgagt gctgtgggtg 300
agcgctgaag cacacttcaa aagctcaagc cacaatgctt acgccctgat ataaaaagag 360
cattgagttg agcgtggtgg cttacgcctg taatcccagc actttgggag gctaaggcgg 420
gtggatcact tgaggtcagg attttgagac cagcctggcc aacatggcga aaccctgtct 480
ctactaaaaa tacaaaaatt agccgggcat ggtggcgggc gtctgtagtc ccagctactc 540
tggaggctga ggcaggagga tcgcttgaac ctgggaggtg gagcttgcag tgagtggaga 600
tcgcgccatt gcactccagg ctgggtgaca gagtaagact ctgcctcaaa aaaaaaaaaa 660
aaaaattgaa aaattacaaa gctcaaacct aatcaccagt gtggctgctc ctggccccac 720
cctgcctcct gctccccagg ggaggggaca ggtcagagag gggtgtgccc ttccaggggc 780
ctgagatgat ccagacatgg gagctggcag ggaatgaggg ctccggcagg gctgggtcag 840
taggtacacc tggcaatagg gcaaagatct ggcagctgga cttcttgggc tctgagaagg 900
caagagatta gtatctgtgt gtgacaggag agggcgtggc tggtgtccac ccatccatgc 960
tgggagacgt gggagagatg gggcggggac acagggcagg agagaggcca ggcctggggc 1020
ctctgtgccg ggagggataa tacgatctct gagtcacccc gaaatggggt gagatggtgc 1080
tgatgatccc ggattccttg gttttgtccc tggctctgtc actgctgact catgggctgc 1140
cgacctagga gtctcctggt cagcgtgcgg gtttctctca gcctcttggt gtgtcacaga 1200
agcagacagc ttctctgtaa accgtcatcc tcaggggtgt gcccggcttc tgggttctgt 1260
gttctggcat cctccgatat tccaagagga agcaggatag gacgatccca gctccttgct 1320
ctgcctactg gtgacaagac ctgtcctggc ctgggaccag gggggcttct ctgggagtcc 1380
tggttggtcc tgagacaggg acaccctccc agtgaagccc tacctcctct gtcctccatc 1440
acccagccca cagcaaggcc accctcctga ctctccctcc aattaaccca agctcctggg 1500
ttgcgccctt gaggcccaca ccgatgctcc caacttactt tccagcccta ttccctcacc 1560
tgtctggctt ccgactcctc aagttgagtt ttccacagat acttcctccc cacacacaca 1620
cccgtttttg tccctgctac tctccttttg cgagagctct ctcctcttca taggtctcta 1680
agcttttact cacccttcag gtctcctctc cacctgccac ctcctccagg aatcctgcct 1740
ggtgtgcccc aggtagagtt gatttttcac tctccagtgc tcacacagag cttgttttcc 1800
ctgcgtggga gctgtttatt taaattcagg ctggcctgat tacaccctga tgagctccat 1860
gccagccctg ggcctggccc agtgcgctca gcatgtcctt ccagaaagaa tgaaggaata 1920
aaaaaagacg aagagtaata aataggagag taggggtaga ggatgagccc cagaatcaga 1980
cattaggcag ggtgtggata c 2001

Claims (34)

1.一种用于相对于非癌性生物样品确定在癌性生物样品中至少一个超级增强子的存在或不存在的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定所述癌性生物样品中所述至少一个超级增强子的存在或不存在。
2.根据权利要求1所述的方法,其中所述癌性生物样品和非癌性生物样品包括单个细胞、多个细胞、细胞的片段、体液或组织。
3.根据权利要求1-2中任一项所述的方法,其中从同一受试者获得所述癌性生物样品和非癌性生物样品。
4.根据权利要求1-3中任一项所述的方法,其中所述癌性生物样品和非癌性生物样品各自从不同的受试者获得。
5.根据权利要求1-4中任一项所述的方法,其中通过染色质的免疫沉淀从所述癌性生物样品分离所述核酸。
6.根据权利要求1-5中任一项所述的方法,其中所述至少一个超级增强子的所述信号强度基于所述组蛋白修饰H3K27ac的每千个碱基的转录物每百万的读段(RPKM)值。
7.根据权利要求1-6中任一项所述的方法,其中从至少一种癌细胞系获得所述至少一种参考核酸序列。
8.根据权利要求1-7中任一项所述的方法,其中使用ROSE(超级增强子分级)算法鉴别所述癌性生物样品中的所述至少一个超级增强子。
9.根据权利要求8所述的方法,其中所述癌性生物样品中的所述至少一个超级增强子包含与所述至少一个参考核酸序列中的所述至少一个增强子重叠的至少一个核酸碱基对。
10.根据权利要求6所述的方法,其中确定所述至少一个超级增强子的存在或不存在的步骤包括确定所述癌性生物样品中所述至少一个超级增强子的所述RKPM值为:
i)相对于从所述非癌性生物样品获得的所述至少一个超级增强子的所述RPKM值,RPKM值的大于2倍变化;和
ii)相对于从所述非癌性生物样品获得的所述至少一个超级增强子的所述RPKM值,大于0.5RPKM的绝对差。
11.根据权利要求10所述的方法,其中相对于所述非癌性生物样品的所述RPKM值,来自所述癌性生物样品的RPKM值的增加指示所述癌性生物样品中所述至少一个超级增强子的存在。
12.根据权利要求10所述的方法,其中相对于所述非癌性生物样品的所述RPKM值,来自所述癌性生物样品的RPKM值的降低指示所述癌性生物样品中所述至少一个超级增强子的不存在。
13.根据权利要求1-12中任一项所述的方法,其中所述至少一个超级增强子位于离基因转录起始位点的1000kb以内。
14.根据权利要求13所述的方法,其中所述基因是以下中的一种或多种:癌症相关基因、血管生成基因、细胞增殖基因、细胞侵袭基因、与基因组不稳定性相关的基因、细胞死亡抗性基因、细胞能量基因、细胞周期基因或肿瘤促进基因。
15.根据权利要求13所述的方法,其中所述基因选自由以下组成的组:CLDN4、ABHD11、WBSCR28、ATAD2、KLH38、WDYHV1、CDH17、CCAT1、CLDN1、SMURF1、GDPD5、ADAMTS12、ASCL2、ASPM、ATP11A、AURKA、CAMK2N1、CBX2、CCNE1、CD9、CDC25B、CDCA7、CDK1、CXCL1、E2F7、ECT2、LAMC2、NID2、PMEPA1、RARRES1、RFC3、SLC39A10、TFAP2A、TMEM158、LINC00299和其组合。
16.根据权利要求1-15中任一项所述的方法,其中所述癌性生物样品是胃癌。
17.一种用于确定受试者中至少一个癌症相关超级增强子的存在的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定受试者中至少一个癌症相关超级增强子的存在,
其中相对于所述非癌性生物样品所述癌性生物样品中所述至少一个超级增强子的信号强度增加指示至少一个癌症相关超级增强子的存在。
18.一种用于检测受试者中的癌症的生物标志物,所述生物标志物包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或与癌症相关转录因子结合位点相对于未改变的超级增强子的增加相关的至少一个超级增强子,或两者。
19.根据权利要求18所述的生物标志物,其中所述癌症相关转录因子结合位点是胃癌相关转录因子结合位点。
20.根据权利要求19所述的生物标志物,其中所述胃癌相关转录因子选自由CDX2、KLF5和HNF4α组成的组。
21.一种用于确定受试者中的癌症预后的方法,其包括:
a)使从所述受试者获得的癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述癌性生物样品中所述至少一个超级增强子相对于所述非癌性生物样品的所述信号强度的变化,确定受试者中至少一个癌症相关超级增强子的存在或不存在,
其中至少一个癌症相关超级增强子的存在或不存在指示所述受试者中所述癌症的预后。
22.根据权利要求21所述的方法,其中所述癌性生物样品中所述至少一个癌症相关超级增强子的存在指示受试者中癌症存活的不良预后。
23.根据权利要求21所述的方法,其中所述癌性生物样品中所述至少一个癌症相关超级增强子的不存在指示受试者中癌症存活的改善的预后。
24.根据权利要求21所述的方法,其中所述至少一个癌症相关超级增强子与以下中的一个或多个相关:细胞侵袭基因、血管生成基因或细胞死亡抗性基因、癌症相关基因、细胞增殖基因、与基因组不稳定性相关的基因、细胞能量转换基因、细胞周期基因或肿瘤促进基因。
25.根据权利要求21所述的方法,其中所述至少一个癌症相关超级增强子与选自由以下组成的组的基因相关:CLDN4、ABHD11、WBSCR28、ATAD2、KLH38、WDYHV1、CDH17、CCAT1、CLDN1、SMURF1、GDPD5、ADAMTS12、ASCL2、ASPM、ATP11A、AURKA、CAMK2N1、CBX2、CCNE1、CD9、CDC25B、CDCA7、CDK1、CXCL1、E2F7、ECT2、LAMC2、NID2、PMEPA1、RARRES1、RFC3、SLC39A10、TFAP2A、TMEM158、LINC00299和其组合。
26.一种确定受试者对癌症或胃肠疾病的易感性的方法,其包括:
a)使从所述受试者获得的生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述生物样品中的至少一个超级增强子;
e)比较所述生物样品中所述至少一个超级增强子的所述信号强度与从对照生物样品获得的所述至少一个超级增强子的参考信号;和
f)基于所述至少一个超级增强子的信号强度的变化来确定所述至少一个超级增强子的存在或不存在;
g)将所述至少一个超级增强子的存在或不存在相对于包含癌症或胃肠疾病相关SNP的参考基因组序列作图,
其中与一种或多种癌症或胃肠疾病相关SNP相关的至少一个超级增强子的存在或不存在指示所述受试者对癌症或胃肠疾病的易感性。
27.一种用于调节细胞中至少一个癌症相关超级增强子的活性的方法,其包括向所述细胞施用CDX2和/或HNF4α抑制剂。
28.根据权利要求27所述的方法,其中所述CDX2和/或HNF4α抑制剂是siRNA。
29.根据权利要求27所述的方法,其中所述抑制剂是二甲双胍。
30.一种用于检测受试者中的癌症的生物标志物,其包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或与癌症相关转录因子结合位点相对于未改变的超级增强子的增加相关的至少一个超级增强子,或两者。
31.一种生物标志物在制造用于检测受试者中的癌症的药物中的用途,所述生物标志物包含在癌性生物样品中相对于正常非癌性生物样品具有增加的H3K27ac信号强度的至少一个超级增强子,或相对于未改变的超级增强子与癌症相关转录因子结合位点的增加相关的至少一个超级增强子,或两者。
32.一种CDX2和/或HNF4α抑制剂,其用于调节细胞中至少一个癌症相关超级增强子的活性。
33.CDX2和/或HNF4α抑制剂在制造用于调节细胞中至少一个癌症相关超级增强子的活性的药物中的用途。
34.一种预测从受试者获得的癌性生物样品中的癌细胞存活或癌细胞活力的方法,其包括:
a)使所述癌性生物样品与至少一种对组蛋白修饰H3K27ac特异的抗体接触;
b)从所述癌性生物样品分离核酸,其中所述分离的核酸包含至少一个对所述组蛋白修饰H3K27ac特异的区域;
c)使用注释的基因组序列基于所述组蛋白修饰H3K27ac的信号强度对至少一个增强子作图,其中所述至少一个增强子距注释的转录起始位点至少2.5kb;
d)将所述分离的核酸中的所述至少一个增强子相对于至少一个参考核酸序列中的至少一个增强子作图,以鉴别所述癌性生物样品中的至少一个超级增强子;
e)比较所述癌性生物样品中所述至少一个超级增强子的所述信号强度与从非癌性生物样品获得的所述至少一个超级增强子的参考信号强度;和
f)基于所述至少一个超级增强子的信号强度的变化确定受试者中至少一个癌症相关超级增强子的存在,
其中所述癌性生物样品中所述至少一个超级增强子相对于所述非癌性生物样品的信号强度增加预测癌细胞存活或癌细胞活力。
CN201780023350.1A 2016-02-16 2017-02-16 癌症表观遗传谱分析 Pending CN109072312A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
SG10201601141X 2016-02-16
SG10201601141X 2016-02-16
SG10201606828P 2016-08-16
SG10201606828P 2016-08-16
PCT/SG2017/050073 WO2017142485A1 (en) 2016-02-16 2017-02-16 Cancer epigenetic profiling

Publications (1)

Publication Number Publication Date
CN109072312A true CN109072312A (zh) 2018-12-21

Family

ID=59625365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780023350.1A Pending CN109072312A (zh) 2016-02-16 2017-02-16 癌症表观遗传谱分析

Country Status (7)

Country Link
US (1) US20210223249A1 (zh)
EP (1) EP3417076B1 (zh)
JP (2) JP7189020B2 (zh)
KR (1) KR20180108820A (zh)
CN (1) CN109072312A (zh)
SG (2) SG10202007867PA (zh)
WO (1) WO2017142485A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109735539A (zh) * 2019-01-22 2019-05-10 南通大学 一种基于pdl1/pdl2超增强子的调控pdl1和pdl2表达的控方法
CN112111576A (zh) * 2020-09-29 2020-12-22 杨帆 用于筛查鼻咽癌的方法及应用
CN114525249A (zh) * 2022-03-31 2022-05-24 广西大学 一种用于分离牛肌肉干细胞的肌肉组织提取方法及其应用

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108085395A (zh) * 2018-02-24 2018-05-29 韩林志 基于高通量测序的宫颈癌多基因甲基化检测的引物组、试剂盒及方法
CN114164210B (zh) * 2021-08-19 2023-10-10 上海海洋大学 一种调控原癌基因myb的长链非编码rna及其应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015102536A1 (en) * 2013-12-30 2015-07-09 Agency For Science, Technology And Research Methods for measuring biomarkers in gastrointestinal cancer

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120220664A1 (en) * 2009-08-25 2012-08-30 President And Fellows Of Harvard College Use of metformin in cancer treatment and prevention
WO2014066848A1 (en) * 2012-10-25 2014-05-01 Whitehead Institute For Biomedical Research Super-enhancers and methods of use thereof
US20190005191A1 (en) 2015-07-14 2019-01-03 Whitehead Institute For Biomedical Research Chromosome neighborhood structures and methods relating thereto

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015102536A1 (en) * 2013-12-30 2015-07-09 Agency For Science, Technology And Research Methods for measuring biomarkers in gastrointestinal cancer

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DENES HNISZ等: "Super-Enhancers in the Control of Cell Identity and Disease", 《CELL》 *
杨杰等: "RNA干扰介导的Cdx2沉默对人胃癌细胞MGC-803裸鼠移植瘤生长的影响", 《中国现代医学杂志》 *
瞿林兵等: "饥饿状态下HNF4α对MTP的表达调控", 《中国科学技术大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109735539A (zh) * 2019-01-22 2019-05-10 南通大学 一种基于pdl1/pdl2超增强子的调控pdl1和pdl2表达的控方法
CN112111576A (zh) * 2020-09-29 2020-12-22 杨帆 用于筛查鼻咽癌的方法及应用
CN114525249A (zh) * 2022-03-31 2022-05-24 广西大学 一种用于分离牛肌肉干细胞的肌肉组织提取方法及其应用

Also Published As

Publication number Publication date
JP7189020B2 (ja) 2022-12-13
JP2023029945A (ja) 2023-03-07
WO2017142485A1 (en) 2017-08-24
SG11201806945SA (en) 2018-09-27
SG10202007867PA (en) 2020-09-29
EP3417076A1 (en) 2018-12-26
EP3417076B1 (en) 2022-11-09
US20210223249A1 (en) 2021-07-22
EP3417076A4 (en) 2019-10-23
KR20180108820A (ko) 2018-10-04
JP2019514344A (ja) 2019-06-06

Similar Documents

Publication Publication Date Title
Okholm et al. Circular RNA expression is abundant and correlated to aggressiveness in early-stage bladder cancer
Ooi et al. Epigenomic profiling of primary gastric adenocarcinoma reveals super-enhancer heterogeneity
TWI783821B (zh) 核酸鹼基修飾的測定
JP2021530231A (ja) ニューラルネットワークを使用して倍数性状態を呼び出すための方法およびシステム
Krijgsman et al. Focal chromosomal copy number aberrations in cancer—Needles in a genome haystack
CN109072312A (zh) 癌症表观遗传谱分析
Romero-Cordoba et al. Identification and pathway analysis of microRNAs with no previous involvement in breast cancer
WO2019236478A1 (en) Methods and systems for determining the cellular origin of cell-free nucleic acids
Roode et al. Genome-wide assessment of recurrent genomic imbalances in canine leukemia identifies evolutionarily conserved regions for subtype differentiation
Kelly et al. A multi-omic dissection of super-enhancer driven oncogenic gene expression programs in ovarian cancer
JP2023526252A (ja) 相同組換え修復欠損の検出
Huang et al. Inhibition of ZEB1 by miR-200 characterizes Helicobacter pylori-positive gastric diffuse large B-cell lymphoma with a less aggressive behavior
Leeman-Neill et al. Noncoding mutations cause super-enhancer retargeting resulting in protein synthesis dysregulation during B cell lymphoma progression
Perotti et al. Hallmark discoveries in the biology of Wilms tumour
Khatri et al. Systems biology approach to identify novel genomic determinants for pancreatic cancer pathogenesis
Bersani et al. Exploring circular MET RNA as a potential biomarker in tumors exhibiting high MET activity
US20240182983A1 (en) Cell-free dna methylation test
WO2023283600A1 (en) Method for analyzing an ability of target nucleic acid sequences to impact gene expression
WO2015127103A1 (en) Methods for treating hepatocellular carcinoma
US20210277454A1 (en) Atac-array for prediction of disease-free survival in pancreatic cancer
Ghanei et al. Inconsistency in the expression pattern of a five-lncRNA signature as a potential diagnostic biomarker for gastric cancer patients in bioinformatics and in vitro
Huang et al. A ten long noncoding RNA-based prognostic risk model construction and mechanism study in the basal-like immune-suppressed subtype of triple-negative breast cancer
Grabovska The significance of clinico-pathological and molecular sub-groups in Malignant Rhabdoid Tumours
Alvarez Benayas Computational analysis of enhancer deregulation in Multiple Myeloma
Nassar et al. Epigenomic Charting and Functional Annotation of Risk Loci in Renal Cell Carcinoma. Epigenomic Charting and Functional Annotation of Risk Loci in Renal Cell Carcinoma

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination