CN111662983B - 一种用于检测淋巴瘤基因变异的试剂盒及其应用 - Google Patents
一种用于检测淋巴瘤基因变异的试剂盒及其应用 Download PDFInfo
- Publication number
- CN111662983B CN111662983B CN202010642606.0A CN202010642606A CN111662983B CN 111662983 B CN111662983 B CN 111662983B CN 202010642606 A CN202010642606 A CN 202010642606A CN 111662983 B CN111662983 B CN 111662983B
- Authority
- CN
- China
- Prior art keywords
- typing
- dna
- artificial sequence
- unit
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/106—Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Oncology (AREA)
- Medicinal Chemistry (AREA)
- Hospice & Palliative Care (AREA)
- Crystallography & Structural Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种用于检测淋巴瘤基因变异的试剂盒及其应用,具体公开了一种用于检测或辅助检测淋巴瘤相关基因变异的试剂盒,包括用于检测BCL2、BCL6、MYC和/或基因IGH融合的物质;所述物质为成套DNA探针;所述成套DNA探针包括SEQ ID NO:1‑SEQ ID NO:376所示的376条探针。所述试剂盒可以用于:1)检测或辅助检测与淋巴瘤相关基因变异;2)对弥漫大B细胞淋巴瘤患者进行细胞起源(Cell of origin,COO)分型;3)对淋巴瘤患者进行辅助诊断、预后判断和/或靶向药物预测。
Description
技术领域
本发明涉及生物技术领域,具体涉及一种用于检测淋巴瘤基因变异的试剂盒。特别涉及运用所述试剂盒进行淋巴瘤基因变异检测和DLBCL细胞起源分型。
背景技术
淋巴瘤是起源于淋巴造血系统的恶性肿瘤,居常见恶性肿瘤的第8位。近年来,淋巴瘤已成为我国发病率增长最快的恶性血液肿瘤。其种类繁多,形态、生物学行为及临床病理特征等方面多具异质性,给病理及临床医生的诊断和治疗造成了极大的困扰。
弥漫大B细胞淋巴瘤(Diffuse large B-cell lymphoma,DLBCL)是一种起源于B淋巴细胞的恶性肿瘤,是最常见的非霍奇金淋巴瘤。在我国,DLBCL约占所有非霍奇金淋巴瘤的40%[Yang,Q.P.,Zhang,W.Y.,Yu,J.B.,Zhao,S.,Xu,H.,&Wang,W.Y.,et al.(2011).Subtype distribution of lymphomas in southwest china:analysis of 6,382casesusing who classification in a single institution.Diagnostic Pathology,6(1),77-0.]。世界卫生组织(World Health Organization,WHO)根据细胞起源(Cell oforigin,COO)的不同将DLBC分为生发中心B细胞型(Germinal center B cell–like,GCB)和活化B细胞型(Activated B cell–like,ABC)[Swerdlow Steven H.,Campo Elias.,PileriStefano A.,Harris Nancy Lee.,Stein Harald.,Siebert Reiner.,Advani Ranjana.,Ghielmini Michele.,Salles Gilles A.,Zelenetz Andrew D.,Jaffe Elaine S.,(2016).The 2016revision of the World Health Organization classification oflymphoid neoplasms.,Blood,127,2375-90.]。COO分型可用于预测患者预后(GCB型患者预后更佳)和确定精准的诊疗方案(如ABC型对BTK抑制剂更敏感)。
目前进行COO分型的方法主要包括基因表达谱(Gene expression profile,GEP)和基于mRNA表达及免疫组织化学技术(Immunohistochemistry,IHC)的分型方法。其中GEP是DLBCL COO分型的“金标准”[Alizadeh,A.A.,Eisen,M.B.,Davis,R.E.,Ma,C.,Lossos,I.S.,Rosenwald,A.,Boldrick,J.C.,Sabet,H.,Tran,T.,Yu,X.,et al.(2000).Distincttypes of diffuse large B-cell lymphoma identified by gene expressionprofiling.Nature 403,503-511.],但由于费用昂贵,对标本要求较高(新鲜组织)等原因造成临床可操作性较差,即使在欧美等发达国家仍然没有常规开展。Scott D.W.等(2014)基于20个相关基因(其中5个为看家基因)的数字化基因表达分析方法Lymph2Cx(Nanostring)对石蜡包埋的组织样本进行COO分型,与GEP的一致性较高[Scott,D.W.,Wright,G.W.,Williams,P.M.,Lih,C.J.,Walsh,W.,Jaffe,E.S.,Rosenwald,A.,Campo,E.,Chan,W.C.,Connors,J.M.,et al.(2014).Determining cell-of-origin subtypes ofdiffuse large B-cell lymphoma using gene expression in formalin-fixedparaffin-embedded tissue.Blood 123,1214-1217.]。随后,美国HTG分子诊断有限公司发明了基于16个基因表达的COO分型分类器的分型方法,通过测量样本中相关基因的表达,通过对加权的基因表达值总和计算概率评分对患者进行分型【公开号:CN108368554A,公开日:20180803】。目前临床使用较为广泛的是基于IHC的分型方法,临床上COO分型系统有Hans、Choi、Tally和Visco-Young分型系统,其中,Hans分型仅使用CD10、BCL6和MUM-1三个指标,并且和GEP的结果有较好的一致性,因而使用最为广泛。但是,由于IHC本身的局限性,IHC无法准确鉴别10-15%的无法分类型的DLBCL,而且重现性较差,在预测预后上也存在不一致的现象【Swerdlow,S.H.,Campo,E.,Pileri,S.A.,Harris,N.L.,Stein,H.,&Siebert,R.,et al.(2016).The 2016revision of the world health organizationclassification of lymphoid neoplasms.Blood,127(20),2375-2390.】,特别是随着利妥昔单抗的出现,利用IHC技术进行COO分型的预后价值不断受到挑战,多项研究甚至出现了相互矛盾的结果。
综述所述,GEP是COO分型的“金标准”,但样本要求较高,限制了其在临床上的使用;基于基因表达的分型方法与“GEP”的一致性较高,且解决了实验取材(新鲜组织)的限制,但是只能应用于组织样本,且成本较高。
发明内容
第一方面,本发明解决的技术问题是提供一种一种用于检测或辅助检测淋巴瘤相关基因变异的试剂盒,包括用于检测BCL2、BCL6、MYC和/或IGH基因融合的物质。
进一步地,所述试剂盒还包括用于检测表1中的399个基因的全部CDS区的物质、表2中基因部分编码区或启动子区的物质、表3中基因融合断点区域及其它区域的物质。
进一步地,所述用于检测G1变异的物质为成套DNA探针;
进一步地,所述成套DNA探针包括SEQ ID NO:1-SEQ ID NO:376所示的376条探针。
进一步地,所述成套DNA探针还包括覆盖表1中的399个基因的全部CDS区的探针,覆盖表2中基因部分编码区或启动子区的探针;覆盖表3中融合基因断点区域及其它区域的探针;每条探针的长度为119bp或120bp;
第二方面,本发明解决的技术问题是提供一种成套DNA探针,包括SEQ ID NO:1-SEQ ID NO:376所示的376条探针。
所述SEQ ID NO:1-SEQ ID NO:192所示的DNA探针靶向BCL2基因。
所述SEQ ID NO:193-SEQ ID NO:281所示的DNA探针靶向BCL6基因。
所述SEQ ID NO:282-SEQ ID NO:295所示的DNA探针靶向MYC基因。
所述SEQ ID NO:296-SEQ ID NO:376所示的DNA探针靶向IGH基因。
第三方面,本发明解决的技术问题是提供一种所述的试剂盒或成套DNA探针在如下1)-3)任一种中的应用;
1)检测或辅助检测与淋巴瘤相关基因变异;
2)对弥漫大B细胞淋巴瘤患者进行COO分型;
3)对淋巴瘤患者进行辅助诊断和或/预后判断和/或靶向药物预测。
第四方面,本发明解决的技术问题是提供一种所述的试剂盒或成套DNA探针在制备产品中的应用;所述产品的功能为1)-3)中任一种:
1)检测或辅助检测与淋巴瘤相关基因变异;
2)对弥漫大B细胞淋巴瘤患者进行COO分型;
3)对淋巴瘤患者进行辅助诊断和或/预后判断和/或靶向药物预测。
进一步地,所述变异为点突变、短片段插入缺失、拷贝数变异和/或基因融合;
所述COO分型具体为将弥漫大B细胞淋巴瘤患者分为GCB型或ABC型。
第五方面,本发明解决的技术问题是提供一种检测或辅助检测与淋巴瘤相关基因变异的方法,包括如下步骤:
(1)构建待测患者的基因组DNA文库;所述患者为淋巴瘤患者;
(2)将权利要求2中所述的成套DNA探针与所述DNA文库杂交,得到杂交产物;
(3)对所述杂交产物进行二代测序,根据测序结果分析目的基因组DNA的变异情况。
第六方面,本发明解决的技术问题是提供一种弥漫大B细胞淋巴瘤患者COO分型系统,包括利用上述的试剂盒、上述的成套DNA探针或上述方法检测到的基因变异数据。
进一步地,所述系统包括分型模型创建单元和预测单元;
分型模型创建单元:使用机器分类方法生成COO分型模型;
预测单元:训练好分型模型后,保存分型模型,预测时,输入预处理后的待分型样本的基因变异数据,调取分型的结果和/或概率;
所述基因变异数据是利用上述的试剂盒、上述的成套DNA探针或上述的方法检测到的。
进一步地,所述机器分类方法为朴素贝叶斯算法、随机森林算法或梯度提升迭代决策树。
进一步地,所述分型模型创建单元和预测单元之间还包括,验证单元:提取并处理验证集样本基因变异数据的特征,输入所述COO分型模型,进行验证。
进一步地,分型模型创建单元分别使用朴素贝叶斯、随机森林或梯度提升迭代决策树3种算法生成分型模型后,预测单元输出的分型结果一致时,采用基于朴素贝叶斯算法的分型结果和/或概率;分型结果不一致时选择2种机器分类方法生成的分型模型一致的结果,属于某一亚型的概率为2种机器分类方法生成的分型模型输出概率的平均数。
进一步地,分型模型创建单元使用朴素贝叶斯算法生成分型模型时命名为基于朴素贝叶斯算法的分型模型创建单元,相应的预测单元命名为基于朴素贝叶斯算法的预测单元;
所述基于朴素贝叶斯算法的分型模型创建单元包括,训练集基因变异数据的特征提取单元、训练集基因变异数据的特征处理单元和分型模型创建核心单元;
训练集基因变异数据的特征提取单元:提取训练集样本的基因变异数据的特征;
训练集基因变异数据的特征处理单元:将提取的特征转化为用于朴素贝叶斯算法训练输入的特征矩阵;
分型模型创建核心单元:根据基因变异数据的特征处理单元中的特征矩阵,以及训练集样本的先验概率,训练朴素贝叶斯COO分型模型;
基于朴素贝叶斯算法的预测单元,包括如下3个单元:待分型样本基因变异特征提取和处理单元、预测核心单元;
待测样本基因变异特征提取和处理单元:将待分型样本的基因变异数据的特征提取并转化为用于基于朴素贝叶斯算法的分型模型创建单元中的数据特征;
预测核心单元,将待分型样本的基因变异数据的特征提取和处理单元的数据特征输入所述朴素贝叶斯COO分型模型,计算待分型的样本GCB的分型概率P(GCB)和样本ABC的分型概率P(ABC);
如果P(GCB)大于P(ABC),所述待测样本为GCB型,如果P(ABC)大于P(GCB),所述所述待测样本为ABC型。
进一步地,
分型模型创建单元使用随机森林算法生成分型模型时,命名为基于随机森林算法的分型模型创建单元,相应的预测单元命名为基于随机森林算法的预测单元。
基于随机森林算法的分型模型创建单元,包括如下3个单元:训练集样本基因变异特征提取单元、训练集样本基因变异特征处理单元和分型模型创建核心单元;
训练集样本基因变异特征提取单元:提取训练集样本的基因变异特征;
训练集样本基因变异特征处理单元:将提取的特征转化为可用于随机森林算法训练输入的特征矩阵;
分型模型创建核心单元:根据基因变异特征处理单元筛选出来的特征矩阵,bootstrip抽取样本和特征并构建分类回归树;
基于随机森林算法的预测单元,包括:待分型样本基因变异特征提取和处理单元和预测核心单元;
基因变异特征提取和处理单元,将待分型样本的基因变异特征提取并转化为可用于随机森林算法训练输入的特征矩阵;
预测核心单元,将基因变异特征提取和处理单元的数据特征,输入基于随机森林算法的分型模型创建单元得到的分类回归树,随机森林COO分型模型得出弥漫大B淋巴瘤分型结果和概率;具体包括:
第1预测核心单元:按照随机森林COO分型模型中的各个CART决策树的特征分别输入各自的CART决策树分别预测COO的分型结果;
第2预测核心单元:根据第1预测核心单元的分型结果,选择分型结果较多的分型作为样本的预测分型,该分型的在所有CART决策树的占比作为该分型的概率。
进一步地,在所述的训练集基因变异数据的特征提取单元中:筛选提取得到的变异特征中权重≥1%的特征用于随机森林COO分型模型的构建。
分型模型创建单元使用梯度提升迭代决策树生成分型模型时,命名为基于梯度提升迭代决策树的分型模型创建单元,相应的预测单元命名为基于梯度提升迭代决策树的预测单元。
基于梯度提升迭代决策树的分型模型创建单元基于梯度提升迭代决策树的分型模型创建单元,包括如下3个单元:
训练集基因变异特征提取单元、训练集基因变异处理单元和分型模型创建核心单元。
训练集基因变异特征提取单元:提取训练集样本的基因变异特征;筛选特征中权重≥1%的特征用于梯度提升迭代决策树COO分型模型的构建。
训练集基因变异处理单元:将提取的特征转化为用于梯度提升迭代决策树训练输入的特征矩阵。
分型模型创建核心单元:根据训练集基因变异处理单元筛选出来的特征矩阵,构建梯度提升迭代决策树COO分型模型。
基于梯度提升迭代决策树的预测单元,具体包括:待分型样本基因变异特征提取和处理单元、预测核心单元。
基因变异特征提取和处理单元:提取并处理待分型样本基因变异特征,转化为可用于梯度提升迭代决策树COO分型模型的输入特征;
预测核心单元:将基因变异特征提取和处理单元得出的数据特征,输入梯度提升迭代决策树COO分型模型得出分型结果和概率。
进一步地,COO分型时质控标准及分型规则为:
1)可进行分型的样本的肿瘤含量要求:组织样本肿瘤细胞含量10%以上,对于没有镜检的样本按照最高突变频率≥5%进行质控;血浆样本肿瘤细胞含量4%以上,即血浆cfDNA最高突变频率≥2%。
2)变异阳性判断标准
组织样本基因突变检测阳性:该基因在组织中有频率3%以上的非同义突变检出,或者有突变频率在1-3%之间的有临床意义的变异检出。
血浆cfDNA基因突变检测阳性:该基因在cfDNA中有频率1%以上的非同义突变检出,或者有突变频率在1-3%之间的有临床意义的变异检出。
基因融合阳性:样本中检出可信的变异,不对变异频率进行限制。
本发明具备如下有益效果:
1、本发明的试剂盒包括针对淋巴瘤的目标区域靶向捕获的探针集合,对BCL2、BCL6、MYC和IGH等融合区域的覆盖进行了优化,大大提高了其检测的灵敏度。
2、利用本发明的试剂盒检测基因变异结果可以提供预后判断和靶向药物预测作用,即实现一次检测同时进行分型诊断(包括分子分型和COO分型)、预后判断和靶向药物预测。因此,基于该发明相比其它分类方法具有更全面的临床指导意义。
3、本发明基于捕获探针集合对DLBCL患者的组织或血浆样本进行高深度检测,结合IHC分型结果,分析不同亚型患者之间的突变差异,利用朴素贝叶斯算法、随机森林算法和/或梯度提升迭代决策树的方法构建了一种基于基因变异的COO分型模型。
4、利用朴素贝叶斯算法、随机森林算法和/或梯度提升迭代决策树的方法构建了一种弥漫大B细胞淋巴瘤患者COO分型系统,可同时应用于肿瘤组织样本和血浆ctDNA样本。
5、本发明弥漫大B细胞淋巴瘤患者COO分型系统不仅能够进行COO分型,还能够提供更多的靶向用药突变信息,同时还可以应用于液态活检,在临床上具有更大的优势。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是实施例2的流程图。
图2是实施例4中的一种基于基因变异的预测装置(基于朴素贝叶斯算法的COO分型模型优化)。
图3是实施例4中的一种基于基因变异的预测装置(基于随机森林算法的COO分型模型优化)。
图4是实施例4中的一种基于基因变异的预测装置(基于基于梯度提升迭代决策树的COO分型模型优化)。
具体实施方式
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
下述实施例中的定量试验,均设置三次重复实验,结果取平均值。
在本发明中,采用本领域通用表示法表示基因突变和蛋白质突变。例如,c.3140A>G(p.H1047R)表示错义突变,表示编码区第3140位的A碱基改变为G碱基,从而导致1047位的氨基酸由组氨酸H突变为精氨酸R;c.464+1G>T表示剪切突变,表示编码区第464位所在外显子3’端紧连内含子的第一个碱基由G改变为T;c.2240_2254del15(p.L747_T751del)表示小片段缺失,表示编码区第2240位到2254位的15bp碱基缺失,从而导致第747位到751位的5个氨基酸缺失;c.548C>A(p.S183*)表示无义突变,编码区第548位的C碱基改变为A碱基,从而导致第183位的丝氨酸S变为终止密码子;c.3028_3028+17del18表示涉及到剪切区域的小片段缺失,表示表示编码区第3028位到其所在外显子3’端紧连内含子的第17个碱基(共18个碱基)缺失。本领域技术人员根据上述示例可以解读本发明中的其他突变的含义。
突变频率指等位基因检测过程中,发现该位点突变型占野生型和突变型总和的比例。例如,突变频率10%表示该位点10%为突变型和90%为野生型。
实施例1 检测淋巴瘤基因变异的探针集合
1、探针的设计
选择常见淋巴瘤亚型的高频突变基因、驱动突变基因、靶向药物相关基因以及发生发展相关基因,总计413个。每个基因均有多条探针覆盖,其中399个基因的探针覆盖了全部的蛋白编码(CDS)区域(见表1);8个基因的探针仅覆盖了部分常见突变的编码区或者启动子区(表2),对26个基因的非编码区(其中有5个基因仅覆盖了非编码区)进行了探针覆盖,主要目的是检测淋巴瘤常见的基因融合(表3)。其中BCL2、BCL6和MYC基因是淋巴瘤最常发生基因融合3个基因,本探针对其断点区域进行了全面覆盖,并针对其主要partner基因IGH的常见融合区域进行了针对性设计,以确保检测的灵敏度,具体探针集合由SEQ ID NO:1-SEQ ID NO:376所示的376条探针组成。
其余基因的探针按照常规设计方法设计,设计方法为:利用IDT公司的在线探针设计工具(https://sg.idtdna.com/sessionTimeout.aspx),参数为2X tilling和120(或119)个核苷酸长度。同时使用Illumina公司在线探针设计工具进行设计;根据两个公司设计的探针,手动调整目标区域的探针数量,达到每个区域都有探针覆盖,并且对难以捕获的区域使用更多的探针;对设计的所有探针进行全基因组比对,确定是否有脱靶,如果发现有脱靶,则重新设计该探针。
2、设计好的探针由伯科生物医学科技(北京)有限公司(以下简称“伯科”)合成得到TargetCap基因捕获探针。
表1 探针覆盖所有CDS区的基因列表
表2 探针覆盖部分编码区或启动子区的基因及区域列表
V140(chr19:11624714)表示编码ECSIT氨基酸序列第140位的氨基酸(缬氨酸)的密码子,chr19_:11624714表示人类基因组19号染色体第11624714位。
表3 探针所覆盖融合基因断点区域及其它区域
表4 CCND1断点区域
Gene | Chr(染色体) | Start(起始位点) | End(终止位点) |
CCND1 | chr11 | 69077184 | 69077187 |
CCND1 | chr11 | 69221155 | 69221156 |
CCND1 | chr11 | 69226414 | 69226427 |
CCND1 | chr11 | 69231160 | 69231163 |
CCND1 | chr11 | 69248622 | 69248624 |
CCND1 | chr11 | 69259958 | 69259960 |
CCND1 | chr11 | 69264487 | 69264489 |
CCND1 | chr11 | 69280650 | 69280651 |
CCND1 | chr11 | 69290159 | 69290160 |
CCND1 | chr11 | 69322322 | 69322330 |
CCND1 | chr11 | 69328285 | 69328290 |
CCND1 | chr11 | 69346747 | 69346916 |
CCND1 | chr11 | 69347277 | 69347279 |
CCND1 | chr11 | 69350018 | 69350019 |
CCND1 | chr11 | 69353552 | 69353560 |
CCND1 | chr11 | 69356056 | 69356078 |
CCND1 | chr11 | 69371325 | 69371800 |
CCND1 | chr11 | 69373463 | 69373464 |
CCND1 | chr11 | 69373659 | 69373673 |
CCND1 | chr11 | 69381027 | 69381037 |
CCND1 | chr11 | 69382139 | 69382140 |
CCND1 | chr11 | 69383166 | 69383169 |
CCND1 | chr11 | 69391497 | 69391502 |
CCND1 | chr11 | 69414374 | 69414375 |
CCND1 | chr11 | 69421948 | 69421949 |
CCND1 | chr11 | 69435395 | 69435396 |
CCND1 | chr11 | 69437030 | 69437031 |
CCND1 | chr11 | 69437633 | 69437714 |
CCND1 | chr11 | 69442853 | 69442862 |
CCND1 | chr11 | 69447029 | 69447039 |
CCND1 | chr11 | 69453187 | 69453190 |
CCND1 | chr11 | 69453841 | 69453848 |
实施例2.探针集合在不同淋巴瘤患者中的临床应用
本实施例通过对1例DLBCL、1例高级别B细胞淋巴瘤、1例慢性淋巴细胞白血病、1例结外NK/T细胞淋巴瘤鼻型和1例结节硬化型霍奇金淋巴瘤的组织或血浆样本进行基因变异检测,来阐述本发明在不同淋巴瘤患者临床应用中的价值。
本发明的实施流程如图1。
1.样本处理及DNA提取
样品适用范围包括手术切除的新鲜病理组织、甲醛固定石蜡包埋病例组织、石蜡切片、骨髓或血浆。采用口腔拭子/粒细胞的测序结果作为对照。
1.1血浆和粒细胞分离:
1)抽取每位的外周血10mL置于含EDTA抗凝剂管中(即采血管),上下轻轻颠倒4-6次充分混匀后,室温放置,并在2小时以内完成血浆和粒细胞的分离工作;
2)将1)中的采血管在4℃条件下1600g离心10min,离心后将上层血浆分装到多个1.5mL或者2.0mL的离心管中,在吸取血浆过程中注意不能吸到中间白细胞层,下层血细胞备用;
3)将2)获得的血浆在4℃条件下以16000g离心10min去除残余细胞,将上清转入新的1.5mL或者2.0mL离心管中(注意不要吸到管底的白细胞,建议每个离心管中转入600uL左右血浆),即得到所需的血浆,标记后保存;
4)给2)步中的下层的血细胞,加入2倍体积的PBS(例如2mL的血细胞加入4mL的PBS),上下颠倒混匀,确保无明显细胞团块;
5)取3mL细胞分层液(购买自上海优宁维生物科技有限公司,货号为GE17-5442-03)5mL离心管中,并小心的吸取4)步稀释的血细胞4mL沿管壁叠加于分层液面上,体积大于4mL的分多管进行。室温条件下400g离心30分钟。
6)小心吸取淋巴细胞层,置于另一离心管中,加入5倍以上体积的PBS,400g室温条件下离心10分钟;淋巴细胞吸取后剩余细胞保留备用。
7)倒掉上清液,加入1mL RNAlater。用吸头反复吹打细胞直至看不见成团的细胞块,整个溶液呈清亮而不粘稠的状态,即得到外周血单个核细胞(peripheral bloodmononuclear cell,PBMC)。
8)将步骤3)得到的血浆、步骤6)的下层细胞(包含粒细胞)、步骤7)的PBMC淋巴细胞全部在-80℃保存。干冰盒运输,避免反复冻融。
1.2DNA提取
血浆按照Maelstrom2400游离DNA提取仪标准操作流程,进行血浆cfDNA的提取。组织、口腔拭子和粒细胞按照CWE9600 Blood DNA Kit(购买自北京康为世纪生物科技有限公司,货号为CW2534S)提取试剂说明书进行基因组DNA的提取。然后采用Qubit定量,要求血浆cfDNA大于15ng;组织、口腔拭子和粒细胞基因组DNA大于50ng。
2.文库构建
血浆分离的cfDNA按照NEBNext Ultra II文库构建试剂盒(购买自NEB生物公司,货号为E7645B-1KR2)说明书构建样本文库。对于组织或者用于对照的口腔拭子和粒细胞基因组DNA,应先打断到200-250bp,然后按照文库构建试剂盒构建样本文库。引物和接头来自于Invitrogen。
2.1末端修复及加“A”
按照下表配置末端修复以及加“A”反应:
表5
将以上混合物充分振荡混匀并瞬时离心,然后按照以下步骤在恒温混匀仪上孵育:首先20℃,孵育30min;然后65℃,孵育30min。孵育完成后,降至室温,高速离心机短暂离心。
2.2接头连接
按照下表配置接头连接反应Premix:
表6
接头加入量随DNA起始量变化而变化,对应关系见下表:
表7
依次向反应管中加入31μl接头连接反应Premix及对应体积的接头,并用ddH2O补充体积至95μl,充分振荡混匀后离心。恒温混匀仪20℃孵育15min。孵育完成后,微量高速离心机短暂离心。
连接反应结束后,使用磁珠(购自Axygen生物公司,货号为MAG-PCR-CL-250)对接头连接产物进行纯化,最后回溶至25μL TE(pH 8.0)中。纯化步骤如下:
1)取一浅孔板,向每个反应孔中加入87μL磁珠,将接头连接反应产物加入相应反应孔中,吹打混匀后室温下孵育10min,使磁珠与DNA片段充分结合。
2)将浅孔板置于板式磁力架上静置10min。待磁珠充分吸附后,弃去上清。
3)80%(体积百分比)乙醇洗涤,向每孔加入200μL 80%(体积百分比)乙醇,缓慢吹打3次,静置30s后弃去上清。
4)重复步骤3一次。
5)磁珠干燥,将浅孔板置于38℃干热器上加热烘干,至磁珠表面不反光后,从干热器上取下放回板式磁力架上。
6)向每孔中加入22μL TE(pH 8.0),用移液器将磁珠与TE吹打混匀,室温下孵育5min,使DNA片段充分溶解入TE(pH 8.0)中。
7)将浅孔板置于板式磁力架上静置5min,使磁珠充分吸附;将上清纯化产物转移到新的PCR管中。
2.3捕获前PCR(Non-C-PCR)引入index
按照下表顺序在PCR管中加入反应组分,并且设置阴/阳性对照。选取一个合格的血浆中间文库或者全基因组中间文库样本,分别取100ng稀释至3ng/μL和30ng/ul制成阳性参考品,TE作为每次的阴性参考品。
表8、反应体系
振荡混匀并瞬时离心。
2.3.1PCR上机样本循环数对应关系见下表:
表9
2.3.2Gene+seq2000测序仪的PCR上机程序见下表:
表10
对Non-C-PCR产物进行纯化(纯化步骤同2.2),最终溶解在31μl TE(pH 8.0)中。纯化产物进行Qubit-BR定量和安捷伦Agilent 2100生物分析质控,具体步骤按照仪器说明书进行。
3.靶序列富集与上机测序
3.1扩增后文库质控合格后,按照伯科杂交捕获实验手册V2.4,使用实施例1中TargetCap基因捕获探针及杂交与清洗试剂盒(购买自伯科生物公司,货号为GP96CD)进行操作。
3.2杂交捕获产物的扩增。
表11、杂交Mix体系配置
杂交捕获产物扩增PCR程序见下表:
表12
3.3程序运行结束,先除去上一步磁珠,然后进行磁珠纯化,最后回溶31μL TE(pH8.0)中,进行QC及上机。
3.4采用Gene+-seq 2000测序仪进行上机测序,测序实验操作按照制造商提供的操作说明书进行上机测序操作。上机数据量要求:采用上述探针集合进行捕获测序的组织样本能获得有效深度500X,血浆样本有效深度1000X。
4.信息分析
组织样本采用bwa mem模块将过滤低质量之后的reads比对到人类基因组,并通过gatk软件对bam文件进行后续处理(包括标记PCR重复reads,对indel区域进行重新比对并且对质量值进行重新校正),最终获得的bam采用本中心自主研发的realDcaller软件和NcSV软件进行变异检测,并通过本中心自主研发的Akso-mutsAnno软件进行突变注释。
血浆样本采用发明人自主开发的低频突变富集测序技术—ER-seq(Enrichment&Rarallele Sequence)(专利公开号为CN105063208A)的信息分析流程(RealSeqPipeline),具体方法为:
1)基于插入片段两端的序列碱基作为标签,所述插入片段是文库中与接头引物相连接的DNA片段,经双末端测序,每个片段形成一对成对的测序序列;将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签,字母序排列以较小的标签在前连接成24bp的一条索引,并且以这24bp作为成对测序序列的索引,测序序列1的标签在前就标记成正链;测序序列2的标签在前就标记为反链;
2)对索引进行外部排序,以达到将同一个DNA模板的所有测序重复测序序列聚集到一起的目的;
3)对聚集起来的拥有相同索引的测序序列进行中心聚类,根据其序列之间的汉明距离,将每个有相同索引的大簇聚集成若干个小簇,每个小簇中任意两对成对测序序列的汉明距离不超过10,以达到区分开拥有相同索引却来自不同DNA模板的测序序列的目的;
4)对步骤3)中获得的同一个DNA模板的重复簇进行筛选,若正链和反链的测序序列数都达到2对以上,则进行后续分析;
5)对满足4)中条件的簇进行纠错,并产生一对无错的新测序序列.对于DNA模板的每一个测序碱基,若某种碱基型在正链的测序序列中的一致率达到80%,且在反链测序序列中的一致率也达到80%,则记新测序序列的这个碱基为此碱基型,否则记为N,这样便得到了代表原始DNA模板序列的新测序序列;
6)将新测序序列用bwa mem算法重新比对到基因组上,筛除比对质量小于30的测序序列;
7)根据6)中得到的测序序列进行统计,得到捕获区域内每个位点的碱基型分布,统计目标区域覆盖大小、平均测序深度,正反链互配率,低频突变率;
8)Call SNV/InDel/SV/CNV:根据患者样品与对照样品信息的比对,用mutect流程call somatic SNV变异;用gatk流程call somatic InDel变异;用contra.py流程callCNV;用somVar流程call SV;所使用的筛选参数为:对照位点变异率≤2%;纠错后变异测序序列条数≥2;突变预测p值≤0.05;
9)变异注释:注释变异的功能、变异测序序列支持数、变异频率、氨基酸变异及已有变异数据库中的该变异的情况。
5.检测结果
1)患者基因变异检出结果
利用本发明的淋巴瘤探针集合对5例患者的肿瘤组织或血浆样本进行基因突变检测,检测结果见下表。经过计算,5例患者平均每位患者检出14.4个变异,变异类型包括SNV、InDel、CNV和SV多种变异类型,中位突变频率为17.8%(突变频率为0.6%-60.6%)。
表13 5例患者的肿瘤组织或血浆样本基因变异检测结果
注:第4列中的*表示具有临床意义的突变,#表示分型相关基因。
2)变异临床意义解读
P001患者为DLBCL,该患者检出5个分型相关基因阳性,采用实施例4中的分型系统分型结果显示该患者为ABC型的概率为98.8%,提示该患者为ABC型DLBCL患者。在靶向用药方面,该患者检出3个PIM1基因的突变,PIM1基因为原癌基因,该蛋白在血液细胞信号传导中起作用,可导致细胞增殖和存活从而为肿瘤的发生提供选择性优势。其中c.4C>T(p.L2F)突变类似p.L2V突变,可增强蛋白的稳定性,为PIM1激活突变。研究表明,1例携带p.L2F突变及其它PIM1基因突变的ABC-DLBCL患者接受依鲁替尼治疗后疾病进展(Kuo HP,Ezell SA,Hsieh S,et al.,The role of PIM1 in the ibrutinib-resistant ABC subtype ofdiffuse large B-cell lymphoma,Am J Cancer Res.2016Nov 1;6(11):2489-2501.)。该检测结果提示该患者对依鲁替尼耐药。
P002患者为高级别B细胞淋巴瘤患者,该患者同时检出了BCL2和MYC基因的融合,为双打击淋巴瘤,预后较差。同时该患者还检出了CREBBP失活突变c.2064G[5>4](p.A690Lfs*5)和EZH2激活突变c.1805A>C(p.Y602S)。分别提示该患者对HDAC抑制剂伏立诺他(Vorinostat)和EZH2抑制剂Tazemetostat敏感。已有研究表明伏立诺他治疗难治性DLBCL患者的临床II期试验发现携带CREBBP基因突变的患者获得临床响应(Crump M,Coiffier B,Jacobsen ED,Phase II trial of oral vorinostat(suberoylanilidehydroxamic acid)in relapsed diffuse large-B-cell lymphoma,Ann Oncol.2008May;19(5):964-9);已有研究表明,tazemetostat用于复发/难治性B细胞非霍奇金淋巴瘤患者的临床II期试验发现,EZH2基因突变阳性患者的客观缓解率显著高于EZH2基因突变阴性患者(Morschhauser,F.,Salles,G.,Mckay,P.,Tilly,H.,Schmitt,A.,&Gerecitano,J.,etal.(2017).Interim report from a phase 2multicenter study of tazemetostat,anezh2 inhibitor,in patients with relapsed or refractory b-cell non-hodgkinlymphomas.Hematological Oncology,35,24-25.)。
P003患者为慢性淋巴细胞白血病患者,该患者检出ATM c.7810A>T(p.R2604*)和SF3B1 c.2098A>G(p.K700E),NCCN指南明确指出存在ATM缺失、SF3B1突变的CLL患者的预后较差。
P004患者为结外NK/T细胞淋巴瘤鼻型,该患者检出了CD274和PDCD1LG2基因扩增。CD274基因编码PD-L1蛋白,PDCD1LG2基因编码PD-L2蛋白,研究显示CD274和PDCD1LG2基因扩增可导致PD-L1和PD-L2高表达(PD-L1基因的Pubmed ID为28405504,PD-L2基因的PubmedID为27390646;Budczies J,Mechtersheimer G,Denkert C,et al.,PD-L1(CD274)copynumber gain,expression,and immune cell infiltration as candidate predictorsfor response to immune checkpoint inhibitors in soft-tissue sarcoma,OncoimmunologySend to Oncoimmunology,2017Jan 27;6(3):e1279777.Shi M,RoemerMG,Chapuy B,Expression of programmed cell death 1ligand 2(PD-L2)is adistinguishing feature of primary mediastinal(thymic)large B-cell lymphomaand associated with PDCD1LG2 copy gain,HYPERLINK"https://www.ncbi.nlm.nih.gov/pubmed/?term=25025450"\o"The American journal ofsurgical pathology."Am J Surg Pathol.2014Dec;38(12):1715-23)。研究显示,PD-L1或PD-L2高表达的患者可从Nivolumab治疗中获益。
P005患者为复发难治的经典型霍奇金淋巴瘤,该患者检出了B2M基因的无义突变c.2T>G(p.0?),提示该患者对免疫治疗耐药B2M基因功能缺失突变抑制细胞表面HLA-I类复合物的表达,阻碍CD8+免疫T细胞对淋巴瘤细胞的识别,从而介导了淋巴瘤发生过程中的免疫监察逃逸(Challa-Malladi M,Lieu YK,Califano O,et al.,Combined geneticinactivation ofβ2-Microglobulin and CD58 reveals frequent escape from immunerecognition in diffuse large B cell lymphoma.Cancer Cell.2011Dec 13;20(6):728-40)。
上述5例患者展示了该探针集合在不同淋巴瘤患者中的临床价值,基于该款探针集合的基因变异检出结果能够为患者提供诊断、靶向用药和预后推断价值。
实施例3.该探针集合对淋巴瘤常见基因融合的检出能力
本实施例分别对3例淋巴瘤阳性融合标准品(编号分别为LY-7、LY-8和JEK0-1)和5例临床FISH融合检测阳性(编号为P002、P006、P007、P008和P009)或IHC表达阳性的淋巴瘤临床样本进行基因融合检测。具体检测方法见实施例2,得到的结果即为NGS检测结果。比较NGS检测结果和临床常见方法的一致性。
NGS检测结果:
3例阳性标准品共涉及5个融合,所有融合变异均全部检出,灵敏度为100%。此外,NGS检测的变异能够明确融合断点位置。具体检出结果见下表:
表14 NGS检测基因融合结果
注:8:128748095表示人第8号染色体的第128748095位。
5例临床样本分别检出了不同的基因融合,与临床结果一致,具体检测结果见下表。
表15 本实施例NGS检测结果与临床常规结果比较
P002患者临床检测为MYC和BCL2融合阳性的双打击淋巴瘤,NGS检测与临床FISH检测结果一致,不仅检测出了相关基因的融合,而且明确了具体的partner基因,还发现了MYC的非IGH的partner基因。P006和P007患者没有FISH融合检测结果,仅有基于IHC的基因表达结果,P006的NGS检出了IGH-BCL2和IGK-BCL6融合,而这2种融合均会造成基因(BCL2、BCL6)表达升高,与IHC结果一致,该结果将双表达的淋巴瘤明确为双打击GCB型DLCBL,对患者的诊断和预后具有重要的指导意义。P007为MYC基因IHC阳性,而NGS结果明确该患者为MYC-IGH阳性,该变异是伯基特淋巴瘤特征融合,对该患者的诊断具有重要意义。
上述实施例检出结果表明该探针集合对BCL2、BCL6和MYC基因的检出能力与临床传统方法检测结果一致,能够用于上述基因融合的检测。
P008和P009为多发性骨髓瘤患者,该患者的NGS检测结果与临床检测方法FISH结果完全一致,该实施例表明该探针集合对IGH的覆盖,除了能够增强上述3个基因的融合检出能力外,还能检测IGH与其它基因的融合,对以IGH融合为特点的其它淋巴瘤(如骨髓瘤)的进行基因融合检测。
实施例4弥漫大B细胞淋巴瘤患者COO分型系统
4.1本发明COO分型质控标准及分型规则:
4.1.1可进行分型的样本的肿瘤含量要求:组织样本肿瘤细胞含量10%以上,对于没有镜检的样本按照最高突变频率≥5%(即按照实施例2所述的方法,得到NGS检测结果,检出突变的最大频率值)进行质控;血浆样本肿瘤细胞含量4%以上,即血浆cfDNA最高突变频率≥2%(即按照实施例2所述的方法,得到NGS检测结果,检出突变的最大频率值)。
4.1.2变异阳性判断标准
组织样本基因突变检测阳性:该基因在组织中有突变频率3%以上的非同义突变检出,或者有突变频率在1-3%之间的有临床意义的变异检出。
血浆cfDNA基因突变检测阳性:该基因在cfDNA中有突变频率1%以上的非同义突变检出,或者有突变频率在1-3%之间的有临床意义的变异检出。
基因融合阳性:样本中检出可信的变异,不对变异频率进行限制。
4.2初始分型模型(朴素贝叶斯分型方法)
选择与DLBCL相关的26个基因的体细胞突变及3个基因融合的变异(见表15),参考Scherer,F(2016)[Scherer,F.,Kurtz,D.M.,Newman,A.M.,Stehr,H.,Craig,A.F.,Esfahani,M.S.,Lovejoy,A.F.,Chabon,J.J.,Klass,D.M.,Liu,C.L.,et al.(2016).Distinct biological subtypes and patterns of genome evolution in lymphomarevealed by circulating tumor DNA.Science translational medicine 8,364ra155.]方法,补充材料第7页和第8页材料方法部分,按照table s5中的数据,给出其在不同亚型中的人群频率作为先验概率(未检出突变基因的人群频率赋值1%),见表16。按照实施例2中的方法对样本进行基因变异检测,根据基因变异检测结果(变异阳性为1,阴性为0),采用上述参考文献的朴素贝叶斯算法计算其后验概率,即该对象归属于某一亚型的概率。
4.3三种基于基因变异的预测装置集成的COO分型的系统
收集样本临床IHC分型结果,统计与NGS分型结果的[4.2中“按照实施例2中的方法对样本进行基因变异检测,根据基因变异检测结果(变异阳性为1,阴性为0),采用上述参考文献的朴素贝叶斯算法计算其后验概率,即该对象归属于某一亚型的概率”]一致性。由于缺乏GEP金标准检测结果,本发明对模型优化时仅纳入IHC和NGS一致的患者共126例,即训练集。从中随机选取84例样本用于三种基于基因变异的预测装置的预测单元,即作为测试集。
三种基于基因变异的预测装置如下:
4.3.1一种基于基因变异的预测装置(基于朴素贝叶斯算法的COO分型模型优化),包括基于朴素贝叶斯算法的分型模型创建单元和基于朴素贝叶斯算法的预测单元。
基于基因变异的预测装置(基于朴素贝叶斯算法的COO分型模型优化)是该通过python中的sklearn.naive_bayes包实现,具体包括:
基于朴素贝叶斯算法的分型模型创建单元:提取并处理训练集样本基因变异数据特征,使用朴素贝叶斯算法生成COO分型模型,保存分型模型;
包括如下3个单元:
训练集样本基因变异特征提取单元:提取126例IHC和NGS分型一致性训练集样本的基因变异(包括融合和突变)特征。
训练集样本基因变异特征处理单元:将提取到的特征转化为可用于朴素贝叶斯算法训练输入的特征矩阵。
具体实施时,基因变异特征提取单元:根据基因变异特征提取单元得到的特征,统计不同基因变异在ABC和GCB两种亚型的人群突变频率,并进行卡方检验,筛选差异p值在5%以下的基因变异作为下面模型的构建;
针对训练样本集提取特征矩阵,生成的每个元素Mij只取值0或1,1表示第i个样本中包含第j个特征,0表示第i个样本中不包含第j个特征。
分型模型创建核心单元:根据基因变异特征处理单元筛选出来的特征矩阵,训练朴素贝叶斯COO分型模型。
具体实施时,通过对特征矩阵统计每个特征属性在GCB样本中出现的频率P
(f1|GCB),P(f2|GCB),…,P(fn|GCB)和每个特征属性在ABC样本中出现的频率P(f1|ABC),P(f2|ABC),…,P(fn|ABC),其中n为筛选后的特征矩阵的特征数量(本模型数量为31(29个基因突变和2个基因融合))
其中基于朴素贝叶斯算法的预测单元,提取并处理待分型样本的基因变异数据特征,输入分型模型,调取分型的结果和概率。包括如下几个单元:
基因变异特征提取和处理单元:将84例待分型样本的基因变异(包括基因融合和基因突变)特征提取并转化为可用于基于朴素贝叶斯算法的分型模型创建单元中的数据特征;
具体实施,包括与训练集样本基因变异特征提取单元和训练集样本基因变异特征处理单元类似的特征提取和特征集合筛选。
预测核心单元,将基因变异特征提取和处理单元的数据特征输入基于朴素贝叶斯算法的分型模型创建单元(朴素贝叶斯COO分型模型),计算待分型的样本GCB的分型概率P(GCB)和ABC的分型概率P(ABC)。
根据产出的P(GCB)和P(ABC),比较两个分型的概率大小决定该待分型样本的分型和概率。
通过以上基因变异的预测装置得到的优化后的模型涉及29个基因的突变和2个基因的融合,突变列表及先验概率见表17。
表16 优化前COO分型朴素贝叶斯模型相关基因及先验概率。
注:表中所述突变仅包括snv和indel,不包括拷贝数变异。基因融合(Translocation)单独列出。
表17 优化后COO分型朴素贝叶斯模型相关基因及先验概率。
为了提高分型结果和IHC的一致性,在上述基于基因变异的预测装置(基于朴素贝叶斯算法的COO分型模型优化)的基础上,集成了另外两种基因变异的预测装置,基因变异的预测装置[随机森林算法(表18)]和基因变异的预测装置[梯度提升迭代决策树(GBDT,表19)],更准确的对弥漫大B淋巴瘤进行分型。当3种基因变异的预测装置得到的结果一致时采用基因变异的预测装置(朴素贝叶斯)的分型概率,分型不一致时选择2种基因变异的预测装置一致的结果,概率为2种基因变异的预测装置输出概率的平均数。三个基因变异的预测装置(优化后的模型)共涉及41个基因的突变和3个基因的融合,各模型所用基因的分布见表20。
4.3.2一种基于基因变异的预测装置(基于随机森林算法的COO分型模型)包括基于随机森林算法的分型模型创建单元和基于随机森林算法的预测单元。
基于基因变异的预测装置(基于随机森林算法的COO分型模型)通过python中的sklearn.ensemble包实现,具体包括:
基于随机森林算法的分型模型创建单元,提取并处理训练集样本基因变异数据特征,使用随机森林算法生成COO分型模型,保存分型模型,包括如下3个单元:
训练集样本基因变异特征提取单元:提取126例IHC和NGS分型一致性训练集样本的基因变异(包括基因融合和突变)特征;筛选特征权重≥1%的特征用于随机森林COO分型模型的构建,本次筛选的特征见表18;
训练集样本基因变异特征处理单元:将提取筛选得到的特征转化为可用于随机森林算法训练输入的特征矩阵;
具体实施时,针对训练样本集提取特征矩阵,生成的每个元素Mij只取值0或1,1表示第i个样本中包含第j个特征,0表示第i个样本中不包含第j个特征。
分型模型创建核心单元:根据基因变异特征处理单元筛选出来的特征矩阵,bootstrip抽取样本和特征并构建分类回归树。
分型模型创建核心单元具体包括:
第1分型模型创建核心单元:从训练集(126例)样本中随机抽取M个样本,再在M个样本的所有特征中抽取N个特征,生成新的特征矩阵,作为下个步骤决策树的特征输入;
第2分型模型创建核心单元:将第1分型模型创建核心单元中的特征矩阵,构建二分类分类回归树;
样本又放回的重复第1分型模型创建核心单元和第2分型模型创建核心单元,建立一定数量的CART决策树(本发明专利建立了10棵决策树),形成随机森林COO分型模型。
基于随机森林算法的预测单元,提取并处理待分型样本的基因变异数据特征,输入分型模型,直接调取分型的结果和概率。具体包括:基因变异特征提取和处理单元和预测核心单元。
基因变异特征提取和处理单元,将待分型样本(84例)经过类似基于随机森林算法的分型模型创建单元中基因变异特征提取单元和基因变异特征处理单元的特征提取和筛选,转化为可用于随机森林COO分型模型的输入特征;
预测核心单元,将基因变异特征提取和处理单元的数据特征,输入基于随机森林算法的分型模型创建单元得到的随机森林COO分型模型得出弥漫大B淋巴瘤分型结果和概率;具体包括:
第1预测核心单元:按照随机森林COO分型模型中的各个CART决策树的特征分别输入各自的CART决策树分别预测COO的分型结果
第2预测核心单元:根据第1预测核心单元的分型结果,选择分型结果较多的分型作为本样本的预测分型,该分型的在所有CART决策树的占比作为该分型的概率。
4.3.3一种基于基因变异的预测装置(基于GBDT算法COO分型模型),包括基于梯度提升迭代决策树的分型模型创建单元和基于梯度提升迭代决策树的预测单元。
基于基因变异的预测装置(基于GBDT算法COO分型模型)通过python中的sklearn.ensemble包实现,具体包括:
基于梯度提升迭代决策树的分型模型创建单元,提取并处理训练集样本基因变异数据特征,使用梯度提升迭代决策树生成COO分型模型,保存分型模型;包括如下3个单元:
训练集基因变异特征提取单元:提取126例IHC和NGS分型一致性训练集样本的基因变异(包括fusion和mutation)特征,并筛选权重≥1%的特征用于梯度提升迭代决策树COO分型模型的构建,本次筛选的特征见表19;
具体实施时,针对训练样本集提取特征矩阵,生成的每个元素Mij只取值0或1,1表示第i个样本中包含第j个特征,0表示第i个样本中不包含第j个特征。
训练集基因变异处理单元:将提取筛选得到的特征转化为可用于梯度提升迭代决策树训练输入的特征矩阵;
分型模型创建核心单元:根据基因变异处理单元筛选出来的特征矩阵,构建梯度提升迭代决策树COO分型模型。
基于梯度提升迭代决策树的预测单元,提取并处理待分型样本的基因变异数据特征,输入分型模型,直接调取分型的结果和概率。具体包括:
基因变异特征提取和处理单元:将新的待分型样本(84例样本)经过梯度提升迭代决策树的分型模型创建单元中的基因变异特征提取和基因变异特征处理单元的特征提取和筛选,转化为可用于梯度提升迭代决策树COO分型模型的输入特征;
预测核心单元:将基因变异特征提取和处理单元得出的数据特征,输入梯度提升迭代决策树COO分型模型得出分型结果和概率。
三种基因变异的预测装置集成的系统(模型)在训练集中与IHC的一致性为99.2%(125/126),将84例患者的独立测试集进行模型验证,IHC与NGS分型的一致性为98.8%(83/84),说明本发明的集成的系统(模型)有良好的稳定性和应用性。
表18 随机森林算法(RF)所筛选基因及权重(权重值大于0.01)
表19 梯度提升迭代决策树(GBDT)所筛选基因的权重(权重值大于0.01)
基因 | 权重 |
TNFRSF14 mutation | 0.1068 |
GNA13mutation | 0.0963 |
MYC fusion | 0.0657 |
PDCD11mutation | 0.0562 |
SGK1 mutation | 0.0532 |
TRRAP mutation | 0.0458 |
BCL2 mutation | 0.0450 |
BRAF mutation | 0.0426 |
EP300mutation | 0.0425 |
BCL2 fusion | 0.0316 |
B2M mutation | 0.0303 |
CD79B mutation | 0.0272 |
EPHA3 mutation | 0.0258 |
PTEN mutation | 0.0246 |
NTRK2 mutation | 0.0241 |
RAD50mutation | 0.0215 |
MYD88mutation | 0.0212 |
TET2 mutation | 0.0185 |
NOTCH2 mutation | 0.0181 |
FAT3 mutation | 0.0164 |
JAK2 mutation | 0.0130 |
表20 各分型模型纳入基因及变异
注:√表示该模型涵盖该基因变异类型,×表示该模型不涵盖该基因变异类型
4.4三种基因变异的预测装置集成的系统(模型)的临床应用
分别对26例有IHC结果的DLBCL患者的组织和血浆进行基因变异检测,具体检测方法采用实施例2中的方法。利用变异结果对患者进行COO分型,COO分型采用4.3中三种基于基因变异的预测装置集成的系统,分析NGS分型结果和IHC分型结果的一致性,同时分析织和血浆分型结果的一致性。分型结果见下表21。
表21 26例患者的COO分型结果
1)IHC和NGS分型一致性(组织)
26例患者中,有24例患者的组织NGS分型结果与IHC分型一致,一致性为92.3%(24/26)。
通过以上比较可知,基于高通量测序的分型结果能够辅助临床进行COO分型诊断。
2)组织和血浆分型一致性分析
26例患者中,组织和血浆分型一致的患者共24例,一致性为92.3%。该结果表明组织和血浆分型一致性较高,在没有组织样本或组织样本不足无法进行COO分型的情况下,可以利用血浆样本代替组织进行COO分型。
该实施例表明:该分型方法可以用于DLBCL的COO分型,既适用于组织样本,又适用于液态活检样本。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
序列表
<110> 北京吉因加科技有限公司
<120> 一种用于检测淋巴瘤基因变异的试剂盒及其应用
<130> HA202000404
<160> 376
<170> SIPOSequenceListing 1.0
<210> 1
<211> 119
<212> DNA
<213> 人工序列
<400> 1
agcttataat tcatttctat tagatttaca aatttaaact gcttagggct tacaagtttc 60
cgagagacag agaataccac aaagaagtgg atagatggca gatgacacat gcgagaccc 119
<210> 2
<211> 120
<212> DNA
<213> 人工序列
<400> 2
aactcaatga agtaatgggc tcttgcctat gttatgaata ttttcatctg gtatgacatt 60
tactctttga tttcattatt tttgtgattt tcataggctt gtattttatg tagtcaaatc 120
<210> 3
<211> 120
<212> DNA
<213> 人工序列
<400> 3
ttttcatagg cttgtatttt atgtagtcaa atctctatgt ctttctatca cttttgtgtt 60
tagaaggacg ttcctccttc tgaagtacac atatttgatt ttggatttga gatggcattc 120
<210> 4
<211> 120
<212> DNA
<213> 人工序列
<400> 4
atattaaata ctcatgtgtg ctaaaaataa aaagtcattt cagttgagtg ctgtgaatta 60
atccaaggag tttgcagagg tggcgtttgc agcatgagat tgtccttcct ttccactcct 120
<210> 5
<211> 120
<212> DNA
<213> 人工序列
<400> 5
gtttgcagca tgagattgtc cttcctttcc actcctcccc agagactgaa aacagaggga 60
aggaagccag ggaaacatta aacaaggtct gctgctctgg ataatgtcta tgaggaaaaa 120
<210> 6
<211> 120
<212> DNA
<213> 人工序列
<400> 6
aggtctgctg ctctggataa tgtctatgag gaaaaaaaac gcaggctgag attttatgat 60
ttaaagacta ttatgctgct taaagaaccc tgcaagagta acaatagctg ctatttattg 120
<210> 7
<211> 120
<212> DNA
<213> 人工序列
<400> 7
cttaccccac agtcattcag aagaacaacc accccaaatg tggctaagcc agccagtcaa 60
caagagcgct aggattgtta ccttcttcaa aacaatacct ctcagcaaag ccatcaaatg 120
<210> 8
<211> 120
<212> DNA
<213> 人工序列
<400> 8
aaatgtcaac caacacacca aggaaggtcc ttgcagatgg aacacaggga aactgttatc 60
tcacaggagt ggtaccagca cgtaagggag tcaagcgcag caaattctaa ggtgcagaga 120
<210> 9
<211> 120
<212> DNA
<213> 人工序列
<400> 9
agagaaatgg accactgtca atttccagga actcatttca ctcctgtctt ttcacattaa 60
tgtttctcct ttccaggaaa gccaaggaaa agacttttca tccaactggc ttaggaggca 120
<210> 10
<211> 120
<212> DNA
<213> 人工序列
<400> 10
aggcaagaca gaaacctttt ccgcataaga tcctatcaca gctgggcaaa ttctgtacct 60
aaatctttgg agatgagtgg cctctcggtg ttttcattat ttataattaa ttgttcattt 120
<210> 11
<211> 120
<212> DNA
<213> 人工序列
<400> 11
catttatcag actttgtgga gtgtctcaat gggcagcgag gtgtgaggca cagggagtat 60
gtggtaaagc cctcaagccc tctgccttca cgcagcatcc atttgggggg atgcaccccc 120
<210> 12
<211> 120
<212> DNA
<213> 人工序列
<400> 12
cccccaaccc aaggcggggg tgtgtgctgt ggtgtcacag gaagtgctgc ctttctcgaa 60
tggggctgtg tttacacagg gccaggagaa ctagatgctg aattggggtc aggcttcagg 120
<210> 13
<211> 120
<212> DNA
<213> 人工序列
<400> 13
tcaggagtcc tggcttttgg gaccactttg acacttcctg tcttcacagc cgtcatccta 60
tttcaggatt cttatcccca aaacaggaat attaacacag ctccgcctgt ctctgcaggt 120
<210> 14
<211> 120
<212> DNA
<213> 人工序列
<400> 14
caggtcatca agagcaagca cctagtgagt gtgaaagcat cttcagtgtg ggagttgctg 60
tatagatgca gagttttact actgaaagga ggaatactac tgttgatttg tttttgtttc 120
<210> 15
<211> 120
<212> DNA
<213> 人工序列
<400> 15
ttgttgttgt tgttgttgtt ttaccatctt ggtcctaagt agctcgtttg ccggcccagc 60
cttaatggcc agttggctcc aagtcagaag acatgatctc ctcccccatt ctccatgcca 120
<210> 16
<211> 120
<212> DNA
<213> 人工序列
<400> 16
cattctccat gccattgttt aaagcccctc ctgaggaatg ggctgccttg gtgttttgtc 60
agttcaaacc acatcctgcc tgtttccact ttccataaga caactcgcaa caccggtggt 120
<210> 17
<211> 120
<212> DNA
<213> 人工序列
<400> 17
gcaacaccgg tggttttcag atgtggccgg cttcttggtg aagcgatagc agaggccttg 60
ttcacagaag tgaaaataat tcacccagtg gttagcacat caggtgtggg cattgagtgt 120
<210> 18
<211> 120
<212> DNA
<213> 人工序列
<400> 18
tgggcattga gtgtaccccg ctccctgctt gatcccaatc cctggttggg tttgggagtg 60
gacggctgcc caacctcctg gcactgtctt gacccacagc cttctctggg atgaggacta 120
<210> 19
<211> 119
<212> DNA
<213> 人工序列
<400> 19
tgggatgagg actaagccag aagcagtaag gacagaggtg tctcaggctg tccaggcctg 60
gcctgaatcc catgacagca agggtgtggc ctgcagaagc tggaaacgac cacggtggc 119
<210> 20
<211> 120
<212> DNA
<213> 人工序列
<400> 20
tccaggctca agttcattct aagcagacca gttgtaccca tcgctgtaat tgaaagactt 60
gttggcatca acagaactag taactgggtt tggtcctggt gaccaagggg cacatctccc 120
<210> 21
<211> 120
<212> DNA
<213> 人工序列
<400> 21
tggcatcaac agaactagta actgggtttg gtcctggtga ccaaggggca catctcccag 60
ctggaagctg tttgctaaga gcaaggttac ggcccgcact gggctaccaa acaacagagc 120
<210> 22
<211> 120
<212> DNA
<213> 人工序列
<400> 22
caccatcttt taaatgttca caggaggcca aagtatgcaa gagccacggc ctaaagcagg 60
gctgtgggca gagccagacc tgggccgtca gagtccaggg aagggctcag gaccgggctg 120
<210> 23
<211> 120
<212> DNA
<213> 人工序列
<400> 23
ctgtgcagcg tgtcccgagt gtatcaccca cagccccacg atgtgcagtg ggcagaccag 60
gccagcagac acatggccct ctatctctac ttccttctgg gagggtctgg gaggctaagg 120
<210> 24
<211> 120
<212> DNA
<213> 人工序列
<400> 24
aggtagccct gaccatagaa aacatggatt ttccaagacg tcttccctgg agacttctgc 60
tcttgaacaa tgcttatcta tcacaaggtt gagggctctc cttatctttc aagagtatga 120
<210> 25
<211> 120
<212> DNA
<213> 人工序列
<400> 25
tgaggtggcc tgtaaatgct tcacttatta actcagctct gattctccct gggaggccaa 60
gggctgagtg aaactctaac gtgggcatgt ggacagcttg tggtgccctg tagctctgca 120
<210> 26
<211> 120
<212> DNA
<213> 人工序列
<400> 26
gcaccatggg cctgcaggtg cacagccagt cccatggcct ccagaggagc agcgcaaacc 60
cttagcctgg gtggggaagg agcacagcgc caacagaact actgctggag tgggcccctg 120
<210> 27
<211> 120
<212> DNA
<213> 人工序列
<400> 27
ctgtctatca ccagcacctg gaagtgcccc atcccaggcc tgtcccagcc cggcatctga 60
gctaattaca gctccgttgt ggggagagtc agccgtgtca gtttaactga cagcccagat 120
<210> 28
<211> 120
<212> DNA
<213> 人工序列
<400> 28
gataagaggt actgggcaga gtctcacagg ttgcacaaca aaccactctg ccaactgagg 60
gcagaggcaa gtctttttca gtccctatgg tcagaaacga atttcctgga tggctgtctt 120
<210> 29
<211> 120
<212> DNA
<213> 人工序列
<400> 29
cttctccacc tcctctccat ctcttatttt tagttttcag gttggtctga attaggtttt 60
ggctttttgg gggtggggtg gggggaggat gatgggtgat tttttctttc actcatttaa 120
<210> 30
<211> 120
<212> DNA
<213> 人工序列
<400> 30
taagcatcag cctcgtatct ggcatctggc ctgtgccttc ctttcatggt tcaagatgtg 60
cccagggctg tcgtatgtca ttggccaggg ttgggagccc ataacgccaa ggccaccagc 120
<210> 31
<211> 120
<212> DNA
<213> 人工序列
<400> 31
agctccactg tgatgagcag atgagcttgg ccatgtggca aacagtgaat ttagtgctgc 60
agcatgttca gcggattcat gaagtcttct gctcattcaa gaagggatgt tctccctgac 120
<210> 32
<211> 120
<212> DNA
<213> 人工序列
<400> 32
gacagctgca tccccaaact cacaccaaac agcttgccag tcaggtgccc ccacccccgt 60
gctatgaagc tctccccata gaagatcaat cagccttcct ctcctgtggg ctccacctgc 120
<210> 33
<211> 120
<212> DNA
<213> 人工序列
<400> 33
tgcacccctc gctccaacac catctgccca caccgtcctg tgtagttgct gtccatttat 60
tccatctcca ttatagtgtc tgtctgaaca gcaaatatga ggcttcacag aagcattgaa 120
<210> 34
<211> 120
<212> DNA
<213> 人工序列
<400> 34
gaagatctaa aaagcatttg taactgactg taagcgaatt cagcatgagg cctcaggtgg 60
catacgagcc tctggcactt tcgtcttacc cacacttgag acactgtaga tctcaaggca 120
<210> 35
<211> 120
<212> DNA
<213> 人工序列
<400> 35
gcaacatcag gaccatccag ggcaggtggc aacaattttc ttttaaaatt ccaaggtagc 60
ttaagccaag cctgtaagtg gattgatagg cctcaggttc aagaccagag aaaaagaata 120
<210> 36
<211> 120
<212> DNA
<213> 人工序列
<400> 36
ataggagaga aaagtgaccc tcaaatggcc aagaaaaaga aggcaggaga gaaaagaggg 60
agggccaccc acggtttgca caggtgccat ctccagagcc atggggtgct gcacctgagg 120
<210> 37
<211> 120
<212> DNA
<213> 人工序列
<400> 37
aggctgcagc tcctgggcac agcggacccg accctcctga accaggggac cagcagcaca 60
ggcagccgat gtgtggctct ctccaagctc tgagcttggg ggcactgagt ggaggggaat 120
<210> 38
<211> 120
<212> DNA
<213> 人工序列
<400> 38
aatatccagt tcggaggacc tgacgcttct ggctctctgc tcctccaggc tcagctgttg 60
agtgcagaca caggctctgg gaggccaagg acttcatgac tgggctcact cccagcaggg 120
<210> 39
<211> 120
<212> DNA
<213> 人工序列
<400> 39
gggcaagtgg ggtcctgggg cctgagcccc tggctatctg ccactgctct ctcagacacc 60
acgaaggagg ctccgcaaaa caccatgtcc ctaacaaaac gggatttgac cgattctgtt 120
<210> 40
<211> 120
<212> DNA
<213> 人工序列
<400> 40
gttgcacatt caaggtgtta aagctccaac ctgaataaag gctgtgcaac tacataatgc 60
tgtaaacaga gcctctgtgg agcgcgtgcg tgtgtgagct tagctccgag cccacattct 120
<210> 41
<211> 120
<212> DNA
<213> 人工序列
<400> 41
tctcctagag tggtggaggg tctcatccca cctcccagtc cctcctgggc ccgcccccag 60
gagctaacca gcgtccggaa tggcctggct ttgggtcttc gccgtggcta tagcctctct 120
<210> 42
<211> 120
<212> DNA
<213> 人工序列
<400> 42
tctacctgga ccatctgatt cctgttctga gctgagcctc cagccctagg gtgtagggag 60
gcggagctca ccctcttttc cctccccgtg aagccgcctt cctgtgcgct aatgttttac 120
<210> 43
<211> 120
<212> DNA
<213> 人工序列
<400> 43
taccctggct gaatttaaac agatgtggtc aaggatggcg ggtccccaac gtgacctccc 60
tggctctgct atgcatgcct aatccccgtc ccccaatcga tcactccccg gactctcccc 120
<210> 44
<211> 120
<212> DNA
<213> 人工序列
<400> 44
cccttctccc ctctcctatg cgaccaccag ttgctcacca ataattcgaa actgcctttt 60
tgacagagaa aatgagtgtc agctgtttgc ctaccacgcc tgattctaag aattaaagtg 120
<210> 45
<211> 120
<212> DNA
<213> 人工序列
<400> 45
gtgaacaaaa agttaagaga gtgaatgttg atcacaacag agttcactgg taatgaaatg 60
agattcctgg aaacgtactc ttcaccctgg agctggttaa gaaggagata gagaccatcc 120
<210> 46
<211> 120
<212> DNA
<213> 人工序列
<400> 46
aaaaaaaaga aaaagaaaaa gaaaagaaat atttttcctg gtctgcttct ccatccccca 60
tcatggctct gacggtccca ggtcactggt gggagctttc ccaactgggc ctgcctggga 120
<210> 47
<211> 120
<212> DNA
<213> 人工序列
<400> 47
agctttccca actgggcctg cctgggaatc cacagcctct tgtcacttgc tgtgagcgag 60
tagatgaaca cctgctgagt aagaagctcc tcctgggatg tggaggtgga ggcagggaat 120
<210> 48
<211> 120
<212> DNA
<213> 人工序列
<400> 48
tgggatgtgg aggtggaggc agggaatcct ctccttgcaa attagctcag ccataatgaa 60
gaggcgctga tggaccgata ggaattcaca cccttcttta ttcggcattc caatgtgaag 120
<210> 49
<211> 120
<212> DNA
<213> 人工序列
<400> 49
ttctttattc ggcattccaa tgtgaagttg tccacactag gacaagaggt tgaaaggagg 60
atgatgtcac agattgaaat ggaaacttgg tgggagacat gtgatgtgtg tggtatgata 120
<210> 50
<211> 120
<212> DNA
<213> 人工序列
<400> 50
gtatgtggcg tgtgcatgtg ctggaaaaga caggatttcc gacatgaaga ccggggaagc 60
ctctggctgc tgtgccccat cctcagctgg gggcagccct ctctgctgca gggtggaggg 120
<210> 51
<211> 120
<212> DNA
<213> 人工序列
<400> 51
tggagggagg taggcgagga tgccgaggct cagcttcaaa aggggaggac tccctggagt 60
tgcggaagcc tttagtaggg gggaagtagg tggaatgcgg gggtcactcc ttgctttccg 120
<210> 52
<211> 120
<212> DNA
<213> 人工序列
<400> 52
ctttccggaa accccagtgt cccctggggt ggggtttctg gaaactttcc cctggccgtt 60
ttctctccat gcgcctctcc tgctgctctc tcctctccgc agctgtcggg gagcaggctg 120
<210> 53
<211> 120
<212> DNA
<213> 人工序列
<400> 53
caggctgggt acttatttca gtcccctgta cctggctcct acagctaagg gcccttccag 60
aacaggtttt tcccaaagtc ccagagaaag tgctcaccaa gtgcgtgttg atgatgaacc 120
<210> 54
<211> 120
<212> DNA
<213> 人工序列
<400> 54
atgaaccccg aaatcaacgt gtggattttc cttctggtat ttgggatttt ttttaaaaaa 60
agagcacacc tttgagtttt tctctcttct ctataatatg ccacacggcg aggtttcaaa 120
<210> 55
<211> 120
<212> DNA
<213> 人工序列
<400> 55
tttcaaaggt tatagcaaat tgagaacgaa aaaggttttg aaggagccaa gaggaaaaga 60
ctccaggttc atcctaatgt gaatatacaa gcaggcctcg tctcatctgt atagagcaca 120
<210> 56
<211> 120
<212> DNA
<213> 人工序列
<400> 56
gagcacaggt ctatgggacc acgcagagtg aggggatgag actcctgcac tcaagacttt 60
gcagtcctat tggggaccag gtggaaaacg ttatggaaca tgtggaaaca gaggaaaacc 120
<210> 57
<211> 120
<212> DNA
<213> 人工序列
<400> 57
gaaaaccaaa cccatgcctg caggagaagt gcaggctagg ggatctctgc gccgggattt 60
tcggggaagg attcatgggg gcggtgggaa cgagggggcc ccagaggatg agtaaggcct 120
<210> 58
<211> 118
<212> DNA
<213> 人工序列
<400> 58
aaggcctacg tagggggaag gaggggaaga aatcctcgaa gctggtatga gtgtgagtgt 60
atctgaagcg gggtttgctg gggatgtttg gctctgaatg agagggatga ccacttgt 118
<210> 59
<211> 120
<212> DNA
<213> 人工序列
<400> 59
gcctccaaag cccctgctct cagtcctacc tctcaggacc ggcctggggg aagacgggag 60
tgtggtgttg agtggaaaaa atatggctgc ccagagaggg tgaagggtca atatgggaga 120
<210> 60
<211> 120
<212> DNA
<213> 人工序列
<400> 60
agagggtgaa gggtcaatat gggagacaca agacggagca gaaaatccta gccttatctc 60
aggaggacgt agagagtcat ggtagttctt tgcttatggg agggatgtgg agaaacgggt 120
<210> 61
<211> 120
<212> DNA
<213> 人工序列
<400> 61
tatgggaggg atgtggagaa acgggtgttt agaacaaatg agttggtctg ggtttcctgg 60
aagatgccag agggcaggga gaccacccag gagtgggcaa catggccctg gctcaaggtg 120
<210> 62
<211> 120
<212> DNA
<213> 人工序列
<400> 62
gggcaacatg gccctggctc aaggtggagg atggcaggag aggagagaat ggagcagaca 60
gacatctgcc caagtgttcc atggtacatt agtcagtgtc ccataaaaaa gaaggcctat 120
<210> 63
<211> 120
<212> DNA
<213> 人工序列
<400> 63
agtgtcccat aaaaaagaag gcctatgggt ggtcaaattt ggagtgttct gggttgaaca 60
gagtaacaga gtaatagagt cattgctcta ttgtggaact tcttttttta agatggagtt 120
<210> 64
<211> 120
<212> DNA
<213> 人工序列
<400> 64
gtaagccacc atgcccggcc tactgtggaa cttctcataa cctttgatat gctgatatga 60
ctgcagaggg aaatgtaatc tgcagtgttt ctcagactca tttgaccatg aaacccagtt 120
<210> 65
<211> 120
<212> DNA
<213> 人工序列
<400> 65
acccagtttc tgccaagcac ctcctgcagc tggcgttcca cagaacactc tgagaaatat 60
tgtggcgcct ggtcgccctt acgtcatggg taatgtggat gatacgctaa gttggaactt 120
<210> 66
<211> 120
<212> DNA
<213> 人工序列
<400> 66
tggaactttg ggtgcagagc ccaggctctt gtttcactga cctactgagt tttcttgctt 60
gttttgtttt ctgaaccttg ctttaacctt ccctagcaac tgggatctct tccccagagt 120
<210> 67
<211> 120
<212> DNA
<213> 人工序列
<400> 67
cccagagtgt gctgctgagg ggatcttggg acaacgcact tgctctcatt gtgccaggcc 60
tgcaggcggg agtggactca ccttgccaat ggcccttctc tatccttgct gaggaccatg 120
<210> 68
<211> 120
<212> DNA
<213> 人工序列
<400> 68
ggaccatgat gggcttatcc tgcttggcag ctctggccag gcctggaaga cctacactca 60
catatgagta gttacaactc agccatcctc tgtctgaaga acattctgcc ccagggaaga 120
<210> 69
<211> 120
<212> DNA
<213> 人工序列
<400> 69
agggaagaca tcaacaggga tgtcagaaca gcctgggggt catggccaga tcacagtaaa 60
aatggcaata cgactggctt gctacagaag agaattcaga ataagaagtt ctctcggact 120
<210> 70
<211> 120
<212> DNA
<213> 人工序列
<400> 70
ctcggactcc atccagaggg tgttgcaaag aaaccaaaag aaccacctta gaaggtctca 60
ctggtggggc agttttgagc cctcagggac ttctagatgg taagagtgaa gagtgtttag 120
<210> 71
<211> 119
<212> DNA
<213> 人工序列
<400> 71
gtgtttagga agaaagactt gtctgtcggc gtagctacta gctacatgca tgtctccact 60
gaggacacaa ggaccaggct ctagagacaa ttcagccgat tgggagtcta gagaccaga 119
<210> 72
<211> 120
<212> DNA
<213> 人工序列
<400> 72
tggtttcctc ctttggaaaa aaaaaagaga gagagagata tatatataaa atctgatcta 60
cctcttagag gttcagggtg gtttctgttt tgctttttgt gaggagcaac tcataaaaat 120
<210> 73
<211> 120
<212> DNA
<213> 人工序列
<400> 73
gataccaaac tcctctgaaa ataaatacag gctctatgca tttctaacaa taatagcaag 60
tattctcatt gggattgtgg ctcaatttac catgataaaa tcactggtaa atttctaaaa 120
<210> 74
<211> 120
<212> DNA
<213> 人工序列
<400> 74
agttacctct ttgtgcacat accttctctt agaaaatggt tttctgttag aggaaaatta 60
aaggacactc ggagttactc atttgggagt ttatgttttt cctttccccc attgaatagc 120
<210> 75
<211> 120
<212> DNA
<213> 人工序列
<400> 75
tctctgggga ggtttccatt ttggtcatat ttcagaaatg actgaacgtc agattctgca 60
ctctcactta ctgagaacga atttagaaaa aatagtgaga ttagcagata agtaaacaaa 120
<210> 76
<211> 120
<212> DNA
<213> 人工序列
<400> 76
cattaattga ggctcaaatt gtagaagtac ttcgggcagt atggaattac atgtttccat 60
attctttgtt agtctgcatg aaaccaaaac ccagaaggtt atattaaaca taatcaccta 120
<210> 77
<211> 120
<212> DNA
<213> 人工序列
<400> 77
actccatggg gccctgggag gaatttttaa tgtggcaatt gaaaggcgtg tgattgtgca 60
aaacacaatg gcacaaatga gtgttcctgt tgctttcgtt tctttcagaa gggaattagc 120
<210> 78
<211> 120
<212> DNA
<213> 人工序列
<400> 78
tctgggggag cacagaagag taccaaattt cagacctccc tcccacccca aagaggagaa 60
acaccctgtt ggacctcact gatcccctag gaaggtggat atgagtccta tctggaatga 120
<210> 79
<211> 120
<212> DNA
<213> 人工序列
<400> 79
ggtcttaata caggttttat gttgtgagaa cctggcccct ggctcccagg agtgcttcta 60
agttaaaaac ttcattgcat tcattttttt tgttggtatt taatacatat ttcatagact 120
<210> 80
<211> 120
<212> DNA
<213> 人工序列
<400> 80
cccatcttaa aagctttctg attgattggc ggcagagagc cagctccctt atctaacagg 60
actaagtccc cgctttctcc gtagtggcca agtcatcggt gtctgcagtt agactgagaa 120
<210> 81
<211> 120
<212> DNA
<213> 人工序列
<400> 81
catccaaaaa ggccgaacag aaggtggaag aggctgctct gttatttctc gtctgatgtc 60
atgcccttag ttagttgcac ctgataagta ttcacccagt tcctcatcct ttctcctttg 120
<210> 82
<211> 120
<212> DNA
<213> 人工序列
<400> 82
gagcctaagt ggtcttgcgg gtgtgtggtt tactgggtac tgtggccttc ccttctgcat 60
ccagctgcca gtggctgaga ggtcctttta gcagaggagt agctctccgc agtaggataa 120
<210> 83
<211> 116
<212> DNA
<213> 人工序列
<400> 83
ctatagacct ggatcccaag gccttcctgc tcagccctgg ggtattcacc tctacctctc 60
cattgtattt acatcaacga ggaacccctt ggacctgtcc tgtccaatac ataacc 116
<210> 84
<211> 120
<212> DNA
<213> 人工序列
<400> 84
gtttaaatga cttttccaag aatatccagg aacgtataat aatatgtttc ctggccattt 60
tggaattctt atcagaggaa gatgttcttt atttaagtct tgatttttga aagaaatatt 120
<210> 85
<211> 120
<212> DNA
<213> 人工序列
<400> 85
aatattcccc ttcagatata atttgatttt tacaagtaag ataatgtaat ataacaatgg 60
tcttgaacta tgaaaacact ggatacattt tggagaggct caccgtgata tattcaatac 120
<210> 86
<211> 120
<212> DNA
<213> 人工序列
<400> 86
caatactatc gaaatgattt tcttatcttt agtggccagt gaaatttcac aagagagaag 60
tctagattag tttttggaga ccaagaaaca ttggtgtatt tattccttac ctgggagtgt 120
<210> 87
<211> 120
<212> DNA
<213> 人工序列
<400> 87
gagtgtgcta ttaatacgat tatgctcctg aagactcttg gaaacctgag atcagttata 60
tgagaaaacc aaagggccag ctgtgccctg gagtcatagg aatcattatt ataacgtcca 120
<210> 88
<211> 120
<212> DNA
<213> 人工序列
<400> 88
cgtccacagt ctgtcggcat cattggtcag acacagggtg agaggacagt aatacaggct 60
caccacgaca cgtgtgtctt taacatactt cataaacact tagcctccct tacagccaag 120
<210> 89
<211> 120
<212> DNA
<213> 人工序列
<400> 89
gccaagacag acaataaatg tctctctcac tcaactgtgt ccaggattta cacagtgcct 60
catgcaaggt ctcactgcag gccagaattc acagagggtg ggagggctga agacttgctc 120
<210> 90
<211> 120
<212> DNA
<213> 人工序列
<400> 90
ttgctccatt gcagaaatca acacaaagag ccattgagtg ttaaagatgg gggaattcag 60
cacttgagga ctcaaaaaag gtcctcctgt agaaggggcc caaaaagttc ctctgagagt 120
<210> 91
<211> 120
<212> DNA
<213> 人工序列
<400> 91
gagagtcgcc tttcttgcta gacttctttg tatacaattt gtcgctatgg agagagatca 60
aagggaattc taggcaattg tttttagtta ctaactcaat gaaattgatc tgcaattatt 120
<210> 92
<211> 120
<212> DNA
<213> 人工序列
<400> 92
attattctaa caggtaactg aaccatggta cagagagaac ataaaataaa gaatctgggc 60
ttgctgtggt ctttattaat ttcttcttta ttatgaatac ctctgctatg ttcttctaag 120
<210> 93
<211> 120
<212> DNA
<213> 人工序列
<400> 93
tctaagcccc caccctacca tatgcgataa gaaaatataa aagagagcag catagtgtct 60
accattggca caatgggttg tgtttctctg actttggggc ctcgacttgt tggagaagac 120
<210> 94
<211> 120
<212> DNA
<213> 人工序列
<400> 94
gaagacatca tgaaatgctt gtgtccccca aggatgtgag tttattgagc agaccctcga 60
aactggggca gcagtagaag ctctggtgag cgtttggggt aaattttatg ataggaggct 120
<210> 95
<211> 120
<212> DNA
<213> 人工序列
<400> 95
gaggctagca tgccagaata ggaaaccaac ttgtaaggat gcagagggca agacactagg 60
tccagacggg tcagagagca ccaatcaaat gacacacatc tgggtgagtc aaattcagag 120
<210> 96
<211> 120
<212> DNA
<213> 人工序列
<400> 96
tcagagccca gaaggtcaga aaattagcaa actcaacact ggtatgctgc tctcttttgt 60
aattctaccc catatgagta agcaagggct ccttgaattt tctgacagtc aagagggagg 120
<210> 97
<211> 120
<212> DNA
<213> 人工序列
<400> 97
gggaggatta aggaaggaca gatgatgggg tcttcatagt ggttccaaga gtatcttcca 60
cctatcggga tgggcctttc tcccacttgg gactcagcct ggagatgtgc atgcagcttc 120
<210> 98
<211> 120
<212> DNA
<213> 人工序列
<400> 98
agcttccttg atggggctgc tggttcacag caccctaacc attcaggggc tggtaaattt 60
ccctttcttg ggaataattc ttggtcccac aaggtattct tccttactct tgacctattt 120
<210> 99
<211> 120
<212> DNA
<213> 人工序列
<400> 99
ctattttgag gaggaaatgg ggacaggaac gattatacag caggtattat ccctgtatac 60
tttgggaata gagctaggga agaattttga gagattcaga gtggcggtga gggcaagatg 120
<210> 100
<211> 120
<212> DNA
<213> 人工序列
<400> 100
aagatgaaat gaaactggag aaaattgctg agctgtggct gtgtaattgg aggaggctaa 60
tccttgcaga gaggcacttc tgggcaccag aacttctctt ctgcagatga ccatctccct 120
<210> 101
<211> 118
<212> DNA
<213> 人工序列
<400> 101
ctccctgaag gctggcgctt ctggttcaag atggcatgga tggctgggag ctgcctgcac 60
cagctggtgg tggtggtggg gacccacagg cctgggtgat atggtctggc tgtgcccc 118
<210> 102
<211> 120
<212> DNA
<213> 人工序列
<400> 102
tcttctttct ttataaatta gcagcattaa tttagacaga ctaatacact gaggaagagt 60
agggtgaagg ttagacttta catacatagt accatgctga gtttggtttc aagggccaaa 120
<210> 103
<211> 120
<212> DNA
<213> 人工序列
<400> 103
gtgaaggtta gactttacat acatagtacc atgctgagtt tggtttcaag ggccaaactg 60
gtgaactcag aaagggaagc ctgatgtagt tggaaaagtc aaacctcagc tccactacta 120
<210> 104
<211> 120
<212> DNA
<213> 人工序列
<400> 104
cacactaggt gctgggtaaa aggtagatta ttttatgctt tttttttaga aattatacga 60
tccgagccag ggttggattc catctgactt aaagcccaac cactacatta tagttaaaac 120
<210> 105
<211> 120
<212> DNA
<213> 人工序列
<400> 105
acaacttgta gtggttggaa gtggatgcag ttcttccaaa gaatccgtgg taaaacattt 60
taggattgct ggaactcaag gagatgcttc caaattcttt atctcagaaa acttttggga 120
<210> 106
<211> 120
<212> DNA
<213> 人工序列
<400> 106
gaccccagca tcccctttgg ataacctgtt gcatcatcag gcctccagac atgaggctga 60
attcctgcat ctgagttctg cacatcttgg tggtttttgc aggattgcat gtgctcttga 120
<210> 107
<211> 120
<212> DNA
<213> 人工序列
<400> 107
gaagcactgt ctcatataat gtggcaatgg agacaaaaaa atgtcaccaa ggtgtggcta 60
tggagtggga gaggaggact tagaggatgt cattagcaaa ttgctgggtg gctgccaggg 120
<210> 108
<211> 120
<212> DNA
<213> 人工序列
<400> 108
ggtgttgcag aagtctggtg acttcatttg ataatttgct gatcattcaa gtttattcct 60
ttctaggttc ctgtcatcct cactggcttt gttttgcagc tgagagactg aatatacaaa 120
<210> 109
<211> 120
<212> DNA
<213> 人工序列
<400> 109
ggtctgcatt tatttccaca tgccgtacaa ctagcacatg tgaatttgga ggtaaggaca 60
cgttctacac tcttggaccc agacaaattt ggtctcacgt gattggatca gagggacaac 120
<210> 110
<211> 120
<212> DNA
<213> 人工序列
<400> 110
atcagaggga caacacttgt ggtctcatga agcgccaagg ccttcttggt tcctgtcttt 60
gtggcgtgtg gatgacttct ctaggagcag gagatgactg tgatggaata gtgactaagt 120
<210> 111
<211> 120
<212> DNA
<213> 人工序列
<400> 111
aatagtgact aagttctatt tgaacttgaa ttagttatgg cacaaatggg tggaacataa 60
aagaagtaat tagtaaaggc aaatgggaaa agcccaaaat tggaattttg tttttaaata 120
<210> 112
<211> 120
<212> DNA
<213> 人工序列
<400> 112
tttgttttta aataacactt gggagagaac aaattaggaa tgaagacaac ctatttcccc 60
attccctggc acacagatct cattttaaat aaaacaataa ggaggtaagt tttaagtggt 120
<210> 113
<211> 120
<212> DNA
<213> 人工序列
<400> 113
aagttttaag tggtgtcata gggaatgtta gaagctaatg ttactaatct aaaaactatc 60
actgcaagga aatatccagg tggttatggg gcagagatat tgcaggaagt ctctgcagat 120
<210> 114
<211> 120
<212> DNA
<213> 人工序列
<400> 114
aagtctctgc agatatctca aattgttggt ctttgaaaaa aaggtccaca tgtgatgctc 60
tctgcagtgt cattgtcaag atcataacta agtttattgt aagccattat caagatgcat 120
<210> 115
<211> 120
<212> DNA
<213> 人工序列
<400> 115
ttatcaagat gcattctcat gttgtgtacc tggctccaag gaccacagtt gattattatc 60
ttgggggacg tttattattc cctctctgtc tttgtaaata aaaatgacaa gtcaaagttt 120
<210> 116
<211> 120
<212> DNA
<213> 人工序列
<400> 116
acaagtcaaa gtttggtagt agttgagaaa attgttgacg tgtaattaca ggaatttgct 60
tctttggttc agtttgttac tttgaatctt tacactgtct gcgtagctat tgtggattta 120
<210> 117
<211> 118
<212> DNA
<213> 人工序列
<400> 117
ctattgtgga tttattattt tctgtagctg cacagaaaat aatgttttaa tggtttttca 60
taataaataa tattattttc cattttatgt ggcatgaaaa ctctttcaca ttcatcac 118
<210> 118
<211> 120
<212> DNA
<213> 人工序列
<400> 118
aaccctgacc tgatatcaag agtttactgc ctgtcaagag gacttgcaat ccttccactg 60
gacacatttc agatttagtt tcccctttga actgataaca actgtttcaa aagtaagaac 120
<210> 119
<211> 120
<212> DNA
<213> 人工序列
<400> 119
caaaagtaag aacctttttg gattaagctt gaaaaaggag aattgaggga gttggagaag 60
atgttttcct gttttaacaa cttaattaac aagtatgggg tgaggtgggg agcagcgggg 120
<210> 120
<211> 120
<212> DNA
<213> 人工序列
<400> 120
gggagcagcg ggggcctgaa gaggaagtcg ttttgcagac acatcacttg tgcatgagat 60
gtcaaatatc tgtacacagg gtctggtccg gtgctatggt ccagcatggt ggccaccagc 120
<210> 121
<211> 120
<212> DNA
<213> 人工序列
<400> 121
cttttctgat tgaggttctt ttcttttttt caggcttaat tcactttatt tttcttgtat 60
aaaaacccta tgttgtagcc acagctggag cctaggtcca ctgcacagag actccgtgca 120
<210> 122
<211> 120
<212> DNA
<213> 人工序列
<400> 122
tttttttcag gcttaattca ctttattttt cttgtataaa aaccctatgt tgtagccaca 60
gctggagcct aggtccactg cacagagact ccgtgcagct gattgaggtc cttaagacct 120
<210> 123
<211> 120
<212> DNA
<213> 人工序列
<400> 123
atttctgttg ggtagtgctg ttcccgaggt ttaccctttg tatatgacag tcactttgta 60
ggtgagggtg aggccaggag tccagctgtg gctcaaatag gacagagaca cttgcagtag 120
<210> 124
<211> 120
<212> DNA
<213> 人工序列
<400> 124
ttgcagtaga gggtggaaag aaagaccgct ggtccaccct gctttcccct gggaatggga 60
ttcttgttat gcaagaacat taaagaagag gcaagagctc catgtggcat tttcagtgga 120
<210> 125
<211> 120
<212> DNA
<213> 人工序列
<400> 125
ttcagtggaa gcatattcac ttctgaaacc tagtttctct cctaaactcc acccaaggca 60
aaatggatta ttgcttcctg gaaatcgaac caggggactt taaagtgttt catattaaaa 120
<210> 126
<211> 120
<212> DNA
<213> 人工序列
<400> 126
atattaaaaa cagaaaagcc caagaaggag aaaaataatt acatttctaa aagctcttag 60
aacaaatgct tgcttgtgag aaataacttt tctataaata ttttattcct cttttttcct 120
<210> 127
<211> 120
<212> DNA
<213> 人工序列
<400> 127
ttttttcctc tttttgttct ccagctgaga ggttccacat ggatatagga gatgatgttc 60
cccttgggag agaggatcaa agctcccctg agctgcttgc tgctgagttt tactcataat 120
<210> 128
<211> 120
<212> DNA
<213> 人工序列
<400> 128
actcataata atctttgtgg cttctacccc aacctgcctg cagggctctg agatggagta 60
agctcaaaac tgtggaaaaa caaagaatac ggagaaaaat ccattgctcc ttagcatcca 120
<210> 129
<211> 120
<212> DNA
<213> 人工序列
<400> 129
tagcatccaa gctggtgttc caaacagaaa gatccaaggc ttggctgcag agagagagag 60
agagagagag agaaatgttt atggtttacc tgtgggaacc cagcctgggt cttaataatt 120
<210> 130
<211> 120
<212> DNA
<213> 人工序列
<400> 130
ttaataattt ataaagcctg gagcccacct caccaccctc tgcatgaagc tcaacacata 60
tttgtcaaat ggctggatcc attcatcaac ccacaaaatg agcactgtgt gagctgaggt 120
<210> 131
<211> 120
<212> DNA
<213> 人工序列
<400> 131
agctgaggtg cctacggtgt tgaacctgga aacctgagga aatgatgata ccagcaagag 60
gaaggggaag ctgaggaagg acctagtctt gggagtaggt tgtaaatttg atttggccca 120
<210> 132
<211> 120
<212> DNA
<213> 人工序列
<400> 132
tttggcccat gaatggcctt agataatatg atagtcaaga tccagtgtcc gtggacagca 60
ggtggctgaa aaaagaggac ttaaggttga ctttgatgat cagcagcata gagtcagttc 120
<210> 133
<211> 120
<212> DNA
<213> 人工序列
<400> 133
agtcagttct cgcctaggga aacatgatca tatttggagt tttaaagaga tgttgctatg 60
tgaaatatgt ccaaatggag gaactaggat ggtgtagggc tgagattgtg gctagaacat 120
<210> 134
<211> 120
<212> DNA
<213> 人工序列
<400> 134
ctagaacatt tggcttcata gagcaatgcc tataaggata tattttgctg tcattgcatt 60
tgatcacctc acatgcaaca agagtagact tgtcctgtgt cactgctgat ggataattct 120
<210> 135
<211> 120
<212> DNA
<213> 人工序列
<400> 135
gcctttcaga gtttttgaca gtcaccctct gagattcttg ttgtggggtc catggaggag 60
ctgtaggaga ctctgaaagg agtctgtaat taaagtcaag tcacctgcta taggcagtga 120
<210> 136
<211> 120
<212> DNA
<213> 人工序列
<400> 136
aagtcaagtc acctgctata ggcagtgaga gaaaagaaca gggcctgatt gctttggggc 60
tatggctttc attgtggatg tgggctgaga tagctgtgat tcaggataca gacagacaga 120
<210> 137
<211> 120
<212> DNA
<213> 人工序列
<400> 137
gctgtgattc aggatacaga cagacagaca gaaaaaacta atgacaagta tggtaaggtg 60
ggcaatgagc taccattttt taatgcaaaa taacaaaaag gaatttttgc atatgtttgc 120
<210> 138
<211> 120
<212> DNA
<213> 人工序列
<400> 138
acaaaaagga atttttgcat atgtttgcaa caaaaagaat acaaacaggc acagatattt 60
acagatgata tagagaaaga agaagacttg gctctttctt ttgcctttat tcagcaaatt 120
<210> 139
<211> 118
<212> DNA
<213> 人工序列
<400> 139
tctttctttt gcctttattc agcaaattat gaagtgcaaa aagataaaaa gaagaaatta 60
tagtctgtgt ttgatggaga gctatttgga gaacagcaca gggctctatt tttggcct 118
<210> 140
<211> 120
<212> DNA
<213> 人工序列
<400> 140
ggcaactagg ataatgaagg cttgtaaatg gctgggacat tcagcgtgaa ggagcaaaac 60
ccattgagac atattttact gtctttgcat ttgctgtttt gacagcttca ggtgtttgtg 120
<210> 141
<211> 120
<212> DNA
<213> 人工序列
<400> 141
gggacattca gcgtgaagga gcaaaaccca ttgagacata ttttactgtc tttgcatttg 60
ctgttttgac agcttcaggt gtttgtgaac ctcctgttga agatgatggc atcacaaaat 120
<210> 142
<211> 117
<212> DNA
<213> 人工序列
<400> 142
gagattcaag taagatgatg acacaataat cataatagaa ggcttcctac ttccttagac 60
atccttctct tttaaaattt ttatttattt atttattttt gtagagatat ggtctaa 117
<210> 143
<211> 120
<212> DNA
<213> 人工序列
<400> 143
atgagccaac acacccagcc ctctttttgt gctggttcct ttgtgaaagt tctgctgttg 60
gaagtgctct aggaccctac cctcacctac tgtctccttc cccaggaaat gtcacacaaa 120
<210> 144
<211> 120
<212> DNA
<213> 人工序列
<400> 144
tcacacaaat ccatgtctat atactatcca tatgctgatg actgattgaa gttctgtatc 60
gagattgaga cccctactat ctattcaaga ggagacttag acatgagtct ggcactcagg 120
<210> 145
<211> 120
<212> DNA
<213> 人工序列
<400> 145
gcactcagga gagatacagg atggagttat caactgacaa gagttttctc ttgattctcc 60
tccactagat ctgatcctca ctcacctcac tttctcaatc cttttctaat tcaataaatg 120
<210> 146
<211> 120
<212> DNA
<213> 人工序列
<400> 146
caataaatga caccactatc cactcagttg tttgggcaaa aatcccagca gtcatgtttg 60
aactcaccag ggcagatggc ccatgctttg ctaaggaagg tcccttgaga gtggtgttag 120
<210> 147
<211> 120
<212> DNA
<213> 人工序列
<400> 147
tggtgttagt aaccagagag acatatgtag caaagtagag aagctaatca actttaaaca 60
ttaaaaaata gcacccaaaa ttaaataggg ggagaggggt aaaaaatgta aatttgggga 120
<210> 148
<211> 120
<212> DNA
<213> 人工序列
<400> 148
atttggggag taaaagaaac aatgtcaaat ttctgttaca agaaaacttg tttctgtgtt 60
ttccatgtag atggtgtttg agtgttaaat cattgaggga cttagattcc cattgtatac 120
<210> 149
<211> 120
<212> DNA
<213> 人工序列
<400> 149
attgtataca tttacagttt gtatacattt gcatacagtt gaatagtttt ttgtgtatgt 60
atctcttcca aaaagaattg ctgaatggcc aaattggccc agaaatggtc ctgtctggca 120
<210> 150
<211> 120
<212> DNA
<213> 人工序列
<400> 150
tgtctggcaa atcctccgtt cttagtatga ggttgccagg gacctgagat gccgtcctcc 60
acttggtggc agtgtgtggt gggacaccaa aaaagggtga ctaaatccat tgccttctcc 120
<210> 151
<211> 120
<212> DNA
<213> 人工序列
<400> 151
gccttctcca cattcttcca gtaaatgtgg gattgtagag ggttttgagg gtagagtcct 60
ggagcacttc aacagcagaa ctttcacaaa ggaaccagca caaaaacaaa gagggctgag 120
<210> 152
<211> 120
<212> DNA
<213> 人工序列
<400> 152
agggctgagc gcagtggctc atgcctatgt tgataggaat cacaaccaga tttgttttat 60
atcactttaa aaatgtatac aatggaagct aagtaccaca atggtttgat aattgaaaac 120
<210> 153
<211> 120
<212> DNA
<213> 人工序列
<400> 153
attgaaaact atctacataa aacatacaga aacaagttct tttttaacac ttggaaattt 60
ggcactttct ctcctcaaat tcacattttc acccccattt tttcccagat gagattcctt 120
<210> 154
<211> 120
<212> DNA
<213> 人工序列
<400> 154
agattcctta atgttaacat ttaaaattga ttagcttttc atacttttct acagccaaga 60
ttaagcttat gcatttaaat gcattttagt gaccttaagg ctttactttt tgttcccaga 120
<210> 155
<211> 120
<212> DNA
<213> 人工序列
<400> 155
gttcccagat tgagtaatta ttacaactat tatttttatc caattacttg tttccttggt 60
gctgacagaa agattaattt aaataaaata ctccgctggg tagtatctgc ttttcagttt 120
<210> 156
<211> 120
<212> DNA
<213> 人工序列
<400> 156
tttcagtttc caataaagtc cagaggagtg cctggagggg ccttccggga aggggtcttc 60
tgatgaatca gccgatgtgc caccccaact tgacagaagg cccccttgtc agcagtttga 120
<210> 157
<211> 120
<212> DNA
<213> 人工序列
<400> 157
gctccccagt cattacagtc caatatagct ccaggatttc aaatcatgcc tttcagtaac 60
ccaagaattc taacactcca gggccatgcc cagtggtgtg taggtaaatt tactctctgg 120
<210> 158
<211> 120
<212> DNA
<213> 人工序列
<400> 158
tttactctct ggggaaaaaa gaaaaaggca aagaaaagaa agccctgctt tatagctttt 60
gttcgtttac atggtataaa ggcttccacc acagccaatt tttttttctt tttctttctt 120
<210> 159
<211> 120
<212> DNA
<213> 人工序列
<400> 159
gtgagccacc gcacccggcc accaaggcca attacaagcc actaacctga cctcactgac 60
acacgcttgg gatgacaggc acacagtcag ctctccgggc cagtatgaga cactcagtac 120
<210> 160
<211> 120
<212> DNA
<213> 人工序列
<400> 160
aaggccaatt acaagccact aacctgacct cactgacaca cgcttgggat gacaggcaca 60
cagtcagctc tccgggccag tatgagacac tcagtaccgc agggcatcac agttagattc 120
<210> 161
<211> 120
<212> DNA
<213> 人工序列
<400> 161
acagatgaat gctactatca gagtcctttt aattgagtct aagtgatgtg acttgaaggg 60
ttgaggatta gggtatcagg acctgaaccc agtgggaaac atcagatccc ttgccattta 120
<210> 162
<211> 120
<212> DNA
<213> 人工序列
<400> 162
gggttcacct gctccaaagc aagtagctgc tttggttcca tctaaaaatg ttgacttcaa 60
aacagaactt tcagcttatt tccctctttt tcatacacat ttcatcttat aaaatgcaga 120
<210> 163
<211> 120
<212> DNA
<213> 人工序列
<400> 163
ggctgggatc tctggtctat atggaagaac acactcaaca gcaacagtag ctctcccagg 60
gagtagaact caagactggt ctatcttgta cctaaccagg agggttatta ccaagaaaca 120
<210> 164
<211> 120
<212> DNA
<213> 人工序列
<400> 164
agagtctcct tctaaggtgg tttcacctgt aaggcaatcc cttagcctgg tccctgaggg 60
cttcattaga gtagggtcct ggtgatttta ctggcttgtt aagaaggctt ttcaaagtct 120
<210> 165
<211> 120
<212> DNA
<213> 人工序列
<400> 165
tgtgtaatga tgatgaatgg cagggcaaaa tcatgttaac acattataaa caattccagg 60
cacaaccagt atctcacact gtactttatt tttcttcaca atattaacta gacagacaag 120
<210> 166
<211> 120
<212> DNA
<213> 人工序列
<400> 166
gaaagtttaa tggcaatgtg actttttcca acaacacaaa caaagtgcca ttatagctaa 60
tggtggccaa ctggagactt actttacctt aaccatgtaa agtatcctta ccgtattttt 120
<210> 167
<211> 120
<212> DNA
<213> 人工序列
<400> 167
tatgtgtaca gtgttgcaga atatcagcca cctcttaaaa gtatcaatct taaaaagagc 60
catggaaggt aaaagtatga aaatcttgat aacaaaagct ttcaatacaa aaacacttat 120
<210> 168
<211> 120
<212> DNA
<213> 人工序列
<400> 168
tgtacactta tttttattta aaacaaaaat aaccccagta actcaaaaca aaagcaaacc 60
ttggttgaaa acttaagaag gtataataaa caaaaccacc aaaagaaagc ttccccaaaa 120
<210> 169
<211> 120
<212> DNA
<213> 人工序列
<400> 169
gaaatgcaat ccactgtcac tcttgcaaat tctaccttgg agggaaaaac ttaatgaaat 60
gagctatctg gagggcccac ggcagatttt ccaaaaggtt taggtgcatg gatttactca 120
<210> 170
<211> 120
<212> DNA
<213> 人工序列
<400> 170
gtatctacac tacagtctta tttattaata gtctcagaat tttcttgatt gagcgagcct 60
ttccatcctc caccagtgtt cccatcttct gtgctcagct tggtatgcag aacaaccttg 120
<210> 171
<211> 120
<212> DNA
<213> 人工序列
<400> 171
ttgttgatag gatgtttgct tgaagttatt tttctggggc agtccagatg aaccggtaca 60
gtaccattca tgctccatct gattttcttt gcatccagtg agatgcatat ttcatgattg 120
<210> 172
<211> 120
<212> DNA
<213> 人工序列
<400> 172
tccaaggtca tggttgtcca aagacatgga acagaatgat tcactgggta agactaaagg 60
acttgtatta tcactctcca attcagtttc acattgctta attttataaa atttttttct 120
<210> 173
<211> 120
<212> DNA
<213> 人工序列
<400> 173
gtattgtaca taataaacat ttagaaacag atgtccctac caaccagaag gttgtcatta 60
aatatcctgt tagttaaaac tgcacattta ttgtttaaat acccattaga catatccagc 120
<210> 174
<211> 120
<212> DNA
<213> 人工序列
<400> 174
ttgaaattta taccattgca ctgccaaacg gagctgcact ttgagccatg ctgatgtctc 60
tggaatctaa aggtcgtacc acaaacttca aaatgtttct catttgtcac acaaggttct 120
<210> 175
<211> 120
<212> DNA
<213> 人工序列
<400> 175
tcgcagaggc atcacatcga ccccaataca ggtccttcat acccttagtt ctggttattc 60
tgaaaacttc caactccctg atccaaactt gggaatgttt tacatttaaa aattcttcct 120
<210> 176
<211> 120
<212> DNA
<213> 人工序列
<400> 176
ccctcccacc cctccaacaa atgtcctttg tcccataata atttaaaaaa aaaatccctg 60
aaagatccaa attgaataac aataaagatc tgattggaac cttcataagc ttgacaatgt 120
<210> 177
<211> 120
<212> DNA
<213> 人工序列
<400> 177
agaattgtat ttcttaaaaa gtgtgtaacc acatttgtct gggctgcaaa agacaccaca 60
gaataagatc agaatagaat ttcaactgac tccctaattt ccttagaatg gcttgtattt 120
<210> 178
<211> 120
<212> DNA
<213> 人工序列
<400> 178
cgagcctttc ctgtttttct ctgatagagt aggtgtacat tactaactat aagtgataag 60
aaagtctaaa aacagccact gccttaaaag tacagttgga attaattaga gtttaagttc 120
<210> 179
<211> 120
<212> DNA
<213> 人工序列
<400> 179
acatttataa actatttgtt ttaggataag ttcaattaca aatagagact atttgcaatt 60
ctgttcactc aatagatcct ggaggtgaaa gctagacatg tgttgggatt gccctgatta 120
<210> 180
<211> 120
<212> DNA
<213> 人工序列
<400> 180
tttacattta atcttgatta ttataactcc tctcgattta taatcacttc ctaatttttc 60
ccactgggcc agagctacat ctttagatga taagcattta ctaataaaac aaagatcaca 120
<210> 181
<211> 120
<212> DNA
<213> 人工序列
<400> 181
tataaatgga aggccacatc tgaacacaga gaggtaagtg agctgtggag agaatgttgg 60
cgtcttgttt gaactaaatt gaggtgcttc cttaattctg tgactttatt ccaaatctta 120
<210> 182
<211> 120
<212> DNA
<213> 人工序列
<400> 182
agcctgccag agttttctgc ccctgccaaa tcttcggaga cgacccgatg gccatagacc 60
ctgtcagctg tcattctggc ctctcttgcg gagtatttgt gcagcgaggg actgggaggg 120
<210> 183
<211> 120
<212> DNA
<213> 人工序列
<400> 183
ccgaggaggt tctcagatgt tcttctcctt ttggggcttt ttttagagcc cttgtcccca 60
atttggaaag tgcatatact ctatttaact ctgaccctgg ccagtgtaaa gaggagtaca 120
<210> 184
<211> 120
<212> DNA
<213> 人工序列
<400> 184
tacagaggac tgttttttca ttcataaaga gcagttaaga tgcagatgtg aatccctctt 60
caatacaaaa tagggatggt tctctgttgc ccaactgcaa aataattaga tataatgaaa 120
<210> 185
<211> 120
<212> DNA
<213> 人工序列
<400> 185
aaaaagaaga ggagaaaaaa atgactagtt gaggctttta tatacattca ttgcttctaa 60
catgttttta acaataagga aaatgcaaca tcaactactc ttagagcaag tgcagccaca 120
<210> 186
<211> 120
<212> DNA
<213> 人工序列
<400> 186
atactgtaca gttctggggc caagaggctg ggcacattta ctgttattaa aaccaggtaa 60
caaaacccca cagcaaaagg cagccagcca gcaattagcc cccgtgacct cttaatatat 120
<210> 187
<211> 120
<212> DNA
<213> 人工序列
<400> 187
atacattttt caaatactct gtgaatcccg tttgaacaac aacaaaagac aaaacaggct 60
ttatattaaa aacgtccacg ttcttcattg ttacttctaa agcagcttgg aggatcttac 120
<210> 188
<211> 120
<212> DNA
<213> 人工序列
<400> 188
cacgtggagc atactgcaaa ctgactccat taaaatgatt ttggcaggat agcagcacag 60
gattggatat tccatattca tcactttgac aatgtaaacc tttcataaaa taatattttg 120
<210> 189
<211> 120
<212> DNA
<213> 人工序列
<400> 189
cttaaaaatt agaatcattc aaaggtctga tcattctgtt ccctgaggcc cgccggggag 60
gtctggcttc ataccacagg tttcctgctt tcttggtgga gcgtaagcac cactgcattt 120
<210> 190
<211> 120
<212> DNA
<213> 人工序列
<400> 190
caggaagacc ctgaaggaca gccatgagaa agcccccgcg gaaggagggc aggagggctc 60
tgggtgggtc tgtgttgaaa caggccacgt aaagcaactc tctaaaggtc aaaccaccat 120
<210> 191
<211> 120
<212> DNA
<213> 人工序列
<400> 191
agatttgaat ctgctggtca tttgccatct ggatttttaa ctgaatgaat ctcatgggtt 60
taaccaaaca tgcatgtaat cctgaatacc atgaattaaa tgcggaattg cccagggacg 120
<210> 192
<211> 120
<212> DNA
<213> 人工序列
<400> 192
aggaaacctt caagaaacaa ggtcaaaggg acaacagata taactgtcac aataaacaat 60
tctgttgacg tggaaatgca catgacttgg ttgaaacaaa gctcctcagt ggccagtgac 120
<210> 193
<211> 120
<212> DNA
<213> 人工序列
<400> 193
aatgccttgc ttcacagtcc aaaattttgc tcaaaaccta cagagaagag aagaaagcaa 60
acagaaattg atttaacgaa tgtaagattg tccactatag tcttatttta ggacatacac 120
<210> 194
<211> 120
<212> DNA
<213> 人工序列
<400> 194
atttagtttt gctttgatag ttgcagcttg ccagctggtg tggttttacc acaagctaac 60
aaacattttc cagctctgct cttacggaaa caacaggcac ccgaagctat gagataataa 120
<210> 195
<211> 120
<212> DNA
<213> 人工序列
<400> 195
tgtttttatc cagagtactg ggagtacaat tgcatacatt aattagttat acatacatac 60
atacatatat ttccttcttc aaagaaaaaa tttatactat ccaaaggcca ctagagttta 120
<210> 196
<211> 119
<212> DNA
<213> 人工序列
<400> 196
tgggaaagaa aaaataagaa aaatggttct gtcaacatta acaataacga ttcgtccgtg 60
gcctaaaacc actggacgtc attcaaaacc tgctaaaata ttatctttca agccttaga 119
<210> 197
<211> 120
<212> DNA
<213> 人工序列
<400> 197
aagacaaaca gctaggcagt atttcctgcc catctgaaac attaagactg aatatagact 60
ctgcagaaca cagcctgaga tgtcatgtct acgtattcct tgaaaacctt tgtcttcttt 120
<210> 198
<211> 120
<212> DNA
<213> 人工序列
<400> 198
tcttcttttt caaagtgttc tctcccttcc ctactgggtc taagaccaga cagaatgcca 60
ttgcttctaa gtttgtgctt ctccctgctg gtaaaagact taactatgtg atttagctga 120
<210> 199
<211> 120
<212> DNA
<213> 人工序列
<400> 199
ttagctgaga actggccagg gagcactaaa ccttgaagag atttaatgaa atatgtacct 60
ccttccaaac cggcttctct aaaacaaaat cattaaaagc acaggtgtaa gaccctcatt 120
<210> 200
<211> 120
<212> DNA
<213> 人工序列
<400> 200
ccctcattta tgatcaaatg tgggctgcaa aataaaacaa tatttgaact gtcttccccc 60
ctttaaaaaa aaaaaagcag aaccttttag agctattttc tgggtaaaga ggcctgaggc 120
<210> 201
<211> 120
<212> DNA
<213> 人工序列
<400> 201
cctgaggcca acaaggtcat gttgggccat gtacatggtt ggtgacccgg ccctaggtct 60
tctggctcaa attcctgtcc cctttccaaa tcagcctacg tgctgtagaa catgcaagac 120
<210> 202
<211> 120
<212> DNA
<213> 人工序列
<400> 202
tgcaagacag caccctgatg tgggtgaatc tcatttttaa gttccttccc ccacacaaac 60
actttgcccc attccaggct gctgagtctt accaaatgag cactctaaaa tgagaggttt 120
<210> 203
<211> 120
<212> DNA
<213> 人工序列
<400> 203
agaggtttcc ttgagtctgt aaccaaacac tctgacattt ctctgtggtc ccaagtgcca 60
gtcactcaat cccatcggct ccaaggttag tgtgtgcatg tgagtgagtg gggactggag 120
<210> 204
<211> 120
<212> DNA
<213> 人工序列
<400> 204
gactggaggg aaggaagtgg ggaagggaga agacagaaaa agacaaaaga acctatctcc 60
tcctctcccc agcccaactc gagataggca aagagagata gactaactcg gtctttacca 120
<210> 205
<211> 120
<212> DNA
<213> 人工序列
<400> 205
ctttaccaaa cttcaaggat tttctccttt gcaaaagaaa gctgaagaca catgggagtg 60
ggaggtttac ttaaaaactt tcctctcttc cttcatggaa gggatcctca aacacttctg 120
<210> 206
<211> 120
<212> DNA
<213> 人工序列
<400> 206
cacttctgga atacctaggc tgttctttaa ccagcttcaa ccaccagctc gcttgtggat 60
ttccagtcgc aggcttctgg aaccacagga agcccagatt tgccatttca ccatgacaag 120
<210> 207
<211> 120
<212> DNA
<213> 人工序列
<400> 207
atgacaagtg gcaatgactc actccagatg cggattgaaa caaacaaaca aattcccctg 60
tgtccactgt cagctgggcc ttgggctttt caccgtaagc ctctgcctgg ccaaaaacaa 120
<210> 208
<211> 120
<212> DNA
<213> 人工序列
<400> 208
aaaaacaaat gtacatacac gaggcgcagg tccttctcaa gttcactcct ttgcaagcca 60
actcgtctta agaaccagcc ccccccaact cctgagtgtg tgggttgagt gtgggcaatg 120
<210> 209
<211> 120
<212> DNA
<213> 人工序列
<400> 209
gggcaatgtt gtcaccaccc ccaccccaaa tgccgcaggt gtggaagcac caccagcatt 60
tggtttgtat ttttacagag ctcttagtcc tttcccaccc cctcaagatt gcatcttatc 120
<210> 210
<211> 120
<212> DNA
<213> 人工序列
<400> 210
ctcctagatt cagccattcc accaatgcca cacacaagac tacccacaaa aacaatctcc 60
aaggagcagg gctgtcaatg agaaactgac aactgctggc tgcccccaga cctggacttc 120
<210> 211
<211> 120
<212> DNA
<213> 人工序列
<400> 211
aactgctggc tgcccccaga cctggacttc ccatcccaat ctccccgcac ccacgctggg 60
tcagtaacca ccatgggaga gttaaatgtt ttctcttccc ttcctccctt tagctctttt 120
<210> 212
<211> 120
<212> DNA
<213> 人工序列
<400> 212
ttctcttccc ttcctccctt tagctctttt ggcgctttcc ttgtgcatag ccaactaggc 60
tccttgagaa gacagatcct ttaaaagagc tttccattga agaagaaaac aggaaccaaa 120
<210> 213
<211> 120
<212> DNA
<213> 人工序列
<400> 213
cgaggttaag agccagagag caagccaata caaaagaccc catccttttc ctccctcctc 60
ccctgggctg gcaccagaaa gccccatttt ctcgctcaca cataagagca caaacaccag 120
<210> 214
<211> 120
<212> DNA
<213> 人工序列
<400> 214
cataagagca caaacaccag ccctgcgcgc cggggcaagc ctaggcagac ttcgctaccc 60
caccccgacc actccgtacc tgtcttccag ggactgcccg cccctgggcg atccacctcg 120
<210> 215
<211> 120
<212> DNA
<213> 人工序列
<400> 215
cccctgggcg atccacctcg aagccccccg caaggcgcga cggaggcttt gtggtatgac 60
cgtggcggcc cttaatttag ttacattcaa ataaaacttt tggtgcacct cggtagctaa 120
<210> 216
<211> 120
<212> DNA
<213> 人工序列
<400> 216
tggtgcacct cggtagctaa cattgtgtgt atgccttttt tttttttttt ttttttttcc 60
tgttacgccg tcaatgcagc aggcaatgag gggaatgaca cagccctctc attcccggaa 120
<210> 217
<211> 120
<212> DNA
<213> 人工序列
<400> 217
cagccctctc attcccggaa cgtagtcaat ctcggctctg cggatttcac agaacacact 60
ttgcctattg ccggctccaa caagaagtaa ctttccagga agctgccggc cccggcagcc 120
<210> 218
<211> 120
<212> DNA
<213> 人工序列
<400> 218
agctgccggc cccggcagcc gccaggatcg ctgcctgcgc tgcgctggcc gccggggatt 60
cacccaggga ggcggggccg ctggggaagg ctcgcgggga atacagcaca ctttccccta 120
<210> 219
<211> 120
<212> DNA
<213> 人工序列
<400> 219
atacagcaca ctttccccta aatccctcgt ccgcgccgag tgcagggctc tcagagttca 60
cctagtccca cctctcaccc acaacagttt ataaatgggg aaggtcagac aagttagtag 120
<210> 220
<211> 120
<212> DNA
<213> 人工序列
<400> 220
tacaatccga ggctcatatc gagactttaa gttgtccgat tccgaagttt atttgctttt 60
ttccctcttt ttgccttcca ttctccctca cccccgttct tttaggggaa tgtttgagcg 120
<210> 221
<211> 120
<212> DNA
<213> 人工序列
<400> 221
gcgagacttc aaggtcaaaa gatggagtcc ctaggggctg agggtctcca tcataggcgc 60
cccaggcaag gttggagaaa aactaaacag aaagcccctt ccgcctacgt tggcaagaac 120
<210> 222
<211> 120
<212> DNA
<213> 人工序列
<400> 222
aacgggaacc cagctccact tggtttccgc ccaaagtctt tagaacagga gctgccaagc 60
cgtaaggatt tccgaatccg atttccccga aaccgtagag acacagcttg gactcggcaa 120
<210> 223
<211> 120
<212> DNA
<213> 人工序列
<400> 223
caaaggccgg ggccccgacc cctgcgcgcg cactggcact ctccaaagtt gcctcgcctt 60
cctgtggccc tcccgggaat tataaccccc gggtgccatg tcctaattgg tctcggtagc 120
<210> 224
<211> 120
<212> DNA
<213> 人工序列
<400> 224
agcaggctcc ggggtgcgct ttcgggggct aggggacagc gaaagactca gccacaaagg 60
ccgcagtctg gtcctaaaac tagccagtgg cgtcacactg cgccgctcat cccttctgcg 120
<210> 225
<211> 120
<212> DNA
<213> 人工序列
<400> 225
gcggcaagcg gaagggtcag agtcggtctg caaagaacga gcctttggcc tcaaaatcct 60
acattgaggc tttctcaccc cttcgcccgg tgggataaag gtgaaagaga cggttgggat 120
<210> 226
<211> 120
<212> DNA
<213> 人工序列
<400> 226
gatttaataa ggggtaggga tgagaatctg ggaagttaaa atgaagtaag tgcatttatt 60
ggaaattagg agtcccgtgg ttccgggagc tcaaaccgaa tggtgttttt accgctgcct 120
<210> 227
<211> 120
<212> DNA
<213> 人工序列
<400> 227
cctaacgcta gagagagccc tccatcaagg tttgaaaccg tcaacccctt tctcgcccct 60
cccctccttc ccattgacct agtttggcca gagcctcccg atttggagaa tgccttccgc 120
<210> 228
<211> 120
<212> DNA
<213> 人工序列
<400> 228
cgcccttccc ccctcctctc cagccagaga ggctacagag gctgttggat tattggtaat 60
ctaataactc caataacccg ctgaaaaatc caaagggaaa tctgaaagtg taaagcactg 120
<210> 229
<211> 120
<212> DNA
<213> 人工序列
<400> 229
ctgtttaggg acaaggacaa ggaattttaa taaggctgca actgccgtag tgaaccccgc 60
atcaggggcc ctgccgtggg gctcccggtc tcagcagtgt ttcagccaac tagctgcacg 120
<210> 230
<211> 120
<212> DNA
<213> 人工序列
<400> 230
acggctgcag acaccaccgt ggtccggcgg cagggggtga ggtcaaatcg cggagctgtt 60
tttattcttg ggggaaaaca ctcttcgccc tcttggctgg ggaacgggag ggtgcaggag 120
<210> 231
<211> 120
<212> DNA
<213> 人工序列
<400> 231
gagacgacag taaataaaag cgaatttgat aacgcgatgg cctcgacagc cgctttggat 60
aaccgaggtg ttcggggaca ttgtgtcctg actttcattt ctatcacgtt tcctgccaac 120
<210> 232
<211> 120
<212> DNA
<213> 人工序列
<400> 232
aacagtgctc ttgcaagcct gcaagcttct aggaaatgca ataaaacaga gggatgtgtt 60
ttatcatcaa gatctgaaga ggagttgcag aagggacgtt ccccatacgc tcagcgcgag 120
<210> 233
<211> 120
<212> DNA
<213> 人工序列
<400> 233
gagacagcct tccagaaggg cccgaagaca atgccagcaa atcgcgtccc ggagcagaga 60
tccctcggcc gtcctggctg gactgggctc agcctttgca aaaaggctgg cgggggaggg 120
<210> 234
<211> 120
<212> DNA
<213> 人工序列
<400> 234
ggggagaagc atgatctcct caagcaaaca atgcctttaa aaatccgatc tggaaagaag 60
tcagccaagg tccttattca cgttaatgaa gatggaaggc actaactgtc cttggaaagc 120
<210> 235
<211> 120
<212> DNA
<213> 人工序列
<400> 235
agcgatgagt caaacttgac cgcgcttcaa actcgttccc agattcgttt ccagtccgaa 60
cagaggcgcg tttctccgac gcggcctccg acggctcccg cagtgggagg ggccgaactc 120
<210> 236
<211> 120
<212> DNA
<213> 人工序列
<400> 236
ctcgatcccc gccgacccgg gcgggggcga cggcgctgtc tccccctgca gagcgcgcct 60
gctgccgcta ggggccgcca gcatgcggac gcgcgtttgc catcttaagt cacgagctcg 120
<210> 237
<211> 120
<212> DNA
<213> 人工序列
<400> 237
tcggagaaag aaaactttac ggaggaactg ttgtggcaca aattctggcc tatccacatg 60
acccccaccc cctcacacac acacacccgg tttctcgcca ggctactatg cagaggatgt 120
<210> 238
<211> 120
<212> DNA
<213> 人工序列
<400> 238
tgttaggaag gggaagagag cgatttcaga atcgaggctc gccctgcaag tctttggtcc 60
aggccttaac ccccctctta acacgcaaac ccccgagctc cgagacccac acccttcagc 120
<210> 239
<211> 120
<212> DNA
<213> 人工序列
<400> 239
agcaccatct gggcttttcg tgtcattacc gaaaatctta ggccatattt tctttaaaaa 60
aaatcctcca agactgctgg ggagcggttt ccaatgaaca ctggcaacaa aggtgaccta 120
<210> 240
<211> 111
<212> DNA
<213> 人工序列
<400> 240
ctaagaggtt aaactcatgg ttctggcagc cgctcctttc tcataaatac ttctaaggag 60
ctgagataaa cccgcctttg gctttcagtc actgacatga aattcagaag c 111
<210> 241
<211> 120
<212> DNA
<213> 人工序列
<400> 241
actgcaaaac agagttgtac gtcccaaagc ccctgagctc ctaggtggca tccttccact 60
accgacttcc cctaagaggg gccacaggga caggaagatg gtgtgttcga agcgggttat 120
<210> 242
<211> 120
<212> DNA
<213> 人工序列
<400> 242
gttatttgtg gtttttctta gtgcaaatag atgctcatcg ctgagtgatg ggcaagcagc 60
gaggcctttc tgattttcat ccctcttgcc aaaactttgg aggttgtatg ccatccccat 120
<210> 243
<211> 120
<212> DNA
<213> 人工序列
<400> 243
cccattggag ggtgccctcc ttctgtcagt cctagcatct ggtcagggta ccgccgcccg 60
ggaggtggaa cggcgagccc accgcccatg gccgcgaact cgatctcagc ccaccgctag 120
<210> 244
<211> 120
<212> DNA
<213> 人工序列
<400> 244
gctaggtggc aggccagccc gtccgagaat cgccgcgcgg ccgcagcttc cacaccgatc 60
cctacccgcc cctctttatt ttctgtctgg tgggggcgag ggttgggggt gtgattgcct 120
<210> 245
<211> 120
<212> DNA
<213> 人工序列
<400> 245
tgcctctaaa agcaaagcta gaaaacattt aatttagtgt atgtaattcc gttcctcccg 60
atgctcccgc ctctagcaac cacaacgcgg tatctggagc tggtttcatg tatcataagt 120
<210> 246
<211> 120
<212> DNA
<213> 人工序列
<400> 246
taagttgatt tctcccccag cctccgaaaa gctttatgta ctgggaaggg aaagaaggtg 60
cacttgtctt caaaaggcag aatggcactc gacagtattg gcagagattc ttgccaaaca 120
<210> 247
<211> 120
<212> DNA
<213> 人工序列
<400> 247
aaacactggt catccagcaa agaaagtcgg gaataaactc ctgatcttct cggaggaaag 60
gggcgctggg ggccgagtgc tggatcccac tcaggctcac tgcgcctggc aaagcggggg 120
<210> 248
<211> 120
<212> DNA
<213> 人工序列
<400> 248
gggggagtgg ggagtcgggt atggtctttt ggtgaagttg tgggtctcgg agtggacatc 60
gggagggttg ggaggggccg ttcctggttt ccactggggc aaagagaaac cagccagttc 120
<210> 249
<211> 120
<212> DNA
<213> 人工序列
<400> 249
agttctgcca ccacgctgca ccctcgctgt gctcgcggcg gcagcggcgg tcccacttgt 60
tgcgcagtgc tggaaaccgg cacgcgccat tcgatgttga ttcacagagg gctacagacc 120
<210> 250
<211> 120
<212> DNA
<213> 人工序列
<400> 250
agaccagcct accattgctc cacgccatcc acaaacctcc tcaacacacc ccctacacat 60
acgtcctgcc accgccggca aaactacagc atttccagcc actatggtgt tttacaccaa 120
<210> 251
<211> 120
<212> DNA
<213> 人工序列
<400> 251
accaaaacat ccctcactat ctcggtatca gacaggcagc agaattaaga tgccctgaga 60
agtcaatcca aggggaaggc cgggctacct ccgcctggag aactcttcta cttaaaatca 120
<210> 252
<211> 120
<212> DNA
<213> 人工序列
<400> 252
aatcaaccag gcaccctccc cccaccaaaa aaaaaaacct tagaaccacg ttgcctatta 60
taacaccatc ctagttggaa agcaacattt ttcttcccta cttgataaac ttcaaagtcc 120
<210> 253
<211> 120
<212> DNA
<213> 人工序列
<400> 253
agtccttttt atccgttagt tttatctccc ctattttttt taaatctctg ggggaaaaat 60
gtttcataag ttcacttccc aatatttttc aaaaattgac ttttgccaat agtttcaccc 120
<210> 254
<211> 120
<212> DNA
<213> 人工序列
<400> 254
cacccaccga ggggtggcgc tgctgcaccg cctcctctat atctcttaag tttttcacaa 60
caaagtgggt tgtgagtgtc attaccctgt aggggataga gggaaggaag ggttttgaca 120
<210> 255
<211> 120
<212> DNA
<213> 人工序列
<400> 255
tgacatctag ccgtggctac catttactca accaataact ggaactcttc aagggctcag 60
caaacgacaa cttaagcatt tagagtccca tccctatcca ccaaacccag aataagttag 120
<210> 256
<211> 120
<212> DNA
<213> 人工序列
<400> 256
gttagtcttt tcaagaaagc attggtataa aacccttcaa aactgaaaag aagaaagggg 60
caattggaga attcccactt tttctggctg tctccttcaa gtcgcccagt ttttatgaac 120
<210> 257
<211> 120
<212> DNA
<213> 人工序列
<400> 257
tgaacagcat ctagccttac tgtcactatc aacaaccctt aaaactagcc aatgcttcgg 60
cctctagtat tggaaagtct tccaaatagg atactggaaa cttctattta taagcttggg 120
<210> 258
<211> 120
<212> DNA
<213> 人工序列
<400> 258
ttggggtggc gggcggggcg gggaggtgga gagagagttg ccatctacag gtttctattt 60
tggcctgaag actcaactgc agtcattaga gtaagggaat gcccatctcc tggtacttgt 120
<210> 259
<211> 120
<212> DNA
<213> 人工序列
<400> 259
cttgttcgcc atttcctcct cccccagaga caaatatctt ttcgtctttt ttaaaaaagt 60
atatatttta aagcaagaat gtgatttcat ctctcttctt tgagctcatg tttgctacct 120
<210> 260
<211> 120
<212> DNA
<213> 人工序列
<400> 260
tacctccagg aatagcgtgt ggactagggc cagatgaact tcaacttggg ctgcagattt 60
acgaggttct gttctagtgc caaaggctct tggtagtaaa tagtgagcaa aatagatacc 120
<210> 261
<211> 120
<212> DNA
<213> 人工序列
<400> 261
atacctgtct cctgatggat cttgccgccc cctctttttt tttttaagtt atttattaaa 60
accacacaca ccttgcaaag aaaaagggaa actggcagtc tctgtagagg aagccggtgg 120
<210> 262
<211> 120
<212> DNA
<213> 人工序列
<400> 262
ggtggcatcg ctcagagcca caaactgtat ttctaaacag ccctttccct ggttccctct 60
ctcctgcccc acttttttta aaatccagac tgtaaaaaac acatctactg acactcactt 120
<210> 263
<211> 120
<212> DNA
<213> 人工序列
<400> 263
cactttactt taaaaaaaga agagaaaaag taaagcgtta caagactttc ctcctggaaa 60
ctataaactg aaaaaaaaat ccataaaaga ttaaatcctg gcgggttgtg gggtggcggg 120
<210> 264
<211> 120
<212> DNA
<213> 人工序列
<400> 264
ggcgcggagt ggagattggc tctctgaggt ggtcaggggc cctgtgacag cttgggactt 60
tcagcacctg gtttggggtc atttatctgc tcaactgtca ggacccccca cccccaaacc 120
<210> 265
<211> 120
<212> DNA
<213> 人工序列
<400> 265
accccagcca ccaacacaac catcgtagaa gggaacacaa cacagagggt cttttttcat 60
ttttttaaaa aatcggtttg gttgtgtttt tgttttccat gggggagctt taaaactcat 120
<210> 266
<211> 120
<212> DNA
<213> 人工序列
<400> 266
cattattgca acactagttc catttttcgc cagggttcca ataacacggc atcataaagg 60
caacgcaacc cacagttctc aagacattta ccacggtcac tacatccggc agcggggtgg 120
<210> 267
<211> 120
<212> DNA
<213> 人工序列
<400> 267
tggcccctag ctcctgctgc ccccccgccc tttctccccg cccgcccccg gagctcagcc 60
gatttctgag gctccaactc tacccactcc ctccccgggc cgccgccgcc gcgccttccc 120
<210> 268
<211> 120
<212> DNA
<213> 人工序列
<400> 268
cccccattct tactccctcg aggagagcca caggttgcaa atccaaccaa cctcgcaatc 60
tatttttgca aaatcactca caaagatctc cctttcgcgc ccgcgcccgc tcctcccgcg 120
<210> 269
<211> 120
<212> DNA
<213> 人工序列
<400> 269
gcgccgggtc ccctcagcca cggccacaaa gtgcccttct ctcctcctga gtcttgcaca 60
taaggaacgc gggctggggc tctgttcgtc tttctcctcg cccaaggtaa ggacctcggg 120
<210> 270
<211> 120
<212> DNA
<213> 人工序列
<400> 270
gggaatctga agcctggcgt ccactacgct caggcccgca gttccctttt tacagagctt 60
gcaccatggg aaaaaataaa ataaaattta ggaaagggag gcaacagcca ttgggagcca 120
<210> 271
<211> 120
<212> DNA
<213> 人工序列
<400> 271
ccaacacaga gtcacgcagc gcccaaaata caaacaccgc agcggccaga aatcccgcca 60
cctttctcgt tctcccaggc tgtcctgtcg aggttccctg agtccccccg cacactgaaa 120
<210> 272
<211> 120
<212> DNA
<213> 人工序列
<400> 272
aaaggcatcg caggtgcagt gcgcacccct ttcccaccca ccccaagaag ccctgtcccg 60
ccatcagtct ctctcctcgg gatgagcagg gagagcgcgc ggaggttccc gactccctcg 120
<210> 273
<211> 120
<212> DNA
<213> 人工序列
<400> 273
tcgactacaa ccaagaaaga ataattttca aagtgttcaa catccccgcc cccaagctcc 60
ccaaaacaca ggggcaggga acaccaaaac actcggctct cattaggaag atcacggctc 120
<210> 274
<211> 120
<212> DNA
<213> 人工序列
<400> 274
ctctgaaagg aaatagtaga cacgatactt catctcatct ggatttatga ccaaaaaaac 60
aaaaacaaaa acccaaagag ttcgcttgca ttttttcctt ccaaatctcg gttcggctcg 120
<210> 275
<211> 118
<212> DNA
<213> 人工序列
<400> 275
tcgaaggcag ggaatctaaa agaccgaggc cgatggaaga gagccagcgg ggcgagcgag 60
cgggcagcct ccctttttgc ctcccggagt tacccagaag gacaggggaa gggaagga 118
<210> 276
<211> 120
<212> DNA
<213> 人工序列
<400> 276
aggagggagg gaagcggagg ccaggagcga cggagcaagg aaagcagttt gcaagcgaga 60
aaagagggaa aaaacacagc cgcacgaatc cagagagatc acaagccgta cgcaagcagc 120
<210> 277
<211> 120
<212> DNA
<213> 人工序列
<400> 277
agcagcagca gaaagagcga gagcgcgagc gcgcgtcctc tccgcggtct ggggccagac 60
agcccccaga ctagcccgaa tcacccccca agcactgtct cgtcctctct gctccggccg 120
<210> 278
<211> 120
<212> DNA
<213> 人工序列
<400> 278
cttcctctcc tccacctcct ttccaaaaac caaaacaaca caagggaggg tggcaaaagc 60
ctccccaaac cggccgattc actcaaagac aacaataata ataataaata cataacaatc 120
<210> 279
<211> 120
<212> DNA
<213> 人工序列
<400> 279
taataataaa tacataacaa tctatatcct atggtgggag agacgtggga ctaatcttcg 60
gcatttattt taacacctga cagctagaat aaataaatat atacatttat atcaatagat 120
<210> 280
<211> 120
<212> DNA
<213> 人工序列
<400> 280
atatacattt atatcaatag atacacatag aaaacttgga gccaaagcat ttggcaagag 60
cggaaaaaaa aagaattaaa aggtaaaata atgatcatga gcagcggcgg cggcagcggc 120
<210> 281
<211> 120
<212> DNA
<213> 人工序列
<400> 281
cagcggcggc agcaacagca ataatcacct ggtgtccggc ctttcctaga aacttcttgc 60
atcaccactt ctaagaaccc cagttctaag aatcaacaga gctcaattct cggaatttga 120
<210> 282
<211> 120
<212> DNA
<213> 人工序列
<400> 282
gatttttttc gggtagtgga aaaccaggta agcaccgaag tccacttgcc ttttaattta 60
tttttttatc actttaatgc tgagatgagt cgaatgccta aatagggtgt cttttctccc 120
<210> 283
<211> 120
<212> DNA
<213> 人工序列
<400> 283
attcctgcgc tattgacact tttctcagag tagttatggt aactggggct ggggtggggg 60
gtaatccaga actggatcgg ggtaaagtga cttgtcaaga tgggagagga gaaggcagag 120
<210> 284
<211> 120
<212> DNA
<213> 人工序列
<400> 284
ggaaaacggg aatggttttt aagactaccc tttcgagatt tctgccttat gaatatattc 60
acgctgactc ccggccggtc ggacattcct gctttattgt gttaattgct ctctgggttt 120
<210> 285
<211> 120
<212> DNA
<213> 人工序列
<400> 285
tggggggctg ggggttgctt tgcggtgggc agaaagcccc ttgcatcctg agctccttgg 60
agtagggacc gcatatcgcc tgtgtgagcc agatcgctcc gcagccgctg acttgtcccc 120
<210> 286
<211> 120
<212> DNA
<213> 人工序列
<400> 286
gtctccggga gggcatttaa atttcggctc accgcatttc tgacagccgg agacggacac 60
tgcggcgcgt cccgcccgcc tgtccccgcg gcgattccaa cccgccctga tccttttaag 120
<210> 287
<211> 120
<212> DNA
<213> 人工序列
<400> 287
aagttggcat ttggcttttt aaaaagcaat aatacaattt aaaacctggg tctctagagg 60
tgttaggacg tggtgttggg taggcgcagg caggggaaaa gggaggcgag gatgtgtccg 120
<210> 288
<211> 120
<212> DNA
<213> 人工序列
<400> 288
attctcctgg aatcgttgac ttggaaaaac cagggcgaat ctccgcaccc agccctgact 60
cccctgccgc ggccgccctc gggtgtcctc gcgcccgaga tgcggaggaa ctgcgaggag 120
<210> 289
<211> 120
<212> DNA
<213> 人工序列
<400> 289
cggggctctg ggcggttcca gaacagctgc tacccttggt ggggtggctc cgggggaggt 60
atcgcagcgg ggtctctggc gcagttgcat ctccgtattg agtgcgaagg gaggtgcccc 120
<210> 290
<211> 120
<212> DNA
<213> 人工序列
<400> 290
tattattatt tgacaccccc cttgtattta tggaggggtg ttaaagcccg cggctgagct 60
cgccactcca gccggcgaga gaaagaagaa aagctggcaa aaggagtgtt ggacgggggc 120
<210> 291
<211> 120
<212> DNA
<213> 人工序列
<400> 291
ggtactgggg gtggggacgg gggcggtgga gagggaaggt tgggaggggc tgcggtgccg 60
gcgggggtag gagagcggct agggcgcgag tgggaacagc cgcagcggag gggccccggc 120
<210> 292
<211> 120
<212> DNA
<213> 人工序列
<400> 292
gcggagcggg gttcacgcag ccgctagcgc ccaggcgcct ctcgccttct ccttcaggtg 60
gcgcaaaact ttgtgccttg gattttggca aattgttttc ctcaccgcca cctcccgcgg 120
<210> 293
<211> 120
<212> DNA
<213> 人工序列
<400> 293
cttcttaagg gcgccagggc cgatttcgat tcctctgccg ctgcggggcc gactcccggg 60
ctttgcgctc cgggctcccg ggggagcggg ggctcggcgg gcaccaagcc gctggttcac 120
<210> 294
<211> 120
<212> DNA
<213> 人工序列
<400> 294
taagtgcgtc tccgagatag caggggactg tccaaagggg gtgaaagggt gctcccttta 60
ttcccccacc aagaccaccc agccgcttta ggggatagct ctgcaagggg agaggttcgg 120
<210> 295
<211> 120
<212> DNA
<213> 人工序列
<400> 295
gactgtggcg cgcactgcgc gctgcgccag gtttccgcac caagacccct ttaactcaag 60
actgcctccc gctttgtgtg ccccgctcca gcagcctccc gcgacgatgc ccctcaacgt 120
<210> 296
<211> 120
<212> DNA
<213> 人工序列
<400> 296
tcccaccgtc cctgctcacc tgtggctgct ctgccctggt gctctgagct ccaggagatg 60
ccccctgctc ctcctgcccc ccacctgccc ctgctcacct gcagcggctc tgccctggtc 120
<210> 297
<211> 120
<212> DNA
<213> 人工序列
<400> 297
ccctgagctc caagagctgc cccctgctcc tcctgtcccc tgaccctgct cctgtttgcc 60
tatggctgct ctgcccttgt cccctgagct ccaggagctg cccctgctca ttctgccgcc 120
<210> 298
<211> 120
<212> DNA
<213> 人工序列
<400> 298
cacctgcccc tgttcacctg tggctgctct tccctggtcc tctgagctcc atgagctgcc 60
ccttgctcct cctgctttcc accagcccct gctcacctac cgatgatctt ccccggctct 120
<210> 299
<211> 120
<212> DNA
<213> 人工序列
<400> 299
ctgagctcca ggggctgccc acctgctacc cctgcttccc accagccctg cttacctgca 60
gctgctctgc cctggctggc agagctgcag aagctgcccc ctgctctgca acctcccacc 120
<210> 300
<211> 120
<212> DNA
<213> 人工序列
<400> 300
ggcccttctc atcttctgat gttctcccct gttccctgag ctccaggagc tgccccctac 60
tcgttctacc tcccaccaac ccgtgctcac ctgcgactgc tctgccctgg tcccctgagc 120
<210> 301
<211> 120
<212> DNA
<213> 人工序列
<400> 301
tccaggggct gccccctgct cgcccacctc ccaccagcca tgctcacctt ctgatgctct 60
gccctgatcc cctgagctcc aggactgccc cctgctcgtc ctgcccctca cctgcccctg 120
<210> 302
<211> 120
<212> DNA
<213> 人工序列
<400> 302
ctcacctgag gctgctctgc cctggtcccc tgagctaaag gggctgcccc ttactcatcc 60
tgcctcccac cagcccctgc tcaccttctg atgccctccc ctggtcccct gagctccagg 120
<210> 303
<211> 120
<212> DNA
<213> 人工序列
<400> 303
ggctgccccc tgctcgtcct gcctcccacc agcccctgct cacctgcagc tacactgccc 60
tggttccctg agctccagga gctgccacct gcttgtcctg ccttccacca gcccctgctc 120
<210> 304
<211> 120
<212> DNA
<213> 人工序列
<400> 304
acctgcagct acactgccct ggttccctga gctccgggag ctgccgcctg cttgtcctgc 60
ctcccaccag cccctgctca cctgtggcta cactgccctg gtgccctgag ctccaggagc 120
<210> 305
<211> 120
<212> DNA
<213> 人工序列
<400> 305
tgccccctgc ttgcccatct tccactgagc cctgctcacc tgcaactgct ctgccctggc 60
tctatgagct ccaggggctg ccccctgctg gtcctgcctc ccacctgccc tgcgcacctg 120
<210> 306
<211> 120
<212> DNA
<213> 人工序列
<400> 306
tggctgcctc ctcacctgtg gctgctctgc cctggtcccc tgagctccag ggtcttcctc 60
ctgctcatcc tgcccctcca ccggctcctg ttcaccttca gatgctctcc cgtggtcccc 120
<210> 307
<211> 120
<212> DNA
<213> 人工序列
<400> 307
tgagctccag gagctgcccc ctgttcttcc tgcctcccac ctgccctgtg cacctgtggc 60
tgcttggtcc tggtcccctg aactccaatg cctgccccct gctcactctg ccctccctca 120
<210> 308
<211> 120
<212> DNA
<213> 人工序列
<400> 308
acctggggca gcaacgtcac tcggtccact gttgcccccc tgcctgtcct ggcaccctct 60
gtccaggttt aggctgtttt tcttgcctca tttttgtttt tgcagcactt ggcgtgttcc 120
<210> 309
<211> 120
<212> DNA
<213> 人工序列
<400> 309
ctatgctgtg gagcagcccc agtgtccagt caggtctccc caacagagcc ccttgccctt 60
gcccatgtgc ccctcctgga tgagctcccg gatcctcccg tccctgcact gctcctgctc 120
<210> 310
<211> 120
<212> DNA
<213> 人工序列
<400> 310
tggaagcctc tccagaacct cagctcctca gtggcctctg ctctgctggg tcagttccct 60
gaacgcacgg agcctcagcc cctcccctcg ccccaggcct gctgcactct gggcctttct 120
<210> 311
<211> 119
<212> DNA
<213> 人工序列
<400> 311
gggcctccct ggactcttcc ctcctcccgc ccgtgcactc agcacagctc tcccctcctc 60
tccgctgctg accacagccc tgctcccggc cagcaggtgc cccaacccca tcagctggc 119
<210> 312
<211> 120
<212> DNA
<213> 人工序列
<400> 312
tgtccctgcc tctgcctctg ggctccttgg cttccaccct cctgtcctgc tgccacactc 60
accctccctg ctctgctccc agctcacctg ctgtccttgg tcctggctga gaggagggcc 120
<210> 313
<211> 120
<212> DNA
<213> 人工序列
<400> 313
ctacggccag ctctgctgac cctgccctgg gctccggtga tgctgccggc ctggacaagc 60
ccctcggttc acctggggcc tctcctcctc cctctctctg ctgcctcctg agctcaggtc 120
<210> 314
<211> 120
<212> DNA
<213> 人工序列
<400> 314
ggtcatgccc atcctggcat caccccatgg ctggctctgc cccatcccgt catgttcctc 60
acactcccag cccggtcgtc ctggaggcct cagtcagcct ctggtgtgtc ctgccctgtt 120
<210> 315
<211> 120
<212> DNA
<213> 人工序列
<400> 315
ggcttggaag cccctgccca cggtccctgt cgtctcgcac tgggtgggca tcggtgcctg 60
aaggctgccc acctcccctg tgctggctcc gcttaggctt ccatgtgggg ctggcctcgc 120
<210> 316
<211> 120
<212> DNA
<213> 人工序列
<400> 316
cccagcctct ccccagcctc ttgcagcctg ttcagcagct caggtccaga agcgccgatg 60
gctgcgccca ggctctgtcc ttctcctgag cctgtgctcc tgccctgtgc tgaccccact 120
<210> 317
<211> 120
<212> DNA
<213> 人工序列
<400> 317
caccgaggtg ggggtctcag cccttcctgt tgtggcgagg tacatgtggg cagccttgcc 60
cacgctgtca gctgccactt gtcttcctag gaaatcacag ctcggccccc aggtccccag 120
<210> 318
<211> 120
<212> DNA
<213> 人工序列
<400> 318
gggtgtgaac tccacgctgc aaacactaag aacaggattg aaaccggcgg caccacttac 60
ttcctgaagt tcccttttct tctggtggtt tctgtgtcag agggcgaggg ggagtccaga 120
<210> 319
<211> 120
<212> DNA
<213> 人工序列
<400> 319
cagctcagcc cagttcagcc ttgtttagtc taggtcagct taggtcagtt ttgcccatct 60
gagtccattt ctgaaagctg gatggagttg tcatggccag aaatggtcag cccaccagac 120
<210> 320
<211> 120
<212> DNA
<213> 人工序列
<400> 320
ctgcttgtct cagctaaagc catctcattg ccaggttcct gcacagccag gctggcttcc 60
atcttttgtc tccctctact tgatacccca gttccctgca gtcctgcccc agcgccacct 120
<210> 321
<211> 120
<212> DNA
<213> 人工序列
<400> 321
gggttttggt tccaaagcat taccaatcat taccaccctc cactacctgg gtggaatatt 60
tctttgctgc tttaaagtca ttaaaacatc ttgagaatga gaccaagaat ttaggagcct 120
<210> 322
<211> 120
<212> DNA
<213> 人工序列
<400> 322
gtgctgtgat aaaaatgagc aggtcccctt gctctagaag tggcagcata tcttctgcac 60
caagaggagg gtattgagat gctcagagcc tccaccttcc cggagcatcc cctcccttct 120
<210> 323
<211> 120
<212> DNA
<213> 人工序列
<400> 323
gagtctgcag taaacccctg cctttaaatt ccctctagat aacagtcatc attggaaaca 60
accaagaaat gcattttatc tgaatttgcc acttaaaatt ctgccattta ccataaatcg 120
<210> 324
<211> 120
<212> DNA
<213> 人工序列
<400> 324
ctttggaagg catgggctac tttcaagggt gcgatgatga cctacagtca atgacttaga 60
caagggcgat gccagtgggg cttggtatgt tctcaagcat cattacccat gccatcccca 120
<210> 325
<211> 120
<212> DNA
<213> 人工序列
<400> 325
ttcagaggtt gtggagcagc tcgtgcgacc tctccttcaa atgggcttta gggaaagtta 60
aatgggagtg acccagacaa tggtcactca aaagactcac ataaatgagt ctcctgctct 120
<210> 326
<211> 120
<212> DNA
<213> 人工序列
<400> 326
tcatcaagca attaagacca gttccccttc tagtggaaat aagacgtcaa atacaaagtt 60
ttaagagaag caaatgcagc agcggcggct gcctgtctct taccatgtcg ggcgcctggt 120
<210> 327
<211> 120
<212> DNA
<213> 人工序列
<400> 327
cactgcgagc cttgcaaagc tttggcatgg aatcattcct ccaagtccat taacaagggc 60
tggggcctga gcagccagtc ggcccggcag cagaagccac gcatcccagc tctgggtagt 120
<210> 328
<211> 120
<212> DNA
<213> 人工序列
<400> 328
ccggggagac ccaaagccca ggccgggcct ggcagccacc ctcccagagc ctccgctagg 60
ccagtcctgc tgacgccgca tcggtgattc ggaacagaat ctgtccttct aaggtgtctc 120
<210> 329
<211> 120
<212> DNA
<213> 人工序列
<400> 329
cacagtcctg tcttcagcac tatctgattg agttttctct tatgccacca actaacatgc 60
ttaactgaaa taattcagga taatgatgca cattttacct aaaacttatc ctaaagtgag 120
<210> 330
<211> 120
<212> DNA
<213> 人工序列
<400> 330
tagttgaaaa gtggtcttga aaaatactaa aatgaaggcc actctatcag aatatcaaag 60
tgtttctcct taatcacaaa gagaaaacga gttaacctaa aaagattgtg aacacagtca 120
<210> 331
<211> 120
<212> DNA
<213> 人工序列
<400> 331
ttatgaaaat aatgctctga ggtatcgaaa aagtatttga gattagttat cacatgaagg 60
gataacaagc taatttaaaa aactttttga atacagtcat aaactctccc taagactgtt 120
<210> 332
<211> 120
<212> DNA
<213> 人工序列
<400> 332
ctgtgcagcg atcttgcagt cctacagaca ccgctcctga gacacattcc tcagccatca 60
ctaagacccc tggtttgttc aggcatctcg tccaaatgtg gctccccaag cccccaggct 120
<210> 333
<211> 120
<212> DNA
<213> 人工序列
<400> 333
cagttactcc atcagacgca cccaacctga gtcccatttt ccaaaggcat cggaaaatcc 60
acagaggctc ccagatcctc aaggcacccc agtgcccgtc ccctcctggc cagtccgccc 120
<210> 334
<211> 120
<212> DNA
<213> 人工序列
<400> 334
aggtcccctc ggaacatgcc ccgaggacca acctgcaatg ctcaggaaac cccacaggca 60
gtagcagaaa acaaaggccc tagagtggcc attcttacct gaggagacgg tgaccgtggt 120
<210> 335
<211> 120
<212> DNA
<213> 人工序列
<400> 335
ccctttgccc cagacgtcca tgtagtagta gtagtagtaa tcacaatggc agaatgtcca 60
tcctcacccc acaaaaaccc agccacccag agaccttctg tctccgggcg tcacatggaa 120
<210> 336
<211> 120
<212> DNA
<213> 人工序列
<400> 336
gctgactgtc cgtggccctg tcctgccctt ctcatggaac cctctgctgg cctcccacgt 60
accccacatt ctggcctgac ccctcagaag ccagaccact gtcggcctgg gaagtccaac 120
<210> 337
<211> 120
<212> DNA
<213> 人工序列
<400> 337
tgcaagcaga cggctgctaa gtcaccccca ggagtccaaa aaccccgggg ggcacccgtc 60
ccagagagcg ggtgccttgg agcgggacag agtcccacca cgcaatcatc acgacagccc 120
<210> 338
<211> 120
<212> DNA
<213> 人工序列
<400> 338
ctgagaatgc tccaggtgaa gcggagagag gtcaccccag accagccgaa ggagcccccc 60
agctgccgac atctgtggcc ggacttgggg aggacaggct gggttcccat tcgaagggtc 120
<210> 339
<211> 120
<212> DNA
<213> 人工序列
<400> 339
cctctccccg gctttctttc ctgacctcca aaatgcctcc aagactctga ccctgagacc 60
ctggcaagct gagtctccct aagtggactc agagaggggg tggtgaggac tcacctgagg 120
<210> 340
<211> 120
<212> DNA
<213> 人工序列
<400> 340
agacggtgac cagggttccc tggccccagg ggtcgaacca gttgtcacat tgtgacaaca 60
atgccaggac cccaggcaag aactggcgcc ccgctacgtc cctgggaccc tctcagactg 120
<210> 341
<211> 120
<212> DNA
<213> 人工序列
<400> 341
agcccgggga gggcccgggg gttgttgggc attggacccc agaggcctag ggtggccctg 60
gccacagaga gacccgtgct gctgggctca ggaggaagga gcatctggag cccttgcccc 120
<210> 342
<211> 120
<212> DNA
<213> 人工序列
<400> 342
tcgtctgtgt ggccgctgtt gcctcagggc atcctcctga gccccccagg atgctccggg 60
gctctcttgg caggagaccc agcaccctta tttcccccca gaaatgcagc aaaacccttc 120
<210> 343
<211> 120
<212> DNA
<213> 人工序列
<400> 343
agagttaaag caggagagag gttgtgagga ctcacctgag gagacggtga ccagggttcc 60
ctggccccag tagtcaaagt agtcacattg tgggaggccc cattaagggg tgcacaaaaa 120
<210> 344
<211> 120
<212> DNA
<213> 人工序列
<400> 344
gcccagagaa aggaggcaga aggaaagcca tcttacctga agagacggtg accattgtcc 60
cttggcccca gatatcaaaa gcatcacaca gggacacagt ccctgttcct gcccagacac 120
<210> 345
<211> 120
<212> DNA
<213> 人工序列
<400> 345
gagaagactg ggagggggct gcagtgggac tcacctgagg agacagtgac cagggtgcca 60
cggccccaga gatcgaagta ccagtagcac agcctctgcc ctcctgcttc tcccatacaa 120
<210> 346
<211> 120
<212> DNA
<213> 人工序列
<400> 346
ctggctcccc gctatcccca gacagcagac tcacctgagg agacggtgac cagggtgccc 60
tggccccagt gctggaagta ttcagccacg gtgagtcagc cctgagccag gggctacaga 120
<210> 347
<211> 120
<212> DNA
<213> 人工序列
<400> 347
ctcaggatgt gggttttcac actgtgtctc tcgcacagta atacacagcc atgtcctcag 60
atctcaggct gctcagctcc atgtaggctg tgctcgcgga tgtgtccctg gtaatggtga 120
<210> 348
<211> 120
<212> DNA
<213> 人工序列
<400> 348
ctctgccctg gaactcctgt gaatattttg tgttaccatt gccagcgttg ctccatccca 60
tccactcaag cctttgtccg ggggcctggc gcacccaatg catagcatag ctagtgaagg 120
<210> 349
<211> 120
<212> DNA
<213> 人工序列
<400> 349
tgtatccaga agccttgcag gaaaccttca ctgaggcccc aggcttcttc acctcagccc 60
cagactgcac cagctgaacc tgggagtgga cacctgtaga gaagacacag gagtggatgg 120
<210> 350
<211> 120
<212> DNA
<213> 人工序列
<400> 350
gtgccctggg ctgtgtcttt gtggtctgtg tgcacagtaa tatgtggctg tgtccacagg 60
gtccatgttg gtcattgtaa ggaccacctg gtttttggag gtgtccttgg tgatggtgag 120
<210> 351
<211> 120
<212> DNA
<213> 人工序列
<400> 351
cctgctcttc agagatgggc tgtagcgctt atcatcattc caataaatga gtgcaagcca 60
ctccagggcc tttcctgggg gctgacggat ccagcccaca cccactccac tagtgctgag 120
<210> 352
<211> 120
<212> DNA
<213> 人工序列
<400> 352
tgagaaccca gagaaggtgc aggtcagcgt gagggtctgt gtgggtttca ccagcgtagg 60
accagactcc ttcaaggtga tctgggacaa gacccctgtg gagaaagcat aagaagatga 120
<210> 353
<211> 120
<212> DNA
<213> 人工序列
<400> 353
gctcacactg acttcccctc actgtgtctc tcgcacagta atacacagcc gtgtcctcgg 60
ctctcaggct gttcatttgc agatacagtg agttcttggc gttgtctctg gagatggtga 120
<210> 354
<211> 120
<212> DNA
<213> 人工序列
<400> 354
atcggccctt cacagagtcc acatagtatt tctcacttcc atcttgcttt atgttggcca 60
cccactccag ccccttccct ggagcctggc ggacccagct catccaatag ctactaaagg 120
<210> 355
<211> 120
<212> DNA
<213> 人工序列
<400> 355
tgaatccaga ggctgcacag gagagtctca gggacccccc aggctggacc aagcctcccc 60
cagactccac cagctgcacc tcacactgga cacctgcaaa caaagagaca ccaaggtcag 120
<210> 356
<211> 120
<212> DNA
<213> 人工序列
<400> 356
gctcacaatg acttcccctc actgtgtctt tcgcacagta atatacggcc gtgtcctcgg 60
ctctcaggct gttcatttgc agatacagcg tgttcttgga attgtctctg gagatggtga 120
<210> 357
<211> 120
<212> DNA
<213> 人工序列
<400> 357
accggccctt cacggagtct gcgtagtatg tgctaccacc actaccacta atagctgaga 60
cccactccag ccccttccct ggagcctggc ggacccagct catggcatag ctgctaaagg 120
<210> 358
<211> 120
<212> DNA
<213> 人工序列
<400> 358
tgaatccaga ggctgcacag gagagtctca gggacccccc aggctgtacc aagcctcccc 60
cagactccaa cagctgcacc tcacactgga cacctgcaaa caaaaagaaa ccctggtcag 120
<210> 359
<211> 120
<212> DNA
<213> 人工序列
<400> 359
gcgcacaatg acctcccctc actgtgtctc tcgcacagta atacacagcc gtgtcctcgg 60
ctctcaggct gttcatttgc agatacagcg tgttcttgga attgtctctg gagatggtga 120
<210> 360
<211> 120
<212> DNA
<213> 人工序列
<400> 360
atcggccctt cacggagtct gcatagtatt tattacttcc atcataccat ataactgcca 60
cccactccag ccccttgcct ggagcctggc ggacccagtg catgccatag ctactgaagg 120
<210> 361
<211> 120
<212> DNA
<213> 人工序列
<400> 361
tgaatccaga cgctgcacag gagagtctca gggacctccc aggctggacc acgcctcccc 60
cagactccac cagctgcacc tgacactgga cacctgcaaa cagaaggaca ccgttatcag 120
<210> 362
<211> 120
<212> DNA
<213> 人工序列
<400> 362
ggctcacact cacctcccct cactgtgcct ctcgcacagt aatacacagc cgtgtccgcg 60
gcggtcacag agctcagctt cagggagaac tggttcttgg acgtgtctac tgatatggtg 120
<210> 363
<211> 120
<212> DNA
<213> 人工序列
<400> 363
actcgactct tgagggacgg gttgtagttg gtgcttccac tatgattgat ttccccaatc 60
cactccagcc ccttccctgg gggctggcgg atccagctcc agtagtaacc actgaaggac 120
<210> 364
<211> 120
<212> DNA
<213> 人工序列
<400> 364
ccaccataga cagcgcaggt gagggacagg gtctccgaag gcttcaacag tcctgcgccc 60
cactgctgta gctgcacctg ggacaggacc cctgtgaaca gagaaaccca cagtgagccc 120
<210> 365
<211> 120
<212> DNA
<213> 人工序列
<400> 365
tcacactcac ctcccctcac tgtgtgtctc gcacagtaat acacagccgt gtctgcggcg 60
gtcacagagc tcagcttcag ggagaactgg ttcttggacg tgtctacgga tatggtgact 120
<210> 366
<211> 120
<212> DNA
<213> 人工序列
<400> 366
cgactcttga gggacgggtt gtagtaggtg ctcccactat aatagatact cccaatccac 60
tccagcccct tccctggggg ctggcggatc cagccccagt agtaactact actgctgatg 120
<210> 367
<211> 120
<212> DNA
<213> 人工序列
<400> 367
gagccaccag agacagtgca ggtgagggac agggtctccg aaggcttcac cagtcctggg 60
cccgactcct gcagctgcag ctgggacagg acccctgtga acagaaaaac ccacagtgag 120
<210> 368
<211> 120
<212> DNA
<213> 人工序列
<400> 368
gctcggggct ggtttctctc actgtgtgtc tcgcacagta atacatggcg gtgtccgagg 60
ccttcaggct gctccactgc aggtaggcgg tgctgatgga cttgtcggct gagatggtga 120
<210> 369
<211> 120
<212> DNA
<213> 人工序列
<400> 369
cctggccttg gaaggacggg ctgtatctgg tatcagagtc accaggatag atgatcccca 60
tccactccag gcctttcccg ggcatctggc gcacccagcc gatccagtag ctggtaaagc 120
<210> 370
<211> 120
<212> DNA
<213> 人工序列
<400> 370
tgtatccaga acccttacag gagatcttca gagactcccc gggctttttc acctctgctc 60
cagactgcac cagctgcacc tcggcacaga ctcctgtggg ggagacacaa aatttgaatc 120
<210> 371
<211> 120
<212> DNA
<213> 人工序列
<400> 371
ctcaggatgt gggttttcac actgtgtctc tcgcacagta atacacggcc gtgtcctcag 60
atctcaggct gctcagctcc atgtaggctg tgctcgtgga tttgtccgcg gtaatcgtga 120
<210> 372
<211> 120
<212> DNA
<213> 人工序列
<400> 372
ctctgccctg gaacttctgt gcgtagtttg ctgtaccaaa gatagggatg atccctccca 60
tccactcaag cccttgtcca ggggcctgtc gcacccagct gatagcatag ctgctgaagg 120
<210> 373
<211> 120
<212> DNA
<213> 人工序列
<400> 373
tgcctccaga agccttgcag gagaccttca ccgaggaccc aggcttcttc acctcagccc 60
cagactgcac cagctgcacc tgggactgga cacctgtgga gaggacacag gggtgaataa 120
<210> 374
<211> 120
<212> DNA
<213> 人工序列
<400> 374
gcgccctggg ctgtgtctct gtggtatccg tgcacaataa tacgtggctg tgtccacagg 60
gtccatgttg gtcattgtaa ggaccacctg gtttttggag gtgtccttgg agatggtgag 120
<210> 375
<211> 120
<212> DNA
<213> 人工序列
<400> 375
cctggtcttc agagatgtgc tgtagtattt atcatcatcc caatcaatga gtgcaagcca 60
ctccagggcc ttccctgggg gctgacggat ccagctcaca cacattccac tagtgctgag 120
<210> 376
<211> 120
<212> DNA
<213> 人工序列
<400> 376
tgagaaccca gagaaggtgc aggtcagtgt gagggtctgt gtgggtttca ccagcgcagg 60
accagactcc ctcaaggtga cctgggataa gacccctgtg gagaagacat aagaagatga 120
Claims (6)
1.一种弥漫大B细胞淋巴瘤COO分型系统,其特征在于,包括分型模型创建单元和预测单元;
分型模型创建单元:提取并处理训练集样本基因变异数据的特征,使用机器学习分类方法生成COO分型模型;
预测单元:提取并处理待分型样本的基因变异数据的特征,输入所述COO分型模型,调取分型的结果和/或概率;
所述基因变异数据是利用用于检测BCL2、BCL6、MYC和/或IGH基因融合的成套DNA探针检测到的;所述成套DNA探针包括SEQ ID NO:1-SEQ IDNO:376所示的376条探针;
所述机器学习分类方法为朴素贝叶斯算法、随机森林算法或梯度提升迭代决策树;
所述分型模型创建单元和预测单元之间还包括,验证单元:提取并处理验证集样本基因变异数据的特征,输入所述COO分型模型,进行验证;
分型模型创建单元分别使用朴素贝叶斯算法、随机森林算法或梯度提升迭代决策树3种算法生成分型模型后,预测单元输出的分型结果一致时,采用基于朴素贝叶斯算法的分型结果和/或概率;分型结果不一致时选择2种算法生成的分型模型一致的结果,属于某一亚型的概率为2种算法生成的分型模型输出概率的平均数;
分型模型创建单元使用朴素贝叶斯算法生成分型模型时命名为基于朴素贝叶斯算法的分型模型创建单元,相应的预测单元命名为基于朴素贝叶斯算法的预测单元;
所述基于朴素贝叶斯算法的分型模型创建单元包括,训练集基因变异数据的特征提取单元、训练集基因变异数据的特征处理单元和分型模型创建核心单元;
训练集基因变异数据的特征提取单元:提取训练集样本的基因变异数据的特征;
训练集基因变异数据的特征处理单元:将提取的特征转化为用于朴素贝叶斯算法训练输入的特征矩阵;
分型模型创建核心单元:根据基因变异数据的特征处理单元中的特征矩阵,以及训练集样本的先验概率,训练朴素贝叶斯COO分型模型;
基于朴素贝叶斯算法的预测单元,包括如下3个单元:待分型样本基因变异特征提取和处理单元、预测核心单元;
待测样本基因变异特征提取和处理单元:将待分型样本的基因变异数据的特征提取并转化为用于基于朴素贝叶斯算法的分型模型创建单元中的数据特征;
预测核心单元,将待分型样本的基因变异数据的特征提取和处理单元的数据特征输入所述朴素贝叶斯COO分型模型,计算待分型的样本GCB的分型概率P(GCB)和样本ABC的分型概率P(ABC);
如果P(GCB)大于P(ABC),所述待测样本为GCB型,如果P(ABC)大于P(GCB),所述待测样本为ABC型;
分型模型创建单元使用随机森林算法生成分型模型时,命名为基于随机森林算法的分型模型创建单元,相应的预测单元命名为基于随机森林算法的预测单元;
基于随机森林算法的分型模型创建单元,包括如下3个单元:训练集样本基因变异特征提取单元、训练集样本基因变异特征处理单元和分型模型创建核心单元;
训练集样本基因变异特征提取单元:提取训练集样本的基因变异特征;
训练集样本基因变异特征处理单元:将提取的特征转化为可用于随机森林算法训练输入的特征矩阵;
分型模型创建核心单元:根据基因变异特征处理单元筛选出来的特征矩阵,bootstrip抽取样本和特征并构建分类回归树;
基于随机森林算法的预测单元,包括:待分型样本基因变异特征提取和处理单元和预测核心单元;
基因变异特征提取和处理单元,将待分型样本的基因变异特征提取并转化为可用于随机森林算法训练输入的特征矩阵;
预测核心单元,将基因变异特征提取和处理单元的数据特征,输入基于随机森林算法的分型模型创建单元得到的分类回归树,随机森林COO分型模型得出弥漫大B淋巴瘤分型结果和概率;具体包括:
第1预测核心单元:按照随机森林COO分型模型中的各个CART决策树的特征分别输入各自的CART决策树分别预测COO的分型结果;
第2预测核心单元:根据第1预测核心单元的分型结果,选择分型结果较多的分型作为样本的预测分型,该分型的在所有CART决策树的占比作为该分型的概率;
分型模型创建单元使用梯度提升迭代决策树生成分型模型时,命名为基于梯度提升迭代决策树的分型模型创建单元,相应的预测单元命名为基于梯度提升迭代决策树的预测单元;
基于梯度提升迭代决策树的分型模型创建单元基于梯度提升迭代决策树的分型模型创建单元,包括如下3个单元:训练集基因变异特征提取单元、训练集基因变异处理单元和分型模型创建核心单元;
训练集基因变异特征提取单元:提取训练集样本的基因变异特征;
训练集基因变异处理单元:将提取的特征转化为用于梯度提升迭代决策树训练输入的特征矩阵;
分型模型创建核心单元:根据训练集基因变异处理单元筛选出来的特征矩阵,构建梯度提升迭代决策树COO分型模型;
基于梯度提升迭代决策树的预测单元,具体包括:待分型样本基因变异特征提取和处理单元、预测核心单元;
基因变异特征提取和处理单元:提取并处理待分型样本基因变异特征,转化为可用于梯度提升迭代决策树COO分型模型的输入特征;
预测核心单元:将基因变异特征提取和处理单元得出的数据特征,输入梯度提升迭代决策树COO分型模型得出分型结果和概率。
2.根据权利要求1所述的弥漫大B细胞淋巴瘤COO分型系统,其特征在于,在所述的训练集基因变异数据的特征提取单元中:统计训练集样本中的不同基因在ABC和GCB两种亚型的人群突变频率,并进行卡方检验,筛选差异p值在5%以下的基因用于分型模型的构建。
3.根据权利要求1所述的弥漫大B细胞淋巴瘤COO分型系统,其特征在于,在所述的训练集基因变异数据的特征提取单元中:筛选提取得到的变异特征中权重≥1%的特征用于随机森林COO分型模型的构建。
4.根据权利要求1所述的弥漫大B细胞淋巴瘤COO分型系统,其特征在于,在所述的训练集基因变异数据的特征提取单元中:筛选特征中权重≥1%的特征用于梯度提升迭代决策树COO分型模型的构建。
5.根据权利要求1所述的弥漫大B细胞淋巴瘤COO分型系统,其特征在于,COO分型时质控标准及分型规则为:
1)可进行分型的样本的肿瘤含量要求:组织样本肿瘤细胞含量10%以上,对于没有镜检的样本按照最高突变频率≥5%进行质控;血浆样本肿瘤细胞含量4%以上,即血浆cfDNA最高突变频率≥2%;
2)变异阳性判断标准
组织样本基因突变检测阳性:该基因在组织中有频率3%以上的非同义突变检出,或者有突变频率在1-3%之间的有临床意义的变异检出;
血浆cfDNA基因突变检测阳性:该基因在cfDNA中有频率1%以上的非同义突变检出,或者有突变频率在1-3%之间的有临床意义的变异检出。
6.根据权利要求1~5任一项所述的弥漫大B细胞淋巴瘤COO分型系统,其特征在于,所述基因变异数据的获得方法包括如下步骤:
(1)构建待测患者的基因组DNA文库;所述患者为淋巴瘤患者;
(2)将成套DNA探针与所述DNA文库杂交,得到杂交产物;
(3)对所述杂交产物进行二代测序,根据测序结果分析目的基因组DNA的变异情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010642606.0A CN111662983B (zh) | 2020-07-06 | 2020-07-06 | 一种用于检测淋巴瘤基因变异的试剂盒及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010642606.0A CN111662983B (zh) | 2020-07-06 | 2020-07-06 | 一种用于检测淋巴瘤基因变异的试剂盒及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111662983A CN111662983A (zh) | 2020-09-15 |
CN111662983B true CN111662983B (zh) | 2023-04-07 |
Family
ID=72391130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010642606.0A Active CN111662983B (zh) | 2020-07-06 | 2020-07-06 | 一种用于检测淋巴瘤基因变异的试剂盒及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111662983B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113913518B (zh) * | 2021-08-31 | 2022-08-16 | 广州市金域转化医学研究院有限公司 | 成熟b细胞肿瘤的分型标志物及其应用 |
CN113699243B (zh) * | 2021-10-25 | 2022-02-15 | 深圳荻硕贝肯精准医学有限公司 | 一种用于检测bcl2-igh染色体易位的引物探针组、试剂盒及检测方法 |
CN115148364A (zh) * | 2022-09-05 | 2022-10-04 | 北京泛生子基因科技有限公司 | 基于外周血ctDNA水平预测DLBCL初治患者预后的装置及计算机可读存储介质 |
CN115491423A (zh) * | 2022-09-23 | 2022-12-20 | 珠海横琴铂华医学检验有限公司 | 一种用于b细胞淋巴瘤mrd监测的基因组合、试剂盒与应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101781678A (zh) * | 2009-01-15 | 2010-07-21 | 中山大学达安基因股份有限公司 | 检测融合基因Bcl2-IgH重排的试剂盒 |
CN102747156A (zh) * | 2012-07-13 | 2012-10-24 | 中国医学科学院肿瘤医院 | Bcl-2/IgH基因重排在作为B细胞淋巴瘤骨髓浸润标志中的应用 |
CN109036568A (zh) * | 2018-09-03 | 2018-12-18 | 浪潮软件集团有限公司 | 一种基于朴素贝叶斯算法的预测模型的建立方法 |
CN110400601A (zh) * | 2019-08-23 | 2019-11-01 | 元码基因科技(无锡)有限公司 | 基于rna靶向测序和机器学习的癌症亚型分型方法及装置 |
CN110904235A (zh) * | 2019-12-20 | 2020-03-24 | 深圳市新合生物医疗科技有限公司 | 检测肿瘤靶向药物相关基因突变的基因panel、方法、应用和试剂盒 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3056896A1 (en) * | 2017-03-20 | 2018-09-27 | Caris Mpi, Inc. | Genomic stability profiling |
US20190292602A1 (en) * | 2018-03-21 | 2019-09-26 | Dana-Farber Cancer Institute, Inc. | Therapeutic treatment of select diffuse large b cell lymphomas exhibiting distinct pathogenic mechanisms and outcomes |
-
2020
- 2020-07-06 CN CN202010642606.0A patent/CN111662983B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101781678A (zh) * | 2009-01-15 | 2010-07-21 | 中山大学达安基因股份有限公司 | 检测融合基因Bcl2-IgH重排的试剂盒 |
CN102747156A (zh) * | 2012-07-13 | 2012-10-24 | 中国医学科学院肿瘤医院 | Bcl-2/IgH基因重排在作为B细胞淋巴瘤骨髓浸润标志中的应用 |
CN109036568A (zh) * | 2018-09-03 | 2018-12-18 | 浪潮软件集团有限公司 | 一种基于朴素贝叶斯算法的预测模型的建立方法 |
CN110400601A (zh) * | 2019-08-23 | 2019-11-01 | 元码基因科技(无锡)有限公司 | 基于rna靶向测序和机器学习的癌症亚型分型方法及装置 |
CN110904235A (zh) * | 2019-12-20 | 2020-03-24 | 深圳市新合生物医疗科技有限公司 | 检测肿瘤靶向药物相关基因突变的基因panel、方法、应用和试剂盒 |
Also Published As
Publication number | Publication date |
---|---|
CN111662983A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111662983B (zh) | 一种用于检测淋巴瘤基因变异的试剂盒及其应用 | |
CN109790583B (zh) | 对肺腺癌亚型分型的方法 | |
KR20150090246A (ko) | 암을 위한 분자 진단 테스트 | |
KR20140044341A (ko) | 암에 대한 분자적 진단 검사 | |
CN1839205B (zh) | 用于鉴定、评估、预防和治疗乳腺癌的组合物、试剂盒及方法 | |
CN106978480A (zh) | 用于癌症的分子诊断试验 | |
KR20160117606A (ko) | 항-혈관형성 약물에 대한 반응 및 암의 예후를 예측하기 위한 분자적 진단 시험 | |
CN110079594B (zh) | 基于dna和rna基因突变检测的高通量方法 | |
CN106906220B (zh) | 一种突变的col4a5基因及其应用 | |
CN110904230A (zh) | 用于结肠癌的体外诊断或预后的方法 | |
CN110541031A (zh) | 一种用于卵巢癌的体外诊断或预后的方法 | |
CN111662372B (zh) | Capsl突变基因、试剂、试剂盒及其应用 | |
CN114317550A (zh) | 一种编码mitf基因突变体的核酸及其应用 | |
CN112442528B (zh) | Loxhd1基因突变体及其应用 | |
CN114525344A (zh) | 一种用于检测或辅助检测肿瘤相关基因变异的试剂盒及其应用 | |
CN110878346B (zh) | 基因突变体及其应用 | |
CN112522275A (zh) | Myo15a基因突变体及其应用 | |
CN113403316A (zh) | Slc26a4基因突变体及其应用 | |
CN112442503A (zh) | Kcnq1基因突变体及其应用 | |
CN114032298B (zh) | 用于检测遗传性胆红素代谢异常及肝内胆汁淤积症相关基因变异的探针组、试剂盒及其应用 | |
CN113481289B (zh) | 一种铁粒幼红细胞性贫血检测引物组合物及应用 | |
CN113528656B (zh) | 评价胶质瘤和/或胃腺癌预后性的试剂盒和系统 | |
CN113621617B (zh) | cDNA、mRNA、蛋白及评价胶质瘤预后性的试剂盒和系统 | |
CN108441554A (zh) | 一种筛查遗传性眼科疾病的基因芯片及检测方法 | |
CN111172270B (zh) | 用于子宫颈鳞状上皮内病变分级的全血转录基因标志物及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |