CN110592093B - 一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用 - Google Patents
一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用 Download PDFInfo
- Publication number
- CN110592093B CN110592093B CN201910850939.XA CN201910850939A CN110592093B CN 110592093 B CN110592093 B CN 110592093B CN 201910850939 A CN201910850939 A CN 201910850939A CN 110592093 B CN110592093 B CN 110592093B
- Authority
- CN
- China
- Prior art keywords
- aptamer
- family
- nucleic acid
- score
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N5/00—Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
- C12N5/06—Animal cells or tissues; Human cells or tissues
- C12N5/0602—Vertebrate cells
- C12N5/0693—Tumour cells; Cancer cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/115—Aptamers, i.e. nucleic acids binding a target molecule specifically and with high affinity without hybridising therewith ; Nucleic acids binding to non-nucleic acids, e.g. aptamers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/16—Aptamers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biotechnology (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Immunology (AREA)
- Hematology (AREA)
- Microbiology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biochemistry (AREA)
- Urology & Nephrology (AREA)
- Organic Chemistry (AREA)
- Cell Biology (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- Oncology (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
Abstract
本发明提供了一种能够识别EpCAM蛋白的核酸适体,其特征在于,其为SEQ ID NO:1~SEQ ID NO:11中任一序列所示的DNA片段。本发明通过多维度分析框架筛选得到的能够识别EpCAM蛋白的核酸适体具有比蛋白抗体更高的亲和力与特异性,将成为EpCAM检测的有力工具,在肿瘤早期诊断、循环肿瘤细胞捕获等领域具有良好的应用前景。
Description
技术领域
本发明属于生物传感器技术领域,具体涉及一种核酸适体、核酸适体的衍生物及其筛选方法和应用。
背景技术
EpCAM(Epithelial cell adhesion molecule)上皮细胞粘附分子属于黏附分子家族,也称为17-A,ESA,EGP40,Trop-1,KSA,CD326,TACSTD1,CO17-1A,GA733-2等,表达在人部分正常上皮细胞和大多数恶性上皮细胞表面,对肿瘤生物学特性起重要作用,对EpCAM蛋白的识别可用于循环肿瘤细胞的捕获。而目前对EpCAM蛋白的识别常用的是基于特异性抗体,但EpCAM抗体具有价格昂贵、稳定性差、批次差异大等缺点,导致临床检测效果、循环肿瘤细胞捕获效果不甚理想。筛选并获得高特异性、高亲和力识别EpCAM蛋白的核酸适体具有重要意义,其将成为EpCAM检测的有力工具,有望用于肿瘤早期诊断、循环肿瘤细胞捕获等领域。
核酸适体(aptamer)是通过指数富集配基的系统进化技术(SELEX)筛选得到的,能特异结合靶物质的单链寡聚核苷酸(ssDNA或ssRNA)。核酸适体与抗体功能类似,但是与抗体相比具有更多的优势,具有更高的亲和力与特异性;无免疫原性;能够化学合成,成本低;可进行标记;稳定性好,易于保存等优点。核酸适体的靶分子更为广泛,包括金属离子、氨基酸、核酸、多肽、蛋白质,并从单一靶标扩展至完整的病毒颗粒及细胞等复合物靶标。因此,核酸适体具有广泛的应用前景。
基于数据挖掘、机器学习等分析手段辅助核酸适体筛选是一种新的理念和趋势,其主要可分为基于机器模拟、深度学习等开展的适体设计和基于文库二代测序数据挖掘开展的适体识别。前者多基于分子对接建模,但因已解析的蛋白、核酸结构以及蛋白-核酸复合结构太少,几乎没有进展;对于后者,自2010年以来越来越多的工作证明文库二代测序数据能够辅助指数富集的配体系统进化技术(SELEX)体系,帮助提高筛选成功率从而减少筛选轮次、甄定更多更好的适体、理解体外指数富集配体系统进化过程。
二代文库高通量测序数据为适体筛选工作带来了新的机遇,但是文库数据复杂度高、数据量庞大、进化机制复杂且相应机制研究基础少,使得二代核酸文库测序数据的分析算法开发缓慢。此外,该类算法受灵敏度低、准确率低、计算耗时长等阻遏,并没有真正被广泛应用到文库序列分析当中。因此开发高灵敏度、准确、高效的分析平台是目前更好利用二代测序数据辅助SELEX体系的核心。
首先,有效的数据过滤是实现文库高通量数据高效处理的前提,但现有数据过滤方法单一、低效。主要基于随机抽样或者简单的设置核酸适体频率阈值进行过滤,易造成很多假阴性结果,特别是低频高性能适体的丢失。因此,发展更加合适的过滤手段是该领域亟待解决的重要问题之一。
其次,准确、高效的序列家族分类方法是理清文库组成的唯一途径,但现有方法存在适用面窄、效率低等问题。早期的家族分析基于一致性序列的统计,但文库构成复杂,简单的序列统计往往无法真正归纳出文库序列组成。因此,之后发展的算法多基于序列相似性进行序列家族分类(如AptaCluster等),而如何度量序列之间的相似性成为这些算法的核心。目前已有的文库序列相似性度量主要基于编辑距离(Levenshtein distance,LD)和局部敏感哈希(Locality-Sensitive Hashing,LSH)。这些度量方式或无法考虑碱基插入、丢失,或要求序列等长,适用面窄。且这些算法的计算耗时长,随着测得的序列数目增加计算耗时接近平方阶增长,使得其无法高效解决核酸文库二代测序数据的分析问题而未得到广泛应用。因此,现今急需寻找更加高效且广泛适用的核酸序列相似性度量和分类方式。
最后,文库进化机制复杂,各类适体具有不同的进化特征。其中,低频高性能适体通过序列家族的分析是无法甄定的,低频高性能适体的遗漏是目前该领域算法假阴性的主要来源。另一方面,很多高频或构成大家族的序列可能由非特异性吸附和扩增偏好引入,这一现象往往会导致假阳性结果。故不同于以家族分类为基础的算法,近年来很多算法以序列二级结构分析为核心。但已有的二级结构预测软件并不适用于高通量数据,故很多工作以二级子结构为研究对象。这些算法从“k-mer”(k长碱基序列)出发,一部分算法假设具有显著性富集的“k-mer”即为具有结合能力的二级子结构,另一部分算法则整合二级子结构的预测(经典的核酸二级子结构有假结、茎环、凸起、发夹等)和“k-mer”显著性富集搜索。相比于序列家族分类,单纯基于“k-mer”显著性富集的算法能够处理的数据量更大,而整合子结构预测的算法因需要额外的二级子结构预测故计算耗时依然很长。综上,这些方法或只考虑子结构因而准确率并不高,或无法应用于二代高通量测序数据。如何有效利用二级结构信息并实现高通量数据的处理是提高现有适体甄定算法准确性的核心所在。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种能与EpCAM蛋白特异高效结合的核酸适体及其筛选方法和应用。
为了达到上述目的,本发明提供了一种能够识别EpCAM蛋白的核酸适体,其特征在于,其为SEQ ID NO:1~SEQ ID NO:11中任一序列所示的DNA片段。
优选地,所述核酸适体的核苷酸序列做切短、延长、部分碱基替换或者某一位置被磷酸化、甲基化、氨基化、巯基化、同位素化。
优选地,所述核酸适体的核苷酸序列上结合有生物素、荧光物质、纳米发光材料或酶标记。
本发明还提供了一种上述能够识别EpCAM蛋白的核酸适体的筛选方法,其特征在于,包括以下步骤:
步骤1:筛选上皮细胞粘附分子EpCAM特异结合的核酸适体文库:
步骤2:基于模式序列搜索,对步骤1筛选得到的上皮细胞粘附分子EpCAM特异结合的核酸适体文库进行过滤;
步骤3:利用无监督学习,对步骤2过滤后的核酸文库测序数据进行文库序列家族高效分类;
步骤4:基于步骤3的文库序列家族分类结果,进行核酸适体二级子结构/模式序列含量Kscore评估;
步骤5:基于步骤3的文库序列家族分类结果,根据家族大小,进行核酸适体家族富集程度Fscore评估;
步骤6:基于二级结构最小自由能和G四聚体结构预测,对步骤3的文库序列家族分类结果进行核酸适体二级结构稳定性Sscore评估;
步骤7:利用多维度分析框架,从二级子结构/模式序列含量Kscore、核酸适体家族富集程度Fscore、二级结构稳定性Sscore三个方面对功能核酸进行全面评估和权衡,识别得到能够识别EpCAM蛋白的核酸适体。
优选地,所述步骤2具体包括:基于k-mer的频率分布和扩增倍数分布,k-mer为k长的连续碱基片段,对核酸文库测序数据进行筛选,得到具有富集/富集趋势的k-mer集合;然后设计打分公式,通过权衡频率和扩增信息,对筛选得到的具有富集/富集趋势的k-mer集合中的k-mer打分,得到Scorek-mer,基于Scorek-mer,设计过滤分值Filter Scoreaptamer公式,根据用户定义的域值,过滤掉不具有模式序列的序列。
更优选地,所述打分公式如下:
k-mer(i)为第i个k-mer,i=1,2,3....n
更优选地,所述过滤分值Filter Scoreaptamer公式如下:
Filter Scoreaptamer(i)
=max(scorek-mer(j)|k-mer(j)∈Saptamer,Saptamer由aptamer包含的所有k-mer组成)
aptamer(i)为第i个aptamer,i=1,2,3....n
优选地,所述步骤3具体包括:通过对步骤2过滤后得到的所有核酸适体序列进行两两比对比对策略,利用BLASTshort进行所有核酸适体序列比对打分,基于比对分值构建核酸相关性图谱,其中,权重Weightedge(ab)为归一化后的比对得分,利用马尔可夫聚类算法(MCL)进行家族分类。
更优选地,所述权重的计算公式如下:
其中,bit score为BLAST比对算法输出的比对得分;a,b代表任意两个顶点。
优选地,所述步骤4具体包括:基于步骤3的家族分类结果,选择每个家族中最高频核酸作为代表序列,根据步骤2所得的k-mer得分,计算该代表序列对应的Kscore,即为核酸家族Kscore。
更优选地,所述核酸家族Kscore的计算公式如下:
Kscoreaptamer(i)=∑scorek-mer(j),k-mer(j)∈Saptamer(i),
其中,Kscoreaptamer为每个核酸家族代表序列的二级子结构/模式序列总体富集程度,随后即将代表序列的Kscoreaptamer作为核酸家族Kscore。
优选地,所述步骤5中,核酸家族富集程度Fscore的计算公式如下:
其中,familly(i)代表第i个家族,i=1,2,3...n;Fsize为家族大小,mean为平均家族大小。
优选地,所述步骤6具体包括:利用mfold或者RNAfold进行核酸适体二级结构最小自由能(dG)推导,利用QGRS进行核酸适体是否为G四聚体的可能性(GS)计算,权衡最小自由能和GS得分得到Sscore。
更优选地,所述Sscore的计算公式如下:
其中,familly(i)代表第i个家族,i=1,2,3...n;r_aptamer代表每个核酸适体家族的最高频序列。
优选地,所述步骤7中具体包括:选取Kscore、Fscore、Sscore中较大的两个分值,进行加和平均得到最终的MDA-score用于评估功能核酸的性能,MDA-score分值越高,认为其靶标结合可能性越大。
更优选地,所述MDA-score的计算公式如下:
其中,min_score代表三个分值中的最小值。
上述核酸适体在制备EpCAM蛋白检测试剂盒或者EpCAM蛋白诊断试剂中的应用。
上述核酸适体在制备用于捕获循环肿瘤细胞的试剂中的应用。
本发明的优点在于:
本发明通过多维度分析框架筛选得到的能够识别EpCAM蛋白的核酸适体具有比蛋白抗体更高的亲和力与特异性;无免疫原性;能够体外化学合成,分子量小,可以对不同部位进行修饰和取代,且序列稳定,易于保存,便于标记等。采用本发明的核酸适体进行循环肿瘤细胞的检测时,操作更为简单、迅速,由于核酸适体的合成成本较抗体制备成本低,且周期短,重现性好。其将成为EpCAM检测的有力工具,在肿瘤早期诊断、循环肿瘤细胞捕获等领域具有良好的应用前景。
附图说明
图1为基于模式序列搜索的打分过程示意图;
图2为‘BLAST-short-MCL’策略示意图;
图3为算法整体多维度识别框架示意图;
图4为流式细胞仪测定的核酸适体EpCAM S1-11对上皮粘附因子EpCAM蛋白的偏移,横坐标为各个核酸适体,纵坐标为荧光强度中值。
图5-15为流式细胞仪测定的核酸适体EpCAM S1-11对上皮粘附因子EpCAM蛋白的解离常数,横坐标为DNA浓度(nmol/L),纵坐标为平均荧光强度。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供了一种能够识别EpCAM蛋白的核酸适体的筛选方法,具体包括以下步骤:
步骤1:筛选上皮细胞粘附分子EpCAM特异结合的核酸适体文库:
步骤a)将合成好的5nmol单链DNA核酸库溶于结合缓冲液(12mmol/LPBS,0.55mmol/LMgCl2)中,进行热处理:95℃加热5min,在冰上放置10min,然后室温下放置10min;
步骤b)将处理好的单链DNA核酸库与Ni微珠进行孵育,收集未与Ni微珠结合的液体;
步骤c)将未与Ni微珠结合的液体与EpCAM Ni微珠一起于37℃下孵育40min;
步骤d)使用结合缓冲液洗涤孵育后的EpCAM Ni微珠,再将结合了寡核苷酸的EpCAM Ni微珠做PCR反应;PCR反应程序为:94℃预变性3min,94℃30s,53℃30s,68℃30s,扩增10个循环,最后68℃终延伸5min;引物1:5'-FAM-AGC GTC GAATAC CAC TAC AG-3';引物2:5'-Biotin-CTGACC ACGAGC TCCATT AG-3';
步骤e)PCR反应结束后,产物为3’端带有生物素标记,5’端带有FAM标记的双链DNA,加入链酶亲和素微珠,反应30min,然后用0.1mol/LNaOH进行单链化,经脱盐柱纯化即得到用于下一轮筛选的单链DNA文库;
步骤f)之后每轮使用200pmol的单链DNA文库,并且逐步增加洗涤次数以增强筛选强度,共进行12轮筛选,而后通过流式细胞仪检测单链DNA文库的富集情况,结果显示第12轮库与靶蛋白EpCAM有比较明显的结合(参见图1),而与Ni蛋白没有结合(参见图2),最后把第2,3,4,6,7,8轮文库送去高通量测序;
步骤2:基于模式序列搜索进行核酸文库测序数据过滤:
如附图1所示,利用“k-mer”的频率分布,筛选具有富集/富集趋势的“k-mer”集合(即在文库中出现的高频“k-mer”,定义为“set1”),此处高频“k-mer”的选择为在各轮文库中频率高于预先定义的对照文库频率分布中95%分位线的k-mer;绘制“k-mer”扩增倍数分布,筛选与“set1”同样大小的“k-mer”集合“set2”,其由具有最大扩增倍数的“k-mer”组成;设计打分函数(公式1),通过权衡频率和扩增信息,为上述两个集合中的“k-mer”打分,其余“k-mer”赋值为0;其中,“k-mer”的分值代表其是否为模式序列的可能性大小,分值越大可能性越大;
k-mer(i)为第i个k-mer,i=1,2,3....n;
基于“k-mer”的分值,对各个核酸测序数据打分(过滤分值“Filter Scoreaptamer”由公式2所示),根据用户定义的域值(本实验中定义为10),过滤掉不具有模式序列的序列,此处可过滤50%~90%二代测序数据(本实验实际过滤比例为92.66%);
Filter Scoreaptamer(i) (2)
=max(scorek-mer(j)|k-mer(j)∈Saptamer,Saptamer由aptamer包含的所有k-mer组成)
aptamer(i)为第i个aptamer,i=1,2,3....n;
步骤3:利用“‘BLAST-short-MCL”策略,进行文库序列家族分类,评估核酸适体家族富集程度Fscore:
如附图2所示,利用“BLASTshort”程序对所有核酸适体序列进行两两比对,基于比对分值构建核酸适体相关性图谱,其中权重为归一化后的比对得分(公式3),利用马尔可夫聚类进行家族分类,将过、滤后的测序数据分成了20,000+个不同的核酸家族;
其中,bit score为“BLAST”比对算法输出的比对(3)得分,a,b为图上顶点,这里代表核酸适体;
步骤4:对步骤3分类后的文库序列家族进行核酸适体二级子结构/模式序列含量Kscore评估:
基于步骤3的家族分类结果,选择每个家族中最高频核酸作为代表序列,根据步骤2所得的k-mer得分,计算该代表序列对应的Kscore(公式4),即为核酸家族Kscore。
Kscoreaptamer(i)=Σscorek-mer(i),k-mer(j)∈Saptaer(i), (4)
其中,Kscoreaptamer为每个核酸家族代表序列的二级子结构/模式序列总体富集程度,随后即将代表序列的Kscoreaptamer作为核酸家族Kscore;
步骤5:对步骤3分类后的文库序列家族进行核酸适体家族富集程度Fscore评估:
基于步骤3的家族分类结果,根据家族大小,计算Fscore(公式5);
其中,familly(i)代表第i个家族,i=1,2,3…n;Fsize为家族大小,mean为平均家族大小;
步骤6:基于最小自由能和G四聚体结构预测,进行核酸适体二级结构稳定性Sscore评估:
利用“mfold”或者“RNAfold”进行核酸适体二级结构最小自由能(dG)推导,利用“QGRS”进行核酸适体是否为G四聚体的可能性(GS)计算,权衡最小自由能和“GS”得分得到“Sscore”(公式6);其中,每个核酸适体家族选择最高频序列为代表序列(r_aptamer);
其中,familly(i)代表第i个家族,i=1,2,3…n;r_aptamer代表每个核酸适体家族的最高频序列;
步骤7:利用多维度分析框架,从二级结构/模式序列含量(Kscore)、核酸适体家族富集程度(Fscore)、二级结构稳定性(Sscore)三个方面对核酸家族进行全面评估和权衡,识别具有靶标结合能力的核酸适体:
如图3所示,基于计算的“Kscore”、“Fscore”和“Sscore”,选取“Kscore”、“Fscore”、“Sscore”中较大的两个分值,进行加和平均得到“MDA-score”(公式7)。最后基于“MDA-score”选取核酸适体候选序列,“MDA-score”分值越高,认为其靶标结合可能性越大。通过这样的选择,一方面可以减少由单个测度引入的假阳性(如,由于扩增偏好的存在,有些不具有靶标结合能力的核酸适体会有非常大的序列家族);另一方面可以减少不同性能的核酸适体的丢失(如,有些高性能核酸适体通过某个子结构发挥结合能力,整体二级结构的稳定性并不强);通过这样的权衡法则,不但可保留不同性能的核酸适体,亦可排除由扩增偏好、非特异性吸附等原因造成的假阳性。
其中“min_score”代表三个分值中的最小值;
最终得到的具有最高得分的11个核酸适体,其为SEQ ID NO:1~SEQ ID NO:11中任一序列所示的DNA片段,分别命名为EpCAM S1~S11;
步骤8:进行EpCAM核酸适体结合能力验证:选取了第2,3,4,6,7,8轮筛选后的核酸适体文库进行二代高通量测序,基于测序数据利用上述步骤识别候选适体,并通过流式分析仪鉴定其与靶蛋白结合能力:
步骤a)首先PCR扩增带荧光标记的单链DNA,使用引物:5’-Biotin-CTG ACCACGAGCTCCATTAG-3’与引物:5’-FAM-AGC GTC GAATAC CAC TAC AG-3’,PCR产物为5’端带有FAM并且3’端带有生物素的双链DNA,加入链酶亲和素微珠,反应30min,然后用0.1mol/LNaOH进行单链化,经脱盐柱纯化即得到用于流式分析的带FAM标记的单链DNA;
步骤b)使用0nmol/L,5nmol/L,10nmol/L,20nmol/L,50nmol/L,100nmol/L,200nmol/L浓度梯度的单链DNA与靶蛋白EpCAM Ni微珠来测定解离常数,用200ul结合缓冲液配置上述各浓度的DNA溶液,95℃加热5min,冰上、室温依次分别放置10min,随后加入155nmol/L的EpCAM微珠,在37℃条件下孵育40min,利用结合缓冲液洗涤微珠3次,并将微珠重悬在250ul结合缓冲液中,设置为经过筛选的初始DNA随机寡核苷酸库作对照;
步骤c)使用BD公司的流式细胞仪对微珠进行荧光强度测定(图4),并用sigmaplot软件做图,计算解离常数Kd检测核酸适体的亲和能力(图5-15)。
通过应用于EpCAM文库二代测序数据,本算法对所有文库测序数据的靶标结合能力进行了评估预测,并对最终得到的具有最高得分的11条首次被识别的适体,其为SEQ IDNO:1~SEQ ID NO:11中任一序列所示的DNA片段,分别命名为EpCAM S1~S11;并通过流式分析仪鉴定其与靶蛋白结合能力,如图4所示,EpCAM S1~S11相较于文库、算法预测的阴性结果(算法过滤掉的序列、算法推导的低分值序列)、随机序列有显著更高的荧光强度。图5-15所示,得到的11条核酸适体与靶标蛋白EpCAM的解离常熟(Kd:8~35),证明了该算法的准确性和高效性。
Claims (1)
1.一种能够识别EpCAM蛋白的核酸适体的筛选方法,其特征在于,包括以下步骤:
步骤1:筛选上皮细胞粘附分子EpCAM特异结合的核酸适体文库;
步骤2:基于模式序列搜索,对步骤1筛选得到的上皮细胞粘附分子EpCAM特异结合的核酸适体文库进行过滤;基于k-mer的频率分布和扩增倍数分布,k-mer为k长的连续碱基片段,对核酸文库测序数据进行筛选,得到具有富集/富集趋势的k-mer集合;然后设计打分公式,通过权衡频率和扩增信息,对筛选得到的具有富集/富集趋势的k-mer集合中的k-mer打分,得到Scorek-mer,基于Scorek-mer,设计过滤分值FilterScoreaptamer公式,根据用户定义的域值,过滤掉不具有模式序列的序列;所述打分公式如下:
k-mer(i)为第i个k-mer,i=1,2,3....n;
所述过滤分值FilterScoreaptamer公式如下:
Filter Scoreaptamer(i)=max(scorek-mer(j)|k-mer(j)∈Saptamer,Saptamer由aptamer包含的所有k-mer组成)
aptamer(i)为第i个aptamer,i=1,2,3....n;
利用k-mer的频率分布,筛选具有富集/富集趋势的k-mer集合,即在文库中出现的高频k-mer,定义为set1,此处高频k-mer的选择为在各轮文库中频率高于预先定义的对照文库频率分布中95%分位线的k-mer;绘制k-mer扩增倍数分布,筛选与set1同样大小的k-mer集合set2,其由具有最大扩增倍数的k-mer组成;
步骤3:利用无监督学习,对步骤2过滤后的核酸文库测序数据进行文库序列家族高效分类;通过对步骤2过滤后得到的所有核酸适体序列进行两两比对,利用BLASTshort进行所有核酸适体序列比对打分,基于比对分值构建核酸相关性图谱,其中,权重Weightedge(ab)为归一化后的比对得分,利用马尔可夫聚类算法(MCL)进行家族分类;
所述权重的计算公式如下:
其中,bitscore为BLAST比对算法输出的比对得分;a,b代表任意两个顶点;
步骤4:基于步骤3的文库序列家族分类结果,进行核酸适体二级子结构/模式序列含量Kscore评估;基于步骤3的家族分类结果,选择每个家族中最高频核酸作为代表序列,根据步骤2所得的k-mer得分,计算该代表序列对应的Kscore,即为核酸家族Kscore;所述核酸家族Kscore的计算公式如下:
Kscoreaptamer(i)=∑scorek-mer(j),k-mer(j)∈Saptamer(i)
其中,Kscoreaptamer为每个核酸家族代表序列的二级子结构/模式序列总体富集程度,随后即将代表序列的Kscoreaptamer作为核酸家族Kscore;
步骤5:基于步骤3的文库序列家族分类结果,根据家族大小,进行核酸适体家族富集程度Fscore评估;核酸家族富集程度Fscore的计算公式如下:
其中,familly(i)代表第i个家族,i=1,2,3....n;Fsize为家族大小,mean为平均家族大小;
步骤6:基于二级结构最小自由能和G四聚体结构预测,对步骤3的文库序列家族分类结果进行核酸适体二级结构稳定性Sscore评估;利用mfold或者RNAfold进行核酸适体二级结构最小自由能(dG)推导,利用QGRS进行核酸适体是否为G四聚体的可能性(GS)计算,权衡最小自由能和GS得分得到Sscore;
所述Sscore的计算公式如下:
其中,familly(i)代表第i个家族,i=1,2,3....n;raptamer代表每个核酸适体家族的最高频序列;
步骤7:利用多维度分析框架,从二级子结构/模式序列含量Kscore、核酸适体家族富集程度Fscore、二级结构稳定性Sscore三个方面对功能核酸进行全面评估和权衡,识别得到能够识别EpCAM蛋白的核酸适体;选取Kscore、Fscore、Sscore中较大的两个分值,进行加和平均得到最终的MDA-score用于评估功能核酸的性能,MDA-score分值越高,认为其靶标结合可能性越大;所述MDA-score的计算公式如下:
其中,min_score代表三个分值中的最小值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910850939.XA CN110592093B (zh) | 2019-09-10 | 2019-09-10 | 一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910850939.XA CN110592093B (zh) | 2019-09-10 | 2019-09-10 | 一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110592093A CN110592093A (zh) | 2019-12-20 |
CN110592093B true CN110592093B (zh) | 2023-08-25 |
Family
ID=68858428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910850939.XA Active CN110592093B (zh) | 2019-09-10 | 2019-09-10 | 一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110592093B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600080B (zh) * | 2019-09-10 | 2023-04-18 | 上海交通大学医学院附属仁济医院 | 一种基于多维度分析框架的功能核酸全面识别方法及其应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103409427A (zh) * | 2012-09-24 | 2013-11-27 | 厦门大学 | 上皮细胞粘附分子的核酸适体EpCAM C及其制备方法 |
CN105861297A (zh) * | 2016-03-29 | 2016-08-17 | 厦门大学 | 一种循环肿瘤细胞检测芯片及其应用 |
CN108753904A (zh) * | 2018-06-08 | 2018-11-06 | 上海交通大学医学院附属仁济医院 | 一种细菌移植入消化道后对其活性进行评价的方法 |
CN109212211A (zh) * | 2017-07-07 | 2019-01-15 | 叶健 | 一种用于检测循环肿瘤细胞的芯片 |
CN110004147A (zh) * | 2019-03-05 | 2019-07-12 | 厦门大学 | 一种在人血浆中筛选的上皮细胞粘附分子EpCAM的核酸适体及其制备方法和应用 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG11201500663RA (en) * | 2012-08-02 | 2015-02-27 | Univ Deakin | Epcam aptamer for detection of cancer stem cells |
ES2796504T3 (es) * | 2015-02-11 | 2020-11-27 | Univ Deakin | Aptámeros de EpCAM y conjugados de los mismos |
-
2019
- 2019-09-10 CN CN201910850939.XA patent/CN110592093B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103409427A (zh) * | 2012-09-24 | 2013-11-27 | 厦门大学 | 上皮细胞粘附分子的核酸适体EpCAM C及其制备方法 |
CN105861297A (zh) * | 2016-03-29 | 2016-08-17 | 厦门大学 | 一种循环肿瘤细胞检测芯片及其应用 |
CN109212211A (zh) * | 2017-07-07 | 2019-01-15 | 叶健 | 一种用于检测循环肿瘤细胞的芯片 |
CN108753904A (zh) * | 2018-06-08 | 2018-11-06 | 上海交通大学医学院附属仁济医院 | 一种细菌移植入消化道后对其活性进行评价的方法 |
CN110004147A (zh) * | 2019-03-05 | 2019-07-12 | 厦门大学 | 一种在人血浆中筛选的上皮细胞粘附分子EpCAM的核酸适体及其制备方法和应用 |
Also Published As
Publication number | Publication date |
---|---|
CN110592093A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220411881A1 (en) | Methods and systems for identifying disease-induced mutations | |
US11049587B2 (en) | Methods and systems for aligning sequences in the presence of repeating elements | |
DK2209893T3 (en) | The use of aptamers in proteomics | |
CN117887804A (zh) | 用于识别或量化在生物样品中的靶标的方法和组合物 | |
CN110838340A (zh) | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 | |
CN113470743A (zh) | 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法 | |
CN114708910B (zh) | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 | |
CN110592093B (zh) | 一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用 | |
CN114694746A (zh) | 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法 | |
Grinev et al. | ORFhunteR: An accurate approach to the automatic identification and annotation of open reading frames in human mRNA molecules | |
US20140058682A1 (en) | Nucleic Acid Information Processing Device and Processing Method Thereof | |
CN110600080B (zh) | 一种基于多维度分析框架的功能核酸全面识别方法及其应用 | |
CN113160891A (zh) | 一种基于转录组测序的微卫星不稳定性检测方法 | |
US20140019062A1 (en) | Nucleic Acid Information Processing Device and Processing Method Thereof | |
Liu et al. | Recognizing ion ligand–binding residues by random forest algorithm based on optimized dihedral angle | |
CN107038350B (zh) | 一种药物的长非编码rna靶点预测方法和系统 | |
CN110684830A (zh) | 一种石蜡切片组织rna分析方法 | |
Wang et al. | Decoding the stochastic profile of m6A over the entire transcriptome | |
Punitha | Extraction of Co-Expressed Degs From Parkinson Disease Microarray Dataset Using Partition Based Clustering Techniques | |
KR20210116863A (ko) | 시료를 분류할 수 있는 AptaSSN 선정 방법 및 장치, 이에 결합하는 분자 동정 방법 및 장치, AptaSSN 집단을 이용한 표적분자 분석 방법 및 장치, 그리고 생물학적 의미 결정지원 시스템 | |
Liu et al. | miRNA-Disease Association Prediction based on Heterogeneous Graph Transformer with Multi-view similarity and Random Auto-encoder | |
Claude et al. | Exploring variability of machine learning methods: first steps towards cancer biomarkers consensus signatures | |
Ahmed et al. | Enhanced framework for miRNA target prediction | |
JP5952480B2 (ja) | 核酸情報処理装置およびその処理方法 | |
CN117746988A (zh) | 一种基于dna或rna测序技术的融合基因的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |