CN107958139A - 一种用于dna编码化合物文库的核苷酸双链的计算机编码方法 - Google Patents

一种用于dna编码化合物文库的核苷酸双链的计算机编码方法 Download PDF

Info

Publication number
CN107958139A
CN107958139A CN201711247220.4A CN201711247220A CN107958139A CN 107958139 A CN107958139 A CN 107958139A CN 201711247220 A CN201711247220 A CN 201711247220A CN 107958139 A CN107958139 A CN 107958139A
Authority
CN
China
Prior art keywords
base
nucleotide
double
nucleotide double
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711247220.4A
Other languages
English (en)
Other versions
CN107958139B (zh
Inventor
吴阿亮
崔维任
张在红
陈雯婷
李科
邢莉
杨洪芳
彭宣嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Apptec Co Ltd
Original Assignee
Wuxi Apptec Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Apptec Co Ltd filed Critical Wuxi Apptec Co Ltd
Priority to CN201711247220.4A priority Critical patent/CN107958139B/zh
Publication of CN107958139A publication Critical patent/CN107958139A/zh
Application granted granted Critical
Publication of CN107958139B publication Critical patent/CN107958139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种用于DNA编码化合物文库的核苷酸双链的计算机编码方法和通过这种方法得到的不同组合的核苷酸双链集合,该计算机编码方法包括步骤:(1)核苷酸双链编码区的计算机编码方法、核苷酸双链配对区的计算机编码方法、核苷酸双链编码区和配对区组合得到5’或3’端有突出的核苷酸双链的方法、组合后的核苷酸双链集合的筛选方法、n个循环的核苷酸双链集合的两端修饰方法以及链接方法。本发明的方法是一种高效的、操作简单、能快速得到足够多数量的部分碱基序列互补配对且带有突出碱基序列的用于DNA编码化合物文库构建的计算机编码方法,在DNA编码化合物文库构建中应用前景广泛。

Description

一种用于DNA编码化合物文库的核苷酸双链的计算机编码 方法
技术领域
本发明属于计算机编码领域,涉及一种对DNA的碱基序列通过计算机编码方法进行排列组合,并通过一定的过滤规则对这些碱基序列进行过滤,得到两部分碱基序列的集合,一部分碱基序列集合作为编码区,另一部分碱基序列集合作为配对区,这两部分碱基序列集合再按照一定规律组合在一起后,再次按照一定的过滤规则进行筛选得到可用于构建DNA编码化合物文库的核苷酸双链的集合。
背景技术
苗头化合物是通过各种途径得到的具有某种生物活性和化学结构的化合物,可用于进一步的结构改造和修饰,以提高其生物活性、选择性,改善药物动力学性质,是现代新药研究的出发点。传统的药物研发中,应用化合物库进行筛选需找苗头化合物是一种被大量应用的策略,传统方法是通过有机合成的方法得到含有大量单独的纯的小分子组成的化合物库,再利用高通量筛选技术(High throughput screening,HTS)测试化合物库中每个化学小分子的生物活性,找到苗头化合物,接着根据构效关系(Structure ActivityRelationship,SAR)不断对其结构进行优化,最终综合考虑生物活性,靶标选择性和药代动力学等性质,选择几个候选药物用于进一步的药化研究。但是该方法得到的化合物库中每个分子都是单独合成,成本大,周期长,靶标使用量大。
为了解决该问题,美国Scripps研究院的Sydney Brenner和Richard Lerner教授于1992年提出了DNA编码化合物文库(DNA Encoded Library,简称DEL)的合成与筛选的概念(参考文献:Proc.Natl.Acad.Sci.,1992,89,5381,专利:US5573905)。该方法通过将一个片段化合物与一段独特序列的DNA在分子水平进行连接(即对小分子化合物进行DNA标记),利用组合化学的“组合-拆分”策略通过两个至多个循环快速地构建数量巨大的化合物库,该化合物库中每一个化合物都由不同片段化合物组成,并由相应的唯一碱基序列的DNA标识,将极少量的DNA编码化合物库与靶标进行亲和筛选,与靶标没有吸附的化合物库分子先被洗掉,留下的与靶标有吸附的化合物库分子再洗脱下来,这时得到的化合物库分子浓度很低,常规手段难以分析和识别,但是通过DNA独有的聚合酶链式反应(Polymerase ChainReaction,简称PCR)可以把得到的与靶标有吸附的化合物库分子中的DNA部分进行复制扩增直至得到的DNA量可以被DNA测序仪识别,测序后的数据再通过构建DNA编码化合物文库时创建的片段化合物与每个具体DNA碱基序列之间的关系表来解码,进而找到可以识别具有潜在活性分子相对应的具体化合物对应的片段化合物,我们再通过传统的有机合成方法把这些片段化合物组合在一起得到筛选的目标分子,再检测并确认其对靶标的生理活性。
DNA编码化合物文库的构建方法主要有三种,第一种是以美国Ensemble公司为主利用DNA模板技术得到的DNA导向分子库(DNA-Templated Chemical Library Synthesis,简称DTCL),第二种是以美国GSK公司,X-Chem公司和国内的成都先导公司为主利用DNA标记技术得到的DNA记录分子库(DNA-Recorded Chemical Library,简称DRCL),第三种是以瑞士Philogen公司为主基于片段的药物设计(FBDD)技术得到的编码自组装分子库(EncodedSelf-Assembling Chemical Libraries,简称ESAC)。
目前工业上被大量运用的构建DNA编码化合物文库的方法主要还是第二种方法,该方法操作简单,成本更低,能更快速地利用组合化学方法得到含有海量的小分子化合物的DNA编码化合物文库。该方法根据使用DNA链的不同,又分为以GSK公司为主的核苷酸双链链接(参考专利:CN101864412A)和以X-Chem公司为主的核苷酸单链链接(参考专利:CN103998658A)两种方式,这两家公司的专利中详细介绍了他们的起始头片段,核苷酸链不同的酶链接方式和化学链接方式。
双链链接相对于单链链接来说,由于双链DNA自身通过碱基互补配对形成了反向互补的双螺旋结构,碱基上的活泼氢原子大都参与形成氢键,使核苷酸上的碱基被包埋在DNA双螺旋结构的最内部,这样由于空间位阻的影响等因素,在构建DNA编码化合物文库的过程中DNA上的碱基受到化学反应的影响降到最低,减少了因化学反应引起碱基变化而造成后续PCR和测序时的错误率;这样也大大降低了在后续DNA编码化合物文库与靶标进行亲和筛选时,核苷酸上的碱基与靶标的吸附作用也能得到有效的抑制。因此,在实际操作中,双链链接的方式更受欢迎。
GSK的文献(Nat.Chem.Biol.,2009,5(9),647-54)和相关专利(CN101864412A,EP2368868A1)也详细展示了部分他们用来标记具体片段化合物的核苷酸双链序列,但是对于具体的核苷酸双链的编码方式和方法仅在专利(EP2441757A1)中稍有提及,碱基序列都是5’磷酸化,都具有恒定的GC含量,没有回文序列和同源二聚体。2015年Scripps研究所的Brian M.Paegel等(参考文献:ACS Comb.Sci.2015,17,518-534)比较详细介绍了一种寡聚核苷酸双链的编码方式,但是他们的限制和要求使得最后得到的11个碱基对(basepair,简称bp)的寡聚核苷酸双链只有不到80个,严重限制了DNA编码化合物文库中小分子的数量,远远满足不了DNA编码化合物文库工业化生产的需要,而且设置的过滤条件没有考虑到这些寡聚核苷酸链链接起来后整条DNA链在聚合酶链式反应中的差异,也没有考虑这些寡聚核苷酸链在建库过程中对片段化合物反应成功与否检测上的影响。
发明内容
为了解决上述问题,本发现详细提供了一种新型的用于DNA编码化合物文库的核苷酸双链的计算机编码方式和方法,以及通过该方法得到的一系列可用于DNA编码化合物文库的核苷酸双链的集合。
名词解释:
碱基互补配对原则(The principle of complementary base pairing):在DNA或某些双链RNA分子结构中,由于碱基之间的氢键具有固定的数目和DNA两条链之间的距离保持不变,使得碱基配对必须遵循一定的规律,即腺嘌呤(Adenine,简写A)在DNA中一定与胸腺嘧啶(Thymine,简写T),在RNA中一定与尿嘧啶(Uracil,简写U)通过两个氢键配对,鸟嘌呤(Guanine,简写G)一定与胞嘧啶(Cytosine,简写C)通过三个氢键配对,反之亦然,碱基间的这种一一对应的关系叫做碱基互补配对原则。
黏性末端(Sticky End):黏性末端是指DNA双链中有一段有突出(Overhang)的碱基序列,如果与其链接的另一段DNA也有一段可以与其反向互补的突出的碱基序列,则其链接效率大大高于没有突出碱基序列的DNA双链(此时叫平齐末端(flush ends))。
汉明距离(Hamming distance):两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数,也即将一个字符串变换成另外一个字符串所需要替换的字符个数。
GC含量(GC content):在构成一端DNA链的4种碱基中,鸟嘌呤G和胞嘧啶C在所有碱基中所占的比率称为GC含量。在双链DNA中,腺嘌呤与胸腺嘧啶(A/T)之比,以及鸟嘌呤与胞嘧啶(G/C)之比都是1。但是,(A+T)/(G+C)之比则随DNA的种类不同而异。GC含量愈高,DNA的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行DNA的分离或测定。
DNA链接(DNA ligation):利用生物酶或化学反应的方法将起始DNA片段和后续的DNA片段连接在一起,成为一个完整的重组分子的过程。
本发明涉及一种核苷酸双链的计算机编码方法,没有特别说明,本发明提及的碱基序列都是指5’到3’方向顺序排列的,它包括如下步骤:
(1)核苷酸双链编码区的计算机编码方法:
a、计算机编码得到m碱基对的碱基完全互补配对的核苷酸双链:设定编码区碱基对长度m,完成计算机编码,得到所有碱基排列组合的上下链完全碱基互补配对的核苷酸双链,m=3、4、5、……、50。
b、按照设置的规则对得到的用于编码区的核苷酸双链进行筛选,具体的筛选规则如下:
一是核苷酸双链中上链或下链自身不能通过碱基互补配对形成反向互补的双链。
二是核苷酸双链中上链或下链的5’端和3’端不能有n个碱基能通过碱基互补配对形成一小段双链,从而让该条核苷酸单链形成发卡形式,n为≥3的整数,具体的,n=3、4、……、(m/2)-1,m是该条单链的碱基长度,m/2取整数部分的值;优选的,m是5到15之内的整数。
三是核苷酸双链中的上链和下链在错位o个碱基后不能形成反向互补的双链,o=1、2、……、(m/2)+1,m是该条单链的碱基长度,m/2取整数部分的值;优选的,m是5到15之内的整数。
四是核苷酸双链中的GC含量必须是在合适的范围内(如40-60%),具体就是核苷酸双链中每条单链的GC含量在40-60%范围内,也可以说成是核苷酸双链中(A+T)/(G+C)比率在0.67-1.5。
五是核苷酸双链之间的最大分子量差异与核苷酸双链的平均分子量之比不能超过0.1%;优选的,不能超过0.02%。分子量差异太大,会在建库过程中给通过LCMS判断片段化合物与DNA的反应成功与否的判断带来很大的挑战。
六是核苷酸双链的上链或下链中不能连续出现3个或3个以上的相同碱基。连续出现多个相同碱基,如GGG或CCC,会使PCR时的错配机率增加。
七是核苷酸双链的上链也可以作为另一个核苷酸双链的下链使用(即直接把上链碱基序列的方向从5’到3’调整为3’到5’并作为另一个核苷酸双链的上链),反之下链也可以作为另一个核苷酸双链的上链使用,但是不可有重复的核苷酸双链。
八是核苷酸双链集合中各个碱基序列之间的汉明距离需要大于等于2,更优选大于等于3,或更高。汉明距离越大,在后续的PCR过程中发生的碱基错配和突变就越容易被发现,这样PCR得到的碱基序列的数据的准确性就越接近真实值。
(2)核苷酸双链配对区的计算机编码方法:
a、计算机编码得到a碱基对的碱基完全互补配对的核苷酸双链:设定配对区碱基对长度a,完成计算机编码,得到所有碱基排列组合的上下链完全碱基互补配对的核苷酸双链,a=2、3、4、……、20。
b、按照设置的规则对得到的用于配对区的核苷酸双链进行筛选,具体的筛选规则如下:
一是核苷酸双链中上链或下链自身不能是回文序列,且每个单链中碱基序列的5’端和3’端能形成发卡结构的碱基数量之和不超过整条单链的碱基总数的50%。
二是核苷酸双链中上链或下链自身不能连续含有3个或以上的相同碱基。
三是核苷酸双链中上链或下链GC含量在20-80%之间。这样可以保证配对区和编码区的核苷酸双链组合在一起后形成的最终用于DNA编码化合物文库的核苷酸双链的GC含量符合要求,也即在40-60%范围内或相差不大。但在只有2个碱基作为配对区碱基序列时,可以不用考虑GC含量这一限制。
(3)核苷酸双链编码区和配对区组合得到5’或3’端有突出的核苷酸双链的方法:
a、DNA编码化合物文库的具有部分双链结构的起始头片段一般是有一条单链有突出的碱基序列,突出的碱基数量是2、3、4、……、20个,该突出的碱基序列包含在我们计算得到的核苷酸双链配对区内。
b、第一个循环可与该起始头片段链接的核苷酸双链集合的构建方法如下:
首先是配对区核苷酸双链与起始头片段的突出碱基序列的互补链的5’端与编码区核苷酸双链中一条单链的3’端组合,或者是配对区核苷酸双链与起始头片段的突出碱基序列的互补链的3’端与编码区核苷酸双链中一条单链的5’端组合;二是编码区核苷酸双链中另一条互补的单链的3’端与另一套配对区核苷酸双链中的一条单链的5’端组合,或者编码区核苷酸双链中另一条互补的单链的5’端与另一套配对区核苷酸双链中的一条单链的3’端组合;这样就得到了一对上下链部分碱基能完全互补、上链或下链在5’端和/或3’端有突出碱基序列、可以与起始头片段的突出碱基序列互补结合的第一个循环的核苷酸双链的集合。
c、第n个循环的核苷酸双链的构建方法如下:
首先是把起始头片段与第一个循环的核苷酸双链的组合体看作一个新的起始片段,该起始片段也有一条单链有一个新的突出碱基序列,按照步骤b的构建方法得到第n个循环的核苷酸双链集合,n=2、3、4、……、20。
(4)组合后的核苷酸双链集合的筛选方法:再次按照步骤(1)设定的八个规则对组合后得到的核苷酸双链集合进行筛选,组合后的核苷酸双链集合对规则一、四、五、七和八仍然遵守,主要是再次进行规则二、三和六的筛选。
(5)步骤(4)得到的n个循环的核苷酸双链集合的两端修饰方法:
a、上一个循环核苷酸双链集合的上链的3’端与下一个循环核苷酸双链集合的上链5’端需要含有反应基团和其互补反应基团,基团上可以带有保护集团;上一个循环核苷酸双链集合的下链的5’端与下一个循环核苷酸双链集合的下链3’端需要含有反应基团和其互补反应基团,基团上可以带有保护集团。所述互补是指该反应基团和其互补反应基团在一定条件下可以发生化学反应使两个基团形成共价键连接。
b、这些反应基团和其互补反应基团包括磷酸基和羟基,炔基和叠氮基,重氮基和炔基,碘基和硫代磷酸酯基,仲胺基与醛或酮基,氨基与羧酸基,氨基与烷基卤或芳基卤,氨基与烯基或炔基,磷叶立德基团和醛或酮基,环加成反应的双烯和亲双烯体基等,这些反应基团和其互补反应基团都可以带有保护基团或是带有可以通过一步化学反应转化为可以互相反应的反应基团和其互补反应基团的基团。
当其中一个反应基团是伯胺时,可以带有保护基,保护基可以是芴甲氧羰基(Fmoc)、叔丁氧羰基(Boc)、6-硝基藜芦氧基(Nvoc)、烯丙氧基羰基(Alloc)、邻硝基苯磺酰基(Ns)、甲砜基乙氧羰基(Msec)、三氟乙酰基(CF3CO)等。
当其中一个反应基团是仲胺时,可以带有保护基,保护基可以是芴甲氧羰基(Fmoc)、叔丁氧羰基(Boc)、6-硝基藜芦氧基(Nvoc)、烯丙氧基羰基(Alloc)、邻硝基苯磺酰基(Ns)、甲砜基乙氧羰基(Msec)、三氟乙酰基(CF3CO)等。
当其中一个反应基团是炔基时,可以带有保护基,保护基可以是三甲基硅基(TMS)、三乙基硅基(TES)、三异丙基硅基(TIPS)等。
当其中一个反应基团是醛时,可以带有保护基,保护基可以是二甲氧基缩醛、二乙氧基缩醛、乙二醇缩醛等。
当其中一个反应基团是酮时,可以带有保护基,保护基可以是二甲氧基缩酮、二乙氧基缩酮、乙二醇缩酮等。
当其中一个反应基团是羧基时,可以带有保护基,保护基可以是甲酯、乙酯、异丙酯,叔丁酯等。
当其中一个反应基团是环加成反应的双烯和亲双烯体基时,可以是胸腺嘧啶(Thymine)和补骨脂素(Psoralen)、马来酰亚胺(maleimide)和丁二烯等。
(6)步骤(5)得到的n个循环两端修饰的核苷酸双链集合的链接方法:
a、两个相邻循环的核苷酸双链集合的两端修饰化学基团,因为两条突出的碱基序列碱基完全互补配对,在合适的条件下,这两个核苷酸双链会迅速杂交成为一个双链复合物,拉近了配对区末端的碱基上的两个化学基团的空间距离,使得它们的有效浓度升高,从而使得原本是分子间的化学反应转化为分子内的化学反应,反应速率大大提高。
b、双链杂交成复合物要求突出碱基序列必须严格遵守碱基互补配对原则,没有配对的突出碱基序列上带有的化学基团不会发生分子内反应,因此使得链接具有很好的选择性。
其中,步骤(1)得到的是3至50bp的碱基完全互补配对的核苷酸双链作为编码区,优选地,是5至15bp。
其中,步骤(1)规则五要求的是不同核苷酸双链之间的分子量最大差值与核苷酸双链的平均分子量之比不能超过0.1%。优选地,不同核苷酸双链之间的分子量最大差值是3,因为完全碱基互补配对的核苷酸双链中A/T=G/C=1,而DNA碱基序列中A的分子量是313.21,T的分子量是304.19,C的分子量是289.18,G的分子量是329.21,因而,A+T的分子量(617.4)只比G+C的分子量是(618.39)少1,考虑到GC含量在40-60%,实际上也就是控制核苷酸双链中(A+T)/(G+C)=0.67-1.5的比率,就可以达到控制核苷酸双链集合中分子量差异的目的。以10bp编码区为例,GC最高可以有10bp,最低是0bp,但是符合GC含量在40-60%,只有AT是4bp且GC是6bp((A+T)/(G+C)=0.67),或AT是5bp且GC是5bp((A+T)/(G+C)=1),或AT是6bp且GC是4bp((A+T)/(G+C)=1.5)。
其中,步骤(2)得到的是2至20bp的碱基完全互补配对的核苷酸双链作为配对区,优选地,是2至10bp。
其中,步骤(3)得到的是5至70bp的部分碱基互补配对的带有突出碱基序列的核苷酸双链,优选地,是7至25bp。
本发明提及的碱基对,不做特殊说明时,均不考虑突出的碱基序列长度,只计算完全碱基互补配对的碱基对个数。
其中,步骤(3)组合时使用的配对区和编码区核苷酸双链在同一个循环的上链或下链使用的是相同碱基长度的核苷酸链,但是组合后上下链之间的碱基长度可以是一样的,也可以是不一样的,也就是得到的部分碱基互补配对的带有突出碱基序列的核苷酸双链的上下链可以是相同碱基长度,也可以是不同碱基长度。
其中,步骤(3)组合得到的核苷酸双链的突出碱基序列可以在上下链的5’端或是3’端,也可以全部在上链或下链的两端,只需要相邻的两个循环的核苷酸双链的配对区可以完成碱基配对即可。
其中,步骤(3)组合时不同循环的编码区的碱基长度可以是一样的,也可以是不一样的,同一个循环使用的配对区碱基长度可以是一样的,也可以是不一样的,但是相邻两个循环的核苷酸双链的配对区的碱基长度必须是一样的,才能让两个循环的核苷酸双链完全配对并在一定条件下链接。
其中,步骤(4)再次筛选主要是查看组合后的核苷酸链因为碱基长度加长了,新的核苷酸链中有没有新产生的能形成发卡,或连续出现3个或以上的相同碱基,或可以发生错配的情况。
其中,步骤(5)得到的是7至70bp的部分碱基互补配对的带有突出碱基序列的,两端碱基序列连有特定化学功能团的核苷酸双链,优选地,是7至25bp。
其中,步骤(5)中两端碱基序列连有特定化学功能团在一个循环的核苷酸双链中可以重复使用一种反应基团和其互补反应基团,也可以交叉使用两种或以上的反应基团和其互补反应基团。
其中,步骤(6)的链接方式可以是化学链接,也可以是生物酶催化链接。
本发明的核苷酸双链的计算机编码方法,它是以计算机编程为基础,综合利用分子生物学、组合化学和生物信息学知识来设置一定的过滤规则得到核苷酸双链的编码区和配对区,它们再通过一定的规则组合在一起,得到的每一个循环的核苷酸双链都具有相似的分子量(分子量差异在3以内),符合分子生物学的引物(Primer)设计要求,相邻循环的核苷酸双链之间可以通过突出碱基序列互补配对,并通过两端修饰的具体的化学基团通过化学反应或是生物酶催化的方式进行链接。
其中,所述的核苷酸双链碱基序列编码区的长度是3至50bp。优选地,所述的核苷酸双链碱基序列编码区的长度是5至15bp。
核苷酸双链碱基序列编码区的长度是5bp,理论上可以得到最多1024个不同的碱基序列的核苷酸双链,该数量的核苷酸双链可用于标记最多1024个用于DNA编码化合物文库的片段化合物;核苷酸双链碱基序列编码区的长度是6bp,理论上可以得到最多4096个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是7bp,理论上可以得到最多16384个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是8bp,理论上可以得到最多65536个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是9bp,理论上可以得到最多262144个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是10bp,理论上可以得到最多1048576个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是11bp,理论上可以得到最多4194304个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是12bp,理论上可以得到最多16777216个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是13bp,理论上可以得到最多67108864个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是14bp,理论上可以得到最多268435456个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是15bp,理论上可以得到最多1073741824个不同的碱基序列的核苷酸双链,该数量的核苷酸双链可用于标记最多1073741824个用于DNA编码化合物文库的片段化合物。
实际使用中,根据筛选规则得到的符合要求的不同碱基序列的核苷酸双链编码区的数目远远小于计算值,如9bp的核苷酸双链编码区,通过我们的筛选规则,汉明距离大于等于2的有12057个,汉明距离大于等于3的仅仅只有1391个,具体需要多长的核苷酸双链取决于构建DNA编码化合物文库时同一类型的需要编码的片段化合物有多少。
一般情况下,一个DNA编码化合物文库的一个循环的片段化合物的数量不会超过3万个,因此核苷酸双链编码区的长度在15bp的长度已经能满足绝大部分DNA编码化合物文库的需求。
其中,所述的核苷酸双链碱基序列配对区的长度是2至20bp。优选地,所述的核苷酸双链碱基序列配对区的长度是2至10bp。
核苷酸双链碱基序列配对区的长度是2bp,理论上可以得到最多16个不同的碱基序列,排除掉回文序列AT、TA、CG和GC,共计有12个不同碱基序列可用于最多6个循环的DNA编码化合物文库;核苷酸双链碱基序列配对区的长度是3bp,理论上可以得到最多64个不同的碱基序列;核苷酸双链碱基序列配对区的长度是4bp,理论上可以得到最多256个不同的碱基序列;核苷酸双链碱基序列配对区的长度是5bp,理论上可以得到最多1024个不同的碱基序列;核苷酸双链碱基序列配对区的长度是6bp,理论上可以得到最多4096个不同的碱基序列;核苷酸双链碱基序列配对区的长度是7bp,理论上可以得到最多16384个不同的碱基序列;核苷酸双链碱基序列配对区的长度是8bp,理论上可以得到最多65536个不同的碱基序列;核苷酸双链碱基序列配对区的长度是9bp,理论上可以得到最多262144个不同的碱基序列;核苷酸双链碱基序列配对区的长度是10bp,理论上可以得到最多1048576个不同的碱基序列。
实际使用中,根据筛选规则得到的符合要求的用于配对区的不同碱基序列的数目远远小于计算值,如2bp的核苷酸双链,通过我们的筛选规则的,排除掉回文序列AT、TA、CG和GC,共计只有12个不同碱基序列;考虑到化学链接时的效率,通过DNA模板链接来提高化学链接的效率,此时配对区的碱基长度需要达到6个碱基以上才能保证模板链接的效率。
其中,所述的配对区和编码区核苷酸单链组合时,在同一个循环的上链或是下链使用的是相同碱基长度的核苷酸链,但是得到的部分碱基互补配对的带有突出碱基序列的核苷酸双链的上下链可以是相同碱基长度,也可以是不同碱基长度。
本发明方法是一种高效的,操作简单,能快速得到足够多数量的部分碱基序列互补配对且带有突出碱基序列的用于DNA编码化合物文库构建的计算机编码方法,在DNA编码化合物文库构建中应用前景广泛。
本发明所述的带有突出碱基序列的部分碱基互补配对的核苷酸双链一般是人工合成得到的。
附图说明
图1为本发明的一个具体的由配对区碱基序列、编码区碱基序列和两端的化学基团组成的两端带有特定化学基团、核苷酸双链两侧都具有突出碱基序列的部分碱基互补配对的核苷酸双链的示意图。其中,配对区和编码区的碱基序列共有4种组合形式,5’和3’代表核苷酸双链的碱基序列方向,R1、R2、R3和R4表示特定的化学反应基团,M、N是配对区的碱基,X和Y是编码区的碱基,X代表上链的碱基,Y代表下链的碱基,它们都可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基的核苷酸,m、n表示配对区的碱基个数,m/n=2、3、……、20,k表示编码区的碱基个数,k=3、4、……、50,每条单链中字母之间的连字符“—”表示这些字母代表的化学基团或核苷酸单体是通过共价键链接的,字符的长度不代表共价键的长度,上下链的编码区之间的字母X和Y之间的虚线“---”表示上下链的编码区的碱基之间是通过氢键而形成配对,虚线只代表发生了氢键作用,其个数不代表碱基之间的形成氢键的具体个数。
图2为本发明得到的部分碱基互补配对的核苷酸双链的相邻三个循环的核苷酸双链的配对和链接方法的示意图。其中,R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11和R12表示特定的化学反应基团,M、N、O和P是配对区的碱基,X和Y是编码区的碱基,X代表上链的碱基,Y代表下链的碱基,这些碱基可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基,m、n、o、p表示配对区的碱基个数,m、n、o和p可以相同,也可以互不相同,j、k、l分别表示该循环的核苷酸双链编码区的碱基个数,j、k、l可以相同,也可以互不相同,前一个循环的上链的3’端突出碱基序列与下一个循环的下链的3’端突出碱基序列是完全碱基互补配对的,R2和R5,R4和R7,R6和R9,R8和R10是反应基团和其互补反应基团,他们可以带有保护基团。
图3为本发明得到的部分碱基互补配对的核苷酸双链的相邻三个循环的核苷酸双链的配对和链接方法的示意图。其中,R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11和R12表示特定的化学反应基团,M、N、O和P是配对区的碱基,X和Y是编码区的碱基,X代表上链的碱基,Y代表下链的碱基,这些碱基可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基,m、n、o、p表示配对区的碱基个数,m、n、o和p可以相同,也可以互不相同,j、k、l分别表示该循环的核苷酸双链编码区的碱基个数,j、k、l可以相同,也可以互不相同,前一个循环的下链的5’端突出碱基序列与下一个循环的上链的5’端突出碱基序列是完全碱基互补配对的,R2和R5,R4和R7,R6和R9,R8和R10是反应基团和其互补反应基团,他们可以带有保护基团。
图4为本发明得到的部分碱基互补配对的核苷酸双链的相邻三个循环的核苷酸双链的配对和链接方法的示意图。其中,R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11和R12表示特定的化学反应基团,M、N、O和P是配对区的碱基,X和Y是编码区的碱基,X代表上链的碱基,Y代表下链的碱基,这些碱基可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基,m、n、o、p表示配对区的碱基个数,m、n、o和p可以相同,也可以互不相同,j、k、l分别表示该循环的核苷酸双链编码区的碱基个数,j、k、l可以相同,也可以互不相同,第一个循环的上链的3’配对区与第二个循环的下链的3’配对区的碱基序列是互补配对的,第二个循环的下链的5’配对区与第三个循环的上链的5’配对区的碱基序列是互补配对的,R2和R5,R4和R7,R6和R9,R8和R10是反应基团和其互补反应基团,反应基团可以带有保护基团。
图5为本发明得到的部分碱基互补配对的核苷酸双链的相邻三个循环的核苷酸双链的配对和链接方法的示意图。其中,R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11和R12表示特定的化学反应基团,M、N、O和P是配对区的碱基,X和Y是编码区的碱基,X代表上链的碱基,Y代表下链的碱基,这些碱基可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基,m、n、o、p表示配对区的碱基个数,m、n、o和p可以相同,也可以互不相同,j、k、l分别表示该循环的核苷酸双链编码区的碱基个数,j、k、l可以相同,也可以互不相同,第一个循环的下链的5’配对区与第二个循环的上链的5’配对区的碱基序列是互补配对的,第二个循环的上链的3’配对区与第三个循环的下链的3’配对区的碱基序列是互补配对的,R2和R5,R4和R7,R6和R9,R8和R10是反应基团和其互补反应基团,反应基团可以带有保护基团。
图6为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则一的示意图:核苷酸双链中上链或下链自身通过碱基互补配对形成反向互补的同源双链,需要去除,共有2种不同的形式1和2。其中,R1和R2表示特定的化学反应基团,N是配对区的碱基,X代表双链中某一个单链的碱基,这些碱基可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基,n表示配对区的碱基个数,m表示该循环的编码区的碱基个数。
图7为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则二的的示意图:核苷酸双链中上链或下链的5’端和3’端有o个碱基能通过碱基互补配对形成一小段双链,从而让该条核苷酸单链自身通过形成发卡形式得到部分双链,o=3,4,……,(p/2)-1,p是该链的总的碱基个数,p/2不是整数时,四舍五入取整,需要去除,共有3种不同的形式1、2和3。其中,R1和R2表示特定的化学反应基团,M和N是配对区的碱基,X代表双链中某一个单链的碱基,这些碱基可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基,m和n表示配对区的碱基个数,l表示该循环的编码区的碱基个数。
图8为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则三的示意图:核苷酸双链中的上链和下链在错位o个碱基后形成反向互补的双链,o=1,2,……,(p/2)+1,p是该链的总的碱基个数,p/2不是整数时,四舍五入取整,需要去除,共有3种不同的形式1、2和3。其中,R1、R2、R3和R4表示特定的化学反应基团,M和N是配对区的碱基,X和Y代表双链中某一个单链的碱基,这些碱基可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基,m和n表示配对区的碱基个数,l表示该循环的编码区的碱基个数。
图9为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则四和五的示意图:一个循环内,核苷酸双链之间的最大分子量差异与该循环内核苷酸双链的平均分子量之比不能超过0.1%。优选地,一个循环的核苷酸双链的最大分子量差异不能超过3,而A+T的分子量(617.4)只比G+C的分子量(618.39)少1,考虑到GC含量在40-60%,实际上也就是控制核苷酸双链中(A+T)/(G+C)的比率在0.67-1.5之间即可达到控制核苷酸双链集合中分子量差异的目的,以10bp编码区为例,GC最高可以有10bp,最低是0bp,但是符合GC含量在40-60%,只有AT是4bp且GC是6bp((A+T)/(G+C)=0.67),或AT是5bp且GC是5bp((A+T)/(G+C)=1.0),或AT是6bp且GC是4bp((A+T)/(G+C)=1.5),该核苷酸双链的最大分子量差异是2。
图10为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则八的示意图:核苷酸双链集合中各个碱基序列之间的汉明距离需要大于等于2,优选地,汉明距离大于等于3。其中,图示的两条链都是该集合中的上链,R1和R2表示特定的化学反应基团,M是配对区的碱基,X和Y代表双链中某一个单链的碱基,X和Y是不相同的,Y不一定需要在连续出现,可以在编码区随机出现,这些碱基可以是核苷酸链中常规核苷酸A、T、C和G或他们的组合得到的简并碱基或人工修饰过的碱基,m表示配对区的碱基个数,l表示该循环的编码区的碱基个数。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,两个突出碱基序列均在单链的3’端的编码区为9bp且汉明距离大于等于4的核苷酸双链的计算机编码方法
1、编码区为9bp且汉明距离大于等于4的核苷酸双链的计算机编码方法
本次编码采用软件shell和Python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列完全相同的话,应该理解为在本发明专利保护范围内。
具体的代码如下:
得到的汉明距离大于等于4的核苷酸双链共632对具体碱基序列。
2、配对区为2个碱基的计算机编码方法
因为只有4个碱基,通过简单的数学的排列组合方法就可以得到16个2个碱基的排列组合和他们的互补配对的碱基序列,但是因为配对区和编码区组合得到的核苷酸双链不具有方向性,上下链颠倒过来仍然可以被识别和配对,因此,我们把上链碱基序列和下链碱基序列是相同的去除,具体得到10对碱基序列,其中AT、TA、CG和GC是短的回文序列,应去除,最终得到6组配对区碱基序列,不重复使用的情况下,理论上可以用于6个循环的DNA编码化合物文库的构建,这6组碱基序列具体如下:
配对区核苷酸双链编号 配对区核苷酸双链上链(5’->3’) 配对区核苷酸双链下链(5’->3’)
B2-01 AA TT
B2-02 AC GT
B2-03 AG CT
B2-04 TC GA
B2-05 TG CA
B2-06 CC GG
3、配对区碱基序列的5’端和编码区核苷酸单链的3’端组合方法
本次操作使用的是Microsoft Office Excel的2007版本,利用Excel上面的排列和组合功能,把具体的配对区碱基序列组合到编码区的核苷酸单链上,这里以三个循环的核苷酸双链为例,先确定三个循环的突出的碱基序列,我们随机选择三组配对区碱基序列并认定如下:
循环数 上链3’端突出碱基序列(5’->3’) 下链3’端突出碱基序列(5’->3’)
1 GT CT
2 GA AC
3 TT TC
4、配对区和编码区的碱基序列组合在一起的核苷酸双链进行筛选的计算机编码方法
本次编码采用软件shell和Python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列相同的话,应该理解为在本发明专利保护范围内。
具体的代码如下:
得到的汉明距离大于等于4的,配对区和编码区组合后满足筛选条件的核苷酸双链碱基序列283对。
5、对各个循环的核苷酸双链的两端进行修饰,得到最终可用于DNA编码化合物文库构建的核苷酸双链
由于核苷酸双链的共价连接可以通过生物酶链接,也可以通过化学链接,这里以最简单的生物酶链接需要的功能团为例,5’端用磷酸修饰,3’端是核苷酸自身带有的OH,最终得到的修饰后可用于DNA编码化合物文库构建的核苷酸双链的碱基序列如下:
实施例1得到的带有两个突出碱基序列均在单链的3’端、编码区为9bp且汉明距离大于等于4的核苷酸双链,可以通过生物酶链接来参与DNA编码化合物文库构建,因为突出碱基序列的存在,生物酶链接效率大大高于平齐末端的核苷酸双链,因为汉明距离大于等于4,该套核苷酸双链在PCR和测序过程中即使发生突变,也不会影响最终测序数据的准确性,不需要再用完全匹配(Perfect Match)的办法来解析测序数据,通过近似匹配的办法即可,会大大提高测序后数据的有效数据量,减少因为PCR和测序过程中碱基发生突变导致的大量测序数据直接被丢弃,不能解析的问题,减少了因此导致的很好吸附的小分子没有被找到的担忧。
实施例2,两个6个碱基的突出均在单链的3’端的、编码区为6bp且汉明距离大于等于4的核苷酸双链的计算机编码方法
1、编码区为6bp且汉明距离大于等于4的核苷酸双链的计算机编码方法
本次编码采用软件shell和Python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列完全相同的话,应该理解为在本发明专利保护范围内。
具体的代码如下:
得到的汉明距离大于等于4的核苷酸双链共28对。
2、配对区核苷酸双链为6个碱基(overhang)的计算机编码方法
本次编码采用软件shell和Python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列完全相同的话,应该理解为在本发明专利保护范围内)。
具体的代码如下:
得到具体的核苷酸双链配对区碱基序列2128对。
3、配对区碱基序列的5’端和编码区核苷酸单链的3’端组合方法
本次操作使用的是Microsoft Office Excel的2007版本,利用Excel上面的排列和组合功能,把具体的配对区碱基序列组合到编码区的核苷酸单链上,这里以三个循环的核苷酸双链为例,我们选定三个循环的突出碱基序列如下:
循环数 上链3’端突出碱基序列(5’->3’) 下链3’端突出碱基序列(5’->3’)
1 ACACAG ACTAGC
2 TCTGAC CTGTGT
3 CGTACA GTCAGA
4、配对区和编码区的碱基序列组合在一起的核苷酸双链进行筛选的计算机编码方法
本次编码采用软件Python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列相同的话,应该理解为在本发明专利保护范围内。
具体的代码如下:
筛选后得到具体的核苷酸双链14对。
5、对各个循环的核苷酸双链的两端进行修饰,得到最终可用于DNA编码化合物文库构建的核苷酸双链
由于核苷酸双链的共价连接可以通过生物酶链接,也可以通过化学链接,这里选定5’端用磷酸修饰,3’端是核苷酸自身带有的OH,最终得到的修饰后的碱基序列如下:
实施例2得到的两个6个碱基的突出均在单链的3’端的、编码区为6bp且汉明距离大于等于4的核苷酸双链,可以通过化学链接的方法用于DNA编码化合物文库的构建,因为两条突出的6个碱基完全互补配对,之间的氢键数量在12-18个之间,95℃退火5分钟后这两个核苷酸双链会迅速杂交成为一个双链复合物,拉近了配对区末端的碱基上的两个化学基团的空间距离,使得它们的有效浓度升高,从而使得原本是分子间的化学反应转化为分子内的化学反应,通过氰基咪唑和Zn2+催化的化学链接可以大大提高反应速率,汉明距离大于等于4的优点在实施例1中已经阐明,这里不再累述。
综上所述,上述各实施例及附图仅为本发明的较佳实施例而已,并不用以限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,皆应包含在本发明的保护范围内。

Claims (34)

1.一种用于DNA编码化合物文库构建的核苷酸双链的计算机编码方法,其特征在于,所述方法包括:
(a)提供核苷酸双链编码区的计算机编码方法,按照设置的筛选规则对得到的编码区的有m个碱基对的核苷酸双链进行筛选,其中,m是3到50之内的整数;
其中,具体的筛选规则包括:所述核苷酸双链中任一单链自身不能通过碱基互补配对形成反向互补的同源双链;所述核苷酸双链中任一单链自身的5’端和3’端附近不能有n个碱基能通过碱基互补配对形成发卡形式,n为≥3的整数;所述核苷酸双链中的上链和下链在错位o个碱基后不能形成反向互补的双链;所述核苷酸双链中任一单链的GC含量必须是在40-60%;所述核苷酸双链之间的最大分子量差异与核苷酸双链的平均分子量之比不能超过0.1%;所述核苷酸双链中任一单链不能连续出现3个或3个以上的相同碱基;所述核苷酸双链的上链可以和另一个核苷酸双链的下链相同;所述核苷酸双链中各个碱基序列之间的汉明距离需要大于等于2;
(b)提供核苷酸双链配对区的计算机编码方法,按照设置的筛选规则对得到的配对区的有n个碱基对的核苷酸双链进行筛选,其中,n是2到20之内的整数;
其中,具体的筛选规则包括:所述核苷酸双链中任一单链自身不能是回文序列且其5’端和3’端附近能形成发卡结构的碱基数量之和不超过整条单链的碱基总数的50%;所述核苷酸双链中任一单链自身不能连续含有3个或3个以上的相同碱基;所述核苷酸双链中任一单链的GC含量在20-80%之间;
(c)提供由所述核苷酸双链编码区和所述核苷酸双链配对区组合得到一个循环的5’或3’端有突出的核苷酸双链的组合方法,配对区核苷酸双链的任一单链可以任意与编码区核苷酸双链的任一单链在任意一端组合,但是配对区核苷酸双链的一对碱基完全互补配对的双链不可以同时出现在一个循环的核苷酸双链集合内,同一个碱基序列也不可以同时出现在一个循环的核苷酸双链集合内;
组合下一个循环的核苷酸双链,必须考虑上一个循环的组合情况,让两个循环的突出碱基序列可以完全碱基互补配对;
(d)提供组合后的核苷酸双链集合的筛选的计算机编码方法,按照设置的筛选规则,对组合后两侧都带有突出碱基序列的核苷酸双链进行筛选;
其中,具体的筛选规则是指:所述核苷酸双链中任一单链自身的5’端和3’端附近不能有o个碱基能通过碱基互补配对形成发卡形式;所述核苷酸双链中的上链和下链在错位p个碱基后不能形成反向互补的双链;所述核苷酸双链中任一单链不能连续出现3个或以上的相同碱基;
(e)提供对得到的n个循环的核苷酸双链集合的两端进行修饰的方法;
(f)提供对得到的n个循环两端修饰的核苷酸双链集合的链接方法。
2.如权利要求1所述的方法,其特征在于,所述步骤(a)中m是3到50之内的整数,n=3、4、……、(m/2)-1,o=1、2、……、(m/2)+1,m是该条单链的碱基长度。
3.如权利要求2所述的方法,其特征在于,所述m的取值是5到15之内的整数。
4.如权利要求1所述的方法,其特征在于,所述步骤(a)中核苷酸双链中(A+T)/(G+C)比率在0.67-1.5。
5.如权利要求1所述的方法,其特征在于,所述步骤(a)中核苷酸双链之间的最大分子量差异与核苷酸双链的平均分子量之比不超过0.02%。
6.如权利要求1所述的方法,其特征在于,所述步骤(a)中核苷酸双链中各个碱基序列之间的汉明距离大于等于3。
7.如权利要求1所述的方法,其特征在于,所述步骤(b)的n是2到10之内的整数。
8.如权利要求1所述的方法,其特征在于,所述步骤(b)核苷酸双链中任一单链的GC含量在20-80%之间,但当只有2个碱基作为配对区碱基序列时,则不用考虑GC含量这一限制。
9.如权利要求1所述的方法,其特征在于,所述步骤(c)中根据起始头片段的突出碱基序列的情况,来确定第一个循环的核苷酸双链的配对区和编码区的组合,组合时都是按照5’到3’方向来组合,一个单链的5’端与另一个单链的3’组合,或是一个单链的3’端与另一个单链的5’组合。
10.如权利要求9所述的方法,其特征在于,所述步骤(c)中,组合时配对区可以组合在一个编码区核苷酸单链上的一端,也可以组合在一个编码区核苷酸单链上的两端。
11.如权利要求10所述的方法,其特征在于,所述步骤(c)中,配对区组合在一个编码区核苷酸单链上的两端时,编码区核苷酸另一互补单链不再需要组合配对区的碱基序列。
12.如权利要求10所述的方法,其特征在于,所述步骤(c)中,组合后的突出碱基序列必须出现在核苷酸双链的两侧。
13.如权利要求9所述的方法,其特征在于,所述步骤(c)中,同一个配对区的核苷酸单链可以反复出现在不同循环的核苷酸双链集合中。
14.如权利要求9所述的方法,其特征在于,所述步骤(c)中,同一个配对区的核苷酸单链不可以出现在同一个循环的核苷酸双链集合中。
15.如权利要求9所述的方法,其特征在于,所述步骤(c)中,一对碱基互补配对的配对区的核苷酸双链不可以出现在同一个循环的核苷酸双链集合中。
16.如权利要求9所述的方法,其特征在于,所述步骤(c)中,组合后,相邻两个循环的核苷酸双链的配对区的碱基序列是完全互补配对的。
17.如权利要求1所述的方法,其特征在于,其中步骤(d)时,不再考虑同源双链、GC含量、分子量差异和汉明距离。
18.如权利要求1所述的方法,其特征在于,其中步骤(e)时,相邻的两个循环的核苷酸双链的配对区上带有的修饰功能团是一对反应基团和其互补反应基团。
19.如权利要求18所述的方法,其特征在于,这一对反应基团和其互补反应基团都带有保护基,或是通过一步反应转化得到。
20.如权利要求18所述的方法,其特征在于,这一对反应基团和其互补反应基团可以是磷酸基和羟基、炔基和叠氮基、重氮基和炔基、碘基和硫代磷酸酯基、仲胺基与醛或酮基、氨基与羧酸基、氨基与烷基卤或芳基卤、氨基与烯基或炔基、磷叶立德基团和醛或酮基、环加成反应的双烯和亲双烯体基。
21.如权利要求20所述的方法,其特征在于,这一对反应基团和其互补反应基团是磷酸基和羟基。
22.如权利要求20所述的方法,其特征在于,这一对反应基团和其互补反应基团是炔基和叠氮基。
23.如权利要求20所述的方法,其特征在于,当其中一个反应基团是伯胺,且带有保护基时,保护基选自芴甲氧羰基(Fmoc)、叔丁氧羰基(Boc)、6-硝基藜芦氧基(Nvoc)、烯丙氧基羰基(Alloc)、邻硝基苯磺酰基(Ns)、甲砜基乙氧羰基(Msec)、三氟乙酰基(CF3CO)。
24.如权利要求20所述的方法,其特征在于,当其中一个反应基团是仲胺,且带有保护基时,保护基选自芴甲氧羰基(Fmoc)、叔丁氧羰基(Boc)、6-硝基藜芦氧基(Nvoc)、烯丙氧基羰基(Alloc)、邻硝基苯磺酰基(Ns)、甲砜基乙氧羰基(Msec)、三氟乙酰基(CF3CO)。
25.如权利要求20所述的方法,其特征在于,当其中一个反应基团是炔基,且带有保护基时,保护基选自三甲基硅基(TMS)、三乙基硅基(TES)、三异丙基硅基(TIPS)。
26.如权利要求20所述的方法,其特征在于,当其中一个反应基团是醛,且带有保护基时,保护基选自二甲氧基缩醛、二乙氧基缩醛、乙二醇缩醛。
27.如权利要求20所述的方法,其特征在于,当其中一个反应基团是酮,且带有保护基时,保护基选自二甲氧基缩酮、二乙氧基缩酮、乙二醇缩酮。
28.如权利要求20所述的方法,其特征在于,当其中一个反应基团是羧基,且带有保护基时,保护基选自甲酯、乙酯、异丙酯、叔丁酯。
29.如权利要求20所述的方法,其特征在于,当其中一个反应基团是环加成反应的双烯和亲双烯体基时,所述双烯和亲双烯体基选自胸腺嘧啶(Thymine)和补骨脂素(Psoralen)、马来酰亚胺(maleimide)和丁二烯。
30.如权利要求1所述的方法,其特征在于,其中步骤(f)时,链接方法为生物酶链接或化学链接。
31.如权利要求30所述的方法,其特征在于,化学链接时,突出碱基序列需要大于等于6个碱基。
32.如权利要求1所述的方法,其特征在于,其中计算机编码所有的软件是shell和Python语言。
33.如权利要求1所述的方法,其特征在于,得到的带有突出碱基序列的核苷酸双链是用于DNA编码化合物文库的构建。
34.如权利要求33所述的方法,其特征在于,带有突出碱基序列的核苷酸双链是人工合成得到的。
CN201711247220.4A 2017-12-01 2017-12-01 一种用于dna编码化合物文库的核苷酸双链的计算机编码方法 Active CN107958139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711247220.4A CN107958139B (zh) 2017-12-01 2017-12-01 一种用于dna编码化合物文库的核苷酸双链的计算机编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711247220.4A CN107958139B (zh) 2017-12-01 2017-12-01 一种用于dna编码化合物文库的核苷酸双链的计算机编码方法

Publications (2)

Publication Number Publication Date
CN107958139A true CN107958139A (zh) 2018-04-24
CN107958139B CN107958139B (zh) 2021-04-16

Family

ID=61962842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711247220.4A Active CN107958139B (zh) 2017-12-01 2017-12-01 一种用于dna编码化合物文库的核苷酸双链的计算机编码方法

Country Status (1)

Country Link
CN (1) CN107958139B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109680342A (zh) * 2018-12-18 2019-04-26 上海药明康德新药开发有限公司 DNA编码化合物库中On-DNA芳硝基化合物还原成On-DNA芳胺化合物的方法
CN110021366A (zh) * 2018-11-21 2019-07-16 中国科学院上海药物研究所 一种基于dna编码化合物数据库的系统及其分析方法
CN112102883A (zh) * 2020-08-20 2020-12-18 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统
CN113981545A (zh) * 2021-05-08 2022-01-28 上海大学 一种dna自组装用序列文库、其结构元件及其应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101864412A (zh) * 2003-12-17 2010-10-20 普雷西斯药品公司 合成编码文库的方法
WO2017013416A1 (en) * 2015-07-17 2017-01-26 The Royal Veterinary College Methods for identifying agents having neuroprotective or anti-oxidant activity for regualting; mitochondrial function.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101864412A (zh) * 2003-12-17 2010-10-20 普雷西斯药品公司 合成编码文库的方法
WO2017013416A1 (en) * 2015-07-17 2017-01-26 The Royal Veterinary College Methods for identifying agents having neuroprotective or anti-oxidant activity for regualting; mitochondrial function.

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANDREW B. MACCONNELL等: "《DNA-Encoded Solid-Phase Synthesis: Encoding Language Design and Complex Oligomer Library Synthesis》", 《ACS COMBINATORIAL SCIENCE》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021366A (zh) * 2018-11-21 2019-07-16 中国科学院上海药物研究所 一种基于dna编码化合物数据库的系统及其分析方法
CN109680342A (zh) * 2018-12-18 2019-04-26 上海药明康德新药开发有限公司 DNA编码化合物库中On-DNA芳硝基化合物还原成On-DNA芳胺化合物的方法
CN109680342B (zh) * 2018-12-18 2021-09-28 上海药明康德新药开发有限公司 DNA编码化合物库中On-DNA芳硝基化合物还原成On-DNA芳胺化合物的方法
CN112102883A (zh) * 2020-08-20 2020-12-18 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统
CN112102883B (zh) * 2020-08-20 2023-12-08 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统
CN113981545A (zh) * 2021-05-08 2022-01-28 上海大学 一种dna自组装用序列文库、其结构元件及其应用
CN113981545B (zh) * 2021-05-08 2024-03-19 上海大学 一种dna自组装用序列文库、其结构元件及其应用

Also Published As

Publication number Publication date
CN107958139B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN107958139A (zh) 一种用于dna编码化合物文库的核苷酸双链的计算机编码方法
ES2382542T3 (es) Polinucleótidos para su utilización como etiquetas y complementos de etiqueta, fabricación y utilización de los mismos
AU2018331434B2 (en) Universal short adapters with variable length non-random unique molecular identifiers
CN106939344B (zh) 用于二代测序的接头
CN104695027B (zh) 测序文库及其制备和应用
CN104232627B (zh) 2b‑RAD混合建库技术
CN105934523A (zh) 核酸的多重检测
JPH09501561A (ja) 核酸配列のハイブリダイゼーションと配列決定
WO2017054302A1 (zh) 测序文库及其制备和应用
CN101570784B (zh) 基于信号组合编码的dna连接测序方法
Cheng et al. Methods to improve the accuracy of next-generation sequencing
US20080131875A1 (en) Multiplex assays
CN108359723B (zh) 一种降低深度测序错误的方法
CN108165618A (zh) 一种包含核苷酸和3’端可逆封闭核苷酸的dna测序方法
CN103951724B (zh) 一种特殊修饰的核苷酸及其在高通量测序方面的应用
KR20220011725A (ko) 네스티드 다중 pcr 고처리량 시퀀싱 라이브러리의 제조 방법 및 키트
WO2006004365A1 (en) The method selecting highly specific probes for hpv genotype analysis and the probes thereof
CN101693918B (zh) 一种提高核酸内切酶v切割位置特异性的方法
US20050186573A1 (en) Polynucleotides for use as tags and tag complements in the detection of nucleic acid sequences
CN112280842B (zh) 一种3’端羟基可逆封闭核苷酸合成测序法
CN113897418B (zh) 检测dna点突变的探针、试剂盒及应用
CN101597643B (zh) 带背景验证的信号组合编码dna连接测序方法
CN115323043A (zh) 一种基于核苷酸二聚体为单体的合成测序方法
WO2004092376A1 (ja) 正規直交化配列群の設計方法、正規直交化配列である核酸群の製造方法およびそれにより得られた核酸
CN107858411A (zh) 基于高通量测序的三段式探针扩增方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wu Aliang

Inventor after: Cui Weiren

Inventor after: Zhang Zaihong

Inventor after: Chen Wenting

Inventor after: Li Ke

Inventor after: Xing Li

Inventor after: Yang Hongfang

Inventor after: Peng Xuanjia

Inventor before: Wu Aliang

Inventor before: Cui Weiren

Inventor before: Zhang Zaihong

Inventor before: Chen Wenting

Inventor before: Li Ke

Inventor before: Xing Li

Inventor before: Yang Hongfang

Inventor before: Peng Xuanjia

GR01 Patent grant
GR01 Patent grant