CN112562789A

CN112562789A - 一种确定dna编码化合物库筛选中特定序列与生物靶标结合的方法

Info

Publication number: CN112562789A
Application number: CN202010994324.7A
Authority: CN
Inventors: 李进; 李游; 邓磊; 覃柳; 张丽芳; 程学敏
Original assignee: Hitgen Inc
Current assignee: Hitgen Inc
Priority date: 2019-09-24
Filing date: 2020-09-24
Publication date: 2021-03-26

Abstract

本发明公开了一种确定DNA编码化合物库筛选中DNA特定序列与生物靶标产生潜在结合作用的分析方法。通过本发明的方法，可以找出DNA编码化合物库筛选信号中可能由DNA特定序列与生物靶标结合产生的假阳性信号，从而提高DNA编码化合物筛选的准确性。

Description

一种确定DNA编码化合物库筛选中特定序列与生物靶标结合的方法

技术领域

本发明公开了一种确定DNA编码化合物库筛选中特定序列与生物靶标结合的分析方法。

背景技术

在新药研发领域，针对生物靶标的高通量筛选是快速获得先导化合物的主要手段之一。然而，基于单个分子的传统高通量筛选所需时间长、设备投入巨大、库化合物数量有限(数百万)，且化合物库的建成需要数十年的积累，限制了先导化合物的发现效率与可能性。近年来出现的DNA编码化合物库技术(WO2005058479、WO2018166532、CN103882532)，结合了组合化学和分子生物学技术，通过将一个片段化合物与一段独特序列的DNA(通常叫DNA编码)在分子水平进行连接，利用组合化学的“组合-拆分”策略通过两个至多个循环快速地构建数量巨大的化合物库。目前工业上应用的DNA编码化合物库的规模可以达到千亿至万亿级，能通过筛选和测序的方法进行识别。该技术使得先导化合物的筛选变得前所未有的快捷和高效，成为下一代化合物库筛选技术的趋势，开始在制药行业广泛应用，并产生了诸多积极的效果(Accounts of Chemical Research,2014,47,1247-1255)。

然而，由于DNA编码化合物都带有DNA标签，而某些生物靶标(例如RNA)可能与DNA标签产生相互作用，从而导致筛选数据中产生假阳性信号，干扰真实信号的提取和解读。目前有未在文献中公开报道的方法帮助识别此类信号。具体做法是通过构建带有相同DNA标签、但不含小分子的DNA库作为对照，同时筛选后进行数据分析的方法。但是这种方法需要重新建库，时间较长，成本较高，并且构建出的DNA库与原库的DNA标签很难做到完全一致，从而限制了这种方法的应用。因此，开发一种针对此类生物靶标能够快速、经济地确定其可能由DNA标签导致的假阳性信号的方法，能够进一步提升DNA编码化合物库筛选技术的应用价值。

Barry等在WO2006135786中公开了一种DNA编码化合物，其DNA部分引入了加帽序列，其加帽序列为一段包含兼并碱基的DNA序列。通过筛选后分析兼并碱基，可以确定信号是来自PCR复制的结果(相同序列)还是独立出现的化合物(不同序列)，从而减少数据中的假阳性信号。

发明内容

为了解决上述问题，本发明提供了一种确定DNA编码化合物库筛选中特定序列与生物靶标结合的分析方法。通过本发明的方法，可以找出DNA编码化合物库筛选信号中可能由DNA特定序列与生物靶标结合产生的假阳性信号，从而提高DNA编码化合物筛选的准确性。

本发明提供了一种确定DNA编码化合物库筛选中特定序列与生物靶标结合的分析方法，包括通过DNA编码化合物库筛选信号中的DNA兼并序列分析与生物靶标结合的特定序列。

进一步地，所述DNA编码化合物的DNA部分含有兼并序列。

更进一步地，所述兼并序列为长度4～16的完全随机碱基序列或部分随机碱基序列。

进一步地，在所述通过DNA兼并序列分析与生物靶标结合的特定序列前，识别DNA编码化合物库筛选信号中随机噪音信号。

更进一步地，所述识别DNA编码化合物库筛选信号随机噪音信号的方法为：计算筛选后每种DNA标签拷贝数，拷贝数不高于N的DNA标签信号被标记为随机噪音信号。

进一步具体地，所述N为1、2、3、4、5、6、7、8、9或10。

进一步地，所述分析与生物靶标结合的特定序列的方法为：对兼并序列信号进行聚簇分析，根据聚簇分析结果确定与生物靶标结合的特定序列。

本发明还提供了一种用于确定DNA编码化合物库中特定序列与生物靶标结合的计算机编码方法，包括：通过兼并序列提取模组提取DNA编码序列上的兼并序列区域，通过聚簇分析模组对兼并序列进行聚簇分析。

进一步地，所述计算机编码方法还包括：通过序列组装/比对分析模组将簇中的兼并序列分别进行序列拼接为重叠群，然后将相应簇中的兼并序列与重叠群进行序列比对并计算重叠群每个碱基的覆盖深度。

更进一步地，所述计算机编码方法还包括：通过基序预测模组将覆盖深度排序前1％～20％的区域提取，将给定区域序列在靶标组及对照组兼并序列出现概率的倍数变化5～20倍以上的区域序列标记为与靶标结合的基序。

本发明中所述的DNA编码化合物的DNA部分至少包括DNA标签部分和DNA兼并序列部分。其中DNA标签部分用来标记所对应的化合物结构。

本发明中“编辑距离”指若序列A需要变换最少M个碱基才能变为序列B，则A与B的编辑距离为M。

本发明中“重叠群”指即根据序列中相似片段拼接后形成的连续序列。

本发明中“覆盖深度”指比对结果中，重叠群序列中每个碱基被兼并序列覆盖的次数。

本发明所述的靶标具体为可能与DNA有潜在结合的生物靶标(如RNA等)。利用DNA编码化合物库筛选此类型靶标时，可利用本发明方法预测并确定DNA结合基序并标记可能与DNA结合的假阳性信号。所述“DNA结合基序”即指与某种生物靶标有结合作用的DNA序列。

本发明所述的方法是建立在DNA编码化合物库筛选数据分析之后，对所有已解码的序列进行进一步分析。

显然，根据本发明的上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，还可以做出其它多种形式的修改、替换或变更。

以下通过实施例形式的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。

附图说明

图1为本发明方法的一种具体数据处理流程图。

图2为实施例1中通过本发明方法确定的基序序列在RNA靶标组与对照组数据中不同富集程度的示意图。散点图中每个点代表一个兼并序列，其在靶标组与对照组中富集程度的百分比分别以X坐标轴及Y坐标轴标记。所有靶标组含量显著高于对照组的兼并序列均含确定的DNA结合基序(黑色方块点)。

图3为实施例1中通过本发明方法将标记为与DNA结合的假阳性信号移除前(上)和移除后(下)信号分布情况。X轴为不同DNA编码化合物库，Y轴为信号强度。

图4为实施例2中通过本发明方法验证已知与DNA不结合的蛋白靶标与对照组数据中富集程度的示意图。

图5中左图为实施例3中通过本发明方法确定的基序序列在靶标组与对照组数据中不同富集程度的示意图；右图为实施例3筛选所用的TAR RNA靶标的序列示意图。

图6为实施例4中通过本发明方法确定的基序序列在靶标组与对照组数据中不同富集程度的示意图。

具体实施方式

实施例1、确定RNA靶标的DNA结合基序

按照WO2018166532所述的方法构建DNA编码化合物库，其中DNA部分含有一段长度10bp的兼并碱基。按照WO2018166532所述的DNA编码化合物库筛选方法，对RNA靶标和空白对照组进行筛选，经测序后提取信号数据。按照图1所示的流程图进行数据处理。

通过兼并序列提取模组将DNA标签拷贝数为1或2的化合物DNA部分的兼并序列提取。聚簇分析模组通过计算所有提取的兼并序列的编辑距离。将所有兼并序列进行聚簇分析。序列组装/比对分析模组将簇大小排名前三的簇中的兼并序列分别进行序列拼接为重叠群，然后将相应簇中的兼并序列与重叠群进行序列比对并计算重叠群每个碱基的覆盖深度。基序预测模组将覆盖深度排序前10％的区域提取出来后，若给定区域序列在靶标组及对照组兼并序列出现概率的倍数变化超过10倍，则该区域序列被标记为与靶标结合的基序序列。基序反馈评分模组将预测的基序序列与未被标记为噪音的所有化合物的DNA标签进行序列比对并根据比对结果进行评分。在本实施例中完全匹配评分标记为2，错配评分标记为-3，引入插入缺失评分标记为-5，延长插入缺失评分标记为-2。评分与假设完全匹配得分相除后高于0.6的富集信号将被标记为DNA特定序列与生物靶标结合产生的假阳性信号。

如图3所示，本实施例的筛选信号中存在大量由于DNA与RNA靶标结合导致的假阳性信号。将假阳性信号标记并排除，可以提高DNA编码化合物库筛选结果的准确率。

实施例2、验证已知与DNA无结合的蛋白靶标是否存在DNA结合基序

按照实施例1同样的方法，将靶标组与对照组数据噪音信号中兼并序列含量所占百分比分别标记至X轴与Y轴。结果如图4所示，此蛋白靶标筛选信号中无显著富集的基序序列，此筛选信号中不含有由于DNA序列与靶标结合导致的假阳性信号。

实施例3、确定TAR RNA(Trans-activator response region RNA)作为靶标的DEL筛选中由于DNA-RNA结合的假阳性信号

按照实施例1同样的方法，将TAR RNA组与空白对照组数据噪音信号中兼并序列含量所占百分比分别标记至X轴与Y轴。如图5所示，靶点组富集了大量DNA片段。对靶点组/对照组富集的DNA片段比例最高的数个特定序列进行分析，表明所有特定序列均与TAR RNA的hairpin区(高亮区域)序列相关。此外还有大量序列在靶点组样本中富集程度10倍高于其空白对照组。通过识别DEL筛选结果中富集的带有此类碱基序列的信号，可以较好排除由DNA-RNA结合富集导致的假阳性信号。

实施例4、识别具有DNA结合功能域的解旋酶的DEL筛选中是否存在DNA结合基序

按照实施例1同样的方法，将解旋酶(helicase)组与空白对照组数据噪音信号中兼并序列含量所占百分比分别标记至X轴与Y轴。如图6所示，靶点组及对照组DNA片段整体分布较为相似。但部分AT含量较高的序列在靶点组富集程度略高于对照组，表明该靶点在DEL筛选中可能存在对GC含量较低的DNA片段具有结合性。

Claims

1.一种确定DNA编码化合物库筛选中特定序列与生物靶标结合的分析方法，其特征在于：通过DNA编码化合物库筛选信号中的DNA兼并序列分析与生物靶标结合的特定序列。

2.根据权利要求1所述的分析方法，其特征在于：所述DNA编码化合物的DNA部分含有兼并序列。

3.根据权利要求2所述的分析方法，其特征在于：所述兼并序列为长度4～16的完全随机碱基序列或部分随机碱基序列。

4.根据权利要求1所述的分析方法，其特征在于：在所述通过DNA兼并序列分析与生物靶标结合的特定序列前，识别DNA编码化合物库筛选信号中随机噪音信号。

5.根据权利要求4所述的分析方法，其特征在于：所述识别DNA编码化合物库筛选信号随机噪音信号的方法为：计算筛选后每种DNA标签拷贝数，拷贝数不高于N的DNA标签信号被标记为随机噪音信号。

6.根据权利要求5所述的分析方法，其特征在于：所述N为1、2、3、4、5、6、7、8、9或10。

7.根据权利要求1所述的分析方法，其特征在于：所述分析与生物靶标结合的特定序列的方法为：对兼并序列信号进行聚簇分析，根据聚簇分析结果确定与生物靶标结合的特定序列。

8.一种用于确定DNA编码化合物库中特定序列与生物靶标结合的计算机编码方法，其特征在于：通过兼并序列提取模组提取DNA编码序列上的兼并序列区域，通过聚簇分析模组对兼并序列进行聚簇分析。

9.根据权利要求8所述的分析方法，其特征在于：所述计算机编码方法还包括：通过序列组装/比对分析模组将簇中的兼并序列分别进行序列拼接为重叠群，然后将相应簇中的兼并序列与重叠群进行序列比对并计算重叠群每个碱基的覆盖深度。

10.根据权利要求9所述的分析方法，其特征在于：所述计算机编码方法还包括：通过基序预测模组将覆盖深度排序前1％～20％的区域提取，将给定区域序列在靶标组及对照组兼并序列出现概率的倍数变化5～20倍以上的区域序列标记为与靶标结合的基序。