CN116153411B

CN116153411B - 多病原体探针库组合的设计方法及应用

Info

Publication number: CN116153411B
Application number: CN202310411854.8A
Authority: CN
Inventors: 张鑫磊; 周淼; 苏明明; 胥萍; 徐俊驰; 宋华峰; 陈慧; 张建平
Original assignee: Fifth People's Hospital Of Suzhou; Beijing Xiyun Qiyuan Technology Co ltd
Current assignee: Fifth People's Hospital Of Suzhou; Beijing Xiyun Qiyuan Technology Co ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-06-30
Anticipated expiration: 2043-04-18
Also published as: CN116153411A

Abstract

本发明提供一种多病原体探针库组合的设计方法及应用，属于分子生物学领域，该方法包括对目标病原体进行分类定位与变异度评级、病原体子代及其保守区特异区分类预测和不同组合内特异性过滤等操作，以及通过计算特异有效性值进行评估探针库总体特异性捕获能力，从而辅助筛选，以平衡目标微生物捕获的特异性和容错度，基于不同的需求偏好获取更具针对性的多病原体探针库组合。本发明方法解决了现有技术中针对多病原体组合捕获的探针库组合的设计方法在操作上繁琐、低效、成本高的技术问题。

Description

多病原体探针库组合的设计方法及应用

技术领域

本发明属于分子生物学领域，具体涉及多病原体探针库组合的设计方法及应用。

背景技术

二代测序技术在微生物组研究和临床检验中具有广泛的应用，基于具体实验和分析手段上的差异，又分为扩增子测序、宏基因组测序和液相杂交捕获测序等多种检测方向。其中宏基因组测序虽然可准确地反映样本中原本的序列组成并可用于发现新物种，但具有较高的测序成本和数据分析成本；扩增子测序基于如细菌序列特定保守区扩增微生物序列从而得到相关物种相对的组成成分，对引物匹配率要求高；液相杂交捕获测序则是利用探针杂交进行序列的富集，相比于宏基因组测序和扩增子测序，液相杂交捕获测序在富集能力与对靶标的容错性上具有更好的平衡，综合来说具有更佳的特异性和性价比，故也获得了越来越广泛的应用。

微生物分类体量庞大，在临床中针对各种病原体进行检测识别和监控是极其必要的。当前已存在许多应用于富集单一物种的探针库设计方法和产品，但此类设计在应对多物种富集的需求时，只能重复对一个样本进行多次富集的操作，繁琐且低效。故亟需研究多物种组合的富集探针库的设计方法，以适应更多的实际需求。

已有公开号为CN114267412A的中国发明申请公开了一种富集探针库的确定方法及装置，具体公开了该方法包括：获取待富集微生物分别对应的基因组序列；确定每个待富集微生物的基因组序列中保守区域对应的基因片段；针对每个待富集微生物对应的基因片段，通过滑动窗口确定出待富集微生物对应的碱基组合；根据预置条件将所有的待富集微生物的碱基组合进行过滤；根据每个待富集微生物对应的标识信息，及其过滤后的碱基组合确定富集探针库。该申请通过根据待富集微生物的基因组序列生成碱基组合，并将多个待富集微生物对应的碱基组合进行过滤，生成富集探针库。虽然该发明设计了多物种或多核酸序列的富集探针库，但其过滤指标和组合的分析条件较为简单，效能和成本的调控上仍有较大的改进空间。

发明内容

为此，本发明所要解决的技术问题在于提供一种多病原体探针库组合的设计方法及应用。解决现有技术中针对多病原体组合捕获的探针库组合的设计方法在操作上繁琐、低效、成本高的技术问题。

本发明提供的一个技术方案为多病原体探针库组合的设计方法，多病原体探针库组合的设计方法，所述方法包括如下步骤：

S1、基于目标病原体候选集构建物种层级关系表；

S2、基于所述物种层级关系表，获取参考核酸序列数据集；

S3、基于所述参考核酸序列数据集进行组内冗余度分析，并对组内冗余度分析结果进行过滤分析，获取保守区域和特异区域预测分类结果，再对参考核酸序列数据集进行重复区域分析，并建立过滤指标，得到处理后的目标病原体候选集及对应的参考核酸序列数据集；

S4、基于处理后的目标病原体候选集及对应的参考核酸序列数据集，按预设计条件生成各参考核酸序列的单一探针集，并进行过滤筛除，获取目标病原体候选集的全部候选探针库组合；

S5、基于获取的全部候选探针库组合，对候选探针库组合进行过滤；

S6、最终探针库组合的特异性效能可通过计算特异有效性值S进行评估，

；/>

；

；

其中，I表示探针库中存在I条探针，其对应的靶标序列（>2/3）定位于目标物种的保守区；J表示探针库中存在J条探针，其靶标序列（>2/3）定位于目标物种存在多分类子集的非保守区。

对应保守区探针有效性值，/>

对应非保守区探针有效性值；/>

和/>

是组内S值均值；/>

和/>

是组内S值方差；/>

对应保守区设计探针覆盖度，/>

对应非保守区设计探针覆盖度；f为常数，默认值为1，可设置范围在0-1，通过调整f值调整对保守区的关注度。/>

表示与靶标区域匹配准确率（%）；/>

表示与参考核酸序列库中除靶标物种外其他参考核酸序列匹配率均值（%）；/>

表示与目标物种多分类子集参考核酸序列k的匹配率值（%）；

S7、针对候选探针库组合模拟测序数据，获取各个参考核酸序列的预测覆盖度分布，依据S值分析候选探针库组合的整体碱基含量分布、序列重复率，进而获取多病原体探针库组合。

优选的，所述步骤S1中，构建物种层级关系表包括：对于给定目标病原体候选集，确定物种相关信息，包括分类层级、是否存在多层级的分类关系，拉取病原体对应种/属的标准名称，记录核酸序列类型。

优选的，所述步骤S2中，当核酸序列为核糖核酸序列时，将其模拟逆转录过程转换为cDNA序列；当某一病原体对应多条核酸序列时，先基于序列完整度等级划分、GC含量、contig数和N50值评估选择高质量的核酸序列，再使用多序列比对进行去冗余分析；基于比对相似度选择均值最高的序列作为标准核酸序列，记录相似度值为标准值F，并获取标准核酸序列的保守区域作为最佳靶标区域；对于无需去冗余分析的核酸序列，记录F值为1。

优选的，所述步骤S3中，对于目标病原体候选集所有物种的参考核酸序列，通过多序列比对工具进行组内冗余度分析，生成相似度矩阵M；若目标病原体候选集的物种层级不均匀，则附加提取种属层级下的相似度矩阵；使用F值对相似度矩阵M进行设计，计算

，筛查出目标病原体候选集中同一层级物种间相似度高于F值的核酸序列，认为其标准核酸序列不符合要求，将其退回步骤S2，考虑其他层级替代候选或进入剔除列表。

优选的，所述步骤S3中还包括在数据库中查找物种是否存在保守区域和特异区域的直接记录信息，如有则将其作为补充信息。

优选的，所述步骤S3中，所述建立过滤指标为：对核酸序列进行重复区域分析，将核酸序列上的重复区域对应的探针作为最终获取多病原体探针库组合的过滤指标之一。

优选的，所述步骤S4中，所述预设条件为探针长度120nt，滑窗大小40nt；GC范围40-80%；各单一探针集反向和宿主核酸序列进行比对的阈值T1为70%。

优选的，所述步骤S5中所述过滤为：对目标病原体候选集中的每个目标物种，使用剩余其他物种核酸序列构建比对参考库，将目标物种的探针库中记为特异区的探针和其他物种的比对参考库中的探针进行比对，计算特异区内各探针的比对特异性以及不同比对特异性阈值要求下目标物种的探针库的预测覆盖度；选定比对特异性阈值T2为70%，对所有目标物种的探针库进行过滤，获得候选探针库组合。

优选的，所述步骤S7中，所述预测覆盖度分布为依据特异区域1×覆盖度和20×覆盖度占比来预测候选探针库组合的捕获均一覆盖情况。

本发明还提供一个技术方案为多病原体探针库组合的设计方法在制备多病原体探针库组合产品中的应用，所述产品包括多病原体检测试剂、多病原体检测试剂盒。

有益效果：

本发明提供的多病原体探针库组合的设计方法，包括对目标病原体进行分类定位与变异度评级、病原体子代及其保守区特异区分类预测和不同组合内特异性过滤等操作，以及通过计算特异有效性值进行评估探针库总体特异性捕获能力，从而辅助筛选，以平衡目标微生物捕获的特异性和容错度，基于不同的需求偏好获取更具针对性的多病原体探针库组合。本发明方法考虑到微生物分类的复杂性、物种的相似性和可能的序列相互作用对捕获效果的影响，以及最终目标多病原体探针库组合的应用成本等。具有广阔的应用前景，为临床应用提供支撑。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例所提供的一种多病原体探针库组合的设计方法的流程图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式予以说明。

实施例1

本实施例提供一种多病原体探针库组合的设计方法，包括如下步骤：

S1、对于给定目标病原体候选集，首先基于NCBI数据库确定物种相关信息，包括分类层级、是否存在多层级的分类关系，拉取病原体对应种/属的标准名称，记录核酸序列类型，构建物种层级关系表。

具体的，设定目标病原体包括人腺病毒B（HAdV-B）和人腺病毒C（HAdV-C），基于NCBI的Taxonomy数据库检索，得到物种层级关系结果：HAdV-B和HAdV-C均属于腺病毒属（Adenovirus），其中人腺病毒属共有7个种（species），A到G种下各有多个亚型，截止目前HAdV-B（属于B种）和HAdV-C（属于C种）各拥有14和5种目标亚型，记录从属水平物种科学名称Adenovirus到各亚型的科学名称和分类层级。

S2、基于上一步的物种层级关系表，整理目标病原体候选集的参考核酸序列数据集；对于参考核酸序列数据集中的参考核酸序列为核糖核酸序列（RNA）的，将其模拟逆转录过程转换为cDNA记录序列；对于某一病原体对应多条参考核酸序列的情况，先基于长度等选择完整的参考核酸序列，再使用多序列比对进行去冗余分析；基于比对相似度选择均值最高的序列作为标准序列，记相似度值为标准值F，并获取标准序列的保守区域作为最佳靶标区域；对于无需去冗余分析的，记录F值为1。

具体的，基于上述层级关系表中的科学名称，批量检索下载参考核酸序列数据集。HAdV-B和HAdV-C及亚型对应多条参考核酸序列，需要从其中构建目标参考核酸序列。以HAdV-C为例，HAdV-C包括1、2、5、6和57共五种亚型；从Genome数据库获取相应基因组序列信息表；其中亚型57无完整适用序列数据，被筛除；剩余亚型各存在多条参考核酸序列，筛除完整度水平记为“Chromosome”仅记为保留“Complete”的；优先筛选入库GeneBank或RefSeq的；并基于序列长度、入库时间、GC值、N50值进行筛选，获取HAdV-C及其亚型的参考核酸序列组合，包括NC_001405.1、MN737436.1、AC_000007.1、AC_000008.1和LC068715.1；其中NC_001405.1被记录为HAdV-C的代表性序列，其并非通过比对结果选取，而是依据数据库直接描述名称选取；会将其和亚型序列一起比对，记录相似度值，用于优化探针库对各亚型区分的灵敏度。类似地，HAdV-B的代表性序列为NC_011203.1，参考核酸序列集包括NC_011202.1、NC_011203.1、MT505438.1、MG642749.1、MW091531.1、AC_000019.1、MT806171.1、AC_000018.1和MW748655.1。下表1示出了HAdV-C的参考核酸序列信息。

表1 HAdV-C的参考核酸序列信息

S3、对于目标病原体候选集中所有物种的参考核酸序列集，通过多序列比对工具进行组内冗余度分析，生成相似度矩阵M；若目标病原体候选集中的物种层级并不均匀，则附加提取种属层级下的相似度矩阵；使用F值对相似度矩阵M进行设计，计算

，筛查出目标病原体候选集中同一层级物种间相似度高于F值的，认为其标准序列不符合要求，将其退回检查整理参考数据的步骤，考虑其他层级替代候选或进入剔除列表；对多序列比对的结果过滤分析，获取保守区域和特异区域预测分类结果，同时也在数据库中查找物种是否存在保守区域和特异区域的直接记录信息作为补充；使用工具Repeatmasker对参考核酸序列进行重复区域分析，序列上的重复区域，或和探针覆盖度分布不均相互印证；短序列多拷贝重复区域的探针，导致探针碱基重复度过高从而影响捕获性能，此类区域对应探针将进行Repeat标记，作为权衡整体探针库组合的成本和效能时的过滤指标。

具体的，通过分析HAdV-B和HAdV-C的代表性参考核酸序列，获取相似度矩阵并分析保守区域，使用F值检查，序列组合无误。通过重复序列分析标记序列上的重复区域作为备用数据。下表2示出了HAdV-C的相似度矩阵，行名和列名是HAdV-C的各参考核酸序列名称，矩阵中对应元素为相似度值。

表2 HAdV-C的相似度矩阵

S4、经上述步骤，得到了经处理的目标病原体候选集及对应的参考核酸序列集；首先生成参考核酸序列集中的各参考核酸序列的单一探针集，预设探针长度（120nt）和滑窗大小（40nt），序列滑窗后基于碱基互补配对生成配对探针；针对每条参考核酸序列生成的探针集，进行GC范围的预设计（默认40-80%），以避开如ploy N尾等特殊区域，也便于保证在实际实验过程中一定杂交温度范围下探针杂交的可操作性；设计后将各单一探针集反向和宿主参考核酸序列进行比对，设置阈值T1（默认70%）筛除特异性过低的探针对；基于各核酸序列的单一探针集模拟生成测序数据，比对回对应的参考核酸序列，获取当前单一探针集的覆盖数据；计算给出此前分析得到的参考核酸序列保守区域和特异区域的预计覆盖度，这两个值将反应单一探针集的捕获稳定性和特异性；各个参考核酸序列进行上述处理后，获取了全部候选探针库组合。

具体的，分别基于HAdV-B和HAdV-C的参考核酸序列按照每条探针120nt、40nt大小滑窗的操作产生两个探针集,通过GC含量和连续重复碱基占比筛选探针。筛选后的每个探针集，将基于碱基互补配对规则模拟生成配对的FASTQ数据，和人类参考基因组hg19进行比对，过滤结果中比对率>T1的探针。筛选后探针集模拟FASTQ数据分别和相应的参考核酸序列进行比对，分析得到参考核酸序列覆盖度、保守区覆盖度和非保守区覆盖度数据，覆盖度超过95%，预期可接受。

S5、默认对目标病原体候选集中所有病原体进行组合探针设计，需对候选探针库组合进行过滤，类似上述单一探针库的过滤方法，对目标病原体候选集中每个目标物种，使用剩余其他物种参考核酸序列构建比对参考库，将此目标病原体的探针库中记为非保守区的探针和其他参考库进行比对，计算特异区内各探针的比对特异性以及不同比对特异性阈值要求下目标病原体的探针库的预测覆盖度；选定比对特异性阈值T2（默认70%），对所有探针库进行过滤，获得候选探针库组合。

具体的，将HAdV-B和HAdV-C的参考核酸序列合并存入同一个FASTA文件，制作一个比对参考数据库。两个探针集中定位于非保守区的探针被混合，产生模拟测序数据，和上一步的参考数据库进行比对。比如定位于HAdV-C的纤维蛋白第六外显子的探针，其对应序列应唯一比对到HAdV-C的参考核酸序列上，不应多比对到HAdV-B参考核酸序列上，多比对的序列将被筛除，通过调整多比对阈值T2控制此步骤筛除的探针比例。

；/>

；

；

对应保守区探针有效性值，/>

对应非保守区探针有效性值；/>

和/>

是组内S值均值；/>

和/>

是组内S值方差；/>

对应保守区设计探针覆盖度，/>

表示与靶标区域匹配准确率（%）；/>

表示与目标物种多分类子集参考核酸序列k的匹配率值（%）。

具体的，对上述HAdV-B和HAdV-C的探针集，按照上述公式计算S、

和/>

值。在示例中，常数f值为1，表示对保守区和非保守区具有同等关注，S值计算为5.17。S值和探针捕获特异性与探针覆盖度成正比，在f=1时，预期S值大于1.417，符合在默认比对阈值下的最低捕获效能预期，S值越大探针库组合效能越符合预期。在f值为0时，不关注保守区的覆盖情况，S值越高，探针库组合总体特异性捕获效能越高。

S7、针对候选探针库组合模拟测序数据，获取各个参考核酸序列的预测覆盖度分布，主要依据特异区域1×覆盖度和20×覆盖度占比预测当前探针集的捕获均一覆盖情况，而S值越高表示探针库总体特异性捕获能力越高，但其可能损耗一定的捕获覆盖度，故需要综合考虑，分析候选探针库组合的整体碱基含量分布、序列重复率，获取最终符合需求的探针库组合。

具体的，对上述HAdV-B和HAdV-C的探针集，模拟100X测序数据后计算1×覆盖度达到95%和20×覆盖度达到80%，本实施例计算GC含量为51%，在GC含量40%-80%的范围内，序列重复率低于20%，获得符合需求的探针集。

此外，本实施例提供的设计方法，可针对不同的需求场景，如对目标物种候选集选取进行子集组合，对不同子集下的探针捕获效能倾向于特异性更高的需求，或希望对病原体特定耐药基因区域具有更高的灵敏度。通过在探针库组合时调整纳入的目标病原体候选，可提取不同子集组合的性能。通过设定不同的比对特异性设计阈值和保守与特异探针富余比，可获取具有不同捕获效能倾向的结果探针库。对目标序列富集时探针序列总体是过载的，需要对特定区域提高灵敏度，可调整相应区域的探针浓度占比。

上述通过在设计探针序列时添加多种信息标记，便于依据需求多次进行探针的组合调整，从而在实际进行实验耗费之前，产生更符合理论预期的探针库。

本发明方法考虑到微生物分类的复杂性、物种的相似性和可能的序列相互作用对捕获效果的影响，以及应用成本等设计目标多病原体探针库组合。具有广阔的应用前景，利用本发明方法辅助筛选为临床应用提供支撑。

实施例2

本实施例提供一种多病原体探针库组合的设计方法在制备多病原体检测试剂中的应用。所述检测试剂包括采用实施例1提供的设计方法设计的捕获探针库组合。

所述多病原体可以选自但不限于以下病毒：流感病毒（Influenza A/B/C/D virus）、腺病毒（Human adenovirus）、肠道病毒（Human Enterovirus）、呼吸道合胞病毒（Human respiratory syncytial virus A/B）、鼻病毒（Rhinovirus A/B/C）、副流感病毒III（Human parainfluenza virus 3）、人偏肺病毒（Human metapneumovirus）、人博卡病毒（Primate bocaparvovirus 1/2）、单纯疱疹病毒（Human alphaherpesvirus 1,Herpes simplex virus 2）、肺炎支原体（Mycoplasma pneumoniae）、肺炎衣原体（Chlamydia pneumoniae）、SARS-Cov（SARS coronavirus AS）、2019新型冠状病毒（2019-nCov，Severe acute respiratory syndrome coronavirus 2）、MERS-Cov（Middle East Respiratory Syndrome Coronavirus）、冠状病毒OC43（HCov-OC43，Human Coronavirus OC43）、HCov-NL63（Human Coronavirus NL63）、HCov-HKU1（Human Coronavirus HKU1）、冠状病毒229E（HCov-229E，Human Coronavirus 229E）。

实施例3

本实施例提供一种多病原体探针库组合的设计方法在制备多病原体检测试剂盒中的应用。所述检测试剂盒包括采用实施例2获得的检测试剂。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.多病原体探针库组合的设计方法，其特征在于，所述方法包括如下步骤：

S1、基于目标病原体候选集构建物种层级关系表；

S2、基于所述物种层级关系表，获取参考核酸序列数据集；

S6、最终探针库组合的特异性效能通过计算特异有效性值S进行评估，

；/>

；

；

其中，I表示探针库中存在I条探针，其对应的靶标序列定位于目标物种的保守区；J表示探针库中存在J条探针，其靶标序列定位于目标物种存在多分类子集的非保守区，

对应保守区探针有效性值，/>

对应非保守区探针有效性值；/>

和/>

是组内S值均值；/>

和/>

是组内S值方差；/>

对应保守区设计探针覆盖度，/>

对应非保守区设计探针覆盖度；f为常数，默认值为1，设置范围在0-1，通过调整f值调整对保守区的关注度，/>

表示与靶标区域匹配准确率；/>

表示与参考核酸序列库中除靶标物种外其他参考核酸序列匹配率均值；

表示与目标物种多分类子集参考核酸序列k的匹配率值；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，构建物种层级关系表包括：对于给定目标病原体候选集，确定物种相关信息，包括分类层级、是否存在多层级的分类关系，拉取病原体对应种或属的标准名称，记录核酸序列类型。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中，当核酸序列为核糖核酸序列时，将其模拟逆转录过程转换为cDNA序列；当某一病原体对应多条核酸序列时，先基于序列完整度等级划分、GC含量、contig数和N50值评估选择高质量的核酸序列，再使用多序列比对进行去冗余分析；基于比对相似度选择均值最高的序列作为标准核酸序列，记录相似度值为标准值F，并获取标准核酸序列的保守区域作为最佳靶标区域；对于无需去冗余分析的核酸序列，记录F值为1。

4.根据权利要求3所述的方法，其特征在于，所述步骤S3中，对于目标病原体候选集所有物种的参考核酸序列，通过多序列比对工具进行组内冗余度分析，生成相似度矩阵M；若目标病原体候选集的物种层级不均匀，则附加提取属层级下的相似度矩阵；使用F值对相似度矩阵M进行设计，计算

5.根据权利要求4所述的方法，其特征在于，所述步骤S3中还包括在数据库中查找物种是否存在保守区域和特异区域的直接记录信息，如有则将其作为补充信息。

6.根据权利要求1所述的方法，其特征在于，所述步骤S3中，所述建立过滤指标为：对核酸序列进行重复区域分析，将核酸序列上的重复区域对应的探针作为最终获取多病原体探针库组合的过滤指标之一。

7.根据权利要求1所述的方法，其特征在于，所述步骤S4中，所述预设计条件为：探针长度120nt，滑窗大小40nt；GC范围40-80%；各单一探针集反向和宿主核酸序列进行比对的阈值T1为70%。

8.根据权利要求1所述的方法，其特征在于，所述步骤S5中，所述过滤为：对目标病原体候选集中的每个目标物种，使用剩余其他物种核酸序列构建比对参考库，将目标物种的探针库中记为特异区的探针和其他物种的比对参考库中的探针进行比对，计算特异区内各探针的比对特异性以及不同比对特异性阈值要求下目标物种的探针库的预测覆盖度；选定比对特异性阈值T2为70%，对所有目标物种的探针库进行过滤，获得候选探针库组合。

9.根据权利要求1所述的方法，其特征在于，所述步骤S7中，所述预测覆盖度分布为：依据特异区域1×覆盖度和20×覆盖度占比来预测候选探针库组合的捕获覆盖情况的均匀性。

10.多病原体探针库组合的设计方法在制备多病原体探针库组合产品中的应用，其特征在于，所述产品包括多病原体检测试剂、多病原体检测试剂盒。