CN116092585B

CN116092585B - 基于机器学习的多重pcr扩增优化方法、系统、设备及介质

Info

Publication number: CN116092585B
Application number: CN202310092169.3A
Authority: CN
Inventors: 石涵; 李玉欣; 杨峰; 洪跟东
Original assignee: Shanghai Ruijing Biotechnology Co ltd
Current assignee: Shanghai Ruijing Biotechnology Co ltd
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2024-04-19
Anticipated expiration: 2043-01-30
Also published as: CN116092585A

Abstract

本申请提供基于机器学习的多重PCR扩增优化方法、系统、设备及介质，本发明可基于过往研究数据，针对新设计的多重扩增NGS Panel，在无需预先进行配制、测序的情况下，获得最佳的引物对配比方案，使得最终测序数据得到理想的数据质量与数据均一性；本发明中模型建立所需采集的信息均为常规引物设计、测序检测中可采集的数据，获取便利。基于支持向量回归(Support Vector Regression,以下简称SVR)模型所获得预测结果可直接应用于Panel配制，大大缩短传统Panel引物配方研究的时间；本发明所建立的模型中，参数可调范围大，可被应用于复杂多变的预期用途，如：难扩增低覆盖度区域的扩增优化方法；针对低丰度、低完整度核酸的特别Panel优化方法等。

Description

基于机器学习的多重PCR扩增优化方法、系统、设备及介质

技术领域

本申请涉及PCR扩增优化技术领域，特别是涉及基于机器学习的多重PCR扩增优化方法、系统、设备及介质。

背景技术

基于多重扩增方法的DNA二代测序文库建库技术，在医学检验领域中获得广泛应用。其基本实现方式为：设计一种多重DNA引物对的组合(称为一个Panel)，使得所有目的DNA待检测区域可被该设计中的引物对所形成的扩增子完全覆盖。目的DNA经预处理后、在合适的PCR扩增条件下使用上述多重Panel进行扩增，可得到所有目标片段的扩增产物组合。所得产物后经加磁珠纯化、加接头扩增等步骤，形成可用于二代测序的文库。

与其它测序建库方法相比，多重扩增方法具有极高的操作便利性，待测区域往往可获到比较高的测序深度，准确度高，亦可根据需要简单增减引物组合、可拓展性很强。以市场上的“人类BRCA1基因和BRCA2基因突变检测试剂盒(可逆末端终止测序法)”为例，多重扩增建库技术配合相应的生物信息分析流程，可被应用于辅助诊断、用药指导等分子检验用途。

然而，多重扩增方法的Panel设计亦有其难点。PCR引物扩增中，会由诸多引物自身的分子生物学属性和扩增环境因素，导致Panel中各个引物对的扩增效率产生偏差，进而导致扩增产物的均一性不佳。在之后的测序数据中，低扩增区域往往无法获得有效的数据量覆盖、测序质量亦会受到显著影响，而高扩增区域则会造成不必要的数据量浪费。

因此，在多重扩增领域迫切需要一种工具在多重Panel设计环节中，即可对各个引物对的最佳投入量配比进行预测，以期据此在有限的测试量下，获得高质量、可用性更高的多重扩增测序数据，从而提高扩增Panel整体性能。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供基于机器学习的多重PCR扩增优化方法、系统、设备及介质，用于解决如何提高扩增Panel整体性能的技术方案。

为实现上述目的及其他相关目的，本申请的第一方面提供一种基于机器学习的多重PCR扩增优化方法，包括：获取目标引物对的引物对特征；根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征；对所述引物组合进行基因测序，并对基因测序所得数据进行质控分析得到对应的数据质控指标，将所述数据质控指标均一化后得到引物组合的测序性能特征；将所述引物对特征、引物组合特征及测序性能特征组成特征向量；将所述目标引物对所属引物组合中的分子量浓度占比作为目的标记值；每个引物对所对应的特征向量和目的标记值构成一个样本数据；同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集；对所述引物组合的样本数据集做预处理，以基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型。

于本申请的第一方面的一些实施例中，获取所述目标引物对的引物对特征的方式包括：根据目标引物对计算得到对应的引物属性，其包括引物长度与GC含量、扩增区域长度与GC含量、5'端与3'端ΔG、基因组其它区域相似度；将所述目标引物对的引物属性进行量化及均一化处理后得到对应的引物对特征。

于本申请的第一方面的一些实施例中，所述引物组合特征的获取方式包括：根据所述目标引物对所属引物组合中的其它引物对计算得到对应的引物属性，其包括其它引物对的扩增子数量、其它引物对的扩增子平均GC含量、其它引物对的平均扩增区域长度、其它引物对与目标引物对的相似度；将所述其它引物对的引物属性进行量化及均一化处理后得到对应的引物组合特征。

于本申请的第一方面的一些实施例中，对所述引物组合进行基因测序，并对基因测序所得数据进行质控分析得到对应的数据质控指标，将所述数据质控指标均一化后得到引物组合的测序性能特征，包括：基于多重扩增NGS建库对引物组合进行二代基因测序；基于二代基因测序所得数据分析得到对应的数据质控指标；将所述数据质控指标进行均一化处理后得到的特征作为测序性能特征。

于本申请的第一方面的一些实施例中，对所述引物组合的样本数据集做预处理的方式包括：采用z-score算法对所述特征向量中的每一维特征进行归一化处理，以将每一维特征转换为0至1之间的数值。

于本申请的第一方面的一些实施例中，所述方法还包括：使用带有松弛变量的SVR模型进行模型训练；所述带有松弛变量的SVR模型被表述如下：

决策函数为：

其中，w,b为模型参数，ξ_i,为松弛变量，C为惩罚系数，/>为映射函数，为核函数，α_i,/>为拉格朗日乘子。

于本申请的第一方面的一些实施例中，所述基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型，包括：将预处理后的样本数据集按照预设比例分为训练集和验证集，采用K折交叉验证进行模型参数选择，并采用高斯核函数作为核函数。

于本申请的第一方面的一些实施例中，所述方法还包括在构建得到SVR模型后，选择平均绝对误差、均方根误差以及决定系数作为评估指标来对所述SVR模型进行评估。

为实现上述目的及其他相关目的，本申请的第二方面提供一种基于机器学习的多重PCR扩增优化系统，包括特征构建模块，用于获取目标引物对的引物对特征；根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征；使用所述引物组合对参考样本进行基因测序，并对基因测序所得数据进行质控分析得到对应的数据质控指标，将所述数据质控指标均一化后得到引物组合的测序性能特征；样本构建模块，用于将所述引物对特征、引物组合特征及测序性能特征组成特征向量；将所述目标引物对所属引物组合中的分子量浓度占比作为目的标记值；每个引物对所对应的特征向量和目的标记值构成一个样本数据；同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集；模型构建模块，用于对所述引物组合的样本数据集做预处理，以基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型。

为实现上述目的及其他相关目的，本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于机器学习的多重PCR扩增优化方法。

为实现上述目的及其他相关目的，本申请的第四方面提供一种计算机设备，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行所述基于机器学习的多重PCR扩增优化方法。

如上所述，本申请的基于机器学习的多重PCR扩增优化方法、系统、设备及介质，具有以下有益效果：

(1)本发明可基于过往研究数据，针对新设计的多重扩增NGS Panel，在无需预先进行配制、测序的情况下，获得最佳的引物对配比方案，使得最终测序数据得到理想的数据质量与数据均一性。

(2)本发明中模型建立所需采集的信息均为常规引物设计、测序检测中可采集的数据，获取便利。基于SVR模型所获得预测结果可直接应用于Panel配制，大大缩短传统Panel引物配方研究的时间。

(3)本发明所建立的模型中，参数可调范围大，可被应用于复杂多变的预期用途，如：难扩增低覆盖度区域的扩增优化方法；针对低丰度、低完整度核酸的特别Panel优化方法等。

附图说明

图1显示为本申请一实施例中一种基于机器学习的多重PCR扩增优化方法的流程示意图。

图2显示为本申请一实施例中一种基于机器学习的多重PCR扩增优化系统的结构示意图。

图3显示为本申请一实施例中计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

为解决上述背景技术中的问题，本发明提供基于机器学习的多重PCR扩增优化方法、系统、设备及介质，旨在采集所设计的引物自身属性特征、多重扩增中的环境特征以及Panel测试后的性能指标特征，建立了基于支持向量机算法的Panel引物配比预测工具。此外，通过在甲状腺结节良恶性辅助诊断产品中的应用，本发明解决了行业中难以攻克的分子检测难点，充分验证了本发明的有效性。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

在对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释：

(1)支持向量回归(Support Vector Regression,SVR)模型是一类按监督学习方式对数据进行回归分析的模型。与传统的回归模型不同，SVR在回归直线两侧制造了一个“间隔带”，对于所有落入到间隔带内的样本，都不计算损失；只有间隔带之外的，才去计算损失值。之后再通过最小化间隔带的宽度与总损失来最优化模型。

(2)PCR(Polymerase Chain Reaction)引物：聚合酶链反应是一种体外核酸扩增技术，其具有特异、敏感、产率高、快速、简便、重复性好、易自动化等突出优点，能在一个试管内将所要研究的目的基因或某一DNA片段于数小时内扩增至十万乃至百万倍，使肉眼能直接观察和判断。

(3)核函数：是指支持向量机通过某些非线性变换将输入空间映射到高维特征空间的一种函数。

本发明实施例提供基于机器学习的多重PCR扩增优化方法、基于机器学习的多重PCR扩增优化方法的系统、以及存储用于实现基于机器学习的多重PCR扩增优化方法的可执行程序的存储介质。就基于机器学习的多重PCR扩增优化方法的实施而言，本发明实施例将对基于机器学习的多重PCR扩增优化的示例性实施场景进行说明。

如图1所示，展示了本发明实施例中的一种基于机器学习的多重PCR扩增优化方法的流程示意图。通过本发明实施例建立的预测模型可被应用于指导多重扩增Panel搭建中的引物配比方案，其输出结果可协助获得达到临床检验需求的高均一性、高质量的测序数据。

本实施例中基于机器学习的多重PCR扩增优化方法主要包括如下各步骤：

步骤S11：获取目标引物对的引物对特征。

于本实施例中，所述目标引物对是指位于覆盖目的检测区域且达到基于Primer3引物设计工具筛选标准的引物对。

进一步地，获取所述目标引物对的引物对特征的方式包括：根据目标引物对计算得到对应的引物属性，其包括引物长度与GC含量、扩增区域长度与GC含量、5'端与3'端ΔG、基因组其它区域相似度；将所述目标引物对的引物属性进行量化及均一化处理后得到对应的引物对特征。

需说明的是，△G值是指DNA双链形成所需的自由能，该值反映了双链结构内部碱基对的相对稳定性。引物长度(Primer Length)常用的是18-27bp，通常不大于38bp，过长的引物长度会导致其延伸温度大于74℃，不适于Taq DNA聚合酶进行反应。GC含量是指在DNA4种碱基中，鸟嘌呤和胞嘧啶所占的比率；在双链DNA中，腺嘌呤与胸腺嘧啶(A/T)之比，以及鸟嘌呤与胞嘧啶(G/C)之比都是1；但是，(A+T)/(G+C)之比则随DNA的种类不同而异；GC含量愈高，DNA的密度也愈高，同时热及碱不易使之变性，因此利用这一特性便可进行DNA的分离或测定。

步骤S12：根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征。

于本实施例中，所述引物组合特征的获取方式包括：根据所述目标引物对所属引物组合中的其它引物对计算得到对应的引物属性，其包括其它引物对的扩增子数量、其它引物对的扩增子平均GC含量、其它引物对的平均扩增区域长度、其它引物对与目标引物对的相似度；将所述其它引物对的引物属性进行量化及均一化处理后得到对应的引物组合特征。

应理解的是，本实施例中的引物组合也称为Panel，一个Panel是指一种多重DNA引物对的组合，引物组合特征在本发明实施例中也可被称为Panel特征。

步骤S13：对所述引物组合进行基因测序，并对基因测序所得数据进行质控分析得到对应的数据质控指标，将所述数据质控指标均一化后得到引物组合的测序性能特征。

于本实施例中，使用引物组合对多重扩增NGS建库所得文库进行二代基因测序。测序所得数据采用常规分析流程进行分析得到对应的数据质控指标。所述数据质控指标包括如下任一种或多种组合：洁净数据比率(Clean Ratio)、上靶率(On-target Ratio)、复杂度(Complexity)及目标扩增子测序深度(Target Depth)。将上述这些质控指标进行均一化处理后得到的特征作为测序性能特征。

应理解的是，二代测序(Next-Generation Sequencing,NGS)也称为高通量测序，是基于PCR和基因芯片发展而来的DNA测序技术。二代测序在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记(一般为荧光分子标记)来确定DNA的序列。由于在二代测序中，单个DNA分子必须扩增成由相同DNA组成的序列簇，然后进行同步复制，来增强荧光信号强度从而读出DNA序列；而随着读长增长，基因簇复制的协同性降低，导致碱基测序质量下降，这严格限制了二代测序的读长(不超过500bp)，因此二代测序具有通量高、读长短的特点。

步骤S14：将所述引物对特征、引物组合特征及测序性能特征组成特征向量；将所述目标引物对所属引物组合中的分子量浓度占比作为目的标记值；每个引物对所对应的特征向量和目的标记值构成一个样本数据，同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集。

具体而言，由上述步骤S11～S13中获得的引物对特征、引物组合特征及测序性能特征组成特征向量X，将目的标记值作为y，X和y构建得到一个样本数据。相同Panel中的每个引物对均为一个样本数据，整体构成一个样本数据集。

在本实施例较为优选的实施方式中，对样本数据集进行重复优化以使整体测序均一性符合标准。具体而言，根据上述测序实验后所得各个引物对的扩增子深度，按比例梯度增加、减少深度不足或过剩的相应引物对，并重复上述建库、测序过程。每次重复后所得质控信息与引物对特征、引物组合特征、测序性能特征及目的标记值共同组成新的样本数据集。重复此过程直至整体测序均一性(以>＝0.2x平均深度的覆盖区域占比表示)达到理想程度(例如为90％以上)。

步骤S15：对所述引物组合的样本数据集做预处理，以基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型。

于本实施例中，对所述引物组合的样本数据集做预处理的方式包括：采用z-score算法对所述特征向量中的每一维特征进行归一化处理，以将每一维特征转换为(0,1)之间的数值。

具体的，z-score算法是指利用z-score标准化函数做如下处理：其中，/>表示样本数据对应维数数据均值，/>s表示标准差，/>

应理解的是，SVR在样本量较小时仍有较高的准确率以及较强的泛化能力，并且因其引入了核函数，可以解决非线性的回归问题。本实施例中采用带松弛变量的SVR模型为：

其中，

最终的决策函数为：

需说明的是，松弛变量是SVR模型中的一个辅助量，它的引入可解决离群点对分类的影响；松弛变量的值标示出了对应点离群有多远，值越大点越远；若松弛变量为0，则表明样本没有离群。

于本实施例中，所述基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型，包括：将预处理后的样本数据集按照预设比例分为训练集和验证集(例如设定7：3)，采用K折交叉验证进行模型参数选择，并采用高斯核函数作为核函数。

进一步的，K折交叉验证的过程包括：(1)将样本数据集随机分为K份；(2)挑选其中1份作为验证集，剩余(K-1)份作为训练集；在训练集上训练后得到一个模型，用该模型在验证集上进行测试，保存模型的评估指标；(3)重复上述步骤(2)K次，以确保每个子集都有一次机会作为验证集；(4)计算K组测试指标的平均值作为模型精度的估计，并作为当前K折交叉验证下模型的性能指标。本实施例中，优选五折交叉验证，也即把样本数据集分成5份，其中1份作为验证集，剩余4份作为训练集，由此训练和验证模型。

另应理解的是，高斯核函数也叫做径向基函数，是某种沿径向对称的标量函数，通常定义为空间中任一点到某一中心之间欧式距离的单调函数，作用是计算相似度。

于本实施例中，所述方法还包括在构建得到SVR模型后，选择平均绝对误差、均方根误差以及决定系数作为评估指标来对所述SVR模型进行评估。各项评估指标的计算方式如下所示：

平均绝对误差MAE的计算方式如下：

均方根误差RMSE的计算方式如下：

决定系数R²的计算方式如下：

其中，y_i为真实值，为预测值，/>为预测值的平均值。

值得强调的是，虽然已有不少神经网络模型被广泛应用，例如BP神经网络或者卷积神经网络等，但由于本发明应用场景是PCR扩增优化，与一般的工业领域或服务领域有较大区别。于本发明实施例中，采用SVR模型来解决多重扩增Panel搭建中的引物对配比问题，主要是考虑到支持向量机在PCR扩增优化方面的如下优势：

优势1：本发明实施例的研究涉及到多种复杂特征类型的数据，例如引物对特征、引物组合特征及测序性能特征等等。对于这种复杂类型的数据，一般的神经网络模型由于受限于输入变量所在的特征空间，因此模型训练和预测效果不佳。而本发明实施例中的SVR方法由于不受限于输入变量所在的特征空间，故可通过增加空间维度来找到回归的最佳解决方案，对于研究包含多种复杂特征类型的数据有更好的效果。

优势2：SVR方法可凭支持向量很好地识别决策边界，因此往往仅凭数据中的部分子集即可实现训练。因此，对于分类特征较为鲜明的数据，SVR所需的数据量较神经网络更少，更能满足测序Panel在有限样本量下的测试需求。然而，其它神经网络模型都需要较大的数据量，对于样本量有限的测序Panel而言则是并不适用。

优势3：通常的神经网络算法的实现很容易受投入数据的批次效应的影响，特定的决策边界往往极大地依赖于其所接受数据的投入批次顺序。因此，如无法提供充分、全面的数据，神经网络的预测表现可能会极不满足需求。

优势4：大量研究显示，在有限计算力条件下，SVR与神经网络方法对相同数据的预测准确性相似，而SVR方法的优化较神经网络方法更容易、快捷。

优势5：神经网络的方法因其激活函数的设计特点，往往应用于分类预测。SVR应用于连续变量的回归分析更为合理。

上文，本发明实施例对基于机器学习的多重PCR扩增优化方法的实施过程做了详尽的解释说明；下文，将列举2个具体的实施例来验证本发明技术方案的优势所在。

具体实例1：特定难扩增低覆盖度区域的扩增方法改进。

人类基因组中存在一些特定区域，其序列因GC含量偏高而难于扩增。在进行扩增法Panel设计时，往往难以轻易通过观察序列特征协助决定引物对投入比例。以致癌基因TERT为例，对其表达具有显著调控作用的启动子区域存在突变热点，常见于甲状腺癌恶性结节中，因而是一重要分子检测标志物。然而，该区域因其GC含量较高，在多重扩增Panel往往对该区域覆盖深度不足。

本实例在搭建包含TERT启动子区域热点检测的Panel时，采用了本发明所提供的模型构建与引物对投入量预测方法。采用预测结果所建议的调整方案，将相应引物对投入比例放大约1个数量级。经实验验证，所得Panel在TERT启动子区域扩增深度可重复满足预期临床检验需求，并将整体Panel测序均一性提高至95％以上。

具体实例2：针对低丰度、低完整度核酸的Panel优化方法。

在临床检验中，以甲状腺结节穿刺样本为例的特定样本类型会存在提取所得DNA丰度低、完整度低的情况。旧有方法往往通过片段分析猜测核酸片段化程度，粗糙估计建库Panel的配制方案及投入量。然而，低丰度、低完整度核酸往往导致特定区域出现非线性扩增偏见，仅凭片段化分析难以获得Panel中所有引物对最理想配比。

本实例在实现甲状腺结节良恶性穿刺鉴别的NGS检测方法时，采用了本发明所提供的建模与预测方法。基于大量人工构建的、核酸丰度、质量临近检测限度的低质量样本测序结果，构建一充分描述该样本类型区间的模型。使用该模型预测了对低质量核酸中低扩增区域的引物对配比调整方案。其结果使得整体Panel测序均一性提高至95％以上；基于受试者工作特征曲线(ROC)分析，该检测方法整体准确性(AUC值)因此提高约5％。

如图2所示，展示了本发明实施例中的一种基于机器学习的多重PCR扩增优化系统的结构示意图。本发明实施例中的多重PCR扩增优化系统200包括特征构建模块201、样本构建模块202以及模型构建模块203。

特征构建模块201用于获取目标引物对的引物对特征；根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征；使用所述引物组合对参考样本进行基因测序，并对基因测序所得数据进行质控分析得到对应的数据质控指标，将所述数据质控指标均一化后得到引物组合的测序性能特征。

样本构建模块202用于将所述引物对特征、引物组合特征及测序性能特征组成特征向量；将所述目标引物对所属引物组合中的分子量浓度占比作为目的标记值；每个引物对所对应的特征向量和目的标记值构成一个样本数据；同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集。

模型构建模块203用于对所述引物组合的样本数据集做预处理，以基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型。

需说明的是，本发明实施例中的基于机器学习的多重PCR扩增优化系统，其实施方式和过程与上文中基于机器学习的多重PCR扩增优化方法相类似，故不再赘述。

需要说明的是：上述实施例提供的基于机器学习的多重PCR扩增优化装置在进行基于机器学习的多重PCR扩增优化时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的基于机器学习的多重PCR扩增优化装置与基于机器学习的多重PCR扩增优化方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供的基于机器学习的多重PCR扩增优化方法可以采用终端侧或服务器侧实施，就基于机器学习的多重PCR扩增优化终端的硬件结构而言，请参阅图3，为本发明实施例提供的计算机设备300的一个可选的硬件结构示意图，该设备300可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。基于机器学习的多重PCR扩增优化终端300包括：至少一个处理器301、存储器302、至少一个网络接口304和用户接口306。装置中的各个组件通过总线系统305耦合在一起。可以理解的是，总线系统305用于实现这些组件之间的连接通信。总线系统305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统。

其中，用户接口306可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。

可以理解，存储器302可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous StaticRandomAccess Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。

本发明实施例中的存储器302用于存储各种类别的数据以支持基于机器学习的多重PCR扩增优化终端300的操作。这些数据的示例包括：用于在基于机器学习的多重PCR扩增优化终端300上操作的任何可执行程序，如操作系统3021和应用程序3022；操作系统3021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序3022可以包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例提供的基于机器学习的多重PCR扩增优化方法可以包含在应用程序3022中。

上述本发明实施例揭示的方法可以应用于处理器301中，或者由处理器301实现。处理器301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器301可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器301可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，基于机器学习的多重PCR扩增优化终端300可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable LogicDevice)，用于执行前述方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

于本申请提供的实施例中，所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外，任何连接都可以适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术，从网站、服务器或其它远程源发送的，则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而，应当理解的是，计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质，而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。

综上所述，本申请提供基于机器学习的多重PCR扩增优化方法、装置、终端及介质，本发明可基于过往研究数据，针对新设计的多重扩增NGS Panel，在无需预先进行配制、测序的情况下，获得最佳的引物对配比方案，使得最终测序数据得到理想的数据质量与数据均一性；本发明中模型建立所需采集的信息均为常规引物设计、测序检测中可采集的数据，获取便利。基于SVR模型所获得预测结果可直接应用于Panel配制，大大缩短传统Panel引物配方研究的时间；本发明所建立的模型中，参数可调范围大，可被应用于复杂多变的预期用途，如：难扩增低覆盖度区域的扩增优化方法；针对低丰度、低完整度核酸的特别Panel优化方法等。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于机器学习的多重PCR扩增优化方法，其特征在于，包括：

获取目标引物对的引物对特征；

根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征；

对所述引物组合进行基因测序，并对基因测序所得数据进行质控分析得到对应的数据质控指标，将所述数据质控指标均一化后得到引物组合的测序性能特征；

将所述引物对特征、引物组合特征及测序性能特征组成特征向量；将所述目标引物对所属引物组合中的分子量浓度占比作为目的标记值；每个引物对所对应的特征向量和目的标记值构成一个样本数据；同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集；

对所述引物组合的样本数据集做预处理，以基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型；

其中，获取所述目标引物对的引物对特征的方式包括：根据目标引物对计算得到对应的引物属性，其包括引物长度与GC含量、扩增区域长度与GC含量、5'端与3'端ΔG、基因组其它区域相似度；将所述目标引物对的引物属性进行量化及均一化处理后得到对应的引物对特征；

所述引物组合特征的获取方式包括：根据所述目标引物对所属引物组合中的其它引物对计算得到对应的引物属性，其包括其它引物对的扩增子数量、其它引物对的扩增子平均GC含量、其它引物对的平均扩增区域长度、其它引物对与目标引物对的相似度；将所述其它引物对的引物属性进行量化及均一化处理后得到对应的引物组合特征；

对所述引物组合进行基因测序，并对基因测序所得数据进行质控分析得到对应的数据质控指标，将所述数据质控指标均一化后得到引物组合的测序性能特征，包括：基于多重扩增NGS建库对引物组合进行二代基因测序；基于二代基因测序所得数据分析得到对应的数据质控指标；将所述数据质控指标进行均一化处理后得到的特征作为测序性能特征。

2.根据权利要求1所述的基于机器学习的多重PCR扩增优化方法，其特征在于，对所述引物组合的样本数据集做预处理的方式包括：采用z-score算法对所述特征向量中的每一维特征进行归一化处理，以将每一维特征转换为0至1之间的数值。

3.根据权利要求1所述的基于机器学习的多重PCR扩增优化方法，其特征在于，所述方法还包括：使用带有松弛变量的SVR模型进行模型训练；所述带有松弛变量的SVR模型被表述如下：

决策函数为：

4.根据权利要求1所述的基于机器学习的多重PCR扩增优化方法，其特征在于，所述基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型，包括：将预处理后的样本数据集按照预设比例分为训练集和验证集，采用K折交叉验证进行模型参数选择，并采用高斯核函数作为核函数。

5.根据权利要求1所述的基于机器学习的多重PCR扩增优化方法，其特征在于，所述方法还包括在构建得到SVR模型后，选择平均绝对误差、均方根误差以及决定系数作为评估指标来对所述SVR模型进行评估。

6.一种基于机器学习的多重PCR扩增优化系统，其特征在于，包括：

特征构建模块，用于获取目标引物对的引物对特征；根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征；使用所述引物组合对参考样本进行基因测序，并对基因测序所得数据进行质控分析得到对应的数据质控指标，将所述数据质控指标均一化后得到引物组合的测序性能特征；

样本构建模块，用于将所述引物对特征、引物组合特征及测序性能特征组成特征向量；将所述目标引物对所属引物组合中的分子量浓度占比作为目的标记值；每个引物对所对应的特征向量和目的标记值构成一个样本数据；同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集；

模型构建模块，用于对所述引物组合的样本数据集做预处理，以基于预处理后的样本数据集训练SVR模型，以训练得到用于预测引物对的理想分子量浓度占比值的预测模型；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述基于机器学习的多重PCR扩增优化方法。

8.一种计算机设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行如权利要求1至5中任一项所述基于机器学习的多重PCR扩增优化方法。