CN116612814A

CN116612814A - 基于回归模型的基因样本污染批量检测方法、装置、设备及介质

Info

Publication number: CN116612814A
Application number: CN202310707510.1A
Authority: CN
Inventors: 周艺华; 张慧; 杨峰; 洪跟东
Original assignee: Shanghai Ruijing Biotechnology Co ltd
Current assignee: Shanghai Ruijing Biotechnology Co ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-08-18

Abstract

本申请提供基于回归模型的基因样本污染批量检测方法、装置、设备及介质，包括：获取基因样本的遗传突变位点及遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率；使用岭回归分类模型对预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测；使用线性回归模型对预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测；通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。基于岭回归分类模型的污染预测，其AUC值可高达0.93，基于线性回归模型的污染比例预测，其决定系数R2的均值可达0.92，提供了一种可以应用于范围较小的panel、批量检测且不依赖于配对样本、能快速并精准地评估污染比例的工具。

Description

基于回归模型的基因样本污染批量检测方法、装置、设备及介质

技术领域

本申请涉及基因样本污染预测技术领域，特别是涉及基于回归模型的基因样本污染批量检测方法、装置、设备及介质。

背景技术

高通量二代测序(Next generation sequencing,NGS)方法已经成为研究基因组结构和详细信息的重要手段，并应用于多个领域，如癌症、遗传等。NGS是肿瘤领域非常重要的技术平台，能够帮助医生在较短时间内准确、详细地了解患者的DNA突变情况，辅助指导临床用药等。

然而，时常出现的样本污染对基因突变的检测带来巨大的影响，主要存在3种DNA污染：跨个体污染、跨物种污染和个体本身的污染。即使样本的污染水平很低，也会对突变检测的调用产生严重影响，导致特异性降低。

在NGS检测中，在样本储存、制备等过程中，由于多个样本是并行处理，导致很容易发生相邻样本之间异源DNA交叉污染的风险。

NGScheckmate是基于模型的方法来比较已知单核苷酸多态性的等位基因reads比例，通过深度相似性来确定样本相关性，并利用相关性检测匹配样本的工具；NGSCheckMate对各种数据类型都有较好的表现，包括外显子组测序、全基因组测序、RNA-seq、ChIP-seq、靶向测序和单细胞全基因组测序，对测序深度要求最低(>0.5X)；但是它只能检测两个样本是否匹配，无法确定样本之间是否有相互污染及污染比例。

Broad研究所Kristian Cibulskis等人的ContEst也是一种常见的污染评估工具，根据配对样本的基因型信息，基于贝叶斯最大后验概率评估样本的污染比例；但是该工具只能针对配对样本的污染评估。

Conpair采用了Jun及其同事开发的统计模型(VerifyBamID)，检测全基因组和全外显子组肿瘤正常测序实验中样本交换和跨个体污染的工具；即使存在拷贝数的变化，Conpair也可测量低至0.1％的污染水平；但是却无法使用于较小的panel范围的污染。

由于样本污染情况容易发生且具有随机性，因此本领域亟需一种可以应用于范围较小的panel、批量检测且不依赖于配对样本、能快速并精准地评估污染比例的工具。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供基于回归模型的基因样本污染批量检测方法、装置、设备及介质，用于解决难以精准且快速进行基因样本污染批量检测的技术问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种基于回归模型的基因样本污染批量检测方法，包括：获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率；使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测；使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测；通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。

于本申请的第一方面的一些实施例中，所述获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，其获取方式包括：使用基因探针进行基因捕获，并基于基因测序平台对捕获到的基因进行双端测序；对测序得到的原始数据进行数据预处理、序列比对、数据质控及突变分析处理，据以获得样本的遗传突变位点及所述遗传突变位点的变异频率信息。

于本申请的第一方面的一些实施例中，所述计算预设变异频率段内的突变位点分布频率，其计算方式包括：以样本间隔为5进行采样计算出0至100变异频率段内的分布频率。

于本申请的第一方面的一些实施例中，所述岭回归分类模型的训练方式包括：获取由多个历史样本数据构成的数据集，并按照预设比例将所述数据集划分为训练集和测试集；将训练集输入至岭回归分类模型中进行训练；对训练得到的岭回归分类模型进行交叉验证；其中，所述岭回归分类模型使用基于加权最小二乘法的损失函数，以在模型拟合时，对于变异程度较小、测量更精确的数据赋予较大的权重；对于变异程度较大、测量不稳定的数据赋予较小的权重。

于本申请的第一方面的一些实施例中，所述加权最小二乘法包括惩罚加权最小二乘法，其在残差平方和最小化的基础上增加一个L2范数的惩罚项，其计算方式包括：

其中，λ为非负数；为系数矩阵；y_i表示第i个样本的实际值；/>表示第i个样本的模型预测值；/>代表了实际值与模型预测值之间的距离。

于本申请的第一方面的一些实施例中，通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况，其过程包括：判断所述预测值是否大于预设的阳性判断值；若所述预测值大于预设的阳性判断值，则以所述预测值作为污染比例；若所述预测值不大于预设的阳性判断值，则确定为无污染。

于本申请的第一方面的一些实施例中，所述线性回归模型的训练过程包括：获取由多个历史样本数据构成的数据集，并按照预设比例将所述数据集划分为训练集和测试集；将训练集输入至线性回归模型进行训练；对训练得到的线性回归分类模型进行交叉验证；其中，所述线性回归模型使用普通最小二乘法来拟合模型的线性回归线，其计算方式包括：

其中，/>代表了实际值与模型预测值之间的距离；y_i表示第i个样本的实际值；/>表示第i个样本的模型预测值。

于本申请的第一方面的一些实施例中，所述方法还包括：将普通最小二乘法的分析结果中的预测值、残差和标准残差记录在结果数据集中的属性字段中并生成可视化的OLS报表；所述OLS报表用以呈现OLS模型的统计结果。

为实现上述目的及其他相关目的，本申请的第二方面提供一种基于回归模型的基因样本污染批量检测装置，包括：分布频率计算模块，用于获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率；污染预测模块，用于使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测；污染比例计算模块，用于使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测；通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。

为实现上述目的及其他相关目的，本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于回归模型的基因样本污染批量检测方法。

为实现上述目的及其他相关目的，本申请的第四方面提供一种计算机设备，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述计算机设备执行所述基于回归模型的基因样本污染批量检测方法。

如上所述，本申请的基于回归模型的基因样本污染批量检测方法、装置、设备及介质，具有以下有益效果：本发明基于回归模型进行基因样本污染的批量检测，效率高且精准；基于岭回归分类模型的污染预测，其AUC值可高达0.93，基于线性回归模型的污染比例预测，其决定系数R2的均值可达0.92；因此，本发明提供了一种可以应用于范围较小的panel、批量检测且不依赖于配对样本、能快速并精准地评估污染比例的工具。

附图说明

图1显示为本申请一实施例中的一种基于回归模型的基因样本污染批量检测方法的流程示意图。

图2显示为本申请一实施例中岭回归分类模型的训练过程示意图。

图3显示为本申请一实施例中通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况的过程示意图。

图4显示为本申请一实施例中线性回归模型的训练过程示意图。

图5显示为本申请一实施例中的一种基于回归模型的基因样本污染批量检测方法的流程示意图。

图6显示为本申请一实施例中的一种基于回归模型的基因样本污染批量检测装置的结构示意图。

图7显示为本申请一实施例中计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

为解决上述背景技术中的问题，本发明提供一种，旨在基于回归模型的基因样本污染批量检测X。与此同时，为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

在对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释：

<1>MGISEQ-200测序平台：是一款小巧且灵活的桌面型单载片基因测序平台，支持高低两种通量的载片。两种载片搭载3～4种读长，支持开展不同测序应用，包括：低深度全基因组测序、靶向捕获/多重测序、小型基因组测序、RNA测序、全外显子测序等临床应用或科研应用。

<2>双端测序：可以同时测序DNA的两端以提高测序的准确性和可靠性。在双端测序中，DNA样本首先被打断成短片段，然后通过PCR扩增得到大量的DNA片段，这些片段被随机地连接到测序芯片的DNA探针上，形成一个DNA文库；接下来，测序芯片上的荧光标记会被激发，产生荧光信号，这些信号会被记录下来形成一个序列。

<3>Ridge Regression：岭回归是一种专用于共线性数据分析的有偏估计回归方法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。

<4>Linear Regression：线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

<5>OLS(Ordinary Least Squares)，普通最小二乘法，是一种数学优化技术，旨在通过最小化误差的平方和寻找数据的最佳函数匹配。

<6>决定系数R2：是一种用于评估线性回归模型拟合效果的度量方式。当决定系数R2为1时，表示模型所有数据点都完全落在回归曲线上。决定系数R2越接近1，表示拟合效果越好，反映模型的拟合度越高；决定系数R2越接近0，表示拟合效果越差，反映模型的拟合程度越低。

<7>AUC(Area Under Curve)值：ROC曲线下与坐标轴围成的面积，该面积的数字不超过1，又由于ROC曲线一般处于y＝x这条直线的上方，故AUC取值范围在0.5和1之间。AUC值越接近1，检测方法真实性就越高；AUC值等于0.5时，检测方法真实性最低。

本发明实施例提供基于回归模型的基因样本污染批量检测方法、基于回归模型的基因样本污染批量检测方法的系统、以及存储用于实现基于回归模型的基因样本污染批量检测方法的可执行程序的存储介质。就基于回归模型的基因样本污染批量检测方法的实施而言，本发明实施例将对基于回归模型的基因样本污染批量检测的示例性实施场景进行说明。

如图1所示，展示了本发明实施例中的一种基于回归模型的基因样本污染批量检测方法的流程示意图。本实施例中的基于回归模型的基因样本污染批量检测方法主要包括如下各步骤：

步骤S1：获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率。

于本发明实施例中，所述获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，其获取方式包括：使用基因探针进行基因捕获，并基于基因测序平台对捕获到的基因进行双端测序；对测序得到的原始数据进行数据预处理、序列比对、数据质控及突变分析处理，据以获得样本的遗传突变位点及所述遗传突变位点的变异频率信息。

示例性地，可使用胰腺癌39基因探针进行杂交捕获，并使用MGISEQ-200测序平台进行双端测序，原始下机数据经数据预处理、序列比对、数据质控、突变分析等步骤后，可得到样本的遗传突变位点及所述遗传突变位点的变异频率信息。

于本发明实施例中，所述计算预设变异频率段内的突变位点分布频率，其计算方式包括：以样本间隔为5进行采样计算出0至100变异频率段内的分布频率。应理解的是，样本间隔(bin)是指频域中样本之间的间隔，而以样本间隔为5进行采样计算的0至100变异频率段内的分布频率是指，将0～100变异频率段按照样本间隔为5进行分段划分。

应理解的是，基因探针亦称为核酸探针，是一段带有检测标记且顺序已知，与目的基因互补的核酸序列(DNA或RNA)。基因探针通过分子杂交与目的基因结合，产生杂交信号，能从浩瀚的基因组中将目的基因显示出来。根据杂交原理，作为探针的核酸序列至少必须具备如下条件：一是应为单链；二是应带有容易被检测的标记。

步骤S2：使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测。

于本发明实施例中，岭回归分类模型的训练方式包括如图2所示的各步骤：

步骤S21：获取由多个历史样本数据构成的数据集，并按照预设比例将所述数据集划分为训练集和测试集。举例来说，可按照9:1的预设比例将数据集中的90％数据作为训练集，并将剩余的10％数据作为测试集。

较为优选的，在获取数据集后对所述数据集进行预处理；预处理方式包括但不限于如填充缺失值、数据归一化处理等等。

示例性地，可使用缺失值处理函数(如Simple Imputer函数)填充缺失值，其填充过程包括：删除带有空值的行并使用Simple Imputer函数按照平均数、中位数、众数或自定义数据来填充所需数据。

示例性地，可使用每个特征减去列均值再除以列标准差来实现对数据集的归一化处理。归一化后，矩阵每列的均值为0，标准差为1，形如标准正态分布。

步骤S22：将训练集输入至岭回归分类模型中进行训练。

应理解的是，岭回归分类模型(Ridge Classifier)首先将二进制目标转换为{-1,1}，随后将该问题转化为回归任务，通过对系数的大小施加惩罚来解决最小二乘法的问题。

优选地，岭回归分类模型(Ridge Classifier)使用基于加权最小二乘法的损失函数。加权最小二乘法(Weighted Least Squares,WLS)，即在模型拟合时，根据数据变异程度的大小赋予不同的权重，对于变异程度较小、测量更精确的数据赋予较大的权重，对于变异程度较大、测量不稳定的数据赋予较小的权重，从而使得加权后回归直线的残差平方和最小，保证拟合的模型具有更好的预测价值。

进一步地，所述加权最小二乘法优选为惩罚加权最小二乘法(PenalizedWeighted Least Squares,PWLS)，其在残差平方和最小化的基础上增加一个L2范数的惩罚项，其计算公式如下所示：

应理解的是，L2范数是向量的一种度量方式，也称为欧几里得范数或模长；对于n维向量x＝(x1,x2,…,xn)，其L2范数定位为||x||＝(|x₁|+|x₂|+…+|x_n|)，即L2范数是向量各个元素平方和的平方根，用以衡量向量的大小或长度。L2范数的作用是减小岭回归分类模型的所有参数大小，防止模型过拟合。

值得说明的是，本发明实施例中岭回归分类模型(Ridge Classifier)的损失函数使用加权最小二乘法，而未使用普通最小二乘法或者铰链损失函数、交叉熵损失函数等，这是因为：用于预测基因样本是否污染的岭回归分类模型，由于基因探针采集到的样本量的差别可能造成放大不同样本间的实际差异，最后导致错误推断出变异性不相等，即模型存在异方差性。对于存在异方差性的模型而言，普通最小二乘法或者铰链损失函数、交叉熵损失函数等损失函数并不适用，因其得到的参数估计量不是有效估计量，甚至也不是渐近有效的估计量，故无法对模型参数进行有关显著性校验。

有鉴于此，本发明实施例采用的是加权最小二乘法来使本发明实施例中的岭回归分类模型变成一个不存在异方差性的模型。应理解的是，所述异方差性是指回归模型中扰动项的方差不全相等，是两份样本比较时样本变量的方差显著不相等，意味着样本间变量均值显著不等。假设线性回归模型y＝Xβ+ε中，扰动项ε的分量ε_i(i＝1,2,…,n)是均值为0且彼此独立的，但Var(∈_i)＝σ_i ²不全相等，在这种情况下，OLS估计虽然具有无偏性和一致性，却不是最优线性无偏估计。

步骤S23：对训练得到的岭回归分类模型进行交叉验证。

较为优选的，使用10折交叉验证法对训练得到的岭回归分类模型进行验证。应理解，10折交叉验证(10-fold cross-validation)用于测试算法的准确性，通常将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行验证。每次验证都会得出相应的准确率，10次结果的准确率平均值作为对算法精度的估计。在本发明实施例的大量试验验证中，表明10折交叉验证是获得最好误差估计的恰当选择。10折交叉验证仅作为本发明实施例的一个优选实例，但并不限定仅能使用10折交叉验证，实际上也可使用5折交叉验证、20折交叉验证等方式进行验证。

示例性地，基于10折交叉验证，ROC曲线下的面积(area under the curve,AUC)的均值为0.93。应理解，AUC值通常介于0.1和1之间，AUC值可作为直观评价模型分类器好坏的指标，值越大越好。

步骤S3：使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测；通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。

于本发明实施例中，通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况，其过程包括如图3所示的各步骤：

步骤S31：判断所述预测值是否大于预设的阳性判断值。

示例性地，阳性判断值通常也称为cut-off值，即某一标志物检测时确定阴阳性界限的值，通常将敏感性和特异性最高时的临界值作为决定值。

步骤S32：若所述预测值大于预设的阳性判断值，则以所述预测值作为污染比例。

步骤S33：若所述预测值不大于预设的阳性判断值，则确定为无污染。

于本发明实施例中，线性回归模型的训练方式包括如图4所示的各步骤：

步骤S41：获取由多个历史样本数据构成的数据集，并按照预设比例将所述数据集划分为训练集和测试集。举例来说，可按照9:1的预设比例将数据集中的90％数据作为训练集，并将剩余的10％数据作为测试集。

步骤S42：将训练集输入至线性回归模型进行训练。

具体而言，线性回归模型(Linear Regression)的因变量是连续的，自变量可以是连续或离散的，回归线的性质是线性的，线性回归使用最佳的拟合直线(也即回归线)在因变量和一或多个自变量之间建立一种关系。线性回归模型用系数w＝(w₁,…,wp)拟合一个线性模型，以最小化数据集中观察到的目标与线性近似预测的目标之间的残差平方之和。

较为优选地，本发明实施例中的线性回归模型使用普通最小二乘法(OrdinaryLeast Squares,OLS)来拟合模型的线性回归线。普通最小二乘法(Ordinary LeastSquares,OLS)的主要思想是通过确定未知参数(通常是一个参数矩阵)，来使真实值和预测值之间的误差(也称为残差)平方和最小，其计算公式如下所示：

其中，代表了实际值与模型预测值之间的距离；y_i表示第i个样本的实际值；/>表示第i个样本的模型预测值。

值得说明的是，本发明实施例使用普通最小二乘法(Ordinary Least Squares,OLS)来生成用于预测污染比例的线性回归模型，主要是考虑到普通最小二乘法(OrdinaryLeast Squares,OLS)具有计算方便、响应速度快、可靠性高等明显优势。

进一步地，所述方法还包括将普通最小二乘法的分析结果中的预测值、残差和标准残差记录在结果数据集中的属性字段中并生成可视化的OLS报表；所述OLS报表用以呈现OLS模型的分布统计量、统计量概率、判定系数等统计结果。

具体而言，OLS报表中的字段包括但不限于：Source_ID字段、预测值字段、残差字段和标准残差字段。Source_ID字段是源数据集中对象的唯一标识。预测值字段是根据指定的解释变量，通过OLS分析得到的拟合值。残差是估计值和实际值之差，可用于确定模型的拟合程度，残差较小表明模型拟合效果较好，可以预测大部分预测值，说明这个回归方程是有效的。标准残差是残差和标准误差的比值，该值用于判断数据是否异常；若标准残差呈正态分布则表示该模型的表现比较优异；若标准残差出现了严重的偏态，则表示模型有偏差，可能该模型的某个关键变量缺失。

更进一步地，所述方法还包括基于模型残差数据生成对应的模型残差分段专题图；在所述模型残差分段专题图中，若存在偏高预测值或偏低预测值呈聚类分布，则判断丢失了关键解释变量。

步骤S43：对训练得到的线性回归分类模型进行交叉验证。

示例性地，基于10折交叉验证，决定系数(R-Squared,R2)的均值为0.90，决定系数分子部分表示真实值与预测值的平方差之和。根据决定系数(R-Squared,R2)的取值，来判断模型的好坏，其取值范围为[0,1]，一般而言，决定系数(R-Squared,R2)越大则表示模型拟合效果越好。

值得说明的是，在一些实施例中，上述步骤S2和S3可以是并列的关系，也即在执行“步骤S1：获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率”后，可同步执行步骤S2和S3，来分别进行是否污染的预测，以及污染比例的预测。在另一些实施例中，上述步骤S2和S3也可以是先后顺序关系，即先执行步骤S2再执行步骤S3，也即在先在步骤S2中确定有污染的情况下，再执行步骤S3来确定污染比例。

为便于本领域技术人员理解，现结合图5中的实例进行进一步的说明：

步骤S51：突变频率分布频率。

具体是指，获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率。

步骤S52：污染模型预测。

具体是指，使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测。

步骤S53：判断是否污染。

步骤S54：若预先训练的岭回归分类模型输出的预测值超出预设阈值，则判断基因样本有污染。

步骤S55：若预先训练的岭回归分类模型输出的预测值未超出预设阈值，则判断基因样本无污染。

步骤S56：污染比例模型预测。

具体是指，使用预先训练的线性回归模型得到样本污染比例的预测值。

步骤S57：判断线性回归模型输出的预测值是否大于cut-off值。

步骤S58：若线性回归模型输出的预测值大于cut-off值，则判断基因样本有污染，且以线性回归模型输出的预测值作为污染比例值。

步骤S59：若线性回归模型输出的预测值不大于cut-off值，则判断基因样本无污染。

如图6所示，展示了本发明实施例中的一种基于回归模型的基因样本污染批量检测装置的结构示意图。所述基于回归模型的基因样本污染批量检测装置600包括：分布频率计算模块601、污染预测模块602、污染比例计算模块603。

分布频率计算模块601用于获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率。

在一些示例中，所述分布频率计算模块601获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息的具体方式包括：使用基因探针进行基因捕获，并基于基因测序平台对捕获到的基因进行双端测序；对测序得到的原始数据进行数据预处理、序列比对、数据质控及突变分析处理，据以获得样本的遗传突变位点及所述遗传突变位点的变异频率信息。

在一些示例中，所述分布频率计算模块601计算预设变异频率段内的突变位点分布频率，其计算方式包括：以样本间隔为5进行采样计算出0至100变异频率段内的分布频率。

污染预测模块602用于使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测。

在一些示例中，污染预测模块602训练岭回归分类模型的具体方式包括：获取由多个历史样本数据构成的数据集，并按照预设比例将所述数据集划分为训练集和测试集；将训练集输入至岭回归分类模型中进行训练；对训练得到的岭回归分类模型进行交叉验证；其中，所述岭回归分类模型使用基于加权最小二乘法的损失函数，以在模型拟合时，对于变异程度较小、测量更精确的数据赋予较大的权重；对于变异程度较大、测量不稳定的数据赋予较小的权重。

进一步地，所述加权最小二乘法包括惩罚加权最小二乘法，其在残差平方和最小化的基础上增加一个L2范数的惩罚项，其计算方式包括：

污染比例计算模块603用于使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测；通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。

在一些示例中，所述污染比例计算模块603通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况，其过程包括：判断所述预测值是否大于预设的阳性判断值；若所述预测值大于预设的阳性判断值，则以所述预测值作为污染比例；若所述预测值不大于预设的阳性判断值，则确定为无污染。

在一些示例中，所述污染比例计算模块603训练线性回归模型的过程包括：获取由多个历史样本数据构成的数据集，并按照预设比例将所述数据集划分为训练集和测试集；将训练集输入至线性回归模型进行训练；对训练得到的线性回归分类模型进行交叉验证；其中，所述线性回归模型使用普通最小二乘法来拟合模型的线性回归线，其计算方式包括：

在一些示例中，所述基于回归模型的基因样本污染批量检测装置还包括报表模块，用于将普通最小二乘法的分析结果中的预测值、残差和标准残差记录在结果数据集中的属性字段中并生成可视化的OLS报表；所述OLS报表用以呈现OLS模型的统计结果。

在一些示例中，所述基于回归模型的基因样本污染批量检测装置还包括图形模块，用于基于模型残差数据生成对应的模型残差分段专题图；在所述模型残差分段专题图中，若存在偏高预测值或偏低预测值呈聚类分布，则判断丢失了关键解释变量。

需要说明的是：上述实施例提供的基于回归模型的基因样本污染批量检测装置在进行基于回归模型的基因样本污染批量检测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的基于回归模型的基因样本污染批量检测装置与基于回归模型的基因样本污染批量检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供的基于回归模型的基因样本污染批量检测方法可以采用计算机设备侧或服务器侧实施，就基于回归模型的基因样本污染批量检测计算机设备的硬件结构而言，请参阅图7，为本发明实施例提供的基于回归模型的基因样本污染批量检测计算机设备700的一个可选的硬件结构示意图，该计算机设备700可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。基于回归模型的基因样本污染批量检测计算机设备700包括：至少一个处理器701、存储器702、至少一个网络接口704和用户接口706。装置中的各个组件通过总线系统705耦合在一起。可以理解的是，总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统。

其中，用户接口706可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。

可以理解，存储器702可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous StaticRandomAccess Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。

本发明实施例中的存储器702用于存储各种类别的数据以支持基于回归模型的基因样本污染批量检测计算机设备700的操作。这些数据的示例包括：用于在基于回归模型的基因样本污染批量检测计算机设备700上操作的任何可执行程序，如操作系统7021和应用程序7022；操作系统7021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序7022可以包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例提供的基于回归模型的基因样本污染批量检测方法可以包含在应用程序7022中。

上述本发明实施例揭示的方法可以应用于处理器701中，或者由处理器701实现。处理器701可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器701可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，基于回归模型的基因样本污染批量检测计算机设备700可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)，用于执行前述方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

于本申请提供的实施例中，所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外，任何连接都可以适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术，从网站、服务器或其它远程源发送的，则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而，应当理解的是，计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质，而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。

综上所述，本申请提供基于回归模型的基因样本污染批量检测方法、装置、设备及介质，本发明基于回归模型进行基因样本污染的批量检测，效率高且精准；基于岭回归分类模型的污染预测，其AUC值可高达0.93，基于线性回归模型的污染比例预测，其决定系数R2的均值可达0.92；因此，本发明提供了一种可以应用于范围较小的panel、批量检测且不依赖于配对样本、能快速并精准地评估污染比例的工具。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于回归模型的基因样本污染批量检测方法，其特征在于，包括：

获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率；

使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测；

使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测；通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。

2.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法，其特征在于，所述获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，其获取方式包括：使用基因探针进行基因捕获，并基于基因测序平台对捕获到的基因进行双端测序；对测序得到的原始数据进行数据预处理、序列比对、数据质控及突变分析处理，据以获得样本的遗传突变位点及所述遗传突变位点的变异频率信息。

3.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法，其特征在于，所述计算预设变异频率段内的突变位点样本分布频率，其计算方式包括：以样本间隔为5进行采样计算出0至100变异频率段内的分布频率。

4.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法，其特征在于，所述岭回归分类模型的训练方式包括：

获取由多个历史样本数据构成的数据集，并按照预设比例将所述数据集划分为训练集和测试集；

将训练集输入至岭回归分类模型中进行训练；

对训练得到的岭回归分类模型进行交叉验证；

其中，所述岭回归分类模型使用基于加权最小二乘法的损失函数，以在模型拟合时，对于变异程度较小、测量更精确的数据赋予较大的权重；对于变异程度较大、测量不稳定的数据赋予较小的权重。

5.根据权利要求4所述的基于回归模型的基因样本污染批量检测方法，其特征在于，所述加权最小二乘法包括惩罚加权最小二乘法，其在残差平方和最小化的基础上增加一个L2范数的惩罚项，其计算方式包括：

6.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法，其特征在于，通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况，其过程包括：

判断所述预测值是否大于预设的阳性判断值；

若所述预测值大于预设的阳性判断值，则以所述预测值作为污染比例；

若所述预测值不大于预设的阳性判断值，则确定为无污染。

7.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法，其特征在于，所述线性回归模型的训练过程包括：

将训练集输入至线性回归模型进行训练；

对训练得到的线性回归分类模型进行交叉验证；

其中，所述线性回归模型使用普通最小二乘法来拟合模型的线性回归线，其计算方式包括：

8.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法，其特征在于，所述方法还包括：将普通最小二乘法的分析结果中的预测值、残差和标准残差记录在结果数据集中的属性字段中并生成可视化的OLS报表；所述OLS报表用以呈现OLS模型的统计结果。

9.一种基于回归模型的基因样本污染批量检测装置，其特征在于，包括：

分布频率计算模块，用于获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息，并计算预设变异频率段内的突变位点分布频率；

污染预测模块，用于使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测；

污染比例计算模块，用于使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测；通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述基于回归模型的基因样本污染批量检测方法。

11.一种计算机设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述计算机设备执行如权利要求1至8中任一项所述基于回归模型的基因样本污染批量检测方法。