CN118230819A

CN118230819A - 一种用于基因数据片段分析软件的分子量匹配方法

Info

Publication number: CN118230819A
Application number: CN202410278688.3A
Authority: CN
Inventors: 陈艳; 徐晓峰; 马俊; 陈功俊
Original assignee: Nanjing Superyears Gene Technology Co ltd
Current assignee: Nanjing Superyears Gene Technology Co ltd
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-06-21

Abstract

本发明涉及基因数据片段分析技术领域，公开了一种用于基因数据片段分析软件的分子量匹配方法，包括以下步骤：S1、从原始电泳荧光数据中提取内标信号数据，并去除内标信号基线噪声，得到去除基线噪声的内标信号数据；S2、识别去除基线噪声后的内标信号数据中的峰值；S3、计算内标信号数据中的峰参数对得到的初始峰值进行筛选，去除无关信号峰，得到去除无关信号峰的峰值；S4、基于去除无关信号峰的峰值进行内标匹配。本发明可以识别不同尺度和振幅的峰值；不需要去除引物峰，提高了内标匹配的鲁棒性；支持不同大小的DNA片段的内标匹配，适用范围更广、鲁棒性更好。

Description

一种用于基因数据片段分析软件的分子量匹配方法

技术领域

本发明涉及基因数据片段分析技术领域，具体涉及一种用于基因数据片段分析软件的分子量匹配方法。

背景技术

基于毛细管电泳的片段分析法，首先进行PCR扩增，得到荧光标记的DNA片段。然后将荧光标记的DNA片段进行毛细管电泳，根据片段大小将其分离到电泳胶中不同的位置。使用分子量匹配方法，将未知DNA片段与内标进行比较，确定未知DNA片段的大小。基因数据片段分析具有广泛的应用前景，可用于基因分型、基因表达分析、疾病诊断和药物开发等领域。分子量匹配算法首先去除电泳荧光信号数据中的基线噪声。然后识别内标信号数据中的峰值。并对得到的初始峰值进行筛选，去除无关信号峰。最后进行内标分子量匹配。

荧光信号的峰值识别是片段分析的基础，常用的寻峰算法通常根据峰特性查找信号中的峰值。通过简单比较相邻值来找到所有局部极大值。进一步地，还可以通过设定更多峰特性条件来选择这些峰值的一个子集。这种方法简单易于实现，计算效率高。但是，它可能会漏掉一些真正的峰值，也有可能会将一些噪声识别为峰值。内标是指在基因数据片段分析过程中添加的一种已知相对分子量大小的染料标记DNA片段。常用的内标分子量匹配算法通常设定引物峰段参数值与内标峰段识别参数值，然后根据峰值位置进行匹配。这种方法的准确性依赖于正确识别引物峰及内标峰，对噪声峰比较敏感，需要准确的参数设定，容易导致错误匹配。

发明内容

针对上述存在的技术不足，本发明要解决的技术问题是提供一种用于基因数据片段分析软件的分子量匹配方法，旨在解决目前常用的峰值检测算法易忽略频谱中峰值形状的附加信息；以及常用的内标匹配方法依赖于正确识别引物峰及内标峰，对于峰筛选的质量要求较高且不适用大于800bp的DNA片段的迁移的问题。

为解决上述技术问题，本发明采用如下技术方案：本发明提供一种用于基因数据片段分析软件的分子量匹配方法，包括以下步骤：

S1、从原始电泳荧光数据中提取内标信号数据，并去除内标信号基线噪声，得到去除基线噪声的内标信号数据；

S2、识别去除基线噪声后的内标信号数据中的峰值；

S3、计算内标信号数据中的峰参数对得到的初始峰值进行筛选，去除无关信号峰，得到去除无关信号峰的峰值以降低内标匹配复杂度；

S4、基于所述去除无关信号峰的峰值进行内标匹配。

进一步地，采用稀疏表示方法去除内标信号基线噪声包括：将数据表示为稀疏的线性组合，其中，噪声是稀疏的，使用估计的基线去除内标信号中的基线成分，将估计的基线从内标信号中减去。

进一步地，步骤S2包括以下步骤：

S210、根据设定的不同尺度值，分别对内标信号数据进行连续小波变换，得到变换后的CWT系数矩阵；

S220、识别所述变换后的CWT系数矩阵中的脊线，并根据所述脊线识别峰值。

进一步地，步骤S210包括以下步骤：

S211、设定系数矩阵的大小为M×N，其中，M是内标信号数据的长度，N是设定的不同尺度值的数量；

S212、设定N＝10为使用10个尺度值[1,2,3,4,5,6,7,8,9,10]后对内标信号数据f(t)进行连续小波变换中的多尺度CWT变换，得到变换后的CWT系数矩阵。

进一步地，步骤S220包括以下步骤：

S221、检测每个尺度的CWT系数的局部最大值；

S221a、基于CWT系数矩阵的第N行中的局部最大值初始化脊线，且第N行对应于尺度最大的行；

S221b、每个脊线都分配一个初始值为0的间隙数；其中，间隙数是需搜索的脊线的指标；

S222、对于间隙数小于阈值的每条脊线，在下一个相邻尺度上搜索最近的最大点；所述最近的最大点之间的最大允许距离小于当前尺度级的滑动窗口大小；若未搜索到最近的最大点，则脊线的间隙数增加1，否则间隙数设为0；

S223、保存间隙数高于阈值的脊线，并将其从待搜索的脊线列表中删除；

S224、对于与上一级点没有关联的最近的最大值点，则初始化新的脊线；

重复步骤S223至S224，直到达到CWT系数矩阵中尺度最小的行；

S225、定义相应规则识别主要峰值：信噪比SNR高于给定阈值；脊线的长度大于给定阈值；

其中，信噪比SNR是峰值估计信号强度与峰值局部噪声水平的比值；所述峰值估计信号强度是给定尺度范围内脊线的最大CWT系数；所述峰值局部噪声水平是尺度值a＝1时的CWT系数矩阵的95分位数。

进一步地，根据计算的初始峰值的峰参数，设置峰参数阈值，将峰参数低于阈值的峰值去除；其中，所述峰参数包括峰高、峰密度、半峰宽和峰质量；峰高是峰的最大值与基线的差值；峰密度是单位窗口内的峰数量；半峰宽是峰高一半处的峰宽度；峰质量是峰高与半峰宽之比。

进一步地，步骤S4包括以下步骤：

S410、使用步骤S3中去除无关信号峰的峰值计算峰值距离矩阵，使用内置的分子量标准计算内标距离序列；

S420、根据计算得到的峰值距离矩阵和内标距离序列确定内标匹配搜索区间；

S430、在确定的搜索区间内遍历种子峰值对列表，生成最优内标峰列表；

S440、根据生成的最优内标峰列表评价内标匹配质量。

进一步地，步骤S410包括：根据峰帧号计算得到峰值距离矩阵M_p，设定峰值距离矩阵M_p大小是(I-1)×(I-1)，其中I是筛选后待选峰总数量，峰值距离矩阵M_p的计算公式如下：

式中，是峰值距离矩阵M_p中第i行和第j列的值，P是峰帧号，P_j是去除无关信号峰的峰值中第j个峰的峰帧号，P_i是去除无关信号峰的峰值中第i个峰的峰帧号，i和j的范围是0到I-1，所述峰帧号是保留时间t，并由电泳荧光数据图中的横坐标可得；峰值距离是两个峰之间峰帧号差值的绝对值；

根据当前分析的样本中内置的分子量标准的内标定义计算得到内标距离序列D，设定内标距离序列D的大小为J-1，其中，J是标准分子量内标总数量，内标距离序列D的计算公式如下：

D_k＝|S_k-S_k+1|

式中，D_k是内标距离序列D中第k个元素的值，S_k是第k个分子量内标值，S_k+1是第k+1个分子量内标值。

进一步地，步骤S420包括：

根据内标范围和峰帧号范围估算峰值矩阵的阈值区间，根据阈值区间的上下界去除无关区域，减少搜索区间，其中，阈值的下界为B_min，其计算公式如下：

B_min＝0.2×(P₀-P_I-1)/(S₀-S_J-1)

阈值的上界为B_max，其计算公式如下：

B_max＝2×(P₀-P_I-1)/(S₀-S_J-1)

式中，P_I-1是最后一个峰的帧号，S_J-1是最后内标的分子量大小；

根据计算的峰值距离矩阵，计算所有可能的峰值对作为搜索区间以及种子峰值对，种子峰值对的选取规则为：0.5≤相邻峰高比≤2且峰高≥50RFU；搜索区间的选取规则为：0.2≤相邻峰高比≤5且峰高≥50RFU；其中，相邻峰高比是待选峰与已选的相邻峰的峰高比值。

进一步地，步骤S430包括：根据种子峰值对计算其比例系数k₀，其计算公式为：

根据相邻峰的峰值距离模式和峰高模式确定下一个内标峰值，当已选内标峰数量与定义的内标峰数量相等时，结束当前循环；

其中，所述峰值距离模式是种子峰值的比例系数k₀在设定的误差范围内；所述峰高模式是相邻峰的峰高比在设定的误差范围内；

根据相邻峰的峰值距离模式和峰高模式确定下一个内标峰值的规则如下：

11)若待选峰数量为0，搜索结束；

12)若待选峰数量为1，返回当前待选峰；

13)若最小比例峰和最小标准差峰是同一个峰，且峰高及相邻峰高比大于设定阈值，返回最小比例峰；

14)当比例误差低于设定阈值的内标峰数量大于1时，选峰高更高的峰；

15)若待选峰的比例误差大于设定的阈值时，则增大比例误差的阈值范围为原来两倍，待选峰按比例误差从小到大排序依次检查所述峰高模式，当峰高比＞0.5时退出循环，返回当前峰；

步骤S440包括：将最优内标峰列表与分子量内标进行拟合，根据拟合结果计算内标匹配的质量得分。

本发明的有益效果在于：

1、本发明采用基于连续小波变换的峰值识别可以识别不同尺度和振幅的峰值；

2、本发明不需要去除引物峰，提高了内标匹配的鲁棒性；

3、本发明采用的内标匹配，支持不同大小的DNA片段的内标匹配，适用范围更广、鲁棒性更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于基因数据片段分析软件的分子量匹配方法的流程图。

图2为识别峰值流程图。

图3为内标匹配流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种用于基因数据片段分析软件的分子量匹配方法，包括以下步骤：

S1、从原始电泳荧光数据中提取内标信号数据，并去除内标信号基线噪声，得到去除基线噪声的内标信号数据。应说明的是：

采用稀疏表示方法去除内标信号基线噪声包括：将数据表示为稀疏的线性组合，其中，噪声是稀疏的，使用估计的基线去除内标信号中的基线成分，将估计的基线从内标信号中减去。

S2、识别去除基线噪声后的内标信号数据中的峰值，如图2所示，包括以下步骤：

S210、根据设定的不同尺度值，分别对内标向量进行连续小波变换，得到变换后的CWT矩阵；

S220、识别变换后的CWT矩阵中的脊线，并根据脊线识别峰值。

具体的，步骤S210包括以下步骤：

S212、设定N＝10为使用10个尺度值[1，2，3，4，5，6，7，8，9，10]后对内标信号f(t)进行多尺度CWT变换，得到变换后的CWT系数矩阵；CWT变换的定义如下：

式中，s(t)是去除基线后的内标信号，a是尺度值，b是位移值，t是时间，ψ(t)是小波变换的母函数，且母函数是墨西哥草帽小波，其计算公式如下：

式中，σ是小波的尺度值。

具体的，步骤S220包括以下步骤：

S221、检测每个尺度的CWT系数的局部最大值；

S222、对于间隙数小于阈值的每条脊线，在下一个相邻尺度上搜索最近的最大点；最近的最大点之间的最大允许距离小于当前尺度级的滑动窗口大小；若未搜索到最近的最大点，则脊线的间隙数增加1，否则间隙数设为0；

重复步骤S223至S224，直到达到CWT系数矩阵中尺度最小的行；

其中，信噪比SNR是峰值估计信号强度与峰值局部噪声水平的比值；峰值估计信号强度是给定尺度范围内脊线的最大CWT系数；峰值局部噪声水平是尺度值a＝1时的CWT系数矩阵的95分位数。

S3、计算内标信号数据中的峰参数对得到的初始峰值进行筛选，去除无关信号峰，得到去除无关信号峰的峰值以降低内标匹配复杂度。应说明的是：

根据计算的初始峰值的峰参数，设置峰参数阈值，将峰参数低于阈值的峰值去除；

其中，峰参数包括峰高、峰密度、半峰宽和峰质量；峰高是峰的最大值与基线的差值；峰密度是单位窗口内的峰数量；半峰宽是峰高一半处的峰宽度；峰质量是峰高与半峰宽之比。

S4、基于去除无关信号峰的峰值进行内标匹配。

具体的，如图3所示，步骤S4包括以下步骤：

S420、根据步骤S410计算得到的峰值距离矩阵和内标距离序列确定内标匹配搜索区间；

S430、在步骤S420确定的搜索区间内遍历种子峰值对列表，生成最优内标峰列表；

S440、根据步骤S430生成的最优内标峰列表评价内标匹配质量。

步骤S410包括：根据峰帧号计算得到峰值距离矩阵M_p，设定峰值距离矩阵M_p大小是(I-1)×(I-1)，其中I是筛选后待选峰总数量，峰值距离矩阵M_p的计算公式如下：

式中，是峰值距离矩阵M_p中第i行和第j列的值，P是峰帧号，P_j是去除无关信号峰的峰值中第j个峰的峰帧号，P_i是去除无关信号峰的峰值中第i个峰的峰帧号，i和j的范围是0到I-1，峰帧号是保留时间t，并由电泳荧光数据图中的横坐标可得；峰值距离是两个峰之间峰帧号差值的绝对值。

根据当前分析的样本中内置的分子量标准的内标定义计算得到内标距离序列D，设定内标距离序列D的大小为J一1，其中，J是标准分子量内标总数量，内标距离序列D的计算公式如下：

D_k＝lS_k-S_k+1|

步骤S420包括：根据内标范围和峰帧号范围估算峰值矩阵的阈值区间，根据阈值区间的上下界去除无关区域，减少搜索区间，其中，阈值的下界为B_min，其计算公式如下：

B_min＝0.2×(P₀-P_I-1)/(S₀-S_J-1)

阈值的上界为B_max，其计算公式如下：

B_max＝2×(P₀-P_I-1)/(S₀-S_J-1)

根据确定的峰值距离矩阵，计算所有可能的峰值对作为搜索区间以及种子峰值对，种子峰值对的选取规则为：0.5≤相邻峰高比≤2且峰高≥50RFU；搜索区间的选取规则为：0.2≤相邻峰高比≤5且峰高≥50RFU；其中，相邻峰高比是待选峰与已选的相邻峰的峰高比值。

步骤S430包括：根据种子峰值对计算其比例系数k₀，其计算公式为：

其中，峰值距离模式是种子峰值的比例系数k₀在设定的误差范围内；峰高模式是相邻峰的峰高比在设定的误差范围内；

11)若待选峰数量为0，搜索结束；

12)若待选峰数量为1，返回当前待选峰；

15)若待选峰的比例误差大于设定的阈值时，则增大比例误差的阈值范围为原来两倍，待选峰按比例误差从小到大排序依次检查峰高模式，当峰高比＞0.5时退出循环，返回当前峰。

步骤S440包括：包括将最优内标峰列表与分子量内标进行拟合，根据拟合结果计算内标匹配的质量得分。

根据本实施例可知：

(1)本发明提高了分子量匹配算法的准确性和鲁棒性：常用的峰值检测算法只是根据峰高、峰宽等峰参数来识别峰值，忽略了频谱中峰值形状的附加信息。通过基于连续小波变换的峰值识别可以识别不同尺度和振幅的峰值。常用的内标匹配方法依赖于正确识别引物峰及内标峰，对于峰筛选的质量要求较高，本发明提出的内标匹配方法不需要去除引物峰，提高了内标匹配的鲁棒性。常用的内标匹配方法适用于满足线性迁移的DNA片段匹配，而碱基对大于800bp的DNA片段的迁移是曲线迁移，本发明提出的内标匹配方法采用的内标匹配即动态阈值分子量匹配算法，支持不同大小的DNA片段的内标匹配。相邻峰的相对高度比和相对距离比可以用来衡量目标峰与内标峰的相似性，动态阈值可以适应不同大小的DNA片段，通过这些方法提高了匹配的准确性和鲁棒性。

(2)本发明易于实现，具有较高的效率：本发明的算法思路清晰，易于理解和实现。此外，本发明采用了一些优化措施，提高了算法的效率。例如，在内标匹配中，根据内标范围和峰帧号范围估算峰值矩阵的阈值区间，并根据阈值区间的上下界来去除无关区域，减少了算法的搜索区间和计算量。这些优点使本发明具有一定的实用性和创新性。

以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，包括以下步骤：

S2、识别去除基线噪声后的内标信号数据中的峰值；

S4、基于所述去除无关信号峰的峰值进行内标匹配。

2.如权利要求1所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，采用稀疏表示方法去除内标信号基线噪声包括：将数据表示为稀疏的线性组合，其中，噪声是稀疏的，使用估计的基线去除内标信号中的基线成分，将估计的基线从内标信号中减去。

3.如权利要求1所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，步骤S2包括以下步骤：

4.如权利要求3所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，步骤S210包括以下步骤：

5.如权利要求3所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，步骤S220包括以下步骤：

S221、检测每个尺度的CWT系数的局部最大值；

重复步骤S223至S224，直到达到CWT系数矩阵中尺度最小的行；

6.如权利要求1所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，根据计算的初始峰值的峰参数，设置峰参数阈值，将峰参数低于阈值的峰值去除；其中，所述峰参数包括峰高、峰密度、半峰宽和峰质量；峰高是峰的最大值与基线的差值；峰密度是单位窗口内的峰数量；半峰宽是峰高一半处的峰宽度；峰质量是峰高与半峰宽之比。

7.如权利要求1所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，步骤S4包括以下步骤：

S440、根据生成的最优内标峰列表评价内标匹配质量。

8.如权利要求7所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，步骤S410包括：根据峰帧号计算得到峰值距离矩阵M_p，设定峰值距离矩阵M_p大小是(I-1)×(I-1)，其中I是筛选后待选峰总数量，峰值距离矩阵M_p的计算公式如下：

D_k＝|S_k-S_k+1|

9.如权利要求7所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，步骤S420包括：

B_min＝0.2×(P₀-P_I-1)/(S₀-S_J-1)

阈值的上界为B_max，其计算公式如下：

B_max＝2×(P₀-P_I-1)/(S₀-S_J-1)

10.如权利要求7所述的一种用于基因数据片段分析软件的分子量匹配方法，其特征在于，步骤S430包括：根据种子峰值对计算其比例系数k₀，其计算公式为：

11)若待选峰数量为0，搜索结束；

12)若待选峰数量为1，返回当前待选峰；