CN114708915A - 基于轮廓系数的snp分型有效性评估方法、装置以及电子设备 - Google Patents
基于轮廓系数的snp分型有效性评估方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN114708915A CN114708915A CN202110497652.0A CN202110497652A CN114708915A CN 114708915 A CN114708915 A CN 114708915A CN 202110497652 A CN202110497652 A CN 202110497652A CN 114708915 A CN114708915 A CN 114708915A
- Authority
- CN
- China
- Prior art keywords
- clustering
- result
- contour coefficient
- fluorescence intensity
- intensity data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于轮廓系数的snp分型有效性评估方法、装置以及电子设备,涉及SNP基因分型技术领域,缓解了snp分型有效性评估的技术问题。该方法包括:获取针对目标SNP位点的终点荧光强度数据;基于所述终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果;通过个体轮廓系数及预设轮廓系数指标阈值对所述第一聚类结果中的样本进行筛选,得到样本筛选结果;利用所述聚类算法对所述样本筛选结果进行聚类,得到第二聚类结果。
Description
技术领域
本申请涉及SNP基因分型技术领域,尤其是涉及一种基于轮廓系数的snp分型有效性评估方法、装置以及电子设备。
背景技术
单核苷酸多态性(single nucleotide polymorphism,SNP)是由于单个核苷酸的改变而导致的核酸序列多态性。一般来说,一个SNP位点只有两种等位基因,因此又叫双等位基因。SNP在基因组中的发生频率比较高,大约平均每1000个碱基中就有一个多态位点,其是研究动植物等生物品系遗传变异、疾病与个体差异的关系以及个体差异对药物的耐药性存在的不同反应能力的重要依据。目前已经形成直接测序法、扩增曲线法、高分辨率熔解曲线分析(High Resolution Melting analysis,HRM)等多种检测技术。在这其中,扩增曲线法因为操作简单,只需一步聚合酶链式反应(Polymerase Chain Reaction,PCR)反应,速度快、通量大、结果容易判读等优势而经常使用。
但是,目前无论是采用人为指定,还是利用基因型特征进行自动判读,都存在分类结果的有效性评估问题。
发明内容
本发明的目的在于提供一种基于轮廓系数的snp分型有效性评估方法、装置以及电子设备,以缓解分类结果的有效性评估的技术问题。
第一方面,本申请实施例提供了一种基于轮廓系数的snp分型有效性评估方法,所述方法包括:
获取针对目标SNP位点的终点荧光强度数据;
基于所述终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果;
通过个体轮廓系数及预设轮廓系数指标阈值对所述第一聚类结果中的样本进行筛选,得到样本筛选结果;
利用所述聚类算法对所述样本筛选结果进行聚类,得到第二聚类结果。
在一个可能的实现中,所述获取针对目标SNP位点的终点荧光强度数据的步骤,包括:
利用扩增曲线法采集每个通道的针对目标SNP位点的终点荧光强度数据。
在一个可能的实现中,所述基于所述终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果的步骤,包括:
对所述终点荧光强度数据进行预处理,得到预处理结果;
利用聚类算法对所述预处理结果进行聚类,得到第一聚类结果。
在一个可能的实现中,所述对所述终点荧光强度数据进行预处理,得到预处理结果的步骤,包括:
对所述终点荧光强度数据进行归一化处理,得到归一化处理结果,并将所述归一化处理结果作为预处理结果。
在一个可能的实现中,所述利用聚类算法对所述预处理结果进行聚类,得到第一聚类结果的步骤,包括:
去除所述预处理结果中的空白样本以及无扩增样本数据;
利用聚类算法基于总体轮廓系数进行聚类分析,得到第一聚类结果;其中,所述第一聚类结果中包含分类数量、结果及总体、个体轮廓系数。
在一个可能的实现中,所述通过个体轮廓系数及预设轮廓系数指标阈值对所述第一聚类结果中的样本进行筛选,得到样本筛选结果的步骤,包括:
基于所述第一聚类结果判断总体轮廓系数是否满足所述预设轮廓系数指标阈值;如果所述总体轮廓系数不满足所述预设轮廓系数指标阈值,则该位点均为1类或不可分,后续进行手动划分或重新实验,如果满足,则进入下一步骤;
基于所述第一聚类结果判断个体轮廓系数是否满足所述预设轮廓系数指标阈值;如果存在所述个体轮廓系数不满足所述预设轮廓系数指标阈值的样本,则从所述第一聚类结果中去除不满足所述预设轮廓系数指标阈值的样本,得到样本筛选结果。
在一个可能的实现中,所述利用所述聚类算法对所述样本筛选结果进行聚类,得到第二聚类结果的步骤,包括:
利用所述聚类算法对所述样本筛选结果进行聚类以及分析,得到多个聚类中心和基因型特征,并根据每个所述聚类中心以及每个所述基因型特征进行归类,得到第二聚类结果。
第二方面,提供了一种基于轮廓系数的snp分型有效性评估装置,包括:
获取模块,用于获取针对目标SNP位点的终点荧光强度数据;
第一聚类模块,用于基于所述终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果;
筛选模块,用于通过个体轮廓系数及预设轮廓系数指标阈值对所述第一聚类结果中的样本进行筛选,得到样本筛选结果;
第二聚类模块,用于利用所述聚类算法对所述样本筛选结果进行聚类,得到第二聚类结果。
第三方面,本申请实施例又提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
第四方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
本申请实施例带来了以下有益效果:
本申请实施例提供的一种基于轮廓系数的snp分型有效性评估方法、装置以及电子设备,能够获取针对目标SNP位点的终点荧光强度数据,基于终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果,通过个体轮廓系数及预设轮廓系数指标阈值对第一聚类结果中的样本进行筛选,得到样本筛选结果,利用聚类算法对样本筛选结果进行聚类,得到第二聚类结果,本步骤中,通过采用轮廓系数这一指标,循环利用聚类算法,较好的缓解了SNP分型有效性评估问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于轮廓系数的snp分型有效性评估方法的流程示意图;
图2为本申请实施例提供的基于轮廓系数的snp分型有效性评估方法的另一流程示意图;
图3为本申请实施例提供的基于轮廓系数的snp分型有效性评估方法中,初始SNP分型结果;
图4为本申请实施例提供的基于轮廓系数的snp分型有效性评估方法中,去掉个体轮廓系数<0.9个体样本后SNP分型结果;
图5为本申请实施例提供的一种基于轮廓系数的snp分型有效性评估装置的结构示意图;
图6示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,无论是采用人为指定,还是利用基因型特征进行自动判读,都存在分类结果的有效性评估问题,以及由此而产生的去掉异常值(或分型特征不明确值)改善分型效果的问题。
基于此,本申请实施例提供了一种基于轮廓系数的snp分型有效性评估方法、装置以及电子设备,通过该方法可以缓解snp分型有效性评估的技术问题。
下面结合附图对本发明实施例进行进一步地介绍。
图1为本申请实施例提供的一种基于轮廓系数的snp分型有效性评估方法的流程示意图。如图1所示,该方法包括:
步骤S110,获取针对目标SNP位点的终点荧光强度数据。
需要说明的是,其中的荧光强度数据为最终处理过后的扩增曲线终点荧光强度数据,在此之前,应已去除基线、各通道之间串扰、孔间误差等的影响。
步骤S120,基于终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果。
步骤S130,通过个体轮廓系数及预设轮廓系数指标阈值对第一聚类结果中的样本进行筛选,得到样本筛选结果。
本步骤中,对聚类结果进行评估,根据个体轮廓系数及设定的轮廓系数阈值,去除不合格样本。
步骤S140,利用聚类算法对样本筛选结果进行聚类,得到第二聚类结果。
在实际应用中,可以针对剩余样本再次进行聚类分析并分类。
本申请实施例中,先采用聚类算法对各通道荧光强度数据进行初始分类,然后利用轮廓系数这一指标,对分型结果进行评估,最终达到对SNP位点进行准确分型的目的。通过采用轮廓系数这一指标,循环利用聚类算法,较好的解决了SNP分型有效性评估问题,而且易于理解,容易实现。
下面对上述步骤进行详细介绍。
在一些实施例中,上述步骤S110可以包括如下步骤:
步骤a),利用扩增曲线法采集每个通道的针对目标SNP位点的终点荧光强度数据。
例如,如图2所示,基于扩增曲线法采集各通道针对某SNP位点的终点荧光强度数据。其中的荧光强度数据为最终处理过后的扩增曲线终点荧光强度数据,在此之前,应已去除基线、各通道之间串扰、孔间误差等的影响。
在一些实施例中,上述步骤S120可以包括如下步骤:
步骤b),对终点荧光强度数据进行预处理,得到预处理结果;
步骤c),利用聚类算法对预处理结果进行聚类,得到第一聚类结果。
在实际应用中,可以基于聚类算法对预处理之后数据进行自适应聚类分析,进而更加高效的得到第一聚类结果。
在一些实施例中,上述步骤b)可以包括如下步骤:
步骤d),对终点荧光强度数据进行归一化处理,得到归一化处理结果,并将归一化处理结果作为预处理结果。
由于各等位基因频率不一致,导致SNP基因型频率不一致,所以,应对各通道终点荧光强度分别进行归一化,而归一化的方法采用最大最小归一化方法即可,假设某通道最大终点荧光强度为Xmax,最小终点荧光强度为Xmin,某样本该通道的终点荧光强度为Xi,则其归一化终点荧光强度数值X(i)为:
在一些实施例中,上述步骤c)可以包括如下步骤:
步骤e),去除预处理结果中的空白样本以及无扩增样本数据;
步骤f),利用聚类算法基于总体轮廓系数进行聚类以及分析,得到第一聚类结果;其中,第一聚类结果中包含分类数量、结果及总体、个体轮廓系数。
例如,如图2所示,可以先去除空白样本及无扩增样本数据,即为消除后期聚类不必要的干扰,对于指定空白样本或者各通道均无扩增的样本数据,可以在聚类之前排除。然后,在去除空白样本及无扩增样本数据之后,进行自适应聚类分析,基于总体轮廓系数确定最佳分类数目及分类结果。
假设某SNP位点有n个等位基因,则最多的纯合子或杂合子可能簇数为最少的可能簇数为1,即均为杂合子或某一种纯合子。采用常规的聚类分析方法即可,比如经典的K-means聚类方法,设已通过某聚类算法将待分类N个样本数据分为m类,对每一类中的每一个样品向量,分别计算轮廓系数s(i):
其中,a(i)为该样品向量到它属于的簇中其它点距离的平均值,b(i)为该样品向量到其他各簇所有点的平均距离的最小值,max{a(i),b(i)}表示取a(i)、b(i)中的较大值,可见s取值范围为[-1,1]。则总体轮廓系数
在一些实施例中,上述步骤S130可以包括如下步骤:
步骤g),基于所述第一聚类结果判断总体轮廓系数是否满足所述预设轮廓系数指标阈值;如果总体轮廓系数不满足预设轮廓系数指标阈值,则该位点均为1类或不可分,后续进行手动划分或重新实验,如果满足,则进入下一步骤h);
步骤h),基于所述第一聚类结果判断个体轮廓系数是否满足所述预设轮廓系数指标阈值;如果存在个体轮廓系数不满足所述预设轮廓系数指标阈值的样本,则从所述第一聚类结果中去除不满足所述预设轮廓系数指标阈值的样本,得到样本筛选结果。
需要说明的是,因轮廓系数取值越接近1,说明聚类性能越好,相反,取值越接近-1,则说明聚类性能越差。根据实际分析数据,可设定轮廓系数阈值S*,比如S*=0.9。
如图2所示,先执行步骤g),即根据聚类结果,考察总体轮廓系数是否满足阈值要求。具体的:比较与S*数值大小,如果则总体轮廓系数不能满足分类阈值要求,即原始样本数据不可分或均为1类,后续可进入手动划分程序或重新实验;如果则总体轮廓系数满足分类阈值要求,即原始样本数据可分。然后进入下个步骤h),即考察个体轮廓系数是否满足阈值要求,去除不合格样本。具体的:分别比较对应的所有个体轮廓系数与S*数值大小,当该个体轮廓系数<S*时,该样本不满足要求,去除该不合格样本,将该样本归为未知簇类,如果所有个体轮廓系数均≥S*,则无未知簇类。
在一些实施例中,上述步骤S140可以包括如下步骤:
步骤i),利用聚类算法对样本筛选结果进行聚类以及分析,得到多个聚类中心和基因型特征,并根据每个聚类中心以及每个基因型特征进行归类,得到第二聚类结果。
例如,如图2所示,先针对剩余样本,再次进行自适应聚类分析;然后根据各聚类中心及各基因型特征进行归类。
具体的,根据各基因型生物学特征,当为纯合子时,其中一个通道的终点荧光强度相对于其他通道会明显变大,即靠近该通道对应的坐标轴,当为杂合子时,某两个通道的终点荧光强度会比较接近,即靠近两正交坐标轴的分界面。为此,综合考察各聚类中心,当某聚类中心靠近某坐标轴时,为对应该坐标轴通道的纯合子,反之则为杂合子。而在纯合子、杂合子之外则为预先指定的空白样本类型及h)中确定的未知簇类(注:可选,如果存在就标出,不存在就留空)。
下面以下述示例说明检验方法的有效性,即利用博日荧光定量PCR检测系统对多份模板试剂进行的pcr扩增实验,并利用上述方法进行了SNP分型。这里以其中一份某SNP位点具有两个等位基因数据为例,设定轮廓系数阈值S*=0.9。
按照前述步骤,先将各通道均没有扩增的样本定为空白样本,然后采用K-means进行自适应聚类分析,发现当簇数为3时总体轮廓系数最大,选定3为分类数目,得到初步的聚类结果,此时即可分,但就个体轮廓系数而言,其中有四个样本个体轮廓系数<0.9,即处于两类交界区域,将它们定为未知类型,对于SNP分型结果,如图3所示。在此基础上,去除这四个未知类型样本,继续利用K-means进行自适应聚类分析,此时,当簇数为3时总体轮廓系数仍然最大,比去除未知样本前有了较明显的提升,且此时所有样本个体轮廓系数均>0.9,对于最终分型结果,如图4所示。
图5提供了一种基于轮廓系数的snp分型有效性评估装置的结构示意图。如图5所示,基于轮廓系数的snp分型有效性评估装置500包括:
获取模块501,用于获取针对目标SNP位点的终点荧光强度数据;
第一聚类模块502,用于基于终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果;
筛选模块503,用于通过个体轮廓系数及预设轮廓系数指标阈值对第一聚类结果中的样本进行筛选,得到样本筛选结果;
第二聚类模块504,用于利用聚类算法对样本筛选结果进行聚类,得到第二聚类结果。
在一些实施例中,获取模块501具体用于:
利用扩增曲线法采集每个通道的针对目标SNP位点的终点荧光强度数据。
在一些实施例中,第一聚类模块502具体用于:
对终点荧光强度数据进行预处理,得到预处理结果;
利用聚类算法对预处理结果进行聚类,得到第一聚类结果。
在一些实施例中,第一聚类模块502还用于:
对终点荧光强度数据进行归一化处理,得到归一化处理结果,并将归一化处理结果作为预处理结果。
在一些实施例中,第一聚类模块502还用于:
去除预处理结果中的空白样本以及无扩增样本数据;
利用聚类算法基于总体轮廓系数进行聚类以及分析,得到第一聚类结果;其中,第一聚类结果中包含分类数量、结果及总体、个体轮廓系数。
在一些实施例中,筛选模块503具体用于:
基于所述第一聚类结果判断总体轮廓系数是否满足所述预设轮廓系数指标阈值;如果总体轮廓系数不满足预设轮廓系数指标阈值,则该位点均为1类或不可分,后续进行手动划分或重新实验,如果满足,则进入下一步骤;
基于所述第一聚类结果判断个体轮廓系数是否满足所述预设轮廓系数指标阈值;如果存在个体轮廓系数不满足预设轮廓系数指标阈值的样本,则从第一聚类结果中去除不满足预设轮廓系数指标阈值的样本,得到样本筛选结果。
在一些实施例中,第二聚类模块504具体用于:
利用聚类算法对样本筛选结果进行聚类以及分析,得到多个聚类中心和基因型特征,并根据每个聚类中心以及每个基因型特征进行归类,得到第二聚类结果。
本申请实施例提供的基于轮廓系数的snp分型有效性评估装置,与上述实施例提供的基于轮廓系数的snp分型有效性评估方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例提供的一种电子设备,如图6所示,电子设备600包括处理器602、存储器601,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
参见图6,电子设备还包括:总线603和通信接口604,处理器602、通信接口604和存储器601通过总线603连接;处理器602用于执行存储器601中存储的可执行模块,例如计算机程序。
其中,存储器601可能包含高速随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口604(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线603可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器601用于存储程序,所述处理器602在接收到执行指令后,执行所述程序,前述本申请任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器602中,或者由处理器602实现。
处理器602可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器601,处理器602读取存储器601中的信息,结合其硬件完成上述方法的步骤。
对应于上述基于轮廓系数的snp分型有效性评估方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述基于轮廓系数的snp分型有效性评估方法的步骤。
本申请实施例所提供的基于轮廓系数的snp分型有效性评估装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
再例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述基于轮廓系数的snp分型有效性评估方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于轮廓系数的snp分型有效性评估方法,其特征在于,所述方法包括:
获取针对目标SNP位点的终点荧光强度数据;
基于所述终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果;
通过个体轮廓系数及预设轮廓系数指标阈值对所述第一聚类结果中的样本进行筛选,得到样本筛选结果;
利用所述聚类算法对所述样本筛选结果进行聚类,得到第二聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取针对目标SNP位点的终点荧光强度数据的步骤,包括:
利用扩增曲线法采集每个通道的针对目标SNP位点的终点荧光强度数据。
3.根据权利要求1所述的方法,其特征在于,所述基于所述终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果的步骤,包括:
对所述终点荧光强度数据进行预处理,得到预处理结果;
利用聚类算法对所述预处理结果进行聚类,得到第一聚类结果。
4.根据权利要求3所述的方法,其特征在于,所述对所述终点荧光强度数据进行预处理,得到预处理结果的步骤,包括:
对所述终点荧光强度数据进行归一化处理,得到归一化处理结果,并将所述归一化处理结果作为预处理结果。
5.根据权利要求3所述的方法,其特征在于,所述利用聚类算法对所述预处理结果进行聚类,得到第一聚类结果的步骤,包括:
去除所述预处理结果中的空白样本以及无扩增样本数据;
利用聚类算法基于总体轮廓系数进行聚类分析,得到第一聚类结果;其中,所述第一聚类结果中包含分类数量、结果及总体、个体轮廓系数。
6.根据权利要求1所述的方法,其特征在于,所述通过个体轮廓系数及预设轮廓系数指标阈值对所述第一聚类结果中的样本进行筛选,得到样本筛选结果的步骤,包括:
基于所述第一聚类结果判断总体轮廓系数是否满足所述预设轮廓系数指标阈值;如果所述总体轮廓系数不满足所述预设轮廓系数指标阈值,则该位点均为1类或不可分,后续进行手动划分或重新实验,如果满足,则进入下一步骤;
基于所述第一聚类结果判断个体轮廓系数是否满足所述预设轮廓系数指标阈值;如果存在所述个体轮廓系数不满足所述预设轮廓系数指标阈值的样本,则从所述第一聚类结果中去除不满足所述预设轮廓系数指标阈值的样本,得到样本筛选结果。
7.根据权利要求1所述的方法,其特征在于,所述利用所述聚类算法对所述样本筛选结果进行聚类,得到第二聚类结果的步骤,包括:
利用所述聚类算法对所述样本筛选结果进行聚类以及分析,得到多个聚类中心和基因型特征,并根据每个所述聚类中心以及每个所述基因型特征进行归类,得到第二聚类结果。
8.一种基于轮廓系数的snp分型有效性评估装置,其特征在于,包括:
获取模块,用于获取针对目标SNP位点的终点荧光强度数据;
第一聚类模块,用于基于所述终点荧光强度数据利用聚类算法进行聚类,得到第一聚类结果;
筛选模块,用于通过个体轮廓系数及预设轮廓系数指标阈值对所述第一聚类结果中的样本进行筛选,得到样本筛选结果;
第二聚类模块,用于利用所述聚类算法对所述样本筛选结果进行聚类,得到第二聚类结果。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497652.0A CN114708915A (zh) | 2021-05-07 | 2021-05-07 | 基于轮廓系数的snp分型有效性评估方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497652.0A CN114708915A (zh) | 2021-05-07 | 2021-05-07 | 基于轮廓系数的snp分型有效性评估方法、装置以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708915A true CN114708915A (zh) | 2022-07-05 |
Family
ID=82167405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110497652.0A Pending CN114708915A (zh) | 2021-05-07 | 2021-05-07 | 基于轮廓系数的snp分型有效性评估方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708915A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115602245A (zh) * | 2022-09-09 | 2023-01-13 | 郑州思昆生物工程有限公司(Cn) | 一种荧光图筛选的方法、装置、设备以及存储介质 |
CN116525000A (zh) * | 2023-07-04 | 2023-08-01 | 北京市农林科学院 | 兼容多荧光信号平台的农作物品种基因型分型方法及装置 |
-
2021
- 2021-05-07 CN CN202110497652.0A patent/CN114708915A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115602245A (zh) * | 2022-09-09 | 2023-01-13 | 郑州思昆生物工程有限公司(Cn) | 一种荧光图筛选的方法、装置、设备以及存储介质 |
CN115602245B (zh) * | 2022-09-09 | 2023-10-03 | 郑州思昆生物工程有限公司 | 一种荧光图筛选的方法、装置、设备以及存储介质 |
CN116525000A (zh) * | 2023-07-04 | 2023-08-01 | 北京市农林科学院 | 兼容多荧光信号平台的农作物品种基因型分型方法及装置 |
CN116525000B (zh) * | 2023-07-04 | 2023-09-26 | 北京市农林科学院 | 兼容多荧光信号平台的农作物品种基因型分型方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7164125B2 (ja) | シーケンシングベースのアッセイの妥当性を確保するための品質管理鋳型 | |
US8571807B2 (en) | Computer algorithm for automatic allele determination from fluorometer genotyping device | |
SA517381091B1 (ar) | طرق وأنظمة لتحليل بيانات توالي الحمض النووي | |
CN114708915A (zh) | 基于轮廓系数的snp分型有效性评估方法、装置以及电子设备 | |
CN108647495B (zh) | 身份关系鉴定方法、装置、设备及存储介质 | |
US11302417B2 (en) | Systems and methods for SNP characterization and identifying off target variants | |
Muller et al. | OutLyzer: software for extracting low-allele-frequency tumor mutations from sequencing background noise in clinical practice | |
Durtschi et al. | VarBin, a novel method for classifying true and false positive variants in NGS data | |
CN116189763A (zh) | 一种基于二代测序的单样本拷贝数变异检测方法 | |
CN114517223B (zh) | 一种用于筛选snp位点的方法及其应用 | |
JP7333838B2 (ja) | 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法 | |
CN114300045A (zh) | 基于对照组的半监督snp分型方法、装置和电子设备 | |
Fujisawa et al. | Genotyping of single nucleotide polymorphism using model-based clustering | |
CN108694304B (zh) | 一种身份关系鉴定方法、装置、设备及存储介质 | |
US20220172798A1 (en) | Method for performing genotyping analysis | |
CN113111972B (zh) | 基于层次聚类的熔解曲线Tm值确定方法、装置以及电子设备 | |
CN113981070B (zh) | 胚胎染色体微缺失的检测方法、装置、设备和存储介质 | |
CA3143759A1 (en) | Systems and methods for determining genome ploidy | |
Emma Huang et al. | iDArTs: increasing the value of genomic resources at no cost | |
CN116543837B (zh) | 基于荧光信号平台的基因型比对方法及装置 | |
Satyawana et al. | Leveraging the 3000 Rice Genome Data for Computational Design of Polymorphic Markers in a Local Rice Variety Lacking Sequence Data | |
WO2023212127A1 (en) | Methods of genotyping rare genetic variants | |
EP1451371A1 (en) | Automated genotyping | |
JP2006017461A (ja) | 遺伝子情報の表示方法及び表示装置 | |
Bandhana | Evaluation of two pipelines for calling Copy Number Variants (CNVs) in whole exome data from a cohort of Portuguese azoospermic men |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |