CN115762641A - 一种指纹图谱构建方法及系统 - Google Patents
一种指纹图谱构建方法及系统 Download PDFInfo
- Publication number
- CN115762641A CN115762641A CN202310030065.XA CN202310030065A CN115762641A CN 115762641 A CN115762641 A CN 115762641A CN 202310030065 A CN202310030065 A CN 202310030065A CN 115762641 A CN115762641 A CN 115762641A
- Authority
- CN
- China
- Prior art keywords
- marker
- sequence
- mark
- sample
- fingerprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供一种指纹图谱构建方法及系统,指纹图谱构建方法包括:挑选一组独立标记序列依次增加至标记集合,得到标记集合中相同样本的第一标记序列;将相同第一标记序列为一组,得到k组区分样本;重复迭代步骤,直至满足目标条件;重复上述步骤,得到多个满足目标条件的区分样本数量;计算所有区分样本数量的最小值,选取最小值对应的标记集合为候选标记集合;计算未被挑选的独立标记序列的区分贡献度;每次向候选标记集合中添加未被挑选的独立标记序列,直至候选标记集合中所具有的第一设定组合的数量最大,得到优选标记集合;将优选标记集合作为指纹图谱。通过上述步骤,使得指纹图谱基因组覆盖度较高,标记分布更为均匀,标记代表性更优。
Description
技术领域
本公开一般涉及指纹图谱技术领域,具体涉及一种指纹图谱构建方法及系统。
背景技术
种质资源是作物遗传育种的物质基础,是我国农业可持续发展的物质保障。由于农作物的亲本利用的集中化现象,将导致一些性状差异不明显的品种产生,传统得品种鉴定方法已经不能满足品种鉴定的需求。因此,寻找一种新的高效且实用性强的技术来进行农作物的真实性鉴定就显得尤为重要;
DNA指纹图谱因所具有的检测方便性,精确性等特点,已经广泛应用于多种农作物的品种鉴定;
现有技术中,指纹图谱的构建多采用SSR标记和简化基因组测序标记,由于基因组覆盖度较低,使得标记分布不均一,标记代表性较差。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供可解决上述技术问题的一种指纹图谱构建方法及系统。
本申请第一方面提供一种指纹图谱构建方法,包括:
S100:获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列;
S200:从多个所述单核苷酸多态性序列中筛选出m个独立标记序列A i ;所述独立标记序列A i 包括n个样本对应的同一个不连锁的变异位点i的基因型;
S300:随机挑选一组独立标记序列A i 并依次增加至标记集合,得到所述标记集合中相同样本的第一标记序列;将相同所述第一标记序列为一组,得到k组区分样本;
S400:重复迭代步骤S300,直至满足目标条件k≥m;
S500:重复步骤S300-S400,得到多个满足所述目标条件的区分样本数量k;计算所有所述区分样本数量k的最小值k s ,选取所述最小值k s 对应的标记集合为候选标记集合;
S600:计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度;按照所述区分贡献度由大到小的顺序,每次向所述候选标记集合中添加j个未被挑选的独立标记序列A i ,直至所述候选标记集合中所具有的第一设定组合的数量最大,得到优选标记集合;所述第一设定组合为两个样本之间的基因型一致度小于设定阈值的组合;
S700:将所述优选标记集合作为所述指纹图谱。
根据本申请实施例提供的技术方案,通过以下子步骤,计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度:
计算所述候选标记集合中任意两个样本之间的基因型一致度;
确定所有对比组合中基因型一致度大于等于所述设定阈值的目标样本组合;
计算独立标记序列A i 中第二设定组合的数量,得到所述区分贡献度;所述第二设定组合为所述未被挑选的独立标记序列A i 所对应的目标样本组合中具有相同基因型的组合。
根据本申请实施例提供的技术方案,将所述优选标记集合作为所述指纹图谱的方法具体为:
计算所述优选标记集合与所述单核苷酸多态性序列的基因型一致度;
判断所述基因型一致度大于设定值时,将所述优选标记集合作为所述指纹图谱;否则,重复步骤S600。
根据本申请实施例提供的技术方案,获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列的方法具体为:
获取n个样本的全基因组测序数据;
对所有所述全基因组测序数据进行质控得到有效数据;
将所述有效数据比对到参考基因组中得到比对数据;
确定所述比对数据在所述参考基因组的不同位置分布,得到bam数据;
对所述bam数据进行变异检测得到多个初始单核苷酸多态性序列;
对所述初始单核苷酸多态性序列进行过滤,得到所述单核苷酸多态性序列。
根据本申请实施例提供的技术方案,所述指纹图谱构建方法还包括:
获取待检测样本,对所述待检测样本进行比对和变异检测,得到待检测单核苷酸多态性数据;
判断所述待检测单核苷酸多态性数据与所述指纹图谱的一致度小于所述设定阈值时,输出检测信息为新物种。
本申请第二方面提供一种指纹图谱构建系统,包括:
处理模块,所述处理模块配置用于:
S100:获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列;
S200:从多个所述单核苷酸多态性序列中筛选出m个独立标记序列A i ;所述独立标记序列A i 包括n个样本对应的同一个不连锁的变异位点i的基因型;
S300:随机挑选一组独立标记序列A i 并依次增加至标记集合,得到所述标记集合中相同样本的第一标记序列;将相同所述第一标记序列为一组,得到k组区分样本;
S400:重复迭代步骤S300,直至满足目标条件k≥m;
S500:重复步骤S300-S400,得到多个满足所述目标条件的区分样本数量k;计算所有所述区分样本数量k的最小值k s ,选取所述最小值k s 对应的标记集合为候选标记集合;
计算模块,所述计算模块与所述处理模块的输出端连接,所述计算模块配置用于:
S600:计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度;按照所述区分贡献度由大到小的顺序,每次向所述候选标记集合中添加j个未被挑选的独立标记序列A i ,直至所述候选标记集合中所具有的第一设定组合的数量最大,得到优选标记集合;所述第一设定组合为两个样本之间的基因型一致度小于设定阈值的组合;
S700:将所述优选标记集合作为所述指纹图谱。
根据本申请实施例提供的技术方案,所述计算模块还具体配置用于:
计算所述候选标记集合中任意两个样本之间的基因型一致度;
确定所有对比组合中基因型一致度大于等于所述设定阈值的目标样本组合;
计算独立标记序列A i 中第二设定组合的数量,得到所述区分贡献度;所述第二设定组合为所述未被挑选的独立标记序列A i 所对应的目标样本组合中具有相同基因型的组合。
根据本申请实施例提供的技术方案,所述计算模块还配置用于:
计算所述优选标记集合与所述单核苷酸多态性序列的基因型一致度;
判断所述基因型一致度大于设定值时,将所述优选标记集合作为所述指纹图谱;否则,重复步骤S600。
根据本申请实施例提供的技术方案,所述处理模块还具体配置用于:
获取n个样本的全基因组测序数据;
对所有所述全基因组测序数据进行质控得到有效数据;
将所述有效数据比对到参考基因组中得到比对数据;
确定所述比对数据在所述参考基因组的不同位置分布,得到bam数据;
对所述bam数据进行变异检测得到多个初始单核苷酸多态性序列;
对所述初始单核苷酸多态性序列进行过滤,得到所述单核苷酸多态性序列。
根据本申请实施例提供的技术方案,指纹图谱构建系统还包括检测模块;所述检测模块配置用于:
获取待检测样本,对所述待检测样本进行比对和变异检测,得到待检测单核苷酸多态性数据;
判断所述待检测单核苷酸多态性数据与所述指纹图谱的一致度小于所述设定阈值时,输出检测信息为新物种。
本申请的有益效果在于:本申请中通过全基因组测序数据,得到多个独立标记序列A i ;通过随机挑选,重复迭代的方式,得到了一个随机方式下能够将样本进行区分的区分样本数量,并通过多次试验,选取多有区分样本数量的最小值,得到了候选标记集合;该候选标记集合在满足能够区分样本的前提下,实现了区分样本数量最小,避免产生冗余,有利于提高计算速度,保证了标记的代表性;基于未被挑选集合的区分贡献度,将其依次添加至候选标记集合内,保证了分布的均匀性和标记的代表性;通过设置设定阈值以及目标条件(直至所述候选标记集合中所具有的第一设定组合的数量最大),避免数据产生冗余;由此得到的指纹图谱,基因组覆盖度较高,标记分布更为均匀,标记代表性更优。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请提供的一种指纹图谱构建方法的流程图;
图2为本申请提供的一种指纹图谱构建系统的原理图;
图中标号:
1、处理模块;2、计算模块;3、检测模块。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例1
请参考图1为本申请提供的一种指纹图谱构建方法,包括:
S100:获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列;
具体的,n个样本为同一种类的样本;
具体的,所述单核苷酸多态性序列即SNPs(single nucleotide polymorphisms)数据,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性。
S200:从多个所述单核苷酸多态性序列中筛选出m个独立标记序列A i ;所述独立标记序列A i 包括n个样本对应的同一个不连锁的变异位点i的基因型;
具体的,所述不连锁的变异位点i相对独立,相对独立即处于基因组染色体非连锁区域的变异位点。
具体的,为了便于说明,以n=4为例,某一所述独立标记序列A 1 例如表-1所示:
表-1
其中,Ref表示此位点参考基因组的碱基类型;Alt表示此位点不同于参考基因组的碱基类型;
其中,Sample1-Sample4分别表示一个样本;该独立标记序列A 1 包括4个样本对应的同一不连锁的变异位点(SNP1)的基因型,分别为A、T、T、T;
为了便于说明,m个独立标记序列A i 如表-2所示:
表-2
S300:随机挑选一组独立标记序列A i 并依次增加至标记集合,得到所述标记集合中相同样本的第一标记序列;将相同所述第一标记序列为一组,得到k组区分样本;
具体的,随机挑选一组独立标记序列A i 时应挑选未被挑选过的序列;
S400:重复迭代步骤S300,直至满足目标条件k≥m;
例如:
挑选表-2中独立标记序列A 1 增加至标记集合,此时得到两组区分样本,分别为A组和T组,即k=2;
重复迭代步骤S300,例如选取独立标记序列A 2 ,增加至标记集合,此时得到三组区分样本,分别为AC组、TC组和TG组,即k=3;
重复迭代步骤S300,例如选取独立标记序列A 2 ,增加至标记集合,此时得到四组区分样本,分别为ACC组、TCT组、TGT组和TGC组,即k=4,此时k=m,结束本步骤,并得到由独立标记序列A 1 、A 2 、A 3 组成的标记集合。
S500:重复步骤S300-S400,得到多个满足所述目标条件的区分样本数量k;计算所有所述区分样本数量k的最小值k s ,选取所述最小值k s 对应的标记集合为候选标记集合;
具体的,步骤S500中的重复次数可根据实际需求进行确定,例如在一些实施例中,重复2000次;2000次重复使最后得到的最小值k s 更接近真实的最小值;
由于步骤S300为随机挑选,因此重新重复进行步骤S300-S400,则将得到若干个满足所述目标条件的区分样本数量k,选取所有区分样本数量k中区分样本数量k的最小值k s ,选取该最小值k s 对应的标记集合为候选标记集合;
进一步的,当最小值k s 对应的标记集合有多个时,则选取该多个标记集合中最均匀的集合,并将其作为候选标记集合。
由此得到的候选标记集合的样本数量k s 在将各样本区分开的基础上,实现了区分样本数量最少,有利于减少后续进行比对的计算量,提高计算效率。
S600:计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度;按照所述区分贡献度由大到小的顺序,每次向所述候选标记集合中添加j个未被挑选的独立标记序列A i ,直至所述候选标记集合中所具有的第一设定组合的数量最大,得到优选标记集合;所述第一设定组合为两个样本之间的基因型一致度小于设定阈值的组合;
具体的,j为设定值,可根据实际需求进行设置,例如j=20;
具体的,设定阈值可根据实际需求进行设置,例如设定阈值设置为92%。
为了便于说明,继续以上述举例进行说明,同时设定j=1,设定阈值为92%为例,则步骤S600具体为:
计算独立标记序列A 4 -A m 对所述候选标记集合的区分贡献度;
按照所述区分贡献度由大到小的顺序,每次向所述候选标记集合中添加1个未被挑选的独立标记序列A i ,直至所述候选标记集合中所具有的第一设定组合的数量最大,得到优选标记集合;
例如添加独立标记序列A 4 ,则当前候选集合如表-3所示:
表-3
当前候选集合中各个样本组合的基因型一致度为:
Sample1-2:75%;
Sample1-3:0%;
Sample1-4:25%;
Sample2-3:75%;
Sample2-4:50%;
Sample3-4:75%;
由此得到当前所述候选标记集合中所具有的第一设定组合的数量为6,此时第一设定组合的数量最大;
需要注意的是,上述举例并非是对本申请技术方案的限定,而是为了以少量、简单、直观的数据进行举例说明,便于本领域技术人员进一步理解本申请的技术方案。可以理解的,在实际操作过程中,样本数量应较多,例如样本数量n≥300,以使样本尽可能有较高的多态性。
S700:将所述优选标记集合作为所述指纹图谱。
工作原理:本申请中通过全基因组测序数据,得到多个独立标记序列A i ;通过随机挑选,重复迭代的方式,得到了一个随机方式下能够将样本进行区分的区分样本数量,并通过多次试验,选取多有区分样本数量的最小值,得到了候选标记集合;该候选标记集合在满足能够区分样本的前提下,实现了区分样本数量最小,避免产生冗余,有利于提高计算速度,保证了标记的代表性;
基于未被挑选集合的区分贡献度,将其依次添加至候选标记集合内,保证了分布的均匀性和标记的代表性;通过设置设定阈值以及目标条件(直至所述候选标记集合中所具有的第一设定组合的数量最大),避免数据产生冗余;由此得到的指纹图谱,基因组覆盖度较高,标记分布更为均匀,标记代表性更优,进而使得鉴定的速度和效率更高较高,实际测试时,可在1分钟之内、1C1G资源下鉴定50份以上的材料。
在一些实施例中,通过以下子步骤,计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度:
计算所述候选标记集合中任意两个样本之间的基因型一致度;
确定所有对比组合中基因型一致度大于等于所述设定阈值的目标样本组合;
计算独立标记序列A i 中第二设定组合的数量,得到所述区分贡献度;所述第二设定组合为所述未被挑选的独立标记序列A i 所对应的目标样本组合中具有相同基因型的组合。
为了便于说明,例如某次计算得到的候选标记集合任意两个样本之间的基因型一致度分别为:
Sample1-2:93%;
Sample1-3:89%;
Sample1-4:74%;
Sample2-3:94%;
Sample2-4:90%;
Sample3-4:80%;
以设定阈值为92%为例,则目标样本组合(大于等于92%)分别为:
1、Sample1-Sample2;
2、Sample2-Sample3;
以表-4中未被挑选的独立标记序列A 10 为例,则独立标记序列A 10 中所具有的第二设定组合的数量为1个,即Sample2(T)-Sample3(T)。
表-4
在一些实施例中,将所述优选标记集合作为所述指纹图谱的方法具体为:
计算所述优选标记集合与所述单核苷酸多态性序列的基因型一致度;
判断所述基因型一致度大于设定值时,将所述优选标记集合作为所述指纹图谱;否则,重复步骤S600。
在一些实施例中,获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列的方法具体为:
S101:获取n个样本的全基因组测序数据;
S102:对所有所述全基因组测序数据进行质控得到有效数据;
具体的,将所述全基因组测序数据通过FASTP平台进行质控得到所述有效数据;其中,所述有效数据是指:
不含测序接头序列
单条read含N的碱基数量小于5
单条read质量值小于15的碱基比例不超过40%
所有reads总体碱基错误率小于0.1%,质量值达到Q20以上
S103:将所述有效数据比对到参考基因组中得到比对数据;
S104:确定所述比对数据在所述参考基因组的不同位置分布,得到bam数据;
具体的,所述bam数据是由有效数据比对到参考基因组得到的数据在基因组不同位置分布的文件,bam主体部分格式如下:
第1列:read ID
第2列:FLAG
第3列:比对到基因组的染色体名称
第4列:比对的基因组的位置
第5列:MAPQ比对质量值
第6列:比对详细信息,M表示匹配、I表示插入、D表示删除、N表示内含子和D类似、S表示替换、H表示剪切;
第7列:这条reads第二次比对的位置
第8列:该列表示与该reads对应的mate pair reads的比对位置
第9列:序列模板长度
第10列:read序列
第11列:ASCII码格式的序列质量
S105:对所述bam数据进行变异检测得到多个初始单核苷酸多态性序列;即不同样本相比于参考基因组的变异信息,主要指SNP变异信息,作用是作为标记区分样本间的差异(可以由GATK软件基于bam文件检测得到)
S106:对所述初始单核苷酸多态性序列进行过滤,得到所述单核苷酸多态性序列。过滤方式例如为基于深度、缺失率和最小等位基因频率等。
在一些实施例中,所述指纹图谱构建方法还包括:
获取待检测样本,对所述待检测样本进行比对和变异检测,得到待检测单核苷酸多态性数据;
判断所述待检测单核苷酸多态性数据与所述指纹图谱的一致度小于所述设定阈值时,输出检测信息为新物种。
实施例2
请参考图2为本实施例提供一种指纹图谱构建系统的原理图,包括:
处理模块1,所述处理模块1配置用于:
S100:获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列;
S200:从多个所述单核苷酸多态性序列中筛选出m个独立标记序列A i ;所述独立标记序列A i 包括n个样本对应的同一个不连锁的变异位点i的基因型;
S300:随机挑选一组独立标记序列A i 并依次增加至标记集合,得到所述标记集合中相同样本的第一标记序列;将相同所述第一标记序列为一组,得到k组区分样本;
S400:重复迭代步骤S300,直至满足目标条件k≥m;
S500:重复步骤S300-S400,得到多个满足所述目标条件的区分样本数量k;计算所有所述区分样本数量k的最小值k s ,选取所述最小值k s 对应的标记集合为候选标记集合;
计算模块2,所述计算模块2与所述处理模块1的输出端连接,所述计算模块2配置用于:
S600:计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度;按照所述区分贡献度由大到小的顺序,每次向所述候选标记集合中添加j个未被挑选的独立标记序列A i ,直至所述候选标记集合中所具有的第一设定组合的数量最大,得到优选标记集合;所述第一设定组合为两个样本之间的基因型一致度小于设定阈值的组合;
S700:将所述优选标记集合作为所述指纹图谱。
在一些实施例中,所述计算模块2还具体配置用于:
计算所述候选标记集合中任意两个样本之间的基因型一致度;
确定所有对比组合中基因型一致度大于等于所述设定阈值的目标样本组合;
计算独立标记序列A i 中第二设定组合的数量,得到所述区分贡献度;所述第二设定组合为所述未被挑选的独立标记序列A i 所对应的目标样本组合中具有相同基因型的组合。
在一些实施例中,所述计算模块2还配置用于:
计算所述优选标记集合与所述单核苷酸多态性序列的基因型一致度;
判断所述基因型一致度大于设定值时,将所述优选标记集合作为所述指纹图谱;否则,重复步骤S600。
在一些实施例中,所述处理模块1还具体配置用于:
获取n个样本的全基因组测序数据;
对所有所述全基因组测序数据进行质控得到有效数据;
将所述有效数据比对到参考基因组中得到比对数据;
确定所述比对数据在所述参考基因组的不同位置分布,得到bam数据;
对所述bam数据进行变异检测得到多个初始单核苷酸多态性序列;
对所述初始单核苷酸多态性序列进行过滤,得到所述单核苷酸多态性序列。
在一些实施例中,所述指纹图谱构建系统还包括检测模块3;所述检测模块3配置用于:
获取待检测样本,对所述待检测样本进行比对和变异检测,得到待检测单核苷酸多态性数据;
判断所述待检测单核苷酸多态性数据与所述指纹图谱的一致度小于所述设定阈值时,输出检测信息为新物种。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种指纹图谱构建方法,其特征在于,包括:
S100:获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列;
S200:从多个所述单核苷酸多态性序列中筛选出m个独立标记序列A i ;所述独立标记序列A i 包括n个样本对应的同一个不连锁的变异位点i的基因型;
S300:随机挑选一组独立标记序列A i 并依次增加至标记集合,得到所述标记集合中相同样本的第一标记序列;将相同所述第一标记序列为一组,得到k组区分样本;
S400:重复迭代步骤S300,直至满足目标条件k≥m;
S500:重复步骤S300-S400,得到多个满足所述目标条件的区分样本数量k;计算所有所述区分样本数量k的最小值k s ,选取所述最小值k s 对应的标记集合为候选标记集合;
S600:计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度;按照所述区分贡献度由大到小的顺序,每次向所述候选标记集合中添加j个未被挑选的独立标记序列A i ,直至所述候选标记集合中所具有的第一设定组合的数量最大,得到优选标记集合;所述第一设定组合为两个样本之间的基因型一致度小于设定阈值的组合;
S700:将所述优选标记集合作为所述指纹图谱。
2.根据权利要求1所述的指纹图谱构建方法,其特征在于,通过以下子步骤,计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度:
计算所述候选标记集合中任意两个样本之间的基因型一致度;
确定所有对比组合中基因型一致度大于等于所述设定阈值的目标样本组合;
计算独立标记序列A i 中第二设定组合的数量,得到所述区分贡献度;所述第二设定组合为所述未被挑选的独立标记序列A i 所对应的目标样本组合中具有相同基因型的组合。
3.根据权利要求1所述的指纹图谱构建方法,其特征在于,将所述优选标记集合作为所述指纹图谱的方法具体为:
计算所述优选标记集合与所述单核苷酸多态性序列的基因型一致度;
判断所述基因型一致度大于设定值时,将所述优选标记集合作为所述指纹图谱;否则,重复步骤S600。
4.根据权利要求1所述的指纹图谱构建方法,其特征在于,获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列的方法具体为:
获取n个样本的全基因组测序数据;
对所有所述全基因组测序数据进行质控得到有效数据;
将所述有效数据比对到参考基因组中得到比对数据;
确定所述比对数据在所述参考基因组的不同位置分布,得到bam数据;
对所述bam数据进行变异检测得到多个初始单核苷酸多态性序列;
对所述初始单核苷酸多态性序列进行过滤,得到所述单核苷酸多态性序列。
5.根据权利要求1-4任意一项所述的指纹图谱构建方法,其特征在于,还包括:
获取待检测样本,对所述待检测样本进行比对和变异检测,得到待检测单核苷酸多态性数据;
判断所述待检测单核苷酸多态性数据与所述指纹图谱的一致度小于所述设定阈值时,输出检测信息为新物种。
6.一种指纹图谱构建系统,其特征在于,包括:
处理模块(1),所述处理模块(1)配置用于:
S100:获取n个样本的全基因组测序数据,得到多个单核苷酸多态性序列;
S200:从多个所述单核苷酸多态性序列中筛选出m个独立标记序列A i ;所述独立标记序列A i 包括n个样本对应的同一个不连锁的变异位点i的基因型;
S300:随机挑选一组独立标记序列A i 并依次增加至标记集合,得到所述标记集合中相同样本的第一标记序列;将相同所述第一标记序列为一组,得到k组区分样本;
S400:重复迭代步骤S300,直至满足目标条件k≥m;
S500:重复步骤S300-S400,得到多个满足所述目标条件的区分样本数量k;计算所有所述区分样本数量k的最小值k s ,选取所述最小值k s 对应的标记集合为候选标记集合;
计算模块(2),所述计算模块(2)与所述处理模块(1)的输出端连接,所述计算模块配置用于:
S600:计算对应所述候选标记集合中未被挑选的独立标记序列A i 对所述候选标记集合的区分贡献度;按照所述区分贡献度由大到小的顺序,每次向所述候选标记集合中添加j个未被挑选的独立标记序列A i ,直至所述候选标记集合中所具有的第一设定组合的数量最大,得到优选标记集合;所述第一设定组合为两个样本之间的基因型一致度小于设定阈值的组合;
S700:将所述优选标记集合作为所述指纹图谱。
7.根据权利要求6所述的指纹图谱构建系统,其特征在于,所述计算模块(2)还具体配置用于:
计算所述候选标记集合中任意两个样本之间的基因型一致度;
确定所有对比组合中基因型一致度大于等于所述设定阈值的目标样本组合;
计算独立标记序列A i 中第二设定组合的数量,得到所述区分贡献度;所述第二设定组合为所述未被挑选的独立标记序列A i 所对应的目标样本组合中具有相同基因型的组合。
8.根据权利要求6所述的指纹图谱构建系统,其特征在于,所述计算模块(2)还配置用于:
计算所述优选标记集合与所述单核苷酸多态性序列的基因型一致度;
判断所述基因型一致度大于设定值时,将所述优选标记集合作为所述指纹图谱;否则,重复步骤S600。
9.根据权利要求6所述的指纹图谱构建系统,其特征在于,所述处理模块(1)还具体配置用于:
获取n个样本的全基因组测序数据;
对所有所述全基因组测序数据进行质控得到有效数据;
将所述有效数据比对到参考基因组中得到比对数据;
确定所述比对数据在所述参考基因组的不同位置分布,得到bam数据;
对所述bam数据进行变异检测得到多个初始单核苷酸多态性序列;
对所述初始单核苷酸多态性序列进行过滤,得到所述单核苷酸多态性序列。
10.根据权利要求6-9任意一项所述的指纹图谱构建系统,其特征在于,还包括检测模块(3);所述检测模块(3)配置用于:
获取待检测样本,对所述待检测样本进行比对和变异检测,得到待检测单核苷酸多态性数据;
判断所述待检测单核苷酸多态性数据与所述指纹图谱的一致度小于所述设定阈值时,输出检测信息为新物种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310030065.XA CN115762641B (zh) | 2023-01-10 | 2023-01-10 | 一种指纹图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310030065.XA CN115762641B (zh) | 2023-01-10 | 2023-01-10 | 一种指纹图谱构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115762641A true CN115762641A (zh) | 2023-03-07 |
CN115762641B CN115762641B (zh) | 2023-04-07 |
Family
ID=85348821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310030065.XA Active CN115762641B (zh) | 2023-01-10 | 2023-01-10 | 一种指纹图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115762641B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105829536A (zh) * | 2013-08-22 | 2016-08-03 | 纳幕尔杜邦公司 | 用于在不掺入选择性转基因标记的情况下,在植物基因组中产生基因修饰的方法,以及用于这种方法的组合物 |
CN113718342A (zh) * | 2021-05-06 | 2021-11-30 | 安徽农业大学 | 一种重组自交系群体高密度遗传图谱的构建方法 |
CN113862280A (zh) * | 2021-08-31 | 2021-12-31 | 中国科学院合肥物质科学研究院 | 一种水稻理想脆秆突变体ibc的突变位点、控制基因IBC及其应用 |
CN114450750A (zh) * | 2019-05-17 | 2022-05-06 | 英科智能有限公司 | 人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法 |
-
2023
- 2023-01-10 CN CN202310030065.XA patent/CN115762641B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105829536A (zh) * | 2013-08-22 | 2016-08-03 | 纳幕尔杜邦公司 | 用于在不掺入选择性转基因标记的情况下,在植物基因组中产生基因修饰的方法,以及用于这种方法的组合物 |
CN114450750A (zh) * | 2019-05-17 | 2022-05-06 | 英科智能有限公司 | 人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法 |
CN113718342A (zh) * | 2021-05-06 | 2021-11-30 | 安徽农业大学 | 一种重组自交系群体高密度遗传图谱的构建方法 |
CN113862280A (zh) * | 2021-08-31 | 2021-12-31 | 中国科学院合肥物质科学研究院 | 一种水稻理想脆秆突变体ibc的突变位点、控制基因IBC及其应用 |
Non-Patent Citations (1)
Title |
---|
董胜君: "基于SSR标记的东北杏遗传多样性分析及指纹图谱构建" * |
Also Published As
Publication number | Publication date |
---|---|
CN115762641B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102381477B1 (ko) | 심층 신경망에 기반한 변이체 분류자 | |
Byrne et al. | Genome wide allele frequency fingerprints (GWAFFs) of populations via genotyping by sequencing | |
US20190318806A1 (en) | Variant Classifier Based on Deep Neural Networks | |
CN109196123B (zh) | 用于水稻基因分型的snp分子标记组合及其应用 | |
CN110010197B (zh) | 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质 | |
CN109346130B (zh) | 一种直接从全基因组重测序数据中得到微单体型及其分型的方法 | |
CN110257547B (zh) | 基于kasp技术开发的玉米核心snp标记及其应用 | |
CN115083521B (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
CN111088382B (zh) | 一种玉米全基因组snp芯片及其应用 | |
CN111477276B (zh) | 微生物的种特异共有序列的获得方法、装置及应用 | |
CN111863127A (zh) | 一种构建植物转录因子对靶基因遗传调控网络的方法 | |
CN110021365B (zh) | 确定检测靶点的方法、装置、计算机设备和存储介质 | |
CN107862177B (zh) | 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 | |
CN115762641B (zh) | 一种指纹图谱构建方法及系统 | |
CN116434843A (zh) | 一种碱基测序质量评估方法 | |
CN116246703A (zh) | 一种核酸测序数据的质量评估方法 | |
CN113293220B (zh) | 分析绵羊耳部大小的基因芯片、分子探针组合、试剂盒及应用 | |
CN110942806A (zh) | 一种血型基因分型方法和装置及存储介质 | |
CN114921572A (zh) | 一种用于鉴别泰和乌鸡品种的snp分子标记及其应用 | |
CN109390039B (zh) | 一种统计dna拷贝数信息的方法、装置及存储介质 | |
CN113614832A (zh) | 用于检测伴侣未知的基因融合的方法 | |
CN117210596B (zh) | 一种甜瓜snp位点标记组合、检测snp位点标记探针组合、液相芯片及应用 | |
CN111986731B (zh) | 一种提高gwas致因突变定位效率的方法 | |
CN117409857A (zh) | 一种GT-Seq分型SNP的数据处理方法 | |
WO2022168195A1 (ja) | 遺伝情報解析システム、及び遺伝情報解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |