CN113257363A - 一种系谱的校正方法及装置 - Google Patents
一种系谱的校正方法及装置 Download PDFInfo
- Publication number
- CN113257363A CN113257363A CN202110601964.1A CN202110601964A CN113257363A CN 113257363 A CN113257363 A CN 113257363A CN 202110601964 A CN202110601964 A CN 202110601964A CN 113257363 A CN113257363 A CN 113257363A
- Authority
- CN
- China
- Prior art keywords
- target individual
- genetic relationship
- genotype
- target
- male parent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002068 genetic effect Effects 0.000 claims abstract description 461
- 239000011159 matrix material Substances 0.000 claims abstract description 92
- 238000012216 screening Methods 0.000 claims abstract description 88
- 238000012937 correction Methods 0.000 claims abstract description 16
- 230000008775 paternal effect Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003975 animal breeding Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000009399 inbreeding Methods 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000003976 plant breeding Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供了一种系谱的校正方法及装置,所述校正方法包括:获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;基于基因型亲缘关系矩阵和系谱亲缘关系矩阵,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;基于第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;从第二父本目标个体中,确定出亲缘关系记录错误的目标个体可能的父本目标个体。根据所述校正方法及装置,能够识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。
Description
技术领域
本申请涉及生物技术领域,尤其是涉及一种系谱的校正方法及装置。
背景技术
系谱是指记录某一家族各世代成员数目、亲属关系以及由遗传性状或遗传病在该家系中分布情况的图示,在动植物育种上通常是指由共同祖先繁殖所得的后代。系谱主要用于识别杂交个体、制定配种计划、确定血缘关系和近交率等。目前,主要依赖于动物标识,从数据库中查找出对应的亲缘关系,因此会产生系谱中记录的亲缘信息不完整,以及亲缘关系记录错误的问题。
发明内容
有鉴于此,本申请的目的在于提供一种系谱的校正方法及装置,基于基因型关系矩阵和亲缘关系矩阵,识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。
本申请实施例提供了一种系谱的校正方法,所述校正方法包括:
获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;
针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;
基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;
针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;
将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。
进一步的,所述基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,包括:
从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量;
从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量;
基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。
进一步的,所述基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体,包括:
基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件;
针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件;
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录错误的第一目标个体;
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录正确的第二目标个体。
进一步的,通过以下方式确定所述第二父本目标个体的基因型亲缘关系的筛选条件:
识别所述第二父本目标个体对应的多个第二子代目标个体;
基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系;
基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。
进一步的,所述基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体,包括;
针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体;
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。
进一步的,所述从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体,包括:
基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系;
针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体;
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。
进一步的,所述第二父本目标个体的基因型亲缘关系的筛选条件包括:所述第二父本目标个体的基因型亲缘关系的取值范围。
本申请实施例还提供了一种系谱的校正装置,所述校正装置包括:
关系矩阵获取模块,用于获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;
相关系数确定模块,用于针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;
第一目标个体确定模块,用于基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;
第三目标个体确定模块,用于针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;
父本目标个体确定模块,用于将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。
进一步的,所述相关系数确定模块,在基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数时,所述相关系数确定模块用于:
从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量;
从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量;
基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。
进一步的,所述第一目标个体确定模块,在基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体时,所述第一目标个体确定模块用于:
基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件;
针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件;
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录错误的第一目标个体;
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录正确的第二目标个体。
进一步的,所述第三目标个体确定模块,通过以下方式确定所述第二父本目标个体的基因型亲缘关系的筛选条件:
识别所述第二父本目标个体对应的多个第二子代目标个体;
基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系;
基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。
进一步的,所述第三目标个体确定模块,在基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体时,所述第三目标个体确定模块用于:
针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体;
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。
进一步的,所述父本目标个体确定模块,在从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体时,所述父本目标个体确定模块用于:
基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系;
针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体;
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。
进一步的,所述第二父本目标个体的基因型亲缘关系的筛选条件包括:所述第二父本目标个体的基因型亲缘关系的取值范围。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的系谱的校正方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的系谱的校正方法的步骤。
本申请实施例提供的系谱的校正方法及装置,通过获取表征目标个体之间亲子关系的基因型关系矩阵以及表征所述目标个体之间亲缘关系的亲缘关系矩阵;基于所述基因型关系矩阵以及所述亲缘关系矩阵,确定出亲缘关系记录正确的目标个体以及亲缘关系记录错误的目标个体;针对每个亲缘关系记录错误的目标个体,从确定出的亲缘关系记录正确的目标个体中,确定出该亲缘关系记录错误的目标个体潜在的父本目标个体。本申请能够识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种系谱的校正方法的流程图;
图2示出了本申请实施例所提供的一种确定所述第二父本目标个体的基因型亲缘关系的筛选条件的步骤的流程图;
图3示出了本申请实施例所提供的一种系谱的校正装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,系谱是指记录某一家族各世代成员数目、亲属关系以及由遗传性状或遗传病在该家系中分布情况的图示,在动植物育种上通常是指由共同祖先繁殖所得的后代。系谱主要用于识别杂交个体、制定配种计划、确定血缘关系和近交率等。现有的系谱的构建主要依据动物标识,从数据库中查找出对应的亲缘关系,常常出现系谱中记录的亲缘信息不完整,以及亲缘关系记录错误的问题。
基于此,本申请实施例提供了一种系谱的校正方法,以识别出系谱中记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。
请参阅图1,图1为本申请实施例所提供的一种系谱的校正方法的流程图。如图1中所示,本申请实施例提供的系谱的校正方法,包括:
步骤S101、获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵。
该步骤中,基因型关系矩阵是根据系谱中的目标个体之间的基因型关系构建的矩阵,矩阵元素为目标个体之间的基因型关系,用于表征目标个体之间实际的亲缘关系;亲缘关系矩阵是根据系谱中记录的目标个体之间的亲缘关系构建的矩阵,用于表征目标个体之间期望的亲缘关系。
在具体实施时,可通过以下步骤来获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵。
步骤1011、基于系谱信息,获取所有个体的系谱亲缘关系。
该步骤中,系谱信息中存储有所有个体的亲缘信息,针对每个个体,获取该个体的个体信息、该个体的父本信息以及该个体的母本信息,将全部个体信息编入第一列,父本信息编入第二列,母本信息编入第三列,得到所有个体的系谱亲缘关系。
步骤1012、基于获取的所有个体的系谱亲缘关系,构建所有个体的系谱亲缘关系矩阵。
基于所有个体的亲缘关系,通过以下递推公式,构建可以表征所有个体之间亲缘关系的所有个体的系谱亲缘关系矩阵,即针对系谱中的个体i、根据该个体的父亲Si以及该个体的母亲di,可以通过以下规则,确定出该个体i另一个体j的亲缘系数:
当个体i的父亲Si和母亲di均已知时:
当个体i的父亲Si已知,母亲di未知时:
当个体i的父亲Si未知,母亲di已知时:
当个体i的父亲Si和母亲di均未知时:
aii=1,aij=aji=0。
步骤1013、将所述系谱信息中具有基因型信息的个体确定为目标个体,并基于所有目标个体的基因型信息,构建目标个体之间的基因型亲缘关系矩阵。
该步骤中,基于基因型文件中记录的基因型信息,识别出系谱信息中具有基因型信息的个体,将识别出的个体确定为目标个体;基于识别出的目标个体的基因型信息,通过以下G矩阵的构建公式,构建基因型关系矩阵:
式中,Pj为等位基因A2的基因频率,Z阵列的元素为0-2Pj、1-2Pj、2-2Pj,Z阵列的元素分别对应于基因型A1A1、A1A2、A2A2。
步骤1014、从所述所有个体的系谱亲缘关系矩阵中,提取出目标个体的系谱亲缘关系矩阵。
该步骤中,从系谱亲缘关系矩阵中提取出具有基因型信息的目标个体对应的系谱亲缘关系矩阵;按照基因型关系矩阵中目标个体的排列顺序,对提取出的目标个体对应的系谱亲缘关系矩阵,重新进行排序,得到目标个体的系谱亲缘关系矩阵。
步骤S102、针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数。
该步骤中,由于基因型亲缘关系矩阵用于表征目标个体之间实际的亲缘关系,系谱亲缘关系矩阵用于表征目标个体之间期望的亲缘关系,针对于每个目标个体,其通过基因型亲缘关系矩阵所反映出的亲缘关系,以及其通过系谱亲缘关系矩阵所反映出的亲缘关系具有高度相关性,因此,可以通过基因型亲缘关系向量与系谱亲缘关系向量的相关系数,确定出系谱亲缘关系记录正确的目标个体以及系谱亲缘关系记录错误的目标个体。
在具体实施时,可以通过以下步骤确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数:
步骤1021、从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量。
该步骤中,从基因型亲缘关系矩阵中提取出该目标个体对应的基因型关系向量,该基因型关系向量可以表征该目标个体与其他目标个体之间实际的亲缘关系。
步骤1022、从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量。
该步骤中,从系谱亲缘关系矩阵中提取出该目标个体对应的系谱亲缘关系向量,该系谱亲缘关系向量可以表征该目标个体与其他目标个体之间期望的亲缘关系。
步骤1023、基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。
该步骤中,可以通过以下公式确定基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数:
式中,Amn为基因型亲缘关系向量中该目标个体与其他目标个体的基因型关系,为基因型亲缘关系向量中该目标个体的基因型关系的平均值,Bmn为系谱亲缘关系向量中该目标个体与其他目标个体的系谱亲缘关系,为系谱亲缘关系向量中系谱亲缘关系的平均值。
步骤S103、基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体。
在具体实施时,可以通过以下步骤确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体:
步骤1031、基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件。
该步骤中,基于获取的所有目标个体的相关系数,可以通过以下等式确定出相关系数r的标准差σr:
进一步的,根据3σ原则可知,在正态分布中,数值分布在(μ-3σ,μ+3σ)区间的概率为0.9974,因此,针对于本实施例的相关系数的分布情况,可以将数值范围(μ-3σr,μ+3σr),确定为相关系数的筛选条件。
步骤1032、针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件。
该步骤中,由于所有目标个体的相关系数整体上是服从正态分布的,同时在系谱中仅有部分目标个体的亲缘关系记录错误,因此可以根据3σ原则确定出的相关系数的筛选条件来判断目标个体是否为系谱亲缘关系记录错误的个体。
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则执行步骤1033、判定该目标个体为系谱亲缘关系记录错误的第一目标个体。
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则执行步骤1034、判定该目标个体为系谱亲缘关系记录正确的第二目标个体。
步骤S104、针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体。
该步骤中,第二目标个体中包含有:第二父本目标个体,第二母本目标个体以及第二子代目标个体,针对于第二子代目标个体,其对应的父系同胞的个体较多,母系同胞的个体较少,进一步的,可以根据第二父本目标个体的基因型亲缘关系的筛选条件,从第二子代目标个体中确定出基因型亲缘关系记录错误的目标个体。
请参阅图2,图2为本申请实施例所提供的一种确定所述第二父本目标个体的基因型亲缘关系的筛选条件的步骤的流程图。如图2中所示,本申请实施例提供的确定所述第二父本目标个体的基因型亲缘关系的筛选条件的步骤,包括以下步骤:
步骤S201、识别所述第二父本目标个体对应的多个第二子代目标个体。
该步骤中,针对该第二父本目标个体,可以通过目标个体的身份标识,首先从第二目标个体中识别出第二父本目标个体的多个第二子代目标个体。
步骤S202、基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系。
该步骤中,由于基因型亲缘关系矩阵的实质是:通过基因型关系表征目标个体之间实际的亲缘关系,因此,可以直接从基因型关系矩阵中提取出第二父本目标个体与各第二子代目标个体的基因型亲缘关系。
步骤S203、基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。
该步骤中,第二父本目标个体的基因型亲缘关系的筛选条件包括:第二父本目标个体的基因型亲缘关系的取值范围,具体的,可以通过以下等式确定该第二父本目标个体的基因型亲缘关系a的标准差σa:
进一步的,根据3σ原则可知,在正态分布中,数值分布在(μ-3σ,μ+3σ)区间的概率为0.9974,因此,针对于本实施例的基因型亲缘关系的分布情况,可以将数值范围(μ-3σa,μ+3σa),确定为该第二父本目标个体的基因型亲缘关系的筛选条件。
在具体实施时,可以通过以下步骤确定出基因型亲缘关系记录错误的第三目标个体:
步骤1041、针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件。
该步骤中,由于第二父本目标个体与各第二子代目标个体的基因型亲缘关系在整体上同样是服从正态分布的,因此可以根据3σ原则确定出的基因型亲缘关系的筛选条件来判断各第二子代目标个体是否为该第二父本目标个体基因型亲缘关系记录错误的目标个体。
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,则执行步骤1042、判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体。
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,则执行步骤1043、判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。
步骤S105、将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。
该步骤中,第一目标个体为通过相关系数的筛选条件确定出的系谱亲缘关系记录错误的目标个体,第三目标个体为通过第二父本目标个体的基因型关系的筛选条件确定出的基因型关系记录错误的目标个体,将上述第一目标个体和第三目标个体共同确定为亲缘关系记录错误的目标个体;进一步的,由于基因型关系相较于系谱更能反映出的目标个体之间的亲缘关系,因此,针对于亲缘关系记录错误的目标个体,可以从第二父本目标个体中确定出亲缘关系记录错误的目标个体可能的父本目标个体。
在具体实施时,可以通过以下步骤确定出该亲缘关系记录错误的目标个体可能的父本目标个体:
步骤1051、基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系。
该步骤中,从基因型亲缘关系矩阵中获取亲缘关系记录错误的目标个体与每个第二父本目标个体的基因型亲缘关系。
步骤1052、针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件。
该步骤中,同样的,由于第二父本目标个体与各第二子代目标个体的基因型亲缘关系在整体上同样是服从正态分布的,因此,针对每个第二父本目标个体,可以通过判断亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件的方式,来确定出该第二父本目标个体是否为亲缘关系记录错误的目标个体可能的父本目标个体。
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,则执行步骤1053、判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体。
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,则执行步骤1054、判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。
本申请实施例提供的系谱的校正方法,通过获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。本申请能够识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。
基于同一发明构思,本申请实施例中还提供了与系谱的校正方法对应的系谱的校正装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图3,图3为本申请实施例所提供的一种系谱的校正装置的结构示意图。如图3中所示,所述校正装置300包括:
关系矩阵获取模块301,用于获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;
相关系数确定模块302,用于针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;
第一目标个体确定模块303,用于基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;
第三目标个体确定模块304,用于针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;
父本目标个体确定模块305,用于将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。
进一步的,所述相关系数确定模块302,在基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数时,所述相关系数确定模块302用于:
从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量;
从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量;
基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。
进一步的,所述第一目标个体确定模块303,在基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体时,所述第一目标个体确定模块303用于:
基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件;
针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件;
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录错误的第一目标个体;
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录正确的第二目标个体。
进一步的,所述第三目标个体确定模304,通过以下方式确定所述第二父本目标个体的基因型亲缘关系的筛选条件:
识别所述第二父本目标个体对应的多个第二子代目标个体;
基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系;
基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。
进一步的,所述第三目标个体确定模块304,在基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体时,所述第三目标个体确定模块304用于:
针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体;
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。
进一步的,所述父本目标个体确定模块305,在从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体时,所述父本目标个体确定模块305用于:
基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系;
针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体;
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。
进一步的,所述第二父本目标个体的基因型亲缘关系的筛选条件包括:所述第二父本目标个体的基因型亲缘关系的取值范围。
本申请实施例提供的系谱的校正装置,通过获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。本申请能够识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器401、存储器402和总线403。
所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备400运行时,所述处理器401与所述存储器402之间通过总线403通讯,所述机器可读指令被所述处理器401执行时,可以执行如上述图1以及图2所示方法实施例中的系谱的校正方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的系谱的校正方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种系谱的校正方法,其特征在于,所述校正方法包括:
获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;
针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;
基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;
针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;
将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。
2.根据权利要求1所述的校正方法,其特征在于,所述基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,包括:
从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量;
从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量;
基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。
3.根据权利要求1所述的校正方法,其特征在于,所述基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体,包括:
基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件;
针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件;
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录错误的第一目标个体;
若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录正确的第二目标个体。
4.根据权利要求1所述的校正方法,其特征在于,通过以下方式确定所述第二父本目标个体的基因型亲缘关系的筛选条件:
识别所述第二父本目标个体对应的多个第二子代目标个体;
基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系;
基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。
5.根据权利要求4所述的校正方法,其特征在于,所述基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体,包括;
针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体;
当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。
6.根据权利要求1所述的校正方法,其特征在于,所述从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体,包括:
基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系;
针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体;
当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。
7.根据权利要求1所述的校正方法,其特征在于,所述第二父本目标个体的基因型亲缘关系的筛选条件包括:所述第二父本目标个体的基因型亲缘关系的取值范围。
8.一种系谱的校正装置,其特征在于,所述校正装置包括:
关系矩阵获取模块,用于获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;
相关系数确定模块,用于针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;
第一目标个体确定模块,用于基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;
第三目标个体确定模块,用于针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;
父本目标个体确定模块,用于将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1-7中任一项所述校正方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一所述校正方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110601964.1A CN113257363B (zh) | 2021-05-31 | 2021-05-31 | 一种系谱的校正方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110601964.1A CN113257363B (zh) | 2021-05-31 | 2021-05-31 | 一种系谱的校正方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113257363A true CN113257363A (zh) | 2021-08-13 |
CN113257363B CN113257363B (zh) | 2023-12-08 |
Family
ID=77185455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110601964.1A Active CN113257363B (zh) | 2021-05-31 | 2021-05-31 | 一种系谱的校正方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257363B (zh) |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070061107A (ko) * | 2005-12-08 | 2007-06-13 | 한국전자통신연구원 | 다중 전사 인자 조절 관계 예측 방법 및 장치 |
JP2008084039A (ja) * | 2006-09-28 | 2008-04-10 | Hitachi Ltd | 製造工程分析方法 |
US20080233576A1 (en) * | 1998-05-01 | 2008-09-25 | Jason Weston | Method for feature selection in a support vector machine using feature ranking |
WO2011110966A2 (en) * | 2010-03-11 | 2011-09-15 | Koninklijke Philips Electronics N.V. | Method and system for characterizing and visualizing electromagnetic tracking errors |
TW201305839A (zh) * | 2011-07-29 | 2013-02-01 | Biowell Technology Inc | 利用短序列重複型別數據規律計算進行資料初步比對以鑑別並防止親緣鑑定過程人為疏失之方法 |
CN103150487A (zh) * | 2012-11-29 | 2013-06-12 | 扬州大学 | 一种构建鸡肌肉肌苷酸合成途径相关关键酶基因网络调控方法 |
CN103882144A (zh) * | 2014-04-14 | 2014-06-25 | 中国水产科学研究院黄海水产研究所 | 一种大菱鲆家系育种值评估方法 |
CN103914632A (zh) * | 2014-02-26 | 2014-07-09 | 中国农业大学 | 一种快速估计基因组育种值的方法和应用 |
CN106202935A (zh) * | 2016-07-13 | 2016-12-07 | 国网湖南省电力公司 | 一种流域径流预报的校正方法及其系统 |
CN106708784A (zh) * | 2015-11-12 | 2017-05-24 | 中国石油化工股份有限公司 | 随机函数预处理单纯型后处理并行遗传集总动力学方法 |
CN106779076A (zh) * | 2016-11-18 | 2017-05-31 | 栾图 | 基于生物信息的选育良种系统及其算法 |
CN107169311A (zh) * | 2017-05-17 | 2017-09-15 | 湖南农业大学 | 基于ril群体的扩展三向测交设计qtl作图法 |
CN107526940A (zh) * | 2017-08-07 | 2017-12-29 | 清华大学 | 基因关联分析的修正方法及修正装置 |
CN107832586A (zh) * | 2017-11-08 | 2018-03-23 | 中山大学 | 一种三个体组合亲缘关系鉴定方法及装置 |
CN107918725A (zh) * | 2017-12-28 | 2018-04-17 | 大连海事大学 | 一种基于机器学习选择最优特征的dna甲基化预测方法 |
CN107944227A (zh) * | 2017-12-08 | 2018-04-20 | 江汉大学 | 一种遗传图谱的标记校正方法及装置 |
CN108681661A (zh) * | 2018-05-16 | 2018-10-19 | 杭州迈迪科生物科技有限公司 | 一种伴随实验生成样本id的方法 |
US20180336484A1 (en) * | 2017-05-18 | 2018-11-22 | Sas Institute Inc. | Analytic system based on multiple task learning with incomplete data |
CN109493916A (zh) * | 2018-06-29 | 2019-03-19 | 北京大学 | 一种基于稀疏性因子分析的基因-基因交互作用识别方法 |
WO2019220128A1 (en) * | 2018-05-18 | 2019-11-21 | Benevolentai Technology Limited | Graph neutral networks with attention |
CN111508560A (zh) * | 2020-04-29 | 2020-08-07 | 上海师范大学 | 一种构建异交物种高密度基因型图谱的方法 |
KR20200121039A (ko) * | 2019-04-15 | 2020-10-23 | 인천대학교 산학협력단 | 암에 따른 유전자 간의 상관관계에 기초하여 유전자 분산 표현을 위한 유전자 특징 벡터를 생성하는 전자 장치 및 그 동작 방법 |
CN112053743A (zh) * | 2020-08-31 | 2020-12-08 | 济宁医学院 | 一种亲缘关系鉴定方法、系统及设备 |
CN112466397A (zh) * | 2019-09-09 | 2021-03-09 | 深圳乐土生物科技有限公司 | 一种用于亲缘关系检测的方法和装置 |
-
2021
- 2021-05-31 CN CN202110601964.1A patent/CN113257363B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080233576A1 (en) * | 1998-05-01 | 2008-09-25 | Jason Weston | Method for feature selection in a support vector machine using feature ranking |
KR20070061107A (ko) * | 2005-12-08 | 2007-06-13 | 한국전자통신연구원 | 다중 전사 인자 조절 관계 예측 방법 및 장치 |
JP2008084039A (ja) * | 2006-09-28 | 2008-04-10 | Hitachi Ltd | 製造工程分析方法 |
WO2011110966A2 (en) * | 2010-03-11 | 2011-09-15 | Koninklijke Philips Electronics N.V. | Method and system for characterizing and visualizing electromagnetic tracking errors |
TW201305839A (zh) * | 2011-07-29 | 2013-02-01 | Biowell Technology Inc | 利用短序列重複型別數據規律計算進行資料初步比對以鑑別並防止親緣鑑定過程人為疏失之方法 |
CN103150487A (zh) * | 2012-11-29 | 2013-06-12 | 扬州大学 | 一种构建鸡肌肉肌苷酸合成途径相关关键酶基因网络调控方法 |
CN103914632A (zh) * | 2014-02-26 | 2014-07-09 | 中国农业大学 | 一种快速估计基因组育种值的方法和应用 |
CN103882144A (zh) * | 2014-04-14 | 2014-06-25 | 中国水产科学研究院黄海水产研究所 | 一种大菱鲆家系育种值评估方法 |
CN106708784A (zh) * | 2015-11-12 | 2017-05-24 | 中国石油化工股份有限公司 | 随机函数预处理单纯型后处理并行遗传集总动力学方法 |
CN106202935A (zh) * | 2016-07-13 | 2016-12-07 | 国网湖南省电力公司 | 一种流域径流预报的校正方法及其系统 |
CN106779076A (zh) * | 2016-11-18 | 2017-05-31 | 栾图 | 基于生物信息的选育良种系统及其算法 |
CN107169311A (zh) * | 2017-05-17 | 2017-09-15 | 湖南农业大学 | 基于ril群体的扩展三向测交设计qtl作图法 |
US20180336484A1 (en) * | 2017-05-18 | 2018-11-22 | Sas Institute Inc. | Analytic system based on multiple task learning with incomplete data |
CN107526940A (zh) * | 2017-08-07 | 2017-12-29 | 清华大学 | 基因关联分析的修正方法及修正装置 |
CN107832586A (zh) * | 2017-11-08 | 2018-03-23 | 中山大学 | 一种三个体组合亲缘关系鉴定方法及装置 |
CN107944227A (zh) * | 2017-12-08 | 2018-04-20 | 江汉大学 | 一种遗传图谱的标记校正方法及装置 |
CN107918725A (zh) * | 2017-12-28 | 2018-04-17 | 大连海事大学 | 一种基于机器学习选择最优特征的dna甲基化预测方法 |
CN108681661A (zh) * | 2018-05-16 | 2018-10-19 | 杭州迈迪科生物科技有限公司 | 一种伴随实验生成样本id的方法 |
WO2019220128A1 (en) * | 2018-05-18 | 2019-11-21 | Benevolentai Technology Limited | Graph neutral networks with attention |
CN109493916A (zh) * | 2018-06-29 | 2019-03-19 | 北京大学 | 一种基于稀疏性因子分析的基因-基因交互作用识别方法 |
KR20200121039A (ko) * | 2019-04-15 | 2020-10-23 | 인천대학교 산학협력단 | 암에 따른 유전자 간의 상관관계에 기초하여 유전자 분산 표현을 위한 유전자 특징 벡터를 생성하는 전자 장치 및 그 동작 방법 |
CN112466397A (zh) * | 2019-09-09 | 2021-03-09 | 深圳乐土生物科技有限公司 | 一种用于亲缘关系检测的方法和装置 |
CN111508560A (zh) * | 2020-04-29 | 2020-08-07 | 上海师范大学 | 一种构建异交物种高密度基因型图谱的方法 |
CN112053743A (zh) * | 2020-08-31 | 2020-12-08 | 济宁医学院 | 一种亲缘关系鉴定方法、系统及设备 |
Non-Patent Citations (2)
Title |
---|
周子文等: "基于高密度SNP标记估计群体间遗传关联", 《遗传》, vol. 43, no. 4, pages 340 - 349 * |
李学武等: "家畜遗传评估方法研究进展", 《中国农业大学学报》, vol. 25, no. 2, pages 54 - 60 * |
Also Published As
Publication number | Publication date |
---|---|
CN113257363B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malomane et al. | Efficiency of different strategies to mitigate ascertainment bias when using SNP panels in diversity studies | |
US11430542B2 (en) | Computer implemented method for predicting true agronomical value of a plant | |
CN108121897B (zh) | 一种基因组变异检测方法及检测装置 | |
Voorrips et al. | PediHaplotyper: software for consistent assignment of marker haplotypes in pedigrees | |
Wang et al. | Estimating selfing rates from reconstructed pedigrees using multilocus genotype data | |
Ramstein et al. | Accuracy of genomic prediction in switchgrass (Panicum virgatum L.) improved by accounting for linkage disequilibrium | |
Malmberg et al. | Assessment of low-coverage nanopore long read sequencing for SNP genotyping in doubled haploid canola (Brassica napus L.) | |
Kerr et al. | Use of the numerator relationship matrix in genetic analysis of autopolyploid species | |
Zheng et al. | Haplotype reconstruction in connected tetraploid F1 populations | |
Neff et al. | A Bayesian framework for parentage analysis: the value of genetic and other biological data | |
Matias et al. | On the accuracy of genomic prediction models considering multi-trait and allele dosage in Urochloa spp. interspecific tetraploid hybrids | |
Margarido et al. | ConPADE: genome assembly ploidy estimation from next-generation sequencing data | |
Finseth et al. | Selfish chromosomal drive shapes recent centromeric histone evolution in monkeyflowers | |
Guo et al. | Revisiting the evolutionary history of domestic and wild ducks based on genomic analyses | |
Hidalgo et al. | Investigating the persistence of accuracy of genomic predictions over time in broilers | |
Long et al. | Genome-wide imputation using the practical haplotype graph in the heterozygous crop cassava | |
CN113257363A (zh) | 一种系谱的校正方法及装置 | |
Sun et al. | Nonparametric method for genomics-based prediction of performance of quantitative traits involving epistasis in plant breeding | |
Lin et al. | Effects of local domestication warrant attention in honey bee population genetics | |
Kulkarni et al. | CAPG: comprehensive allopolyploid genotyper | |
US10373707B2 (en) | Algebraic phasing of polyploids | |
CN109887543B (zh) | 一种低甲基化水平的差异甲基化位点识别方法 | |
CN113470744B (zh) | 基于snp位点数据的系谱推断方法、装置及电子设备 | |
Isik et al. | Genomic relationships and GBLUP | |
Simons et al. | Systematic prediction of EMS‐induced mutations in a sorghum mutant population |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |