CN115004304A - 确定祖先亲缘关系的方法和系统 - Google Patents

确定祖先亲缘关系的方法和系统 Download PDF

Info

Publication number
CN115004304A
CN115004304A CN202080093527.7A CN202080093527A CN115004304A CN 115004304 A CN115004304 A CN 115004304A CN 202080093527 A CN202080093527 A CN 202080093527A CN 115004304 A CN115004304 A CN 115004304A
Authority
CN
China
Prior art keywords
individual
dog
algorithm
degree
discrete genomic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080093527.7A
Other languages
English (en)
Inventor
亚伦·J·塞姆斯
塞缪尔·H·沃尔
亚当·S·加德纳
马特·巴顿
赖安·博伊科
亚当·R·博伊科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Imbark Veterinary Co
Original Assignee
Imbark Veterinary Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imbark Veterinary Co filed Critical Imbark Veterinary Co
Publication of CN115004304A publication Critical patent/CN115004304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本公开内容提供了评估个体之间的祖先亲缘关系程度的方法。在一方面,一种方法包括接收单倍型数据,该单倍型数据包括在个体种群中共享的遗传标记;基于遗传标记将单倍型数据划分成区段;对于测试个体种群的每一个体:(i)基于遗传标记,匹配在两个个体之间血缘同源的单倍型数据的区段,(ii)对于匹配的区段中的每一个:将匹配的区段划分成离散基因组区间,基于个体内或个体之间的匹配程度对离散基因组区间中的每一个进行评分,根据一致性修正得分,以及(iii)基于经修正得分和分配的权重,计算匹配的区段的离散基因组区间的加权和;以及(d)基于匹配的区段的加权和来评估个体之间的祖先亲缘关系程度。

Description

确定祖先亲缘关系的方法和系统
相关申请的交叉引用
本申请要求2019年11月18日提交的美国临时申请号62/936,879的利益,其全文通过引用并入本文。
背景技术
个体种群内DNA的微小差异可能是造成个体间观察到的大部分遗传和表型变异的原因。由个体所共享的某些血缘同源(identical-by-descent,IBD)单倍型(例如,一起遗传的DNA小区域)可能表明这些个体之间存在家族关系。因此,可以对多个个体进行IBD分析以确定其祖先亲缘关系。
发明内容
本公开内容提供了评估个体之间的祖先亲缘关系程度(degree of ancestralrelatedness)的方法。在一方面,一种方法包括接收单倍型数据,该单倍型数据包括在个体种群中共享的遗传标记;基于遗传标记将单倍型数据划分成区段;对于测试个体种群的每一个体:(i)基于遗传标记,匹配在两个个体之间血缘同源的单倍型数据的区段,(ii)对于匹配的区段中的每一个:将匹配的区段划分成离散基因组区间,基于个体内或个体之间的匹配程度对离散基因组区间中的每一个进行评分,根据一致性修正得分,以及(iii)基于经修正得分和分配的权重,计算匹配的区段的离散基因组区间的加权和;以及(d)基于匹配的区段的加权和来评估个体之间的祖先亲缘关系程度。
在一方面,本公开内容本发明提供了一种用于评估二倍体种群(diploidpopulation)的两个个体之间的祖先亲缘关系程度的计算机实现方法,包括:(a)接收测试个体种群的单倍型数据,该单倍型数据包括在所述测试个体种群中共享的多个遗传标记;(b)基于所述多个遗传标记将所述单倍型数据划分成区段;(c)对于所述测试个体种群的每一个体:(i)基于所述多个遗传标记,匹配在所述测试个体种群中的第一个体和第二个体之间血缘同源的所述单倍型数据的区段,匹配的区段中的每一个具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记;(ii)对于所述第一个体和所述第二个体之间的所述匹配的区段中的每一个:将所述匹配的区段划分成多个离散基因组区间;基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度或者(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个得分;基于所述多个得分的一致性来修正所述多个得分,从而产生多个经修正得分;以及基于所述离散基因组区间的所述多个经修正得分,为所述多个离散基因组区间分配多个权重;以及(iii)基于所述多个经修正得分和所述多个权重,计算所述匹配的区段的所述多个离散基因组区间的加权和;以及(d)基于所述匹配的区段的所述加权和,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度。
在一些实施方式中,所述二倍体种群是哺乳动物种群。在一些实施方式中,所述哺乳动物种群是犬类种群、猫科动物种群、运动动物种群或啮齿动物种群。在一些实施方式中,所述哺乳动物种群是犬类种群。在一些实施方式中,所述犬类种群是犬种群。在一些实施方式中,所述哺乳动物种群是猫科动物种群。在一些实施方式中,所述猫科动物种群是猫种群。在一些实施方式中,所述哺乳动物种群是运动动物种群。在一些实施方式中,所述运动动物种群是马种群。在一些实施方式中,所述犬种群包括选自下列各项的一个或多个犬品种:猴头梗犬、阿富汗猎犬、非洲犬、爱迪犬、万能梗犬、阿卡巴士犬、秋田犬、阿兰格獒犬、西班牙阿来若犬、拉帕哈蓝血斗牛犬、阿拉斯加克利凯犬、阿拉斯加雪橇犬、阿朗特犬、亚洛贝克斯犬、阿尔卑斯达切斯勃拉克犬、阿尔萨斯牧羊犬、美国秋田犬、美国斗牛犬、美国可卡犬、美国爱斯基摩犬、美国猎狐犬、美洲无毛梗犬、美国马士提夫犬、美国比特斗牛梗犬、美国斯塔福郡梗犬、美国水猎犬、安纳托利亚牧羊犬、英法小维内里犬、阿彭策尔山地犬、阿根廷杜高犬、阿里埃日向导猎犬、艾瑞格斯犬、艾尔曼特犬、阿图瓦猎犬、澳洲斗牛犬、澳洲牧牛犬、澳洲卡尔比犬、澳洲牧羊犬、澳洲丝毛梗犬、澳洲粗短尾牧牛犬、澳洲梗犬、奥地利黑褐猎犬、奥地利平斯澈犬、阿札瓦克犬、巴哈瓦尔犬、芭比犬、巴辛吉犬、巴斯克牧羊犬、阿提桑诺曼底短腿犬、加斯科尼蓝色矮腿猎犬、布列塔尼短腿猎犬、大贝吉格里芬凡丁犬、迷你贝吉格里芬凡丁犬、巴伐利亚山地猎犬、比格犬、比格猎兔犬、长须柯利牧羊犬、法国狼犬、贝灵顿梗犬、比利时牧羊犬、比利时牧羊犬(格罗安达犬)、比利时牧羊犬(拉坎诺斯犬)、比利时牧羊犬(马利诺斯犬)、比利时牧羊犬(特弗伦犬)、贝加马斯卡牧羊犬、白色瑞士牧羊犬、伯格皮卡第犬、伯尔尼劳佛犬、伯恩山犬、卷毛比熊犬、比利犬、比斯本犬、黑褐猎浣熊犬、黑褐弗吉尼亚猎狐犬、布伦贝塞尔犬、黑色挪威猎麋犬、黑俄罗斯梗犬、黑嘴杂种犬、大型加斯科尼蓝色犬、小型加斯科尼蓝色犬、寻血猎犬、蓝雷西犬、蓝波犬、布鲁泰克猎浣熊犬、南非獒犬、波西米亚牧羊犬、博洛尼亚犬、边境牧羊犬、边境梗犬、俄罗斯狼犬、波斯尼亚粗毛猎犬、波士顿梗犬、阿登牧牛犬、佛兰德牧牛犬、拳师犬、帕金猎犬、意大利布拉可犬、奥弗涅布拉克猎犬、布拉克杜波旁犬、布拉克杜佩犬、布拉克法兰西犬、布拉克圣日尔曼犬、巴西梗犬、伯瑞犬、布里奇格里芬凡丁犬、布列塔尼犬、丹麦布罗荷马獒犬、汝拉布鲁诺猎犬、布科维纳牧羊犬、斗牛与梗犬、牛头梗犬、牛头梗犬(微型)、斗牛獒犬、库达犬、凯安梗、迦南犬、加拿大爱斯基摩犬、加拿大指示犬、卡斯罗犬、塞拉德艾利斯犬、卡斯特罗拉博雷罗犬、考迪菲勒得迈谷犬、卡罗来纳犬、喀尔巴阡山脉牧羊犬、卡他豪拉猎猪犬、加泰隆牧羊犬、高加索牧羊犬、骑士查理士王小猎犬、中亚牧羊犬、塞斯凯福瑟克犬、捷克梗犬、波兰灵缇犬、切萨皮克海湾寻回犬、基恩格里斯、法国黑白色犬、法国黄白犬、法国三色犬、吉娃娃犬、智利猎狐梗犬、中国重庆犬、中国冠毛犬、中国狮子犬、奇努克犬、奇皮普瑞猎犬、松狮犬、乌拉圭西马伦犬、西尔尼塞里犬、西西里猎犬、克伦勃猎犬、粗毛柯利犬、平滑毛柯利犬、科米拜犬、科多巴斗犬、图莱亚尔绒毛犬、克里特猎犬、克罗地亚牧羊犬、坎伯兰牧羊犬、卷毛寻回犬、捷克斯洛伐克狼犬、腊肠犬、大麦町犬、短脚狄文梗犬、丹麦瑞典农场犬、澳洲野犬、杜宾犬、波尔多犬、古巴杜高犬、危地马拉杜高犬、萨德斯科杜高犬、荷兰猎鸟犬、赘沃犬、邓克尔犬、荷兰牧羊犬、荷兰斯牟雄德犬、东欧牧羊犬、东西伯利亚雷卡犬、埃洛犬、英国可卡犬、英国猎浣熊犬、英国猎狐犬、英国獒犬、英国指示犬、英国塞特犬、英国牧羊犬、英国史宾格犬、英国玩具梗犬(黑棕色)、英国水猎犬、英国白梗犬、恩特雷布赫山地犬、伊巴尼尔蓝皮卡第犬、爱沙尼亚猎犬、埃什特雷拉山地犬、欧亚犬、田野猎犬、巴西菲勒犬、费多犬、芬兰猎犬、芬兰拉普猎犬、芬兰狐狸犬、平毛寻回犬、台湾山地犬、猎狐梗犬(短毛)、刚毛猎狐梗犬、法国布列塔尼犬、法国斗牛犬、法国猎犬、西班牙灵缇犬、德国长毛指示犬、德国宾莎犬、德国牧羊犬、德国短毛指示犬、德国猎犬、德国狐狸犬、德国刚毛指示犬、巨型雪纳瑞犬、艾莫劳峡谷梗犬、金毛寻回犬、戈登塞特犬、大英法黑白色犬、大英法黄白猎犬、大英法三色猎犬、大格里芬凡丁犬、大博林昆獒犬、大丹犬、大白熊犬、大瑞士山地犬、格陵兰犬、灵缇犬、格里芬蓝加斯科涅猎犬、布鲁塞尔格里芬犬、浅黄布列塔尼格里芬犬、格里芬尼韦内犬、巴基斯坦斗牛梗犬、巴基斯坦古梗犬、印第安兔犬、汉密尔顿斯道瓦猎犬、汉诺威猎犬、哈利犬、哈威那犬、夏威夷波伊犬、喜玛拉雅牧羊犬、北海道犬、霍尔塔亚博尔扎亚犬、霍夫瓦尔特犬、匈牙利猎犬、新西兰汉特威犬、海根猎犬、依比沙猎犬、冰岛牧羊犬、印度狐狸犬、爱尔兰牛头梗犬、爱尔兰红白塞特犬、爱尔兰塞特犬、爱尔兰斯塔福德牛头梗犬、爱尔兰梗犬、爱尔兰水猎犬、爱尔兰猎狼犬、伊斯特拉短毛猎犬、伊斯特拉粗毛猎犬、意大利灵缇犬、杰克拉塞尔梗犬、猎梗犬、耶姆特猎犬、日本狆犬、日本狐狸犬、日本梗犬、乔南吉犬、凯卡迪犬、甲斐犬、坎高犬、坎尼犬、卡拉卡坎犬、卡累利阿熊犬、卡斯特牧羊犬、荷兰毛狮犬、克里小猎犬、凯利蓝梗犬、查理士王小猎犬、国王牧羊犬、金塔马尼犬、纪州犬、可蒙犬、科克尔犬、柯利犬、韩国金刀犬、韩国獒犬、克罗福兰德犬、昆明狼犬、库里犬、库瓦兹犬、基里奥犬、拉布拉多哈士奇犬、拉布拉多寻回犬、拉戈托罗马阁挪露犬、湖畔梗犬、兰开夏赫勒犬、兰西尔犬、拉普兰牧犬、莱昂伯格犬、拉萨犬、立陶宛猎犬、长毛惠比特犬、意大利格斗犬、劳臣犬、麦耶阿加犬、雄伟树猎犬、马尔济斯犬、曼彻斯特梗犬、玛雷玛牧羊犬、麦克纳布犬、墨西哥无毛犬、迷你澳大利亚牧羊犬、迷你猎狐梗犬、迷你宾莎犬、迷你雪纳瑞犬、迷你西伯利亚雪橇犬、米利泰克犬、莫洛苏斯犬、蒙特内哥罗山猎犬、莫斯科看门犬、莫斯科水犬、山地犬、山岳犬、穆库切斯犬、马地犬、穆托尔猎犬、大明斯特兰犬、小明斯特兰犬、墨累河卷毛寻回犬、那不勒斯獒犬、纽芬兰犬、新几内亚歌唱犬、诺福克猎犬、诺福克梗犬、诺波丹狐狸犬、北方比格犬、北方因纽特犬、挪威布哈德犬、挪威猎麋犬、挪威伦德猎犬、诺维茨梗、新斯科舍诱鸭寻回犬、丹麦老式指示犬、英国古代牧羊犬、英国古代斗牛犬、英国古代梗犬、德国古代牧羊犬、英国老式斗牛犬、奥达猎犬、帕雄纳瓦罗犬、佩斯利梗犬、蝴蝶犬、帕尔森罗塞尔梗犬、帕特大勒梗犬、北京犬、普雷萨加纳利犬、伯里沙马罗奎因犬、秘鲁无毛犬、菲利犬、法老王猎犬、皮卡第猎犬、普罗特猎犬、加那利猎犬、指示犬、波兰猎犬、波兰狩猎犬、波兰低地牧羊犬、波兰塔特拉牧羊犬、博美犬、蓬托德梅尔猎犬、贵宾犬、波斯莱尼犬、葡萄牙波登可犬、葡萄牙指示犬、葡萄牙水犬、布拉格瑟瑞克犬、普德尔指示犬、巴哥犬、贝利犬、波密犬、丰山犬、比利牛斯獒犬、比利牛斯牧羊犬、阿兰多獒犬、拉贾帕拉耶姆犬、瑞木颇灵缇犬、巴西拉斯特雷德犬、拉托内罗博德奎罗安达卢兹犬、捕鼠梗犬、红骨猎浣熊犬、罗得西亚脊背犬、罗威纳犬、俄罗斯猎犬、拉斯基玩具犬、俄罗斯欧洲莱卡犬、罗素梗犬、萨尔路斯猎狼犬、西班牙赛布斯奥长耳犬、阿沙耶里牧羊犬、马赞德兰牧羊犬、萨哈林哈士奇犬、萨路基犬、萨摩耶犬、萨普萨利犬、萨普兰尼那克犬、斯恰潘道斯犬、席勒猎犬、西帕基犬、克罗地亚老式视觉猎犬、巨型雪纳瑞犬、迷你雪纳瑞犬、标准雪纳瑞犬、瑞士猎犬、瑞士慢跑犬、苏格兰柯利牧羊犬、苏格兰猎鹿犬、苏格兰梗犬、西里汉梗犬、意大利塞古奥犬、塞佩莱西伯利亚雪橇犬、塞尔维亚猎犬、塞尔维亚三色猎犬、沙皮犬、谢德兰牧羊犬、柴犬、西施犬、四国犬、夏伊洛牧羊犬、施拉克犬、西伯利亚哈士奇犬、丝毛风猎犬、僧伽罗猎犬、斯凯梗犬、斯卢夫猎犬、斯洛伐克库瓦克犬、斯洛伐克硬毛指示猎犬、斯洛伐克猎犬、斯玛兰斯道瓦犬、小型希腊家犬、爱尔兰软毛梗犬、南俄罗斯牧羊犬、南方猎犬、西班牙獒犬、西班牙水犬、意大利史宾诺犬、卢卡斯运动梗犬、圣伯纳犬、圣约翰水犬、斯塔比荷猎犬、斯塔福德牛头梗犬、斯蒂芬斯犬、斯提瑞恩粗毛猎犬、苏塞克斯猎犬、瑞典拉普杭犬、瑞典瓦汉德犬、瑞典比格犬、塔尔坦熊犬、泰干猎犬、塔马斯堪狼犬、泰迪罗斯福梗犬、克洛米亚犬、田特菲梗犬、泰国邦开犬、泰国脊背犬、西藏獒犬、西藏猎犬、西藏梗犬、波斯尼亚牧羊犬、土佐犬、玩具斗牛犬、玩具猎狐梗、曼彻斯特玩具梗犬、树丛杂种犬、树丛浣熊猎犬、泰罗猎犬、北因努伊特犬、维兹拉犬、意大利狐狸犬、威玛猎犬、卡迪根威尔士柯基犬、彭布罗克威尔士柯基犬、威尔士牧羊犬、威尔士英国史宾格犬、威尔士梗犬、西部高地白梗犬、西西伯利亚莱卡犬、威斯特达克斯布若卡犬、韦特豪犬、惠比特犬、白色英国斗牛犬、白色牧羊犬、刚毛维兹拉犬、刚毛指示格里芬犬,以及约克夏梗犬。在一些实施方式中,所述种群包括一只或多只纯种犬(例如,具有单一品种类型)或者一只或多只混种犬(例如,具有多个品种类型)。在一些实施方式中,所述种群是具有来自任何数目(例如,1只、2只、3只、4只、5只、6只、7只、8只、9只、10只或超过10只)或组合的纯种犬的DNA的混种犬的种群。
在一些实施方式中,通过使用单倍型定相算法处理所述测试个体种群的基因型数据生成所述单倍型数据。在一些实施方式中,所述单倍型定相算法包括基于参考的单倍型定相算法。在一些实施方式中,所述基于参考的单倍型定相算法包括基于隐马尔可夫模型(HMM)的搜索。在一些实施方式中,所述基于参考的单倍型定相算法包括Eagle1算法、Eagle2算法、PHASE算法、fastPHASE算法、BEAGLE算法、Findhap算法、Impute算法、FImpute算法、AlphaImpute算法、IMPUTE2算法、MaCH算法、SHAPEIT1算法、SHAPEIT2算法、SHAPEIT3算法、SHAPEIT4算法,或者其组合。在一些实施方式中,所述单倍型定相算法包括基于队列的单倍型定相算法。
在一些实施方式中,通过测定从所述测试个体种群获取的生物样品而获取所述基因型数据。在一些实施方式中,所述生物样品包括血液样品、唾液样品、拭子样品、细胞样品或组织样品。在一些实施方式中,所述测定包括对所述生物样品或其衍生物进行测序。
在一些实施方式中,所述多个遗传标记包括至少约500个、至少约1000个、至少约2000个、至少约3000个、至少约4000个、至少约5000个、至少约6000个、至少约7000个、至少约8000个、至少约9000个,或至少约10000个不同的遗传标记。
在一些实施方式中,匹配血缘同源的所述单倍型数据的区段包括使用GERMLINE算法、PLINK算法、PREST算法、用于IBD检测的随机投影(RaPID)算法、快速查找IBD共享单倍型(FISHR)算法、精化血缘同源(IBD)算法、fastIBD算法、KING算法、HaploScore算法、TRUFFLE算法,或者其组合。在一些实施方式中,所述预定阈值尺寸为约100千碱基对(kbp)、约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp,或约1000kbp。在一些实施方式中,所述预定数目的遗传标记为约30个、约40个、约50个、约60个、约70个、约80个、约90个,或约100个不同的遗传标记。
在一些实施方式中,该方法还包括划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有相等的尺寸。在一些实施方式中,该方法还包括划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有可变尺寸。在一些实施方式中,至少部分地基于下列各项来确定所述多个离散基因组区间中的给定离散基因组区间的可变尺寸:所述给定离散基因组区间近侧的IBD匹配的起始位置和结束位置、所述给定离散基因组区间内的遗传标记密度、所述给定离散基因组区间的最大标记数目、所述给定离散基因组区间的最大长度,或者其组合。
在一些实施方式中,该方法还包括基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度以及(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个纯合度匹配得分和多个成对匹配得分。在一些实施方式中,该方法还包括基于给定成对匹配得分与对应的纯合度匹配得分的一致性来修正所述多个成对匹配得分,从而产生多个经修正成对匹配得分。
在一些实施方式中,该方法还包括基于两个二倍体个体中的两个等位基因的多个同源状态,为所述多个离散基因组区间分配所述多个权重。在一些实施方式中,所述多个同源状态包括选自表1的同源状态,并且所述多个权重是基于如表1中所列的对亲缘关系rxy的多个贡献来分配的。在一些实施方式中,所述祖先亲缘关系程度包括亲缘关系系数。在一些实施方式中,该方法还包括计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure BDA0003750324370000081
在一些实施方式中,所述祖先亲缘关系程度包括血缘系数(coefficient of kinship)。在一些实施方式中,该方法还包括计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure BDA0003750324370000082
在一些实施方式中,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体或所述第二个体的近交程度(degree of inbreeding)。在一些实施方式中,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体和所述第二个体的近交程度。在一些实施方式中,该方法还包括至少部分地基于所述第一个体和所述第二个体的所述近交程度来确定所述第一个体和所述第二个体之间的家族关系。在一些实施方式中,所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系(aunt/uncle-nephew/niece relationship)、表亲关系、祖孙关系,或曾祖孙关系。在一些实施方式中,所述家族关系被给出为一对人之间的关系,使得所述第一个体和所述第二个体之间的所述祖先亲缘关系程度与所述一对人之间预期的祖先亲缘关系程度相当。在一些实施方式中,所述关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。
在一些实施方式中,该方法还包括确定所述第一个体和所述第二个体的潜在后代的预期近交程度。在一些实施方式中,该方法还包括基于所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度,确定指示出是否将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施方式中,该方法还包括当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度不超过预定近交阈值程度时,确定指示出将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施方式中,该方法还包括当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度超过预定近交阈值程度时,确定指示出不将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施中,所述预定近交阈值程度为约0.10、约0.15、约0.20、约0.25、约0.30、约0.35、约0.40、约0.45,或约0.50。
在一些实施方式中,该方法还包括至少部分地基于所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度,生成与所述第一个体相关联的第一人和与所述第二个体相关联的第二人之间的社会联系。在一些实施方式中,当所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度超过预定阈值时生成所述社会联系。在一些实施方式中,所述预定阈值为约0.00001、约0.0001、约0.001、约0.01、约0.02、约0.04、约0.06、约0.08、约0.1、约0.12、约0.14、约0.16、约0.18、约0.2、约0.25、约0.3、约0.35、约0.4、约0.45,或约0.5。在一些实施方式中,通过社交媒体网络生成所述社会联系。在一些实施方式中,所述第一人是所述第一个体的宠物主人,并且所述第二人是所述第二个体的宠物主人。在一些实施方式中,同一人是所述第一个体和所述第二个体的宠物主人。在一些实施方式中,生成所述第一人和所述第二人之间的社会联系包括提供所述第一人或所述第二人的位置。在一些实施方式中,生成所述第一人和所述第二人之间的社会联系包括提供所述第一人和所述第二人之间的通信链路。
在一些实施方式中,该方法还包括至少部分地基于所述祖先亲缘关系程度,识别所述第一个体和所述第二个体之间的家族关系。在一些实施方式中,所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。在一些实施方式中,所述家族关系被给出为一对人之间的关系,使得所述第一个体和所述第二个体之间的所述祖先亲缘关系程度与所述一对人之间预期的祖先亲缘关系程度相当。在一些实施方式中,所述关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。
在一些实施方式中,该方法还包括对于所述测试个体种群的一个或多个个体中的每一个,识别该个体中遗传或健康状况的存在、不存在、风险或携带者状态。在一些实施方式中,所述遗传或健康状况选自下列各项:血小板紊乱(RASGRP2外显子8);丙酮酸激酶缺乏症(PKLR外显子7巴哥犬变异体);第9因子缺乏症,B型血友病(F9外显子7,梗犬变异体);丙酮酸激酶缺乏症(PKLR外显子7比格犬变异体);P2Y12受体血小板异常(P2RY12);I型格兰茨曼血小板功能不全(ITGA2B外显子12);II型冯维勒布兰特病,II型vWD(VWF);梅-赫异常(MYH9);血小板紊乱(RASGRP2外显子5,美国爱斯基摩犬变异体);第9因子缺乏症,B型血友病(F9外显子7,罗得西亚脊背犬变异体);I型冯维勒布兰特病(VWF);犬椭圆形红细胞增多症(SPTB外显子30);III型犬白细胞黏附缺陷,LAD3(FERMT3);前激肽释放酶缺乏症(KLKB1外显子8);III型冯维勒布兰特病,III型vWD(VWF外显子4);第13因子缺乏症,A型血友病(F8外显子10,拳师犬变异体);中性粒细胞受困综合征(VPS13B);丙酮酸激酶缺乏症(PKLR外显子7拉布拉多犬变异体);血小板紊乱(RASGRP2外显子5,巴吉度猎犬变异体);丙酮酸激酶缺乏症(PKLR外显子5);第13因子缺乏症,A型血友病(F8外显子1,牧羊犬变异体2);第12因子缺乏症(F7外显子5);先天性巨血小板减少症(TUBB1外显子1,骑士查理士王小猎犬变异体);木样膜炎,LM(PLG);丙酮酸激酶缺乏症(PKLR外显子10);第13因子缺乏症,A型血友病(F8外显子11,牧羊犬变异体1);其他系统;沙皮犬自身炎症性疾病,SPAID,沙皮犬热(MTBP);常染色体隐性牙釉质发育不全症,家族性牙釉质发育不全(意大利灵缇犬变异体);持续性苗勒管综合征,PMDS(AMHR2);杜宾犬耳聋和前庭综合征,DVDob,DINGS;眼睛;进行性视网膜萎缩,crd2(IQCB1);原发性晶状体错位(ADAMTS17);青光眼原发性开角型青光眼(ADAMTS17外显子2);进行性视网膜萎缩,crd1(PDE6B);进行性视网膜萎缩,rcd1杆锥发育不良,rcd1(PDE6B外显子21爱尔兰塞特犬变异体);柯利犬眼部异常,脉络膜发育不全,CEA(NHEJ1);进行性视网膜萎缩(SAG);全色盲(CNGA3外显子7德国牧羊犬变异体);犬多灶性视网膜病变cmr2(BEST1外显子5);青光眼原发性开角型青光眼(ADAMTS17外显子11);进行性视网膜萎缩,prcd进行性视杆锥细胞变性(PRCD外显子1);遗传性白内障,早发性白内障,幼年白内障(HSF4外显子9牧羊犬变异体);常染色体显性进行性视网膜萎缩(RHO);犬多灶性视网膜病变cmr3(BEST1外显子10SNP);全色盲(CNGA3外显子7拉布拉多寻回犬变异体);犬多灶性视网膜病变cmr1(BEST1外显子2);进行性视网膜萎缩,rcd3杆锥发育不良,rcd3(PDE6A);进行性视网膜萎缩(CNGB1);金毛寻回犬进行性视网膜萎缩2,GR-PRA2(TTC8);进行性视网膜萎缩,CNGA(CNGA1外显子9);金毛寻回犬进行性视网膜萎缩1,GR-PRA1(SLC4A3);进行性视网膜萎缩-crd4/cord1(RPGRIP1);先天性静止性夜盲症(RPE65);斑点状角膜营养不良,MCD(CHST6);青光眼原发性开角型青光眼(ADAMTS10外显子9);犬多灶性视网膜病变cmr3(BEST1外显子10缺失);青光眼原发性开角型青光眼(ADAMTS10外显子17);肌肉;中央核肌病(PTPLA);先天性肌强直(CLCN1外显子7);大丹犬遗传性肌病(BIN1);先天性肌强直(CLCN1外显子23);肌营养不良症肌营养不良症(DMD彭布罗克威尔士柯基犬变异体);运动诱发虚脱(DNM1);肌营养不良症肌营养不良症(DMD金毛寻回犬变异体);肌肉生长抑制素缺乏症,牛赛犬综合征(MSTN);肌管性肌病1,X连锁肌管性肌病,XL-MTM(MTM1,拉布拉多犬变异体);肌营养不良症骑士查理士王小猎犬变异体1;多系统;原发性纤毛运动障碍,PCD(CCDC39外显子3);GM1神经节苷脂沉积症(GLB1外显子2);IIIA型黏多糖贮积症,A型桑菲利波综合征,MPS IIIA(SGSH外显子6变异体1);成年型神经元蜡样脂褐质沉着症(ATP13A2);GM1神经节苷脂沉积症(GLB1外显子15柴犬变异体);神经元蜡样脂褐质沉着症2,NCL 2(TPP1外显子4);VII型黏多糖贮积症,斯赖综合征,MPS VII(GUSB外显子3);犬岩藻糖苷贮积症(FUCA1);GM1神经节苷脂沉积症(GLB1外显子15阿拉斯加哈士奇犬变异体);拉戈托贮积病(ATG4D);先天性干燥性角膜结膜炎和鱼鳞病样皮肤病,干眼卷毛综合征,CKCSID(FAM83H外显子5);VII型糖原贮积病,磷酸果糖激酶缺乏症,PFK缺乏症(PFKM惠比特犬和英国史宾格犬变异体);IA型糖原贮积病,冯吉尔克病,GSD IA(G6PC);VII型糖原贮积病,磷酸果糖激酶缺乏症,PFK缺乏症(PFKM瓦赫特尔猎犬变异体));神经元蜡样脂褐质沉着症1,NCL 1(CLN5边境牧羊犬变异体);神经元蜡样脂褐质沉着症1,小脑共济失调,NCL-A(ARSG外显子2);神经元蜡样脂褐质沉着症6,NCL 6(CLN6外显子7);I型黏多糖贮积症,MPSI(IDUA);肾囊腺癌和结节性皮肤纤维化,RCND(FLCN外显子7);神经元蜡样脂褐质沉着症10,NCL 10(CTSD外显子5);球形细胞脑白质营养不良,克拉伯病(GALC外显子5);IIIA型糖原贮积病,GSD IIIA(AGL);神经元蜡样脂褐质沉着症(MFSD8);GM2神经节苷脂沉积症(HEXB,贵宾犬变异体);X连锁外胚层发育不良,无汗性外胚层发育不良(EDA内含子8);神经元蜡样脂褐质沉着症(CLN8澳洲牧羊犬变异体);神经元蜡样脂褐质沉着症8,NCL 8(CLN8英国塞特犬变异体);神经元蜡样脂褐质沉着症1,NCL 1(PPT1外显子8);神经元蜡样脂褐质沉着症(CLN5金毛寻回犬变异体);VII型黏多糖贮积症,斯赖综合征,MPS VII(GUSB外显子5);II型糖原贮积病,庞帕氏病,GSD II(GAA);GM2神经节苷脂沉积症(HEXA);IIIA型黏多糖贮积症,A型桑菲利波综合征,MPS IIIA(SGSH外显子6变异体2);皮肤和结缔组织;鱼鳞病(PNPLA1);鱼鳞病(SLC27A4);营养不良性大疱性表皮松解症(COL7A1);鱼鳞病,表皮松解性角化过度(KRT10);外胚层发育不良,皮肤脆弱综合征(PKP1);鱼鳞病(NIPAL4);穆斯拉丁-卢克综合征(ADAMTSL2);局灶性非表皮松解性掌跖角化病,先天性厚甲症(KRT16);遗传性鼻角化不全(SUV39H2);遗传性足垫角化过度(FAM83G);脑和脊髓;幼年型多发性神经病,莱昂贝格尔多发性神经病1(LPN1,ARHGEF10);小脑营养不良,新生儿小脑皮质变性,NCCD(SPTBN2);发作性睡病(HCRTR2内含子6);L-2-羟基戊二酸尿症,L2HGA(L2HGDH);海绵样变性伴小脑性共济失调2,SDCA2(ATP1B2);进行性神经元营养不良,犬多系统变性,CMSD(SERAC1外显子15);胎儿期新生儿神经轴索营养不良(MFN2);新生儿脑病伴癫痫发作,NEWS(ATF2);良性家族性幼年癫痫,释放灶性癫痫(LGI2);幼年性喉麻痹和多发性神经病,多发性神经病伴眼部异常和神经元空泡化,POANV(RAB3GAP1,罗威纳犬变异体);进行性神经元营养不良,犬多系统变性,CMSD(SERAC1外显子4);小脑共济失调,进展性早发性小脑共济失调(SEL1L);遗传性感觉自主神经病变,肢端损伤综合征,AMS(GDNF-AS);摇晃小狗综合征,X连锁广泛性震颤综合征(PLP);髓鞘形成减少和震颤(FNIP2);脊髓小脑性共济失调,迟发性共济失调,LoSCA(CAPN1);多发性神经病,NDRG1灵缇犬变异体(NDRG1外显子15);多发性神经病,NDRG1雪橇犬变异体(NDRG1外显子4);小脑发育不全(VLDLR);海绵样变性伴小脑性共济失调1,SDCA1,SeSAME/EAST综合征(KCNJ10);脊髓小脑性共济失调伴肌纤维束颤搐和/或癫痫发作(KCNJ10);阿拉斯加哈士奇脑病,亚急性坏死性脑脊髓病(SLC19A3);退行性脊髓病,DM(SOD1A);亚历山大病(GFAP);心脏;扩张型心肌病,DCM1(PDK4);QT间期延长综合征(KCNQ1);扩张型心肌病,DCM2(TTN);骨骼;遗传性抗维生素D佝偻病(VDR);成骨不全,脆骨病(COL1A1);成骨不全,脆骨病(SERPINH1);软骨营养不良伴椎间盘病,CDDY/IVDD,I型IVDD(FGF4逆转录基因-CFA12);成骨不全,脆骨病(COL1A2);颅下颌骨病,CMO(SLC37A2);骨骼发育不良2,SD2(COL11A2);唇裂和/或腭裂(ADAMTS20);眼骨骼发育不良1,侏儒症-视网膜发育不良,OSD1(COL9A3,拉布拉多寻回犬);骨软骨发育不良,骨骼矮小症(SLC13A1);代谢;恶性高热(RYR1);过氧化氢酶过少症,无过氧化氢酶血症(CAT);丙酮酸脱氢酶缺乏症(PDP1);肾脏和膀胱;高尿酸尿伴高尿酸血症或尿石症,HUU(SLC2A9);多囊肾病,PKD(PKD1);蛋白丢失性肾病,PLN(NPHS1);II-A型胱氨酸尿症(SLC3A1);原发性高草酸尿症(AGXT);I-A型胱氨酸尿症(SLC3A1);常染色体隐性遗传性肾病,家族性肾病,ARHN(COL4A4外显子3);X连锁遗传性肾病,XLHN(COL4A5外显子35,萨摩耶犬变异体2);II-B型胱氨酸尿症(SLC7A9);2,8-二羟基腺嘌呤尿石症,2,8-DHA尿石症(APRT);神经肌肉;发作性跌倒综合征(BCAN);先天性肌无力综合征(COLQ);先天性肌无力综合征(CHAT);免疫;重度联合免疫缺陷(RAG1);X连锁重度联合免疫缺陷(IL2RG变异体1);重度联合免疫缺陷(PRKDC);X连锁重度联合免疫缺陷(IL2RG变异体2);补体3缺乏症,C3缺乏症(C3);胃肠;伊默斯伦-格拉斯贝克综合征,选择性钴胺素吸收障碍(CUBN外显子53);伊默斯伦-格拉斯贝克综合征,选择性钴胺素吸收障碍(CUBN外显子8);临床;MDR1药物敏感性(MDR1);丙氨酸转氨酶活性(GPT);激素;以及先天性甲状腺功能减退症(TPO,田特菲梗犬变异体)。在一些实施方式中,所述风险表示为个体具有遗传或健康状况的概率或相对风险。在一些实施方式中,所述相对风险是数值(例如,相对风险比)或类别值(例如,“有风险”、“无风险”或“明确”)。在一些实施方式中,所述携带者状态表示为个体是遗传或健康状况的携带者的阳性或阴性指示。
在一些实施方式中,该方法还包括对于所述测试个体种群的一个或多个个体中的每一个,识别所述个体的一个或多个犬品种。在一些实施方式中,该方法还包括对于所述测试个体种群的一个或多个个体中的每一个,识别所述个体的所述一个或多个犬品种的一个或多个比例。在一些实施方式中,该方法还包括生成所述测试个体种群的多个个体的家谱。在一些实施方式中,该方法还包括对于所述测试个体种群的一个或多个个体中的每一个,识别表型或性状在所述个体中的存在、缺失或风险。在一些实施方式中,所述表型或性状选自下列各项:基础毛色(例如,深色或浅色毛皮、色素颜色以及颜色稀释)、彩色被毛修饰基因(例如,隐藏花纹结构、身体花纹以及面部花纹)、被毛性状(例如,毛饰、被毛长度、脱毛、被毛质地、无毛(墨西哥无毛犬型)、无毛(梗犬型)以及白化病)、身体特征(例如,口吻长度、尾巴长度、后爪、背部肌肉和体积以及眼睛颜色)、体型(例如,较小、中等和较大)、表现(例如,海拔适应)、遗传多样性(例如,近交程度和免疫反应多样性)。
在一些实施方式中,该方法还包括生成报告,所述报告指示出以下一项或多项:祖先亲缘关系程度;家族关系;遗传或健康状况的存在、不存在、风险或携带者状态;一个或多个犬品种;一个或多个犬品种的一个或多个比例;家谱;表型或性征的存在、缺失、风险或携带者状态;以及其任何组合。在一些实施方式中,该方法还包括将所述报告传送给兽医。
在另一方面,本公开内容提供了一种用于评估二倍体种群的两个个体之间的祖先亲缘关系程度的计算机系统,包括:数据库,其被配置用于储存测试个体种群的单倍型数据,该单倍型数据包括在所述测试个体种群中共享的多个遗传标记;以及一个或多个计算机处理器,其可操作地耦合到所述数据库,其中所述一个或多个计算机处理器被单个地或共同地编程用于:(a)基于所述多个遗传标记将所述单倍型数据划分成区段;(b)对于所述测试个体种群的每一个体:(i)基于所述多个遗传标记,匹配在所述测试个体种群中的第一个体和第二个体之间血缘同源的所述单倍型数据的区段,匹配的区段中的每一个具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记;(ii)对于所述第一个体和所述第二个体之间的所述匹配的区段中的每一个:将所述匹配的区段划分成多个离散基因组区间;基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度或者(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个得分;以及基于所述多个得分的一致性来修正所述多个得分,从而产生多个经修正得分;以及基于所述离散基因组区间的所述多个经修正得分,为所述多个离散基因组区间分配多个权重;以及(iii)基于所述多个经修正得分和所述多个权重,计算所述匹配的区段的所述多个离散基因组区间的加权和;以及(c)基于所述匹配的区段的所述加权和,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度。
在一些实施方式中,所述二倍体种群是哺乳动物种群。在一些实施方式中,所述哺乳动物种群是犬类种群、猫科动物种群、运动动物种群或啮齿动物种群。在一些实施方式中,所述哺乳动物种群是犬类种群。在一些实施方式中,所述犬类种群是犬种群。在一些实施方式中,所述哺乳动物种群是猫科动物种群。在一些实施方式中,所述猫科动物种群是猫种群。在一些实施方式中,所述哺乳动物种群是运动动物种群。在一些实施方式中,所述运动动物种群是马种群。在一些实施方式中,所述犬种群包括选自下列各项的一个或多个犬品种:猴头梗犬、阿富汗猎犬、非洲犬、爱迪犬、万能梗犬、阿卡巴士犬、秋田犬、阿兰格獒犬、西班牙阿来若犬、拉帕哈蓝血斗牛犬、阿拉斯加克利凯犬、阿拉斯加雪橇犬、阿朗特犬、亚洛贝克斯犬、阿尔卑斯达切斯勃拉克犬、阿尔萨斯牧羊犬、美国秋田犬、美国斗牛犬、美国可卡犬、美国爱斯基摩犬、美国猎狐犬、美洲无毛梗犬、美国马士提夫犬、美国比特斗牛梗犬、美国斯塔福郡梗犬、美国水猎犬、安纳托利亚牧羊犬、英法小维内里犬、阿彭策尔山地犬、阿根廷杜高犬、阿里埃日向导猎犬、艾瑞格斯犬、艾尔曼特犬、阿图瓦猎犬、澳洲斗牛犬、澳洲牧牛犬、澳洲卡尔比犬、澳洲牧羊犬、澳洲丝毛梗犬、澳洲粗短尾牧牛犬、澳洲梗犬、奥地利黑褐猎犬、奥地利平斯澈犬、阿札瓦克犬、巴哈瓦尔犬、芭比犬、巴辛吉犬、巴斯克牧羊犬、阿提桑诺曼底短腿犬、加斯科尼蓝色矮腿猎犬、布列塔尼短腿猎犬、大贝吉格里芬凡丁犬、迷你贝吉格里芬凡丁犬、巴伐利亚山地猎犬、比格犬、比格猎兔犬、长须柯利牧羊犬、法国狼犬、贝灵顿梗犬、比利时牧羊犬、比利时牧羊犬(格罗安达犬)、比利时牧羊犬(拉坎诺斯犬)、比利时牧羊犬(马利诺斯犬)、比利时牧羊犬(特弗伦犬)、贝加马斯卡牧羊犬、白色瑞士牧羊犬、伯格皮卡第犬、伯尔尼劳佛犬、伯恩山犬、卷毛比熊犬、比利犬、比斯本犬、黑褐猎浣熊犬、黑褐弗吉尼亚猎狐犬、布伦贝塞尔犬、黑色挪威猎麋犬、黑俄罗斯梗犬、黑嘴杂种犬、大型加斯科尼蓝色犬、小型加斯科尼蓝色犬、寻血猎犬、蓝雷西犬、蓝波犬、布鲁泰克猎浣熊犬、南非獒犬、波西米亚牧羊犬、博洛尼亚犬、边境牧羊犬、边境梗犬、俄罗斯狼犬、波斯尼亚粗毛猎犬、波士顿梗犬、阿登牧牛犬、佛兰德牧牛犬、拳师犬、帕金猎犬、意大利布拉可犬、奥弗涅布拉克猎犬、布拉克杜波旁犬、布拉克杜佩犬、布拉克法兰西犬、布拉克圣日尔曼犬、巴西梗犬、伯瑞犬、布里奇格里芬凡丁犬、布列塔尼犬、丹麦布罗荷马獒犬、汝拉布鲁诺猎犬、布科维纳牧羊犬、斗牛与梗犬、牛头梗犬、牛头梗犬(微型)、斗牛獒犬、库达犬、凯安梗、迦南犬、加拿大爱斯基摩犬、加拿大指示犬、卡斯罗犬、塞拉德艾利斯犬、卡斯特罗拉博雷罗犬、考迪菲勒得迈谷犬、卡罗来纳犬、喀尔巴阡山脉牧羊犬、卡他豪拉猎猪犬、加泰隆牧羊犬、高加索牧羊犬、骑士查理士王小猎犬、中亚牧羊犬、塞斯凯福瑟克犬、捷克梗犬、波兰灵缇犬、切萨皮克海湾寻回犬、基恩格里斯、法国黑白色犬、法国黄白犬、法国三色犬、吉娃娃犬、智利猎狐梗犬、中国重庆犬、中国冠毛犬、中国狮子犬、奇努克犬、奇皮普瑞猎犬、松狮犬、乌拉圭西马伦犬、西尔尼塞里犬、西西里猎犬、克伦勃猎犬、粗毛柯利犬、平滑毛柯利犬、科米拜犬、科多巴斗犬、图莱亚尔绒毛犬、克里特猎犬、克罗地亚牧羊犬、坎伯兰牧羊犬、卷毛寻回犬、捷克斯洛伐克狼犬、腊肠犬、大麦町犬、短脚狄文梗犬、丹麦瑞典农场犬、澳洲野犬、杜宾犬、波尔多犬、古巴杜高犬、危地马拉杜高犬、萨德斯科杜高犬、荷兰猎鸟犬、赘沃犬、邓克尔犬、荷兰牧羊犬、荷兰斯牟雄德犬、东欧牧羊犬、东西伯利亚雷卡犬、埃洛犬、英国可卡犬、英国猎浣熊犬、英国猎狐犬、英国獒犬、英国指示犬、英国塞特犬、英国牧羊犬、英国史宾格犬、英国玩具梗犬(黑棕色)、英国水猎犬、英国白梗犬、恩特雷布赫山地犬、伊巴尼尔蓝皮卡第犬、爱沙尼亚猎犬、埃什特雷拉山地犬、欧亚犬、田野猎犬、巴西菲勒犬、费多犬、芬兰猎犬、芬兰拉普猎犬、芬兰狐狸犬、平毛寻回犬、台湾山地犬、猎狐梗犬(短毛)、刚毛猎狐梗犬、法国布列塔尼犬、法国斗牛犬、法国猎犬、西班牙灵缇犬、德国长毛指示犬、德国宾莎犬、德国牧羊犬、德国短毛指示犬、德国猎犬、德国狐狸犬、德国刚毛指示犬、巨型雪纳瑞犬、艾莫劳峡谷梗犬、金毛寻回犬、戈登塞特犬、大英法黑白色犬、大英法黄白猎犬、大英法三色猎犬、大格里芬凡丁犬、大博林昆獒犬、大丹犬、大白熊犬、大瑞士山地犬、格陵兰犬、灵缇犬、格里芬蓝加斯科涅猎犬、布鲁塞尔格里芬犬、浅黄布列塔尼格里芬犬、格里芬尼韦内犬、巴基斯坦斗牛梗犬、巴基斯坦古梗犬、印第安兔犬、汉密尔顿斯道瓦猎犬、汉诺威猎犬、哈利犬、哈威那犬、夏威夷波伊犬、喜玛拉雅牧羊犬、北海道犬、霍尔塔亚博尔扎亚犬、霍夫瓦尔特犬、匈牙利猎犬、新西兰汉特威犬、海根猎犬、依比沙猎犬、冰岛牧羊犬、印度狐狸犬、爱尔兰牛头梗犬、爱尔兰红白塞特犬、爱尔兰塞特犬、爱尔兰斯塔福德牛头梗犬、爱尔兰梗犬、爱尔兰水猎犬、爱尔兰猎狼犬、伊斯特拉短毛猎犬、伊斯特拉粗毛猎犬、意大利灵缇犬、杰克拉塞尔梗犬、猎梗犬、耶姆特猎犬、日本狆犬、日本狐狸犬、日本梗犬、乔南吉犬、凯卡迪犬、甲斐犬、坎高犬、坎尼犬、卡拉卡坎犬、卡累利阿熊犬、卡斯特牧羊犬、荷兰毛狮犬、克里小猎犬、凯利蓝梗犬、查理士王小猎犬、国王牧羊犬、金塔马尼犬、纪州犬、可蒙犬、科克尔犬、柯利犬、韩国金刀犬、韩国獒犬、克罗福兰德犬、昆明狼犬、库里犬、库瓦兹犬、基里奥犬、拉布拉多哈士奇犬、拉布拉多寻回犬、拉戈托罗马阁挪露犬、湖畔梗犬、兰开夏赫勒犬、兰西尔犬、拉普兰牧犬、莱昂伯格犬、拉萨犬、立陶宛猎犬、长毛惠比特犬、意大利格斗犬、劳臣犬、麦耶阿加犬、雄伟树猎犬、马尔济斯犬、曼彻斯特梗犬、玛雷玛牧羊犬、麦克纳布犬、墨西哥无毛犬、迷你澳大利亚牧羊犬、迷你猎狐梗犬、迷你宾莎犬、迷你雪纳瑞犬、迷你西伯利亚雪橇犬、米利泰克犬、莫洛苏斯犬、蒙特内哥罗山猎犬、莫斯科看门犬、莫斯科水犬、山地犬、山岳犬、穆库切斯犬、马地犬、穆托尔猎犬、大明斯特兰犬、小明斯特兰犬、墨累河卷毛寻回犬、那不勒斯獒犬、纽芬兰犬、新几内亚歌唱犬、诺福克猎犬、诺福克梗犬、诺波丹狐狸犬、北方比格犬、北方因纽特犬、挪威布哈德犬、挪威猎麋犬、挪威伦德猎犬、诺维茨梗、新斯科舍诱鸭寻回犬、丹麦老式指示犬、英国古代牧羊犬、英国古代斗牛犬、英国古代梗犬、德国古代牧羊犬、英国老式斗牛犬、奥达猎犬、帕雄纳瓦罗犬、佩斯利梗犬、蝴蝶犬、帕尔森罗塞尔梗犬、帕特大勒梗犬、北京犬、普雷萨加纳利犬、伯里沙马罗奎因犬、秘鲁无毛犬、菲利犬、法老王猎犬、皮卡第猎犬、普罗特猎犬、加那利猎犬、指示犬、波兰猎犬、波兰狩猎犬、波兰低地牧羊犬、波兰塔特拉牧羊犬、博美犬、蓬托德梅尔猎犬、贵宾犬、波斯莱尼犬、葡萄牙波登可犬、葡萄牙指示犬、葡萄牙水犬、布拉格瑟瑞克犬、普德尔指示犬、巴哥犬、贝利犬、波密犬、丰山犬、比利牛斯獒犬、比利牛斯牧羊犬、阿兰多獒犬、拉贾帕拉耶姆犬、瑞木颇灵缇犬、巴西拉斯特雷德犬、拉托内罗博德奎罗安达卢兹犬、捕鼠梗犬、红骨猎浣熊犬、罗得西亚脊背犬、罗威纳犬、俄罗斯猎犬、拉斯基玩具犬、俄罗斯欧洲莱卡犬、罗素梗犬、萨尔路斯猎狼犬、西班牙赛布斯奥长耳犬、阿沙耶里牧羊犬、马赞德兰牧羊犬、萨哈林哈士奇犬、萨路基犬、萨摩耶犬、萨普萨利犬、萨普兰尼那克犬、斯恰潘道斯犬、席勒猎犬、西帕基犬、克罗地亚老式视觉猎犬、巨型雪纳瑞犬、迷你雪纳瑞犬、标准雪纳瑞犬、瑞士猎犬、瑞士慢跑犬、苏格兰柯利牧羊犬、苏格兰猎鹿犬、苏格兰梗犬、西里汉梗犬、意大利塞古奥犬、塞佩莱西伯利亚雪橇犬、塞尔维亚猎犬、塞尔维亚三色猎犬、沙皮犬、谢德兰牧羊犬、柴犬、西施犬、四国犬、夏伊洛牧羊犬、施拉克犬、西伯利亚哈士奇犬、丝毛风猎犬、僧伽罗猎犬、斯凯梗犬、斯卢夫猎犬、斯洛伐克库瓦克犬、斯洛伐克硬毛指示猎犬、斯洛伐克猎犬、斯玛兰斯道瓦犬、小型希腊家犬、爱尔兰软毛梗犬、南俄罗斯牧羊犬、南方猎犬、西班牙獒犬、西班牙水犬、意大利史宾诺犬、卢卡斯运动梗犬、圣伯纳犬、圣约翰水犬、斯塔比荷猎犬、斯塔福德牛头梗犬、斯蒂芬斯犬、斯提瑞恩粗毛猎犬、苏塞克斯猎犬、瑞典拉普杭犬、瑞典瓦汉德犬、瑞典比格犬、塔尔坦熊犬、泰干猎犬、塔马斯堪狼犬、泰迪罗斯福梗犬、克洛米亚犬、田特菲梗犬、泰国邦开犬、泰国脊背犬、西藏獒犬、西藏猎犬、西藏梗犬、波斯尼亚牧羊犬、土佐犬、玩具斗牛犬、玩具猎狐梗、曼彻斯特玩具梗犬、树丛杂种犬、树丛浣熊猎犬、泰罗猎犬、北因努伊特犬、维兹拉犬、意大利狐狸犬、威玛猎犬、卡迪根威尔士柯基犬、彭布罗克威尔士柯基犬、威尔士牧羊犬、威尔士英国史宾格犬、威尔士梗犬、西部高地白梗犬、西西伯利亚莱卡犬、威斯特达克斯布若卡犬、韦特豪犬、惠比特犬、白色英国斗牛犬、白色牧羊犬、刚毛维兹拉犬、刚毛指示格里芬犬,以及约克夏梗犬。在一些实施方式中,所述种群包括一只或多只纯种犬(例如,具有单一品种类型)或者一只或多只混种犬(例如,具有多个品种类型)。在一些实施方式中,所述种群是具有来自任何数目(例如,1只、2只、3只、4只、5只、6只、7只、8只、9只、10只或超过10只)或组合的纯种犬的DNA的混种犬的种群。
在一些实施方式中,通过使用单倍型定相算法处理所述测试个体种群的基因型数据生成所述单倍型数据。在一些实施方式中,所述单倍型定相算法包括基于参考的单倍型定相算法。在一些实施方式中,所述基于参考的单倍型定相算法包括基于隐马尔可夫模型(HMM)的搜索。在一些实施方式中,所述基于参考的单倍型定相算法包括Eagle1算法、Eagle2算法、PHASE算法、fastPHASE算法、BEAGLE算法、Findhap算法、Impute算法、FImpute算法、AlphaImpute算法、IMPUTE2算法、MaCH算法、SHAPEIT1算法、SHAPEIT2算法、SHAPEIT3算法、SHAPEIT4算法,或者其组合。在一些实施方式中,所述单倍型定相算法包括基于队列的单倍型定相算法。
在一些实施方式中,通过测定从所述测试个体种群获取的生物样品而获取所述基因型数据。在一些实施方式中,所述生物样品包括血液样品、唾液样品、拭子样品、细胞样品或组织样品。在一些实施方式中,所述测定包括对所述生物样品或其衍生物进行测序。
在一些实施方式中,所述多个遗传标记包括至少约500个、至少约1000个、至少约2000个、至少约3000个、至少约4000个、至少约5000个、至少约6000个、至少约7000个、至少约8000个、至少约9000个,或至少约10000个不同的遗传标记。
在一些实施方式中,匹配血缘同源的所述单倍型数据的区段包括使用GERMLINE算法、PLINK算法、PREST算法、用于IBD检测的随机投影(RaPID)算法、快速查找IBD共享单倍型(FISHR)算法、精化血缘同源(IBD)算法、fastIBD算法、KING算法、HaploScore算法、TRUFFLE算法,或者其组合。在一些实施方式中,所述预定阈值尺寸为约100千碱基对(kbp)、约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp,或约1000kbp。在一些实施方式中,所述预定数目的遗传标记为约30个、约40个、约50个、约60个、约70个、约80个、约90个,或约100个不同的遗传标记。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有相等的尺寸。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有可变尺寸。在一些实施方式中,至少部分地基于下列各项来确定所述多个离散基因组区间中的给定离散基因组区间的可变尺寸:所述给定离散基因组区间近侧的IBD匹配的起始位置和结束位置、所述给定离散基因组区间内的遗传标记密度、所述给定离散基因组区间的最大标记数目、所述给定离散基因组区间的最大长度,或者其组合。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度以及(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个纯合度匹配得分和多个成对匹配得分。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步基于给定成对匹配得分与对应的纯合度匹配得分的一致性来修正所述多个成对匹配得分,从而产生多个经修正成对匹配得分。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步基于两个二倍体个体中的两个等位基因的多个同源状态,为所述多个离散基因组区间分配所述多个权重。在一些实施方式中,所述多个同源状态包括选自表1的同源状态,并且所述多个权重是基于如表1中所列的对亲缘关系rxy的多个贡献来分配的。在一些实施方式中,所述祖先亲缘关系程度包括亲缘关系系数。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure BDA0003750324370000221
在一些实施方式中,所述祖先亲缘关系程度包括血缘系数。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure BDA0003750324370000231
在一些实施方式中,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体或所述第二个体的近交程度。在一些实施方式中,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体和所述第二个体的近交程度。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步至少部分地基于所述第一个体和所述第二个体的所述近交程度来确定所述第一个体和所述第二个体之间的家族关系。在一些实施方式中,所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。在一些实施方式中,所述家族关系被给出为一对人之间的关系,使得所述第一个体和所述第二个体之间的所述祖先亲缘关系程度与所述一对人之间预期的祖先亲缘关系程度相当。在一些实施方式中,所述关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步确定所述第一个体和所述第二个体的潜在后代的预期近交程度。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步基于所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度,确定指示出是否将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度不超过预定近交阈值程度时,确定指示出将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度超过预定近交阈值程度时,确定指示出不将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施中,所述预定近交阈值程度为约0.10、约0.15、约0.20、约0.25、约0.30、约0.35、约0.40、约0.45,或约0.50。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步至少部分地基于所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度,生成与所述第一个体相关联的第一人和与所述第二个体相关联的第二人之间的社会联系。在一些实施方式中,当所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度超过预定阈值时生成所述社会联系。在一些实施方式中,所述预定阈值为约0.00001、约0.0001、约0.001、约0.01、约0.02、约0.04、约0.06、约0.08、约0.1、约0.12、约0.14、约0.16、约0.18、约0.2、约0.25、约0.3、约0.35、约0.4、约0.45,或约0.5。在一些实施方式中,通过社交媒体网络生成所述社会联系。在一些实施方式中,所述第一人是所述第一个体的宠物主人,并且所述第二人是所述第二个体的宠物主人。在一些实施方式中,同一人是所述第一个体和所述第二个体的宠物主人。在一些实施方式中,生成所述第一人和所述第二人之间的社会联系包括提供所述第一人或所述第二人的位置。在一些实施方式中,生成所述第一人和所述第二人之间的社会联系包括提供所述第一人和所述第二人之间的通信链路。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步至少部分地基于所述祖先亲缘关系程度,识别所述第一个体和所述第二个体之间的家族关系。在一些实施方式中,所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。在一些实施方式中,所述家族关系被给出为一对人之间的关系,使得所述第一个体和所述第二个体之间的所述祖先亲缘关系程度与所述一对人之间预期的祖先亲缘关系程度相当。在一些实施方式中,所述关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步对于所述测试个体种群的一个或多个个体中的每一个,识别该个体中遗传或健康状况的存在、不存在、风险或携带者状态。在一些实施方式中,所述遗传或健康状况选自下列各项:血小板紊乱(RASGRP2外显子8);丙酮酸激酶缺乏症(PKLR外显子7巴哥犬变异体);第9因子缺乏症,B型血友病(F9外显子7,梗犬变异体);丙酮酸激酶缺乏症(PKLR外显子7比格犬变异体);P2Y12受体血小板异常(P2RY12);I型格兰茨曼血小板功能不全(ITGA2B外显子12);II型冯维勒布兰特病,II型vWD(VWF);梅-赫异常(MYH9);血小板紊乱(RASGRP2外显子5,美国爱斯基摩犬变异体);第9因子缺乏症,B型血友病(F9外显子7,罗得西亚脊背犬变异体);I型冯维勒布兰特病(VWF);犬椭圆形红细胞增多症(SPTB外显子30);III型犬白细胞黏附缺陷,LAD3(FERMT3);前激肽释放酶缺乏症(KLKB1外显子8);III型冯维勒布兰特病,III型vWD(VWF外显子4);第13因子缺乏症,A型血友病(F8外显子10,拳师犬变异体);中性粒细胞受困综合征(VPS13B);丙酮酸激酶缺乏症(PKLR外显子7拉布拉多犬变异体);血小板紊乱(RASGRP2外显子5,巴吉度猎犬变异体);丙酮酸激酶缺乏症(PKLR外显子5);第13因子缺乏症,A型血友病(F8外显子1,牧羊犬变异体2);第12因子缺乏症(F7外显子5);先天性巨血小板减少症(TUBB1外显子1,骑士查理士王小猎犬变异体);木样膜炎,LM(PLG);丙酮酸激酶缺乏症(PKLR外显子10);第13因子缺乏症,A型血友病(F8外显子11,牧羊犬变异体1);其他系统;沙皮犬自身炎症性疾病,SPAID,沙皮犬热(MTBP);常染色体隐性牙釉质发育不全症,家族性牙釉质发育不全(意大利灵缇犬变异体);持续性苗勒管综合征,PMDS(AMHR2);杜宾犬耳聋和前庭综合征,DVDob,DINGS;眼睛;进行性视网膜萎缩,crd2(IQCB1);原发性晶状体错位(ADAMTS17);青光眼原发性开角型青光眼(ADAMTS17外显子2);进行性视网膜萎缩,crd1(PDE6B);进行性视网膜萎缩,rcd1杆锥发育不良,rcd1(PDE6B外显子21爱尔兰塞特犬变异体);柯利犬眼部异常,脉络膜发育不全,CEA(NHEJ1);进行性视网膜萎缩(SAG);全色盲(CNGA3外显子7德国牧羊犬变异体);犬多灶性视网膜病变cmr2(BEST1外显子5);青光眼原发性开角型青光眼(ADAMTS17外显子11);进行性视网膜萎缩,prcd进行性视杆锥细胞变性(PRCD外显子1);遗传性白内障,早发性白内障,幼年白内障(HSF4外显子9牧羊犬变异体);常染色体显性进行性视网膜萎缩(RHO);犬多灶性视网膜病变cmr3(BEST1外显子10SNP);全色盲(CNGA3外显子7拉布拉多寻回犬变异体);犬多灶性视网膜病变cmr1(BEST1外显子2);进行性视网膜萎缩,rcd3杆锥发育不良,rcd3(PDE6A);进行性视网膜萎缩(CNGB1);金毛寻回犬进行性视网膜萎缩2,GR-PRA2(TTC8);进行性视网膜萎缩,CNGA(CNGA1外显子9);金毛寻回犬进行性视网膜萎缩1,GR-PRA1(SLC4A3);进行性视网膜萎缩-crd4/cord1(RPGRIP1);先天性静止性夜盲症(RPE65);斑点状角膜营养不良,MCD(CHST6);青光眼原发性开角型青光眼(ADAMTS10外显子9);犬多灶性视网膜病变cmr3(BEST1外显子10缺失);青光眼原发性开角型青光眼(ADAMTS10外显子17);肌肉;中央核肌病(PTPLA);先天性肌强直(CLCN1外显子7);大丹犬遗传性肌病(BIN1);先天性肌强直(CLCN1外显子23);肌营养不良症肌营养不良症(DMD彭布罗克威尔士柯基犬变异体);运动诱发虚脱(DNM1);肌营养不良症肌营养不良症(DMD金毛寻回犬变异体);肌肉生长抑制素缺乏症,牛赛犬综合征(MSTN);肌管性肌病1,X连锁肌管性肌病,XL-MTM(MTM1,拉布拉多犬变异体);肌营养不良症骑士查理士王小猎犬变异体1;多系统;原发性纤毛运动障碍,PCD(CCDC39外显子3);GM1神经节苷脂沉积症(GLB1外显子2);IIIA型黏多糖贮积症,A型桑菲利波综合征,MPS IIIA(SGSH外显子6变异体1);成年型神经元蜡样脂褐质沉着症(ATP13A2);GM1神经节苷脂沉积症(GLB1外显子15柴犬变异体);神经元蜡样脂褐质沉着症2,NCL 2(TPP1外显子4);VII型黏多糖贮积症,斯赖综合征,MPS VII(GUSB外显子3);犬岩藻糖苷贮积症(FUCA1);GM1神经节苷脂沉积症(GLB1外显子15阿拉斯加哈士奇犬变异体);拉戈托贮积病(ATG4D);先天性干燥性角膜结膜炎和鱼鳞病样皮肤病,干眼卷毛综合征,CKCSID(FAM83H外显子5);VII型糖原贮积病,磷酸果糖激酶缺乏症,PFK缺乏症(PFKM惠比特犬和英国史宾格犬变异体);IA型糖原贮积病,冯吉尔克病,GSDIA(G6PC);VII型糖原贮积病,磷酸果糖激酶缺乏症,PFK缺乏症(PFKM瓦赫特尔猎犬变异体));神经元蜡样脂褐质沉着症1,NCL 1(CLN5边境牧羊犬变异体);神经元蜡样脂褐质沉着症1,小脑共济失调,NCL-A(ARSG外显子2);神经元蜡样脂褐质沉着症6,NCL 6(CLN6外显子7);I型黏多糖贮积症,MPS I(IDUA);肾囊腺癌和结节性皮肤纤维化,RCND(FLCN外显子7);神经元蜡样脂褐质沉着症10,NCL 10(CTSD外显子5);球形细胞脑白质营养不良,克拉伯病(GALC外显子5);IIIA型糖原贮积病,GSD IIIA(AGL);神经元蜡样脂褐质沉着症(MFSD8);GM2神经节苷脂沉积症(HEXB,贵宾犬变异体);X连锁外胚层发育不良,无汗性外胚层发育不良(EDA内含子8);神经元蜡样脂褐质沉着症(CLN8澳洲牧羊犬变异体);神经元蜡样脂褐质沉着症8,NCL 8(CLN8英国塞特犬变异体);神经元蜡样脂褐质沉着症1,NCL 1(PPT1外显子8);神经元蜡样脂褐质沉着症(CLN5金毛寻回犬变异体);VII型黏多糖贮积症,斯赖综合征,MPS VII(GUSB外显子5);II型糖原贮积病,庞帕氏病,GSD II(GAA);GM2神经节苷脂沉积症(HEXA);IIIA型黏多糖贮积症,A型桑菲利波综合征,MPS IIIA(SGSH外显子6变异体2);皮肤和结缔组织;鱼鳞病(PNPLA1);鱼鳞病(SLC27A4);营养不良性大疱性表皮松解症(COL7A1);鱼鳞病,表皮松解性角化过度(KRT10);外胚层发育不良,皮肤脆弱综合征(PKP1);鱼鳞病(NIPAL4);穆斯拉丁-卢克综合征(ADAMTSL2);局灶性非表皮松解性掌跖角化病,先天性厚甲症(KRT16);遗传性鼻角化不全(SUV39H2);遗传性足垫角化过度(FAM83G);脑和脊髓;幼年型多发性神经病,莱昂贝格尔多发性神经病1(LPN1,ARHGEF10);小脑营养不良,新生儿小脑皮质变性,NCCD(SPTBN2);发作性睡病(HCRTR2内含子6);L-2-羟基戊二酸尿症,L2HGA(L2HGDH);海绵样变性伴小脑性共济失调2,SDCA2(ATP1B2);进行性神经元营养不良,犬多系统变性,CMSD(SERAC1外显子15);胎儿期新生儿神经轴索营养不良(MFN2);新生儿脑病伴癫痫发作,NEWS(ATF2);良性家族性幼年癫痫,释放灶性癫痫(LGI2);幼年性喉麻痹和多发性神经病,多发性神经病伴眼部异常和神经元空泡化,POANV(RAB3GAP1,罗威纳犬变异体);进行性神经元营养不良,犬多系统变性,CMSD(SERAC1外显子4);小脑共济失调,进展性早发性小脑共济失调(SEL1L);遗传性感觉自主神经病变,肢端损伤综合征,AMS(GDNF-AS);摇晃小狗综合征,X连锁广泛性震颤综合征(PLP);髓鞘形成减少和震颤(FNIP2);脊髓小脑性共济失调,迟发性共济失调,LoSCA(CAPN1);多发性神经病,NDRG1灵缇犬变异体(NDRG1外显子15);多发性神经病,NDRG1雪橇犬变异体(NDRG1外显子4);小脑发育不全(VLDLR);海绵样变性伴小脑性共济失调1,SDCA1,SeSAME/EAST综合征(KCNJ10);脊髓小脑性共济失调伴肌纤维束颤搐和/或癫痫发作(KCNJ10);阿拉斯加哈士奇脑病,亚急性坏死性脑脊髓病(SLC19A3);退行性脊髓病,DM(SOD1A);亚历山大病(GFAP);心脏;扩张型心肌病,DCM1(PDK4);QT间期延长综合征(KCNQ1);扩张型心肌病,DCM2(TTN);骨骼;遗传性抗维生素D佝偻病(VDR);成骨不全,脆骨病(COL1A1);成骨不全,脆骨病(SERPINH1);软骨营养不良伴椎间盘病,CDDY/IVDD,I型IVDD(FGF4逆转录基因-CFA12);成骨不全,脆骨病(COL1A2);颅下颌骨病,CMO(SLC37A2);骨骼发育不良2,SD2(COL11A2);唇裂和/或腭裂(ADAMTS20);眼骨骼发育不良1,侏儒症-视网膜发育不良,OSD1(COL9A3,拉布拉多寻回犬);骨软骨发育不良,骨骼矮小症(SLC13A1);代谢;恶性高热(RYR1);过氧化氢酶过少症,无过氧化氢酶血症(CAT);丙酮酸脱氢酶缺乏症(PDP1);肾脏和膀胱;高尿酸尿伴高尿酸血症或尿石症,HUU(SLC2A9);多囊肾病,PKD(PKD1);蛋白丢失性肾病,PLN(NPHS1);II-A型胱氨酸尿症(SLC3A1);原发性高草酸尿症(AGXT);I-A型胱氨酸尿症(SLC3A1);常染色体隐性遗传性肾病,家族性肾病,ARHN(COL4A4外显子3);X连锁遗传性肾病,XLHN(COL4A5外显子35,萨摩耶犬变异体2);II-B型胱氨酸尿症(SLC7A9);2,8-二羟基腺嘌呤尿石症,2,8-DHA尿石症(APRT);神经肌肉;发作性跌倒综合征(BCAN);先天性肌无力综合征(COLQ);先天性肌无力综合征(CHAT);免疫;重度联合免疫缺陷(RAG1);X连锁重度联合免疫缺陷(IL2RG变异体1);重度联合免疫缺陷(PRKDC);X连锁重度联合免疫缺陷(IL2RG变异体2);补体3缺乏症,C3缺乏症(C3);胃肠;伊默斯伦-格拉斯贝克综合征,选择性钴胺素吸收障碍(CUBN外显子53);伊默斯伦-格拉斯贝克综合征,选择性钴胺素吸收障碍(CUBN外显子8);临床;MDR1药物敏感性(MDR1);丙氨酸转氨酶活性(GPT);激素;以及先天性甲状腺功能减退症(TPO,田特菲梗犬变异体)。在一些实施方式中,所述风险表示为个体具有遗传或健康状况的概率或相对风险。在一些实施方式中,所述相对风险是数值(例如,相对风险比)或类别值(例如,“有风险”、“无风险”或“明确”)。在一些实施方式中,所述携带者状态表示为个体是遗传或健康状况的携带者的阳性或阴性指示。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步对于所述测试个体种群的一个或多个个体中的每一个,识别所述个体的一个或多个犬品种。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步对于所述测试个体种群的一个或多个个体中的每一个,识别所述个体的所述一个或多个犬品种的一个或多个比例。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步生成所述测试个体种群的多个个体的家谱。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步对于所述测试个体种群的一个或多个个体中的每一个,识别表型或性状在所述个体中的存在、缺失或风险。在一些实施方式中,所述表型或性状选自下列各项:基础毛色(例如,深色或浅色毛皮、色素颜色以及颜色稀释)、彩色被毛修饰基因(例如,隐藏花纹结构、身体花纹以及面部花纹)、被毛性状(例如,毛饰、被毛长度、脱毛、被毛质地、无毛(墨西哥无毛犬型)、无毛(梗犬型)以及白化病)、身体特征(例如,口吻长度、尾巴长度、后爪、背部肌肉和体积以及眼睛颜色)、体型(例如,较小、中等和较大)、表现(例如,海拔适应)、遗传多样性(例如,近交程度和免疫反应多样性)。
在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步生成报告,所述报告指示出以下一项或多项:祖先亲缘关系程度;家族关系;遗传或健康状况的存在、不存在、风险或携带者状态;一个或多个犬品种;一个或多个犬品种的一个或多个比例;家谱;表型或性征的存在、缺失、风险或携带者状态;以及其任何组合。在一些实施方式中,所述一个或多个计算机处理器被单个地或共同地编程用于进一步将所述报告传送给兽医。
在又一方面,本公开内容提供了一种包含机器可执行代码的非暂时性计算机可读介质,该机器可执行代码在由一个或多个计算机处理器执行时,实现一种用于评估二倍体种群的两个个体之间的祖先亲缘关系程度的方法,所述方法包括:(a)接收测试个体种群的单倍型数据,该单倍型数据包括在所述测试个体种群中共享的多个遗传标记;(b)基于所述多个遗传标记将所述单倍型数据划分成区段;(c)对于所述测试个体种群的每一个体:(i)基于所述多个遗传标记,匹配在所述测试个体种群中的第一个体和第二个体之间血缘同源的所述单倍型数据的区段,匹配的区段中的每一个具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记;(ii)对于所述第一个体和所述第二个体之间的所述匹配的区段中的每一个:将所述匹配的区段划分成多个离散基因组区间;基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度或者(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个得分;基于所述多个得分的一致性来修正所述多个得分,从而产生多个经修正得分;以及基于所述离散基因组区间的所述多个经修正得分,为所述多个离散基因组区间分配多个权重;以及(iii)基于所述多个经修正得分和所述多个权重,计算所述匹配的区段的所述多个离散基因组区间的加权和;以及(d)基于所述匹配的区段的所述加权和,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度。
在一些实施方式中,所述二倍体种群是哺乳动物种群。在一些实施方式中,所述哺乳动物种群是犬类种群、猫科动物种群、运动动物种群或啮齿动物种群。在一些实施方式中,所述哺乳动物种群是犬类种群。在一些实施方式中,所述犬类种群是犬种群。在一些实施方式中,所述哺乳动物种群是猫科动物种群。在一些实施方式中,所述猫科动物种群是猫种群。在一些实施方式中,所述哺乳动物种群是运动动物种群。在一些实施方式中,所述运动动物种群是马种群。在一些实施方式中,所述犬种群包括选自下列各项的一个或多个犬品种:猴头梗犬、阿富汗猎犬、非洲犬、爱迪犬、万能梗犬、阿卡巴士犬、秋田犬、阿兰格獒犬、西班牙阿来若犬、拉帕哈蓝血斗牛犬、阿拉斯加克利凯犬、阿拉斯加雪橇犬、阿朗特犬、亚洛贝克斯犬、阿尔卑斯达切斯勃拉克犬、阿尔萨斯牧羊犬、美国秋田犬、美国斗牛犬、美国可卡犬、美国爱斯基摩犬、美国猎狐犬、美洲无毛梗犬、美国马士提夫犬、美国比特斗牛梗犬、美国斯塔福郡梗犬、美国水猎犬、安纳托利亚牧羊犬、英法小维内里犬、阿彭策尔山地犬、阿根廷杜高犬、阿里埃日向导猎犬、艾瑞格斯犬、艾尔曼特犬、阿图瓦猎犬、澳洲斗牛犬、澳洲牧牛犬、澳洲卡尔比犬、澳洲牧羊犬、澳洲丝毛梗犬、澳洲粗短尾牧牛犬、澳洲梗犬、奥地利黑褐猎犬、奥地利平斯澈犬、阿札瓦克犬、巴哈瓦尔犬、芭比犬、巴辛吉犬、巴斯克牧羊犬、阿提桑诺曼底短腿犬、加斯科尼蓝色矮腿猎犬、布列塔尼短腿猎犬、大贝吉格里芬凡丁犬、迷你贝吉格里芬凡丁犬、巴伐利亚山地猎犬、比格犬、比格猎兔犬、长须柯利牧羊犬、法国狼犬、贝灵顿梗犬、比利时牧羊犬、比利时牧羊犬(格罗安达犬)、比利时牧羊犬(拉坎诺斯犬)、比利时牧羊犬(马利诺斯犬)、比利时牧羊犬(特弗伦犬)、贝加马斯卡牧羊犬、白色瑞士牧羊犬、伯格皮卡第犬、伯尔尼劳佛犬、伯恩山犬、卷毛比熊犬、比利犬、比斯本犬、黑褐猎浣熊犬、黑褐弗吉尼亚猎狐犬、布伦贝塞尔犬、黑色挪威猎麋犬、黑俄罗斯梗犬、黑嘴杂种犬、大型加斯科尼蓝色犬、小型加斯科尼蓝色犬、寻血猎犬、蓝雷西犬、蓝波犬、布鲁泰克猎浣熊犬、南非獒犬、波西米亚牧羊犬、博洛尼亚犬、边境牧羊犬、边境梗犬、俄罗斯狼犬、波斯尼亚粗毛猎犬、波士顿梗犬、阿登牧牛犬、佛兰德牧牛犬、拳师犬、帕金猎犬、意大利布拉可犬、奥弗涅布拉克猎犬、布拉克杜波旁犬、布拉克杜佩犬、布拉克法兰西犬、布拉克圣日尔曼犬、巴西梗犬、伯瑞犬、布里奇格里芬凡丁犬、布列塔尼犬、丹麦布罗荷马獒犬、汝拉布鲁诺猎犬、布科维纳牧羊犬、斗牛与梗犬、牛头梗犬、牛头梗犬(微型)、斗牛獒犬、库达犬、凯安梗、迦南犬、加拿大爱斯基摩犬、加拿大指示犬、卡斯罗犬、塞拉德艾利斯犬、卡斯特罗拉博雷罗犬、考迪菲勒得迈谷犬、卡罗来纳犬、喀尔巴阡山脉牧羊犬、卡他豪拉猎猪犬、加泰隆牧羊犬、高加索牧羊犬、骑士查理士王小猎犬、中亚牧羊犬、塞斯凯福瑟克犬、捷克梗犬、波兰灵缇犬、切萨皮克海湾寻回犬、基恩格里斯、法国黑白色犬、法国黄白犬、法国三色犬、吉娃娃犬、智利猎狐梗犬、中国重庆犬、中国冠毛犬、中国狮子犬、奇努克犬、奇皮普瑞猎犬、松狮犬、乌拉圭西马伦犬、西尔尼塞里犬、西西里猎犬、克伦勃猎犬、粗毛柯利犬、平滑毛柯利犬、科米拜犬、科多巴斗犬、图莱亚尔绒毛犬、克里特猎犬、克罗地亚牧羊犬、坎伯兰牧羊犬、卷毛寻回犬、捷克斯洛伐克狼犬、腊肠犬、大麦町犬、短脚狄文梗犬、丹麦瑞典农场犬、澳洲野犬、杜宾犬、波尔多犬、古巴杜高犬、危地马拉杜高犬、萨德斯科杜高犬、荷兰猎鸟犬、赘沃犬、邓克尔犬、荷兰牧羊犬、荷兰斯牟雄德犬、东欧牧羊犬、东西伯利亚雷卡犬、埃洛犬、英国可卡犬、英国猎浣熊犬、英国猎狐犬、英国獒犬、英国指示犬、英国塞特犬、英国牧羊犬、英国史宾格犬、英国玩具梗犬(黑棕色)、英国水猎犬、英国白梗犬、恩特雷布赫山地犬、伊巴尼尔蓝皮卡第犬、爱沙尼亚猎犬、埃什特雷拉山地犬、欧亚犬、田野猎犬、巴西菲勒犬、费多犬、芬兰猎犬、芬兰拉普猎犬、芬兰狐狸犬、平毛寻回犬、台湾山地犬、猎狐梗犬(短毛)、刚毛猎狐梗犬、法国布列塔尼犬、法国斗牛犬、法国猎犬、西班牙灵缇犬、德国长毛指示犬、德国宾莎犬、德国牧羊犬、德国短毛指示犬、德国猎犬、德国狐狸犬、德国刚毛指示犬、巨型雪纳瑞犬、艾莫劳峡谷梗犬、金毛寻回犬、戈登塞特犬、大英法黑白色犬、大英法黄白猎犬、大英法三色猎犬、大格里芬凡丁犬、大博林昆獒犬、大丹犬、大白熊犬、大瑞士山地犬、格陵兰犬、灵缇犬、格里芬蓝加斯科涅猎犬、布鲁塞尔格里芬犬、浅黄布列塔尼格里芬犬、格里芬尼韦内犬、巴基斯坦斗牛梗犬、巴基斯坦古梗犬、印第安兔犬、汉密尔顿斯道瓦猎犬、汉诺威猎犬、哈利犬、哈威那犬、夏威夷波伊犬、喜玛拉雅牧羊犬、北海道犬、霍尔塔亚博尔扎亚犬、霍夫瓦尔特犬、匈牙利猎犬、新西兰汉特威犬、海根猎犬、依比沙猎犬、冰岛牧羊犬、印度狐狸犬、爱尔兰牛头梗犬、爱尔兰红白塞特犬、爱尔兰塞特犬、爱尔兰斯塔福德牛头梗犬、爱尔兰梗犬、爱尔兰水猎犬、爱尔兰猎狼犬、伊斯特拉短毛猎犬、伊斯特拉粗毛猎犬、意大利灵缇犬、杰克拉塞尔梗犬、猎梗犬、耶姆特猎犬、日本狆犬、日本狐狸犬、日本梗犬、乔南吉犬、凯卡迪犬、甲斐犬、坎高犬、坎尼犬、卡拉卡坎犬、卡累利阿熊犬、卡斯特牧羊犬、荷兰毛狮犬、克里小猎犬、凯利蓝梗犬、查理士王小猎犬、国王牧羊犬、金塔马尼犬、纪州犬、可蒙犬、科克尔犬、柯利犬、韩国金刀犬、韩国獒犬、克罗福兰德犬、昆明狼犬、库里犬、库瓦兹犬、基里奥犬、拉布拉多哈士奇犬、拉布拉多寻回犬、拉戈托罗马阁挪露犬、湖畔梗犬、兰开夏赫勒犬、兰西尔犬、拉普兰牧犬、莱昂伯格犬、拉萨犬、立陶宛猎犬、长毛惠比特犬、意大利格斗犬、劳臣犬、麦耶阿加犬、雄伟树猎犬、马尔济斯犬、曼彻斯特梗犬、玛雷玛牧羊犬、麦克纳布犬、墨西哥无毛犬、迷你澳大利亚牧羊犬、迷你猎狐梗犬、迷你宾莎犬、迷你雪纳瑞犬、迷你西伯利亚雪橇犬、米利泰克犬、莫洛苏斯犬、蒙特内哥罗山猎犬、莫斯科看门犬、莫斯科水犬、山地犬、山岳犬、穆库切斯犬、马地犬、穆托尔猎犬、大明斯特兰犬、小明斯特兰犬、墨累河卷毛寻回犬、那不勒斯獒犬、纽芬兰犬、新几内亚歌唱犬、诺福克猎犬、诺福克梗犬、诺波丹狐狸犬、北方比格犬、北方因纽特犬、挪威布哈德犬、挪威猎麋犬、挪威伦德猎犬、诺维茨梗、新斯科舍诱鸭寻回犬、丹麦老式指示犬、英国古代牧羊犬、英国古代斗牛犬、英国古代梗犬、德国古代牧羊犬、英国老式斗牛犬、奥达猎犬、帕雄纳瓦罗犬、佩斯利梗犬、蝴蝶犬、帕尔森罗塞尔梗犬、帕特大勒梗犬、北京犬、普雷萨加纳利犬、伯里沙马罗奎因犬、秘鲁无毛犬、菲利犬、法老王猎犬、皮卡第猎犬、普罗特猎犬、加那利猎犬、指示犬、波兰猎犬、波兰狩猎犬、波兰低地牧羊犬、波兰塔特拉牧羊犬、博美犬、蓬托德梅尔猎犬、贵宾犬、波斯莱尼犬、葡萄牙波登可犬、葡萄牙指示犬、葡萄牙水犬、布拉格瑟瑞克犬、普德尔指示犬、巴哥犬、贝利犬、波密犬、丰山犬、比利牛斯獒犬、比利牛斯牧羊犬、阿兰多獒犬、拉贾帕拉耶姆犬、瑞木颇灵缇犬、巴西拉斯特雷德犬、拉托内罗博德奎罗安达卢兹犬、捕鼠梗犬、红骨猎浣熊犬、罗得西亚脊背犬、罗威纳犬、俄罗斯猎犬、拉斯基玩具犬、俄罗斯欧洲莱卡犬、罗素梗犬、萨尔路斯猎狼犬、西班牙赛布斯奥长耳犬、阿沙耶里牧羊犬、马赞德兰牧羊犬、萨哈林哈士奇犬、萨路基犬、萨摩耶犬、萨普萨利犬、萨普兰尼那克犬、斯恰潘道斯犬、席勒猎犬、西帕基犬、克罗地亚老式视觉猎犬、巨型雪纳瑞犬、迷你雪纳瑞犬、标准雪纳瑞犬、瑞士猎犬、瑞士慢跑犬、苏格兰柯利牧羊犬、苏格兰猎鹿犬、苏格兰梗犬、西里汉梗犬、意大利塞古奥犬、塞佩莱西伯利亚雪橇犬、塞尔维亚猎犬、塞尔维亚三色猎犬、沙皮犬、谢德兰牧羊犬、柴犬、西施犬、四国犬、夏伊洛牧羊犬、施拉克犬、西伯利亚哈士奇犬、丝毛风猎犬、僧伽罗猎犬、斯凯梗犬、斯卢夫猎犬、斯洛伐克库瓦克犬、斯洛伐克硬毛指示猎犬、斯洛伐克猎犬、斯玛兰斯道瓦犬、小型希腊家犬、爱尔兰软毛梗犬、南俄罗斯牧羊犬、南方猎犬、西班牙獒犬、西班牙水犬、意大利史宾诺犬、卢卡斯运动梗犬、圣伯纳犬、圣约翰水犬、斯塔比荷猎犬、斯塔福德牛头梗犬、斯蒂芬斯犬、斯提瑞恩粗毛猎犬、苏塞克斯猎犬、瑞典拉普杭犬、瑞典瓦汉德犬、瑞典比格犬、塔尔坦熊犬、泰干猎犬、塔马斯堪狼犬、泰迪罗斯福梗犬、克洛米亚犬、田特菲梗犬、泰国邦开犬、泰国脊背犬、西藏獒犬、西藏猎犬、西藏梗犬、波斯尼亚牧羊犬、土佐犬、玩具斗牛犬、玩具猎狐梗、曼彻斯特玩具梗犬、树丛杂种犬、树丛浣熊猎犬、泰罗猎犬、北因努伊特犬、维兹拉犬、意大利狐狸犬、威玛猎犬、卡迪根威尔士柯基犬、彭布罗克威尔士柯基犬、威尔士牧羊犬、威尔士英国史宾格犬、威尔士梗犬、西部高地白梗犬、西西伯利亚莱卡犬、威斯特达克斯布若卡犬、韦特豪犬、惠比特犬、白色英国斗牛犬、白色牧羊犬、刚毛维兹拉犬、刚毛指示格里芬犬,以及约克夏梗犬。在一些实施方式中,所述种群包括一只或多只纯种犬(例如,具有单一品种类型)或者一只或多只混种犬(例如,具有多个品种类型)。在一些实施方式中,所述种群是具有来自任何数目(例如,1只、2只、3只、4只、5只、6只、7只、8只、9只、10只或超过10只)或组合的纯种犬的DNA的混种犬的种群。
在一些实施方式中,通过使用单倍型定相算法处理所述测试个体种群的基因型数据生成所述单倍型数据。在一些实施方式中,所述单倍型定相算法包括基于参考的单倍型定相算法。在一些实施方式中,所述基于参考的单倍型定相算法包括基于隐马尔可夫模型(HMM)的搜索。在一些实施方式中,所述基于参考的单倍型定相算法包括Eagle1算法、Eagle2算法、PHASE算法、fastPHASE算法、BEAGLE算法、Findhap算法、Impute算法、FImpute算法、AlphaImpute算法、IMPUTE2算法、MaCH算法、SHAPEIT1算法、SHAPEIT2算法、SHAPEIT3算法、SHAPEIT4算法,或者其组合。在一些实施方式中,所述单倍型定相算法包括基于队列的单倍型定相算法。
在一些实施方式中,通过测定从所述测试个体种群获取的生物样品而获取所述基因型数据。在一些实施方式中,所述生物样品包括血液样品、唾液样品、拭子样品、细胞样品或组织样品。在一些实施方式中,所述测定包括对所述生物样品或其衍生物进行测序。
在一些实施方式中,所述多个遗传标记包括至少约500个、至少约1000个、至少约2000个、至少约3000个、至少约4000个、至少约5000个、至少约6000个、至少约7000个、至少约8000个、至少约9000个,或至少约10000个不同的遗传标记。
在一些实施方式中,匹配血缘同源的所述单倍型数据的区段包括使用GERMLINE算法、PLINK算法、PREST算法、用于IBD检测的随机投影(RaPID)算法、快速查找IBD共享单倍型(FISHR)算法、精化血缘同源(IBD)算法、fastIBD算法、KING算法、HaploScore算法、TRUFFLE算法,或者其组合。在一些实施方式中,所述预定阈值尺寸为约100千碱基对(kbp)、约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp,或约1000kbp。在一些实施方式中,所述预定数目的遗传标记为约30个、约40个、约50个、约60个、约70个、约80个、约90个,或约100个不同的遗传标记。
在一些实施方式中,该方法还包括划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有相等的尺寸。在一些实施方式中,该方法还包括划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有可变尺寸。在一些实施方式中,至少部分地基于下列各项来确定所述多个离散基因组区间中的给定离散基因组区间的可变尺寸:所述给定离散基因组区间近侧的IBD匹配的起始位置和结束位置、所述给定离散基因组区间内的遗传标记密度、所述给定离散基因组区间的最大标记数目、所述给定离散基因组区间的最大长度,或者其组合。
在一些实施方式中,该方法还包括基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度以及(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个纯合度匹配得分和多个成对匹配得分。在一些实施方式中,该方法还包括基于给定成对匹配得分与对应的纯合度匹配得分的一致性来修正所述多个成对匹配得分,从而产生多个经修正成对匹配得分。
在一些实施方式中,该方法还包括基于两个二倍体个体中的两个等位基因的多个同源状态,为所述多个离散基因组区间分配所述多个权重。在一些实施方式中,所述多个同源状态包括选自表1的同源状态,并且所述多个权重是基于如表1中所列的对亲缘关系rxy的多个贡献来分配的。在一些实施方式中,所述祖先亲缘关系程度包括亲缘关系系数。在一些实施方式中,该方法还包括计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure BDA0003750324370000371
在一些实施方式中,所述祖先亲缘关系程度包括血缘系数。在一些实施方式中,该方法还包括计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure BDA0003750324370000372
在一些实施方式中,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体或所述第二个体的近交程度。在一些实施方式中,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体和所述第二个体的近交程度。在一些实施方式中,该方法还包括至少部分地基于所述第一个体和所述第二个体的所述近交程度来确定所述第一个体和所述第二个体之间的家族关系。在一些实施方式中,所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。在一些实施方式中,所述家族关系被给出为一对人之间的关系,使得所述第一个体和所述第二个体之间的所述祖先亲缘关系程度与所述一对人之间预期的祖先亲缘关系程度相当。在一些实施方式中,所述关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。
在一些实施方式中,该方法还包括确定所述第一个体和所述第二个体的潜在后代的预期近交程度。在一些实施方式中,该方法还包括基于所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度,确定指示出是否将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施方式中,该方法还包括当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度不超过预定近交阈值程度时,确定指示出将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施方式中,该方法还包括当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度超过预定近交阈值程度时,确定指示出不将所述第一个体和所述第二个体在一起繁殖的建议。在一些实施中,所述预定近交阈值程度为约0.10、约0.15、约0.20、约0.25、约0.30、约0.35、约0.40、约0.45,或约0.50。
在一些实施方式中,该方法还包括至少部分地基于所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度,生成与所述第一个体相关联的第一人和与所述第二个体相关联的第二人之间的社会联系。在一些实施方式中,当所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度超过预定阈值时生成所述社会联系。在一些实施方式中,所述预定阈值为约0.00001、约0.0001、约0.001、约0.01、约0.02、约0.04、约0.06、约0.08、约0.1、约0.12、约0.14、约0.16、约0.18、约0.2、约0.25、约0.3、约0.35、约0.4、约0.45,或约0.5。在一些实施方式中,通过社交媒体网络生成所述社会联系。在一些实施方式中,所述第一人是所述第一个体的宠物主人,并且所述第二人是所述第二个体的宠物主人。在一些实施方式中,同一人是所述第一个体和所述第二个体的宠物主人。在一些实施方式中,生成所述第一人和所述第二人之间的社会联系包括提供所述第一人或所述第二人的位置。在一些实施方式中,生成所述第一人和所述第二人之间的社会联系包括提供所述第一人和所述第二人之间的通信链路。
在一些实施方式中,该方法还包括至少部分地基于所述祖先亲缘关系程度,识别所述第一个体和所述第二个体之间的家族关系。在一些实施方式中,所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。在一些实施方式中,所述家族关系被给出为一对人之间的关系,使得所述第一个体和所述第二个体之间的所述祖先亲缘关系程度与所述一对人之间预期的祖先亲缘关系程度相当。在一些实施方式中,所述关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系、祖孙关系,或曾祖孙关系。
在一些实施方式中,该方法还包括对于所述测试个体种群的一个或多个个体中的每一个,识别该个体中遗传或健康状况的存在、不存在、风险或携带者状态。在一些实施方式中,所述遗传或健康状况选自下列各项:血小板紊乱(RASGRP2外显子8);丙酮酸激酶缺乏症(PKLR外显子7巴哥犬变异体);第9因子缺乏症,B型血友病(F9外显子7,梗犬变异体);丙酮酸激酶缺乏症(PKLR外显子7比格犬变异体);P2Y12受体血小板异常(P2RY12);I型格兰茨曼血小板功能不全(ITGA2B外显子12);II型冯维勒布兰特病,II型vWD(VWF);梅-赫异常(MYH9);血小板紊乱(RASGRP2外显子5,美国爱斯基摩犬变异体);第9因子缺乏症,B型血友病(F9外显子7,罗得西亚脊背犬变异体);I型冯维勒布兰特病(VWF);犬椭圆形红细胞增多症(SPTB外显子30);III型犬白细胞黏附缺陷,LAD3(FERMT3);前激肽释放酶缺乏症(KLKB1外显子8);III型冯维勒布兰特病,III型vWD(VWF外显子4);第13因子缺乏症,A型血友病(F8外显子10,拳师犬变异体);中性粒细胞受困综合征(VPS13B);丙酮酸激酶缺乏症(PKLR外显子7拉布拉多犬变异体);血小板紊乱(RASGRP2外显子5,巴吉度猎犬变异体);丙酮酸激酶缺乏症(PKLR外显子5);第13因子缺乏症,A型血友病(F8外显子1,牧羊犬变异体2);第12因子缺乏症(F7外显子5);先天性巨血小板减少症(TUBB1外显子1,骑士查理士王小猎犬变异体);木样膜炎,LM(PLG);丙酮酸激酶缺乏症(PKLR外显子10);第13因子缺乏症,A型血友病(F8外显子11,牧羊犬变异体1);其他系统;沙皮犬自身炎症性疾病,SPAID,沙皮犬热(MTBP);常染色体隐性牙釉质发育不全症,家族性牙釉质发育不全(意大利灵缇犬变异体);持续性苗勒管综合征,PMDS(AMHR2);杜宾犬耳聋和前庭综合征,DVDob,DINGS;眼睛;进行性视网膜萎缩,crd2(IQCB1);原发性晶状体错位(ADAMTS17);青光眼原发性开角型青光眼(ADAMTS17外显子2);进行性视网膜萎缩,crd1(PDE6B);进行性视网膜萎缩,rcd1杆锥发育不良,rcd1(PDE6B外显子21爱尔兰塞特犬变异体);柯利犬眼部异常,脉络膜发育不全,CEA(NHEJ1);进行性视网膜萎缩(SAG);全色盲(CNGA3外显子7德国牧羊犬变异体);犬多灶性视网膜病变cmr2(BEST1外显子5);青光眼原发性开角型青光眼(ADAMTS17外显子11);进行性视网膜萎缩,prcd进行性视杆锥细胞变性(PRCD外显子1);遗传性白内障,早发性白内障,幼年白内障(HSF4外显子9牧羊犬变异体);常染色体显性进行性视网膜萎缩(RHO);犬多灶性视网膜病变cmr3(BEST1外显子10SNP);全色盲(CNGA3外显子7拉布拉多寻回犬变异体);犬多灶性视网膜病变cmr1(BEST1外显子2);进行性视网膜萎缩,rcd3杆锥发育不良,rcd3(PDE6A);进行性视网膜萎缩(CNGB1);金毛寻回犬进行性视网膜萎缩2,GR-PRA2(TTC8);进行性视网膜萎缩,CNGA(CNGA1外显子9);金毛寻回犬进行性视网膜萎缩1,GR-PRA1(SLC4A3);进行性视网膜萎缩-crd4/cord1(RPGRIP1);先天性静止性夜盲症(RPE65);斑点状角膜营养不良,MCD(CHST6);青光眼原发性开角型青光眼(ADAMTS10外显子9);犬多灶性视网膜病变cmr3(BEST1外显子10缺失);青光眼原发性开角型青光眼(ADAMTS10外显子17);肌肉;中央核肌病(PTPLA);先天性肌强直(CLCN1外显子7);大丹犬遗传性肌病(BIN1);先天性肌强直(CLCN1外显子23);肌营养不良症肌营养不良症(DMD彭布罗克威尔士柯基犬变异体);运动诱发虚脱(DNM1);肌营养不良症肌营养不良症(DMD金毛寻回犬变异体);肌肉生长抑制素缺乏症,牛赛犬综合征(MSTN);肌管性肌病1,X连锁肌管性肌病,XL-MTM(MTM1,拉布拉多犬变异体);肌营养不良症骑士查理士王小猎犬变异体1;多系统;原发性纤毛运动障碍,PCD(CCDC39外显子3);GM1神经节苷脂沉积症(GLB1外显子2);IIIA型黏多糖贮积症,A型桑菲利波综合征,MPS IIIA(SGSH外显子6变异体1);成年型神经元蜡样脂褐质沉着症(ATP13A2);GM1神经节苷脂沉积症(GLB1外显子15柴犬变异体);神经元蜡样脂褐质沉着症2,NCL 2(TPP1外显子4);VII型黏多糖贮积症,斯赖综合征,MPS VII(GUSB外显子3);犬岩藻糖苷贮积症(FUCA1);GM1神经节苷脂沉积症(GLB1外显子15阿拉斯加哈士奇犬变异体);拉戈托贮积病(ATG4D);先天性干燥性角膜结膜炎和鱼鳞病样皮肤病,干眼卷毛综合征,CKCSID(FAM83H外显子5);VII型糖原贮积病,磷酸果糖激酶缺乏症,PFK缺乏症(PFKM惠比特犬和英国史宾格犬变异体);IA型糖原贮积病,冯吉尔克病,GSD IA(G6PC);VII型糖原贮积病,磷酸果糖激酶缺乏症,PFK缺乏症(PFKM瓦赫特尔猎犬变异体));神经元蜡样脂褐质沉着症1,NCL 1(CLN5边境牧羊犬变异体);神经元蜡样脂褐质沉着症1,小脑共济失调,NCL-A(ARSG外显子2);神经元蜡样脂褐质沉着症6,NCL 6(CLN6外显子7);I型黏多糖贮积症,MPSI(IDUA);肾囊腺癌和结节性皮肤纤维化,RCND(FLCN外显子7);神经元蜡样脂褐质沉着症10,NCL 10(CTSD外显子5);球形细胞脑白质营养不良,克拉伯病(GALC外显子5);IIIA型糖原贮积病,GSD IIIA(AGL);神经元蜡样脂褐质沉着症(MFSD8);GM2神经节苷脂沉积症(HEXB,贵宾犬变异体);X连锁外胚层发育不良,无汗性外胚层发育不良(EDA内含子8);神经元蜡样脂褐质沉着症(CLN8澳洲牧羊犬变异体);神经元蜡样脂褐质沉着症8,NCL 8(CLN8英国塞特犬变异体);神经元蜡样脂褐质沉着症1,NCL 1(PPT1外显子8);神经元蜡样脂褐质沉着症(CLN5金毛寻回犬变异体);VII型黏多糖贮积症,斯赖综合征,MPS VII(GUSB外显子5);II型糖原贮积病,庞帕氏病,GSD II(GAA);GM2神经节苷脂沉积症(HEXA);IIIA型黏多糖贮积症,A型桑菲利波综合征,MPS IIIA(SGSH外显子6变异体2);皮肤和结缔组织;鱼鳞病(PNPLA1);鱼鳞病(SLC27A4);营养不良性大疱性表皮松解症(COL7A1);鱼鳞病,表皮松解性角化过度(KRT10);外胚层发育不良,皮肤脆弱综合征(PKP1);鱼鳞病(NIPAL4);穆斯拉丁-卢克综合征(ADAMTSL2);局灶性非表皮松解性掌跖角化病,先天性厚甲症(KRT16);遗传性鼻角化不全(SUV39H2);遗传性足垫角化过度(FAM83G);脑和脊髓;幼年型多发性神经病,莱昂贝格尔多发性神经病1(LPN1,ARHGEF10);小脑营养不良,新生儿小脑皮质变性,NCCD(SPTBN2);发作性睡病(HCRTR2内含子6);L-2-羟基戊二酸尿症,L2HGA(L2HGDH);海绵样变性伴小脑性共济失调2,SDCA2(ATP1B2);进行性神经元营养不良,犬多系统变性,CMSD(SERAC1外显子15);胎儿期新生儿神经轴索营养不良(MFN2);新生儿脑病伴癫痫发作,NEWS(ATF2);良性家族性幼年癫痫,释放灶性癫痫(LGI2);幼年性喉麻痹和多发性神经病,多发性神经病伴眼部异常和神经元空泡化,POANV(RAB3GAP1,罗威纳犬变异体);进行性神经元营养不良,犬多系统变性,CMSD(SERAC1外显子4);小脑共济失调,进展性早发性小脑共济失调(SEL1L);遗传性感觉自主神经病变,肢端损伤综合征,AMS(GDNF-AS);摇晃小狗综合征,X连锁广泛性震颤综合征(PLP);髓鞘形成减少和震颤(FNIP2);脊髓小脑性共济失调,迟发性共济失调,LoSCA(CAPN1);多发性神经病,NDRG1灵缇犬变异体(NDRG1外显子15);多发性神经病,NDRG1雪橇犬变异体(NDRG1外显子4);小脑发育不全(VLDLR);海绵样变性伴小脑性共济失调1,SDCA1,SeSAME/EAST综合征(KCNJ10);脊髓小脑性共济失调伴肌纤维束颤搐和/或癫痫发作(KCNJ10);阿拉斯加哈士奇脑病,亚急性坏死性脑脊髓病(SLC19A3);退行性脊髓病,DM(SOD1A);亚历山大病(GFAP);心脏;扩张型心肌病,DCM1(PDK4);QT间期延长综合征(KCNQ1);扩张型心肌病,DCM2(TTN);骨骼;遗传性抗维生素D佝偻病(VDR);成骨不全,脆骨病(COL1A1);成骨不全,脆骨病(SERPINH1);软骨营养不良伴椎间盘病,CDDY/IVDD,I型IVDD(FGF4逆转录基因-CFA12);成骨不全,脆骨病(COL1A2);颅下颌骨病,CMO(SLC37A2);骨骼发育不良2,SD2(COL11A2);唇裂和/或腭裂(ADAMTS20);眼骨骼发育不良1,侏儒症-视网膜发育不良,OSD1(COL9A3,拉布拉多寻回犬);骨软骨发育不良,骨骼矮小症(SLC13A1);代谢;恶性高热(RYR1);过氧化氢酶过少症,无过氧化氢酶血症(CAT);丙酮酸脱氢酶缺乏症(PDP1);肾脏和膀胱;高尿酸尿伴高尿酸血症或尿石症,HUU(SLC2A9);多囊肾病,PKD(PKD1);蛋白丢失性肾病,PLN(NPHS1);II-A型胱氨酸尿症(SLC3A1);原发性高草酸尿症(AGXT);I-A型胱氨酸尿症(SLC3A1);常染色体隐性遗传性肾病,家族性肾病,ARHN(COL4A4外显子3);X连锁遗传性肾病,XLHN(COL4A5外显子35,萨摩耶犬变异体2);II-B型胱氨酸尿症(SLC7A9);2,8-二羟基腺嘌呤尿石症,2,8-DHA尿石症(APRT);神经肌肉;发作性跌倒综合征(BCAN);先天性肌无力综合征(COLQ);先天性肌无力综合征(CHAT);免疫;重度联合免疫缺陷(RAG1);X连锁重度联合免疫缺陷(IL2RG变异体1);重度联合免疫缺陷(PRKDC);X连锁重度联合免疫缺陷(IL2RG变异体2);补体3缺乏症,C3缺乏症(C3);胃肠;伊默斯伦-格拉斯贝克综合征,选择性钴胺素吸收障碍(CUBN外显子53);伊默斯伦-格拉斯贝克综合征,选择性钴胺素吸收障碍(CUBN外显子8);临床;MDR1药物敏感性(MDR1);丙氨酸转氨酶活性(GPT);激素;以及先天性甲状腺功能减退症(TPO,田特菲梗犬变异体)。在一些实施方式中,所述风险表示为个体具有遗传或健康状况的概率或相对风险。在一些实施方式中,所述相对风险是数值(例如,相对风险比)或类别值(例如,“有风险”、“无风险”或“明确”)。在一些实施方式中,所述携带者状态表示为个体是遗传或健康状况的携带者的阳性或阴性指示。
在一些实施方式中,该方法还包括对于所述测试个体种群的一个或多个个体中的每一个,识别所述个体的一个或多个犬品种。在一些实施方式中,该方法还包括对于所述测试个体种群的一个或多个个体中的每一个,识别所述个体的所述一个或多个犬品种的一个或多个比例。在一些实施方式中,该方法还包括生成所述测试个体种群的多个个体的家谱。在一些实施方式中,该方法还包括对于所述测试个体种群的一个或多个个体中的每一个,识别表型或性状在所述个体中的存在、缺失或风险。在一些实施方式中,所述表型或性状选自下列各项:基础毛色(例如,深色或浅色毛皮、色素颜色以及颜色稀释)、彩色被毛修饰基因(例如,隐藏花纹结构、身体花纹以及面部花纹)、被毛性状(例如,毛饰、被毛长度、脱毛、被毛质地、无毛(墨西哥无毛犬型)、无毛(梗犬型)以及白化病)、身体特征(例如,口吻长度、尾巴长度、后爪、背部肌肉和体积以及眼睛颜色)、体型(例如,较小、中等和较大)、表现(例如,海拔适应)、遗传多样性(例如,近交程度和免疫反应多样性)。
在一些实施方式中,该方法还包括生成报告,所述报告指示出以下一项或多项:祖先亲缘关系程度;家族关系;遗传或健康状况的存在、不存在、风险或携带者状态;一个或多个犬品种;一个或多个犬品种的一个或多个比例;家谱;表型或性征的存在、缺失、风险或携带者状态;以及其任何组合。在一些实施方式中,该方法还包括将所述报告传送给兽医。
本公开内容的另一方面提供了一种包括机器可执行代码的非暂时性计算机可读介质,该机器可执行代码在由一个或多个计算机处理器执行时实现以上或本文其他各处的任何方法。
本公开内容的又一方面提供了一种系统,该系统包括一个或多个计算机处理器和与之耦合的计算机存储器。计算机存储器包括机器可执行代码,该机器可执行代码在由一个或多个计算机处理器执行时实现以上或本文其他各处的任何方法。
本公开内容的其他方面和优点对于本领域技术人员而言将通过以下详细描述变得显而易见,其中仅示出和描述了本公开内容的说明性实施方式。如将认识到的,本公开内容能够具有其他和不同的实施方式,并且其若干细节能够在各个明显方面进行修改,所有这些均不背离本公开内容。因此,附图和描述本质上应被认为是说明性的,而不是限制性的。
援引并入
本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其程度如同具体地和单独地指出通过引用而并入每个单独的出版物、专利或专利申请。在通过引用并入的出版物和专利或专利申请与说明书中包含的公开内容相矛盾的范围内,说明书旨在取代和/或优先于任何此类矛盾的材料。
附图说明
本发明的新颖特征在所附权利要求中特别阐述。通过参考以下阐述利用到本发明原理的说明性实施方式的详细描述以及附图(本文也称为“图”),将会获得对本发明的特征和优点的更好理解;在附图中:
图1图示了根据一些实施方式,评估二倍种群的两个个体之间的祖先亲缘关系程度的示例方法。
图2图示了被编程或以其他方式配置用于实现本文提供的方法的计算机系统。
具体实施方式
尽管本文已经示出和描述了本发明的各种实施方式,但对于本领域技术人员来说显而易见的是,这样的实施方式仅作为示例提供。在不背离本发明的情况下,本领域技术人员可以想到许多变化、改变和替换。应当理解,可以采用本文所述的本发明实施方式的各种替代方案。
如说明书和权利要求书中所使用,单数形式“一个”,“一种”和“该”包括复数指代,除非上下文另有明确规定。例如,术语“一个样品”包括多个样品,包括其混合物。
如本文所使用,术语“对象”一般是指具有可测试或可检测的遗传信息的实体或介质。对象可以是人,个体或患者。对象可以是脊椎动物,举例而言,诸如哺乳动物。哺乳动物的非限制性示例包括人类、猿类、农场动物、运动动物、啮齿动物和宠物(例如,犬科动物诸如犬,或猫科动物诸如猫)。对象可能具有正常或异常的健康或生理状态或状况,或者被怀疑具有正常或异常的健康或生理状态或状况。对象可表现出指示其健康或生理状态或状况的一个或多个症状。作为替代,对象关于这样的健康或生理状态或状况可能是无症状的。
如本文所使用,术语“核酸”或“多核苷酸”一般是指包含一个或多个核酸亚基或核苷酸的分子。核酸可以包括一个或多个选自下列各项的核苷酸:腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体。核苷酸一般包括核苷以及至少1、2、3、4、5、6、7、8、9、10个或更多个磷酸(P03)基团。核苷酸可以单独或组合地包括核碱基、五碳糖(核糖或脱氧核糖)以及一个或多个磷酸基团。核糖核苷酸是其中糖为核糖的核苷酸。脱氧核糖核苷酸是其中糖为脱氧核糖的核苷酸。核苷酸可以是一磷酸核苷或多聚磷酸核苷。核苷酸可以是多磷酸脱氧核苷酸,举例而言,诸如三磷酸脱氧核苷(dNTP),其可选自包含诸如发光标志或标志物(例如,荧光团)的下列各项:三磷酸脱氧腺苷(dATP)、三磷酸脱氧胞苷(dCTP)、三磷酸脱氧鸟苷(dGTP)、三磷酸尿苷(dUTP)和三磷酸脱氧胸苷(dTTP)dNTP。核苷酸可以包括可掺入生长中的核酸链中的任何亚基。这样的亚基可以是A、C、G、T或U,或者任何其他对一个或多个互补的A、C、G、T或U特异的,或者与嘌呤(即,A或G或其变体)或嘧啶(即,C、T或U或其变体)互补的亚基。在一些示例中,核酸是脱氧核糖核酸(DNA)、核糖核酸(RNA)或其衍生物或变体。核酸可以是单链的或双链的。核酸分子可以是线性的、弯曲的、环形的,或其任何组合。
如本文所使用,术语“核酸分子”、“核酸序列”、“核酸片段”、“寡核苷酸”和“多核苷酸”一般是指可具有各种长度的多核苷酸,诸如脱氧核糖核苷酸或核糖核苷酸(RNA)或其类似物。核酸分子可具有至少约5个碱基、10个碱基、20个碱基、30个碱基、40个碱基、50个碱基、60个碱基、70个碱基、80个碱基、90个碱基、100个碱基、110个碱基、120个碱基、130个碱基、140个碱基、150个碱基、160个碱基、170个碱基、180个碱基、190个碱基、200个碱基、300个碱基、400个碱基、500个碱基、1千个碱基(kb)、2kb、3kb、4kb、5kb、10kb或50kb的长度,或者其可具有上述任何两个值之间的任何数目的碱基。寡核苷酸通常由四个核苷酸碱基的特定序列组成:腺嘌呤(A);胞嘧啶(C);鸟嘌呤(G);和胸腺嘧啶(T)(当多核苷酸是RNA时,尿嘧啶(U)替代胸腺嘧啶(T))。因此,术语“核酸分子”、“核酸序列”、“核酸片段”、“寡核苷酸”和“多核苷酸”至少部分是旨在作为多核苷酸分子的字母表示。或者,这些术语可适用于多核苷酸分子本身。这样的字母表示法可以输入到具有中央处理器的计算机中的数据库以及/或者用于诸如功能基因组学和同源性搜索等生物信息学应用。寡核苷酸可以包括一种或多种非标准核苷酸、核苷酸类似物和/或经修饰的核苷酸。
如本文所使用,术语“样品”一般是指生物样品。生物样品的示例包括核酸分子、氨基酸、多肽、蛋白质、碳水化合物、脂肪或病毒。在示例中,生物样品是包含一种或多种核酸分子的核酸样品。生物样品可包括或来源于血液样品、唾液样品,拭子样品,细胞样品或组织样品。核酸分子可以是无细胞核酸分子,诸如无细胞DNA(cfDNA)或无细胞RNA(cfRNA)。核酸分子可源自多种来源,包括人类、哺乳动物(例如,犬)、非人类哺乳动物、猿、猴、黑猩猩、爬行动物、两栖动物或鸟类。此外,可以从多种动物体液提取样品,包括但不限于体液样品,诸如血液、血清、血浆、玻璃体、痰液、尿液、泪液、汗液、唾液、精液、黏膜分泌物、黏液、脊髓液、脑脊液(CSF)、胸膜液、腹腔液、羊水、淋巴液等。生物样品可以使用乙二胺四乙酸(EDTA)收集管,无细胞RNA收集管(例如,斯特雷克)或无细胞DNA收集管(例如,斯特雷克)从对象获取或取得。生物样品可以通过分部分离从全血样品取得。生物样品或其衍生物可含有细胞。例如,生物样品可以是血液样品或其衍生物(例如,通过收集管或血滴收集的血液)或者细胞或组织样品(例如,拭子)。
如本文所使用,术语“全血”一般是指未被分离成子成分(例如,通过离心分离)的血液样品。血液样品的全血可含有cfDNA和/或种系DNA。全血DNA(其可含有cfDNA和/或种系DNA)可以从血液样品提取。可以从全血DNA提取全血DNA测序读数(其可包含cfDNA测序读数和/或种系DNA测序读数)。
在一方面,本公开内容提供了一种用于评估二倍体种群的两个个体之间的祖先亲缘关系程度的计算机实现方法,包括:(a)接收测试个体种群的单倍型数据,该单倍型数据包括测试个体种群中共享的多个遗传标记;(b)基于该多个遗传标记将单倍型数据划分成区段;(c)对于测试个体种群的每一个体:(i)基于多个遗传标记,匹配在测试个体种群中的第一个体和第二个体之间血缘同源的单倍型数据的区段,匹配的区段中的每一个具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记;(ii)对于第一个体和第二个体之间的匹配的区段中的每一个:将匹配的区段划分成多个离散基因组区间;基于(i)第一个体或第二个体内的离散基因组区间的纯合度匹配的程度或者(ii)第一个体和第二个体之间的离散基因组区间的成对匹配的程度,对多个离散基因组区间中的每一个进行评分,从而生成多个得分;基于多个得分的一致性来修正多个得分,从而产生多个经修正得分;以及基于离散基因组区间的多个经修正得分,为多个离散基因组区间分配多个权重;以及(iii)基于多个经修正得分和多个权重,计算匹配的区段的多个离散基因组区间的加权和;以及(d)基于匹配的区段的加权和,评估第一个体和第二个体之间的祖先亲缘关系程度。
图1图示了根据一些实施方式,用于评估二倍体种群的两个个体之间的祖先亲缘关系程度的示例方法100。在操作102中,方法100可包括接收测试个体种群的单倍型数据。例如,单倍型数据可以包括在测试个体种群中共享的多个遗传标记。接下来,在操作104中,方法100可包括基于多个遗传标记将单倍型数据划分成区段。接下来,在操作106中,对于测试个体种群的每一个体,方法100可包括基于多个遗传标记,匹配在测试个体种群中的第一个体和第二个体之间血缘同源的单倍型数据的区段。例如,匹配的区段中的每一个可以具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包含预定数目的遗传标记。接下来,在操作108中,对于测试个体种群的每一个体,方法100可包括,对于第一个体和第二个体之间的匹配的区段中的每一个:(a)将匹配的区段划分成多个离散基因组区间;(b)对该多个离散基因组区间中的每一个进行评分,从而生成多个得分;(c)修正该多个得分,从而产生多个经修正得分;以及(d)为多个离散基因组区间分配多个权重。在一些实施方式中,多个离散基因组区间中的每一个的评分是基于(i)第一个体或第二个体内的离散基因组区间的纯合度匹配的程度,以及/或者(ii)第一个体和第二个体之间的离散基因组区间的成对匹配的程度。在一些实施方式中,基于多个得分的一致性来修正该多个得分。在一些实施方式中,基于离散基因组区间的多个经修正得分,为多个离散基因组区间分配多个权重。
在一些实施方式中,用于评估二倍体种群的两个个体之间的祖先亲缘关系程度的方法可以包括计算种群中成对个体(例如,犬)之间的亲缘系数(coefficient ofrelationship,COR)。基于计算的COR值,可以为种群中的每一个体生成列表,该列表包含该个体的最近遗传亲属的列表。例如,这样的亲属列表可以按照COR的降序排序。此外,可以基于两个亲缘个体之间的COR生成社交网络联系(例如,亲缘犬的主人)。
其他计算犬的COR值的方法可以使用系谱,该系谱可由犬的祖先和其他亲属的“家谱”映射构成。这样的方法可能是受限的,至少因为它们不能用于评估没有已知系谱信息的犬(例如,救援动物)的COR。此外,使用系谱来计算COR还由于可能无法一致地保持高准确性从而使得系谱可能仅提供几代祖先信息,并且由于系谱可能仅用于计算“预期的”亲缘关系(例如,预期两个个体基于其亲缘而共享的一定量的DNA)而可能存在问题。一般而言,两个个体(例如,犬)的实际亲缘关系可能还取决于DNA通过家谱的随机分离和传递,而准确计算亲缘关系可能需要识别和计数动物之间共享的DNA段。虽然可以使用一些方法来定相基因型数据和识别个体之间的共享段,但在统计上也可能难以将真正为血缘同源段的段与作为统计假象的段区分开来,在计算COR时适当地对段进行加权,以及处理数据中来自结构变体及缺失的或低质量的标记的噪声。
此外,由于犬中的近交发生率远高于典型人类种群,因此造成计算犬之间的COR的方法比在人类中更加复杂。认识到这样的需要,本公开内容提供了这样的用于确定COR(例如,犬之间)的方法和系统:其在确定两个个体之间的COR时将近交考虑在内。例如,远交种群中的一对两个兄弟姐妹可具有大约0.5的COR,而相比之下近交种群中的另一对两个兄弟姐妹可具有0.7或更高的COR。使用本公开内容的方法和系统,可以确定两个个体之间的亲缘类型,即使在个体属于近交种群的一部分的情况下也是如此。例如,替代于确定COR为0.5的每一对两只犬具有与全亲兄弟姐妹的亲缘关系相似的亲缘关系,本公开内容的方法和系统可以适用于区分其中COR为0.5的特定一对犬是全亲兄弟姐妹的第一种情况与其中COR为0.5的另一对犬的亲缘关系是来自近交系的叔叔-侄女关系的第二种情况。
此外,本公开内容的方法和系统可用于向犬的基因测定结果添加有价值的社交成分。通过允许犬主人基于其宠物的亲缘关系而彼此直接联系,主人可以从有亲缘关系的犬的主人那里获得有关其自己的犬的历史的更多信息(例如:对于领养的犬的主人可能重要或期望的信息)以及不属于基因测定的一部分的复杂性状的潜在健康风险(例如,如果犬的兄弟姐妹有癌症病史,则该犬患癌症的风险可能更高)。
本公开内容的方法和系统可以使用一个或多个算法来确定两个个体(例如,二倍体种群)之间的祖先亲缘关系程度(COR)。例如,二倍体种群可以是哺乳动物种群(例如,犬类种群、猫科动物种群、运动动物种群或啮齿动物种群)。在一些实施方式中,犬类种群是犬种群。在一些实施方式中,犬种群包括选自下列各项的一个或多个犬品种:猴头梗犬、阿富汗猎犬、非洲犬、爱迪犬、万能梗犬、阿卡巴士犬、秋田犬、阿兰格獒犬、西班牙阿来若犬、拉帕哈蓝血斗牛犬、阿拉斯加克利凯犬、阿拉斯加雪橇犬、阿朗特犬、亚洛贝克斯犬、阿尔卑斯达切斯勃拉克犬、阿尔萨斯牧羊犬、美国秋田犬、美国斗牛犬、美国可卡犬、美国爱斯基摩犬、美国猎狐犬、美洲无毛梗犬、美国马士提夫犬、美国比特斗牛梗犬、美国斯塔福郡梗犬、美国水猎犬、安纳托利亚牧羊犬、英法小维内里犬、阿彭策尔山地犬、阿根廷杜高犬、阿里埃日向导猎犬、艾瑞格斯犬、艾尔曼特犬、阿图瓦猎犬、澳洲斗牛犬、澳洲牧牛犬、澳洲卡尔比犬、澳洲牧羊犬、澳洲丝毛梗犬、澳洲粗短尾牧牛犬、澳洲梗犬、奥地利黑褐猎犬、奥地利平斯澈犬、阿札瓦克犬、巴哈瓦尔犬、芭比犬、巴辛吉犬、巴斯克牧羊犬、阿提桑诺曼底短腿犬、加斯科尼蓝色矮腿猎犬、布列塔尼短腿猎犬、大贝吉格里芬凡丁犬、迷你贝吉格里芬凡丁犬、巴伐利亚山地猎犬、比格犬、比格猎兔犬、长须柯利牧羊犬、法国狼犬、贝灵顿梗犬、比利时牧羊犬、比利时牧羊犬(格罗安达犬)、比利时牧羊犬(拉坎诺斯犬)、比利时牧羊犬(马利诺斯犬)、比利时牧羊犬(特弗伦犬)、贝加马斯卡牧羊犬、白色瑞士牧羊犬、伯格皮卡第犬、伯尔尼劳佛犬、伯恩山犬、卷毛比熊犬、比利犬、比斯本犬、黑褐猎浣熊犬、黑褐弗吉尼亚猎狐犬、布伦贝塞尔犬、黑色挪威猎麋犬、黑俄罗斯梗犬、黑嘴杂种犬、大型加斯科尼蓝色犬、小型加斯科尼蓝色犬、寻血猎犬、蓝雷西犬、蓝波犬、布鲁泰克猎浣熊犬、南非獒犬、波西米亚牧羊犬、博洛尼亚犬、边境牧羊犬、边境梗犬、俄罗斯狼犬、波斯尼亚粗毛猎犬、波士顿梗犬、阿登牧牛犬、佛兰德牧牛犬、拳师犬、帕金猎犬、意大利布拉可犬、奥弗涅布拉克猎犬、布拉克杜波旁犬、布拉克杜佩犬、布拉克法兰西犬、布拉克圣日尔曼犬、巴西梗犬、伯瑞犬、布里奇格里芬凡丁犬、布列塔尼犬、丹麦布罗荷马獒犬、汝拉布鲁诺猎犬、布科维纳牧羊犬、斗牛与梗犬、牛头梗犬、牛头梗犬(微型)、斗牛獒犬、库达犬、凯安梗、迦南犬、加拿大爱斯基摩犬、加拿大指示犬、卡斯罗犬、塞拉德艾利斯犬、卡斯特罗拉博雷罗犬、考迪菲勒得迈谷犬、卡罗来纳犬、喀尔巴阡山脉牧羊犬、卡他豪拉猎猪犬、加泰隆牧羊犬、高加索牧羊犬、骑士查理士王小猎犬、中亚牧羊犬、塞斯凯福瑟克犬、捷克梗犬、波兰灵缇犬、切萨皮克海湾寻回犬、基恩格里斯、法国黑白色犬、法国黄白犬、法国三色犬、吉娃娃犬、智利猎狐梗犬、中国重庆犬、中国冠毛犬、中国狮子犬、奇努克犬、奇皮普瑞猎犬、松狮犬、乌拉圭西马伦犬、西尔尼塞里犬、西西里猎犬、克伦勃猎犬、粗毛柯利犬、平滑毛柯利犬、科米拜犬、科多巴斗犬、图莱亚尔绒毛犬、克里特猎犬、克罗地亚牧羊犬、坎伯兰牧羊犬、卷毛寻回犬、捷克斯洛伐克狼犬、腊肠犬、大麦町犬、短脚狄文梗犬、丹麦瑞典农场犬、澳洲野犬、杜宾犬、波尔多犬、古巴杜高犬、危地马拉杜高犬、萨德斯科杜高犬、荷兰猎鸟犬、赘沃犬、邓克尔犬、荷兰牧羊犬、荷兰斯牟雄德犬、东欧牧羊犬、东西伯利亚雷卡犬、埃洛犬、英国可卡犬、英国猎浣熊犬、英国猎狐犬、英国獒犬、英国指示犬、英国塞特犬、英国牧羊犬、英国史宾格犬、英国玩具梗犬(黑棕色)、英国水猎犬、英国白梗犬、恩特雷布赫山地犬、伊巴尼尔蓝皮卡第犬、爱沙尼亚猎犬、埃什特雷拉山地犬、欧亚犬、田野猎犬、巴西菲勒犬、费多犬、芬兰猎犬、芬兰拉普猎犬、芬兰狐狸犬、平毛寻回犬、台湾山地犬、猎狐梗犬(短毛)、刚毛猎狐梗犬、法国布列塔尼犬、法国斗牛犬、法国猎犬、西班牙灵缇犬、德国长毛指示犬、德国宾莎犬、德国牧羊犬、德国短毛指示犬、德国猎犬、德国狐狸犬、德国刚毛指示犬、巨型雪纳瑞犬、艾莫劳峡谷梗犬、金毛寻回犬、戈登塞特犬、大英法黑白色犬、大英法黄白猎犬、大英法三色猎犬、大格里芬凡丁犬、大博林昆獒犬、大丹犬、大白熊犬、大瑞士山地犬、格陵兰犬、灵缇犬、格里芬蓝加斯科涅猎犬、布鲁塞尔格里芬犬、浅黄布列塔尼格里芬犬、格里芬尼韦内犬、巴基斯坦斗牛梗犬、巴基斯坦古梗犬、印第安兔犬、汉密尔顿斯道瓦猎犬、汉诺威猎犬、哈利犬、哈威那犬、夏威夷波伊犬、喜玛拉雅牧羊犬、北海道犬、霍尔塔亚博尔扎亚犬、霍夫瓦尔特犬、匈牙利猎犬、新西兰汉特威犬、海根猎犬、依比沙猎犬、冰岛牧羊犬、印度狐狸犬、爱尔兰牛头梗犬、爱尔兰红白塞特犬、爱尔兰塞特犬、爱尔兰斯塔福德牛头梗犬、爱尔兰梗犬、爱尔兰水猎犬、爱尔兰猎狼犬、伊斯特拉短毛猎犬、伊斯特拉粗毛猎犬、意大利灵缇犬、杰克拉塞尔梗犬、猎梗犬、耶姆特猎犬、日本狆犬、日本狐狸犬、日本梗犬、乔南吉犬、凯卡迪犬、甲斐犬、坎高犬、坎尼犬、卡拉卡坎犬、卡累利阿熊犬、卡斯特牧羊犬、荷兰毛狮犬、克里小猎犬、凯利蓝梗犬、查理士王小猎犬、国王牧羊犬、金塔马尼犬、纪州犬、可蒙犬、科克尔犬、柯利犬、韩国金刀犬、韩国獒犬、克罗福兰德犬、昆明狼犬、库里犬、库瓦兹犬、基里奥犬、拉布拉多哈士奇犬、拉布拉多寻回犬、拉戈托罗马阁挪露犬、湖畔梗犬、兰开夏赫勒犬、兰西尔犬、拉普兰牧犬、莱昂伯格犬、拉萨犬、立陶宛猎犬、长毛惠比特犬、意大利格斗犬、劳臣犬、麦耶阿加犬、雄伟树猎犬、马尔济斯犬、曼彻斯特梗犬、玛雷玛牧羊犬、麦克纳布犬、墨西哥无毛犬、迷你澳大利亚牧羊犬、迷你猎狐梗犬、迷你宾莎犬、迷你雪纳瑞犬、迷你西伯利亚雪橇犬、米利泰克犬、莫洛苏斯犬、蒙特内哥罗山猎犬、莫斯科看门犬、莫斯科水犬、山地犬、山岳犬、穆库切斯犬、马地犬、穆托尔猎犬、大明斯特兰犬、小明斯特兰犬、墨累河卷毛寻回犬、那不勒斯獒犬、纽芬兰犬、新几内亚歌唱犬、诺福克猎犬、诺福克梗犬、诺波丹狐狸犬、北方比格犬、北方因纽特犬、挪威布哈德犬、挪威猎麋犬、挪威伦德猎犬、诺维茨梗、新斯科舍诱鸭寻回犬、丹麦老式指示犬、英国古代牧羊犬、英国古代斗牛犬、英国古代梗犬、德国古代牧羊犬、英国老式斗牛犬、奥达猎犬、帕雄纳瓦罗犬、佩斯利梗犬、蝴蝶犬、帕尔森罗塞尔梗犬、帕特大勒梗犬、北京犬、普雷萨加纳利犬、伯里沙马罗奎因犬、秘鲁无毛犬、菲利犬、法老王猎犬、皮卡第猎犬、普罗特猎犬、加那利猎犬、指示犬、波兰猎犬、波兰狩猎犬、波兰低地牧羊犬、波兰塔特拉牧羊犬、博美犬、蓬托德梅尔猎犬、贵宾犬、波斯莱尼犬、葡萄牙波登可犬、葡萄牙指示犬、葡萄牙水犬、布拉格瑟瑞克犬、普德尔指示犬、巴哥犬、贝利犬、波密犬、丰山犬、比利牛斯獒犬、比利牛斯牧羊犬、阿兰多獒犬、拉贾帕拉耶姆犬、瑞木颇灵缇犬、巴西拉斯特雷德犬、拉托内罗博德奎罗安达卢兹犬、捕鼠梗犬、红骨猎浣熊犬、罗得西亚脊背犬、罗威纳犬、俄罗斯猎犬、拉斯基玩具犬、俄罗斯欧洲莱卡犬、罗素梗犬、萨尔路斯猎狼犬、西班牙赛布斯奥长耳犬、阿沙耶里牧羊犬、马赞德兰牧羊犬、萨哈林哈士奇犬、萨路基犬、萨摩耶犬、萨普萨利犬、萨普兰尼那克犬、斯恰潘道斯犬、席勒猎犬、西帕基犬、克罗地亚老式视觉猎犬、巨型雪纳瑞犬、迷你雪纳瑞犬、标准雪纳瑞犬、瑞士猎犬、瑞士慢跑犬、苏格兰柯利牧羊犬、苏格兰猎鹿犬、苏格兰梗犬、西里汉梗犬、意大利塞古奥犬、塞佩莱西伯利亚雪橇犬、塞尔维亚猎犬、塞尔维亚三色猎犬、沙皮犬、谢德兰牧羊犬、柴犬、西施犬、四国犬、夏伊洛牧羊犬、施拉克犬、西伯利亚哈士奇犬、丝毛风猎犬、僧伽罗猎犬、斯凯梗犬、斯卢夫猎犬、斯洛伐克库瓦克犬、斯洛伐克硬毛指示猎犬、斯洛伐克猎犬、斯玛兰斯道瓦犬、小型希腊家犬、爱尔兰软毛梗犬、南俄罗斯牧羊犬、南方猎犬、西班牙獒犬、西班牙水犬、意大利史宾诺犬、卢卡斯运动梗犬、圣伯纳犬、圣约翰水犬、斯塔比荷猎犬、斯塔福德牛头梗犬、斯蒂芬斯犬、斯提瑞恩粗毛猎犬、苏塞克斯猎犬、瑞典拉普杭犬、瑞典瓦汉德犬、瑞典比格犬、塔尔坦熊犬、泰干猎犬、塔马斯堪狼犬、泰迪罗斯福梗犬、克洛米亚犬、田特菲梗犬、泰国邦开犬、泰国脊背犬、西藏獒犬、西藏猎犬、西藏梗犬、波斯尼亚牧羊犬、土佐犬、玩具斗牛犬、玩具猎狐梗、曼彻斯特玩具梗犬、树丛杂种犬、树丛浣熊猎犬、泰罗猎犬、北因努伊特犬、维兹拉犬、意大利狐狸犬、威玛猎犬、卡迪根威尔士柯基犬、彭布罗克威尔士柯基犬、威尔士牧羊犬、威尔士英国史宾格犬、威尔士梗犬、西部高地白梗犬、西西伯利亚莱卡犬、威斯特达克斯布若卡犬、韦特豪犬、惠比特犬、白色英国斗牛犬、白色牧羊犬、刚毛维兹拉犬、刚毛指示格里芬犬,以及约克夏梗犬。在一些实施方式中,种群包括一只或多只纯种犬(例如,具有单一品种类型)或者一只或多只混种犬(例如,具有多个品种类型)。在一些实施方式中,种群是具有来自任何数目(例如,1只、2只、3只、4只、5只、6只、7只、8只、9只、10只或超过10只)或组合的纯种犬的DNA的混种犬的种群。
在一些实施方式中,亲缘关系rxy可以计算为由于来自共同祖先的血缘同源而在2个个体之间共享的同源等位基因的比例,并且可以等于2乘以血缘系数fxy,假设个体不是近交繁殖的。血缘系数可以表示从两个个体中的同一基因座采样的2个等位基因为血缘同源的概率。这可以等于两个个体x和y之间潜在后代的近交系数。然而,在两个个体x和y是近交繁殖的情况下,则rxy=2*fxy的假设是无效的。
在一些实施方式中,用于确定两个个体之间的祖先亲缘关系程度(COR)的方法被称为WOOPHS(成对单倍型共享的加权观察/Weighted Observation of PairwiseHaplotype Sharing)。在一些实施方式中,WOOPHS被配置用于计算测试个体和遗传数据库中的其他个体之间的亲缘系数(COR)的评估值。在一些实施方式中,WOOPHS被配置用于计算两个个体的未来后代的预期近交程度。该方法可包括接收基因型数据作为输入。例如,可以通过测定从测试个体种群获取的生物样品来获取基因型数据。在一些实施方式中,生物样品包括血液样品、唾液样品、拭子样品、细胞样品(例如,口腔拭子或面颊拭子)或组织样品。在一些实施方式中,测定包括对生物样品或其衍生物进行测序以生成基因型数据。例如,可以使用任何合适的测序方法从生物样品生成测序读数。测序方法可以是第一代测序方法,诸如Maxam-Gilbert或Sanger测序,或者是高通量测序(例如,下一代测序或NGS)方法。高通量测序方法可以同时(或基本上同时)对至少约10,000、100,000、100万、1千万、1亿、10亿或更多个多核苷酸分子进行测序。测序方法可以包括但不限于:焦磷酸测序、合成法测序、单分子测序、纳米孔测序、半导体测序、连接法测序、杂交法测序、数字基因表达谱(例如,Helicos)、大规模平行测序(例如Helicos、克隆单分子阵列(Solexa/Illumina))、使用PacBio、SOLiD、Ion Torrent或Nanopore平台测序。
在一些实施方式中,测序包括全基因组测序(whole genome sequencing,WGS)。测序可以在足够的深度进行,以生成具有期望性能(例如,准确度、灵敏度、特异度、阳性预测值(PPV)、阴性预测值(NPV)或受试者工作特征(receiver operator characteristic,ROC)的曲线下面积(area under curve,AUC))的期望的单倍型。在一些实施方式中,测试在约20X、约30X、约40X、约50X、约60X、约70X、约80X、约90X、约100X、约150X、约200X、约250X、约300X、约350X、约400X、约450X、约500X或超过约500X的深度进行。在一些实施方式中,测序以“低通”方式进行,例如,在不超过约12X、不超过约11X、不超过约10X、不超过约9X、不超过约8X、不超过约7X、不超过约6X、不超过约5X、不超过约4X、不超过约3.5X、不超过约3X、不超过约2.5X、不超过约2X、不超过约1.5X,或不超过约1X的深度进行。
在一些实施方式中,测序读数可以与参考基因组进行比对。参考基因组可包括基因组(例如,犬基因组或人类基因组)的至少一部分。参考基因组可包括完整基因组(例如,完整犬基因组或完整人类基因组)。参考基因组可包括数据库,该数据库包含与基因组的编码和/或非编码基因组区域相对应的多个基因组区域。该数据库可包括与基因组的IBD编码和/或非编码基因组区域相对应的多个基因组区域,诸如单核苷酸变异(SNV)、单核苷酸多态性(SNP)、拷贝数变异(CNV)、插入或缺失(插入/缺失)以及融合基因。比对可以使用Burrows-Wheeler算法或另一比对算法来进行。
在一些实施方式中,可以为多个基因组区域中的每一个生成测序读数的定量测量。可以生成测序读数的定量测量,诸如与给定基因组区域对齐的DNA测序读数的计数。具有与给定基因组区域对齐的部分或全部测序读数的测序读数可以计入该基因组区域的定量测量。在一些实施方式中,基因组区域可包括遗传标记,诸如IBD标记。特定和非特定基因组区域的模式可指示出个体之间的亲缘关系。
在一些实施方式中,测量DNA测序读数的多个计数包括在多个基因组区域中的每一区域处进行对多个DNA分子的结合测量。在一些实施方式中,进行结合测量包括使用对多个DNA分子中的多个基因组区域的至少一部分具有选择性的探针来测定多个DNA分子。
在一些实施方式中,探针是与多个基因组区域的核酸序列具有序列互补性的核酸分子。在一些实施方式中,核酸分子是引物或富集序列。在一些实施方式中,测定包括使用阵列杂交或聚合酶链反应(PCR)或核酸测序。
在一些实施方式中,该方法还包括针对多个基因组区域的至少一部分富集多个DNA分子。在一些实施方式中,富集包括扩增多个DNA分子。例如,可以通过选择性扩增(例如,通过使用一组包括与多个基因组区域的核酸序列具有序列互补性的核酸分子的引物或探针)来扩增多个DNA分子。备选地或组合地,可以通过通用扩增(例如,通过使用通用引物)来扩增多个DNA分子。在一些实施方式中,富集包括选择性地分离多个DNA分子的至少一部分(例如,单核苷酸和/或二核苷酸)。
在一些实施方式中,可以对DNA测序读数的计数进行归一化或修正。例如,可以对DNA测序读数的计数进行归一化和/或修正,以将测序和文库制备中的已知偏差和/或测序和文库制备中的已知偏差纳入考虑。在一些实施方式中,可以例如基于测序读数的质量得分而过滤掉定量测量或计数的子集。
用于确定两个个体之间的祖先亲缘关系程度(COR)的方法可以包括使用定相算法来处理基因型数据以生成单倍型数据。例如,这可以通过将沿染色体在个体间共享的大量单核苷酸多态性(SNP)的观察到的基因型分离成一系列单倍型(例如,可能出现在同一亲本染色体上并一起遗传的等位基因)来实现。例如,单倍型定相算法可以包括基于参考的单倍型定相算法(例如,包括基于隐马尔可夫模型(HMM)的搜索)。在一些实施方式中,基于参考的单倍型定相算法包括Eagle1算法、Eagle2算法、PHASE算法、fastPHASE算法、BEAGLE算法、Findhap算法、Impute算法、FImpute算法、AlphaImpute算法、IMPUTE2算法、MaCH算法、SHAPEIT1算法、SHAPEIT2算法、SHAPEIT3算法、SHAPEIT4算法,或者其组合。备选地,单倍型定相算法可以包括基于队列的单倍型定相算法。
在一些实施方式中,用于确定两个个体之间的祖先亲缘关系程度(COR)的方法包括处理单倍型数据以识别在种群中的多个个体之间血缘同源(identical by descent,IBD)的匹配单倍型。例如,可以在种群中的所有个体之间,或者在一组测试个体和一组参考个体之间识别IBD单倍型。在一些实施方式中,当单倍型符合尺寸阈值(例如,大于尺寸阈值,诸如约100千碱基对(kbp)、约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp,或约1,000kbp)和/或包含最小阈值数目的遗传标记(例如,约30个、约40个、约50个、约60个、约70个、约80个、约90个,或约100个不同的遗传标记)时识别出匹配单倍型。可以使用GERMLINE算法(例如,使用-单倍体标志)、PLINK算法、PREST算法、用于IBD检测的随机投影(RaPID)算法、快速查找IBD共享单倍型(FISHR)算法、精化血缘同源(IBD)算法、fastIBD算法、KING算法、HaploScore算法、TRUFFLE算法,或者其组合来执行匹配单倍型的识别。
在一些实施方式中,用于确定两个个体之间的祖先亲缘关系程度(COR)的方法包括使用匹配后处理算法来获取两只个体犬(例如,犬A和犬B)之间的匹配单倍型,包括每只犬的两个单倍型(例如,A.0、A.1、B.0和B.1),以及将它们划分成离散基因组区间。
在一些实施方式中,用于确定两个个体之间的祖先亲缘关系程度(COR)的方法包括,对于每个离散基因组区间,对离散基因组区间中所有可能的单体型匹配类型的状态进行评分,以及对这样的匹配的数目进行计数(每一基因组区间产生一个或两个得分)。例如,匹配可包括单只犬内的“纯合度”匹配(例如A.0|A.1)或两只犬中的单倍型之间的“成对”匹配(例如A.0|B.1)。在一些实施方式中,基于(i)第一个体或第二个体内的离散基因组区间的纯合度匹配的程度以及(ii)第一个体和第二个体之间的离散基因组区间的成对匹配的程度,对离散基因组区间进行评分,从而生成多个纯合度匹配得分和多个成对匹配得分。
在一些实施方式中,用于确定两个个体之间的祖先亲缘关系程度(COR)的方法包括基于给定的成对匹配得分与对应的纯合度匹配得分的一致性来修正多个成对匹配得分,从而产生多个经修正成对匹配得分。例如,可以使用纯合度匹配来“修正”或调整具有不一致或不可能的成对匹配数目的离散基因组区间的评分。由于单倍型相中固有的不确定性,一只犬内的单倍型匹配可能比两只犬之间的单倍型匹配更有可能代表真正的IBD。因此,WOOPHS可包括使用纯合度匹配来“修正”具有不一致或不可能的成对匹配数目的离散基因组区间。例如,真正的匹配可能仅以有限数目的方式发生。例如,如果一对犬(A和B)中有且只有一只犬是纯合的(例如,A.0=A.1),则仅可能存在2个或4个成对匹配(例如,{A.0=A.1=B.0,或A.0=A.1=B.1};或{A.0=A.1=B.0=B.1})。可以执行这样的修正来修正所有离散区间的评分,从而与可能的状态一致。
在一些实施方式中,用于确定两个个体之间的祖先亲缘关系程度(COR)的方法包括基于两个二倍体个体中两个等位基因的多个同源状态为多个离散基因组区间分配多个权重,以及计算基因组区间得分的加权和以产生COR和/或COK。例如,可以根据每个离散基因组区间对亲缘关系和/或血缘关系(例如,对亲缘关系系数(COR)和/或血缘系数(COK))的部分贡献,为每个离散基因组区间确定权重。这可以例如根据通过引用而全文并入于此的Hedrick和Lacy,J.Hered.,“Measuring relatedness between inbred individuals,”2015Jan-Feb,106(1):20-5所描述的方法来执行。例如,多个同源状态可以包括选自表1的同源状态,并且可以基于如表1中所列的对亲缘关系rxy的多个贡献来分配多个权重。在一些实施方式中,祖先亲缘关系程度包括亲缘关系系数。例如,可以在匹配的区段的多个离散基因组区间上计算加权和,使得加权和表示为:
Figure BDA0003750324370000601
在一些实施方式中,祖先亲缘关系程度包括血缘系数。例如,可以在匹配的区段的多个离散基因组区间上计算加权和,使得加权和表示为:
Figure BDA0003750324370000602
Figure BDA0003750324370000603
Figure BDA0003750324370000604
个体x中的2个等位基因是a和b,并且个体y中的2个等位基因是c和d。水平线表示来自血缘同源的个体中的纯合性。对于给定的同源状态,Δi值给出了血缘同源的概率,并且右侧2列表示对来自个体x和y的后代的近交系数fxy的贡献以及对个体x和y之间的亲缘关系rxy的贡献。
表1:2个二倍体个体中2个等位基因的9个同源状态,其中血缘同源的状态由一条线连接。
总而言之,用于确定两个个体之间的祖先亲缘关系程度(COR)的方法可以包括从定相数据识别IBD段,基于观察到的成对单倍型匹配计数对离散基因组区间进行评分,基于离散基因组区间处的纯合度状态执行成对匹配计数修正,为离散段分配权重,以及计算加权和以产生亲缘系数和/或血缘系数得分。
计算机系统
本公开内容提供了被编程用于实现本公开内容的方法的计算机系统。图2示出了计算机系统201,其例如被编程或以其他方式配置用于接收测试个体种群的单倍型数据(例如,其中单倍型数据包括测试个体种群中共享的多个遗传标记);基于多个遗传标记,将单倍型数据划分成区段;基于该多个遗传标记,匹配在测试个体种群中第一个体和第二个体之间血缘同源的单倍型数据的区段(例如,其中每个匹配的区段具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记);将匹配的区段划分成多个离散基因组区间;基于(i)第一个体或第二个体内的离散基因组区间的纯合度匹配的程度或者(ii)第一个体和第二个体之间的离散基因组区间的成对匹配的程度,对离散基因组区间进行评分,从而生成多个得分;基于多个得分的一致性来修正多个得分,从而产生多个经修正得分;为多个离散基因组区间分配多个权重(例如,基于离散基因组区间的多个经修正得分);计算匹配的区段的多个离散基因组区间的加权和(例如,基于多个经修正得分和多个权重);以及评估第一个体和第二个体之间的祖先亲缘关系程度(例如,基于匹配的区段的加权和)。计算机系统201可以调控本公开内容的分析、计算和生成的各个方面,举例而言,诸如接收测试个体种群的单倍型数据(例如,其中单倍型数据包括测试个体种群中共享的多个遗传标记);基于多个遗传标记,将单倍型数据划分成区段;基于该多个遗传标记,匹配在测试个体种群中第一个体和第二个体之间血缘同源的单倍型数据的区段(例如,其中每个匹配的区段具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记);将匹配的区段划分成多个离散基因组区间;基于(i)第一个体或第二个体内的离散基因组区间的纯合度匹配的程度或者(ii)第一个体和第二个体之间的离散基因组区间的成对匹配的程度,对离散基因组区间进行评分,从而生成多个得分;基于多个得分的一致性来修正多个得分,从而产生多个经修正得分;为多个离散基因组区间分配多个权重(例如,基于离散基因组区间的多个经修正得分);计算匹配的区段的多个离散基因组区间的加权和(例如,基于多个经修正得分和多个权重);以及评估第一个体和第二个体之间的祖先亲缘关系程度(例如,基于匹配的区段的加权和)。计算机系统201可以是用户的电子设备,或者是相对于电子设备位于远程的计算机系统。电子设备可以是移动电子设备。
计算机系统201包括中央处理器(CPU,本文也称为“处理器”和“计算机处理器”)205,该中央处理器205可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统201还包括存储器或存储器位置210(例如,随机存取存储器、只读存储器、闪存)、电子存储单元215(例如,硬盘)、用于与一个或多个其他系统通信的通信接口220(例如,网络适配器),以及外围设备225,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器210、存储单元215、接口220和外围设备225通过诸如主板等通信总线(实线)与CPU205通信。存储单元215可以是用于储存数据的数据存储单元(或数据存储库)。计算机系统201可以借助于通信接口220可操作地耦合到计算机网络(“网络”)230。网络230可以是因特网、互联网和/或外联网,或者内联网和/或与因特网通信的外联网。在一些情况下,网络230是电信和/或数据网络。网络230可以包括一个或多个计算机服务器,该一个或多个计算机服务器可以实现分布式计算,诸如云计算。例如,一个或多个计算机服务器可以实现通过网络230(“云”)的云计算以执行本公开内容的分析、计算和生成的各个方面,举例而言,诸如接收测试个体种群的单倍型数据(例如,其中单倍型数据包括测试个体种群中共享的多个遗传标记);基于多个遗传标记,将单倍型数据划分成区段;基于该多个遗传标记,匹配在测试个体种群中第一个体和第二个体之间血缘同源的单倍型数据的区段(例如,其中每个匹配的区段具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记);将匹配的区段划分成多个离散基因组区间;基于(i)第一个体或第二个体内的离散基因组区间的纯合度匹配的程度或者(ii)第一个体和第二个体之间的离散基因组区间的成对匹配的程度,对离散基因组区间进行评分,从而生成多个得分;基于多个得分的一致性来修正多个得分,从而产生多个经修正得分;为多个离散基因组区间分配多个权重(例如,基于离散基因组区间的多个经修正得分);计算匹配的区段的多个离散基因组区间的加权和(例如,基于多个经修正得分和多个权重);以及评估第一个体和第二个体之间的祖先亲缘关系程度(例如,基于匹配的区段的加权和)。这样的云计算可以由云计算平台提供,例如由Amazon Web Services(AWS)、Microsoft Azure、Google Cloud Platform以及IBM cloud提供。在一些情况下,借助于计算机系统201,网络230可以实现对等网络,这可以使耦合到计算机系统201的设备能够充当客户端或服务器。
CPU 205可以执行一系列机器可读指令,该机器可读指令可以体现为程序或软件。指令可以储存在诸如存储器210之类的存储器位置中。指令可以被引导到CPU 205,其可以随后对CPU 205进行编程或以其他方式配置以实现本公开内容的方法。CPU 205执行的操作的示例可以包括获取、解码、执行和回写。
CPU 205可以是诸如集成电路等电路的一部分。系统201的一个或多个其他组件可以包括在电路中。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元215可以储存文件,诸如驱动程序、库和保存的程序。存储单元215可以储存用户数据,例如,用户偏好和用户程序。在一些情况下,计算机系统201可以包括一个或多个位于计算机系统201外部的附加数据存储单元(例如,位于通过内联网或因特网与计算机系统201通信的远程服务器上)。
计算机系统201可以通过网络230与一个或多个远程计算机系统通信。例如,计算机系统201可以与用户(例如,宠物主人、犬舍主人、兽医、繁育者、动物收容所员工、医师、护士、看护者、患者或对象)的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式PC)、平板或板状PC(例如,
Figure BDA0003750324370000641
iPad、
Figure BDA0003750324370000642
Galaxy Tab)、电话、智能电话(例如,
Figure BDA0003750324370000643
iPhone、支持Android的设备、
Figure BDA0003750324370000644
)或个人数字助理。用户可以经由网络230访问计算机系统201。
如本文所述的方法可以通过储存在计算机系统201的电子存储位置(举例而言,诸如存储器210或电子存储单元215)上的机器(例如,计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器205执行。在一些情况下,可以从存储单元215检索代码并储存在存储器210上以供处理器205随时访问。在一些情况下,可以排除电子存储单元215,并且机器可执行指令储存在存储器210上。
代码可以被预编译和配置用于与具有适于执行代码的处理器的机器一起使用,或者可以在运行时编译。代码能够以编程语言供应,该编程语言可被选择以使代码能够以预编译或当场编译的方式执行。
本文提供的系统和方法的各个方面,例如计算机系统201,可以在编程中体现。技术的各个方面可以被认为是“产品”或“制品”,通常为承载于或体现在某种类型的机器可读介质中的机器(或处理器)可执行代码和/或关联数据的形式。机器可执行代码可以储存在电子存储单元上,诸如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”类型介质可以包括计算机、处理器等或其关联模块的任何或所有有形存储器,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以随时提供非暂时性存储以供软件编程。软件的全部或部分可以不时通过因特网或各种其他电信网络进行通信。例如,这样的通信可以实现将软件从一个计算机或处理器加载到另一计算机或处理器中,例如,从管理服务器或主机计算机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一类型的介质包括光波、电波和电磁波,诸如跨本地设备之间的物理接口、通过有线和光陆线网络以及通过各种空中链路使用的那些介质。承载此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所使用,除非限于非暂时的、有形的“存储”介质,诸如计算机或机器“可读介质”之类的术语是指参与向处理器提供指令以供执行的任何介质。
因此,诸如计算机可执行代码之类的机器可读介质可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质例如包括光盘或磁盘,诸如任何计算机中的任何存储设备等,诸如可以用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,例如这样的计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的线路。载波传输介质可以采用电或电磁信号的形式,或者采用声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间生成的那些。因此,计算机可读介质的常见形式例如包括:软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸带、任何其他带有孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传送数据或指令的载波、传送此类载波的线缆或链路,或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多介质可涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
计算机系统201可以包括电子显示器235或与之通信,该电子显示器235包括用户界面(UI)240,其例如用于提供单倍型数据、遗传标记、在第一个体和第二个体之间血缘同源的单倍型数据的匹配的区段、离散基因组区间的得分、离散基因组区间的经修正得分、多个离散基因组区间的计算出的加权和,以及第一个体和第二个体之间的评估的祖先亲缘关系程度。UI的示例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开内容的方法和系统可以通过一种或多种算法来实现。算法可以通过在由中央处理器205执行时的软件来实现。例如,该算法可以接收测试个体种群的单倍型数据(例如,其中单倍型数据包括测试个体种群中共享的多个遗传标记);基于多个遗传标记,将单倍型数据划分成区段;基于该多个遗传标记,匹配在测试个体种群中第一个体和第二个体之间血缘同源的单倍型数据的区段(例如,其中每个匹配的区段具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记);将匹配的区段划分成多个离散基因组区间;基于(i)第一个体或第二个体内的离散基因组区间的纯合度匹配的程度或者(ii)第一个体和第二个体之间的离散基因组区间的成对匹配的程度,对离散基因组区间进行评分,从而生成多个得分;基于多个得分的一致性来修正多个得分,从而产生多个经修正得分;为多个离散基因组区间分配多个权重(例如,基于离散基因组区间的多个经修正得分);计算匹配的区段的多个离散基因组区间的加权和(例如,基于多个经修正得分和多个权重);以及评估第一个体和第二个体之间的祖先亲缘关系程度(例如,基于匹配的区段的加权和)。计算机系统201可以调控本公开内容的分析、计算和生成的各个方面,举例而言,诸如接收测试个体种群的单倍型数据(例如,其中单倍型数据包括测试个体种群中共享的多个遗传标记);基于多个遗传标记,将单倍型数据划分成区段;基于该多个遗传标记,匹配在测试个体种群中第一个体和第二个体之间血缘同源的单倍型数据的区段(例如,其中每个匹配的区段具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记);将匹配的区段划分成多个离散基因组区间;基于(i)第一个体或第二个体内的离散基因组区间的纯合度匹配的程度或者(ii)第一个体和第二个体之间的离散基因组区间的成对匹配的程度,对离散基因组区间进行评分,从而生成多个得分;基于多个得分的一致性来修正多个得分,从而产生多个经修正得分;为多个离散基因组区间分配多个权重(例如,基于离散基因组区间的多个经修正得分);计算匹配的区段的多个离散基因组区间的加权和(例如,基于多个经修正得分和多个权重);以及评估第一个体和第二个体之间的祖先亲缘关系程度(例如,基于匹配的区段的加权和)。
实施例
实施例1:用于评价亲缘关系或血缘关系程度的WOOPHS算法
使用本公开内容的方法和系统,执行成对单倍型共享的加权观察(WOOPHS)算法,以便评价个体(例如,犬)之间的亲缘关系或血缘关系程度。首先,使用GERMLINE处理来自个体种群的基因型数据,以产生来自所述个体的成对和纯合匹配的数组。继而,对于给定的一对个体,WOOPHS算法按如下进行。按染色体、起始位置和结束位置对匹配区间(matches_array)进行排序。接下来,创建和初始化填零数组(ibd_scores)以储存离散基因组区间处的成对和纯合计数的计数。接下来,创建和初始化空列表(prior_intervals)以储存所有离散基因组区间直到它们被丢弃。接下来,对于每条染色体:(a)创建用离散区间断点(interval_breaks)表示的染色体上所有位置的经排序数组并将其储存在数据库中;以及(b)对于染色体上的matches_array中的每一行(match_row):对先前行中已经遇到的任何离散区间的当前匹配行进行评分,从存储器删除已被完全超过的任何先前区间,创建和储存match_row中的新离散区间,以及将新区间储存到prior_intervals。
评分(基于匹配类型和权重)和计数修正/调整按如下执行。匹配的离散基因组区间的初始评分是经验性的。随着WOOPHS算法在染色体上的离散基因组区间上进行,递增地记录个体之间的成对匹配数目(0、1、2、3或4)或每一个体内的纯合度匹配数目(0或1)。然而,在现实中,纯合匹配和成对匹配的合法组合的数目是有限的。由于根据所使用的特定标志,并非所有匹配都一定由GERMLINE报告,因此WOOPHS算法调整观察到的计数以匹配合法计数配置(如表1中这些可能的计数配置的总结所示,转载自Hedrick和Lacy)。在该表内的9个状态中,只有5个对亲缘关系和血缘关系有贡献,并且2个状态(状态3和状态5)可以进一步压缩,因为它们从权重分配的角度来看是相同的。其余状态可以忽略(例如,分配的权重为零),因为它们对亲缘关系和血缘关系的计算没有贡献权重。
因此,WOOPHS对以下四个匹配计数状态配置进行操作:
(1)状态1={成对=4,纯合=2}
(2)状态3={成对=2,纯合=1}
(3)状态7={成对=2,纯合=0}
(4)状态8={成对=1,纯合=0}
接下来,WOOPHS算法包括按如下调整无效匹配计数状态配置中的成对匹配计数:
将观察{成对=3,纯合=1}修正为{成对=2,纯合=1}(状态3)。
将观察{成对=3,纯合=0}修正为{成对=1,纯合=0}(状态8)。
将观察{成对=4,纯合=0或1}修正为{成对=2(状态8,如果纯合=0;状态7,如果纯合=1)。
将观察{成对=2,纯合=2}修正为{成对=4}(状态1)。
将观察{成对=1,纯合=1或2}修正为{成对=2(状态3,如果纯合=1;如果纯合=2则忽略)。
将观察{成对=3,纯合=2}修正为{成对=4(状态1)。
在对匹配的离散基因组区间进行评分和修正之后,按如下计算亲缘系数(COR)和/或血缘系数(COK)。在成对匹配计数状态修正之后,所有段都关于其对亲缘关系和血缘关系的贡献得到了权重分配,如表1中所示。最后,按如下计算亲缘关系和血缘关系。令Δi表示分配给四个匹配计数状态之一i的基因组长度的总和。继而可以通过以下表达式计算亲缘关系rxy和血缘关系kxy
Figure BDA0003750324370000691
Figure BDA0003750324370000692
其中L为所考虑的基因组的总长度。
在一些实施方式中,可以将从个体种群收集的基因型数据和/或单倍型数据储存在数据库中以供将来检索。继而,可以从测试个体收集样品,继而可以生成测试个体的基因型数据和单倍型数据。接下来,可以执行WOOPHS算法以生成测试个体与个体种群中一个或多个个体中的每一个之间的亲缘关系或血缘关系程度。最后,可以对数据库进行搜索,以检索具有超过预定阈值的亲缘关系或血缘关系程度的个体种群的子集。可以基于与测试个体的亲缘关系或血缘关系程度对该亲缘个体子集进行排序或排位。
尽管本文已经示出和描述了本发明的优选实施方式,但对于本领域技术人员来说显而易见的是,这样的实施方式仅作为示例提供。本发明并不意在受说明书中提供的具体示例的限制。尽管已经参照前述说明书描述了本发明,但本文中实施方式的描述和说明并不意味着被解释为限制意义。在不背离本发明的情况下,本领域技术人员现在将会想到许多变化、改变和替换。此外,应当理解,本发明的所有方面不限于本文阐述的具体描述、配置或相对比例,其取决于各种条件和变量。应当理解,在实施本发明时可以采用对本文描述的本发明实施方式的各种替代方案。因此设想到本发明还应涵盖任何这样的替代、修改、变化或等价物。所附权利要求旨在限定本发明的范围,并且由此覆盖这些权利要求范围内的方法和结构及其等同物。

Claims (129)

1.一种用于评估二倍体种群的两个个体之间的祖先亲缘关系程度的计算机实现方法,包括:
(a)接收测试个体种群的单倍型数据,该单倍型数据包括在所述测试个体种群中共享的多个遗传标记;
(b)基于所述多个遗传标记将所述单倍型数据划分成区段;
(c)对于所述测试个体种群的每一个体:
(i)基于所述多个遗传标记,匹配在所述测试个体种群中的第一个体和第二个体之间血缘同源的所述单倍型数据的区段,匹配的区段中的每一个具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记;
(ii)对于所述第一个体和所述第二个体之间的所述匹配的区段中的每一个:
将所述匹配的区段划分成多个离散基因组区间;
基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度或者(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个得分;
基于所述多个得分的一致性来修正所述多个得分,从而产生多个经修正得分;以及
基于所述离散基因组区间的所述多个经修正得分,为所述多个离散基因组区间分配多个权重;以及
(iii)基于所述多个经修正得分和所述多个权重,计算所述匹配的区段的所述多个离散基因组区间的加权和;以及
(d)基于所述匹配的区段的所述加权和,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度。
2.如权利要求1所述的方法,其中所述二倍体种群是哺乳动物种群。
3.如权利要求2所述的方法,其中所述哺乳动物种群是犬类种群。
4.如权利要求3所述的方法,其中所述犬类种群是犬种群。
5.如权利要求1所述的方法,其中通过使用单倍型定相算法处理所述测试个体种群的基因型数据而生成所述单倍型数据。
6.如权利要求5所述的方法,其中所述单倍型定相算法包括基于参考的单倍型定相算法。
7.如权利要求6所述的方法,其中所述基于参考的单倍型定相算法包括基于隐马尔可夫模型(HMM)的搜索。
8.如权利要求7所述的方法,其中所述基于参考的单倍型定相算法包括Eagle1算法、Eagle2算法、PHASE算法、fastPHASE算法、BEAGLE算法、Findhap算法、Impute算法、FImpute算法、AlphaImpute算法、IMPUTE2算法、MaCH算法、SHAPEIT1算法、SHAPEIT2算法、SHAPEIT3算法、SHAPEIT4算法,或者其组合。
9.如权利要求5所述的方法,其中所述单倍型定相算法包括基于队列的单倍型定相算法。
10.如权利要求5所述的方法,其中通过测定从所述测试个体种群获取的生物样品而获取所述基因型数据。
11.如权利要求10所述的方法,其中所述生物样品包括血液样品、唾液样品、拭子样品、细胞样品或组织样品。
12.如权利要求10所述的方法,其中所述测定包括对所述生物样品或其衍生物进行测序。
13.如权利要求1所述的方法,其中所述多个遗传标记包括至少约500个、至少约1000个、至少约2000个、至少约3000个、至少约4000个、至少约5000个、至少约6000个、至少约7000个、至少约8000个、至少约9000个,或至少约10000个不同的遗传标记。
14.如权利要求1所述的方法,其中匹配血缘同源的所述单倍型数据的区段包括使用GERMLINE算法、PLINK算法、PREST算法、用于IBD检测的随机投影(RaPID)算法、快速查找IBD共享单倍型(FISHR)算法、精化血缘同源(IBD)算法、fastIBD算法、KING算法、HaploScore算法、TRUFFLE算法,或者其组合。
15.如权利要求1所述的方法,其中所述预定阈值尺寸为约100千碱基对(kbp)、约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp,或约1000kbp。
16.如权利要求1所述的方法,其中所述预定数目的遗传标记为约30个、约40个、约50个、约60个、约70个、约80个、约90个,或约100个不同的遗传标记。
17.如权利要求1所述的方法,还包括划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有相等的尺寸。
18.如权利要求1所述的方法,还包括划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有可变尺寸。
19.如权利要求18所述的方法,其中至少部分地基于下列各项来确定所述多个离散基因组区间中的给定离散基因组区间的可变尺寸:所述给定离散基因组区间近侧的IBD匹配的起始位置和结束位置、所述给定离散基因组区间内的遗传标记密度、所述给定离散基因组区间的最大标记数目、所述给定离散基因组区间的最大长度,或者其组合。
20.如权利要求1所述的方法,还包括:基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度以及(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个纯合度匹配得分和多个成对匹配得分。
21.如权利要求20所述的方法,还包括基于给定成对匹配得分与对应的纯合度匹配得分的一致性来修正所述多个成对匹配得分,从而产生多个经修正成对匹配得分。
22.如权利要求20所述的方法,还包括基于两个二倍体个体中的两个等位基因的多个同源状态,为所述多个离散基因组区间分配所述多个权重。
23.如权利要求22所述的方法,其中所述多个同源状态包括选自表1的同源状态,并且其中所述多个权重是基于如表1中所列的对亲缘关系rxy的多个贡献来分配的。
24.如权利要求23所述的方法,其中所述祖先亲缘关系程度包括亲缘关系系数。
25.如权利要求24所述的方法,还包括计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure FDA0003750324360000041
26.如权利要求23所述的方法,其中所述祖先亲缘关系程度包括血缘系数。
27.如权利要求26所述的方法,还包括计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure FDA0003750324360000042
28.如权利要求1所述的方法,其中评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体或所述第二个体的近交程度。
29.如权利要求1所述的方法,其中评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体和所述第二个体的近交程度。
30.如权利要求29所述的方法,还包括至少部分地基于所述第一个体和所述第二个体的所述近交程度来确定所述第一个体和所述第二个体之间的家族关系。
31.如权利要求30所述的方法,其中所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系或祖孙关系。
32.如权利要求28或29所述的方法,还包括确定所述第一个体和所述第二个体的潜在后代的预期近交程度。
33.如权利要求32所述的方法,还包括基于所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度,确定指示出是否将所述第一个体和所述第二个体在一起繁殖的建议。
34.如权利要求33所述的方法,还包括当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度不超过预定近交阈值程度时,确定指示出将所述第一个体和所述第二个体在一起繁殖的建议。
35.如权利要求33所述的方法,还包括当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度超过预定近交阈值程度时,确定指示出不将所述第一个体和所述第二个体在一起繁殖的建议。
36.如权利要求34或35所述的方法,其中所述预定近交阈值程度为约0.10、约0.15、约0.20、约0.25、约0.30、约0.35、约0.40、约0.45,或约0.50。
37.如权利要求1所述的方法,还包括至少部分地基于所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度,生成与所述第一个体相关联的第一人和与所述第二个体相关联的第二人之间的社会联系。
38.如权利要求37所述的方法,其中当所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度超过预定阈值时生成所述社会联系。
39.如权利要求38所述的方法,其中所述预定阈值为约0.00001、约0.0001、约0.001、约0.01、约0.02、约0.04、约0.06、约0.08、约0.1、约0.12、约0.14、约0.16、约0.18、约0.2、约0.25、约0.3、约0.35、约0.4、约0.45,或约0.5。
40.如权利要求37所述的方法,其中通过社交媒体网络生成所述社会联系。
41.如权利要求37所述的方法,其中所述第一人是所述第一个体的宠物主人,并且其中所述第二人是所述第二个体的宠物主人。
42.如权利要求1所述的方法,还包括至少部分地基于所述祖先亲缘关系程度,识别所述第一个体和所述第二个体之间的家族关系。
43.如权利要求42所述的方法,其中所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系或祖孙关系。
44.一种用于评估二倍体种群的两个个体之间的祖先亲缘关系程度的计算机系统,包括:
数据库,其被配置用于储存测试个体种群的单倍型数据,该单倍型数据包括在所述测试个体种群中共享的多个遗传标记;以及
一个或多个计算机处理器,其可操作地耦合到所述数据库,其中所述一个或多个计算机处理器被单个地或共同地编程用于:
(a)基于所述多个遗传标记将所述单倍型数据划分成区段;
(b)对于所述测试个体种群的每一个体:
(i)基于所述多个遗传标记,匹配在所述测试个体种群中的第一个体和第二个体之间血缘同源的所述单倍型数据的区段,匹配的区段中的每一个具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记;
(ii)对于所述第一个体和所述第二个体之间的所述匹配的区段中的每一个:
将所述匹配的区段划分成多个离散基因组区间;
基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度或者(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个得分;以及
基于所述多个得分的一致性来修正所述多个得分,从而产生多个经修正得分;以及
基于所述离散基因组区间的所述多个经修正得分,为所述多个离散基因组区间分配多个权重;以及
(iii)基于所述多个经修正得分和所述多个权重,计算所述匹配的区段的所述多个离散基因组区间的加权和;以及
(c)基于所述匹配的区段的所述加权和,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度。
45.如权利要求44所述的计算机系统,其中所述二倍体种群是哺乳动物种群。
46.如权利要求45所述的计算机系统,其中所述哺乳动物种群是犬类种群。
47.如权利要求46所述的计算机系统,其中所述犬类种群是犬种群。
48.如权利要求44所述的计算机系统,其中通过使用单倍型定相算法处理所述测试个体种群的基因型数据生成所述单倍型数据。
49.如权利要求48所述的计算机系统,其中所述单倍型定相算法包括基于参考的单倍型定相算法。
50.如权利要求49所述的计算机系统,其中所述基于参考的单倍型定相算法包括基于隐马尔可夫模型(HMM)的搜索。
51.如权利要求50所述的计算机系统,其中所述基于参考的单倍型定相算法包括Eagle1算法、Eagle2算法、PHASE算法、fastPHASE算法、BEAGLE算法、Findhap算法、Impute算法、FImpute算法、AlphaImpute算法、IMPUTE2算法、MaCH算法、SHAPEIT1算法、SHAPEIT2算法、SHAPEIT3算法、SHAPEIT4算法,或者其组合。
52.如权利要求48所述的计算机系统,其中所述单倍型定相算法包括基于队列的单倍型定相算法。
53.如权利要求48所述的计算机系统,其中通过测定从所述测试个体种群获取的生物样品而获取所述基因型数据。
54.如权利要求53所述的计算机系统,其中所述生物样品包括血液样品、唾液样品、拭子样品、细胞样品或组织样品。
55.如权利要求53所述的计算机系统,其中所述测定包括对所述生物样品或其衍生物进行测序。
56.如权利要求44所述的计算机系统,其中所述多个遗传标记包括至少约500个、至少约1000个、至少约2000个、至少约3000个、至少约4000个、至少约5000个、至少约6000个、至少约7000个、至少约8000个、至少约9000个,或至少约10000个不同的遗传标记。
57.如权利要求44所述的计算机系统,其中匹配血缘同源的所述单倍型数据的区段包括使用GERMLINE算法、PLINK算法、PREST算法、用于IBD检测的随机投影(RaPID)算法、快速查找IBD共享单倍型(FISHR)算法、精化血缘同源(IBD)算法、fastIBD算法、KING算法、HaploScore算法、TRUFFLE算法,或者其组合。
58.如权利要求44所述的计算机系统,其中所述预定阈值尺寸为约100千碱基对(kbp)、约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp,或约1000kbp。
59.如权利要求44所述的计算机系统,其中所述预定数目的遗传标记为约30个、约40个、约50个、约60个、约70个、约80个、约90个,或约100个不同的遗传标记。
60.如权利要求44所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有相等的尺寸。
61.如权利要求44所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有可变尺寸。
62.如权利要求61所述的计算机系统,其中至少部分地基于下列各项来确定所述多个离散基因组区间中的给定离散基因组区间的可变尺寸:所述给定离散基因组区间近侧的IBD匹配的起始位置和结束位置、所述给定离散基因组区间内的遗传标记密度、所述给定离散基因组区间的最大标记数目、所述给定离散基因组区间的最大长度,或者其组合。
63.如权利要求44所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度以及(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个纯合度匹配得分和多个成对匹配得分。
64.如权利要求63所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步基于给定成对匹配得分与对应的纯合度匹配得分的一致性来修正所述多个成对匹配得分,从而产生多个经修正成对匹配得分。
65.如权利要求63所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步基于两个二倍体个体中的两个等位基因的多个同源状态,为所述多个离散基因组区间分配所述多个权重。
66.如权利要求65所述的计算机系统,其中所述多个同源状态包括选自表1的同源状态,并且其中所述多个权重是基于如表1中所列的对亲缘关系rxy的多个贡献来分配的。
67.如权利要求66所述的计算机系统,其中所述祖先亲缘关系程度包括亲缘关系系数。
68.如权利要求67所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure FDA0003750324360000091
69.如权利要求66所述的计算机系统,其中所述祖先亲缘关系程度包括血缘系数。
70.如权利要求69所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure FDA0003750324360000092
71.如权利要求44所述的计算机系统,其中评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体或所述第二个体的近交程度。
72.如权利要求44所述的计算机系统,其中评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体和所述第二个体的近交程度。
73.如权利要求72所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步至少部分地基于所述第一个体和所述第二个体的所述近交程度来确定所述第一个体和所述第二个体之间的家族关系。
74.如权利要求73所述的计算机系统,其中所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系或祖孙关系。
75.如权利要求71或72所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步确定所述第一个体和所述第二个体的潜在后代的预期近交程度。
76.如权利要求75所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步基于所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度,确定指示出是否将所述第一个体和所述第二个体在一起繁殖的建议。
77.如权利要求76所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度不超过预定近交阈值程度时,确定指示出将所述第一个体和所述第二个体在一起繁殖的建议。
78.如权利要求76所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度超过预定近交阈值程度时,确定指示出不将所述第一个体和所述第二个体在一起繁殖的建议。
79.如权利要求77或78所述的计算机系统,其中所述预定近交阈值程度为约0.10、约0.15、约0.20、约0.25、约0.30、约0.35、约0.40、约0.45,或约0.50。
80.如权利要求44所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步至少部分地基于所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度,生成与所述第一个体相关联的第一人和与所述第二个体相关联的第二人之间的社会联系。
81.如权利要求80所述的计算机系统,其中当所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度超过预定阈值时生成所述社会联系。
82.如权利要求81所述的计算机系统,其中所述预定阈值为约0.00001、约0.0001、约0.001、约0.01、约0.02、约0.04、约0.06、约0.08、约0.1、约0.12、约0.14、约0.16、约0.18、约0.2、约0.25、约0.3、约0.35、约0.4、约0.45,或约0.5。
83.如权利要求80所述的计算机系统,其中通过社交媒体网络生成所述社会联系。
84.如权利要求80所述的计算机系统,其中所述第一人是所述第一个体的宠物主人,并且其中所述第二人是所述第二个体的宠物主人。
85.如权利要求44所述的计算机系统,其中所述一个或多个计算机处理器被单个地或共同地编程用于进一步至少部分地基于所述祖先亲缘关系程度,识别所述第一个体和所述第二个体之间的家族关系。
86.如权利要求85所述的计算机系统,其中所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系或祖孙关系。
87.一种包含机器可执行代码的非暂时性计算机可读介质,该机器可执行代码在由一个或多个计算机处理器执行时,实现一种用于评估二倍体种群的两个个体之间的祖先亲缘关系程度的方法,所述方法包括:
(a)接收测试个体种群的单倍型数据,该单倍型数据包括在所述测试个体种群中共享的多个遗传标记;
(b)基于所述多个遗传标记将所述单倍型数据划分成区段;
(c)对于所述测试个体种群的每一个体:
(i)基于所述多个遗传标记,匹配在所述测试个体种群中的第一个体和第二个体之间血缘同源的所述单倍型数据的区段,匹配的区段中的每一个具有第一尺寸,该第一尺寸至少为预定阈值尺寸并且至少包括预定数目的遗传标记;
(ii)对于所述第一个体和所述第二个体之间的所述匹配的区段中的每一个:
将所述匹配的区段划分成多个离散基因组区间;
基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度或者(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个得分;
基于所述多个得分的一致性来修正所述多个得分,从而产生多个经修正得分;以及
基于所述离散基因组区间的所述多个经修正得分,为所述多个离散基因组区间分配多个权重;以及
(iii)基于所述多个经修正得分和所述多个权重,计算所述匹配的区段的所述多个离散基因组区间的加权和;以及
(d)基于所述匹配的区段的所述加权和,评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度。
88.如权利要求87所述的非暂时性计算机可读介质,其中所述二倍体种群是哺乳动物种群。
89.如权利要求88所述的非暂时性计算机可读介质,其中所述哺乳动物种群是犬类种群。
90.如权利要求89所述的非暂时性计算机可读介质,其中所述犬类种群是犬种群。
91.如权利要求87所述的非暂时性计算机可读介质,其中通过使用单倍型定相算法处理所述测试个体种群的基因型数据生成所述单倍型数据。
92.如权利要求91所述的非暂时性计算机可读介质,其中所述单倍型定相算法包括基于参考的单倍型定相算法。
93.如权利要求92所述的非暂时性计算机可读介质,其中所述基于参考的单倍型定相算法包括基于隐马尔可夫模型(HMM)的搜索。
94.如权利要求93所述的非暂时性计算机可读介质,其中所述基于参考的单倍型定相算法包括Eagle1算法、Eagle2算法、PHASE算法、fastPHASE算法、BEAGLE算法、Findhap算法、Impute算法、FImpute算法、AlphaImpute算法、IMPUTE2算法、MaCH算法、SHAPEIT1算法、SHAPEIT2算法、SHAPEIT3算法、SHAPEIT4算法,或者其组合。
95.如权利要求91所述的非暂时性计算机可读介质,其中所述单倍型定相算法包括基于队列的单倍型定相算法。
96.如权利要求91所述的非暂时性计算机可读介质,其中通过测定从所述测试个体种群获取的生物样品而获取所述基因型数据。
97.如权利要求96所述的非暂时性计算机可读介质,其中所述生物样品包括血液样品、唾液样品、拭子样品、细胞样品或组织样品。
98.如权利要求96所述的非暂时性计算机可读介质,其中所述测定包括对所述生物样品或其衍生物进行测序。
99.如权利要求87所述的非暂时性计算机可读介质,其中所述多个遗传标记包括至少约500个、至少约1000个、至少约2000个、至少约3000个、至少约4000个、至少约5000个、至少约6000个、至少约7000个、至少约8000个、至少约9000个,或至少约10000个不同的遗传标记。
100.如权利要求87所述的非暂时性计算机可读介质,其中匹配血缘同源的所述单倍型数据的区段包括使用GERMLINE算法、PLINK算法、PREST算法、用于IBD检测的随机投影(RaPID)算法、快速查找IBD共享单倍型(FISHR)算法、精化血缘同源(IBD)算法、fastIBD算法、KING算法、HaploScore算法、TRUFFLE算法,或者其组合。
101.如权利要求87所述的非暂时性计算机可读介质,其中所述预定阈值尺寸为约100千碱基对(kbp)、约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp,或约1000kbp。
102.如权利要求87所述的非暂时性计算机可读介质,其中所述预定数目的遗传标记为约30个、约40个、约50个、约60个、约70个、约80个、约90个,或约100个不同的遗传标记。
103.如权利要求87所述的非暂时性计算机可读介质,其中所述方法还包括划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有相等的尺寸。
104.如权利要求87所述的非暂时性计算机可读介质,其中所述方法还包括划分所述匹配的区段,使得所述多个离散基因组区间的所述离散基因组区间具有可变尺寸。
105.如权利要求104所述的非暂时性计算机可读介质,其中至少部分地基于下列各项来确定所述多个离散基因组区间中的给定离散基因组区间的可变尺寸:所述给定离散基因组区间近侧的IBD匹配的起始位置和结束位置、所述给定离散基因组区间内的遗传标记密度、所述给定离散基因组区间的最大标记数目、所述给定离散基因组区间的最大长度,或者其组合。
106.如权利要求87所述的非暂时性计算机可读介质,其中所述方法还包括基于(i)所述第一个体或所述第二个体内的所述离散基因组区间的纯合度匹配的程度以及(ii)所述第一个体和所述第二个体之间的所述离散基因组区间的成对匹配的程度,对所述多个离散基因组区间中的每一个进行评分,从而生成多个纯合度匹配得分和多个成对匹配得分。
107.如权利要求106所述的非暂时性计算机可读介质,其中所述方法还包括基于给定成对匹配得分与对应的纯合度匹配得分的一致性来修正所述多个成对匹配得分,从而产生多个经修正成对匹配得分。
108.如权利要求106所述的非暂时性计算机可读介质,其中所述方法还包括基于两个二倍体个体中的两个等位基因的多个同源状态,为所述多个离散基因组区间分配所述多个权重。
109.如权利要求108所述的非暂时性计算机可读介质,其中所述多个同源状态包括选自表1的同源状态,并且其中所述多个权重是基于如表1中所列的对亲缘关系rxy的多个贡献来分配的。
110.如权利要求109所述的非暂时性计算机可读介质,其中所述祖先亲缘关系程度包括亲缘关系系数。
111.如权利要求110所述的非暂时性计算机可读介质,其中所述方法还包括计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure FDA0003750324360000151
112.如权利要求109所述的非暂时性计算机可读介质,其中所述祖先亲缘关系程度包括血缘系数。
113.如权利要求112所述的非暂时性计算机可读介质,其中所述方法还包括计算所述匹配的区段的所述多个离散基因组区间的加权和,其中所述加权和表示为:
Figure FDA0003750324360000152
114.如权利要求87所述的非暂时性计算机可读介质,其中评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体或所述第二个体的近交程度。
115.如权利要求87所述的非暂时性计算机可读介质,其中评估所述第一个体和所述第二个体之间的所述祖先亲缘关系程度包括确定所述第一个体和所述第二个体的近交程度。
116.如权利要求115所述的非暂时性计算机可读介质,其中所述方法还包括至少部分地基于所述第一个体和所述第二个体的所述近交程度来确定所述第一个体和所述第二个体之间的家族关系。
117.如权利要求116所述的非暂时性计算机可读介质,其中所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系或祖孙关系。
118.如权利要求114或115所述的非暂时性计算机可读介质,其中所述方法还包括确定所述第一个体和所述第二个体的潜在后代的预期近交程度。
119.如权利要求118所述的非暂时性计算机可读介质,其中所述方法还包括基于所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度,确定指示出是否将所述第一个体和所述第二个体在一起繁殖的建议。
120.如权利要求119所述的非暂时性计算机可读介质,其中所述方法还包括当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度不超过预定近交阈值程度时,确定指示出将所述第一个体和所述第二个体在一起繁殖的建议。
121.如权利要求119所述的非暂时性计算机可读介质,其中所述方法还包括当所述第一个体和所述第二个体的所述潜在后代的所述预期近交程度超过预定近交阈值程度时,确定指示出不将所述第一个体和所述第二个体在一起繁殖的建议。
122.如权利要求120或121所述的非暂时性计算机可读介质,其中所述预定近交阈值程度为约0.10、约0.15、约0.20、约0.25、约0.30、约0.35、约0.40、约0.45,或约0.50。
123.如权利要求87所述的非暂时性计算机可读介质,其中所述方法还包括至少部分地基于所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度,生成与所述第一个体相关联的第一人和与所述第二个体相关联的第二人之间的社会联系。
124.如权利要求123所述的非暂时性计算机可读介质,其中当所述第一个体和所述第二个体之间的评估的祖先亲缘关系程度超过预定阈值时生成所述社会联系。
125.如权利要求124所述的非暂时性计算机可读介质,其中所述预定阈值为约0.00001、约0.0001、约0.001、约0.01、约0.02、约0.04、约0.06、约0.08、约0.1、约0.12、约0.14、约0.16、约0.18、约0.2、约0.25、约0.3、约0.35、约0.4、约0.45,或约0.5。
126.如权利要求123所述的非暂时性计算机可读介质,其中通过社交媒体网络生成所述社会联系。
127.如权利要求123所述的非暂时性计算机可读介质,其中所述第一人是所述第一个体的宠物主人,并且其中所述第二人是所述第二个体的宠物主人。
128.如权利要求87所述的非暂时性计算机可读介质,其中所述方法还包括至少部分地基于所述祖先亲缘关系程度,识别所述第一个体和所述第二个体之间的家族关系。
129.如权利要求128所述的非暂时性计算机可读介质,其中所述家族关系是父母-子女关系、兄弟姐妹关系、姨姑婶/叔伯舅-外甥侄子/外甥女侄女关系、表亲关系或祖孙关系。
CN202080093527.7A 2019-11-18 2020-11-17 确定祖先亲缘关系的方法和系统 Pending CN115004304A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962936879P 2019-11-18 2019-11-18
US62/936,879 2019-11-18
PCT/US2020/060899 WO2021101896A1 (en) 2019-11-18 2020-11-17 Methods and systems for determining ancestral relatedness

Publications (1)

Publication Number Publication Date
CN115004304A true CN115004304A (zh) 2022-09-02

Family

ID=75980898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080093527.7A Pending CN115004304A (zh) 2019-11-18 2020-11-17 确定祖先亲缘关系的方法和系统

Country Status (12)

Country Link
US (2) US11501851B2 (zh)
EP (1) EP4062411A4 (zh)
JP (1) JP2023501006A (zh)
KR (1) KR20220115952A (zh)
CN (1) CN115004304A (zh)
AU (1) AU2020388555A1 (zh)
BR (1) BR112022009494A2 (zh)
CA (1) CA3162092A1 (zh)
GB (1) GB2608502A (zh)
IL (1) IL292997A (zh)
MX (1) MX2022005956A (zh)
WO (1) WO2021101896A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023076932A1 (en) * 2021-10-27 2023-05-04 Mars, Incorporated Systems and methods for a pet relative finder

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2369485A1 (en) * 1999-06-25 2001-01-04 Genaissance Pharmaceuticals, Inc. Methods for obtaining and using haplotype data
US6730023B1 (en) 1999-10-15 2004-05-04 Hemopet Animal genetic and health profile database management
JP2003523176A (ja) 1999-10-15 2003-08-05 ダブリュー. ジーン ドッヅ, 動物健康診断
US7548839B2 (en) 1999-10-15 2009-06-16 Hemopet System for animal health diagnosis
US20030170665A1 (en) * 2001-08-04 2003-09-11 Whitehead Institute For Biomedical Research Haplotype map of the human genome and uses therefor
US20060147962A1 (en) 2003-06-16 2006-07-06 Mars, Inc. Genotype test
CA2543785A1 (en) 2003-10-24 2005-05-06 Mmi Genomics, Inc. Compositions, methods, and systems for inferring canine breeds for genetic traits and verifying parentage of canine animals
CA2550219A1 (en) * 2003-12-17 2005-06-30 Fred Hutchinson Cancer Research Center Methods and materials for canine breed identification
CN101189514B (zh) 2004-08-30 2013-05-29 希尔氏宠物营养品公司 基于基因组的饮食设计
US20060200320A1 (en) 2005-03-02 2006-09-07 Hill's Pet Nutrition, Inc. Methods and systems for designing animal food compositions
CA2633519C (en) 2005-12-14 2015-11-24 Cornell Research Foundation, Inc. Method for identifying progressive rod-cone degeneration in dogs
US20110129825A1 (en) 2007-08-03 2011-06-02 Melba Stinnett Ketchum Compositions, methods and systems for the simultaneous determination of parentage, identity, sex, genotype and/or phenotype and breed determination in animals
GB0722068D0 (en) 2007-11-09 2007-12-19 Mars Inc Predictive test
US20110087693A1 (en) * 2008-02-29 2011-04-14 John Boyce Methods and Systems for Social Networking Based on Nucleic Acid Sequences
WO2009134226A1 (en) * 2008-05-01 2009-11-05 The Board Of Trustees Of The Leland Stanford Junior University Canine coat color prediction
EP3276526A1 (en) * 2008-12-31 2018-01-31 23Andme, Inc. Finding relatives in a database
WO2014110562A1 (en) 2013-01-14 2014-07-17 Cornell University Compositions and methods for genotyping canines
EP3207481B1 (en) * 2014-10-14 2019-12-04 Ancestry.com DNA, LLC Reducing error in predicted genetic relationships

Also Published As

Publication number Publication date
EP4062411A1 (en) 2022-09-28
US20230061512A1 (en) 2023-03-02
EP4062411A4 (en) 2023-12-20
US11501851B2 (en) 2022-11-15
BR112022009494A2 (pt) 2022-09-20
CA3162092A1 (en) 2021-05-27
WO2021101896A1 (en) 2021-05-27
AU2020388555A1 (en) 2022-06-02
MX2022005956A (es) 2022-09-07
KR20220115952A (ko) 2022-08-19
JP2023501006A (ja) 2023-01-17
US20220122693A1 (en) 2022-04-21
IL292997A (en) 2022-07-01
GB202207365D0 (en) 2022-07-06
GB2608502A (en) 2023-01-04

Similar Documents

Publication Publication Date Title
Zhang et al. Whole-genome resequencing reveals signatures of selection and timing of duck domestication
Cosgrove et al. Genome diversity and the origin of the Arabian horse
Kim et al. Genetic selection of athletic success in sport-hunting dogs
Bower et al. The genetic origin and history of speed in the Thoroughbred racehorse
Huerlimann et al. De novo assembly, characterization, functional annotation and expression patterns of the black tiger shrimp (Penaeus monodon) transcriptome
Ramírez et al. Genome data from a sixteenth century pig illuminate modern breed relationships
Wolc Understanding genomic selection in poultry breeding
Koch African cattle adaptations
Jun et al. Whole genome sequence and analysis of the Marwari horse breed and its genetic origin
Baker et al. Comparative genomic hybridization (CGH) reveals a neo-X chromosome and biased gene movement in stalk-eyed flies (genus Teleopsis)
Wan et al. Construction of a high-density linkage map and fine mapping of QTLs for growth and gonad related traits in blunt snout bream
Liu et al. A first genetic linage map construction and QTL mapping for growth traits in Larimichthys polyactis
Harney et al. Transcriptome based SNP discovery and validation for parentage assignment in hatchery progeny of the European abalone Haliotis tuberculata
US20230061512A1 (en) Methods and systems for determining ancestral relatedness
Shen et al. Genomic analyses unveil helmeted guinea fowl (Numida meleagris) domestication in West Africa
Kariuki et al. Application of microsatellite genotyping by amplicon sequencing for delimitation of African tilapiine species relevant for aquaculture
Das et al. Genomic selection: a molecular tool for genetic improvement in livestock
Noorai et al. Discovery of genomic variations by whole-genome resequencing of the North American Araucana chicken
Chessari et al. Characterization of heterozygosity-rich regions in Italian and worldwide goat breeds
Meira et al. Prospection of genomic regions divergently selected in racing line of Quarter Horses in relation to cutting line
US20230317205A1 (en) Systems and methods for producing or identifying non-human animals with a predetermined phenotype or genotype
Yoon et al. Origin and spread of Thoroughbred racehorses inferred from complete mitochondrial genome sequences: Phylogenomic and Bayesian coalescent perspectives
Nomura et al. Genomic prediction of 10 metamorphic traits of captive-bred Japanese eels (Anguilla japonica) using the GRAS-Di genotyping method
EA046341B1 (ru) Способы и системы для определения родственного отношения
Gowan Development and application of diagnostic SNP marker resources for Northern (Micropterus salmoides salmoides) and Florida (Micropterus salmoides floridanus) Largemouth Bass

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination