CN111051537B - 确定snp位点集合的方法、装置及其应用 - Google Patents

确定snp位点集合的方法、装置及其应用 Download PDF

Info

Publication number
CN111051537B
CN111051537B CN201780094353.4A CN201780094353A CN111051537B CN 111051537 B CN111051537 B CN 111051537B CN 201780094353 A CN201780094353 A CN 201780094353A CN 111051537 B CN111051537 B CN 111051537B
Authority
CN
China
Prior art keywords
snp
predetermined
variety
base type
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780094353.4A
Other languages
English (en)
Other versions
CN111051537A (zh
Inventor
郭瑞东
贾超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN111051537A publication Critical patent/CN111051537A/zh
Application granted granted Critical
Publication of CN111051537B publication Critical patent/CN111051537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了一种确定SNP位点集合的方法。其中,该SNP位点集合用于预定物种的预定品种的纯种鉴定,该方法包括:(1)构建第一SNP位点集合和第二SNP位点集合,该第一SNP位点集合中的每一个SNP位点均来源于该预定物种的生物体,该第二SNP位点集合中的每一个SNP位点均来源于该预定品种的生物体;(2)针对该第一SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在该预定物种中的物种出现频率;(3)针对该第二SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在该预定品种中的品种出现频率;(4)基于该品种出现频率与该物种出现频率的差异,确定用于该预定品种的纯种鉴定的SNP位点集合。

Description

确定SNP位点集合的方法、装置及其应用
优先权信息
技术领域
本发明涉及生物技术领域,具体而言,涉及纯种鉴定技术领域,更具体地,涉及确定SNP位点集合的方法、装置及其应用。
背景技术
随着人类对动物的驯化以及特异性的人工选择,使得在一个物种之中演化出数百种形状不同的子类。例如宠物狗,目前科学研究论证狗源于灰狼,但随着人类的培养,已形成了两百多个被犬业俱乐部认证的品种。由于纯种宠物狗、猫等的价格显著高于非纯种的,故针对物种进行纯种鉴定具有现实的经济意义。
然而,目前的对物种(例如狗、猫等)进行纯种鉴定的技术仍有待改进。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种成本低、检测周期短、准确度高的纯种鉴定技术。
需要说明的是,本发明是基于发明人的下列工作和发现而完成的:
目前检测宠物狗(或猫)是否为纯种,主要有两种方法:一、依据其性状,包括身高,体长,毛色,肩宽等指标来判定,使用性状来判定纯种狗的方法,需要由受过训练的专业人员执行,具有较大的主观色彩,成本高;二、通过DNA上的短串联重复来确定两只宠物狗(或猫)的直系亲缘关系,当已确认待检测狗为两只已认证的纯种狗的后代后,确定该待检测狗为纯种狗,然而,这种使用直系亲属来确定待检测狗是否为纯种的方法,需要检测待检测狗的父母的DNA,采样成本高,且在待检测狗父母的品种不确定时无法使用。
而发明人发现,不同品种间之间由于人为的生殖隔离与繁育时的瓶颈效应,造成了每个品种都具有其特异性的基因位点,如果能够将这些位点提取出来,就可以构建出一个用于纯种鉴定的SNP位点集合。类似的SNP位点选取方式不仅可以用于各宠物(如狗、猫等)品种的鉴定,还可以用于猪,牛,羊以及警犬等的有经济价值的优良品种选育,以及适应特定环境(适合干旱,高海拔)的物种选育。
然而,如何科学有效地筛选出能够用于纯种鉴定的SNP位点集合,仍然是本领域的难题。
进而,发明人通过一系列科学的实验设计和实际探索工作,惊喜地得到了筛选确定用于纯种鉴定的SNP位点集合的方法,并进而发明了基于该方法确定的SNP位点集合进行纯种鉴定的技术。
从而,在本发明的一个方面,本发明提供了一种确定SNP位点集合的方法。根据本发明的实施例,所述SNP位点集合用于预定物种的预定品种的纯种鉴定,所述方法包括:(1)构建第一SNP位点集合和第二SNP位点集合,所述第一SNP位点集合中的每一个SNP位点均来源于所述预定物种的生物体,所述第二SNP位点集合中的每一个SNP位点均来源于所述预定品种的生物体;(2)针对所述第一SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定物种中的物种出现频率;(3)针对所述第二SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定品种中的品种出现频率;(4)基于所述品种出现频率与所述物种出现频率的差异,确定用于所述预定品种的纯种鉴定的SNP位点集合。
根据本发明的实施例,通过该方法确定的SNP位点集合,能够有效用于预定物种的预定品种的纯种鉴定,并且,所得鉴定结果准确可靠。
在本发明的另一方面,本发明提供了一种SNP位点集合。根据本发明的实施例,该SNP位点集合是通过前面所述的确定SNP位点集合的方法确定的。发明人惊奇地发现,该SNP位点集合能够有效用于预定物种的预定品种的纯种鉴定,并且,所得鉴定结果准确可靠。
在本发明的又一方面,本发明提供了一种SNP位点集合。根据本发明的实施例,该SNP位点集合由下表所示的30个SNP位点构成:
根据本发明的实施例,利用该SNP位点集合能够有效进行迷你贵宾犬的纯种鉴定,并且,所得鉴定结果准确可靠。
在本发明的再一方面,本发明提供了一种针对预定物种的预定品种进行纯种鉴定的方法。根据本发明的实施例,该方法包括:(I)针对所述预定品种选择用于进行纯种鉴定的SNP位点集合,所述用于进行纯种鉴定的SNP位点集合是基于前面所述的确定SNP位点集合的方法确定的,或者是如前所述的SNP位点集合;(II)基于所述用于进行纯种鉴定的SNP位点集合,构建候选SNP位点集合,所述候选SNP位点集合是所述用于进行纯种鉴定的SNP位点集合的子集;(III)针对所述候选SNP位点集合的每一个SNP位点,确定待鉴定生物体的SNP碱基类型,并按照下列公式确定所述待鉴定生物体的差异度D:a是所述候选SNP位点集合中SNP位点的数目,maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:当所述待鉴定生物体的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,当所述待鉴定生物体的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,当所述待鉴定生物体的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0;(IV)基于所述待鉴定生物体的差异度D与预定阈值的比较,确定所述待鉴定生物体是否为所述预定品种的纯种生物体。
根据本发明的实施例,利用本发明的针对预定物种的预定品种进行纯种鉴定的方法,能够有效地实现对预定物种的预定品种的纯种鉴定,并且该方法简单易操作、成本低、检测周期短,检测结果准确可靠。
在本发明的又一方面,本发明提供了一种用于确定SNP位点集合的装置。根据本发明的实施例,该用于确定SNP位点集合的装置包括:SNP位点集合构建单元,所述SNP位点集合构建单元用于构建第一SNP位点集合和第二SNP位点集合,所述第一SNP位点集合中的每一个SNP位点均来源于所述预定物种的生物体,所述第二SNP位点集合中的每一个SNP位点均来源于所述预定品种的生物体;物种出现频率确定单元,所述物种出现频率确定单元与所述SNP位点集合构建单元相连,用于针对所述第一SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定物种中的物种出现频率;品种出现频率确定单元,所述品种出现频率确定单元与所述SNP位点集合构建单元相连,用于针对所述第二SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定品种中的品种出现频率;纯种鉴定SNP位点集合确定单元,所述纯种鉴定SNP位点集合确定单元分别与所述物种出现频率确定单元和所述品种出现频率确定单元相连,用于基于所述品种出现频率与所述物种出现频率的差异,确定用于所述预定品种的纯种鉴定的SNP位点集合。根据本发明的实施例,利用该装置确定的SNP位点集合,能够有效用于预定物种的预定品种的纯种鉴定,并且,所得鉴定结果准确可靠。并且,该装置操作方便、成本低。
在本发明的再一方面,本发明提供了一种用于针对预定物种的预定品种进行纯种鉴定的系统。根据本发明的实施例,该系统包括:前面所述的用于确定SNP位点集合的装置,所述用于确定SNP位点集合的装置适于基于前面所述的确定SNP位点集合的方法确定针对所述预定品种的用于进行纯种鉴定的SNP位点集合;候选SNP位点集合构建装置,所述候选SNP位点集合构建装置与用于确定SNP位点集合的装置相连,用于基于所述用于进行纯种鉴定的SNP位点集合构建候选SNP位点集合,所述候选SNP位点集合是所述用于进行纯种鉴定的SNP位点集合的子集;差异度D确定装置,所述差异度D确定装置与所述候选SNP位点集合构建装置相连,用于针对所述候选SNP位点集合的每一个SNP位点,确定待鉴定生物体的SNP碱基类型,并按照下列公式确定所述待鉴定生物体的差异度D:a是所述候选SNP位点集合中SNP位点的数目,maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:当所述待鉴定生物体的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,当所述待鉴定生物体的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,当所述待鉴定生物体的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0;纯种鉴定装置,所述纯种鉴定装置与所述差异度D确定装置相连,用于基于所述待鉴定生物体的差异度D与预定阈值的比较,确定所述待鉴定生物体是否为所述预定品种的纯种生物体。
根据本发明的实施例,利用本发明的用于针对预定物种的预定品种进行纯种鉴定的系统,能够有效地实现对预定物种的预定品种的纯种鉴定,并且该系统操作方便,检测成本低、检测周期短,检测结果准确可靠。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1显示了根据本发明的实施例,本发明的确定SNP位点集合的方法的流程示意图;
图2显示了根据本发明的实施例,本发明的用于确定SNP位点集合的装置的结构示意图;
图3显示了根据本发明的实施例,本发明的用于针对预定物种的预定品种进行纯种鉴定的系统的结构示意图。
发明详细描述
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
确定SNP位点集合的方法和装置
在本发明的一个方面,本发明提供了一种确定SNP位点集合的方法。根据本发明的实施例,所述SNP位点集合用于预定物种的预定品种的纯种鉴定。发明人发现,通过该方法确定的SNP位点集合,能够有效用于预定物种的预定品种的纯种鉴定,并且,所得鉴定结果准确可靠。
根据本发明的实施例,参照图1,该确定SNP位点集合的方法包括:
S1:构建第一SNP位点集合和第二SNP位点集合
即步骤(1),构建第一SNP位点集合和第二SNP位点集合,所述第一SNP位点集合中的每一个SNP位点均来源于所述预定物种的生物体,所述第二SNP位点集合中的每一个SNP位点均来源于所述预定品种的生物体;
S2:确定预定碱基类型在预定物种中的物种出现频率
即步骤(2),针对所述第一SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定物种中的物种出现频率。
根据本发明的实施例,在步骤(2)中,所述物种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第一SNP位点集合的生物体数目)×2。
S3:确定预定碱基类型在预定品种中的品种出现频率
即步骤(3),针对所述第二SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定品种中的品种出现频率。
根据本发明的实施例,在步骤(3)中,所述品种出现频率是通过公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第二SNP位点集合的生物体数目)×2。
根据本发明的实施例,在步骤(2)和(3)的至少之一中,基于以下原则确定特定SNP的预定碱基类型出现次数:针对纯合型预定碱基类型,将所述预定碱基类型的出现次数记为2次;针对杂合型预定碱基类型,将所述预定碱基类型的出现次数记为1次。其中,需要说明的是,本文中所述的“特定SNP的预定碱基类型出现次数”即为在“构成所述第二SNP位点集合的所有生物体”中出现的总次数,上述原则为针对任一个生物体样本中出现的次数的计数方式。
根据本发明的实施例,所述预定碱基类型为野生型碱基。根据本发明的另一些实施例,所述预定碱基类型还可以为突变型碱基。
S4:基于品种出现频率与物种出现频率的差异确定用于预定品种的纯种鉴定的SNP位点集合
即步骤(4),基于所述品种出现频率与所述物种出现频率的差异,确定用于所述预定品种的纯种鉴定的SNP位点集合。
根据本发明的实施例,在步骤(4)中,基于所述品种出现频率与所述物种出现频率的差值绝对值,确定用于所述预定品种的纯种鉴定的SNP位点集合。
根据本发明的实施例,选择所述品种出现频率与所述物种出现频率的差值绝对值最大的20个SNP位点,作为用于预定品种的纯种鉴定的SNP位点集合。
根据本发明的实施例,所述方法进一步包括:
(5)对所述用于预定品种的纯种鉴定的SNP位点集合进行过滤,所述过滤是基于对所述SNP位点进行PCR引物设计实现的。即过滤掉不易进行PCR扩增(例如由于反应温度或位点间的相互反应而出现冲突)的SNP位点,然后继续选取差值绝对值排名开后的位点,只至补足20个SNP位点。
根据本发明的实施例,所述方法进一步包括:(a)构建第三SNP位点集合,所述第三SNP位点集合中的每一个SNP位点均来源于所述预定品种的至少一种近亲品种的生物体;(b)针对所述第三SNP位点集合中的每一个SNP位点,确定预定碱基类型在所述预定品种的所述近亲品种中的近亲品种出现频率;(c)基于所述品种出现频率与所述近亲品种出现频率的差异,确定补充SNP位点集合,并将所述补充SNP位点集合并入至所述用于预定物种的纯种鉴定的SNP位点集合。根据本发明的实施例,在步骤(b)中,所述近亲品种出现频率是通过下述公式确定的:(特定SNP的预定碱基类型出现次数)/(构成所述第三SNP位点集合的生物体数目)×2。根据本发明的实施例,在步骤(c)中,基于所述品种出现频率与所述近亲品种出现频率的差值绝对值,确定所述补充SNP位点集合。根据本发明的一些具体示例,针对每种所述近亲品种,选择所述品种出现频率与所述近亲品种出现频率的差值绝对值最大的5个SNP位点,构建所述补充SNP位点集合。根据本发明的一些实施例,在步骤(a)中,采用与所述预定品种最接近的两种近亲品种。其中,需要说明的是,所述“预定品种的近亲品种”,可基于下列文献中提供的数据确定:Parker H G,Dreger D L,Rimbault M,et al.GenomicAnalyses Reveal the Influence of Geographic Origin,Migration,andHybridization on Modern Dog Breed Development[J].Cell Reports,2017,19(4):697-708.(通过参照将其全文并入本文)。例如,通过文献可以总结得出各品种狗之间的相似度数值,然后选择与预定品种相似度值最接近的两种品种,视作育种上与其亲缘关系最近的两种近亲品种。
根据本发明的实施例,所述预定物种为狗或猫。
在本发明的另一方面,本发明提供了一种SNP位点集合。根据本发明的实施例,该SNP位点集合是通过前面所述的确定SNP位点集合的方法确定的。发明人惊奇地发现,该SNP位点集合能够有效用于预定物种的预定品种的纯种鉴定,并且,所得鉴定结果准确可靠。
在本发明的又一方面,本发明还提供了一种SNP位点集合。根据本发明的实施例,该SNP位点集合由下表所示的30个SNP位点构成:
根据本发明的实施例,利用该SNP位点集合能够有效进行迷你贵宾犬的纯种鉴定,并且,所得鉴定结果准确可靠。
在本发明的又一方面,本发明提供了一种用于确定SNP位点集合的装置。根据本发明的实施例,利用该装置确定的SNP位点集合,能够有效用于预定物种的预定品种的纯种鉴定,并且,所得鉴定结果准确可靠。并且,该装置操作方便、成本低。
根据本发明的实施例,参照图2,该用于确定SNP位点集合的装置1000包括:SNP位点集合构建单元100、物种出现频率确定单元200、品种出现频率确定单元300和纯种鉴定SNP位点集合确定单元400。
具体地,根据本发明的一些实施例,所述SNP位点集合构建单元100用于构建第一SNP位点集合和第二SNP位点集合,所述第一SNP位点集合中的每一个SNP位点均来源于所述预定物种的生物体,所述第二SNP位点集合中的每一个SNP位点均来源于所述预定品种的生物体;所述物种出现频率确定单元200与所述SNP位点集合构建单元100相连,用于针对所述第一SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定物种中的物种出现频率;所述品种出现频率确定单元300与所述SNP位点集合构建单元100相连,用于针对所述第二SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定品种中的品种出现频率;所述纯种鉴定SNP位点集合确定单元400分别与所述物种出现频率确定单元200和所述品种出现频率确定单元300相连,用于基于所述品种出现频率与所述物种出现频率的差异,确定用于所述预定品种的纯种鉴定的SNP位点集合。
根据本发明的实施例,在所述物种出现频率确定单元200中,所述物种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第一SNP位点集合的生物体数目)×2。
根据本发明的实施例,在所述品种出现频率确定单元300中,所述品种出现频率是通过公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第二SNP位点集合的生物体数目)×2。
根据本发明的实施例,在所述物种出现频率确定单元200和所述品种出现频率确定单元300的至少之一中,基于以下原则确定特定SNP的预定碱基类型出现次数:针对纯合型预定碱基类型,将所述预定碱基类型的出现次数记为2次;针对杂合型预定碱基类型,将所述预定碱基类型的出现次数记为1次。
根据本发明的实施例,所述预定碱基类型为野生型碱基。
根据本发明的实施例,在所述纯种鉴定SNP位点集合确定单元400中,基于所述品种出现频率与所述物种出现频率的差值绝对值,确定用于所述预定品种的纯种鉴定的SNP位点集合。
根据本发明的实施例,选择所述品种出现频率与所述物种出现频率的差值绝对值最大的20个SNP位点,作为用于预定品种的纯种鉴定的SNP位点集合。
根据本发明的实施例,进一步包括过滤单元,所述过滤单元与所述纯种鉴定SNP位点集合确定单元400相连,用于对所述用于预定品种的纯种鉴定的SNP位点集合进行过滤,所述过滤是基于对所述SNP位点进行PCR引物设计实现的。
根据本发明的实施例,进一步包括SNP位点集合补充单元(图中未示出),所述SNP位点集合补充单元适于按照以下步骤进行:(a)构建第三SNP位点集合,所述第三SNP位点集合中的每一个SNP位点均来源于所述预定品种的至少一种近亲品种的生物体;(b)针对所述第三SNP位点集合中的每一个SNP位点,确定预定碱基类型在所述预定品种的所述近亲品种中的近亲品种出现频率;(c)基于所述品种出现频率与所述近亲品种出现频率的差异,确定补充SNP位点集合,并将所述补充SNP位点集合并入至所述用于预定物种的纯种鉴定的SNP位点集合。根据本发明的实施例,在步骤(b)中,所述近亲品种出现频率是通过下述公式确定的:(特定SNP的预定碱基类型出现次数)/(构成所述第三SNP位点集合的生物体数目)×2。根据本发明的实施例,在步骤(c)中,基于所述品种出现频率与所述近亲品种出现频率的差值绝对值,确定所述补充SNP位点集合。根据本发明的实施例,针对每种所述近亲品种,选择所述品种出现频率与所述近亲品种出现频率的差值绝对值最大的5个SNP位点,构建所述补充SNP位点集合。根据本发明的实施例,在步骤(a)中,采用与所述预定品种最接近的两种近亲品种。
根据本发明的实施例,所述预定物种为狗或猫。
应用
进一步,发明人提供了确定SNP位点集合的方法和装置的应用,即在上述方法和装置的基础上,针对预定物种的预定品种进行纯种鉴定的方法。具体如下:
在本发明的再一方面,本发明还提供了一种针对预定物种的预定品种进行纯种鉴定的方法。根据本发明的实施例,利用本发明的针对预定物种的预定品种进行纯种鉴定的方法,能够有效地实现对预定物种的预定品种的纯种鉴定,并且该方法简单易操作、成本低、检测周期短,检测结果准确可靠。
根据本发明的实施例,该方法包括以下步骤:
(I)针对所述预定品种选择用于进行纯种鉴定的SNP位点集合,所述用于进行纯种鉴定的SNP位点集合是基于前面所述的确定SNP位点集合的方法确定的,或者是如前所述的SNP位点集合。
(II)基于所述用于进行纯种鉴定的SNP位点集合,构建候选SNP位点集合,所述候选SNP位点集合是所述用于进行纯种鉴定的SNP位点集合的子集。
根据本发明的实施例,所述候选SNP集合是通过从用于进行纯种鉴定的SNP位点集合中减去所述待鉴定生物体中无法检测的SNP而确定的。根据本发明的实施例,所述候选SNP集合中SNP位点的数目比所述用于进行纯种鉴定的SNP位点集合少1~2个。根据本发明的一些具体示例,所述候选SNP位点集合由下表所示的30个SNP位点构成:
(III)针对所述候选SNP位点集合的每一个SNP位点,确定待鉴定生物体的SNP碱基类型,并按照下列公式确定所述待鉴定生物体的差异度D:
a是所述候选SNP位点集合中SNP位点的数目,
maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,
针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:当所述待鉴定生物体的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,当所述待鉴定生物体的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,当所述待鉴定生物体的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0。
(IV)基于所述待鉴定生物体的差异度D与预定阈值的比较,确定所述待鉴定生物体是否为所述预定品种的纯种生物体。根据本发明的实施例,所述预定阈值是基于多个预定品种的纯种生物体的所述差异度D确定的。根据本发明的实施例,所述预定阈值是通过下列步骤确定的:(i)针对所述候选SNP位点集合,基于多个所述预定品种的纯种生物体,分别确定各纯种生物体的差异度D;(ii)基于步骤(i)中获得的各纯种生物体的差异度D,确定所述多个预定品种的纯种生物体的差异度D的平均值E和标准偏差SD;(iii)基于公式E+4*SD,确定所述预定阈值。
根据本发明的实施例,所述预定物种为狗或猫。
根据本发明的实施例,所述待鉴定生物体的差异度D小于所述预定阈值是所述待鉴定生物体为所述预定品种的纯种生物体的指示。
根据本发明的一些具体示例,所述预定品种为迷你贵宾犬,所述预定阈值为至多5.965449379。
在本发明的再一方面,本发明提供了一种用于针对预定物种的预定品种进行纯种鉴定的系统。根据本发明的实施例,利用本发明的用于针对预定物种的预定品种进行纯种鉴定的系统,能够有效地实现对预定物种的预定品种的纯种鉴定,并且该系统操作方便,检测成本低、检测周期短,检测结果准确可靠。
根据本发明的实施例,参照图3,该用于针对预定物种的预定品种进行纯种鉴定的系统10000包括:用于确定SNP位点集合的装置1000、候选SNP位点集合构建装置2000、差异度D确定装置3000和纯种鉴定装置4000。
根据本发明的一些具体示例,所述用于确定SNP位点集合的装置1000适于基于前面所述的确定SNP位点集合的方法确定针对所述预定品种的用于进行纯种鉴定的SNP位点集合;所述候选SNP位点集合构建装置2000与用于确定SNP位点集合的装置1000相连,用于基于所述用于进行纯种鉴定的SNP位点集合构建候选SNP位点集合,所述候选SNP位点集合是所述用于进行纯种鉴定的SNP位点集合的子集;所述差异度D确定装置3000与所述候选SNP位点集合构建装置2000相连,用于针对所述候选SNP位点集合的每一个SNP位点,确定待鉴定生物体的SNP碱基类型,并按照下列公式确定所述待鉴定生物体的差异度D:a是所述候选SNP位点集合中SNP位点的数目,maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:当所述待鉴定生物体的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,当所述待鉴定生物体的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,当所述待鉴定生物体的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0;所述纯种鉴定装置4000与所述差异度D确定装置3000相连,用于基于所述待鉴定生物体的差异度D与预定阈值的比较,确定所述待鉴定生物体是否为所述预定品种的纯种生物体。
根据本发明的实施例,所述预定阈值是基于多个预定品种的纯种生物体的所述差异度D确定的。
根据本发明的实施例,所述预定阈值是通过下列步骤确定的:(i)针对所述候选SNP位点集合,基于多个所述预定品种的纯种生物体,分别确定各纯种生物体的差异度D;(ii)基于步骤(i)中获得的各纯种生物体的差异度D,确定所述多个预定品种的纯种生物体的差异度D的平均值E和标准偏差SD;(iii)基于公式E+4*SD,确定所述预定阈值。
根据本发明的实施例,所述预定物种为狗或猫。
根据本发明的实施例,所述候选SNP集合是通过从用于进行纯种鉴定的SNP位点集合中减去所述待鉴定生物体中无法检测的SNP而确定的。
根据本发明的实施例,所述候选SNP集合中SNP位点的数目比所述用于进行纯种鉴定的SNP位点集合少1~2个。
根据本发明的实施例,所述候选SNP位点集合由下表所示的30个SNP位点构成:
根据本发明的实施例,所述待鉴定生物体的差异度D小于所述预定阈值是所述待鉴定生物体为所述预定品种的纯种生物体的指示。
根据本发明的实施例,所述预定品种为迷你贵宾犬,所述预定阈值为至多5.965449379。
根据本发明的一些实施例,以狗为例,本发明的确定SNP位点集合并针对预定物种的预定品种进行纯种鉴定的方法还可以包括以下步骤:
1)获得已知狗SNP芯片数据,具体可以在https://www.ncbi.nlm.nih.gov/gds/?term=dog以及https://www.ncbi.nlm.nih.gov/pubmed/26795439上收集其列出的所有狗的SNP分型数据,针对SNP分型数据中的每一个SNP位点,统计在上述的所有样本中,该位点对应的分型结果A和B出现的次数,其中A为野生型,B为突变型,对于分型值AA或BB的情况,视作A或B出现了2次,对于分型值为AB的情况,视作A和B各出现了一次,统计完所有样本在该点上分型结果的出现次数之后,将该点A或B出现的次数除以总样本数,得到该SNP位点上不同碱基的出现频率,重复上述的过程,计算所有SNP点上出现频率,将在全体狗上的野生型出现频率的向量称为A。
2)选取待检测品种的狗的SNP数据(可来自公开数据或私有数据),按照步骤1)中所述的方式,得出在特定品种下,每个SNP点上不同碱基的出现频率,将该品种狗中该点野生型的频率称为a。
3)针对每个SNP位点,计算A与a的差值,选取差的绝对值最大的20个SNP点,用于之后的质谱/PCR引物的设计,以便对选取的SNP点进行进一步筛选:如上述的SNP位点在设计引物时由于反应温度或位点间的相互反应出现冲突,可以剔除部分SNP位点,选取差值排名靠后的位点,直到选出20个SNP位点。
4)根据待检测品种,选取进化/育种上与其亲缘关系最近的两个品种,分别查找这些品种的狗的SNP数据,按照步骤1)中描述的方法,分别得出各品种狗中该野生型的频率,将其称之为a1,a2。
5)分别计算步骤2)中得到的待检测品种的各SNP位点的a与选取的两个品种的各SNP位点的a1、a2的差的绝对值,各选取差的绝对值最大的5个SNP位点,并将其交集加上步骤3)得到的20个SNP位点,共30个SNP位点。进一步,将这30个SNP位点用于之后的质谱/PCR引物的设计,以便对选取的SNP点进行进一步筛选:如上述的30个SNP位点在设计引物时由于反应温度或位点间的相互反应出现冲突,可以剔除部分SNP位点,选取差值排名靠后的位点,保证每对临近的品种选出5对SNP位点。结合步骤3)得到的20个SNP位点,共30个SNP位点,称为SNP Set,即作为用于预定物种的预定品种的纯种鉴定的SNP位点集合。
需要说明的是,之所以选择30个而不是更多的位点,是为了减少后续实验设计的复杂度,故SNP的位点数应该设定为能准确区分是否为纯种的最小数值。根据考察现有数据下不同SNP点时的准确性,得到在30位点时,可以使判定待检测狗是否为纯种狗的判定假阳性降低到1%以下,从而以较低的检测成本得到可接受的准确度。
6)在选定了SNP位点的集合后,针对集合的每一个SNP位点,确定待检测狗的SNP碱基类型,并按照下列公式确定该待检测狗的差异度D:
a是所述候选SNP位点集合中SNP位点的数目,
maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,
针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:
当待检测狗的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,
当待检测狗的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,
当待检测狗的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0。
7)基于该待检测狗的差异度D与预定阈值的比较,确定该待检测狗是否为所述预定品种的纯种狗。所述预定阈值是基于多个预定品种的纯种生物体的所述差异度D确定的,具体步骤如下:(i)针对所述候选SNP位点集合,基于多个所述预定品种的纯种生物体,分别确定各纯种生物体的差异度D;(ii)基于步骤(i)中获得的各纯种生物体的差异度D,确定所述多个预定品种的纯种生物体的差异度D的平均值E和标准偏差SD;(iii)基于公式E+4*SD,确定所述预定阈值。
其中,需要说明的是,基于公式E+4*SD,计算出的标准差意味着该品种的纯种狗平均偏离E值的程度,假设纯种狗的差异度D值成正态分布,那么E+4*D则意味着99.3%的准确度确实为纯种狗,故对特定品种,将E+4*D作为判定待检测狗是否为纯种狗的标准线——即上述的“预定阈值”。
其中,所述待鉴定生物体的差异度D小于所述预定阈值是所述待鉴定生物体为所述预定品种的纯种生物体的指示。
需要说明的是,本发明的确定SNP位点集合的方法、装置及其应用,具有以下优点的至少之一:
1、本发明的确定SNP位点集合的方法、装置,以及针对预定物种的预定品种进行纯种鉴定的方法和系统,能够有效地用于预定物种的预定品种的纯种鉴定,且鉴定结果准确可靠。
2、基于本发明的确定SNP位点集合的方法和针对预定物种的预定品种进行纯种鉴定的方法,可以设计判定制定品种宠物狗的试剂盒或基因检测产品。应用构建出的基因检测产品,可以有效替代目前依据性状进行狗纯种鉴定的方式,从而为纯种狗的认证提供了一个更客观、更便捷、成本更低廉的手段。
3、本发明的发明构思和方案还可以应用到特种狗,如搜救犬、缉毒犬的选育上,从而为优良品种的培育做出贡献。并且,在未来积累了足够的牛或猪等畜牧业上有价值的物种的群体基因数据后,本发明的方法也可以用于畜牧业上优良品种的鉴定上。下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
一般方法:
根据本发明的实施例,参照图1,本发明的确定SNP位点集合并进行预定物种的预定品种的纯种鉴定的方法,一般可以包括以下步骤:
(1)构建第一SNP位点集合和第二SNP位点集合,所述第一SNP位点集合中的每一个SNP位点均来源于所述预定物种的生物体,所述第二SNP位点集合中的每一个SNP位点均来源于所述预定品种的生物体。
(2)针对所述第一SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定物种中的物种出现频率。其中,所述物种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第一SNP位点集合的生物体数目)×2。
(3)针对所述第二SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定品种中的品种出现频率。其中,所述品种出现频率是通过公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第二SNP位点集合的生物体数目)×2。
其中,所述预定碱基类型为野生型碱基,在步骤(2)和(3)的至少之一中,基于以下原则确定特定SNP的预定碱基类型出现次数:针对纯合型预定碱基类型,将所述预定碱基类型的出现次数记为2次;针对杂合型预定碱基类型,将所述预定碱基类型的出现次数记为1次。
(4)基于所述品种出现频率与所述物种出现频率的差异,确定用于所述预定品种的纯种鉴定的SNP位点集合。其中,基于所述品种出现频率与所述物种出现频率的差值绝对值,确定用于所述预定品种的纯种鉴定的SNP位点集合;选择所述品种出现频率与所述物种出现频率的差值绝对值最大的20个SNP位点,作为用于预定品种的纯种鉴定的SNP位点集合。
(5)对所述用于预定品种的纯种鉴定的SNP位点集合进行过滤,所述过滤是基于对所述SNP位点进行PCR引物设计实现的。
(6)构建补充SNP位点集合,具体包括:(a)构建第三SNP位点集合,所述第三SNP位点集合中的每一个SNP位点均来源于所述预定品种的至少一种近亲品种的生物体;(b)针对所述第三SNP位点集合中的每一个SNP位点,确定预定碱基类型在所述预定品种的所述近亲品种中的近亲品种出现频率;(c)基于所述品种出现频率与所述近亲品种出现频率的差异,确定补充SNP位点集合,并将所述补充SNP位点集合并入至所述用于预定物种的纯种鉴定的SNP位点集合。根据本发明的实施例,在步骤(b)中,所述近亲品种出现频率是通过下述公式确定的:(特定SNP的预定碱基类型出现次数)/(构成所述第三SNP位点集合的生物体数目)×2。根据本发明的实施例,在步骤(c)中,基于所述品种出现频率与所述近亲品种出现频率的差值绝对值,确定所述补充SNP位点集合。根据本发明的一些具体示例,针对每种所述近亲品种,选择所述品种出现频率与所述近亲品种出现频率的差值绝对值最大的5个SNP位点,构建所述补充SNP位点集合。其中,在步骤(a)中,采用与所述预定品种最接近的两种近亲品种。
(7)基于所述用于进行纯种鉴定的SNP位点集合,构建候选SNP位点集合,所述候选SNP位点集合是所述用于进行纯种鉴定的SNP位点集合的子集。其中,所述候选SNP集合是通过从用于进行纯种鉴定的SNP位点集合中减去所述待鉴定生物体中无法检测的SNP而确定的,所述候选SNP集合中SNP位点的数目比所述用于进行纯种鉴定的SNP位点集合少1~2个。
(8)针对所述候选SNP位点集合的每一个SNP位点,确定待鉴定生物体的SNP碱基类型,并按照下列公式确定所述待鉴定生物体的差异度D:a是所述候选SNP位点集合中SNP位点的数目,maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:当所述待鉴定生物体的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,当所述待鉴定生物体的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,当所述待鉴定生物体的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0。
(9)基于多个预定品种的纯种生物体的所述差异度D确定预定阈值。其中,所述预定阈值是通过下列步骤确定的:(i)针对所述候选SNP位点集合,基于多个所述预定品种的纯种生物体,分别确定各纯种生物体的差异度D;(ii)基于步骤(i)中获得的各纯种生物体的差异度D,确定所述多个预定品种的纯种生物体的差异度D的平均值E和标准偏差SD;(iii)基于公式E+4*SD,确定所述预定阈值。
(10)基于所述待鉴定生物体的差异度D与预定阈值的比较,确定所述待鉴定生物体是否为所述预定品种的纯种生物体。其中,所述待鉴定生物体的差异度D小于所述预定阈值是所述待鉴定生物体为所述预定品种的纯种生物体的指示。
实施例1:
收集20例宠物狗样本作为待鉴定生物体,其中各宠物狗已根据血统证这种传统方法判定为:纯种迷你贵宾犬的10只(作为阳性样本),不为迷你贵宾犬但体型相近的小型犬10只(作为阴性样本)。然后,根据本发明的确定SNP位点集合的方法以及针对预定物种的预定品种进行纯种鉴定的方法,参照图1和上述的“一般方法”,对待鉴定宠物狗进行迷你贵宾犬纯种鉴定。
具体步骤如下:
1)整合NCBI上的狗的基因分型数据,来源包括https://www.ncbi.nlm.nih.gov/gds/?term=dog以及https://www.ncbi.nlm.nih.gov/pubmed/26795439的对应基因分型数据。针对SNP分型数据中的每一个SNP位点,统计在上述的所有样本中,该位点对应的分型结果A和B出现的次数,其中A为野生型,B为突变型,对于分型值AA或BB的情况,视作A或B出现了2次,对于分型值为AB的情况,视作A和B各出现了一次,统计完所有样本在该点上分型结果的出现次数之后,将该点A或B出现的次数除以总样本数,得到该SNP位点上不同碱基的出现频率,重复上述的过程,计算所有SNP点上出现频率,将在全体狗上的野生型出现频率的向量称为A。
其中,将得到的全部狗的数据以下表所示一个16万行的表的形式表示,即按相同的格式呈现,其中每一列代表一个样本,每一行代表一个SNP位点,不同数据文件的区别体现在数据包含的样本不同。
SNP ID,MinPoo1,MinPoo2,MinPoo3,...,MinPoo23
BICF2P778138,AC,AA,AA,...,CC
BICF2S22950522,TT,TT,TC,...,TC
2)选取纯种迷你贵宾犬的已知SNP数据(数据来源NCBI),按照步骤1)中所述的方式,得出在特定品种下(纯种迷你贵宾犬),每个SNP点上不同碱基的出现频率,将该品种狗中该点野生型的频率称为a。
结果,发明人得到23只纯种迷你贵宾犬的全基因组高密度芯片Illumina canineHD的分型数据。
基于得到的迷你贵宾犬的基因数据,针对每一个SNP位点,找出该点可能出现的两个碱基类型,将其称为A和B,由此产生3种分型值,即AA,AB,BB,遍历每一个样本中该SNP位点的数据,统计该SNP位点上各个分型值分别出现的次数。分型为AA记做碱基A出现2次,分型为BB记做碱基B出现2次,分型为AB记做碱基A和碱基B各出现1次。除以总样本数乘二。针对每个SNP位点,重复上述的步骤,计算得出在全部品种下每个SNP位点的野生型的频率a。
3)针对每个SNP位点,计算A与a的差值,选取差的绝对值最大的20个SNP点,用于之后的质谱/PCR引物的设计,以便对选取的SNP点进行进一步筛选:如上述的SNP位点在设计引物时由于反应温度或位点间的相互反应出现冲突,可以剔除部分SNP位点,选取差值排名靠后的位点,直到选出20个SNP位点。
选出的20个SNP位点的信息如下:
4)根据待检测品种,选取进化/育种上与其亲缘关系最近的两个品种,分别查找这些品种的狗的SNP数据,按照步骤1)中描述的方法,分别得出各品种狗中该野生型的频率,将其称之为a1,a2。
具体地,根据文献Genomic Analyses Reveal the Influence of GeographicOrigin,Migration,and Hybridization on Modern Dog Breed Development(如前所述,此处不再赘述)得出各品种狗之间的相似度值,进而,根据该表中迷你贵宾犬对应的行,选择该行数值最大的两个品种,作为与迷你贵宾犬品种最接近的犬种:贵宾犬和比熊犬。
进而,发明人得到29只贵宾犬,35只比熊犬的的全基因组高密度芯片Illuminacanine HD的分型数据。各数据以步骤1)所示的格式呈现。
5)分别计算步骤2)中得到的待检测品种的各SNP位点的a与上述选取的两个品种的各SNP位点的a1、a2的差的绝对值,各选取差的绝对值最大的5个SNP位点,结果如下:
与贵宾犬的差的绝对值最大的5个SNP位点
chr ID 83750501
5 BICF2S2438527 83750501
17 BICF2P741376 39516535
10 BICF2P1029562 8002390
10 BICF2P1118840 7957984
10 BICF2S23211087 7993147
与比熊犬的差的绝对值最大的5个SNP位点
进一步,将上述10个位点的交集加上步骤3)得到的20个SNP位点,共30个SNP位点。进一步,将这30个SNP位点用于之后的质谱/PCR引物的设计,以便对选取的SNP点进行进一步筛选:如上述的30个SNP位点在设计引物时由于反应温度或位点间的相互反应出现冲突,可以剔除部分SNP位点,选取差值排名靠后的位点,保证每对临近的品种选出5对SNP位点。结合步骤3)得到的20个SNP位点,共30个SNP位点,称为SNP Set,即作为用于迷你贵宾犬的纯种鉴定的SNP位点集合。结果如下:
6)在选定了SNP位点的集合后,针对集合的每一个SNP位点,确定待检测狗的SNP碱基类型,并按照下列公式确定该待检测狗的差异度D:a是所述候选SNP位点集合中SNP位点的数目,maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:当待检测狗的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,当待检测狗的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,当待检测狗的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0。
其中,针对20只待鉴定宠物狗,按照如下方法确定待检测狗的SNP碱基类型:
分别收取各宠物狗的唾液样本,唾液采样器用的是PerformagenePG-100collection kit,提取试剂盒是PG-AC4 reagent package,按照试剂盒说明书进行操作,最后将DNA溶于40μL TE溶液。然后,对上述20个样本使用Illumimna CanineHD芯片进行全基因组高密度芯片测序,共得到十六万个全基因组分型结果。然后从得到的全基因组基因分型中找出步骤5)选出的30个SNP位点的分型结果。
然后,依据上述确定的各待检测狗的SNP碱基类型,按照上述公式确定各待检测狗的差异度D。结果见下表。
10个阳性样本的D值
Dog ID D值
1 5.03
2 4.08
3 5.48
4 4.39
5 4.35
6 4.63
7 3.79
8 3.33
9 5.14
10 3.02
10个阴性性样本的D值
7)确定预定阈值。所述预定阈值是基于多个迷你贵宾犬的纯种狗的所述差异度D确定的,具体步骤如下:(i)针对所述候选SNP位点集合,基于多个所述预定品种的纯种生物体,分别确定各纯种生物体的差异度D;(ii)基于步骤(i)中获得的各纯种生物体的差异度D,确定所述多个预定品种的纯种生物体的差异度D的平均值E和标准偏差SD;(iii)基于公式E+4*SD,确定所述预定阈值。
基于NCBI中已知的23只纯种迷你贵宾犬的分型数据,分别计算各已知纯种迷你贵宾犬的D值,结果见下表:
已知的纯种迷你贵宾犬的D值
进而,基于上表中每一只迷你贵宾犬的D值,计算SD和E,按照公式E+4*SD计算得到针对迷你贵宾犬的预定阈值,该值为5.965449379。
8)基于各待检测狗的差异度D与预定阈值的比较,确定该待检测狗是否为迷你贵宾犬的纯种狗。其中,所述待鉴定宠物狗的差异度D小于所述预定阈值是所述待鉴定宠物狗为迷你贵宾犬纯种狗的指示。
结果发现,迷你贵宾犬纯种判定结果与各宠物狗已有的血统证上的结果一致,即所有的10只纯种迷你贵宾犬都被判定为纯种迷你贵宾犬,所有的10只其他品种的犬都没有被判为迷你贵宾犬。也即本发明的方法判定的准确度为100%。
其中,本实施例同时设置两个对照:一是使用Illumina微阵列芯片,针对上述待鉴定宠物狗一次性检测17万个SNP位点,基于所有SNP位点检测结果进行纯种判定。二是针对上述待鉴定宠物狗进行全基因组重测序,基于重测序结果进行纯种判定。结果显示,两个对照的鉴定结果均与利用本发明的方法鉴定的结果一致,即判定待鉴定宠物狗为纯种迷你贵宾犬。
工业实用性
本发明的确定SNP位点集合的方法及装置,能够有效地确定可用于预定物种的预定品种的纯种鉴定的SNP位点集合,并且,利用该SNP位点集合进行预定物种的预定品种的纯种鉴定,检测成本低、检测周期短,检测结果准确可靠。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims (6)

1.一种针对预定物种的预定品种进行纯种鉴定的方法,其特征在于,包括:
(I)针对所述预定品种选择用于进行纯种鉴定的SNP位点集合,所述用于进行纯种鉴定的SNP位点集合是基于下述方法确定的:
(1)构建第一SNP位点集合和第二SNP位点集合,所述第一SNP位点集合中的每一个SNP位点均来源于所述预定物种的生物体,所述第二SNP位点集合中的每一个SNP位点均来源于所述预定品种的生物体;
(2)针对所述第一SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定物种中的物种出现频率;
(3)针对所述第二SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定品种中的品种出现频率;
(4)基于所述品种出现频率与所述物种出现频率的差异,确定用于所述预定品种的纯种鉴定的SNP位点集合;
(II)基于所述用于进行纯种鉴定的SNP位点集合,构建候选SNP位点集合,所述候选SNP位点集合是所述用于进行纯种鉴定的SNP位点集合的子集;
(III)针对所述候选SNP位点集合的每一个SNP位点,确定待鉴定生物体的SNP碱基类型,并按照下列公式确定所述待鉴定生物体的差异度D:
a是所述候选SNP位点集合中SNP位点的数目,
maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,
针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:
当所述待鉴定生物体的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,
当所述待鉴定生物体的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,
当所述待鉴定生物体的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0;
(IV)基于所述待鉴定生物体的差异度D与预定阈值的比较,确定所述待鉴定生物体是否为所述预定品种的纯种生物体;
其中,所述预定阈值是基于多个预定品种的纯种生物体的所述差异度D确定的,是通过下列步骤确定的:
(i)针对所述候选SNP位点集合,基于多个所述预定品种的纯种生物体,分别确定各纯种生物体的差异度D;
(ii)基于步骤(i)中获得的各纯种生物体的差异度D,确定所述多个预定品种的纯种生物体的差异度D的平均值E和标准偏差SD;
(iii)基于公式E+4*SD,确定所述预定阈值;
所述候选SNP集合是通过从用于进行纯种鉴定的SNP位点集合中减去所述待鉴定生物体中无法检测的SNP而确定的,所述候选SNP集合中SNP位点的数目比所述用于进行纯种鉴定的SNP位点集合少1~2个,所述无法检测的SNP为不易进行PCR扩增的SNP;
所述待鉴定生物体的差异度D小于所述预定阈值是所述待鉴定生物体为所述预定品种的纯种生物体的指示;
在步骤(2)中,所述物种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第一SNP位点集合的生物体数目)×2;
在步骤(3)中,所述品种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第二SNP位点集合的生物体数目)×2;
在步骤(2)和(3)的至少之一中,基于以下原则确定特定SNP的预定碱基类型出现次数:
针对纯合型预定碱基类型,将所述预定碱基类型的出现次数记为2次;
针对杂合型预定碱基类型,将所述预定碱基类型的出现次数记为1次;
所述预定碱基类型为野生型碱基;
在步骤(4)中,基于所述品种出现频率与所述物种出现频率的差值绝对值,确定用于所述预定品种的纯种鉴定的SNP位点集合;
选择所述品种出现频率与所述物种出现频率的差值绝对值最大的20个SNP位点,作为用于预定品种的纯种鉴定的SNP位点集合;
用于进行纯种鉴定的SNP位点集合进一步包括:
(5)对所述用于预定品种的纯种鉴定的SNP位点集合进行过滤,所述过滤是基于对所述SNP位点进行PCR引物设计实现的;
用于进行纯种鉴定的SNP位点集合进一步包括:
(a)构建第三SNP位点集合,所述第三SNP位点集合中的每一个SNP位点均来源于所述预定品种的至少一种近亲品种的生物体;
(b)针对所述第三SNP位点集合中的每一个SNP位点,确定预定碱基类型在所述预定品种的所述近亲品种中的近亲品种出现频率;
(c)基于所述品种出现频率与所述近亲品种出现频率的差异,确定补充SNP位点集合,并将所述补充SNP位点集合并入至所述用于预定物种的纯种鉴定的SNP位点集合;
在步骤(b)中,所述近亲品种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第三SNP位点集合的生物体数目)×2;
在步骤(c)中,基于所述品种出现频率与所述近亲品种出现频率的差值绝对值,确定所述补充SNP位点集合;
针对每种所述近亲品种,选择所述品种出现频率与所述近亲品种出现频率的差值绝对值最大的5个SNP位点,构建所述补充SNP位点集合;
在步骤(a)中,采用与所述预定品种最接近的两种近亲品种。
2.根据权利要求1所述的方法,其特征在于,所述预定物种为狗或猫。
3.根据权利要求1所述的方法,其特征在于,所述候选SNP位点集合由下表所示的30个SNP位点构成:
所述预定品种为迷你贵宾犬,所述预定阈值为5.965449379。
4.一种用于针对预定物种的预定品种进行纯种鉴定的系统,其特征在于,包括:
用于确定SNP位点集合的装置,所述用于确定SNP位点集合的装置适于确定针对预定品种的用于进行纯种鉴定的SNP位点集合,包括:
SNP位点集合构建单元,所述SNP位点集合构建单元用于构建第一SNP位点集合和第二SNP位点集合,所述第一SNP位点集合中的每一个SNP位点均来源于所述预定物种的生物体,所述第二SNP位点集合中的每一个SNP位点均来源于所述预定品种的生物体;
物种出现频率确定单元,所述物种出现频率确定单元与所述SNP位点集合构建单元相连,用于针对所述第一SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定物种中的物种出现频率;
品种出现频率确定单元,所述品种出现频率确定单元与所述SNP位点集合构建单元相连,用于针对所述第二SNP位点集合中的每一个SNP位点,分别确定预定碱基类型在所述预定品种中的品种出现频率;
纯种鉴定SNP位点集合确定单元,所述纯种鉴定SNP位点集合确定单元分别与所述物种出现频率确定单元和所述品种出现频率确定单元相连,用于基于所述品种出现频率与所述物种出现频率的差异,确定用于所述预定品种的纯种鉴定的SNP位点集合;
候选SNP位点集合构建装置,所述候选SNP位点集合构建装置与用于确定SNP位点集合的装置相连,用于基于所述用于进行纯种鉴定的SNP位点集合构建候选SNP位点集合,所述候选SNP位点集合是所述用于进行纯种鉴定的SNP位点集合的子集;
差异度D确定装置,所述差异度D确定装置与所述候选SNP位点集合构建装置相连,用于针对所述候选SNP位点集合的每一个SNP位点,确定待鉴定生物体的SNP碱基类型,并按照下列公式确定所述待鉴定生物体的差异度D:
a是所述候选SNP位点集合中SNP位点的数目,
maf是基于多个预定品种的纯种生物体确定的所述候选SNP位点集合中每一个SNP位点的特定碱基类型的出现频率,所述特定碱基类型为每一个SNP位点的出现频率较高的碱基类型,
针对所述候选SNP位点集合中每一个SNP位点,Min(Test)是基于下列原则确定的:
当所述待鉴定生物体的SNP碱基类型是纯合的所述特定碱基类型,则Min(Test)为1,
当所述待鉴定生物体的SNP碱基类型是杂合的所述特定碱基类型,则Min(Test)为0.5,
当所述待鉴定生物体的SNP碱基类型不含有所述特定碱基类型,则Min(Test)为0;
纯种鉴定装置,所述纯种鉴定装置与所述差异度D确定装置相连,用于基于所述待鉴定生物体的差异度D与预定阈值的比较,确定所述待鉴定生物体是否为所述预定品种的纯种生物体;
其中,所述预定阈值是基于多个预定品种的纯种生物体的所述差异度D确定的,通过下列步骤确定的:
(i)针对所述候选SNP位点集合,基于多个所述预定品种的纯种生物体,分别确定各纯种生物体的差异度D;
(ii)基于步骤(i)中获得的各纯种生物体的差异度D,确定所述多个预定品种的纯种生物体的差异度D的平均值E和标准偏差SD;
(iii)基于公式E+4*SD,确定所述预定阈值;
所述候选SNP集合是通过从用于进行纯种鉴定的SNP位点集合中减去所述待鉴定生物体中无法检测的SNP而确定的,所述无法检测的SNP为不易进行PCR扩增的SNP;
所述候选SNP集合中SNP位点的数目比所述用于进行纯种鉴定的SNP位点集合少1~2个;
所述待鉴定生物体的差异度D小于所述预定阈值是所述待鉴定生物体为所述预定品种的纯种生物体的指示;
在所述物种出现频率确定单元中,所述物种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第一SNP位点集合的生物体数目)×2;
在所述品种出现频率确定单元中,所述品种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第二SNP位点集合的生物体数目)×2;
在所述物种出现频率确定单元和所述品种出现频率确定单元的至少之一中,基于以下原则确定特定SNP的预定碱基类型出现次数:
针对纯合型预定碱基类型,将所述预定碱基类型的出现次数记为2次;
针对杂合型预定碱基类型,将所述预定碱基类型的出现次数记为1次;
所述预定碱基类型为野生型碱基;
在所述纯种鉴定SNP位点集合确定单元中,基于所述品种出现频率与所述物种出现频率的差值绝对值,确定用于所述预定品种的纯种鉴定的SNP位点集合;
选择所述品种出现频率与所述物种出现频率的差值绝对值最大的20个SNP位点,作为用于预定品种的纯种鉴定的SNP位点集合;
所述用于确定SNP位点集合的装置进一步包括过滤单元,所述过滤单元与所述纯种鉴定SNP位点集合确定单元相连,用于对所述用于预定品种的纯种鉴定的SNP位点集合进行过滤,所述过滤是基于对所述SNP位点进行PCR引物设计实现的;
所述用于确定SNP位点集合的装置进一步包括SNP位点集合补充单元,所述SNP位点集合补充单元适于按照以下步骤进行:
(a)构建第三SNP位点集合,所述第三SNP位点集合中的每一个SNP位点均来源于所述预定品种的至少一种近亲品种的生物体;
(b)针对所述第三SNP位点集合中的每一个SNP位点,确定预定碱基类型在所述预定品种的所述近亲品种中的近亲品种出现频率;
(c)基于所述品种出现频率与所述近亲品种出现频率的差异,确定补充SNP位点集合,并将所述补充SNP位点集合并入至所述用于预定物种的纯种鉴定的SNP位点集合;
在步骤(b)中,所述近亲品种出现频率是通过下述公式确定的:
(特定SNP的预定碱基类型出现次数)/(构成所述第三SNP位点集合的生物体数目)×2;
在步骤(c)中,基于所述品种出现频率与所述近亲品种出现频率的差值绝对值,确定所述补充SNP位点集合;
针对每种所述近亲品种,选择所述品种出现频率与所述近亲品种出现频率的差值绝对值最大的5个SNP位点,构建所述补充SNP位点集合;
在步骤(a)中,采用与所述预定品种最接近的两种近亲品种。
5.根据权利要求4所述的系统,其特征在于,所述预定物种为狗或猫。
6.根据权利要求4所述的系统,其特征在于,所述候选SNP位点集合由下表所示的30个SNP位点构成:
所述预定品种为迷你贵宾犬,所述预定阈值为5.965449379。
CN201780094353.4A 2017-09-06 2017-09-06 确定snp位点集合的方法、装置及其应用 Active CN111051537B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/100786 WO2019047083A1 (zh) 2017-09-06 2017-09-06 确定snp位点集合的方法、装置及其应用

Publications (2)

Publication Number Publication Date
CN111051537A CN111051537A (zh) 2020-04-21
CN111051537B true CN111051537B (zh) 2024-05-14

Family

ID=65633592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780094353.4A Active CN111051537B (zh) 2017-09-06 2017-09-06 确定snp位点集合的方法、装置及其应用

Country Status (2)

Country Link
CN (1) CN111051537B (zh)
WO (1) WO2019047083A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931227A (zh) * 2020-06-28 2020-11-13 山东浪潮质量链科技有限公司 一种基于区块链技术的宠物繁育信息证明方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103282519A (zh) * 2012-04-09 2013-09-04 北京市农林科学院 玉米真实性检测及分子育种SNP芯片-maizeSNP3072及其检测方法
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN105200051A (zh) * 2015-10-29 2015-12-30 中国海洋大学 一种皱纹盘鲍中国和日本群体鉴别用snp标记
CN106701750A (zh) * 2017-03-01 2017-05-24 深圳华大基因股份有限公司 一种鉴定地方驴品种的方法及其专用试剂盒
CN106715712A (zh) * 2014-09-30 2017-05-24 深圳华大基因科技有限公司 用于鉴定多个生物样本之间身份关系的方法和系统
CN107090515A (zh) * 2017-07-04 2017-08-25 中国科学院昆明动物研究所 一种豫西脂尾羊snp标记及其筛选方法和应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7729863B2 (en) * 2003-12-17 2010-06-01 Fred Hutchinson Cancer Research Center Methods and materials for canine breed identification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103282519A (zh) * 2012-04-09 2013-09-04 北京市农林科学院 玉米真实性检测及分子育种SNP芯片-maizeSNP3072及其检测方法
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN106715712A (zh) * 2014-09-30 2017-05-24 深圳华大基因科技有限公司 用于鉴定多个生物样本之间身份关系的方法和系统
CN105200051A (zh) * 2015-10-29 2015-12-30 中国海洋大学 一种皱纹盘鲍中国和日本群体鉴别用snp标记
CN106701750A (zh) * 2017-03-01 2017-05-24 深圳华大基因股份有限公司 一种鉴定地方驴品种的方法及其专用试剂盒
CN107090515A (zh) * 2017-07-04 2017-08-25 中国科学院昆明动物研究所 一种豫西脂尾羊snp标记及其筛选方法和应用

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Dayna L Dreger et al..Whole-genome sequence, SNP chips and pedigree structure: building demographic profiles in domestic dog breeds to optimize genetic-trait mapping.《Disease models & mechanisms》.2016,第9卷(第12期),第1445-1460页. *
Heaton M P et al..SNP标记在美国肉牛鉴定和父系分析中的选择和使用.《中国畜牧兽医》.2004,第5卷第30页. *
John A Henning et al..Simple SNP-based minimal marker genotyping for Humulus lupulus L. identification and variety validation.《BMC research notes》.2015,第8卷(第1期),第1-12页. *
Nasir Moghaddar et al..Comparing genomic prediction accuracy from purebred, crossbred and combined purebred and crossbred reference populations in sheep.《Genetics selection evolution》.2014,第46卷(第1期),第1-10页. *
Scott A Funkhouser et al..Estimation of genome-wide and locus-specific breed composition in pigs.《Translational animal science》.2017,第1卷(第1期),第36-44页. *
张幼芳.浙江纯种犬在9个STR基因座上的遗传多态性研究.《公安学刊(浙江警察学院学报)》.2012,第2卷第46-48页. *
徐东东 等.SNP标记分型与品质分析联合的麦芽纯度及品种真实性鉴定.《中外酒业·啤酒科技》.2015,第8卷第28-31页. *
薛政.用微卫星方法进行犬种鉴定.《中国优秀硕士学位论文全文数据库 农业科技辑》.2012,(第12期),D050-64. *

Also Published As

Publication number Publication date
WO2019047083A1 (zh) 2019-03-14
CN111051537A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
Richardson et al. Quantitative multi‐locus metabarcoding and waggle dance interpretation reveal honey bee spring foraging patterns in Midwest agroecosystems
Vonholdt et al. Identification of recent hybridization between gray wolves and domesticated dogs by SNP genotyping
Zhang et al. IMPre: an accurate and efficient software for prediction of T-and B-cell receptor germline genes and alleles from rearranged repertoire data
JP2011115174A (ja) イヌ科動物血統の同定のための方法および材料
Flanagan et al. Genome-wide selection components analysis in a fish with male pregnancy
Liu et al. Extensive hybridization and introgression between Melastoma candidum and M. sanguineum
Nugent et al. Design and characterization of an 87k SNP genotyping array for Arctic charr (Salvelinus alpinus)
CN110997936A (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途
Rosa et al. Parentage verification of Valle del Belice dairy sheep using multiplex microsatellite panel
Feng et al. Development of novel EST-SSR markers for ploidy identification based on de novo transcriptome assembly for Misgurnus anguillicaudatus
KR20210082127A (ko) 문치가자미 친자 식별용 유전자 마커 및 이를 이용한 친자 확인방법
Cai et al. Large-scale association study on daily weight gain in pigs reveals overlap of genetic factors for growth in humans
Tyagi et al. Comparative signatures of selection analyses identify loci under positive selection in the Murrah Buffalo of India
CN111051537B (zh) 确定snp位点集合的方法、装置及其应用
CN107034306B (zh) 一组snp位点基因分型引物及其在小麦品种鉴定中的应用
Wakchaure et al. Molecular markers and their applications in farm animals: A Review
CN110195115B (zh) 与公猪精子直线运动相关的分子遗传标记及其应用和获取方法
JP4982746B2 (ja) Dnaマーカーを用いたブタの親子判定方法
Onley et al. Sex assignment in a non-model organism in the absence of field records using Diversity Arrays Technology (DArT) data
Mustafa et al. 26. Performance of bovine high density SNPs genotyping array in indigenous Pakistani cattle breeds
Abbasi Moshaii et al. Genomic scan for selection signatures associated with mastitis in German Holstein cattle
Parker et al. An efficient noninvasive method for simultaneous species, individual, and sex identification of sympatric Mojave Desert canids via in-solution SNP capture
US20140136121A1 (en) Method for assembling sequenced segments
Yang et al. Genetic characterization of four dog breeds with Illumina CanineHD BeadChip
Pineda et al. Disentangling river and swamp buffalo genetic diversity: initial insights from the 1000 Buffalo Genomes Project

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant