CN112638152A

CN112638152A - 用于鉴定导致测试样品中目的表型的致病突变的方法或系统

Info

Publication number: CN112638152A
Application number: CN201980054436.XA
Authority: CN
Inventors: C·钱皮恩; L·多兰
Original assignee: Oxford University Innovation Ltd
Current assignee: Oxford University Innovation Ltd
Priority date: 2018-09-05
Filing date: 2019-09-05
Publication date: 2021-04-09
Anticipated expiration: 2039-09-05
Also published as: EP3846613B1; EP3846613A2; WO2020049491A2; PL3846613T3; CN112638152B; JP2022501014A; HUE060446T2; WO2020049491A3; DK3846613T3; CA3106344A1; US20210335449A1; ES2930419T3; EP4148740A1; JP7477501B2

Abstract

一种用于鉴定与非维管植物中的目的表型相关的突变的方法，其中所述方法包含(a)将参照DNA序列的DNA序列进行比对并且鉴定所述两个序列之间的第一组序列错配；其中测试样品来自诱变的非维管植物；(b)将至少一个比较样品的DNA序列与所述参照DNA序列进行比对并且鉴定所述两个序列之间的第二组序列错配；(c)相对于所述第二组错配过滤所述第一组错配以鉴定所述第一组错配所特有的错配子集，其中所述错配子集是致病突变的候选突变；其中所述测试样品来自表现出所述目的表型的非维管植物并且其中所述至少一个比较样品来自不表现出出所述目的表型的相同属的独立非维管植物；并且其中所述参照DNA序列是所述属的非维管植物的已知参照序列。另外，一种用于鉴定与非维管植物中目的表型相关的突变的方法，其中所述方法包含a)将参照DNA序列的DNA序列进行比对并且鉴定所述两个序列之间的第一组序列错配；其中所述测试样品来自诱变的非维管植物；(b)将至少一个比较样品的DNA序列与所述参照DNA序列进行比对并且鉴定所述两个序列之间的第二组序列错配；(c)相对于所述第二组序列错配过滤所述第一组错配以鉴定所述第一组序列错配和所述第二组序列错配共有的错配子集，其中所述测试样品和所述比较样品来自表现出所述目的表型的独立非维管植物并且其中所述独立非维管植物是相同属；并且其中所述参照DNA序列是所述属的非维管植物的已知参照序列。

Description

用于鉴定导致测试样品中目的表型的致病突变的方法或系统

技术领域

本发明总体上涉及用于鉴定导致测试样品中目的表型的致病突变的方法或系统。

背景技术

鉴定与目的表型相关的基因型在植物生物学的许多应用中是关键的。诱变实验之后的突变发现通常包括将突变体与野生型植物异交，产生大量野生型和突变体群体，并鉴定仅在大量突变体中发生的突变。这样做允许野生型和突变体的基因组重组，因此减少了突变基因组中背景突变的数目并增加了鉴定致病突变的机会。然而，这个初步步骤是有代价的。

首先，异交的需要代表了对典型的突变发现管道(discovery pipeline)的定性限制，因为不育突变体不能杂交。许多突变(无论是致病突变还是背景突变)可能导致不育。

其次，异交的需要代表了对典型的突变发现管道的定量限制，因为异交需要经历至少(并且经常超过)一个生殖周期，这需要时间并且花费金钱，因此限制了管道的吞吐量。

发明内容

本发明的一个目的是基本上克服或至少改善现有配置的一个或多个缺点。

产生本发明的工作已经根据欧盟第七框架方案(FP7/2007-2013)/ERC授权协议n°250284从欧洲研究理事会获得资金。

公开了试图通过在发现引起被测试样品中的目的表型的样品DNA序列的部分DNA序列(致病突变)之前绕过异交的需要来解决上述问题的配置。

根据本公开的第一方面，提供了一种用于鉴定导致测试样品中目的表型的致病突变的方法，所述方法包含基于i)测试样品和比较样品形成互补组的一部分的预测和/或ii)比较样品不含致病突变的预测来选择比较样品的步骤，并且所述方法进一步包含处理器被配置成执行存储在计算机可读介质中的计算机程序代码的步骤，所述计算机程序代码执行以下方法：获取与测试样品相关的样品DNA序列数据；获取与参照样品相关的参照DNA序列数据；获取与比较样品相关的比较DNA序列数据；确定与样品DNA序列数据和参照DNA序列数据相关的第一组错配DNA序列数据；确定与比较DNA序列数据和参照DNA序列数据相关的其它组错配DNA序列数据；以及相对于其它组错配DNA序列数据过滤第一组错配DNA序列数据，以获取包括致病突变的一组候选错配，用于从候选错配内鉴定致病突变。

根据本公开的第二方面，提供了用于鉴定导致测试样品中目的表型的致病突变的系统，所述系统包含基于i)测试样品和比较样品形成互补组的一部分的预测和/或ii)比较样品不含致病突变的预测来选择比较样品的方式，并且所述系统进一步包含处理器，所述处理器被配置成执行存储在计算机可读介质中的计算机程序代码，所述计算机程序代码被配置成：获取与测试样品相关的样品DNA序列数据；获取与参照样品相关的参照DNA序列数据；获取与比较样品相关的比较DNA序列数据；确定与样品DNA序列数据和参照DNA序列数据相关的第一组错配DNA序列数据；确定与比较DNA序列数据和参照DNA序列数据相关的其它组错配DNA序列数据；以及相对于其它组错配DNA序列数据过滤第一组错配DNA序列数据，以获取包括致病突变的一组候选错配，用于从候选错配内鉴定致病突变。

根据本公开的第三方面，提供了一种用于鉴定与非维管植物中目的表型相关的突变的方法，其中所述方法包含：

(a)将测试样品的DNA序列与参照DNA序列进行比对并且鉴定两个序列之间的第一组序列错配；

(b)将至少一个比较样品的DNA序列与参照DNA序列进行比对并且鉴定两个序列之间的第二组序列错配；

(c)相对于第二组错配过滤第一组错配以鉴定第一组错配和第二组错配共有的错配子集，其中所述错配子集是致病突变的候选突变；

其中测试样品和比较样品来自表现出目的表型的独立非维管植物并且其中所述独立非维管植物是相同属；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列。

根据本公开的第四方面，提供了一种用于鉴定与非维管植物中目的表型相关的突变的方法，其中所述方法包含：

(c)相对于第二组错配过滤第一组错配以鉴定第一组错配所特有的错配子集，其中所述错配子集是致病突变的候选突变；

其中测试样品来自表现出目的表型的非维管植物并且其中比较样品来自不表现出目的表型的相同属的独立非维管植物；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列。

根据本公开的第五方面，提供了一种用于鉴定与蕨类中目的表型相关的突变的方法，其中所述方法包含：

其中测试样品和比较样品来自表现出目的表型的独立蕨类并且其中所述独立蕨类是相同属；并且

其中参照DNA序列是所述属的蕨类的已知参照序列。

根据本公开的第六方面，提供了一种用于鉴定与蕨类中目的表型相关的突变的方法，其中所述方法包含：

其中测试样品来自表现出目的表型的蕨类并且其中比较样品来自不表现出目的表型的相同属的独立蕨类；并且

其中参照DNA序列是所述属的蕨类的已知参照序列。

根据本公开的第七方面，提供了一种用于鉴定与藻类中目的表型相关的突变的方法，其中所述方法包含：

其中测试样品和比较样品来自表现出目的表型的独立藻类并且其中所述独立藻类是相同属；并且

其中参照DNA序列是所述属的藻类的已知参照序列。

根据本公开的第八方面，提供了一种用于鉴定与藻类中目的表型相关的突变的方法，其中所述方法包含：

其中测试样品来自表现出目的表型的藻类并且其中比较样品来自不表现出目的表型的相同属的独立藻类；并且

其中参照DNA序列是所述属的藻类的已知参照序列。

附图说明

现在将参照附图描述本发明的至少一个实施例，其中：

图1是根据本发明的实施例的用于鉴定导致被测试样品中目的表型的致病突变的方法的过程流程图；

图2形成根据本发明的实施例的计算机系统的示意性框图，在所述计算机系统上可以实践所描述的配置；

图3是根据本发明的实施例的用于鉴定导致被测试样品中目的表型的致病突变的方法的另一过程流程图；

图4至图7示出了根据本发明的实施例的作为各种过程的实例的序列读段与参照读段相比的表示；

图8：二日龄多形地钱(Marchantia polymorpha)植物的假根表型野生型假根表型(A)，波状假根表型(B)。假根是在野生型(A)中直线生长并在一些突变体(B)中波动的细胞。

图9：二月龄多形地钱植物的背表皮表型野生型表皮表型(A)，伸展表皮表型(B)。背表皮示出了气孔(A，箭头标记)，所述气孔在一些突变体(B)中伸展。

图10：基于非等位性的突变发现管道在UV4.32中的性能

A：非等位基因突变背景数目增加对过滤效率的影响。B：当使用8个非等位基因UV突变系时，在每个过滤步骤之后剩余的UV4.32错配数。

图11：基于非等位性的突变发现管道在氯黄隆抗性突变体中的性能增加等位基因突变体背景的数目提高了过滤效率。最左边的分散框表示在过滤出也在重新测序的野生型基因组中观察到的错配之前氯黄隆抗性突变系中的总错配数。

具体实施方式

在任何一个或多个附图中提及具有相同附图标记的步骤和/或特征时，这些步骤和/或特征对于本说明书的目的具有相同的功能或操作，除非出现相反的意图。

应当指出，“背景”部分所含的讨论以及以上关于现有技术配置的讨论涉及通过其各自的公布和/或使用形成公共知识的文件或装置的讨论。这不应被本发明人或专利申请人解释为表示这些文件或装置以任何形式形成本领域公知常识的一部分。

下面提供了本文件中使用的术语的某些定义。

表型：个体的一组可观察性质。

目的表型：使用本文公开的方法和系统研究的表型。目的表型可以是所需的可观察性质或性状。在某些情况下，目的表型可以是一组与野生型植物相比有利的可观察性质。在某些情况下，目的表型可以是一组与野生型植物不同的可观察性质。在某些情况下，目的表型可以是一组与野生型藻类或蕨类相比有利的可观察性质。在一些情况下，目的表型可以是一组与野生型藻类或蕨类不同的可观察性质。

M0、M1和M2：M0表示暴露于诱变剂之前的诱变实验中的植物群体(即亲本群体)。M1是在暴露于诱变剂后用于指相同植物群体(即亲本群体)的符号。M2代指自交(即突变体与其自身杂交的过程)后的子代。

错配：读段序列(例如被测试样品的DNA序列的一部分被测试以鉴定所述被测试样品内的致病突变)与读段最佳比对的参照DNA序列的一部分相比的差异。

突变：诱变植物的DNA序列与参照DNA序列相比的物理变化。

致病突变：引起目的表型的突变。

背景突变：不引起目的表型的突变。

全基因组关联研究：鉴定与疾病或特定性状的风险相关的遗传变异体此方法对天然发生的遗传多态性，通常是单核苷酸多态性(SNP)的整个基因组进行了调查，这些多态性在病例(被评估患有疾病或性状的人)中比在对照(没有疾病或性状的人)中发生得更频繁。

单倍体/二倍体/多倍体：倍性状态是生物体在其生命周期的给定时间包含的染色体组的数目。植物在其生命周期中可以在单倍体状态和二倍体状态之间交替。单倍体植物是主要以单倍体状态，即具有单组染色体的状态度过其生命周期的植物。二倍体植物是主要以二倍体状态，即具有两组染色体的状态度过其生命周期的植物。多倍体植物是主要以二倍体状态，即具有两组以上染色体的状态度过其生命周期的植物。苔类，例如多形地钱，在其大部分生命周期中是单倍体，即它含有单组染色体。通过比较，高等植物如草或双子叶植物是二倍体或多倍体，即它们在其生命周期的主要部分具有2组或更多组染色体。

除草剂：用于杀死或抑制植物、植物细胞、植物种子或植物组织生长的化学品。

杂/纯合子：单倍体、二倍体和多倍体生物体可以含有与它们具有染色体组一样多的给定基因版本。例如，单倍体生物体仅含有一个版本或等位基因，而二倍体生物体可含有2种不同版本的相同基因(杂合子)或2种相同版本的相同基因(纯合子)。

异交：将多态性品系与参照品系(通常是亲本品系)杂交的过程，目的是将背景突变与致病突变分开。

被研究的突变体：指其中要鉴定致病突变的突变系。

非维管植物：缺乏维管系统(木质部和韧皮部)的植物。

分离分析：一种统计技术，用于将正式的遗传模型与生物家族成员中表达的性状或疾病(表型)的数据拟合，以确定所研究的性状或疾病的最可能的遗传方式。分离分析需要多代家族成员以确定所分析表型的遗传模式。

减去突变体：用于在计算上从所研究的突变体中去除背景突变的独立突变系。这些可以是独立的等位基因突变系或独立的非等位基因突变系。比较样品是减去突变体的样品。

互补组：互补组定义了不能相互补充的一组等位基因(即基因的版本)。通过延伸，互补组也可以定义一组含有不能互补的等位基因的突变系。也就是说，在来自相同互补组的突变系之间杂交的子代中没有观察到亲本表型的重组。例如，在多形地钱中，如果两个突变等位基因在同一互补组中，则由突变体之间的杂交产生的F1植物的100％都显示突变表型。互补组通常鉴定单一多态性基因(即其DNA序列被突变的基因)。

参照DNA序列：被研究的植物、藻类或蕨类的参照基因组序列。参照DNA序列公布在公众可获得的数据库中。

本文所述的方法和系统的目的是能够鉴定所选植物样品中的致病突变。也就是说，所描述的方法和系统能够鉴定所选植物样品中的部分基因序列(致病突变)。

Li等人在2016年(《通过化学诱变和全基因组测序在双歧杆菌中发现基因》(Genediscovery by chemical mutagenesis and whole-genome sequencing inDictyostelium),《基因组研究》(Genome research)26:1268-1276)描述了使用全基因组测序来鉴定网柄菌属(一种粘菌)中的突变基因。网柄菌属是粘菌虫类(变形虫界)门的成员，因此在系统发育上远离非维管植物和藻类。Thole等人在2015年(《下一代测序可作为快速鉴别由致病EMS引起的突变的工具》(Next-generation sequencing as a tool toquickly identify causative EMS-generated mutations),《植物信号与行为》(PlantSignalling&Behaviour)10:1-4)详述了在M4突变体中使用全基因组测序鉴定拟南芥中e乙基甲磺酸酯产生的突变。本发明不依赖于可育突变体，因此允许检测更宽范围的突变体。

这里描述的过程和系统使用突变过滤的替代方法。不同于异交，所述方法和系统最初鉴定所研究的突变体中的所有突变，包括背景突变和致病突变。也就是说，所描述的方法和系统包括鉴定当与参照DNA序列比较时已突变的DNA序列的所有部分的步骤。这些突变中的一些是背景突变(不认为是有用的)，另一些是致病突变。在异交方法中，异交步骤试图减少此阶段背景突变的数目。

然后，所述方法和系统将它们与来自其它突变体的所有突变进行比较，所述其它突变体或者被预测不携带所研究的突变体的致病突变，或者被预测为是被测试样品互补组的一部分。通过使用多个减去突变体，增加了过滤的能力以去除背景突变和技术假象。

图1展示了用于鉴定导致被测试样品中目的表型的致病突变的方法的过程流程图。

通常，过程开始于步骤S101。在S103、S105和S107，通过参照图1描述的计算系统的计算机程序代码获取样品、参照和比较(减去)DNA序列数据。例如，DNA序列数据可直接从DNA测序系统1329获取，或从计算机系统内的存储器获取，或从计算机系统外部的存储器获取，或通过WAN或LAN从计算机系统外部的装置获取。

样品DNA序列数据与被测试样品相关。参照DNA序列数据与参照样品相关。比较(或减去)DNA序列数据与比较(或减去)样品相关。选择多个比较样品，其中选择多个比较样品中的每一个是基于i)预测测试样品和选择的比较样品形成互补组的一部分，或ii)预测选择的比较样品不含有致病突变。

在步骤S109，所述过程确定与样品DNA序列数据和参照DNA序列数据相关的第一组错配DNA序列数据。

在步骤S111，所述过程确定与比较DNA序列数据和参照DNA序列数据相关的其它组错配DNA序列数据。

在步骤S113，所述过程基于已经选择(如下所述)的比较样品的类型进行各种过滤步骤，以便产生包括致病突变的一组候选错配。特别地，在步骤S113，相对于其它组错配DNA序列数据过滤第一组错配DNA序列数据，以获取包括致病突变的一组候选错配，用于从候选错配内鉴定致病突变。

在此更详细地描述以上步骤(和附加步骤)。

图2描绘了计算机系统1300，在其上可以实践所描述的各种配置。应当理解，一旦通过存储在计算机可读介质上的计算机程序代码在计算机系统内实现这里描述的过程，则计算机系统将以唯一的方式操作。计算机系统内的处理器被配置成执行计算机程序代码以进行这里描述的过程步骤。

如图2所示，计算机系统1300包括：计算机模块1301；输入装置，例如键盘1302、鼠标指针装置1303、扫描仪1326、照相机1327、触摸屏1328和麦克风1380；以及输出装置，包括打印机1315、显示装置1314和扬声器1317。此外，计算机系统可包括DNA测序系统1329形式的输入装置。DNA测序系统例如可以是Illumina Hiseq系列测序平台，如HiSeq 2000或HiSeq 4000。DNA测序系统的输出是两个含有原始读段的文件，一个用于配对读段的每个配偶。也就是说，例如，Illumina测序平台被设计来读取DNA序列的末端。两个末端，也称为配偶，是相连的并且它们一起形成成对的读段。因此，通过Illumina测序产生两个文件，一个用于左配偶，一个用于右配偶。可以理解，本发明不限于产生成对的读段。

应当理解，DNA测序系统1329可以不通过I/O接口1313直接连接到计算机系统。例如，DNA测序系统1329可以连接到广域网1320或局域网1322。

外部调制器-解调器(调制解调器)收发器装置1316可由计算机模块1301用于与通信网络1320通过连接1321进行通信。通信网络1320可以是广域网(WAN)，诸如因特网、蜂窝电信网络或专用WAN。当连接1321是电话线时，调制解调器1316可以是高容量(例如，电缆)连接，或者调制解调器1316可以是宽带调制解调器。无线调制解调器还可以用于无线连接到通信网络1320。

计算机模块1301通常包括至少一个处理器单元1305和存储器单元1306。例如，存储单元1306可以具有半导体随机存取存储器(RAM)和半导体只读存储器(ROM)。计算机模块1301还包括多个输入/输出(I/O)接口，包括：音频-视频接口1307，所述音频-视频接口耦合到视频显示器1314、扬声器1317和麦克风1380；I/O接口1313，所述I/O接口耦合到键盘1302、鼠标1303、扫描仪1326、照相机1327、触摸屏1328和DNA测序系统1329(例如)或其它人机接口装置(未绘示)；以及接口1308，用于外部调制解调器1316和打印机1315。在一些实施方案中，调制解调器1316可以结合在计算机模块1301内，例如结合在接口1308内。计算机模块1301还具有本地网络接口1311，所述本地网络接口允许将计算机系统1300经由连接1323耦合到称为局域网(LAN)的局域通信网络1322。如图2所绘示的，本地通信网络1322还可以经由连接1324耦合到广域网1320，所述连接通常包括所谓的“防火墙”装置或类似功能的装置。本地网络接口1311可以包含以太网电路卡、

无线配置或IEEE802.11无线配置；然而，可以为接口1311实践多种其它类型的接口。

I/O接口1308和1313可以提供串行和并行连接中的一个或两个，串行连接通常根据通用串行总线(USB)标准来实现并且具有对应的USB连接器(未绘示)。存储装置1309被提供并且通常包括硬盘驱动器(HDD)1310。也可以使用其它存储装置，例如软盘驱动器和磁带驱动器(未绘示)。光盘驱动器1312通常用作非易失性数据源。便携式存储器装置，例如光盘(例如CD-ROM、DVD、蓝光光盘^TM)、USB-RAM、便携式外部硬盘驱动器，例如可用作系统1300的适当数据源。

计算机模块1301的组件1305到1313通常经由互连总线1304并且以导致相关领域的技术人员已知的计算机系统1300的常规操作模式的方式通信。例如，处理器1305使用连接1318耦合到系统总线1304。同样，存储器1306和光盘驱动器1312通过连接1319耦合到系统总线1304。可以在其上实现所述配置的计算机的实例包括IBM-PC'和兼容机、Apple Mac^TM等计算机系统。

在此描述的这些方法可以使用计算机系统1300来实现，其中图1的过程以及有待描述的相关的过程可以被实现为能够在计算机系统1300内执行的一个或多个软件应用程序1333。特别地，所描述的鉴定致病突变的方法的步骤在软件1333中通过指令1331来实现(参见图2)，所述指令在计算机系统1300内进行。软件指令1331可以形成为一个或多个代码模块，每个代码模块用于执行一个或多个特定任务。

软件可以存储在计算机可读介质中，包括例如下面描述的存储装置。软件从计算机可读介质加载到计算机系统1300中，并且然后由计算机系统1300执行。具有记录在计算机可读介质上的此类软件或计算机程序的计算机可读介质是计算机程序产品。在计算机系统1300中使用计算机程序产品优选地实现用于鉴定致病突变的有利设备。

软件1333通常存储在HDD 1310或存储器1306中。软件从计算机可读介质加载到计算机系统1300中，并且由计算机系统1300执行。因此，例如，软件1333可以存储在光学可读盘存储介质(例如CD-ROM)1325上，所述光学可读盘存储介质由光盘驱动器1312读取。记录有此类软件或计算机程序的计算机可读介质是计算机程序产品。在计算机系统1300中使用计算机程序产品优选地实现用于鉴定致病突变的设备。

在某些情况下，应用程序1333可以供应给用户，所述应用程序在一个或多个CD-ROM1325上编码并经由对应的驱动器1312读取，或者替代地可以由用户从网络1320或1322读取。此外，软件也可以从其它计算机可读介质加载到计算机系统1300中。计算机可读存储介质是指将记录的指令和/或数据提供给计算机系统1300用于执行和/或处理的任何非暂时性有形存储介质。此类存储介质的实例包括软盘、磁带、CD-ROM、DVD、Blu-Ray^TM盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘，或例如PCMCIA卡之类的计算机可读卡等等，无论此类装置是计算机模块1301的内部还是外部。也可参与向计算机模块1301提供软件、应用程序、指令和/或数据的暂时性或非有形计算机可读传输介质的实例包括无线电或红外传输信道以及到另一计算机或联网装置的网络连接，以及包括电子邮件传输和记录在网站等上的信息的因特网或内联网。

可以执行上述应用程序1333的第二部分和对应的代码模块以实现要在显示器1314上呈现或以其它方式表示的一个或多个图形用户界面(GUI)。通过典型地操纵键盘1302和鼠标1303，计算机系统1300的用户和应用可以以功能上自适应的方式操纵接口，以向与GUI相关的应用提供控制命令和/或输入。也可以实现其它形式的功能上自适应的用户接口，例如利用经由扬声器1317输出的语音提示和经由麦克风1380输入的用户语音命令的音频接口。

通常，处理器1305被给予在其中执行的一组指令。处理器1305等待后续的输入，处理器1305通过执行另一组指令对所述输入作出反应。每个输入可以从多个源中的一个或多个提供，包括由输入装置1302、1303中的一个或多个生成的数据，通过网络1320、1302中的一个从外部源接收的数据，从存储装置1306、1309中的一个检索的数据或从存储介质1325检索的插入到对应读取器1312中的数据，所有这些都在图2中描绘。一组指令的执行在某些情况下可能导致数据的输出。执行还可以涉及将数据或变量存储到存储器1334。

图3展示了用于鉴定导致被测试样品中目的表型的致病突变的方法的过程流程图。

在步骤S301，通过DNA测序系统对所研究的(样品)突变体(和减去(比较)突变体)的基因组进行测序以产生被测试样品DNA序列数据(和比较，即减去DNA序列数据)。如上所述，DNA测序系统用于产生被测试样品和比较样品中的每一个的DNA序列数据。DNA序列数据包括由多个读段组成的原始读段数据或文本序列。在对DNA测序数据进行质量微调、交织和归一化过程后，制备DNA序列数据用于分析。

在步骤S302，处理器对被测试样品DNA序列数据进行质量微调过程，例如可以使用调用任何合适的已知软件程序，例如程序Trimmomatic-0.32的脚本来进行。微调程序微调Illumina适配器和与差的测序质量相关的部分读段。也可以使用用于进行质量微调的其它已知过程。

在步骤S303，处理器可以执行交织过程，例如，可以使用任何合适的解析脚本来进行。例如，在测序系统获取成对的读段时，解析脚本可用于将所有成对的读段中的两个配偶读段重新组合成单个文件。

在步骤S304，处理器进行归一化过程，例如可以通过由31-mers使用调用任何合适的已知软件程序，例如khmer-0.7.1的脚本进行归一化来进行。在此实例中，归一化程序使用k的预定值来查看所有读段中k-mers的分布，并且丢弃含有最频繁k-mers的成比例数量的读段，因为这些读段仅提供冗余信息。此步骤使得以下步骤的存储器效率更高。

在步骤S305，进一步地，由处理器使用任何合适的解析脚本来去交织或解耦合归一化读段文件，所述合适的解析脚本将两个文件中的所有成对的读段的两个配偶读段分开。此步骤与交织步骤相反。对于每一成对的读段，有两个配偶被鉴定为属于相同的成对的读段。它们可以被写入相同的文件中(即交织的)，或者被写入分开的文件中(去交织的)。从一个到另一个的过程仅仅是根据标记串来解析，所述标记串将配偶鉴定为属于相同的成对的读段。此标记源自测序平台产生的文件，并且对于配偶1看起来像XYZ/1，并且对于配偶2看起来像XYZ/2。软件通过文本匹配鉴定它们，并将对应的DNA序列写入相同的文件或两个分开的文件。

要在下一步骤处理读段，需要执行此步骤。

在步骤S306和S307，处理器将准备好的样品DNA序列数据的读段与参照基因组进行比对，并且处理器根据比对在参照基因组中的位置对比对文件进行分类。此外，处理器将准备好的比较(即减去)DNA序列数据的读段与参照基因组进行比对，并且处理器根据比对在参照基因组中的位置对比对文件进行分类。

对于步骤S306中的比对步骤(针对样品和比较DNA序列数据两者)，使用脚本将相关的归一化读段与参照DNA序列数据进行比对，所述脚本调用任何合适的已知软件程序，例如程序bowtie2-2.1.0。将成对的读段有效地与突变体的野生型亲本基因组的完整序列进行比较，并保留最佳匹配。描述比对的多个参数被输出并写入比对文件，包括比对的位置，成对的读段在此位置比对的置信度，比对内的错配的存在、类型和细节等。

对于S307中的位置分类步骤(针对样品和比较DNA序列数据两者)，相关的比对文件使用脚本按照比对在参照基因组中的位置进行分类，所述脚本调用任何合适的已知软件程序，例如来自程序bio-samtools-2.0.5的函数“sort”。

如果错配得到令人信服的比对得分的支持，则处理器在步骤S308从位置分类的比对文件中提取错配，并将其放置在候选错配文件中。例如，使用脚本从位置分类的比对文件中提取错配，所述脚本调用任何合适的已知软件程序，例如来自程序bio-samtools-2.0.5的程序函数mpileup。mpileup函数通过位置分类的比对文件查找错配，并向新文件写入与来自读段的错配相关的所有信息，这些信息有可能在预定义阈值以上正确比对。

在步骤S309，处理器排除比预期比对更多读段的基因组区域。也就是说，测序深度由来自与参照DNA序列的区域进行比对的样品的测序读段的数目来定义。当对样品的DNA序列测序时，用户可以选择对DNA序列的相同部分测序多少次。此选择定义了预期的测序深度。例如，针对1的测序深度将需要采样系统一次对样品的整个DNA序列进行测序。对于20的预期的测序深度，采样系统将对样品的DNA进行20倍的测序。

因此，例如，如果在限定位置观察到的测序深度是10，则将10个测序读段与包括此位置的参照DNA序列的区域进行比对。如果预期的序列深度是1，这表明10个读段中的9个错误地与此区域的DNA序列进行比对。为此，软件将观察到的测序深度高于预期的测序深度的参照DNA序列区域中的任何错配视为已经错误地比对读段的可能结果，并因此将其从一组错配数据中去除。换句话说，错配被认为是比对假象而不是候选突变，因此被丢弃或从数据组中去除。根据此实施例，软件使用错配的文件数据并从称为bcftools的程序中调用称为varFilter的函数。应当理解，可以使用任何其它合适的软件程序来实现此功能。

在决定步骤SX01和步骤S309的上述测序深度过程也适用于相对于参照DNA序列数据的另一组比较DNA序列数据。

换句话说，为了确定第一组或其它组错配DNA序列数据，所述方法和软件可以基于超过预期的读取深度的实际读取深度拒绝与参照DNA序列数据进行比对的样品DNA序列数据的至少一个区域。

此外，在决定步骤SX02和步骤S310，系统使用在基因组中的一个位置处比对的一组读段中发生错配的频率来过滤掉比对假象。例如，如果突变体是二倍体物种，突变体基因组中错配的预期频率是50％，而在单倍体物种中是100％。如果观察到的测序深度与所定义物种的预期测序深度不匹配，则从所述一组数据中丢弃相关的读段。同样，这适用于样品和比较DNA序列两者的数据组。最后，在判定S X03和步骤S311，太少的读段所支持的错配由处理器通过从候选错配文件中去除所述错配来丢弃。所述系统使用生物学标准进一步过滤错配。第一个生物学标准是错配对所研究的突变体的特异性。有两种可以分开或一起使用的主要方案。对于方案A，减去突变体和被测试样品看起来或表现相似(即它们在表型上相似)，和/或对于方案B，独立突变系和被测试样品看起来和表现不同(即它们在表型上不同)。对于方案A，基于所研究的(样品)突变体和减去(比较)突变体在表型相似的基础上形成互补组的预测选择比较(减去)样品。如果突变体不是不育的，这可以任选地通过成对杂交来测试。在某些实施例中，此预测步骤可以称为“互补组预测步骤”。然后系统对减去品系(即假定的比较突变体样品的基因序列)进行质量微调、归一化、比对、定位和分类错配读段(错配)的步骤(如上所述)。然后，系统将所研究的(样品)突变体的一组错配与减去(比较)突变体的各组错配进行比较，并在候选的一组错配中仅保留在所研究的突变体和所有减去突变体两者中发现的错配。通过保留在所研究的突变体和减去突变体两者中的错配(与参照样品相比)，错配中的一个与致病突变相关的机会更高。因此，此步骤减少了候选突变的数目，并且从而减少了确定致病突变所需的进一步处理的量。对于方案B，基于减去(比较)突变体不含有所研究(样品)突变体的致病突变的预测来选择比较(减去)样品。如果突变体不是不育的，这可以任选地通过成对杂交来测试。在某些实施例中，此预测步骤可以称为“比较致病突变预测步骤”。然后系统对减去比较品系进行质量微调、归一化、比对、定位和分类错配读段(错配)的步骤(如上所述)。然后系统将所研究的(样品)突变体的一组错配与减去(比较)突变体的各组错配进行比较，并在候选的一组错配中仅保留对所研究的突变体具特异性的错配。也就是说，如果在减去突变体样品和所研究的突变体样品两者中发现基因序列中的相同错配，则认为特定错配不是致病突变。

系统可以连续或同时执行与方案A和方案B相关的过程，以提高整个过程的能力。

最后，还可以使用标准生物学标准来丢弃所研究的突变体中不可能是致病突变的错配。首先，系统可以丢弃与用于产生突变体的诱变方法预期的突变标签不一致的错配。即，可以进行非规范错配过滤，其中系统仅保留一组候选错配中与用于生成所研究的突变体的诱变方法的突变标签不匹配的错配。然后系统丢弃不导致所编码蛋白质的氨基酸序列变化的错配(即在基因间区域、非翻译区域或内含子中的突变)。也就是说，可以进行非编码错配过滤，其中系统仅保留一组候选错配中导致蛋白质氨基酸序列变化的错配。

例如，处理器检索突变基因(样品)的编码序列作为输入，并将对应的翻译蛋白序列存储到临时阵列中。然后所述系统可以对参照编码序列重复相同的操作，并将对应的蛋白质序列推至临时阵列。此外，系统然后可以文本匹配临时阵列的两个元素，并且在没有匹配时，将相关的错配写入一组候选错配。

参照图4，提供了多个读段401的实例，所述多个读段取自样品并参照参照DNA序列403。如405所指示的，参照参照DNA序列数据403对来自样品的多个读段进行比对和位置分类。即，(样品的)读段表示在样品读段对应的(位置上)或与之比对的参照序列之上。

垂直线407指示通过所述线的任何读段与此位置的参照DNA序列数据之间存在差异。即，在所述读段的序列和参照序列之间存在错配。

区段409指示基因的编码序列。在此实施例的上下文中，基因是编码蛋白质的DNA序列。基因的部分携带编码蛋白质所需的信息，而其余的不携带。携带这种信息的部分称为基因的编码序列。这在409中以粗黑条(编码序列)和细线(非编码序列)可视地表示。

区段411指示在参照序列的给定位置处的样品读段的数目。

应当理解，尽管图4是参照样品DNA序列数据和参照DNA序列数据的多个读段进行描述的，但是通过比较(减去)DNA序列数据和参照DNA序列数据也产生相同类型的信息。

参照图5，提供了多个读段501的另一实例，所述多个读段从样品中提取并参照来自参照DNA序列数据的单个读段503。在该图示中，在相对于参照序列的相关位置展示了观察到的样品DNA序列的读段的数目。这使得软件能够确定预期的测序深度是否与所测量的测序深度一致。

在位置505处，可以看到观察到的测序深度(即在此位置的读段的数目)与预期的测序深度一致，因此这些读段中的错配维持在候选错配文件中。然而，在位置507处，可以看到观察到的测序深度(即在此位置的读段的数目)与预期的测序深度不一致，并且因此这些读段不被维持在候选错配文件中；即，从候选错配文件中删除、去除或丢弃它们。

在图6中，描绘了确定与预期等位基因频率相关的频率标准的图示。在此实施例中，在由箭头601指示的位置，样品的DNA序列在相对于参照DNA序列的相关位置处的所有读段中不同。这样，等位基因频率是100％，并且当满足频率标准时，错配数据被维持在候选错配文件中。

在图7中，描绘了确定与预期等位基因频率相关的频率标准的图示。在此实施例中，在由箭头701和703指示的位置，样品的DNA序列在相对于参照DNA序列的相关位置处的这些读段中不同。因此，等位基因频率不是100％，并且错配数据不被维持在候选错配文件中；即，当不满足频率标准时，从候选错配文件中删除、去除或丢弃它。

根据本公开的第一、第三、第五和第七方面，提供了鉴定与目的表型相关的突变，即致病突变的方法。在这些方面，减去突变体和被测试样品看起来或表现相似(即它们在表型上相似)。

根据本公开的第二、第四、第六和第八方面，提供了鉴定与目的表型相关的突变的方法。在这些方面，独立突变系和被测试样品看起来和表现不同(即它们在表型上不同)。

在这些方面，在实施所述方法之前，对作用模式或与目的表型相关的生物靶标没有必要进行预测或了解。因此，所述方法可用于鉴定表现出目的表型的植物中的致病突变，其中致病突变的可能基因组位置是未知的。

在一个实施例中，提供了一种用于鉴定与非维管植物中目的表型相关的突变的方法，其中所述方法包含：

其中参照DNA序列是所述属的非维管植物的已知参照序列。

在一个实施例中，所述方法进一步包含

(b-i)将至少一个额外比较样品的DNA序列与参照DNA序列进行比对并且鉴定两个序列之间的第三组序列错配；其中额外比较样品来自表现出目的表型的独立非维管植物并且其中独立非维管植物是相同属；并且

其中(c)进一步包含相对于第三组序列错配过滤第一组错配以鉴定第一组序列错配和第三组序列错配共有的错配子集，其中两个错配子集是致病突变的候选突变。

在一个实施例中，所述方法进一步包含

(b-i)将至少一个额外比较样品的DNA序列与参照DNA序列进行比对并且鉴定两个序列之间的第三组序列错配；其中额外比较样品来自表现出目的表型的独立蕨类并且其中独立蕨类是相同属；并且

在一个实施例中，所述方法进一步包含

(b-i)将至少一个额外比较样品的DNA序列与参照DNA序列进行比对并且鉴定两个序列之间的第三组序列错配；其中额外比较样品来自表现出目的表型的独立藻类并且其中独立藻类是相同属；并且

(b)将至少一个比较样品的DNA序列与参照DNA序列进行比对并且鉴定两个序列之间的第二组序列错配；并且

将至少一个额外比较样品的DNA序列与所述参照DNA序列进行比对并且鉴定所述两个序列之间的第三组序列错配；

(c)相对于第二组错配过滤第一组错配以鉴定第一组错配所特有的错配子集；并且

相对于第三组错配过滤第一组错配以鉴定第一组错配和第三组错配共有的错配子集，其中所述两个错配子集是致病突变的候选突变；并且

其中测试样品来自表现出目的表型的非维管植物并且其中比较样品来自不表现出目的表型的相同属的独立非维管植物，并且其中额外的比较样品来自表现出目的表型的相同属的独立非维管植物；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列。

将植物或植物群体暴露于诱变剂可导致植物基因组中的突变。类似地，暴露蕨类或藻类植物或群体可导致它们基因组中的突变。突变可以随机发生或可以是定向突变。通过诱变过程改变基因组可导致表型改变。许多诱变剂可用于生成用于本发明的突变植物、蕨类和藻类。

在一个实施例中，测试样品已经被诱变。在一个实施例中，测试样品已经通过暴露于诱变剂而被诱变。在一个实施例中，测试样品和至少一个比较样品已经被诱变。在一个实施例中，测试样品和至少一个比较样品已经通过暴露于诱变剂而被诱变。

在一个实施例中，测试样品已经被诱变，其中诱变是非天然发生的。在一个实施例中，测试样品和至少一个比较样品已经被诱变，其中诱变是非天然发生的。在一个实施例中，测试样品已经被诱变，其中诱变是实验诱导的。在一个实施例中，测试样品和至少一个比较样品已经被诱变，其中诱变是实验诱导的。

在一个实施例中，诱变剂是辐射。在一个实施例中，诱变剂选自由以下组成的组：紫外(UV)光、X射线、γ射线和中子。在一个实施例中，诱变剂是UV光，任选地UV-A、UV-B或UV-C光。在一个实施例中，诱变剂是UV-B光。

在一个实施例中，诱变剂是化学试剂。在一个实施例中，化学试剂是烷化剂，任选的甲磺酸乙酯(EMS)、硫酸二甲酯、叠氮化钠、甲基硝基胍(MNNG)。在一个实施例中，化学试剂是脱氨基试剂。在一个实施例中，化学试剂是嵌入剂。

在一个实施例中，诱变剂是转座因子(也称为转座子)。本领域技术人员应当理解，存在许多用于在植物中诱导诱变并且可以用于本发明的方法中的诱变剂。

在一个实施例中，测试样品和/或至少一个比较样品是非维管植物物质，所述非维管植物物质已经通过暴露于化学或物理试剂而被诱变。在一个实施例中，测试样品和/或至少一个比较样品是已经通过暴露于化学或物理试剂而被诱变的蕨类生物物质。在一个实施例中，测试样品和/或至少一个比较样品是已经通过暴露于化学或物理试剂而被诱变的藻类生物物质。

在一个实施例中，测试样品和/或至少一个比较样品是已经被化学试剂诱变的非维管植物物质。在一个实施例中，测试样品和/或至少一个比较样品是已经通过辐射诱变的非维管植物物质。在一个实施例中，测试样品和/或至少一个比较样品是已经被化学试剂诱变的蕨类生物物质。在一个实施例中，测试样品和/或至少一个比较样品是已经通过辐射诱变的蕨类生物物质。在一个实施例中，测试样品和/或至少一个比较样品是已经被化学试剂诱变的藻类生物物质。在一个实施例中，测试样品和/或至少一个比较样品是已经通过辐射诱变的藻类生物物质。

在一个实施例中，所述方法包括以下初步步骤：

(i)将非维管植物群体暴露于诱变剂；

(ii)从表现出目的表型的诱变的非维管植物获取测试样品；

(iii)从表现出相同目的表型的独立的诱变的非维管植物获取至少一个比较样品；或

(iii)从不表现出目的表型的独立的诱变的非维管植物获取至少一个比较样品；

其中(i)至(iii)在(a)之前执行。

在一个实施例中，所述方法包括以下初步步骤：

(i)将蕨类群体暴露于诱变剂；

(ii)从表现出目的表型的诱变蕨类获取测试样品；

(iii)从表现出相同目的表型的独立的诱变的蕨类获取至少一个比较样品；或

(iii)从不表现出目的表型的独立的诱变的蕨类获取至少一个比较样品；

其中(i)至(iii)在(a)之前执行。

在一个实施例中，所述方法包括以下初步步骤：

(i)将藻类群体暴露于诱变剂；

(ii)从表现出目的表型的诱变蕨类获取测试样品；

(iii)从表现出相同目的表型的独立的诱变的藻类获取至少一个比较样品；或

(iii)从不表现出目的表型的独立的诱变的藻类获取至少一个比较样品；

其中(i)至(iii)在(a)之前执行。

在一个实施例中，所述方法包含接收测试样品和/或至少一个比较样品。在一个实施例中，所述方法包含接收来自测试样品和/或至少一个比较样品的DNA序列。在一个实施例中，所述方法包含获取测试样品和/或至少一个比较样品。在一个实施例中，所述方法包含分离测试样品和/或至少一个比较样品。在一个实施例中，所述方法包含从测试样品和/或至少一个比较样品中分离DNA序列。

在一个实施例中，测试样品可以是整个植物或植物的主要部分。在一个实施例中，测试样品可以是整个植物或蕨类的主要部分。在一个实施例中，测试样品可以是整个植物或藻类的主要部分。在一个实施例中，测试样品可以是植物原生质体、愈伤组织、孢子体、孢子被、孢子、芽孢、配子体、精子、藏精器、假根、合子或胚胎。在一个实施例中，测试样品可以是非维管植物组织。在一个实施例中，测试样品可以是蕨类组织。在一个实施例中，测试样品可以是藻类组织。

其中测试样品来自诱变的非维管植物；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

其中测试样品和比较样品来自已经暴露于诱变剂的独立的M1代非维管植物并且其中所述独立非维管植物表现出目的表型，并且其中所述独立非维管植物是相同的属；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)将非维管植物群体暴露于诱变剂；

(ii)从表现出目的表型的诱变的非维管植物获取测试样品；

(iii)从表现出相同目的表型的独立的诱变的非维管植物获取至少一个比较样品；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

其中测试样品来自诱变的非维管植物；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

相对于第二组错配过滤第一组错配以鉴定第一组错配所特有的错配子集，其中所述错配子集是致病突变的候选突变。

其中测试样品和比较样品来自已经暴露于诱变剂的独立的M1代非维管植物并且其中测试样品来自表现出目的表型的非维管植物，并且其中比较样品来自不表现出目的表型的相同属的独立非维管植物；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)将非维管植物群体暴露于诱变剂；

(ii)从表现出目的表型的诱变的非维管植物获取测试样品；

(iii)从不表现出相同目的表型的独立的诱变的非维管植物获取至少一个比较样品；以及

其中参照DNA序列是所述属的非维管植物的已知参照序列。

在一个实施例中，步骤(b)包含将至少一个比较样品的DNA序列与参照DNA序列进行比对并且鉴定两个序列之间的第二组序列错配。至少一个比较样品包含一个比较样品以及一个或多个比较样品两者(例如、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个比较样品)。

在一个实施例中，步骤(b)包含将2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个比较样品的DNA序列与参照DNA序列进行比对并且鉴定所述两个序列之间的第二组序列错配。在一个实施例中，所述方法利用七个或更多个比较样品。在多个比较样品(即2个或更多个)的情况下，进行多个独立的比较。首先，在第一比较样品的DNA序列和参照DNA序列之间获取第一组错配。其次，在第二比较样品的DNA序列和参照DNA序列之间获取第二组错配。第三，在第三比较样品的DNA序列和参照DNA序列之间获取第三组错配。类似地，这针对第四、第五、第六、第七、第八、第九、第十、第十一、第十二、第十三、第十四或第十五个样品来执行，并且可以针对与用于分析一样多的比较样品来执行。在步骤(b)中鉴定的第一组、第二组、第三组等错配共同形成第二组错配，并用于相对于在所述方法的步骤(a)中鉴定的第一组错配进行过滤。已知有几种用于执行这些比较步骤的工具，例如程序vcftools或SnpSift。

本发明不依赖于理解与目的表型性状相关的致病突变的遗传模式。因此，本发明避免了在传统诱变研究中用于确定分离模式的对目的突变体进行异交的耗时步骤。此外，本发明不依赖于将目的表型和在M1突变体的后代中分离的多态性组与目的表型相关联。因此，本发明避免了在传统诱变研究中用于绘制致病突变的对目的突变体进行异交的耗时步骤。在一个实施例中，测试样品是M1代突变体。在一个实施例中，测试样品和至少一个比较样品是M1代突变体。由于是M1突变体，非维管植物没有异交。因此有可能鉴定导致不育的M1突变体中的致病突变，因为所述方法不需要杂交突变体以鉴定致病突变。

在一个实施例中，测试样品是M1或M2代突变体。在一个实施例中，测试样品和至少一个比较样品是M1或M2代突变体。在一个实施例中，测试样品是M1、M2或M3代突变体。在一个实施例中，测试样品和至少一个比较样品是M1、M2或M3代突变体。

在一个实施例中，所述方法不需要分离分析、复杂分离分析或群体分离分析的步骤来鉴定与目的表型相关的致病突变。在一个实施例中，所述方法不需要非维管植物的受精步骤来鉴定与目的表型相关的致病突变。在一个实施例中，所述方法不需要自身受精、受精、异交、回交或用非维管植物的近等基因系受精来鉴定与目的表型相关的致病突变。

在一个实施例中，所述方法不需要了解目的表型的遗传性质以鉴定致病突变。在一个实施例中，所述方法不包含确定目的表型的遗传模式以鉴定致病突变的步骤。

(c)相对于第二组序列错配过滤第一组错配以鉴定第一组序列错配和第二组序列错配共有的错配子集；

其中测试样品和比较样品来自已经暴露于诱变剂的独立非维管植物并且其中所述独立非维管植物表现出目的表型，并且其中所述独立非维管植物是相同的属；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列；

其中所述方法不包含分离分析、复杂分离分析或群体分离分析来鉴定与目的表型相关的致病突变的步骤。

其中参照DNA序列是所述属的非维管植物的已知参照序列；

所述方法不需要受精步骤来鉴定与目的表型相关的致病突变。

其中测试样品和比较样品来自已经暴露于诱变剂的独立非维管植物并且其中测试样品来自表现出目的表型的非维管植物，并且其中比较样品来自不表现出目的表型的相同属的独立非维管植物；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列；

其中所述方法不需要自受精步骤来鉴定与目的表型相关的致病突变。

在一个实施例中，测试样品是来自单倍体植物的生物物质。在一个实施例中，测试样品和至少一个比较样品是来自单倍体植物的生物物质。在一个实施例中，测试样品是来自在其生命周期中主要处于单倍体期的植物的生物物质。在一个实施例中，测试样品和至少一个比较样品是来自在其生命周期中主要处于单倍体期的植物的生物物质。

在一个实施例中，测试样品和/或至少一个比较样品是来自藻类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自绿藻门或链藻门藻类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自柱藻纲、绿球藻纲、克氏球藻纲、纸藻纲、轮藻纲和鞘藻纲的生物物质。

在一个实施例中，测试样品和/或至少一个比较样品是来自衣藻属藻类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是维氏有尾衣藻(Chlamydomonascaudata Wille)、戈氏埃伦伯格衣藻(Chlamydomonas ehrenbergii Gorozhankin)、线状衣藻(Chlamydomonas elegans)、莫伍斯衣藻(Chlamydomonas moewusii)、雪地衣藻(Chlamydomonas nivalis)、卵科衣藻(Chlamydomonas ovoidae)或莱茵衣藻(Chlamydomonas reinhardtii)藻类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自莱茵衣藻藻类的生物物质。

在一个实施例中，测试样品和/或至少一个比较样品是来自非维管植物的生物物质，其中所述非维管植物是苔藓植物。在一个实施例中，测试样品和/或至少一个比较样品是来自选自由以下组成的组的苔藓植物的生物物质：藓类、苔类和角苔。

在一个实施例中，测试样品和/或至少一个比较样品来自角苔的生物物质。

在一个实施例中，测试样品和/或至少一个比较样品是来自藓类的生物物质。在一个实施例中，测试样品是来自立碗藓(Physcomitrella)属的藓类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自小立碗藓(Physcomitrella patens)或雷德小立碗藓(Physcomitrella readeri)藓类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自小立碗藓藓类的生物物质。

在一个优选实施例中，测试样品和/或至少一个比较样品是来自苔类植物的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自叶苔纲类植物的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自叶苔亚纲(Jungermanniidae)或叉苔亚纲(Metzgeriidae)子类植物的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自地钱纲(Marchantiopsida)类植物的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自地钱亚纲(Marchantiidae)或囊果苔亚纲(Sphaerocarpidae)子类植物的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自裸蒴苔纲(Haplomitriopsida)类植物的生物物质。

在一个实施例中，测试样品和/或至少一个比较样品是来自叶状苔类、单叶状苔类或复合叶状苔类的生物物质。

在一个实施例中，测试样品和/或至少一个比较样品是来自地钱属物种的植物的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自高山地钱(Marchantia alpestris)、水栖地钱(Marchantia aquatica)、贝尔泰罗地钱(Marchantiaberteroana)、嘉莉地钱(Marchantia carrii)、藜地钱(Marchantia chenopoda)、柔弱地钱(Marchantia debilis)、多明地钱(Marchantia domingenis)、滨柃地钱(Marchantiaemarginata)、叶地钱(Marchantia foliacia)、毛地钱(Marchantia grossibarba)、弯地钱(Marchantia inflexa)、线形地钱(Marchantia linearis)、大地钱(Marchantiamacropora)、新几内亚地钱(Marchantia novoguineensis)、古地钱(Marchantiapaleacea)、棕榈地钱(Marchantia palmata)、乳地钱(Marchantia papillate)、木瓜地钱(Marchantia pappeana)、多形地钱、红宝石地钱(Marchantia rubribarba)、所罗门地钱(Marchantia solomonensis)、斯特曼地钱(Marchantia streimannii)、亚半神地钱(Marchantia subgeminata)、葡萄地钱(Marchantia vitiensis)、瓦利斯地钱(Marchantiawallisii)和尼泊尔地钱(Marchantia nepalensis)。在优选实施例中，测试样品和/或至少一个比较样品是来自多形地钱的生物物质。

在一个实施例中，测试样品和/或至少一个比较样品是来自蕨类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自厚囊蕨或薄囊蕨(也称为水龙骨亚纲蕨(Polypodiidae ferns))的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是蕨类的生物物质。在一个实施例中，测试样品是来自厚囊蕨类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品是来自合囊蕨属蕨(marattioid fern)(合囊蕨亚纲(Marattiidae)，合囊蕨科)、木賊属蕨(horsetail fern)(木賊亚纲(Equisetiidae)，木賊科(Equisetaceae))、松叶蕨(whisk fern)或月蒿蕨(moonwort fern)的生物物质。

在一个实施例中，测试样品和至少一个比较样品是来自相同属的独立植物的样品。在一个实施例中，测试样品和至少一个比较样品是来自相同物种的独立植物的样品。在一个实施例中，测试样品和至少一个比较样品是来自相同属的独立蕨类的样品。在一个实施例中，测试样品和至少一个比较样品是来自相同物种的独立蕨类的样品。在一个实施例中，测试样品和至少一个比较样品是来自相同属的独立藻类的样品。在一个实施例中，测试样品和至少一个比较样品是来自相同物种的独立藻类的样品。

在一个实施例中，参照DNA序列是与用作测试样品和至少一个比较样品的植物相同属的植物的已知DNA序列。在一个实施例中，参照DNA序列是与用作测试样品和至少一个比较样品的植物相同物种的植物的已知DNA序列。在一个实施例中，参照DNA序列是与用作测试样品和至少一个比较样品的蕨类相同属的蕨类的已知DNA序列。在一个实施例中，参照DNA序列是与用作测试样品和至少一个比较样品的蕨类相同物种的蕨类的已知DNA序列。在一个实施例中，参照DNA序列是与用作测试样品和至少一个比较样品的蕨类相同属的藻类的已知DNA序列。在一个实施例中，参照DNA序列是与用作测试样品和至少一个比较样品的蕨类相同物种的藻类的已知DNA序列。在一个实施例中，所述方法包含(a)将测试样品的DNA序列与一个或多个参照DNA序列进行比对并且鉴定两个序列之间的第一组序列错配，和/或(b)将至少一个比较样品的DNA序列与一个或多个参照DNA序列进行比对并且鉴定两个序列之间的第二组序列错配。参照基因组可在公共数据库中广泛获得，并且技术人员理解如何选择适当的参照序列。

在一个实施例中，所述方法包含(a)将测试样品的DNA序列与两个或多个参照DNA序列进行比对并且鉴定第一组序列错配；和/或(b)将至少一个比较样品的DNA序列与两个或多个参照DNA序列进行比对并且鉴定第二组序列错配。在多个参照DNA样品(即2个或更多个)的情况下，进行多个独立的比较。首先，在测试样品的DNA序列和第一参照DNA序列之间获取第一组错配。其次，在测试样品和第二参照DNA序列之间获取第二组错配。第三，在测试样品和参照DNA序列之间获取第三组错配等。第一组、第二组、第三组等错配共同形成步骤(a)的第一组错配。类似地，进行多次独立比较，将至少一个比较样品与多个参照DNA序列比较来形成步骤(b)的第二组错配。

在一个实施例中，测试样品和/或至少一个比较样品是来自孢子生殖生物体例如孢子生殖植物、孢子生殖藻类或孢子生殖蕨类的生物物质。在一个实施例中，测试样品和/或至少一个比较样品来自通过孢子繁殖的非维管植物。在一个实施例中，测试样品和/或至少一个比较样品来自通过孢子繁殖的蕨类。在一个实施例中，测试样品和/或至少一个比较样品来自通过孢子繁殖的藻类。

在一个实施例中，提供了一种用于鉴定与苔类植物中目的表型相关的突变的方法，其中所述方法包含：

其中测试样品和比较样品来自已经暴露于诱变剂的独立苔类植物并且其中所述独立苔类植物表现出目的表型，并且其中所述独立苔类植物是相同的属；并且

其中参照DNA序列是所述属的苔类植物的已知参照序列。

其中测试样品和比较样品来自已经暴露于诱变剂的独立苔类植物并且其中测试样品来自表现出目的表型的苔类植物，并且其中比较样品来自不表现出目的表型的相同属的独立苔类植物；并且

其中参照DNA序列是所述属的苔类植物的已知参照序列。

在一个实施例中，提供了一种用于鉴定与蕨类中目的表型相关的突变的方法，其中所述方法包含：

其中测试样品和比较样品来自已经暴露于诱变剂的独立蕨类植物并且其中所述独立蕨类植物表现出目的表型，并且其中所述独立蕨类是相同的属；并且

其中参照DNA序列是所述属的蕨类的已知参照序列。

在一个实施例中，提供了一种用于鉴定与蕨类植物中目的表型相关的突变的方法，其中所述方法包含：

其中测试样品和比较样品来自已经暴露于诱变剂的独立蕨类植物并且其中测试样品来自表现出目的表型的蕨类植物，并且其中比较样品来自不表现出目的表型的相同属的独立蕨类植物；并且

其中参照DNA序列是所述属的蕨类的已知参照序列。

在一个实施例中，提供了一种用于鉴定与藻类中目的表型相关的突变的方法，其中所述方法包含：

其中测试样品和比较样品来自已经暴露于诱变剂的独立藻类并且其中所述独立藻类表现出目的表型，并且其中所述独立藻类是相同的属；并且

其中参照DNA序列是所述属的藻类的已知参照序列。

其中测试样品和比较样品来自已经暴露于诱变剂的独立藻类并且其中测试样品来自表现出目的表型的藻类，并且其中比较样品来自不表现出目的表型的相同属的独立藻类；并且

其中参照DNA序列是所述属的藻类的已知参照序列。

在一个实施例中，目的表型是非维管植物、蕨类或藻类的形态特征，如大小、高度、大小、颜色或结构。在一个实施例中，目的表型是可观察到的特性，例如增加的产量、胁迫耐受性、胁迫抗性、非生物胁迫耐受性、非生物胁迫抗性、耐盐性、抗盐性、不育性、抗旱性、耐旱性、对热或冷温度的抗性、抗冻性、耐冻性、生长速率、细胞分裂速率、疾病耐受性、疾病抗性、疾病敏感性、除草剂耐受性、除草剂抗性、除草剂敏感性、抗生素耐受性、抗生素耐药性或抗生素敏感性。根据所需的目的表型，植物、藻类或蕨类与野生型植物相比表现出增加或降低水平的目的性状(例如除草剂抗性)。在一个实施例中，目的表型是植物表现出与野生型水平相比增加10、20、30、40、50、60、70、80、90或100％的目的性状。在一个实施例中，目的表型是植物表现出与野生型水平相比增加200、250、300、350、400、450或500％的目的性状。在一个实施例中，目的表型是植物表现出与野生型水平相比降低10、20、30、40、50、60、70、80、90或100％的目的性状。

在一个实施例中，目的表型是除草剂抗性。在一个实施例中，目的表型是除草剂耐受性。在一个实施例中，目的表型是除草剂敏感性。在一个实施例中，目的表型可以是对病毒、细菌或真菌病原体的增强的抗性或增强的耐受性。在一个实施例中，目的表型可以是对天然、合成或化学除草剂的增强的抗性或增强的耐受性。在优选实施例中，目的表型可以是增加的除草剂抗性。在优选实施例中，目的表型可以是对特定除草剂的增强的除草剂抗性。测试样品可以来自对特定除草剂具有抗性的非维管植物，并且至少一个比较样品可以来自对替代性除草剂具有抗性或显示替代性表型(即不表现出对特定除草剂的抗性)的独立非维管植物。在除草剂抗性的情况下，抗性确定为植物暴露于目的除草剂后存活(即植物在暴露于除草剂后不死亡)。在一个实施例中，存活确定为植物在暴露于除草剂一周后存活。在一个实施例中，存活确定为植物在暴露于除草剂两周后存活。在一个实施例中，存活确定为植物在暴露于除草剂三周后存活。

在一个实施例中，所述方法包含将非维管植物、蕨类或藻类或蕨类暴露于试剂。暴露于试剂可导致植物、蕨类或藻类表现出目的表型。试剂可以是营养物、引发营养物饥饿反应的分子、植物生长调节剂、植物生长抑制剂、植物生长增强剂、肥料或除草剂。在一个实施例中，测试样品来自已经暴露于试剂的非维管植物。在一个实施例中，测试样品来自已经暴露于试剂的蕨类。在一个实施例中，测试样品来自已经暴露于试剂的藻类。在一个实施例中，测试样品来自已经暴露于除草剂的非维管植物。

在一个实施例中，所述方法包含将非维管植物暴露于目的试剂，并基于所述非维管植物对所述试剂的反应选择表现出目的表型的非维管植物。在一个实施例中，所述方法包含将非维管植物暴露于除草剂，并基于所述非维管植物对所述除草剂的反应选择表现出目的表型的非维管植物。在一个实施例中，所述方法包括将非维管植物暴露于除草剂并选择表现出除草剂抗性的非维管植物。

在一个实施例中，所述方法包含将蕨类暴露于目的试剂，并基于所述蕨类对所述试剂的反应选择表现出目的表型的蕨类。在一个实施例中，所述方法包含将藻类暴露于目的试剂，并基于所述藻类对所述试剂的反应选择表现出目的表型的藻类。

在一个实施例中，所述方法包括以下初步步骤：

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于试剂；

(iii)从诱变的非维管植物中获取测试样品；

(iv)从独立的诱变的非维管植物获取至少一个比较样品；其中在(a)之前执行(i)至(iv)。

暴露于试剂可导致目的表型。在一个实施例中，所述方法包含将非维管植物暴露于目的试剂，并基于所述非维管植物对所述试剂的反应选择表现出目的表型的非维管植物。

在一个实施例中，所述方法包含以下初步步骤：

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于除草剂；

(iii)从诱变的非维管植物中获取测试样品；

其中测试样品和比较样品来自已经暴露于诱变剂的独立非维管植物，并且进一步地，其中所述非维管植物已经暴露于试剂；

其中独立非维管植物表现出目的表型并且其中所述独立非维管植物是相同属；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列。

其中测试样品和比较样品来自已经暴露于诱变剂的独立非维管植物，并且进一步地，其中所述非维管植物已经暴露于除草剂；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

在一个实施例中，提供了一种用于鉴定与非维管植物中除草剂抗性相关的突变的方法，其中所述方法包含：

并且其中独立非维管植物表现出对除草剂的抗性，并且其中所述独立非维管植物是相同属；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列。

其中测试样品和比较样品来自暴露于诱变剂的独立非维管植物，并且其中所述测试样品来自表现出除草剂抗性的非维管植物并且其中所述比较样品来自表现出不同表型的相同属的独立非维管植物；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于试剂；

(iii)从表现出目的表型的诱变的非维管植物获取测试样品；

(iv)从表现出相同目的表型的独立的诱变的非维管植物获取至少一个比较样品；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于除草剂；

(iii)从表现出目的表型的诱变的非维管植物获取测试样品；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于除草剂；

(iii)从表现出除草剂抗性的诱变的非维管植物获取测试样品；

(iv)从不表现出相同目的表型的独立的诱变的非维管植物获取至少一个比较样品；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于试剂；

(iii)从表现出目的表型的诱变的非维管植物获取测试样品；

(iv)从不表现出目的表型的独立的诱变的非维管植物获取至少一个比较样品；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于除草剂；

(iv)从不表现出相同目的表型的独立的诱变的非维管植物获取至少一个比较样品；以及

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于除草剂；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(i)从测试样品样品的基因组DNA和来自至少一个比较样品的基因组DNA获取基因组DNA并生成测序文库；

(ii)执行集群生成；

(iii)对来自测试样品的基因组DNA和来自至少一个比较样品的基因组DNA进行测序以获取序列读段；

其中测试样品来自诱变的非维管植物；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

(ii)执行集群生成；

其中测试样品来自诱变的非维管植物；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

在一个实施例中，所述方法包含对来自测试样品和至少一个比较样品的DNA序列进行测序以提供原始读段。在一个实施例中，对DNA进行测序的步骤包含对原始读段DNA序列进行质量微调和归一化。存在许多软件包来执行这些测序步骤中的每一个。

在一个实施例中，这里描述的方法是计算机实现的方法。在一个实施例中，方法步骤(a)到(c)和可选地(d)由计算机程序代码执行。在一个实施例中，被配置成执行存储在计算机可读介质中的计算机程序代码的处理器经由计算机程序代码执行方法步骤(a)到(c)以及可选地(d)。

在一个实施例中，所述方法包含用生物过滤器过滤鉴定的候选突变，以提供数目减少的用于致病突变的候选突变。此进一步的过滤步骤可以在相对于第二组错配过滤第一组错配的第一过滤步骤(c)之后执行。生物过滤器可以是用于与诱变方法的突变标签不一致的突变的过滤器(非规范错配过滤器)。生物过滤器可以是不引起编码蛋白质的氨基酸序列变化的错配过滤器。生物过滤器可以是非编码突变的过滤器。生物过滤器可以是在具有预测功能的基因的编码序列中的错配的过滤器。

在一个实施例中，提供了用于鉴定与非维管植物中目的表型相关的突变的系统，其中所述系统包含被配置成执行存储在计算机可读介质中的计算机程序代码的处理器，所述计算机程序代码被配置成：

其中测试样品来自诱变的非维管植物；

其中参照DNA序列是所述属的非维管植物的已知参照序列。

其中测试样品来自诱变的非维管植物；

其中测试样品来自表现出目的表型的非维管植物并且其中至少一个比较样品来自不表现出目的表型的相同属的独立非维管植物；并且

其中参照DNA序列是所述属的非维管植物的已知参照序列。

还设想了其它方面，例如，一种用于鉴定导致测试样品中目的表型的致病突变的方法，所述方法包含基于i)独立等位基因M1突变系的测试样品和比较样品形成互补组的一部分互补组预测，和/或ii)独立非等位基因M1突变系和M0野生型植物的比较样品不含致病突变的比较致病突变预测来选择比较样品的步骤，其中所述互补组预测或所述比较致病突变预测都不包含分离分析的步骤，并且所述方法进一步包含处理器被配置成执行存储在计算机可读介质中的计算机程序代码的步骤，所述计算机程序代码执行以下方法：获取与测试样品相关的样品DNA序列数据；获取与参照样品相关的参照DNA序列数据；获取与比较样品相关的比较DNA序列数据；确定与样品DNA序列数据和参照DNA序列数据相关的第一组错配DNA序列数据；确定与比较DNA序列数据和参照DNA序列数据相关的其它组错配DNA序列数据；以及相对于其它组错配DNA序列数据过滤第一组错配DNA序列数据，以获取包括致病突变的一组候选错配，用于从候选错配内鉴定致病突变。

作为另一个实例，还设想了用于鉴定导致测试样品中目的表型的致病突变的系统，所述系统包含基于i)独立等位基因M1突变系的测试样品和比较样品形成互补组的一部分的互补组预测和/或ii)独立非等位基因M1突变系和M0野生型植物的比较样品不含有致病突变的比较致病突变预测来选择比较样品的方式，其中所述互补组预测或所述比较致病突变预测都不包含分离分析步骤，并且所述系统进一步包含处理器，所述处理器被配置成执行存储在计算机可读介质中的计算机程序代码，所述计算机程序代码被配置成：获取与测试样品相关的样品DNA序列数据；获取与参照样品相关的参照DNA序列数据；获取与比较样品相关的比较DNA序列数据；确定与样品DNA序列数据和参照DNA序列数据相关的第一组错配DNA序列数据；确定与比较DNA序列数据和参照DNA序列数据相关的其它组错配DNA序列数据；以及相对于其它组错配DNA序列数据过滤第一组错配DNA序列数据，以获取包括致病突变的一组候选错配，用于从候选错配内鉴定致病突变。

在一个方面，提供了一种用于鉴定导致测试样品中目的表型的致病突变的方法，所述方法包含基于i)测试样品和比较样品形成互补组的一部分的预测和/或ii)比较样品不含有致病突变的预测来选择比较样品的步骤，并且所述方法进一步包含处理器被配置成执行存储在计算机可读介质中的计算机程序代码的步骤，所述计算机程序代码执行以下方法：

获取与测试样品相关的样品DNA序列数据；

获取与参照样品相关的参照DNA序列数据；

获取与比较样品相关的比较DNA序列数据；

确定与样品DNA序列数据和参照DNA序列数据相关的第一组错配DNA序列数据；

确定与比较DNA序列数据和参照DNA序列数据相关的其它组错配DNA序列数据；以及

相对于其它组错配DNA序列数据过滤第一组错配DNA序列数据，以获取包括致病突变的一组候选错配，用于从候选错配内鉴定致病突变。

在一个实施例中，这些比较样品是基于预测测试样品与这些比较样品形成互补组的一部分来选择的，并且进一步包含执行以下方法的计算机程序代码：

通过以下步骤相对于其它组错配DNA序列数据过滤第一组错配DNA序列数据：

确定在i)第一组错配DNA序列数据和ii)其它组错配DNA序列数据两者中的共同错配DNA序列数据，以及

基于所述共同错配DNA序列数据生成一组候选错配。

在一个实施例中，基于预测比较样品不含有致病突变来选择比较样品，并且进一步包含执行以下方法的计算机程序代码：

确定在第一组错配DNA序列数据中而不在其它组错配DNA序列数据中的不共有的错配DNA序列数据，以及

基于所述不共有的错配DNA序列数据生成一组候选错配。

在一个实施例中，确定第一组错配DNA序列数据的步骤包含以下计算机程序代码的步骤：

将样品DNA序列数据的每个读段与参照DNA序列数据进行比对；以及

基于样品DNA序列数据的读段相对于参照DNA序列数据的位置，对样品DNA序列数据的比对读段进行分类。

在一个实施例中，确定第二或其它组错配DNA序列数据的步骤包含以下计算机程序代码的步骤：

将比较DNA序列数据的每个读段与参照DNA序列数据进行比对；以及

基于比较DNA序列数据的读段相对于参照DNA序列数据的位置，对比较DNA序列数据的比对读段进行分类。

基于在预定测序深度上比对的区域的大小，拒绝与参照DNA序列数据比对的样品DNA序列数据的至少一个区域。

基于在预定测序深度上比对的区域的大小，拒绝与参照DNA序列数据比对的比较DNA序列数据的至少一个区域。

在一个实施例中，其中计算机程序代码进一步执行以下方法：

确定多个第一组错配DNA序列数据；

确定多个第一组中出现错配的组数，以及

当确定发生错配的组数超过预定阈值时，将与错配相关的错配DNA序列数据加入一组候选错配中。

在一个方面，提供了用于鉴定导致测试样品中目的表型的致病突变的系统，所述系统包含基于i)测试样品和比较样品形成互补组的一部分的预测和/或ii)比较样品不含致病突变的预测来选择比较样品的方式，所述系统还包含处理器，所述处理器被配置成执行存储在计算机可读介质中的计算机程序代码，所述计算机程序代码被配置成：

获取与测试样品相关的样品DNA序列数据；

获取与参照样品相关的参照DNA序列数据；

获取与比较样品相关的比较DNA序列数据；

在一个实施例中，这些比较样品是基于预测测试样品与这些比较样品形成互补组的一部分来选择的，并且计算机程序代码被进一步配置成：

由计算机程序代码相对于其它组错配DNA序列数据过滤第一组错配DNA序列数据，所述计算机程序代码被配置成：

基于所述共同错配DNA序列数据生成一组候选错配。

在一个实施例中，基于预测比较样品不含致病突变来选择比较样品，并且计算机程序代码被进一步配置成：

基于所述不共有的错配DNA序列数据生成一组候选错配。

在一个实施例中，为了确定第一组错配DNA序列数据，计算机程序代码被进一步配置成：

在一个实施例中，为了确定第二或其它组错配DNA序列数据，计算机程序代码被进一步配置成：

在一个实施例中，为了确定其它组错配DNA序列数据，计算机程序代码被进一步配置成：

在一个实施例中，计算机程序代码被进一步配置成：

确定多个第一组错配DNA序列数据；

确定多个第一组中出现错配的组数，以及

在一个方面中，提供了一种计算机可读存储介质，所述计算机可读存储介质具有记录在其中的计算机程序，所述程序可由计算机设备执行以使计算机执行在此公开的实施例中的任一个的方法。

工业适用性

所描述的安排适用于DNA测序行业，特别适用于涉及检测DNA序列中的致病突变的行业。

所公开的软件方法和/或系统能够发现致病突变而不需要交叉突变体。因此，可以使用公开的软件方法和/或系统鉴定不育突变体中的致病突变。鉴定导致不育的突变可应用于农业技术领域。可以在农业上相关的植物物种中改造导致不育的突变以产生不育种子。例如，可将导致不育的突变应用于基因使用限制技术(GURT)。

以上仅描述了本发明的一些实施例，并且在不脱离本发明的范围和精神的情况下可以对其进行修改和/或改变，这些实施例是说明性的而不是限制性的。

在本说明书的上下文中，词语“包含”意味着“主要包括但不一定仅包括”或“具有”或“包括”，并且不是“仅由……组成”。单词“包含(comprising)”的变体，例如“包含(comprise)”和“包含(comprises)”具有相应变化的含义。

实例1：在削弱生育力的植物增强蛋白质RHO GTPASES基因中发现突变(B例)

通过用紫外线B照射多形地钱产生了几个独立的突变系。突变系分为两个表型组：一些具有直的假根(图8A)和完整的表皮(图9A)，一些具有波状假根(图8B)和伸展的表皮(图9B)。

我们旨在鉴定UV4.32突变系中的致病突变，所述突变系具有波状假根和伸展的表皮。使用全植物作为样品和标准DNA苯酚-氯仿-IAA，从具有波状假根和伸展的表皮的UV4.32突变体中提取DNA。使用Illumina's HiSeq-2000平台技术对UV4.32的基因组和7个独立的具有直的假根和完整的表皮的突变系的基因组进行测序。

使用Trimmomatic-0.32对原始读段进行质量微调，并使用k-mer大小为31的Khmer0.7.1对原始读段进行归一化。用bowtie2-2.1.0设置的非常灵敏的局部模式将得到的读段与参照基因组进行比对。使用的参照基因组是在NCBI全基因组鸟枪(WGS)数据库上公开可获得的多形地钱草案汇编。

对比对进行位置分类，使用函数sort和mpileup从Bio-Samtools-2.0.5中提取q质量高于35的读段内的错配。因为它们可能是由无法比对引起的，所以使用varFilter函数从samtools-0.1.9包的bcftools中排除覆盖范围超过100X的区域中的错配。然后，只有当错配得到超过7个读段的支持并且基于负FQ值或AF1值高于0.5001错配看起来足够纯合时，才保留错配。

在任何过滤之前在UV4.32中鉴定总共143,292个错配。对UV4.32具特异性的错配数目随着用于过滤的具有直的假根和完整的表皮的UV突变系的数目而减少(图10A)。

最终，使用测序的所有过滤品系，候选错配的数目减少到12,000个错配，或减少90％以上(图3B)。这表明，在标准过滤步骤之前，将测试样品中的一组错配减去预测不含有致病突变的比较样品中的一组错配的过滤步骤增加了候选错配鉴定的严格性。

执行后续过滤步骤以过滤与UV标签不一致的错配，以过滤基因编码序列之外的错配，并过滤非同义错配。这三个过滤步骤进一步将候选错配的数目减少到了10个与预期的UV突变标签一致的突变(图3)，预计它们位于基因的编码序列中(图3)并改变了对应蛋白质的氨基酸序列(表1)。

表1：地钱属基因和对应的拟南芥同源基因中UV4.32的候选突变。拟南芥是植物遗传学最成熟的模型，多形地钱基因的功能可以通过与拟南芥基因的功能类比来推断。

在这10个突变中，最强的突变是导致MpREN中的早期终止密码子的2个碱基对缺失(表1)。已知Ren突变体表现出与UV4.32相同的表型(Honkanen等人，2016和未公开的数据/图2B)。这表明后续的过滤步骤是足够保守的。

总之，这表明我们基于将测试样品中的一组错配减去预测不含有致病突变的比较样品中的一组错配的管道版本能够鉴定少量突变，包括致病突变，而不需要与突变品系异交。

实例2：在乙酰乳酸合酶基因中发现导致氯磺隆抗性的突变(A例)

用紫外线B照射多形地钱并且鉴定七株对除草剂氯磺隆具有抗性的独立突变系。氯磺隆抗性由暴露于致死剂量的氯磺隆(0.1ppm剂量，即足以杀死100％野生型植物的剂量)两周后存活的多形地钱植物确定。

由于所有突变植物具有相同的表型氯磺隆抗性，我们假定它们各自含相同的致病突变。将氯磺隆抗性突变体与单独鉴定的超过100,000个错配的参照基因组进行比较，并且我们首先过滤也存在于M0野生型基因组中的错配(图11，2个最左边的分散框)。

为了测试基于等位性的管道版本的效率，我们将其应用于4、5、6和所有7个氯磺隆突变体的组合。我们使用的等位基因减去品系越多，管道变得越有效。事实上，使用所有7个氯磺隆抗性品系，我们将错配数目从接近100,000减少到与预期的突变标签一致并且在基因的编码序列中的11个候选突变(图11)。

在所有7个氯磺隆抗性突变体共有但野生型中不存在的11个候选突变中，5个导致编码蛋白质的氨基酸序列改变(表3)。在这5个候选突变中，只有一个在具有预测功能的基因中。

事实上，已知乙酰乳酸合酶基因中的这种精确突变在其它植物模型中引起氯磺隆抗性。

突变基因模型	拟南芥同源物	拟南芥同源物的注释	突变类型
				Mp3229s1050	没有	不适用	无意义
Mp2743s1010	没有	不适用	无意义
				Mp3364s1000	没有	不适用	错义
Mp4485s1300	没有	不适用	错义
				Mp2116s1050	AT3G42690	乙酰乳酸合酶	错义

表3：氯磺隆突变体的候选突变(A例)

实例3：在乙酰乳酸合酶基因中发现导致氯磺隆抗性的突变(AB例)

为了提高实例1和实例2中举例说明的管道的能力，我们组合了两种方法：在管道的此实施例中，在等位基因突变体共有的且野生型和非等位基因突变体中不存在的错配组中寻找致病突变。

使用3个氯磺隆敏感的诱变品系，我们过滤了11个氯磺隆抗性特异性错配中的4个，这些错配先前被鉴定为与预期的突变标签一致并且在基因的编码序列中，最后使我们只有4个候选突变(表4)，这些候选突变被预测导致蛋白质的氨基酸序列改变。

这表示与实例2中单独举例说明的管道相比，管道能力增加了20％至30％。因为实施例1和2中管道的能力分别随等位基因和非等位基因减去品系的数目而增加，所以我们预测如果我们使用更多的等位基因和非等位基因减去品系，则本实例中举例说明的管道的能力将进一步增加。

突变基因模型	拟南芥同源物	拟南芥同源物的注释	突变类型
				Mp2743s1010	没有	不适用	无意义
Mp3364s1000	没有	不适用	错义
				Mp4485s1300	没有	不适用	错义
Mp2116s1050	AT3G42690	乙酰乳酸合酶	错义

表4.预测导致蛋白质氨基酸序列改变的候选突变(表4)。

Claims

1.一种用于鉴定与非维管植物中目的表型相关的突变的方法，其中所述方法包含：

(a)将测试样品的DNA序列与参照DNA序列进行比对并且鉴定所述两个序列之间的第一组序列错配；其中所述测试样品来自诱变的非维管植物；

(b)将至少一个比较样品的DNA序列与所述参照DNA序列进行比对并且鉴定所述两个序列之间的第二组序列错配；

(c)相对于所述第二组错配过滤所述第一组错配以鉴定所述第一组错配所特有的错配子集，其中所述错配子集是致病突变的候选突变；其中所述测试样品来自表现出所述目的表型的非维管植物

并且其中所述至少一个比较样品来自不表现出所述目的表型的相同属的独立非维管植物；并且其中所述参照DNA序列是所述属的非维管植物的已知参照序列。

2.一种用于鉴定与非维管植物中目的表型相关的突变的方法，其中所述方法包含：

(b)将至少一个比较样品的DNA序列与参照DNA序列进行比对并且鉴定所述两个序列之间的第二组序列错配；

(c)相对于所述第二组序列错配过滤所述第一组错配以鉴定所述第一组序列错配和所述第二组序列错配共有的错配子集；其中所述测试样品和所述比较样品来自表现出所述目的表型的独立非维管植物并且其中所述独立非维管植物是相同属；并且其中所述参照DNA序列是所述属的非维管植物的已知参照序列。

3.根据权利要求1所述的方法，其中所述方法进一步包含

(b-i)将至少一个额外比较样品的DNA序列与所述参照DNA序列进行比对并且鉴定所述两个序列之间的第三组序列错配；其中所述额外比较样品来自表现出所述目的表型的独立非维管植物并且其中所述独立非维管植物是相同属；并且其中

(c)进一步包含相对于所述第三组序列错配过滤第一组错配以鉴定所述第一组序列错配和所述第二组序列错配共有的错配子集，其中所述两个错配子集是致病突变的候选突变。

4.根据权利要求1至3中任一项所述的方法，其中所述目的表型是可观察到的特性，所述特性选自由以下组成的组：增加的产量、胁迫耐受性、胁迫抗性、非生物胁迫耐受性、非生物胁迫抗性、耐盐性、抗盐性、不育性、抗旱性、耐旱性、对热或冷温度的抗性、抗冻性、耐冻性、植物生长速率、植物细胞分裂速率、疾病耐受性、疾病抗性、疾病敏感性、除草剂耐受性、除草剂抗性、除草剂敏感性、抗生素耐受性、抗生素耐药性和抗生素敏感性。

5.根据权利要求1至3中任一项所述的方法，其中所述目的表型是对天然、合成或化学除草剂的增强的抗性或增强的耐受性。

6.根据权利要求1至5中任一项所述的方法，其中所述非维管植物是叶状苔类、单叶状苔类或复合叶状苔类。

7.根据权利要求6所述的方法，其中所述非维管植物选自由以下组成的组：高山地钱(Marchantia alpestris)、水栖地钱(Marchantia aquatica)、贝尔泰罗地钱(Marchantiaberteroana)、嘉莉地钱(Marchantia carrii)、藜地钱(Marchantia chenopoda)、柔弱地钱(Marchantia debilis)、多明地钱(Marchantia domingenis)、滨柃地钱(Marchantiaemarginata)、叶地钱(Marchantia foliacia)、毛地钱(Marchantia grossibarba)、弯地钱(Marchantiainflexa)、线形地钱(Marchantia linearis)、大地钱(Marchantiamacropora)、新几内亚地钱(Marchantia novoguineensis)、古地钱(Marchantiapaleacea)、棕榈地钱(Marchantia palmata)、乳地钱(Marchantia papillate)、木瓜地钱(Marchantia pappeana)、多形地钱(Marchantia polymorpha)、红宝石地钱(Marchantiarubribarba)、所罗门地钱(Marchantia solomonensis)、斯特曼地钱(Marchantiastreimannii)、亚半神地钱(Marchantia subgeminata)、葡萄地钱(Marchantiavitiensis)、瓦利斯地钱(Marchantia wallisii)和尼泊尔地钱(Marchantianepalensis)。

8.根据权利要求1至7中任一项所述的方法，其中诱变的测试样品是M1突变体。

9.根据权利要求1至8中任一项所述的方法，其中来自独立非维管植物的所述比较样品是诱变的非维管植物。

10.根据权利要求1至9中任一项所述的方法，其中所述诱变的测试样品包含非天然发生的突变。

11.根据权利要求1至10中任一项所述的方法，其中所述方法不包含分离分析、复杂分离分析或群体分离分析的步骤。

12.根据权利要求1至11中任一项所述的方法，其中所述方法不需要自身受精、受精、异交、回交或用所述非维管植物的近等基因系受精的步骤。

13.根据权利要求1至12中任一项所述的方法，其中步骤(b)包含将2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个比较样品的DNA序列与所述参照DNA序列进行比对并且并鉴定所述两个序列之间的第二组序列错配。

14.根据权利要求1至13中任一项所述的方法，其中所述方法包含(d)用生物过滤器进一步过滤所述候选突变。

15.根据权利要求1至14中任一项所述的方法，其中所述非维管植物是单倍体。

16.根据权利要求1至15中任一项所述的方法，其中所述非维管植物选自由以下组成的组：藓类、苔类和角苔。

17.根据权利要求16所述的方法，其中所述非维管植物是选自以下的藓类：小立碗藓(Physcomitrella patens)或雷德小立碗藓(Physcomitrella readeri)。

18.根据权利要求1至17中任一项所述的方法，其中所述目的表型是选自由以下组成的组的形态学特征：植物大小、植物高度、叶大小、植物颜色和植物结构。

19.根据权利要求1至18中任一项所述的方法，其中所述目的表型是对病毒、细菌或真菌病原体的增强的抗性或增强的耐受性。

20.根据权利要求1至19中任一项所述的方法，其中所述方法进一步包含

(i)将非维管植物群体暴露于诱变剂；

(ii)将非维管植物群体暴露于试剂；

(iii)从诱变的非维管植物中获取测试样品；

21.根据权利要求1至20中任一项所述的方法，其中所述方法是计算机实现的方法。