CN111836905A

CN111836905A - 用于检测和评估基因毒性的方法和试剂

Info

Publication number: CN111836905A
Application number: CN201980013275.XA
Authority: CN
Inventors: J·J·索尔克; C·C·瓦伦丁三世
Original assignee: Twinstrand Biosciences Inc
Current assignee: Twinstrand Biosciences Inc
Priority date: 2018-02-13
Filing date: 2019-02-13
Publication date: 2020-10-27
Also published as: IL276637A; JP2021513364A; KR20200123159A; CA3091022A1; JP7420388B2; US20210355532A1; BR112020016516A2; SG11202007648WA; EP3752639A4; WO2019160998A1; MX2020008472A; AU2019221549A1; RU2020130024A; EP3752639A1; JP2024038208A

Abstract

本文公开了具有用于评估基因毒性的试剂的方法、系统和试剂盒。基因毒性及其作用机制可以在受试者暴露的几天内确定。该技术的一些实施例涉及利用双重测序来评估暴露的受试者中化合物(例如，化学化合物)的基因毒性潜力。该技术的其他实施例涉及利用双重测序来确定与基因毒性药剂相关的突变标志；和/或基因毒素暴露的安全阈值水平。该技术的另外的实施例涉及通过将受试者的DNA突变谱与已知诱变化合物的突变谱进行比较来识别受试者可能已经暴露于的一种或多种基因毒性药剂。一旦受试者中的基因毒素暴露被识别或确认，则提供预防性和/或抑制性治疗的疗程。

Description

用于检测和评估基因毒性的方法和试剂

相关申请的交叉引用

本申请要求2018年2月13日提交的美国临时专利申请第62/630,228号和2018年9月26日提交的美国临时专利申请第62/737,097号的优先权和权益，它们的公开通过引用以其整体并入本文。

背景技术

基因毒性是指对遗传物质(例如DNA、RNA)造成损伤的药剂或过程(即基因毒素)的破坏性。在生殖细胞系中，对核酸材料的损伤有可能导致可遗传的生殖系突变，而对体细胞中核酸材料的损伤可以导致体细胞突变。在一些情况下，这样的体细胞突变可能导致恶性肿瘤或其他疾病。已经确定，基因毒素的暴露可能直接或间接引起这样的核酸损伤，或者在一些情况下可能是直接和间接触发核酸损伤的原因。例如，基因毒性物质可能直接与遗传物质相互作用，以引起核苷酸序列本身或其结构的变化，或者产生化学修饰(例如加合物或断裂)，这些化学修饰在试图通过细胞机器进行复制、修复或以其他方式处理时诱导核苷酸序列的改变(或者增加诱导核苷酸序列的改变的可能性)。基因毒素可以是天然存在的化学品或过程(例如，煤、镭或UV光)，或者人工创建的化学品或过程或疗法(例如，工业尿烷、X射线机、许多化疗药物和一些形式的基因疗法)。

其他基因毒素可能通过激活降低DNA复制的保真度的细胞途径来间接地触发核酸损伤。例如，这可以是绕过正常检查点或通过减少核酸的正常修复(例如许多核酸修复途径中的任何一种的直接或间接失调，包含错配修复(MMR)、核苷酸切除修复(NER)、碱基切除修复(BER)、双链断裂修复(DSBR)、转录偶联修复(TCR)、非同源末端连接(NHEJ)等)的细胞周期机制的直接或间接激活。其他基因毒素可能通过促进自身为基因毒性的细胞环境而间接起作用。这样的环境的一个示例是“氧化应激”，其可以通过增加生物体(例如通过刺激免疫介导的炎症)或细胞中活性氧物质的产生来产生，所述活性氧物质可以通过改变序列化学组成本身或在结构上改变核酸链引起对遗传物质的损伤。基因毒素的又另一种间接形式是抑制生物体的免疫系统的某些方面的药剂或过程。通过允许通过若干种机制中的任何一种(例如，通过引起某些组织中的炎症或促进细胞周期进程)使可能为基因毒性的微生物增殖，免疫监视的这样的降低可以在生物体内导致基因毒性。此外，这样的药剂或过程可以通过降低清除携带遗传异常(否则这些遗传异常将通过该机制被清除)的细胞的正常能力而有助于生物体的基因毒性负荷并且是致癌的。许多基因毒素的机制仍有待发现。

基因毒素可以来自多种外部和内部来源。例如，外部(即外源)来源可以包含化学品或化学品(例如，药物、工业/制造副产物、化学废物、化妆品、家用清洁剂、增塑剂、烟草烟雾、溶剂等)的混合物；来自自然环境或来自设备的重金属、空气传播的粒子、污染物、食品、辐射(例如光子，例如γ辐射、X辐射、粒子辐射或其混合物)、物理力(例如磁场、重力场、加速力等)；另一种生物体(例如病毒、寄生虫、细菌、原生动物、真菌)或由另一种天然存在的生物体(例如真菌、植物、动物、细菌、细菌、原生动物等)产生的生物体。某些作物本身(例如烟草)含有其天然形式的已知基因毒素。主食作物在生长期间(例如，灌溉水被工业废物污染)、在收获期间(例如，作物与马兜铃(其生成诱变剂马兜铃酸)的意外联合收获)、在储存期间(例如，潮湿的豆类和谷物筒仓导致生成诱变剂黄曲霉毒素的曲霉属物种的生长)或在制备期间(例如，肉类的熏制和一些其他保存方法(其产生多种形式的基因毒素)或淀粉的高温蒸煮(其可能生成诱变剂丙烯酰胺))，可能变得被基因毒素污染。内部(即内源)来源的一些示例可以包含生化过程或生化过程的结果。例如，如果药剂是由代谢活化生成的诱变剂的前体，则该化学药剂可以被确定为基因毒素。其他示例可能包含炎症途径(例如，应激、自身免疫疾病)的刺激物，或凋亡或免疫监视的抑制剂。不管来源如何，许多因素在确定药剂或过程是否为潜在的基因毒性、致突变性或致癌性(即引起癌症)方面发挥作用。

在某些应用中，检测和量化诱变过程的能力对于评估癌症风险和预测人类致癌性暴露的影响非常重要。同样，在销售之前(例如，药物、化妆品、食品、制造副产物等)，评估化学化合物或其他药剂引起核酸突变的可能性是产品安全性测试的基本要素。目前识别基因毒素的方法是费力的、成本高的、时间延迟的(例如在暴露与症状之间的年数)，可能不能代表真正的人体效应(仅与某些模型生物体相对)，并且在一些情况下，很难确定确切的病原体。例如，在开始搜索基因毒素之前(例如，药物和食品安全性分析、环境污染物或环境倾倒的调查等)，有时需要检测患病的受试者群体(例如，癌症集群)的增加的发病率。

体内体细胞突变的常规度量是从细菌、细胞培养物或转基因动物中基于选择的测定中间接地推断出来的，其中全基因组效应是从小的人工报告物中外推出来的。因此，目前使用的测定不能完全替代化合物在体内的真正基因毒性潜力，并且它们是劳动密集型的，同时仅提供关于化合物的诱变潜力的信息的有限子集。很可能许多化合物在人工细菌系统(即Ames测定)中显示出诱变潜力，但并不能准确地反映人类的真实风险，并且导致原本有治疗前景的化合物不必要地退出开发或商业应用。类似地，一些具有致癌潜力的化合物通过在细菌中检测不到的非直接诱变机制来实现。这样的化合物可能会对受试者造成伤害，因为不能及早充分地认识风险。

体内哺乳动物报告系统，例如转基因啮齿动物测定(例如

小鼠和大鼠，以及Muta^TMMouse)，提供了比细菌更好的人类药物效应的近似值。尽管由于动物不是人类的完美代表而受到限制，但哺乳动物转基因测定对于早期临床前安全性测试仍然有价值；然而，这些测定是复杂的，并且仍然有些是人工的。例如，

测定依赖于基于报告物的系统，由此在多拷贝λ噬菌体转基因中发生的突变的子集可以在通过穿梭载体(然后将其转染到细菌中)回收报告物之后被在表型上识别。并非所有发生在294BP报告基因中的突变都可以被检测到，因为许多突变并不具有表型。转基因本身被高度浓缩、甲基化，并且不代表更广泛基因组的高度可变转录和浓缩状态。通过病毒和细菌机制传递突变分子具有引入人工突变的可能性，并且在每一步中发生的固有瓶颈意味着突变的等位基因部分是非定量的。此外，测试需要使用物种的有限子集的特定菌株。并且，啮齿动物本身不是人类的完美代表。例如，黄曲霉毒素在人类中是高度致突变的，但是当某些代谢酶变得被表达时，在性成熟后的小鼠中无意义地致癌，这有利于其解毒。尽管转基因啮齿动物仍然是美国食品和药物管理局(FDA)和其他监管机构接受的当前黄金标准，作为在一些测试情况下可以用作致癌性替代物的有效基因毒性指标，但它远不是最佳的作为用于评估化合物引起人类癌症的可能性的广泛可用的工具。

需要一种快速的、灵活的、可靠的方法，该方法允许直接测量受试者可能暴露于其中的因子/药剂/环境的基因毒性潜力，这些因子/药剂/环境导致核酸突变和损伤，从而导致某些健康风险(即癌症/恶性肿瘤/肿瘤、神经毒性、神经变性、不育、出生缺陷等)。该方法应当可用于任何类型的生物体中的任何组织类型和/或细胞类型的任何基因组基因座，并且不需要任何克隆选择(如在现有技术黄金标准测试中所要求的)，并且同时提供关于致癌因子如何在体内引起突变或其他基因毒性损伤的作用机制的信息(推断的或直接的)，所述突变或其他基因毒性损伤导致受试者/生物体或由受试者/生物体所模拟的另一生物体中的癌症发展或其他疾病或障碍。

如果具有这些特征的足够精确的、便利的工具是可获得的，它将具有许多应用，例如：在临床前和临床药物安全性测试中；在预防、诊断和治疗基因毒素相关的疾病和障碍；在检测和识别致突变因子/药剂及其作用机制中；和其他行业范围的影响(例如，环境污染测试和确定毒性发作的阈值水平、高通量消费品安全性测试、疑似毒性暴露的患者诊断和治疗、基因毒素的有意或无意释放的国家安全风险评估等)。

发明内容

本技术涉及用于评估基因毒性的方法、系统和试剂盒。具体而言，该技术的一些实施例涉及利用双重测序来评估暴露的受试者中的化合物(例如，化学化合物)和/或环境因子(例如，辐射)的基因毒性潜力。例如，本技术的各种实施例包含执行双重测序方法，该方法允许在任何生物体的任何基因组环境中直接测量化合物诱导的突变，并且不需要任何克隆选择。本技术的其他示例涉及使用双重测序和相关试剂来检测和评估基因组体内诱变的方法。本技术的各个方面在临床前和临床药物安全性测试以及其他行业范围的应用中具有许多应用。

在一个实施例中，本技术包括一种用于检测和定量在受试者暴露于诱变剂后在受试者中体内产生的基因组突变的方法，包括：(1)对从暴露于诱变剂的受试者提取的一个或多个靶双链DNA分子进行双重测序；(2)为靶双链DNA分子生成错误校正的共有序列；和(3)识别靶双链DNA分子的突变谱；(4)通过计算测序的一种或多种类型的每个双重碱基对的独特突变的数目，来计算靶双链DNA分子的突变频率。

在另一个实施例中，本技术包括一种用于生成测试化合物的诱变标志的方法，包括：(1)对从暴露于测试化合物的活的生物体例如测试动物中提取的DNA片段进行双重测序；和(2)生成测试化合物的诱变标志。并且，该方法可以进一步包括通过计算每个测序的双重碱基对的独特突变的数量来计算多个DNA片段的突变频率。

在另一个实施例中，本技术包括一种用于评估化合物的基因毒性潜力的方法，包括：(1)对从暴露于该化合物的测试动物中提取的目标DNA片段进行双重测序，以生成目标DNA片段的错误校正的共有序列；(2)从错误校正的共有序列生成化合物的诱变标志；和(3)确定暴露于该化合物是否导致代表足够基因毒性化合物的诱变标志。

在另一个实施例中，本技术包括试剂盒，所述试剂盒包括具有用于进行本文公开的用于检测和定量基因毒素的方法的说明的试剂。试剂盒可以进一步包括安装在电子计算装置(例如膝上型计算机/台式计算机、平板电脑等)上，或可通过网络(例如，具有受试者记录和检测到的基因毒素的数据库的远程服务器)访问的计算机程序产品。该计算机程序产品被嵌入在非暂时性计算机可读介质中，当在计算机上执行时，该介质执行使用本文公开的试剂盒用于检测和识别基因毒素的方法的步骤。

在另一个实施例中，本技术包括一种用于识别或确认受试者暴露于至少一种基因毒素的联网计算机系统，包括：(1)远程服务器；(2)多个用户电子计算装置，其能够利用本文公开的试剂盒来提取、扩增、测序受试者的样品；(3)具有已知的基因毒素概况的第三方数据库(任选的)；和(4)用于在电子计算装置、数据库和远程服务器之间传输电子通信的有线或无线网络。远程服务器进一步包括：(a)存储用户基因毒素记录结果和基因毒素概况的记录(例如频谱、频率、作用机制等)的数据库；(b)通信地耦合至存储器的一个或多个处理器；和一个或多个包括用于处理器的指令的非暂时性计算机可读存储装置或介质)，其中所述处理器被配置为执行所述指令以执行包括以下步骤的操作：校正双重测序片段中的错误；和计算被检测的药剂的突变谱、突变频率和三重态突变谱，由此可以确定至少一种基因毒素的身份。

本技术进一步包括包括有指令的非暂时性计算机可读存储介质，当所述指令被一个或多个处理器执行时，所述指令执行用于确定受试者是否暴露于至少一种基因毒素和/或至少一种基因毒素的身份的方法，所述方法包括以下步骤：校正双重测序片段中的错误；和计算被检测的药剂的突变谱、突变频率和三重态谱，由此确定至少一种基因毒素的身份。

本技术进一步包括一种用于确定受试者是否暴露于至少一种基因毒素和/或至少一种基因毒素的身份的计算机化方法，该方法包括以下步骤：校正双重测序片段中的错误；和计算被检测的药剂的突变谱、突变频率和三重态谱，由此确定至少一种基因毒素的身份。

在另一个实施例中，本技术包括一种用于诊断和治疗暴露于基因毒素的受试者的方法、系统和试剂盒。诊断包括检测受试者已经被暴露和/或摄入的至少一种基因毒素；并且治疗包括去除将来对基因毒素的暴露和/或摄入，和/或施用治疗方案(例如药物)以阻断和/或以其他方式抵消基因毒素的生物效应。

在另一个实施例中，本技术包括一种方法、计算机化系统和试剂盒，其用于临床前和临床药物安全性测试；用于检测和识别致癌物及其作用机制；和用于其他行业范围的影响(例如有毒的环境污染物、高通量消费品和药物安全性测试等)。

在另一个实施例中，本技术包括一种方法、系统和试剂盒，其使用错误校正的双重测序来识别新的基因毒素，和/或然后确定安全阈值量(重量、体积、浓度等)和/或在受试者发展基因毒素相关的疾病或障碍的风险之前受试者可能暴露于的基因毒素的安全阈值突变频率(例如，用于设定环境保护局标准；用于诊断和治疗暴露于基因毒素的受试者等)。

在另一个实施例中，本技术包含一种方法、系统和试剂盒，其用于通过确定受试者是否暴露于超过安全阈值水平(即基因毒素量和/或基因毒素突变频率和三重态标志)的基因毒素来防止受试者发展突变相关的疾病或障碍；并且如果是，则提供预防性治疗以预防、抑制或阻止疾病发作。

本技术的一个方面包括检测引起疾病的突变的能力，但是在暴露于引起基因毒素的突变后的几天或几周或几个月或几年内。在正常情况下，在多年内不会诊断出完全疾病发作(例如，在暴露于石棉后，对于肺癌发展需要10-20年)。本文公开的方法和试剂盒使得能够检测在暴露后立即引起疾病发作的基因组突变，而不是等待数年症状才出现。

本技术的另一个方面包括预测受试者是否在潜在暴露于基因毒素后在至少2-5天至数年内由于基因毒素引起的突变而具有增加的发展疾病或障碍的风险的能力；并且如果是，则提供预防性治疗和定期筛查，以在早期检测疾病发作。

另一方面包括一种包括多个双链分离的基因组DNA片段的DNA文库和制备方法，其中每个片段被连接至一个或多个所需的衔接子分子。

另一方面包括一种高通量方法，用于快速地筛选多种化合物以识别哪些化合物是基因毒性的。

另一方面包括一种高通量方法，用于快速地筛选同一受试者的多种不同组织/细胞类型，以确定该受试者是否已经被暴露于任何基因毒素。

另一方面包括一种高通量方法，用于快速地筛选来自不同受试者的多个组织和细胞，以确定暴露于任何基因毒素的群体的百分比。

另一方面包括直接地或推断性地确定引起暴露于基因毒素以导致与特定疾病或障碍相关的突变的基因毒素的“作用机制”。

在下面的详细描述中进一步描述本技术的其他实施例、方面和优点。

附图说明

参考以下附图，可以更好地理解本公开的许多方面。附图中的部件不一定按比例绘制。而是，重点在于清楚地说明本公开的原理。

图1A示出了与本技术的一些实施例一起使用的核酸衔接子分子，以及根据本技术的实施例的由衔接子分子与双链核酸片段的连接产生的双链衔接子-核酸复合物。

图1B和1C是根据本技术的实施例的各种双重测序方法步骤的概念性图示。

图2A是使用体内动物研究来预测测试化合物的人类癌症风险的各种方法方案的概念性图示，包含常规的长期啮齿动物致癌性研究(左侧方案)、具有离体选择的常规转基因啮齿动物致突变性研究(中间方案)以及根据本技术的各个方面通过直接DNA测序方案进行的诱变评估(右侧方案)。

图2B和2C是根据本技术的各个方面，使用双重测序来评估在培养物中生长的人细胞中测试化合物的体外诱变(2B)和评估野生型小鼠中测试化合物的体内诱变(2C)的方法方案的概念性图示。

图3A-3D是示出了在诱变剂处理后并根据本技术的实施例，针对在肝脏和骨髓中的双重测序(图3A和3B)和

cII噬菌斑测定(图3C和3D)计算的突变频率的方框图。

图3E是示出了根据本技术的实施例，与图3A-3D的双重测序测定相比，在

cII噬菌斑测定中的相对cII突变倍数增加的图。

图3F示出了根据本技术的实施例，单个挑选的由

小鼠组织产生的突变噬菌斑的cII基因中的单核苷酸变体(SNV)，以及来自

小鼠组织的cII的gDNA的双重测序的比例。

图3G和3H示出了根据本技术的实施例，通过直接双重测序(图3G)以及在通过密码子位置和功能结果在所有

组织类型和处理组中单独收集的cII的突变噬菌斑(图3H)中识别的突变的分布。

图4是示出了根据本技术的实施例的在每个处理组的多个样品中通过双重测序测量的突变频率的柱状图。

图5A和5B是示出了与肝脏(图5A)和骨髓(图5B)中的cII转基因相比并且如通过双重测序和根据本技术的实施例测量的内源性基因的突变频率的柱状图。

图5C是方框图，其示出了根据本技术的实施例，针对所指示的治疗类别，通过肝和骨髓的基因区域的双重测序计算的SNV突变频率(MF)。

图5D是示出了根据本技术的实施例的图5C中所示的集合数据的单独测量的散点图。

图6是示出了根据本技术的实施例的如通过双重测序测量的突变谱的柱状图。

图7A-7C是示出了根据本技术的实施例的载体对照(7A)、苯并[a]芘(7B)和N-乙基-N-亚硝基脲(7C)的三核苷酸突变谱的图。

图8是示出了根据本技术的实施例的用于经历尿烷的对照和实验动物的肺、脾和血液样品的突变频率的柱状图。

图9是示出了根据本技术的实施例的组织样品组的平均最小点突变频率的柱状图。

图10A是示出了根据本技术的实施例，针对所指示的治疗类别，通过肺、脾和血液的基因区域的双重测序计算的SNV MF的方框图。

图10B是示出了根据本技术的实施例的图10A中所示的集合数据的单独测量的散点图。

图11是示出了根据本技术的实施例，如通过双重测序测量的被测试的组织中尿烷和载体对照的突变谱的柱状图。

图12A和12B是示出了根据本技术的实施例的用于载体对照(12A)和尿烷(12B)的相邻核苷酸的环境的突变谱(即三核苷酸谱)的图。

图13示出了根据本技术的实施例的尿烷处理的样品中的单核苷酸变体(SNV)光谱链偏差。

图14是示出了根据本技术的实施例的如通过双重测序检测的变体等位基因片段的早期肿瘤克隆选择的图。

图15A是示出了根据本技术的实施例的在Tg-rasH2小鼠模型中，在从Ras基因家族(包含人转基因座)捕获的外显子的基因组区间上绘制的SNV的图。

图15B是示出了根据本技术的实施例的与人HRAS转基因的外显子3对齐的单核苷酸变体的图。

图16A-16B是根据本技术的实施例，在使用常规的DNA测序(图16A)和双重测序(图16B)进行尿烷处理之后，来自小鼠肺中人HRAS的代表性400碱基对切片的测序数据的图形表示。

图17A-17C是示出了在来自COSMIC的标志1(图17A)、标志4(图17B)和标志29(图17C)的相邻核苷酸的环境中的突变谱(即三核苷酸谱)的图。

图18示出了根据本技术的实施例的来自示例1和2的所有30个公布的COSMIC标志和4个群组谱的无监督的分级聚类。

图19是根据本技术的实施例的网络计算机系统的示意图，该系统与本文公开的方法和/或试剂盒一起使用，以识别由基因毒性暴露导致的诱变事件和/或核酸损伤事件。

图20是示出了根据本技术的实施例的用于提供根据本技术的实施例的双重测序共有序列数据的例程的流程图。

图21是示出了根据本技术的实施例的用于检测和识别由样品的基因毒性暴露导致的诱变事件的例程的流程图。

图22是示出了根据本技术的实施例的用于检测和识别由样品的基因毒性暴露导致的DNA损伤事件的例程的流程图。

图23是示出了根据本技术的实施例的用于检测和识别受试者中的致癌物或致癌物暴露的例程的流程图。

具体实施方式

下面参照图1A-20描述该技术的若干个实施例的具体细节。实施例可以包含例如用于评估基因毒性的方法、系统、试剂盒等。该技术的一些实施例涉及利用双重测序来评估暴露的受试者、模型生物体或模型细胞培养系统中药剂(例如，化学化合物)或任何其他类型的暴露(例如，辐射源)的基因毒性潜力。该技术的其他实施例涉及利用双重测序来确定与基因毒性药剂相关的突变标志。该技术的另外的实施例涉及通过将受试者的DNA突变谱与已知诱变化合物的突变谱进行比较来识别受试者可能已经暴露于的一种或多种基因毒性药剂。该技术的另外实施例涉及通过将来自一种或多种组织中的一种或多种细胞类型的受试者的DNA突变谱与已知的环境或已知存在于这样的位置或环境中的化合物的突变谱进行比较来识别受试者可能已经暴露于的一个或多个位置或环境。该技术的另外的实施例涉及通过将来自一种或多种组织中的一种或多种细胞类型的受试者的DNA突变谱与已知个体的突变谱或该个体已知已经暴露于其中的位置或环境的突变谱或已知存在于这些位置或环境中的化合物的突变谱进行比较来识别受试者。在某些实施例中，可以评估基因毒素的致癌潜力。另外的实施例包含通过识别正在伴随癌症驱动突变出现的携带突变的克隆，来识别和评估由诱变或非诱变致癌物引起的致癌风险。另外的实施例包含通过识别携带突变的克隆的紧急情况来识别和评估由诱变或非诱变致癌物引起的致癌风险，其中突变不被认为是癌症驱动因子(通常被称为“乘客”或“搭便车者”突变)，而是基本上独特的标志克隆(Salk and Horwitz Sem Cancer Bio 2010PMID:20951806)。该技术的其他实施例涉及利用双重测序来检测和评估由基因毒素暴露或其他内源性基因毒性过程(例如老化)引起的核酸损伤(特别是DNA损伤，例如加合物)。

尽管本文关于双重测序描述了许多实施例，但是除了本文描述的那些之外，能够生成错误校正的测序读数的其他测序方式也在本技术的范围内。此外，本技术的其他实施例可以具有不同于本文描述的配置、组分或程序。因此，本领域普通技术人员将相应地理解，该技术可以具有带有附加要素的其他实施例，并且该技术可以具有没有下面参考图1A-20示出和描述的若干个特征的其他实施例。

定义

为了更容易理解本公开，下面首先定义某些术语。用于以下术语和其他术语的附加定义在整个说明书中阐述。

在本申请中，除非在上下文中另有说明，否则术语“一个”可以理解为表示“至少一个”。如在本申请中所使用的，术语“或”可以理解为意指“和/或”。在本申请中，术语“包括(comprising)”和“包含(including)”可以被理解为包含逐项列出的部件或步骤，无论是由它们单独呈现还是与一个或多个附加部件或步骤一起呈现。在本文提供范围的情况下，包含端点。如在本申请中所使用的，术语“包括(comprise)”和该术语的变体，例如“包括(comprising)”和“包括(comprises)”，并不旨在排除其他添加剂、组分、整体或步骤。

约：术语“约”当在本文中参考值使用时，是指在上下文中与参考值相似的值。一般来说，熟悉上下文的本领域技术人员将理解在该上下文中由“约”所包含的相关变化程度。例如，在一些实施例中，术语“约”可以包含一些在参考值的25％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更小的范围内的值。对于单个数字整数值的方差，其中在正或负方向上的单个数值步长将超过该值的25％，本领域技术人员通常接受“约”以包含在正或负方向上的至少1、2、3、4或5个整数值，根据情况，该值可以或不可以过零。对此的非限制性示例是这样的假设：在对于本领域技术人员来说显而易见的某些情况下，3美分可以被认为是约5美分。

类似物：如本文中所使用的，术语“类似物”是指与参考物质共享一个或多个特定结构特征、元素、组分或部分的物质。通常地，“类似物”显示出与参考物质显著的结构相似性，例如共享核心或共有结构，但是在某些离散方式上也不同。在一些实施例中，类似物是可以从参考物质生成的物质，例如通过参考物质的化学处理。在一些实施例中，类似物是可以通过执行与生成参考物质的过程基本相似(例如，与其共享多个步骤)的合成过程来生成的物质。在一些实施例中，类似物通过执行不同于用于生成参考物质的合成过程的合成过程来生成或可以通过该合成过程来生成。

生物样品：如本文中所使用的，术语“生物样品”或“样品”通常是指如本文所描述的从相关的生物源(例如，组织或生物体或细胞培养物)获得或衍生的样品。在一些实施例中，相关的来源包括生物体，例如动物或人类。在其他实施例中，相关的来源包括微生物，例如细菌、病毒、原生动物或真菌。在进一步的实施例中，相关的来源可以是合成组织、生物体、细胞培养物、核酸或其他材料。在又进一步的实施例中，相关的来源可以是基于植物的生物体。在又一个实施例中，样品可以是环境样品，诸如例如水样品、土壤样品、考古样品或从非生物源收集的其他样品。在其他实施例中，样品可以是多生物体样品(例如，混合生物体样品)。在一些实施例中，生物样品是或包括生物组织或流体。在一些实施例中，生物样品可以是或包括骨髓；血液；血细胞；腹水；组织样品、活检样品或细针抽吸样品；含有细胞的体液；自由漂浮的核酸；蛋白质结合的核酸、核糖蛋白质结合的核酸；痰；唾液；尿液；脑脊液、腹膜液；胸膜液；粪便；淋巴液；妇科流体；皮肤拭子；阴道拭子；巴氏涂片、口腔拭子；鼻拭子；冲洗液或灌洗液，例如导管灌洗液或肺泡灌洗液；阴道流体、抽吸物；废料；骨髓标本；组织活检标本；胎儿组织或流体；外科标本；粪便、其他体液、分泌物和/或排泄物；和/或由此的细胞等。在一些实施例中，生物样品是或包括从个体获得的细胞。在一些实施例中，获得的细胞是或者包含来自从中获得样品的个体的细胞。在一些实施例中，细胞衍生物例如细胞器或囊泡或外泌体。在特定的实施例中，生物样品是从受试者获得的液体活检样品。在一些实施例中，样品是通过任何合适的方式直接从相关的来源获得的“初级样品”。例如，在一些实施例中，初级生物样品通过选自由活检(例如，细针抽吸或组织活检)、手术、体液(例如，血液、淋巴液、粪便等)的收集组成的组的方法来获得。在一些实施例中，如将从上下文中清楚的是，术语“样品”是指通过处理(例如，通过除去初级样品的一种或多种组分和/或通过向初级样品中加入一种或多种药剂)初级样品获得的制剂。例如，使用半透膜过滤。这样的“处理过的样品”可以包括例如从样品中提取的或者通过使初级样品经历例如mRNA的扩增或反转录、某些组分的分离和/或纯化等的技术而获得的核酸或蛋白质。

癌症疾病：在一个实施例中，基因毒性相关的疾病或障碍是本领域技术人员所熟知的“癌症疾病”，其特征通常是可能转移的异常细胞的生长失调。使用本技术的一个或多个方面可检测的癌症疾病包括，作为非限制性示例，前列腺癌(即腺癌、小细胞)、卵巢癌(例如卵巢腺癌、浆液性癌或胚胎癌、卵黄囊瘤、畸胎瘤)、肝癌(例如HCC或肝细胞瘤、血管肉瘤)、浆细胞瘤(例如多发性骨髓瘤、浆细胞性白血病、浆细胞瘤、淀粉样变性、瓦尔登斯特伦巨球蛋白血症)、结肠直肠癌(例如结肠腺癌、结肠粘液腺癌、类癌、淋巴瘤和直肠腺癌、直肠鳞癌)、白血病(例如，急性髓细胞性白血病、急性淋巴细胞性白血病、慢性髓细胞性白血病、慢性淋巴细胞性白血病、急性成髓细胞性白血病、急性早幼粒细胞性白血病、急性粒-单核细胞性白血病、急性单核细胞性白血病、急性红白血病和慢性白血病、T细胞白血病、塞扎里综合征、系统性肥大细胞增多症、毛细胞白血病、慢性髓细胞性白血病母细胞危象)、骨髓增生异常综合征、淋巴瘤(例如，弥漫性大B细胞淋巴瘤、皮肤T细胞淋巴瘤、外周T细胞淋巴瘤、霍奇金淋巴瘤、非霍奇金淋巴瘤、滤泡性淋巴瘤、套细胞淋巴瘤、MALT淋巴瘤、边缘细胞淋巴瘤、里克特转化、双发性淋巴瘤、移植相关淋巴瘤、CNS淋巴瘤、结外淋巴瘤、HIV相关淋巴瘤、地方性淋巴瘤、伯基特淋巴瘤、与移植相关的淋巴增生性肿瘤和淋巴细胞淋巴瘤等)、子宫颈癌(鳞状子宫颈癌、透明细胞癌、HPV相关癌、子宫颈癌肉瘤等)、食道癌(食管鳞状细胞癌、腺癌、某些等级的巴雷特食管、食管腺癌)、黑色素瘤(皮肤黑色素瘤、葡萄膜黑色素瘤、肢端黑色素瘤、无色素黑色素瘤等)、CNS肿瘤(例如少突胶质细胞瘤、星形细胞瘤、多形性胶质母细胞瘤、脑膜瘤、许旺氏细胞瘤、颅咽管瘤等)、胰腺癌(例如腺癌、腺鳞癌、印戒细胞癌、肝样癌、胶质细胞癌、胰岛细胞癌、胰腺神经内分泌癌等)、胃肠道间质瘤、肉瘤(例如，纤维肉瘤、粘液肉瘤、脂肪肉瘤、软骨肉瘤、成骨肉瘤、血管肉瘤、内皮瘤肉瘤、淋巴管肉瘤、淋巴管内皮瘤肉瘤、平滑肌肉瘤、尤因肉瘤和横纹肌肉瘤、梭形细胞瘤等)、乳腺癌(例如，炎性癌、大叶癌、导管癌等)、ER阳性癌、HER-2阳性癌、膀胱癌(鳞状膀胱癌、小细胞膀胱癌、尿路上皮癌等)、头颈癌(例如，头颈鳞状细胞癌、HPV相关的鳞状细胞癌、鼻咽癌等)、肺癌(例如，非小细胞肺癌、大细胞癌、支气管肺癌、鳞状细胞癌、小细胞肺癌等)、转移性癌、口腔癌、子宫癌(平滑肌肉瘤、平滑肌瘤等)、睾丸癌(例如精原细胞瘤、非精原细胞瘤和胚胎癌卵黄囊瘤等)、皮肤癌(例如鳞状细胞癌和基底细胞癌、默克尔细胞癌、黑色素瘤、皮肤t细胞淋巴瘤等)、甲状腺癌(例如，乳头状癌、髓样癌、间变性甲状腺癌等)、胃癌、上皮内癌、骨癌、胆道癌、眼癌、喉癌、肾癌(例如肾细胞癌、维尔姆斯瘤等)、胃癌、母细胞瘤(例如肾母细胞瘤、髓母细胞瘤、血管母细胞瘤、神经母细胞瘤、视网膜母细胞瘤等)、骨髓增生性肿瘤(真性红细胞增多症、原发性血小板增多症、骨髓纤维化等)、脊索瘤、滑膜瘤、间皮瘤、腺癌、汗腺癌、皮脂腺癌、囊腺癌、胆管癌、绒毛膜癌、上皮癌、室管膜瘤、松果体瘤、听神经瘤、许旺氏细胞瘤、脑膜瘤、垂体腺瘤、神经鞘瘤、小肠癌、嗜铬细胞瘤、小细胞肺癌、腹膜间皮瘤、甲状旁腺腺瘤、肾上腺癌、未知原发癌、内分泌系统癌、阴茎癌、尿道癌、皮肤或眼内黑色素瘤、妇科肿瘤、儿童实体瘤或中枢神经系统肿瘤、原发性纵隔生殖细胞肿瘤、不确定潜能的克隆性造血、冒烟型骨髓瘤、未知显著性的单克隆γ球蛋白病、单克隆B细胞淋巴细胞增多症、低度癌症、克隆视野缺陷、癌前肿瘤、输尿管癌、自身免疫相关癌症(即溃疡性结肠炎、原发性硬化性胆管炎、乳糜泻)、与遗传易感性相关的癌症(即携带遗传缺陷的癌症，例如BRCA1、BRCA2、TP53、PTEN、ATM等)和各种遗传综合征(例如MEN1、MEN2三体性21等)以及在子宫内暴露于化学品时发生的癌症(即暴露于己烯雌酚[DES]的女性的雌性后代中的透明细胞癌)，以及许多其他疾病。

癌症驱动因子或癌症驱动基因：如本文中所使用的，“癌症驱动因子”或“癌症驱动基因”是指一种遗传损伤，其具有允许细胞在合适的情况下经历恶性转化的潜力。这样的基因包含肿瘤抑制因子(例如TP53、BRCA1)，它们通常抑制恶性转化，并且当以某些方式突变时，不再抑制恶性转化。其他驱动基因可以是癌基因(例如，KRAS、EGFR)，当以某些方式突变时，它们变得组成性地活性或者获得促进细胞变得恶性的新的特性。在基因组的非编码区中发现的其他突变可能是癌症驱动因子。例如，端粒酶基因(TERT)的启动子区的突变可以导致该基因的过度表达，并且从而成为癌症驱动因子。某些重排(例如，BCR-ABL融合)可以将一个基因区域与另一个基因区域并置，以通过与过表达、抑制的缺失或嵌合融合基因相关的机制来驱动肿瘤发生。广义而言，赋予细胞表型(其促进该细胞相对于其他细胞的增殖、存活或竞争优势或使其进化的能力更强)的基因突变(或表位突变)可以被认为是驱动突变。这与缺乏这样的特征的突变形成对比，即使它们可能碰巧在同一基因中(即同义突变)。当这样的突变在肿瘤中被识别时，它们通常被称为乘客突变，因为它们与克隆扩增一起“搭便车”，而没有对扩增做出有意义的贡献。如本领域普通技术人员所认识到的，驱动因子和乘客的区别不是绝对的，并且不应该被解释为绝对的。一些驱动因子仅在某些情况下起作用(例如，某些组织)，而其他驱动因子可能在没有其他突变或表位突变或其他因素的情况下不起作用。

对照样品：如本文中所使用的，“对照样品”是指以与其比较的样品相同的方式分离的样品，对照样品没有被暴露于正在被评估基因毒性潜力的药剂、环境或过程除外。

确定：本文描述的许多方法包含“确定”的步骤。阅读本说明书的本领域普通技术人员将理解，这样的“确定”可以利用或通过使用本领域技术人员可用的各种技术中的任何一种来实现，包含例如本文明确提及的特定技术。在一些实施例中，确定包含物理样品的操作。在一些实施例中，确定包含对数据或信息的考虑和/或操纵，例如利用适于执行相关分析的计算机或其他处理单元。在一些实施例中，确定包含从来源接收相关信息和/或材料。在一些实施例中，确定包含将样品或实体的一个或多个特征与可比参考进行比较。

双重测序(DS)：如本文中所使用的，“双重测序(DS)”在其最广泛的意义上是指一种基于标签的错误校正方法，其通过比较来自单个DNA分子的两条链的序列来实现异常的准确性。

基因毒性：如本文中所使用的，术语“基因毒性”是指对遗传物质(例如，DNA、RNA)造成损伤的药剂或过程(即基因毒素)的破坏性。多核苷酸损伤、遗传突变的形成和/或由于暴露于基因毒素而直接或间接导致的正常核酸结构的破坏是基因毒性的方面。暴露于基因毒素的受试者可能立即或在数年后发展疾病或障碍(例如癌症)。在一个实施例中，本技术部分地涉及识别导致受试者中的基因毒性的促成事件和/或因素(例如，药剂、过程)，以便预防或降低疾病或障碍发作的风险，和/或对抗其不利影响。在其他实施例中，引发基因毒性是通过设计进行的，例如用于在遗传文库中产生多样性。

基因毒素或基因毒性药剂或因子：如本文中所使用的，术语“基因毒素”或“基因毒性药剂或因子”是指例如核酸来源(例如生物源、受试者)被暴露和/或摄入的任何化学品、环境暴露和/或导致多核苷酸损伤、基因组突变或正常核酸结构的破坏的任何触发事件(内源性前体突变)。在一些实施例中，基因毒素具有直接地或间接地(例如，触发诱变前体)或两者导致受试者疾病或障碍发展的能力。通过本技术能够检测的基因毒性因子或药剂包括，作为非限制性示例，化学品或化学品的混合物(例如，药物、工业添加剂和副产物-废物、石油馏出物、重金属、化妆品、家用清洁剂、空气传播的微粒、食品、制造副产物、污染物、增塑剂、洗涤剂等)；和辐射(粒子辐射、光子或两者)和/或由自然环境或人工(例如，从装置)生成的物理力(例如磁场、重力场、加速力等)。基因毒素可以进一步包括液体、固体和/或气溶胶制剂，并且其暴露可以通过任何给药途径。基因毒性药剂或因子可以是外源性的(例如，暴露来源于生物源之外，或者在其他情况下，基因毒性药剂或因子可以是对生物源内源性的，或者它们的组合)。一旦这样的暴露被内源性处理，外源性来源的药剂或因子可能会变成基因毒性的。在又一些示例中，当与一种或多种另外的药剂或因子结合时，药剂或因子可能变得基因毒性的，并且在一些情况下可能具有协同效应。基因毒性因子或药剂的另外的示例可以进一步包含能够在暴露时(例如通过受试者的感染)直接或间接地导致受试者中的核酸损伤的生物体，例如作为非限制性示例，导致膀胱癌的血吸虫病、导致宫颈癌或头颈癌的HPV、导致默克尔细胞癌的多瘤病毒、导致胃癌的幽门螺杆菌、导致鳞状细胞癌的皮肤伤口的慢性细菌感染等。另外的基因毒性药剂或因子可以进一步包含能够生成(例如在其自身内或分泌)基因毒性药剂的生物体，例如作为非限制性示例，来自黄曲霉的黄曲霉毒素，或来自马兜铃家族植物的马兜铃酸等。能够使用本技术的各个方面检测的基因毒性因子或药剂可以进一步包括内源性基因毒素，其可能不能够被精确量化或实验控制，例如作为非限制性的示例，应激、炎症、疗法治疗的效果(例如基因疗法、基因编辑疗法、干细胞疗法、其他细胞疗法、药物、射线照相术等)。内源性因子也可能代表受试者的组织中突变和其他基因毒性事件的累积，其反映了受试者暴露的整体效应。

基因毒性相关的疾病或障碍：如本文中所使用的，术语“基因毒性相关的疾病或障碍”是指在受试者中由于由暴露于一种或多种基因毒素而直接或间接导致的基因组突变或其他多核苷酸损伤或重排而导致的任何医学病症。基因毒性相关的疾病或障碍可能与癌症相关或者可能与癌症无关。此外，多核苷酸损伤/重排或突变可以在生殖细胞或体细胞中。在示例中，在生殖细胞受到影响的情况下，预期基因毒性相关的疾病或障碍可能在作为暴露的受试者的后代的受试者中出现(或以其他方式赋予其风险)。

足够基因毒性的药剂：如本文中所使用的，术语“足够基因毒性的药剂”是指由本技术的系统、方法和试剂盒识别的具有约50％、约40％、约30％、约20％、约10％、约5％、约4％、约3％、约2％、约1％、约0.5％、约0.1％、约0.01％、约0.001％、约0.0001％、约0.00001％、约0.000001％等的在一种或多种分子(其可能来自已经被暴露的一种或多种生物有机体中)的一个或多个核苷酸残基处引起核酸损伤或突变的概率的药剂、因子、化合物或过程。在一些实施例中，足够基因毒性的药剂可以具有超过对照背景水平的约50％的引起核酸损伤或突变的概率。在一些实施例中，足够基因毒性的药剂是指由本技术的系统、方法和试剂盒确定的具有约50％、约40％、约30％、约20％、约10％、约5％、约4％、约3％、约2％、约1％、约0.5％、约0.1％、约0.01％、约0.001％、约0.0001％、约0.00001％等的在暴露于基因毒素的受试者中引起疾病或障碍的概率的药剂、因子、化合物或过程。

抑制生长：如本文中所使用的，术语“抑制生长”在癌症疾病中是指在体内或体外引起细胞生长(例如，肿瘤大小、癌细胞分裂速率等)降低例如约5％、约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约95％或约99％或更多，如相对于在缺乏治疗的情况下细胞的增殖和/或细胞大小增长，通过暴露于治疗的细胞的增殖和/或细胞的大小/质量的减少而明显的。生长抑制可能是诱导细胞中的凋亡、诱导细胞中的坏死、减缓细胞周期进程、干扰细胞代谢、诱导细胞裂解或诱导降低细胞的增殖和/或细胞大小增长的一些其他机制的治疗的结果。

表达：如本文中所使用的，核酸序列的“表达”是指下列事件中的一个或多个：(1)由DNA序列产生RNA模板(例如，通过转录)；(2)处理RNA转录本(例如，通过剪接、编辑、5'帽形成和/或3'端形成)；(3)将RNA翻译成多肽或蛋白质；和/或(4)多肽或蛋白质的翻译后修饰。

作用机制：如本文中所使用的，术语“作用机制”是指在暴露于基因毒素后导致核酸改变的生化过程。在实施例中，“作用机制”是指在基因组突变或损伤之后直到疾病或障碍完全发作的生化途径和/或病理生理学过程。在另一个实施例中，“作用机制”包含这样的生化途径和/或生理过程，其在基因毒素暴露后在生物源中发生并且其导致基因组损伤(例如突变前损伤)或突变。在又一个实施例中，基因毒性药剂或过程的作用机制可以从以下中的一个或多个中推断：受影响的核苷酸碱基、引入的核苷酸变化、引入的DNA损伤类型、引入的结构变化、受影响的核苷酸的侧翼核苷酸序列环境、受影响的遗传环境或序列、受影响的区域的转录状态、受影响的区域的甲基化状态、受基因毒素暴露影响的区域的蛋白质结合状态或缩合状态或染色体位置。

突变：如本文中所使用的，术语“突变”是指核酸序列或结构的改变。在复杂的多核苷酸变化中，多核苷酸序列的突变可以包含点突变(例如，单碱基突变)、多核苷酸突变、核苷酸缺失、序列重排、核苷酸插入和样品中DNA序列的复制。突变可以发生在双重DNA分子的两条链上，作为互补碱基的变化(即真正的突变)，或者作为一条链上的突变而不是另一条链上的突变(即异源双重)，其具有被修复、破坏或被错误修复/被转化为真正的双链突变的潜力。

突变频率：如本文中所使用的，术语“突变频率”，有时也称为“突变频率”，是指每测序的双重碱基对的总数检测到的独特突变的数量。在一些实施例中，突变频率是仅在特定基因或一组基因或一组基因组靶标内的突变的频率。在一些实施例中，突变频率可以仅指某些类型的突变(例如，A>T突变的频率，其是以每A碱基总数的A>T突变的数目来计算的)。突变被引入到细胞或分子的群体中的频率可以通过基因毒素、通过暴露于基因毒素的时间或水平、通过受试者的年龄、随着时间、通过组织或组织类型、通过基因组的区域、通过突变的类型、通过三核苷酸环境、基因遗传环境以及其他因素来改变。

突变标志：如本文中所使用的，术语“突变标志”和“一个或多个突变谱”是指由诱变过程生成的突变类型的特征组合，例如DNA复制不忠、外源性和内源性基因毒素暴露、缺陷的DNA修复途径和DNA酶促编辑。在一个实施例中，突变谱是通过计算模式匹配(例如，无监督的分级突变谱聚类)生成的。

非癌性疾病：在另一个实施例中，基因毒性相关的疾病或障碍是非癌性疾病；相反，它是由基因组突变或损伤引起的或导致的又另一种类型的疾病或障碍。作为非限制性示例，使用本技术的一个或多个方面可检测或预测的这样的非癌类型的疾病或障碍包括糖尿病；自身免疫性疾病或障碍、不孕症、神经变性、早衰症、心血管疾病、与用于另一种遗传介导的疾病(即与化疗(例如顺铂)相关的化疗介导的神经病变和肾衰竭)的治疗相关的任何疾病、阿尔茨海默病/痴呆、肥胖症、心脏病、高血压、关节炎、精神疾病、其他神经障碍(神经纤维瘤病)和多因素遗传障碍(例如，由环境因素触发的体质)。

核酸：如本文中所使用的，在其最广泛的意义上，是指被掺入到或可以被掺入到寡核苷酸链中的任何化合物和/或物质。在一些实施例中，核酸是通过磷酸二酯键被掺入到或可以被掺入到寡核苷酸链中的化合物和/或物质。如将从上下文中可以清楚的是，在一些实施例中，“核酸”是指单个核酸残基(例如，核苷酸和/或核苷)；在一些实施例中，“核酸”是指包括单个核酸残基的寡核苷酸链。在一些实施例中，“核酸”是或包括RNA；在一些实施例中，“核酸”是或包括DNA。在一些实施例中，核酸是、包括或由一个或多个天然核酸残基组成。在一些实施例中，核酸是、包括或由一种或多种核酸类似物组成。在一些实施例中，核酸类似物不同于核酸，因为它不利用磷酸二酯主链。例如，在一些实施例中，核酸是、包括或由一种或多种“肽核酸”组成，所述“肽核酸”是本领域中已知的，并且在主链中具有肽键而不是磷酸二酯键，被认为在本技术的范围内。可替代地或另外地，在一些实施例中，核酸具有一个或多个硫代磷酸酯和/或5'-N-亚磷酰胺键，而不是磷酸二酯键。在一些实施例中，核酸是、包括或由一种或多种天然核苷(例如，腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸腺嘧啶、脱氧鸟苷和脱氧胞苷)组成。在一些实施例中，核酸是、包括或由一种或多种核苷类似物组成(例如，2-氨基腺苷、2-硫代嘧啶、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、C-5丙炔基-胞苷、C-5丙炔基-尿苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、0(6)-甲基鸟嘌呤、2-硫代胞苷、甲基化碱基、插层碱基及其组合)。在一些实施例中，与天然核酸中的核酸相比，核酸包括一种或多种修饰的糖(例如2'-氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖)。在一些实施例中，核酸具有编码功能基因产物例如RNA或蛋白质的核苷酸序列。在一些实施例中，核酸包含一个或多个内含子。在一些实施例中，核酸通过从天然来源分离、通过基于互补模板的聚合的酶促合成(体内或体外)、在重组细胞或系统中的复制和化学合成中的一种或多种来制备。在一些实施例中，核酸是至少2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000或更多的残基长度。在一些实施例中，核酸是部分或全部单链的；在一些实施例中，核酸是部分或全部双链的。在一些实施例中，核酸可以是分支的或具有二级结构。在一些实施例中，核酸具有包括至少一种编码多肽的元件核苷酸序列，或者是编码多肽的序列的互补物。在一些实施例中，核酸具有酶活性。在一些实施例中，核酸发挥机械功能，例如在核糖核蛋白复合物或转移RNA中。

药物组合物或制剂：如本文中所使用的，术语“药物组合物”包括药理有效量的活性药物或活性剂和药学上可接受的载体。在一些示例中，本技术的各个方面可以用于评估药物组合物或制剂或其中的活性药物或药剂的基因毒性。

多核苷酸损伤：如本文中所使用的，术语“多核苷酸损伤”或“核酸损伤”是指对受试者的脱氧核糖核酸(DNA)序列(“DNA损伤”)或核糖核酸(RNA)序列(“RNA损伤”)的损伤，其是由基因毒素直接或间接引起的(例如，代谢物，或作为损伤或诱变的过程的诱导)。受损的核酸可能导致在受试者中与基因毒素暴露相关的疾病或障碍的发作。在一些实施例中，受试者中受损的核酸的检测可以是基因毒素暴露的指示。多核苷酸损伤可以进一步包括细胞中的DNA的化学和/或物理修饰。在一些实施例中，作为非限制性示例，损伤是或包括氧化、烷基化、脱氨基、甲基化、水解、羟基化、切口、链内交联、链间交联、钝端链断裂、交错末端双链断裂、磷酸化、去磷酸化、类泛素化、糖基化、去糖基化、腐败酰化、羧酰化、卤化、甲酰化、单链间隙、由热引起的损伤、由干燥引起的损伤、由UV暴露引起的损伤、由γ辐射引起的损伤、由X辐射引起的损伤、由电离辐射引起的损伤、由非电离辐射引起的损伤、由重颗粒辐射引起的损伤、由核衰变引起的损伤、由β辐射引起的损伤、由α辐射引起的损伤、由中子辐射引起的损伤、由质子辐射引起的损伤、由宇宙辐射引起的损伤、由高pH引起的损伤、由低pH引起的损伤、由活性氧化物质引起的损伤、由自由基引起的损伤、由过氧化物引起的损伤、由次氯酸盐引起的损伤、由诸如福尔马林或甲醛等的组织固定引起的损伤、由活性铁引起的损伤、由低离子条件引起的损伤、由高离子条件引起的损伤、由无缓冲条件引起的损伤、由核酸酶引起的损伤、由环境暴露引起的损伤、由火灾引起的损伤、由机械应力引起的损伤、由酶降解引起的损伤、由微生物引起的损伤、由制备性机械剪切引起的损伤、由制备性酶切引起的损伤、在体内自然发生的损伤、在核酸提取期间发生的损伤、在测序文库制备期间发生的损伤、通过聚合酶引入的损伤、在核酸修复期间引入的损伤、在核酸末端拖尾期间发生的损伤、在核酸连接期间发生的损伤、在测序期间发生的损伤，由于机械处理DNA而发生的损伤、在通过纳米孔的期间发生的损伤、作为在生物体中老化的一部分而发生的损伤、由于个体的化学暴露而发生的损伤、由于诱变剂而发生的损伤、由于致癌物而发生的损伤、由断裂剂而发生的损伤、由于氧暴露引起的体内炎症损伤而发生的损伤、由于一条或多条链断裂而引起的损伤以及它们的任意组合中的至少一种。

参考：如本文中所使用的，描述了相对于其进行比较的标准或对照。例如，在一些实施例中，相关的药剂、动物、个体、群体、样品、序列或值与物理或计算机数据库中的参考或对照药剂、动物、个体、群体、样品、序列或值或其表示进行比较，所述物理或计算机数据库可以存在于某个位置或通过电子手段远程访问。在一些实施例中，基本上与相关的测试或确定同时测试和/或确定参考或对照。在一些实施例中，参考或对照是历史参考或对照，任选地包含在有形介质中。通常地，如本领域技术人员将理解的，参考或对照在与被评估的条件或环境可比较的条件或环境下确定或表征。本领域技术人员将理解何时存在足够的相似性以证明对特定的可能的参考或对照的依赖和/或比较。“参考样品”是指来自受试者的样品，其不同于测试受试者，并且以与其比较的样品相同的方式分离，且已经被暴露于已知量的相同基因毒性药剂。参考样品的受试者可以与测试受试者在遗传上相同，或者可以不同。此外，参考样品可以来自已经被暴露于已知量的相同基因毒性药剂的若干个受试者。

安全阈值水平：如本文中所使用的，术语“安全阈值水平”是指在可能发生导致疾病发作的基因组突变之前，受试者可能暴露于的特定基因毒素或基因毒素的组合的量(例如重量、体积、浓度、质量、摩尔丰度、单位*时间积分等)。例如，安全阈值水平可以是零。在其他示例中，基因毒素暴露的水平可能是可容忍的。可接受的暴露风险的容忍度可能根据受试者、年龄、性别、组织类型、患者的健康状况以及本领域技术人员熟悉的其他风险-效益考虑因素等而不同。

安全阈值突变频率：如本文中所使用的，术语“安全阈值突变频率”是指由基因毒性药剂或过程引起的可接受的突变速率，低于该突变速率，受试者承担获得基因毒性相关的疾病或障碍的可接受的风险。根据受试者、年龄、性别、组织类型、患者的健康状况等，可接受的暴露风险和产生的突变速率的容忍度可能有所不同。

单分子标识符(SMI)：如本文中所使用的，术语“单分子标识符”或“SMI”(其可以被称为“标签”、“条形码”、“分子条形码”、“唯一分子标识符”或“UMI”，以及其他名称)是指能够在较大的异质分子群体中基本上区分单个分子的任何材料(例如，核苷酸序列、核酸分子特征)。在一些实施例中，SMI可以是或包括外源性应用的SMI。在一些实施例中，外源性应用的SMI可以是或包括简并或半简并序列。在一些实施例中，基本上简并SMI可以被称为随机唯一分子标识符(R-UMI)。在一些实施例中，SMI可以包括来自已知代码池内的代码(例如核酸序列)。在一些实施例中，预定义的SMI代码被称为定义的唯一分子标识符(D-UMI)。在一些实施例中，SMI可以是或包括内源性SMI。在一些实施例中，内源性SMI可以是或包括与靶序列的特定剪切点、与包括靶序列的单个分子的末端相关的特征或在单个分子的末端处或其附近或距其已知距离内的特定序列相关的信息。在一些实施例中，SMI可以涉及由对核酸分子的随机或半随机损伤、化学修饰、酶修饰或其他修饰引起的核酸分子中的序列变异。在一些实施例中，修饰可以是甲基胞嘧啶的脱氨基。在一些实施例中，修饰可能需要核酸切口的位点。在一些实施例中，SMI可以包括外源性元件和内源性元件。在一些实施例中，SMI可以包括物理上相邻的SMI元件。在一些实施例中，SMI元件在分子中可以在空间上不同。在一些实施例中，SMI可以是非核酸。在一些实施例中，SMI可以包括两种或更多种不同类型的SMI信息。在国际专利公开第WO2017/100441号(其全部内容通过引用并入到本文中)中进一步公开了SMI的各种实施例。

链定义元件(SDE)：如本文中所使用的，术语“链定义元件”或“SDE”是指允许识别双链核酸材料的特定链并且因此与另一/互补链区分的任何材料(例如，在测序或其他核酸询问后，使由靶双链核酸产生的两个单链核酸中的每一个的扩增产物基本上彼此可区分的任何材料)。在一些实施例中，SDE可以是或包括衔接子序列中基本上非互补序列的一个或多个片段。在特定的实施例中，衔接子序列中基本上非互补的序列的片段可以由包括Y形或“环”形的衔接子分子提供。在其他实施例中，衔接子序列中基本上非互补序列的片段可能在衔接子序列中相邻互补序列的中间形成不成对的“泡”。在其他实施例中，SDE可以包含核酸修饰。在一些实施例中，SDE可以包括成对的链物理分离成物理分离的反应室。在一些实施例中，SDE可以包括化学修饰。在一些实施例中，SDE可以包括修饰的核酸。在一些实施例中，SDE可能涉及由对核酸分子的随机或半随机损伤、化学修饰、酶修饰或其他修饰引起的核酸分子中的序列变异。在一些实施例中，修饰可以是甲基胞嘧啶的脱氨基。在一些实施例中，修饰可能需要核酸切口的位点。在国际专利公开第WO2017/100441号(其全部内容通过引用被并入到本文中)中进一步公开了SDE的各种实施例。

受试者：如本文中所使用的，术语“受试者”是指生物体，通常是哺乳动物，例如人(在一些实施例中包含产前人类形式)、非人动物(例如，哺乳动物和非哺乳动物，包含但不限于非人类灵长类动物、马、羊、狗、牛、猪、鸡、两栖动物、爬行动物、海洋生物(通常不包含海猴子)、其他模型生物体，例如蠕虫、苍蝇等)，以及转基因动物(例如，转基因啮齿动物)等。在一些实施例中，受试者已经被暴露于基因毒素或基因毒性因子或药剂，或者在另一个实施例中，受试者已经被暴露于潜在的基因毒素。在一些实施例中，受试者患有相关疾病、障碍或病症。在一些实施例中，受试者患有基因毒性相关的疾病或障碍。在一些实施例中，受试者易患疾病、障碍或病症。在一些实施例中，受试者表现出疾病、障碍或病症的一种或多种症状或特征。在一些实施例中，受试者不表现出疾病、障碍或病症的任何症状或特征。在一些实施例中，受试者具有对疾病、障碍或病症的易感性或风险的一种或多种特征性特性。在一些实施例中，受试者表现出疾病、障碍或病症的症状或特征，并且在一些实施例中，这样的症状或特征与基因毒性相关的疾病或障碍相关。在一些实施例中，受试者是患者。在一些实施例中，受试者是被施用和/或已经被施用诊断和/或疗法的个体。在另一些实施例中，受试者是指可以被暴露于基因毒素的任何活的生物源或其他核酸材料，并且可以包含例如生物体、细胞和/或组织，例如用于体内研究，例如：真菌、原生动物、细菌、古细菌、病毒、培养中的分离的细胞、已经有意地(例如干细胞移植、器官移植)或无意地(即胎儿或母体微嵌合体)的细胞或分离的核酸或细胞器(即线粒体、叶绿体、游离病毒基因组、游离质粒、适体、核酶或核酸的衍生物或前体(即寡核苷酸、三磷酸二核苷酸等)。

基本上：如本文中所使用的，术语“基本上”是指表现出相关的特征或性质的全部或接近全部的范围或程度的定性条件。生物领域的普通技术人员将理解，生物和化学现象很少(如果有的话)完成和/或进行到完全或达到或避免绝对结果。因此，术语“基本上”在本文中用于捕捉许多生物和化学现象中固有的潜在的完整性的缺乏。

治疗有效量：如本文中所使用的，术语“治疗有效量”或“药理有效量”或简称“有效量”是指产生预期的药理、治疗或预防效果的活性药物或药剂的量。在一些示例中，本技术的各个方面可以用于评估或确定活性药物或药剂(例如，递送以有目的地诱导基因毒性相关的事件的活性药物)的有效量。

三核苷酸或三核苷酸环境：如本文中所使用的，术语“三核苷酸”或“三核苷酸环境”是指在紧接在序列之前和紧接在序列之后的核苷酸碱基的上下文中的核苷酸(例如，在三-单核苷酸组合中的单核苷酸)。

三核苷酸谱或标志：在本文中，术语“三核苷酸标志”可与“三核苷酸谱”、“三重态标志”和“三重态谱”互换使用，是指突变标志，例如在三核苷酸环境中与基因毒素暴露相关的突变标志。在一个实施例中，基因毒素可以具有独特的、半独特的和/或以其他方式可识别的三重态谱/标志。

治疗：如本文中所使用的，术语“治疗”是指将治疗剂应用或施用给受试者，或者将治疗剂应用或施用给来自受试者(所述受试者患有障碍，例如疾病或病症、疾病的症状或对疾病的易感性)的分离的组织或细胞系，目的是治疗、治愈、减轻、缓解、改变、补救、改善、改进或影响疾病、疾病的症状或对疾病的易感性。在一个示例中，障碍或疾病/病症是基因毒性疾病或障碍。在另一个示例中，障碍或疾病/病症不是基因毒性疾病或障碍。在一些示例中，本技术的各个方面用于评估治疗或潜在治疗的基因毒性。

双重测序方法和相关的衔接子和试剂的选定的实施例

双重测序是一种用于从双链核酸分子生成错误校正的DNA序列的方法，并且最初在国际专利公开第WO 2013/142389号中和在美国专利第9,752,188号和WO2017/100441中，在Schmitt et.al.,PNAS,2012[1]；在Kennedy et.al.,PLOS Genetics,2013[2]；在Kennedy et.al.,Nature Protocols,2014[3]；和在Schmitt et.al.,Nature Methods,2015[4]中描述。上述专利、专利申请和出版物中的每一个都通过引用以其整体并入到本文中。如图1A-1C所示，并且在该技术的某些方面中，双重测序可以用于以这样的方式独立地对单个DNA分子的两条链进行测序，使得在大规模平行测序(MPS)(也通常称为下一代测序(NGS))期间，衍生序列读数可以被识别为源自相同的双链核酸亲本分子，但也在测序后作为可区分的实体彼此区分。然后将从每条链得到的序列读数进行比较，用于获得被称为双重共有序列(DCS)的原始双链核酸分子的错误校正的序列。双重测序的过程使得可以明确地确认原始双链核酸分子的两条链在用于形成DCS的所生成的测序数据中被表示。

在某些实施例中，掺入DS的方法可以包含将一个或多个测序衔接子连接到靶双链核酸分子上，以生成双重靶核酸复合物，所述靶双链核酸分子包含第一链靶核酸序列和第二链靶核酸序列(例如图1A)。

在各种实施例中，得到的靶核酸复合物可以包含至少一个SMI序列，其可能需要外源性应用的简并或半简并序列(例如，图1A中所示的随机双重标签、在图1A中被识别为α和β的序列)、与靶双链核酸分子的特异性剪切点相关的内源性信息，或其组合。SMI可以使靶核酸分子与群体中的多个其他分子基本上可区分，所述群体被单独测序或与它们所连接的核酸片段的区分元件组合测序。SMI元件的基本上可区分的特征可以由形成双链核酸分子的每条单链独立地携带，使得每条链的衍生扩增产物在测序后可以被识别为来自相同的原始基本上独特的双链核酸分子。在其他实施例中，SMI可以包含附加的信息和/或可以用于对于这样的分子区分功能有用的其他方法，例如在上述参考的出版物中描述的那些方法。在另一个实施例中，SMI元件可以在衔接子连接之后被并入。在一些实施例中，SMI本质上是双链的。在其他实施例中，它本质上是单链的(例如，SMI可以在衔接子的单链部分上)。在其他实施例中，它本质上是单链和双链的组合。

在一些实施例中，每个双链靶核酸序列复合物可以进一步包含元件(例如，SDE)，该元件使得形成靶双链核酸分子的两个单链核酸的扩增产物在测序后基本上可以彼此区分。在一个实施例中，SDE可以包括包括在测序衔接子内的不对称引物位点，或者，在其他排列中，序列不对称可以被引入到不在引物序列内的衔接子分子中，使得在扩增和测序之后，第一链靶核酸序列复合物的核苷酸序列中的至少一个位置和靶核酸序列复合物的第二链彼此不同。在其他实施例中，SMI可以包括在两条链之间的另一种生化不对称，其不同于标准核苷酸序列A、T、C、G或U，但是在两个扩增的和测序的分子中被转化为至少一个标准核苷酸序列差异。在又一个实施例中，SDE可以是在扩增前物理地分离两条链的手段，使得来自第一链靶核酸序列和第二链靶核酸序列的衍生扩增产物保持彼此基本物理隔离，用于保持两者之间的区别的目的。可以使用用于提供允许区分第一链和第二链的SDE功能的其他这样的排列或方法，例如在上述参考的出版物中描述的那些，或者服务于所描述的功能目的的其他方法。

在生成包括至少一个SMI和至少一个SDE的双链靶核酸复合物之后，或者在随后将引入这些元件中的一个或两个的情况下，该复合物可以经历DNA扩增，例如用PCR或DNA扩增的任何其他生化方法(例如，滚环扩增、多重置换扩增、等温扩增、桥接扩增或表面结合扩增)，使得产生一个或多个拷贝的第一链靶核酸序列和一个或多个拷贝的第二链靶核酸序列(例如，图1B)。然后第一链靶核酸分子的一个或多个扩增拷贝和第二靶核酸分子的一个或多个扩增拷贝可以经历DNA测序，优选地使用“下一代”大规模平行DNA测序平台(例如，图1B)。

从由原始的双链靶核酸分子衍生的第一链靶核酸分子和第二链靶核酸分子产生的序列读数可以基于共享相关的基本上独特的SMI来识别，并通过SDE与相反的链靶核酸分子相区别。在一些实施例中，SMI可以是基于基于数学的纠错码(例如，汉明码)的序列，由此为了将SMI序列的序列关联到原始双重体(例如，双链核酸分子)的互补链上的目的，某些扩增错误、测序错误或SMI合成错误是可以容忍的。例如，对于双链外源性SMI，其中SMI包括15个完全简并的标准DNA碱基序列的碱基对，估计4L^15＝1,073,741,824个SMI变体将存在于完全简并的SMI群体中。如果从10,000个取样的SMI群体中仅在SMI序列中有一个核苷酸不同的测序数据的读数中恢复了两个SMI，则可以通过随机机会从数学上计算出发生这种情况的概率，并决定单个碱基对差异是否更有可能反映上述类型的错误之一，并且可以确定SMI序列实际上源自相同的原始双重分子。在其中SMI至少部分地是外源性应用的序列的一些实施例中，其中序列变体彼此不完全退化，并且至少部分地是已知序列，在一些实施例中，已知序列的同一性可以被设计成使得前述类型的一个或多个错误不会将一个已知SMI序列的同一性转化成另一个SMI序列的同一性，使得一个SMI被误解为另一个SMI的可能性降低。在一些实施例中，该SMI设计策略包括汉明码方法或其衍生物。一旦被识别，将从第一链靶核酸分子产生的一个或多个序列读数与从第二链靶核酸分子产生的一个或多个序列读数进行比较，以产生错误校正的靶核酸分子序列(例如，图1C)。例如，其中来自第一链靶核酸序列和第二链靶核酸序列的碱基一致的核苷酸位置被认为是真序列，而在两条链之间不一致的核苷酸位置被认为是技术错误的潜在位点，其可以被忽略、消除、校正或以其他方式识别。因此可以产生原始双链靶核酸分子的错误校正的序列(在图1C中示出)。在一些实施例中，并且在分别地对从第一链靶核酸分子和第二链靶核酸分子产生的每个测序读数进行分组之后，可以为第一链和第二链中的每一个生成单链共有序列。然后可以比较来自第一链靶核酸分子和第二链靶核酸分子的单链共有序列，以生成错误校正的靶核酸分子序列(例如，图1C)。

可替代地，在一些实施例中，两条链之间的序列不一致的位点可以被识别为原始双链靶核酸分子中生物衍生的错配的潜在位点。可替代地，在一些实施例中，两条链之间的序列不一致的位点可以被识别为原始双链靶核酸分子中来自DNA合成的错配的潜在位点。可替代地，在一些实施例中，两条链之间序列不一致的位点可被识别为这样的潜在的位点，其中受损的或修饰的核苷酸碱基存在于一条或两条链上，并通过酶促过程(例如，DNA聚合酶、DNA糖基化酶或另一种核酸修饰酶或化学过程)被转化为错配。在一些实施例中，这一后来的发现可以用于推断在酶促过程或化学处理之前核酸损伤或核苷酸修饰的存在。

在一些实施例中，并且根据本技术的各个方面，可以进一步过滤由本文讨论的双重测序步骤生成的测序读数，以消除来自DNA损伤的分子(例如，在储存、运输期间、在组织或血液提取期间或之后、在文库制备期间或之后的损伤等)的测序读数。例如，DNA修复酶，例如尿嘧啶-DNA糖基化酶(UDG)、甲酰胺嘧啶DNA糖基化酶(FPG)和8-氧代鸟嘌呤DNA糖基化酶(OGG1)，可以用于消除或校正DNA损伤(例如，体外DNA损伤或体内损伤)。例如，这些DNA修复酶是从DNA中去除受损的碱基的糖基化酶。例如，UDG去除由胞嘧啶脱氨基(由胞嘧啶的自发水解引起)引起的尿嘧啶，并且FPG去除8-氧代鸟嘌呤(例如，由活性氧物质引起的常见DNA损伤)。FPG还具有裂合酶活性，其可以在脱碱基位点生成1个碱基缺口。例如，由于聚合酶不能复制模板，这样的脱碱基位点将通常随后不能通过PCR扩增。因此，使用这样的DNA损伤修复/消除酶可以有效地去除没有真正突变但在测序和双重序列分析后可能以其他方式未检测为错误的受损的DNA。虽然在极少数情况下，由于受损的碱基而导致的错误通常可以通过双重测序来校正，但理论上，互补错误可能出现在两条链上的相同位置，因此，减少错误增加的损伤可以降低假象的可能性。此外，在文库制备期间，待测序的某些DNA片段可能是来自其来源或来自处理步骤(例如，机械DNA剪切)的单链。这些区域通常在本领域中已知的“末端修复”步骤期间被转化为双链DNA，由此将DNA聚合酶和核苷底物加入到DNA样品中以延伸5'凹陷末端。在被复制的DNA的单链部分中的DNA损伤的诱变位点(即在DNA双重体的一端或两端的单链5'突出端或内部单链切口或缺口)可以在填充反应期间引起错误，该错误可以使单链突变、合成错误或核酸损伤的位点变成双链形式，该双重形式在最终的双重共有序列中可能被误解为真正的突变，由此真正的突变存在于原始的双链核酸分子中，而事实上它并不存在。这种情况(被称为“假双重”)，可以通过使用这样的损伤破坏/修复酶来减少或防止。在其他实施例中，这种情况可以通过使用破坏或防止原始双重分子的单链部分形成的策略来减少或消除(例如，某些酶的使用被用于片段化原始双链核酸材料，而不是机械剪切或可能留下切口或缺口的某些其他酶)。在其他实施例中，消除原始双链核酸的单链部分的过程(例如，单链特异性核酸酶，例如S1核酸酶或绿豆核酸酶)的使用可以用于类似的目的。

在进一步的实施例中，可以进一步过滤由本文讨论的双重测序步骤生成的测序读数，以通过修整最容易生成假双重假象的读数的末端来消除假突变。例如，DNA片段化可以在双链分子的末端生成单链部分。这些单链部分可以在末端修复期间被填充(例如，通过Klenow或T4聚合酶)。在一些情况下，聚合酶使得在这些末端修复的区域中发生复制错误，导致“假双重分子”的生成。一旦被测序，这些文库制备的人假象可以错误地表现为真正的突变。作为末端修复机制的结果，这些错误可以通过修整测序读数的末端以排除可能在较高的风险区域中发生的任何突变，从而减少假突变的数量而从测序后的分析中消除或减少。在一个实施例中，测序读数的这样的修整可以自动地完成(例如，正常过程步骤)。在另一个实施例中，可以评估片段末端区域的突变频率，并且如果在片段末端区域中观察到阈值水平的突变，则可以在生成DNA片段的双链共有序列读数之前进行测序读数修整。

作为具体示例，在一些实施例中，本文提供了生成双链靶核酸材料的错误校正的序列读数的方法，包含以下步骤：将双链靶核酸材料连接到至少一个衔接子序列以形成衔接子-靶核酸材料复合物，其中所述至少一个衔接子序列包括(a)简并或半简并单分子标识符(SMI)序列，其唯一地标记双链靶核酸材料的每个分子，和(b)标记衔接子-靶核酸材料复合物的第一链的第一核苷酸衔接子序列，和第二核苷酸衔接子序列，该第二核苷酸衔接子序列至少部分地与标记衔接子-靶核酸材料复合物的第二链的第一核苷酸序列不互补，使得衔接子-靶核酸材料复合物的每条链相对于其互补链具有明显可识别的核苷酸序列。该方法接下来可以包含扩增衔接子-靶核酸材料复合物的每条链以生成多个第一链衔接子-靶核酸复合物扩增子和多个第二链衔接子-靶核酸复合物扩增子的步骤。该方法可以进一步包含扩增第一链和第二链以提供第一核酸产物和第二核酸产物的步骤。该方法还可以包含以下步骤：对第一核酸产物和第二核酸产物中的每一种进行测序，以生成多个第一链序列读数和多个第二链序列读数，并确认至少一个第一链序列读数和至少一个第二链序列读数的存在。该方法可以进一步包含将至少一个第一链序列读数与至少一个第二链序列读数进行比较，以及通过忽略不一致的核苷酸位置，或者可替换地去除具有一个或多个核苷酸位置的比较的第一和第二链序列读数来生成双链靶核酸材料的错误校正的序列读数，其中比较的第一链序列读数和第二链序列读数是非互补的。

作为另外的具体示例，在一些实施例中，本文提供了从样品中识别DNA变体的方法，包含以下步骤：将核酸材料(例如双链靶DNA分子)的两条链连接到至少一个不对称衔接子分子上以形成衔接子-靶核酸材料复合物，该复合物具有与双链靶DNA分子的第一链(例如，顶部链)相关联的第一核苷酸序列和第二核苷酸序列，所述第二核苷酸序列与双链靶DNA分子的第二链(例如底部链)相关的第一核苷酸序列至少部分地不互补；并且扩增衔接子-靶核酸材料的每条链，导致在每条链中生成一组不同但相关的扩增的衔接子-靶核酸产物。该方法可以进一步包含以下步骤：对多个第一链衔接子-靶核酸产物和多个第二链衔接子-靶核酸产物中的每一种进行测序，确认来自衔接子-靶核酸材料复合物的每一条链的至少一个扩增序列读数的存在，以及将从第一链获得的至少一个扩增的序列读数与从第二链获得的至少一个扩增的序列读数进行比较，以形成仅具有核苷酸碱基的核酸材料(例如双链靶DNA分子)的共有序列读数，其中核酸材料(例如双链靶DNA分子)的两条链的序列在所述核苷酸碱基上是一致的，使得在共有序列读数中的特定位置出现的变体(例如如与参考序列相比)被识别为真正的DNA变体。

在一些实施例中，本文提供了从双链核酸材料生成高准确度共有序列的方法，包含用衔接子分子标记单个双重DNA分子以形成标记的DNA材料的步骤，其中每个衔接子分子包括(a)唯一标记双重DNA分子的简并或半简并单分子标识符(SMI)，和(b)第一和第二非互补核苷酸衔接子序列，其对于每个标记的DNA分子，将标记的DNA材料内每个单独的DNA分子的原始顶部链与原始底部链区分开来，并生成标记的DNA分子的原始顶部链的一组复制品和标记的DNA分子的原始底部链的一组复制品，以形成扩增的DNA材料。该方法可以进一步包含以下步骤：从原始顶部链的复制品产生第一单链共有序列(SSCS)和从原始底部链的复制品产生第二单链共有序列(SSCS)，将原始顶部链的第一SSCS与原始底部链的第二SSCS进行比较，并生成仅具有核苷酸碱基的高准确度共有序列，在该核苷酸碱基处原始顶部链的第一SSCS的序列和原始底部链的第二SSCS的序列互补。

在进一步的实施例中，本文提供了检测和/或定量来自包括双链靶DNA分子的样品的DNA损伤的方法，包含将每个双链靶DNA分子的两条链连接到至少一个不对称衔接子分子以形成多个衔接子-靶DNA复合物的步骤，其中每个衔接子-靶DNA复合物具有与双链靶DNA分子的第一链相关联的第一核苷酸序列和与双链靶DNA分子的第二链相关联的第一核苷酸序列至少部分地不互补的第二核苷酸序列，并且对于每个衔接子-靶DNA复合物：扩增衔接子-靶DNA复合物的每条链，导致每条链生成一组不同但相关的扩增的衔接子-靶DNA扩增子。该方法可以进一步包含以下步骤：对多个第一链衔接子-靶DNA扩增子和多个第二链衔接子-靶DNA扩增子中的每一个进行测序，确认来自衔接子-靶DNA复合物的每一条链中的至少一个序列读数的存在，以及将从第一链获得的至少一个序列读数与从第二链获得的至少一个序列读数进行比较，以检测和/或定量核苷酸碱基，在所述核苷酸碱基处，双链DNA分子的一条链的序列读数与双链DNA分子的另一条链的序列读数不一致(例如，不互补)，使得可以检测和/或定量DNA损伤的位点。在一些实施例中，该方法可以进一步包含以下步骤：从第一链衔接子-靶DNA扩增子产生第一单链共有序列(SSCS)和从第二链衔接子-靶DNA扩增子产生第二单链共有序列(SSCS)，将原始第一链的第一SSCS与原始第二链的第二SSCS进行比较，并识别第一SSCS的序列和第二SSCS的序列不互补的核苷酸碱基，以检测和/或定量样品中与双链靶DNA分子相关的DNA损伤。

单分子标识符序列(SMI)

根据各种实施例，所提供的方法和组合物在核酸材料的每条链上包含一个或多个SMI序列。SMI可以被由双链核酸分子产生的每条单链独立地携带，使得在测序后每条链的衍生扩增产物可以被识别为来自相同的原始基本上独特的双链核酸分子。在一些实施例中，如本领域技术人员将认识到的，SMI可以包含额外的信息和/或可以用于这样的分子区分功能有用的其他方法中。在一些实施例中，SMI元件可以在连接到核酸材料的衔接子序列连接之前、基本上同时或之后被引入。

在一些实施例中，SMI序列可以包含至少一种简并或半简并核酸。在其他实施例中，SMI序列可以是非简并的。在一些实施例中，SMI可以是与核酸分子的片段末端(例如，连接的核酸材料的随机或半随机剪切的末端)相关或在其附近的序列。在一些实施例中，可以将外源性序列与对应于随机或半随机剪切的连接的核酸材料(例如，DNA)的末端的序列结合起来考虑，以获得能够彼此区分例如单个DNA分子的SMI序列。在一些实施例中，SMI序列是连接到双链核酸分子的衔接子序列的一部分。在某些实施例中，包括SMI序列的衔接子序列是双链的，使得双链核酸分子的每条链在连接到衔接子序列后包含SMI。在另一个实施例中，SMI序列在连接到双链核酸分子之前或之后是单链的，并且互补的SMI序列可以通过用DNA聚合酶延伸相反的链以产生互补的双链SMI序列来生成。在其他实施例中，SMI序列位于衔接子的单链部分(例如，具有Y形的衔接子的臂)中。在这样的实施例中，SMI可以促进源自双链核酸分子的原始链的序列读数家族的分组，并且在一些情况下可以赋予双链核酸分子的原始第一链和第二链之间的关系(例如，所有或部分的SMI可以通过查找表关联)。在实施例中，在第一链和第二链用不同的SMI标记的情况下，可以通过使用一种或多种内源性SMI(例如，片段特异性特征，例如与核酸分子的片段末端相关或在其附近的序列)，或者使用两个原始链共有的额外分子标签(例如，衔接子的双链部分中的条形码)或其组合来关联来自两个原始链的序列读数。在一些实施例中，每个SMI序列可以包含约1至约30个之间的核酸(例如，1、2、3、4、5、8、10、12、14、16、18、20个或更多个简并或半简并核酸)。

在一些实施例中，SMI能够连接到核酸材料和衔接子序列中的一种或两种。在一些实施例中，SMI可以连接到核酸材料的T-突出端、A-突出端、CG-突出端、去羟基化的碱基和钝端中的至少一个上。

在一些实施例中，可以结合(或根据)对应于例如核酸材料(例如，连接的核酸材料)的随机或半随机剪切末端的序列来考虑(设计)SMI序列，以获得能够将单个核酸分子彼此区分的SMI序列。

在一些实施例中，至少一个SMI可以是内源性SMI(例如，与剪切点(例如，片段末端)相关的SMI，例如，使用剪切点本身或使用紧邻剪切点的核酸材料中限定数量的核苷酸[例如，距剪切点2、3、4、5、6、7、8、9、10个核苷酸])。在一些实施例中，至少一种SMI可以是外源性SMI(例如，包括在靶核酸材料上未发现的序列的SMI)。

在一些实施例中，SMI可以是或包括成像部分(例如，荧光或以其他方式光学上可检测的部分)。在一些实施例中，这样的SMI允许检测和/或定量，而不需要扩增步骤。

在一些实施例中，SMI元件可以包括位于衔接子-靶核酸复合物上的不同位置的两个或更多个不同的SMI元件。

在国际专利公开第WO2017/100441号(其全部内容通过引用并入到本文中)中进一步公开了SMI的各种实施例。

链定义元件(SDE)

在一些实施例中，双链核酸材料的每条链可以进一步包含一种元件，该元件使得形成靶双链核酸材料的两个单链核酸的扩增产物在测序后基本上可以彼此区分。在一些实施例中，SDE可以是或包括包括在测序衔接子内的不对称引物位点，或者，在其他排列中，序列不对称可以被引入到衔接子序列中而不是引物序列内，使得在扩增和测序后，第一链靶核酸序列复合物的核苷酸序列中的至少一个位置和靶核酸序列复合物的第二链彼此不同。在其他实施例中，SDE可以包括两条链之间的另一种生化不对称，其不同于标准核苷酸序列A、T、C、G或U，但在两个扩增的和测序的分子中被转化为至少一个标准核苷酸序列差异。在又一个实施例中，SDE可以是或包括在扩增前物理分离两条链的手段，使得来自第一链靶核酸序列和第二链靶核酸序列的衍生扩增产物彼此保持基本物理隔离，用于保持两种衍生扩增产物之间的区别的目的。可以利用用于提供允许区分第一链和第二链的SDE功能的其他这样的排列或方法。

在一些实施例中，SDE也许能够形成环(例如发夹环)。在一些实施例中，环可以包括至少一个核酸内切酶识别位点。在一些实施例中，靶核酸复合物可以含有有助于环内切割事件的核酸内切酶识别位点。在一些实施例中，环可以包括非标准核苷酸序列。在一些实施例中，所含有的非标准核苷酸可以被一种或多种促进链切割的酶识别。在一些实施例中，所含有的非标准核苷酸可以通过一种或多种有助于环中链切割的化学过程来靶向。在一些实施例中，环可以含有修饰的核酸接头，其可以通过一种或多种促进环中链切割的酶促、化学或物理过程来靶向。在一些实施例中，这种修饰的接头是可光裂解的接头。

各种其他的分子工具可以作为SMI和SDE。除了剪切点和基于DNA的标记之外，保持成对的链物理邻近的单分子区室化方法或其他非核酸标记方法可以发挥链相关功能。类似地，以使衔接子链可以物理分离的方式对衔接子链进行不对称化学标记可以起到SDE的作用。最近描述的双重测序的变体使用亚硫酸氢盐转化以将胞嘧啶甲基化形式的天然发生的链不对称转化为区分两条链的序列差异。尽管这种实施方式限制了可以检测的突变的类型，但是在新兴的可以直接地检测修饰的核苷酸的测序技术的上下文中，利用天然不对称的概念是值得注意的。SDE的各种实施例在国际专利公开第WO2017100441号(其全部内容通过引用被并入)中进一步公开。

衔接子和衔接子序列

在各种排列中，包括SMI(例如，分子条形码)、SDE、引物位点、流动细胞序列和/或其他特征的衔接子分子被预期用于本文公开的许多实施例。在一些实施例中，所提供的衔接子可以是或包括与PCR引物(例如，引物位点)互补或至少部分互补的一个或多个序列，所述引物具有以下特性中的至少一种：1)高靶特异性；2)能够被多重；和3)表现出稳健和最小偏差的扩增。

在一些实施例中，衔接子分子可以是“Y”形、“U”形、“发夹”形，具有气泡(例如，序列的非互补的部分)或其他特征。在其他实施例中，衔接子分子可以包括“Y”形、“U”形、“发夹”形或气泡。某些衔接子可以包括修饰的或非标准的核苷酸、限制性位点或用于体外结构或功能的操纵的其他特征。衔接子分子可以连接到多种具有末端的核酸材料上。例如，衔接子分子可以适合于连接到T-突出端、A-突出端、CG-突出端、多核苷酸突出端、脱羟基化的碱基、核酸材料的钝端以及分子的末端，其中靶的5'被去磷酸化或以其他方式与传统连接阻断。在其他实施例中，衔接子分子可以在连接位点的5'链上含有去磷酸化的或以其他方式防止连接的修饰。在后两个实施例中，这样的策略可用于防止文库片段或衔接子分子的二聚化。

衔接子序列可以指单链序列、双链序列、互补序列、非互补序列、部分互补序列、不对称序列、引物结合序列、流动细胞序列、连接序列或由衔接子分子提供的其他序列。在特定的实施例中，衔接子序列可以指通过互补寡核苷酸的方式用于扩增的序列。

在一些实施例中，所提供的方法和组合物包含至少一个衔接子序列(例如，两个衔接子序列，在核酸材料的5'和3'的末端中每一个上各一个)。在一些实施例中，所提供的方法和组合物可以包括2个或更多个衔接子序列(例如，3、4、5、6、7、8、9、10个或更多个)。在一些实施例中，衔接子序列中的至少两个彼此不同(例如，通过序列)。在一些实施例中，每个衔接子序列彼此不同(例如，通过序列)。在一些实施例中，至少一个衔接子序列与至少一个其他衔接子序列的至少一部分至少部分地不互补(例如，与至少一个核苷酸不互补)。

在一些实施例中，衔接子序列包括至少一个非标准核苷酸。在一些实施例中，非标准核苷酸选自脱碱基位点、尿嘧啶、四氢呋喃、8-氧代-7,8-二氢-2'脱氧腺苷(8-氧代-A)、8-氧代-7,8-二氢2'-脱氧鸟苷(8-氧代-G)、脱氧肌苷、5'硝基吲哚、5-羟甲基-2'-脱氧胞苷、异胞嘧啶、5'-甲基异胞嘧啶或异鸟苷、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代鸟嘌呤、光可裂解的接头、生物素化的核苷酸、脱硫生物素核苷酸、硫醇修饰的核苷酸、丙烯酸酯修饰的核苷酸、异-dC、异dG、2'-O-甲基核苷酸、肌苷核苷酸锁核酸、肽核酸、5甲基dC、5-溴脱氧尿苷、2,6-二氨基嘌呤、2-氨基嘌呤核苷酸、脱碱基核苷酸、5-硝基吲哚核苷酸、腺苷酸化核苷酸、叠氮化物核苷酸、洋地黄毒苷核苷酸、I-接头、5'己炔基修饰的核苷酸、5-辛二炔基dU、可光裂解的间隔子、非可光裂解的间隔子、点击化学相容的修饰核苷酸及其任何组合。

在一些实施例中，衔接子序列包括具有磁性性质的部分(即磁性部分)。在一些实施例中，这种磁性性质是顺磁的。在一些实施例中，其中衔接子序列包括磁性部分(例如，连接到包括磁性部分的衔接子序列的核酸材料)，当施加磁场时，包括磁性部分的衔接子序列基本上与不包括磁性部分(例如，连接到不包含磁性部分的衔接子序列的核酸材料)的衔接子序列分离。

在一些实施例中，至少一个衔接子序列位于SMI的5'处。在一些实施例中，至少一个衔接子序列位于SMI的3'处。

在一些实施例中，衔接子序列可以通过一个或多个接头结构域被连接至SMI和核酸材料中的至少一种。在一些实施例中，接头结构域可以由核苷酸组成。在一些实施例中，接头结构域可以包含至少一种修饰的核苷酸或非核苷酸分子(例如，如在本公开中其他地方所描述的)。在一些实施例中，接头结构域可以是或包括环。

在一些实施例中，双链核酸材料的每条链的任一端或两端上的衔接子序列可以进一步包含一个或多个提供SDE的元件。在一些实施例中，SDE可以是或包括包括在衔接子序列中的不对称引物位点。

在一些实施例中，衔接子序列可以是或包括至少一个SDE和至少一个连接结构域(即可根据至少一种连接酶的活性修饰的结构域，例如，适于通过连接酶的活性连接到核酸材料的结构域)。在一些实施例中，从5'到3'，衔接子序列可以是或包括引物结合位点、SDE和连接结构域。

用于合成双重测序衔接子的各种方法先前已经在例如美国专利第9,752,188号、国际专利公开第WO2017/100441号和国际专利申请第PCT/US18/59908号(2018年11月8日提交)中被描述，所有这些专利的全部内容通过引用并入到本文中。

引物

在一些实施例中，具有以下性质中的至少一种的一种或多种PCR引物被预期用于根据本技术的各个方面的各种实施例中：1)高靶特异性；2)能够被多重；和3)表现出稳健的和最小偏差的扩增。许多以前的研究和商业产品已经被设计为满足常规PCR-CE的这些标准中的某些的引物混合物。然而，已经注意到这些引物混合物并不总是与MPS一起使用的最佳选择。事实上，开发高度多重的引物混合物可以是一个具有挑战性且耗时的过程。便利的是，Illumina和Promega最近都已经为Illumina平台开发了多重兼容的引物混合物，其显示出对多种标准和非标准STR和SNP基因座的稳健和有效的扩增。因为这些试剂盒在测序前使用PCR来扩增它们的靶区域，成对的末端测序数据中每个读数的5'末端对应于用于扩增DNA的PCR引物的5'末端。在一些实施例中，所提供的方法和组合物包含被设计用于确保均匀扩增的引物，这可能需要改变反应浓度、解链温度，并使二级结构和引物内/引物间相互作用最小化。已经描述了多种技术用于MPS应用的高度多重引物优化。特别地，这些技术通常被称为ampliseq方法，如本领域中描述的。

扩增

在各种实施例中，所提供的方法和组合物利用或用于至少一个扩增步骤，其中核酸材料(或其部分，例如，特定靶区域或基因座)被扩增以形成扩增的核酸材料(例如，一些扩增子产物)。

在一些实施例中，扩增核酸材料包含使用至少一种单链寡核苷酸从原始双链核酸材料中扩增衍生自第一和第二核酸链中的每一个的核酸材料的步骤，所述单链寡核苷酸至少部分地与第一衔接子序列中存在的序列互补，使得SMI序列至少部分被保持。扩增步骤进一步包含使用第二单链寡核苷酸来扩增每条相关的链，并且这样的第二单链寡核苷酸可以(a)至少部分地与相关的靶序列互补，或者(b)至少部分地与第二衔接子序列中存在的序列互补，使得至少一条单链寡核苷酸和第二单链寡核苷酸以有效地扩增核酸材料的方式定向。

在一些实施例中，扩增样品中的核酸材料可以包含扩增“管”(例如，PCR管)、乳液液滴、微室和上述的其他示例或其他已知容器中的核酸材料。

在一些实施例中，至少一个扩增步骤包含至少一种引物，该引物是或包括至少一个非标准核苷酸。在一些实施例中，非标准核苷酸选自尿嘧啶、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代鸟嘌呤、生物素化核苷酸、锁核酸、肽核酸、高Tm核酸变体、等位基因识别核酸变体、本文别处描述的任何其他核苷酸或接头变体及其任意组合。

尽管任何适合应用的扩增反应都被认为与一些实施例相容，但作为具体的示例，在一些实施例中，扩增步骤可以是或包括聚合酶链反应(PCR)、滚环扩增(RCA)、多重置换扩增(MDA)、等温扩增、乳液内的聚合酶克隆扩增、在表面上、珠的表面上或在水凝胶内的桥接扩增，以及它们的任何组合。

在一些实施例中，扩增核酸材料包含使用单链寡核苷酸，所述单链寡核苷酸至少部分地与核酸材料的每条链的5'和3'末端上的衔接子序列的区域互补。在一些实施例中，扩增核酸材料包含使用至少一种与目标区域或相关的目标序列(例如，基因组序列、线粒体序列、质粒序列、合成产生的目标核酸等)至少部分地互补的单链寡核苷酸和至少部分与衔接子序列的区域(例如，引物位点)互补的单链寡核苷酸。

通常，稳健的扩增，例如PCR扩增，可以高度地依赖于反应条件。例如，多重PCR对缓冲液组成、单价或二价阳离子浓度、洗涤剂浓度、拥挤剂(即PEG、甘油等)浓度、引物浓度、引物Tms、引物设计、引物GC含量、引物修饰的核苷酸性质和循环条件(即温度和延伸时间以及温度变化的速率)可以是敏感的。缓冲条件的优化可能是困难且耗时的过程。在一些实施例中，扩增反应可以根据先前已知的扩增方案使用缓冲液、引物池浓度和PCR条件中的至少一种。在一些实施例中，可以创建新的扩增方案，和/或可以使用扩增反应优化。作为具体的示例，在一些实施例中，可以使用PCR优化试剂盒，例如来自

的PCR优化试剂盒，其含有许多预先配制的缓冲液，这些缓冲液被部分优化用于各种PCR应用，例如多重、实时、富含GC和抑制剂抗性扩增。这些预先配制的缓冲液可以快速地补充有不同的Mg²⁺和引物浓度，以及引物池比率。此外，在一些实施例中，可以评估和/或使用各种循环条件(例如，热循环)。在评估特定的实施例是否适合特定的期望应用时，可以评估特异性、杂合基因座的等位基因覆盖率、基因座间平衡和深度以及其他方面中的一个或多个。扩增成功的测量可以包含产物的DNA测序、通过凝胶或毛细管电泳或HPLC或其他大小分离方法对产物的评价，随后是片段可视化、使用双链核酸结合染料或荧光探针的熔融曲线分析、质谱或本领域已知的其他方法。

根据各种实施例，多种因素中的任何一种都可以影响特定扩增步骤的长度(例如，PCR反应中的循环次数等)。例如，在一些实施例中，所提供的核酸材料可能是受损的或以其他方式次优的(例如降解的和/或污染的)。在这样的情况下，较长的扩增步骤可能有助于确保所需的产物被扩增到可接受的程度。在一些实施例中，扩增步骤可以从每个起始DNA分子提供平均3至10个测序的PCR拷贝，尽管在其他实施例中，仅需要第一链和第二链中的每一个的单个拷贝。不希望局限于特定的理论，太多或太少的PCR拷贝可能导致降低的测定效率，并且最终导致降低的深度。通常，扩增(例如，PCR)反应中使用的核酸(例如，DNA)片段的数量是一个主要的可调节变量，它可以决定共享相同的SMI/条形码序列的读数数量。

核酸材料

类型

根据各种实施例，可以使用多种核酸材料中的任何一种。在一些实施例中，核酸材料可以包括对标准糖-磷酸主链内的多核苷酸的至少一种修饰。在一些实施例中，核酸材料可以在核酸材料的任何碱基中包括至少一种修饰。例如，作为非限制性的示例，在一些实施例中，核酸材料是或包括双链DNA、单链DNA、双链RNA、单链RNA、肽核酸(PNA)、锁核酸(LNA)中的至少一种。

修饰

根据各种实施例，核酸材料可以在任何特定步骤之前、基本上同时或之后接受一种或多种修饰，这取决于使用特定提供的方法或组合物的应用。

在一些实施例中，修饰可以是或包括至少一部分核酸材料的修复。尽管任何适合应用的核酸修复的方式被认为与一些实施例相容，但是某些示例性的方法和组合物因此在下文和实施例中进行描述。

作为非限制性的示例，在一些实施例中，可以利用DNA修复酶，例如尿嘧啶-DNA糖基化酶(UDG)、甲酰胺嘧啶DNA糖基化酶(FPG)和8-氧代鸟嘌呤DNA糖基化酶(OGG1)，来校正DNA损伤(例如，体外DNA损伤)。如上面所讨论的，这些DNA修复酶，例如，是从DNA中去除受损的碱基的糖基化酶。例如，UDG去除由胞嘧啶脱氨基(由胞嘧啶的自发水解引起)引起的尿嘧啶，并且FPG去除8-氧代鸟嘌呤(例如，由活性氧物质引起的最常见的DNA损伤)。FPG还具有裂合酶活性，其可以在脱碱基位点生成1个碱基缺口。这样的脱碱基位点随后将不能通过PCR扩增，例如，因为聚合酶不能复制模板。因此，使用这样的DNA损伤修复酶可以有效地去除没有真正突变的损伤的DNA，但是在测序和双重体序列分析之后可能不会以其他方式检测为错误。

如上面所讨论的，在进一步的实施例中，从本文所述的处理步骤中生成的测序读数可以被进一步过滤，以通过修整最容易生成假象的读数的末端来消除假突变。例如，DNA片段化可以在双链分子的末端生成单链部分。这些单链部分可以在末端修复期间被填充(例如，通过Klenow)。在一些情况下，聚合酶使得在这些末端修复的区域中发生复制错误，导致“假双重分子”的生成。一旦被测序，这些假象可能看起来是真正的突变。作为末端修复机制的结果，这些错误可以通过修整测序读数的末端以排除可能发生的任何突变，从而减少错误突变的数量而从测序后的分析中被消除。在一些实施例中，测序读数的这样的修整可以自动完成(例如，正常过程步骤)。在一些实施例中，可以评估片段末端区域的突变频率，并且如果在片段末端区域中观察到阈值水平的突变，则可以在生成DNA片段的双链共有序列读数之前进行测序读取修整。

与标准的下一代测序方法相比，由双重测序的链比较技术提供的高度误差校正将双链核酸分子的测序误差减少了多个数量级。误差的这种减少提高了几乎所有类型的序列中的测序的准确度，但特别可以适用于本领域众所周知特别容易出错的生化挑战性的序列。这样的类型的序列的一个非限制性示例是均聚物或其他微卫星/短串联重复序列。受益于双重测序错误校正的易错序列的另一个非限制性示例是已经被损伤的分子，例如，通过加热、辐射、机械应力或各种化学暴露，其产生在被一种或多种核苷酸聚合酶复制期间易错的化学加合物，以及在分子的末端产生单链DNA或作为切口和缺口的那些。在进一步的实施例中，双重测序还可以用于精确检测双链核酸分子的群体中的少数序列变体。本申请的一个非限制性示例是在受试者体内非癌组织的大量未突变的分子中检测到少量源自癌症的DNA分子。通过双重测序进行罕见变体检测的另一个非限制性应用是早期检测由基因毒素暴露而导致的DNA损伤。双重测序的另一个非限制性应用是通过观察驱动突变出现的基因克隆来检测由基因毒性或非基因毒性致癌物生成的突变。用于准确检测少数序列变体的又进一步的非限制性应用是生成与基因毒素相关的诱变标志。

基因毒性的识别和评估

本技术涉及用于评估基因毒性的方法、系统、试剂盒等。具体而言，该技术的一些实施例涉及利用双重测序来评估生物源中的化合物(例如，化学化合物)或其他药剂的基因毒性潜力。例如，本技术的各种实施例包含执行双重测序方法，该方法允许在任何生物体的任何基因组环境中直接测量药剂诱导的突变，并且不需要克隆选择。本技术的进一步的示例涉及使用双重测序来检测和评估体内基因组诱变的方法。本技术的各个方面在临床前和临床药物安全性测试以及其他行业范围的应用中具有许多应用。例如，本技术包含用于检测导致多年后疾病/障碍的发作的超低频突变的方法，其中突变作为暴露于至少一种基因毒素(例如辐射、致癌物)的直接结果和/或作为内源性来源的结果而发生，如DNA聚合酶错误、自由基和脱嘌呤。检测可以通过在最近暴露于基因毒素后(例如，在暴露的数天内)对受试者进行检测，并使用双重测序来识别超低频突变来发生。在具体的示例中，检测到的超低频突变可以与已知引起特定疾病或障碍的突变相比较，包含那些通常在暴露后多年出现的疾病/障碍(例如在暴露于石棉20年后的肺癌)。因此，本技术提供了一种识别基因毒素的存在和暴露于它们的受害者，以便防止将来的暴露并提供早期医学治疗的权宜的方法。本技术还可以用于各种高通量筛选方法，以识别不安全的消费品、药物和其他工业/商业/生产副产物，其包含基因毒素，以便将它们从市场或环境中去除。

在特定的实施例中，如果损伤不立即导致细胞死亡，则诸如缺失、断裂和/或重排的基因毒性效应可以导致癌症或另一种基因毒性相关的疾病或障碍。例如，核酸损伤可能足以使受试者发展基因毒性相关的疾病或障碍，和/或它可能导致已经存在于暴露的受试者中的另一种类型的疾病或障碍的激活或进展。对断裂敏感的区域(被称为脆弱位点)可能是由基因毒性药剂(例如化学品，例如杀虫剂或某些化疗药物)引起的。一些化学品能够在其中存在致癌基因的染色体的区域中诱导脆弱位点，这可能导致致癌效应。此外，职业暴露于杀虫剂、制造化合物或其他有害物质的某些混合物与暴露的个体中的增加的基因毒性损伤正相关。对于任何潜在的基因毒素，例如潜在的药物、化妆品、消费品、工业/制造业产品或副产物或正在开发的其他化学化合物，高度期望对基因毒性潜力的调查，例如在人类暴露之前。同样，在其中疑似暴露于基因毒素的实施例中，如果可以识别基因毒素，则受试者可以接受靶向治疗性治疗，和/或可以去除基因毒素以防止将来暴露于受试者和其他人。

检测潜在的基因毒性药剂或因子的基因毒性效应以及以时间和成本有效的方式量化潜在的所得的诱变过程的能力在商业上和医学上都很重要。在特定的示例中，检测和量化潜在的基因毒素的诱变过程的能力对于评估癌症风险、识别致癌物和预测人类暴露的影响可以是重要的。然而，目前的工具慢、笨重和/或它们提供的信息有限。如上所述，体内测试和哺乳动物报告系统(例如

小鼠和大鼠)目前在美国食品和药物管理局(FDA)的规定下被用作有效的基因毒性度量用于确定化合物引起DNA损伤的潜力。

图2A是示出了用于评估潜在的基因毒素(例如，潜在的诱变剂)的体内诱变的各种方法的概念性示图。在图2A所示的每个方案中，测试受试者(例如，

小鼠、小鼠模型生物、大鼠模型生物等)使用适当的给药途径被暴露于潜在的基因毒素(例如，正在研究的化合物/药剂/因子)。在图2A最左侧所示的一个常规方案中，长期啮齿动物致癌性生物测定长期(例如2年)观察试验动物在暴露于各种剂量的测试物质期间或之后肿瘤病变的发展。例如，根据预期的人类暴露的类型，测试动物可以通过口服、皮肤或吸入暴露给药。在常规的方案中，给药通常持续两年左右；然而，给药参数(例如，给药持续时间、给药途径、给药水平或其他给药方案参数)可以根据期望的测试方案来设置。参考图2A的左侧方案，在整个研究中监测某些动物健康特征，但是当研究终止时，关键评估在于测试动物的组织和器官的完整病理分析。

在图2A的中间方案中所示的另一种体内测定利用了转基因啮齿动物。在适当的短期给药方案(例如，在大约数天或数周)后，处死测试动物，收获所需的组织，并且提取DNA。从提取的DNA中，分离出转基因片段，并将得到的纯化的质粒噬菌体包装并感染到大肠杆菌中。进行常规的转基因噬菌斑测定并且计算基本突变频率。

上述两种方案都很慢，并且提供了关于被测试的潜在基因毒素的基因毒性(例如诱变)的非常有限的信息。以不受基因组基因座、组织或生物体限制的方式直接测量体细胞突变的可能性很有吸引力，但是目前用标准的DNA测序是不可能的，因为错误率(～10^-3)远远高于正常组织的突变频率(～10^-7至10^-8)。

大规模平行测序提供了全面调查任何生物体的基因组的诱变暴露的体内效应的可能性，然而，正如所讨论的，常规方法太不准确而不能检测这样的突变，这种突变可能发生在低于百万分之一的水平。例如，约0.1％的下一代测序(NGS)的误差率产生背景噪声，其使罕见变体和独特的分子概况或标志的检测变得模糊不清。NGS平台中一些常见的错误来源包含PCR酶(在扩增期间出现)、测序仪读数和在处理期间的DNA损伤(例如，8-氧代鸟嘌呤、脱氨基胞嘧啶、脱碱基位点等)。

根据本技术的各个方面，双重测序方法步骤可以生成高准确度的DNA测序读数，其可以进一步提供详细的突变频率(例如，解析低于百万分之一的基因毒素诱导的突变，并提供突变谱数据以客观地表征不同的诱变过程并推断作用机制)。例如，图2A中所示的右侧方案包含一种方法，用于在与现有技术方案相同的测试受试者中快速地检测和评估潜在基因毒素(例如，潜在的诱变剂)的基因毒性，同时还提供关于突变频率、突变类型谱和基因组环境数据的详细信息。此外，双重测序分析可以提供对来自任何生物体的任何组织中的任何遗传基因座的诱变的敏感检测。例如，并且如图2A和2B所示，双重测序方法方案可以用于评估测试化合物在培养物中生长的细胞(例如，人细胞、啮齿动物细胞、哺乳动物细胞、非哺乳动物细胞等)中的体外诱变(图2B)并用于评估野生型啮齿动物(例如小鼠)中测试化合物的体内诱变(图2C)。例如，在一个实施例中，本技术包含方法步骤，包含通过适当的给药途径(例如，口服、皮下、局部、气雾剂、肌内等)将测试生物体(例如，啮齿动物、在培养物中生长的细胞)暴露于测试化合物(例如，潜在的基因毒素/诱变剂)。在一个实施例中，测试生物体可以被暴露于测试化合物持续短时间(例如，单剂量、几分钟、几小时、少于24小时、几天、2-6天等)或中等持续时间(例如，几天、3-12天、大约1周、大约2周、大约1个月、大约2个月、大约3-6个月等)或一些其他合适的时间量。如果测试生物是动物(例如啮齿类动物)，例如图1A(右侧方案)和1C所示，则可以将动物处死和/或收获期望的组织用于DNA提取。例如，在某些实施例中，测试动物不被处死，并且可以从测试动物中收集一个或多个血液样品(例如，在施用或暴露于测试物质之后的相同或不同的时间点)用于DNA提取。在其中处死动物的实施例中，一种或多种相关的组织(例如，肝、骨髓、肺、脾、血液等)可以被收获用于DNA提取。如果测试生物体包括培养物中的细胞(图1B)，则可以收集全部或部分细胞用于DNA提取。

在从收集的或收获的生物样品中提取DNA后，可以制备DNA文库(例如测序文库)。在一个实施例中，制备DNA文库(或其他核酸测序文库)的方法可以从用分子条形码标记(例如添加标签于)片段化的双链核酸材料(例如，来自DNA样品的)开始，其方式与上述方式相似，并且与双重测序文库构建方案(例如，如图1A所示)相关。在一些实施例中，双链核酸材料可以被片段化(例如，诸如用无细胞的DNA、受损的DNA等)；然而，在其他实施例中，各种步骤可以包含使用机械剪切例如声处理或其他DNA切割方法(例如酶消化、雾化等)来对核酸材料进行片段化。标记片段化的双链核酸材料的方面可以包含末端修复和3'-dA拖尾，如果在特定的应用中需要的话，随后用含有SMI的双重测序合适的衔接子连接双链核酸片段(例如，如图1A所示)。在其他实施例中，SMI可以是内源的或者外源性序列和内源性序列的组合，用于唯一地关联来自原始核酸分子的两条链的信息。

在将衔接子分子连接到双链核酸材料后，该方法可以继续扩增(例如，PCR扩增、滚环扩增、多重置换扩增、等温扩增、桥接扩增、表面结合扩增等)(图1b)。在某些实施例中，对例如一种或多种衔接子序列特异性的引物可以用于扩增核酸材料的每条链，导致从原始双链核酸分子的每条链衍生的核酸扩增子的多个拷贝，其中每个扩增子保留最初相关的SMI(图1B)。在扩增和去除反应副产物的相关步骤之后，靶核酸区域(例如，相关的区域、基因座等)可以任选地使用基于杂交的靶向捕获来富集，或者在另一个实施例中，通过使用对衔接子序列特异性的引物和对相关的靶核酸区域(未显示)特异性的引物的多重PCR来富集。

在DNA文库制备和扩增步骤之后，双链衔接子-DNA复合物可以使用标准测序方法用合适的大规模平行DNA测序平台进行测序(图1B)。在对第一链的多个拷贝和第二链的多个拷贝进行测序后，可以使用双重测序方法并且如本文所述地分析测序数据，由此将来自原始双链靶核酸分子的第一链或第二链的共享相同的外源性(例如衔接子序列)和/或内源性SMI的测序读数分开地分组。在一些实施例中，来自第一链(例如，“顶部链”)的成组测序读数用于形成第一链共有序列(例如，单链共有序列(SSCS))，并且来自第二链(例如，“底部链”)的成组测序读数用于形成第二链共有序列(例如，SSCS)。返回参考图1C，然后可以比较第一SSCS和第二SSCS以生成双重共有序列(DCS)，该双重共有序列具有在两条链之间一致的核苷酸(例如，如果变体或突变出现在衍生自两条链的测序读数中，则认为它们是真的)(例如，参见图1C)。同样，在比较步骤中，其中核苷酸在两条链之间不一致的DCS的位置可以进一步被评估为潜在的DNA损伤位点，例如由基因毒素暴露引起的损伤。

返回参考图2A-2C，并且根据本技术的各个方面，双重测序分析可以进一步用于精确地量化整个基因组中诱导的突变的频率。例如，本技术的各个方面涉及生成在衍生序列数据中捕获的基因毒性相关的信息，包含例如突变谱、三核苷酸突变标志、关于某些突变对增殖和肿瘤选择的功能性后果的信息、与和已知基因毒素相关的凭经验获得的基因毒性相关的信息(例如，突变谱、三核苷酸突变标志)的比较等。

本技术进一步包括一种用于检测受试者中由于暴露于基因毒素而导致的至少一种基因组突变的方法，包括以下步骤：1)在基因毒素暴露之后，提供来自受试者的样品，其中所述样品包括多个双链DNA分子；2)将不对称衔接子分子连接到单个双链DNA分子上，以生成多个衔接子-DNA分子；3)对于每个衔接子-DNA分子：(i)生成衔接子-DNA分子的原始第一链的一组拷贝和衔接子-DNA分子的原始第二链的一组拷贝；(ii)对原始第一链和第二链的拷贝组进行测序，以提供第一链序列和第二链序列；和(iii)比较第一链序列和第二链序列，以识别第一链序列和第二链序列之间的一个或多个对应；和4)分析每个衔接子-DNA分子中的一个或多个对应，以确定指示特定基因毒素、基因毒素的类别和/或作用机制的突变频率和突变谱中的至少一个。在一些实施例中，突变谱是三重态突变谱。在其他实施例中，分析每个衔接子-DNA分子中的一个或多个对应以确定三重态突变谱进一步包括生成特定基因毒素的三重态突变标志。在某些实施例中，确定突变频率包括确定被突变的碱基的三重态/三核苷酸环境的频率。

在一些实施例中，将三重态突变标志和/或突变谱与凭经验获得的基因毒素相关的信息进行比较，以确定(例如，基于相似性和/或差异)受试者暴露于的基因毒素的类型(如果未知)、基因毒素的作用机制、受试者将发展基因毒素相关的疾病或障碍的可能性和/或其他基因毒素相关的信息。例如，可以将由于受试者中已知或疑似基因毒素(例如，测试基因毒素)暴露产生的双重测序三核苷酸谱模式与暴露于其他已知基因毒素(例如，存储在数据库中)相关的凭经验获得的三核苷酸谱模式进行比较。在某些实施例中，双重测序三核苷酸谱模式可以基本上类似于一种或多种凭经验获得的三核苷酸谱模式，使得可以基于与一种或多种凭经验获得的三核苷酸谱模式的相似性，告知从业者测试基因毒素的身份、暴露于测试基因毒素的水平、测试基因毒素的作用机制等。

突变频率

在一些实施例中，双重测序分析步骤可以在各种暴露条件下识别与特定的基因毒素相关的突变频率。例如，与生物样品暴露于基因毒素相关的突变频率可以根据多种因素而变化，这些因素包含但不限于，生物体/受试者、受试者的年龄、基因毒素的类型、暴露于基因毒素的时间的量或水平、组织类型、处理组、基因组的区域(例如，基因组基因座)、突变类型、替代类型和三核苷酸环境以及其他因素。在一些示例中，突变频率是以每测序的双重碱基对检测到的独特突变的数量来测量的。在其他实施例中，突变频率是单个基因或生物体中的新突变随时间变化的速率。

突变谱

在各种实施例中，可以进一步分析使用双重测序生成的高准确度(例如，错误校正的)序列读数，以生成特定基因毒素或潜在的基因毒素的突变谱或标志。在一个实施例中，突变谱或标志包括由因为暴露于基因毒素导致的诱变过程产生的突变类型的特征性组合。这样的特征性组合可以包含与突变的类型相关的信息(例如，核酸序列或结构的改变)。例如，突变谱可以包括关于样品中点突变(例如，单碱基突变)、核苷酸缺失、序列重排、核苷酸插入和DNA序列的复制的数量、位置和背景的模式信息。在一些实施例中，突变谱可以包含与确定导致所确定的突变模式的作用机制相关的信息。例如，突变谱可能能够确定诱变过程是由外源性或内源性基因毒素暴露直接引起的，还是由基因毒素暴露通过扰乱DNA复制不忠、有缺陷的DNA修复途径和DNA酶促编辑以及其他间接触发的。在一些实施例中，突变谱可以通过计算的模式匹配(例如，无监督的分级突变谱聚类、非负矩阵分解等)来生成。

三重态突变谱/标志

在一个实施例中，可以进一步分析使用双重测序生成的高准确度(例如，错误校正的)序列读数，以生成三重态突变谱(在本文中也被称为三核苷酸谱或标志)。例如，可以进一步分析与基因毒素和/或与基因毒素暴露的事件相关的突变谱，以检测三核苷酸或三核苷酸环境中的单核苷酸变异或突变。不受理论的约束，公认的是，基因毒素暴露或其他过程(例如老化)可以根据三核苷酸环境(例如，核苷酸碱基及其紧邻的周围碱基)对核酸造成可变的和/或特异性的损伤。在一些实施例中，基因毒素可以具有独特的、半独特的和/或以其他方式可识别的三重态谱/标志。例如，第一基因毒素的三核苷酸谱可能主要包含C·G→A·T突变，并且可能进一步对CpG位点具有更高的偏好。这样的三核苷酸谱与主要由暴露于烟草引起的提出的病因相似，其中苯并[α]芘和其他多环芳烃是已知的诱变剂。在另一个示例中，尿烷是一种基因毒素，其在5'-NTG-3'三核苷酸环境中以T·A→A·T的周期性模式生成DNA损伤。因此，在一些实施例中，确定三重态突变谱对于识别受试者中的基因毒素暴露、确定潜在的基因毒素的基因毒性以及识别基因毒性药剂或因子的作用机制以及其他益处可以是有利的。

作用机制

在一些实施例中，使用双重测序生成的高准确度(例如，错误校正的)序列读数可以用于推断在暴露于特定的基因毒素后导致检测到的核酸变化的生化过程。例如，在一个实施例中，使用双重测序方法生成的突变频率和突变谱(包含三核苷酸谱)可以与关于与观察到的突变类型以及遗传突变的基因组位置或由基因毒素暴露引起的DNA损伤相关的模式和生化性质的凭经验获得的或先验性获得的信息进行比较。在其中确定检测到的基因组预突变、突变或损伤之后的生化途径和/或病理生理学过程的实施例中，这样的信息在一些实施例中可以用于告知暴露于基因毒素的受试者的治疗选项(例如，治疗或预防)，或者在其他实施例中，这样的信息可以用于告知商业化努力(例如，新药物)、清除努力(例如，环境毒素或制造副产物)的可行性，或者在进一步的实施例中，这样的信息可以用于告知受试化合物、药剂或因子可以被改变以消除和/或减少与该化合物、药剂或因子相关的基因毒性。

用于评估基因毒性的核酸材料的来源

如上面所讨论的，预期核酸材料可以来自多种来源中的任何一种。例如，在一些实施例中，从来自至少一个受试者(例如，人或动物受试者)或其他生物源的样品中提供核酸材料。在一些实施例中，从库存的/储存的样品中提供核酸材料。在一些实施例中，样品是或包括血液、血清、汗液、唾液、脑脊液、粘液、子宫灌洗液、阴道拭子、鼻拭子、口腔拭子、组织刮屑、毛发、指纹、尿液、粪便、玻璃体液、腹膜洗液、痰液、支气管灌洗液、口腔灌洗液、胸膜灌洗液、胃灌洗液、胃液、胆汁、胰管灌洗液、胆管灌洗液、胆总管灌洗液、胆囊液、滑液、感染的伤口、未感染的伤口、考古样品、法医样品、水样品、组织样品、食品样品、生物反应器样品、植物样品、指甲刮屑、精液、前列腺液、输卵管灌洗液、无细胞核酸、细胞内的核酸、宏基因组样品、植入异物的灌洗液、鼻灌洗液、肠液、上皮刷取物、上皮灌洗液、组织活检、尸检样品、尸体剖检样品、器官样品、人类识别样品、人工生成的核酸样品、合成基因样品、核酸数据存储样品、肿瘤组织及其任意组合中的至少一种。在其他实施例中，样品是或包括微生物、基于植物的生物体或任何收集的环境样品(例如，水、土壤、考古样品等)中的至少一种。在本文进一步讨论的特定示例中，核酸材料可以来自已经被暴露于基因毒素或潜在的基因毒素的生物源。在一些示例中，基因毒素是诱变剂和/或致癌物。在一个示例中，分析核酸材料以确定衍生核酸材料的生物源是否暴露于基因毒素。

当与其他已知或常规的毒性测定(例如Ames测试(例如用于在细菌中诱变的测试)、哺乳动物细胞培养中的体外测试、转基因啮齿动物测定、Pig-a测定和体内两年生物测定)相比时，双重测序提供了多种进步。例如，许多现有技术方法限于询问报告基因作为与测试药剂/因子的基因毒性相关的信息性信息的替代物(例如，Ames测试、体外哺乳动物细胞培养、体内转基因啮齿动物测定)或在非人来源中的测试(例如，Ames测试、转基因啮齿动物测定、Pig-a测定、两年生物测定)，可能需要长的时间段来完成所提供的非常少的信息(例如，在野生型啮齿动物中的两年生物测定)或可能非常昂贵(例如，转基因啮齿动物测定，两年生物测定)。与用于筛选测试药剂/因子的基因毒性的现有技术测定和技术的许多缺点相反，双重测序测定可以广泛地部署、经济、适合于测试药剂/因子的早期和晚期筛选，其被用于在短时间段内(例如，在2周以下)提供高准确度数据，可以用于从任何生物体/生物源(即包含体内人类样品以及其他)或任何组织/器官中筛选体外和体内测试的样品，评估多个遗传基因座，并且可以使用天然基因组作为基因毒性的报告者，并且可以告知确定的基因毒素药剂/因子的作用机制。

带有试剂的试剂盒

本技术的各个方面进一步包含用于进行双重测序方法的各个方面的试剂盒(在本文中也被称为“DS试剂盒”)。在一些实施例中，试剂盒可以包括各种试剂以及用于进行本文公开的一种或多种方法或方法步骤的说明书，用于核酸提取、核酸文库制备、扩增(例如通过PCR)和测序。在一个实施例中，试剂盒可以进一步包含计算机程序产品(例如，在计算机上运行的编码的算法、用于运行一个或多个算法的对基于云的服务器的访问代码等)，用于分析测序数据(例如，原始测序数据、测序读数等)，以确定例如突变频率、突变谱、三重态突变谱、与已知基因毒素的突变谱的比较等，其与样品相关联并且符合本技术的各个方面。

在一些实施例中，DS试剂盒可以包括适合于进行样品制备(例如，DNA提取、DNA片段化)、核酸文库制备、扩增和测序的各个方面的试剂或试剂的组合。例如，DS试剂盒可以任选地包括一种或多种DNA提取试剂(例如，缓冲液、柱等)和/或组织提取试剂。任选地，DS试剂盒可以进一步包括一种或多种用于例如通过物理手段(例如，用于促进声学剪切或超声处理的管、喷雾器单元等)或酶手段(例如，用于随机或半随机基因组剪切的酶和合适的反应酶)来片段化双链DNA的试剂或工具。例如，试剂盒可以包含用于酶促地片段化双链DNA的DNA片段化试剂，该试剂包含一种或多种用于靶向消化的酶(例如，限制性核酸内切酶、CRISPR/Cas核酸内切酶和RNA导向剂和/或其他核酸内切酶)、双链片段化酶混合物、用于使DNA的片段主要为双链和/或破坏单链DNA的单链脱氧核糖核酸酶(例如，绿豆核酸酶、S1核酸酶)以及促进这样的酶促反应的合适的缓冲液和溶液。

在一个实施例中，DS试剂盒包括用于从样品制备核酸序列文库的引物和衔接子，其适合于执行双重测序过程步骤以在样品中生成双链核酸分子的错误校正的(例如，高准确度)序列。例如，试剂盒可以包括至少一个衔接子分子池，该衔接子分子池包括单分子标识符(SMI)序列或用户创建它的工具(例如单链寡核苷酸)。在一些实施例中，衔接子分子池将包括合适数量的基本上独特的SMI序列，使得样品中的多个核酸分子可以在衔接子分子的附着后被基本上独特地标记，或者单独标记，或者与它们所连接的片段的独特特征结合。在分子标记领域有经验的人将认识到，根据各种特定因素(输入的DNA、DNA片段化的类型、片段的平均大小、基因组内被测序的序列的复杂性与重复性等)，需要“合适”数量的SMI序列的数量将会变化多个数量级。任选地，衔接子分子进一步包含一个或多个PCR引物结合位点、一个或多个测序引物结合位点或两者。在另一个实施例中，DS试剂盒不包含包括SMI序列或条形码的衔接子分子，而是包含常规的衔接子分子(例如，Y形测序衔接子等)，并且各种方法步骤可以利用内源性SMI来关联分子序列读数。在一些实施例中，衔接子分子是索引衔接子和/或包括索引序列。

在一个实施例中，DS试剂盒包括一组衔接子分子，每个衔接子分子具有非互补区和/或一些其他链定义元件(SDE)，或用户创建它的工具(例如，单链寡核苷酸)。在另一个实施例中，试剂盒包括至少一组衔接子分子，其中衔接子分子的至少一个子集各自包括至少一个SMI和至少一个SDE，或生成它们的工具。用于从适合于进行双重测序过程步骤的样品中制备核酸测序文库的引物和衔接子的另外的特征如上所述，以及在美国专利第9,752,188号、国际专利公开第WO2017/100441号和国际专利申请第PCT/US18/59908号(2018年11月8日提交)中公开，所有这些的全部内容通过引用被并入到本文中。

此外，试剂盒可以进一步包含用于合适的荧光光谱仪的DNA定量材料，诸如例如DNA结合染料，例如SYBR^TM绿或SYBR^TM金(可从马萨诸塞州沃尔瑟姆的Thermo FisherScientific获得)或类似材料，用于Qubit荧光计(例如可从马萨诸塞州沃尔瑟姆的ThermoFisher Scientific获得)，或PicoGreen^TM染料(例如可从马萨诸塞州沃尔瑟姆的ThermoFisher Scientific获得)。也预期了适合于在其他平台上进行DNA定量的其他试剂。进一步的实施例包含试剂盒，其包含一种或多种核酸大小选择试剂(例如，固相可逆固定化(SPRI)磁珠、凝胶、柱)、使用诱饵/猎物杂交进行靶DNA捕获的柱、qPCR试剂(例如，用于拷贝数确定)和/或数字液滴PCR试剂。在一些实施例中，试剂盒可以任选地包含一种或多种文库制备酶(连接酶、聚合酶、核酸内切酶、用于例如RNA询问的逆转录酶)、dNTP、缓冲液、捕获试剂(例如，珠、表面、包被的管、柱等)、索引引物、扩增引物(PCR引物)和测序引物。在一些实施例中，试剂盒可以包含用于评估DNA损伤的类型的试剂，例如易错的DNA聚合酶和/或高保真的DNA聚合酶。另外的添加剂和试剂被预期用于特定条件下的PCR或连接反应(例如，高GC富集基因组/靶)。

在一个实施例中，试剂盒进一步包括试剂，例如修复干扰聚合酶链反应(PCR)过程的DNA序列错误的DNA纠错酶(相对于修复导致疾病的突变)。作为非限制性的示例，酶包括以下中的一种或多种：尿嘧啶-DNA糖基化酶(UDG)、甲酰胺嘧啶DNA糖基化酶(FPG)、8-氧代鸟嘌呤DNA糖基化酶(OGG1)、人无嘌呤/无嘧啶核酸内切酶(APE 1)、核酸内切酶III(EndoIII)、核酸内切酶IV(Endo IV)、核酸内切酶V(Endo V)、核酸内切酶VIII(Endo VIII)、N-糖基化酶/AP-裂解酶NEIL 1蛋白(hNEIL1)、T7核酸内切酶I(T7 Endo I)、T4嘧啶二聚体糖基化酶(T4 PDG)、人单链选择性单功能尿嘧啶-DNA糖基化酶(hSMUG1)、人烷基腺嘌呤DNA糖基化酶(hAAG)等；并且可以用于校正DNA损伤(例如，体外DNA损伤)。例如，一些这样的DNA修复酶是从DNA中去除受损的碱基的糖基化酶。例如，UDG去除由胞嘧啶脱氨基(由胞嘧啶的自发水解引起)引起的尿嘧啶，并且FPG去除8-氧代鸟嘌呤(例如，由活性氧物质引起的最常见的DNA损伤)。FPG还具有裂合酶活性，其可以在脱碱基位点生成1个碱基缺口。这样的脱碱基位点随后将不能通过PCR扩增，例如，因为聚合酶不能复制模板。因此，使用这样的DNA损伤修复酶，和/或本文列出的和如本领域已知的其他酶，可以有效地去除没有真正突变但在测序和双重体序列分析后可能以其他方式未被检测为错误的损伤的DNA。

试剂盒可以进一步包括适当的对照，例如DNA扩增对照、核酸(模板)定量对照、测序对照、来自暴露于已知的基因毒素/诱变剂的生物源的核酸分子(例如，从暴露于基因毒素的受试动物或在培养物中生长的细胞提取的DNA)和/或来自未暴露于基因毒素/诱变剂的生物源的核酸分子。在另一个实施例中，对照试剂可以包含已经被有意地损伤的核酸和/或没有被损伤或暴露于任何损伤剂的核酸。在另外的实施例中，试剂盒还可以包含一种或多种在受控的基因毒性实验中待递送的基因毒性和/或非基因毒性药剂(例如，化合物)，并且任选地包含用于将这样的药剂递送至受试者、组织、细胞等的方案。因此，试剂盒可以包含合适的试剂(测试化合物、核酸、对照测序文库等)用于提供将产生双重测序结果(例如，预期的突变谱/标志)的对照，该结果将确定测试物质(例如，测试化合物、潜在的基因毒性药剂或因子等)的方案真实性。在一个实施例中，试剂盒包括用于运输受试者样品(例如血液样品)的容器，用于分析以检测受试者样品中的突变，模式和类型因此指示受试者已经暴露于哪些基因毒素。在另一个实施例中，试剂盒可以包含核酸污染对照标准(例如，对不同于测试或受试生物体的生物体中的基因组区域具有亲和力的杂交捕获探针)。

该试剂盒可以进一步包括一个或多个其他容器，该容器包括从商业和用户的角度来看所期望的材料，包含PCR和测序缓冲液、稀释剂、受试者样品提取工具(例如注射器、拭子等)，以及带有使用说明的包装插页。此外，可以在容器上提供带有使用说明的标签，例如上面描述的那些；和/或说明和/或其他信息也可以包含在试剂盒中所包含的插件上；和/或通过其中提供的网站地址包含。该试剂盒还可以包括实验室工具，诸如例如，样品管、平板密封器、微量离心管开启器、标签、磁性颗粒分离器、泡沫插件、冰袋、干冰袋、隔热材料等。

试剂盒可以进一步包括可安装在电子计算装置(例如，膝上型/台式计算机、平板电脑等)上或可经由网络(例如远程服务器)访问的计算机程序产品，其中计算装置或远程服务器包括一个或多个处理器，其被配置为执行指令以执行包括双重测序分析步骤的操作。例如，处理器可以被配置为执行用于处理原始的或未分析的测序读数的指令，以生成双重测序数据。在另外的实施例中，计算机程序产品可以包含数据库，该数据库包括受试者或样品记录(例如，关于特定的受试者或样品或样品组的信息)和关于已知基因毒素的凭经验获得的信息。该计算机程序产品包含在非暂时性计算机可读介质中，当在计算机上执行时，该可读介质执行本文公开的方法的步骤(例如，参见图19和20)。

该试剂盒可以进一步包含用于访问远程服务器(包含基于云的服务器)的指令和/或访问代码/密码等，以用于上传和下载数据(例如，测序数据、报告、其他数据)或待安装在本地装置上的软件。所有的计算工作可以驻留在远程服务器上，并且可以由用户/试剂盒用户通过互联网连接等来访问。

高通量基因毒素筛选

本技术进一步包括高通量筛选方案，用于评估疑似药剂或因子(例如，化合物、化学品、药剂、制造产品或副产物、食品物质、环境因素等)的基因毒性。在一个实施例中，可以筛选具有未知的基因毒性效应的药剂/因子，以确定测试药剂/因子是否包括基因毒性效应。在一些实施例中，可以筛选药剂/因子，希望消除具有基因毒性效应或超过阈值基因毒性效应的药剂/因子的使用。例如，可以识别以可能导致基因毒性相关的疾病或障碍的方式诱变的药剂/因子，使得药剂/因子可以被适当地控制、消除、丢弃、储存等。在一些实施例中，可以使用如本文所述的高通量筛选方案来识别致癌的药剂/因子。在另一个实施例中，可以筛选具有未知的基因毒性效应的药剂/因子，目的是发现具有所需的基因毒性效应，并且特别是对靶生物源具有所需的基因毒性效应的药剂/因子。例如，来自患有疾病或障碍(例如，癌症)的患者的生物样品可以用于高通量筛选方案，以测试多种药剂/因子的所需的基因毒性效应，其可能导致干扰或破坏细胞(例如，癌细胞)。这样的筛选可以用于发现新药/疗法和/或用于在个性化医学中使用的靶向疗法。

在一些实施例中，高通量筛选是指同时和/或时间有效地筛选多个样品。在一个示例中，测试药剂或因子的基因毒性包括将受试者(例如，生物源)暴露(例如，治疗、施用、施加等)于测试药剂或因子。因此，对于高通量筛选方案，生物源/样品的阵列可以用相同的测试药剂/因子同时处理，或者在其他实施例中，用多种测试药剂/因子同时处理。在一个特定的示例中，多个生物样品(例如，在培养物中生长的人的或其他生物体的细胞、组织样品、血液或其他体液样品、转基因动物的细胞、在异种移植物中生长的人细胞、活体患者类器官、饲养细胞等)可以基本上同时并在一致的条件下暴露于测试药剂/因子。高通量筛选也可以通过芯片上的器官被使用，例如使用10器官芯片，其中来自同一受试者的血液或组织样品从下列器官和组织中提取：内分泌；皮肤；胃肠道；肺；大脑；心脏；骨髓；肝脏；肾脏；和胰腺。使用芯片上器官进行高通量筛选的方法在本领域中是众所周知的(例如Chan et al.[5])。在其他实施例中，可以将遗传修饰的细胞系(例如，具有缺陷的或受损的DNA修复途径以使这样的细胞对诱变或基因毒性损伤效应更敏感)并入到高通量筛选方案中。

在一些实施例中，多个生物样品可以是相同或基本相似的(例如，在培养物中生长的相同细胞系、来自相同受试者和/或相同组织类型的组织样品等)。在其他实施例中，多个生物样品中的一个或多个可以不同。例如，可以测试测试药剂/因子对来自同一生物体、不同生物体或其组合的不同组织/细胞类型的基因毒性效应。在特定的示例中，疑似基因毒性药剂或因子(例如化合物、药物等)可以在来自同一受试者的不同器官(例如10器官芯片)的组织样品上同时进行测试。在一些实施例中，高通量筛选可以包含同时测试多种测试药剂/因子。因此，预期每个测试的样品可以具有不同的性质，这些性质可以有意地改变或不改变(例如，通过细胞类型、通过组织类型、通过从中提取细胞或组织的受试者、通过物种等)和/或可以经受可以根据设计而变化的不同测试方案(例如，通过测试药剂/因子、通过剂量水平、通过暴露的时间等)，使得高通量筛选方案可以用于以提供任何所需信息的方式有效地筛选多个样品。

一旦生物样品被暴露和/或期望的暴露方案完成，可以从样品中收获细胞/组织，并且可以提取DNA，用于使用双重测序来评估测试药剂/因子对源自每个样品的DNA的基因毒性/诱变影响的目的。在一些实施例中，可以从生物样品中收集无细胞的DNA(例如在培养基中释放的)，用于双重测序分析。由本技术所预期的进一步的实施例包含高通量处理DNA样品以生成双重测序数据，用于评估已知或疑似基因毒素的DNA损伤、致突变性或致癌性。

本文描述的高通量筛选过程可以包括自动化，例如通过使用机器人来执行生物样品的实验处理、DNA提取、文库制备步骤、扩增步骤(例如，PCR)和/或DNA测序步骤(例如，使用各种技术和装置进行大规模平行测序)中的一个或多个。使用高通量筛选允许并行地测试多个样品(即来自同一受试者的不同细胞类型，或来自不同受试者的相同细胞类型)，以便快速地筛选大量样品的基因毒性相关的突变和/或DNA损伤。

在一个实施例中，微孔板通过机器人操作移动通过系统，每个微孔板由一系列孔组成，每个孔包括一个样品。在一个示例中，微孔板中的孔可以通过自动液体处理系统填充，并且传感器可以用于评估微孔板中的样品，例如，通常在培养一段时间之后。实验室自动化软件可以用于控制整个或部分筛选过程，从而确保过程内的准确性和过程之间的可重复性。

环境/外源性基因毒素

本技术的各个方面包括评估环境/外源性药剂/因子的基因毒性，例如通过使用任何上述的体内或体外双重测序筛选方法。本技术的另外的方面包括评估受试者/生物体是否已经被暴露于环境区域中的基因毒素。例如，生物样品(例如，组织、血液)可以从活的或以其他方式暴露于疑似污染区域的生物体中收集，以例如确定区域是否被污染。在其他实施例中，可以从存在于较大区域中的生物体中收集生物样品，并且作为筛选过程进行评估，以确定基因毒素污染源的特定地理位置(例如，泄漏/释放到水系统中的工业副产物)。如本文所述的各种方法可以用于分析暴露于正在调查存在可能的基因毒素的环境区域的生物样品(例如，来自受试者)。在另一个实施例中，如本文所述的各种方法可以用于分析从疑似暴露于环境区域(例如，地理区域、生活区域、职业环境等)中的已知基因毒素的受试者中获取的生物样品。根据本技术的各个方面，生物样品可以来源于多种生物体(例如，海洋生物、哺乳动物、滤食动物、哨兵生物等)或特定物种(例如，人类样品)。

可检测的环境基因毒素进一步包括暴露于一种或多种诱变剂，例如但不限于γ-辐射、X-射线；UV辐射；微波；电子发射；有毒气体；有毒空气微粒(例如吸入石棉)；和化学化合物和/或病原体污染的湖泊、河流、溪流、地下水等。外源性基因毒素的另外的来源可以包含，例如，食品物质、化妆品、家庭用品、保健相关的产品、烹饪产品和工具以及其他制造的消费品。

双重测序结果可以进一步与其他识别致病污染物的存在的方法结合使用，例如首先识别癌症集群的位置的流行病学研究。在一些实施例中，本文公开的方法可以用于识别影响集群的成员的特定基因毒素。根据该数据，可以确定基因毒素的来源。与常规的研究手段相反，常规的研究手段传统上使用相关的信息以将受试者的疾病或医学病症与致病事件联系起来(例如，暴露于环境或其他外源性诱变剂或致癌物)，双重测序提供了高准确度、可重复的数据，例如突变谱和作用机制，其结果可以用于凭经验确定致病事件(例如，暴露于特定的诱变剂或致癌物)。

内源性基因毒素

本技术的各个方面包括评估内源性药剂/因子的基因毒性(例如，内源性基因毒素或基因毒性过程)，例如通过使用任何上述的体内或体外双重测序筛选方法。因此，本技术的各个方面包括评估受试者/生物体是否已经经历了导致DNA损伤的内源性基因毒素或基因毒性过程。例如，可以从受试者(例如，患者)收集生物样品(例如，组织、血液)，以例如确定受试者是否患有与基因毒素相关的疾病或障碍，或者是否具有发展这样的疾病或障碍的风险。

作为非限制性的示例，内源性因素可以包括：引起核苷酸的误配的生物事件，例如DNA聚合酶错误、自由基和脱嘌呤。内源性因素可以进一步包括直接导致疾病或障碍相关的多核苷酸突变的短期或长期的生物学病症的发作，诸如例如应激、炎症、内源性病毒的激活、自身免疫性疾病；环境暴露；食品选择(例如致癌食品和饮料)；吸烟；自然遗传构成；老化；神经退化；等等。例如，如果受试者长期暴露于高水平的应激，则可以通过双重测序测试受试者的任何与应激相关的癌症(例如白血病、乳腺癌等)相关的突变。

内源性因素也可能代表人类个体的组织中突变和其他基因毒性事件的聚集性累积，其反映了个体暴露的整体效应，并且可能不能被精确地量化或被实验控制。

用于确定安全突变频率水平的方法

由于暴露于基因毒素而导致的DNA损伤的水平或量可以根据多种因素而变化，这些因素除了受试者的各种特征(例如，健康水平、年龄、性别、遗传组成、先前的基因毒素暴露事件等)还包含例如基因毒素在导致DNA损伤(直接地或间接地)方面的有效性、暴露的剂量或量、暴露的途径或方式(例如，摄入、吸入、透皮吸收、静脉注射等)、暴露的持续时间(例如，随着时间的推移)、受试者所暴露的其他药剂或因素的协同或拮抗作用。如上面所讨论的，暴露于基因毒素可以导致多核酸损伤，该损伤可以例如通过如本文所述的双重测序方法来评估，以确定与该损伤相关的独特的、半独特的和/或以其他方式可识别的突变谱或标志，该突变谱或标志可以包括与已知疾病相关的突变模式(例如乳腺癌的独特的基因组突变)足够相似的突变模式(例如突变类型、突变频率、三核苷酸环境中可识别的突变)。本技术的各个方面涉及用于确定和/或量化可以被认为是安全的突变频率水平的方法，进一步包括检测基因毒素的安全阈值突变频率的方法。当样品中的突变频率高于安全水平时，则表明随着时间的推移，受试者处于发展该疾病的显著增加的风险。

本技术进一步包括一种用于检测和定量在受试者暴露于诱变剂后受试者体内发生的基因组突变的方法，包括：(1)对从暴露于诱变剂的受试者中提取的一个或多个靶双链DNA分子进行双重测序；(2)为靶双链DNA分子生成错误校正的共有序列；和(3)识别靶双链DNA分子的突变谱；(4)通过计算每测序的双重碱基对的独特突变数，来计算靶双链DNA分子的突变频率。在步骤(3)的一个实施例中，突变谱是样品的独特概况，其包括“三核苷酸标志”。

在一个实施例中，步骤(1)和(2)通过以下来完成：a)将双链靶核酸分子连接到至少一个衔接子分子上，以形成衔接子-靶核酸复合物，其中所述至少一个衔接子分子包括：i.简并或半简并单分子标识符(SMI)序列，其单独地或与靶核酸剪切点结合来唯一地标记双链靶核酸分子；和ii.标记衔接子-靶核酸复合物的每条链的核苷酸序列，使得衔接子-靶核酸复合物的每条链相对于其互补链具有明显可识别的核苷酸序列，b)扩增衔接子-靶核酸复合物的每条链以产生多个第一链衔接子-靶核酸复合物扩增子和多个第二链衔接子-靶核酸复合物扩增子；c)测序衔接子-靶核酸复合物扩增子以产生多个第一链序列读数和多个第二链序列读数；和d)将来自多个第一链序列读数的至少一个序列读数与来自多个第二链序列读数的至少一个序列读数进行比较，并通过忽略不一致的核苷酸位置来生成双链靶核酸分子的错误校正的序列读数(参见美国专利9,752,188B2和WO 2017/100441)。

确定基因毒素量的安全阈值水平的方法

本技术进一步包括用于确定受试者暴露于特定基因毒素的安全水平(按重量或体积或质量或单位*时间积分等计的浓度量)的体外和体内实验方法；和/或化合物或其他药剂(例如来自无线装置的无线电波等)在任何暴露水平下是否具有基因毒性。该确定可以取决于首先确定安全阈值突变频率水平。在一个实施例中，对照受试者的样品被测试基因毒素(或缺乏基因毒素)，并与暴露的受试者的样品(例如，多个小鼠；或者来自同一受试者的多个细胞，其中一组是对照细胞；等等)的基因毒素概况进行比较。暴露的受试者接受指定的、预先确定的疑似基因毒素的暴露量，以在检测到的基因毒素诱发的突变发生之前确定安全暴露的阈值水平，所述突变直接导致疾病发作。

在另一个实施例中，测试受试者(例如实验室动物、体外细胞等)被暴露于不同剂量持续不同的时间段，并且由此确定基因毒素暴露的安全切除水平：1)在什么剂量的暴露下没有观察到多核苷酸突变：和/或2)在什么剂量的暴露下检测到多核苷酸突变，但其中剂量当量水平不会引起受试者的癌症，并且使用发现的突变水平来推断其他化合物的相同情况；和/或3)确定基因毒素剂量应答曲线和诱导的突变的回归分析，以外推线性低剂量应答曲线；和/或4)在受试者人群中给定的健康结果的危险比与检测到的基因毒素频率/检测到的标志相关联。

安全暴露的阈值水平可以进一步通过物种，例如人、狗/猫、马等确定。安全阈值水平可以进一步通过暴露于基因毒素的途径来确定。例如，使用各种量的基因毒素的实验可以用本文公开的双重测序方法进行测试，以通过口服、局部或气雾剂摄入来确定将导致与特定疾病发展相关的突变和三重态谱的量(重量、体积等)和/或频率。

和/或本文公开的双重测序实验方法可以用于基于时间和/或温度来确定基因毒性暴露的阈值量。例如，基于暴露的持续时间、水的温度和水中基因毒素的浓度，在含有基因毒素的水中淋浴或沐浴时通过皮肤的吸收可以用于计算通过皮肤吸收的基因毒素的量(剂量)。

识别基因毒素安全阈值水平的错误校正的双重测序结果可以进一步与其他安全性阈值数据相结合(例如，现有的FDA和EPA水平、有毒物质疾病登记机构水平、美国国家毒理学计划指南、OECD指南、加拿大健康指南、欧洲监管指南、ILSI/HESI指南等)以确认或调整既定的标准。

检测和治疗的方法

直到在基因毒素暴露后多年(例如20年)，才可能通过传统的测试和成像技术诊断疾病或障碍发作；但是本技术提供了在基因毒素暴露后的几天或几周或几个月内检测致病突变的方法，或指示具有潜在引起致病突变或突变的前体的基因毒性过程，以便对受试者进行预防性治疗，或者主动地筛查受试者的疾病(由于处于较高的风险水平)，以及识别基因毒素的存在并消除它以防止将来的暴露。

当受试者被暴露于超过基因毒素的阈值安全水平时，和/或当已经确定受试者已经潜在地被暴露于基因毒素的不安全水平时(例如，卫生部门识别暴露的危险水平)，则受试者处于基因毒性相关的疾病或障碍的发作的显著增加的风险。然后用阻断和/或中和基因毒素的药剂对受试者进行预防性治疗；和/或减少或消除基因毒素暴露(例如，从环境中去除基因毒素，或移动受试者)。另外地或可替代地，受试者经历顺序定时的诊断测试(例如用于癌症检测的血液测试)和/或成像(例如，CAT、MRI、PET、超声波、血清生物标记物测试等)以检测受试者是否已经发展到疾病或障碍的早期阶段，在此期间对其进行最有效的治疗。作为非限制性的示例：对于黄曲霉毒素或马兜铃酸暴露，受试者可能会被要求每6个月经历肝脏超声，这是对患有慢性丙型肝炎(另一种致肝癌物)患者进行肝细胞癌筛查的通常时间表。在本领域公知的传统诊断测试检测到疾病(例如癌症)时，开始治疗(例如手术、化疗、免疫疗法等)。

提供预防性治疗(即预防或降低发作的风险)和/或抑制癌症的生长和/或根除癌症的方法包括熟练临床医生熟知的治疗方案，并且将针对基因毒素类型进行定制。虽然目前不存在逆转已经诱导的突变的治疗方法，但是用于帮助受试者清除某些残留的基因毒素(例如，通过螯合作用清除特定的重金属)的治疗方法可以进一步降低基因毒性。

对于诱变剂诱导的肿瘤(例如，吸烟者的肺癌、严重UV暴露的黑色素瘤、烟草使用者的口腔癌等)，这些肿瘤中突变的负担倾向于更高，这被认为导致更丰富的新抗原，并且解释了它们对免疫疗法的更大的积极反应的趋势。免疫疗法的预防性给药，例如包括检查点抑制剂(即PD1和PDL1抑制剂(例如纳武单抗、派姆单抗和阿特珠单抗)、CTLA4抑制剂(例如伊匹单抗))的免疫疗法，有可能使受试者的免疫系统根除早期形成的肿瘤。因此，暴露标志的识别的另一个治疗导向用途是预测未来肿瘤对免疫疗法的反应性，并且甚至可能通过预防性治疗进行疾病预防，尽管需要在正式临床试验的环境中进行仔细测试。

检测和治疗的方法可以进一步包括直接地或推断性地确定基因毒素的作用机制的方法，其可以用于确定适当的治疗过程；和/或监控药物抗性变体(参见Schmitt et al[6])。

一旦诊断或检测到受试者已经被暴露于至少一种基因毒素，可以给受试者施用治疗有效量的药物组合物，以预防发作、延迟发作、降低基因毒素相关的疾病或障碍的影响和/或根除基因毒素相关的疾病或障碍。一种药物组合物包括治疗有效量的组合物，该组合物包括基因毒素相关的疾病或障碍的抑制剂或根除剂，以及药学上可接受的载体或盐。并且治疗有效量包括组合物的治疗性、无毒的剂量范围，该组合物包括基因毒素相关的疾病或障碍的抑制剂或根除剂，其有效地产生预期的药理学、治疗性或预防性结果。

该药物组合物被配制用于给药途径并通过该给药途径给药，该给药途径包括：口服给药、静脉内给药、肌内给药、皮下给药、尿道内给药、直肠给药、椎管内给药、局部给药、口腔给药或肠胃外给药。该药物组合物可以与常规的药物载体和赋形剂混合，并且以片剂、胶囊、丸剂、液体、静脉注射溶液、饮料和食品等形式使用；并且将含有按重量或体积计约0.1％至约99.9％，或约1％至约98％，或约5％至约95％，或约10％至约80％，或约15％至约60％，或约20％至约55％的活性成分。

对于口服给药，片剂、丸剂和胶囊可以另外含有常规的载体例如粘合剂，例如阿拉伯胶、明胶、聚乙烯吡咯烷酮、山梨醇或黄蓍胶；填料，例如磷酸钙、甘氨酸、乳糖、玉米淀粉、山梨醇或蔗糖；润滑剂，例如硬脂酸镁、聚乙二醇、二氧化硅或滑石：崩解剂，例如马铃薯淀粉、调味剂或着色剂，或可接受的润湿剂。口服液体制剂可以被配制成水性或油性溶液、悬浮液、乳液、糖浆或酏剂，并且可以含有常规的添加剂，例如悬浮剂、乳化剂、非水性药剂、防腐剂、着色剂和调味剂。

对于静脉给药途径，药物组合物可以溶解或悬浮在任何常用的静脉注射液中，并通过输注给药。静脉注射液包含但不限于生理盐水或林格氏溶液。

用于肠胃外给药的药物组合物可以是水性的或非水性的等渗无菌注射溶液或悬浮液的形式。这些溶液或悬浮液可以由无菌粉末或颗粒制备，所述粉末或颗粒具有一种或多种上述用于口服给药的制剂的载体。这些化合物可以溶解在聚乙二醇、丙二醇、乙醇、玉米油、苯甲醇、氯化钠和/或各种缓冲液中。

治疗效果剂量可以进一步基于多种因素来计算，例如：基因毒性暴露的量或持续时间；受试者的年龄、体重、性别或种族；疾病或障碍的发展阶段；和熟练临床医生熟知的其他方法。在一个实施例中，在发现受试者可能或疑似暴露于基因毒素时对受试者进行测试，即使暴露发生在许多年前。如果被诊断为暴露高于安全阈值水平，则立即或在出现症状时给受试者施用药物化合物。在所有实施例中，尽可能从受试者的环境中去除基因毒素。

实验示例

以下部分提供了使用双重测序和相关的试剂来检测和评估基因组体内诱变的方法的示例。以下示例被呈现以说明本技术，并且帮助普通技术人员制定和使用本技术。这些示例并不旨在以任何方式另外限制本技术的范围。

通常，为了确定DS用于测量体内诱变的功效，进行了一系列小鼠实验，在62个样品中生成了82亿个错误校正的碱基，以检查三种诱变剂对来自两个独立动物品系的五个健康组织的九个基因的影响。双重测序定量地证明在处理的动物中增加的突变频率，其程度因特定诱变剂、组织类型和基因组基因座而异，并且与黄金标准转基因啮齿动物测定的结果非常相似。在各种示例中，仅仅基于客观的突变模式就可以通过其处理组来识别样品。在一些示例中，诱变剂敏感性在不同的基因位点之间变化高达四倍，并且不受理论的束缚，光谱模式表明这部分是区域不同过程的结果，这可能包含转录和甲基化。在各种示例中，在用烟草相关的致癌物苯并[a]芘治疗的动物中，由DS以超低频率识别的SNV中的三核苷酸突变标志被证明与在公开可获得的数据库中吸烟相关的肺癌的基因组中的克隆SNV中所见的几乎相同。在一些示例中，在诱变剂处理后仅4周，使用DS来识别在选择性压力下克隆性扩增的低频率致癌驱动突变。因此，并且如在本文所述的各种示例中所示，DS可以用于直接地定量基因毒性过程和实时肿瘤演变，在突变生物学、毒理学和癌症风险评估中具有多种应用。

示例1

双重测序在

小鼠的cII转基因和内源性基因中的体内突变分析中的应用。本节描述了一个示例，其中错误校正的下一代测序(NGS)被用于直接地测量在

转基因啮齿动物(TGR)突变测定中使用的cII转基因和天然小鼠基因中的化学诱导的突变。目前，TGR突变测定通过噬菌斑形成检测罕见的cII突变。标准NGS因为它的高错误率(每10³个测序的碱基～1个错误)不能用于低频突变检测。错误校正的NGS，或双重测序，具有显著更低的错误率(～1/10⁸个碱基)，允许检测超罕见的突变。

在该示例中，双重测序的应用被用于评估对照、N-乙基-N-亚硝基脲(ENU)和苯并[a]芘(B[a]P)暴露的

C57BL6雄性小鼠中的突变频率(MF)和光谱。

在第1-28天，用载体(橄榄油)或B[a]P(50 mg/kg/d)或在第1-3天(n＝6)用ENU(40mg/kg/天，在pH 6缓冲液中)通过每日口服管饲法对

转基因的C57BL/6雄性小鼠进行处理。在研究第31天收集并冷冻组织。对肝脏和骨髓进行突变体分析。使用AgilentTechnologies描述的RecoverEase and Transpack方法分离DNA并分析突变体的cII突变噬菌斑。双重测序用于对肝脏和骨髓中的突变的cII和其他内源性基因进行测序。

评估的基因和用于选择基因的标准如下：(1)Polr1c(RNA聚合酶)，其在所有组织类型中被广泛地转录；(2)Rho(视紫红质)，其在除视网膜以外的任何组织中不表达；(3)Hp(触珠蛋白)，其在肝脏中高度表达，但在其他地方几乎不表达；(4)Ctnnb1(β-连环蛋白)，其是人肝细胞癌中最常见的突变基因；和(5)CII：360 bp转基因报告基因，其存在于

小鼠中的～80个拷贝中。

图3A-3D是方框图，其示出了在如上所述的诱变剂处理后，针对肝脏和骨髓中的双重测序(图3A和3B)和

cII噬菌斑测定(图3C和3D)计算的突变频率。用于双重测序的MF是基于每测序的双重碱基对的总突变体(n＝5只小鼠/组)。用于

的MF被计算为突变噬菌斑的数量相对于突变噬菌斑形成单位的数量(n＝6只小鼠/组)。如所示出的，通过双重测序和传统的

cII噬菌斑测定测量的MF给出对两种诱变剂的类似的应答。骨髓(其具有更快的分裂的细胞)使用两种方法都显示出比肝脏更高的MF。

图3E示出了转基因啮齿动物测定相对于双重测序，cII突变体的相对倍数增加。如上所述，噬菌斑测定中的MF被计算为在选择板上观察到的表型活性突变噬菌斑的数量除以在允许板上形成的噬菌斑的总数目。双重测序测定中的MF被计算为突变碱基对观察值的数目除以在297 BP cII转基因区间内测序的碱基对的总数目。尽管导数测量的差异，但在整个组织和诱变剂处理中，双重测序测定和

cII噬菌斑测定之间的相关性很强。

图3F示出了从

小鼠组织以及来自

小鼠组织的cII的gDNA的双重测序中产生的单个挑选的突变噬菌斑的cII基因中的SNV的比例。以嘧啶作为参考，指定SNV。双重测序从每个处理组产生相同的突变谱，如通过手动收集3,510个噬菌斑所获得的(通过卡方测试，所有三个p值>0.999)。比例通过将SNV的总观察值除以cII间隔内的参考碱基的观察的计数并且归一化为一来计算。

图3G示出了通过cII的直接双重测序识别的所有突变通过密码子位置和功能结果在所有

组织类型和处理组中的分布。图3H示出了在单独收集的突变噬菌斑中识别的突变的分布数据。一起参考图3G和3H，直接双重测序(图3G)识别了沿着引起所有效应类别的整个基因的突变，而来自挑选的突变噬菌斑的突变(图3H)在蛋白质的非关键C-末端和N-末端处没有同义变体和突变。不受理论的束缚，据信在蛋白质的非关键的C-末端和N-末端的同义变体和突变不会导致基因功能的破坏，这对于噬菌斑测定中的选择性生长和评分是必要的。

图4是示出了通过双重测序测量的MF在每个处理组中一致的柱状图。通过双重测序在肝脏和骨髓中测量聚集在所有基因上的MF。相对于暴露于诱变剂的小鼠(高达118个突变/26亿个碱基对)，载体对照动物中独特突变体的数量较少(1-13个突变/14亿个碱基对)。组内动物间的MF在所有处理条件下都是可重复的，而对照动物中的少量突变(1至13个)强调了对深度测序的需要，以生成MF的可靠估计。

图5A和5B是柱状图，其示出了与肝脏(图5A)和骨髓(图5B)中的cII转基因相比并且如通过双重测序测量的内源性基因的MF。每个基因(～3至6kb)以约5000x的深度测序，其中cII基因(～350bp×每个基因组80个拷贝)以～100K至300K的深度测序。如上所述并参照图3A-3D计算突变频率。如所示出的，内源性基因表现出与cII转基因相似的MF的增加。双重测序证明MF在骨髓中比在肝脏中更高。不受理论的束缚，骨髓中细胞分裂的较高速率可以解释对于两种测试的诱变剂检测到的较高的MF水平。此外，图5A和5B所示的内源性基因的应答的差异可能与内源性基因的转录状态或颜色结构的差异有关。

图5C是方框图，其示出了通过肝和骨髓的基因区域对双重测序计算的SNV MF，而图5D是散点图，其示出了图5C所示的集合数据的个体测量值。散点示出了95％CI包围它们的单个测量值。图5C中的方框图示出了该组织和治疗类别的所有数据点的所有四个四分位数。Y轴刻度线性地并以10^-7量级呈现。参照图5C，方框图总结了肝脏和骨髓组织中SNV突变频率在图5D所示的

小鼠模型的四个内源性基因和cII转基因上的聚集。突变诱导的程度受特定诱变剂、组织类型和遗传基因座的影响。

图6是示出了如通过双重测序测量的测试的组织内每种测试诱变剂(例如，处理)的突变谱的柱状图。参考图6，每个突变的部分，其聚集在所有基因上，并对每个样品进行计算，并通过无监督的分级聚类分析进行分组，表明突变谱对于每个处理(例如，测试诱变剂)是唯一的。编码数据的无监督的聚类分析允许基于突变谱对数据进行分组，并证明ENU样品在所有组织中很容易通过T→C、T→A和C→T突变的优势被识别。同样，B[a]P样品通过C→A和G→T突变来区分。

图7A-7C是示出了在用于载体对照(7A)、B[a]P(7B)和ENU(7C)的相邻核苷酸的环境中的突变谱(即三核苷酸谱)的图。三核苷酸谱格式的突变标志提供了关于不同诱变机制的信息和/或展示了特定诱变剂特有的突变模式。例如，CCG和CGC的环境似乎比其他环境更容易受到与烟草相关的致癌物B[a]P的影响(图7B)。这种标志模式可能与通过黄曲霉毒素暴露所显示的标志模式相似(例如，可能是类似的诱变机制)。图7C说明了烷化剂ENU具有两个易受攻击的环境，这两个环境与IUPAC代码GTS相匹配，其中S+[G][C]，并且是过渡突变的重诱导剂。

在该示例中，已经证明ENU和B[a]P处理的骨髓和肝脏样品中的突变负载相对于对照显著增加，与传统的

cII突变噬菌斑频率(突变频率MF)相当，并且因组织类型而类似地变化。光谱评估显示在每个处理组中INDELS和单碱基置换的不同的模式。三核苷酸碱基分析表明，相邻核苷酸的环境强烈地调节诱变潜力；最极端的热点对于B[a]P是CCG和CGC并且对于ENU是GTG和GTC。双重测序被扩展到4个内源性基因：Polr1c、视紫红质、触珠蛋白和β-连环蛋白。同样，在暴露于ENU和B[a]P的动物中，MF增加，但因基因组位点而显著不同，可能反映了转录状态。在本示例中，双重测序证明是用于检测cII转基因中突变的成功方法，cII转基因是TGR测定中接受的临床前安全性生物标记物，但本示例进一步证明双重测序可以是基于内源性癌症相关的基因的风险评估工具的基础。

示例2

使用双重测序直接定量哺乳动物基因组中的体内化学诱变。本节描述了一个示例，其中双重测序被用于确定癌症驱动基因中的早期突变是否反映了测试诱变剂的致瘤潜力。

在本示例中，在FDA批准的易患癌症的小鼠模型中，在不同的小鼠组织类型(肺、脾、血液)中检查了尿烷的影响：Tg.rasH2(Saitoh et al.Oncogene 1990.PMID2202951)。该小鼠含有～3个串联的人Hras拷贝，具有激活增强子突变，以促进在一个半合子等位基因上的表达。这些小鼠易患脾血管肉瘤和肺腺癌，并且通常用于6个月的致癌性研究，以替代2年的天然动物研究。在小鼠中发现的肿瘤通常在人Hras原癌基因的一个拷贝中已经获得激活突变。除了4个天然小鼠基因(Rho、Hp、Ctnnb1、Polr1c)之外，在本示例中还分析了天然小鼠Hras和人Hras转基因。

在本示例中，用载体或致癌剂量的尿烷(第1天、第3天、第5天)给Tg.rasH2小鼠(n＝5/组)给药，并在第29天处死，用于通过靶组织(肺、脾)和全血中的双重测序进行突变检测。内源性基因(Rho、Hp、Ctnnb1、Polr1c)和天然小鼠和人Hras(转)基因也被测序。

肿瘤(脾血管肉瘤；肺腺癌)在第11周从给予尿烷的动物(n＝5/组)中收集，并且经受全外显子组测序(WES)以识别这些肿瘤中的特征性癌症驱动突变(CDM)。

图8是示出了经受尿烷的对照和实验动物的肺、脾和血液样品的突变频率(MF)的柱状图。在该分析中，检测到的每一个独特的变体都被计数为一个突变，每个样品对其求和。这被除以测序的双重碱基的总数以及整个捕获区域的总数。在每个样品上面都注明了事件的数量。总共，在所有30个样品中，生成了3,966,947,832个双重测序的碱基对。如图8所示，突变诱导在相同处理组的动物之间是一致的，并且置信度随着测序深度而增加。

图9是示出了在每组组织样品上的平均最小点突变频率的柱状图(误差条为+/-一个标准偏差)。

表1

组织	处理	突变频率	倍数增加	p-值
					肺	载体对照	0.67e-07
肺	尿烷	5.04e-07	7.5x	6.73e-05
					脾	载体对照	0.83e-07
脾	尿烷	2.73e-07	3.3x	1.92e-04
					血液	载体对照	1.11e-07
血液	尿烷	2.39e-07	2.2x	0.003025

一起参照图9和表1，载体对照(VC)和处理组之间的差异非常显著。韦尔奇t检验(对于不等方差)用于确定诱变剂处理的组织的突变频率相对于该组织的对照的突变频率的显著性。在该特定的示例中，血液的稍微较宽的置信区间反映了血液VC样品中的较低的平均测序深度。预期这可以使用本文描述的方法来校正。

图10A是方框图，其示出了针对所指示的处理类别通过对于肺、脾和血液的基因区域的双重测序计算的SNV MF，并且图10B是示出了图10A中所示的集合数据的个体测量值的散点图。散点示出了95％CI包围它们的单个测量值。图10A中的方框图示出了对于该组织和治疗类别的所有数据点的所有四个四分位数。Y轴刻度线性地并以10^-7量级呈现。参照图10A，方框图总结了图10B所示的Tg-rasH2小鼠模型的肺、脾和血液中SNV突变频率的集合。在Tg-rasH2小鼠模型中没有cII转基因。突变诱导的程度受特定诱变剂、组织类型和遗传基因座的影响。图11是示出了如通过双重测序测量的测试的组织中尿烷和VC的突变谱的柱状图。参考图11，编码的数据的无监督的聚类分析允许基于突变谱对数据进行分组。这些数据表明，仅核苷酸变异的简单光谱就可以识别暴露。换句话说，如果诱变剂是未知的，则这样的诱变剂可以通过突变谱的性质通过经由暴露的生物体的DNA的双重测序来重新识别。

图12A和12B是示出了用于载体对照(12A)和尿烷(12B)的相邻核苷酸的环境的突变谱(即三核苷酸谱)的图。三核苷酸谱格式的突变标志提供了关于不同诱变机制的信息和/或展示了特定诱变剂特有的突变模式。因此，每个突变类别在其三核苷酸环境内的详细分类(“三重态标志”)揭示了对于每个处理组的高度独特的指纹，与来自由这样的暴露引起的肿瘤的克隆突变的已知标志一致。在未处理的动物中，检测到分别由鸟嘌呤的氧化和胞嘧啶和5-me-胞嘧啶的脱氨基引起的C:G→A:T和C:G→G:C突变，这是衰老的已知模式。在尿烷处理之后，基序“NTG”内的T:A→A:T被显示为最常见的突变。

图13示出了在Ctnnb1和Polr1c中观察到单核苷酸变体(SNV)链的偏差，但在Hp或Rho基因组区域中没有观察到。SNV符号在转录链的正向方向上被标准化为参考核苷酸。用点和95％置信区间显示单个重复，带有线段。针对变体调用区域内每个参考碱基的核苷酸计数，校正所有突变频率。对于没有链偏差的零假设对于相互突变是相等的频率。这种偏差在Ctnnb1和Polr1c中是明显的，因为C>N和T>N变体处于相同的频率，而G>N和A>N变体处于较高的频率。与Hp和Rho相比，并且不受理论的束缚，据信这种差异是由转录偶联核苷酸切除修复和这些基因的相对表达水平引起的。

图14是示出了如通过双重测序检测到的变体等位基因分数的早期肿瘤克隆选择的图。识别的绝大多数突变发生在单个分子中并且以非常低的变体等位基因分数(VAF)，例如1/10,000的数量级发生。在样品中的多个分子中发现了一些变体，并且被识别为具有相当较高的VAF。

图15A是示出了在Tg-rasH2小鼠模型中，在从Ras基因家族捕获的外显子的基因组区间(包含人转基因座)上绘制的SNV的图。单重态是在单个分子中发现的突变。多重态是在同一个采样器中的多个分子内识别的相同突变，并且可能代表克隆扩增事件。每个点的高度对应于每个SNV的变体等位基因频率(VAF)，其中点的大小仅对应于多重态观察值。COSMIC中Ras家族人类癌症突变热点的位置和相对频率在每个基因下方显示。图15B是示出了与人HRAS转基因的外显子3对齐的单核苷酸变体(SNV)的图。突出显示的是人HRAS的外显子3中第61位密码子的中心残基，这是最常见的HRAS癌症驱动热点。

一起参考图15A和15B，在人类致癌性Hras密码子61热点处，在4/5尿烷处理的肺样品和1/5尿烷处理的脾样品中观察到T>A转化聚类。特别是，五个经处理的肺样品中的四个样品在0.1％-1.8％的变体等位基因频率时具有这种突变。值得注意的是，这些克隆是在NTG的环境下具有T>A转化，这是尿烷诱变的特征(是指图12B中NTG位点的强烈支持)。此外，两个经处理的脾样品在该密码子上具有突变：一个在该同一位置，并且一个在相邻的碱基对上。到第29天，观察到4/5的经处理的肺样品具有克隆性扩增的致病突变，而在小组中其他地方看到的极少突变被视为>1个成员克隆或在多个样品中重复看到(在充分确立的癌症驱动因子中为高VAF多重态)，这是暴露后不久阳性选择的强有力指示。此外，根据本技术的实施例，双重测序方法为检测这样的早期肿瘤克隆选择提供了必要的灵敏度。

表2

参考表2，97.5％的突变仅在单个分子中被识别，1％在两个分子中观察到，并且约0.5％在>2个分子中观察到。四个最高水平的克隆都发生在人HRAS肿瘤复发热点AA 61中的致癌突变。该最高水平的克隆也出现在癌症热点上，这进一步强调了强烈的选择压力的幅度。

每个样品提取的DNA的量远远大于转化为测序的双重分子的量。提取的组织样品的部分产生了大约5μg的基因组DNA。将其转化为基因组等价物，并且乘以三，得到提取物中的tg.HRAS拷贝的数目。仅对其中的～1/3％进行测序，因此在取样的组织的原始部分中存在的突变体比检测到的突变体多大约300倍。

表3

在本示例中，所选的克隆在最高等位基因部分克隆中包含超过90,000个细胞。结果，通过计算，在研究的29天内，例如，从突变暴露的时间开始，并且假设没有细胞死亡，这些细胞的倍增时间大约是每1.8天2^(29/1.8)～90,000。不受理论的束缚，这种计算的细胞倍增的速率表明在短时间内(例如，少至两周)检测这些选择的突变的可能能力。

图16A-16B是在使用常规的DNA测序(图16A)和双重测序(图16B)进行尿烷处理后，来自小鼠肺中的人HRAS的代表性400个碱基对片段的测序数据的图形表示。常规的DNA测序具有在0.1％与1％之间的错误率，这掩盖了真正低频率突变的存在。图16A示出了来自在本研究中的一个样品(小鼠肺)的一个基因(人HRAS)的代表性400BP片段的常规测序数据。每个条对应于核苷酸位置。当测序到>100,000x深度时，每个条的高度对应于该位置处的非参考碱基的等位基因分数。每个位置似乎都以某种频率突变；几乎所有这些都是错误。参照图16B，当用双重测序处理时，很明显仅一个突变是真实的。

该示例的实验分析的结果表明，双重测序非常稳固地并且以紧密的复制置信区间定量了尿烷对突变的诱导。此外，突变诱导的程度是组织特异性的，其中肺比脾和血液更容易发生。尿烷暴露的简单突变谱是清晰的，并且无偏差的聚类可以区分不同的组。尿烷的三重态突变谱显示出在“NTG”的环境下强烈的T→A和T→C突变的倾向，并且突变谱与载体对照(和其他诱变剂；参见示例1)是可区分的。

此外，外周血中的突变诱导与在脾中观察到的突变诱导密切相关，并且表明对一些诱变剂而言，外周血的活体内取样可以替代尸体剖检(或活检)。此外，该示例证明，甚至在第29天，使用双重测序证明了人HRAS转基因中致瘤突变的选择的明确证据。在该热点的突变谱准确地反映了这种已知诱变剂的作用。因此，双重测序可以提供早期和准确的数据，以评估早期癌症驱动突变作为未来癌症风险的生物标记物。跨物种污染持续在极低的水平，但外来物种污染的去除是自动和确信地进行的。

示例3

使用双重测序分析哺乳动物基因组中的诱变剂标志。本节描述了一个示例，其中从双重测序分析生成的数据可以用于生成和比较用于识别诱变剂的诱变标志和/或识别诱变剂暴露。

癌症中的体细胞突变目录(COSMIC)数据库提供了“突变标志”的参考，“突变标志”被定义为在基因组中发现的突变类型的独特组合。体细胞突变存在于人体的所有细胞中并贯穿一生发生。这样的体细胞突变是例如多重突变过程的结果，包含DNA复制机制的内在轻微不忠、外源或内源诱变剂暴露、DNA的酶促修饰和有缺陷的DNA修复。

图17A-17C是示出了来自COSMIC的标志1(图17A)、标志4(图17B)和标志29(图17C)的相邻核苷酸的环境中的突变谱(即三核苷酸谱)的图。参考图17A，在所有癌症类型中都可以看到标志1，其中提出的病因是由5-甲基胞嘧啶的自发脱氨基引起的，导致在CpG位点的C>T转变。参考图17B-17C，标志4和29与吸烟相关，并且由烟草中的主要诱变剂：苯并[a]芘驱动。尽管在模式上相似，但标志4在吸烟者的肺癌中最经常观察到，而标志29主要见于鳞状食道癌，其在吸烟者和咀嚼烟草的使用者中最常见。

表4

表4提供了从本文讨论的示例1和2得到的实验参数和数据。图18示出了来自示例1和2的所有30个公布的COSMIC标志和4个群谱的无监督的分级聚类。使用加权(WGMA)方法和余弦相似性度量进行聚类。值得注意的是，苯并[a]芘(BaP)与标志4和29非常相似，这两个标志与通过烟草摄入或吸入的BaP暴露有关。载体对照(VC)与标志1相似，标志1是一种与5-甲基胞嘧啶的自发脱氨基相关的模式，并且被认为代表了活性氧化物质的诱变效应和5-甲基胞嘧啶的自发脱氨基的组合。

该示例表明，双重测序可以用于生成突变谱分析，该分析可以与已知的突变标志进行比较或参考，以用于识别和其他分析的目的。

合适的计算环境

以下讨论提供了可以实现本公开的各方面的合适的计算环境的一般描述。尽管不是必需的，但是将在计算机可执行指令(例如由通用计算机(例如，服务器或个人计算机)执行的例程)的一般上下文中描述本公开的方面和实施例。相关领域的技术人员将理解，本公开可以用其他计算机系统配置来实践，包含互联网设备、手持装置、可穿戴计算机、蜂窝或移动电话、多处理器系统、基于微处理器的或可编程的消费电子产品、机顶盒、网络PC、微型计算机、大型计算机等。本公开可以在专用计算机或数据处理器中实现，该专用计算机或数据处理器被专门编程、被配置或构造成执行在下面地详细解释的一个或多个计算机可执行指令。实际上，如本文通常使用的术语“计算机”是指任何上述装置以及任何数据处理器。

本公开还可以在分布式计算环境中实践，其中任务或模块由远程处理装置执行，远程处理装置通过通信网络连接，例如局域网(“LNA”)、广域网(“WAN”)或互联网。在分布式计算环境中，程序模块或子例程可以位于本地和远程存储器存储装置中。下面描述的本公开的各方面可以存储在或分布在计算机可读介质上，包含磁性和光学可读以及可移动的计算机盘，其作为固件存储在芯片(例如，EEPROM芯片)中，以及通过互联网或通过其他网络(包含无线网络)电子分布。相关领域的技术人员将认识到，本公开的部分可以驻留在服务器计算机上，而相应的部分驻留在客户计算机上。本公开的各方面特有的数据结构和数据的传输也包含在本公开的范围内。

诸如个人计算机或工作站的计算机的实施例可以包括耦合到一个或多个用户输入装置和数据存储装置的一个或多个处理器。计算机还可以耦合到至少一个输出装置例如显示装置和一个或多个任选的附加输出装置(例如打印机、绘图仪、扬声器、触觉或嗅觉输出装置等)。计算机可以耦合到外部计算机，例如通过任选的网络连接、无线收发器或两者。

各种输入装置可以包含键盘和/或诸如鼠标的定点装置。其他输入装置也是可能的，例如麦克风、操纵杆、笔、触摸屏、扫描仪、数码相机、摄像机等。进一步的输入装置可以包含测序仪(例如，大规模并行测序仪)、荧光镜和其他实验室设备等。合适的数据存储装置可以包含可以存储计算机可访问的数据的任何类型的计算机可读介质，例如磁性硬盘和软盘驱动器、光盘驱动器、盒式磁带、磁带驱动器、闪存卡、数字视频盘(DVD)、伯努利盒式磁带、RAM、ROM、智能卡等。实际上，可以使用用于存储或传输计算机可读指令和数据的任何介质，包含到诸如局域网(LAN)、广域网(WAN)或互联网的网络的连接端口或节点。

本公开的各方面可以在各种其他计算环境中实践。例如，具有网络接口的分布式计算环境可以包含系统中的一个或多个用户计算机，其中用户计算机可以包含浏览器程序模块，其允许计算机访问互联网并与互联网交换数据，包含互联网的万维网部分内的网站。用户计算机可以包含其他程序模块，例如操作系统、一个或多个应用程序(例如，文字处理或电子表格应用程序)等。计算机可以是可以被编程以运行各种类型的应用程序的通用装置，或者它们可以是被优化或限于特定功能或功能类别的单用途装置。更重要的是，尽管用网络浏览器示出，但是可以采用用于向用户提供图形用户界面的任何应用程序，如下文详细地描述的；网络浏览器和网络界面的使用在本文仅被用作常见的示例。

耦合到互联网或万维网(“Web”)的至少一个服务器计算机可以执行用于接收、路由和存储电子消息的大部分或全部功能，所述电子消息例如是本文描述的网页、数据流、音频信号和电子图像。虽然示出了互联网，但是在一些应用中，诸如内联网的私人网络可能确实是优选的。网络可以具有客户端-服务器架构，其中计算机专用于服务其他客户端计算机，或者它可以具有其他架构例如对等架构，其中一台或多台计算机同时充当服务器和客户端。耦合到服务器计算机的一个或多个数据库可以存储在用户计算机之间交换的大部分网页和内容。包含数据库的服务器计算机可以采用安全措施来抑制对系统的恶意攻击，并保持存储在其中的消息和数据的完整性(例如，防火墙系统、安全套接字层(SSL)、密码保护方案、加密等)。

合适的服务器计算机可以包含服务器引擎、网页管理组件、内容管理组件和数据库管理组件以及其他特征。服务器引擎执行基本的处理和操作系统级别的任务。网页管理组件处理网页的创建和显示或路由。用户可以通过与其相关联的URL来访问服务器计算机。内容管理组件处理本文描述的实施例中的大多数功能。数据库管理组件包含关于数据库的存储和检索任务、对数据库的查询、对数据库的读写功能以及诸如视频、图形和音频信号的数据的存储。

本文描述的许多功能单元已经被标记为模块，以便更具体地强调它们的实现独立性。例如，模块可以用软件实现，以用于由各种类型的处理器执行。可执行代码的识别模块可以例如包括计算机指令的一个或多个物理或逻辑块，其可以例如被组织为对象、程序或功能。所识别的计算机指令块不需要在物理上位于一起，而是可以包括存储在不同位置的不同指令，当这些指令在逻辑上结合在一起时，构成该模块并且实现该模块的所述目的。

模块也可以被实现为硬件电路，包括定制的VLSI电路或门阵列、诸如逻辑芯片、晶体管或其他分立部件的现成半导体。模块也可以在可编程硬件装置(例如现场可编程门阵列、可编程阵列逻辑、可编程逻辑装置等)中实现。

可执行代码的模块可以是单个指令或多个指令，并且甚至可以分布在若干个不同的代码段上、不同的程序中以及若干个存储装置上。类似地，操作数据在本文可以在模块中被识别和图示，并且可以以任何合适的形式被体现，并且被组织在任何合适类型的数据结构中。操作数据可以作为单个数据集收集，或者可以分布在不同的位置上，包含分布在不同的存储装置上，并且可以至少部分地仅作为系统或网络上的电子信号存在。

用于基因毒性测试的系统

本发明进一步包括一种系统(例如，联网计算机系统、高吞吐量自动化系统等)用于处理受试者的样品，并通过有线或无线网络将测序数据传输到远程服务器，以确定样品的错误校正的序列读数(例如，双重序列读数、双重共有序列等)、突变谱、突变频率、三重态突变标志，以及在样品数据和与一种或多种已知基因毒素相关的相应数据之间是否存在相似性。

如下面另外详细地描述的，并且关于图19所示的实施例，基因毒素计算机化系统包括：(1)远程服务器；(2)能够生成和/或发送测序数据的多个用户电子计算装置；(3)具有已知基因毒素概况和相关信息的数据库(任选的)；和(4)用于在电子计算装置、数据库和远程服务器之间传输电子通信的有线或无线网络。远程服务器进一步包括：(a)存储用户基因毒素记录结果和基因毒素概况的记录(例如光谱、频率、作用机制等)的数据库；(b)通信地耦合至存储器的一个或多个处理器；和一个或多个非暂时性计算机可读存储装置或介质，包括用于处理器的指令，其中所述处理器被配置为执行所述指令以执行包括图20-23中描述的一个或多个步骤的操作。

在一个实施例中，本技术进一步包括包括有指令的非暂时性计算机可读存储介质，当由一个或多个处理器执行时，该指令执行用于确定受试者是否暴露于至少一种基因毒素和/或至少一种基因毒素的身份或性质/特征的方法。在特定的实施例中，该方法可以包含图20-23中描述的一个或多个步骤。

本技术的另外的方面涉及用于确定受试者是否暴露于至少一种基因毒素和/或至少一种基因毒素的身份或性质/特征的计算机化方法。在特定的实施例中，该方法可以包含图20-23中描述的一个或多个步骤。

图19是计算机系统1900的框图，该计算机系统在其上安装有计算机程序产品1950，并且用于与本文公开的方法和/或试剂盒一起使用，以识别由基因毒性暴露导致的诱变事件和/或核酸损伤事件。尽管图19示出了各种计算系统组件，但是可以预期，本领域普通技术人员已知的其他或不同组件，例如上面讨论的那些，可以提供其中可以实现本公开的各方面的合适的计算环境。图20是示出了根据本技术的实施例的用于提供双重测序共有序列数据的例程的流程图。图21-23是流程图，其示出了用于识别由样品的基因毒性暴露导致的诱变事件和/或核酸损伤事件的各种例程。根据本技术的各个方面，关于图21-23描述的方法可以提供样品数据，包含例如样品的突变谱、突变频率、三重态突变谱，以及从样品数据与已知基因毒素的数据集的比较中获得的信息。

如图19所示，计算机系统1900可以包括多个用户计算装置1902、1904；有线或无线网络1910和远程服务器(“DupSeq^TM”服务器)1940，包括处理器以分析由样品的基因毒性暴露导致的诱变事件和/或核酸损伤事件。在实施例中，用户计算装置1902、1904可以用于生成和/或传输测序数据。在一个实施例中，计算装置1902、1904的用户可以是执行本技术的其他方面(例如用于评估基因毒性的受试者样品的双重测序方法步骤)的用户。在一个示例中，根据本技术的实施例，计算装置1902、1904的用户使用包括试剂和/或衔接子的试剂盒(1、2)来执行某些双重测序方法步骤，以询问受试者样品。

如所示出的，每个用户计算装置1902、1904包含至少一个中央处理单元1906、存储器1907以及用户和网络接口1908。在一个实施例中，用户装置1902、1904包括台式计算机、膝上型计算机或平板计算机。

尽管描绘了两个用户计算装置1902、1904，但是可以预期，可以包含任何数量的用户计算装置或者可以将其连接到系统1900的其他组件。另外，计算装置1902、1904也可以代表由用户(1)和用户(2)用来扩增和测序样品的多个装置和软件。例如，计算装置可以是测序仪(例如Illumina HiSeg^TM、Ion Torrent PGM、ABI SOLiD^TM测序仪、PacBio RS、HelicosHeliscope^TM等)、实时PCR仪(例如ABI 7900、Fluidigm BioMark^TM等)、微阵列仪器等。

除了上述组件之外，系统1900可以进一步包括数据库1930，用于存储基因毒素概况和相关信息。例如，可以由服务器1940访问的数据库1930可以包括对于多种已知的基因毒素的突变谱、三重态突变谱/标志、作用机制等的记录或集合，并且还可以包含关于每个储存的基因毒素的突变概况/模式的附加信息。在特定的示例中，数据库1930可以是包括基因毒素概况1932的第三方数据库。例如，癌症中的体细胞突变目录(COSMIC)网站包括“突变谱”的集合，这些“突变谱”已经检测为由暴露于致癌物引起的肿瘤(例如吸烟者[8、9]的肺癌)中的克隆突变。在另一个实施例中，数据库可以是与服务器1940分开托管的独立数据库1930(私有或非私有)，或者数据库可以被托管在服务器1940上，例如数据库1970，其包括凭经验获得的基因毒素概况1972。在一些实施例中，当系统1900用于生成新的测试药剂/因子概况时，通过使用系统1900和相关方法(例如，本文描述的方法和例如图20-23中描述的方法)生成的数据可以被上传到数据库1930和/或1970，从而可以为将来的比较活动产生额外的基因毒素概况1932、1972。

服务器1940可以被配置成经由网络1910从用户计算装置1902、1904接收、计算和分析测序数据(例如，原始测序文件)和相关信息。可以使用安装在装置1902、1904上的计算机程序产品/模块(序列模块1905)，或者通过网络1910从远程服务器1940可访问的计算机程序产品/模块，或者使用本领域公知的其他测序软件，在本地计算样品特异性原始测序数据。然后可以通过网络1910将原始序列数据传输到远程服务器1940，并且用户结果1974可以存储在数据库1970中。服务器1940还包括程序产品/模块“DS模块”1912，其被配置为从数据库1970接收原始测序数据，并被配置为使用例如本文公开的双重测序技术经计算生成错误校正的双链序列读数。虽然在服务器1940上示出了DS模块1912，但是本领域的普通技术人员将认识到，DS模块1912可以替代地在操作时被托管在装置1902、1904上或者在另一个远程服务器(未示出)上。

远程服务器1940可以包括至少一个中央处理单元(CPU)1960、用户和网络接口1962(或者具有连接到服务器的接口的服务器专用计算装置)、数据库1970，如上所述，具有存储已知和新的基因毒素1972的突变概况的多个计算机文件/记录，以及存储测试的样品1974的结果(例如，原始测序数据、双重测序数据、基因毒性分析等)的文件/记录。根据本技术的各个方面，服务器1940进一步包括其上存储有基因毒素计算机程序产品(基因毒素模块)1950的计算机存储器1911。

计算机程序产品/模块1950在非暂时性计算机可读介质中体现，当在计算机(例如服务器1940)上执行时，所述非暂时性计算机可读介质执行本文公开的用于检测和识别基因毒素的方法的步骤。本公开的另一方面包括计算机程序产品/模块1950，其包括其上包含有计算机可读程序代码或指令的非暂时性计算机可用介质，用于使处理器能够执行基因毒性分析(例如，计算突变频率、突变谱、三重态突变谱、基因毒素比较报告、阈值水平报告等)。这些计算机程序指令可以被加载到计算机或其他可编程设备上以产生机器，使得在计算机或其他可编程设备上执行的指令创建用于实现本文描述的功能或步骤的装置。这些计算机程序指令也可以存储在计算机可读存储器或介质中，其可以指导计算机或其他可编程设备以特定方式运行，使得存储在计算机可读存储器或介质中的指令产生包含实现分析的指令装置的制造物品。计算机程序指令也可以被加载到计算机或其他可编程设备上，以使一系列操作步骤在计算机或其他可编程设备上执行，从而产生计算机实现的过程，使得在计算机或其他可编程设备上执行的指令提供用于实现上述功能或步骤的步骤。

此外，计算机程序产品/模块1950可以用任何合适的语言和/或浏览器来实现。例如，它可以用Python、C语言来实现，并且优选地使用面向对象的高级编程语言，例如VisualBasic、SmallTalk、C++等来实现。该应用程序可以被编写为适合诸如Microsoft Windows^TM环境的环境，包含Windows^TM 98、Windows^TM 2000、Windows^TM NT等等。此外，该应用程序还可以为MacIntosh^TM、SUN^TM、UNIX或LINUX环境编写。此外，功能步骤也可以使用通用或独立于平台的编程语言来实现。这样的多平台编程语言的示例包含但不限于超文本标记语言(HTML)、JAVA^TM、JavaScript^TM、Flash编程语言、通用网关接口/结构化查询语言(CGI/SQL)、实用提取报告语言(PERL)、AppleScript^TM和其他系统脚本语言、编程语言/结构化查询语言(PL/SQL)等。可以使用支持Java^TM或JavaScript^TM的浏览器，例如HotJava^TM、Microsoft^TM、Explorer^TM或Netscape^TM。当使用活动内容网页时，它们可能包含Java^TM小程序或ActiveX^TM控件或其他活动内容技术。

该系统调用许多例程。虽然本文描述了一些例程，但是本领域技术人员能够识别系统可以执行的其他例程。此外，本文描述的例程可以以各种方式改变。作为示例，所示的逻辑的顺序可以重新排列，子步骤可以并行执行，所示的逻辑可以省略，可以包含其他逻辑等。

图20-23是流程图，其示出了用于检测和识别由样品的基因毒性暴露导致的诱变事件和/或核酸损伤事件的例程2000、2100、2200、2300。图20是示出了用于提供样品(例如，来自基因毒性测定的样品)中的双链核酸分子的双重测序数据的例程2000的流程图。例程2000可以由计算装置(例如耦合到计算机网络的客户端计算机或服务器计算机)调用。在一个实施例中，计算装置包含序列数据生成器和/或序列模块。作为示例，计算装置可以在操作者接合与计算装置通信的用户界面之后调用例程2000。

例程2000开始于框2002，并且序列模块从用户计算装置接收原始序列数据(框2004)，并且创建样品特异性数据集，该数据集包括来自样品中的多个核酸分子的多个原始序列读数(框2006)。在一些实施例中，服务器可以将样品特异性数据集存储在数据库中以供以后处理。接下来，DS模块接收到从样品特异性数据集中的原始序列数据生成双重共有测序数据的请求(框2008)。DS模块将来自代表原始双链核酸分子的家族的序列读数分组(例如，基于SMI序列)，并将来自单个链的代表性序列相互比较(框2010)。在一个实施例中，代表性序列可以是来自每个原始核酸分子的一个或多于一个的序列。在另一个实施例中，代表性序列可以是由代表性链内的比对和错误校正生成的单链共有序列(SSCS)。在这样的实施例中，来自第一链的SSCS可以与来自第二链的SSCS进行比较。

在框2012，DS模块识别比较的代表性链之间的互补性的核苷酸位置。例如，DS模块沿着比较的(例如，比对的)序列读数识别核苷酸位置，其中核苷酸碱基调用是一致的。此外，DS模块识别比较的代表性链之间的非互补性的位置(框2014)。同样，DS模块可以沿着其中核苷酸碱基调用不一致的比较的(例如，比对的)序列读数识别核苷酸位置。

接下来，DS模块可以为样品中的双链核酸分子提供双重测序数据(框2016)。对于每个处理过的序列读数，这样的数据可以是双重共有序列的形式。在一个实施例中，双重共有序列可以仅包含核苷酸位置，其中来自原始核酸分子的每条链的代表性序列是一致的。因此，在一个实施例中，不一致的位置可以被消除或以其他方式被忽略，使得双重共有序列是已经被错误校正的高准确度序列读数。在另一个实施例中，双重测序数据可以包含报告不一致的核苷酸位置的信息，以便可以进一步分析这样的位置(例如，在其中可以评估DNA损伤的情况下)。例程2000然后可以在框2018继续，其在此框处结束。怀疑。

图21是示出了用于检测和识别由样品的基因毒性暴露导致的诱变事件的例程2100的流程图。该例程可以由图20的计算装置调用。例程2100开始于框2102，并且基因毒素模块将来自图20的双重测序数据(例如，在框2016之后)与参考序列信息进行比较(框2104)，并且识别突变(例如，在受试者序列不同于参考序列的情况下)(框2106)。接下来，基因毒素模块确定突变频率(框2108)，并为样品生成突变谱(框2110)。这样，突变模式分析可以提供有关于从样品分析的核酸分子中突变事件的类型、位置和频率的信息。任选地，基因毒素模块可以生成三重态突变谱(框2112)，其提供用于分析暴露的基因毒性结果的三核苷酸环境和模式信息。

基因毒素模块还可以任选地将突变谱和/或三重态突变谱(如果确定的话)与多个已知的基因毒素数据集(例如存储在数据库中的基因毒素概况记录中的那些)进行比较(框2114)，以确定例如样品是否暴露于已知的基因毒素，或者在另一个示例中，以确定测试药剂/因子是否具有与先前已知的基因毒素相似的基因毒性概况。任选地，基因毒素模块可以部分地基于比较信息来确定基因毒素的可能作用机制(框2116)。接下来，基因毒素模块可以提供基因毒性数据(框2118)，该数据可以存储在数据库中的样品特异性数据集中。在一些未示出的实施例中，基因毒性数据可以用于生成基因毒素概况，其待存储在数据库中用于未来的比较活动。例程2100然后可以在框2120处继续，其在此框处结束。

图22是示出了用于检测和识别由样品的基因毒性暴露导致的DNA损伤事件的例程2200的流程图。该例程可以由图20的计算装置调用。例程2200开始于图20的框2014，并且在判定框2202，例程2200确定非互补性的核苷酸位置是否是过程错误。在各种实施例中，用于确定原始DNA分子的两条链的序列读数之间的不一致的位置的参数可以由操作者、由已知的DNA损伤的特征、由已知的过程错误的特征、由错配所代表的最小序列读数的数量等来指定。

如果核苷酸位置被确定为过程错误(与在DNA提取之前的体内DNA损伤的位点相反)，则DS模块可以消除或忽略这样的非互补性的核苷酸位置(框2204)。例程2200可以继续到图20的框2016。

返回参考判定框2202，并且如果核苷酸位置被确定为不是过程错误，则基因毒素模块可以将这样的非互补性的位置识别为可能的体内DNA损伤的位点(框2206)，例如由于暴露于基因毒素而导致的。在识别之后，基因毒素模块可以生成待与数据库中的样品特异性数据集相关联的DNA损伤报告(框2208)。在一些实施例中，DNA损伤报告可以用于推断潜在基因毒素的作用机制(未示出)。例程2200可以继续到图20的框2016。

图23是示出了用于检测和识别受试者中的致癌物或致癌物暴露的例程2300的流程图。例程2300可以由图20的计算装置调用。例程2300开始于框2302，并且基因毒素模块接收来自图20的双重测序数据(例如，在框2016之后)和任选地来自图21的基因毒性数据(例如，在框2116之后)，并且确认样品被暴露于基因毒素(框2304)。接下来，基因毒素模块识别靶基因组区域(例如，基因)的序列中的变体(框2306)。例如，基因毒素模块可以分析特定基因座(例如，癌症驱动基因、癌基因等)的双重测序数据和基因毒性数据。然后，基因毒素模块计算变体等位基因频率(VAF)(框2308)。

在判定框2310，例程2300确定VAF在测试组中是否比在对照组中更高。如果测试组的VAF不高于对照组，则基因毒素模块标记该药剂，用于减少对其为致癌物的怀疑(框2312)。例程2300然后可以在框2314继续，其在此框处结束。如果VAF在测试组中比在对照组中高，则例程2300在判定框2316处继续，其中例程2300确定突变是否是非单重态的。

如果突变是单重态的，则基因毒素模块用中等水平的致癌物怀疑来表征药剂(框2318)。如果突变被确定为非单重态(即多重态)，则例程在判定框2320继续，其中例程2300确定是否在靶基因处检测到变体，以及该变体是否与驱动突变(例如，已知驱动癌症生长/转化的突变)一致。

如果突变不是驱动突变，则基因毒素模块以对致癌物的中等水平怀疑来表征试剂(框2318)。如果变体与驱动突变一致，则基因毒素模块以对致癌物的高水平怀疑来表征药剂(框2322)。

对于已经被表征为中等水平怀疑(在框2318)或高水平怀疑(在框2318)的药剂，基因毒素模块可以评估致癌物的安全阈值和/或确定在受试者暴露后与发展基因毒素相关的疾病或障碍相关的风险(框2324)。例程2300然后可以在框2314继续，其在此框处结束。

本技术还考虑了其他步骤和例程。例如，该系统(例如，基因毒素模块或其他模块)可以被配置成分析基因毒素数据，以确定受试者是否暴露于基因毒素，测试药剂/因子是否为基因毒性的，确定基因毒素在何种特征下为致突变性或致癌性的等。其他步骤可以包含基于从特定受试者的生物样品获得的基因毒素数据来确定受试者是否应该进行预防性或治疗性治疗。例如，一旦使用系统识别出基因毒素，则服务器就可以确定受试者是否已经暴露于超过安全阈值水平的基因毒素。如果是，那么可以开始预防性或抑制性疾病治疗。

另外的示例

1.一种用于检测和定量在受试者暴露于诱变剂后在所述受试者中体内发展的基因组突变的方法，包括：

提供来自所述受试者的样品，其中所述样品包括双链DNA分子；

为所述样品中的多个双链DNA分子中的每一个生成错误校正的序列读数，包括：

生成衔接子-DNA分子的原始第一链的一组拷贝和衔接子-DNA分子的原始第二链的一组拷贝；

对所述原始第一链和第二链的拷贝组进行测序，以提供第一链序列和第二链序列；和

比较所述第一链序列和所述第二链序列，以识别所述第一链序列和第二链序列之间的一个或多个对应关系；和

分析所述一个或多个对应关系以确定所述样品中的所述双链DNA分子的突变谱。

2.根据实施例1所述的方法，进一步包括通过计算每个测序的双重碱基对的独特突变的数目来计算靶双链DNA分子的突变频率。

3.根据实施例1所述的方法，其中靶双链DNA分子是从所述受试者的肝、脾、血液、肺或骨髓中提取的。

4.根据实施例1所述的方法，其中在将所述靶双链DNA分子从所述受试者中移除之前，所述受试者被暴露于所述诱变剂30天或更短时间。

5.根据实施例1所述的方法，其中所述突变谱通过无监督的分级突变谱聚类来生成。

6.根据实施例1所述的方法，其中所述突变谱是三重态突变谱。

7.根据实施例1所述的方法，其中为多个双链DNA分子中的每一个生成错误校正的序列读数包含生成一个或多个靶基因组区域的错误校正的序列读数。

8.根据实施例7所述的方法，其中所述一个或多个靶基因组区域是基因组中的易突变位点。

9.根据实施例7所述的方法，其中一个或多个靶基因组区域是已知的癌症驱动基因。

10.根据实施例1所述的方法，其中所述受试者是转基因动物，并且其中至少一些所述靶双链DNA分子包含转基因的一个或多个部分。

11.根据实施例1所述的方法，其中所述受试者是非转基因动物，并且其中靶双链DNA分子包括内源性基因组区域。

12.根据实施例1所述的方法，其中所述受试者是人，并且其中靶双链DNA分子是从取自所述人的血液中提取的。

13.一种用于生成测试药剂的诱变标志的方法，包括：

对从暴露于所述测试药剂的测试受试者中提取的DNA片段进行双重测序；和

生成所述测试药剂的诱变标志，包括：

通过计算每个测序的双重碱基对的独特突变的数量来计算多个DNA片段的突变频率；和

确定所述多个DNA片段的突变的突变模式，其中所述突变模式包含突变的突变类型、突变三核苷酸环境和基因组分布。

14.根据实施例13所述的方法，进一步包括将所述测试药剂的突变标志与一种或多种已知的基因毒素的突变标志进行比较。

15.根据实施例13所述的方法，其中所述测试药剂的突变标志基于组织类型、对所述测试药剂的暴露水平、基因组区域和受试者类型中的一种或多种而变化。

16.根据实施例15所述的方法，其中所述受试者类型是在培养物中生长的人细胞。

17.根据实施例13所述的方法，其中在处死动物之前，将测试动物暴露于测试化合物30天或更短时间。

18.根据实施例13所述的方法，其中诱变标志通过计算模式匹配生成。

19.根据实施例13所述的方法，其中突变标志是三重态突变标志。

20.根据实施例13所述的方法，其中对DNA片段进行双重测序包含对一个或多个靶基因组区域进行双重测序。

21.根据实施例20所述的方法，其中所述一个或多个靶基因组区域是基因组中的易突变位点。

22.根据实施例20所述的方法，其中所述一个或多个靶基因组区域是已知的癌症驱动基因。

23.根据实施例13所述的方法，其中测试动物是转基因动物，并且其中至少一些所述DNA片段包含转基因的一个或多个部分。

24.根据实施例13所述的方法，其中测试动物是非转基因动物，并且其中所述DNA片段包括内源性基因组区域。

25.一种用于评估测试药剂的基因毒性潜力的方法，包括：

(a)从包括来自暴露于所述测试药剂的生物源的多个双链DNA片段的样品制备测序文库，其中制备序列文库包括将不对称的衔接子分子连接至所述多个双链DNA片段以生成多个衔接子-DNA分子；

(b)对所述衔接子-DNA分子的第一链和第二链进行测序，以提供每个衔接子-DNA分子的第一链序列读数和第二链序列读数；

(c)对于每个衔接子-DNA分子，比较所述第一链序列读数和所述第二链序列读数，以识别所述第一链序列读数和第二链序列读数之间的一个或多个对应关系；和

(d)通过分析每个衔接子-DNA分子的所述第一链序列读数和第二链序列读数之间的所述一个或多个对应关系来确定所述测试药剂的突变标志，以确定所述样品中突变的突变模式、突变类型、突变频率、突变类型分布和基因组分布中的至少一个；和

(e)将所述测试药剂的所述突变标志与来自已知基因毒素的多个突变谱进行比较，以确定所述突变标志是否与来自已知基因毒素的突变谱足够相似；或者

(f)评估所述突变频率、所述突变类型或所述突变类型分布中的至少一个是否高于安全阈值水平；或者

(g)确定所述突变频率是否超过安全阈值突变频率。

26.根据实施例25所述的方法，其中所述测试药剂的突变标志包括高于安全阈值频率的突变频率。

27.根据实施例25所述的方法，其中所述测试药剂的所述突变标志包括与已知癌症相关的突变模式足够相似的突变模式。

28.根据实施例25所述的方法，其中所述生物源是在培养物中生长的细胞、动物、人、人细胞系、转基因动物、非转基因动物、人组织样品或人血液样品中的至少一种。

29.根据实施例25所述的方法，其中在提取包括多个双链DNA片段的样品之前，将所述生物源暴露于所述测试药剂30天或更短时间。

30.根据实施例25所述的方法，其中所述突变标志是三重态突变标志。

31.根据实施例25所述的方法，其中在比较所述第一链序列读数和所述第二链序列读数之前，所述方法包括使用衔接子序列、序列读数长度和原始链信息中的一个或多个将所述第一链序列读数与所述第二链序列读数相关联。

32.根据实施例25所述的方法，其中在制备所述测序文库之前，所述方法进一步包括将所述生物源暴露于所述测试药剂。

33.根据实施例32所述的方法，其中在将所述生物源暴露于所述测试药剂之前，所述生物源是癌症组织或包括癌症组织。

34.根据实施例32所述的方法，其中在将所述生物源暴露于所述测试药剂之前，所述生物源是健康组织或包括健康组织。

35.根据实施例25所述的方法，其中所述样品是血液样品或包括血液样品。

36.根据实施例25所述的方法，其中所述样品是癌细胞系或包括癌细胞系。

37.根据实施例25所述的方法，其中所述生物源包括癌细胞，并且其中测试所述物质对所述癌细胞的至少一部分的选择性基因毒性。

38.根据实施例37所述的方法，其中所述物质是治疗性化合物。

39.根据实施例38所述的方法，其中对于显示出对所述治疗性化合物的选择性基因毒性敏感的所述癌细胞的所述部分，所述方法进一步包括在暴露于所述治疗性化合物之前确定所述癌细胞的所述部分的突变频率和突变谱中的一种或多种。

40.根据实施例25所述的方法，其中所述测试药剂包括食品、药物、疫苗、化妆品物质、工业添加剂、工业副产物、石油馏出物、重金属、家用清洁剂、空气传播的微粒、制造的副产物、污染物、增塑剂、洗涤剂、放射性产品、烟草产品、化学材料或生物材料。

41.一种用于确定受试者暴露于基因毒性药剂的方法，包括：

将受试者的DNA突变谱与已知诱变化合物的突变谱进行比较；和

识别与所述受试者的DNA突变谱最相似的已知诱变化合物的突变谱。

42.根据实施例41所述的方法，其中所述受试者的DNA突变谱通过双重测序来评估。

43.根据实施例41所述的方法，其中所述受试者的DNA突变谱是由从患者的血液中提取的DNA生成的。

44.根据实施例41所述的方法，其中所述受试者的DNA突变谱是三重态突变谱。

45.根据实施例41所述的方法，进一步包括对所述受试者的DNA进行测序以生成所述受试者的DNA突变谱。

46.根据实施例45所述的方法，其中对所述受试者的DNA进行测序包含对一个或多个已知的癌症驱动基因进行测序。

47.一种能够用于双链多核苷酸的错误校正的双重测序以识别基因毒素的试剂盒，所述试剂盒包括：

至少一组聚合酶链式反应(PCR)引物和至少一组衔接子分子，其中所述引物和衔接子分子能够用于错误校正的双重测序实验；和

关于使用所述试剂盒对从受试者的样品中提取的DNA进行错误校正的双重测序以识别所述受试者是否已经被暴露于至少一种基因毒素的方法的说明。

48.根据实施例47所述的试剂盒，其中试剂包括DNA修复酶。

49.根据实施例47所述的试剂盒，其中所述衔接子分子的组中的每个所述衔接子分子包括至少一个单分子标识符(SMI)序列和至少一个链定义元件。

50.根据实施例47所述的试剂盒，进一步包括包括在非暂时性计算机可读介质中的计算机程序产品，当在计算机上执行时，所述计算机程序产品执行以下步骤：确定样品中一个或多个双链DNA分子的错误校正的双重测序读数，以及使用所述错误校正的双重测序读数来确定至少一种基因毒素的突变频率、突变谱和/或三重态谱。

51.根据实施例50所述的试剂盒，其中所述计算机程序产品进一步确定基因毒素在使受试者的DNA突变中的作用机制；和基于基因毒素作用机制的适合于对所述受试者给药的治疗性或预防性治疗。

52.一种用于诊断和治疗暴露于基因毒素的受试者的方法，包括：

a)通过以下来确定受试者是否暴露于基因毒素：

i)从所述受试者获得生物样品；

ii)提供从所述样品中提取的多个双链DNA序列的双重错误校正的测序读数；

iii)确定所述DNA序列的突变频率、突变谱和/或三重态突变谱；

iv)确定突变频率、突变谱和/或三重态突变谱是否指示所述受试者已经被暴露于基因毒素；

b)如果所述受试者已经被暴露于基因毒素，则提供预防性和/或治疗性治疗以预防或抑制与基因毒素相关的疾病或障碍的发作。

53.一种用于识别对基因毒素的安全暴露的阈值水平并提供治疗的方法，包括：

a)确定基因毒素的安全暴露的阈值水平；

b)通过以下来确定受试者是否以高于所述安全暴露的阈值水平的水平被暴露于基因毒素：

i)从所述受试者获得生物样品；

ii)提供从所述生物样品中提取的多个双链DNA序列的双重错误校正的测序读数；

iv)确定突变频率、突变谱和/或三重态突变谱是否指示所述受试者已经被暴露于特定的基因毒素；

v)基于突变频率、突变谱和/或三重态突变谱来计算所述受试者暴露于基因毒素的水平；和

c)如果所述受试者已经被暴露于超过基因毒素的安全暴露的阈值水平，则提供预防性和/或治疗性治疗以预防或抑制与基因毒素相关的疾病或障碍的发作。

54.一种用于检测和识别由样品的基因毒性暴露引起的诱变事件和/或核酸损伤事件的系统，包括：

计算机网络，所述计算机网络用于传输与测序数据和基因毒性数据相关的信息，其中所述信息包含原始测序数据、双重测序数据、样品信息和基因毒素信息中的一种或多种；

客户端计算机，所述客户端计算机与一个或多个用户计算装置相关联并与所述计算机网络通信；

数据库，所述数据库连接至所述计算机网络，用于存储多个基因毒素概况和用户结果记录；

双重测序模块，所述双重测序模块与所述计算机网络通信并且被配置为从所述客户端计算机接收原始测序数据和请求，用于生成双重测序数据，对来自代表原始双链核酸分子的家族的序列读数进行分组，并将来自单个链的代表性序列相互比较以生成双重测序数据；和

基因毒素模块，所述基因毒素模块与所述计算机网络通信并且被配置为将双重测序数据与参考序列信息进行比较，以识别突变并生成包括突变频率、突变谱和三重态突变谱中的至少一种的基因毒素数据。

55.根据实施例54所述的系统，其中所述基因毒素概况包括来自多个已知基因毒素的基因毒素突变谱。

56.一种包括指令的非暂时性计算机可读存储介质，当由一个或多个处理器执行时，所述指令执行实施例1-53中任一个的方法，用于确定受试者是否暴露于至少一种基因毒素和/或确定至少一种基因毒素的身份。

57.根据实施例56所述的非暂时性计算机可读存储介质，进一步包括计算被检测的药剂的突变谱、突变频率和/或三重态突变谱，由此确定所述至少一种基因毒素的身份。

58.一种用于执行实施例1-53中任一个的方法的计算机系统，所述方法用于确定受试者是否暴露于至少一种基因毒素和/或至少一种基因毒素的身份，所述系统包括：至少一台计算机，其具有处理器、存储器、数据库和包括用于处理器的指令的非暂时性计算机可读存储介质，其中所述处理器被配置为执行所述指令以执行包括实施例1-53中任一个的方法的操作。

59.根据实施例58所述的系统，进一步包括联网计算机系统，包括：

a.有线或无线网络；

b.多个用户电子计算装置，其能够接收由使用试剂盒获得的数据，所述试剂盒包括提取、扩增和产生受试者的样品的多核苷酸序列的试剂，并且能够通过网络将所述多核苷酸序列传输到远程服务器；和

c.远程服务器，包括处理器、存储器、数据库和包括用于处理器的指令的非暂时性计算机可读存储介质，其中所述处理器被配置为执行所述指令以执行包括实施例1-53中任一个的方法的操作；和

d.其中所述远程服务器能够检测和识别由样品的基因毒性暴露导致的诱变事件和/或核酸损伤事件。

60.根据实施例59所述的系统，其中所述数据库和/或可通过网络访问的第三方数据库进一步包括多个记录，所述记录包括已知基因毒素的基因毒素概况、至少一个受试者的样品的基因毒素概况中的一个或多个，并且其中所述基因毒素概况包括突变或DNA损伤的位点。

61.一种非暂时性计算机可读介质，其内容使至少一台计算机执行一种用于提供来自基因毒性筛选测定的样品中的双链核酸分子的双重测序数据的方法，所述方法包括：

从用户计算装置接收原始序列数据；和

创建样品特异性数据集，所述数据集包括从所述样品中的多个核酸分子获得的多个原始序列读数；

对来自代表原始双链核酸分子的家族的序列读数进行分组，其中分组基于共享的单分子标识符序列；

比较来自原始双链核酸分子的第一链序列读数和第二链序列读数，以识别所述第一链序列读数和第二链序列读数之间的一个或多个对应关系；和

提供所述样品中的双链核酸分子的双重测序数据。

62.根据实施例58所述的计算机可读介质，进一步包括识别比较的第一序列读数和第二序列读数之间的非互补性的核苷酸位置，其中所述方法进一步包括：

在非互补性的位置中，识别并消除或忽略过程错误；和

在不被识别为过程错误的非互补性的位置中，将剩余的非互补性的位置识别为由于暴露于基因毒素而可能导致体内DNA损伤的位点。

63.一种非暂时性计算机可读介质，其内容使至少一台计算机执行一种用于检测和识别由样品的基因毒性暴露导致的诱变事件的方法，所述方法包括：

将双重序列数据与参考序列信息进行比较；

识别所述双重序列数据中的突变，其中突变被识别为与参考信息不一致的区域；

确定所述双重序列数据中的突变频率；

从所述双重序列数据生成突变谱；

从所述双重序列数据生成三重态突变谱；和

将所述突变谱和/或所述三重态突变谱与多个已知的基因毒素数据集进行比较。

64.一种非暂时性计算机可读介质，其内容使至少一台计算机执行用于检测和识别受试者中的致癌物或致癌物暴露的方法，所述方法包括：使用从来自受试者的样品中生成的双重测序数据来识别靶基因组区域中的序列变体；

计算测试样品和对照样品的变体等位基因频率(VAF)；

确定VAF在测试组中是否比在对照组中高；

在具有较高的VAF的样品中，确定序列变体是否是非单重态的；

在具有较高的VAF的样品中，确定所述序列变体是否是驱动突变；和

将具有非单重态和/或驱动突变的样品表征为对致癌物是可疑的。

65.根据实施例68所述的非暂时性计算机可读介质，进一步包括评估致癌物的安全阈值和/或确定在受试者中暴露后与发展基因毒素相关的疾病或障碍相关的风险。

参考文献

下面列出的参考文献，以及在上面说明书中引用的专利和公开的专利申请，以其整体通过引入在此被并入，如同在本文中完全阐述一样。

[1]Schmitt MW,Kennedy SR,Salk JJ,Fox EJ,Hiatt JB,and LoebLA.Detection of ultra-rare mutations by next-generation sequencing.Proc NatlAcad Sci U S A.2012；109(36):14508-14513.

[2]Kennedy SR,Salk JJ,Schmitt MW,Loeb LA.Ultra-Sensitive SequencingReveals an Age-Related Increase in Somatic Mitochondrial Mutations that areinconsistent with oxidative damage.PLOS Genetics.2013；9(9):1-10.

[3]Kennedy SR,Schmitt MW,Fox EJ,Kohm BF,Salk JJ,Ahn EH,etal.Detecting ultralow-frequency mutations by Duplex Sequencing.NatProtoc.2014；9(11):2586-2606.

[4]Schmitt MW,Fox EJ,Prindle MJ,Reid-Bayliss KS,True LD,etal.Sequencing small genomic targets with high efficiency and extremeaccuracy.Nature Methods.2015；12(5):423-5.

[5]Chan CY,Huang PH,Guo F,Ding X,Kapur V,Mai J D,et al.Acceleratingdrag discovery via organs-on-chips.Lab Chip.2013；12(24)：4697-4710.

[6]Schmitt MW,Loeb LA,and Salk JJ.The influence of subclonalresistance mutations on targeted cancer therapy.Nat Rev Clin Oncol.2016；13(6):335-347.

[7]Salk JJ,Schmitt MW,Loeb L A.Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations.NatureReviews Genetics.2018.19:269-283.

结论

对本技术的实施例的上述详细描述并不旨在穷举或将本技术限制为上述公开的精确形式。尽管以上出于说明的目的描述了该技术的具体实施例和示例，但是如相关领域的技术人员将认识到的，在该技术的范围内，各种等同的修改是可能的。例如，虽然步骤以给定的顺序呈现，但是替代的实施例可以以不同的顺序执行步骤。本文描述的各种实施例也可以被组合以提供进一步的实施例。本文引用的所有参考文献都通过引用被并入，如同在本文中完全阐述一样。

根据前述内容，将理解，本文为了说明的目的已经描述了该技术的特定实施例，但是没有详细地示出或描述公知的结构和功能，以避免不必要地模糊对该技术的实施例的描述。在上下文允许的情况下，单数或复数术语也可以分别包含复数或单数术语。

此外，除非单词“或”被明确地限制为仅指相对于两个或更多项目的列表而言与其他项目相排斥的单个项目，否则在这样的列表中使用“或”将被解释为包含(a)列表中的任何单个项目，(b)列表中的所有项目，或者(c)列表中的项目的任何组合。此外，术语“包括”在全文中用于表示至少包含所陈述的特征，使得不排除任何更多数量的相同特征和/或附加类型的其他特征。还应当理解，为了说明的目的，本文已经描述了具体实施例，但是在不偏离本技术的情况下，可以进行各种修改。此外，虽然已经在那些实施例的上下文中描述了与该技术的某些实施例相关联的优点，但是其他实施例也可以展示这样的优点，并且并非所有实施例都需要展示这样的优点以落入该技术的范围内。因此，本公开和相关的技术可以包含本文没有明确地示出或描述的其他实施例。

本公开中使用的产品名称仅用于识别目的。所有商标都是它们相应的所有者的财产。

Claims

2.根据权利要求1所述的方法，进一步包括通过计算每个测序的双重碱基对的独特突变的数目来计算靶双链DNA分子的突变频率。

3.根据权利要求1所述的方法，其中靶双链DNA分子是从所述受试者的肝、脾、血液、肺或骨髓中提取的。

4.根据权利要求1所述的方法，其中在将靶双链DNA分子从所述受试者中移除之前，所述受试者被暴露于所述诱变剂30天或更短时间。

5.根据权利要求1所述的方法，其中所述突变谱通过无监督的分级突变谱聚类生成。

6.根据权利要求1所述的方法，其中所述突变谱是三重态突变谱。

7.根据权利要求1所述的方法，其中为多个双链DNA分子中的每一个生成错误校正的序列读数包含生成一个或多个靶基因组区域的错误校正的序列读数。

8.根据权利要求7所述的方法，其中所述一个或多个靶基因组区域是基因组中的易突变位点。

9.根据权利要求7所述的方法，其中所述一个或多个靶基因组区域是已知的癌症驱动基因。

10.根据权利要求1所述的方法，其中所述受试者是转基因动物，并且其中至少一些靶双链DNA分子包含转基因的一个或多个部分。

11.根据权利要求1所述的方法，其中所述受试者是非转基因动物，并且其中靶双链DNA分子包含内源性基因组区域。

12.根据权利要求1所述的方法，其中所述受试者是人，并且其中靶双链DNA分子是从取自所述人的血液中提取的。

13.一种用于生成测试药剂的诱变标志的方法，包括：

生成所述测试药剂的诱变标志，包括：

14.根据权利要求13所述的方法，进一步包括将所述测试药剂的突变标志与一种或多种已知的基因毒素的突变标志进行比较。

15.根据权利要求13所述的方法，其中所述测试药剂的突变标志基于组织类型、对所述测试药剂的暴露水平、基因组区域和受试者类型中的一种或多种而变化。

16.根据权利要求15所述的方法，其中所述受试者类型是在培养物中生长的人细胞。

17.根据权利要求13所述的方法，其中在处死动物之前，将测试动物暴露于测试化合物30天或更短时间。

18.根据权利要求13所述的方法，其中所述诱变标志通过计算模式匹配来生成。

19.根据权利要求13所述的方法，其中突变标志是三重态突变标志。

20.根据权利要求13所述的方法，其中对DNA片段进行双重测序包含对一个或多个靶基因组区域进行双重测序。

21.根据权利要求20所述的方法，其中所述一个或多个靶基因组区域是基因组中的易突变位点。

22.根据权利要求20所述的方法，其中所述一个或多个靶基因组区域是已知的癌症驱动基因。

23.根据权利要求13所述的方法，其中测试动物是转基因动物，并且其中至少一些所述DNA片段包含转基因的一个或多个部分。

24.根据权利要求13所述的方法，其中所述测试动物是非转基因动物，并且其中所述DNA片段包括内源性基因组区域。

25.一种用于评估测试药剂的基因毒性潜力的方法，包括：

(g)确定所述突变频率是否超过安全阈值突变频率。

26.根据权利要求25所述的方法，其中所述测试药剂的突变标志包括高于安全阈值频率的突变频率。

27.根据权利要求25所述的方法，其中所述测试药剂的所述突变标志包括与已知癌症相关的突变模式足够相似的突变模式。

28.根据权利要求25所述的方法，其中所述生物源是在培养物中生长的细胞、动物、人、人细胞系、转基因动物、非转基因动物、人组织样品或人血液样品中的至少一种。

29.根据权利要求25所述的方法，其中在提取包括多个双链DNA片段的样品之前，将所述生物源暴露于所述测试药剂30天或更短时间。

30.根据权利要求25所述的方法，其中所述突变标志是三重态突变标志。

31.根据权利要求25所述的方法，其中在比较所述第一链序列读数和所述第二链序列读数之前，所述方法包括使用衔接子序列、序列读数长度和原始链信息中的一个或多个将所述第一链序列读数与所述第二链序列读数相关联。

32.根据权利要求25所述的方法，其中在制备所述测序文库之前，所述方法进一步包括将所述生物源暴露于所述测试药剂。

33.根据权利要求32所述的方法，其中在将所述生物源暴露于所述测试药剂之前，所述生物源是癌症组织或包括癌症组织。

34.根据权利要求32所述的方法，其中在将所述生物源暴露于所述测试药剂之前，所述生物源是健康组织或包括健康组织。

35.根据权利要求25所述的方法，其中所述样品是血液样品或包括血液样品。

36.根据权利要求25所述的方法，其中所述样品是癌细胞系或包括癌细胞系。

37.根据权利要求25所述的方法，其中所述生物源包括癌细胞，并且其中测试所述物质对所述癌细胞的至少一部分的选择性基因毒性。

38.根据权利要求37所述的方法，其中所述物质是治疗性化合物。

39.根据权利要求38所述的方法，其中对于显示出对所述治疗性化合物的选择性基因毒性敏感的所述癌细胞的所述部分，所述方法进一步包括在暴露于所述治疗性化合物之前确定所述癌细胞的所述部分的突变频率和突变谱中的一种或多种。

40.根据权利要求25所述的方法，其中所述测试药剂包括食品、药物、疫苗、化妆品物质、工业添加剂、工业副产物、石油馏出物、重金属、家用清洁剂、空气传播的微粒、制造的副产物、污染物、增塑剂、洗涤剂、放射性产品、烟草产品、化学材料或生物材料。

41.一种用于确定受试者暴露于基因毒性药剂的方法，包括：

42.根据权利要求41所述的方法，其中所述受试者的DNA突变谱通过双重测序来评估。

43.根据权利要求41所述的方法，其中所述受试者的DNA突变谱由从患者的血液中提取的DNA生成。

44.根据权利要求41所述的方法，其中所述受试者的DNA突变谱是三重态突变谱。

45.根据权利要求41所述的方法，进一步包括对所述受试者的DNA进行测序以生成所述受试者的DNA突变谱。

46.根据权利要求45所述的方法，其中对所述受试者的DNA进行测序包含对一个或多个已知的癌症驱动基因进行测序。

48.根据权利要求47所述的试剂盒，其中试剂包括DNA修复酶。

49.根据权利要求47所述的试剂盒，其中所述衔接子分子的组中的每个所述衔接子分子包括至少一个单分子标识符(SMI)序列和至少一个链定义元件。

50.根据权利要求47所述的试剂盒，进一步包括嵌入在非暂时性计算机可读介质中的计算机程序产品，当在计算机上执行时，所述计算机程序产品执行以下步骤：确定样品中一个或多个双链DNA分子的错误校正的双重测序读数，以及使用所述错误校正的双重测序读数来确定至少一种基因毒素的突变频率、突变谱和/或三重态谱。

51.根据权利要求50所述的试剂盒，其中所述计算机程序产品进一步确定基因毒素在使受试者的DNA突变中的作用机制；和基于基因毒素作用机制的适合于对所述受试者给药的治疗性或预防性治疗。

a)通过以下来确定受试者是否暴露于基因毒素：

i)从所述受试者获得生物样品；

a)确定基因毒素的安全暴露的阈值水平；

i)从所述受试者获得生物样品；

55.根据权利要求54所述的系统，其中所述基因毒素概况包括来自多个已知基因毒素的基因毒素突变谱。

56.一种包括指令的非暂时性计算机可读存储介质，当由一个或多个处理器执行时，所述指令执行权利要求1-53中任一项所述的方法，用于确定受试者是否暴露于至少一种基因毒素和/或确定至少一种基因毒素的身份。

57.根据权利要求56所述的非暂时性计算机可读存储介质，进一步包括计算被检测的药剂的突变谱、突变频率和/或三重态突变谱，由此确定所述至少一种基因毒素的身份。

58.一种用于执行权利要求1-53中任一项所述的方法的计算机系统，所述方法用于确定受试者是否暴露于至少一种基因毒素和/或至少一种基因毒素的身份，所述系统包括：至少一台计算机，其具有处理器、存储器、数据库和包括用于所述处理器的指令的非暂时性计算机可读存储介质，其中所述处理器被配置为执行所述指令以执行包括权利要求1-53中任一项所述的方法的操作。

59.根据权利要求58所述的系统，进一步包括联网计算机系统，包括：

a.有线或无线网络；

c.远程服务器，包括处理器、存储器、数据库和包括用于处理器的指令的非暂时性计算机可读存储介质，其中所述处理器被配置为执行所述指令以执行包括权利要求1-53中任一项所述的方法的操作；和

60.根据权利要求59所述的系统，其中所述数据库和/或可通过网络访问的第三方数据库进一步包括多个记录，所述记录包括已知基因毒素的基因毒素概况、至少一个受试者的样品的基因毒素概况中的一个或多个，并且其中所述基因毒素概况包括突变或DNA损伤的位点。

从用户计算装置接收原始序列数据；和

提供所述样品中的双链核酸分子的双重测序数据。

62.根据权利要求58所述的计算机可读介质，进一步包括识别比较的第一序列读数和第二序列读数之间的非互补性的核苷酸位置，其中所述方法进一步包括：

在非互补性的位置中，识别并消除或忽略过程错误；和

将双重序列数据与参考序列信息进行比较；

确定所述双重序列数据中的突变频率；

从所述双重序列数据生成突变谱；

从所述双重序列数据生成三重态突变谱；和

64.一种非暂时性计算机可读介质，其内容使至少一台计算机执行用于检测和识别受试者中的致癌物或致癌物暴露的方法，所述方法包括：

使用由来自所述受试者的样品中生成的双重测序数据来识别靶基因组区域中的序列变体；

计算测试样品和对照样品的变体等位基因频率(VAF)；

确定VAF在测试组中是否比在对照组中高；

65.根据权利要求68所述的非暂时性计算机可读介质，进一步包括评估致癌物的安全阈值和/或确定在所述受试者中暴露后与发展基因毒素相关的疾病或障碍相关的风险。