CN115427587A

CN115427587A - 碱基的甲基化度的计算方法及程序

Info

Publication number: CN115427587A
Application number: CN202080098492.6A
Authority: CN
Inventors: 山口奈央子; 胁田舞子
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2020-03-25
Filing date: 2020-11-10
Publication date: 2022-12-02
Also published as: EP4130289A4; JP7362901B2; JPWO2021192395A1; WO2021192395A1; US20230054019A1; EP4130289A1

Abstract

一种碱基的甲基化度的计算方法以及程序，所述碱基的甲基化度的计算方法根据DNA的序列分析数据来计算碱基的甲基化度，所述方法包括在利用共甲基化位点、利用配对末端读长、利用分子条形码或利用多个序列分析数据时，根据序列分析数据的品质信息来校正读长的步骤，所述程序用于使计算机执行碱基的甲基化度的计算方法。

Description

碱基的甲基化度的计算方法及程序

技术领域

本发明涉及一种根据DNA的序列分析数据来计算碱基的甲基化度的方法及程序。

背景技术

存在甲基附加到构成DNA的碱基的碳原子，碱基被甲基化的现象。已知碱基的甲基化作为基因表达的控制因素发挥作用，作为对阐明生命现象的机理或疾病的诊断有用的信息而受到关注。

DNA中的碱基的甲基化度的测量方法有几种，代表性的一种是使用读取核酸的碱基序列的装置即测序仪的方法。例如，有组合了亚硫酸氢盐处理、基于PCR(polymerasechain reaction：聚合酶链式反应)和测序仪的序列分析的方法(即亚硫酸氢盐测序法)。当用亚硫酸氢盐(Bisulfite)处理DNA时，非甲基化胞嘧啶转化为尿嘧啶，另一方面，甲基化胞嘧啶作为胞嘧啶残留。即，通过亚硫酸氢盐处理，胞嘧啶的甲基化状态(未被甲基化，或被甲基化)转换为其位置的序列信息(尿嘧啶或胞嘧啶)。接着，通过PCR进行DNA片段的扩增。在该过程中，尿嘧啶转化为胸腺嘧啶。接着，使用测序仪分析扩增产物的序列。通过确定分析对象的位置的碱基是胸腺嘧啶还是胞嘧啶，能够知道DNA中的目标位置的胞嘧啶的甲基化状态。

例如，在日本特表2007-502126号公报及日本特表2005-514035号公报中公开了改变亚硫酸氢盐测序法的碱基的甲基化的检测方法。

发明内容

发明要解决的技术课题

根据亚硫酸氢盐测序法，理论上能够在0～100％的范围内定量DNA中的任意位置的胞嘧啶的甲基化度。然而，实际上，由于亚硫酸氢盐处理时的碱基的转换错误、PCR的扩增错误、测序仪的读取错误等，定量性的准确性有限制。

本发明的实施方式是鉴于上述情况而完成的。

本发明的课题在于，提供一种根据DNA的序列分析数据更准确地计算碱基的甲基化度的方法及程序。

用于解决技术课题的手段

用于解决上述课题的具体的方案包括下述方式。

＜1＞一种碱基的甲基化度的计算方法，其计算具有共甲基化位点的DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

获取使用测序仪对具有共甲基化位点的DNA进行序列分析而获得的序列分析数据；

根据序列分析数据中包含的品质信息来校正读长(reads)中的共甲基化位点的碱基；及

根据校正后的读长计算目标位置的碱基的甲基化度。

＜2＞一种碱基的甲基化度的计算方法，其计算具有共甲基化位点的DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据序列分析数据中包含的品质信息来校正读长，而且去除在共甲基化位点之间碱基不一致的读长；

根据剩余的读长计算目标位置的碱基的甲基化度。

＜3＞一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

获取使用下一代测序仪通过配对末端法对DNA进行序列分析而获得的序列分析数据；

根据序列分析数据中包含的品质信息来校正配对末端读长；及

根据校正后的读长计算目标位置的碱基的甲基化度。

＜4＞一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据序列分析数据中包含的品质信息来校正读长，而且去除在配对末端读长之间目标位置的碱基不一致的配对末端读长；及

根据剩余的读长计算目标位置的碱基的甲基化度。

＜5＞一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

获取使用测序仪对附加有分子条形码的DNA进行序列分析而获得的序列分析数据；

根据序列分析数据中包含的品质信息来校正读长；

将校正后的读长分为分子条形码相同的读长组；

在各读长组中确定在目标位置上最频出的碱基；及

根据最频出的碱基的集合来计算目标位置的碱基的甲基化度。

＜6＞一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据序列分析数据中包含的品质信息来校正读长；

将校正后的读长分为分子条形码相同的读长组，而且在各读长组中去除包含目标位置的区域的序列没有同一性的读长，获得分子条形码相同且包含目标位置的区域的序列相同的读长组；

在分子条形码相同且包含目标位置的区域的序列相同的各读长组中确定目标位置的碱基；及

根据确定的碱基的集合来计算目标位置的碱基的甲基化度。

＜7＞一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

获取使用测序仪对DNA进行多次序列分析而获得的多个序列分析数据；

对每次的序列分析数据，根据序列分析数据中包含的品质信息来校正读长，根据校正后的读长计算目标位置的碱基的甲基化度；及

根据所有次的甲基化度的集合来计算代表值，将代表值作为目标位置的碱基的甲基化度。

＜8＞根据＜7＞所述的碱基的甲基化度的计算方法，其中，在所有次的甲基化度的集合为相互存在偏差及包含特异性地大或小的甲基化度中的一者或两者时，计算出代表值及目标位置的碱基的甲基化度为无法计算。

＜9＞一种碱基的甲基化度的计算方法，其将选自由＜1＞所述的碱基的甲基化度的计算方法、＜2＞所述的碱基的甲基化度的计算方法、＜3＞所述的碱基的甲基化度的计算方法、＜4＞所述的碱基的甲基化度的计算方法、＜5＞所述的碱基的甲基化度的计算方法、＜6＞所述的碱基的甲基化度的计算方法、＜7＞所述的碱基的甲基化度的计算方法及＜8＞所述的碱基的甲基化度的计算方法组成的组中的2个以上组合来进行。

＜10＞一种程序，其用于使计算机执行＜1＞至＜9＞中任一项所述的碱基的甲基化度的计算方法。

＜10’＞一种计算机，其通过程序来工作，所述程序用于使计算机执行＜1＞至＜9＞中任一项所述的碱基的甲基化度的计算方法。

＜11＞一种程序，其计算具有共甲基化位点的DNA中的目标位置的碱基的甲基化度，所述程序用于使计算机执行如下阶段：

获取使用测序仪对具有共甲基化位点的DNA进行序列分析而获得的序列分析数据的阶段；

根据序列分析数据中包含的品质信息来校正读长中的共甲基化位点的碱基的阶段；及

根据校正后的读长计算目标位置的碱基的甲基化度的阶段。

＜12＞一种程序，其计算具有共甲基化位点的DNA中的目标位置的碱基的甲基化度，所述程序用于使计算机执行如下阶段：

根据序列分析数据中包含的品质信息来校正读长，而且去除在共甲基化位点之间碱基不一致的读长的阶段；及

根据剩余的读长计算目标位置的碱基的甲基化的阶段。

＜13＞一种程序，其计算DNA中的目标位置的碱基的甲基化度，所述程序用于使计算机执行如下阶段：

获取使用下一代测序仪通过配对末端法对DNA进行序列分析而获得的序列分析数据的阶段；

根据序列分析数据中包含的品质信息来校正配对末端读长的阶段；及

根据校正后的读长计算目标位置的碱基的甲基化度的阶段。

＜14＞一种程序，其计算DNA中的目标位置的碱基的甲基化度，所述程序用于使计算机执行如下阶段：

根据序列分析数据中包含的品质信息来校正读长，而且去除在配对末端读长之间目标位置的碱基不一致的配对末端读长的阶段；及

根据剩余的读长计算目标位置的碱基的甲基化的阶段。

＜15＞一种程序，其计算DNA中的目标位置的碱基的甲基化度，所述程序用于使计算机执行如下阶段：

获取使用测序仪对附加有分子条形码的DNA进行序列分析而获得的序列分析数据的阶段；

根据序列分析数据中包含的品质信息来校正读长的阶段；

将校正后的读长分为分子条形码相同的读长组的阶段；

在各读长组中确定在目标位置上最频出的碱基的阶段；及

根据最频出的碱基的集合来计算目标位置的碱基的甲基化度的阶段。

＜16＞一种程序，其计算DNA中的目标位置的碱基的甲基化度，所述程序用于使计算机执行如下阶段：

根据序列分析数据中包含的品质信息来校正读长的阶段；

将校正后的读长分为分子条形码相同的读长组，而且在各读长组中去除包含目标位置的区域的序列没有同一性的读长，获得分子条形码相同且包含目标位置的区域的序列相同的读长组的阶段；

在分子条形码相同且包含目标位置的区域的序列相同的各读长组中确定目标位置的碱基的阶段；及

根据确定的碱基的集合来计算目标位置的碱基的甲基化度的阶段。

＜17＞一种程序，其计算DNA中的目标位置的碱基的甲基化度，所述程序用于使计算机执行如下阶段：

获取使用测序仪对DNA进行多次序列分析而获得的多个序列分析数据的阶段；

对每次的序列分析数据，根据序列分析数据中包含的品质信息来校正读长，根据校正后的读长计算目标位置的碱基的甲基化度的阶段；及

根据所有次的甲基化度的集合来计算代表值，将代表值作为目标位置的碱基的甲基化度的阶段。

＜18＞根据＜17＞所述的程序，其中，在所有次的甲基化度的集合为相互存在偏差及包含特异性地大或小的甲基化度中的一者或两者时，计算出代表值及目标位置的碱基的甲基化度为无法计算。

＜19＞一种程序，用于使计算机执行组合选自由＜11＞所述的程序、＜12＞所述的程序、＜13＞所述的程序、＜14＞所述的程序、＜15＞所述的程序、＜16＞所述的程序、＜17＞所述的程序及＜18＞所述的程序组成的组中的2个以上的程序。

＜20＞一种计算机，其通过＜11＞至＜19＞中任一项所述的程序来工作。

发明效果

根据本发明，提供一种根据DNA的序列分析数据更准确地计算碱基的甲基化度的方法及程序。

附图说明

图1是说明实施方式1-1的流程的流程图。

图2是说明实施方式1-2的流程的流程图。

图3是说明实施方式2-1的流程的流程图。

图4是说明实施方式2-2的流程的流程图。

图5是说明实施方式3-1的流程的流程图。

图6是说明实施方式3-2的流程的流程图。

图7是说明实施方式4-1的流程的流程图。

图8是计算机的硬件结构图。

具体实施方式

以下，对本发明的实施方式进行说明。这些说明及实施例例示实施方式，并不限制实施方式的范围。

在本发明中，使用“～”表示的数值范围表示将记载于“～”前后的数值分别作为最小值及最大值而包含的范围。

在本发明中使用的术语的含义如下。

DNA中的目标位置表示通过本发明的方法及程序计算甲基化度的对象位置。DNA中的目标位置是任意的。

碱基的甲基化度是根据DNA片段的集合计算的值，对DNA中的每个碱基计算。某一碱基的甲基化度是{某一碱基被甲基化的DNA片段数/(某一碱基被甲基化的DNA片段数+某一碱基未被甲基化的DNA片段数)}，用百分率(％)表示。

序列分析数据包含各读长的碱基序列、读长之间的序列的同一性、序列分析的品质信息等由测序仪输出的关于序列分析的全部信息。品质信息是包含1次测序处理的序列的准确度、各个读长的序列的准确度及各位置的碱基的准确度的至少一个的信息。

测序仪是包括第一代测序仪(毛细管测序仪)、第二代测序仪(下一代测序仪)、第三代测序仪、第四代测序仪及今后将要开发的测序仪的术语。只要没有特别说明，测序仪可以是毛细管测序仪，也可以是下一代测序仪，也可以是其他测序仪。作为测序仪，从分析速度、能够1次处理的大量试样数等观点出发，优选为下一代测序仪。下一代测序仪(nextgeneration sequencer，NGS)是指与利用桑格法的毛细管测序仪(称为第一代测序仪。)进行对比分类的测序仪。目前最普及的下一代测序仪是捕捉与DNA聚合酶的互补链合成或DNA连接酶的互补链结合联动的荧光或发光而确定碱基序列的原理的测序仪。具体而言，可举出MiSeq(Illumina,Inc.)、HiSeq2000(Illumina,Inc.，HiSeq是注册商标)、Roche454(Roche company)等。

读长是指测序仪进行读取处理的碱基序列的单位。

根据序列分析数据中包含的品质信息来校正读长。读长的校正包括序列的准确度绝对或相对低的读长的排除、序列的准确度绝对或相对高的读长的选择、及各个碱基的修正(例如，用存在的准确度高的碱基替换存在的准确度低的碱基)的至少任一个。

共甲基化位点是指在推测位于DNA上的不同的位置的2个以上的甲基化位点为相同的甲基化状态(均被甲基化、或均未被甲基化)的情况下，这2个以上的甲基化位点。

共甲基化位点例如是将1个或多个碱基夹在中间而相邻的2个CpG部位(胞嘧啶之后出现鸟嘌呤的2个碱基序列)。

配对末端法是指分别从核酸的两端读取碱基序列的方法。

配对末端读长表示从一个碱基序列的两端分别读取的读长对。

分子条形码是为了将作为测量对象的多个核酸相互区分而附加的、序列相互不同的合成核酸。若在扩增前对作为测量对象的核酸附加固有的分子条形码，则能够鉴定来自作为测量对象的核酸的扩增产物。

本发明公开一种获取使用测序仪对DNA进行序列分析而获得的序列分析数据，并根据序列分析数据计算DNA中的目标位置的碱基的甲基化度的方法及程序。作为位于目标位置的碱基，可举出胞嘧啶、腺嘌呤。

对于使用测序仪的DNA的序列分析，在位于目标位置的碱基为胞嘧啶的情况下，优选为亚硫酸氢盐测序法。亚硫酸氢盐测序法的某一实施方式例包括对DNA进行亚硫酸氢盐处理、使用引物对进行PCR、使用测序仪进行扩增产物的序列分析。

本发明作为计算碱基的甲基化度的方法及程序，公开了第一实施方式、第二实施方式、第三实施方式及第四实施方式。以下，参考图1～图7所示的流程图，对各实施方式进行说明。

＜第一实施方式：利用共甲基化位点的实施方式＞

第一实施方式是根据对具有共甲基化位点的DNA进行序列分析而获得的序列分析数据来计算DNA中的目标位置的碱基的甲基化度的方法。第一实施方式是在分析对象的DNA中存在共甲基化位点，目标位置的碱基构成共甲基化位点的情况下能够实施的方式。

DNA中的共甲基化位点能够通过共甲基化位点的列表或搜索算法来鉴定。第一实施方式还可以包括通过共甲基化位点的列表或搜索算法鉴定作为分析对象的DNA中的共甲基化位点的步骤。

能够通过从现有的基因数据库获得甲基化位点的信息来构建共甲基化位点的列表。共甲基化位点的搜索算法例如是搜索将1个以上且10个以下的碱基夹在中间而相邻的2个CpG部位的算法。

第一实施方式在利用共甲基化位点时，通过根据序列分析数据的品质信息来校正读长，提高碱基的甲基化度的准确性。第一实施方式根据利用共甲基化位点的方法分为2种方式(称为实施方式1-1及实施方式1-2。)。

[实施方式1-1]

图1是说明实施方式1-1的流程的流程图。实施方式1-1包括S111所示的阶段、S112所示的阶段及S113所示的阶段。

在DNA中的共甲基化位点预计为相同的甲基化状态(均被甲基化、或均未被甲基化)时，在读长中的共甲基化位点的C/T序列不同的情况下，推测为共甲基化位点的至少一个碱基中产生了测量错误(例如，亚硫酸氢盐处理时的碱基的转换错误、PCR的扩增错误、测序仪的读取错误)。实施方式1-1在S112所示的阶段进行上述测量错误的校正。

以下，对各阶段进行说明。

在S111所示的阶段中，获取使用测序仪对具有共甲基化位点的DNA进行序列分析而获得的序列分析数据。然后，进入S112所示的阶段。

在S112所示的阶段中，根据序列分析数据中包含的品质信息来校正读长中的共甲基化位点的碱基。具体而言，优选进行用读长中的共甲基化位点中的C/T序列的可靠性高的位点的碱基替换C/T序列的可靠性低的位点的碱基的校正。在读长中的共甲基化位点之间C/T序列不同的情况下，在S112所示的阶段中，读长中的共甲基化位点之间的C/T序列被替换为相同的序列。

接着，在S113所示的阶段中，根据校正后的读长计算目标位置的碱基的甲基化度。由于根据目标位置的碱基的准确度增加的读长的集合来计算甲基化度，因此碱基的甲基化度的准确性提高。

[实施方式1-2]

图2是说明实施方式1-2的流程的流程图。实施方式1-2包括S121所示的阶段、S122所示的阶段及S123所示的阶段。

在DNA中的共甲基化位点预计为相同的甲基化状态(均被甲基化、或均未被甲基化)时，在读长中的共甲基化位点的C/T序列不同的情况下，推测为共甲基化位点的至少一个碱基中产生了测量错误(例如，亚硫酸氢盐处理时的碱基的转换错误、PCR的扩增错误、测序仪的读取错误)。实施方式1-2在S122所示的阶段进行上述测量错误的校正。

以下，对各阶段进行说明。

在S121所示的阶段中，获取使用测序仪对具有共甲基化位点的DNA进行序列分析而获得的序列分析数据。然后，进入S122所示的阶段。

在S122所示的阶段中，根据序列分析数据中包含的品质信息来校正读长，而且去除在共甲基化位点之间碱基不一致的读长。读长的校正优选为读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对低的读长的排除、或读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对高的读长的选择。接着，去除在共甲基化位点之间碱基不一致的读长。在S122所示的阶段中，原始读长被缩减，形成序列的可靠性高的读长的集团。

接着，在S123所示的阶段中，根据剩余的读长计算目标位置的碱基的甲基化度。由于根据序列的可靠性高的读长的集合来计算甲基化度，因此碱基的甲基化度的准确性提高。

＜第二实施方式：利用配对末端读长的实施方式＞

第二实施方式是根据使用下一代测序仪通过配对末端法对DNA进行序列分析而获得的序列分析数据来计算DNA中的目标位置的碱基的甲基化度的方法。第二实施方式在利用配对末端读长时，通过根据序列分析数据的品质信息来校正读长，提高碱基的甲基化度的准确性。第二实施方式根据利用配对末端读长的方法分为2种方式(称为实施方式2-1及实施方式2-2。)。

[实施方式2-1]

图3是说明实施方式2-1的流程的流程图。实施方式2-1包括S211所示的阶段、S212所示的阶段及S213所示的阶段。

在构成一个配对末端读长的读长对预计为相同的序列时，在配对末端读长之间的序列不同的情况下，推测为在配对末端读长的至少一个读长中发生了测序仪的读取错误。实施方式2-1在S212所示的阶段进行上述测量错误的校正。

以下，对各阶段进行说明。

在S211所示的阶段中，获取使用下一代测序仪通过配对末端法对DNA进行序列分析而获得的序列分析数据。然后，进入S212所示的阶段。

在S212所示的阶段中，根据序列分析数据中包含的品质信息来校正配对末端读长。读长的校正优选选择目标位置的碱基的准确度绝对或相对高的读长，并将该读长作为配对末端读长的代表。在配对末端读长之间的序列不同的情况下，在S212所示的阶段中，读长的序列修正为目标位置。

接着，在S213所示的阶段中，根据校正后的读长计算目标位置的碱基的甲基化度。由于根据目标位置的碱基的准确度增加的读长的集合来计算甲基化度，因此碱基的甲基化度的准确性提高。

[实施方式2-2]

图4是说明实施方式2-2的流程的流程图。实施方式2-2包括S221所示的阶段、S222所示的阶段及S223所示的阶段。

在构成一个配对末端读长的读长对预计为相同的序列时，在配对末端读长之间的序列不同的情况下，推测为在配对末端读长的至少一个读长中发生了测序仪的读取错误。实施方式2-2在S222所示的阶段进行上述测量错误的校正。

以下，对各阶段进行说明。

在S221所示的阶段中，获取使用下一代测序仪通过配对末端法对DNA进行序列分析而获得的序列分析数据。然后，进入S222所示的阶段。

在S222所示的阶段中，根据序列分析数据中包含的品质信息来校正读长，而且去除在配对末端读长之间目标位置的碱基不一致的配对末端读长。读长的校正优选为读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对低的读长的排除、或读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对高的读长的选择。接着，去除在配对末端读长之间目标位置的碱基不一致的配对末端读长。在S222所示的阶段中，原始读长被缩减，形成序列的可靠性高的读长的集团。

接着，在S223所示的阶段中，根据剩余的读长计算目标位置的碱基的甲基化度。由于根据序列的可靠性高的读长的集合来计算甲基化度，因此碱基的甲基化度的准确性提高。

＜第三实施方式：利用分子条形码的实施方式＞

第三实施方式是根据对附加有分子条形码的DNA进行序列分析而获得的序列分析数据来计算DNA中的目标位置的碱基的甲基化度的方法。第三实施方式在利用分子条形码时，通过根据序列分析数据的品质信息来校正读长，提高碱基的甲基化度的准确性。第三实施方式根据利用分子条形码的方法分为2种方式(称为实施方式3-1及实施方式3-2。)。

[实施方式3-1]

图5是说明实施方式3-1的流程的流程图。实施方式3-1包括S311所示的阶段、S312所示的阶段、S313所示的阶段、S314所示的阶段及S315所示的阶段。

在分子条形码相同的读长组预计为序列一致时，在该读长组包含序列不同的读长的情况下，推测为在该读长中发生了测量错误(例如，PCR的扩增错误、测序仪的读取错误)。实施方式3-1通过经过S311～S315所示的一系列阶段，减少上述测量错误对计算碱基的甲基化度带来的影响。

以下，对各阶段进行说明。

在S311所示的阶段中，获取使用测序仪对附加有分子条形码的DNA进行序列分析而获得的序列分析数据。然后，进入S312所示的阶段。

在S312所示的阶段中，根据序列分析数据中包含的品质信息来校正读长。读长的校正优选为读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对低的读长的排除、或读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对高的读长的选择。

接着，在S313所示的阶段中，将校正后的读长分为分子条形码相同的读长组。然后，进入S314所示的阶段。

在S314所示的阶段中，在分子条形码相同的各读长组中确定在目标位置上最频出的碱基。然后，进入S315所示的阶段。

在S315所示的阶段中，根据最频出的碱基的集合来计算目标位置的碱基的甲基化度。通过经过S311～S315所示的阶段，目标位置的碱基的准确度提高，因此碱基的甲基化度的准确性提高。

[实施方式3-2]

图6是说明实施方式3-2的流程的流程图。实施方式3-2包括S321所示的阶段、S322所示的阶段、S323所示的阶段、S324所示的阶段及S325所示的阶段。

在分子条形码相同的读长组预计为序列一致时，在该读长组包含序列不同的读长的情况下，推测为在该读长中发生了测量错误(例如，PCR的扩增错误、测序仪的读取错误)。实施方式3-2通过经过S321～S325所示的一系列阶段，减少上述测量错误对计算碱基的甲基化度带来的影响。

以下，对各阶段进行说明。

在S321所示的阶段中，获取使用测序仪对附加有分子条形码的DNA进行序列分析而获得的序列分析数据。然后，进入S322所示的阶段。

在S322所示的阶段中，根据序列分析数据中包含的品质信息来校正读长。读长的校正优选为读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对低的读长的排除、或读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对高的读长的选择。

接着，在S323所示的阶段中，将校正后的读长分为分子条形码相同的读长组，而且在各读长组中去除包含目标位置的区域的序列没有同一性的读长，获得分子条形码相同且包含目标位置的区域的序列相同的读长组。在此，包含目标位置的区域可以是读长的一部分，也可以是读长总长。包含目标位置的区域优选碱基长度为5以上的区域。序列的同一性可以采用序列分析数据中包含的信息，在不满足规定的判定基准的情况下，判断为序列没有同一性。序列的同一性优选为90％以上，更优选为95％以上，进一步优选为100％，可以将该数值作为判定基准。将满足关于序列的同一性的规定的判定基准的序列设为序列相同。

接着，在S324所示的阶段中，在分子条形码相同且包含目标位置的区域的序列相同的各读长组中确定目标位置的碱基。然后，进入S325所示的阶段。

在S325所示的阶段中，根据确定的碱基的集合来计算目标位置的碱基的甲基化度。通过经过S321～S324，目标位置的碱基的准确度提高，因此碱基的甲基化度的准确性提高。

＜第四实施方式：利用多个序列分析数据的实施方式＞

第四实施方式是根据使用测序仪对DNA进行多次序列分析而获得的多个序列分析数据来计算DNA中的目标位置的碱基的甲基化度的方法。第四实施方式在利用多个序列分析数据时，通过根据序列分析数据的品质信息来校正读长，提高碱基的甲基化度的准确性。

在下述实施方式4-1中说明第四实施方式的详细情况。并且，作为实施方式4-1的一个方式例，对实施方式4-2进行说明。

[实施方式4-1]

图7是说明实施方式4-1的流程的流程图。实施方式4-1包括S411所示的阶段、S412所示的阶段及S413所示的阶段。

将相同的DNA作为试样的情况下，理想的是根据多个序列分析数据分别计算的碱基的甲基化度的值一致。但是，由于难以使读长的测量错误(例如，亚硫酸氢盐处理时的碱基的转换错误、PCR的扩增错误、测序仪的读取错误)始终为零，因此根据多个序列分析数据分别计算的碱基的甲基化度的值存在偏差。实施方式4-1是去除碱基的甲基化度的值的偏差，提高碱基的甲基化度的准确性的方式。

以下，对各阶段进行说明。

在S411所示的阶段中，获取使用测序仪对DNA进行多次序列分析而获得的多个序列分析数据。然后，进入S412所示的阶段。

在S412所示的阶段中，对每次的序列分析数据，根据序列分析数据中包含的品质信息来校正读长，根据校正后的读长计算目标位置的碱基的甲基化度。读长的校正优选为读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对低的读长的排除、读长整体的序列的准确度或目标位置的碱基的准确度绝对或相对高的读长的选择、及各个碱基的修正的至少1个。

接着，在S413所示的阶段中，根据所有次的甲基化度的集合来计算代表值，将代表值作为目标位置的碱基的甲基化度。代表值可以是平均值、中值、最频值、任意定义的值中的任一个。由于求出根据多个序列分析数据分别计算的碱基的甲基化度的代表值，因此碱基的甲基化度的准确性提高。

[实施方式4-2]

实施方式4-2在实施方式4-1的S413所示的阶段中，在所有次的甲基化度的集合为相互存在偏差及包含特异性地大或小的甲基化度中的一者或两者时，计算出代表值及目标位置的碱基的甲基化度为无法计算。实施方式4-2是不输出可靠性低的甲基化度，进行无法计算的判断的方式。

通过进行以上所说明的第一实施方式、第二实施方式、第三实施方式及第四实施方式的至少1个，能够更准确地计算碱基的甲基化度。

为了计算更准确的碱基的甲基化度，也可以将选自由第一实施方式、第二实施方式、第三实施方式及第四实施方式组成的组中的2个以上的实施方式组合来进行。

第一实施方式、第二实施方式、第三实施方式、第四实施方式及它们的组合的实施方式能够通过使计算机100执行该程序来实现。

如图8的硬件结构所示，计算机100具有CPU(Central Processing Unit：中央处理器)101、ROM(Read Only Memory：只读存储器)102、RAM(Random Access Memory：随机存取存储器)103及储存器(storage)104。各结构经由总线109可相互通信地连接。

CPU101是中央运算处理单元，执行各种程序，或控制各部。即，CPU101从ROM102或储存器104读出程序，将RAM103作为作业区域执行程序。CPU101执行记录在ROM102或储存器104中的程序，进行各阶段的控制及各种运算处理。

ROM102存储各种程序及各种数据。RAM103作为作业区域临时存储程序或数据。储存器104由HDD(Hard Disk Drive：硬盘驱动器)、SSD(Solid State Drive：固态驱动器)或闪存构成，存储包含操作系统的各种程序及各种数据。也能够在储存器104中保存序列分析数据。

在计算机100中，上述硬件结构中的CPU101执行图1～图7的流程图所示的程序，由此实现碱基的甲基化度的计算方法。

关于通过本发明的实施方式计算的碱基的甲基化度(％)，与碱基的甲基化度(％)的真值的差分越小越优选，优选差分为0.2％以下，更优选差分为0.1％以下，尤其优选差分为0％。

实施例

以下，通过实施例进一步对发明的实施方式进行说明，但发明的实施方式并不限定于这些实施例。

[试验用DNA及引物对的准备]

作为试验用DNA，准备了相当于从噬菌体DNA的第12516个碱基至第12614个碱基的99个碱基的合成DNA(序列号1，5'-TTGATGGTATTGCACAGAATATGGCGGCGATGCTGACCGGCAGTGAGCAGAACTGGCGCAGCTTCACCCGTTCCGTGCTGTCCATGATGACAGAAATTC-3')。将序列号1的第25个碱基的胞嘧啶称为位点A，将序列号1的第28个碱基的胞嘧啶称为位点B。

作为用于通过PCR扩增序列号1的合成DNA的引物对，准备了下述正向引物及反向引物。

·正向引物：5'-TTGATGGTATTGTATAGAATATGG-3'(序列号2)

·反向引物：5'-AAATTTCTATCATCATAAACAACA-3'(序列号3)

＜实施例1：第一实施方式的实施例＞

希望计算合成DNA的位点A的甲基化度。合成DNA时，控制位点A的甲基化度成为1.00％。而且，将位点B的甲基化状态控制为与位点A的甲基化状态相同。通过将碱基之间的距离为10碱基以内的2个甲基化位点视为共甲基化位点的算法，将位点A和位点B判定为共甲基化位点。

对100ng的DNA进行亚硫酸氢盐处理。使用上述引物对通过PCR扩增了回收的DNA中的10ng。使用下一代测序仪分析了扩增的DNA片段的序列。当根据位点A和位点B的碱基的种类(是胞嘧啶还是胸腺嘧啶)对读长进行分组时，其详细内容如下。

·读长组1：

位点A＝胞嘧啶/位点B＝胞嘧啶···1599读长

·读长组2：

位点A＝胸腺嘧啶/位点B＝胸腺嘧啶···154620读长

·读长组3：

位点A＝胞嘧啶/位点B＝胸腺嘧啶···1546读长

·读长组4：

位点A＝胸腺嘧啶/位点B＝胞嘧啶···1558读长

合计···159323读长

当根据上述读长组1～读长组4的集合来计算位点A的甲基化度时为(组1的读长数+组3的读长数)÷总读长数×100＝(1599+1546)÷159323×100＝1.97％。

基于上述读长组1～读长组4的序列分析数据，分别进行了下述实施例1-1及实施例1-2。

[实施例1-1：实施方式1-1的实施例]

在作为共甲基化位点的位点A与位点B之间碱基不同的读长中，视为其中一个位点发生了测量错误，根据序列分析数据中包含的品质信息，进行了在位点A与位点B之间用序列的可靠性高的碱基替换序列的可靠性低的碱基的校正。通过该校正，读长组3校正为下述读长组3-1(用位点A的碱基替换位点B的碱基)或读长组3-2(用位点B的碱基替换位点A的碱基)，读长组4校正为下述读长组4-1(用位点B的碱基替换位点A的碱基)或读长组4-2(用位点A的碱基替换位点B的碱基)。

·读长组3-1：

位点A＝胞嘧啶/位点B＝胞嘧啶···15读长

·读长组3-2：

位点A＝胸腺嘧啶/位点B＝胸腺嘧啶···1531读长

·读长组4-1：

位点A＝胞嘧啶/位点B＝胞嘧啶···19读长

·读长组4-2：

位点A＝胸腺嘧啶/位点B＝胸腺嘧啶···1539读长

当根据校正后的读长的集合来计算位点A的甲基化度时为(组1的读长数+组3-1的读长数+组4-1的读长数)÷总读长数×100＝(1599+15+19)÷159323×100＝1.02％。通过利用共甲基化位点来增加读长中的目标位置的碱基的准确度，能够获得接近真值的1.00％的值。

[实施例1-2：实施方式1-2的实施例]

根据序列分析数据中包含的品质信息，对每个读长进行了去除读长整体的序列的可靠性低于基准值的读长的校正。通过该校正，读长组1～读长组4校正为下述读长组1’～读长组4’。

·读长组1’：

位点A＝胞嘧啶/位点B＝胞嘧啶···1567读长

·读长组2’：

位点A＝胸腺嘧啶/位点B＝胸腺嘧啶···151528读长

·读长组3’：

位点A＝胞嘧啶/位点B＝胸腺嘧啶···1469读长

·读长组4’：

位点A＝胸腺嘧啶/位点B＝胞嘧啶···1402读长

合计···155966读长

而且，去除了在作为共甲基化位点的位点A与位点B之间碱基不同的读长(即读长组3’及读长组4’)。当根据剩余的读长(即读长组1’及读长组2’)的集合来计算位点A的甲基化度时为组1’的读长数÷(组1’的读长数+组2’的读长数)×100＝1567÷(1567+151528)×100＝1.02％。通过将原始读长缩减为序列的可靠性高的读长，能够获得接近真值的1.00％的值。

＜实施例2：第二实施方式的实施例＞

希望计算合成DNA的位点A的甲基化度。合成DNA时，控制位点A的甲基化度成为1.00％。

对100ng的DNA进行亚硫酸氢盐处理。使用上述引物对通过PCR扩增了回收的DNA中的10ng。使用下一代测序仪，通过配对末端法分析了扩增的DNA片段的序列。将配对末端读长中的一个称为R1，另一个称为R2。当根据位点A的碱基的种类(是胞嘧啶还是胸腺嘧啶)对R1和R2的组合进行分组时，其详细内容如下。

·配对末端读长组5：

R1＝胞嘧啶/R2＝胞嘧啶···1547对

·配对末端读长组6：

R1＝胸腺嘧啶/R2＝胸腺嘧啶···153182对

·配对末端读长组7：

R1＝胞嘧啶/R2＝胸腺嘧啶···754对

·配对末端读长组8：

R1＝胸腺嘧啶/R2＝胞嘧啶···808对

合计···156291对

当根据上述配对末端读长组5～配对末端读长组8中的R1的碱基和R2的碱基的并集来计算位点A的甲基化度时为(组5的配对数×2+组7的配对数+组8的配对数)÷(总配对数×2)×100＝(1547×2+754+808)÷(156291×2)×100＝1.49％。

基于上述配对末端读长组5～配对末端读长组8的序列分析数据，分别进行了下述实施例2-1及实施例2-2。

[实施例2-1：实施方式2-1的实施例]

在配对末端读长之间位点A的碱基不一致的配对末端读长中，视为其中一个读长中发生了读取错误，根据序列分析数据中包含的品质信息，对位点A进行了选择序列的可靠性高的读长作为其配对末端读长的代表的校正。通过该校正，配对末端读长组7校正为下述读长组7-1(选择R1作为代表)和读长组7-2(选择R2作为代表)，配对末端读长组8校正为下述读长组8-1(选择R2作为代表)和读长组8-2(选择R1作为代表)。以下，分别代表配对末端读长组5及配对末端读长组6的读长表示为读长组5-1及读长组6-1。

·读长组5-1：位点A＝胞嘧啶···1547读长

·读长组6-1：位点A＝胸腺嘧啶···153182读长

·读长组7-1：位点A＝胞嘧啶···155读长

·读长组7-2：位点A＝胸腺嘧啶···599读长

·读长组8-1：位点A＝胞嘧啶···165读长

·读长组8-2：位点A＝胸腺嘧啶···643读长

合计···156291读长

当根据上述读长的集合来计算位点A的甲基化度时为(组5-1的读长数+组7-1的读长数+组8-1的读长数)÷总读长数×100＝(1547+155+165)÷156291×100＝1.19％。通过利用配对末端读长来增加读长中的目标位置的碱基的准确度，能够获得接近真值的1.00％的值。

[实施例2-2：实施方式2-2的实施例]

根据序列分析数据中包含的品质信息，对每个读长进行了去除读长整体的序列的可靠性低于基准值的读长的校正。通过该校正，配对末端读长组5～配对末端读长组8校正为下述配对末端读长组5’～配对末端读长组8’。

·配对末端读长组5’：

R1＝胞嘧啶/R2＝胞嘧啶···1516对

·配对末端读长组6’：

R1＝胸腺嘧啶/R2＝胸腺嘧啶···150118对

·配对末端读长组7’：

R1＝胞嘧啶/R2＝胸腺嘧啶···716对

·配对末端读长组8’：

R1＝胸腺嘧啶/R2＝胞嘧啶···727对

合计···153077对

而且，去除了在配对末端读长之间位点A的碱基不一致的配对末端读长组(即配对末端读长组7’及配对末端读长组8’)。当根据剩余的配对末端读长组(即配对末端读长组5’及配对末端读长组6’)的集合来计算位点A的甲基化度时为组5’的配对数÷(组5’的配对数+组6’的配对数)×100＝1516÷(1516+150118)×100＝1.00％。通过将原始读长缩减为序列的可靠性高的读长，能够获得接近真值的1.00％的值。

＜实施例3：第三实施方式的实施例＞

对100ng的DNA进行亚硫酸氢盐处理。在回收的DNA中的10ng中附加将腺嘌呤、鸟嘌呤、胞嘧啶及胸腺嘧啶无规排列10个碱基而成的分子条形码，使用无规引物通过PCR进行扩增。使用下一代测序仪分析了扩增的DNA片段的序列。

在此，根据总读长的位点A的碱基来计算甲基化度时的甲基化度为：胞嘧啶的个数÷(胞嘧啶的个数+胸腺嘧啶的个数)×100＝184496÷13369344×100＝1.38％。

基于上述读长的序列分析数据，分别进行了下述实施例3-1及实施例3-2。

[实施例3-1：实施方式3-1的实施例]

根据序列分析数据中包含的品质信息，对每个读长进行了去除读长整体的序列的可靠性低于基准值的读长的校正。去除了1310720读长。

接着，将剩余的读长分为分子条形码相同的读长组，在分子条形码相同的各读长组中确定了位点A的最频出碱基。

例如，在分子条形码的序列为5'-ATGATCGATC-3'(序列号4)的读长组中，位点A的碱基的详细内容如下。该读长组中的位点A的最频出碱基为胞嘧啶。

·胞嘧啶··· 6853读长

·胸腺嘧啶··· 52读长

·腺嘌呤··· 32读长

·鸟嘌呤··· 44读长

例如，在分子条形码的序列为5'-CTGATCCAAT-3'(序列号5)的读长组中，位点A的碱基的详细内容如下。该读长组中的位点A的最频出碱基为胸腺嘧啶。

·胞嘧啶··· 43读长

·胸腺嘧啶···8652读长

·腺嘌呤··· 5读长

·鸟嘌呤··· 21读长

如上所述，在分子条形码相同的各读长组中确定位点A的最频出碱基时，胞嘧啶组为2700组，胸腺嘧啶组为259444组。当根据位点A的最频出碱基的集合来计算甲基化度时为2700÷(2700+259444)×100＝1.03％。根据序列分析数据中包含的品质信息来校正读长，而且利用分子条形码来减少测量错误对计算碱基的甲基化度带来的影响，由此能够获得接近真值的1.00％的值。

[实施例3-2：实施方式3-2的实施例]

接着，将剩余的读长分为分子条形码相同的读长组，而且去除在各读长组中包含位点A的区域的序列没有同一性的读长。

例如，在分子条形码的序列为5'-ATGATCGATC-3'(序列号4)的读长组(总6981读长)中，除了分子条形码序列以外的序列的最频出序列为5'-TTGATGGTATTGTATAGAATATGGCGGCGATGTTGATCGGTAGTGAGTAGAATTGGCGTAGTTTTATTCGTTTCGTGTTGTTTATGATGATAGAAATTT-3'(序列号6)，当去除与该最频出序列不同的读长时(在本实施例中，将读长整体的序列的完全一致设为相同。)，剩余为5724读长。该5724读长的位点A的碱基为胞嘧啶。

如上所述，在分子条形码相同且序列相同的各读长组中确定位点A的碱基时，胞嘧啶组为2673组，胸腺嘧啶组为259471组。当根据位点A的碱基的集合来计算甲基化度时为2673÷(2673+259471)×100＝1.02％。根据序列分析数据中包含的品质信息来校正读长，而且利用分子条形码来减少测量错误对计算碱基的甲基化度带来的影响，由此能够获得接近真值的1.00％的值。

＜实施例4：第四实施方式的实施例＞

希望计算合成DNA的位点A的甲基化度或位点B的甲基化度。合成DNA时，分别独立地进行控制，以使位点A的甲基化度成为1.00％，位点B的甲基化度成为1.00％。

将DNA分割为3部分，作为样品1、样品2及样品3。

对样品各100ng的DNA进行了亚硫酸氢盐处理。使用上述引物对通过PCR扩增了回收的DNA中的各10ng。使用下一代测序仪分析了扩增的DNA片段的序列。

基于3次的序列分析数据，分别进行了下述实施例4-1及实施例4-2。

[实施例4-1：实施方式4-1的实施例]

对各样品的每个序列分析数据，根据序列分析数据中包含的品质信息，进行了去除位点A的碱基的可靠性低于基准值的读长的校正。样品1去除了1736读长，样品2去除了1803读长，样品3去除了1781读长。

当对每个样品，根据剩余的读长的集合来计算位点A的甲基化度时，样品1中为1.14％，样品2中为0.79％，样品3中为1.45％。将作为3个值的中值的1.14％计算为位点A的甲基化度。

[实施例4-2：实施方式4-2的实施例]

对每次的序列分析数据，根据序列分析数据中包含的品质信息，进行了去除位点B的碱基的可靠性低于基准值的读长的校正。样品1去除了1632读长，样品2去除了1338读长，样品3去除了1305读长。

当对每个样品，根据剩余的读长的集合来计算位点B的甲基化度时，样品1中为1.25％，样品2中为5.32％，样品3中为1.32％。在多次的测量之间甲基化度有3％以上的差异的情况下，视为测量没有稳固性，无法计算位点B的甲基化度。

产业上的可利用性

本发明的计算碱基的甲基化度的方法及程序在胚胎学、病理生理学、脑神经科学、再生医学等学术领域中，可用作研究核酸的甲基化的方案。

本发明的计算碱基的甲基化度的方法及程序可用作检测与疾病相关的基因的甲基化异常的方案。通过本发明的计算碱基的甲基化度的方法及程序检测出的基因的甲基化异常可用作辅助医师的诊断的信息、医师判断是否需要精密检查(例如图像检查)的根据、医师选择治疗方法或治疗药物的根据、判定治疗效果、预测患者的预后等。

于2020年3月25日申请的日本申请号第2020-055116号的公开，其整体通过参考而引入本说明书中。

本说明书所记载的全部文献、专利申请以及技术标准，与具体且分别地记载将各个文献、专利申请以及技术标准通过参考而引入的情况相同程度地，通过参考而引入本说明书中。

Claims

1.一种碱基的甲基化度的计算方法，其计算具有共甲基化位点的DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据所述序列分析数据中包含的品质信息来校正读长中的所述共甲基化位点的碱基；及

根据校正后的读长计算所述目标位置的碱基的甲基化度。

2.一种碱基的甲基化度的计算方法，其计算具有共甲基化位点的DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据所述序列分析数据中包含的品质信息来校正读长，而且去除在所述共甲基化位点之间碱基不一致的读长；及

根据剩余的读长计算所述目标位置的碱基的甲基化度。

3.一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据所述序列分析数据中包含的品质信息来校正配对末端读长；及

根据校正后的读长计算所述目标位置的碱基的甲基化度。

4.一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据所述序列分析数据中包含的品质信息来校正读长，而且去除在配对末端读长之间所述目标位置的碱基不一致的配对末端读长；及

根据剩余的读长计算所述目标位置的碱基的甲基化度。

5.一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据所述序列分析数据中包含的品质信息来校正读长；

将校正后的读长分为分子条形码相同的读长组；

在所述各读长组中确定在所述目标位置上最频出的碱基；及

根据所述最频出的碱基的集合来计算所述目标位置的碱基的甲基化度。

6.一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

根据所述序列分析数据中包含的品质信息来校正读长；

将校正后的读长分为分子条形码相同的读长组，而且在所述各读长组中去除包含所述目标位置的区域的序列没有同一性的读长，获得分子条形码相同且包含所述目标位置的区域的序列相同的读长组；

在所述分子条形码相同且包含所述目标位置的区域的序列相同的各读长组中确定所述目标位置的碱基；及

根据所述确定的碱基的集合来计算所述目标位置的碱基的甲基化度。

7.一种碱基的甲基化度的计算方法，其计算DNA中的目标位置的碱基的甲基化度，所述方法包括如下步骤：

对每次的所述序列分析数据，根据所述序列分析数据中包含的品质信息来校正读长，根据校正后的读长计算所述目标位置的碱基的甲基化度；及

根据所有次的所述甲基化度的集合来计算代表值，将所述代表值作为所述目标位置的碱基的甲基化度。

8.根据权利要求7所述的碱基的甲基化度的计算方法，其中，

在所有次的所述甲基化度的集合为相互存在偏差及包含特异性地大或小的甲基化度中的一者或两者时，计算出所述代表值及所述目标位置的碱基的甲基化度为无法计算。

9.一种碱基的甲基化度的计算方法，其将选自由权利要求1所述的碱基的甲基化度的计算方法、权利要求2所述的碱基的甲基化度的计算方法、权利要求3所述的碱基的甲基化度的计算方法、权利要求4所述的碱基的甲基化度的计算方法、权利要求5所述的碱基的甲基化度的计算方法、权利要求6所述的碱基的甲基化度的计算方法、权利要求7所述的碱基的甲基化度的计算方法及权利要求8所述的碱基的甲基化度的计算方法组成的组中的2个以上组合来进行。

10.一种程序，其用于使计算机执行权利要求1至9中任一项所述的碱基的甲基化度的计算方法。