CN114898802A

CN114898802A - 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置

Info

Publication number: CN114898802A
Application number: CN202210824046.XA
Authority: CN
Inventors: 聂佩瑶; 吕芳; 杨滢; 崔新; 李宇龙; 洪媛媛; 王小庆; 陈维之; 杜波
Original assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-08-12
Anticipated expiration: 2042-07-14
Also published as: CN114898802B

Abstract

本发明提供了一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置，包括：接收待确定血浆样本的cfDNA甲基化测序数据；与参考基因组进行比对，得到测序Reads的比对位置信息；基于比对位置信息，得到cfDNA甲基化测序数据中血浆cfDNA片段的5’末端在参考基因组上的准确位置；对测序Reads进行过滤；截取FLAG等于163的Reads中血浆cfDNA片段的5’末端的4或6个碱基序列作为末端序列；统计血浆样本中每种末端序列占所有末端序列的比例，得到血浆样本末端序列的频率分布特征。其对末端序列频率分布特征进行确定为后续评价提供基础，提高检测灵敏度。

Description

基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置

技术领域

本发明涉及生物医学技术领域，尤其涉及一种基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置。

背景技术

目前癌症筛查的手段，包括影像学检查、肿瘤标志物筛查、活体组织病理学检查等，这些方法虽然能够一定程度上达到癌症筛查的目的，但是在肿瘤早期筛查中都有一定的局限性。例如，影像学检查可能受检查者水平的高低影响，部分肿瘤在早期时候肿瘤标志物并没有明显异常，活体组织病理学检查需要取活体组织。

液体活检技术，特别是基于血浆中提取的游离DNA(cfDNA)的检测技术，近年来迅速成为一种重要的和最低限度侵入性肿瘤检测手段，并被广泛应用于肿瘤的诊断、病情追踪、疗效评估和预后预测工作当中。在最近的研究中，基于cfDNA的基因变异检测的液体活检技术在癌症早期检测中表现出巨大的潜力，而其中的甲基化组学信号是一个重要的分支。DNA甲基化检测作为常见的一种研究表观修饰的方法，越来越多地被应用到癌症分子诊断中，从而产生海量的DNA甲基化测序数据。

目前，已在一些研究中证明了甲基化组学优秀的区分效果，并利用机器学习模型，能同时达到癌症早筛及组织溯源的目的，补充现有影像学检查、肿瘤标志物筛查、活体组织病理学检查，但依然存在灵敏度不高、操作复杂成本高等问题，是以进一步对海量的DNA甲基化测序数据进行研究探索，得到更高灵敏度的区分效果的技术方案成为一种需求。

发明内容

针对上述问题，本发明提供了一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置，对待测血浆样本的末端序列频率分布特征进行确定及评价，提高检测灵敏度。

本发明提供的技术方案如下：

一方面，本发明提供了一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法，包括：

接收待确定血浆样本的cfDNA甲基化测序数据；

将所述cfDNA甲基化测序数据与参考基因组进行比对，得到测序读段在参考基因组上的比对位置信息；

基于测序读段在参考基因组上的比对位置信息，得到所述cfDNA甲基化测序数据中血浆cfDNA片段的5’末端在参考基因组上的准确位置；

采用预设规则对测序读段进行过滤，所述预设规则包括：根据所述cfDNA甲基化测序数据与参考基因组的比对结果，保留比对质量值大于30的比对到参考基因组上唯一位置的读段；之后筛选片段大小在0bp~170bp的读段，并过滤掉一端或两端包含部分比对不上参考基因组序列但这些序列仍保留在比对结果中的读段；

基于过滤结果，截取FLAG列等于163的读段中血浆cfDNA片段的5’末端的4或6个碱基序列作为末端序列；

统计血浆样本中每种末端序列占所有末端序列的比例，得到血浆样本末端序列的频率分布特征。

另一方面，本发明提供了一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价方法，包括：

采用上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法对待测血浆样本的末端序列频率分布特征进行确定；

针对所述末端序列频率分布特征使用预训练的末端序列频率分布特征评价模型对所述待测血浆样本的末端序列频率分布特征进行评价，以辅助判定所述待测血浆样本所属来源。

另一方面，本发明提供了一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定装置，包括：

数据接收模块，用于接收待确定血浆样本的cfDNA甲基化测序数据；

序列比对模块，用于将所述cfDNA甲基化测序数据与参考基因组进行比对，得到测序读段在参考基因组上的比对位置信息；

末端位置确定模块，用于基于测序读段在参考基因组上的比对位置信息，得到所述cfDNA甲基化测序数据中血浆cfDNA片段的5’末端在参考基因组上的准确位置；

测序读段过滤模块，用于采用预设规则对测序读段进行过滤，所述预设规则包括：根据所述cfDNA甲基化测序数据与参考基因组的比对结果，保留比对质量值大于30的比对到参考基因组上唯一位置的读段；之后筛选片段大小在0bp~170bp的读段，并过滤掉一端或两端包含部分比对不上参考基因组序列但这些序列仍保留在比对结果中的读段；

末端序列确定模块，用于基于过滤结果，截取FLAG列等于163的读段中血浆cfDNA片段的5’末端的4或6个碱基序列作为末端序列；

频率分布特征确定模块，用于统计血浆样本中每种末端序列占所有末端序列的比例，得到血浆样本末端序列的频率分布特征。

另一方面，本发明提供了一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价装置，包括上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定装置，还包括：

频率分布特征评价模块，用于针对所述末端序列频率分布特征使用预训练的末端序列频率分布特征评价模型对所述待测血浆样本的末端序列频率分布特征进行评价，以辅助判定所述待测血浆样本所属来源。

另一方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令能够被处理器执行以实现上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法的步骤及上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价方法的步骤。

另一方面，本发明提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时实现上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法的步骤及上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价方法的步骤。

本发明提供的基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法及装置、评价方法及装置，采用特定的方法对血浆cfDNA甲基化测序数据的末端序列进行确定并基于此统计得到血浆样本末端序列的频率分布特征，以此基于创建的末端序列频率分布特征评价模型对待测血浆样本的末端序列频率分布特征进行评价，该方法简单易实现，得到的末端序列精确，在特征评价中具备高灵敏度和特异性，为后续区分待测血浆样本是否来源于癌症组织提供依据，尤其能够提高某些良性结节、早期癌症患者的检测灵敏度，从而有效辅助癌症的早期诊断以及癌症的早期筛查，提高筛查效率和精度。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法流程示意图；

图2为本发明的实例中构建好的模型在训练集中的AUC值柱状图（按癌种分）；

图3为本发明的实例中构建好的模型在训练集中的AUC值柱状图（按分期分）；

图4为本发明的实例中构建好的模型在测试集中的AUC值柱状图（按癌种分）；

图5为本发明的实例中构建好的模型在测试集中的AUC值柱状图（按分期分）；

图6为本发明中电子设备结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明的第一种实施例，一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法，如图1所示，包括：S11 接收待确定血浆样本的cfDNA甲基化测序数据；S12将cfDNA甲基化测序数据与参考基因组进行比对，得到测序读段（Reads）在参考基因组上的比对位置信息；S13 基于测序读段在参考基因组上的比对位置信息，得到cfDNA甲基化测序数据中血浆cfDNA片段的5’末端在参考基因组上的准确位置；S14 采用预设规则对测序读段进行过滤，预设规则包括：根据cfDNA甲基化测序数据与参考基因组的比对结果，保留比对质量值大于30的比对到参考基因组上唯一位置的读段（Unique Mapped Reads）；之后筛选片段大小在0bp~170bp的读段，并过滤掉一端或两端包含部分比对不上参考基因组序列但这些序列仍保留在比对结果中（Soft Clipped）的读段；S15 基于过滤结果，截取FLAG列等于163的读段中血浆cfDNA片段的5’末端的4或6个碱基序列作为末端序列；S16 统计血浆样本中每种末端序列占所有末端序列的比例，得到血浆样本末端序列的频率分布特征。

在本实施例中，步骤S11中获取的cfDNA甲基化测序数据采用双末端测序得到，测序文库中一条cfDNA片段对应两条测序Reads，分别为READ1和READ2，以FASTQ格式保存；步骤S12中使用软件Bismark实现cfDNA甲基化测序数据与参考基因组的比对。步骤S15中，优选FLAG等于163的Reads中血浆cfDNA片段的5’末端的4个碱基序列作为末端序列。

步骤S14中，cfDNA甲基化测序数据（为双端测序数据）与参考基因组进行比对的结果以SAM格式保存，SAM格式文件的每一行为一条测序读段的比对信息，其中，第二列为FLAG列，是读段比对情况的数字表示，如FLAG列等于163表示该读段是由双端测序方法得到的READ2，该读段比对到参考基因组的正链上，对应的READ1比对到参考基因组的负链上，READ1和READ2比对到参考基因组上的合适位置；第六列为CIGAR列，是读段比对到参考基因组的具体情况，如10S80M1I2M1D6M表示10个Soft Clipping，80个匹配、1个插入、2个匹配、1个删除、6个匹配。有Soft Clipped的读段表示比对时跳过读段中部分序列（部分比对不上参考基因组序列），但这些被跳过的序列仍保留在比对结果中的读段。Unique MappedReads具体为在双端测序中，唯一比对到参考基因组上的Read对，用于对比对结果去冗余。

本实施例中，采用上述方法对血浆cfDNA甲基化测序数据的末端序列进行确定，能够得到较为精确的末端序列，有利于提高后续末端序列频率分布特征评价的准确度。

基于上述末端序列频率分布特征确定方法，本发明的另一实施例提供了一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价方法，包括：S10 采用上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法对待测血浆样本的末端序列频率分布特征进行确定；S20 针对末端序列频率分布特征使用预训练的末端序列频率分布特征评价模型对待测血浆样本的末端序列频率分布特征进行评价，以辅助判定所述待测血浆样本所属来源。

在本实施例中，末端序列频率分布特征评价模型使用的是机器学习方法，以末端序列频率分布特征作为输入数据，针对末端序列频率分布特征的评价结果作为输出。使用的机器学习方法可以是逻辑回归（Logistic Regression）、支持向量机（SVM）、随机森林、梯度提升决策树（GBDT）、XGBoost（eXtreme Gradient Boosting）等，优选逻辑回归（LogisticRegression）。对于输出结果，为末端序列频率分布特征评价模型对于待测血浆样本属性（如来源于健康人、癌症患者等）的预测及其预测概率，如预测待测血浆样本患有某类恶性结节（BRCA、COREAD、ESCA、STAD、LIHC、NSCLC、PACA等）的可能性、患有某类良性结节的可能性等，为后续医生进行诊断提供部分依据，辅助医生进行癌症的筛查工作，尤其是早期癌症的诊断和筛查。

在使用末端序列频率分布特征评价模型对待测血浆样本的末端序列频率分布特征进行评价之前，还包括对末端序列频率分布特征评价模型进行预训练的步骤，包括：S01采用上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法对训练血浆样本的末端序列频率分布特征进行确定，训练血浆样本包括健康人血浆样本和癌症患者血浆样本；S02 采用分位数归一化（Quantile Normalization）方法对训练血浆样本的末端序列频率分布特征进行处理；S03 对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维和特征筛选操作；S04 基于降维和特征筛选后的末端序列频率分布特征对末端序列频率分布特征评价模型进行创建；S05 将降维和特征筛选后的训练血浆样本的末端序列频率分布特征分别输入末端序列频率分布特征评价模型，完成对末端序列频率分布特征评价模型的训练。

这一过程中，使用包括健康人血浆样本和癌症患者血浆样本的训练血浆样本对末端序列频率分布特征评价模型进行训练，训练完成末端序列频率分布特征评价模型能够对于不同类型的血浆样本进行分类。

步骤S02中，采用分位数归一化方法对训练血浆样本的末端序列频率分布特征进行处理中包括采用分位数归一化方法分别对健康人血浆样本和癌症患者血浆样本的末端序列频率分布特征进行处理的步骤：其中，

采用分位数归一化方法对健康人血浆样本的末端序列频率分布特征进行处理的步骤包括：

S021将一个末端序列作为一个特征，基于健康人血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；

S022针对每个样本分别确定其包含的各特征于各自排序结果中的位置，作为相应特征的排序等级；

S023根据排序等级，确定各样本的特征等级分布；

S024根据所有样本的排序结果，依次计算处于同一排序等级所有特征频率值的平均值；

S025根据各样本的特征等级分布，将样本各特征的频率值替换为对应排序等级的平均值；

相对应的，在采用分位数归一化方法对癌症患者血浆样本的末端序列频率分布特征进行处理的步骤包括：

S026 将一个末端序列作为一个特征，基于癌症患者血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；

S027 针对每个样本分别确定其包含的各特征于各自排序结果中的位置，作为相应特征的排序等级；

S028 根据排序等级，确定各样本的特征等级分布；

S029根据各样本的特征等级分布，将各特征的频率值替换为健康人血浆样本中对应排序等级的平均值。

在对癌症患者血浆样本进行分位数归一化处理中，根据排序结果确定了各样本的特征等级分布之后，使用步骤S024中计算得到的健康人血浆样本各排序等级的平均值对癌症患者血浆样本的各特征的频率值进行替换，完成对癌症患者血浆样本的分位数归一化处理。通过对训练血浆样本进行上述分位数归一化处理，以消除样本间可能出现的批次效应。

以下通过一实例对上述分位数归一化方法进一步说明：

假定实例中包括4个样本，分别为样本s1、样本s2、样本s3及样本s4；各样本中分别包括5个特征，分别为feature1、feature2、feature3、feature4及feature5，各特征的频率值如表1所示：

表1：各样本不同特征的频率值

针对每个样本的排序结果如表2所示：

表2：各样本不同特征频率值的排序结果

根据如表2中的排序结果，对于样本s1来说，feature1的排序等级为1，feature2的排序等级为5，feature3的排序等级为4，feature4的排序等级为2，feature5的排序等级为3，即样本s1的特征等级分布为1,5,4,2,3。样本s2~s4同理，样本s2的特征等级分布为1,5,2,3,4；样本s3的特征等级分布为2,3,5,4,1；样本s4的特征等级分布为1,3,5,4,2。之后，分别计算各排序等级4个样本频率值的平均值，得到的结果为3.5,5,5.5,6.5,8.5。

根据得到的特征等级分布及计算得到的平均值，替换后，各样本的值如表3所示：

表3：替换后各样本不同特征的值

需要注意的是，在排序过程中，若一样本中出现相同大小频率值的特征，则在排序过程中，根据各特征于样本中的先后次序进行依次进行排序。如上述实例中，样本s1的feature4和feature5的频率值大小相同，则在排序结果中，依照feature4和feature5的顺序将其进行顺序排序，两个特征的排序等级分别为2和3。

步骤S03中，可以采用PCA方法对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维，通过选择累积贡献度为前X%（如85%、90%、95%等）特征的方法进行特征筛选。

另外，为了提高检测精度，在建模过程还包括多次交叉验证和使用网格搜索方法确定最优模型参数的过程。当然，在训练过程中，除了对末端序列频率分布特征评价模型进行训练的训练集之外，还包括对末端序列频率分布特征评价模型的分类结果进行验证的验证集。且在验证过程中，采用与训练过程中相同的末端序列频率分布特征，即进行分位数归一化并PCA降维和特征筛选后的特征进行对模型进行验证（后续在对待测血浆样本进行检测时同理）。

完成针对末端序列频率分布特征评价模型建模及训练之后，在对待测血浆样本进行评价之前，同样需要采用类似步骤S02~S03的步骤对待测血浆样本的末端序列频率分布特征进行处理，包括分位数归一化处理、降维和特征筛选操作，其中，在采用分位数归一化方法对其进行处理中包括：将一个末端序列作为一个特征，基于待测血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；针对每个样本分别确定其包含的各特征于各自排序结果中的位置，作为相应特征的排序等级；根据排序等级，确定各样本的特征等级分布；根据各样本的特征等级分布，将各特征的频率值替换为健康人血浆样本中对应排序等级的平均值（由步骤S024得到）。经过了分位数归一化处理、降维和特征筛选操作之后，将其输入末端序列频率分布特征评价模型中对待测血浆样本进行评价。

本发明的另一种实施例，一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定装置，包括：数据接收模块，用于接收待确定血浆样本的cfDNA甲基化测序数据；序列比对模块，用于将cfDNA甲基化测序数据与参考基因组进行比对，得到测序Reads在参考基因组上的比对位置信息；末端位置确定模块，用于基于测序Reads在参考基因组上的比对位置信息，得到cfDNA甲基化测序数据中血浆cfDNA片段的5’末端在参考基因组上的准确位置；测序Reads过滤模块，用于采用预设规则对测序Reads进行过滤，预设规则包括：根据cfDNA甲基化测序数据与参考基因组的比对结果，保留比对质量值大于30的Unique MappedReads；之后筛选片段大小在0bp~170bp的Reads，并过滤掉有Soft Clipped的Reads；末端序列确定模块，用于基于过滤结果，截取FLAG等于163的Reads中血浆cfDNA片段的5’末端的4或6个碱基序列作为末端序列；频率分布特征确定模块，用于统计血浆样本中每种末端序列占所有末端序列的比例，得到血浆样本末端序列的频率分布特征。

在本实施例中，数据接收模块中获取的cfDNA甲基化测序数据采用双末端测序得到，序列比对模块中使用软件Bismark实现cfDNA甲基化测序数据与参考基因组的比对。末端序列确定模块中，优选FLAG等于163的Reads中血浆cfDNA片段的5’末端的4个碱基序列作为末端序列。

基于该末端序列频率分布特征确定装置，本发明的另一实施例提供了一种基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价装置，包括基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定装置之外，还包括：频率分布特征评价模块，用于针对末端序列频率分布特征使用预训练的末端序列频率分布特征评价模型对待测血浆样本的末端序列频率分布特征进行评价，以辅助判定待测血浆样本所属来源。

在本实施例中，末端序列频率分布特征评价模型使用的是机器学习方法，以末端序列频率分布特征作为输入数据，针对末端序列频率分布特征的评价结果作为输出。使用的机器学习方法可以是逻辑回归（Logistic Regression）、支持向量机（SVM）、随机森林、逻辑回归、梯度提升决策树（GBDT）、XGBoost（eXtreme Gradient Boosting）等，优选逻辑回归（Logistic Regression）。对于输出结果，为末端序列频率分布特征评价模型对于待测血浆样本属性（如来源于健康人、癌症患者及其阶段等）的预测及其预测概率，如预测待测血浆样本患有恶性结节的可能性、患有良性结节的可能性等，为后续医生进行诊断提供部分依据，辅助医生进行癌症的筛查工作，尤其是早期癌症的诊断和筛查。

为对末端序列频率分布特征评价模型进行训练，上述末端序列频率分布特征评价装置还包括：末端序列频率分布特征筛选模块，用于采用分位数归一化方法对训练血浆样本的末端序列频率分布特征进行处理；及用于对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维和特征筛选操作；模型创建模块，用于基于降维和特征筛选后的末端序列频率分布特征对末端序列频率分布特征评价模型进行创建；模型训练模块，用于将降维和特征筛选后的训练血浆样本的末端序列频率分布特征分别输入末端序列频率分布特征评价模型，完成对末端序列频率分布特征评价模型的训练。

末端序列频率分布特征筛选模块包括：健康人血浆样本末端序列频率分布特征确定单元，用于将一个末端序列作为一个特征，基于健康人血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；针对每个样本分别确定其包含的各特征于各自排序结果中的位置，作为相应特征的排序等级；根据排序等级，确定各样本的特征等级分布；根据所有样本的排序结果，依次计算处于同一排序等级所有特征频率值的平均值；及根据各样本的特征等级分布，将样本各特征的频率值替换为对应排序等级的平均值。癌症患者血浆样本末端序列频率分布特征确定单元，用于将一个末端序列作为一个特征，基于癌症患者血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；针对每个样本分别确定其包含的各特征于各自排序结果中的位置，作为相应特征的排序等级；根据排序等级，确定各样本的特征等级分布；及根据各样本的特征等级分布，将各特征的频率值替换为健康人血浆样本中对应排序等级的平均值。

末端序列频率分布特征筛选模块包括：降维单元，用于采用PCA方法对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维；特征筛选单元，用于通过选择累积贡献度为前X%（如85%、90%、95%等）特征的方法进行特征筛选。另外，为了提高检测精度，在建模过程还包括多次交叉验证和使用网格搜索方法确定最优模型参数的过程。

以下通过一实例对上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价方法（装置对应的方法步骤）及其有益效果进行说明：

步骤S001：接收健康人和癌症患者的血浆样本。共有497例健康人和780例癌症患者的样本入组，将样本按照7:3的比例随机划分为训练集和验证集，见表4和表5。癌症患者涉及的癌种包括BRCA、COREAD、ESCA、STAD、LIHC、NSCLC及PACA，各癌种的分期包括I期、II期、III期、IV期及unknown期。

表4：构建模型训练集样本信息

表5：构建模型验证集样本信息

步骤S002：甲基化测序及测序数据质控。首先，基于二代高通量测序技术对健康人和癌症患者的血浆样本进行甲基化测序，得到Raw Data（测序数据）。之后，对Raw Data过滤测序接头和低质量，得到Clean Data（过滤数据，对应前述cfDNA甲基化测序数据）。实际应用中，上述过程可以采用Trimmomatic（v0.36）进行，参数设置为：

得到的Clean Data用于比对到参考基因组上。

步骤S003：测序数据比对、去冗余、低质量比对结果过滤。采用Bismark（v0.19.0）软件将CleanData比对到hg19版本的人类参考基因组上，软件参数为bismark--bowtie2--phred33-quals --unmapped -1 sample_1.fq -2 sample_2.fq，其中调用的bowtie2软件的版本为2.3.3.1。采用Bismark软件中的bismarkdedup模块对比对结果去冗余，得到去冗余后的bam文件，过滤掉比对质量值低于20的比对结果，得到sampleid.filterQ20.bam。

步骤S004：根据本发明中提供的计算血浆cfDNA甲基化数据中的End Motif频率的方法，计算End Motif频率。基于每个血浆样本的filterQ20.bam结果，仅保留比对质量值大于30的Unique Mapped Reads，接着筛选片段大小（Fragment Size）大于0bp且小于170bp的Reads，并过滤掉有Soft Clipped的Reads，最后截取FLAG等于163的Reads确定的Fragment的5’末端开始的4个碱基序列作为End Motif序列，共产生256种End Motif序列。本实例中，统计每个样本中256种End Motif序列的频率，End Motif序列的频率=血浆样本中每种EndMotif序列的数量/血浆样本中所有End Motif序列的数量之和。

步骤S005：基于End Motif频率分布特征的模型构建。以根据步骤S004计算得到的End Motif频率进行Quantile Normalization（分位数归一化），进行降维和特征筛选，以特征筛选后的频率分布特征作为输入构建末端序列频率分布特征评价模型。在本实例中，所用降维方法为PCA，所用特征筛选方法为选择降维后累计贡献度为前90%特征，共筛选到31个特征。

基于筛选到的特征，使用逻辑回归（Logistic Regression）构建末端序列频率分布特征评价模型，并对其进行训练。建模过程中，包括使用13次交叉验证和使用网格搜索方法确定最优模型参数的过程。

S006：模型性能评估。在训练集中，基于构建的末端序列频率分布特征评价模型的预测结果绘制AUC值柱状图，不同癌种和不同分期下的AUC值柱状图如图2和图3所示，结果显示在训练集中泛癌种的AUC达到0.942（94.2%）。另外，如图2所示，BRCA的AUC值为0.961，COREAD的AUC值为0.962，ESCA的AUC值为0.966，LIHC的AUC值为0.898，NSCLC的AUC值为0.934，PACA的AUC值为0.966，STAD的AUC值为0.92；如图3所示，I期的AUC值为0.916，II期的AUC值为0.933，III期的AUC值为0.898，IV期的AUC值为0.976，unknown期的AUC值为0.967。在测试集中，基于构建的末端序列频率分布特征评价模型的预测结果绘制AUC值柱状图，不同癌种和不同分期下的AUC值柱状图如图4和图5所示，结果显示测试集中泛癌种的AUC达到0.932。另外，如图4所示，BRCA的AUC值为0.948，COREAD的AUC值为0.968，ESCA的AUC值为0.932，LIHC的AUC值为0.882，NSCLC的AUC值为0.912，PACA的AUC值为0.92，STAD的AUC值为0.963；如图5所示，I期的AUC值为0.878，II期的AUC值为0.916，III期的AUC值为0.935，IV期的AUC值为0.959，unknown期的AUC值为0.95。可见，该方法具备高灵敏度和特异性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图6是本发明一个实施例中提供的电子设备的结构示意图，如所示，该电子设备200包括：处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211，例如：基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定及基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价关联程序。处理器220执行计算机程序211时实现上述各基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定方法及基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价方法实施例中的步骤，或者，处理器220执行计算机程序211时实现上述基于血浆cfDNA甲基化测序数据的末端序列频率分布特征确定装置及基于血浆cfDNA甲基化测序数据的末端序列频率分布特征评价装置实施例中各模块的功能。

电子设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。电子设备200可包括，但不仅限于处理器220、存储器210。本领域技术人员可以理解，图6仅仅是电子设备200的示例，并不构成对电子设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如：电子设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器220可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器210可以是电子设备200的内部存储单元，例如：电子设备200的硬盘或内存。存储器210也可以是电子设备200的外部存储设备，例如：电子设备200上配备的插接式硬盘，智能TF存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器210还可以既包括电子设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及电子设备200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其他的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序211发送指令给相关的硬件完成，计算机程序211可存储于一计算机可读存储介质中，该计算机程序211在被处理器220执行时，可实现上述各个方法实施例的步骤。其中，计算机程序211包括：计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如：在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

应当说明的是，上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通相关人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定方法，其特征在于，包括：

接收待确定血浆样本的游离DNA甲基化测序数据；

将所述游离DNA甲基化测序数据与参考基因组进行比对，得到测序读段在参考基因组上的比对位置信息；

基于测序读段在参考基因组上的比对位置信息，得到所述游离DNA甲基化测序数据中血浆游离DNA片段的5’末端在参考基因组上的准确位置；

采用预设规则对测序读段进行过滤，所述预设规则包括：根据所述游离DNA甲基化测序数据与参考基因组的比对结果，保留比对质量值大于30的比对到参考基因组上唯一位置的读段；之后筛选片段大小在0bp~170bp的读段，并过滤掉一端或两端包含部分比对不上参考基因组序列但这些序列仍保留在比对结果中的读段；

基于过滤结果，截取FLAG列等于163的读段中血浆游离DNA片段的5’末端的4或6个碱基序列作为末端序列；

2.一种基于血浆游离DNA甲基化测序数据的末端序列频率分布特征评价方法，其特征在于，包括：

采用如权利要求1所述的基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定方法对待测血浆样本的末端序列频率分布特征进行确定；

3.如权利要求2所述的末端序列频率分布特征评价方法，其特征在于，所述末端序列频率分布特征评价方法还包括对所述末端序列频率分布特征评价模型进行预训练的步骤：

采用如权利要求1所述的基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定方法对训练血浆样本的末端序列频率分布特征进行确定，所述训练血浆样本包括健康人血浆样本和癌症患者血浆样本；

采用分位数归一化方法对所述训练血浆样本的末端序列频率分布特征进行处理；

对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维和特征筛选操作；

基于降维和特征筛选后的末端序列频率分布特征对末端序列频率分布特征评价模型进行创建；

将降维和特征筛选后的训练血浆样本的末端序列频率分布特征分别输入所述末端序列频率分布特征评价模型，完成对所述末端序列频率分布特征评价模型的训练。

4.如权利要求3所述的末端序列频率分布特征评价方法，其特征在于，采用分位数归一化方法对所述训练血浆样本的末端序列频率分布特征进行处理中，包括采用分位数归一化方法分别对健康人血浆样本和癌症患者血浆样本的末端序列频率分布特征进行处理的步骤，其中，

将一个末端序列作为一个特征，基于所述健康人血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；

针对每个样本分别确定其包含的各特征于各自排序结果中的位置，作为相应特征的排序等级；

根据所述排序等级，确定各样本的特征等级分布；

根据所有样本的排序结果，依次计算处于同一排序等级所有特征频率值的平均值；

根据各样本的特征等级分布，将样本各特征的频率值替换为对应排序等级的平均值；

采用分位数归一化方法对癌症患者血浆样本的末端序列频率分布特征进行处理的步骤包括：

将一个末端序列作为一个特征，基于所述癌症患者血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；

根据所述排序等级，确定各样本的特征等级分布；

根据各样本的特征等级分布，将各特征的频率值替换为健康人血浆样本中对应排序等级的平均值。

5.如权利要求3或4所述的末端序列频率分布特征评价方法，其特征在于，所述对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维和特征筛选操作中，采用PCA方法对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维，通过选择累积贡献度为前X%特征的方法进行特征筛选。

6.一种基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定装置，其特征在于，包括：

数据接收模块，用于接收待确定血浆样本的游离DNA甲基化测序数据；

序列比对模块，用于将所述游离DNA甲基化测序数据与参考基因组进行比对，得到测序读段在参考基因组上的比对位置信息；

末端位置确定模块，用于基于测序读段在参考基因组上的比对位置信息，得到所述游离DNA甲基化测序数据中血浆游离DNA片段的5’末端在参考基因组上的准确位置；

测序读段过滤模块，用于采用预设规则对测序读段进行过滤，所述预设规则包括：根据所述游离DNA甲基化测序数据与参考基因组的比对结果，保留比对质量值大于30的比对到参考基因组上唯一位置的读段；之后筛选片段大小在0bp~170bp的读段，并过滤掉一端或两端包含部分比对不上参考基因组序列但这些序列仍保留在比对结果中的读段；

末端序列确定模块，用于基于过滤结果，截取FLAG列等于163的读段中血浆游离DNA片段的5’末端的4或6个碱基序列作为末端序列；

7.一种基于血浆游离DNA甲基化测序数据的末端序列频率分布特征评价装置，其特征在于，包括如权利要求6所述的基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定装置，还包括：

8.如权利要求7所述的末端序列频率分布特征评价装置，其特征在于，所述末端序列频率分布特征评价装置还包括：

末端序列频率分布特征筛选模块，用于采用分位数归一化方法对所述训练血浆样本的末端序列频率分布特征进行处理；及用于对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维和特征筛选操作；

模型创建模块，用于基于降维和特征筛选后的末端序列频率分布特征对末端序列频率分布特征评价模型进行创建；

模型训练模块，用于将降维和特征筛选后的训练血浆样本的末端序列频率分布特征分别输入所述末端序列频率分布特征评价模型，完成对所述末端序列频率分布特征评价模型的训练。

9.如权利要求8所述的末端序列频率分布特征评价装置，其特征在于，所述末端序列频率分布特征筛选模块包括：

健康人血浆样本末端序列频率分布特征确定单元，用于将一个末端序列作为一个特征，基于所述健康人血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；针对每个样本分别确定其包含的各特征于各自排序结果中的位置，作为相应特征的排序等级；根据所述排序等级，确定各样本的特征等级分布；根据所有样本的排序结果，依次计算处于同一排序等级所有特征频率值的平均值；及根据各样本的特征等级分布，将样本各特征的频率值替换为对应排序等级的平均值；

癌症患者血浆样本末端序列频率分布特征确定单元，用于将一个末端序列作为一个特征，基于所述癌症患者血浆样本的末端序列频率分布特征，针对每个样本分别对其包含特征的频率值进行大小排序；针对每个样本分别确定其包含的各特征于各自排序结果中的位置，作为相应特征的排序等级；根据所述排序等级，确定各样本的特征等级分布；及根据各样本的特征等级分布，将各特征的频率值替换为健康人血浆样本中对应排序等级的平均值。

10.如权利要求8或9所述的末端序列频率分布特征评价装置，其特征在于，所述末端序列频率分布特征筛选模块包括：

降维单元，用于采用PCA方法对分位数归一化后的训练血浆样本的末端序列频率分布特征进行降维；

特征筛选单元，用于通过选择累积贡献度为前X%特征的方法进行特征筛选。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令，所述计算机指令能够被处理器执行以实现如权利要求1所述的基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定方法的步骤或如权利要求2-5任意一项所述的基于血浆游离DNA甲基化测序数据的末端序列频率分布特征评价方法的步骤。

12.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时实现如权利要求1所述的基于血浆游离DNA甲基化测序数据的末端序列频率分布特征确定方法的步骤或如权利要求2-5任意一项所述的基于血浆游离DNA甲基化测序数据的末端序列频率分布特征评价方法的步骤。