CN116403719A

CN116403719A - 一种乳腺结节恶性鉴别诊断模型的构建方法

Info

Publication number: CN116403719A
Application number: CN202211394717.XA
Authority: CN
Inventors: 罗静; 唐春; 李红梅; 朱炳芳; 任菊; 陈杨羲; 魏力
Original assignee: Chengdu Pumei Biotechnology Co ltd
Current assignee: Chengdu Pumei Biotechnology Co ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-07-07

Abstract

本申请提出^了一种乳腺结节恶性鉴别诊断模型的构建方法，涉及生物医疗技术领域。包括以下步骤：先利用乳腺癌组织、乳腺良性病变和正常组织描绘乳腺癌特异的表观遗传学全景图谱；然后利用乳腺癌患者组织对应的血浆样本和健康人血浆样本筛选乳腺癌特异的游离DNA甲基化模式；最后利用乳腺癌患者、良性疾病患者及正常人群的血浆样本构建基于游离DNA甲基化的人类乳腺良恶性结节判断模型。本申提出了多维度解析cfDNA、提高早期乳腺癌检测灵敏度的新思路，通过绘制乳腺癌组织表观遗传学全景图谱，揭示乳腺癌特异的游离DNA甲基化特征图谱，为探索建立高效的无创早筛技术拓展了理论基础。

Description

一种乳腺结节恶性鉴别诊断模型的构建方法

技术领域

本申请涉及生物医疗技术领域，具体而言，涉及一种乳腺结节恶性鉴别诊断模型的构建方法。

背景技术

临床上超声对乳腺疾病患者病情进行确定，可从多切面、多层次扫查患者乳腺，对患者病变情况进行明确，但实际操作中发现,受到图像清晰率、扫描深度等情况影响,利用常规超声对乳腺结节良恶性进行辨别存在一定局限性，容易发生误诊以及漏诊。开发新型乳腺结节良恶性鉴别诊断工具是解决这一问题的有效方式。

发明内容

本申请的目的在于提供一种乳腺结节恶性鉴别诊断模型的构建方法，此构建方法利用检测手段以及相关测序信息分析方法，结合分子生物学检测和机器学习手段，为乳腺癌患者的非侵入性诊断提供新的工具。

本申请解决其技术问题是采用以下技术方案来实现的。

本申请实施例提供一种乳腺结节恶性鉴别诊断模型的构建方法，包括以下步骤：

S1、先利用乳腺癌组织、乳腺良性病变和正常组织描绘乳腺癌特异的表观遗传学全景图谱；

S2、然后利用乳腺癌患者组织对应的血浆样本和健康人血浆样本筛选乳腺癌特异的游离DNA甲基化模式；

S3、最后利用乳腺癌患者、良性疾病患者及正常人群的血浆样本构建基于游离DNA甲基化的人类乳腺良恶性结节判断模型。

相对于现有技术，本申请的实施例至少具有如下优点或有益效果：

1、本申请聚焦我国女性乳腺癌独有的临床生物学特征，提出了多维度解析cfDNA、提高早期乳腺癌检测灵敏度的新思路，通过绘制乳腺癌组织表观遗传学全景图谱，揭示乳腺癌特异的游离DNA甲基化特征图谱，为探索建立高效的无创早筛技术拓展了理论基础。

2、本申请聚焦乳腺癌基因组特征与cfDNA高通量测序特点，创建了乳腺癌无创早筛技术的综合技术体系，集成应用了单链DNA建库方法、高效率探针合成以及捕获技术，融合应用基于群体遗传统计原理的突变丰度测度、基于深度学习的甲基化特征发现等方法，为探索建立新检验领域多学科合作模式积累了经验。

3、在本申请构建方法中，利用胸腺核苷酸多聚酶对单链DNA进行3’加尾、3’接头连接、线性扩增、以及5’随机引物接头连接的单链DNA建库方法，该方法对亚硫酸盐处理后的DNA的建库效率达到常规双链建库方法的5000%，且其覆盖度非常均一。本申请通过深度学习工具，构造了单分子甲基化单倍型特征学习网络，能以较高的效率在全基因组CpG岛范围内发现肿瘤特异的甲基化单倍型特征。该技术可能将检测的灵敏度提高到单分子级别。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例构建方法的流程示意图；

图2为本申请实验例中乳腺癌特异甲基化单倍型占比图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将对本申请实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考具体实施例来详细说明本申请。

游离DNA (cell-free DNA，cfDNA)当前被视为未来最具前景的肿瘤无创早筛标志物，基于病变或异常细胞来源的cfDNA与正常细胞来源cfDNA的差异，临床上应用血浆中cfDNA进行疾病诊断的主要领域包括但不限于妇产科、肿瘤液态活检及器官移植。肿瘤细胞突变等形式的cfDNA是高度特异性的标志物，被称之为循环肿瘤DNA(circulatingtumourDNA,ctDNA)，其半衰期在16min和2.5h之间，其定量检测可用来实时评估患者肿瘤负荷。然而，单纯依赖基因突变与拷贝数分析的cfDNA检测方法却无法满足乳腺癌早筛的临床需求，癌症早期筛查Grail公司于2018年美国临床肿瘤学会年会（ESMO）公布了基于cfDNA深度靶向测序、全基因组（甲基化）分析的早期乳腺癌（临床Ⅰ、Ⅱ）检测结果，三阴性乳腺癌较其他分子分型相对敏感，但仍不足40%。基于乳腺癌分子分型多样性、组织异质性以及遗传易感复杂性，本申请认为，多维度解析ctDNA方能提高乳腺癌诊断的敏感性。

表观遗传学修饰，包括甲基化修饰、核小体分布（片段化分析）等被认为是可以准确判断cfDNA细胞来源的一种诊断标志物。cfDNA分子除了携带有基因组序列信息外，还携带有不同细胞来源的表观遗传标记，包括但不限于DNA甲基化修饰。DNA甲基化是指DNA碱基上的腺嘌呤或胞嘧啶被加上了甲基化基团，DNA甲基化在胚胎发育、疾病发生等过程中均起到重要作用。基因的异常甲基化会导致肿瘤的发生，这种异常的 DNA 甲基化状态可能成为肿瘤诊断的潜在生物学标志物，且DNA甲基化修饰过程早于蛋白质翻译，相较于检测癌症相关蛋白表达水平，在肿瘤早期诊断中可能具有更大的价值。

cfDNA甲基化模式反映了机体发生着的细胞死亡事件重要信息，可以通过特定方法解析其组织来源与疾病状态（包含乳腺肿瘤）。DNA甲基化模式的改变出现在很多肿瘤发生的早期，且在血浆中的循环肿瘤DNA中已发现其含有肿瘤特异的DNA甲基化模式。异常DNA甲基化具有化学和生物学稳定性且甲基化模式通常在疾病进展过程中相对保守，基于cfDNA甲基化的肿瘤筛查手段取得较好的灵敏度及特异性，提示cfDNA甲基化在肿瘤诊断中有很好的应用潜能。

基于申请人对于上述理论的研究，本申请提出一种乳腺结节恶性鉴别诊断模型的构建方法，包括以下步骤：

在本申请的一些实施例中，上述S3步骤之后还包括对该判断模型进行扩大样本验证。

以下结合实施例对本申请的特征和性能作进一步的详细描述。

实施例

一种乳腺结节恶性鉴别诊断模型的构建方法，如图1所示，具体包括以下步骤：

1、采集50例乳腺良性病变患者的病变组织及配对正常组织/外周血白细胞，以及50例初诊乳腺癌患者（尽量覆盖各分子分型及小叶癌等特殊组织类型）的肿瘤组织及癌旁组织/外周血白细胞。使用亚硫酸盐转化，全基因组CpG岛探针组捕获测序，以获得全基因组CpG岛甲基化特征信息。根据统计学原理计算结合机器学习行CpG岛差异甲基化位点及区域分析、差异甲基化区域单倍型分析，以得到乳腺癌组织特异的表观遗传学修饰关键特征，描绘乳腺癌特异的表观遗传学全景图谱。

2、为了分析肿瘤组织来源的特异性表观遗传学修饰特征在血浆游离DNA（cfDNA）中的表达一致性，利用前述研究中来源于100例乳腺癌和乳腺良性病变患者的血浆样本以及来源于50例健康人群的血浆样本，进行cfDNA甲基化测序，检测分析cfDNA携带的表观遗传学信息。将cfDNA甲基化数据与其组织来源的表观遗传学修饰信息并进行比对，构建乳腺癌来源的cfDNA甲基化特征图谱，利用统计分析构建基于cfDNA甲基化的乳腺结节良恶性鉴别诊断模型。

3、应用盲法开展模型分析性能与临床效能验证：采集100例健康女性志愿者、100例乳腺良性病变患者以及100例乳腺癌患者（尽量覆盖各分子分型及小叶癌等特殊组织类型）的配对血浆及外周血白细胞，提前设盲，对血浆中游离DNA及白细胞基因组DNA行cfDNA甲基化测序和数据分析，测试前述研究中建立的基于cfDNA甲基化的乳腺结节良恶性鉴别诊断模型的灵敏性、特异度等相应指标。

在本实施例DNA 甲基化研究中，现有技术最常用的方法是亚硫酸盐测序法，但常规的亚硫酸盐处理造成的 DNA 损伤会极大降低建库效率，为得到更多有效数据需要相应的提高DNA 用量，但患者血液中cfDNA量往往有限，严重阻碍科研人员的相关研究。为解决这一问题，本申请实施例通过分子定向进化获得高效的修复酶和聚合酶，并优化修复体系，提高针对极端样本的建库效率，建立 Tequila 建库技术。Tequila 甲基化建库技术可对pg级、不同损伤类型的 DNA 进行高效建库；单管操作，2 小时建库；同时具有高模板利用率（＞95%）、高文库纯度、接头二聚体＜0.01%、低序列偏好等多项优势。

在本实施例中，甲基化特异单倍型的机器学习具体为：对于任意一组甲基化测序数据比对后的BAM文件，根据其生物学来源，将其分为实验组及对照组。对于任意一个感兴趣的任意基因组位置（下称“位点”），使用pysam软件包（Version: 0.11.2.2）从比对后BAM文件中提取覆盖该点的所有测序所得DNA片段，并抽取每个片段的：起始位置、终止位置、长度、基因型四个信息。这里的基因型，可以为DNA碱基序列多态性（单核苷酸多态性（SNP）、短插入、缺失（Indel））或DNA修饰的多态性（甲基化胞嘧啶修饰、羟甲基化胞嘧啶修饰、羧甲基化胞嘧啶修饰等）。特别地，对于每个参考基因组为胞嘧啶（C）的碱基位置，其取值可以是存在甲基化胞嘧啶修饰（写作‘1’），不存在甲基化胞嘧啶修饰（写作‘-1’），或未知（‘0’）三种不同情况。因此，任意一条测序所得DNA片段上的胞嘧啶甲基化修饰情况，可被表示为-1/0/1三字符构成的一个字符串。该字符串在基因组上的对应位置是可确定的。所有测序所得的、覆盖同样一个或更多胞嘧啶位点的DNA片段的甲基化修饰情况，可叠加构成一个矩阵R，其形如[0,1,-1;0,1,1;1,1,-1;…]，其中每行为一条DNA片段上测序所得的甲基化修饰情况（下称“甲基化单倍型”），每列为一个特定的胞嘧啶位点。同样地，对于任意两个或两个以上的参考基因组为胞嘧啶的碱基位置，可以遍历这些胞嘧啶位点上甲基化状态的组合，即所有的甲基化单倍型，构成一个矩阵H，形如[0,1,-1;0,1,1;1,1,-1;…]，其中任意一行为一种甲基化单倍型h。对于任意一个来自样本i的R[i]，进行正交矩阵分解R[i]=w[i]*H（利用R软件包即可计算），即可得到R[i]中不同甲基化单倍型的相对占比w[i]。对不同来源的R[i,j]（j为不同的来源），经统计后获得一组w[i,j,k]，利用R的广义线性回归模型（GLM软件包）计算不同j来源之间w[i,j,k]存在的稳定差异，以存在稳定差异的w[k]对应的单倍型h[k]作为某组织器官来源的特异甲基化单倍型。

在本实施例中，疾病特异甲基化差异分析―机器学习与深度学习的结合具体为：机器学习方法直接从数据中获得信息熵和散度作为描述替代传统统计学的方差和协方差，去除非显著差异的数据，找出所有组织与组织、肿瘤组织与正常组织之间的差异性甲基化区域，本申请所使用的机器学习算法在分析过程中，不仅能够容忍测序深度过浅、肿瘤异质性、肿瘤含量不同、样本数量过少所带来的噪音，寻找组织特异、疾病特异甲基化区域，而且能够对疾病病理分型进行区分。本申请的深度学习方法在此基础上，对发现的差异甲基化区域的甲基化单倍型信号进行分析，通过深度学习训练阶段将甲基化单倍型信号转换为数字信号，然后通过深度学习稀疏自编码降噪网络和主成分分析的方法将数字信号转化为甲基化单倍型模式输出。真实世界中，如一条游离DNA片段甲基化单倍型信号与肿瘤相同，则该游离 DNA 片段极有可能来自于肿瘤。

以34例正常、健康、非怀孕志愿者女性为对照，选取临床病理确诊的10例乳腺癌患者与12例卵巢癌患者，应用相应的组织、血浆及血细胞标本。通过全基因组甲基化捕获测序，首先计算乳腺癌特异的单位点甲基化变化，进而，利用机器学习模型，据此计算乳腺癌特异的甲基化单倍型，其结果如图2所示。从图2中可以看出，乳腺癌特异甲基化单倍型在乳腺癌组织中的占比显著地高于良性乳腺组织、卵巢癌组织、正常健康未孕女性外周血细胞及血浆游离DNA。

综上所述，本申请实施例的一种乳腺结节恶性鉴别诊断模型的构建方法，具有以下优点：

以上所描述的实施例是本申请一部分实施例，而不是全部的实施例。本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.一种乳腺结节恶性鉴别诊断模型的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种乳腺结节恶性鉴别诊断模型的构建方法，其特征在于，所述S3步骤之后还包括对该判断模型进行扩大样本验证。