CN115807083A - 结直肠癌基因突变的识别方法、设备和应用 - Google Patents

结直肠癌基因突变的识别方法、设备和应用 Download PDF

Info

Publication number
CN115807083A
CN115807083A CN202211033150.3A CN202211033150A CN115807083A CN 115807083 A CN115807083 A CN 115807083A CN 202211033150 A CN202211033150 A CN 202211033150A CN 115807083 A CN115807083 A CN 115807083A
Authority
CN
China
Prior art keywords
colorectal cancer
detection
primer
neural network
gene mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211033150.3A
Other languages
English (en)
Inventor
郭玮
王蓓丽
潘柏申
姜惠琴
陈馨宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Hospital Fudan University
Original Assignee
Zhongshan Hospital Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Hospital Fudan University filed Critical Zhongshan Hospital Fudan University
Priority to CN202211033150.3A priority Critical patent/CN115807083A/zh
Publication of CN115807083A publication Critical patent/CN115807083A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种结直肠癌基因突变的智能识别方法,包括:步骤一、提取得到目标DNA,对每个目标DNA至少设计两个结合目标DNA的探针及合宜的引物,制备对应的引物探针混合液;其中,所述引物的核苷酸序列的碱基类型为三种,所述引物上修饰有小分子化合物和能形成三维结构的核苷酸序列;步骤二、进行目标DNA的数字PCR反应;步骤三、根据所述目标DNA、引物三维结构的核苷酸序列图像、数字PCR反应聚类分析结果等进行神经网络模型的构建;步骤四、将待测人员的相关数据输入到构建的神经网络模型进行判定分类,得到待测人员结直肠癌基因突变的智能识别输出结果。本发明对结直肠癌基因突变的检测准确性高且具有高效性。

Description

结直肠癌基因突变的识别方法、设备和应用
技术领域
本发明属于基因检测的技术领域,具体涉及一种结直肠癌基因突变的智能识别方法、设备和应用。
背景技术
在结直肠癌的检测基因中,KRAS作为EGFR下游的信号分子,是众多信号通路上关键的激活因子。该基因的突变常见于结直肠癌患者中,KRAS基因突变常促使结直肠癌患者对抗EGFR抗体类药物产生耐药。因此,快速准确检测该基因突变情况,有助于患者选择有效的临床治疗方案。
发明内容
本发明实施例之一,一种结直肠癌基因突变的智能识别方法,包括:
步骤一、提取得到目标DNA,对每个目标DNA至少设计两个结合目标DNA的探针及合宜的引物,制备对应的引物探针混合液,其中,所述引物的核苷酸序列的碱基类型为三种,所述引物上修饰有小分子化合物和能形成三维结构的核苷酸序列;
步骤二、进行目标DNA的数字PCR反应;
步骤三、根据所述目标DNA、引物三维结构的核苷酸序列图像、数字PCR反应聚类分析结果等进行神经网络模型的构建;
步骤四、将待测人员相关数据输入到构建的神经网络模型进行判定分类,得到待测人员结直肠癌基因突变的智能识别输出结果。
本发明实施例的有益效果之一在于,对结直肠癌基因突变的检测准确性高且具有高效性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为根据本发明实施例之一的结直肠癌基因突变检测原理示意图。
图2为根据本发明实施例之一的结直肠癌基因位点KRAS突变位点的聚类分析图。
具体实施方式
临床上需要检测的肿瘤突变位点有近千个,结直肠癌的基因检测几乎以NGS平台为主。对于数字PCR的肿瘤基因突变的检测,由于其扩增重数的限制,仅覆盖少量位点,需在多个反应体系内完成。这导致了对同一患者临床样本的稀释,降低了最终检测的灵敏度。
根据一个或者多个实施例,一种结直肠癌基因突变的识别设备,该设备对于结直肠癌基因突变的检测步骤包括:
步骤一、提取得到目标DNA,对每个目标DNA至少设计两个结合目标DNA的探针及合宜的引物,制备对应的引物探针混合液;其中,所述引物的核苷酸序列的碱基类型为三种,所述引物上修饰有小分子化合物和能形成三维结构的核苷酸序列;
步骤二、进行目标DNA的数字PCR反应;
步骤三、根据所述目标DNA、引物三维结构的核苷酸序列图像、数字PCR反应聚类分析结果等进行神经网络模型的构建;
步骤四、将待测人员的相关数据输入到构建的神经网络模型进行判定分类,得到待测人员结直肠癌基因突变的智能识别输出结果。
这里的识别设备,可以是用于结直肠癌基因突变检测识别设备、数字PCR仪和/或类似计算机的电子设备,具体的检测过程包括以下步骤:
步骤一、目标DNA的提取和引物探针混合液的制备,包括,
S11、提取目标DNA,合成所述目标DNA检测用的引物和探针;
其中,针对每个所述目标DNA设计至少两个检测用引物,针对每个所述目标DNA设计至少两个检测用探针,所述检测用引物的核苷酸序列的碱基类型为三种;
S12、在所述检测用引物的5’端,添加能够形成三维结构的核苷酸序列,得到含三维结构的PCR扩增用引物;
步骤二、目标DNA的dPCR(数字PCR)检测,包括,
S21、将所述PCR扩增用引物和检测用探针共同溶解于核酸溶解用缓冲液中,得到引物探针混合液;
S22、配制PCR反应体系,然后进行PCR反应,所述PCR反应体系包括所述目标DNA和引物探针混合液;
S23、PCR反应结束后对检测数据进行分析,得到不同突变位点的基因类型的检测分析结果;
含三维结构的PCR扩增用引物的三维图像数据的获取,包括,
将所述PCR扩增用引物进行核磁共振检测,获取所述PCR扩增用引物的三维图像数据,并以步骤二所述不同突变位点的基因类型的检测分析结果作为所述PCR扩增用引物的三维图像数据的标签信息数据;
步骤三、结直肠癌基因突变的智能识别模型的构建,包括,
采用卷积神经网络对所述不同突变位点的基因类型的检测分析结果进行自动学习,构建结直肠癌基因突变的智能识别模型A,所述的智能识别模型A包括卷积神经网络模型,所述不同突变位点的基因类型的检测分析结果包括图像;
采用卷积神经网络对所述PCR扩增用引物的三维图像数据进行自动学习,构建结直肠癌基因突变的智能识别模型B,所述的智能识别模型B包括卷积神经网络模型;
步骤四、结直肠癌基因突变的智能识别,包括,
获取待测样本的外周血cfDNA,重复步骤一至二,获取不同突变位点的基因类型的检测分析结果,输入步骤四所述的结直肠癌基因突变的智能识别模型A;
获取待测样本的外周血cfDNA,重复步骤一至三,获取PCR扩增用引物的三维图像数据,输入步骤三所述的结直肠癌基因突变的智能识别模型B。
结直肠癌基因突变的智能识别输出结果,包括
结合所述的智能识别模型A的输出结果和智能识别模型B的输出结果,给出结直肠癌基因突变的智能识别输出结果。
实验结果表明,采用卷积神经网络模型对待测样本的基因类型的检测分析结果和PCR扩增用引物的三维图像数据进行自动学习、建模和结果输出,从而对待测人员结直肠癌基因突变情况进行智能识别,达到高效、准确以及节省人力的技术效果。
优选地,步骤三还包括:采用循环神经网络对步骤一所述目标DNA进行自动学习,构建结直肠癌基因突变的智能识别模型C,所述的智能识别模型C包括循环神经网络模型;所述的结直肠癌基因突变的智能识别输出结果包含智能识别模型C的输出结果。通过该优化改进,采用卷积神经网络模型对待测样本的基因类型的检测分析结果和PCR扩增用引物的三维图像数据进行自动学习、建模和结果输出,再加入循环神经网络模型对目标DNA基因突变信息的调取,进一步提高待测人群目标基因智能识别的准确性,从而对待测人员结直肠癌基因突变情况进行智能识别,达到高效、准确以及节省人力的技术效果。
优选地,步骤三还包括:采用卷积神经网络对步骤一所述PCR扩增用引物的三维图像数据进行自动学习,分割出三维结构部分与非三维结构部分,三维结构部分就是ROI,并对ROI的形状进行细化,得到初始ROI区;利用卷积神经网络算法提取这些ROI特征,并进行归一化处理。发明人已有的实验结果表明,通过卷积神经网络对PCR扩增用引物的三维图像数据的分割,得到数据特征信息更为准确,为准确抓取PCR扩增用引物的结构信息提供了分类基础。实验结果表明,通过该技术参数,进一步提高了待测人群目标基因智能识别的准确性。
优选地,步骤一所述含三维结构的核苷酸序列包含如SEQ ID NO.8所示的核苷酸序列。实验结果表明,选用含三维结构的核苷酸序列,可提高数字PCR的图像(其包含在不同突变位点的基因类型的检测分析结果当中)的保真性,为卷积神经网络模型的智能模型构建,提供了优异智能模型构建的基础数据。
优选地,步骤二所述引物探针混合液还包括别嘌呤醇、硫代磷酸寡核苷酸和次黄嘌呤核苷酸中的至少两种。发明人已有的实验结果表明,引物探针混合液选用别嘌呤醇、硫代磷酸寡核苷酸和次黄嘌呤核苷酸中的至少两种,可提高数字PCR的图像(其包含在不同突变位点的基因类型的检测分析结果当中)的保真性,为卷积神经网络模型的智能模型构建,提供了优异智能模型构建的基础数据。
优选地,步骤三还包括:采用卷积神经网络对步骤二所述不同突变位点的基因类型的检测分析结果进行自动学习,分割出聚类分析图像部分与非聚类分析图像部分,聚类分析图像部分就是VROI(very Region of Interest最感兴趣区域),并对VROI的形状进行细化,得到初始VROI区;利用卷积神经网络算法提取这些VROI特征,并进行归一化处理。实验结果表明,通过卷积神经网络对不同突变位点的基因类型的检测分析结果的分割,得到数据特征信息更为准确,为准确抓取不同突变位点的基因类型的检测分析结果的图像信息提供了分类基础。实验结果表明,通过该技术参数,进一步提高了待测人群目标基因智能识别的准确性。
优选地,步骤二所述所述PCR反应体系不包含三磷酸胞嘧啶脱氧核苷酸组分。实验结果表明,PCR反应体系不包含三磷酸胞嘧啶脱氧核苷酸组分,可提高数字PCR的图像(其包含在不同突变位点的基因类型的检测分析结果当中)的保真性,为卷积神经网络模型的智能模型构建,提供了优异智能模型构建的基础数据。
本发明实施例,提供的结直肠癌基因突变的智能识别技术方案,有效检测数字PCR反应体系中优选引物、充分有效利用数字PCR聚类分析的结果、同时利用好特定肿瘤致病基因的生物信息学数据信息。
本发明实施例的有益效果包括:
(1)在本公开的结直肠癌基因突变检测识别方法中,基于数字PCR技术,通过卷积神经网络模型确认引物的5’端是否形成稳定的三维结构,并通过识别结果判定,PCR反应体系是否存在非特异性扩增,结合PCR反应体系的聚类分析图,可以实现单反应体系多重扩增,并结合循环神经网络基因突变可能性的预判,将所有的前端信息结果输入到逻辑回归模型,输出判断待测人员的结直肠癌基因突变的相关检测信息。检测准确性高且具有高效性。
(2)本公开的结直肠癌基因突变检测识别方法,在输入数据中,选择探针的核苷酸序列长度为15~25bp,探针的核苷酸序列较短,使得PCR扩增的效率更高且使得碱基错配的可能性显著降低。此外,检测时背景荧光比较弱,进而使得检测结果更加准确;并且短的探针更适合检测血液等检测样本中的小片段cfDNA。
实施例中未注明具体条件的实验方法,通常按照国家标准测定。若没有相应的国家标准,则按照通用的国际标准、常规条件、或按照制造厂商所建议的条件进行。
如图1所示,本公开实施例之一,通过设计至少两个探针,多个不同探针均结合目标基因,且覆盖目标基因的不同区域,以实现对目标基因突变位点的全面检测。针对不同的突变型,其最终在聚类分析图上的不同位置处出现不同荧光显色的聚类:横坐标和纵坐标上对应的是不同通道上出现的不同突变型基因的荧光聚类;对角线上的是对应基因野生型的荧光聚类。
实施例1
对结直肠癌多种基因突变的智能识别检测设备,其检测过程包括以下步骤:
步骤一、样本DNA的提取和引物探针混合液的制备。
入组患者:对复旦大学附属中山医院2020年1月至2020年12月就诊的结直肠癌患者进行研究,根据血液结直肠癌肿瘤指标(包括KRAS)检查结果,指导晚期肠癌患者的靶向治疗方案。
实验过程:采用dPCR的技术,研究两组样本外周血cfDNA突变情况,操作的具体步骤包括以下内容:
①通过分离外周静脉血采集20mL血浆及白细胞;
②将采集样本进行低速离心,离心参数为:4℃,1900g,离心10min,获取血浆层;
③接着再高速离心,离心参数为:4℃,16000,离心10min,去除细胞残留;
④使用cfDNA提取试剂盒(QIAamp Circulating Nucleic Acid Kit(Qiagen,Valencia,CA,USA))获取cfDNA。
实验结果:在入组结直肠癌患者中,约55.1%发现了KRAS基因中的一种或几种突变。在所有检测到KRAS基因突变的晚期肠癌患者中,根据本实施例的计算机智能识别结果,协助医生优化晚期肠癌患者的靶向治疗方案。对于结直肠癌病人,其KRAS突变基因及突变位点,如表1-1所示。在反应体系中,通过数字PCR技术以及本实施例的特殊引物、探针和缓冲液,可实现对KRAS基因至少46个突变位点的检测。
表1-1本申请检测的结直肠癌相关目标基因的突变位点
Figure BDA0003818257770000071
结论:在结直肠癌患者的外周血cfDNA中发现KRAS基因突变,突变基因包含表1-1所述突变位点。KRAS基因的特定位点突变,可为结直肠癌患者的临床诊断和用药指导提供参考,提供更加合理有效的个体化指导。
步骤二、目标基因的数字PCR反应。
按照引物和探针的设计原则,根据Cosmic数据公布的人类KRAS野生型基因序列,以KRAS的突变位点为基础,来设计特异性引物和探针,如表1-2所示。突变型荧光探针5’端连接有荧光报告基团FAM,3’端连接有荧光淬灭基团BHQ1;野生型荧光探针5’端连接的荧光报告基团HEX,3’端连接有荧光淬灭基团BHQ2。荧光报告基团和淬灭基团还可以根据具体的平台进行合理选择。
表1-2、反应管中结直肠癌基因突变位点检测引物探针序列
引物探针名称 引物探针序列 序列号
KRAS-F1 CCGCCGCGGCCGCCGCCTAG SEQ ID NO.1
KRAS-R1 GCACCTGGGAGCCGCTGAGC SEQ ID NO.2
KRAS-F2 GCTGCCTCCGCCGCC SEQ ID NO.3
KRAS-R2 GGCCGGGGCGCCGCGGG SEQ ID NO.4
KRAS-P1 ACTGCCGCCGCCGCTGCTGCCT SEQ ID NO.5
KRAS-P2 AGCCGCCGCCACCTTCGCCGCCGCC SEQ ID NO.6
KRAS-P3 GCCGCCGCCACCTTCGCCGCCG SEQ ID NO.7
将上述针对表1-1所示目标基因位点的引物和探针设计的扩增用的初始修饰引物,送到生工生物工程(上海)股份有限公司合成得到PCR扩增用初始引物核苷酸序列1。将所述PCR扩增用初始引物核苷酸序列1经修饰处理后备用,所述修饰处理包括以下步骤:
S21、将PCR扩增用初始引物核苷酸序列1的5’端添加上核苷酸序列“TCCCGGGGGAGTATTGCGGAGGAGGGA(如SEQ ID NO.8所示)”,得到扩增用的初始修饰引物A。
S22、将合成得到的扩增用的初始修饰引物A,加入到缓冲液中加热至70℃,保温5min,然后冷却至30℃,保温25min,得到PCR扩增用引物核苷酸序列2。其中,缓冲液的组分为:290mM NaC1,4.5mM MgC12,18mM Tris(pH 7.3)。缓冲液中还包括10μM的小分子化合物,小分子化合物为别嘌呤醇和次黄嘌呤核苷酸(摩尔比为1:1.2),且小分子化合物和初始修饰引物的摩尔比为0.65:1.2。通过核磁共振技术,分别测定PCR扩增用初始引物核苷酸序列1和PCR扩增用引物核苷酸序列2,确认得到PCR扩增用引物核苷酸序列2的5’端序列存在三维结构,并获取得到PCR扩增用初始引物核苷酸序列1的图像数据和PCR扩增用引物核苷酸序列2的三维结构图像数据。
S23、将用于检测表1-1所示位点的上游引物、下游引物(即S22中的PCR扩增用引物核苷酸序列2)和用于检测表1所示位点的荧光探针1和荧光探针2(即合成得到的表2所述的各探针)共同溶解于TE溶液中,制成引物探针混合溶液。上游引物、下游引物、荧光探针在引物探针混合液中的浓度均为10μM。
引物探针混合液的配制方法为:将上游引物、下游引物、荧光探针1、荧光探针2和荧光探针3五种成分的干粉分别用TE缓冲液稀释至各探针和各引物的浓度分别为100μM,备用。配制PCR反应体系后进行PCR反应,PCR反应体系包括样本DNA和引物探针混合液。具体地,按照表1-3配制PCR反应体系;其中,PCR Mix购买自NEB(北京)有限公司,并加入终浓度0.1%的Triton-X-100,1U热稳定焦磷酸酶,5μg/μL的BSA,按照ddH2O、PCR mix、探针、引物、模板DNA的顺序,将上述样品按照表1-3中反应体系中20μL的添加量加入0.2mLPCR管中,使用轻柔涡旋将混合体系混匀15s,并通过短时离心将溶液收集到试管底部。将配制好的不同比例的反应体系上样到PCR芯片上,形成微反应单元。将芯片放入数字PCR仪中,按照表1-4中PCR反应条件进行PCR反应。其中,所述PCR Mix中,不包含三磷酸胞嘧啶脱氧核苷酸组分。
表1-3、反应体系(总体积20μL)
组分 终浓度 添加量
PCR Mix / 9.6μL
上游引物(10μM) 0.4μM 0.8μL
下游引物(10μM) 0.4μM 0.8μL
荧光探针1(10μM) 0.2μM 0.4μL
荧光探针2(10μM) 0.2μM 0.4μL
荧光探针3(10μM) 0.2μM 0.4μL
模板DNA 1ng/μL 2μL
ddH<sub>2</sub>O / 5.6μL
表1-4、PCR反应条件
Figure BDA0003818257770000091
Figure BDA0003818257770000101
步骤三、PCR反应结束后对检测数据进行分析,得到不同位点的基因类型。
步骤二PCR扩增结束后,通过电脑分析,对两个通道的有效荧光阳性点进行判读,并对结果进行分析,如图2所示。图2为临床样本检测结果图(即结直肠癌基因位点KRAS突变位点的聚类分析),纵坐标为FAM荧光通道,横坐标为HEX荧光通道。由实验结果分析可看出,通过聚类分析可以检测出对应的信号,对应于表1所示全部46个基因位点。
通过将突变信号(MUT)除以对应的野生型信号(WT)可以计算出目标基因群的突变丰度。进一步地,将本实施例与现有方法学(NGS)结果的一致性比较结果发现,通过本实施例共完成143例临床血液样本检测(每例都做过NGS检测),其中与NGS结果一致的有133例,不一致的有8例,一致率为94%。
针对结直肠癌的用于同时识别多种基因突变的检测试剂盒,包括PCR扩增用引物和探针、TE缓冲液和PCR混合液。PCR混合液购买自NEB(北京)有限公司,并加入终浓度0.1%的Triton-X-100,1U热稳定焦磷酸酶,5μg/μL的BSA,还包括PCR mix,其中PCR mix不包括三磷酸胞嘧啶脱氧核苷酸组分。
检测试剂盒还包括阳性质控品和阴性质控品。阳性质控品的制备方法为:表1所示每一基因突变位点野生型和突变型的序列各200bp,合成后,分别装入质粒载体pET-23d(+)(Promega)。使用Qubit 3.0进行定量,计算两种类型质粒的拷贝数浓度,根据拷贝数比例1:3000,1:2000,1:1000,1:500,1:200,1:100,1:50,1:10混合两种质粒,之后通过超声将质粒混合物打断为约180bp的片段,定量到20ng/μL,作为梯度阳性质控品。阴性质控品由上述含有野生型的质粒单独构成,然后采用同样方法打断为约180bp的片段,定量到20ng/μL,作为阴性质控品。
步骤四、针对结直肠癌多种基因突变的进行基于深度学习自动识别的检测。
S41、读取实施例一步骤二S22中PCR扩增用初始引物核苷酸序列1的图像数据和PCR扩增用引物核苷酸序列2的三维结构图像数据;
S42、对PCR扩增用初始引物核苷酸序列1的图像数据和PCR扩增用引物核苷酸序列2的三维结构图像数据进行预处理;
S43、选取图像利用卷积神经网络(CNN)自动学习分割出感兴趣区域(region ofinterest,ROI),并对ROI形状进行细化;
S44、将步骤S43提取出来的ROI,平均分成p组,利用CNN提取这些ROI的特征,并进行归一化。
S45、选出步骤S44中p-1组数据做训练集,剩余一组做测试,通过CNN训练出模型进行测试;
S46、重复步骤S45,做p次交叉检验,得到识别模型的最佳参数,最终确定基于深度卷积神经网络自动识别三维结构的识别系统。
所述过程S41具体为:读取实施例一步骤二S22中的PCR扩增用初始引物核苷酸序列1的图像数据和PCR扩增用引物核苷酸序列2的三维结构图像数据,包括至少5000张PCR扩增用初始引物核苷酸序列1的图像数据和至少5000张PCR扩增用引物核苷酸序列2的三维结构图像数据;在操作进行步骤S45时,需要先读入训练集中的所有图片(即p-1组数据)训练出基于深度卷积神经网络自动识别结直肠良恶性的智能系统,然后读入剩余1组的数据测试该系。使用该系统进行自动识别PCR扩增用引物核苷酸序列的三维结构图像数据时,只需读入要检测的PCR扩增用引物核苷酸序列的相关图像数据即可。
所述过程S42具体为:将过程一读取的PCR扩增用初始引物核苷酸序列1的图像数据和PCR扩增用引物核苷酸序列2的三维结构图像数据,先进行高斯滤波去噪,得到预处理后的增强图像数据。
所述过程S43具体为:
第1步,选取经过程二预处理后的图像数据各5000份,包括PCR扩增用引物核苷酸序列2的三维结构图像数据5000份;
第2步,由专家截取出ROI部分与非ROI部分,然后通过CNN训练出自动分割的模型。在这里,三维图像的卷积神经网络是由13层卷积层,2层下采样层组成的网络结构,卷积核的大小分别为:第一层为13x13x13,第二层与第三层为5x5x5,其余各层为3x3x3。步长分别是:前两个卷积层是2,其余的都是1。下采样层的大小都是3x3x3,步长都是2。二维图像的卷积神经网络是由13层卷积层,2层下采样层组成的网络结构。卷积核的大小分别为:第一层为13x13,第二层与第三层为5x5,其余各层为3x3。步长分别是:前两个卷积层是2,其余的都是1。下采样层的大小都是3x3,步长都是2。
通过CNN训练出自动分割的模型的具体方法为:
(1)通过CNN的卷积层与下采样层自动学习特征,并提取出特征,具体步骤为:
步骤A:在一个卷积层,上一层的特征maps被一个能够学习的卷积核进行卷积,然后通过一个激活函数,就能得到输出特征map;
每一个输出是卷积核卷积一个输入或者组合多个卷积输入的值(这里我们选择的是组合卷积多个出入maps的值):
Figure BDA0003818257770000121
其中,*表示卷积运算符;l表示层数;i表示l-1层的第i个神经元节点;j表示l层的第j个神经元节点;Mj表示选择的输入maps的集合;
Figure BDA0003818257770000122
是输出;
Figure BDA0003818257770000123
是指l-1层的输出,作为l1层的输入;f是激活函数,这里取sigmoid函数
Figure BDA0003818257770000124
作为激活函数;e表示欧拉数2.718281828,ex就是指数函数;k是卷积算子;b是偏置;每一个输出map会给一个额外的偏置b,但是对于一个特定的输出map,卷积每个输入maps的卷积核都是不一样的。这一步还需要进行梯度计算,以更新灵敏度。灵敏度用于表示b变化多少,误差会变化多少:
Figure BDA0003818257770000125
其中,l表示层数;j表示l层的第j个神经元节点;*表示每个元素相乘;δ表示输出神经元的灵敏度,即偏置b的变化率;sl=Wlxl;W为权重;b为偏置。f是激活函数,这里取sigmoid函数
Figure BDA0003818257770000126
作为激活函数;e表示欧拉数2.718281828,ex就是指数函数,f’(x)是f(x)的导函数,如果f取sigmoid函数则f’(x)=(1-f(x))*f(x);
Figure BDA0003818257770000127
表示各层共享的权值;up(.)表示一个上采样操作,如果下采样的采样因子是n的话,上采样操作就是将每个像素水平和垂直方向上拷贝n次,这样就能恢复原来的大小了;然后对l层中的灵敏度map中的所有节点进行求和,快速计算偏置b的梯度:
Figure BDA0003818257770000128
其中,l表示层数;j表示l层的第j个神经元节点;b表示偏置;δ表示输出神经元的灵敏度,即偏置b的变化率;u,v表示输出maps的(u,v)位置;E是误差函数,这里
Figure BDA0003818257770000131
C表示标签的维数。如果是两分类的问题,则标签就可以记为yh∈{0,1},此时C=1,也可以记为yh∈{(0,1),(1,0)},此时C=2;所述
Figure BDA0003818257770000132
表示第n个样本对应标签的第h维;所述
Figure BDA0003818257770000133
表示第n个样本对应的网络输出的第h个输出。
最后利用BP算法,计算卷积核的权值:
Figure BDA0003818257770000134
其中,W是权重参数;E是误差函数,且
Figure BDA0003818257770000135
C表示标签的维数,如果是两分类的问题,则标签就可以记为yh∈{0,1},此时C=1,也可以记为yh∈{(0,1),(1,0)},此时C=2;所述
Figure BDA0003818257770000136
表示第n个样本对应标签的第h维;所述
Figure BDA0003818257770000137
表示第n个样本对应的网络输出的第h个输出;所述η是学习率,即步长;由于很多连接的权值是共享的,因此对于一个给定的权值,需要对所有与该权值有联系的连接对该点求梯度,然后对这些梯度进行求和:
Figure BDA0003818257770000138
其中,l表示层数;i表示l层的第i个神经元节点;j表示l层的第j个神经元节点;b表示偏置,δ表示输出神经元的灵敏度,即偏置b的变化率;u,v表示输出maps的(u,v)位置;E是误差函数,这里
Figure BDA0003818257770000139
C表示标签的维数,如果是两分类的问题,则标签就可以记为yh∈{0,1},此时C=1,也可以记为yh∈{(0,1),(1,0)},此时C=2;
Figure BDA00038182577700001310
表示第n个样本对应标签的第h维;
Figure BDA00038182577700001311
表示第n个样本对应的网络输出的第h个输出;
Figure BDA00038182577700001312
是卷积核;
Figure BDA00038182577700001313
Figure BDA00038182577700001314
中的元素在卷积的时候与
Figure BDA00038182577700001315
逐元素相乘的patch,即所有与卷积核大小相同的图片中所有的区域块,输出卷积map的(u,v)位置的值是由上一层的(u,v)位置的patch与卷积核
Figure BDA00038182577700001316
逐元素相乘的结果。
步骤B:下采样层有N个输入maps,就有N个输出maps,只是每个输出map都变小了,则有:
Figure BDA00038182577700001317
其中,f是激活函数,这里取sigmoid函数
Figure BDA00038182577700001318
作为激活函数,e表示欧拉数2.718281828,ex就是指数函数;
Figure BDA0003818257770000141
表示各层共享的权值;down(.)表示一个下采样函数;对输入图像的不同nxn的块的所有像素进行求和,这样输出图像在两个维度上都缩小了n倍(这里就是将输入图像数据的每个元素取定一个3x3x3大小的块,然后将其中所有元素求和作为该元素在输出图像中的值,从而使得输出图像在各个维度上都缩小了3倍);每个输出map都对应一个属于自己的权重参数β(乘性偏置)和一个加性偏置b;通过梯度下降方法来更新参数β和b:
Figure BDA0003818257770000142
Figure BDA0003818257770000143
Figure BDA0003818257770000144
其中,所述conv2是二维卷积算子;所述rot180是旋转180度;所述′full′是指进行完全卷积;所述l表示层数;所述i表示l层的第i个神经元节点;所述j表示l层的第j个神经元节点;所述b表示偏置;所述δ表示输出神经元的灵敏度,即偏置b的变化率;所述u,v表示输出maps的(u,v)位置;所述E是误差函数,即
Figure BDA0003818257770000145
所述C表示标签的维数,如果是两分类的问题,则标签就可以记为yh∈{0,1},此时C=1,也可以记为yh∈{(0,1),(1,0)},此时C=2;所述
Figure BDA0003818257770000146
表示第n个样本对应标签的第h维;所述
Figure BDA0003818257770000147
表示第n个样本对应的网络输出的第h个输出;所述β是权重参数(一般取值在[0,1]);所述down(.)表示一个下采样函数;所述
Figure BDA0003818257770000148
是第l+1层的卷积核;所述
Figure BDA0003818257770000149
是l-1层的输出的第j个神经元节点;所述sl=W1xl-1+bl,其中W是权重参数,b是偏置,
Figure BDA00038182577700001410
是s1的第j个分量。
步骤C:CNN自动学习特征map的组合,则第j个特征map组合为:
Figure BDA00038182577700001411
s.t.∑iaij=1,and 0≤aij≤1 (11)
其中,符号*表示卷积运算符;所述l表示层数;所述i表示l层的第i个神经元节点;所述j表示l层的第j个神经元节点;所述f是激活函数,这里取sigmoid函数
Figure BDA0003818257770000151
作为激活函数,e表示欧拉数2.718281828,ex就是指数函数;所述
Figure BDA0003818257770000152
是第l-1层输出的第i个分量;所述Nin表示输入的map数;所述
Figure BDA0003818257770000153
是卷积核;所述
Figure BDA0003818257770000154
是偏置;所述aij表示l-1层的输出map作为l层的的输入时,l-1层得到第j个输出map的其中第i个输入map的权值或者贡献。
(2)利用(1)中提取的特征结合softmax自动识别出结节,确定好自动分割的模型;具体softmax识别过程就是给定一个样本,就输出一个概率值,该概率值表示的是这个样本属于类别几的概率,损失函数为:
Figure BDA0003818257770000155
其中,所述m表示共有m个样本;所述c表示这些样本总共可分为c类;所述
Figure BDA0003818257770000156
是一个矩阵,每一行是一个类别所对应的参数,即权重与偏置;所述1{·}是一个指示性函数,即当大括号中的值为真时,该函数的结果为1,否则其结果为0;所述λ是平衡保真项(第一项)与正则项(第二项)的参数,这里λ取正数(根据实验结果调节其大小);所述J(θ)是指系统的损失函数;所述e表示欧拉数2.718281828,ex就是指数函数;所述T是表示矩阵计算中的转置运算符;lg表示自然对数,即以欧拉数为底的对数;n表示权重与偏置参数的维度;x(i)是输入向量的第i维;y(i)是每个样本标签的第i维;然后利用梯度求解:
Figure BDA0003818257770000157
其中,
Figure BDA0003818257770000158
所述m表示共有m个样本;所述
Figure BDA0003818257770000159
是一个矩阵,每一行是一个类别所对应的参数,即权重与偏置;所述1{·}是一个指示性函数,即当大括号中的值为真时,该函数的结果为1,否则其结果为0;所述λ是平衡保真项(第一项)与正则项(第二项)的参数,这里λ取正数(根据实验结果调节其大小);所述J(θ)是指系统的损失函数;
Figure BDA0003818257770000161
是J(θ)导函数;所述e表示欧拉数2.718281828,ex就是指数函数;所述T是表示矩阵计算中的转置运算符;In表示自然对数,即以欧拉数为底的对数;x(i)是输入向量的第i维;y(i)是每个样本标签的第i维。
这里使用的是一种新的Softmax分类器,即只有两分类的Softmax分类器,对于一张PCR扩增用引物核苷酸序列的图像数据来说,根据softmax给出的概率可以得到将PCR扩增用引物的所有的三维结构与非三维结构区分开的一个概率图,根据此图可以得到了对结直肠癌基因突变的数字PCR检测的准确性的输出结果。
(3)利用CNN自动分割所有PCR扩增用引物核苷酸序列的图像数据,即区分出PCR扩增用引物的三维结构与非三维结构区域,并对分割出的三维结构形状进行细化,即通过腐蚀、膨胀形态学算子进行填洞以及去掉与三维结构区域(非三维结构区域)的连接。
第3步,利用第2步得到的模型对所有的PCR扩增用引物的三维结构图像数据(即10000张图像数据)进行自动分割,得到ROI,即所有的PCR扩增用引物图像数据。
所述过程S44具体为:将过程三自动分割出的ROI平均分成p组,对数据进行归一化,即自动分割出结节之后,提取出结节的特征,对这些特征进行线性变换,使结果值映射到[0,1]。
所述过程S45具体为:利用CNN训练识别模型,对所有ROI提取特征(具体过程与过程三自动分割中提取特征过程的方法是一样的,只不过这里的对象只是针PCR扩增用引物核苷酸序列2的三维结构图像数据,网络结构比自动分割时少了三个卷积层,多了3层全连接层,神经元节点数分别为64,64,1;卷积核的大小分别为:第一层为14x14x14,第二层与第三层为5x5x5,其余各层为3x3x3;步长分别是:前三个卷积层是2,其余的都是1;下采样层的大小都是3x3x3,步长都是2;而自动分割部分是针对PCR扩增用引物图像数据非三维结构区域与三维结构区域同时进行提取特征)。
本实施例采用一种新的Softmax分类器,即只有两分类的Softmax分类器,求解一个损失函数的最优值,即优化J(θ),Softmax分类器的类别数p等于2(即三维结构区与非三维结构区);通过梯度下降方法就能得到属于对结直肠癌基因突变的数字PCR检测的准确性的概率,具体过程与过程三中自动分割过程的方法是一样(只不过这里就是根据这些概率预测出一个分类标签,也就对一个PCR扩增用引物的图像数据进行识别)。
所述过程S46具体为:重复过程S45的实验,即对于p组数据,每次选出p-1组数据训练,余下的做测试,最终得到识别模型的最佳参数,从而就得到基于深度卷积神经网络自动识别PCR扩增用引物图像数据中三维结构的辅助诊断系统。将需要识别的PCR扩增用引物图像数据输入到这个辅助诊断系统,即可获得对结直肠癌基因突变的数字PCR检测的准确性。
步骤五、针对结直肠癌多种基因突变的进行基于深度学习自动识别的检测
重复步骤一至步骤四的实验过程,不同之处在于,步骤S41读取的图像数据更换为实施例一步骤三图2的聚类分析的图像数据,卷积神经网络模型的参数改为二维图像的卷积神经网络模型的参数,其余技术参数相同。
步骤六、结合步骤四和步骤五的输出结果,给出结直肠癌基因突变的智能识别结果数据。
实施例2
针对结直肠癌多种基因突变的智能识别检测设备的检测过程包括以下步骤:
步骤一、输入待检测的基因检测VCF文件以及HPO表型,根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;
步骤二、对于每一种基因变异,将该基因变异的特征值输入训练好的BP神经网络模型得到该基因变异的致病性综合分析结果,BP神经网络模型包括输入层、中间层以及输出层的三层结构,其中输入层节点数目与样本的特征数目相同,中间层节点数目大于输入层节点数目(缺省值为输入层节点数目的两倍),输出层仅有一个节点。BP神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系;按照致病性综合分析结果从高到低进行排序,确定每个基因变异的致病性优先级,按优先级顺序输出每个基因变异及其致病性综合分析结果。
基于BP神经网络的基因突变致病性检测方法利用各种基因突变的致病性分析结果,构建若干神经网络的输入特征,并利用已知致病基因的基因检测VCF文件和HPO表型信息产生训练样本集,训练结直肠癌基因突变的BP神经网络模型,将这些特征与基因变异的致病性之间的关系用网络权重表示出来,从而能够根据基因变异的特征,预测出基因突变致病性的综合分析结果。根据基因检测VCF文件以及对应的HPO表型为输入,获取各个基因变异的特征值,这些特征值可在现有的工具软件的结果上计算获得,例如,可在GTX.Digest软件(https://digest.gtxlab.com/)的注释结果的基础上计算获得。各个基因变异的特征值包括:
1、用于该变异在Clinvar数据库(http://www.clinvar.com/)有无相应结果的特征;无为0,有按致病等级取值为1,2,3。
2、用于表示用户输入表型和当前变异基因对应表型的匹配度的特征GeneHPO;GeneHPO的取值区间为[0,1]。特征GeneHPO的值按如下方式获取:令用户输入的HPO表型集合为IHPO;根据HPO数据集,检索与当前变异基因相关的HPO表型集合为GHPO,GeneHPO特征的取值按如下方式计算:
Figure BDA0003818257770000181
式中,X表示特征GeneHPO的值,GHPO为HPO数据集中与当前变异基因相关的HPO表型集合,IHPO为用户输入的HPO表型集合,y为参数,预设的一个很小的值,缺省为0.01,避免分母为零的情况,||表示集合中元素的个数。
3、用于表示当前变异基因在OMIM数据库中是否有对应疾病的特征InOmim;该特征的值为布尔值,如果有则为取值1,否则取值为0。
4、用于表示当前变异基因在OMIM疾病库中对应疾病的HPO和用户输入的HPO是否相匹配的特征OmimHPO;该特征的值为布尔值,如果InOmim中的取值为1,则获取这些OMIM疾病对应的HPO集合,如果该集合与用户输入的HPO集合有交集,则取值为1,否则取值为0。
5、用于表示当前基因变异在多种人群数据库中出现的最大频率的特征MaxMAF;特征MaxMAF的取值区间为[0,1],本实施例中选取六个与东亚人群密切相关的人群数据库,分别为ExAC_ALL,gnomAD_exome_ALL,gnomAD_exome_EAS,1000g2015aug_eas,ExAC_EAS,esp6500siv2_all,MaxMAF的值为当前基因变异在这六个人群数据库中群体频率的最大值。
6、用于表示蛋白质功能预测软件SIFT预测结果的特征SIFT,取值规范到[0,1]区间,值越大表示变异的危害性越大。
7、用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2,取值规范到[0,1]区间,值越大表示变异的危害性越大。
8、用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster,取值规范到[0,1]区间,值越大表示变异的危害性越大。
9、用于表示保守性预测软件GERP++_RS结果的特征EvoRate。
10、用于表示当前基因变异是否位于蛋白质的功能区域的特征Domain;特征Domain的值为布尔值,如果是,则取值为1,否则取值为0。
11、用于表示表示当前基因变异是否位于重复区域的特征RMSK。特征RMSK的值为布尔值,如果是,则为1,否则取值为0。
12、用于表示当前变异的接合性与变异基因对应疾病的遗传性是否一致的特征Inherit,如果相一致,则取值为1,否则取值为0。
本实施例中,按照致病性综合分析结果从高到低进行排序以确定每个基因变异的致病性优先级的步骤,使得结果更加直观。
在本实施例中,BP神经网络模型的构建过程包括:
S1)产生训练样本:
(1)获取若干基因检测VCF文件、每个基因检测VCF文件对应的HPO表型和已知的致病基因;
(2)获取基因突变的特征值:根据每个基因检测VCF文件以及HPO表型获取各个基因突变的特征值;
(3)确定致病基因突变样本:对于每个基因检测VCF文件中致病基因所对应的所有突变,计算它们的突变注释评分P_Score值,取突变注释评分P_Score值最大的突变为致病基因突变,将该基因突变入选为一个训练样本,并令其致病性综合分析值为第一标签值(本实施例中取值为1)。
(4)确定非致病基因突变样本:对于每个基因检测VCF文件,随机选取2(可根据需要指定)个非致病基因突变作为训练样本,并令其致病性综合分析值为第二标签值(本实施例中取值为0)。
S2)训练神经网络模型:利用训练样本集完成神经网络模型的训练,使得神经网络模型被建立各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。
本实施例中,步骤S1)中突变注释评分P_Score的计算函数表达式如下:
P_Score=β1·Protein+β2·(1-10*seg(MaxMAF))+β3·Clinvar/3;其中,β1,β2,β3分别为三个权重参数,Protein为蛋白质功能预测软件的最大预测值,seg(MaxMAF)为特征MaxMAF的转换结果,Clinvar为用于变异有无Clinvar结果的特征,蛋白质功能预测软件的最大预测值Protein取用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT、用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2、用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster三者中的最大值,特征MaxMAF的转换结果为在特征MaxMAF小于等于预设门槛值时取原值否则取预设门槛值。其中三个权重参数β1,β2,β3分之和为1,即:β1+β2+β3=1。默认地,β1=0.45,β2=0.35,β3=0.2。蛋白质预测值Protein取SIFT,PolyPhen2,MTaster三个特征值中最大的一个,即:Protein=max(SIFT,PolyPhen2,MTaster);seg(Max MAF)表示对特征值Max MAF进行如下变换:
Figure BDA0003818257770000201
综上所述,本实施例提出了生成基因突变特征集的方法和产生训练样本集的方法,从而能够通过神经网络模型对训练样本集进行学习,获取特征和类别之间的内在关联,实现了利用神经网络进行基因突变致病性综合分析预测。该方法不仅克服了人工分析的主观性缺陷,而且能够综合考虑影响基因突变致病性的各种因素,使得综合分析的结果更为客观有效,大大提高了对基因突变致病性分析的准确性,提高了基因解读的效率。
本实施例还提供一种基于神经网络的基因突变致病性检测系统,包括:
输入程序单元,用于输入待检测的基因检测VCF文件以及HPO表型;特征值提取程序单元,用于根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;致病性综合分析程序单元,用于对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。
本实施例还提供一种基于神经网络的基因突变致病性检测系统,包括计算机设备,该计算机设备被编程或配置以执行前述基于神经网络的基因突变致病性检测方法的步骤。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述基于神经网络的基因突变致病性检测方法的计算机程序。
实施例3
一种结直肠癌基因突变的智能识别方法,其包括以下步骤:
健康人和结直肠癌患者的数据特征的临界诊断值,通过以下方法获得:纳入N个临床已知健康个体(N≥5000)以及M个临床已知直肠癌患者(M≥5000)作为测试样本人群,采集测试样本人群的外周血cfDNA,并根据实施例1所述的方法提取KRAS基因数据,获取所有个体的KRAS基因数据的数据特征信息,所述的KRAS基因数据的数据特征信息包括实施例1获取的不同突变位点的基因类型的检测分析结果的卷积神经网络模型输出结果、实施例1获取的含三维结构的PCR扩增用引物的三维图像数据的卷积神经网络模型输出结果、和实施例2的结直肠癌基因突变的BP神经网络模型的输出结果,然后进行基于KRAS基因突变概率的统计学分类(何贤英,赵志,温兴煊,等.Logistic回归中连续型自变量离散化为二分类变量时适宜分界点的确定.中国卫生统计,2015,32(2):275-277.),得到预设的结直肠癌基因突变的智能识别的逻辑回归模型:H=((an×Cnn1+bn×Cnn2+cn×Bp)÷(am+bm+cm)+d×ln(an+bn+cn),Cnn1为实施例1获取的不同突变位点的基因类型的检测分析结果的卷积神经网络模型输出结果,Cnn2为实施例1获取的含三维结构的PCR扩增用引物的三维图像数据的卷积神经网络模型输出结果,Bp为实施例2的结直肠癌基因突变的BP神经网络模型的输出结果,a、b、c、d、m、n的取值为-10~10之间,ln()为以e为底数的对数函数,Cnn1、Cnn2和Bp的取值包括进行归一化预处理后的数值,ln()为以e为底数的对数函数;最终,经实验将预设的结直肠癌基因突变的智能识别的逻辑回归模型的参数进行赋值:a、b、c、d分别赋值为1.5、0.9、1.2、10,n赋值为2.3,m赋值为1.5。
实施例4
一种结直肠癌基因突变的智能识别方法,其包括以下步骤:
在实验中,使用了实施例3所述的逻辑回归模型,选用了2000个样本数据,对构建的预设的结直肠癌基因突变的智能识别的逻辑回归模型进行评价,获得预设的结直肠癌基因突变的智能识别的逻辑回归模型评价的实验数据,具体如表4-3所示;实验结果表明,预设的结直肠癌基因突变的智能识别的逻辑回归模型的准确度为99.4%,敏感度为98.8%,特异度为99.6%。
表4-3.预设的结直肠癌基因突变的智能识别的逻辑回归模型的评价
Figure BDA0003818257770000221
其中,准确度=TP/TP+FP,敏感度=TP/TP+FN,特异度=TN/TN+FP。
在本实施例一些实施方式中,针对表1-2中的探针,只选取KRAS-P1、KRAS-P2、KRAS-P3中的两种。
实施例5
本实施例主要是针对结直肠癌多种基因突变的智能识别检测方法,采用实施例3所述的的智能识别检测方法,与实施例3的不同之处在于:采用的实施例1的S22步骤缓冲液的组分还包括10μM的小分子化合物,小分子化合物为别嘌呤醇和次黄嘌呤核苷酸(摩尔比为1:2.5),且小分子化合物和初始修饰引物的摩尔比为2:1.2。通过核磁共振技术,分别测定PCR扩增用初始引物核苷酸序列1和PCR扩增用引物核苷酸序列2,确认得到PCR扩增用引物核苷酸序列2的5’端序列存在三维结构,并获取得到PCR扩增用初始引物核苷酸序列1的图像数据和PCR扩增用引物核苷酸序列2的三维结构图像数据。
在一些实施方式中,所述的小分子化合物可采用别嘌呤醇、硫代磷酸寡核苷酸和次黄嘌呤核苷酸中的两种,二者的摩尔比为1:1.2~2.5之间。所述的小分子化合物和初始修饰引物的摩尔比为0.65~2:1.2。
在一些实施方式中,所述的小分子化合物可采用别嘌呤醇、硫代磷酸寡核苷酸和次黄嘌呤核苷酸,三者的摩尔比为1:1.2~2.5:2~3之间。所述的小分子化合物和初始修饰引物的摩尔比为0.65~2:1.2。
在本公开中,实施例1-5所述的结直肠癌基因突变的智能识别方法,都可应用于计算机设备、可读存储介质,用于结直肠癌基因突变的智能识别。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种结直肠癌基因突变识别方法,其特征在于,包括以下步骤,
步骤一、提取目标样本DNA,制备引物探针混合液,具体包括:
S11、提取目标DNA,合成所述目标DNA检测用的引物和探针;
其中,针对每个所述目标DNA设计至少两个检测用引物,针对每个所述目标DNA设计至少两个检测用探针,所述检测用引物的核苷酸序列的碱基类型为三种;
S12、在所述检测用引物的5’端,添加能够形成三维结构的核苷酸序列,得到含三维结构的PCR扩增用引物;
步骤二、对目标DNA进行dPCR检测,具体包括:
S21、将所述PCR扩增用引物和检测用探针共同溶解于核酸溶解用缓冲液中,得到引物探针混合液;
S22、配制PCR反应体系,然后进行PCR反应,所述PCR反应体系包括所述目标DNA和引物探针混合液;
S23、PCR反应结束后对检测数据进行分析,得到不同突变位点的基因类型的检测分析结果;
步骤三、获取含三维结构的PCR扩增用引物的三维图像数据,具体包括:
将所述PCR扩增用引物进行核磁共振检测,获取所述PCR扩增用引物的三维图像数据,并以步骤二中所述不同突变位点的基因类型的检测分析结果作为所述PCR扩增用引物的三维图像数据的标签信息数据;
步骤四、构建结直肠癌基因突变的智能识别模型,具体包括:
采用卷积神经网络对所述不同突变位点的基因类型的检测分析结果进行自动学习,构建结直肠癌基因突变的智能识别模型A,
所述的智能识别模型A包括卷积神经网络模型,所述不同突变位点的基因类型的检测分析结果包括图像;
采用卷积神经网络对所述PCR扩增用引物的三维图像数据进行自动学习,构建结直肠癌基因突变的智能识别模型B,
所述的智能识别模型B包括卷积神经网络模型;
步骤五、识别结直肠癌基因突变,具体包括:
获取待测样本的外周血cfDNA,重复步骤一至步骤二,获取不同突变位点的基因类型的检测分析结果,输入步骤四中所述的结直肠癌基因突变的智能识别模型A;
获取待测样本的外周血cfDNA,重复步骤一至步骤三,获取PCR扩增用引物的三维图像数据,输入步骤四中所述的结直肠癌基因突变的智能识别模型B;
步骤六、输出结直肠癌基因突变的识别结果,具体包括:
结合步骤五中所述的智能识别模型A的输出结果和智能识别模型B的输出结果,给出结直肠癌基因突变的智能识别输出结果。
2.根据权利要求1所述的识别方法,其特征在于,所述步骤四还包括:
采用循环神经网络对步骤一中的所述目标DNA进行自动学习,构建结直肠癌基因突变的智能识别模型C,
所述的智能识别模型C包括循环神经网络模型;
所述步骤六还包括:
所述的结直肠癌基因突变的智能识别输出结果包含智能识别模型C的输出结果。
3.根据权利要求2所述的智能识别方法,其特征在于,所述步骤四还包括:
采用卷积神经网络对步骤一中所述PCR扩增用引物的三维图像数据进行自动学习,分割出三维结构部分与非三维结构部分,令三维结构部分为感兴趣区域(region ofinterest,ROI),并对ROI的形状进行细化,得到初始ROI区;利用卷积神经网络算法提取这些ROI特征,并进行归一化处理。
4.根据权利要求2所述的识别方法,其特征在于,
步骤一中所述含三维结构的核苷酸序列包含如SEQ ID NO.8所示的核苷酸序列。
5.根据权利要求2所述的识别方法,其特征在于,
步骤二中所述引物探针混合液还包括别嘌呤醇、硫代磷酸寡核苷酸和/或次黄嘌呤核苷酸中的至少两种。
6.根据权利要求2所述的识别方法,其特征在于,所述步骤四还包括:
采用卷积神经网络对步骤二中所述不同突变位点的基因类型的检测分析结果进行自动学习,分割出聚类分析图像部分与非聚类分析图像部分,聚类分析图像部分就是VROI,并对VROI的形状进行细化,得到初始VROI区;
利用卷积神经网络算法提取这些VROI特征,并进行归一化处理。
7.根据权利要求2所述的识别方法,其特征在于,
步骤二中所述PCR反应体系不包含三磷酸胞嘧啶脱氧核苷酸组分。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述识别方法的步骤。
10.一种根据权利要求8所述的计算机设备在结直肠癌基因突变检测上的应用。
CN202211033150.3A 2022-08-26 2022-08-26 结直肠癌基因突变的识别方法、设备和应用 Pending CN115807083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211033150.3A CN115807083A (zh) 2022-08-26 2022-08-26 结直肠癌基因突变的识别方法、设备和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211033150.3A CN115807083A (zh) 2022-08-26 2022-08-26 结直肠癌基因突变的识别方法、设备和应用

Publications (1)

Publication Number Publication Date
CN115807083A true CN115807083A (zh) 2023-03-17

Family

ID=85482435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211033150.3A Pending CN115807083A (zh) 2022-08-26 2022-08-26 结直肠癌基因突变的识别方法、设备和应用

Country Status (1)

Country Link
CN (1) CN115807083A (zh)

Similar Documents

Publication Publication Date Title
JP7270058B2 (ja) 予測的組織パターン特定のためのマルチプルインスタンスラーナ
CN114730463A (zh) 用于组织图像分类的多实例学习器
US20200075169A1 (en) Multi-modal approach to predicting immune infiltration based on integrated rna expression and imaging features
AU2020244763A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
Zemouri et al. Breast cancer diagnosis based on joint variable selection and constructive deep neural network
CN112289376B (zh) 一种检测体细胞突变的方法及装置
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
Xu et al. Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients
JP2022547722A (ja) 細胞検出およびセグメンテーションのための弱教師ありマルチタスク学習
EP4035163A1 (en) Single cell rna-seq data processing
Wetteland et al. Automatic diagnostic tool for predicting cancer grade in bladder cancer patients using deep learning
WO2021006279A1 (en) Data processing and classification for determining a likelihood score for breast disease
Rathore et al. Prediction of overall survival and molecular markers in gliomas via analysis of digital pathology images using deep learning
US20220101135A1 (en) Systems and methods for using a convolutional neural network to detect contamination
US20210287801A1 (en) Method for predicting disease state, therapeutic response, and outcomes by spatial biomarkers
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及系统
Khalilabad et al. Fully automatic classification of breast cancer microarray images
US20220042109A1 (en) Methods of assessing breast cancer using circulating hormone receptor transcripts
US20220044762A1 (en) Methods of assessing breast cancer using machine learning systems
CN111164701A (zh) 针对靶标定序的定点噪声模型
CN115807083A (zh) 结直肠癌基因突变的识别方法、设备和应用
CN114863149A (zh) 预测乳腺癌相对生存风险的方法、系统、设备及存储介质
EP3635138B1 (en) Method for analysing cell-free nucleic acids
CN111785319A (zh) 基于差异表达数据的药物重定位方法
JPWO2002048915A1 (ja) 遺伝子間の関連を検出する方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination