CN109686414A - 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 - Google Patents
仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 Download PDFInfo
- Publication number
- CN109686414A CN109686414A CN201811617790.2A CN201811617790A CN109686414A CN 109686414 A CN109686414 A CN 109686414A CN 201811617790 A CN201811617790 A CN 201811617790A CN 109686414 A CN109686414 A CN 109686414A
- Authority
- CN
- China
- Prior art keywords
- methylation
- data
- liver cancer
- normal
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,本发明通过一系列的筛选步骤寻找处针对单一肝癌的特异甲基化位点,其主要通过设计不同样本类型的对比,校准个体甲基化差异、肝癌I期甲基化差异、不同组织甲基化差异和不同肿瘤间甲基化差异,从而获得一组特异甲基化位点作为诊断标志物来检测肝癌;本方法筛选出来肝癌特异甲基化位点的敏感性能达到92%以上,特异性能达到97%以上,能在诊断过程中表现为只针对肝癌这个癌种进行检测。
Description
技术领域
本发明涉及生物信息领域,尤其是涉及一种能通过一系列步骤筛选出一组特异甲基化位点作为肝癌筛查的标志物。
背景技术
一般人们所说的“癌症”习惯上泛指所有恶性肿瘤。癌症具有细胞分化和增殖异常、生长失去控制、浸润性和转移性等生物学特征,其发生是一个多因子、多步骤的复杂过程,分为致癌、促癌、演进三个过程,与吸烟、感染、职业暴露、环境污染、不合理膳食、遗传因素密切相关。这些基因与基因、基因与环境的相互作用形成一个多层次的复杂生物网络,正是这些复杂网络的变异引起了癌症的发生与发展。也正因为如此,生物数据分析的一个难点就是数据之间存在复杂的关联性。
DNA甲基化是一种常见的表观遗传(epigenetic)修饰,DNA甲基化与癌症的发生有着密切的关系,在许多癌症中都发现存在DNA甲基化异常的现象。DNA甲基化具有一定的稳定性,它是癌症发生中的复发事件。近年来许多研究证明,DNA的甲基化异常可以作为一种癌症诊断的生物标志物。
通过研究肿瘤和正常样本甲基化数据来尝试找到一种肿瘤早筛,诊断和预后的方法,是目前研究人员的方向。
目前,人们对甲基化数据研究大多从单一点分析,很少考虑点之间的关联;要么从特定区域比如启动子或者特定基因出发,根据现有生物学知识过滤很多位点,当然这样做是最有可能找到特异性标志物,但也很容易遗漏一些了解不多但确实相关的位点;近期也有研究利用机器学习来解决上述两个问题:中国专利申请号201711465834 .X利用两个模型来分别选取特征甲基化位点和建立分类模型。但该方法列出所有数学模型,通过全部尝试后再根据结果选择最好的,参数也以10 的倍数,对读者选用不同数据来试验没有指导意义。中国专利申请号201710785909.6专利提供一种方法,直接利用所有数据建模预测,没有考虑大部分位点与某种疾病不相关,同时选用模型是随机森林和支持向量机,这两个模型不能处理好这种大数据的分析。
进而,如何设计并研发出一种更准确地筛选特征位点和建模预测的方法 ,则是本领域技术人员需要解决的重要技术问题之一。
发明内容
本发明解决的问题是如何针对肝癌获得一种更准确地筛选特征位点和建模预测的方法。
为解决上述问题,本发明提供一种仅用于肝癌筛查的特异甲基化检测位点组合的选取方法的技术方案,该方法包括以下步骤:
步骤1:从若干数据库中集中肝癌和其他癌症甲基化数据,其中,集中的数据包括正常人的样本及癌症患者的样本;
步骤2:比较肝癌I期患者肝癌组织的甲基化数据与癌旁组织的数据,以及正常人血浆甲基化数据,以筛选处于I期肝癌特异性标志物,从而校准了肝组织特异性甲基化,过滤了血浆(体液)中差异小的甲基化位点;
步骤3:比较肝癌I期患者肝癌组织和正常组织甲基化数据,找出肝癌和正常组织甲基化差异位点;
步骤4:使用神经网络建模并验证。
进一步优选的:所述步骤1中若干个数据库均为现有数据库,各现有数据库内下载大量肝癌和其他癌症甲基化数据,以及正常人的样本。
进一步优选的:各数据库中的数据均是HumanMethylation450 BeadChip(GPL13534)芯片数目,相同的格式数据才能进行对比分析,同时可以排除不同平台的偏差。
进一步优选的:所述步骤1的具体操作步骤如下:
(a)、从NIH网上进入GDC的TCGA数据库,下载带TCGA-LIHC标签的肝癌DNA甲基化、基因表达数据和临床信息注释文件;
(b)、从TCGA数据库下载其他10种癌症的DNA甲基化数据,癌症包括:
BLCA(409肿瘤,21正常),BRCA(774肿瘤,82正常),COAD(292肿瘤,38正常),GBM(126肿瘤,2正常) ,HNSC(523肿瘤,45正常),KIRC(316肿瘤,160正常),LUAD(455肿瘤,32正常),LUSC(365肿瘤,41正常),READ(95肿瘤,7正常)和UCEC(425肿瘤,46正常);
(c)、从GEO数据库下载甲基化数据库GSE69270 (184名年轻芬兰人的血液),GSE54503(66配对肿瘤和正常),GSE89852 (37配对肿瘤和正常),GSE56588 (224 肿瘤,9个肝硬化,10个正常)。
进一步优选的:所述步骤1的还包括表达谱差异基因准备,具体步骤如下:
(a)、从步骤1中选出同时具有肿瘤甲基化和表达谱的肝癌1期的21对数据;
(b)、将上述(a)选出的肝癌1期的21对数据的肝癌部位和正常部位的表达谱数据以配对方式整理成备用文件,文件行是基因名,列名是样本编号;
(c)、将上述(b)的数据文件利用软件是Bioconductor package edgeR,选用基于广义线性模型的统计方法模式鉴定表达差异基因。计算出每个表达基因的结果,这个结果作为21对肝癌I期和正常组织表达差异的衡量指标;
(d)、将上述(c)的计算出的每个基因结果,筛选出FDR小于0.05且绝对值log 2(foldchange)大于1的位点,筛选出的被认为是具有差异表达的基因。表达差异包括肝癌组织比正常组织高表达,或者正常组织比肝癌组织高表达两种情况;
(e)、上述(d)中选取的条件不限于FDR小于0.05且绝对值log 2(fold change)大于1,是统计中表明两组数据有显著差异的条件。
进一步优选的:所述步骤2包括以下步骤:
(a)、在步骤1中选出肝癌I期患者肝癌组织和癌旁组织;
(b)、根据(a)选的患者,将每个患者正常数据和肿瘤数据整理在一个文件,过滤掉缺失较多的位点,该文件的行是位点名字,列是样本编号;
(c)、根据上述(b)文件计算正常和肝癌组织的甲基化差异,记作p值,同时用p.adjust命令对T-test结果进行校正,记作FDR;
(d)、根据上述(c)计算的p值和FDR,用P值小于0.05,FDR大于0.2,作为筛选条件选出符合条件的位点备用;p值可选择小于0.05,0.01等统计上常用于作为有明显区别的阈值,FDR可选大于0.2,0.1等统计上常用于作为有明显区别的阈值;
(e)、将注释后的差异位点所在基因与步骤(d)找出的差异表达基因统计分析,找出共同基因,这些基因可认为是甲基化差异导致基因表达有差异;这部分位点后续分析;
(f)、根据步骤(e)的注释结果,选出位于启动子区的位点(TSS1500|TSS200)备用;
(g)、将步骤1中175个1期患者数据和下载的数据库正常人血浆样本甲基化数据合并后,筛选出(e)找出的差异甲基化位点信息整理出一个文件,以找出61个特异性位点;如下:
(chr1:119532773、chr1:119532655、chr1:119532189、chr1:119532542、chr1:119532352、chr1:47489195、chr1:119532925、chr1:119532195、chr1:119532320、chr2:9144246、chr2:31806234、chr2:87036626、chr2:207139445、chr2:31806275、chr2:207139197、chr2:10220886、chr2:232260305、chr2:9144605、chr2:207139431、chr3:123167770、chr3:123167522、chr3:123167507、chr3:164915196、chr4:148652654、chr5:110406506、chr5:101632310、chr5:101632314、chr6:391189、chr6:391743、chr6:391208、chr7:117119963、chr7:50343883、chr7:98246006、chr7:117119637、chr7:98246001、chr7:50343361、chr7:117119601、chr7:117119611、chr7:50343869、chr7:50344331、chr7:117119938、chr7:117119424、chr8:98290372、chr8:98290229、chr8:98290310、chr8:26372879、chr9:95947146、chr12:6881595、chr12:6881601、chr12:57387318、chr12:6881590、chr12:6881624、chr12:6881629、chr16:68482809、chr16:68482715、chr17:8869136、chr17:4981610、chr17:8869155、chr19:54369571、chr19:54369556、chr19:54369576);
(h)、上述(g)选出的位点组合,每个位点所在CpG岛内相邻位甲基化点具有同样,包括但不限于450k芯片中找不出的位点,因为每个CpG岛的甲基化位点具有一致性;故位点组合拓展至位点所在CpG岛的组合为:(chr1:119529819-119530712、chr1:119531991-119532196、chr1:47489226-47489633、chr12:6882855-6883184、chr16:68480864-68482822、chr17:4981357-4981979、chr17:8868469-8869372、chr19:54369387-54369809、chr2:10219802-10221016、chr2:207139336-207140031、chr2:232260100-232261134、chr2:31805293-31806403、chr2:87036600-87037001、chr2:9143127-9144630、chr3:123166218-123168567、chr4:148652848-148653918、chr5:101632049-101632373、chr5:110408704-110409039、chr6:391188-393790、chr7:50342895-50343456、chr7:50343757-50344519、chr7:98245805-98247759、chr8:26371172-26372830、chr8:98289604-98290404、chr9:95946147-95947835)。
进一步优选的:所述步骤3包括以下步骤:
(a)、使用R语言生物信息学分析包champ用来做甲基化差异的的函数;将肝癌1期21对数据,使用R包Impute 填补缺失值后读入champ.filter函数,这一步的使用会将数据进行过滤,参数可选:filterNoCG = TRUE或FALSE;filterSNPs = TRUE或FALSE;population =NULL,或其他的种群 ;filterMultiHit = TRUE或FALSE, filterXY = TRUE或FALSE;
(b)、将过滤后的数据读入champ.norm函数中,这一步的使用会将数据标准化,调整II型探针偏差,参数可选:method= BMIQ ,SWAN ,PBC,FunctionalNormliazation;
(c)、将标准化后的数据读入champ.DMP函数中,这一步的使用会找到所有差异甲基化位点,参数可选: adjPVal = 0.05, 或0-1之间的值;adjust.method = "BH";
(d)、将(c)的结果整理成差异位点的总文件,利用HumanMethylation450 BeadChip(GPL13534)对位点信息进行注释(注释内容包含位点所在基因),并将所有患者的该差异位点甲基化数据从总450k个差异位点中提取出来,保存成差异位点甲基化数据文件;
(e)、对差异位点进行进一步筛选,使用使用R语言随机森林包(randomForest);将步骤(d)中的差异位点甲基化数据文件读入取R语言随机森林包(randomForest),参数可选:MeanDecreaseGini大于1,或者1-100的点,以所得16个位点为本专利获得的候选诊断肝癌的生物标志物,如下:(chr1:119532352、chr1:154475173、chr2:39187543、chr2:39187539、chr4:76555832、chr4:3371566、chr4:1107585、chr7:27281465、chr10:134599841、chr11:125774447、chr11:125774406、chr12:95942907、chr19:58952108、chr19:58629901、chr19:53496893、chr19:58545182);
(f)、上述(e)选出的位点组合,每个位点所在CpG岛内相邻位甲基化点具有同样,包括但不限于450k芯片中找不出的位点,因为每个CpG岛的甲基化位点具有一致性;故位点组合拓展至位点所在CpG岛的组合如下:(chr1:119529819-119530712、chr1:154474107-154475699、chr2:39186777-39187968、chr4:76555366-76556079、chr4:3374733-3374998、chr4:1107125-1107728、chr7:27282086-27283136、chr10:134597357-134602649、chr11:125774292-125774584、chr12:95941906-95942979、chr19:58951214-58952250、chr19:58629309-58630241、chr19:53496732-53497028、chr19:58545115-58545897)。
进一步优选的:所述步骤4包括以下步骤:
(a)、将TCGA-LIHC的有正常组织甲基化数据和肝癌组织数据的50对有正常组织的数据作为训练集,运用tensorflow,输入61个候选位点的甲基化数据来建立模型;
(b)、建立的模型为5层BP神经网络,第一层为输入层,第二层为16个节点的隐藏层,使用relu激活函数,使用L2正则化防止过拟合,第三层为dropout防止过拟合,第四层为16个节点的隐藏层,使用relu激活函数,使用L2正则化防止过拟合,第五层为dropout防止过拟合;
(d)、将三个其他独立数据集(GSE54503、GSE89852、GSE56588)作为测试集,测试模型的敏感性和特异性。
进一步优选的:所述步骤4包括以下步骤:
(a)、将TCGA-LIHC的具有正常组织甲基化数据和肝癌组织数据的50对有正常组织的数据作为训练集,使用weka软件,输入61个候选位点或16个候选位点建立预测模型,所选模型可为J48模型、DecisionStump模型、LMT模型、REPtree模型、RandomForest模型、NaiveBayes模型、logistic模型、MultilayerPerceptron模型;
(b)、将三个其他独立数据集(GSE54503、GSE89852、GSE56588)作为测试集,使用weka软件,使用步骤(a)得到的模型来测试模型效果;
(c)、记录模型在得到的模型效果,包括灵敏度、特异性以评估预测模型的准确性,以及选取最优模型。
与现有技术相比,本发明具有以下优点:
本发明通过一系列的筛选步骤寻找处针对单一肝癌的特异甲基化位点,其主要通过设计不同样本类型的对比,校准个体甲基化差异,不同时期甲基化差异,不同组织甲基化差异和不同肿瘤间甲基化差异,从而获得一组特异甲基化位点作为诊断标志物来检测肝癌;本方法筛选出来肝癌特异甲基化位点的敏感性能达到92%以上,特异性能达到97%以上,能在诊断过程中表现为只针对肝癌这个癌种进行检测;另,精准的进行针对肝癌特异甲基化位点的筛选有效的提供于肝癌早期筛查的精确度,确保筛查的准确性。
附图说明
图1是本发明实施例中流程框图。
具体实施方式
目前,人们对甲基化数据研究大多从单一点分析,很少考虑点之间的关联;要么从特定区域比如启动子或者特定基因出发,根据现有生物学知识过滤很多位点,当然这样做是最有可能找到特异性标志物,但也很容易遗漏一些了解不多但确实相关的位点;近期也有研究利用机器学习来解决上述两个问题:中国专利申请号201711465834 .X利用两个模型来分别选取特征甲基化位点和建立分类模型。但该方法列出所有数学模型,通过全部尝试后再根据结果选择最好的,参数也以10 的倍数,对读者选用不同数据来试验没有指导意义。中国专利申请号201710785909.6专利提供一种方法,直接利用所有数据建模预测,没有考虑大部分位点与某种疾病不相关,同时选用模型是随机森林和支持向量机,这两个模型不能处理好这种大数据的分析。
发明人针对上述技术问题,经过对原因的分析,不断研究发现一种更准确地筛选特征位点和建模预测的方法。
为解决上述问题,本发明提供一种仅用于肝癌筛查的特异甲基化检测位点组合的选取方法的技术方案,该方法包括以下步骤:
步骤1:从若干数据库中集中肝癌和其他癌症甲基化数据,其中,集中的数据包括正常人的样本及癌症患者的样本;
步骤2:比较肝癌I期患者肝癌组织的甲基化数据与癌旁组织的数据,以及正常人血浆甲基化数据,以筛选处于I期肝癌特异性标志物,从而校准了肝组织特异性甲基化,过滤了血浆(体液)中差异小的甲基化位点;
步骤3:比较肝癌I期患者肝癌组织和正常组织甲基化数据,找出肝癌和正常组织甲基化差异位点;
步骤4:使用神经网络建模并验证。
在上述技术方案中,本发明仅针对肝癌单个癌症并通过设计不同样本类型的对比,校准个体甲基化差异,肝癌I期甲基化差异,不同组织甲基化差异和不同肿瘤间甲基化差异,进而筛选一组特异甲基化位点作为诊断标志物来检测肝癌,所述的检测方法敏感性能达到92%以上,特异性能达到97%以上,能在诊断过程中表现为只针对肝癌这个癌种进行检测。
下面结合附图对本发明的具体实施方式做详细的说明。
实施例:
如图1所示,一种仅用于肝癌筛查的特异甲基化检测位点组合的选取方法的技术方案,该方法包括以下步骤:
步骤1:从若干数据库中集中肝癌和其他癌症甲基化数据,其中,集中的数据包括正常人的样本及癌症患者的样本;
具体的说:所述步骤1中若干个数据库均为现有数据库,各现有数据库内下载大量肝癌和其他癌症甲基化数据,以及正常人的样本,各数据库中的数据均是HumanMethylation450BeadChip(GPL13534)芯片数目,相同的格式数据才能进行对比分析,同时可以排除不同平台的偏差;
所述步骤1的具体操作步骤如下:
(a)、从NIH网上进入GDC的TCGA数据库,下载带TCGA-LIHC标签的肝癌DNA甲基化、基因表达数据和临床信息注释文件;
(b)、从TCGA数据库下载其他10种癌症的DNA甲基化数据,癌症包括:
BLCA(409肿瘤,21正常),BRCA(774肿瘤,82正常),COAD(292肿瘤,38正常),GBM(126肿瘤,2正常) ,HNSC(523肿瘤,45正常),KIRC(316肿瘤,160正常),LUAD(455肿瘤,32正常),LUSC(365肿瘤,41正常),READ(95肿瘤,7正常)和UCEC(425肿瘤,46正常);
(c)、从GEO数据库下载甲基化数据库GSE69270 (184名年轻芬兰人的血液),GSE54503(66配对肿瘤和正常),GSE89852 (37配对肿瘤和正常),GSE56588 (224 肿瘤,9个肝硬化,10个正常);
所述步骤1的还包括表达谱差异基因准备,具体步骤如下:
(a)、从步骤1中选出同时具有肿瘤甲基化和表达谱的21对肝癌I期样本;
(b)、将上述(a)选出的21对肝癌I期样本的肝癌部位和正常部位的表达谱数据以配对方式整理成备用文件,文件行是基因名,列名是样本编号;
(c)、将上述(b)的数据文件利用软件是Bioconductor package edgeR,选用基于广义线性模型的统计方法模式鉴定表达差异基因。计算出每个表达基因的结果,这个结果作为21对肝癌I期和正常组织表达差异的衡量指标;
(d)、将上述(c)的计算出的每个基因结果,筛选出FDR小于0.05且绝对值log 2(foldchange)大于1的位点,筛选出的被认为是具有差异表达的基因。表达差异包括肝癌组织比正常组织高表达,或者正常组织比肝癌组织高表达两种情况;
(e)、上述(d)中选取的条件不限于FDR小于0.05且绝对值log 2(fold change)大于1,是统计中表明两组数据有显著差异的条件。
步骤2:比较肝癌I期患者肝癌组织的甲基化数据与癌旁组织的数据,以及正常人血浆甲基化数据,以筛选处于I期肝癌特异性标志物,从而校准了肝组织特异性甲基化,过滤了血浆(体液)中差异小的甲基化位点;
具体的说:所述步骤2包括以下步骤:
(a)、在步骤1中选出肝癌I期患者肝癌组织和癌旁组织;
(b)、根据(a)选的患者,将每个患者正常数据和肿瘤数据整理在一个文件,过滤掉缺失较多的位点,该文件的行是位点名字,列是样本编号;
(c)、根据上述(b)文件计算正常和肝癌组织的甲基化差异,记作p值,同时用p.adjust命令对T-test结果进行校正,记作FDR;
(d)、根据上述(c)计算的p值和FDR,用P值小于0.05,FDR大于0.2,作为筛选条件选出符合条件的位点备用;p值可选择小于0.05,0.01等统计上常用于作为有明显区别的阈值,FDR可选大于0.2,0.1等统计上常用于作为有明显区别的阈值;
(e)、将注释后的差异位点所在基因与步骤(d)找出的差异表达基因统计分析,找出共同基因,这些基因可认为是甲基化差异导致基因表达有差异;这部分位点后续分析;
(f)、根据步骤(e)的注释结果,选出位于启动子区的位点(TSS1500|TSS200)备用;
(g)、将步骤1中175个I期肝癌患者的肝癌组织甲基化数据和下载的数据库正常人血浆样本甲基化数据合并后,筛选出(e)找出的差异甲基化位点信息整理出一个文件,以找出61个特异性位点;如下:
(chr1:119532773、chr1:119532655、chr1:119532189、chr1:119532542、chr1:119532352、chr1:47489195、chr1:119532925、chr1:119532195、chr1:119532320、chr2:9144246、chr2:31806234、chr2:87036626、chr2:207139445、chr2:31806275、chr2:207139197、chr2:10220886、chr2:232260305、chr2:9144605、chr2:207139431、chr3:123167770、chr3:123167522、chr3:123167507、chr3:164915196、chr4:148652654、chr5:110406506、chr5:101632310、chr5:101632314、chr6:391189、chr6:391743、chr6:391208、chr7:117119963、chr7:50343883、chr7:98246006、chr7:117119637、chr7:98246001、chr7:50343361、chr7:117119601、chr7:117119611、chr7:50343869、chr7:50344331、chr7:117119938、chr7:117119424、chr8:98290372、chr8:98290229、chr8:98290310、chr8:26372879、chr9:95947146、chr12:6881595、chr12:6881601、chr12:57387318、chr12:6881590、chr12:6881624、chr12:6881629、chr16:68482809、chr16:68482715、chr17:8869136、chr17:4981610、chr17:8869155、chr19:54369571、chr19:54369556、chr19:54369576);
(h)、上述(g)选出的位点组合,每个位点所在CpG岛内相邻位甲基化点具有同样,包括但不限于450k芯片中找不出的位点,因为每个CpG岛的甲基化位点具有一致性;故位点组合拓展至位点所在CpG岛的组合为:(chr1:119529819-119530712、chr1:119531991-119532196、chr1:47489226-47489633、chr12:6882855-6883184、chr16:68480864-68482822、chr17:4981357-4981979、chr17:8868469-8869372、chr19:54369387-54369809、chr2:10219802-10221016、chr2:207139336-207140031、chr2:232260100-232261134、chr2:31805293-31806403、chr2:87036600-87037001、chr2:9143127-9144630、chr3:123166218-123168567、chr4:148652848-148653918、chr5:101632049-101632373、chr5:110408704-110409039、chr6:391188-393790、chr7:50342895-50343456、chr7:50343757-50344519、chr7:98245805-98247759、chr8:26371172-26372830、chr8:98289604-98290404、chr9:95946147-95947835)。
步骤3:比较肝癌I期患者肝癌组织和正常组织甲基化数据,找出肝癌和正常组织甲基化差异位点;
具体的说:所述步骤3包括以下步骤:
(a)、使用R语言生物信息学分析包champ用来做甲基化差异的的函数;将肝癌1期21对数据,使用R包Impute 填补缺失值后读入champ.filter函数,这一步的使用会将数据进行过滤,参数可选:filterNoCG = TRUE或FALSE;filterSNPs = TRUE或FALSE;population =NULL,或其他的种群 ;filterMultiHit = TRUE或FALSE, filterXY = TRUE或FALSE;
(b)、将过滤后的数据读入champ.norm函数中,这一步的使用会将数据标准化,调整II型探针偏差,参数可选:method= BMIQ ,SWAN ,PBC,FunctionalNormliazation;
(c)、将标准化后的数据读入champ.DMP函数中,这一步的使用会找到所有差异甲基化位点,参数可选: adjPVal = 0.05, 或0-1之间的值;adjust.method = "BH";
(d)、将(c)的结果整理成差异位点的总文件,利用HumanMethylation450 BeadChip(GPL13534)对位点信息进行注释(注释内容包含位点所在基因),并将所有患者的该差异位点甲基化数据从总450k个差异位点中提取出来,保存成差异位点甲基化数据文件;
(e)、对差异位点进行进一步筛选,使用使用R语言随机森林包(randomForest);将步骤(d)中的差异位点甲基化数据文件读入取R语言随机森林包(randomForest),参数可选:MeanDecreaseGini大于1,或者1-100的点,以所得16个位点为本专利获得的候选诊断肝癌的生物标志物,如下:(chr1:119532352、chr1:154475173、chr2:39187543、chr2:39187539、chr4:76555832、chr4:3371566、chr4:1107585、chr7:27281465、chr10:134599841、chr11:125774447、chr11:125774406、chr12:95942907、chr19:58952108、chr19:58629901、chr19:53496893、chr19:58545182);
(f)、上述(e)选出的位点组合,每个位点所在CpG岛内相邻位甲基化点具有同样,包括但不限于450k芯片中找不出的位点,因为每个CpG岛的甲基化位点具有一致性;故位点组合拓展至位点所在CpG岛的组合如下:(chr1:119529819-119530712、chr1:154474107-154475699、chr2:39186777-39187968、chr4:76555366-76556079、chr4:3374733-3374998、chr4:1107125-1107728、chr7:27282086-27283136、chr10:134597357-134602649、chr11:125774292-125774584、chr12:95941906-95942979、chr19:58951214-58952250、chr19:58629309-58630241、chr19:53496732-53497028、chr19:58545115-58545897);
上述步骤不限于工具R,差异比较也不限于t-test,公知的统计学评价手段来确定,所述手段例如置信区间的确定、p值的确定、Student t检验、Mann-Whitney检验等,优选的置信区间为至少50%、至少60%、至少70%、至少80%、至少90%、至少95% ,p值优选为0.05、0.01或0.005.”。
步骤4:使用神经网络建模并验证。
具体的说:所述步骤4包括以下步骤:
(a)、将TCGA-LIHC的具有正常组织甲基化数据和肝癌组织数据的50对有正常组织的数据作为训练集,运用tensorflow,输入61个候选位点的甲基化数据来建立模型;
(b)、建立的模型为5层BP神经网络,第一层为输入层,第二层为16个节点的隐藏层,使用relu激活函数,使用L2正则化防止过拟合,第三层为dropout防止过拟合,第四层为16个节点的隐藏层,使用relu激活函数,使用L2正则化防止过拟合,第五层为dropout防止过拟合;
(d)、将三个其他独立数据集(GSE54503、GSE89852、GSE56588)作为测试集,测试模型的敏感性和特异性;
模型测试结果:
数据集 | 敏感性 | 特异性 |
GSE54503 | 97% | 98% |
GSE56588 | 97% | 100% |
GSE89852 | 100% | 97% |
或,所述步骤4包括以下步骤:
(a)、将TCGA-LIHC的具有正常组织甲基化数据和肝癌组织数据的50对有正常组织的数据作为训练集,使用weka软件,输入61个候选位点或16个候选位点建立预测模型,所选模型可为J48模型、DecisionStump模型、LMT模型、REPtree模型、RandomForest模型、NaiveBayes模型、logistic模型、MultilayerPerceptron模型;
(b)、将三个其他独立数据集(GSE54503、GSE89852、GSE56588)作为测试集,使用weka软件,使用步骤(a)得到的模型来测试模型效果;
(c)、记录模型在得到的模型效果,包括灵敏度、特异性以评估预测模型的准确性,以及选取最优模型;
61个候选位点建立的最优模型预测结果:
数据集 | 敏感性 | 特异性 |
GSE54503 | 97% | 98% |
GSE56588 | 92% | 100% |
GSE89852 | 100% | 97% |
16个候选位点建立的最优模型预测结果:
数据集 | 敏感性 | 特异性 |
GSE54503 | 95% | 92% |
GSE56588 | 95% | 100% |
GSE89852 | 100% | 97% |
以下为本技术方案及本实施例中,具体专有名词说明:
1、表达谱:指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。
2、甲基化:本专利提到的甲基化都指DNA甲基化(DNA methylation)为DNA化学修饰的一种形式,能够在不改变DNA序列的前提下,改变遗传表现。所谓DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而控制基因表达。
3、肿瘤:肝细胞癌(hepatocellular carcinoma,HCC)是一种高死亡率的原发性肝癌。它是一种全球范围最常见的恶性肿瘤。
4、illunima HumanMethylation450K BeadChip:用于DNA甲基化分析的一种芯片,可以检测出DNA甲基化程度,由illumina公司研发生产。
7、CpG岛:CpG岛(CpG islands)是指DNA上一个区域,此区域含有大量相联的胞嘧啶(C)、鸟嘌呤(G),以及使两者相连的磷酸酯键(p)。
8、敏感性:又称真阳性率,指诊断方法对疾病的敏感程度或识别能力。敏感性越高,漏诊概率越低,计算公式为:TP/TP+FN=诊出患病人数/诊出患病人数+漏诊人数。
9、特异性:又称真阴性率,指诊断方法对疾病的误诊率,特异性越高,误诊率越低。计算公式为:=TN/TN+FP=诊出非患病人数/诊出非患病人数+误诊人数。
10、BLCA:Bladder Urothelial Carcinoma,膀胱尿路上皮癌。
11、BRCA:Breast invasive carcinoma,乳腺侵袭性导管癌。
12、COAD:Colon adenocarcinoma,结直肠腺癌。
13、GBM:Glioblastoma multiforme,胶质母细胞瘤 。
14、HNSC:Head and Neck squamous cell carcinoma,头颈部鳞状细胞癌 。
15、KIRC:Kidney renal clear cell carcinoma,透明细胞肾癌。
16、LUAD:Lung adenocarcinoma,肺腺癌。
17、LUSC:Lung squamous cell carcinoma,鳞状细胞肺癌。
18、READ:Rectum adenocarcinoma,直肠腺癌。
19、UCEC:Uterine Corpus Endometrial Carcinoma,子宫内膜癌
20、FDR:FDR(false discovery rate),是统计学中常见的一个名词,翻译为伪发现率,其意义为是 错误拒绝(拒绝真的(原)假设)的个数占所有被拒绝的原假设个数的比例的期望值。
21、weka:Weka的全名是怀卡托智能分析环境(Waikato Environment forKnowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件;
需要说明的是:
1、本实施例中所述的数据库可以用其他数据集,或者本数据集的子集;
2、保护位点以在人类参考基因组(hg19)位置方式给出,其他展示方式包括不同人类版本基因组位置;位点前后序列,位点再其他数据库的命名(如450k芯片),位点所在CpG名字。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。
Claims (9)
1.仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:该方法包括以下步骤:
步骤1:从若干数据库中集中肝癌和其他癌症甲基化数据,其中,集中的数据包括正常人的样本及癌症患者的样本;
步骤2:比较肝癌I期患者肝癌组织的甲基化数据与癌旁组织的数据,以及正常人血浆甲基化数据,以筛选处于I期肝癌特异性标志物,从而校准了肝组织特异性甲基化,过滤了血浆(体液)中差异小的甲基化位点;
步骤3:比较肝癌I期患者肝癌组织和正常组织甲基化数据,找出肝癌和正常组织甲基化差异位点;
步骤4:使用神经网络建模并验证。
2.根据权利要求1所述的仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤1中若干个数据库均为现有数据库,各现有数据库内下载大量肝癌和其他癌症甲基化数据,以及正常人的样本。
3.根据权利要求2中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:各数据库中的数据均是HumanMethylation450 BeadChip(GPL13534)芯片数目,相同的格式数据才能进行对比分析,同时可以排除不同平台的偏差。
4.根据权利要求2或3中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤1的具体操作步骤如下:
(a)、从NIH网上进入GDC的TCGA数据库,下载带TCGA-LIHC标签的肝癌DNA甲基化、基因表达数据和临床信息注释文件;
(b)、从TCGA数据库下载其他10种癌症的DNA甲基化数据,癌症包括:
BLCA(409肿瘤,21正常),BRCA(774肿瘤,82正常),COAD(292肿瘤,38正常),GBM(126肿瘤,2正常) ,HNSC(523肿瘤,45正常),KIRC(316肿瘤,160正常),LUAD(455肿瘤,32正常),LUSC(365肿瘤,41正常),READ(95肿瘤,7正常)和UCEC(425肿瘤,46正常);
(c)、从GEO数据库下载甲基化数据库GSE69270 (184名年轻芬兰人的血液),GSE54503(66配对肿瘤和正常),GSE89852 (37配对肿瘤和正常人),GSE56588 (224 肿瘤,9个肝硬化,10个正常)。
5.根据权利要求4中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤1的还包括表达谱差异基因准备,具体步骤如下:
(a)、从步骤1中选出同时具有肿瘤甲基化和表达谱的肝癌1期的21对数据;
(b)、将上述(a)选出的肝癌1期的21对数据的肝癌部位和正常部位的表达谱数据以配对方式整理成备用文件,文件行是基因名,列名是样本编号;
(c)、将上述(b)的数据文件利用软件是Bioconductor package edgeR,选用基于广义线性模型的统计方法模式鉴定表达差异基因;
计算出每个表达基因的结果,这个结果作为21对肝癌I期和正常组织表达差异的衡量指标;
(d)、将上述(c)的计算出的每个基因结果,筛选出FDR小于0.05且绝对值log 2(foldchange)大于1的位点,筛选出的被认为是具有差异表达的基因;
表达差异包括肝癌组织比正常组织高表达,或者正常组织比肝癌组织高表达两种情况;
(e)、上述(d)中选取的条件不限于FDR小于0.05且绝对值log 2(fold change)大于1,是统计中表明两组数据有显著差异的条件。
6.根据权利要求1所述的仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤2包括以下步骤:
(a)、在步骤1中选出肝癌I期患者肝癌组织和癌旁组织;
(b)、根据(a)选的患者,将每个患者正常数据和肿瘤数据整理在一个文件,过滤掉缺失较多的位点,该文件的行是位点名字,列是样本编号;
(c)、根据上述(b)文件计算正常和肝癌组织的甲基化差异,记作p值,同时用p.adjust命令对T-test结果进行校正,记作FDR;
(d)、根据上述(c)计算的p值和FDR,用P值小于0.05,FDR大于0.2,作为筛选条件选出符合条件的位点备用;p值可选择小于0.05,0.01等统计上常用于作为有明显区别的阈值,FDR可选大于0.2,0.1等统计上常用于作为有明显区别的阈值;
(e)、将注释后的差异位点所在基因与步骤(d)找出的差异表达基因统计分析,找出共同基因,这些基因可认为是甲基化差异导致基因表达有差异;这部分位点后续分析;
(f)、根据步骤(e)的注释结果,选出位于启动子区的位点(TSS1500|TSS200)备用;
(g)、将步骤1中175个1期患者数据和下载的数据库正常人血浆样本甲基化数据合并后,筛选出(e)找出的差异甲基化位点信息整理出一个文件,以找出61个特异性位点;如下:
(chr1:119532773、chr1:119532655、chr1:119532189、chr1:119532542、chr1:119532352、chr1:47489195、chr1:119532925、chr1:119532195、chr1:119532320、chr2:9144246、chr2:31806234、chr2:87036626、chr2:207139445、chr2:31806275、chr2:207139197、chr2:10220886、chr2:232260305、chr2:9144605、chr2:207139431、chr3:123167770、chr3:123167522、chr3:123167507、chr3:164915196、chr4:148652654、chr5:110406506、chr5:101632310、chr5:101632314、chr6:391189、chr6:391743、chr6:391208、chr7:117119963、chr7:50343883、chr7:98246006、chr7:117119637、chr7:98246001、chr7:50343361、chr7:117119601、chr7:117119611、chr7:50343869、chr7:50344331、chr7:117119938、chr7:117119424、chr8:98290372、chr8:98290229、chr8:98290310、chr8:26372879、chr9:95947146、chr12:6881595、chr12:6881601、chr12:57387318、chr12:6881590、chr12:6881624、chr12:6881629、chr16:68482809、chr16:68482715、chr17:8869136、chr17:4981610、chr17:8869155、chr19:54369571、chr19:54369556、chr19:54369576);
(h)、上述(g)选出的位点组合,每个位点所在CpG岛内相邻位甲基化点具有同样,包括但不限于450k芯片中找不出的位点,因为每个CpG岛的甲基化位点具有一致性;故位点组合拓展至位点所在CpG岛的组合为:(chr1:119529819-119530712、chr1:119531991-119532196、chr1:47489226-47489633、chr12:6882855-6883184、chr16:68480864-68482822、chr17:4981357-4981979、chr17:8868469-8869372、chr19:54369387-54369809、chr2:10219802-10221016、chr2:207139336-207140031、chr2:232260100-232261134、chr2:31805293-31806403、chr2:87036600-87037001、chr2:9143127-9144630、chr3:123166218-123168567、chr4:148652848-148653918、chr5:101632049-101632373、chr5:110408704-110409039、chr6:391188-393790、chr7:50342895-50343456、chr7:50343757-50344519、chr7:98245805-98247759、chr8:26371172-26372830、chr8:98289604-98290404、chr9:95946147-95947835)。
7.根据权利要求1中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤3包括以下步骤:
(a)、使用R语言生物信息学分析包champ用来做甲基化差异的的函数;将肝癌1期21对数据,使用R包Impute 填补缺失值后读入champ.filter函数,这一步的使用会将数据进行过滤,参数可选:filterNoCG = TRUE或FALSE;filterSNPs = TRUE或FALSE;population =NULL,或其他的种群 ;filterMultiHit = TRUE或FALSE, filterXY = TRUE或FALSE;
(b)、将过滤后的数据读入champ.norm函数中,这一步的使用会将数据标准化,调整II型探针偏差,参数可选:method= BMIQ ,SWAN ,PBC,FunctionalNormliazation;
(c)、将标准化后的数据读入champ.DMP函数中,这一步的使用会找到所有差异甲基化位点,参数可选: adjPVal = 0.05, 或0-1之间的值;adjust.method = "BH";
(d)、将(c)的结果整理成差异位点的总文件,利用HumanMethylation450 BeadChip(GPL13534)对位点信息进行注释(注释内容包含位点所在基因),并将所有患者的该差异位点甲基化数据从总450k个差异位点中提取出来,保存成差异位点甲基化数据文件;
(e)、对差异位点进行进一步筛选,使用使用R语言随机森林包(randomForest);将步骤(d)中的差异位点甲基化数据文件读入取R语言随机森林包(randomForest),参数可选:MeanDecreaseGini大于1,或者1-100的点,以所得16个位点为本专利获得的候选诊断肝癌的生物标志物,如下:(chr1:119532352、chr1:154475173、chr2:39187543、chr2:39187539、chr4:76555832、chr4:3371566、chr4:1107585、chr7:27281465、chr10:134599841、chr11:125774447、chr11:125774406、chr12:95942907、chr19:58952108、chr19:58629901、chr19:53496893、chr19:58545182);
(f)、上述(e)选出的位点组合,每个位点所在CpG岛内相邻位甲基化点具有同样,包括但不限于450k芯片中找不出的位点,因为每个CpG岛的甲基化位点具有一致性;故位点组合拓展至位点所在CpG岛的组合如下:(chr1:119529819-119530712、chr1:154474107-154475699、chr2:39186777-39187968、chr4:76555366-76556079、chr4:3374733-3374998、chr4:1107125-1107728、chr7:27282086-27283136、chr10:134597357-134602649、chr11:125774292-125774584、chr12:95941906-95942979、chr19:58951214-58952250、chr19:58629309-58630241、chr19:53496732-53497028、chr19:58545115-58545897)。
8.根据权利要求4中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤4包括以下步骤:
(a)、将TCGA-LIHC的有正常组织甲基化数据和肝癌组织数据的50个患者的甲基化数据集作为训练集,运用tensorflow,输入61个候选位点的甲基化数据来建立模型;
(b)、建立的模型为5层BP神经网络,第一层为输入层,第二层为16个节点的隐藏层,使用relu激活函数,使用L2正则化防止过拟合,第三层为dropout防止过拟合,第四层为16个节点的隐藏层,使用relu激活函数,使用L2正则化防止过拟合,第五层为dropout防止过拟合;
(d)、将三个其他独立数据集(GSE54503、GSE89852、GSE56588)作为测试集,测试模型的敏感性和特异性。
9.根据权利要求4中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤4包括以下步骤:
(a)、将TCGA-LIHC的具有正常组织甲基化数据和肝癌组织数据的50对有正常组织的数据作为训练集,使用weka软件,输入61个候选位点或16个候选位点建立预测模型,所选模型可为J48模型、DecisionStump模型、LMT模型、REPtree模型、RandomForest模型、NaiveBayes模型、logistic模型、MultilayerPerceptron模型;
(b)、将三个其他独立数据集(GSE54503、GSE89852、GSE56588)作为测试集,使用weka软件,使用步骤(a)得到的模型来测试模型效果;
(c)、记录模型在得到的模型效果,包括灵敏度、特异性以评估预测模型的准确性,以及选取最优模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811617790.2A CN109686414A (zh) | 2018-12-28 | 2018-12-28 | 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811617790.2A CN109686414A (zh) | 2018-12-28 | 2018-12-28 | 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109686414A true CN109686414A (zh) | 2019-04-26 |
Family
ID=66190811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811617790.2A Pending CN109686414A (zh) | 2018-12-28 | 2018-12-28 | 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109686414A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564177A (zh) * | 2020-05-22 | 2020-08-21 | 四川大学华西医院 | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 |
CN112382342A (zh) * | 2020-11-24 | 2021-02-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于集成特征选择的癌症甲基化数据分类方法 |
CN116884491A (zh) * | 2023-09-07 | 2023-10-13 | 迈杰转化医学研究(苏州)有限公司 | 一种高通量筛选甲基化位点集合的方法、试剂盒及其应用 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104662168A (zh) * | 2012-06-21 | 2015-05-27 | 香港中文大学 | 用于癌症检测的血浆dna突变分析 |
CN106175726A (zh) * | 2016-07-11 | 2016-12-07 | 夏茂 | 基于bp神经网络的人体健康状况识别方法 |
EP3239302A1 (en) * | 2014-12-26 | 2017-11-01 | Peking University | Method for detecting differentially methylated cpg islands associated with abnormal state of human body |
CN107326065A (zh) * | 2016-04-29 | 2017-11-07 | 博尔诚(北京)科技有限公司 | 一种基因标识物的筛选方法及其应用 |
CN107463796A (zh) * | 2017-07-12 | 2017-12-12 | 北京航空航天大学 | 基于基因共表达网络传播分析的早期致病因子探测方法 |
CN108676879A (zh) * | 2018-05-24 | 2018-10-19 | 中国科学院北京基因组研究所 | 特异甲基化位点作为乳腺癌分子分型诊断标志物的应用 |
-
2018
- 2018-12-28 CN CN201811617790.2A patent/CN109686414A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104662168A (zh) * | 2012-06-21 | 2015-05-27 | 香港中文大学 | 用于癌症检测的血浆dna突变分析 |
EP3239302A1 (en) * | 2014-12-26 | 2017-11-01 | Peking University | Method for detecting differentially methylated cpg islands associated with abnormal state of human body |
CN107326065A (zh) * | 2016-04-29 | 2017-11-07 | 博尔诚(北京)科技有限公司 | 一种基因标识物的筛选方法及其应用 |
CN106175726A (zh) * | 2016-07-11 | 2016-12-07 | 夏茂 | 基于bp神经网络的人体健康状况识别方法 |
CN107463796A (zh) * | 2017-07-12 | 2017-12-12 | 北京航空航天大学 | 基于基因共表达网络传播分析的早期致病因子探测方法 |
CN108676879A (zh) * | 2018-05-24 | 2018-10-19 | 中国科学院北京基因组研究所 | 特异甲基化位点作为乳腺癌分子分型诊断标志物的应用 |
Non-Patent Citations (3)
Title |
---|
CHENG ET AL.: "Integrative analysis of DNA methylation and gene expression reveals hepatocellular carcinoma-specific diagnostic biomarkers", 《GENOME MEDICINE》, vol. 10, 30 May 2018 (2018-05-30), pages 1 - 11 * |
TIAN ET AL.: "ChAMP: updated methylation analysis pipeline for Illumina BeadChips", 《BIOINFORMATICS》, vol. 33, no. 24, 24 August 2017 (2017-08-24), pages 3982 - 3984 * |
赵斌: "《生物数学简史》", 30 September 2015, pages: 106 - 107 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564177A (zh) * | 2020-05-22 | 2020-08-21 | 四川大学华西医院 | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 |
CN111564177B (zh) * | 2020-05-22 | 2023-03-31 | 四川大学华西医院 | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 |
CN112382342A (zh) * | 2020-11-24 | 2021-02-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于集成特征选择的癌症甲基化数据分类方法 |
CN116884491A (zh) * | 2023-09-07 | 2023-10-13 | 迈杰转化医学研究(苏州)有限公司 | 一种高通量筛选甲基化位点集合的方法、试剂盒及其应用 |
CN116884491B (zh) * | 2023-09-07 | 2023-12-12 | 迈杰转化医学研究(苏州)有限公司 | 一种高通量筛选甲基化位点集合的方法、试剂盒及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128299B (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
CN109616198A (zh) | 仅用于肝癌单一癌种筛查的特异甲基化检测位点组合的选取方法 | |
CN112951418B (zh) | 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质 | |
CN112951327B (zh) | 药物敏感预测方法、电子设备及计算机可读存储介质 | |
CN106599616A (zh) | 基于duplex‑seq的超低频突变位点检测分析方法 | |
CN109486948A (zh) | 一种功能驱动的个体化预测结直肠癌预后的多分子标志物及其装置与评价方法 | |
CN109686414A (zh) | 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 | |
CN111653314B (zh) | 一种分析识别淋巴管浸润的方法 | |
CN111676288B (zh) | 用于预测肺腺癌患者预后的系统及其应用 | |
CN111833963B (zh) | 一种cfDNA分类方法、装置和用途 | |
CN109872776A (zh) | 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 | |
CN111863137A (zh) | 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用 | |
CN112837744A (zh) | 一种前列腺癌预后显著相关ceRNA调控网络的构建方法 | |
CN106460045A (zh) | 人类基因组常见拷贝数变异用于癌症易感风险评估 | |
Luo et al. | hsa‐mir‐3199‐2 and hsa‐mir‐1293 as novel prognostic biomarkers of papillary renal cell carcinoma by COX ratio risk regression model screening | |
CN110273003A (zh) | 一种乳头状肾细胞癌患者预后复发检测标志工具及其风险评估模型的建立 | |
Voigt et al. | Phenotype in combination with genotype improves outcome prediction in acute myeloid leukemia: a report from Children’s Oncology Group protocol AAML0531 | |
JP2015089364A (ja) | 体細胞多重変異によるがん診断方法、がん医薬開発方法及びがん診断装置 | |
Zhang et al. | Hallmark guided identification and characterization of a novel immune-relevant signature for prognostication of recurrence in stage I–III lung adenocarcinoma | |
Men et al. | A prognostic 11 genes expression model for ovarian cancer | |
KR20190000169A (ko) | 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법 | |
CN113774135A (zh) | 一组用于预测高级别浆液性卵巢癌预后的标志物及其应用 | |
US11935627B2 (en) | System and method for text-based biological information processing with analysis refinement | |
US20230274794A1 (en) | Multiclass classification model for stratifying patients among multiple cancer types based on analysis of genetic information and systems for implementing the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |