CN113096798B - 一种基于5hmC修饰的lncRNA的肿瘤诊断设备 - Google Patents

一种基于5hmC修饰的lncRNA的肿瘤诊断设备 Download PDF

Info

Publication number
CN113096798B
CN113096798B CN202110419547.5A CN202110419547A CN113096798B CN 113096798 B CN113096798 B CN 113096798B CN 202110419547 A CN202110419547 A CN 202110419547A CN 113096798 B CN113096798 B CN 113096798B
Authority
CN
China
Prior art keywords
lncrna
data
tumor
5hmc
5hmc modified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110419547.5A
Other languages
English (en)
Other versions
CN113096798A (zh
Inventor
周猛
孙杰
滕思思
苏建忠
侯萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou Medical University
Original Assignee
Wenzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou Medical University filed Critical Wenzhou Medical University
Priority to CN202110419547.5A priority Critical patent/CN113096798B/zh
Publication of CN113096798A publication Critical patent/CN113096798A/zh
Application granted granted Critical
Publication of CN113096798B publication Critical patent/CN113096798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于5hmC修饰的lncRNA的肿瘤诊断设备。肿瘤的早期光谱性筛查对临床意义重大,发明人基于肿瘤相关血浆衍生的5hmC修饰的lncRNA,建立肿瘤诊断模型,结果显示,该模型不仅能有效区分肿瘤患者和健康人群,具有很好的普适性筛查效果,还在肿瘤进展预测中具有良好应用前景。

Description

一种基于5hmC修饰的lncRNA的肿瘤诊断设备
技术领域
本发明涉及生物信息技术领域,更具体地,涉及一种基于5hmC修饰的lncRNA的肿瘤诊断设备和计算机可读存储介质。
背景技术
肿瘤的早期诊断对临床意义重大,恶性肿瘤的预后取决于是否能做到早发现、早诊断。如果在早期筛查中发现肿瘤并及时给予合理治疗,相当部分的病人都能取得满意的治疗效果。使用广谱性肿瘤标志物进行肿瘤筛查,不仅降低筛查成本,也降低筛查难度,特别适用早期筛查。
5-羟甲基胞嘧啶(5hmC)是人类基因组中稳定的表观遗传标记,5hmC在肺癌、脑癌、肝癌、肾癌、皮肤癌、前列腺癌、乳腺癌和结肠癌等多种癌症中的含量均有显著降低,表明5hmC在癌症的发生发展中发挥重要作用。不过,目前许多研究集中于分布在蛋白质编码基因体和启动子上的5hmC。但是,尚不清楚5hmC修饰的lncRNA(long non-coding RNAs)上的作用。能否用5hmC修饰的lncRNA进行肿瘤的诊断和筛查是一个需要探索的问题。
发明内容
本发明提供一种基于5hmC修饰的lncRNA的肿瘤诊断设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:
获取待测样本的5hmC修饰的lncRNA数据;
将所述5hmC修饰的lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果;
所述肿瘤诊断模型的确定方式包括:
获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据;
筛选出目标lncRNA数据作为特征数据,所述目标lncRNA数据为5hmc修饰的lncRNA数据,且所述目标lncRNA数据在每种肿瘤患者中均与健康人群存在差异;
采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤诊断模型。
进一步,所述5hmC修饰的lncRNA数据包括:
获取5hmC测序数据,与人类基因组进行比对,保留与人类基因组的唯一非重复匹配;
下载最新发行的lncRNA参考基因注释文件;
所述保留与人类基因组的唯一非重复匹配基于所述注释文件获得5hmC修饰的lncRNA的数据;
其中,当人类基因组版本与最新发行lncRNA参考基因注释文件的发行版本相同时,基于所述注释文件获得5hmC修饰的lncRNA的数据;当人类基因组版本与最新发行lncRNA参考基因注释文件的发行版本不同时,先将lncRNA定位信息从lncRNA参考基因注释文件的版本传输到与人类基因组相同版本,基于与人类基因组相同版本的lncRNA参考基因注释文件获得5hmC修饰的lncRNA的数据。
进一步,所述目标lncRNA具体筛选方法包括:
分别比较每种肿瘤患者和健康人群5hmC修饰的lncRNA数据,分别获得每种肿瘤和健康人群相比存在差异的5hmC修饰的lncRNA,取不同种类肿瘤的5hmC修饰的lncRNA的交集;
或者,首先取不同种类肿瘤的5hmC修饰的lncRNA的交集,获取交集里面的5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据进行比较,选取在不同种类肿瘤里5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据都存在差异的5hmC修饰的lncRNA。
进一步,所述目标lncRNA数据在每种肿瘤患者中均与健康人群存在差异,并且在每种肿瘤患者的良性肿瘤患者和恶性肿瘤患者中也存在差异。
进一步,所述目标lncRNA具体筛选方法包括:
首先,分别比较每种肿瘤患者和健康人群5hmC修饰的lncRNA数据,分别获得每种肿瘤和健康人群相比存在差异的5hmC修饰的lncRNA,再者,分别比较每种肿瘤患者的良性肿瘤患者和恶性肿瘤患者5hmC修饰的lncRNA数据,分别获得每种肿瘤的良性肿瘤患者和恶性肿瘤患者相比存在差异的5hmC修饰的lncRNA,第三,取不同种类肿瘤的5hmC修饰的lncRNA的交集;
或者,首先,取不同种类肿瘤的5hmC修饰的lncRNA的交集,再者,获取交集里面的5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据进行比较,选取在不同种类肿瘤里5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据都存在差异的5hmC修饰的lncRNA,第三,选取在不同种类肿瘤里良性肿瘤患者5hmC修饰的lncRNA数据和恶性肿瘤患者的相比存在差异的5hmC修饰的lncRNA。
所述存在差异的5hmC修饰的lncRNA是通过包括fold change和P-value指标进行判断;
优选的|fold change|>0.58,P-value<0.05的5hmC修饰的lncRNA判断为存在差异的5hmC修饰的lncRNA。
进一步,所述特征选择还包括特征选择后的聚类分析;优选的,所述聚类分析为无监督层次聚类分析。
进一步,所述特征选择通过采用多种不同机器学习的方法并行进行,选择导致最大准确度的模型里的特征;
优选的,所述机器学习的方法包括递归特征消除、CART、随机森林、线性回归、朴素贝叶斯、自定义的训练模型中的一种或几种。
进一步,所述肿瘤诊断模型还包括正则项。
一种基于5hmC修饰的lncRNA的肿瘤诊断设备,所述设备包括:存储器和处理器,所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:
获取待测样本的5hmC修饰的lncRNA数据;
将所述5hmC修饰的lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果;
所述肿瘤诊断模型通过5hmC修饰的lncRNA中的一种或几种的组合的特征数据获得待测样本肿瘤风险和/或肿瘤进展的预测结果;所述5hmC修饰的lncRNA为:ENSG00000272610、ENSG00000274895、ENSG00000082929、ENSG00000178457、ENSG00000203706、ENSG00000204682、ENSG00000222033、ENSG00000223492、ENSG00000225680、ENSG00000226101、ENSG00000227945、ENSG00000229459、ENSG00000230437、ENSG00000230680、ENSG00000233539、ENSG00000234899、ENSG00000235781、ENSG00000240175、ENSG00000250250、ENSG00000253381、ENSG00000253576、ENSG00000254109、ENSG00000254645、ENSG00000257194、ENSG00000257614、ENSG00000257995、ENSG00000259152、ENSG00000259275、ENSG00000265413、ENSG00000266767、ENSG00000267240、ENSG00000268560、ENSG00000277692、ENSG00000284452、ENSG00000284954、ENSG00000286081、ENSG00000286951、ENSG00000287528、ENSG00000287969;优选的,所述5hmC修饰的lncRNA包括ENSG00000274895,与任选地下列lncRNA的一种或多种ENSG00000272610、ENSG00000204682、ENSG00000254645、ENSG00000287528、ENSG00000257614、ENSG00000234899、ENSG00000235781、ENSG00000229459、ENSG00000253381、ENSG00000277692、ENSG00000230437。
一种基于5hmC修饰的lncRNA的肿瘤诊断装置,包括:
获取单元,用于获取待测样本的5hmC修饰的lncRNA数据;
处理单元,用于将所述5hmC修饰的lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果;
所述肿瘤诊断模型的确定方式包括:
获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据;
筛选出目标lncRNA数据作为特征数据,所述目标lncRNA数据为5hmc修饰的lncRNA数据,且所述目标lncRNA数据在每种肿瘤患者中均与健康人群存在差异;
采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤诊断模型。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的肿瘤诊断系统。
本申请的优点:本申请以5hmC修饰的lncRNA为分析对象,通过筛选在不同种类的肿瘤患者和健康人群中均存在差异的5hmC修饰的lncRNA(先在肿瘤患者和健康人群中筛选特征,继而筛选不同种类肿瘤患者见特征的交集),采用多种机器学习方法建立肿瘤诊断模型,获得了能够精确的将癌症样品与健康样品区分开的5hmC修饰的lncRNA组合物,得到模型的特征。此外,验证结果表明,血浆来源的一些5hmC修饰的lncRNA可能在疾病的发展中发挥重要作用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的基于5hmC修饰的lncRNA的肿瘤诊断的示意流程图;
图2是本发明实施例提供的基于5hmC修饰的lncRNA的肿瘤诊断装置的示意框图;
图3是肿瘤相关的5hmC修饰的lncRNA对样本进行的层次聚类分析图;
图4是诊断模型诊断性能汇总图;
图5是诊断模型对训练组(集)分析结果图;
图6是诊断模型对验证组(集)分析结果图;
图7是诊断模型对独立验证组(集)分析结果图;其中,A为蔡组分析结果图;B为田组分析结果图;C为张组分析结果图;
图8是诊断模型用于区分健康样本、良性肿瘤和肿瘤的分析结果图;A为区分结肠癌、结肠良性肿瘤、胃癌、胃部良性肿瘤、健康样本;B为区分肝癌、肝硬化、肝炎、良性肝病、健康样本。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种基于5hmC修饰的lncRNA的肿瘤诊断系统示意流程图,具体地,所述方法包括如下步骤:
101:获取待测样本的5hmC修饰的lncRNA数据;
102:将所述5hmC修饰的lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果。
所述肿瘤诊断模型的确定方式包括:
获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据;
筛选出目标lncRNA数据作为特征数据,所述目标lncRNA数据为5hmc修饰的lncRNA数据,且所述目标lncRNA数据在每种肿瘤患者中均与健康人群存在差异;
采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤诊断模型。
术语“样本”可以是从受试者分离的任何生物样本。例如,样本可以包括但不限于体液、全血、血小板、血清、血浆、粪便、红细胞、白细胞或白血球、内皮细胞、组织活组织检查、滑液、淋巴液、腹水、间质或细胞外液、细胞间空间的液体,包括龈沟液、骨髓、脑脊液、唾液、粘液、痰、精液、汗液、尿液、鼻刷液、巴氏涂片液或任何其他体液。体液可以包括唾液、血液或血清。例如,多核苷酸可以是从体液例如血液或血清分离的无细胞DNA。样本也可以是肿瘤样本,肿瘤样本可以通过各种方法从受试者获得,所述方法包括但不限于静脉穿刺、排泄、射精、按摩、活组织检查、针抽吸、灌洗、刮擦、手术切口或介入或其他方法。样本可以是无细胞样本(例如,不包含任何细胞)。
在一个实施例中,所述获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据包括:获取肿瘤患者和健康人群的5hmC测序数据,与人类基因组进行比对,保留与人类基因组的唯一非重复匹配(Unique non-duplicate matches);下载最新发行的lncRNA参考基因注释文件,将保留与人类基因组的唯一非重复匹配基于注释文件获得5hmC修饰的lncRNA的数据;
在一个实施例中,所述5hmC修饰的lncRNA数据是向量,具有大小和正负。
其中,当人类基因组版本与最新发行lncRNA参考基因注释文件的发行版本相同时,基于所述注释文件获得5hmC修饰的lncRNA的数据;当人类基因组版本与最新发行lncRNA参考基因注释文件的发行版本不同时,先将lncRNA定位信息从lncRNA参考基因注释文件的版本传输到与人类基因组相同版本,基于与人类基因组相同版本的lncRNA参考基因注释文件获得5hmC修饰的lncRNA的数据。
在一个实施例中,所述获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据包括:使用Bowtie2将获取肿瘤患者和健康人群的5hmC测序数据读数与人类基因组GRCh37进行比对,保留与人类基因组的唯一非重复匹配在picard-2.18.4中。从Gencode数据库下载lncRNA参考基因注释文件的发行版本(GRCh38版本),LiftOver用于将定位信息从lncRNA参考基因注释文件的GRCh38版本传输到GRCh37版本,基于GRCh37注释提取lncRNA的基因,通过工具获得的每个RefSeq lncRNA中的片段计数,获得5hmC修饰的lncRNA的读数。
在一个实施例中,将获得5hmC修饰的lncRNA的读数转换为TPM(每百万个映射的读数中lncRNA中5hmC的每千碱基碱基转录本)。
在一个实施例中,肿瘤患者和健康人群的5hmC测序数据可以是自有测序数据或数据库公开的测序数据。例如,数据库公开的测序数据GSE8957等,发明人收集了3399个样品的原始5hmC数据,包括1632个癌症样品和1767个非癌症样品。剔除部分样品,具体样品的详细信息在表1中给出。
表1
Figure BDA0003027362460000081
在一个实施例中,将构建肿瘤诊断模型样本先进行标签分类,所述标签为肿瘤患者标签和健康人群标签。
在一个实施例中,将构建肿瘤诊断模型样本先进行标签分类,所述标签为良性肿瘤患者标签、恶性肿瘤患者标签和健康人群标签。
在一个实施例中,将构建肿瘤诊断模型样本先进行标签分类,所述标签为非肿瘤患病组、良性肿瘤患者标签、恶性肿瘤患者标签和健康人群标签。
所述良性肿瘤是指肿瘤细胞在形态和功能上接近于相应正常组织,肿瘤呈缓慢膨胀性生长,形成包膜,分界比较清楚,不发生转移的肿瘤;所述恶性肿瘤是指肿瘤细胞的结构和功能与相应的正常细胞是有较大差异,肿瘤生长速度非常快,可以侵入周围正常组织,分界不清,而且肿瘤细胞很容易从瘤体上面脱落下来,通过淋巴管、血管以及其它的腔道进行转移,形成新的肿瘤;非肿瘤患病是指介于健康和患肿瘤中间的一种身体状态,可以是肝炎、肺炎、乳腺炎、胃炎、肠炎、肝硬化等。
在一个实施例中,所述目标lncRNA具体筛选方法包括:分别比较每种肿瘤患者和健康人群5hmC修饰的lncRNA数据,分别获得每种肿瘤和健康人群相比存在差异的5hmC修饰的lncRNA,取不同种类肿瘤的5hmC修饰的lncRNA的交集;
在一个实施例中,所述目标lncRNA具体筛选方法包括:首先取不同种类肿瘤的5hmC修饰的lncRNA的交集,获取交集里面的5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据进行比较,选取在不同种类肿瘤里5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据都存在差异的5hmC修饰的lncRNA。
在一个实施例中,所述目标lncRNA具体筛选方法包括:首先,分别比较每种肿瘤患者和健康人群5hmC修饰的lncRNA数据,分别获得每种肿瘤和健康人群相比存在差异的5hmC修饰的lncRNA,再者,分别比较每种肿瘤患者的良性肿瘤患者和恶性肿瘤患者5hmC修饰的lncRNA数据,分别获得每种肿瘤的良性肿瘤患者和恶性肿瘤患者相比存在差异的5hmC修饰的lncRNA,第三,取不同种类肿瘤的5hmC修饰的lncRNA的交集。
在一个实施例中,所述目标lncRNA具体筛选方法包括:首先,取不同种类肿瘤的5hmC修饰的lncRNA的交集,再者,获取交集里面的5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据进行比较,选取在不同种类肿瘤里5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据都存在差异的5hmC修饰的lncRNA,第三,选取在不同种类肿瘤里良性肿瘤患者5hmC修饰的lncRNA数据和恶性肿瘤患者的相比存在差异的5hmC修饰的lncRNA。
在一个实施例中,不同种类肿瘤数量可以是n个(n为整数)。
在一个实施例中,不同种类肿瘤数量至少2个。
在一个实施例中,肿瘤可以是下列肿瘤中的一种或多种:急性成淋巴细胞性白血病(ALL)、急性髓性白血病、肾上腺皮质癌、成人急性髓性白血病、成人原发部位不明癌、成人恶性间皮瘤、艾滋病相关癌症、艾滋病相关淋巴瘤、肛门癌、阑尾癌、星形细胞瘤、儿童小脑或大脑癌、基底细胞癌、胆管癌、膀胱癌、骨肿瘤、骨肉瘤/恶性纤维组织细胞瘤、脑癌、脑干胶质瘤、乳腺癌、支气管腺瘤/类癌、伯基特淋巴瘤、类癌瘤、原发性不明的癌、中枢神经系统淋巴瘤、小脑星形细胞瘤、大脑星形细胞瘤/恶性神经胶质瘤、宫颈癌、儿童急性髓性白血病、儿童原发部位不明的癌症、儿童癌症、儿童大脑星形细胞瘤、儿童间皮瘤、软骨肉瘤、慢性淋巴细胞白血病、慢性髓细胞性白血病、慢性骨髓增生性紊乱、结肠癌、皮肤T细胞淋巴瘤、促结缔组织增生性小圆细胞肿瘤、子宫内膜癌、子宫内膜子宫癌、室管膜瘤、上皮样血管内皮瘤(EHE)、食管癌、尤因肿瘤肉瘤家族、尤因肿瘤家族中的尤因肉瘤、颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、肝外胆管癌、眼癌、眼内黑素瘤、胆囊癌、胃(gastric)(胃(stomach))癌、胃类癌、胃肠道类癌肿瘤、胃肠道间质瘤(GIST)、妊娠性滋养层细胞瘤、脑干胶质瘤、胶质瘤、毛细胞白血病、头颈癌、心脏癌、肝细胞(肝)癌、霍奇金淋巴瘤、下咽癌、下丘脑和视觉途径胶质瘤、胰岛细胞癌(内分泌胰腺)、卡波西肉瘤、肾癌(肾细胞癌)、喉癌、急性成淋巴细胞性白血病(也称为急性淋巴细胞白血病)、急性髓性白血病(也称为急性髓细胞性白血病)、慢性淋巴细胞性白血病(也称为慢性淋巴细胞白血病)、白血病(leukaemia)、慢性髓细胞性白血病(也称为慢性髓性白血病)、毛细胞白血病(leukemia)、唇及口腔癌、脂肪肉瘤、肝癌(原发性)、非小细胞肺癌、小细胞肺癌、淋巴瘤(艾滋病相关)、淋巴瘤、巨球蛋白血症、男性乳腺癌、骨恶性纤维组织细胞瘤/骨肉瘤、髓母细胞瘤、黑素瘤、梅克尔细胞癌、原发灶隐匿转移性颈部鳞状癌、口癌、多发性内分泌肿瘤综合征、儿童多发性骨髓瘤(骨髓癌)、多发性骨髓瘤/浆细胞赘生物、蕈样肉芽肿、骨髓增生异常综合征、骨髓增生异常/骨髓增生性疾病、慢性髓细胞性白血病、粘液瘤、鼻腔和副鼻窦癌、鼻咽癌、神经母细胞瘤、非霍奇金淋巴瘤、非小细胞肺癌、少突神经胶质瘤、口腔癌、口咽癌、骨肉瘤/骨恶性纤维组织细胞瘤、卵巢癌、卵巢上皮癌(表面上皮间质肿瘤)、卵巢生殖细胞瘤、卵巢低恶性潜能肿瘤、胰腺癌、胰岛细胞癌、副鼻窦和鼻腔癌、甲状旁腺癌、阴茎癌、咽癌、嗜铬细胞瘤、松果体星形细胞瘤、松果体生殖细胞瘤、松果体母细胞瘤和幕上原始神经外胚层肿瘤、垂体腺瘤、浆细胞赘生物/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统淋巴瘤、前列腺癌、直肠癌、肾细胞癌(肾癌)、肾盂和输尿管移行细胞癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、Sézary综合征、皮肤癌(黑素瘤)、皮肤癌(非黑素瘤)、梅克尔细胞皮肤癌、小细胞肺癌、小肠癌、软组织肉瘤、鳞状细胞癌、原发灶隐匿转移性颈部鳞状癌、胃癌、幕上原始神经外胚层肿瘤、皮肤T细胞淋巴瘤、睾丸癌、喉癌、胸腺瘤和胸腺癌、胸腺瘤、甲状腺癌、肾盂和输尿管移行细胞癌、输尿管和肾盂移行细胞癌、尿道癌、子宫肉瘤、阴道癌、视觉途径和下丘脑神经胶质瘤、儿童视觉途径和下丘脑神经胶质瘤、外阴癌、巨球蛋白血症和肾母细胞瘤(肾癌)。
在一个实施例中,所述存在差异的5hmC修饰的lncRNA是通过包括fold change和P-value指标进行判断。例如:|fold change|>0.58,P-value<0.05的5hmC修饰的lncRNA判断为存在差异的5hmC修饰的lncRNA。
在一个实施例中,存在差异的5hmC修饰的lncRNA是指转录组的差异,例如5hmC修饰的lncRNA表达量在肿瘤患者和健康人群中表达量存在差异。又例如,某一5hmC修饰的lncRNA在肿瘤患者和健康人群中相对表达量|fold change|>0.58,P-value<0.05,则该5hmC修饰的lncRNA被认为是存在差异的5hmC修饰的lncRNA。
在一个实施例中,例如李组队列中,使用DESeq2软件包鉴定了CC,GC,HCC和健康人群的5hmC修饰的lncRNA差异。那些|fold change|>0.58and FDR adjusted P-value<0.05的lncRNAs,作为差异5hmC修饰的lncRNA。经过分析,与健康人群相比,肿瘤患者富集的5hmC修饰的lncRNA中鉴定出1402个结肠癌分子标志物(正向富集1340,负向富集62)、3189个胃癌分子标志物(正向富集2583,负向富集606)和230个肝癌分子标志物(正向富集201,负向富集29)。取不同种类肿瘤的5hmC修饰的lncRNA的交集时,三种肿瘤共有140个肿瘤富集的5hmC修饰的lncRNA。
在一个实施例中,筛选出在不同种类肿瘤中均存在差异的5hmC修饰的lncRNA后,进行聚类分析,检验筛选效果。例如,筛选三种肿瘤共有140个肿瘤富集的5hmC修饰的lncRNA后,对140个5hmC修饰的lncRNA进行了共识聚类分析(consensus clusteringanalysis),结果显示三个不同的肿瘤患者群。根据三个聚类的样本等级,无监督层次聚类分析产生了三个不同的患者聚类,其中癌症和健康人群之间存在差异。
在一个实施例中,获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据作为训练集,使用数据拆分功能对训练集数据的队列随机分为队列的四分之三和队列的四分之一。例如,使用数据拆分功能“createDataPartition”将李组的CC,GC,HCC和健康患者的队列随机分为队列的四分之三(训练集)和队列的四分之一(内部验证集)。
在一个实施例中,采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤诊断模型。例如基于递归特征消除(RFE)的袋装分类和回归树(CART)进行的特征选择,进而进行10倍交叉验证(10-fold cross-validation procedure)的过程中,重复进行了5次用于癌症诊断的特征选择过程,并选择了导致最大“准确度”的模型。使用Caret的R软件包中的“rfe”和“treebagFuncs”功能进行选择。因此,产生了两个减少的5hmC修饰的lncRNAs亚组,并用作进一步分析的输入。
在一个实施例中,机器学习的方法包括递归特征消除、CART、随机森林、线性回归、朴素贝叶斯、自定义的训练模型中的一种或几种。
在一个实施例中,肿瘤诊断模型还包括正则项。例如,使用glmnet方法在多变量logistic回归模型上进行弹性网正则化(elastic net regularization)。模型经过10倍交叉验证训练,并针对阿尔法(alpha)和拉姆达(lambda)(阿尔法范围:0.05–1,长度=10;拉姆达范围:10-1至5*10-1,以0.1为增量)的参数值网格优化了接收器工作特性(ROC)曲线,其中阿尔法控制着Ridge和Lasso罚分之间的相对比例,而拉姆达控制着罚分的整体强度。重复此选择过程20次。
在一个实施例中,将套索(lasso)和脊方法(ridge)的L1和L2罚分线性地结合在一起,被用于建立肿瘤诊断模型(5hmC-lncRNA诊断评分模型,简称5hLD模型)。
在一个实施例中,基于袋装CART(bagged CART)对上述140个5hmC修饰的lncRNA进行特征选择,从而获得39种肿瘤相关血浆衍生的5hmC修饰的lncRNA,作为无创生物标志物。所述39种肿瘤相关血浆衍生的5hmC修饰的lncRNA为:ENSG00000272610、ENSG00000274895、ENSG00000082929、ENSG00000178457、ENSG00000203706、ENSG00000204682、ENSG00000222033、ENSG00000223492、ENSG00000225680、ENSG00000226101、ENSG00000227945、ENSG00000229459、ENSG00000230437、ENSG00000230680、ENSG00000233539、ENSG00000234899、ENSG00000235781、ENSG00000240175、ENSG00000250250、ENSG00000253381、ENSG00000253576、ENSG00000254109、ENSG00000254645、ENSG00000257194、ENSG00000257614、ENSG00000257995、ENSG00000259152、ENSG00000259275、ENSG00000265413、ENSG00000266767、ENSG00000267240、ENSG00000268560、ENSG00000277692、ENSG00000284452、ENSG00000284954、ENSG00000286081、ENSG00000286951、ENSG00000287528、ENSG00000287969。
在一个实施例中,申请人根据样本类型(健康人群样本和肿瘤患者样本)将样本均匀分离,并将75%的样本用作训练集,其余25%代表李组的同类研究中的测试集。基于这些与肿瘤相关的5hmC修饰的lncRNA,对训练集进行10倍交叉验证可产生91.94%的灵敏度(真实阳性率)和87.50%的特异性(真实阴性率)(图4)。训练组(集)中的ROC分析发现,来自健康样本的癌症(包括CC,GC和HCC)诊断模型的曲线下面积(AUC)可以达到0.96,并且HCC,GC和CC的AUC指数均高于0.95,见图5)。箱图(boxplot)比较了肿瘤来源和健康来源样品的5hLD得分,表明癌症样品的得分显着高于健康样品(图5,p<0.001)。当应用于测试组(集)样本时,基于这些与肿瘤相关的5hmC修饰的lncRNA的模型实现了90.24%的敏感性和75%的特异性(图4)。不仅所有样品的癌症AUC指数,内部测试集的肿瘤类型也均高于0.9,并且癌症样品的5hLD得分显着高于健康样品(图6)。
在一个实施例中,特征选择后的进行聚类分析,检验特征选择效果。
在一个实施例中,聚类分析为共识聚类分析(The consensus clusteringanalysis),使用R软件包“ConsensusClusterPlus”实施的,该软件包可以自动选择聚类数量,是一种无监督聚类方法。使用R包“pheatmap”执行分层聚类(Hierarchicalclustering)。
在一个实施例中,来自三种肿瘤患者和健康人群的诊断标志物的无监督分层聚类分析;基本上所有癌症样本都可以被确定为癌样簇,主要包含来自CC,GC和HCC患者的样本,而其他簇中绝大多数健康的样本被鉴定为健康样簇(卡卡方检验p<2.2e-16)(图3)。使用39个与肿瘤相关的5hmC修饰的lncRNA进行的层次聚类分析可以很好地将CC患者与健康对照(卡方检验p<2.2e-16),GC患者和健康对照(卡方检验p<2.2e)区分开。HCC患者和健康对照组(卡方检验p=5.586e-08)也可以很好地分开(图3)。
一种基于5hmC修饰的lncRNA的肿瘤诊断设备,所述设备包括:存储器和处理器,所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:
获取待测样本的5hmC修饰的lncRNA数据;
将所述5hmC修饰的lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果;
所述肿瘤诊断模型通过5hmC修饰的lncRNA中的一种或几种的组合的特征数据获得待测样本肿瘤风险和/或肿瘤进展的预测结果;所述5hmC修饰的lncRNA为:ENSG00000272610、ENSG00000274895、ENSG00000082929、ENSG00000178457、ENSG00000203706、ENSG00000204682、ENSG00000222033、ENSG00000223492、ENSG00000225680、ENSG00000226101、ENSG00000227945、ENSG00000229459、ENSG00000230437、ENSG00000230680、ENSG00000233539、ENSG00000234899、ENSG00000235781、ENSG00000240175、ENSG00000250250、ENSG00000253381、ENSG00000253576、ENSG00000254109、ENSG00000254645、ENSG00000257194、ENSG00000257614、ENSG00000257995、ENSG00000259152、ENSG00000259275、ENSG00000265413、ENSG00000266767、ENSG00000267240、ENSG00000268560、ENSG00000277692、ENSG00000284452、ENSG00000284954、ENSG00000286081、ENSG00000286951、ENSG00000287528、ENSG00000287969;优选的,所述5hmC修饰的lncRNA包括ENSG00000274895,与任选地下列lncRNA的一种或多种ENSG00000272610、ENSG00000204682、ENSG00000254645、ENSG00000287528、ENSG00000257614、ENSG00000234899、ENSG00000235781、ENSG00000229459、ENSG00000253381、ENSG00000277692、ENSG00000230437。
一种基于5hmC修饰的lncRNA的肿瘤诊断系统,包括:
获取单元,用于获取待测样本的5hmC修饰的lncRNA数据;
处理单元,用于将所述5hmC修饰的lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果;
所述肿瘤诊断模型的确定方式包括:
获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据;
筛选出目标lncRNA数据作为特征数据,所述目标lncRNA数据为5hmc修饰的lncRNA数据,且所述目标lncRNA数据在每种肿瘤患者中均与健康人群存在差异;
采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤诊断模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权上述的肿瘤诊断系统。
验证实施例:
开发得到5hLD诊断模型后,为了验证得到的诊断模型是否可以更加精确的区分癌症与非癌症,将5hLD诊断模型应用于三个独立的验证队列中。首先,包括1251例HCC样本和570例健康人群样本的独立验证集1与发现队列中的一种癌症类型相同,并且癌症样本中与肿瘤相关的5hmC修饰的lncRNA水平总体上高于健康样本。热图(heatmap)表明,HCC样本倾向于具有较高的5hLD分数。将HCC样品与健康样品进行比较,HCC样品的5hLD得分显着高于健康样品(p<0.001)。使用曲线下面积(AUC)指标,基于5hLD得分的预测因子在验证队列中的HCC样本和健康人群样本之间表现良好,并且将HCC样本与健康人群样本独立分离(AUC:0.768,95%CI:0.746-0.790)(图7A)。接下来,包含150个EC样品和183个健康样品的独立验证集2与发现队列的癌症类型不同,并且样品的5hLD得分越高,就越有可能成为癌症样品(图7B)。同样,EC样品的5hLD得分显着高于健康人群样品(p<0.001),并且曲线下面积(AUC)与EC高于0.8时相同(AUC:0.887,95%CI:0.852-0.922)(图7B)。最后,进一步验证了5hLD诊断模型,以评估66个非小细胞癌(NSCLC)样本和67个健康人群样本,这些样本与训练集不同。与健康人群样本相比,NSCLC样本的5hLD分数越高,趋于与肿瘤相关的血浆衍生的5hmC修饰的lncRNA的水平越高,箱线图显示EC和健康样本之间的5hLD分数显着不同(p<0.001)(图7C)。来自健康人群样本的NSCLC样本的5hLD评分模型的预测率为0.851(95%CI:0.786-0.916)(图7C)。这些结果反映了5hLD诊断模型用于区分癌症样品与健康样品的鲁棒性和稳定性。
5hLD诊断模型可以揭示健康样本中的癌症样本,基于与肿瘤相关的5hmC修饰的lncRNA的样本评分是否可以表明疾病进展的相关性。在李组队列中进一步比较了癌症,良性癌症和正常样本的得分,癌症和良性结肠癌样本的得分显着高于正常样本,良性癌症样本分数也显着低于结肠癌和胃癌样本(图8A)。尽管这些比较是独立的,但将5hLD评分模型应用到独立验证队列进行多次比较,比较肝癌,肝硬化,肝炎,良性肝病和正常样本的5hLD得分,发现肝癌和肝炎评分明显高于正常样本(图8B)。此外,在从肝炎到肝癌的进展过程中,患者的评分有显着提高,这表明5hLD诊断模型可在肿瘤进展中具有潜在作用。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种基于5hmC修饰的lncRNA的肿瘤诊断设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:
获取待测样本的5hmC修饰的lncRNA数据;
将所述5hmC修饰的 lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果;
所述肿瘤诊断模型的确定方式包括:
获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据;
筛选出目标lncRNA数据作为特征数据,所述目标lncRNA数据为5hmc修饰的lncRNA数据,且所述目标lncRNA数据在每种肿瘤患者中均与健康人群存在差异;
采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤诊断模型;
所述筛选出目标lncRNA具体筛选方法包括:
分别比较每种肿瘤患者和健康人群5hmC修饰的lncRNA数据,分别获得每种肿瘤和健康人群相比存在差异的5hmC修饰的lncRNA,取不同种类肿瘤的5hmC修饰的lncRNA的交集;
或者,首先取不同种类肿瘤的5hmC修饰的lncRNA的交集,获取交集里面的5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据进行比较,选取在不同种类肿瘤里5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据都存在差异的5hmC修饰的lncRNA。
2.根据权利要求1所述的设备,其特征在于,所述获取5hmC修饰的lncRNA数据包括:
获取5hmC测序数据,与人类基因组进行比对,保留与人类基因组的唯一非重复匹配;
下载最新发行的lncRNA参考基因注释文件;
所述保留与人类基因组的唯一非重复匹配包括基于所述注释文件获得5hmC修饰的lncRNA的数据;
其中,当人类基因组版本与最新发行lncRNA参考基因注释文件的发行版本相同时,基于所述注释文件获得5hmC修饰的lncRNA的数据;当人类基因组版本与最新发行lncRNA参考基因注释文件的发行版本不同时,先将lncRNA定位信息从lncRNA参考基因注释文件的版本传输到与人类基因组相同版本,基于与人类基因组相同版本的lncRNA参考基因注释文件获得5hmC修饰的lncRNA的数据。
3.根据权利要求1所述的设备,其特征在于,所述目标lncRNA数据在每种肿瘤患者中均与健康人群存在差异,并且在每种肿瘤患者的良性肿瘤患者和恶性肿瘤患者中也存在差异。
4.根据权利要求1所述的设备,其特征在于,所述目标lncRNA具体筛选方法包括:
首先,分别比较每种肿瘤患者和健康人群5hmC修饰的lncRNA数据,分别获得每种肿瘤和健康人群相比存在差异的5hmC修饰的lncRNA,再者,分别比较每种肿瘤患者的良性肿瘤患者和恶性肿瘤患者5hmC修饰的lncRNA数据,分别获得每种肿瘤的良性肿瘤患者和恶性肿瘤患者相比存在差异的5hmC修饰的lncRNA,第三,取不同种类肿瘤的5hmC修饰的lncRNA的交集;
或者,首先,取不同种类肿瘤的5hmC修饰的lncRNA的交集,再者,获取交集里面的5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据进行比较,选取在不同种类肿瘤里5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据都存在差异的5hmC修饰的lncRNA,第三,选取在不同种类肿瘤里良性肿瘤患者5hmC修饰的lncRNA数据和恶性肿瘤患者的相比存在差异的5hmC修饰的lncRNA。
5.根据权利要求1或4所述的设备,其特征在于,所述存在差异的5hmC修饰的lncRNA数据是通过包括fold change和P-value指标进行判断。
6.根据权利要求5所述的设备,其特征在于,
|fold change| > 0.58 ,P-value< 0.05的5hmC修饰的lncRNA数据判断为存在差异的5hmC修饰的lncRNA数据。
7.根据权利要求1所述的设备,其特征在于,所述特征选择还包括特征选择后的聚类分析。
8.根据权利要求7所述的设备,其特征在于,所述聚类分析为无监督层次聚类分析。
9.根据权利要求1所述的设备,其特征在于,所述特征选择通过采用多种不同机器学习的方法并行进行,选择导致最大准确度的模型里的特征。
10.根据权利要求9所述的设备,其特征在于,所述机器学习的方法包括递归特征消除、CART、随机森林、线性回归、朴素贝叶斯、自定义的训练模型中的一种或几种。
11.根据权利要求1所述的设备,其特征在于,所述肿瘤诊断模型还包括正则项。
12.一种基于5hmC修饰的lncRNA的肿瘤诊断设备,所述设备包括:存储器和处理器,所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:
获取待测样本的5hmC修饰的lncRNA数据;
将所述5hmC修饰的 lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果;
所述肿瘤诊断模型通过5hmC修饰的lncRNA中的一种或几种的组合的特征数据获得待测样本肿瘤风险和/或肿瘤进展的预测结果;所述5hmC修饰的lncRNA为:ENSG00000272610、ENSG00000274895、ENSG00000082929、ENSG00000178457、ENSG00000203706、ENSG00000204682、ENSG00000222033、ENSG00000223492、ENSG00000225680、ENSG00000226101、ENSG00000227945、ENSG00000229459、ENSG00000230437、ENSG00000230680、ENSG00000233539、ENSG00000234899、ENSG00000235781、ENSG00000240175、ENSG00000250250、ENSG00000253381、ENSG00000253576、ENSG00000254109、ENSG00000254645、ENSG00000257194、ENSG00000257614、ENSG00000257995、ENSG00000259152、ENSG00000259275、ENSG00000265413、ENSG00000266767、ENSG00000267240、ENSG00000268560、ENSG00000277692、ENSG00000284452、ENSG00000284954、ENSG00000286081、ENSG00000286951、ENSG00000287528、ENSG00000287969。
13.根据权利要求12所述基于5hmC修饰的lncRNA的肿瘤诊断设备,其特征在于,所述5hmC修饰的lncRNA包括ENSG00000274895,与任选地下列lncRNA的一种或多种ENSG00000272610、ENSG00000204682、ENSG00000254645、ENSG00000287528、ENSG00000257614、ENSG00000234899、ENSG00000235781、ENSG00000229459、ENSG00000253381、ENSG00000277692、ENSG00000230437。
14.一种基于5hmC修饰的lncRNA的肿瘤诊断系统,包括:
获取单元,用于获取待测样本的5hmC修饰的lncRNA数据;
处理单元,用于将所述5hmC修饰的 lncRNA数据输入肿瘤诊断模型中,获得待测样本肿瘤风险和/或肿瘤进展的预测结果;
所述肿瘤诊断模型的确定方式包括:
获取肿瘤患者和健康人群的5hmC修饰的lncRNA数据;
筛选出目标lncRNA数据作为特征数据,所述目标lncRNA数据为5hmc修饰的lncRNA数据,且所述目标lncRNA数据在每种肿瘤患者中均与健康人群存在差异;
采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤诊断模型;
所述筛选出目标lncRNA具体筛选方法包括:
分别比较每种肿瘤患者和健康人群5hmC修饰的lncRNA数据,分别获得每种肿瘤和健康人群相比存在差异的5hmC修饰的lncRNA,取不同种类肿瘤的5hmC修饰的lncRNA的交集;
或者,首先取不同种类肿瘤的5hmC修饰的lncRNA的交集,获取交集里面的5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据进行比较,选取在不同种类肿瘤里5hmC修饰的lncRNA的数据和健康人群5hmC修饰的lncRNA数据都存在差异的5hmC修饰的lncRNA。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-14任意一项所述的肿瘤诊断设备/系统。
CN202110419547.5A 2021-04-19 2021-04-19 一种基于5hmC修饰的lncRNA的肿瘤诊断设备 Active CN113096798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110419547.5A CN113096798B (zh) 2021-04-19 2021-04-19 一种基于5hmC修饰的lncRNA的肿瘤诊断设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110419547.5A CN113096798B (zh) 2021-04-19 2021-04-19 一种基于5hmC修饰的lncRNA的肿瘤诊断设备

Publications (2)

Publication Number Publication Date
CN113096798A CN113096798A (zh) 2021-07-09
CN113096798B true CN113096798B (zh) 2022-06-10

Family

ID=76678722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110419547.5A Active CN113096798B (zh) 2021-04-19 2021-04-19 一种基于5hmC修饰的lncRNA的肿瘤诊断设备

Country Status (1)

Country Link
CN (1) CN113096798B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103060450A (zh) * 2013-01-09 2013-04-24 武汉大学 一种利用哌啶水溶液检测dna中5-醛基胞嘧啶和5-羟甲基胞嘧啶的方法
EP2630257A1 (en) * 2010-10-22 2013-08-28 Oslo Universitetssykehus HF Methods and kits for detection of 5-hydroxymethylcytosine
AU2012291873A1 (en) * 2011-07-29 2014-02-20 Cambridge Epigenetix Limited Methods for detection of nucleotide modification

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10793898B2 (en) * 2015-12-23 2020-10-06 The Regents Of The University Of California Nano-sensors for nucleic acid detection and discrimination
CN109790643A (zh) * 2016-03-09 2019-05-21 分子听诊器公司 用于检测组织状况的方法和系统
US11618926B2 (en) * 2017-02-28 2023-04-04 Baylor Research Institute Methods for diagnosing, prognosing, and treating colorectal cancer using biomarker expression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2630257A1 (en) * 2010-10-22 2013-08-28 Oslo Universitetssykehus HF Methods and kits for detection of 5-hydroxymethylcytosine
AU2012291873A1 (en) * 2011-07-29 2014-02-20 Cambridge Epigenetix Limited Methods for detection of nucleotide modification
CN103060450A (zh) * 2013-01-09 2013-04-24 武汉大学 一种利用哌啶水溶液检测dna中5-醛基胞嘧啶和5-羟甲基胞嘧啶的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Altering 5-hydroxymethylcytosine modification impacts ischemic brain injury;Zhigang Miao;《Human Molecular Genetics》;20151231;第24卷(第20期);第5855-5866页 *
Epigenomic landscape of 5-hydro-xymethylcytosine reveals its transcriptional regulation of lncRNAs in colorectal cancer;Hanyang Hu;《British Journal of Cancer》;20170131;第658-668页 *
肿瘤类疾病的过度与错误医疗检查控制机制与模型的研究;朱诗生等;《计算机应用研究》;20190531(第05期);第1428-1432页 *
表观遗传DNA甲基化和组蛋白修饰与疾病关系的研究进展;晏强等;《医学综述》;20170820(第16期);全文 *
非编码RNA与代谢的研究进展;傅湘辉;《中国科学:生命科学》;20170520(第05期);全文 *

Also Published As

Publication number Publication date
CN113096798A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Goldstraw et al. The IASLC Lung Cancer Staging Project: proposals for the revision of the TNM stage groupings in the forthcoming (seventh) edition of the TNM Classification of malignant tumours
CN108179190B (zh) 一种非小细胞肺癌的血浆外泌体circRNA标志物及其检测引物、试剂盒
CN109478231A (zh) 帮助区别良性和恶性放射线照相明显肺结节的方法和组合物
de Jonge et al. Gut virome profiling identifies a widespread bacteriophage family associated with metabolic syndrome
Li et al. Identification of novel long non-coding RNA biomarkers for prognosis prediction of papillary thyroid cancer
CN111218513A (zh) 一种用于肺癌早期诊断的外周血胞外囊泡microRNA生物标志物及其用途
Esposito et al. Microbiome composition indicate dysbiosis and lower richness in tumor breast tissues compared to healthy adjacent paired tissue, within the same women
CN107034301A (zh) 一种检测肺结节为良性或恶性的试剂盒及其应用
CN104293914A (zh) 用于检测原发性肝细胞癌的血清miRNA标志物组合及应用
Liang et al. Diagnostic value of microRNAs as biomarkers for cholangiocarcinoma
WO2020034543A1 (zh) 用于乳腺癌诊断的标记物及其筛选方法
Yao et al. A new biomarker of fecal bacteria for non-invasive diagnosis of colorectal cancer
CN109234395A (zh) 一种环状rna检测引物、其检测试剂盒及该引物在妇科肿瘤检测试剂盒中的应用
CN103562404A (zh) 预测肝癌预后的组合物或试剂盒以及预测肝癌预后的方法
CN111833963A (zh) 一种cfDNA分类方法、装置和用途
Tian Identification of monotonically differentially expressed genes for non-small cell lung cancer
CN115153445A (zh) 腹腔镜肝切除治疗肝内胆管癌的远期预后的动态列线图模型构建方法、系统及应用
Zhang et al. Leveraging fecal bacterial survey data to predict colorectal tumors
CN106399304A (zh) 一种与乳腺癌相关的snp标记
CN113345592B (zh) 一种急性髓细胞样白血病预后风险模型的构建及诊断设备
Yu et al. The number of negative lymph nodes is positively associated with survival in esophageal squamous cell carcinoma patients in China
WO2017156739A1 (zh) 分离的核酸及应用
CN113096798B (zh) 一种基于5hmC修饰的lncRNA的肿瘤诊断设备
CN112862018B (zh) 基于5hmC修饰的lncRNA的肿瘤分类装置
CN117316278A (zh) 一种基于cfDNA片段长度分布特征的癌症无创早筛方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant