CN111785327A - 一种isomiR分子标志物的筛选方法及装置 - Google Patents
一种isomiR分子标志物的筛选方法及装置 Download PDFInfo
- Publication number
- CN111785327A CN111785327A CN201910271008.4A CN201910271008A CN111785327A CN 111785327 A CN111785327 A CN 111785327A CN 201910271008 A CN201910271008 A CN 201910271008A CN 111785327 A CN111785327 A CN 111785327A
- Authority
- CN
- China
- Prior art keywords
- isomir
- detected
- sample
- disease
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种isomiR分子标志物的筛选方法,所述方法至少包括以下步骤:利用数据库,获取待检测疾病样本和对应健康样本的isomiR的表达数据;对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行差异表达分析,得到以对应健康样本为对照,待检测疾病样本的isomiR的变化率;根据变化率选取isomiR;对选取的isomiR进行靶基因预测,获得靶基因;对所述靶基因进行功能分析,筛选与待检测疾病相关的靶基因,所述靶基因及其对应的isomiR即为所述待检测疾病的分子标志物。本发明所述方法分析流程思路清晰,其实现方法简单,可广泛应用于生物学研究工作中,也可用于临床相关应用。
Description
技术领域
本发明涉及一种基因工程领域,特别是涉及一种isomiR分子标志物的筛选方法及装置。
背景技术
miRNA是生命活动的重要调节物质,原来通常认为,一个miRNA基因只能形成一种成熟的miRNA。然而,最近的研究发现,一个miRNA基因其实可以形成多种在长度或序列上存在差异miRNA异构体(isoforms of miRNA,isomiR)。
近几年来对isomiR呈爆发式增长的研究,研究表明很多isomiRs在癌症患者的血清或血浆中表达异常,可能作为抑癌基因或促癌基因参与肿瘤的发生发展,且其可以稳定的形态在体液中循环,在临床诊断中占据一定的优势。IsomiR的表达具有细胞及其组织特异性、疾病状态特异性,并具有参与细胞应激反应的能力。许多疾病的致病机制与isomiR或isomiR的表达变化相关,并可能成为疾病诊断的标记或治疗的靶标。isomiR序列可以结合靶mRNA,从而进一步发挥生物学作用。
近几年测序技术的广泛应用,为isomiR的发现和对它们功能的研究就提供了有利条件,可以针对其序列特点进行检测,并验证其表达模式和生物学功能提供数据基础。如何有效地对公共数据库的相关样本数据进行数据挖掘,筛选与疾病相关的isomiR分子标志物,是isomiR的一个应用难点。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种isomiR分子标志物的筛选方法及装置。
为实现上述目的及其他相关目的,本发明第一方面提供一种isomiR分子标志物的筛选方法,所述方法至少包括以下步骤:
S1:利用数据库,获取待检测疾病样本和对应健康样本的isomiR的表达数据;
S2:对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行差异表达分析,得到以对应健康样本为对照,待检测疾病样本的isomiR的变化率;
S3:根据变化率选取isomiR;
S4:对S3中选取的isomiR进行靶基因预测,获得靶基因;
S5:对所述靶基因进行功能分析,筛选与待检测疾病相关的靶基因,所述靶基因及其对应的isomiR即为所述待检测疾病的分子标志物。
本发明第二方面提供一种isomiR分子标志物的筛选装置,其特征在于,所述装置至少包括:
获取模块,用于利用数据库,获取待检测疾病样本和对应健康样本的isomiR的表达数据;
差异表达分析模块,用于对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行差异表达分析,得到以对应健康样本为对照,待检测疾病样本的isomiR的变化率;
选取模块,用于根据变化率选取isomiR;
靶基因预测模块,用于对选取模块中选取的isomiR进行靶基因预测,获得靶基因;
功能分析模块,用于对所述靶基因进行功能分析,筛选出与待检测疾病相关的靶基因,所述靶基因及其对应的isomiR即为所述待检测疾病的分子标志物。
本发明第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述isomiR分子标志物的筛选方法。
本发明第四方面提供一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述isomiR分子标志物的筛选方法的步骤。
本发明第五方面提供一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行前述isomiR分子标志物的筛选方法。
本发明第六方面提供前述的isomiR分子标志物的筛选方法、isomiR分子标志物的筛选装置、计算机可读存储介质、计算机处理设备或电子终端在生物靶向治疗系统、致病机理系统和致病风险预测系统中的一种或多种中的应用。
如上所述,本发明的isomiR分子标志物的筛选方法及装置,具有以下有益效果:
本发明提供的isomiR分子标志物的筛选方法及装置,基于公共数据资源,用生物信息学方法,对isomiR表达数据进行分析处理,识别与骨髓瘤相关的isomiR。本发明发现与骨髓瘤相关的isomiR和多个风险基因,对骨髓瘤生物靶向治疗、致病机理阐释及风险预测等都有重要意义。本发明能解决不擅长整合现有网络资源、不熟悉isomiR相关的最常用数据库及前沿分析方法以及不能独立完成isomiR相关的生物信息学分析等问题。本发明采用丰富多样的生物信息学手段,整合权威性强普及率高的公共网络资源,建立了一套完整的前沿的分析流程,能对isomiR高通量数据进行系统的全面的功能分析并发现骨髓瘤相关isomiR分子标志物。可有效利用公共数据库的高通量数据,降低科研成本,提高分析效率。分析流程思路清晰,其实现方法简单,可广泛应用于生物学研究工作中,也可用于临床相关应用。
附图说明
图1显示为本发明一实施例中isomiR分子标志物的筛选方法流程图。
图2显示为本发明一实施例中isomiR分子标志物的筛选装置示意图。
图3显示为本发明一实施例中电子终端示意图。
图4显示为骨髓瘤isomiR与靶基因top1相关网络示意图。
图5显示为骨髓瘤isomiR与靶基因top2相关网络示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1至图5。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,虽图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,展示本发明提供的isomiR分子标志物的筛选方法,所述方法至少包括以下步骤:
S1:利用数据库,获取待检测疾病样本和对应健康样本的isomiR的表达数据;
S2:对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行差异表达分析,得到以对应健康样本为对照,待检测疾病样本的isomiR的变化率;
S3:根据变化率选取isomiR;
S4:对S3中选取的isomiR进行靶基因预测,获得靶基因;
S5:对所述靶基因进行功能分析,筛选与待检测疾病相关的靶基因,所述靶基因及其对应的isomiR即为所述待检测疾病的分子标志物。
在一种实施方式中,步骤S1中,所述数据库选自GEO数据库。
在一种实施方式中,步骤S1中,获取isomiR的表达数据发方法包括以下步骤:获取待检测疾病样本和对应健康样本的small RNA测序原始数据,并进行比对、定量及注释,得到isomiR的表达数据。
在一种实施方式中,步骤S2中,所述差异表达分析方法选自倍数法,优选的,所述倍数法选取1.5倍或者2倍的差异倍数。
在一种实施方式中,步骤S3中,根据变化率选取isomiR是指,在步骤S2得到的结果进行变化率排名,选取排名在前的isomiR。
在一种实施方式中,将差异表达的isomiR按照差异倍数绝对值排序,越大的排名越靠前,筛选一定数目的isomiR作为待研究isomiR。
在一种实施方式中,步骤S4中,利用靶基因预测网站或预测软件作为预测靶基因,优选的,所述预测软件选自miRanda。
在一种实施方式中,步骤S5中,所述功能分析包括通路分析和/或调控网络的构建。
在一种实施方式中,所述待检测疾病选自肿瘤疾病。
在一种实施方式中,步骤S1中,获取待检测疾病样本和对应健康样本的isomiR的表达数据的方法包括如下步骤:
S1.1,获取待检测疾病样本和对应健康样本的isomiR的测序数据;
S1.2,获得原始测序数据的SRA数据链接;
S1.3,利用aspera批量下载所需的测序原始数据;
S1.4,将上述步骤得到的数据转变成fastq格式。
在一种实施方式中,把原始数据的fastq比对到参考基因组上,然后进行注释,获得isomiRs,再进行定量,得到isomiRs的表达值。
在一种实施方式中,所述差异表达分析方法选用Benjamini-Hochberg方法、FDR方法或者Bonforroni方法校正P-value后得到差异表达的isomiR。
在一种实施方式中,基于clusterProfiler进行通路分析。
在一种实施方式中,所述肿瘤疾病选自骨髓瘤。
在一种实施方式中,利用KEGG数据库进行通路分析。
在一种实施方式中,步骤S2中,在差异表达分析之前,还包括对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行过滤。
在一种实施方式中,过滤包括去除adaptor,然后去除质量值低于20的碱基占read百分比大于20%的序列。
在一种实施方式中,使用windows或者linux下的aspera软件下载所需研究数据。
在一种实施方式中,在R平台,对isomiR的结果进行错误发现率矫正。可以采用Benjamini–Hochberg,FDR和Bonferroni方法。
在一种实施方式中,对isomiR通过预测软件miRanda进行结合位点预测。
GEO数据库,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到,且数据量在逐年递增。
所述aspera是一个NCBI上推荐的下载大数据量测序数据的高速下载软件。
所述fastq格式为一般测序分析时需要的数据格式。
miRanda方法
miRanda是Enright等人于2003年开发一种isomiR靶标预测软件。miRanda的核心思想主要是基于碱基互补,近似于Smith-Waterman算法,但对碱基配对的原则作出了改进,允许G-U间的错配。考虑到isomiR与靶标位点结合时存在对5’端匹配程度要求较高的特性,软件使用scale参数对5’端的11个碱基的得分作出矫正。而对结合能计算方面,miRanda基于ViennaRNA软件包中RNAlib程序来计算isomiR-靶序列间的结合能。对于多个isomiR靶向同一位点的情况,miRanda采用贪婪算法选取得分最高结合能最低的结果。
在本发明的一个实施方案中,在R平台,使用clusterProfiler包对靶基因从KEGG方面进行注释和富集分析。
KEGG数据库
KEGG由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际最常用的生物信息数据库之一,以“理解生物系统的高级功能和实用程序资源库”著称,也是代谢分析领域应用最广最权威的数据库。大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为16个主要的数据库。例如,基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库LIGAND,包含关于化学物质、酶分子、酶反应等信息。
在本发明的一个实施方案中,在得到基因的通路相关信息后结合差异表达的isomiR,生成含有isomiR与基因的调控网络信息的网络文件。可以用Cytoscape软件打开,图形化展示。
如图2所示,展示本发明一实施例中isomiR分子标志物的筛选装置,所述装置至少包括:
获取模块,用于利用数据库,获取待检测疾病样本和对应健康样本的isomiR的表达数据;
差异表达分析模块,用于对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行差异表达分析,得到以对应健康样本为对照,待检测疾病样本的isomiR的变化率;
选取模块,用于根据变化率选取isomiR;
靶基因预测模块,用于对选取模块中选取的isomiR进行靶基因预测,获得靶基因;
功能分析模块,用于对所述靶基因进行功能分析,筛选出与待检测疾病相关的靶基因,所述靶基因及其对应的isomiR即为所述待检测疾病的分子标志物。
在一种实施方式中,获取模块中,所述数据库选自GEO数据库。
在一种实施方式中,获取模块中,获取isomiR的表达数据发方法包括以下步骤:获取待检测疾病样本和对应健康样本的small RNA测序原始数据,并进行比对、定量及注释,得到isomiR的表达数据。
在一种实施方式中,差异表达分析模块中,所述差异表达分析方法选自倍数法,优选的,所述倍数法选取1.5倍或者2倍的差异倍数;
在一种实施方式中,选取模块中,所述根据变化率选取isomiR是指,在步骤S2得到的结果进行变化率排名,选取排名在前的isomiR;
在一种实施方式中,靶基因预测模块中,利用靶基因预测网站或预测软件作为预测靶基因,优选的,所述预测软件选自miRanda;
在一种实施方式中,功能分析模块中,所述功能分析包括通路分析和/或调控网络的构建;
在一种实施方式中,所述待检测疾病选自肿瘤疾病。
在一种实施方式中,获取模块中,获取待检测疾病样本和对应健康样本的isomiR的表达数据的方法包括如下步骤:
S1.1,获取待检测疾病样本和对应健康样本的isomiR的测序数据;
S1.2,获得原始测序数据的SRA数据链接;
S1.3,利用aspera批量下载所需的测序原始数据;
S1.4,将上述步骤得到的数据转变成fastq格式。
在一种实施方式中,把原始数据的fastq比对到参考基因组上,然后进行注释,获得isomiRs,再进行定量,得到isomiRs的表达值。
在一种实施方式中,所述差异表达分析方法选用Benjamini-Hochberg方法、FDR方法或者Bonforroni方法校正P-value后得到差异表达的isomiR;
在一种实施方式中,基于clusterProfiler进行通路分析。
在一种实施方式中,所述肿瘤疾病选自骨髓瘤。
在一种实施方式中,利用KEGG数据库进行通路分析。
在一种实施方式中,差异表达分析模块中,在差异表达分析之前,还包括对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行过滤。
在一种实施方式中,使用windows或者linux下的aspera软件下载所需研究数据。
在一种实施方式中,在R平台,对isomiR的结果进行错误发现率矫正。可以采用Benjamini–Hochberg,FDR和Bonferroni方法。
在一种实施方式中,对isomiR通过预测软件miRanda进行结合位点预测。
所述aspera是一个NCBI上推荐的下载大数据量测序数据的高速下载软件。
所述fastq格式为一般测序分析时需要的数据格式。
在本发明的一个实施方案中,在R平台,使用clusterProfiler包对靶基因从KEGG方面进行注释和富集分析。
在本发明的一个实施方案中,在得到基因的通路相关信息后结合差异表达的isomiR,生成含有isomiR与基因的调控网络信息的网络文件。可以用Cytoscape软件打开,图形化展示。
在一种实施方式中,过滤包括去除adaptor,然后去除质量值低于20的碱基占read百分比大于20%的序列。
由于本实施例中的装置与前述方法实施例的原理基本相同,在上述方法和装置实施例中,对相同特征的定义、计算方法、实施方式的列举及优选实施方式的列举阐述可以互用,不再重复赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在某一个芯片中实现,此外,也可以以程序代码的形式存储于存储器中,由某一个处理元件调用并执行以上获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
在本发明的一些实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述isomiR分子标志物的筛选方法。
在本发明的一些实施例中,还提供了一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述isomiR分子标志物的筛选方法的步骤。
在本发明的一些实施例中,还提供了一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行实现前述isomiR分子标志物的筛选方法。
如图3所示,展示本发明提供的一种电子终端的示意图。所述电子终端包括处理器31、存储器32、通信器33、通信接口34和系统总线35;存储器32和通信接口34通过系统总线35与处理器31和通信器33连接并完成相互间的通信,存储器32用于存储计算机程序,通信器34、通信接口34用于和其他设备进行通信,处理器31和通信器33用于运行计算机程序,使电子终端执行如上图像分析方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
在具体实现上,所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。
本发明还提供前述的isomiR分子标志物的筛选方法、isomiR分子标志物的筛选装置、计算机可读存储介质、计算机处理设备或电子终端在生物靶向治疗系统、致病机理系统和致病风险预测系统中的一种或多种中的应用。
实例
首先对原始数据进行SRA转fastq,进行过滤处理,然后去除低质量的数据,并过滤其它smallRNA,得到有效的isomiR标准化的表达值,然后进行注释。基于isomiR差异分析结果,可以基于其序列特征,进行靶基因预测。在上述分析的基础上,可进行一系列的统计学和可视化分析。
1.isomiR注释文件如表1所示
分析平台:R平台
分析软件:isomiRs包
表1:
seq | name | freq | mir | start | end | mism | add | t5 | t3 |
AAAGGCGGGAGAAGCCCCGGC | seq_100022_x1 | 1 | hsa-miR-4484 | 65 | 82 | 0 | GGC | a | a |
TGAGGTAGTAGTTTGTACAGTTAGA | seq_100036_x2 | 2 | hsa-let-7g-5p | 5 | 26 | 0 | AGA | 0 | 0 |
CATAAAGTAGAAAGCACT | seq_100064_x1002 | 1002 | hsa-miR-142-5p | 16 | 33 | 0 | 0 | 0 | act |
CGGCCCGGGCTGCTGCTGTTC | seq_100088_x1 | 1 | hsa-miR-1538 | 39 | 59 | 0 | 0 | 0 | ct |
AACATTCAACGCTGTCGGTGAT | seq_100091_x51 | 51 | hsa-miR-181a-5p | 39 | 59 | 0 | T | 0 | gt |
列名解释:
seq:sequence
freq/name:depending on the input this column contains counts(tabularinput file)or name(fasta file)
mir:miRNA name
start:start of the sequence at the precursor
end:end of the sequence at the precursor
mism:nucleotide substitution position|nucleotide at sequence|nucleotide at precursor
add:nucleotides at 3end added
t5:nucleotides at 5end different from the annonated sequence inmiRBase
t3:nucleotides at 3end different from the annotated sequence inmiRBase
2.差异表达的isomiR结果如表2所示
分析平台:R平台
分析软件:DESeq2包
表2:
row | baseMean | log2FoldChange | lfcSE | stat | pvalue | padj |
hsa-miR-4485-3p.t5:GTT.t3:taa.ad:0 | 86.2160 | 6.6277 | 1.0032 | 6.6066 | 3.9326E-11 | 1.8981E-08 |
hsa-miR-6503-5p.t5:0.t3:a.ad:T | 19.2697 | 5.4067 | 1.1283 | 4.7919 | 1.6519E-06 | 1.0631E-04 |
hsa-miR-223-3p.t5:0.t3:0.ad:TG | 33.6162 | 5.3714 | 0.9043 | 5.9400 | 2.8502E-09 | 6.8785E-07 |
hsa-miR-27a-3p.t5:0.t3:cgc.ad:GGC | 18.6298 | 5.3470 | 1.1345 | 4.7131 | 2.4401E-06 | 1.4133E-04 |
hsa-miR-27b-3p.t5:0.t3:tgc.ad:GGC | 18.6298 | 5.3470 | 1.1345 | 4.7131 | 2.4401E-06 | 1.4133E-04 |
列名解释:
row:the isomiR name
baseMean:base means across samples
log2FoldChange:log2 ratio of theat vesus control
lfcSE:gives the standard error of the log2FoldChange
stat:For the Wald test,stat is the Wald statistic:the log2FoldChangedivided by lfcSE,which is
compared to a standard Normal distribution to generate a two-tailedpvalue
pvalue:pvalue of the statistics
padj:adjusted pvalue
3.isomiR的靶基因预测及筛选
对isomiR的靶基因预测采用miRanda算法进行预测。
结果所示:
miRanda算法是基于位点结合自由能和序列互补配对得分的方法。默认参数使用strict种子序列互补配对法,score得分大于140分,最小自由能为-20KJ/mol。
分析平台:linux平台
结果所示:
表3 miRanda结果:
Seq1 | Seq2 | Tot Score | Tot Energy | Max Score | Max Energy | Len1 | Len2 | Positions |
hsa-miR-186-5p.t5:c.t3:t.ad:0 | ENST00000536792.5_CDK8::chr13:26401269-26401347(+) | 182 | -21.5 | 182 | -21.5 | 20 | 79 | 27 |
hsa-miR-186-5p.t5:c.t3:t.ad:0 | ENST00000352483.3_RIPK4::chr21:41739369-41740837(-) | 181 | -22.53 | 181 | -22.53 | 20 | 1469 | 662 |
hsa-miR-186-5p.t5:c.t3:t.ad:0 | ENST00000332512.7_RIPK4::chr21:41739369-41740837(-) | 181 | -22.53 | 181 | -22.53 | 20 | 1469 | 662 |
hsa-miR-186-5p.t5:c.t3:0.ad:0 | ENST00000536792.5_CDK8::chr13:26401269-26401347(+) | 187 | -21.5 | 187 | -21.5 | 21 | 79 | 26 |
hsa-miR-186-5p.t5:c.t3:0.ad:0 | ENST00000352483.3_RIPK4::chr21:41739369-41740837(-) | 181 | -22.53 | 181 | -22.53 | 21 | 1469 | 661 |
列名解释:
Seq1:search sequence
Seq2:target sequence
Tot Score:total Score of all sites
Tot Energy:total Energy of all sites
Max Score:Max Score of binding sites
Max Energy:Max Energy of binding sites,A negative value is requiredfor filtering to occur
Len1:length of Seq1
Len2:length of Seq2
Positions:binding sites
4.功能性分析
利用clusterProfiler对靶基因从KEGG进行通路分析。能够发现预测的isomiR与癌症基因间的关联性、与重要基因之间存在的风险通路。这些关联分析和通路联系是导致疾病发生的源头。
分析软件:R的clusterProfiler
结果所示:
表4通路富集分析:
isomiR | ID | Description | pvalue | geneID |
hsa-miR-221-5p.t5:0.t3:C.ad:0 | hsa04360 | Axon guidance | 0.0234396 | 9037 |
hsa-miR-378a-3p.t5:0.t3:0.ad:0 | hsa04921 | Oxytocin signaling pathway | 0.020359 | 5021 |
hsa-miR-378a-3p.t5:0.t3:0.ad:A | hsa04080 | Neuroactive ligand-receptor interaction | 0.0371015 | 5021 |
hsa-miR-574-5p.t5:0.t3:gt.ad:0 | hsa04144 | Endocytosis | 0.0326815 | 23362 |
hsa-miR-92a-3p.t5:0.t3:0.ad:AAA | hsa03030 | DNA replication | 0.0048219 | 4171 |
列名解释:
isomiR:isomiR name
ID:pathway id
Description:pathway description
pvalue:pvalue
geneID:target gene id
5.isomiR潜在功能调控网络的构建
分析平台:R平台
图形化软件:Cytoscape
骨髓瘤isomiR与靶基因top1相关网络示意图图图4所示,表明:
hsa-miR-92a-3p.t5:0.t3:0.ad:AAA、hsa-miR-92a-3p.t5:0.t3:0.ad:AGA
和hsa-miR-92a-3p.t5:0.t3:0.ad:AGT在骨髓瘤样本中与靶基因相关性,通过通路富集发现与疾病最相关。
骨髓瘤isomiR与靶基因top2相关网络示意图如图5所示,表明:
hsa-miR-378a-3p.t5:0.t3:0.ad:0和hsa-miR-378a-3p.t5:0.t3:0.ad:A在骨髓瘤样本中与靶基因相关性,通过通路富集发现与疾病相关
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (14)
1.一种isomiR分子标志物的筛选方法,所述方法至少包括以下步骤:
S1:利用数据库,获取待检测疾病样本和对应健康样本的isomiR的表达数据;
S2:对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行差异表达分析,得到以对应健康样本为对照,待检测疾病样本的isomiR的变化率;
S3:根据变化率选取isomiR;
S4:对S3中选取的isomiR进行靶基因预测,获得靶基因;
S5:对所述靶基因进行功能分析,筛选与待检测疾病相关的靶基因,所述靶基因及其对应的isomiR即为所述待检测疾病的分子标志物。
2.如权利要求1所述的isomiR分子标志物的筛选方法,其特征在于,还包括以下特征中的一项或多项:
a.步骤S1中,所述数据库选自GEO数据库,和/或,获取isomiR的表达数据发方法包括以下步骤:获取待检测疾病样本和对应健康样本的small RNA测序原始数据,并进行比对、定量及注释,得到isomiR的表达数据;
b.步骤S2中,所述差异表达分析方法选自倍数法,优选的,所述倍数法选取1.5倍或者2倍的差异倍数;
c.步骤S3中,根据变化率选取isomiR是指,在步骤S2得到的结果进行变化率排名,选取排名在前的isomiR;
d.步骤S4中,利用靶基因预测网站或预测软件作为预测靶基因,优选的,所述预测软件选自miRanda;
e.步骤S5中,所述功能分析包括通路分析和/或调控网络的构建;
f.所述待检测疾病选自肿瘤疾病。
3.如权利要求2所述的isomiR分子标志物的筛选方法,其特征在于,还包括以下特征中的一项或多项:
g.特征a中,步骤S1中,获取待检测疾病样本和对应健康样本的small RNA测序原始数据的方法包括如下步骤:
S1.1,获取待检测疾病样本和对应健康样本的isomiR的测序数据;
S1.2,获得原始测序数据的SRA数据链接;
S1.3,利用aspera批量下载所需的测序原始数据;
S1.4,将上述步骤得到的数据转变成fastq格式;
h.特征b中,所述差异表达分析方法选用Benjamini-Hochberg方法、FDR方法或者Bonforroni方法校正P-value后得到差异表达的isomiR;
i.特征e中,基于clusterProfiler进行通路分析;
j.特征f中,所述肿瘤疾病选自骨髓瘤。
4.如权利要求3所述的isomiR分子标志物的筛选方法,其特征在于,特征i中,利用KEGG数据库进行通路分析。
5.如权利要求1所述的isomiR分子标志物的筛选方法,其特征在于,步骤S2中,在差异表达分析之前,还包括对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行过滤。
6.一种isomiR分子标志物的筛选装置,其特征在于,所述装置至少包括:
获取模块,用于利用数据库,获取待检测疾病样本和对应健康样本的isomiR的表达数据;
差异表达分析模块,用于对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行差异表达分析,得到以对应健康样本为对照,待检测疾病样本的isomiR的变化率;
选取模块,用于根据变化率选取isomiR;
靶基因预测模块,用于对选取模块中选取的isomiR进行靶基因预测,获得靶基因;
功能分析模块,用于对所述靶基因进行功能分析,筛选出与待检测疾病相关的靶基因,所述靶基因及其对应的isomiR即为所述待检测疾病的分子标志物。
7.如权利要求6所述的isomiR分子标志物的筛选装置,其特征在于,还包括以下特征中的一项或多项:
a.获取模块中,所述数据库选自GEO数据库;和/或,获取isomiR的表达数据发方法包括以下步骤:获取待检测疾病样本和对应健康样本的small RNA测序原始数据,并进行比对、定量及注释,得到isomiR的表达数据;
b.差异表达分析模块中,所述差异表达分析方法选自倍数法,优选的,所述倍数法选取1.5倍或者2倍的差异倍数;
c.选取模块中,所述根据变化率选取isomiR是指,在步骤S2得到的结果进行变化率排名,选取排名在前的isomiR;
d.靶基因预测模块中,利用靶基因预测网站或预测软件作为预测靶基因,优选的,所述预测软件选自miRanda;
e.功能分析模块中,所述功能分析包括通路分析和/或调控网络的构建;
f.所述待检测疾病选自肿瘤疾病。
8.如权利要求7所述的isomiR分子标志物的筛选装置,其特征在于,还包括以下特征中的一项或多项:
g.特征a中,获取模块中,获取待检测疾病样本和对应健康样本的isomiR的表达数据的方法包括如下步骤:
S1.1,获取待检测疾病样本和对应健康样本的isomiR的测序数据;
S1.2,获得原始测序数据的SRA数据链接;
S1.3,利用aspera批量下载所需的测序原始数据;
S1.4,将上述步骤得到的数据转变成fastq格式;
h.特征b中,所述差异表达分析方法选用Benjamini-Hochberg方法、FDR方法或者Bonforroni方法校正P-value后得到差异表达的isomiR;
i.特征e中,基于clusterProfiler进行通路分析;
j.特征f中,所述肿瘤疾病选自骨髓瘤。
9.如权利要求8所述的isomiR分子标志物的筛选装置,其特征在于,特征i中,利用KEGG数据库进行通路分析。
10.如权利要求6所述的isomiR分子标志物的筛选装置,其特征在于,差异表达分析模块中,在差异表达分析之前,还包括对所述待检测疾病样本和对应健康样本的isomiR的表达数据进行过滤。
11.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-5任一所述的isomiR分子标志物的筛选方法。
12.一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现权利要求1-5任一所述的isomiR分子标志物的筛选方法的步骤。
13.一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1-5任一所述的isomiR分子标志物的筛选方法。
14.如权利要求1-5任一所述的isomiR分子标志物的筛选方法、权利要求6-10所述的isomiR分子标志物的筛选装置、权利要求11所述的计算机可读存储介质、权利要求12所述的计算机处理设备或权利要求13所述的电子终端中的任一种在生物靶向治疗系统、致病机理系统和致病风险预测系统中的一种或多种中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910271008.4A CN111785327A (zh) | 2019-04-04 | 2019-04-04 | 一种isomiR分子标志物的筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910271008.4A CN111785327A (zh) | 2019-04-04 | 2019-04-04 | 一种isomiR分子标志物的筛选方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111785327A true CN111785327A (zh) | 2020-10-16 |
Family
ID=72754888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910271008.4A Pending CN111785327A (zh) | 2019-04-04 | 2019-04-04 | 一种isomiR分子标志物的筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785327A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404793A (zh) * | 2015-12-07 | 2016-03-16 | 浙江大学 | 基于概率框架和重测序技术快速发现表型相关基因的方法 |
WO2016090584A1 (zh) * | 2014-12-10 | 2016-06-16 | 深圳华大基因研究院 | 确定肿瘤核酸浓度的方法和装置 |
CN106845104A (zh) * | 2017-01-19 | 2017-06-13 | 东南大学 | 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用 |
CN109486948A (zh) * | 2018-10-16 | 2019-03-19 | 温州医科大学 | 一种功能驱动的个体化预测结直肠癌预后的多分子标志物及其装置与评价方法 |
-
2019
- 2019-04-04 CN CN201910271008.4A patent/CN111785327A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016090584A1 (zh) * | 2014-12-10 | 2016-06-16 | 深圳华大基因研究院 | 确定肿瘤核酸浓度的方法和装置 |
CN105404793A (zh) * | 2015-12-07 | 2016-03-16 | 浙江大学 | 基于概率框架和重测序技术快速发现表型相关基因的方法 |
CN106845104A (zh) * | 2017-01-19 | 2017-06-13 | 东南大学 | 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用 |
CN109486948A (zh) * | 2018-10-16 | 2019-03-19 | 温州医科大学 | 一种功能驱动的个体化预测结直肠癌预后的多分子标志物及其装置与评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Nonparametric expression analysis using inferential replicate counts | |
Venturini et al. | Leveraging multiple transcriptome assembly methods for improved gene structure annotation | |
US20240004885A1 (en) | Systems and methods for annotating biomolecule data | |
Li et al. | LncExpDB: an expression database of human long non-coding RNAs | |
Miller et al. | Strategies for aggregating gene expression data: the collapseRows R function | |
Creighton et al. | Expression profiling of microRNAs by deep sequencing | |
Hoffmann et al. | Accurate mapping of tRNA reads | |
Laukens et al. | Bioinformatics approaches for the functional interpretation of protein lists: from ontology term enrichment to network analysis | |
US20170228496A1 (en) | System and method for process control of gene sequencing | |
Akker et al. | Integrating protein-protein interaction networks with gene-gene co-expression networks improves gene signatures for classifying breast cancer metastasis | |
de la Rubia et al. | RATTLE: reference-free reconstruction and quantification of transcriptomes from Nanopore sequencing | |
Lai et al. | InteMAP: Integrated metagenomic assembly pipeline for NGS short reads | |
Gao et al. | Comparison of high-throughput single-cell RNA sequencing data processing pipelines | |
Cathryn et al. | A review of bioinformatics tools and web servers in different microarray platforms used in cancer research | |
Thurman et al. | Differential gene expression analysis for multi-subject single-cell RNA-sequencing studies with aggregateBioVar | |
Lauria et al. | SCUDO: a tool for signature-based clustering of expression profiles | |
Karatzas et al. | An application of computational drug repurposing based on transcriptomic signatures | |
Utturkar et al. | Bacterial differential expression analysis methods | |
Ahmed et al. | JWES: a new pipeline for whole genome/exome sequence data processing, management, and gene‐variant discovery, annotation, prediction, and genotyping | |
Chen et al. | The hitchhikers’ guide to RNA sequencing and functional analysis | |
Yang et al. | SoyMD: a platform combining multi-omics data with various tools for soybean research and breeding | |
Wang et al. | Using RNA-seq for analysis of differential gene expression in fungal species | |
Minnier et al. | RNA-Seq and expression arrays: Selection guidelines for genome-wide expression profiling | |
Gimenez et al. | Strategy for RNA-seq experimental design and data analysis | |
Molinari et al. | Transcriptome analysis using RNA-Seq fromexperiments with and without biological replicates: areview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |