CN108121896B - 一种基于miRNA的疾病间关系分析方法和装置 - Google Patents

一种基于miRNA的疾病间关系分析方法和装置 Download PDF

Info

Publication number
CN108121896B
CN108121896B CN201711375246.7A CN201711375246A CN108121896B CN 108121896 B CN108121896 B CN 108121896B CN 201711375246 A CN201711375246 A CN 201711375246A CN 108121896 B CN108121896 B CN 108121896B
Authority
CN
China
Prior art keywords
mirna
disease
characteristic
target
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711375246.7A
Other languages
English (en)
Other versions
CN108121896A (zh
Inventor
王莹莹
蔡云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201711375246.7A priority Critical patent/CN108121896B/zh
Publication of CN108121896A publication Critical patent/CN108121896A/zh
Application granted granted Critical
Publication of CN108121896B publication Critical patent/CN108121896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于miRNA的疾病间关系分析方法和装置。其中,所述方法包括:根据患有目标疾病的患者和正常对照人群的miRNA表达,构建miRNA功能类信息;获取疾病类别信息;计算所述miRNA功能类信息与所述疾病类别信息之间的类间距离;根据所述类间距离构建复合网络,并生成与所述目标疾病相对应的疾病关系信息。本发明所提供的方法分析结果详细、精确,应用性强,既可以应用于分子层面的复杂疾病并发症预测分析的相关理论研究,又可以同时应用于临床的多种复杂疾病的康复评价,对生物学及医学相关领域的分析具有重要意义。

Description

一种基于miRNA的疾病间关系分析方法和装置
技术领域
本发明涉及生物信息技术领域,更具体地说,涉及一种基于miRNA的疾病间关系分析方法和装置。
背景技术
疾病的发生通常为一个复杂的过程,且多种疾病之间常有并发的症状或引起相关疾病,目前研究认为,疾病的发生往往存在一些潜在的关键的生物过程。
现在的医学已经非常清楚,某一类的基因变异的确和某一类疾病之间存在非常大的关联。例如,现在已经确定容易患阿尔茨海默病和乳腺癌的人身上携带有某种基因变异,也就是携带这种变异基因的人患这两类病的风险大大高于正常人。疾病和基因变异的联系还可以用来解释为什么有些吸烟的病人患上肺癌的概率很高而有些吸烟的人却根本不会因此患上肺癌。基因与疾病之间实际上存在着非常复杂的关联。对于由单一遗传基因引起的疾病如血友病和囊胞性纤维症,这种关联就非常的简单。但对某些疾病而言,通过基因起作用而致病的条件会非常复杂,进而通过基因分析疾病之间的关系变得更加困难。
目前,对于疾病之间的关系进行分析的方法,一般包括通过大数据进行的全数据库病例的分析,或者是局限于基因层面进而根据基因分析疾病之间的关系情况,导致分析结果粗略、笼统、不精确,应用性较差、准确度低,给医务工作者和科研人员的研究、治疗工作带来极大的不便。
发明内容
有鉴于此,本发明提供一种基于miRNA的疾病间关系分析方法,包括:
S1,根据患有目标疾病的患者和正常对照人群的miRNA表达,构建miRNA功能类信息;
S2,获取疾病类别信息;
S3,计算所述miRNA功能类信息与所述疾病类别信息之间的类间距离;
S4,根据所述类间距离构建复合网络,并生成与所述目标疾病相对应的疾病关系信息。
优选地,所述S1包括:
S11,计算患有目标疾病的患者和正常对照人群的每个miRNA表达间的表达差异,并根据所述表达差异筛选出包含有特征miRNA的特征miRNA集合;
S12,计算所述特征miRNA集合中的特征miRNA间的序列相似性和靶基因集合的相似性,得出距离矩阵;
S13,根据所述距离矩阵构建miRNA功能类信息。
优选地,所述S11包括:
S111,计算患有目标疾病的患者和正常对照人群的每个miRNA表达间的表达差异;
S112,根据所述表达差异,筛选出在疾病状态下和正常状态下差异表达的特征标志物,并生成所述特征miRNA集合。
优选地,所述S12,包括:
S121,计算所述特征miRNA集合中每两个特征miRNA间的序列相似性,根据所述序列相似性得到序列距离分数;
计算所述特征miRNA集合中每两个特征miRNA间的所述靶基因集合的相似性,根据所述靶基因集合的相似性得到靶基因距离分数;
S122,根据所述序列距离分数和所述靶基因距离分数,构建距离矩阵。
优选地,所述S3包括:
S31,根据与疾病相关的致病基因建立致病基因标准集合;
S32,针对任意一个miRNA功能类信息中的任意miRNA表达与所述疾病类别信息中的任意疾病,计算所述疾病的所述靶基因集合与所述致病基因标准集合之间的集合相似性;
S33,根据所述集合相似性得出所述类间距离。
优选地,所述S4包括:
S41,根据所述类间距离,通过超几何检验计算得出共享功能节点;
S42,提取同时出现在所述靶基因集合的并集、所述致病基因标准集合和所述共享功能节点的基因,记为特征致病基因;
S43,建立所述特征miRNA集合、所述共享功能节点、所述特征致病基因以及除所述目标疾病以外的疾病之间的复合网络;
S44,根据所述复合网络生成与所述目标疾病相对应的疾病关系信息。
优选地,所述S41包括:
S411,根据所述类间距离,通过预设排序条件得出候选复合模块;
S412,利用超几何检验,对所述候选复合模块的所有miRNA靶基因进行功能富集分析,得到富集功能节点;
S413,利用超几何检验,计算除所述目标疾病以外的疾病在所述富集功能节点中的富集情况,生成共享功能节点。
优选地,所述S44包括:
S441,通过计算衡量所述复合网络中与除所述目标疾病以外的疾病相连接的所述特征致病基因、所述共享功能节点、所述特征miRNA集合的影响力,得到影响力程度信息;
S442,对所述影响力程度信息进行分别排秩,并计算总体秩次,生成与所述目标疾病相对应的疾病关系信息。
此外,为解决上述问题,本发明还提供一种基于miRNA的疾病间关系分析装置,包括存储器以及处理器,所述存储器用于存储基于miRNA的疾病间关系分析程序,所述处理器运行所述基于miRNA的疾病间关系分析程序以使所述计算机设备执行如上述所述的基于miRNA的疾病间关系分析方法。
此外,为解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于miRNA的疾病间关系分析程序,所述基于miRNA的疾病间关系分析程序被处理器执行时实现如上述所述基于miRNA的疾病间关系分析方法。
本发明提供的一种基于miRNA的疾病间关系分析方法和装置。其中,所述方法包括:根据患有目标疾病的患者和正常对照人群的miRNA表达,构建miRNA功能类信息;获取疾病类别信息;计算所述miRNA功能类信息与所述疾病类别信息之间的类间距离;根据所述类间距离构建复合网络,并生成与所述目标疾病相对应的疾病关系信息。本发明利用miRNA的生物学特点,以基因为桥梁,引入多层次的功能类信息构建疾病间关系的复杂模型,通过从多个分子标志物层面构建疾病类与miRNA功能类之间的类间距离,进而构建整个疾病关系的复合网络,并基于该关系网络挖掘疾病之间的关系,本发明所提供的方法分析结果详细、精确,应用性强,既可以应用于分子层面的复杂疾病并发症预测分析的相关理论研究,又可以同时应用于临床的多种复杂疾病的康复评价,对生物学及医学相关领域的分析具有重要意义。
附图说明
图1为本发明基于miRNA的疾病间关系分析方法实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明基于miRNA的疾病间关系分析方法第一实施例的流程示意图;
图3为本发明基于miRNA的疾病间关系分析方法第二实施例的流程示意图;
图4为本发明基于miRNA的疾病间关系分析方法第二实施例中包括步骤S11细化步骤的流程示意图;
图5为本发明基于miRNA的疾病间关系分析方法第三实施例的流程示意图;
图6为本发明基于miRNA的疾病间关系分析方法第四实施例的流程示意图;
图7为本发明基于miRNA的疾病间关系分析方法第四实施例中包括步骤S41和步骤S44的细化步骤的流程示意图;
图8为本发明基于miRNA的疾病间关系分析方法的具体功能实施方式及工作流程的系统整体流程框架图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面详细描述本发明的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。此外,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及基于miRNA的疾病间关系分析程序。
本发明提供的一种基于miRNA的疾病间关系分析方法和装置。其中,所述方法分析结果详细、精确,应用性强,既可以应用于分子层面的复杂疾病并发症预测分析的相关理论研究,又可以同时应用于临床的多种复杂疾病的康复评价,对生物学及医学相关领域的分析具有重要意义。该技术可以采用相关的软件或硬件实现,下面通过实施例进行描述。
实施例1:
参照图2,本发明第一实施例提供一种基于miRNA的疾病间关系分析方法,包括:
步骤S1,根据患有目标疾病的患者和正常对照人群的miRNA表达,构建miRNA功能类信息;
上述,表达数据信息,可以包括不同人群的对于miRNA的基因表达谱或者深度测序数据。
上述,基因表达谱,指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。
需要理解的是,MicroRNA(miRNA)是一类内生的、长度约为20-24个核苷酸的小RNA,其在细胞内具有多种重要的调节作用。每个miRNA可以有多个靶基因,而几个miRNA也可以调节同一个基因。这种复杂的调节网络既可以通过一个miRNA来调控多个基因的表达,也可以通过几个miRNA的组合来精细调控某个基因的表达。据推测,miRNA调节着人类三分之一的基因。最近的研究表明大约70%的哺乳动物miRNA是位于TUs区,且其中大部分是位于内含子区。一些内含子miRNA的位置在不同的物种中是高度保守的。miRNA不仅在基因位置上保守,序列上也呈现出高度的同源性。miRNA高度的保守性与其功能的重要性有着密切的关系。miRNA与其靶基因的进化有着密切的联系,研究其进化历史有助于进一步了解其作用机制和功能。
上述,通过获取患有目标疾病的患者和正常对照人群的miRNA表达,进而进一步的构建miRNA功能类信息。例如,将乳腺癌患者的miRNA表达和正常人群的miRNA表达进行输入,进而进一步的构建miRNA功能类信息。其中,所述正常人群的miRNA表达可以为预设的数据库中的对照信息,也可以为在检测时添加的数据群。
步骤S2,获取疾病类别信息;
上述,疾病类别信息,为不同疾病的分类信息,具体的可以为通过线上根据命名标准规则对所获取的相关信息的疾病名称进行规范,并将其进行疾病分类。其中,所述命名标准规则可以为ICD-10国际疾病编码规则,也可以为其他用以规范疾病名称和分类的标准规则。
步骤S3,计算所述miRNA功能类信息与所述疾病类别信息之间的类间距离;
上述,在本发明中,对于所述miRNA功能类信息和所述疾病类别信息之间的类间距离;可以通过对于所述miRNA功能类信息中的miRNA和所述疾病类别信息中的疾病之间的类间距离,从而建立“miRNA--疾病”间距离,生成类间距离。类间距离为定义“miRNA--疾病”之间的关系情况,进而可通过其关系情况构建相关的网络。
步骤S4,根据所述类间距离构建复合网络,并生成与所述目标疾病相对应的疾病关系信息。
上述,将所有的生成的类间距离构建复合网络,并通过复合网络分析得出疾病间的关系情况,生成与目标疾病相对应的疾病关系信息。所述疾病关系信息,即为与所述目标疾病的相关疾病信息。
本实施例中,利用miRNA的生物学特点,以基因为桥梁,引入多层次的功能类信息构建疾病间关系的复杂模型,通过从多个分子标志物层面构建疾病类与miRNA功能类之间的类间距离,进而构建整个疾病关系的复合网络,并基于该关系网络挖掘疾病之间的关系,本发明所提供的方法分析结果详细、精确,应用性强,既可以应用于分子层面的复杂疾病并发症预测分析的相关理论研究,又可以同时应用于临床的多种复杂疾病的康复评价,对生物学及医学相关领域的分析具有重要意义。
实施例2:
参照图3和图4,本发明第二实施例提供一种基于miRNA的疾病间关系分析方法,基于上述图2所示的第一实施例,所述步骤S1,包括:
步骤S11,计算患有目标疾病的患者和正常对照人群的每个miRNA表达间的表达差异,并根据所述表达差异筛选出包含有特征miRNA的特征miRNA集合;
上述,将患有目标疾病的患者的miRNA表达与正常对照人群的miRNA表达进行比对,计算上述二者表达差异。
上述,需要理解的是,差异表达不仅有助于阐明生命的奥秘,而且还能为基因诊断与治疗提供重要的理论依据。近几年来,差异表达基因克隆技术不断完善与发展,已成为研究肿瘤和疾病等相关基因的重要手段。现代分子生物学研究表明,人类基因组约由10万左右的不同基因组成,这些基因选择性的表达决定了机体整个生命过程,基因表达的变化处于控制生物学调节机制的中心位置。因此,分离并克隆差异表达基因不仅有助于阐明生命的奥秘,而且还能为基因诊断与治疗提供重要的理论依据。近几年来,差异表达基因克隆技术不断完善与发展,已成为研究肿瘤和疾病等相关基因的重要手段。
所述步骤S11包括:
步骤S111,计算患有目标疾病的患者和正常对照人群的每个miRNA表达间的表达差异;
上述,在进行对基于miRNA的疾病间关系分析时,首先输入某种疾病患者及正常对照人群样本的miRNA的表达谱或深度测序数据;通过多种计算方法计算每个miRNA在不同组别间的表达差异。
上述,计算方法可以包括:统计学检验(如t检验)、生物信息学方法(如FoldChange、SAM)、机器学习等方法。
步骤S112,根据所述表达差异,筛选出在疾病状态下和正常状态下差异表达的特征标志物,并生成所述特征miRNA集合。
上述,可进一步通过设定阈值,筛选miRNA作为在疾病和正常状态下差异表达的特征标志物,从而生成特征miRNA集合。
步骤S12,计算所述特征miRNA集合中的特征miRNA间的序列相似性和靶基因集合的相似性,得出距离矩阵;
所述步骤S12,包括:
步骤S121,计算所述特征miRNA集合中每两个特征miRNA间的序列相似性,根据所述序列相似性得到序列距离分数;
计算所述特征miRNA集合中每两个特征miRNA间的所述靶基因集合的相似性,根据所述靶基因集合的相似性得到靶基因距离分数;
步骤S122,根据所述序列距离分数和所述靶基因距离分数,构建距离矩阵。
上述,针对特征miRNA集合中的任意两个特征miRNA,计算其序列相似性,采用的方式包括但不限于BLAST算法所应用的一致性分数(percent identify(ID)score);计算两条序列间的距离为:用1减去相似性得分,得到距离分数,如采用ID得分时,距离的计算方法为1-ID。
上述,针对特征miRNA集合中的任意两个特征miRNA,计算其靶基因的集合相似性,进而再用1减去相似性得分,得到距离分数;针对特征miRNA集合中的任意两个特征miRNA,将上述两种方法得到的距离分数取均值作为距离得分,得到距离矩阵;
上述,本实施例中所采用的靶基因预测算法包含但不限于如下方法:DIANA-miRGen,miRWalk,miRNAMap,microRNA.org,TargetScan,PicTar,miRanda,PITA,mirWIP,RNAHybrid,RNA22,DIANA-microT,MirTarget,mirSVR,TargetMiner。
上述,本实施例中所采用集合相似性测度包括但不限于如下测度:Simpson,Second Kulcynski,Ochiai/Otsuka,Dice,Jaccard,Sokal and Sneath等。至少需采用2种及以上的方式计算相似性。
步骤S13,根据所述距离矩阵构建miRNA功能类信息。
根据距离矩阵,采用层次聚类的方式进行聚类。
上述。层次聚类的根据类间距离计算方式的不同,层次聚类可分为SL(Single-Linkage)、CL(Complete-Linkage)、AL(Average-Linkage)3种方式。
需要理解的是,层次聚类是另一种主要的聚类方法,它具有一些十分必要的特性使得它成为广泛应用的聚类方法。它生成一系列嵌套的聚类树来完成聚类。单点聚类处在树的最底层,在树的顶层有一个根节点聚类。根节点聚类覆盖了全部的所有数据点。
在本实施例中,通过针对特征miRNA集合中的任意两个特征miRNA,计算其序列相似性和其靶基因的集合相似性,并通过距离分数得到距离矩阵,进而利用层次聚类对距离矩阵进行聚类,即构建了miRNA功能类信息。通过构建miRNA功能类信息,可进一步的通过建立基于该miRNA功能类信息的网络,进而可更准确的对疾病间的关系情况进行掌握。
实施例3:
参照图5,本发明第三实施例提供一种基于miRNA的疾病间关系分析方法,基于上述图2所示的第一实施例,所述步骤S3包括:
步骤S31,根据与疾病相关的致病基因建立致病基因标准集合;
上述,构建致病基因标准集合,首先进行疾病名称的规范化,通过依据线上或数据库中的疾病命名标准规范对于疾病名称进行规范,其依据可以为ICD-10,也可以为其他作为标准使用的疾病名称命名标准。进而,在将疾病进行分类处理。然后,在通过线上数据库的数据抓取,收集每个疾病相关的致病基因作为致病基因金标准集,将相同信息合并。
线上抓取的信息的形式可以包括文献检索或者OMIM等数据库实现。
步骤S32,针对任意一个miRNA功能类信息中的任意miRNA表达与所述疾病类别信息中的任意疾病,计算所述疾病的所述靶基因集合与所述致病基因标准集合之间的集合相似性;
上述,针对任意一个miRNA功能类中的任意miRNA与任意疾病类中的任意疾病,计算miRNA靶基因集合与致病基因金标准集间的集合相似性。在本实施例中,需要至少采用2种及以上的方式计算相似性。
上述,所述miRNA靶基因集合的预测算法包括但不限于如下方法:DIANA-miRGen、miRWalk、miRNAMap、microRNA.org、TargetScan、PicTar、miRanda、PITA、mirWIP、RNAHybrid、RNA22、DIANA-microT、MirTarget、mirSVR和TargetMiner。
上述,集合相似性测度包括但不限于如下测度:Simpson、Second Kulcynski、Ochiai/Otsuka、Dice,Jaccard和Sokal and Sneath等。
步骤S33,根据所述集合相似性得出所述类间距离。
上述,对所得到的集合相似性进行计算,用1减去集合相似性的得分得到距离分数,进而选取2类之间所有“miRNA-疾病”间距离的均值作为距离得分,得到类间距离。
通过建立致病基因标准集合,进而针对所述miRNA功能类信息中的miRNA表达与所述疾病类别信息中的疾病计算集合相似性,再得到类间距离,从而得到了疾病类别中的疾病与miRNA的距离关系。
实施例4:
参照图6和图7,本发明第四实施例提供一种基于miRNA的疾病间关系分析方法,基于上述图4所示的第三实施例,所述步骤S4,包括:
步骤S41,根据所述类间距离,通过超几何检验计算得出共享功能节点;
上述,需要理解的是,超几何检验即为超几何分布检验。超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。
所述步骤S41包括:
步骤S411,根据所述类间距离,通过预设排序条件得出候选复合模块;
上述,对所有类间距离进行升序排列,并选取前预设排名的miRNA功能类与疾病类作为候选的复合模块。例如,选取排名前%5的miRNA功能类与疾病类作为候选的复合模块。
步骤S412,利用超几何检验,对所述候选复合模块的所有miRNA靶基因进行功能富集分析,得到富集功能节点;
上述,利用超几何检验,分别计算候选复合模块的所有miRNA靶基因在GO、KEGG等功能节点的富集情况;设定阈值,选取p值不大于阈值的作为富集的功能节点;
步骤S413,利用超几何检验,计算除所述目标疾病以外的疾病在所述富集功能节点中的富集情况,生成共享功能节点。
上述,利用超几何检验,计算候选模块中除所述目标疾病外的其他疾病的致病基因集合在上一步计算中所得到的富集的功能节点的富集情况;设定阈值,选取p值不大于阈值的作为与疾病致病基因集合密切相关的功能节点,即生成“共享功能节点”;
步骤S42,提取同时出现在所述靶基因集合的并集、所述致病基因标准集合和所述共享功能节点的基因,记为特征致病基因;
步骤S43,建立所述特征miRNA集合、所述共享功能节点、所述特征致病基因以及除所述目标疾病以外的疾病之间的复合网络;
上述,靶基因集合的并集是提取每个miRNA功能类中信息的miRNA的靶基因集合的并集。每个miRNA功能类信息中包含有多个miRNA,每个miRNA都包含有各自的靶基因集合,每个集合可能都有多个靶基因。因此,靶基因集合的并集就是提取每个miRNA的靶基因集合的并集。
上述,提取同时出现在miRNA靶基因集合的并集、疾病的致病基因集合、共享功能节点的基因,记为所述目标疾病与其他疾病间关联的“特征致病基因”,进而构建包含“特征miRNA、共享功能节点、特征致病基因、除所述目标疾病以外的疾病”的复合网络。
步骤S44,根据所述复合网络生成与所述目标疾病相对应的疾病关系信息。
上述,通过复合网络,可以分析得到每种所述目标疾病以外的疾病与所述目标疾病之间的关联关系,其关系结果,可以为呈排序式的重要性或相关性的列表,也可以为其他例如网状连接关系的数据。
所述步骤S44包括:
步骤S441,通过计算衡量所述复合网络中与除所述目标疾病以外的疾病相连接的所述特征致病基因、所述共享功能节点、所述特征miRNA集合的影响力,得到影响力程度信息;
上述,针对任意一个除所述目标疾病以外的疾病,计算所有与之相连接的特征致病基因、共享功能节点(通过特征致病基因相关联获取)、特征miRNA(通过共享功能节点相关联获取)在网络中的度、介数、PageRank分数等信息。
需要理解的是,介数通常分为边介数和节点介数两种,节点介数定义为网络中所有最短路径中经过该节点的路径的数目占最短路径总数的比例,边介数定义为网络中所有最短路径中经过该边的路径的数目占最短路径总数的比例。介数反映了相应的节点或者边在整个网络中的作用和影响力,是一个重要的全局几何量,具有很强的现实意义。
需要理解的是,PageRank分数(PR),是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级、重要性的一种方法,是Google用来衡量一个网站的好坏的重要标准之一。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中令网站排名获得提升,从而提高搜索结果的相关性和质量。
步骤S442,对所述影响力程度信息进行分别排秩,并计算总体秩次,生成与所述目标疾病相对应的疾病关系信息。
上述,对所述影响力程度信息分别予以排秩,计算总体秩次作为每种所述目标疾病与所述目标疾病以外的疾病之间的关联关系,从而得到与所述目标疾病相对应的疾病关系信息。即为,得到与目标疾病关联关系较强的相关疾病。
此外,本发明实施例还提供一种基于miRNA的疾病间关系分析装置,包括存储器以及处理器,所述存储器用于存储基于miRNA的疾病间关系分析程序,所述处理器运行所述基于miRNA的疾病间关系分析程序以使所述计算机设备执行如上述所述的基于miRNA的疾病间关系分析方法。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于miRNA的疾病间关系分析方法程序,所述基于miRNA的疾病间关系分析方法程序被处理器执行时实现如上述所述的基于miRNA的疾病间关系分析方法。
为了更好的理解本发明所提供的基于miRNA的疾病间关系分析方法,通过本实施例进行对于具体功能实施方式及工作流程的说明,具体如下:
本实施方式及工作流程选取公开的数据为测试数据,对比图8的系统整体流程框架图,进行实例分析。
1、特征miRNA集的获取:
(1)输入心力衰竭患者及正常对照人群样本的miRNA的深度测序数据;
(2)通过FoldChange方法计算每个miRNA在不同组别间的表达差异;
(3)设定阈值1.5,筛选得到29个FC≥1.5的miRNA作为在疾病和正常状态下差异表达的特征标志物,称为特征miRNA集合。
2、疾病相关miRNA金标准集的获取:
(1)从miR2Disease、HMDD、ExcellmiRDB、PhenomiR、miREnvironment、PEMDAM、IntmiR、miRWalk、miReg数据库中获取35634对“miRNA-疾病”关系信息;
(2)依据miRBase数据库,统一miRNA的名称、编号;
(3)查询特征miRNA集合中的所有miRNA与除了心力衰竭外的所有疾病的关系信息,将相同信息合并,最终得到19221对“miRNA-疾病”关系信息;
3、miRNA功能类的构建:
通过基于序列相似性、靶基因的距离计算与聚类,得到了4个功能类;
4、疾病类及致病基因金标准集的构建:
依据ICD-10等疾病命名标准规范疾病名称将疾病分为23类;
5、miRNA功能类与疾病类间距离计算:
计算4个miRNA功能类与23个疾病类之间的距离,聚类得到个3类;
6、疾病间关联的关键通路分析:
(1)选取排名第一的miRNA功能类与疾病类作为候选的复合模块;
(2)利用超几何检验,选取p值不大于0.05的47个节点作为富集的功能节点;
(3)利用超几何检验,选取p值不大于0.05的13个节点为“共享功能节点”;
(4)提取61个提取同时出现在miRNA靶基因并集、疾病的致病基因集合、共享功能节点的基因,记为心力衰竭与其他疾病间关联的“特征致病基因”;
(5)得到包含“6个特征miRNA、13个共享功能节点、61个特征致病基因、2种疾病(高血压与脑卒中)”的复合网络计算得到高血压与心力衰竭之间的关联关系较强。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于miRNA的疾病间关系分析方法,其特征在于,包括:
S1,根据患有目标疾病的患者和正常对照人群的miRNA表达,构建miRNA功能类信息;
S2,获取疾病类别信息;
S3,计算所述miRNA功能类信息与所述疾病类别信息之间的类间距离;
S4,根据所述类间距离构建复合网络,并生成与所述目标疾病相对应的疾病关系信息;
所述S1包括:
S11,计算患有目标疾病的患者和正常对照人群的每个miRNA表达间的表达差异,并根据所述表达差异筛选出包含有特征miRNA的特征miRNA集合;
S12,计算所述特征miRNA集合中的特征miRNA间的序列相似性和靶基因集合的相似性,得出距离矩阵;
S13,根据所述距离矩阵构建miRNA功能类信息。
2.如权利要求1所述基于miRNA的疾病间关系分析方法,其特征在于,所述S11包括:
S111,计算患有目标疾病的患者和正常对照人群的每个miRNA表达间的表达差异;
S112,根据所述表达差异,筛选出在疾病状态下和正常状态下差异表达的特征标志物,并生成所述特征miRNA集合。
3.如权利要求1所述基于miRNA的疾病间关系分析方法,其特征在于,所述S12,包括:
S121,计算所述特征miRNA集合中每两个特征miRNA间的序列相似性,根据所述序列相似性得到序列距离分数;
计算所述特征miRNA集合中每两个特征miRNA间的所述靶基因集合的相似性,根据所述靶基因集合的相似性得到靶基因距离分数;
S122,根据所述序列距离分数和所述靶基因距离分数,构建距离矩阵。
4.如权利要求1所述基于miRNA的疾病间关系分析方法,其特征在于,所述S3包括:
S31,根据与疾病相关的致病基因建立致病基因标准集合;
S32,针对任意一个miRNA功能类信息中的任意miRNA表达与所述疾病类别信息中的任意疾病,计算所述疾病的所述靶基因集合与所述致病基因标准集合之间的集合相似性;
S33,根据所述集合相似性得出所述类间距离。
5.如权利要求4所述基于miRNA的疾病间关系分析方法,其特征在于,所述S4包括:
S41,根据所述类间距离,通过超几何检验计算得出共享功能节点;
S42,提取同时出现在所述靶基因集合的并集、所述致病基因标准集合和所述共享功能节点的基因,记为特征致病基因;
S43,建立所述特征miRNA集合、所述共享功能节点、所述特征致病基因以及除所述目标疾病以外的疾病之间的复合网络;
S44,根据所述复合网络生成与所述目标疾病相对应的疾病关系信息。
6.如权利要求5所述基于miRNA的疾病间关系分析方法,其特征在于,所述S41包括:
S411,根据所述类间距离,通过预设排序条件得出候选复合模块;
S412,利用超几何检验,对所述候选复合模块的所有miRNA靶基因进行功能富集分析,得到富集功能节点;
S413,利用超几何检验,计算除所述目标疾病以外的疾病在所述富集功能节点中的富集情况,生成共享功能节点。
7.如权利要求5所述基于miRNA的疾病间关系分析方法,其特征在于,所述S44包括:
S441,通过计算衡量所述复合网络中与除所述目标疾病以外的疾病相连接的所述特征致病基因、所述共享功能节点、所述特征miRNA集合的影响力,得到影响力程度信息;
S442,对所述影响力程度信息进行分别排秩,并计算总体秩次,生成与所述目标疾病相对应的疾病关系信息。
8.一种基于miRNA的疾病间关系分析装置,其特征在于,包括存储器以及处理器,所述存储器用于存储基于miRNA的疾病间关系分析程序,所述处理器运行所述基于miRNA的疾病间关系分析程序以使计算机设备执行如权利要求1-7中任一项所述的基于miRNA的疾病间关系分析方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于miRNA的疾病间关系分析程序,所述基于miRNA的疾病间关系分析程序被处理器执行时实现如权利要求1-7任一项所述基于miRNA的疾病间关系分析方法。
CN201711375246.7A 2017-12-19 2017-12-19 一种基于miRNA的疾病间关系分析方法和装置 Active CN108121896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711375246.7A CN108121896B (zh) 2017-12-19 2017-12-19 一种基于miRNA的疾病间关系分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711375246.7A CN108121896B (zh) 2017-12-19 2017-12-19 一种基于miRNA的疾病间关系分析方法和装置

Publications (2)

Publication Number Publication Date
CN108121896A CN108121896A (zh) 2018-06-05
CN108121896B true CN108121896B (zh) 2020-07-24

Family

ID=62229436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711375246.7A Active CN108121896B (zh) 2017-12-19 2017-12-19 一种基于miRNA的疾病间关系分析方法和装置

Country Status (1)

Country Link
CN (1) CN108121896B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920895B (zh) * 2018-06-22 2020-08-07 中南大学 一种环状rna与疾病的关联关系预测方法
CN109192316B (zh) * 2018-07-02 2021-09-07 杭州师范大学 一种基于基因网络分析的疾病亚型预测系统
CN109448853B (zh) * 2018-09-14 2020-01-14 天津科技大学 一种基于矩阵分解的食物-疾病关联预测方法
CN109712670A (zh) * 2018-12-25 2019-05-03 湖南城市学院 一种miRNA功能模块的识别方法及系统
CN111785333B (zh) * 2020-03-20 2022-02-25 中国医学科学院阜外医院深圳医院 基于生物学网络数据的药物作用靶点筛选方法、装置、电子设备及存储介质
CN111508555A (zh) * 2020-04-15 2020-08-07 淮南师范学院 一组用于度量生物分子集的网络拓扑学特性的方法
CN111681706A (zh) * 2020-06-11 2020-09-18 江苏萨芳纳健康科技有限公司 慢性病患病风险基因检测方法
CN112071369B (zh) * 2020-09-10 2021-08-03 暨南大学附属第一医院(广州华侨医院) 模块标记物挖掘方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013067001A1 (en) * 2011-10-31 2013-05-10 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CN106021981A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种基于功能网络多疾病变异位点分析平台
CN106021982A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种基于功能网络多疾病变异位点分析方法
CN106874706A (zh) * 2017-01-18 2017-06-20 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统
CN107066835A (zh) * 2017-01-19 2017-08-18 东南大学 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013067001A1 (en) * 2011-10-31 2013-05-10 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CN106021981A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种基于功能网络多疾病变异位点分析平台
CN106021982A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种基于功能网络多疾病变异位点分析方法
CN106874706A (zh) * 2017-01-18 2017-06-20 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统
CN107066835A (zh) * 2017-01-19 2017-08-18 东南大学 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A survey on database resources for microRNA-disease relationships;YingYing Wang 等;《Briefings in Functional Genomics》;20160506;第16卷(第3期);第146-151页 *
Walking the interactome to identify human miRNA-disease associations through the functional link between miRNA targets and disease genes;Hongbo Shi等;《BMC Systems Biology》;20131008;第1-12页 *
大数据层面的microRNA功能相似性分析;王莹莹 等;《集成技术》;20140531;第3卷(第3期);第42-48页 *

Also Published As

Publication number Publication date
CN108121896A (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN108121896B (zh) 一种基于miRNA的疾病间关系分析方法和装置
Yan et al. Network approaches to systems biology analysis of complex disease: integrative methods for multi-omics data
Cai et al. iEnhancer-XG: interpretable sequence-based enhancers and their strength predictor
Herrmann et al. Large-scale benchmark study of survival prediction methods using multi-omics data
Wang et al. Network-based methods for human disease gene prediction
Yang et al. Improving GO semantic similarity measures by exploring the ontology beneath the terms and modelling uncertainty
Bellazzi et al. Towards knowledge-based gene expression data mining
Liu et al. Similarity-based prediction for anatomical therapeutic chemical classification of drugs by integrating multiple data sources
Jurman et al. Algebraic stability indicators for ranked lists in molecular profiling
Tai et al. Incorporating prior knowledge of predictors into penalized classifiers with multiple penalty terms
Gu et al. cola: an R/Bioconductor package for consensus partitioning through a general framework
CN108830045B (zh) 一种基于多组学的生物标记物系统筛选方法
JP2009520278A (ja) 科学情報知識管理のためのシステムおよび方法
Dao et al. iDHS-Deep: an integrated tool for predicting DNase I hypersensitive sites by deep neural network
Benso et al. A cDNA microarray gene expression data classifier for clinical diagnostics based on graph theory
Lauria et al. SCUDO: a tool for signature-based clustering of expression profiles
Wang et al. Individualized identification of disease-associated pathways with disrupted coordination of gene expression
Petryszak et al. The predictive power of the CluSTr database
CN112133367B (zh) 药物与靶点间的相互作用关系预测方法及装置
Xu et al. A systematic review of computational methods for predicting long noncoding RNAs
Wang et al. Integrating full spectrum of sequence features into predicting functional microRNA–mRNA interactions
Seifert et al. Integrating biological knowledge and gene expression data using pathway-guided random forests: a benchmarking study
Shi et al. R5hmCFDV: computational identification of RNA 5-hydroxymethylcytosine based on deep feature fusion and deep voting
Marchetti-Bowick et al. A time-varying group sparse additive model for genome-wide association studies of dynamic complex traits
Long et al. From function to translation: Decoding genetic susceptibility to human diseases via artificial intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant