CN110618987A - 基于肺癌医学大数据的治疗通路关键结点信息处理方法 - Google Patents

基于肺癌医学大数据的治疗通路关键结点信息处理方法 Download PDF

Info

Publication number
CN110618987A
CN110618987A CN201910882815.XA CN201910882815A CN110618987A CN 110618987 A CN110618987 A CN 110618987A CN 201910882815 A CN201910882815 A CN 201910882815A CN 110618987 A CN110618987 A CN 110618987A
Authority
CN
China
Prior art keywords
data
lung cancer
key
nodes
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910882815.XA
Other languages
English (en)
Inventor
杜方
朱嘉玮
刘昌健
童昭
刘会东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningxia University
Original Assignee
Ningxia University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningxia University filed Critical Ningxia University
Priority to CN201910882815.XA priority Critical patent/CN110618987A/zh
Publication of CN110618987A publication Critical patent/CN110618987A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

本发明属于信息数据处理技术领域,公开了一种基于肺癌医学大数据的治疗通路关键结点信息处理方法,对现有的生物医学数据集中的数据进行多源数据融合,在互联网中选择5个生物医学数据库,获取肺癌相关信息;对源数据进行数据清洗、数据消岐、数据压缩;将预处理后的数据转为RDF格式,形成知识网络;根据RDF的定义将表示基因、蛋白等的实体作为主语和宾语,实体间的联系作为谓词,实现数据的统一组织表示;把构成的RDF图称为肺癌知识网络图,采用PageRank算法计算结点的重要性找到肺癌治疗通路上的关键结点。验证了方法的正确性;从疾病、基因入手深入研究可以为新的治疗肺癌方法和药物提供新的研究方向。

Description

基于肺癌医学大数据的治疗通路关键结点信息处理方法
技术领域
本发明属于信息数据处理技术领域,尤其涉及一种基于肺癌医学大数据的治疗通路关键结点信息处理方法。
背景技术
目前,最接近的现有技术:基于网络的生物学研究是近年来受到国际学术界广泛关注的学术前沿领域,在疾病研究和药物预测等领域有广泛应用。RDF(ResourceDescription Framework)是由W3C提出的描述语义网资源一种框架。因此,生物医学RDF数据逐渐成为物联网上一类重要的结构化数据。医学分类众多,同样的数据在不同分类环境下具有不同语义;而通过不同手段采集的数据,其形态多样,通常包括图形图像、文本发明字和影像视频等多种非结构化形式。而RDF正是W3C所推荐的语义数据的描述标准,通过简单的主、谓、宾三元组格式可以简洁方便的描述医学领域的多语义多格式数据。但网络上医学信息数据集大多只经过了初步采集和简单整合,没有采用算法对数据进行清洗,存在噪音,且没有经过有效的组织及存储,无法快速的获取其中的语义知识及价值。通过对医学数据集进行有效的数据预处理,利用数据关联划分数据,统一组织为RDF三元组,形成知识网络,将为面向生物医学的服务应用奠定优质的数据基础。
根据查阅和研究相关文献,有很多学者利用一些数据挖掘的算法例如:PageRank、SimRank等对蛋白质功能、疾病基因预测等方面有研究,但他们均是针对某单一问题进行分析,因此只关注、利用单一实体(如蛋白质),缺少对基因、蛋白等信息的融合,而蛋白和疾病基因以及药物等元素之间具有关联关系,单一实体的组织处理忽略了实体间丰富的相关语义关联,不能在分析病因和治疗效果时同时考虑多方面实体的作用和影响,因此在广度上无法利用更多的相关医学文献、医学实验结果等多项研究结果全面分析问题;在深度上无法从一个实体(如蛋白质)出发,沿其新陈代谢通路、信号通路,借助实体间的关联关系,纵深地寻找和发现重要疾病治疗中的重要因素。。
综上所述,现有技术存在的问题是:现有利用数据挖掘的算法对蛋白质功能、疾病基因预测存在针对某单一问题进行分析,缺少对基因、蛋白等信息的融合,忽略了丰富的相关语义关联,无法在广度和深度上同时推进研究的进展。
解决上述技术问题的难度:
目前的肺癌相关数据格式不统一、数据中存在噪音,海量数据的清洗和融合一直是一个技术难题,利用已有消歧、和清洗方法可以实现部分数据的整理,但面向医学特别是专项疾病的研究需要将领域知识有效的整合在数据融合方法中,如何借助领域知识实现数据融合是一个技术难题;同时大量数据形成的网络图较为复杂,传统的pagerank算法在进行计算时效率极低,需要设计分布式并行的方法进行处理,如何设计并实现分布式并行的pagerank算法,并使算法能够根据语义信息得到正确结果也是一个技术难题。
解决上述技术问题的意义:
数据的质量决定了数据分析结果的正确性和有效性,实现针对领域的、面向海量数据的数据融合将在很大程度上提高基础数据的质量,为后续的数据分析研究奠定优质的基础;同时分布式并行算法的设计使得大图上的数据分析成为可能,而针对专业领域的算法实现将为肺癌的药物治疗提供新的思路。
发明内容
针对现有技术存在的问题,本发明提供了一种基于肺癌医学大数据的治疗通路关键结点信息处理方法。
本发明是这样实现的,一种基于肺癌医学大数据的治疗通路关键结点信息处理方法,所述基于肺癌医学大数据的治疗通路关键结点信息处理方法包括:
第一步,对现有的生物医学数据集中的数据进行多源数据融合,在互联网中选择ChEMBL、KEGG、DrugBank、UniPort和PubMed 5个生物医学数据库,获取肺癌相关信息;
第二步,对源数据进行数据清洗、数据消岐、数据压缩;首先进行数据清洗,包括1)删除缺失值。通过对缺失值进行查找检测,发现源数据中存在少量值为空的数据,大约占数据总量的千分之五。虽然数量不多但仍会对之后的分析产生一些影响,为保证分析结果的正确性,在不影响数据质量的前提下,对这些空值进行了删除。2)重复值处理。数据中实体一些属性存在重复现象,通过去重算法对重复值进行了归一处理。接下来采用消歧算法进行数据消歧,对于每对存在歧义的数据通过计算上下文依赖性和语义相似性来评估候选实体,计算得分,将得分最高的实体选为正确链接实体。最后对数据进行压缩,针对实体选取Gene ID、Gene name、Pathway ID、Pathway name、Disease ID和Diseasename六种常用属性对数据进行归约,设计数字型编码,对代表实体名称和内容的主语和宾语进行统一编码,对谓词进行单独编码,压缩后的数据规模可缩减到源数据的1/3。
第三步,将预处理后的数据转为RDF格式,其中表示蛋白质、基因、化合物等的实体作为主语和宾语,这些实体间的关联关系作为谓词,构成RDF的三元组格式,实现数据的统一组织表示,形成知识网络;把构成的RDF图称为肺癌知识网络图,图中的结点即为RDF三元组中的主语和宾语,图中的边为谓词,采用PageRank算法计算结点的重要性找到肺癌治疗通路上的关键结点。
进一步,所述数据清洗指查找数据中的遗漏缺失值和清洗脏数据;数据消岐用于解决同个实体名称在不同语句不同意义的问题;数据压缩将需要进行信息挖掘的数据集合,缩小数量规模,减少处理范围。
进一步,采用PageRank算法计算结点的重要性找到肺癌治疗通路上的关键结点具体包括:
(1)在Map阶段时,Map函数将结点邻接表中的每一行记录输出为<key,key为目标结点,value>,value为PR值链接指向结点;
(2)MapReduce框架收集Map函数输出的中间结果<key,value>,以key进行shuffle;在Reduce阶段,Reduce函数对于每个key由公式计算出每个页面新的PR值,并将结果保存在HDFS中,以用于下一次迭代;
(3)生成的结果与结点邻接表再一次合并,合并后的文件是下一次迭代的输入文件,执行并行的PageRank算法;若达到收敛条件则算法结束,输出PR值,否则继续迭代下去。
本发明的另一目的在于提供一种应用所述基于肺癌医学大数据的治疗通路关键结点信息处理方法的信息数据处理终端。
本发明的另一目的在于提供一种应用所述基于肺癌医学大数据的治疗通路关键结点信息处理方法的药物新用途预测系统。
综上所述,本发明的优点及积极效果为:从KEGG、ChEMBL、DrugBank、UniProt和PubMed五个医学生物信息数据集中获取关于肺癌的相关数据,对数据进行预处理,探究发现这些关键的肺癌信息之间相互关联,为此利用RDF数据的标准格式将肺癌信息构建成一个肺癌知识网络,其中实体结点为肺癌治疗通路上的基因等信息,边为连接这些信息的关联关系。将整理好的肺癌知识网络数据,分别按照基于集中式的文件存储、基于HDFS的分布式存储和基于HBase的分布式存储,为将来数据的管理和查询使用做好准备。
本发明基于分布式并行框架,对与肺癌药物治疗相关的语义数据网络进行结点重要性分析。利用PageRank经典算法,计算肺癌治疗通路中数据的重要性,从而发现其中潜在的关键因素,为肺癌的治疗提供新的思路。
本发明基于图的方法计算肺癌知识网络中结点的相似度。肺癌治疗通路涉及基因、蛋白靶标、化学物质、药物和疾病等信息,利用SimRank算法思想在肺癌治疗信息语义网上根据网络结构计算结点的相似性,并在此基础上实现聚类分析,找到功能相近的蛋白、药物等,为预测药物新用途提供思路。
本发明采用重启式随机游走算法计算肺癌知识网络中有关疾病基因的相关性。对于得到的与肺癌基因相关性较高的基因、相关疾病进行深入分析,验证了方法的正确性;实验证明相关性高的基因确实是和肺癌息息相关都是常见的高概率突变基因,并且通过实验发现和肺癌基因相关的疾病之间都含有相同的突变基因。从这些疾病、基因入手深入研究可以为新的治疗肺癌方法和药物提供新的研究方向。
表1数据压缩前后对比
数据压缩 压缩前 压缩后
数据格式 字符串 整数型
数据量 229MB 71MB
附图说明
图1是本发明实施例提供的基于肺癌医学大数据的治疗通路关键结点信息处理方法流程图。
图2是本发明实施例提供的疾病与其相关基因的关系示意图。
图3是本发明实施例提供的数据集关联关系分析展示示意图。
图4是本发明实施例提供的部分肺癌知识网络图。
图5是本发明实施例提供的KEGG、DrugBank和UniProt数据分布实验结果图,包括数据集中RDF分布情况和主语分布情况。
图6是本发明实施例提供的PageRank算法计算得到的重要性排序前15的结点。
图7是本发明实施例提供的SimRank算法计算得到的结点相关性实验结果图。
图8是本发明实施例提供的分布式与集中式算法对比实验结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于肺癌医学大数据的治疗通路关键结点信息处理方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于肺癌医学大数据的治疗通路关键结点信息处理方法包括以下步骤:
S101:对现有的生物医学数据集中的数据进行多源数据融合,在互联网中选择ChEMBL、KEGG、DrugBank、UniPort和PubMed 5个生物医学数据库,获取肺癌相关信息;
S102:对源数据进行数据清洗等过程的预处理,数据预处理的过程主要包括数据清洗、数据消岐、数据压缩等;数据清洗指查找数据中的遗漏缺失值和清洗脏数据;数据消岐用于解决同个实体名称在不同语句不同意义的问题;而数据压缩是将需要进行信息挖掘的数据集合,缩小数量规模,减少处理范围;
S103:将预处理后的数据转为RDF格式,形成知识网络,可以直观的展示生物基因、蛋白质、通路和疾病等方面的关系,并且可以保持语义,为医学分析奠定优良基础;根据RDF的定义将表示基因、蛋白等的实体作为主语和宾语,实体间的联系作为谓词,实现数据的统一组织表示;把构成的RDF图称为肺癌知识网络图,找到肺癌治疗通路上的关键结点。
本发明实施例提供的基于肺癌医学大数据的治疗通路关键结点信息处理方法具体包括以下步骤:
第一步,对现有的生物医学数据集中的数据进行多源数据融合,在互联网中选择ChEMBL、KEGG、DrugBank、UniPort和PubMed 5个生物医学数据库,获取肺癌相关信息;
第二步,对源数据进行数据清洗、数据消岐、数据压缩;首先进行数据清洗,包括1)删除缺失值。通过对缺失值进行查找检测,发现源数据中存在少量值为空的数据,大约占数据总量的千分之五。虽然数量不多但仍会对之后的分析产生一些影响,为保证分析结果的正确性,在不影响数据质量的前提下,对这些空值进行了删除。2)重复值处理。数据中实体一些属性存在重复现象,通过去重算法对重复值进行了归一处理。接下来采用消歧算法进行数据消歧,对于每对存在歧义的数据通过计算上下文依赖性和语义相似性来评估候选实体,计算得分,将得分最高的实体选为正确链接实体。最后对数据进行压缩,针对实体选取Gene ID、Gene name、Pathway ID、Pathway name、Disease ID和Diseasename六种常用属性对数据进行归约,设计数字型编码,对代表实体名称和内容的主语和宾语进行统一编码,对谓词进行单独编码,压缩后的数据规模可缩减到源数据的1/3。
第三步,将预处理后的数据转为RDF格式,其中表示蛋白质、基因、化合物等的实体作为主语和宾语,这些实体间的关联关系作为谓词,构成RDF的三元组格式,实现数据的统一组织表示,形成知识网络;把构成的RDF图称为肺癌知识网络图,图中的结点即为RDF三元组中的主语和宾语,图中的边为谓词,采用PageRank算法计算结点的重要性找到肺癌治疗通路上的关键结点。
从肺癌药物治疗的角度出发,沿“基因-疾病-药物-靶标(蛋白)”的路径对现有的生物医学数据集中的数据进行多源数据融合,通过对比分析现有数据集的内容和权威性,在互联网中选择了以下5个生物医学数据库:ChEMBL、KEGG、DrugBank、UniPort和PubMed获取本发明所需的肺癌相关信息。在这些数据集中,每个数据记录都有自己的ID,通过分析发现,这些ID在五个数据集中相互包含,具有相互引用关系,可以作为分析数据集关联的重要途径。其中KEGG数据集中的基因与UniProt数据集里的蛋白质具有编码关系,它们之间通过UniProt ID连接;ChEMBL数据集为化合物信息,它与UniProt数据集中肺癌蛋白信息通过ChEMBL ID连接;从DrugBank数据集提取的有关治疗肺癌的药物与UniProt数据集的蛋白质具有作用关系,通过UniProt ID连接。从KEGG等5个数据集抽取了大量肺癌相关数据其中存在一定的“脏数据”,即重复数据、缺失数据和无用数据等,需要对源数据进行数据清洗等过程的预处理。数据预处理的过程主要包括数据清洗、数据消岐、数据压缩等。数据清洗指查找数据中的遗漏缺失值和清洗脏数据。数据消岐用于解决同个实体名称在不同语句不同意义的问题。而数据压缩是将需要进行信息挖掘的数据集合,缩小数量规模,减少处理范围。将预处理后的数据转为RDF格式,形成知识网络,可以直观的展示生物基因、蛋白质、通路和疾病等方面的关系,并且可以保持语义,为医学分析奠定优良基础。根据RDF的定义将表示基因、蛋白等的实体作为主语和宾语,实体间的联系作为谓词,实现数据的统一组织表示。把构成的RDF图称为肺癌知识网络图。
在肺癌知识网络中,如果多种疾病都和某个基因关联,认为这个基因是重要的,重点研究这个基因可以为疾病药物的治疗提供新的思路。为了找到肺癌治疗通路上的关键结点,本发明的方法采用PageRank算法来计算结点的重要性。PageRank算法的优点在于它是基于全局的对知识网络上的结点进行打分并根据重要性排序,所以该算法的计算过程是离线完成的,对用户的请求响应时间快。分布式PageRank算法设计思想描述如下:
(1)在Map阶段时,Map函数将结点邻接表中的每一行记录输出为<key(目标结点),value(PR值链接指向结点)>。
(2)MapReduce框架收集Map函数输出的中间结果<key(目标结点),value(PR权重值链接指向结点)>,以key进行shuffle。在Reduce阶段,Reduce函数对于每个key(目标结点)由公式计算出每个页面新的PR值,并将结果保存在HDFS中,以用于下一次迭代。
(3)把(2)中生成的结果与结点邻接表再一次合并,合并后的文件是下一次迭代的输入文件,执行并行的PageRank算法,若达到收敛条件则算法结束,输出PR值,否则继续迭代下去。
寻找肺癌知识网络中的相似结点可以发现相近的疾病和药物,为药物治疗的相互借鉴提供思路。SimRank是一种基于网络中结点的结构信息来计算衡量图中任意两个点的相似度的方法,利用该算法可以计算肺癌知识网络中结点的相似程度,为药物预测提供新的方向。将这一思想应用到肺癌医学数据知识网络中,结点与结点之间有指向与被指向的关系,利用基于链接的分析算法计算结点之间的相似度,如果两个结点指向几个相同的结点或者同时被指向到同一结点,那么这两个结点是相似的。在肺癌语义网络中,它们可能代表相似的疾病,或者是关系紧密的基因或蛋白靶标。经典的SimRank算法根据结点之间的关联关系转化为转移矩阵来计算两两结点间的相似度,但是在肺癌知识网络中数据量大,使用矩阵来计算相似度运行时间长,效率低并对运行环境要求高(如内存)。因此,在实验中选择分布式的平台实现SimRank算法。MapReduce根据分治的思想先将大数据集分解成若干组小数据,每组数据分别在集群中的某个结点由Map函数进行处理并生成键值对,然后这些键值对又由大量的结点进Reduce函数处理合并,形成最终结果值。每块矩阵和结点对作为Map函数的输入,在函数中依次构建每一个结点对的入邻接点集合I(u)和I(v),对应输出入邻接点集合中结点对(a,b)对应的si(a,b)的值,然后再由运行Reduce函数的结点读取Map函数输出的中间结果,进行汇总处理,依次重复执行,直到执行k次,形成最终结果。
Simrank算法用来衡量两个结点是否相似,而随机游走方法用来寻找与某个结点相关的其它结点。从肺癌知识网络中的重要基因结点出发,采用随机游走算法寻找与之相关的基因和疾病将为肺癌的药物治疗提供新的方向。重启式随机游走算法是基于随机游走算法,并在其基础上进行了改进,其算法核心思想是:从图G中的某一个结点出发,每走一步就会面临两个选择,一是随机游走到相邻结点,二是返回初始根结点重新游走。当游走到相相邻结点时用表示移动到相邻结点的概率,返回初始结点则用参数表示为重启概率,不断迭代后计算结果趋于平稳。重启式随机游走可以获取两个结点之间在路径等多方面的关系,得到图的整体结构信息。将肺癌知识网络视为图G<V,E>,其中V为所有结点的集合即RDF三元组里的主语和宾语,E为结点间的相互作用关系可以视为边的集合即三元组的谓词。因此,重启式随机游走可以描述为从任意一个实体结点vi出发,在肺癌知识网络图中准备下一步游走时,按照概率向相邻实体结点继续游走,或是重新回到初始结点vi再次游走。这样,经过很多次循环随机游走,每个实体结点被访问到的概率会达到收敛稳定在一数值范围内,这时认为游走结束。
下面结合实验对本发明的技术效果作详细的描述。
1.利用PageRank算法计算肺癌知识网络中的结点可以发现在肺癌知识网络中得分最高的一些结点确实为肺癌治疗通路中的关键结点,其中有的结点代表的信息可以导致肺癌疾病的发生,有些结点可用于制作抗癌药物等。如ID为KEGG T01001:3845的KRAS基因,它是致癌基因并且突变常见于20%的非小细胞肺癌(NSCLC)。通过咨询相关专家以及对比已有文献,证明实验计算出排序高的结点在治疗肺癌疾病均起到重要作用,验证了本发明方法的正确性。
表2实验结果分析
2.在分布式环境下执行了SimRank算法,迭代20次后结果趋于收敛。深入分析RDF有向图的结点结构分布,发现来自肺癌医学数据中蛋白质和药物的数据大约占了整体数据的百分之九十,根据实验结果对得到的相似度计算结果按照药物-药物、蛋白-药物和蛋白-蛋白的分类,将相似的结点进行聚类,聚类的部分结果如表3、表4、表5所示。
表3中展示了药物聚类的部分结果,表中4种药物相似,因为他们都作用在表皮生长因子受体(EGFR)上,并对其有抑制作用。从结果中可以看到治疗同一疾病的药物具有较高的相似度,如药物西妥昔单抗和尼妥珠单抗都可用于治疗鼻咽癌。药物阿法替尼用于治疗EGFR基因突变引起的局部晚期或转移性非小细胞肺癌(NSCLC),它和西妥昔单抗和尼妥珠单抗具有较高的相似度,被聚类在同一分类中。因此可以给出三种药物相互辅助,或编码其中一种药物用来治疗另一种疾病的的可能性,这为药物新用途的研究提供了新的思考方向。
表3基于SimRank的药物聚类的部分结果
表4表示基于SimRank的蛋白质之间的聚类结果,从蛋白质结点出发,如ID为P01116的蛋白质,它的名字为GTPase KRas,编码该蛋白质的基因为KRAS,找到相似度为0.8的另一个ID为L7RSL8的蛋白质,分析该蛋白质信息,它也是被KRAS基因编码。
表4基于SimRank的蛋白质聚类的部分结果
ID/名字 相关基因 相似度
P01116 KRAS /
L7RSL8 KRAS 0.8
I1SRC5 UBE2L3/KRAS 0.57
表5表示基于SimRank的药物-蛋白质的聚类结果,从药物结点出发,如ID为DB08916的药物,名字是阿法替尼(Afatinib),找到相似度分别为0.15和0.14的蛋白质,分析ID为Q504U8和P00533的蛋白质,发现它们有相关基因EGFR,而阿法替尼适合治疗由EGFR突变引发的肿瘤疾病。
表5基于SimRank的药物-蛋白质聚类的部分结果
通过上述的实验分析,验证了基于SimRank算法计算肺癌知识网络结点相似度的正确性。通过将相似度高的药物蛋白进行聚类,并分析发现的聚类结果可以来预测药物的新用途。
3.为了证明实验结果的正确性,针对重启式随机游走算法计算出的与KRAS相关的基因进行了验证查找,分别从相关文献和数据库癌症123中查找这些基因的信息,结果如表6所示。
表6相关基因的分析
从表6所得结果可以看出和KRAS相关性高的基因确实对肺癌有较大影响,证明了通过随机游走算法找到的相关性基因是有效的、正确的,表明分析算法对于肺癌的研究有积极作用。
分析基因KRAS的相关疾病的信息,如表7所示,图2以图形化的方式展示了该结果。表中给出了和基因KRAS相关性最高的一些疾病,在这些疾病中大部分都和KRAS基因有直接关系,还有一些疾病通过和KRAS基因相关的基因和KRAS相关,即间接相关。
表7 KRAS的相关疾病的基因信息
疾病名称 相关基因 PR值
H00027Ovarian cancer卵巢癌 529020643845 0.413
H00018Gastric cancer胃癌 38452064 0.413
H00019Pancreatic cancer胰腺癌 38452064 0.413
H00026Endometrial cancer子宫内膜癌 57282064 0.413
H00030Cervical cancer宫颈癌 20645963845 0.413
H00046Cholangiocarcinoma胆管癌 38452064 0.413
H00032Thyroid cancer甲状腺癌 6733845 0.413
H00523Noonansyndrome and related 6733845 0.413
H01738Noonansyndrome Noonan综合症 6733845 0.413
H00041Kaposissarcoma Kaposis肉瘤 5963845 0.413
从图2中可以看出在与KRAS相关性较高的疾病中,有的疾病之间有共同相互作用的基因,如图中卵巢癌和胃癌都有两个共同的基因KRAS和ERBB2,它们都是在肺癌疾病中常见的突变基因。而有的疾病和KRAS没有直接关系,它们是通过结点的路径相关,如与H00026子宫内膜癌相关的基因是ERBB2和PTEN,由于这两个基因和KRAS相关,所以得到疾病H00026和KRAS相关的结果。这些数据分析结果为肺癌的治疗方法提供了新的思路,指出新的研究方向。
表8算法MapReduce框架下的分布式SimRank算法
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于肺癌医学大数据的治疗通路关键结点信息处理方法,其特征在于,所述基于肺癌医学大数据的治疗通路关键结点信息处理方法包括:
第一步,对现有的生物医学数据集中的数据进行多源数据融合,在互联网中选择ChEMBL、KEGG、DrugBank、UniPort和PubMed 5个生物医学数据库,获取肺癌相关信息;
第二步,对源数据进行数据清洗、数据消岐、数据压缩;
第三步,将预处理后的数据转为RDF格式,形成知识网络;根据RDF的定义将表示基因、蛋白的实体作为主语和宾语,实体间的联系作为谓词,实现数据的统一组织表示;把构成的RDF图称为肺癌知识网络图;
第四步,采用PageRank算法在肺癌知识网络中计算结点的重要性,找到肺癌治疗通路上的关键结点。
2.如权利要求1所述的基于肺癌医学大数据的治疗通路关键结点信息处理方法,其特征在于,所述数据清洗指查找数据中的遗漏缺失值和清洗脏数据;数据消岐用于解决同个实体名称在不同语句不同意义的问题;数据压缩将需要进行信息挖掘的数据集合,进行压缩表示,缩小数量规模。
3.如权利要求1所述的基于肺癌医学大数据的治疗通路关键结点信息处理方法,其特征在于,采用PageRank算法计算结点的重要性找到肺癌治疗通路上的关键结点具体包括:
(1)在Map阶段时,Map函数将结点邻接表中的每一行记录输出为<key,value>,key为目标结点,value为PR值链接指向结点;
(2)MapReduce框架收集Map函数输出的中间结果<key,value>,以key进行shuffle;在Reduce阶段,Reduce函数对于每个key由公式计算出每个页面新的PR值,并将结果保存在HDFS中,以用于下一次迭代;
(3)生成的结果与结点邻接表再一次合并,合并后的文件是下一次迭代的输入文件,执行并行的PageRank算法;若达到收敛条件则算法结束,输出PR值,否则继续迭代下去。
4.如权利要求1所述的基于肺癌医学大数据的治疗通路关键结点信息处理方法,其特征在于,所述第二步的数据清洗,包括删除缺失值,通过对缺失值进行查找检测;
重复值处理,通过去重算法对重复值进行归一处理;采用消歧算法进行数据消歧,对于每对存在歧义的数据通过计算上下文依赖性和语义相似性评估候选实体,计算得分,将得分最高的实体选为正确链接实体;
对数据进行压缩,针对实体选取Gene ID、Gene name、Pathway ID、Pathway name、Disease ID和Disease name六种常用属性对数据进行归约,设计数字型编码,对代表实体名称和内容的主语和宾语进行统一编码,对谓词进行单独编码,压缩后的数据规模缩减到源数据的1/3。
5.如权利要求1所述的基于肺癌医学大数据的治疗通路关键结点信息处理方法,其特征在于,所述第三步肺癌知识网络图,图中的结点为RDF三元组中的主语和宾语,图中的边为谓词,采用PageRank算法计算结点的重要性找到肺癌治疗通路上的关键结点。
6.一种应用权利要求1~5任意一项所述基于肺癌医学大数据的治疗通路关键结点信息处理方法的信息数据处理终端。
7.一种应用权利要求1~5任意一项所述基于肺癌医学大数据的治疗通路关键结点信息处理方法的药物新用途预测系统。
CN201910882815.XA 2019-09-18 2019-09-18 基于肺癌医学大数据的治疗通路关键结点信息处理方法 Pending CN110618987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910882815.XA CN110618987A (zh) 2019-09-18 2019-09-18 基于肺癌医学大数据的治疗通路关键结点信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910882815.XA CN110618987A (zh) 2019-09-18 2019-09-18 基于肺癌医学大数据的治疗通路关键结点信息处理方法

Publications (1)

Publication Number Publication Date
CN110618987A true CN110618987A (zh) 2019-12-27

Family

ID=68923414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910882815.XA Pending CN110618987A (zh) 2019-09-18 2019-09-18 基于肺癌医学大数据的治疗通路关键结点信息处理方法

Country Status (1)

Country Link
CN (1) CN110618987A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785333A (zh) * 2020-03-20 2020-10-16 赵洪磊 基于生物学网络数据的药物作用靶点筛选方法、装置、电子设备及存储介质
CN113780416A (zh) * 2021-09-10 2021-12-10 电子科技大学长三角研究院(衢州) 基于图的特征排序和降维方法
WO2024066489A1 (zh) * 2022-09-30 2024-04-04 苏州雅深智慧科技有限公司 一种药物研发数据库的配置方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325131A (zh) * 2018-09-27 2019-02-12 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质
CN110232185A (zh) * 2019-01-07 2019-09-13 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质
CN109325131A (zh) * 2018-09-27 2019-02-12 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN110232185A (zh) * 2019-01-07 2019-09-13 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FANG DU 等: "Finding Key Factors in Lung Cancer Drug Pathway over Biomedical Semantic Knowledge Network", 《FUZZY SYSTEMS AND DATA MINING》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785333A (zh) * 2020-03-20 2020-10-16 赵洪磊 基于生物学网络数据的药物作用靶点筛选方法、装置、电子设备及存储介质
CN111785333B (zh) * 2020-03-20 2022-02-25 中国医学科学院阜外医院深圳医院 基于生物学网络数据的药物作用靶点筛选方法、装置、电子设备及存储介质
CN113780416A (zh) * 2021-09-10 2021-12-10 电子科技大学长三角研究院(衢州) 基于图的特征排序和降维方法
CN113780416B (zh) * 2021-09-10 2024-04-02 电子科技大学长三角研究院(衢州) 基于图的特征排序和降维方法
WO2024066489A1 (zh) * 2022-09-30 2024-04-04 苏州雅深智慧科技有限公司 一种药物研发数据库的配置方法及系统

Similar Documents

Publication Publication Date Title
CN109712678B (zh) 关系预测方法、装置及电子设备
Cheng et al. InfAcrOnt: calculating cross-ontology term similarities using information flow by a random walk
Gan et al. From ontology to semantic similarity: calculation of ontology-based semantic similarity
CN110618987A (zh) 基于肺癌医学大数据的治疗通路关键结点信息处理方法
Song et al. Exploring author name disambiguation on PubMed-scale
CN105893585B (zh) 一种结合标签数据的二部图模型学术论文推荐方法
Gubichev et al. Path Query Processing on Very Large RDF Graphs.
Qiao et al. Unsupervised author disambiguation using heterogeneous graph convolutional network embedding
Berlanga et al. Exploring and linking biomedical resources through multidimensional semantic spaces
Zhou et al. Summarisation of weighted networks
Wu et al. HY-DBSCAN: A hybrid parallel DBSCAN clustering algorithm scalable on distributed-memory computers
CN110675938A (zh) 一种针灸医学数据处理系统及方法、信息数据处理终端
KR101839572B1 (ko) 질병 관련 유전자 관계 분석 장치 및 방법
Guo et al. Data mining and risk prediction based on apriori improved algorithm for lung cancer
Yang et al. LAZY R-tree: The R-tree with lazy splitting algorithm
Zhu et al. Discovering large conserved functional components in global network alignment by graph matching
Yu et al. DBWGIE-MR: A density-based clustering algorithm by using the weighted grid and information entropy based on MapReduce
Peng et al. Detecting conserved protein complexes using a dividing-and-matching algorithm and unequally lenient criteria for network comparison
Liu et al. SATMargin: Practical Maximal Frequent Subgraph Mining via Margin Space Sampling
Horlova et al. Array-based data management for genomics
Jiao et al. Nsap: A neighborhood subgraph aggregation method for drug-disease association prediction
Zhang Research on Literature Clustering Algorithm for Massive Scientific and Technical Literature Query Service
Guo et al. Inferring drug-mirna associations by integrating drug smiles and mirna sequence information
Wang et al. PPDTS: Predicting potential drug–target interactions based on network similarity
Tian et al. SGFSC: speeding the gene functional similarity calculation based on hash tables

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination