CN117476252A - 一种基于知识图谱的病因病理预测方法 - Google Patents

一种基于知识图谱的病因病理预测方法 Download PDF

Info

Publication number
CN117476252A
CN117476252A CN202311477825.8A CN202311477825A CN117476252A CN 117476252 A CN117476252 A CN 117476252A CN 202311477825 A CN202311477825 A CN 202311477825A CN 117476252 A CN117476252 A CN 117476252A
Authority
CN
China
Prior art keywords
gene
protein
label
genes
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311477825.8A
Other languages
English (en)
Inventor
徐芳
范立青
郭刚刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202311477825.8A priority Critical patent/CN117476252A/zh
Publication of CN117476252A publication Critical patent/CN117476252A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medicinal Chemistry (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及知识图谱技术领域,公开了一种基于知识图谱的病因病理预测方法,包括基于深度卷积神经网络算法CNN构建的两类分类预测模型,其中,两类分类预测模型分别为预测疾病病因基因的单标签二分类模型以及预测病因基因所参与病理过程的多标签多分类模型。本发明重新定义人类疾病表型预测问题,创造性地训练单标签二分类与多标签多分类深度学习模型,能有效预测所研究的相关疾病病因基因及其病理过程;本发明有效提升预测精准度,并应用于多种疾病的病因基因及病理过程的预测,为预测病因基因提供大量潜在靶标,为实验研究、医疗决策提供大数据信息支持。

Description

一种基于知识图谱的病因病理预测方法
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种基于知识图谱的病因病理预测方法。
背景技术
传统候选疾病病因基因的筛选通常采用以下策略:首先针对实验组及对照组,基于高通量技术获取差异表达基因列表;随后上传列表、与基因集文库中的现有列表(取交集)进行基因功能富集分析、基因功能注释与分类、蛋白质相互作用网络分析等生物信息分析。然而此类策略弊端非常明显:(1)通常仅基于单一维度原始数据的分析,难以将多维度原始异构数据按统一的数据标准同时纳入,也就无法系统地定义复杂问题;(2)对原始数据进行信息抽取前,必须基于领域专业知识进行信息预定义,限于专家经验的丰富度与主观片面的见解差异,不可避免地导致大量潜在、可解释性的原始信息丢失,甚至错误的表示;(3)倾向于采用有限变量与强假设关系的线性模型,这类拟合函数难以抽象出隐含在蛋白编码基因与疾病复杂问题与数据背后的知识与规则。
诸如癌症、不孕不育、糖尿病、风湿病、基因遗传病等人类疾病是一种复杂的多因素病理学状态,其中遗传因素是非常重要的决定因素,甚至有高达10~20%的病例可由遗传缺陷解释。发现蛋白编码基因(变异)与所研究的相关疾病之间的关系,寻找新的疾病病因(编码)基因是所研究的相关疾病领域科学研究者设计基因/蛋白质功能研究(临床应用前试验研究)、遗传学家实施遗传诊断、医学家研发新治疗方案以及计划靶向治疗的一个前提和挑战。
中国现有专利CN105219844B公开了一种筛查十一种疾病的基因标志物组合、试剂盒以及疾病风险预测模型,由十一种疾病的特征性基因库组成,利用自助抽样方法和逻辑回归分析方法评估不同基因组合对疾病的甄别能力,建立逻辑回归分析模型,计算每一基因组合对目标疾病诊断的受试者操作曲线AUC值,AUC值高的基因组合用MedCalc软件计算阳性样本和阴性样本区分的最佳临界值作为阳性和阴性检测结果的标准和逻辑回归模型的一项参数。但该专利疾病覆盖面广,分类精度不足,无法提供大量潜在药物分子靶标,也无法足够提示疾病病理发展过程。
发明内容
针对现有技术尚缺乏构建病因基因及其病理过程预测模型的技术方案,本发明提供一种基于知识图谱的病因病理预测方法,将某一种疾病病因基因与疾病关联并标出阳性样例和阴性样例,并预测多种某一种疾病病因基因所涉及的致病病理过程,由整合发现与模型预测的某一种疾病病因基因能提供大量潜在的有效靶标,为科学研究者、医学专家设计功能实验研究、做出医疗决策提供强有力的辅助支撑。
本发明由以下技术方案实现:
一种基于知识图谱的病因病理预测方法,包括基于深度卷积神经网络算法CNN构建的两类分类预测模型,其中,两类分类预测模型分别为预测疾病病因基因的单标签二分类模型以及预测病因基因所参与病理过程的多标签多分类模型。
优选的,所述单标签二分类模型网络结构包括两个卷积层、两个激活层、一个池化层、两个全连接层和一个输出层;所述多标签多分类模型网络结构包括两个卷积层、两个激活层、两个池化层、两个全连接层和一个输出层;其中所述单标签二分类模型网络结构和多标签多分类模型网络结构的第一个卷积层为输入层;所述深度卷积神经网络分别包括卷积层与池化层的卷积计算、残差计算和梯度计算。
优选的,所述单标签二分类模型、多标签多分类模型基于TensorFlow和keras深度学习软件库进行训练;卷积层与池化层的核心计算需手动输入,激活层、全连接层、输出层的计算采用软件默认方式进行。
优选的,在卷积层中,假设第l层为卷积层,即第l+层为池化层;则第l层第j个feature map的计算公式为:
卷积层卷积计算中,其中Mj表示选择的输入feature maps的集合,等式中的*号实质上表示让卷积核k,在第l-1层所有关联的feature maps上做卷积运算、求和,再引进一个偏置参数,取sigmoid得到最终激励值的过程;
第l层第j个feature map的残差计算公式为:
卷积层残差计算中,所述池化层与卷积层是一一对应,up(.)表示将l+1层的大小扩展为和第l层大小一样,这个函数可以用Kronecker乘积实现;
对于一个给定的feature map,首先计算其灵敏度,然后针对简单的对层l中,求和所有节点以及bias基梯度的快速计算,如下所示:
此外,针对一个给定权值,同时需要求与该权值分享共同权值的所有连接点的梯度,并求和所有梯度,即偏置参数k的导数,其公式为:
卷积层梯度计算,其中表示第l层第j个feature map与第l-1层第i个featuremap相连所对应的核,/>表示/>中的、在卷积的时候与逐元素/>相乘的patch,输出卷积feature map的(u,v)位置的值为:上一层(u,v)位置的patch与卷积核逐元素/>相乘的结果。
优选的,在池化层中,假设第l层为池化层,即第l-层为卷积层;对于池化层而言,有N个输入feature maps,就有N个缩放的输出feature maps,具体计算如下:
池化层卷积计算式中,down(.)表示一个下采样函数;所述下采样函数求和输入图像中的不同的n-by-n块的所有像素以使输出图像在两个空间维度上均缩小n倍;每个输出feature map都对应给予一个乘性偏置β和一个加性偏置b,再进一步求取sigmoid函数;
所述池化层残差的计算公式为:
所述池化层残差计算中旋转核函数使卷积函数执行互相关计算;所述池化层梯度计算公式为:
所述池化层梯度计算中偏置b的导数的计算同卷积层;乘性偏置β需要涉及在前向传播过程中下采样feature map的计算,因此提前保存feature maps,可避免反向计算中的重新计算。
优选的,所述单标签二分类模型构建过程为:将基因/蛋白质特征抽取为蛋白质深度画像,将所述蛋白质深度画像与标签关联成训练集,将所述训练集经过所述单标签二分类模型网络结构对模型进行参数化训练,再对模型进行评价;所述标签为将所述蛋白质深度画像标注为是否为所研究的相关疾病的病因基因。
优选的,将所述基因/蛋白质特征抽取为蛋白质深度画像包括以下步骤:
1)通过表征基因/蛋白质的深度知识表示框架,包括Word2vec、Prot2Vec、Node2vec、Space2vec,将所述基因/蛋白质特征包括功能注释、初级结构、互作关联、组织空间表达,转成相对应的观察数据为医学主题词MeSH、基因本体GO术语、蛋白质序列、PPI、基因表达五类1*128维特征向量;
2)针对每一基因/蛋白质,通过串联表征步骤1)得到的所述特征向量获得一个5*128维特征矩阵,即为蛋白质深度画像。
优选的,所述基因/蛋白质功能注释特征的数据来源包括NCBI/Gene、UniProt数据库中关于基因/蛋白质的相关链接参考文献、MGI数据库中关于基因/蛋白质及其小鼠表型的相关链接参考文献、ClinVar、GeneCards和MGI数据库中关于基因/蛋白质及其疾病的相关链接参考文献,还包括在NCBI、Pfam数据库中关于基因/蛋白质及其对应GO、家族属性的相关链接参考文献,提取所述参考文献对应的识别号PMID并在数据库上进行检索,采集并解析出文献的标题与摘要文本;所述所研究的相关疾病为癌症、不孕不育、糖尿病、风湿病、基因遗传病中的一种。
优选的,所述基因/蛋白质功能注释特征向量的提取过程包括以下步骤:
(1)将所述的文献标题与摘要文本语句经预处理后构成训练语料输入Word2vec;
(2)PubMed数据库中以文献PMID进行检索,通过PAGE NAVIGATION中的“MeSHterms”字段,链接“MeSH terms”下、由数据库分配给该篇文献的MeSH术语;采集分配给每篇文献MeSH术语,结合每个基因/蛋白质的参考文献集合及对应的PMID,即梳理出每个基因/蛋白质对应的MeSH术语集合;
(3)在NCBI/Gene数据库,通过Using Gene中的“Download/FTP”字段链接到“Indexof/gene”界面,进一步通过“DATA/”字段链接到“Index of/gene/DATA”界面,下载命名为“gene2go.gz”的文件;经文件解析后即采集全部基因/蛋白质注释的GO术语列表,并以单一基因/蛋白质进行划分即梳理出单个基因/蛋白质对应的GO术语集合;(4)使用步骤(1)获取的词嵌入模型对步骤(2)或(3)的所述术语集合中对应的每个MeSH或GO术语中进行向量化并取平均后,即获得表征每个基因/蛋白质功能注释特性的MeSH或GO术语为基础的1*128维特征向量。
优选的,所述基因/蛋白质初级结构特征向量的提取过程包括:在Ensembl、UniProt数据库中,以蛋白质进入号检索匹配,针对每条蛋白质序列,采用非重叠滑动窗口、以3-gram字符串方式进行划分,生成以每3个滑动、非重叠的3-gram组成一组的词集,所有蛋白质序列得到的词集构成序列字符串嵌入模型的训练语料输入Prot2Vec,模型输出为每个3-gram的1*128维嵌入/向量;使用每个3-gram的向量再针对每条蛋白质序列对应词集中的每个3-gram进行向量化并取平均后获得表征基因/蛋白质初级结构特性的1*128维特征向量。
优选的,所述基因/蛋白质互作关联特征向量的提取过程包括:从Ensemble数据库采集Ensembl识别号并与STRING功能蛋白关联网络数据库提供的识别号进行匹配,结合两步筛选构建一个跨物种PPI网络,所述PPI网络中的所有蛋白质节点和PPI对构成网络节点嵌入模型的训练语料输入Node2vec,训练算法采用skip-gram训练获得每个蛋白质节点的1*128维嵌入/向量,即为表征每个基因/蛋白质互作关联特性的1*128维特征向量;所述两步筛选为在小鼠、大鼠、果蝇和斑马鱼4大模式生物上的同源基因/蛋白质的PPI对关联到其对应的人类基因/蛋白质的PPI对上、过滤保留置信得分≥200的PPI对。
优选的,所述基因/蛋白质组织空间表达特征向量的提取过程包括:从GTEx数据库采集与人类基因对应的标准化基因表达mRNA测序数据构成基因表达嵌入模型的训练语料输入Space2vec;Space2vec包括使用主成分分析PCA模型将基因在各样本上的数据向量进行压缩至1*5维,串联相同基因在人体组织上的表达向量生成1*265维向量,所有基因生成数据输入LargeVis模型最终压缩数据维度为1*128维,即为表征每个基因/蛋白质组织空间表达特性的1*128维特征向量。
优选的,所述标签关联即获取所研究的相关疾病病因基因的阳性、阴性标签标注在对应基因上,分别表示是否为所研究的相关疾病的病因基因;所述阳性标签直接来源于存档人类疾病-基因或变异关系的数据库,包括OMIM、ClinVar、GeneCards、Humsavar inUniProtKB/Swiss-Prot、MalaCards、MGI,以及间接来源于编目表型-敲除基因关系的MGI数据库;所述阳性标签的标注实现过程包括:一、构建基于领域专业知识自定义与所研究的相关疾病常见遗传起源相关的原子关键词的原子词典,匹配出所有包含原子关键词的疾病名称,去除错选疾病名称生成种子疾病名称集,使用Levenshtein distance方法计算匹配出相似度大于0.9的与所研究的相关疾病相关的选定疾病名称列表,汇集对应基因并人工筛错获取阳性样例,即为由疾病-基因或变异关系标注的阳性标签基因集合;二、使用MGI数据库,基于小鼠/人类同源基因与表型注释的数据库匹配出与人类蛋白编码基因同源的小鼠基因即获得表型-小鼠同源基因关系数据库,基于MGI数据中的哺乳动物表型树筛选出与所研究的相关疾病相关的选定小鼠表型名称列表并获取对应的MGI ID编号,匹配出对应的表型集合并汇总表型集合对应的小鼠同源基因获取阳性样例,即为由表型-小鼠同源基因关系标注的阳性标签基因集合;所述阴性标签的标注实现过程包括在MGI数据库中,基于敲除类型-表型-小鼠同源基因关系数据库匹配出不涉及所研究的相关疾病相关表型名称的、所有完全敲除小鼠表型并汇总对应的基因,过滤阳性样例后剩余基因为阴性样例,即为由表型-小鼠同源基因关系标注的阴性标签基因集合。
优选的,所述的单标签二分类模型训练与评价包括:以表征每个基因/蛋白质的5*128维的特征矩阵,即蛋白质深度画像作为模型输入,模型训练方法采用K-fold交叉验证,超参数优化采用Relu、Softmax、dropout、学习率、迭代次数、神经元个数组合,并基于准确率、精确率、召回率、损失函数和F1-score五个指标进行模型评价。
优选的,基于领域专业知识将所研究的相关疾病的病因基因参与的病理过程划分为多个类别;采用多标签多分类模型用于预测所研究的相关疾病病因基因所参与的病理过程;多标签多分类模型构建过程为:将多标签多分类问题进行形式化定义,将基因/蛋白质特征抽取为蛋白质深度画像,将所述蛋白质深度画像与标签关联成训练集,将所述训练集经过所述多标签多分类模型网络结构对模型进行参数化训练,再对模型进行评价;所述标签为将所述阳性样例基因对应的蛋白质深度画像标注其所参与的病理过程类别。
优选的,所述多标签多分类模型构建过程中的将所述多标签多分类问题进行形式化定义包括:已知一个定义在实数域R上的d维输入数据空间,记为X;一个包含了q个标签的标签空间,记为Y,其中q>2;一个包含了m个训练数据的训练集合,记为D,公式为:D={(xi,Yi)|1≤i≤m,xi∈X,Yi∈Y};式中,xi是输入空间X的一个训练数据,Yi是xi的真实标签集合;
多标签多分类问题为:通过对训练集合D,学习一个分类模型f:X→Y;一个待分类数据x∈X,可以通过分类模型f得到其预测标签集合,并使得该预测标签集合与真实标签集合最为接近。
优选的,所述多标签多分类模型构建过程中的将所述基因/蛋白质特征抽取为蛋白质深度画像包括以下步骤:
1)通过表征基因/蛋白质的深度知识表示框架,包括Word2vec、Prot2Vec、Node2vec、Space2vec,将所述基因/蛋白质特征包括功能注释、初级结构、互作关联、组织空间表达,转成相对应的观察数据为医学主题词MeSH、基因本体GO术语、蛋白质序列、PPI、基因表达五类1*128维特征向量;
2)针对每一基因/蛋白质,通过串联表征步骤1)得到的所述特征向量获得一个5*128维特征矩阵,即为蛋白质深度画像。
优选的,所述多标签多分类模型构建过程中的所述标签关联即为每个阳性样例基因打上所参与病理过程的类别标签;基于所述八个病理过程类别,结合选定疾病名称列表、选定小鼠表型名称列表,分别筛选出隶属于各个类别的疾病名称子集、小鼠表型名称子集;各个类别下对应的疾病名称子集、小鼠表型名称子集分别结合人类疾病-基因或变异关系数据库、表型-小鼠同源基因关系数据库进行匹配、梳理出各个子集对应的基因集合;具有相同病理过程类别、分属于疾病名称、小鼠表型名称2个子集的基因进行汇集即可获取各个病理过程类别标签基因集合;为阳性样例基因梳理出每个基因所参与的病理过程类别,即为每个阳性样例基因至少打上一个所参与病理过程的类别标签。
优选的,当所研究的相关疾病为男性不育时,所述八个病理过程类别包括:精子发生异常、受精及早期胚胎发育、精子病理类型和/或结构异常、睾丸发育异常和/或相关疾病、除睾丸外的泌尿生殖系统发育异常和/或相关疾病、影响内分泌和/或泌尿生殖系统的潜在综合征、泌尿生殖系统恶性肿瘤、男性不育。
优选的,所述的多标签多分类模型训练与评价包括:以表征每个基因/蛋白质的5*128维的特征矩阵即蛋白质深度画像作为模型输入,模型训练方法采用K-fold交叉验证,超参数优化采用Relu、Sigmoid、dropout、学习率、迭代次数、神经元个数组合,并基于准确率、精确率、Hamming损失、Jaccard相似性、AUC和F1-score六类指标进行模型评价。
本发明的有益效果:
(1)本发明重新定义人类疾病表型预测问题,创造性地训练单标签二分类与多标签多分类深度学习模型,能有效预测所研究的相关疾病的病因基因及其病理过程;就预测精准度,经过与本发明构建的其它经典的机器学习预测模型对比,具有明显的优势。
(2)本发明提出一套预测疾病病因基因及其病理过程的深度学习方法框架;参照这一框架,包括问题定义、标签属性标注、模型训练等,科学工作者可以进行其它类型疾病的病因基因及其病理过程的预测。(3)本发明在两类分类预测模型构建过程中基于存档人类疾病-基因或变异关系、编目小鼠表型-敲除基因关系的两个来源的数据库,共整合发现男性不育基因1,396个并梳理出对应参与的病理过程;经构建的两类分类预测模型有效预测704个所研究的相关疾病的病因基因及其病理过程。
(4)本发明由整合发现和模型预测的男性不育基因(靶标)多达2100个,从2万余个蛋白编码基因中正确筛选出疾病表型候选致病基因集,排除掉大量的阴性结果、无对应的疾病表型,科学研究者、医学专家均能从本发明获益。
(5)本发明通过有效降低需要验证假设的搜索空间、缩小候选致病基因范围,辅助设计功能研究,进而大大降低实验室所需的时间和经济成本、减轻科学研究者的心理经济负担。
(6)本发明应用于临床遗传学方面,辅助识别疾病候选致病基因、发现潜在治疗靶点,为医学专家实施遗传诊断、研发新治疗方案以及计划靶向治疗等医疗决策提供强有力的辅助支撑。
附图说明
图1单标签二分类模型网络结构。
图2多标签多分类模型网络结构。
图3表征基因/蛋白质的深度知识表示框架。
图4基因/蛋白质功能注释特征的深度知识表示-Word2vec。
图5基因/蛋白质初级结构特征的深度知识表示-Prot2Vec。
图6基因/蛋白质互作关联特征的深度知识表示-Node2vec。
图7基因/蛋白质组织空间表达特征的深度知识表示-Space2vec。
图8基于人类疾病-基因或变异关系的病因基因阳性标签标注方法体系。
图9基于小鼠表型-敲除基因关系的病因基因阳性/阴性标签标注方法体系。
图10病因基因所参与病理过程多分类标签标注方法体系。
图11单标签二分类模型预测表现。(a,b)模型预测表现与波动评价;(c)4-fold情况下的四个模型预测稳健性评价;(d,e)七类机器学习模型预测表现对比评价雷达图、坐标抽系统。其中DP-CNN-SLBC、BT、DT、LR、RF、SVM、XGB分别表示基于深度CNN算法的单标签二分类模型、提升树、决策树、逻辑回归、随机森林、支持向量机、XGBoost极限提升树机器学习模型。
图12多标签多分类模型预测表现。(a,b)模型预测平均准确率、hamming损失评价;(c)5-fold情况下的五个模型预测稳健性评价;(d)七类机器学习模型预测表现对比评价雷达图。其中分类1-8分别表示精子发生异常、精子病理类型和/或结构异常、受精及早期胚胎发育、睾丸发育异常和/或相关疾病、(除睾丸外)泌尿生殖系统发育异常和/或相关疾病、男性不育、泌尿生殖系统恶性肿瘤、影响内分泌和/或泌尿生殖系统的潜在综合征八个病理过程类别;DP-CNN-MLMC、MK、XGB、NB、LR、SVM、RF分别表示基于深度CNN算法的多标签多分类模型、多标签-K最近邻、XGBoost极限提升树、高斯朴素贝叶斯、逻辑回归、支持向量机、随机森林机器学习模型。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明;应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明;实施例中,如无特别说明,所用手段均为本领域常规的手段;本文中所用的术语“包含”、“包括”或其任何其它变形,意在覆盖非排它性的包括;本发明实施例和对比例中所用的实验原料均为市售产品。
实施例1
一种基于知识图谱的男性不育病因病理预测方法,包括以下步骤:1)基于深度卷积神经网络算法CNN的单标签二分类模型构建:1.1)将基因/蛋白质特征抽取为蛋白质深度画像:1.1.1)基因/蛋白质功能注释特征向量提取:将所述的文献标题与摘要文本语句经预处理后构成训练语料输入Word2vec,PubMed数据库中以文献PMID进行检索,通过PAGENAVIGATION中的“MeSH terms”字段,链接“MeSH terms”下、由数据库分配给该篇文献的MeSH术语;采集分配给每篇文献MeSH术语,结合每个基因/蛋白质的参考文献集合及对应的PMID,即梳理出每个基因/蛋白质对应的MeSH术语集合,在NCBI/Gene数据库,通过UsingGene中的“Download/FTP”字段链接到“Index of/gene”界面,进一步通过“DATA/”字段链接到“Index of/gene/DATA”界面,下载命名为“gene2go.gz”的文件;经文件解析后即采集全部基因/蛋白质注释的GO术语列表,并以单一基因/蛋白质进行划分即梳理出单个基因/蛋白质对应的GO术语集合,使用获取的词嵌入模型对所述术语集合中对应的每个MeSH或GO术语中进行向量化并取平均后,即获得表征每个基因/蛋白质功能注释特性的MeSH或GO术语为基础的1*128维特征向量;1.1.2)基因/蛋白质初级结构特征向量提取:在Ensembl、UniProt数据库中,以蛋白质进入号检索匹配,针对每条蛋白质序列,采用非重叠滑动窗口、以3-gram方式进行划分,生成以每3个滑动、非重叠的3-gram字符串组成一组的词集,所有蛋白质序列得到的词集构成序列字符串嵌入模型的训练语料的输入Prot2Vec,模型输出为每个3-gram词的1*128维嵌入/向量;使用每个3-gram的向量再针对每条蛋白质序列对应词集中的每个3-gram进行向量化并取平均后获得表征基因/蛋白质初级结构特性的1*128维特征向量;1.1.3)基因/蛋白质互作关联特征向量提取:从Ensemble数据库采集Ensembl识别号并与STRING功能蛋白关联网络数据库提供的识别号进行匹配,结合两步筛选构建一个跨物种PPI网络,所述PPI网络中的所有蛋白质节点和PPI对构成网络节点嵌入模型的训练语料输入Node2vec,训练算法采用skip-gram训练获得每个蛋白质节点的1*128维嵌入/向量,即为表征每个基因/蛋白质互作关联特性的1*128维特征向量;所述两步筛选为在小鼠、大鼠、果蝇和斑马鱼4大模式生物上的同源基因/蛋白质的PPI对关联到其对应的人类基因/蛋白质的PPI对上、过滤保留置信得分≥200的PPI对;1.1.4)基因/蛋白质组织空间表达特征向量提取:从GTEx数据库采集与人类基因对应的标准化基因表达mRNA测序数据构成基因表达嵌入模型的训练语料输入Space2vec;Space2vec包括使用主成分分析PCA模型将基因在各样本上的数据向量进行压缩至1*5维,串联相同基因在人体组织上的表达向量生成1*265维向量,所有基因生成数据输入LargeVis模型最终压缩数据维度为1*128维,即为表征每个基因/蛋白质组织空间表达特性的1*128维特征向量;1.2)将蛋白质深度画像与标签关联成训练集,获取男性不育病因基因的阳性、阴性标签标注在对应基因上,分别表示是否为男性不育的病因基因;阳性标签直接来源于存档人类疾病-基因或变异关系的数据库,包括OMIM、ClinVar、GeneCards、Humsavar in UniProtKB/Swiss-Prot、MalaCards、MGI,以及间接来源于编目表型-敲除基因关系的MGI数据库;阳性标签的标注实现过程包括:一、构建基于领域专业知识自定义与男性不育常见遗传起源相关的原子关键词的原子词典,匹配出所有包含原子关键词的疾病名称,去除错选疾病名称生成种子疾病名称集,使用Levenshteindistance方法计算匹配出相似度大于0.9的与男性不育相关的选定疾病名称列表,汇集对应基因并人工筛错获取阳性样例,即为由疾病-基因或变异关系标注的阳性标签基因集合;二、使用MGI数据库,基于小鼠/人类同源基因与表型注释的数据库匹配出与人类蛋白编码基因同源的小鼠基因即获得表型-小鼠同源基因关系数据库,基于MGI数据中的哺乳动物表型树筛选出与雄性不育相关的选定小鼠表型名称列表并获取对应的MGI ID编号,匹配出对应的表型集合并汇总表型集合对应的小鼠同源基因获取阳性样例,即为由表型-小鼠同源基因关系标注的阳性标签基因集合;阴性标签的标注实现过程包括在MGI数据库中,基于敲除类型-表型-小鼠同源基因关系数据库匹配出不涉及雄性不育相关表型名称的、所有完全敲除小鼠表型并汇总对应的基因,过滤阳性样例后剩余基因为阴性样例,即为由表型-小鼠同源基因关系标注的阴性标签基因集合;1.3)将训练集经过单标签二分类模型网络结构对模型进行参数化训练,再对模型进行评价:以表征每个基因/蛋白质的5*128维的特征矩阵,即蛋白质深度画像作为模型输入,模型网络结构包括两个卷积层、两个激活层、一个池化层、两个全连接层和一个输出层,模型训练方法采用K-fold交叉验证,超参数优化采用Relu、Softmax、dropout、学习率、迭代次数、神经元个数组合,并基于准确率、精确率、召回率、损失函数和F1-score五个指标进行模型评价;
2)基于深度卷积神经网络算法CNN的多标签多分类模型构建:2.1)将多标签多分类问题进行形式化定义:已知一个定义在实数域R上的d维输入数据空间,记为X;一个包含了q个标签的标签空间,记为Y,其中q>2;一个包含了m个训练数据的训练集合,记为D,公式为:D={(xi,Yi)|1≤i≤m,xi∈X,Yi∈Y};式中,xi是输入空间X的一个训练数据,Yi是xi的真实标签集合;多标签多分类问题为:通过对训练集合D,学习一个分类模型f:X→Y;一个待分类数据x∈X,可以通过分类模型f得到其预测标签集合,并使得该预测标签集合与真实标签集合最为接近;2.2)将基因/蛋白质特征抽取为蛋白质深度画像:与单标签二分类模型相同;2.3)将蛋白质深度画像与标签关联成训练集:为每个阳性样例基因打上所参与病理过程的类别标签,基于领域专业知识划分的八个病理过程类别包括:精子发生异常、受精及早期胚胎发育、精子病理类型和/或结构异常、睾丸发育异常和/或相关疾病、除睾丸外的泌尿生殖系统发育异常和/或相关疾病、影响内分泌和/或泌尿生殖系统的潜在综合征、泌尿生殖系统恶性肿瘤、男性不育;基于八个病理过程类别,结合选定疾病名称列表、选定小鼠表型名称列表,分别筛选出隶属于各个类别的疾病名称子集、小鼠表型名称子集;各个类别下对应的疾病名称子集、小鼠表型名称子集分别结合人类疾病-基因或变异关系数据库、表型-小鼠同源基因关系数据库进行匹配、梳理出各个子集对应的基因集合;具有相同病理过程类别、分属于疾病名称、小鼠表型名称2个子集的基因进行汇集即可获取各个病理过程类别标签基因集合;为阳性样例基因梳理出每个基因所参与的病理过程类别,即为每个阳性样例基因至少打上一个所参与病理过程的类别标签;2.4)将训练集经过多标签多分类模型网络结构对模型进行参数化训练,再对模型进行评价:以表征每个基因/蛋白质的5*128维的特征矩阵即蛋白质深度画像作为模型输入,模型网络结构包括两个卷积层、两个激活层、两个池化层、两个全连接层和一个输出层,模型训练方法采用K-fold交叉验证,超参数优化采用Relu、Sigmoid、dropout、学习率、迭代次数、神经元个数组合,并基于准确率、精确率、Hamming损失、Jaccard相似性、AUC和F1-score六类指标进行模型评价。
卷积层计算:
在卷积层中,假设第l层为卷积层,即第l+1层为池化层;则第l层第j个featuremap的计算公式为:
卷积层卷积计算中,其中Mj表示选择的输入feature maps的集合,等式中的*号实质上表示让卷积核k,在第l-1层所有关联的feature maps上做卷积运算、求和,再引进一个偏置参数,取sigmoid得到最终激励值的过程;
第l层第j个feature map的残差计算公式为:
卷积层残差计算中,池化层与卷积层是一一对应,up(.)表示将l+1层的大小扩展为和第l层大小一样,这个函数可以用Kronecker乘积实现;对于一个给定的feature map,首先计算其灵敏度,然后针对简单的对层l中,求和所有节点以及bias基梯度的快速计算,如下所示:
此外,针对一个给定权值,同时需要求与该权值分享共同权值的所有连接点的梯度,并求和所有梯度,即偏置参数k的导数,其公式为:
卷积层梯度计算,其中表示第l层第j个feature map与第l-1层第i个featuremap相连所对应的核,/>表示/>中的、在卷积的时候与逐元素/>相乘的patch,输出卷积feature map的(u,v)位置的值为:上一层(u,v)位置的patch与卷积核逐元素/>相乘的结果。
池化层计算:
在池化层中,假设第l层为池化层,即第l-1层为卷积层;对于池化层而言,有N个输入feature maps,就有N个缩放的输出feature maps,具体计算如下:
池化层卷积计算式中,down(.)表示一个下采样函数;所述下采样函数求和输入图像中的不同的n-by-n块的所有像素以使输出图像在两个空间维度上均缩小n倍;每个输出feature map都对应给予一个乘性偏置β和一个加性偏置b,再进一步求取sigmoid函数;
池化层残差的计算公式为:
池化层残差计算中旋转核函数使卷积函数执行互相关计算;
池化层梯度计算公式为:
池化层梯度计算中偏置b的导数的计算同卷积层;乘性偏置β需要涉及在前向传播过程中下采样feature map的计算,因此提前保存feature maps,可避免反向计算中的重新计算。
(1)基于深度卷积神经网络算法CNN的单标签二分类模型构建本发明采用有监督的、端到端的深度学习架构CNN针对蛋白质(生物学特性)与男性不育之间的关系进行建模,成功构建并训练一个预测男性不育病因基因的单标签二分类模型。鉴于人类疾病表型预测问题本身的复杂性,构建直接从基因型(信息特征)预测疾病的深度学习模型容易忽略驱动人类疾病表型产生的、中间错综复杂的分子生物学事件。如何兼顾基因型-疾病表型之间复杂关系场景并训练出有效的疾病病因基因预测模型仍然是此类型问题面临的重要技术挑战。在此背景下本发明进行相应三大创新并成功构建预测男性不育病因基因的单标签二分类模型。具体来说:(1)在基因型-表型之间巧妙引入“中间层细胞变量”概念,作为能够捕捉两者之间复杂关系的中间媒介来链接到相关疾病从而实现表型的有效预测。在男性不育病因基因预测模型构建过程中,蛋白质作为编码基因产物、更是与疾病表型最接近的功能执行者,自然是中间层细胞变量的首选。因此本发明通过建模蛋白质(生物学特性)与男性不育之间的关系来间接、有效实现男性不育病因基因的预测。(2)本发明依据图3设计一套表征基因/蛋白质的深度知识表示框架,基因/蛋白质的五类生物学特性被抽象并嵌入到蛋白质深度画像(特征矩阵)。蛋白质深度画像作为表征基因/蛋白质多维生物学特性的特征整合形式,更是基因/蛋白质经转换作为机器的中间表示。而这一机器的中间表示可以视为一个通道的、长和宽分别是K与M的图片。基因/蛋白质有了这个“人造”的(生物学特性)画像,就好比医学图像识别任务中的有了“图像”目标,深度学习模型就能直接应用于解决此类任务,此类任务的解决就可以被简化为:类似于直接使用CNN模型进行医学图像分类的简单任务的执行。(3)鉴于目前尚未有单一数据库能够系统全面地提供模型的阳性标签(即男性不育病因基因集合)、存档人类疾病-基因或变异关系的数据库通常不会收录与人类疾病不存在(风险/因果)关系的基因(即非男性不育病因基因的阴性标签),本发明设计一套标签关联方法以获取男性不育病因基因的阳性、阴性标签(如图8、图9所示)。本发明将男性不育广泛定义为男性生殖发育与功能缺陷,并结合男性不育常见遗传起源的领域专业知识,设计采用分别以人类人群数据、模式动物基因敲除功能实验为证据的两个来源的数据库,能够确保标注出具有强证据的阳性、阴性标签基因集合。在模型实际应用场景,强证据标签的有效标注是训练出有效预测模型的重要前提。
经系列创新后,本发明获得表征每个基因/蛋白质的5*128维的特征矩阵(即蛋白质深度画像)作为模型输入;基于深度CNN算法的单标签二分类模型网络结构包括两个卷积层、两个激活层、一个池化层、两个全连接层和一个输出层(如图1所示)。考虑到训练集的数据相对较少,模型训练方法采用不同阈值K的K-fold交叉验证以提高数据利用效率;超参数优化采用Relu、Softmax、dropout、学习率、迭代次数、神经元个数组合;并基于准确率、精确率、召回率、损失函数和F1-score五个指标进行模型评价。同时训练逻辑回归、决策树、提升树、XGBoost极限提升树、随机森林、支持向量机六类具有较少参数的经典机器学习模型进行对比评价,并确保由深度学习带来的额外的模型复杂性不会导致数据过拟合。基于深度CNN算法的单标签二分类模型使用TensorFlow、keras深度学习软件库进行训练;XGBoost极限提升树、其它五类机器学习模型分别使用scikit-learn、Graphlab create(Turicreate)机器学习软件库进行训练。
本发明首先基于准确率、精确率、召回率和损失函数四个指标计算综合指数,用以评价采用(其阈值K介于3-10之间的)K-fold交叉验证方法所训练的模型。前三个正向指标(准确率、精确率、召回率)相加、减去负向指标(损失函数)并除以2.0计算平均值的综合指数。所有四个指标相加并除以3.0计算标准差综合指数。在模型训练过程中,当阈值K=10、K=4时,平均值综合指数最高,分别为0.6104、0.5985(图11a)。其中当K=4时,其标准差综合指数最小(0.0248,图11b)。综合来说,在经过反复的模型设计与参数发现实验,在避免欠拟合、缓解过拟合的情况下,本发明的模型在4-fold情况下波动最小且预测表现较好。
本发明进一步纳入训练集、验证集上的准确率、损失函数用以评价4-fold情况下的四个模型在训练过程中的预测稳健性。如图11c所示,伴随在训练集、验证集上的训练迭代次数的增加,准确率升高、损失函数降低,两者之间的差距逐渐扩大,直至20次迭代后趋于平稳。在训练集、验证集上的准确率均超过70%;在接近20次迭代时,在验证集上的准确率、损失函数波动轻微,说明四个模型在不同的随机抽样训练数据集上具有良好的预测准确率和稳健性。
本发明同时采用4-fold交叉验证方法,训练逻辑回归、决策树、提升树、XGBoost极限提升树、随机森林、支持向量机六类机器学习模型。如图11d所示,在雷达图中,使用准确率、精确率、召回率和F1-score四个指标进行模型的对比评价。考虑到在4-fold情况下每类算法均对应训练四个模型,雷达图中评价指标的值为四个模型上的平均值。本发明的模型潜在更好地学习隐含的数据特征,准确率和精确率显著优于其它六类机器学习模型;准确率和精确率(基本)达到0.70的界值,显示模型可应用于工业界并能很好地泛化到新的环境。为更详尽对比基于各类算法的所有模型的表现,本发明将(包括本发明4-fold情况下基于CNN算法训练的四个模型在内)所有28个模型放入由精确率、召回率和F1-score构建的坐标轴系统(图11e)。所有模型均属于同一F1-score区间(0.4-0.6);相较于其它机器学习模型,本发明的四个模型都具有更好的预测精确率和稳健性。综合起来,本发明成功构建并训练单标签二分类模型,能有效地预测704个男性不育病因(编码)基因并提供大量潜在的有效靶标,为科学研究者、医学专家设计功能实验研究、做出医疗决策提供强有力的辅助支撑。
(2)基于深度卷积神经网络算法CNN的多标签多分类模型构建
前述构建的单标签二分类模型已有效预测704个男性不育病因基因,进一步探究病因基因所参与的病理过程也是人类疾病表型预测领域中热点问题。本发明基于领域专业知识将男性不育病因基因所参与的病理过程人工划分为八个类别,通过设计一套标签关联方法为每个阳性样例基因至少打上一个(强证据)病理过程的类别标签(如图10所示),那么这一需求就自然而然转变为一个多标签多分类问题;多标签多分类模型的预测任务即为发现男性不育病因基因所参与的一个或多个病理过程。在此基础上本发明首先采取步骤2.1将多标签多分类问题进行形式化定义。
经所述标签关联、多标签多分类问题形式化定义等系列创新后,本发明获得表征每个基因/蛋白质的5*128维的特征矩阵即蛋白质深度画像作为模型输入;基于深度CNN算法的多标签多分类模型网络结构包括两个卷积层、两个激活层、两个池化层、两个全连接层和一个输出层(如图2所示)。考虑到阳性样例训练集数据相对较少,模型训练方法采用不同阈值K的K-fold交叉验证以提高数据利用效率;超参数优化采用Relu、Sigmoid、dropout、学习率、迭代次数、神经元个数组合;并基于准确率、精确率、Hamming损失、Jaccard相似性、AUC和F1-score六类指标进行模型评价。同时基于经典机器学习算法(逻辑回归、XGBoost极限提升树、随机森林、支持向量机、多标签-K最近邻、高斯朴素贝叶斯)训练六类多标签多分类预测模型进行对比评价,并确保由深度学习带来的额外的模型复杂性不会导致数据过拟合。基于深度CNN算法的多标签多分类模型使用TensorFlow、keras深度学习软件库进行训练;XGBoost极限提升树、其它五类机器学习模型分别使用scikit-leam、Graphlab create(Turi create)机器学习软件库进行训练。
在采用(其在阈值K介于3-10之间的)K-fold交叉验证方法进行模型训练的前提下,本发明使用平均准确率、平均hamming损失综合评价模型在八个(病理过程)类别预测上的平均表现。八个类别上的标准差用以衡量模型在不同类别预测上的表现波动情况。在模型训练过程中,当阈值K=5时,平均准确率最高(0.8635)且标准差第二小(0.1236)(图12a)。同样当K=5时,平均hamming损失最小(0.1365)且标准差第二小(0.1236)(图12b)。综合来说,在经过反复的模型设计与参数发现实验,在避免欠拟合、缓解过拟合的情况下,本发明的模型在5-fold情况下波动较小且平均准确率、平均hamming损失表现最好。本发明进一步纳入在各个类别预测上的AUC、微/宏平均AUC用以评价5-fold情况下的五个模型在训练过程中的预测稳健性。如图12c所示,五个模型在各个类别预测上的AUC、微/宏平均AUC大小相似,说明本发明多标签多分类模型在不同的随机抽样训练数据集上具有良好的预测稳健性。需要明确的是,虽然平均准确率可达0.8635,但该数据指的是模型分别对各个类别预测准确率的平均值,就好比模型对八个类别的预测被逐一分解为八个独立的二分类模型,在各个二分类预测上的准确率平均值就不能视为模型整体表现的评价。在实际应用场景,本发明更倾向于同一样本在八个类别预测上尽可能同时达到理想效果,因此更关注于模型的整体评价指标。本发明采用的整体评价指标包括:微/宏平均精确率、Hamming损失、Jaccard相似性、微/宏平均AUC、微/宏平均F1-score。其中微平均指通过计数总真阳性、假阴性和假阳性来总体计算评价指标;宏平均指独立计算各个类别的评价指标,然后取未加权平均值,即平等对待各个类别,不考虑各类别样本的不平衡。
本发明同时采用5-fold交叉验证方法,训练逻辑回归、XGBoost极限提升树、随机森林、支持向量机、多标签-K最近邻、高斯朴素贝叶斯六类机器学习(多标签多分类)模型。如图12d所示,在雷达图中,使用八个整体评价指标进行模型的对比评价。考虑到在5-fold情况下每类算法均对应训练五个模型,雷达图中整体评价指标的值为五个模型上的平均值。本发明的模型潜在更好地学习隐含的数据特征,在各个整体评价指标上均优于其它机器学习模型,在微平均精确率(0.47)、宏平均精确率(0.48)、Hamming损失(0.23)、Jaccard相似性(0.34)、微平均AUC(0.78)、宏平均AUC(0.78)、微平均F1-score(0.48)、宏平均F1-score(0.39)八个整体评价指标上均表现最佳。综合起来,本发明成功构建并训练多标签多分类模型,能有效地预测704个男性不育病因(编码)基因所参与病理过程,为科学研究者设计功能研究(诸如探究病因基因在所参与病理过程中发挥的功能作用)、医学专家做出医疗决策(诸如细分到病理过程类别开展更精准的遗传诊断、研发新治疗方案以及计划靶向治疗等)提供强有力的辅助支撑。

Claims (20)

1.一种基于知识图谱的病因病理预测方法,其特征在于,包括基于深度卷积神经网络算法CNN构建的两类分类预测模型,其中,两类分类预测模型分别为预测疾病病因基因的单标签二分类模型以及预测病因基因所参与病理过程的多标签多分类模型。
2.根据权利要求1所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述单标签二分类模型网络结构包括两个卷积层、两个激活层、一个池化层、两个全连接层和一个输出层;所述多标签多分类模型网络结构包括两个卷积层、两个激活层、两个池化层、两个全连接层和一个输出层;其中所述单标签二分类模型网络结构和多标签多分类模型网络结构的第一个卷积层为输入层;所述深度卷积神经网络分别包括卷积层与池化层的卷积计算、残差计算和梯度计算。
3.根据权利要求1所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述单标签二分类模型、多标签多分类模型基于TensorFlow和keras深度学习软件库进行训练;卷积层与池化层的核心计算需手动输入,激活层、全连接层、输出层的计算采用软件默认方式进行。
4.根据权利要求2或3所述的一种基于知识图谱的病因病理预测方法,其特征在于,在卷积层中,假设第l层为卷积层,即第l+1层为池化层;则第l层第j个feature map的计算公式为:
卷积层卷积计算中,其中Mj表示选择的输入feature maps的集合,等式中的*号实质上表示让卷积核k,在第l-1层所有关联的feature maps上做卷积运算、求和,再引进一个偏置参数,取sigmoid得到最终激励值的过程;
第l层第j个feature map的残差计算公式为:
卷积层残差计算中,所述池化层与卷积层是一一对应,up(.)表示将l+1层的大小扩展为和第l层大小一样,这个函数可以用Kronecker乘积实现;
对于一个给定的feature map,首先计算其灵敏度,然后针对简单的对层l中,求和所有节点以及bias基梯度的快速计算,如下所示:
此外,针对一个给定权值,同时需要求与该权值分享共同权值的所有连接点的梯度,并求和所有梯度,即偏置参数k的导数,其公式为:
卷积层梯度计算,其中表示第l层第j个feature map与第l-1层第i个feature map相连所对应的核,/>表示/>中的、在卷积的时候与逐元素/>相乘的patch,输出卷积feature map的(u,v)位置的值为:上一层(u,v)位置的patch与卷积核逐元素/>相乘的结果。
5.根据权利要求2或3所述的一种基于知识图谱的病因病理预测方法,其特征在于,在池化层中,假设第l层为池化层,即第l-1层为卷积层;对于池化层而言,有N个输入featuremaps,就有N个缩放的输出feature maps,具体计算如下:
池化层卷积计算式中,down(.)表示一个下采样函数;所述下采样函数求和输入图像中的不同的n-by-n块的所有像素以使输出图像在两个空间维度上均缩小n倍;每个输出feature map都对应给予一个乘性偏置β和一个加性偏置b,再进一步求取sigmoid函数;
所述池化层残差的计算公式为:
所述池化层残差计算中旋转核函数使卷积函数执行互相关计算;所述池化层梯度计算公式为:
所述池化层梯度计算中偏置b的导数的计算同卷积层;乘性偏置β需要涉及在前向传播过程中下采样feature map的计算,因此提前保存feature maps,可避免反向计算中的重新计算。
6.根据权利要求2或3所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述单标签二分类模型构建过程为:将基因/蛋白质特征抽取为蛋白质深度画像,将所述蛋白质深度画像与标签关联成训练集,将所述训练集经过所述单标签二分类模型网络结构对模型进行参数化训练,再对模型进行评价;所述标签为将所述蛋白质深度画像标注为是否为所研究的相关疾病的病因基因。
7.根据权利要求6所述的一种基于知识图谱的病因病理预测方法,其特征在于,将所述基因/蛋白质特征抽取为蛋白质深度画像包括以下步骤:
1)通过表征基因/蛋白质的深度知识表示框架,包括Word2vec、Prot2Vec、Node2vec、Space2vec,将所述基因/蛋白质特征包括功能注释、初级结构、互作关联、组织空间表达,转成相对应的观察数据为医学主题词MeSH、基因本体GO术语、蛋白质序列、PPI、基因表达五类1*128维特征向量;
2)针对每一基因/蛋白质,通过串联表征步骤1)得到的所述特征向量获得一个5*128维特征矩阵,即为蛋白质深度画像。
8.根据权利要求7所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述基因/蛋白质功能注释特征的数据来源包括NCBI/Gene、UniProt数据库中关于基因/蛋白质的相关链接参考文献、MGI数据库中关于基因/蛋白质及其小鼠表型的相关链接参考文献、ClinVar、GeneCards和MGI数据库中关于基因/蛋白质及其疾病的相关链接参考文献,还包括在NCBI、Pfam数据库中关于基因/蛋白质及其对应GO、家族属性的相关链接参考文献,提取所述参考文献对应的识别号PMID并在数据库上进行检索,采集并解析出文献的标题与摘要文本;所述所研究的相关疾病为癌症、不孕不育、糖尿病、风湿病、基因遗传病中的一种。
9.根据权利要求7所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述基因/蛋白质功能注释特征向量的提取过程包括以下步骤:
(1)将所述的文献标题与摘要文本语句经预处理后构成训练语料输入Word2vec;
(2)PubMed数据库中以文献PMID进行检索,通过PAGE NAVIGATION中的“MeSH terms”字段,链接“MeSH terms”下、由数据库分配给该篇文献的MeSH术语;采集分配给每篇文献MeSH术语,结合每个基因/蛋白质的参考文献集合及对应的PMID,即梳理出每个基因/蛋白质对应的MeSH术语集合;
(3)在NCBI/Gene数据库,通过Using Gene中的“Download/FTP”字段链接到“Indexof/gene”界面,进一步通过“DATA/”字段链接到“Index of/gene/DATA”界面,下载命名为“gene2go.gz”的文件;经文件解析后即采集全部基因/蛋白质注释的GO术语列表,并以单一基因/蛋白质进行划分即梳理出单个基因/蛋白质对应的GO术语集合;
(4)使用步骤(1)获取的词嵌入模型对步骤(2)或(3)的所述术语集合中对应的每个MeSH或GO术语中进行向量化并取平均后,即获得表征每个基因/蛋白质功能注释特性的MeSH或GO术语为基础的1*128维特征向量。
10.根据权利要求7所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述基因/蛋白质初级结构特征向量的提取过程包括:在Ensembl、UniProt数据库中,以蛋白质进入号检索匹配,针对每条蛋白质序列,采用非重叠滑动窗口、以3-gram字符串方式进行划分,生成以每3个滑动、非重叠的3-gram组成一组的词集,所有蛋白质序列得到的词集构成序列字符串嵌入模型的训练语料输入Prot2Vec,模型输出为每个3-gram的1*128维嵌入/向量;使用每个3-gram的向量再针对每条蛋白质序列对应词集中的每个3-gram进行向量化并取平均后获得表征基因/蛋白质初级结构特性的1*128维特征向量。
11.根据权利要求7所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述基因/蛋白质互作关联特征向量的提取过程包括:从Ensemble数据库采集Ensembl识别号并与STRING功能蛋白关联网络数据库提供的识别号进行匹配,结合两步筛选构建一个跨物种PPI网络,所述PPI网络中的所有蛋白质节点和PPI对构成网络节点嵌入模型的训练语料输入Node2vec,训练算法采用skip-gram训练获得每个蛋白质节点的1*128维嵌入/向量,即为表征每个基因/蛋白质互作关联特性的1*128维特征向量;所述两步筛选为在小鼠、大鼠、果蝇和斑马鱼4大模式生物上的同源基因/蛋白质的PPI对关联到其对应的人类基因/蛋白质的PPI对上、过滤保留置信得分≥200的PPI对。
12.根据权利要求7所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述基因/蛋白质组织空间表达特征向量的提取过程包括:从GTEx数据库采集与人类基因对应的标准化基因表达mRNA测序数据构成基因表达嵌入模型的训练语料输入Space2vec;Space2vec包括使用主成分分析PCA模型将基因在各样本上的数据向量进行压缩至1*5维,串联相同基因在人体组织上的表达向量生成1*265维向量,所有基因生成数据输入LargeVis模型最终压缩数据维度为1*128维,即为表征每个基因/蛋白质组织空间表达特性的1*128维特征向量。
13.根据权利要求6或7所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述标签关联即获取所研究的相关疾病病因基因的阳性、阴性标签标注在对应基因上,分别表示是否为所研究的相关疾病病因基因;所述阳性标签直接来源于存档人类疾病-基因或变异关系的数据库,包括OMIM、ClinVar、GeneCards、Humsavar in UniProtKB/Swiss-Prot、MalaCards、MGI,以及间接来源于编目表型-敲除基因关系的MGI数据库;所述阳性标签的标注实现过程包括:一、构建基于领域专业知识自定义与所研究的相关疾病常见遗传起源相关的原子关键词的原子词典,匹配出所有包含原子关键词的疾病名称,去除错选疾病名称生成种子疾病名称集,使用Levenshtein distance方法计算匹配出相似度大于0.9的与所研究的相关疾病相关的选定疾病名称列表,汇集对应基因并人工筛错获取阳性样例,即为由疾病-基因或变异关系标注的阳性标签基因集合;二、使用MGI数据库,基于小鼠/人类同源基因与表型注释的数据库匹配出与人类蛋白编码基因同源的小鼠基因即获得表型-小鼠同源基因关系数据库,基于MGI数据中的哺乳动物表型树筛选出与所研究的相关疾病相关的选定小鼠表型名称列表并获取对应的MGI ID编号,匹配出对应的表型集合并汇总表型集合对应的小鼠同源基因获取阳性样例,即为由表型-小鼠同源基因关系标注的阳性标签基因集合;所述阴性标签的标注实现过程包括在MGI数据库中,基于敲除类型-表型-小鼠同源基因关系数据库匹配出不涉及所研究的相关疾病相关表型名称的、所有完全敲除小鼠表型并汇总对应的基因,过滤阳性样例后剩余基因为阴性样例,即为由表型-小鼠同源基因关系标注的阴性标签基因集合。
14.根据权利要求13所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述的单标签二分类模型训练与评价包括:以表征每个基因/蛋白质的5*128维的特征矩阵,即蛋白质深度画像作为模型输入,模型训练方法采用K-fold交叉验证,超参数优化采用Relu、Softmax、dropout、学习率、迭代次数、神经元个数组合,并基于准确率、精确率、召回率、损失函数和F1-score五个指标进行模型评价。
15.根据权利要求2或3所述的一种基于知识图谱的病因病理预测方法,其特征在于,基于领域专业知识将所研究的相关疾病病因基因参与的病理过程划分为多个类别;采用多标签多分类模型用于预测所研究的相关疾病病因基因所参与的病理过程;多标签多分类模型构建过程为:将多标签多分类问题进行形式化定义,将基因/蛋白质特征抽取为蛋白质深度画像,将所述蛋白质深度画像与标签关联成训练集,将所述训练集经过所述多标签多分类模型网络结构对模型进行参数化训练,再对模型进行评价;所述标签为将所述阳性样例基因对应的蛋白质深度画像标注其所参与的病理过程类别。
16.根据权利要求15所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述多标签多分类模型构建过程中的将所述多标签多分类问题进行形式化定义包括:已知一个定义在实数域R上的d维输入数据空间,记为X;一个包含了q个标签的标签空间,记为Y,其中q>2;一个包含了m个训练数据的训练集合,记为D,公式为:D={(xi,Yi)|1≤i≤m,xi∈X,Yi∈Y};式中,xi是输入空间X的一个训练数据,Yi是xi的真实标签集合;
多标签多分类问题为:通过对训练集合D,学习一个分类模型f:X→Y;一个待分类数据x∈X,可以通过分类模型f得到其预测标签集合,并使得该预测标签集合与真实标签集合最为接近。
17.根据权利要求15所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述多标签多分类模型构建过程中的将所述基因/蛋白质特征抽取为蛋白质深度画像包括以下步骤:
1)通过表征基因/蛋白质的深度知识表示框架,包括Word2vec、Prot2Vec、Node2vec、Space2vec,将所述基因/蛋白质特征包括功能注释、初级结构、互作关联、组织空间表达,转成相对应的观察数据为医学主题词MeSH、基因本体GO术语、蛋白质序列、PPI、基因表达五类1*128维特征向量;
2)针对每一基因/蛋白质,通过串联表征步骤1)得到的所述特征向量获得一个5*128维特征矩阵,即为蛋白质深度画像。
18.根据权利要求15所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述多标签多分类模型构建过程中的所述标签关联即为每个阳性样例基因打上所参与病理过程的类别标签;基于所述多个病理过程类别,结合选定疾病名称列表、选定小鼠表型名称列表,分别筛选出隶属于各个类别的疾病名称子集、小鼠表型名称子集;各个类别下对应的疾病名称子集、小鼠表型名称子集分别结合人类疾病-基因或变异关系数据库、表型-小鼠同源基因关系数据库进行匹配、梳理出各个子集对应的基因集合;具有相同病理过程类别、分属于疾病名称、小鼠表型名称2个子集的基因进行汇集即可获取各个病理过程类别标签基因集合;为阳性样例基因梳理出每个基因所参与的病理过程类别,即为每个阳性样例基因至少打上一个所参与病理过程的类别标签。
19.根据权利要求15所述的一种基于知识图谱的病因病理预测方法,其特征在于,所研究的相关疾病为男性不育时,所述八个病理过程类别包括:精子发生异常、受精及早期胚胎发育、精子病理类型和/或结构异常、睾丸发育异常和/或相关疾病、除睾丸外的泌尿生殖系统发育异常和/或相关疾病、影响内分泌和/或泌尿生殖系统的潜在综合征、泌尿生殖系统恶性肿瘤、男性不育。
20.根据权利要求15所述的一种基于知识图谱的病因病理预测方法,其特征在于,所述的多标签多分类模型训练与评价包括:以表征每个基因/蛋白质的5*128维的特征矩阵即蛋白质深度画像作为模型输入,模型训练方法采用K-fold交叉验证,超参数优化采用Relu、Sigmoid、dropout、学习率、迭代次数、神经元个数组合,并基于准确率、精确率、Hamming损失、Jaccard相似性、AUC和F1-score六类指标进行模型评价。
CN202311477825.8A 2023-11-07 2023-11-07 一种基于知识图谱的病因病理预测方法 Pending CN117476252A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311477825.8A CN117476252A (zh) 2023-11-07 2023-11-07 一种基于知识图谱的病因病理预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311477825.8A CN117476252A (zh) 2023-11-07 2023-11-07 一种基于知识图谱的病因病理预测方法

Publications (1)

Publication Number Publication Date
CN117476252A true CN117476252A (zh) 2024-01-30

Family

ID=89634505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311477825.8A Pending CN117476252A (zh) 2023-11-07 2023-11-07 一种基于知识图谱的病因病理预测方法

Country Status (1)

Country Link
CN (1) CN117476252A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118522469A (zh) * 2024-07-22 2024-08-20 宁波紫湾科技有限公司 一种大数据分析医疗决策方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118522469A (zh) * 2024-07-22 2024-08-20 宁波紫湾科技有限公司 一种大数据分析医疗决策方法及系统

Similar Documents

Publication Publication Date Title
Smith et al. Phenotypic image analysis software tools for exploring and understanding big image data from cell-based assays
Hambali et al. Microarray cancer feature selection: Review, challenges and research directions
Nssibi et al. Advances in nature-inspired metaheuristic optimization for feature selection problem: A comprehensive survey
Erfanian et al. Deep learning applications in single-cell genomics and transcriptomics data analysis
Keceli et al. Deep learning-based multi-task prediction system for plant disease and species detection
Jhajharia et al. A neural network based breast cancer prognosis model with PCA processed features
CN117976040A (zh) 变异致病性注释方法、预测变异效应图谱构建方法及系统
Cannataro et al. Artificial intelligence in bioinformatics: from omics analysis to deep learning and network mining
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
Xu et al. Protein deep profile and model predictions for identifying the causal genes of male infertility based on deep learning
Tizhoosh et al. On image search in histopathology
US20240303544A1 (en) Graph database techniques for machine learning
Sathe et al. Gene expression and protein function: A survey of deep learning methods
Usha et al. Feature Selection Techniques in Learning Algorithms to Predict Truthful Data
CN117476252A (zh) 一种基于知识图谱的病因病理预测方法
Chowdhury et al. Cell type identification from single-cell transcriptomic data via gene embedding
Attiya et al. A Proposed Approach for Predicting Liver Disease
Alabed et al. Genetic algorithms as a feature selection tool in heart failure disease
Tong A Comprehensive Comparison of Neural Network-Based Feature Selection Methods in Biological Omics Datasets
Xiao Network-based approaches for multi-omic data integration
Bhonde et al. Predictive modelling for molecular cancer profile classification using hybrid learning techniques
Upadhyay et al. Exploratory data analysis and prediction of human genetic disorder and species using dna sequencing
Trajkovski Functional interpretation of gene expression data
Ünsal A deep learning based protein representation model for low-data protein function prediction
Revathi et al. 5 Hybrid entropy-based support vector machine with genetic algorithm for classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination