CN112364880A - 基于图神经网络的组学数据处理方法、装置、设备及介质 - Google Patents
基于图神经网络的组学数据处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112364880A CN112364880A CN202011379315.3A CN202011379315A CN112364880A CN 112364880 A CN112364880 A CN 112364880A CN 202011379315 A CN202011379315 A CN 202011379315A CN 112364880 A CN112364880 A CN 112364880A
- Authority
- CN
- China
- Prior art keywords
- node
- data
- omics
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 85
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 124
- 238000000034 method Methods 0.000 claims abstract description 54
- 239000000126 substance Substances 0.000 claims description 95
- 201000010099 disease Diseases 0.000 claims description 41
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 37
- 238000003062 neural network model Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 14
- 230000004083 survival effect Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000000875 corresponding effect Effects 0.000 description 121
- 230000006870 function Effects 0.000 description 21
- 238000000605 extraction Methods 0.000 description 20
- 239000011159 matrix material Substances 0.000 description 18
- 230000003287 optical effect Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 12
- 108090000623 proteins and genes Proteins 0.000 description 12
- 239000000090 biomarker Substances 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 7
- 238000011161 development Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 230000004186 co-expression Effects 0.000 description 4
- 238000010195 expression analysis Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 125000003636 chemical group Chemical group 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003950 pathogenic mechanism Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000002705 metabolomic analysis Methods 0.000 description 1
- 230000001431 metabolomic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Physiology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请实施例提供了一种基于图神经网络的组学数据处理方法、装置、设备及介质,涉及医疗、人工智能、云数据等技术领域。该方法包括:获取待处理的第一组学数据,第一组学数据包括至少两种第一组学特征;确定至少两种第一组学特征中不同组学特征之间的第一相关性;基于至少两种第一组学特征和各第一相关性,构建第一组学数据对应的第一图结构,第一图结构中的一个节点表征一种第一组学特征,第一图结构中的连边表征了连边的两个节点对应的第一相关性;基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征;基于各节点的节点特征,得到医学分析结果。在本申请中,节点特征能够体现各特征之间的相互关联,得到的结果更加准确。
Description
技术领域
本申请涉及医疗、人工智能、云数据等技术领域,具体而言,本申请涉及一种基于图神经网络的组学数据处理方法、装置、设备及介质。
背景技术
人体在生命周期的不同阶段以及疾病发展的不同阶段,其基因表达和蛋白表达可能存在巨大的差异,因此组学(基因组学,转录组学,蛋白组学和代谢组学等)是系统地研究生物学规律的重要工具,同时因为组学也可反映出机体所处的生命周期阶段以及疾病发展情况,因此,组学数据在医疗中起到至关重要的作用。
目前,已有一些基于统计学方法和机器学习的方法将组学数据用于疾病的诊断、分型和预测。然而统计学方法的思想集中在分析差异蛋白,需要大量人工干预,并且无法得到明确的分类或分型边界线。而机器学习方法是通过筛选疾病相关的biomarkers(生物标志物)实现组学数据到临床表型的预测,但是,该方法基于单个的biomarker或者它们的随机组合开展后续分析,并未体现组学数据之间的级联调控机制,最终得到的预测结果的可解释性和预测精度上都有待提高。
发明内容
本申请的目的旨在提供一种能够体现组学数据之间的级联调控机制,提升预测结果精度的方法。
一方面,本申请实施例提供了一种基于图神经网络的组学数据处理方法,该方法包括:
获取待处理的第一组学数据,第一组学数据包括至少两种第一组学特征;
确定至少两种第一组学特征中不同组学特征之间的第一相关性;
基于至少两种第一组学特征和各第一相关性,构建第一组学数据对应的第一图结构,其中,第一图结构中的一个节点表征一种第一组学特征,第一图结构中的连边表征了连边的两个节点对应的第一相关性;
基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征;
基于各节点的节点特征,得到医学分析结果。
另一方面,本申请实施例提供了一种基于图神经网络的组学数据处理装置,该装置包括:
数据获取模块,用于获取待处理的第一组学数据,第一组学数据包括至少两种第一组学特征;
相关性确定模块,用于确定至少两种第一组学特征中不同组学特征之间的第一相关性;
图结构构建模块,用于基于至少两种第一组学特征和各第一相关性,构建第一组学数据对应的第一图结构,其中,第一图结构中的一个节点表征一种第一组学特征,第一图结构中的连边表征了连边的两个节点对应的第一相关性;
节点特征确定模块,用于基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征;
分析结果确定模块,用于基于各节点的节点特征,得到医学分析结果。
再一方面,本申请实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器执行上述中基于图神经网络的组学数据处理的方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述中基于图神经网络的组学数据处理的方法。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例中,对于待处理的组学数据,可以根据不同组学特征之间的相关性将组学数据中的各组学特征图结构化,进而可以有效的模拟生物学上各组学特征之间的相互关联和调控关系,能够更好地表示组学特征的状态;相应的,可以基于图结构,通过图神经网络,得到图结构中的各节点的节点特征,然后基于各节点的节点特征,得到对应的医学分析结果,由于图结构化的组学特征能够有效的模拟生物学上组学特征之间的相互关联和调控关系,此时基于该图结构,通过图神经网络所得到的每个节点的节点特征融合了其它节点的特征,属于信号通路层次的综合特征、且能够体现各组学特征之间的相互关联和调控关系,所表征的内容更加丰富,进而基于各节点的节点特征所得到医学分析结果将会更加准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种基于图神经网络的组学数据处理方法的流程示意图;
图2a为本申请实施例提供的一种基于图神经网络的组学数据处理方法的原理示意图;
图2b为本申请实施例提供的一种边矩阵示意图;
图3为本申请实施例提供的一种基于图神经网络的组学数据处理装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
随着组学数据在医疗中起到至关重要的作用,目前已有一些基于统计学方法和机器学习方法将组学数据用于疾病的诊断、分型和预测。但是统计学方法的思想集中在分析差异蛋白,需要大量人工干预,并且无法得到明确的分类或分型边界线。而基于机器学习的组学分析方法具体包括:首先获取样本组学特征,同时获取由医生标定的样本组学特征的样本类别标签,然后将所有的样本组学特征按照一定比例划分为训练集、验证集和测试集;将训练集中的样本组学特征作为输入,对应的样本类别标签作为监督信号对模型进行训练,并根据验证集的表现筛选模型的最优参数,得到最终的模型,然后基于最终的模型对组学数据进行疾病预测。但是经发现,基于机器学习的组学数据分析方法存在以下缺点:
1、由于每个疾病发展都有其对应的级联调控网络,不同特征之间相互关联和调控,但是机器模型通常基于每个单独的特征或者一些特征的随机组合进行疾病预测,没有考虑到这些组学特征中天然存在的调控关系,因此无法解释真正的致病机理,模型的可解释性不强,预测精度也有限。
(2)单个组学特征或它们的随机组合通常受到不同实验批次和实验条件的影响,因此基于这些特征所得到的模型受数据批次的影响较大,泛化能力比较弱。
(3)由于生物学中的调控网络是级联放大机制,因此在不同类别的样本之间,高级的调控因子差异并不显著,而被调控的功能蛋白反而有着明显差异,但是机器模型通常会将差异明显的功能蛋白检测为生物标志物,反而忽略更具临床意义的调控因子。
(4)现有的机器学习主要集中在基因组学和转录组学,但是对蛋白组学的关注较少,但是蛋白组学的研究对于疾病的诊断、分型和预测有着不可替代的优势,忽略了蛋白组学的研究是实现精准医疗的一大障碍。
综上所述,目前对组学数据的研究没有充分利用各组学特征之间的级联调控关系,无法很好地揭示疾病发展的真实生物学过程,基于目前的方式所得到的预测结果的可解释性和预测精度上都有待提高。
基于此,本申请实施例提供一种基于图神经网络的组学数据处理方法、装置、设备及介质,旨在解决上述中所描述的部分或全部技术问题。在本申请实施例中,在获取到待处理组学数据后,可以基于人工智能技术对组学数据进行处理,得到对应的医学预测结果。具体的,本申请实施例中可以基于人工智能技术中的机器学习技术得到待处理组学数据中每种组学特征的特征,然后可以基于每种组学特征的特征得到最终的医学预测结果。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
而机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
可选的,本申请实施例中所涉及到的数据处理/计算可以基于云计算的方式进行。其中,云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(ParallelComputing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。
首先对本申请涉及的几个名词进行介绍和解释:
组学(Omics):主要包括基因组学(Genomics)、蛋白组学(Proteomics)、代谢组学(Metabolomics)、转录组学(transcriptomics),脂类组学(lipidomics)、免疫组学(Immunomics)、影像组学(Radiomics),超声组学(Ultrasomics)等。
生物标志物(Biomarker):指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标,具有非常广泛的用途,其可以用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。
信号通路:是指当细胞里要发生某种反应时,信号从细胞外到细胞内传递了一种信息,细胞要根据这种信息来做出反应的现象,在本申请实施例中,当一个组学特征在执行功能时与其他组学特征相互作用时,该组学特征与其他组学特征将构成信号通路。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
可选的,本申请实施所提供的方法可以基于终端设备或服务器和终端设备进行数据交互来执行。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本申请实施所提供的方法在基于服务器和终端设备进行数据交互来执行时,终端设备可以先将待处理的组学数据发送服务器,由服务器对接收到的组学数据进行医学分析,得到医学分析结果返回至终端设备,再由终端设备将医学分析结果提供给用户。
图1示出了本申请实施例中所提供的一种基于图神经网络的组学数据处理方法的流程示意图,如图1所示,该方法包括:
步骤S101,获取待处理的第一组学数据,第一组学数据包括至少两种第一组学特征。
其中,待处理的第一组学数据指的是需要进行医学分析的组学数据,该第一组学数据包括了至少两种第一组学特征,所包括的各第一组学特征属于同一类别,且属于同一个目标对象,但是各自不同。可选的,目标对象的类别本申请实施例不限定,如目标对象可以为人类,也可以为动物等。在一示例中,假设某一第一组学数据对应于基因组学,并且包括了属于人物A的基因1~基因10,此时基因1~基因10为不同的基因。
步骤S102,确定至少两种第一组学特征中不同第一组学特征之间的第一相关性。
在实际应用中,不同的组学特征在执行功能的时候通常并不是独立完成的,而是需要结合其它组学特征共同完成的,即各组学特征之间是相互关联和存在调控关系的。基于此,在本申请实施例中可以确定不同第一组学特征之间的第一相关性,进而可以基于第一组学特征之间的第一相关性,将行使相似功能的第一组学特征关联起来。
其中,在确定不同第一组学特征之间的第一相关性时,可以通过加权基因共表达分析技术(Weighted Gene Co-Expression Network Analysis,WGCNA)计算不同组学特征之间的相关性矩阵,然后可以通过设置阈值的方式,将相关性矩阵进行二值化处理,并将二值化处理后的相关性矩阵称之为边矩阵。如当两种第一组学特征之间的相关性不小于阈值时,此时说明该两种第一组学特征执行的功能相似,彼此相互作用(即可以构成信号通路),此时可以将相关性矩阵中表征该两种第一组学特征之间的相关性的元素的值设为1,而当两种第一组学特征之间的相关性小于阈值时,此时说明该两种第一组学特征彼此之间的相关性较低,则将相关性矩阵中表征该两种第一组学特征之间的相关性的元素的值设为0。
在本申请实施例中,通过WGCNA的方式计算不同第一组学特征之间的相关性,可以使行使相似功能的第一组学特征通具有更高的相关性;进一步的,在得到不同的、第一组学特征之间的相关性矩阵后,可以将该相关性矩阵进行二值化处理,进而可以更好的突出不同第一组学特征之间的相关性。
步骤S103,基于至少两种第一组学特征和各第一相关性,构建第一组学数据对应的第一图结构,其中,第一图结构中的一个节点表征一种第一组学特征,第一图结构中的连边表征了连边的两个节点对应的两种第一组学特征之间的第一相关性。
其中,图结构中包括各节点、以及连接各节点的连边,在本申请实施例中,图结构中的每个节点表征了一种第一组学特征,两个节点之间的连边表征了该两个节点对应的两种第一组学特征之间的第一相关性。相应的,在构建第一组学数据对应的第一图结构时,可以根据第一组学数据中所包括的第一组学特征得到第一图结构所包括的各节点,然后根据不同第一组学特征之间的第一相关性确定具体将第一图结构中哪两个节点之间建立连边,进而得到第一组学数据对应的第一图结构。
在本申请可选的实施例中,基于至少两种第一组学特征和各第一相关性,构建第一组学数据对应的第一图结构,包括:
对于任意两种第一组学特征,若两种第一组学特征之间的第一相关性大于或等于设定值,则在两种第一组学特征所对应的两个节点之间建立连边。
可选的,在已知不同第一组学特征之间的第一相关性后,对于第一组学数据中的任意两种第一组学特征,若确定该两种第一组学特征之间的第一相关性大于或等于设定值,则说明该两种第一组学特征执行的功能相似,彼此之间的相关性较高,此时可以将第一图结构中该两种第一组学特征所对应的两个节点之间建立连边。
可选的,若不同第一组学特征之间的第一相关性可以基于上述中的边矩阵体现,此时构建第一组学数据对应的第一图结构时,对于任意两种第一组学特征,若边矩阵中表征该两种第一组学特征之间的第一相关性的元素值为1,此时可以在该两种第一组学特征所对应的两个节点之间建立连边,而若边矩阵中表征该两种第一组学特征之间的第一相关性的元素值为0,则不对该两种第一组学特征所对应的两个节点之间建立连边。
在本申请实施例中,通过构建组学数据的图结构的方式,可以将行使相似功能的组学特征在图中被连接起来,此时不仅能够反映单个组学特征,并且还能反映不同组学特征之间的作用关系,能够更好地揭示致病机理,实现对生物学过程的模拟,从而可以得到更准确的疾病预测效果。
步骤S104,基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征。
其中,图神经网络的具体类型可以预先配置,如图神经网络可以是基于注意力机制的图卷积网络(Graph Attention Network,GAT),也可以其他图神经网络,如图卷积网络,图自编码器网络等,本申请实施例中对此不限定。
可选的,在得到第一组学数据对应的第一图结构时,可以通过该第一组学数据对应的图神经网络,得到每个第一组学特征的特征,即第一图结构中的各节点的节点特征。
在本申请可选的实施例中,该方法还包括:
提取各第一组学特征的第一特征;
基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征,包括:
对于第一图结构中的每一节点,由图神经网络基于第一图结构中的该节点、以及与该节点具有连边关系的各目标节点,得到该节点的至少一个层级的第二特征;
对于每一节点,将该节点对应的第一特征和各第二特征融合,得到该节点的节点特征。
可选的,对于第一图结构中的每个节点,可以提取用于表征各节点的第一特征(即提取用于表征各第一组学特征自身的特征),对于第一图结构中的每一节点,可以确定与该节点具有连边关系的各目标节点,然后由图神经网络基于各目标节点的第一特征以及该节点的第一特征,对该节点的第一特征进行至少一次的特征提取,得到该节点的至少一个层级的第二特征。可选的,图神经网络中可以包括至少一层特征提取层(如GAT层),每个特征提取层的输出对应于一个第二特征,其中,第一个特征提取层的输入为第一图结构中各节点的第一特征,以及第一图结构中各节点之间的连边关系,除第一个特征提取层之外的其它特征提取层的输入为前一特征提取层对应的各节点的第二特征,以及各节点之间的连边关系。
可选的,在得到各节点对应的第一特征和第二特征融合后,对于每个节点,可以将该节点对应的第一特征和至少一个第二特征进行融合,将融合后的特征作为该节点的节点特征,然后基于各节点的节点特征进行医学分析,得到对应的医学分析结果。
其中,在将每个节点的第一特征和至少一个第二特征进行融合时,可以将第一特征和至少一个第二特征经过各自连接的全连接层映射到相同的节点维度,得到各映射后的特征,然后通过拼接的方式将各映射后的特征进行融合,将融合后的特征作为每个节点的节点特征。
在本申请实施例中,由于每个节点的第二特征是基于组成信号通路的节点的特征融合得到的,此时得到的每个节点的第二特征融合了其它节点的组学特征(即第二特征为信号通路级别的特征);此时,将各节点的第一特征和第二特征融合后所得到的各节点的节点特征,即同时包含了单个组学特征级别的特征(即第一特征),还包括了信号通路级别的特征(即第二特征),可以更好的表征了第一组学数据的状态,从而在基于第一组学数据进行医学分析时,所得到的分析结果能够更加的准确。
在本申请可选的实施例中,对于第一图结构中的每一节点,由图神经网络基于第一图结构中的该节点、以及与该节点具有连边关系的各目标节点,得到该节点的至少一个层级的第二特征,包括:
获取第一图结构各节点的初始特征;
对于每一节点,基于该节点的各关联特征,通过图神经网络确定各关联特征的权重,其中,各关联特征包括该节点的初始特征、以及该节点所对应的各目标节点的初始特征;
对于每一节点,基于该节点的各关联特征的权重,通过图神经网络对该节点的各关联特征进行加权融合,得到该节点的一个层级的第二特征;
其中,若一个节点对应有至少两个层级的第二特征,除第一个层级的第二特征之外的任一层级的第二特征是基于该层级的前一层级的第二特征得到的。
可选的,对于图结构中的各节点,可以确定各节点的初始特征,其中,若一个节点对应有至少两个层级的第二特征,此时除第一个层级的特征之外的任一层级的第二特征是基于该层级的前一层级的第二特征得到的,即在确定各节点的第一个层级的第二特征时,各节点的初始特征为各节点对应的第一特征,而在确定第一个层级的特征之外的任一层级的第二特征时,各节点的初始特征为该层级的前一层级的第二特征。
在实际应用中,对于任一节点,若该节点与某节点存在连边,说明该节点所对应的第一组学特征与该某节点对应的第一组学特征执行相似功能,可以构成信号通路,但是每个节点在执行功能时的重要程度是不同的,此时可以通过权重表征每个节点在执行功能时的重要程度。
可选的,对于每一节点,可以确定与该节点存在连边的各目标节点,然后基于该节点的初始特征、以及该节点所对应的各目标节点的初始特征(即该节点的各关联特征),通过图卷积网络确定各关联特征的权重(即确定该节点的初始特征、以及该节点所对应的各目标节点的初始特征的权重),然后可以根据该节点的初始特征、以及该节点所对应的各目标节点的初始特征各自对应的权重对该节点的初始特征和各目标节点的初始特征进行加权,得到加权后的各初始特征,然后将加权后的各初始特征进行融合,并将融合后的特征融合作为该节点的一个层级的第二特征。
在一示例中,假设图神经网络包括两个GAT层,第一图结构中包括3个节点(节点1~节点3),且节点1分别与节点2和节点3存在连边,节点2和节点3仅与节点1存在连边。此时可以分别确定节点1~节点3的第一特征,对于节点1,可以确定该节点的目标节点为节点2和节点3,然后可以基于节点1的第一特征(即节点1的初始特征),以及节点2和节点3所对应的第一特征(即节点2和节点3的初始特征),通过图卷积网络中的第一个GAT层,确定节点1~节点3的第一特征的权重,然后通过第一个GAT层,根据节点1~节点3的第一特征各自对应的权重分别对节点1~节点3的第一特征进行加权并融合,得到节点1的第一个层级的第二特征,基于相同方式可以得到节点2和节点3的第一个层级的第二特征;进一步的,对于节点1,可以将节点1~节点3的第一个层级的第二特征作为节点1的关联特征,然后通过图卷积网络确定各关联特征的权重,然后基于该节点的各关联特征的权重,通过图卷积网络的第二个GAT层对该节点的节点1的关联特征进行加权融合,得到节点1的第二个层级的第二特征,同理可分别得到节点2和节点3的第二个层级的第二特征。
在本申请实施例中,由于每个节点的第二特征是将该节点的特征与其相连接的节点的特征加权融合得到的,因此能够将相似功能的组学特征(构成信号通路的组学特征)融合起来,此时得到的第二特征为信号通路级别的特征,能够实现对高级调控因子的更多关注。
步骤S105,基于各节点的节点特征,得到医学分析结果。
可选的,在得到各节点的节点特征时,可以基于各节点的特征进行医学分析,得到对应的医学分析结果。其中,医学分析具体包括的类别可以预先配置,本申请实施例不限定,例如,可以基于各节点的节点特征进行疾病识别、疾病分型或生存预测中的至少一项;此时,所得到的医学分析结果则可以包括疾病识别结果、疾病分型结果或生存预测结果中的至少一项。
在本申请实施例中,对于待处理的组学数据,可以根据不同组学特征之间的相关性将组学数据中的各组学特征图结构化,进而可以有效的模拟生物学上各组学特征之间的相互关联和调控关系,能够更好地表示组学特征的状态;相应的,可以基于图结构,通过图神经网络,得到图结构中的各节点的节点特征,然后基于各节点的节点特征,得到对应的医学分析结果,由于图结构化的组学特征能够有效的模拟生物学上组学特征之间的相互关联和调控关系,此时基于该图结构,通过图神经网络所得到的每个节点的节点特征融合了其它节点的特征,属于信号通路层次的综合特征、且能够体现各组学特征之间的相互关联和调控关系,所表征的内容更加丰富,进而基于各节点的节点特征所得到医学分析结果将会更加准确。
在本申请可选的实施例中,该方法还包括:
获取至少一个第二组学数据,第一组学数据和至少一个第二组学数据中的不同组学数据均属于不同组学、且至少一个第二组学数据和第一组学数据属于同一目标对象;
提取各第二组学数据所对应的数据特征;
基于各节点的节点特征,得到医学分析结果,包括:
基于各节点的节点特征和各第二组学数据所对应的数据特征,确定目标对象的医学分析结果。
其中,每个第二组学数据和第一组学数据属于同一目标对象,且每个第二组学数据与第一组学数据均属于不同类别的组学,例如,第一组学数据为基因组学,第二组学数据为蛋白组学,该第二组学数据和第一组学数据均属于人物A。
其中,在基于各第二组学数据所对应的数据特征和各节点的节点特征共同确定该目标对象的医学分析结果时,第一组学数据和各第二组学数据在确定医学分析结果时的重要程度可能是不同的,此时可以通过设置不同的权重来表征第一组学数据和各第二组学数据在确定医学分析结果时的重要程度;相应的,在确定医学分析结果时,则可以基于第一组学数据和每个第二组学数据各自对应的权重分别对各第二组学数据所对应的数据特征和各节点的节点特征进行加权融合,得到融合后的特征,然后基于该融合后的特征,确定目标对象的医学分析结果。
在本申请实施例中,由于在确定目标对象对应的医学分析结果时,还融合了属于同一目标对像、但是与第一组学数据不同类别的其它组学数据,因此实现了更加全面精准的医学分析,提升了医学分析结果的准确性。
在本申请可选的实施例中,每个第二组学数据包括至少两种第二组学特征;
基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征,包括:
基于第一图结构,通过第一组学数据所属的组学所对应的图神经网络,得到第一图结构的各节点的节点特征;
对于任一第二组学数据,提取第二组学数据所对应的数据特征,包括:
确定该第二组学数据的至少两种第二组学特征中不同第二组学特征之间的第二相关性;
基于至少两种第二组学特征和各第二相关性,构建该第二组学数据对应的第二图结构;
基于第二图结构,通过与该第二组学数据所属的组学对应的图神经网络,得到该第二组学数据所对应的各节点的节点特征,数据特征包括该第二组学数据所对应的各节点的节点特征。
其中,第二组学数据包括至少两种第二组学特征,该第二组学特征与第一组学特征属于不同类别的组学。可选的,可以预先配置每一种组学所对应于的图神经网络,如可以预先配置基因组学对应的图神经网络、蛋白质组学对应的图神经网络等,由于每种组学所对应于的图神经网络是基于不同类别的样本组学特征所训练得到,此时每种组学所对应于的图神经网络的网络参数是各不相同的。
相应的,在得到第一组学数据和对应的第一图结构时,可以基于第一组学数据所属的组学所对应的图神经网络,得到第一图结构的各节点的节点特征;对于任一第二组学数据,可以确定该第二组学数据所包括的至少两种第二组学特征中不同第二组学特征之间的第二相关性,然后根据基于至少两种第二组学特征和不同第二组学特征之间的第二相关性,构建第二组学数据对应的第二图结构,此时该第二图结构中的一个节点表征一种第二组学特征,该第二图结构中的连边表征了该连边的两个节点对应的两种第二组学特征之间的第二相关性;进一步的,可以基于第二图结构,通过第二组学数据所属的组学对应的图神经网络,得到第二图结构中的各节点的节点特征,即第二组学数据所对应的数据特征。
在本申请可选的实施例中,基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征,以及基于各节点的节点特征得到医学分析结果,是通过分析结果预测模型得到的,其中,分析结果预测模型是基于各样本组学数据对初始神经网络模型进行训练得到的。
可选的,可以获取各样本组学数据和初始神经网络模型,然后基于获取的各样本组学数据对初始神经网络模型进行训练,得到分析结果预测模型,此时在确定待处理的第一组学数据对应的医学分析结果时,可以先确定第一样组学数据对应的第一图结构,然后可以将第一组学数据对应的第一图结构输入至该分析结果预测模型,该分析结果预测模型可以基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征,然后基于各节点的节点特征得到医学分析结果并输出。
在本申请可选的实施例中,分析结果预测模型是通过下列方式得到的:
获取训练数据集和初始神经网络模型,训练数据集包括各样本组学数据、每个样本组学数据对应的标注标签,标注标签表征了真实医学分析结果;
将训练数据集划分为不同的子数据集;
基于不同的子数据集对初始神经网络模型分别进行迭代训练,直至满足预设的训练结束条件;
将每次训练结束时所对应的初始神经网络模型的模型参数进行融合,将融合后的模型参数作为分析结果预测模型的模型参数。
可选的,在基于各样本组学数据对初始神经网络模型进行训练时,可以获取训练数据集和初始神经网络模型,其中,训练数据集包括各样本组学数据、每个样本组学数据对应的标注标签,标注标签表征了真实医学分析结果,进一步的,可以将训练数据集划分为不同的子数据集,对于每个子数据集,可以将该子数据集对初始神经网络模型分别进行迭代训练,直至满足预设的训练结束条件,得到对应于该子数据集的初始神经网络模型;相应的,在得到对应于各子数据集的初始神经网络模型时,可以将对应于各子数据集的初始神经网络模型的模型参数进行融合,将融合后的模型参数作为该分析结果预测模型的模型参数。
可选的,在实际应用中,可以一次性获取多个样本组学数据,然后将所有样本组学数据随机分成5个子集作为5组子数据集,每次取其中一个子数据集作为测试集,其余4个子数据集作为训练集对初始神经网络模型进行训练,直到5个子数据集依次被取作测试集后,可以得到对应于5个训练后的初始神经网络模型,此时对于分析结果预测模型中的每个网络参数,可以将5个训练后的初始神经网络模型中的该网络参数值进行平均处理,并将平均处理后的网络参数值作为分析结果预测模型的网络参数值,即采用五折交叉验证的方式对初始神经网络模型进行训练来得到分析结果预测模型。
其中,训练结束条件可以为初始神经网络模型对应的损失函数的值收敛,而初始神经网络模型对应的损失函数的值表征了样本组学数据预测的医学分析结果与样本组学数据的真实医学分析结果之间的差异,当损失函数的值收敛时,则说明当前的初始神经网络模型的精度已满足要求,此时可以结束训练。
可选的,当需要进行不同类型的医学分析时,分析结果预测模型的输出结果是不同的,在训练该分析结果预测模型时所对应的损失函数也是不同的。例如,若医学分析的类别为疾病诊断和疾病分型,初始神经网络模型输出的预测医学分析结果为样本组学数据对应于每个类别的预测概率,此时可以最小化所有样本组学数据的预测概率和医学分析结果标签之间的交叉熵来对初始神经网络模型进行训练;而当医学分析的类别为生存预测时,初始神经网络模型输出的预测医学分析结果为病人的危险系数,此时可以通过cox(Coxproportional hazards model,风险比例回归模型)的损失函数对初始神经网络模型进行训练。
在实际应用中,可以基于本申请实施例所提供的分析结果预测模型对组学数据进行自动化分析,从而得到疾病早期诊断和预测结果。此外,由于本申请实施例所提供的分析结果预测模型在对组学数据进行自动化分析时,通过对组学数据的图结构化处理来模拟生物学中的级联调控网络,从而使该分析结果预测模型具有天然的可解释性和重要的临床意义,具有广阔的临床应用前景和价值;进一步的,与传统的基于统计学检验方法和人工判断为主的分析方式相比,可以自动化的得到最终结果,节省了分析组学数据和等待的时间,也有效的避免了人工判断误差所带来的问题。
在本申请可选的实施例中,该方法还包括:
获取各第一组学特征对应的重要性参数值;
将医学分析结果和各第一组学特征对应的重要性参数值提供给用户;
其中,各第一组学特征的重要性参数值是通过以下方式确定的:
对于每一样本组学数据,基于该样本组学数据的医学分析结果,确定该样本组学数据对应的图结构中各组学特征所对应的节点的重要性参数值;
对于任一节点,基于所有样本组学数据所对应的该节点的重要性参数值,得到该节点的重要性参数值,将该节点的重要性参数值作为该节点对应的组学特征的重要性参数值。
其中,第一组学特征的重要性参数值表征了第一组学特征在其构建的信号通路中的重要程度。可选的,在本申请实施例中还可以获取各第一组学特征的重要性参数值,并将各第一组学特征的重要性以及得到的医学分析结果一并提供给用户(如提供给医护人员),此时医护人员可根据各第一组学特征的重要性参数值获知对医学分析结果起着重要作用的组学特征,进而提出生物学解释,将有利于促进临床研究和生物学研究的进展。
可选的,对于每个第一组学特征的重要性参数值,该第一组学特征的重要性参数值为该第一组学特征在第一图结构中对应的节点的重要性,而第一图结构中每个节点的重要性可以基于样本组学数据对应的医学分析结果来确定,具体的:
在训练得到分析结果预测模型后,对于每一样本组学数据,可以基于分析结果预测模型得到该样本组学数据对应的医学分析结果,以及在得到该样本组学数据对应的医学分析结果的过程中,该样本组学数据对应的图结构中每个节点的各特征(包括第一特征和至少一个层级的第二特征),此时可以基于医学分析结果,分别对每个节点的各特征进行梯度计算(如进行求导计算),得到各计算值,然后将得到的各计算值求和,得到该样本组学数据的图结构中各每个节点的重要性参数值,基于同样方式,得到所有样本组学数据的图结构中各每个节点的重要性参数值;可以理解的是,由于各样本组学数据中的样本组学特征的数量以及类别均是相同的,此时各样本组学数据的图结构中节点数量也是相同的,每个节点所表征的样本组学特征属性也是相同的;相应的,对于图结构中任一节点,可以基于所有样本组学数据的图结构中该节点的重要性参数值,得到该节点的重要性参数值,并将该节点的重要性参数值作为该节点对应的组学特征的重要性参数值。例如,可以将所有样本组学数据的图结构中该节点的重要性参数值求和,将得到的和值作为该节点的重要性参数值。
进一步的,可以基于每个节点的重要性参数值确定出重要样本组学特征,然后将确定的重要样本组学特征进行信号通路的富集(如通过Metascape平台进行信号通路的富集),从而找到可以作为信号通路级别的生物标志物的组学特征。
在本申请实施例中,可以通过梯度计算的方式得到的样本组学特征的重要性参数值,此时不仅可以为医学分析结果提供解释和依据,还可以基于各样本组学特征的重要性参数值对神经网络模型进行检验和修正。同时,还可以基于还可以确定出的重要样本组学特征得到对疾病预测起着重要作用的生物标志物,对于临床诊断和生物学上的相关研究都有重要的意义。
在本申请可选的实施例中,获取待处理的第一组学数据,包括:
获取初始组学数据,初始组学数据包括至少两种初始组学特征;
获取初始组学数据的关联组学特征,关联组学特征和初始组学数据属于同一目标对象,关联组学特征包括病例组学特征或影像组学特征中的至少一项;
分别将每种所述初始组学特征和所述关联组学特征进行融合,得到每种初始组学特征对应的融合组学特征,所述第一组学特征为所述融合组学特征。
其中,关联组学特征指的是与初始组学数据存在关联的特征,关联组学特征与初始组学数据属于同一目标对象,而该关联组学特征的具体类别本申请实施例不限定,如关联组学特征可以包括目标对象的病例组学特征或影像组学特征中的至少一项。
可选的,在获取待处理的第一组学数据时,可以获取至少两种初始组学特征、以及与该初始组学数据属于同一目标对象的关联组学特征,然后分别将每种初始组学特征和该关联组学特征进行融合,得到每种初始组学特征对应的融合组学特征,并将每种初始组学特征对应的融合组学特征作为第一组学数据所包括的第一组学特征。
在本申请实施例中,由于用于确定医学结果的待处理组学数据融合了目标对象的组学特征和组学特征的关联特征,此时的待处理组学数据的特征表达更加丰富,从而实现了更加全面精准的医学分析,提升了医学分析结果的准确性。
为了更好地理解本申请实施例所提供的方法,下面结合图2a对该方法进行详细描述。在本示例中,可以获取到N个病人的组学数据,每个病人的组学数据包括K种不同的组学特征(即图中的K组学特征),此时可以将N个病人的组学数据作为训练数据(即图中的训练数据XNxK)对初始图神经网络进行训练,得到分析结果预测模型;进一步的,可以基于该分析结果预测模型对病人的组学数据进行医学分析的,得到最终的医学分析结果。可选的,在本示例中以确定N个病人中的一个病人的组学数据V∈RK(即待处理的第一组学数据,其包括K种不同的组学特征)所对应的医学分析结果为例对本申请实施例所提供的方法进行详细说明,具体可以包括:
可选的,在确定病人的组学数据所对应的医学分析结果时,可以包括(a)基因共表达分析、(b)多次层次图特征提取和融合和(c)多任务预测3部分,其中,多次层次图特征提取和融合、以及多任务预测可以基于训练得到的分析结果预测模型来实现,此时需要先基于病人的组学数据执行基因共表达分析部分,然后再将得到的结果输入至分析结果预测模型,得到最终的医学分析结果。具体的,在获取到病人的组学数据后,可以基于加权基因共表达分析技术(即WGCNA)计算不同的组学特征之间的相关性矩阵,然后可以通过设置阈值,将相关性矩阵中的元素的值二值化处理,得到维度为K维乘K维的边矩阵EKxK,该边矩阵EKxK内包括各元素aij(i=1、2、……、K,j=1、2、……、K),具体如图2b所示。例如,对于相关性矩阵中的任一个元素a12,若该元素a12所表征的两种组学特征之间的相关程度大于阈值,则将该元素a12的值设置为1,反之,则设置为0。
进一步的,可以将每种组学特征作为一个节点,根据边矩阵确定各节点之间的连接情况,得到组学数据对应的图结构,例如,对于任意两种组学特征,若两种组学特征之间的相关性大于或等于设定值,则在该两种第组学特征所对应的两个节点之间建立连边;然后可以基于确定的图结构进行特征提取(如通过全连接层进行特征提取,图中未示出),得到各节点的第一特征G1(图中以G1=G1(VKx1,EKxK)表征得到各节点的第一特征的过程);
进一步的,可以基于两个基于注意力机制的图卷积(GAT)层)(即前文中的特征提取层,图中的GAT层)对各节点的第一特征G1进行两次的特征提取,得到各节点对应于两个层级的第二特征G2和G3;其中,在确定G2时,第一个GAT层会将相连接的节点的第一特征根据注意力值加权求和,得到各节点的第二特征G2(图中以G2=G2(VKxh2,EKxK)表征得到各节点的第二特征G2的过程,h2表示进行第二次特征提取),然后第二个GAT层将相连接的节点的第二特征G2根据注意力值加权求和,得到各节点的第二特征G3(图中以G3=G3(VK xh3,EKxK)表征得到各节点的第二特征G3的过程,h3表示进行第二次特征提取);至此,每种组学特征将得到三个不同级别的特征,分别是局部特征G1(每个节点的特征仅包含单个组学特征)和整体特征G2,G3(每个节点的特征都融合了信号通路上相连的组学特征的特征)。
进一步的,可以将三个级别的特征G1、G2和G3经过各自连接的全连接层映射为相同维度的特征,如G1映射后的特征为F1∈RK、G2映射后的特征为F2∈RK、G3映射后的特征为F3∈RK,然后通过拼接的方式将三个级别的特征F1、F2和F3进行融合,得到融合后的特征F∈R3K,然后可以基于F∈R3K进行疾病诊断、疾病分型或生存预测。
其中,在基于F∈R3K进行疾病诊断、疾病分型或生存预测前可以通过全连接网络进行进一步的特征提取(即特征映射),得到特征Rd1(d1表示特征R的维度为d1维);然后可以基于特征Rd1进行疾病诊断、疾病分型或生存预测(即图中的(c)多任务预测部分)。
可选的,当基于特征Rd1进行疾病诊断或疾病分型(即图中的疾病分类与分型)时,可以将特征Rd1映射为维度与疾病种类或疾病类别数量相同的特征(本示例中以c个疾病种类或疾病类别为例),然后基于映射后的特征得到疾病预测结果或疾病分型预测结果Rc(即前文中的医学分析结果),此时分析结果预测模型的输出y为Rc(即y∈Rc),而Rc表征了病人的组学数据对应于每一种疾病的概率、或对应于每一类别疾病的概率;当基于特征Rd1进行生存预测,确定病人的生存概率时,可以基于特征Rd,得到病人的组学数据所对应的生存概率R1(即前文中的医学分析结果),此时分析结果预测模型的输出y即为R1(即y∈R1)。
基于上述中实施例的说明可见,本申请实施例所提供的方法通过将组学数据图结构化的方式来模拟生物学上的级联调控网络,然后利用图神经网络充分挖掘组学数据之间的关联和相互作用对疾病发展的影响,可以将不同层级的图结构特征融合,不仅能够提取单个组学特征层次的信息,还能够提取信号通路层次的综合特征,因此能够更好地表示数据的状态,从而得到更加准确的预测结果,并且在确定病人的组学数据所对应的医学分析结果时,可以基于分析结果预测模型自动进行,在此过程中无需人工干涉,节省了分析数据和等待时间,避免人为判断的误差所带来的问题,和传统的技术方案相比,具有明显优势,实施起来可以更智能更准确地进行组学数据分析,从而能够更加精确的提供医疗干预,满足医护人员的实际需求。
本申请实施例提供了一种基于图神经网络的组学数据处理装置60,如图3所示,该基于图神经网络的组学数据处理装置60可以包括:数据获取模块601、相关性确定模块602、图结构构建模块603、节点特征确定模块604以及分析结果确定模块605,其中,
数据获取模块601,用于获取待处理的第一组学数据,第一组学数据包括至少两种第一组学特征;
相关性确定模块602,用于确定至少两种第一组学特征中不同组学特征之间的第一相关性;
图结构构建模块603,用于基于至少两种第一组学特征和各第一相关性,构建第一组学数据对应的第一图结构,其中,第一图结构中的一个节点表征一种第一组学特征,第一图结构中的连边表征了连边的两个节点对应的第一相关性;
节点特征确定模块604,用于基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征;
分析结果确定模块605,用于基于各节点的节点特征,得到医学分析结果。
可选的,图结构构建模块在基于至少两种第一组学特征和各第一相关性,构建第一组学数据对应的第一图结构时,具体用于:
对于任意两种第一组学特征,若两种第一组学特征之间的第一相关性大于或等于设定值,则在两种第一组学特征所对应的两个节点之间建立连边。
可选的,该装置还包括特征提取模块,用于:
提取各第一组学特征的第一特征;
节点特征确定模块在基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征时,具体用于:
对于第一图结构中的每一节点,由图神经网络基于第一图结构中的该节点、以及与该节点具有连边关系的各目标节点,得到该节点的至少一个层级的第二特征;
对于每一节点,将该节点对应的第一特征和各第二特征融合,得到该节点的节点特征。
可选的,对于第一图结构中的每一节点,节点特征确定模块在由图神经网络基于第一图结构中的该节点、以及与该节点具有连边关系的各目标节点,得到该节点的至少一个层级的第二特征时,具体用于:
获取第一图结构各节点的初始特征;
对于每一节点,基于该节点的各关联特征,通过图神经网络确定各关联特征的权重,其中,各关联特征包括该节点的初始特征、以及该节点所对应的各目标节点的初始特征;
对于每一节点,基于该节点的各关联特征的权重,通过图神经网络对该节点的各关联特征进行加权融合,得到该节点的一个层级的第二特征;
其中,若一个节点对应有至少两个层级的第二特征,除第一个层级的第二特征之外的任一层级的第二特征是基于该层级的前一层级的第二特征得到的。
可选的,特征提取模块,还用于:
获取至少一个第二组学数据,第一组学数据和至少一个第二组学数据中的不同组学数据均属于不同组学、且至少一个第二组学数据和第一组学数据属于同一目标对象;
提取各第二组学数据所对应的数据特征;
分析结果确定模块在基于各节点的节点特征,得到医学分析结果时,具体用于:
基于各节点的节点特征和各第二组学数据所对应的数据特征,确定目标对象的医学分析结果。
可选的,每个第二组学数据包括至少两种第二组学特征;
节点特征确定模块在基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征时,具体用于:
基于第一图结构,通过第一组学数据所属的组学对应的图神经网络,得到第一图结构的各节点的节点特征;
对于任一第二组学数据,特征提取模块在提取第二组学数据所对应的数据特征时,具体用于:
确定该第二组学数据的至少两种第二组学特征中不同第二组学特征之间的第二相关性;
基于至少两种第二组学特征和各第二相关性,构建该第二组学数据对应的第二图结构;
基于第二图结构,通过与该第二组学数据所属的组学对应的图神经网络,得到该第二组学数据所对应的各节点的节点特征,数据特征包括该第二组学数据所对应的各节点的节点特征。
可选的,基于第一图结构,通过图神经网络,得到第一图结构中的各节点的节点特征,以及基于各节点的节点特征得到医学分析结果,是通过分析结果预测模型得到的,其中,分析结果预测模型是基于各样本组学数据对初始神经网络模型进行训练得到的。
可选的,该装置还包括信息提供模块,用于:
获取各第一组学特征对应的重要性参数值;
将医学分析结果和各第一组学特征对应的重要性参数值提供给用户;
其中,各第一组学特征的重要性参数值是通过以下方式确定的:
对于每一样本组学数据,基于该样本组学数据的医学分析结果,确定该样本组学数据对应的图结构中各组学特征所对应的节点的重要性;
对于任一节点,基于所有样本组学数据所对应的该节点的重要性,得到该节点的重要性参数值,将该节点的重要性参数值作为该节点对应的组学特征的重要性参数值。
可选的,分析结果预测模型是通过下列方式得到的:
获取训练数据集和初始神经网络模型,训练数据集包括各样本组学数据、每个样本组学数据对应的标注标签,标注标签表征了真实医学分析结果;
将训练数据集划分为不同的子数据集;
基于不同的子数据集对初始神经网络模型分别进行迭代训练,直至满足预设的训练结束条件;
将每次训练结束时所对应的神经网络模型的模型参数进行融合,将融合后的模型参数作为分析结果预测模型的模型参数。
可选的,数据获取模块在获取待处理的第一组学数据时,具体用于:
获取初始组学数据,初始组学数据包括至少两种初始组学特征;
获取初始组学数据的关联组学特征,关联组学特征和初始组学数据属于同一目标对象,关联组学特征包括病例组学特征或影像组学特征中的至少一项;
分别将每种初始组学特征和关联组学特征进行融合,得到每种初始组学特征对应的融合组学特征,第一组学特征为融合组学特征。
可选的,医学分析结果包括疾病识别结果、疾病分型结果或生存预测结果中的至少一项。
本申请实施例的基于图神经网络的组学数据处理装置可执行本申请实施例提供的一种基于图神经网络的组学数据处理方法,其实现原理相类似,此处不再赘述。
基于图神经网络的组学数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如基于图神经网络的组学数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
在一些实施例中,本发明实施例提供的基于图神经网络的组学数据处理装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的基于图神经网络的组学数据处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于图神经网络的组学数据处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
在另一些实施例中,本发明实施例提供的基于图神经网络的组学数据处理装置可以采用软件方式实现,图3示出了存储在存储器中的基于图神经网络的组学数据处理装置60,其可以是程序和插件等形式的软件,并包括一系列的模块,包括数据获取模块601、相关性确定模块602、图结构构建模块603、节点特征确定模块604以及分析结果确定模块605;其中,数据获取模块601、相关性确定模块602、图结构构建模块603、节点特征确定模块604以及分析结果确定模块605用于实现本发明实施例提供的基于图神经网络的组学数据处理方法。
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现图3所示的各模块的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备,RAM或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
存储器2003用于存储执行本申请方案的应用程序的计算机程序,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序,以实现图3所示实施例提供的基于图神经网络的组学数据处理装置的动作。
本申请实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器上述实施例中的任一项方法。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述实施例中的任一项方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种基于图神经网络的组学数据处理方法,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种基于图神经网络的组学数据处理方法,其特征在于,包括:
获取待处理的第一组学数据,所述第一组学数据包括至少两种第一组学特征;
确定所述至少两种第一组学特征中不同组学特征之间的第一相关性;
基于所述至少两种第一组学特征和各所述第一相关性,构建所述第一组学数据对应的第一图结构,其中,所述第一图结构中的一个节点表征一种所述第一组学特征,所述第一图结构中的连边表征了所述连边的两个节点对应的第一相关性;
基于所述第一图结构,通过图神经网络,得到所述第一图结构中的各节点的节点特征;
基于各所述节点的节点特征,得到医学分析结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少两种第一组学特征和各所述第一相关性,构建所述第一组学数据对应的第一图结构,包括:
对于任意两种所述第一组学特征,若所述两种第一组学特征之间的第一相关性大于或等于设定值,则在所述两种第一组学特征所对应的两个节点之间建立连边。
3.根据权利要求1所述的方法,其特征在于,还包括:
提取各所述第一组学特征的第一特征;
所述基于所述第一图结构,通过图神经网络,得到所述第一图结构中的各节点的节点特征,包括:
对于所述第一图结构中的每一节点,由所述图神经网络基于所述第一图结构中的该节点、以及与该节点具有连边关系的各目标节点,得到该节点的至少一个层级的第二特征;
对于每一节点,将该节点对应的第一特征和各所述第二特征融合,得到该节点的节点特征。
4.根据权利要求3所述的方法,其特征在于,所述对于所述第一图结构中的每一节点,由所述图神经网络基于所述第一图结构中的该节点、以及与该节点具有连边关系的各目标节点,得到该节点的至少一个层级的第二特征,包括:
获取所述第一图结构各节点的初始特征;
对于每一节点,基于该节点的各关联特征,通过所述图神经网络确定各所述关联特征的权重,其中,各所述关联特征包括该节点的初始特征、以及该节点所对应的各目标节点的初始特征;
对于每一节点,基于该节点的各所述关联特征的权重,通过所述图神经网络对该节点的各关联特征进行加权融合,得到该节点的一个层级的第二特征;
其中,若一个节点对应有至少两个层级的第二特征,除所述第一个层级的第二特征之外的任一层级的第二特征是基于该层级的前一层级的第二特征得到的。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取至少一个第二组学数据,所述第一组学数据和所述至少一个第二组学数据中的不同组学数据均属于不同组学、且所述至少一个第二组学数据和所述第一组学数据属于同一目标对象;
提取各所述第二组学数据所对应的数据特征;
所述基于各所述节点的节点特征,得到医学分析结果,包括:
基于所述各节点的节点特征和各所述第二组学数据所对应的数据特征,确定所述目标对象的医学分析结果。
6.根据权利要求5所述的方法,其特征在于,每个所述第二组学数据包括至少两种第二组学特征;
所述基于所述第一图结构,通过图神经网络,得到所述第一图结构中的各节点的节点特征,包括:
基于所述第一图结构,通过所述第一组学数据所属的组学对应的图神经网络,得到所述第一图结构的各节点的节点特征;
对于任一所述第二组学数据,提取所述第二组学数据所对应的数据特征,包括:
确定该第二组学数据的至少两种第二组学特征中不同第二组学特征之间的第二相关性;
基于所述至少两种第二组学特征和各所述第二相关性,构建该第二组学数据对应的第二图结构;
基于所述第二图结构,通过与该第二组学数据所属的组学对应的图神经网络,得到该第二组学数据所对应的各节点的节点特征,所述数据特征包括该第二组学数据所对应的各节点的节点特征。
7.根据权利要求3所述的方法,其特征在于,所述基于所述第一图结构,通过图神经网络,得到所述第一图结构中的各节点的节点特征,以及基于各所述节点的节点特征得到医学分析结果,是通过分析结果预测模型得到的,其中,所述分析结果预测模型是基于各样本组学数据对初始神经网络模型进行训练得到的。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取各所述第一组学特征对应的重要性参数值;
将所述医学分析结果和各所述第一组学特征对应的重要性参数值提供给用户;
其中,各所述第一组学特征的重要性参数值是通过以下方式确定的:
对于每一所述样本组学数据,基于该样本组学数据的医学分析结果,确定该样本组学数据对应的图结构中各组学特征所对应的节点的重要性;
对于任一节点,基于所有样本组学数据所对应的该节点的重要性,得到该节点的重要性参数值,将该节点的重要性参数值作为该节点对应的组学特征的重要性参数值。
9.根据权利要求7所述的方法,其特征在于,所述分析结果预测模型是通过下列方式得到的:
获取训练数据集和初始神经网络模型,所述训练数据集包括各样本组学数据、每个样本组学数据对应的标注标签,所述标注标签表征了真实医学分析结果;
将所述训练数据集划分为不同的子数据集;
基于不同的子数据集对所述初始神经网络模型分别进行迭代训练,直至满足预设的训练结束条件;
将每次训练结束时所对应的神经网络模型的模型参数进行融合,将融合后的模型参数作为所述分析结果预测模型的模型参数。
10.根据权利要求1所述的方法,其特征在于,所述获取待处理的第一组学数据,包括:
获取初始组学数据,所述初始组学数据包括至少两种初始组学特征;
获取所述初始组学数据的关联组学特征,所述关联组学特征和所述初始组学数据属于同一目标对象,所述关联组学特征包括病例组学特征或影像组学特征中的至少一项;
分别将每种所述初始组学特征和所述关联组学特征进行融合,得到每种初始组学特征对应的融合组学特征,所述第一组学特征为所述融合组学特征。
11.根据权利要求1所述的方法,其特征在于,所述医学分析结果包括疾病识别结果、疾病分型结果或生存预测结果中的至少一项。
12.一种基于图神经网络的组学数据处理装置,其特征在于,包括:
数据获取模块,用于获取待处理的第一组学数据,所述第一组学数据包括至少两种第一组学特征;
相关性确定模块,用于确定所述至少两种第一组学特征中不同组学特征之间的第一相关性;
图结构构建模块,用于基于所述至少两种第一组学特征和各所述第一相关性,构建所述第一组学数据对应的第一图结构,其中,所述第一图结构中的一个节点表征一种所述第一组学特征,所述第一图结构中的连边表征了所述连边的两个节点对应的第一相关性;
节点特征确定模块,用于基于所述第一图结构,通过图神经网络,得到所述第一图结构中的各节点的节点特征;
分析结果确定模块,用于基于各所述节点的节点特征,得到医学分析结果。
13.一种电子设备,其特征在于,包括处理器以及存储器:
所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机上运行时,使得计算机可以执行上述权利要求1-11中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011379315.3A CN112364880B (zh) | 2020-11-30 | 2020-11-30 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
PCT/CN2021/131652 WO2022111385A1 (zh) | 2020-11-30 | 2021-11-19 | 基于图神经网络的临床组学数据处理方法、装置、设备及介质 |
EP21896886.5A EP4198821A4 (en) | 2020-11-30 | 2021-11-19 | METHOD AND DEVICE, DEVICE AND MEDIUM FOR PROCESSING CLINICAL OMICS DATA ON A GRAPHNEURAL NETWORK BASE |
JP2023514943A JP7466058B2 (ja) | 2020-11-30 | 2021-11-19 | グラフニューラルネットワークに基づく臨床オミックスデータ処理方法、装置、電子機器、及びコンピュータプログラム |
US17/956,141 US20230028046A1 (en) | 2020-11-30 | 2022-09-29 | Clinical omics data processing method and apparatus based on graph neural network, device and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011379315.3A CN112364880B (zh) | 2020-11-30 | 2020-11-30 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364880A true CN112364880A (zh) | 2021-02-12 |
CN112364880B CN112364880B (zh) | 2022-06-14 |
Family
ID=74535703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011379315.3A Active CN112364880B (zh) | 2020-11-30 | 2020-11-30 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230028046A1 (zh) |
EP (1) | EP4198821A4 (zh) |
JP (1) | JP7466058B2 (zh) |
CN (1) | CN112364880B (zh) |
WO (1) | WO2022111385A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409306A (zh) * | 2021-07-15 | 2021-09-17 | 推想医疗科技股份有限公司 | 一种检测装置、训练方法、训练装置、设备和介质 |
CN113611366A (zh) * | 2021-07-26 | 2021-11-05 | 哈尔滨工业大学(深圳) | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 |
CN113628726A (zh) * | 2021-08-10 | 2021-11-09 | 海南榕树家信息科技有限公司 | 基于图神经网络的中医辩治推荐系统、方法和电子设备 |
WO2022111385A1 (zh) * | 2020-11-30 | 2022-06-02 | 腾讯科技(深圳)有限公司 | 基于图神经网络的临床组学数据处理方法、装置、设备及介质 |
CN114664382A (zh) * | 2022-04-28 | 2022-06-24 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN115223657A (zh) * | 2022-09-20 | 2022-10-21 | 吉林农业大学 | 一种药用植物转录调控图谱预测方法 |
CN116386850A (zh) * | 2023-03-28 | 2023-07-04 | 数坤(北京)网络科技股份有限公司 | 医学数据分析方法、装置、计算机设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116110509B (zh) * | 2022-11-15 | 2023-08-04 | 浙江大学 | 基于组学一致性预训练的药物敏感性预测方法和装置 |
CN115952770B (zh) * | 2023-03-15 | 2023-07-25 | 广州汇通国信科技有限公司 | 一种数据标准化的处理方法、装置、电子设备及存储介质 |
CN116741397B (zh) * | 2023-08-15 | 2023-11-03 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111276258A (zh) * | 2020-01-15 | 2020-06-12 | 大连理工大学 | 一种基于领域知识的药物致病关系抽取方法 |
CN111933212A (zh) * | 2020-08-26 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的临床组学数据处理方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3550568B1 (en) | 2018-04-07 | 2023-07-05 | Tata Consultancy Services Limited | Graph convolution based gene prioritization on heterogeneous networks |
CN112119412A (zh) * | 2018-05-18 | 2020-12-22 | 伯耐沃伦人工智能科技有限公司 | 具有注意力的图神经网络 |
CN111028939B (zh) * | 2019-11-15 | 2023-03-31 | 华南理工大学 | 一种基于深度学习的多组学智能诊断系统 |
CN111681705B (zh) * | 2020-05-21 | 2024-05-24 | 中国科学院深圳先进技术研究院 | 一种miRNA-疾病关联预测方法、系统、终端以及存储介质 |
CN111931076B (zh) * | 2020-09-22 | 2021-02-09 | 平安国际智慧城市科技股份有限公司 | 基于有权有向图进行关系推荐的方法、装置和计算机设备 |
CN112364880B (zh) * | 2020-11-30 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
-
2020
- 2020-11-30 CN CN202011379315.3A patent/CN112364880B/zh active Active
-
2021
- 2021-11-19 EP EP21896886.5A patent/EP4198821A4/en active Pending
- 2021-11-19 JP JP2023514943A patent/JP7466058B2/ja active Active
- 2021-11-19 WO PCT/CN2021/131652 patent/WO2022111385A1/zh unknown
-
2022
- 2022-09-29 US US17/956,141 patent/US20230028046A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111276258A (zh) * | 2020-01-15 | 2020-06-12 | 大连理工大学 | 一种基于领域知识的药物致病关系抽取方法 |
CN111933212A (zh) * | 2020-08-26 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的临床组学数据处理方法及装置 |
Non-Patent Citations (4)
Title |
---|
JHA A等: "Deep convolution neural network model to predict relapse in breast cancer", 《2018 17TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA)》 * |
LEE B等: "Heterogeneous multi-layered network model for omics data integration and analysis", 《FRONTIERS IN GENETICS》 * |
SINGH V等: "Towards probabilistic generative models harnessing graph neural networks for disease-gene prediction", 《ARXIV》 * |
SINGHA M等: "GraphGR: A graph neural network to predict the effect of pharmacotherapy on the cancer cell growth", 《BIORXIV》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022111385A1 (zh) * | 2020-11-30 | 2022-06-02 | 腾讯科技(深圳)有限公司 | 基于图神经网络的临床组学数据处理方法、装置、设备及介质 |
CN113409306A (zh) * | 2021-07-15 | 2021-09-17 | 推想医疗科技股份有限公司 | 一种检测装置、训练方法、训练装置、设备和介质 |
CN113611366A (zh) * | 2021-07-26 | 2021-11-05 | 哈尔滨工业大学(深圳) | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 |
CN113611366B (zh) * | 2021-07-26 | 2022-04-29 | 哈尔滨工业大学(深圳) | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 |
CN113628726A (zh) * | 2021-08-10 | 2021-11-09 | 海南榕树家信息科技有限公司 | 基于图神经网络的中医辩治推荐系统、方法和电子设备 |
CN113628726B (zh) * | 2021-08-10 | 2023-12-26 | 海南榕树家信息科技有限公司 | 基于图神经网络的中医辨治推荐系统、方法和电子设备 |
CN114664382A (zh) * | 2022-04-28 | 2022-06-24 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN114664382B (zh) * | 2022-04-28 | 2023-01-31 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN115223657A (zh) * | 2022-09-20 | 2022-10-21 | 吉林农业大学 | 一种药用植物转录调控图谱预测方法 |
CN115223657B (zh) * | 2022-09-20 | 2022-12-06 | 吉林农业大学 | 一种药用植物转录调控图谱预测方法 |
CN116386850A (zh) * | 2023-03-28 | 2023-07-04 | 数坤(北京)网络科技股份有限公司 | 医学数据分析方法、装置、计算机设备及存储介质 |
CN116386850B (zh) * | 2023-03-28 | 2023-11-28 | 数坤科技股份有限公司 | 医学数据分析方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4198821A1 (en) | 2023-06-21 |
JP2023542837A (ja) | 2023-10-12 |
WO2022111385A1 (zh) | 2022-06-02 |
JP7466058B2 (ja) | 2024-04-11 |
US20230028046A1 (en) | 2023-01-26 |
EP4198821A4 (en) | 2024-03-06 |
CN112364880B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364880B (zh) | 基于图神经网络的组学数据处理方法、装置、设备及介质 | |
Baldassarre et al. | GraphQA: protein model quality assessment using graph convolutional networks | |
Yuvaraj et al. | Diabetes prediction in healthcare systems using machine learning algorithms on Hadoop cluster | |
Wang et al. | Exploring graph neural networks for semantic enrichment: Room type classification | |
WO2022083624A1 (zh) | 一种模型的获取方法及设备 | |
CN112116090B (zh) | 神经网络结构搜索方法、装置、计算机设备及存储介质 | |
CN110347932B (zh) | 一种基于深度学习的跨网络用户对齐方法 | |
Guendouz et al. | A discrete modified fireworks algorithm for community detection in complex networks | |
Panagopoulos et al. | Multi-task learning for influence estimation and maximization | |
CN108763376A (zh) | 融合关系路径、类型、实体描述信息的知识表示学习方法 | |
KR102181058B1 (ko) | 신약 후보 물질 도출을 위한 데이터 처리 방법 | |
CN112905801A (zh) | 基于事件图谱的行程预测方法、系统、设备及存储介质 | |
Wang et al. | Ppisb: a novel network-based algorithm of predicting protein-protein interactions with mixed membership stochastic blockmodel | |
US20240055071A1 (en) | Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product | |
JP2022530868A (ja) | 機械学習に基づくターゲットオブジェクト属性予測方法、関連機器及びコンピュータプログラム | |
CN114913917A (zh) | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 | |
CN116975578A (zh) | 逻辑规则网络模型训练方法、装置、设备、程序及介质 | |
CN116434976A (zh) | 一种融合多源知识图谱的药物重定位方法和系统 | |
CN116361788A (zh) | 一种基于机器学习的二进制软件漏洞预测方法 | |
KR20220111215A (ko) | 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 | |
CN114420201A (zh) | 一种多源数据高效融合的药物靶标相互作用的预测方法 | |
CN116805384A (zh) | 自动搜索方法、自动搜索的性能预测模型训练方法及装置 | |
Li et al. | Mapping client messages to a unified data model with mixture feature embedding convolutional neural network | |
KR20200123771A (ko) | 멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법 | |
CN114202669A (zh) | 一种用于医疗图像分割的神经网络搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40038754 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |