CN113782093B - 一种基因表达填充数据的获取方法及装置、存储介质 - Google Patents
一种基因表达填充数据的获取方法及装置、存储介质 Download PDFInfo
- Publication number
- CN113782093B CN113782093B CN202111086804.4A CN202111086804A CN113782093B CN 113782093 B CN113782093 B CN 113782093B CN 202111086804 A CN202111086804 A CN 202111086804A CN 113782093 B CN113782093 B CN 113782093B
- Authority
- CN
- China
- Prior art keywords
- cell
- gene expression
- target cell
- expression data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 398
- 238000000034 method Methods 0.000 title claims abstract description 52
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 173
- 239000011159 matrix material Substances 0.000 claims description 52
- 230000009467 reduction Effects 0.000 claims description 33
- 230000004913 activation Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 230000001413 cellular effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 35
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数字医疗技术领域,提供了一种基因表达填充数据的获取方法及装置、存储介质、计算机设备,该方法包括:获取目标细胞样本的第一基因调控网络,并通过预设基因表达量预测模型,得到第一基因表达数据;确定目标细胞样本对应的第一细胞特征,对目标细胞样本进行聚类,得到多个第一细胞类;分别对每个第一细胞类对应的第一基因表达数据进行还原,得到第二基因调控网络,通过所述预设基因表达量预测模型得到第二基因表达数据,并拼接所述第二基因表达数据;计算目标细胞样本的第二细胞特征,并对多个目标细胞样本再次进行聚类,得到第二细胞类,若第一细胞类与第二细胞类一致,则获取拼接后的第二基因表达数据作为基因表达填充数据。
Description
技术领域
本申请涉及数字医疗技术领域,尤其是涉及到一种基因表达填充数据的获取方法及装置、存储介质、计算机设备。
背景技术
当前医疗技术领域中的很多实验研究均是基于细胞中的基因表达量展开的,例如癌症的诊断与预测、病人生存期预测等。可以说,细胞中基因表达量检测的准确性对于实验研究结果具有直接影响。
实际在检测细胞中各基因的基因表达量时,有些细胞中各别基因表达量由于各种原因无法检测到,因而需要对这些细胞中的基因表达量进行填充。现有技术中,大都利用相似细胞中相同基因的信息直接对细胞中该基因对应的基因表达量进行填充,然而这种填充的方法准确度还有待提高。因此,如何提升细胞中基因表达填充数据的准确性,成为了本领域亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种基因表达填充数据的获取方法及装置、存储介质、计算机设备,充分利用生物体中基因表达情况互相影响的特点,通过引入第一基因调控网络,结合预设基因表达量预测模型,微观层面上利用每个基因周边节点的信息,这样可以更好地对待获取基因表达填充数据的基因进行填充,提升目标细胞样本中基因填充的准确性。
根据本申请的一个方面,提供了一种基因表达填充数据的获取方法,包括:
获取多个目标细胞样本各自对应的第一基因调控网络,并通过预设基因表达量预测模型,得到每个目标细胞样本对应的第一基因表达数据;
基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征,并依据所述第一细胞特征,对所述多个目标细胞样本进行聚类,得到多个第一细胞类;
通过预设基因还原网络分别对每个第一细胞类对应的第一基因表达数据进行还原,得到每个第一细胞类中目标细胞样本对应的第二基因调控网络,通过所述预设基因表达量预测模型得到每个第一细胞类中目标细胞样本对应的第二基因表达数据,并拼接所述第二基因表达数据;
依据拼接后的第二基因表达数据,计算每个第一细胞类中目标细胞样本的第二细胞特征,并对所述多个目标细胞样本再次进行聚类,得到多个第二细胞类,若所述第一细胞类与所述第二细胞类一致,则获取拼接后的第二基因表达数据作为所述目标细胞样本的基因表达填充数据。
可选地,所述获取多个目标细胞样本各自对应的第一基因调控网络之前,所述方法还包括:
获取多个训练细胞样本各自对应的第三基因调控网络以及真实基因表达数据,将所述第三基因调控网络输入至初始表达量预测模型的特征识别层中,得到各训练细胞样本对应的第一预测数据特征,并将所述第一预测数据特征输入至所述初始表达量预测模型的全连接层,得到各训练细胞样本对应的第一预测表达数据;
基于所述第一预测数据特征、所述第一预测表达数据以及所述真实基因表达数据,计算所述初始表达量预测模型对应的第一模型损失值;
当所述第一模型损失值大于或等于第一预设损失阈值时,依据所述第一模型损失值调整所述初始表达量预测模型的模型参数,通过调整后的初始表达量预测模型的特征识别层以及全连接层,得到各训练细胞样本对应的第二预测数据特征以及所述第二预测表达数据,并结合所述真实基因表达数据再次计算所述第一模型损失值;
当所述第一模型损失值小于所述第一预设损失阈值时,得到预设基因表达量预测模型。
可选地,所述基于所述第一预测数据特征、第一预测表达数据以及所述真实基因表达数据,计算所述初始表达量预测模型对应的第一模型损失值包括:
基于各训练细胞样本对应的所述第一预测表达数据以及对应的所述真实基因表达数据,通过第一预设损失函数计算所述初始表达量预测模型的第一损失值;
获取所述第三基因调控网络对应的第一邻接矩阵,并基于各训练细胞样本对应的所述第一预测数据特征,通过第一预设激活函数确定每个所述训练细胞样本对应的第二邻接矩阵,依据所述第一邻接矩阵、所述第二邻接矩阵以及第二预设损失函数计算所述初始表达量预测模型的第二损失值;
依据所述第一损失值以及所述第二损失值,得到所述第一模型损失值。
可选地,所述得到预设基因表达量预测模型之后,所述方法还包括:
通过所述预设基因表达量预测模型,得到与所述训练细胞样本对应的目标预测表达数据;
基于所述目标预测表达数据,计算不同训练细胞样本之间的训练细胞相似度,依据所述训练细胞相似度,构建第一训练细胞图网络,并将所述第一训练细胞图网络输入至初始特征识别模型,得到各个所述训练细胞样本对应的训练细胞特征;
获取所述第一训练细胞图网络对应的第一细胞图邻接矩阵,并基于所述训练细胞特征,通过第二预设激活函数确定第二训练细胞图网络以及对应的第二细胞图邻接矩阵,依据所述第一细胞图邻接矩阵、所述第二细胞图邻接矩阵以及第三预设损失函数计算所述初始特征识别模型的第二模型损失值;
当所述第二模型损失值大于或等于第二预设损失阈值时,依据所述第二模型损失值调整所述初始特征识别模型的模型参数,并基于调整后的初始特征识别模型,再次计算所述第二模型损失值;
当所述第二模型损失值小于所述第二预设损失阈值时,得到细胞特征识别模型。
可选地,所述基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征包括:
通过预设降维模型对每个所述目标细胞样本对应的所述第一基因表达数据进行降维处理,得到第三基因表达数据;
基于每个所述目标细胞样本对应的预设维度的第三基因表达数据,计算任意两个所述目标细胞样本之间的目标细胞相似度;
将所述任一目标细胞样本作为目标节点细胞,并依据所述目标节点细胞与其余目标细胞样本之间的所述目标细胞相似度,将除所述目标节点细胞外的所述目标细胞样本按照所述目标细胞相似度排序,确定相似度较高的预设数量的所述目标细胞样本;
将所述目标节点细胞与所述预设数量的所述目标细胞样本之间分别生成细胞关联边,以构建目标细胞图网络,并将所述目标细胞图网络输入至所述细胞特征识别模型中,得到第一细胞特征。
可选地,所述获取多个目标细胞样本各自对应的第一基因调控网络之前,所述方法还包括:
获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络模板;
获取每个所述目标细胞样本对应的初始基因表达数据,并将所述初始基因表达数据作为所述基因调控网络模板中对应基因的初始值,分别生成与每个目标细胞样本对应的第一基因调控网络。
可选地,所述获取每个所述目标细胞样本对应的初始基因表达数据之后,所述方法还包括:
将每个所述目标细胞样本对应的初始基因表达数据通过预设标准化处理函数进行标准化处理,得到处理后的初始基因表达数据。
根据本申请的另一方面,提供了一种基因表达填充数据的获取装置,包括:
获取模块,用于获取多个目标细胞样本各自对应的第一基因调控网络,并通过预设基因表达量预测模型,得到每个目标细胞样本对应的第一基因表达数据;
聚类模块,用于基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征,并依据所述第一细胞特征,对所述多个目标细胞样本进行聚类,得到多个第一细胞类;
拼接模块,用于通过预设基因还原网络分别对每个第一细胞类对应的第一基因表达数据进行还原,得到每个第一细胞类中目标细胞样本对应的第二基因调控网络,通过所述预设基因表达量预测模型得到每个第一细胞类中目标细胞样本对应的第二基因表达数据,并拼接所述第二基因表达数据;
判断模块,用于依据拼接后的第二基因表达数据,计算每个第一细胞类中目标细胞样本的第二细胞特征,并对所述多个目标细胞样本再次进行聚类,得到多个第二细胞类,若所述第一细胞类与所述第二细胞类一致,则获取拼接后的第二基因表达数据作为所述目标细胞样本的基因表达填充数据。
可选地,所述装置还包括:
所述获取模块,还用于所述获取多个目标细胞样本各自对应的第一基因调控网络之前,获取多个训练细胞样本各自对应的第三基因调控网络以及真实基因表达数据,将所述第三基因调控网络输入至初始表达量预测模型的特征识别层中,得到各训练细胞样本对应的第一预测数据特征,并将所述第一预测数据特征输入至所述初始表达量预测模型的全连接层,得到各训练细胞样本对应的第一预测表达数据;
计算模块,用于基于所述第一预测数据特征、所述第一预测表达数据以及所述真实基因表达数据,计算所述初始表达量预测模型对应的第一模型损失值;
参数调整模块,用于当所述第一模型损失值大于或等于第一预设损失阈值时,依据所述第一模型损失值调整所述初始表达量预测模型的模型参数,通过调整后的初始表达量预测模型的特征识别层以及全连接层,得到各训练细胞样本对应的第二预测数据特征以及所述第二预测表达数据,并结合所述真实基因表达数据再次计算所述第一模型损失值;
所述判断模块,用于当所述第一模型损失值小于所述第一预设损失阈值时,得到预设基因表达量预测模型。
可选地,所述计算模块用于:
基于各训练细胞样本对应的所述第一预测表达数据以及对应的所述真实基因表达数据,通过第一预设损失函数计算所述初始表达量预测模型的第一损失值;
获取所述第三基因调控网络对应的第一邻接矩阵,并基于各训练细胞样本对应的所述第一预测数据特征,通过第一预设激活函数确定每个所述训练细胞样本对应的第二邻接矩阵,依据所述第一邻接矩阵、所述第二邻接矩阵以及第二预设损失函数计算所述初始表达量预测模型的第二损失值;
依据所述第一损失值以及所述第二损失值,得到所述第一模型损失值。
可选地,所述装置还包括:
所述计算模块,还用于所述得到预设基因表达量预测模型之后,通过所述预设基因表达量预测模型,得到与所述训练细胞样本对应的目标预测表达数据;
网络构建模块,用于基于所述目标预测表达数据,计算不同训练细胞样本之间的训练细胞相似度,依据所述训练细胞相似度,构建第一训练细胞图网络,并将所述第一训练细胞图网络输入至初始特征识别模型,得到各个所述训练细胞样本对应的训练细胞特征;
损失值计算模块,用于获取所述第一训练细胞图网络对应的第一细胞图邻接矩阵,并基于所述训练细胞特征,通过第二预设激活函数确定第二训练细胞图网络以及对应的第二细胞图邻接矩阵,依据所述第一细胞图邻接矩阵、所述第二细胞图邻接矩阵以及第三预设损失函数计算所述初始特征识别模型的第二模型损失值;
所述参数调整模块,还用于当所述第二模型损失值大于或等于第二预设损失阈值时,依据所述第二模型损失值调整所述初始特征识别模型的模型参数,并基于调整后的初始特征识别模型,再次计算所述第二模型损失值;
模型确定模块,用于当所述第二模型损失值小于所述第二预设损失阈值时,得到细胞特征识别模型。
可选地,所述聚类模块用于:
通过预设降维模型对每个所述目标细胞样本对应的所述第一基因表达数据进行降维处理,得到第三基因表达数据;
基于每个所述目标细胞样本对应的预设维度的第三基因表达数据,计算任意两个所述目标细胞样本之间的目标细胞相似度;
将所述任一目标细胞样本作为目标节点细胞,并依据所述目标节点细胞与其余目标细胞样本之间的所述目标细胞相似度,将除所述目标节点细胞外的所述目标细胞样本按照所述目标细胞相似度排序,确定相似度较高的预设数量的所述目标细胞样本;
将所述目标节点细胞与所述预设数量的所述目标细胞样本之间分别生成细胞关联边,以构建目标细胞图网络,并将所述目标细胞图网络输入至所述细胞特征识别模型中,得到第一细胞特征。
可选地,所述装置还包括:
模板生成模块,用于所述获取多个目标细胞样本各自对应的第一基因调控网络之前,获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络模板;
调控网络生成模块,用于获取每个所述目标细胞样本对应的初始基因表达数据,并将所述初始基因表达数据作为所述基因调控网络模板中对应基因的初始值,分别生成与每个目标细胞样本对应的第一基因调控网络。
可选地,所述装置还包括:
标准化处理模块,用于所述获取每个所述目标细胞样本对应的初始基因表达数据之后,将每个所述目标细胞样本对应的初始基因表达数据通过预设标准化处理函数进行标准化处理,得到处理后的初始基因表达数据。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基因表达填充数据的获取方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基因表达填充数据的获取方法。
借由上述技术方案,本申请提供的一种基因表达填充数据的获取方法及装置、存储介质、计算机设备,首先,获取与多个目标细胞样本一一对应的第一基因调控网络,将第一基因调控网络输入到预设基因表达量预测模型中,得到和每个目标细胞样本相对应的第一基因表达数据。得到第一基因表达数据后,可以通过第一基因表达数据确定每个目标细胞样本对应的第一细胞特征,并根据得到的第一细胞特征,可以利用预设聚类模型对目标细胞样本进行聚类,进而得到多个第一细胞类。得到多个第一细胞类以后,可以将每个第一细胞类对应的第一基因表达数据输入至预设基因还原网络中进行还原,还原后可以得到和每个第一细胞类中目标细胞样本相对应的第二基因调控网络,之后将第二基因调控网络输入至预设基因表达量预测模型中,可以得到每个第一细胞类中目标细胞样本相对应的第二基因表达数据,并对第二基因表达数据进行拼接。得到拼接后的第二基因表达数据后,可以计算每个第一细胞类中目标细胞样本对应的第二细胞特征,可以通过第二细胞特征对多个目标细胞样本重复进行聚类,聚类后可以得到多个第二细胞类,如果第一细胞类和第二细胞类的聚类结果是一致的,那么说明整个过程已经完成,并且可以获取拼接后的第二基因表达数据作为目标细胞样本的基因表达填充数据。本申请充分利用生物体中基因表达情况互相影响的特点,通过引入第一基因调控网络,结合预设基因表达量预测模型,微观层面上利用每个基因周边节点的信息,这样可以更好地对待获取基因表达填充数据的基因进行填充,提升目标细胞样本中基因填充的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基因表达填充数据的获取方法的流程示意图;
图2示出了本申请实施例提供的一种基因表达填充数据的获取装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种基因表达填充数据的获取方法,如图1所示,该方法包括:
步骤101,获取多个目标细胞样本各自对应的第一基因调控网络,并通过预设基因表达量预测模型,得到每个目标细胞样本对应的第一基因表达数据;
本发明实施例主要适用于获取细胞中基因表达填充数据的场景,本申请实施例提供的基因表达填充数据的获取方法,具体可以应用于客户端或者服务器一侧。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。在本申请实施例中,目标细胞样本可以包括多个,且每个目标细胞样本中可以包括多个基因,由于各种原因,这些基因中可能存在无法获取基因表达填充数据的基因,因此在获取第一基因调控网络时,这些第一基因调控网络中的基因节点可以包括待获取基因表达填充数据的基因节点,通过本方法可以获取基因表达填充数据。首先,获取与多个目标细胞样本一一对应的第一基因调控网络,将第一基因调控网络输入到预设基因表达量预测模型中,在这里,每个目标细胞样本中均可以包括待获取基因表达填充数据的基因,预设基因表达量预测模型可以是图卷积网络模型,将第一基因调控网络输入至预设基因表达量预测模型中以后,可以得到和每个目标细胞样本相对应的第一基因表达数据。
步骤102,基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征,并依据所述第一细胞特征,对所述多个目标细胞样本进行聚类,得到多个第一细胞类;
在该实施例中,得到第一基因表达数据后,可以通过第一基因表达数据确定每个目标细胞样本对应的第一细胞特征,其中第一细胞特征可以以向量的形式表示出来。根据得到的第一细胞特征,可以利用预设聚类模型对目标细胞样本进行聚类,进而得到多个第一细胞类。具体可以利用K均值聚类模型对目标细胞样本进行聚类,并通过聚类的结果对每个目标细胞样本打上对应的标签。例如,利用K均值聚类模型将全部目标细胞样本分成了10组,其中细胞A在第一组,细胞B在第二组,则细胞A的标签为1,细胞B的标签为2。
步骤103,通过预设基因还原网络分别对每个第一细胞类对应的第一基因表达数据进行还原,得到每个第一细胞类中目标细胞样本对应的第二基因调控网络,通过所述预设基因表达量预测模型得到每个第一细胞类中目标细胞样本对应的第二基因表达数据,并拼接所述第二基因表达数据;
在该实施例中,得到多个第一细胞类以后,可以将每个第一细胞类对应的第一基因表达数据输入至预设基因还原网络中进行还原,还原后可以得到和每个第一细胞类中目标细胞样本相对应的第二基因调控网络,例如某个第一细胞类中包括10个目标细胞样本,那么经过还原后对应的第二基因调控网络也是10个。之后将第二基因调控网络输入至预设基因表达量预测模型中,可以得到每个第一细胞类中目标细胞样本相对应的第二基因表达数据,由于得到的第二基因表达数据是分别与每个第一细胞类中的目标细胞样本相对应的,所以可以对第二基因表达数据进行拼接。
步骤104,依据拼接后的第二基因表达数据,计算每个第一细胞类中目标细胞样本的第二细胞特征,并对所述多个目标细胞样本再次进行聚类,得到多个第二细胞类,若所述第一细胞类与所述第二细胞类一致,则获取拼接后的第二基因表达数据作为所述目标细胞样本的基因表达填充数据。
在该实施例中,得到拼接后的第二基因表达数据后,可以计算每个第一细胞类中目标细胞样本对应的第二细胞特征,可以通过第二细胞特征对多个目标细胞样本重复进行聚类,聚类后可以得到多个第二细胞类,如果第一细胞类和第二细胞类的聚类结果是一致的,那么说明整个过程已经完成,并且可以获取拼接后的第二基因表达数据作为目标细胞样本的基因表达填充数据。如果第一细胞类和第二细胞类的聚类结果是不一致的,那么重复上述过程直至细胞聚类结果连续两次保持一致,并获取拼接后的第二基因表达数据作为目标细胞样本的基因表达填充数据。
通过应用本实施例的技术方案,首先,获取与多个目标细胞样本一一对应的第一基因调控网络,将第一基因调控网络输入到预设基因表达量预测模型中,得到和每个目标细胞样本相对应的第一基因表达数据。得到第一基因表达数据后,可以通过第一基因表达数据确定每个目标细胞样本对应的第一细胞特征,并根据得到的第一细胞特征,可以利用预设聚类模型对目标细胞样本进行聚类,进而得到多个第一细胞类。得到多个第一细胞类以后,可以将每个第一细胞类对应的第一基因表达数据输入至预设基因还原网络中进行还原,还原后可以得到和每个第一细胞类中目标细胞样本相对应的第二基因调控网络,之后将第二基因调控网络输入至预设基因表达量预测模型中,可以得到每个第一细胞类中目标细胞样本相对应的第二基因表达数据,并对第二基因表达数据进行拼接。得到拼接后的第二基因表达数据后,可以计算每个第一细胞类中目标细胞样本对应的第二细胞特征,可以通过第二细胞特征对多个目标细胞样本重复进行聚类,聚类后可以得到多个第二细胞类,如果第一细胞类和第二细胞类的聚类结果是一致的,那么说明整个过程已经完成,并且可以获取拼接后的第二基因表达数据作为目标细胞样本的基因表达填充数据。本申请充分利用生物体中基因表达情况互相影响的特点,通过引入第一基因调控网络,结合预设基因表达量预测模型,微观层面上利用每个基因周边节点的信息,这样可以更好地对待获取基因表达填充数据的基因进行填充,提升目标细胞样本中基因填充的准确性。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种基因表达填充数据的获取方法,该方法包括:
步骤201,获取多个训练细胞样本各自对应的第三基因调控网络以及真实基因表达数据,将所述第三基因调控网络输入至初始表达量预测模型的特征识别层中,得到各训练细胞样本对应的第一预测数据特征,并将所述第一预测数据特征输入至所述初始表达量预测模型的全连接层,得到各训练细胞样本对应的第一预测表达数据;
在该实施例中,预设基因表达量预测模型是由初始表达量预测模型经过训练得到的。训练初始表达量预测模型时,首先可以获取每个训练细胞样本对应的第三基因调控网络和真实基因表达数据,其中第三基因调控网络可以是直接从其他途径获取的,也可以是在初始表达量预测模型训练前构建的,第三基因调控网络中对应的每个基因都可以具有真实基因表达数据。接着,将第三基因调控网络输入至预先设置的初始表达量预测模型中,具体可以是初始表达量预测模型的特征识别层中,经过特征识别层可以得到各个训练细胞样本对应的第一预测数据特征,在这里,第一预测数据特征可以以向量的形式表示。之后将第一预测数据特征再次输入至初始表达量预测模型中,具体可以是初始表达量预测模型的全连接层中,经过全连接层可以得到各个训练细胞样本对应的第一预测表达数据。
步骤202,基于所述第一预测数据特征、所述第一预测表达数据以及所述真实基因表达数据,计算所述初始表达量预测模型对应的第一模型损失值;
在该实施例中,利用得到的第一预测数据特征、第一预测表达数据和各个训练细胞样本中基因的真实基因表达数据,可以计算出初始表达量预测模型对应的第一模型损失值,从第一模型损失值中可以看出当前初始表达量预测模型预测结果的准确程度。
步骤203,当所述第一模型损失值大于或等于第一预设损失阈值时,依据所述第一模型损失值调整所述初始表达量预测模型的模型参数,通过调整后的初始表达量预测模型的特征识别层以及全连接层,得到各训练细胞样本对应的第二预测数据特征以及所述第二预测表达数据,并结合所述真实基因表达数据再次计算所述第一模型损失值;
在该实施例中,当第一模型损失值大于或者等于第一预设损失阈值时,说明当前初始表达量预测模型的预测结果准确性欠佳,需要进一步训练。具体可以根据第一模型损失值对初始表达量预测模型中初始设定的参数进行调整,并通过调整后的初始表达量预测模型的特征识别层和全连接层,重新确定与不同训练细胞样本相对应的第二预测数据特征和第二预测表达数据,即对每一个训练细胞样本中的每一个基因分别确定对应的第二预测数据特征和第二预测表达数据,之后再次计算调整后的初始表达量预测模型对应的第一模型损失值。
步骤204,当所述第一模型损失值小于所述第一预设损失阈值时,得到预设基因表达量预测模型;
在该实施例中,当第一模型损失值小于第一预设损失阈值时,说明初始表达量预测模型或者经过参数调整的初始表达量预测模型对应的预测结果已经处于可接受精度范围内,后续可以直接用于预测基因表达数据,那么此时将对应的初始表达量预测模型或者经过参数调整的初始表达量预测模型作为预设基因表达量预测模型。
步骤205,通过所述预设基因表达量预测模型,得到与所述训练细胞样本对应的目标预测表达数据;
在该实施例中,得到预设基因表达量预测模型后,利用该预设基因表达量预测模型,可以得到与每个训练细胞样本相对应的各个基因的目标预测表达数据,经过预设基因表达量预测模型得到的目标预测表达数据,和训练细胞样本对应的真实基因表达数据之间更加贴近。
步骤206,基于所述目标预测表达数据,计算不同训练细胞样本之间的训练细胞相似度,依据所述训练细胞相似度,构建第一训练细胞图网络,并将所述第一训练细胞图网络输入至初始特征识别模型,得到各个所述训练细胞样本对应的训练细胞特征;
在该实施例中,目标预测表达数据可以用于构建第一训练细胞图网络。具体地,首先以目标预测表达数据为基础,计算任意两个训练细胞样本之间的训练细胞相似度,当训练细胞相似度大于预设训练细胞相似度阈值时,使与训练细胞相似度对应的两个训练细胞样本之间形成一条边,从而构建出整个第一训练细胞图网络。接着,将构建好的第一训练细胞图网络输入至初始特征识别模型中,通过初始特征识别模型学习第一训练细胞图网络,从而得到各个训练细胞样本对应的训练细胞特征。
步骤207,获取所述第一训练细胞图网络对应的第一细胞图邻接矩阵,并基于所述训练细胞特征,通过第二预设激活函数确定第二训练细胞图网络以及对应的第二细胞图邻接矩阵,依据所述第一细胞图邻接矩阵、所述第二细胞图邻接矩阵以及第三预设损失函数计算所述初始特征识别模型的第二模型损失值;
在该实施例中,从第一训练细胞图网络中可以获取对应的第一细胞图邻接矩阵,从第一细胞图邻接矩阵可以看出不同细胞在第一训练细胞图网络中存在边的关系。同时还可以以得到的训练细胞特征为基础,通过第二预设激活函数计算任意两个训练细胞样本之间存在边的概率,并通过计算得到的概率生成第二训练细胞图网络,获取第二训练细胞图网络对应的第二细胞图邻接矩阵,之后以第一细胞图邻接矩阵以及所述第二细胞图邻接矩阵为基础,利用第三预设损失函数对初始特征识别模型对应的第二模型损失值进行计算。
步骤208,当所述第二模型损失值大于或等于第二预设损失阈值时,依据所述第二模型损失值调整所述初始特征识别模型的模型参数,并基于调整后的初始特征识别模型,再次计算所述第二模型损失值;
在该实施例中,计算完第二模型损失值后,判断第二模型损失值与第二预设损失阈值之间的关系。当第二模型损失值大于或等于第二预设损失阈值时,说明初始特征识别模型的精度还没有达到预期要求,此时可以以第二模型损失值为基础,对初始特征识别模型对应的参数进行调整,并利用调整参数之后的初始特征识别模型对应的特征识别层,再次得到对应的训练细胞特征,之后根据该训练细胞特征再次计算第二模型损失值。
步骤209,当所述第二模型损失值小于所述第二预设损失阈值时,得到细胞特征识别模型;
在该实施例中,当第二模型损失值小于所述第二预设损失阈值时,说明初始特征识别模型或者经过参数调整的初始特征识别模型对应的预测结果已经处于可接受精度范围内,后续可以直接用于识别细胞样本的细胞特征,那么此时将对应的初始特征识别模型或者经过参数调整的初始特征识别模型作为细胞特征识别模型。
步骤210,获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络模板;获取每个所述目标细胞样本对应的初始基因表达数据,并将所述初始基因表达数据作为所述基因调控网络模板中对应基因的初始值,分别生成与每个目标细胞样本对应的第一基因调控网络;
在该实施例中,预设基因数据库中存储着不同基因之间的基因调控关系,可以根据这些基因调控关系生成基因调控网络模板,即令具有调控关系的基因之间形成一条边,进而构建整个大的基因调控网络模板。获取不同目标细胞样本对应的初始基因表达数据,由于需要填充目标细胞样本中缺失的基因表达量,因而初始基因表达数据中可以包括待获取的基因填充表达数据,对于待获取的基因填充表达数据,可以先使用同类基因的平均值作为初始数据,也可以任意设定一个值作为初始数据,还可以直接将待获取的基因填充表达数据不赋予任何初始数据。获取初始基因表达数据后,将每个目标细胞样本对应的全部初始基因表达数据作为基因调控网络模板中对应基因的初始数据,对基因调控网络模板中的基因进行赋值,这样可以分别生成和每个目标细胞样本相对应的第一基因调控网络。
步骤211,获取多个目标细胞样本各自对应的第一基因调控网络,并通过预设基因表达量预测模型,得到每个目标细胞样本对应的第一基因表达数据;
步骤212,基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征,并依据所述第一细胞特征,对所述多个目标细胞样本进行聚类,得到多个第一细胞类;
步骤213,通过预设基因还原网络分别对每个第一细胞类对应的第一基因表达数据进行还原,得到每个第一细胞类中目标细胞样本对应的第二基因调控网络,通过所述预设基因表达量预测模型得到每个第一细胞类中目标细胞样本对应的第二基因表达数据,并拼接所述第二基因表达数据;
步骤214,依据拼接后的第二基因表达数据,计算每个第一细胞类中目标细胞样本的第二细胞特征,并对所述多个目标细胞样本再次进行聚类,得到多个第二细胞类,若所述第一细胞类与所述第二细胞类一致,则获取拼接后的第二基因表达数据作为所述目标细胞样本的基因表达填充数据。
在该实施例中,利用预设基因表达量预测模型获取基因填充表达数据的过程,与步骤101-104完全相同,在此不再赘述。
可选地,步骤202包括:
步骤202-1,基于各训练细胞样本对应的所述第一预测表达数据以及对应的所述真实基因表达数据,通过第一预设损失函数计算所述初始表达量预测模型的第一损失值;
在该实施例中,第一模型损失值由第一损失值和第二损失值两部分构成。对于第一损失值,首先以不同训练细胞样本对应的第一预测表达数据以及真实基因表达数据为基础,利用第一预设损失函数计算计算初始表达量预测模型对应的第一损失值。具体地,第一预设损失函数可以是用于计算平方差的函数。例如,训练细胞样本共包括100个细胞,分别是细胞1至细胞100,首先基于细胞1中的基因,分别计算每个基因的第一预测表达数据与真实基因表达数据之间的平方差,并将这些基因对应的平方差进行叠加,得到细胞1对应的模型损失值,利用同样的计算方法得到细胞2至细胞100对应的模型损失值,再将每个训练细胞样本对应的模型损失值叠加,得到初始表达量预测模型对应的第一损失值。
步骤202-2,获取所述第三基因调控网络对应的第一邻接矩阵,并基于各训练细胞样本对应的所述第一预测数据特征,通过第一预设激活函数确定每个所述训练细胞样本对应的第二邻接矩阵,依据所述第一邻接矩阵、所述第二邻接矩阵以及第二预设损失函数计算所述初始表达量预测模型的第二损失值;
在该实施例中,从第三基因调控网络中可以获取对应的第一邻接矩阵,从第一邻接矩阵可以看出每个训练细胞样本中基因之间在第三基因调控网络中存在边的关系。同时还可以以得到的第一预测数据特征为基础,通过第一预设激活函数计算每个训练细胞样本中任意两个基因之间存在边的概率,并通过计算得到的概率生成第二邻接矩阵,之后以第一邻接矩阵和第二邻接矩阵为基础,利用第二预设损失函数对初始表达量预测模型对应的第二损失值进行计算。
步骤202-3,依据所述第一损失值以及所述第二损失值,得到所述第一模型损失值。
在该实施例中,通过将计算得到的第一损失值以及第二损失值进行叠加,得到初始表达量预测模型的第一模型损失值。
可选地,步骤212中所述“基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征”,包括:
步骤212-1,通过预设降维模型对每个所述目标细胞样本对应的所述第一基因表达数据进行降维处理,得到第三基因表达数据;
在该实施例中,目标细胞样本对应的第一基因表达数据是与每个目标细胞样本中的基因数量相同的,所以每个目标细胞样本对应的第一基因表达数据是非常多的,因而可以对第一基因表达数据进行降维处理,具体可以利用预设降维模型来实现。对第一基因表达数据进行降维后,得到与目标细胞样本对应的第三基因表达数据。
步骤212-2,基于每个所述目标细胞样本对应的预设维度的第三基因表达数据,计算任意两个所述目标细胞样本之间的目标细胞相似度;
在该实施例中,得到第三基因表达数据后,可以提取每个目标细胞样本中预设维度的第三基因表达数据作为计算任意两个目标细胞样本之间目标细胞相似度的基础,例如,只选取每个目标细胞样本中前10个维度的第三基因表达数据计算目标细胞相似度。
步骤212-3,将所述任一目标细胞样本作为目标节点细胞,并依据所述目标节点细胞与其余目标细胞样本之间的所述目标细胞相似度,将除所述目标节点细胞外的所述目标细胞样本按照所述目标细胞相似度排序,确定相似度较高的预设数量的所述目标细胞样本;
在该实施例中,计算任意两个目标细胞样本之间的目标细胞相似度之后,可以选取目标细胞样本中的任意一个作为目标节点细胞,获取目标节点细胞与其它目标细胞样本之间的目标细胞相似度,并将这些目标细胞相似度按照从高到低的顺序排列,确定与目标节点细胞相似度较高的除目标节点细胞外的其它目标细胞样本,可以选择预设数量的与目标节点细胞相似度较高的目标细胞样本。此外,还可以预设目标细胞相似度阈值,将目标细胞相似度超过目标细胞相似度阈值的目标细胞样本看作与目标节点细胞相似度较高的目标细胞样本。
步骤212-4,将所述目标节点细胞与所述预设数量的所述目标细胞样本之间分别生成细胞关联边,以构建目标细胞图网络,并将所述目标细胞图网络输入至所述细胞特征识别模型中,得到第一细胞特征。
在该实施例中,将由上述步骤确定的与目标节点细胞相似度较高的目标细胞样本,分别和目标节点细胞之间生成细胞关联边,当所有目标细胞样本均作为目标节点细胞并与对应相似度较高的目标细胞样本之间生成过细胞关联边后,此时整个目标细胞图网络构建完成,之后将目标细胞图网络输入至细胞特征识别模型中,可以得到与每个目标细胞样本相对应的第一细胞特征。
可选地,步骤210中所述“获取每个所述目标细胞样本对应的初始基因表达数据”之后,所述方法还包括:将每个所述目标细胞样本对应的初始基因表达数据通过预设标准化处理函数进行标准化处理,得到处理后的初始基因表达数据。
在该实施例中,获取目标细胞样本对应的初始基因表达数据后,可以利用预设标准化处理函数对每个目标细胞样本对应的初始基因表达数据进行标准化处理,得到处理后的初始基因表达数据。经过标准化处理后初始基因表达数据之间的数值差距就会明显变小,方便后续的计算。其中预设标准化处理函数具体可以是z-score函数。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种基因表达填充数据的获取装置,如图2所示,该装置包括:
获取模块,用于获取多个目标细胞样本各自对应的第一基因调控网络,并通过预设基因表达量预测模型,得到每个目标细胞样本对应的第一基因表达数据;
聚类模块,用于基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征,并依据所述第一细胞特征,对所述多个目标细胞样本进行聚类,得到多个第一细胞类;
拼接模块,用于通过预设基因还原网络分别对每个第一细胞类对应的第一基因表达数据进行还原,得到每个第一细胞类中目标细胞样本对应的第二基因调控网络,通过所述预设基因表达量预测模型得到每个第一细胞类中目标细胞样本对应的第二基因表达数据,并拼接所述第二基因表达数据;
判断模块,用于依据拼接后的第二基因表达数据,计算每个第一细胞类中目标细胞样本的第二细胞特征,并对所述多个目标细胞样本再次进行聚类,得到多个第二细胞类,若所述第一细胞类与所述第二细胞类一致,则获取拼接后的第二基因表达数据作为所述目标细胞样本的基因表达填充数据。
可选地,所述装置还包括:
所述获取模块,还用于所述获取多个目标细胞样本各自对应的第一基因调控网络之前,获取多个训练细胞样本各自对应的第三基因调控网络以及真实基因表达数据,将所述第三基因调控网络输入至初始表达量预测模型的特征识别层中,得到各训练细胞样本对应的第一预测数据特征,并将所述第一预测数据特征输入至所述初始表达量预测模型的全连接层,得到各训练细胞样本对应的第一预测表达数据;
计算模块,用于基于所述第一预测数据特征、所述第一预测表达数据以及所述真实基因表达数据,计算所述初始表达量预测模型对应的第一模型损失值;
参数调整模块,用于当所述第一模型损失值大于或等于第一预设损失阈值时,依据所述第一模型损失值调整所述初始表达量预测模型的模型参数,通过调整后的初始表达量预测模型的特征识别层以及全连接层,得到各训练细胞样本对应的第二预测数据特征以及所述第二预测表达数据,并结合所述真实基因表达数据再次计算所述第一模型损失值;
所述判断模块,用于当所述第一模型损失值小于所述第一预设损失阈值时,得到预设基因表达量预测模型。
可选地,所述计算模块用于:
基于各训练细胞样本对应的所述第一预测表达数据以及对应的所述真实基因表达数据,通过第一预设损失函数计算所述初始表达量预测模型的第一损失值;
获取所述第三基因调控网络对应的第一邻接矩阵,并基于各训练细胞样本对应的所述第一预测数据特征,通过第一预设激活函数确定每个所述训练细胞样本对应的第二邻接矩阵,依据所述第一邻接矩阵、所述第二邻接矩阵以及第二预设损失函数计算所述初始表达量预测模型的第二损失值;
依据所述第一损失值以及所述第二损失值,得到所述第一模型损失值。
可选地,所述装置还包括:
所述计算模块,还用于所述得到预设基因表达量预测模型之后,通过所述预设基因表达量预测模型,得到与所述训练细胞样本对应的目标预测表达数据;
网络构建模块,用于基于所述目标预测表达数据,计算不同训练细胞样本之间的训练细胞相似度,依据所述训练细胞相似度,构建第一训练细胞图网络,并将所述第一训练细胞图网络输入至初始特征识别模型,得到各个所述训练细胞样本对应的训练细胞特征;
损失值计算模块,用于获取所述第一训练细胞图网络对应的第一细胞图邻接矩阵,并基于所述训练细胞特征,通过第二预设激活函数确定第二训练细胞图网络以及对应的第二细胞图邻接矩阵,依据所述第一细胞图邻接矩阵、所述第二细胞图邻接矩阵以及第三预设损失函数计算所述初始特征识别模型的第二模型损失值;
所述参数调整模块,还用于当所述第二模型损失值大于或等于第二预设损失阈值时,依据所述第二模型损失值调整所述初始特征识别模型的模型参数,并基于调整后的初始特征识别模型,再次计算所述第二模型损失值;
模型确定模块,用于当所述第二模型损失值小于所述第二预设损失阈值时,得到细胞特征识别模型。
可选地,所述聚类模块用于:
通过预设降维模型对每个所述目标细胞样本对应的所述第一基因表达数据进行降维处理,得到第三基因表达数据;
基于每个所述目标细胞样本对应的预设维度的第三基因表达数据,计算任意两个所述目标细胞样本之间的目标细胞相似度;
将所述任一目标细胞样本作为目标节点细胞,并依据所述目标节点细胞与其余目标细胞样本之间的所述目标细胞相似度,将除所述目标节点细胞外的所述目标细胞样本按照所述目标细胞相似度排序,确定相似度较高的预设数量的所述目标细胞样本;
将所述目标节点细胞与所述预设数量的所述目标细胞样本之间分别生成细胞关联边,以构建目标细胞图网络,并将所述目标细胞图网络输入至所述细胞特征识别模型中,得到第一细胞特征。
可选地,所述装置还包括:
模板生成模块,用于所述获取多个目标细胞样本各自对应的第一基因调控网络之前,获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络模板;
调控网络生成模块,用于获取每个所述目标细胞样本对应的初始基因表达数据,并将所述初始基因表达数据作为所述基因调控网络模板中对应基因的初始值,分别生成与每个目标细胞样本对应的第一基因调控网络。
可选地,所述装置还包括:
标准化处理模块,用于所述获取每个所述目标细胞样本对应的初始基因表达数据之后,将每个所述目标细胞样本对应的初始基因表达数据通过预设标准化处理函数进行标准化处理,得到处理后的初始基因表达数据。
需要说明的是,本申请实施例提供的一种基因表达填充数据的获取装置所涉及各功能单元的其他相应描述,可以参考图1方法中的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1所示的基因表达填充数据的获取方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1所示的方法,以及图2所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1所示的基因表达量的填充方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。首先,获取与多个目标细胞样本一一对应的第一基因调控网络,将第一基因调控网络输入到预设基因表达量预测模型中,得到和每个目标细胞样本相对应的第一基因表达数据。得到第一基因表达数据后,可以通过第一基因表达数据确定每个目标细胞样本对应的第一细胞特征,并根据得到的第一细胞特征,可以利用预设聚类模型对目标细胞样本进行聚类,进而得到多个第一细胞类。得到多个第一细胞类以后,可以将每个第一细胞类对应的第一基因表达数据输入至预设基因还原网络中进行还原,还原后可以得到和每个第一细胞类中目标细胞样本相对应的第二基因调控网络,之后将第二基因调控网络输入至预设基因表达量预测模型中,可以得到每个第一细胞类中目标细胞样本相对应的第二基因表达数据,并对第二基因表达数据进行拼接。得到拼接后的第二基因表达数据后,可以计算每个第一细胞类中目标细胞样本对应的第二细胞特征,可以通过第二细胞特征对多个目标细胞样本重复进行聚类,聚类后可以得到多个第二细胞类,如果第一细胞类和第二细胞类的聚类结果是一致的,那么说明整个过程已经完成,并且可以获取拼接后的第二基因表达数据作为目标细胞样本的基因表达填充数据。本申请充分利用生物体中基因表达情况互相影响的特点,通过引入第一基因调控网络,结合预设基因表达量预测模型,微观层面上利用每个基因周边节点的信息,这样可以更好地对待获取基因表达填充数据的基因进行填充,提升目标细胞样本中基因填充的准确性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (8)
1.一种基因表达填充数据的获取方法,其特征在于,包括:
获取多个训练细胞样本各自对应的第三基因调控网络以及真实基因表达数据,将所述第三基因调控网络输入至初始表达量预测模型的特征识别层中,得到各训练细胞样本对应的第一预测数据特征,并将所述第一预测数据特征输入至所述初始表达量预测模型的全连接层,得到各训练细胞样本对应的第一预测表达数据;
基于所述第一预测数据特征、所述第一预测表达数据以及所述真实基因表达数据,计算所述初始表达量预测模型对应的第一模型损失值,包括:基于各训练细胞样本对应的所述第一预测表达数据以及对应的所述真实基因表达数据,通过第一预设损失函数计算所述初始表达量预测模型的第一损失值;获取所述第三基因调控网络对应的第一邻接矩阵,并基于各训练细胞样本对应的所述第一预测数据特征,通过第一预设激活函数确定每个所述训练细胞样本对应的第二邻接矩阵,依据所述第一邻接矩阵、所述第二邻接矩阵以及第二预设损失函数计算所述初始表达量预测模型的第二损失值;依据所述第一损失值以及所述第二损失值,得到所述第一模型损失值;
当所述第一模型损失值小于第一预设损失阈值时,得到预设基因表达量预测模型;
获取多个目标细胞样本各自对应的第一基因调控网络,并通过预设基因表达量预测模型,得到每个目标细胞样本对应的第一基因表达数据;
基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征,并依据所述第一细胞特征,对所述多个目标细胞样本进行聚类,得到多个第一细胞类;
通过预设基因还原网络分别对每个第一细胞类对应的第一基因表达数据进行还原,得到每个第一细胞类中目标细胞样本对应的第二基因调控网络,通过所述预设基因表达量预测模型得到每个第一细胞类中目标细胞样本对应的第二基因表达数据,并拼接所述第二基因表达数据;
依据拼接后的第二基因表达数据,计算每个第一细胞类中目标细胞样本的第二细胞特征,并对所述多个目标细胞样本再次进行聚类,得到多个第二细胞类,若所述第一细胞类与所述第二细胞类一致,则获取拼接后的第二基因表达数据作为所述目标细胞样本的基因表达填充数据;
其中,所述基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征包括:通过预设降维模型对每个所述目标细胞样本对应的所述第一基因表达数据进行降维处理,得到第三基因表达数据;基于每个所述目标细胞样本对应的预设维度的第三基因表达数据,计算任意两个所述目标细胞样本之间的目标细胞相似度;将任一目标细胞样本作为目标节点细胞,并依据所述目标节点细胞与其余目标细胞样本之间的目标细胞相似度,将除所述目标节点细胞外的所述目标细胞样本按照所述目标细胞相似度排序,确定相似度较高的预设数量的所述目标细胞样本;将所述目标节点细胞与所述预设数量的所述目标细胞样本之间分别生成细胞关联边,以构建目标细胞图网络,并将所述目标细胞图网络输入至细胞特征识别模型中,得到第一细胞特征。
2.根据权利要求1所述的方法,其特征在于,所述计算所述初始表达量预测模型对应的第一模型损失值之后,所述方法还包括;
当所述第一模型损失值大于或等于第一预设损失阈值时,依据所述第一模型损失值调整所述初始表达量预测模型的模型参数,通过调整后的初始表达量预测模型的特征识别层以及全连接层,得到各训练细胞样本对应的第二预测数据特征以及第二预测表达数据,并结合所述真实基因表达数据再次计算所述第一模型损失值。
3.根据权利要求2所述的方法,其特征在于,所述得到预设基因表达量预测模型之后,所述方法还包括:
通过所述预设基因表达量预测模型,得到与所述训练细胞样本对应的目标预测表达数据;
基于所述目标预测表达数据,计算不同训练细胞样本之间的训练细胞相似度,依据所述训练细胞相似度,构建第一训练细胞图网络,并将所述第一训练细胞图网络输入至初始特征识别模型,得到各个所述训练细胞样本对应的训练细胞特征;
获取所述第一训练细胞图网络对应的第一细胞图邻接矩阵,并基于所述训练细胞特征,通过第二预设激活函数确定第二训练细胞图网络以及对应的第二细胞图邻接矩阵,依据所述第一细胞图邻接矩阵、所述第二细胞图邻接矩阵以及第三预设损失函数计算所述初始特征识别模型的第二模型损失值;
当所述第二模型损失值大于或等于第二预设损失阈值时,依据所述第二模型损失值调整所述初始特征识别模型的模型参数,并基于调整后的初始特征识别模型,再次计算所述第二模型损失值;
当所述第二模型损失值小于所述第二预设损失阈值时,得到细胞特征识别模型。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取多个目标细胞样本各自对应的第一基因调控网络之前,所述方法还包括:
获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络模板;
获取每个所述目标细胞样本对应的初始基因表达数据,并将所述初始基因表达数据作为所述基因调控网络模板中对应基因的初始值,分别生成与每个目标细胞样本对应的第一基因调控网络。
5.根据权利要求4所述的方法,其特征在于,所述获取每个所述目标细胞样本对应的初始基因表达数据之后,所述方法还包括:
将每个所述目标细胞样本对应的初始基因表达数据通过预设标准化处理函数进行标准化处理,得到处理后的初始基因表达数据。
6.一种基因表达填充数据的获取装置,其特征在于,包括:
获取模块,获取多个训练细胞样本各自对应的第三基因调控网络以及真实基因表达数据,将所述第三基因调控网络输入至初始表达量预测模型的特征识别层中,得到各训练细胞样本对应的第一预测数据特征,并将所述第一预测数据特征输入至所述初始表达量预测模型的全连接层,得到各训练细胞样本对应的第一预测表达数据;
计算模块,用于基于所述第一预测数据特征、所述第一预测表达数据以及所述真实基因表达数据,计算所述初始表达量预测模型对应的第一模型损失值,包括:基于各训练细胞样本对应的所述第一预测表达数据以及对应的所述真实基因表达数据,通过第一预设损失函数计算所述初始表达量预测模型的第一损失值;获取所述第三基因调控网络对应的第一邻接矩阵,并基于各训练细胞样本对应的所述第一预测数据特征,通过第一预设激活函数确定每个所述训练细胞样本对应的第二邻接矩阵,依据所述第一邻接矩阵、所述第二邻接矩阵以及第二预设损失函数计算所述初始表达量预测模型的第二损失值;依据所述第一损失值以及所述第二损失值,得到所述第一模型损失值;
判断模块,用于当所述第一模型损失值小于第一预设损失阈值时,得到预设基因表达量预测模型;
获取模块,还用于获取多个目标细胞样本各自对应的第一基因调控网络,并通过预设基因表达量预测模型,得到每个目标细胞样本对应的第一基因表达数据;
聚类模块,用于基于所述第一基因表达数据,确定每个目标细胞样本对应的第一细胞特征,并依据所述第一细胞特征,对所述多个目标细胞样本进行聚类,得到多个第一细胞类;
拼接模块,用于通过预设基因还原网络分别对每个第一细胞类对应的第一基因表达数据进行还原,得到每个第一细胞类中目标细胞样本对应的第二基因调控网络,通过所述预设基因表达量预测模型得到每个第一细胞类中目标细胞样本对应的第二基因表达数据,并拼接所述第二基因表达数据;
判断模块,用于依据拼接后的第二基因表达数据,计算每个第一细胞类中目标细胞样本的第二细胞特征,并对所述多个目标细胞样本再次进行聚类,得到多个第二细胞类,若所述第一细胞类与所述第二细胞类一致,则获取拼接后的第二基因表达数据作为所述目标细胞样本的基因表达填充数据;
聚类模块,用于通过预设降维模型对每个所述目标细胞样本对应的所述第一基因表达数据进行降维处理,得到第三基因表达数据;基于每个所述目标细胞样本对应的预设维度的第三基因表达数据,计算任意两个所述目标细胞样本之间的目标细胞相似度;将任一目标细胞样本作为目标节点细胞,并依据所述目标节点细胞与其余目标细胞样本之间的目标细胞相似度,将除所述目标节点细胞外的所述目标细胞样本按照所述目标细胞相似度排序,确定相似度较高的预设数量的所述目标细胞样本;将所述目标节点细胞与所述预设数量的所述目标细胞样本之间分别生成细胞关联边,以构建目标细胞图网络,并将所述目标细胞图网络输入至细胞特征识别模型中,得到第一细胞特征。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。
8.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111086804.4A CN113782093B (zh) | 2021-09-16 | 2021-09-16 | 一种基因表达填充数据的获取方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111086804.4A CN113782093B (zh) | 2021-09-16 | 2021-09-16 | 一种基因表达填充数据的获取方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782093A CN113782093A (zh) | 2021-12-10 |
CN113782093B true CN113782093B (zh) | 2024-03-05 |
Family
ID=78851546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111086804.4A Active CN113782093B (zh) | 2021-09-16 | 2021-09-16 | 一种基因表达填充数据的获取方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782093B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115620802B (zh) * | 2022-09-02 | 2023-12-05 | 蔓之研(上海)生物科技有限公司 | 一种基因数据的处理方法及系统 |
CN117253549B (zh) * | 2023-11-15 | 2024-02-09 | 苏州元脑智能科技有限公司 | 通路相关性的确定方法及装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1722309A1 (en) * | 2005-05-12 | 2006-11-15 | Max-Planck-Gesellschaft Zur Förderung Der Wissenschaften E.V. | Method of normalizing gene expression data |
CN108595916A (zh) * | 2018-05-10 | 2018-09-28 | 浙江工业大学 | 基于生成对抗网络的基因表达全谱推断方法 |
CN110222745A (zh) * | 2019-05-24 | 2019-09-10 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
CN110689927A (zh) * | 2019-09-26 | 2020-01-14 | 中山大学 | 耐药性关键基因筛选方法、装置、电子设备及存储介质 |
CN112001329A (zh) * | 2020-08-26 | 2020-11-27 | 东莞太力生物工程有限公司 | 蛋白表达量的预测方法、装置、计算机设备和存储介质 |
CN112201346A (zh) * | 2020-10-12 | 2021-01-08 | 哈尔滨工业大学(深圳) | 癌症生存期预测方法、装置、计算设备及计算机可读存储介质 |
CN112992267A (zh) * | 2021-04-13 | 2021-06-18 | 中国人民解放军军事科学院军事医学研究院 | 一种单细胞的转录因子调控网络预测方法及装置 |
CN113128455A (zh) * | 2021-04-30 | 2021-07-16 | 上海睿钰生物科技有限公司 | 一种细胞图像重构模型训练方法和系统 |
-
2021
- 2021-09-16 CN CN202111086804.4A patent/CN113782093B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1722309A1 (en) * | 2005-05-12 | 2006-11-15 | Max-Planck-Gesellschaft Zur Förderung Der Wissenschaften E.V. | Method of normalizing gene expression data |
CN108595916A (zh) * | 2018-05-10 | 2018-09-28 | 浙江工业大学 | 基于生成对抗网络的基因表达全谱推断方法 |
CN110222745A (zh) * | 2019-05-24 | 2019-09-10 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
CN110689927A (zh) * | 2019-09-26 | 2020-01-14 | 中山大学 | 耐药性关键基因筛选方法、装置、电子设备及存储介质 |
CN112001329A (zh) * | 2020-08-26 | 2020-11-27 | 东莞太力生物工程有限公司 | 蛋白表达量的预测方法、装置、计算机设备和存储介质 |
CN112201346A (zh) * | 2020-10-12 | 2021-01-08 | 哈尔滨工业大学(深圳) | 癌症生存期预测方法、装置、计算设备及计算机可读存储介质 |
CN112992267A (zh) * | 2021-04-13 | 2021-06-18 | 中国人民解放军军事科学院军事医学研究院 | 一种单细胞的转录因子调控网络预测方法及装置 |
CN113128455A (zh) * | 2021-04-30 | 2021-07-16 | 上海睿钰生物科技有限公司 | 一种细胞图像重构模型训练方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113782093A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101190B (zh) | 一种遥感图像分类方法、存储介质及计算设备 | |
CN111738357B (zh) | 垃圾图片的识别方法、装置及设备 | |
CN113782093B (zh) | 一种基因表达填充数据的获取方法及装置、存储介质 | |
EP3889829A1 (en) | Integrated clustering and outlier detection using optimization solver machine | |
CN110636445B (zh) | 基于wifi的室内定位方法、装置、设备及介质 | |
CN112132279B (zh) | 卷积神经网络模型压缩方法、装置、设备及存储介质 | |
CN110929836B (zh) | 神经网络训练及图像处理方法和装置、电子设备、介质 | |
CN110321892B (zh) | 一种图片筛选方法、装置及电子设备 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN111967598A (zh) | 神经网络压缩方法、装置、设备及计算机可读存储介质 | |
CN115130536A (zh) | 特征提取模型的训练方法、数据处理方法、装置及设备 | |
US12106555B2 (en) | Method and device for retrieving image | |
CN111062440B (zh) | 一种样本选择方法、装置、设备及存储介质 | |
CN114299304A (zh) | 一种图像处理方法及相关设备 | |
CN114420135A (zh) | 基于注意力机制的声纹识别方法及装置 | |
CN113128278B (zh) | 一种图像识别方法及装置 | |
CN112183303A (zh) | 变电设备图像分类方法、装置、计算机设备和介质 | |
CN109241249B (zh) | 一种确定突发问题的方法及装置 | |
US20230104345A1 (en) | Image attack detection method and apparatus, and image attack detection model training method and apparatus | |
CN116541712A (zh) | 基于非独立同分布数据的联邦建模方法及系统 | |
CN116128044A (zh) | 一种模型剪枝方法、图像处理方法及相关装置 | |
CN113098974B (zh) | 一种确定人口数量的方法、服务器及存储介质 | |
CN113657136B (zh) | 识别方法及装置 | |
CN113934843A (zh) | 一种基于模型融合的文章分类方法及装置 | |
CN111310823A (zh) | 目标分类方法、装置和电子系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |