CN114882955B - 转录组图像生成装置、方法和应用 - Google Patents

转录组图像生成装置、方法和应用 Download PDF

Info

Publication number
CN114882955B
CN114882955B CN202210368372.4A CN202210368372A CN114882955B CN 114882955 B CN114882955 B CN 114882955B CN 202210368372 A CN202210368372 A CN 202210368372A CN 114882955 B CN114882955 B CN 114882955B
Authority
CN
China
Prior art keywords
transcriptome
image
gene
complete
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210368372.4A
Other languages
English (en)
Other versions
CN114882955A (zh
Inventor
傅肃能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou National Laboratory
Original Assignee
Guangzhou National Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou National Laboratory filed Critical Guangzhou National Laboratory
Priority to CN202210368372.4A priority Critical patent/CN114882955B/zh
Publication of CN114882955A publication Critical patent/CN114882955A/zh
Application granted granted Critical
Publication of CN114882955B publication Critical patent/CN114882955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明涉及一种转录组图像的生成装置、方法和应用,方法包括:获取第一目标生物的基因坐标数据以及第一目标生物的基因表达数据;根据第一目标生物的基因坐标数据确定第一目标生物的基因表达数据中各基因的坐标,将第一目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第一目标生物的基因表达数据中各基因的坐标以及像素强度生成第一目标生物的转录组图像。本发明的转录组图像生成装置用于生成具有明显结构特征且具有深度学习能力的转录组图像和图像库,从而开发高置信度的仿真转录组的合成以及真实与仿真转录组图像和图像库在疾病与病人分类、疾病靶标与生物学标志物发现、个性化早期筛查与预后等精准医学场景中的应用。

Description

转录组图像生成装置、方法和应用
技术邻域
本发明涉及生物信息学技术邻域,具体而言,涉及一种转录组图像生成装置、方法和应用。
背景技术
转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA(mRNA)、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。
转录调控是指通过改变转录速率从而改变基因表达的水平。单个基因可以通过多种方式进行调节,例如,通过改变被转录的RNA拷贝数量,来控制基因转录发生的时间。转录调控通过生物体的部分细胞响应多种细胞内和/或细胞外信号并。细胞通过转录调控功能产可以生编码蛋白的mRNA以适应食物来源变化,产生参与细胞周期特异性活动的基因产物,和/或产生负责多细胞真核生物中细胞分化的基因产物。
转录组测序是指通过高通量测序技术获取细胞中mRNA、Small RNA(micro RNAs、siRNAs和pi RNAs等)以及非编码RNA等RNA序列,以全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本,从而获取各转录本的表达水平。自微阵列和RNA测序技术出现以来,转录组测序数据已成为所有组学数据中研究最全面的数据。
计算机视觉深度学习要求学习的对象有固定的规律和结构特征,然而转录组数据为一维列表且可以随意排序,缺乏结构化特征,转录组的数据呈现方式不能作为深度学习的特征。有研究使用基因的染色体位置作为坐标,将转录组测序数据转换为二维图像,也有研究使用了t分布随机邻域嵌入(t-SNE)将转录组测序数据转换为二维图像,或者在REFIND10中使用贝叶斯度量多维缩放方法将转录组测序数据转换为二维图像。在实际的应用中,这些方法获得的转录组图像仅能实现样本分类,功能较为单一,无法实现其他计算机视觉领域的深度学习能力。
因此,如何获得具有深度学习能力的转录组图像是当前研究的难点。
发明内容
为了解决上述问题,提供具有更多深度学习能力的转录组图像,本发明的第一目的在于提供一种转录组图像生成装置,包括:
数据获取模块:用于获取第一目标生物的基因坐标数据以及第一目标生物的基因表达数据,第一目标生物基因坐标数据包括根据第一目标生物的标准转录组数据集中蛋白编码基因的邻域关系确定的基因坐标;
第一图像生成模块:用于根据第一目标生物的基因坐标数据确定第一目标生物的基因表达数据中各基因的坐标,将第一目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第一目标生物的基因表达数据中各基因的坐标以及像素强度生成第一目标生物的转录组图像。
本发明的一种实现方式中,上述方法还包括:
基因坐标计算模块:用于获取第一目标生物的标准转录组数据集,通过降维算法根据标准转录组数据集中蛋白编码基因的表达量计算第一目标生物蛋白编码基因之间的邻域关系,并将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的基因坐标;
优选的,降维算法包括统一流形逼近与投影算法。
本发明的一种实现方式中,标准转录组数据集包括发育转录组数据、衰老转录组数据、疾病转录组数据、应激转录组数据以及特殊生理状态转录组数据中的至少一种;以及
生殖细胞转录组数据和诱导多能干细胞转录组数据。
本发明的一种实现方式中,将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的基因坐标具体包括:
将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的原始基因坐标,对第一目标生物的原始基因坐标进行旋转和/或缩放处理,得到第一目标生物在第一预设尺寸平面的基因坐标。
本发明的一种实现方式中,还包括第二图像生成模块:
用于根据第二目标生物和第一目标生物的同源基因以及第一目标生物的基因坐标数据确定第二目标生物的基因坐标数据;获取第二目标生物的基因表达数据,根据第二目标生物的基因坐标数据确定第二目标生物的基因表达数据中各基因的坐标;将第二目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第二目标生物的基因表达数据中各基因的坐标以及像素强度生成第二目标生物的转录组图像。
本发明的一种实现方式中,第一图像生成模块和/或第二图像生成模块还用于:
将基因表达数据中每个基因的表达量按照预设规则转换为每个基因的整数表达值,根据相应目标生物的基因表达数据中各基因的坐标以及各基因的整数表达值生成相应的基因表达谱列表,将基因表达谱列表转换成转录组图像矩阵以生成相应的转录组图像,转录组图像矩阵包含基因表达数据中每个基因的坐标以及和每个基因的整数表达值一一对应的像素强度。
本发明的一种实现方式中,预设规则包括以下规则中的至少一种:
1)对于测序转录组数据,通过(log2n+m)*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是每个基因的FPKM值,m为[0,3]之间的整数常数;
2)对于基因芯片转录组数据,通过(log2n-m)*k*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是来自微阵列的探针信号强度,m为[0,3]之间的整数常数,k为[0.5,2.0]之间正数常数。
本发明的一种实现方式中,基因表达谱列表包括以下基因信息:基因名称、基因坐标以及各基因在[1,255]区间的整数表达值;和/或
转录组图像还包括第一虚拟基因和第二虚拟基因,其中,第一虚拟基因的整数表达值为0,坐标为(15,15),第二虚拟基因的整数表达值为255,坐标为(25,25)。
本发明的一种实现方式中,第一图像生成模块和/或第二图像生成模块还用于:
将基因表达谱列表中的基因信息按照各基因表达量升序或降序排列,按照基因表达谱列表中基因信息的排序顺序将转录组图像矩阵中每个基因打印至相应坐标位置生成具有相应像素强度的圆点以构成转录组图像;
优选的,每个基因在转录组图像中由以基因坐标为中心且面积为20~30个像素的圆点表示。
本发明的一种实现方式中,第一目标生物或第二目标生物的基因表达数据为全基因组表达数据时,转录组图像为完整转录组图像;
第一目标生物或第二目标生物的基因表达数据为预设数量基因的表达数据时,转录组图像为非完整转录组图像。
本发明的一种实现方式中,预设数量基因是指基因表达数据中按照基因表达量从高到低排序得到的预设数量表达量最高的基因;和/或
预设数量不小于100;和/或
完整转录组图像或非完整转录组图像的尺寸为第二预设尺寸,第二预设尺寸和第一预设尺寸相同或不同;
优选的,第一预设尺寸为512*512像素;
优选的,第二预设尺寸包括512*512像素、1024*1024像素以及3072*3072像素中的至少一种;和/或
优选的,非完整转录组图像的尺寸为1024*1024像素。
本发明的一种实现方式中,第一目标生物为模式生物;和/或
第二目标生物和第一目标生物具有同源基因;
优选的,第一目标生物包括酵母、玉米、水稻、线虫、果蝇、小鼠、人、狒狒、噬菌体、大肠杆菌、海胆、斑马鱼、爪蟾、拟南芥中的至少一种。
本发明的一种实现方式中,还包括:
第三图像生成模块:用于获取目标图像生成模块输出的完整转录组图像和非完整转录组图像,并将完整转录组图像和非完整转录组图像的尺寸分别调整成第三预设尺寸,将第三预设尺寸的完整转录组图像和非完整转录组图像横向拼接生成第四预设尺寸的完整-非完整配对转录组图像,目标图像生成模块包括第一图像生成模块或者第二图像生成模块;
优选的,第三预设尺寸为768*768像素;
优选的,第四预设尺寸为768*1536像素。
本发明的一种实现方式中,还包括:
第四图像生成模块:用于获取目标图像生成模块输出的两组完整转录组图像,两组完整转录组图像尺寸不同,将两组完整转录组图像中较小尺寸的完整转录组图像压缩为第三预设尺寸的转录组图像,将第三预设尺寸的转录组图像设定为低分辨转录组图像,两组转录组图像中尺寸较大的完整转录组图像设定为高分辨转录组图像,以得到低分辨-高分辨配对转录组图像,目标图像生成模块包括第一图像生成模块或者第二图像生成模块;
优选的,两组完整转录组图像的尺寸分别为1024*1024像素和3072*3072像素;
优选的,高分辨转录组图像的尺寸为3072*3072像素;
优选的,低分辨转录组图像的尺寸为768*768像素。
本发明的第二目的在于提供一种转录组图像库构建装置,包括:
深度学习数据集获取模块:用于获取目标生物的深度学习转录组数据集,深度学习转录组数据集按照样本信息分类包括不同样本类别的转录组数据,样本信息包括转录组样本的组织来源和病理状态;
图像库构建模块:用于将深度学习转录组数据集输入上述转录组图像生成装置以构建深度学习转录组数据集对应的完整转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成装置以构建深度学习转录组数据集对应的非完整转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成装置以构建深度学习转录组数据集对应的完整-非完整配对转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成装置以构建深度学习转录组数据集对应的低分辨-高分辨配对完整转录组图像库。
本发明的第三目的在于提供一种转录组图像补全装置,包括:
图像补全模块:用于获取根据上述转录组图像生成装置生成的非完整转录组图像,将非完整转录组图像输入经训练的图像补全模型,由图像补全模型输出非完整转录组图像对应的补全转录组图像;
其中,图像补全模型采用上述转录组图像生成装置构建的完整-非完整配对转录组图像库训练预先构建的第一机器学习模型得到;
优选的,第一机器学习模型包括GAN模型;
优选的,第一机器学习模型为pix2pix模型。
本发明的第四目的在于提供一种仿真转录组图像合成装置,包括:
仿真转录组图像合成模块:用于通过经训练的条件性转录组图像合成模型合成特定疾病组织或对照组织的仿真转录组图像,条件性转录组图像合成模型通过上述转录组图像库构建装置构建的完整转录组图像库,结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;或者
通过经训练的非条件性转录组图像合成模型合成非特定疾病组织或非特定对照组织仿真转录组图像,非条件性转录组图像合成模型通过权利要求15构建的完整转录组训练图像库,不结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;
优选的,第二机器学习模型包括StyleGAN模型。
本发明的第五目的在于提供一种转录组图像超分辨处理装置,包括:
图像超分辨处理模块:用于获取根据上述转录组图像补全装置生成的补全转录组图像或者上述仿真转录组图像合成装置生成的仿真转录组图像,将补全转录组图像或仿真转录组图像输入经训练的图像超分辨处理模型,由图像超分辨处理模型输出相应的高分辨补全转录组图像或高分辨仿真转录组图像;
其中,图像超分辨处理模型通过上述转录组图像库构建装置构建的低分辨-高分辨配对转录组图像库训练预先构建的第三机器学习模型得到;
优选的,第三机器学习模型包括SRGAN模型。
本发明的一种实现方式中,上述装置还包括:
图像-表达谱转换模块:用于将转录组图像转换成包含转录组图像中每个基因表达量的数值化基因组表达谱,转录组图像包括补全转录组图像和仿真转录组图像中的至少一种。
本发明的第六目的在于提供一种疾病标志物筛选装置,包括:
疾病标志物筛选模块:采用上述转录组图像超分辨处理装置获取预设疾病组织及对照组织的高分辨仿真转录组图像集中每个转录组图像的数值化基因组表达谱;
对疾病组织和对照组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为疾病标志物和/或确定疾病的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为不同疾病亚型的疾病亚型标志物和/或确定不同疾病亚型的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类得到疾病亚型之间的差异表达基因,筛选具有生存预后功能的差异表达基因作为疾病预后标志物。
本发明的第七目的在于提供一种发病机制评估装置,包括:
发病机制评估模块:采用上述转录组图像生成装置获取目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像,将目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像翻转入上述仿真转录组图像合成装置使用的非条件性转录组图像合成模型的潜在空间得到相应的潜在空间疾病组织转录组图像和对照组织转录组图像,以及通过插值分别得到目标患者和对照患者的中间状态转录组图像;将目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像转换成数值化基因组表达谱,通过降维算法根据目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的数值化基因组表达谱计算转录组图像之间的邻域关系坐标,根据目标患者和对照患者潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的邻域关系坐标确定目标患者的发病机制。
本发明的一种实现方式中,还包括:
药物筛选模块:用于根据疾病发病机制筛选药物靶点和/或选择适配的治疗药物;和/或
药物实验病人筛选模块:用于根据药物的靶向机制和疾病发病机制筛选适配病人群进行临床试验;
优选的,降维算法包括统一流形逼近和投影算法。
本发明的第八目的在于提供一种早期疾病标志物筛选装置,包括:
早期疾病标志物筛选模块:用于获取目标受试者正常组织的转录组图像,目标受试者正常组织的转录组图像包括采用上述转录组图像生成装置生目标受试者正常组织的完整转录组图像或者采用上述转录组图像超分辨处理装置生成的目标受试者正常组织的高分辨补全转录组图像;将目标受试者正常组织的转录组图像翻转入上述仿真转录组图像合成装置使用的非条件性转录组图像合成模型的潜在空间并矢量转化为目标受试者疾病组织的转录组图像;将目标受试者正常组织的转录组图像和疾病组织的转录组图像转为数值化基因组表达谱,获取目标受试者两组转录组图像的数值化基因组表达谱之间的差异化表达基因作为早期疾病标志物。
本发明的第九目的在于提供一种确定样本来源的装置,包括:
样本来源确定模块:获取采用上述转录组图像生成装置生成未知来源样本的完整转录组图像或者采用上述转录组图像超分辨处理装置生成未知来源样本的高分辨补全转录组图像;将未知来源样本的转录组图像翻转入上述仿真转录组图像合成装置使用的非条件性转录组图像合成模型的潜在空间生成未知来源样本的潜在空间转录组图像;采用上述仿真转录组图像合成装置使用的非条件性转录组图像合成模型合成不同样本类别的转录组图像;将未知来源样本的潜在空间转录组图像和不同样本类别的转录组图像转换成数值化基因组表达谱,对所有转录组图像的数值化基因组表达谱进行聚类分类以确定未知来源样本所属的样本类别。
本发明的第十目的在于提供一种转录组图像分类装置,包括:
图像分类模块:用于获取待测样本根据上述转录组图像生成装置生成的完整转录组图像或者非完整转录组图像或者采用上述转录组图像超分辨处理装置生成的高分辨补全转录组图像;将完整转录组图像或者非完整转录组图像或者高分辨补全转录组图像输入经训练的转录组图像分类模型,根据转录组图像分类模型的输出预测待测样本是否患预设疾病;
图像分类模型采用上述转录组图像库构建装置构建的的完整转录组图像库或者非完整转录组图像库,或者采用上述图像超分辨处理装置生成的高分辨补全转录组图像库训练预先构建的第四机器学习模型得到;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,非完整转录组图像是指由组织特异表达基因、细胞增殖相关基因和免疫相关基因构成的转录组图像;
优选的,第四机器学习模型包括卷积神经网络模型。
本发明的第十一目的在于提供一种转录组图像机器学习模型构建装置,包括:
第一模型构建模块:用于获取根据上述转录组图像库构建装置构建的完整转录组训练图像库、完整-非完整配对转录组图像库和低分辨-高分辨配对转录组图像库中的至少一种图像库;
采用完整转录组训练图像库训练预先构建的第一机器学习模型,以构建完整转录组图像分类模型;或者
采用完整-非完整配对转录组图像库,训练预先构建的第二机器学习模型,以构建图像补全模型;或者
采用低分辨-高分辨配对转录组图像集训练预先构建的第三机器学习模型,以构建图像超分辨处理模型;
和/或
第二模型构建模块:用于获取根据上述转录组图像库构建装置构建的完整转录组图像库或者非完整转录组图像库,或者采用上述转录组图像补全装置生成的高分辨补全转录组图像库;采用完整转录组图像库或者非完整转录组图像库或者高分辨补全转录组图像库训练预先构建的第四机器学习模型,以得到转录组图像分类模型;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,非完整转录组图像是指由组织特异表达基因、细胞增殖相关基因和免疫相关基因构成的转录组图像;
优选的,第一机器学习模型包括pix2pix模型;和/或
第二机器学习模型包括StyleGAN模型;和/或
第三机器学习模型包括SRGAN模型;和/或
第四机器学习模型包括卷积神经网络模型。
本发明的第十二目的在于提供一种转录组图像生成方法,包括:
数据获取步骤:获取第一目标生物的基因坐标数据以及第一目标生物的基因表达数据,基因坐标数据第一目标生物基因坐标数据包括根据第一目标生物的标准转录组数据集中蛋白编码基因的邻域关系确定的基因坐标;
第一图像生成步骤:根据第一目标生物的基因坐标数据确定第一目标生物的基因表达数据中各基因的坐标,将第一目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第一目标生物的基因表达数据中各基因的坐标以及像素强度生成第一目标生物的转录组图像。
本发明的一种实现方式中,还包括:
基因坐标计算步骤:获取第一目标生物的标准转录组数据集,通过降维算法根据标准转录组数据集中蛋白编码基因的表达量计算第一目标生物蛋白编码基因之间的邻域关系,并将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的基因坐标;
优选的,降维算法包括统一流形逼近与投影算法。
本发明的一种实现方式中,标准转录组数据集包括发育转录组数据、衰老转录组数据、疾病转录组数据、应激转录组数据以及特殊生理状态转录组数据中的至少一种;以及
生殖细胞转录组数据和诱导多能干细胞转录组数据。
本发明的一种实现方式中,第一目标生物蛋白编码基因之间的邻域关系具体包括:
将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的原始基因坐标,对第一目标生物的原始基因坐标进行旋转和/或缩放处理,得到第一目标生物在第一预设尺寸平面的基因坐标。
本发明的一种实现方式中,转录组数据集包括第一目标生物的发育转录组数据、衰老转录组数据、疾病转录组数据、应激转录组数据以及特殊生理状态转录组数据中的至少一种;以及
第一目标生物的生殖细胞转录组数据和诱导多能干细胞转录组数据。
本发明的一种实现方式中,还包括第二图像生成步骤:
用于根据第二目标生物和第一目标生物的同源基因以及第一目标生物的基因坐标数据确定第二目标生物的基因坐标数据;获取第二目标生物的基因表达数据,根据第二目标生物的基因坐标数据确定第二目标生物的基因表达数据中各基因的坐标;将第二目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第二目标生物的基因表达数据中各基因的坐标以及像素强度生成第二目标生物的转录组图像。
本发明的一种实现方式中,第一图像生成步骤和/或第二图像生成步骤还包括:
将基因表达数据中每个基因的表达量按照预设规则转换为每个基因的整数表达值,根据相应目标生物的基因表达数据中各基因的坐标以及各基因的整数表达值生成相应的基因表达谱列表,将基因表达谱列表转换成转录组图像矩阵以生成相应的转录组图像,转录组图像矩阵包含基因表达数据中每个基因的坐标以及和每个基因的整数表达值一一对应的像素强度。
本发明的一种实现方式中,预设规则包括以下规则中的至少一种:
1)对于测序转录组数据,通过(log2n+m)*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是每个基因的FPKM值,m为[0,3]之间的整数常数;
2)对于微阵列转录组数据,通过(log2n-m)*k*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是来自微阵列的探针信号强度,m为[0,3]之间的整数常数,k为[0.5,2.0]之间正数常数。
本发明的一种实现方式中,基因表达谱列表包括以下基因信息:基因名称、基因坐标以及各基因的像素强度;和/或
各基因的像素强度与各基因的像素强度通过五色彩虹渐变色系一一对应;和/或
转录组图像还包括第一虚拟基因和第二虚拟基因,其中,第一虚拟基因的整数表达值为0,坐标为(15,15),第二虚拟基因的整数表达值为255,坐标为(25,25)。
本发明的一种实现方式中,第一图像生成步骤和/或第二图像生成步骤还包括:
将基因表达谱列表中的基因信息按照各基因表达量升序或降序排列,按照基因表达谱列表中基因信息的排序顺序将转录组图像矩阵中每个基因打印至相应坐标位置生成具有相应像素强度的圆点以构成转录组图像;
优选的,每个基因在转录组图像中由以基因坐标为中心且面积为20~30个像素的圆点表示。
本发明的一种实现方式中,第一目标生物或第二目标生物的基因表达数据为全基因组表达数据时,转录组图像为完整转录组图像;
第一目标生物或第二目标生物的基因表达数据为预设数量基因的表达数据时,转录组图像为非完整转录组图像。
本发明的一种实现方式中,预设数量基因是指基因表达数据中按照基因表达量从高到低排序得到的预设数量表达量最高的基因;和/或
预设数量不小于100;和/或
完整转录组图像或非完整转录组图像的尺寸为第二预设尺寸,第二预设尺寸和第一预设尺寸相同或不同;
优选的,第一预设尺寸为512*512像素;
优选的,第二预设尺寸包括512*512像素、1024*1024像素以及3072*3072像素中的至少一种;
优选的,非完整转录组图像的尺寸为1024*1024像素。
本发明的一种实现方式中,第一目标生物为模式生物;和/或
第二目标生物和第一目标生物具有同源基因;
优选的,第一目标生物包括酵母、玉米、水稻、线虫、果蝇、小鼠、人、狒狒、噬菌体、大肠杆菌、海胆、斑马鱼、爪蟾、拟南芥中的至少一种。
本发明的一种实现方式中,上述方法还包括:
第三图像生成步骤:获取目标图像生成步骤输出的完整转录组图像和非完整转录组图像,并将完整转录组图像和非完整转录组图像的尺寸分别调整成第三预设尺寸,将第三预设尺寸的完整转录组图像和非完整转录组图像横向拼接生成第四预设尺寸的完整-非完整配对转录组图像,目标图像生成步骤包括第一图像生成步骤或者第二图像生成步骤;
优选的,第三预设尺寸为768*768像素;
优选的,第四预设尺寸为768*1536像素。
本发明的一种实现方式中,上述方法还包括:
第四图像生成步骤:获取目标图像生成步骤输出的两组完整转录组图像,两组完整转录组图像尺寸不同,将两组完整转录组图像中较小尺寸的完整转录组图像压缩为第三预设尺寸的转录组图像,将第三预设尺寸的转录组图像设定为低分辨转录组图像,两组转录组图像中尺寸较大的完整转录组图像设定为高分辨转录组图像,以得到低分辨-高分辨配对转录组图像,目标图像生成步骤包括第一图像生成步骤或者第二图像生成步骤;
优选的,两组完整转录组图像的尺寸分别为1024*1024像素和3072*3072像素;
优选的,高分辨转录组图像的尺寸为3072*3072像素;
优选的,低分辨转录组图像的尺寸为768*768像素。
本发明的第十三目的在于提供一种转录组图像库构建方法,包括:
深度学习数据集获取步骤:获取目标生物的深度学习转录组数据集,深度学习转录组数据集按照样本信息分类包括不同样本类别的转录组数据,样本信息包括转录组样本的组织来源和病理状态;
图像库构建步骤:将深度学习转录组数据集输入上述转录组图像生成方法以构建深度学习转录组数据集对应的完整转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成方法以构建深度学习转录组数据集对应的非完整转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成方法以构建深度学习转录组数据集对应的完整-非完整配对转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成方法以构建深度学习转录组数据集对应的低分辨-高分辨配对完整转录组图像库。
本发明的第十四目的在于提供一种转录组图像补全方法,包括:
图像补全步骤:获取根据上述转录组图像生成方法生成的非完整转录组图像,将非完整转录组图像输入经训练的图像补全模型,由图像补全模型输出非完整转录组图像对应的补全转录组图像;
其中,图像补全模型采用上述转录组图像生成方法构建的完整-非完整配对转录组图像库训练预先构建的第一机器学习模型得到;
优选的,第一机器学习模型包括GAN模型;
优选的,第一机器学习模型为pix2pix模型。
本发明的第十五目的在于提供一种仿真转录组图像合成方法,包括:
仿真转录组图像合成步骤:通过经训练的条件性转录组图像合成模型合成特定疾病组织或对照组织的仿真转录组图像,条件性转录组图像合成模型通过上述转录组图像库构建方法构建的完整转录组图像库,结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;或者
通过经训练的非条件性转录组图像合成模型合成非特定疾病组织或非特定对照组织仿真转录组图像,非条件性转录组图像合成模型通过上述转录组图像库构建方法构建的完整转录组训练图像库,不结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;
优选的,第二机器学习模型包括StyleGAN模型。
本发明的第十六目的在于提供一种转录组图像超分辨处理方法,包括:
图像超分辨处理步骤:获取根据上述转录组图像补全方法生成的补全转录组图像或者上述转录组图像补全方法生成的仿真转录组图像,将补全转录组图像或仿真转录组图像输入经训练的图像超分辨处理模型,由图像超分辨处理模型输出相应的高分辨补全转录组图像或高分辨仿真转录组图像;
其中,图像超分辨处理模型通过上述转录组图像库构建方法构建的低分辨-高分辨配对转录组图像库训练预先构建的第三机器学习模型得到;
优选的,第三机器学习模型包括SRGAN模型。
本发明的一种实现方式中,上述方法还包括:
图像-表达谱转换步骤:将转录组图像转换成包含转录组图像中每个基因表达量的数值化基因组表达谱,转录组图像包括补全转录组图像和仿真转录组图像中的至少一种。
本发明的第十七目的在于提供一种疾病标志物筛选方法,包括:
疾病标志物筛选步骤:采用上述转录组图像超分辨处理方法获取预设疾病组织及对照组织的高分辨仿真转录组图像集中每个转录组图像的数值化基因组表达谱;
对疾病组织和对照组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为疾病标志物和/或确定疾病的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为不同疾病亚型的疾病亚型标志物和/或确定不同疾病亚型的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类得到疾病亚型之间的差异表达基因,筛选具有生存预后功能的差异表达基因作为疾病预后标志物。
本发明的第十八目的在于提供一种发病机制评估方法,包括:
发病机制评估步骤:采用上述转录组图像生成方法获取目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像,将目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像翻转入上述仿真转录组图像合成方法使用的非条件性转录组图像合成模型的潜在空间得到相应的潜在空间疾病组织转录组图像和对照组织转录组图像,以及通过插值分别得到目标患者和对照患者的中间状态转录组图像;将目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像转换成数值化基因组表达谱,通过降维算法根据目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的数值化基因组表达谱计算转录组图像之间的邻域关系坐标,根据目标患者和对照患者潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的邻域关系坐标确定目标患者的发病机制。
本发明的一种实现方式中,还包括:
药物筛选步骤:根据疾病发病机制筛选药物靶点和/或选择适配的治疗药物;和/或
药物实验病人筛选步骤:根据药物的靶向机制和疾病发病机制筛选适配病人群进行临床试验;
优选的,降维算法包括统一流形逼近与投影算法。
本发明的第十九目的在于提供一种早期疾病标志物筛选方法,包括:
早期疾病标志物筛选步骤:获取目标受试者正常组织的转录组图像,目标受试者正常组织的转录组图像包括采用上述转录组图像生成方法生成的目标受试者正常组织的完整转录组图像或者采用上述转录组图像超分辨处理方法生成的目标受试者正常组织的高分辨补全转录组图像;将目标受试者正常组织的转录组图像翻转入上述仿真转录组图像合成方法使用的非条件性转录组图像合成模型的潜在空间并矢量转化为目标受试者疾病组织的转录组图像;将目标受试者正常组织的转录组图像和疾病组织的转录组图像转为数值化基因组表达谱,目标受试者两组转录组图像的数值化基因组表达谱之间的差异化表达基因作为早期疾病标志物。
本发明的第二十目的在于提供一种确定样本来源的方法,包括:
样本来源确定步骤:获取采用上述转录组图像生成方法生成未知来源样本的完整转录组图像或者采用上述转录组图像超分辨处理方法生成未知来源样本的高分辨补全转录组图像;将未知来源样本的转录组图像翻转入上述仿真转录组图像合成方法使用的非条件性转录组图像合成模型的潜在空间生成未知来源样本的潜在空间转录组图像;采用上述仿真转录组图像合成方法使用的非条件性转录组图像合成模型合成不同样本类别的转录组图像;将未知来源样本的潜在空间转录组图像和不同样本类别的转录组图像转换成数值化基因组表达谱,对所有转录组图像的数值化基因组表达谱进行聚类分类以确定未知来源样本所属的样本类别。
本发明的第二十一目的在于提供一种转录组图像分类方法,包括:
图像分类步骤:获取待测样本根据上述转录组图像生成方法生成的完整转录组图像或者非完整转录组图像或者采用上述转录组图像超分辨处理方法生成的高分辨补全转录组图像;将完整转录组图像或者高分辨补全转录组图像输入经训练的转录组图像分类模型,根据转录组图像分类模型的输出预测待测样本是否患预设疾病;
图像分类模型采用上述转录组图像库构建方法构建的完整转录组图像库或者非完整转录组图像库,或者采用上述转录组图像补全方法生成的高分辨转录组图像库训练预先构建的第四机器学习模型得到;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,非完整转录组图像是指由组织特异表达基因、细胞增殖相关基因和免疫相关基因构成的转录组图像;
优选的,第四机器学习模型包括卷积神经网络模型。
本发明的第二十二目的在于提供一种转录组图像机器学习模型构建方法,包括:
第一模型构建步骤:获取根据上述转录组图像库构建方法构建的完整转录组训练图像库、完整-非完整配对转录组图像库和低分辨-高分辨配对转录组图像库中的至少一种图像库;
采用完整转录组训练图像库训练预先构建的第一机器学习模型,以构建完整转录组图像分类模型;或者
采用完整-非完整配对转录组图像库,训练预先构建的第二机器学习模型,以构建图像补全模型;或者
采用低分辨-高分辨配对转录组图像集训练预先构建的第三机器学习模型,以构建图像超分辨处理模型;
和/或
第二模型构建步骤:获取根据上述转录组图像生成方法生成的完整转录组图像库或者非完整转录组图像库,或者采用上述转录组图像补全方法生成的补全转录组图像库;采用完整转录组图像库或者非完整转录组图像库或者补全转录组图像库训练预先构建的第四机器学习模型,以得到转录组图像分类模型;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,非完整转录组图像是指由组织特异表达基因、细胞增殖相关基因和免疫相关基因构成的转录组图像;
优选的,第一机器学习模型包括pix2pix模型;和/或
第二机器学习模型包括StyleGAN模型;和/或
第三机器学习模型包括SRGAN模型;和/或
第四机器学习模型包括卷积神经网络模型。
上述装置和方法在疾病诊断和治疗或者非疾病诊断和治疗中的应用。
上述装置或方法获取的第一目标生物的基因坐标数据或者上述装置或方法得到的第二目标生物的基因坐标数据将相应目标生物的基因组学信息中每个基因的信息以相应的像素强度呈现于每个基因的坐标对应的像素点位置,每个基因的像素强度与基因组信息每个基因的信息相对应;
优选的,基因组信息包括基因组中每个基因的基因突变、基因拷贝数、基因表观遗传修饰、基因转录速度、基因转录本剪接、基因转录本数目、基因转录本翻译速度、基因编码蛋白质丰度、基因编码蛋白质降解速度、基因编码蛋白质翻译后修饰、基因编码蛋白质活性和基因间互作信息中的至少一种。
本发明还涉及一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,处理器执行计算机程序时实现上述方法的步骤。
本发明还涉及一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述方法的步骤。
本发明还涉及一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现上述方法的步骤。
本发明成功合成了具有深度学习能力的转录组图像,搭建了多套用于深度学习的转录组图像数据库,并通过对这些转录组图像数据库的深度学习实现了转录组样本鉴别、分类、疾病生物学标志物的发现和疾病预后、疾病机制的发现和个性化药物选择建议等一系列目标。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例1提供的小鼠转录组图像的不同区域的基因功能示意图;
图1b为本发明实施例1提供的小鼠不同组织或细胞的转录组图像;
图1c为本发明实施例2提供的狒狒不同组织或细胞的转录组图像;
图2a~图2c表示本发明实施例3提供的鳞状细胞肺癌转录组数据(GSE19804)的癌(T)与癌旁正常(N)组织转录组图像;
图2d表示本发明实施例5提供的基于卷积神经网络的鳞状细胞肺癌与癌旁组织转录组图像分类模型训练效果图;
图2e表示本发明实施例5提供的肺癌病人(#109)肺癌组织和癌旁组织非完整转录组图像;
图2f表示本发明实施例5提供的基于卷积神经网络的鳞状细胞肺癌与癌旁组织非完整转录组图像分类模型测试效果图;
图2g表示本发明实施例3提供的基于肺泡脂质分泌物蛋白(surfacant proteinA2,SFTPA2)转录本水平的肺腺癌病人中位生存期(median survival time,MST)预测结果;
图2h表示本发明实施例3提供的基于SFTPA2转录本水平的鳞状细胞肺癌生存期预测结果;
图3a表示本发明实施例4提供的基于pix2pix和super resolution GAN(SRGAN)两个生成式对抗网络的转录组图像推算过程示意图;
图3b表示本发明实施例4提供的通过pix2pix-SRGAN两步法机器学习合成的转录组图像;
图3c表示本发明实施例4提供的基于pix2pix-SRGAN两步法由表达量最高的两百个基因表达量推算全基因组基因表达量的绝对误差均值(mean absolute error,MAE)分析示意图;
图3d表示本发明实施例4提供的基于pix2pix-SRGAN两步法由表达量最高的两百个基因表达量推算全基因组基因表达量的皮尔逊相关系数分布图;
图3e表示本发明实施例5提供的真实与推算的肺腺癌与鳞癌转录组基因表达量差值分布图;
图3f表示本发明实施例5提供的卷积神经网络100%成功判别推算而来的肺鳞癌和癌旁组织转录组图像;
图4a表示本发明实施例6提供的条件性(conitional)和非条件性(unconditional)StyleGAN-ADA训练模型、仿真转录组从头合成、转录组潜在空间插值取样的流程图;
图4b表示本发明实施例7提供的条件性StyleGAN-ADA训练后生成的鳞状细胞肺癌(LUSC)仿真转录组亚型中与细胞粘附、线粒体呼吸链复合物I、免疫功能相关的代表性基因表达情况示意图;
图4c表示本发明实施例7提供的鳞状细胞肺癌临床样本转录组数据中线粒体呼吸链复合体I、SFTPA2、CD48等相关基因表达量分布情况示意图;
图4d~图4f本发明实施例7提供的表示鳞状细胞肺癌病人确诊后生存概率分布图;
图4g表示本发明实施例8提供的转录组潜在空间插值取样示意图;
图4h表示本发明实施例8提供的插值取样转录组在流形空间的投影坐标示意图;
图4i表示本发明实施例8提供的细胞周期基因E2F7表达量与UMAP2维度关联的示意图;
图4j表示本发明实施例8提供的STRING基因网络分析癌症发生机制示意图;
图5a表示本发明实施例2提供的狒狒转录组数据二维成像过程;
图5b表示本发明实施例2提供的狒狒不同组织的转录组图像;
图5c表示本发明实施例2提供的狒狒肺组织昼夜节律转录组图像;
图6表示本发明实施例3提供的人类转录组图像判断肿瘤免疫冷和肿瘤免疫热的示意图;
图7表示本发明实施例5提供的Keras卷积神经网络学习区分鳞状细胞肺癌转录组图片和癌旁组织转录组图片的流程图;
图8a表示本发明实施例4提供的基于pix2pix和SRGAN的生成式对抗网络训练过程示意图;
图8b表示本发明实施例4提供的pix2pix生成式对抗网络训练过程中,其生成模型(generative model)损失函数值(G_Loss)变化示意图;
图8c表示本发明实施例4提供的SRGAN生成式对抗网络训练过程中,生成模型(generative model)损失函数值(G_Loss)变化示意图;
图8d表示本发明实施例4提供的SRGAN生成式对抗网络训练过程中,生成模型(generative model)合成的转录组图片的最大信噪比(peak signal to noise ratio,PSNR)变化示意图;
图8e表示本发明实施例4提供的pix2pix-SRGAN相结合的转录组补全模型推算基因表达值绝对误差均值(mean absolute error,MAE)分布图;
图8f表示本发明实施例4提供的pix2pix-SRGAN相结合的转录组补全模型推算基因表达值与真实表达值间的皮尔森相关系数(Pearson correlation coefficient)分布图;
图9a表示本发明实施例6提供的条件性StyleGAN-ADA模型训练及后续分析流程图;
图9b表示本发明实施例7提供的仿真鳞状细胞肺癌转录组的hclust聚类分析和差异表达基因(DEG)的DAVID功能富集分析示意图;
图9c表示本发明实施例7提供的线粒体呼吸链复合体I(electron transportcomplex I,ETCI)相关基因表达水平对鳞状细胞肺癌病人生存影响的示意图;
图9d表示本发明实施例7提供的免疫相关基因CD48的表达水平对鳞状细胞肺癌病人生存影响的示意图;
图10a表示本发明实施例8提供的非条件性StyleGAN-ADA模型训练流程图;
图10b表示本发明实施例8提供的非条件性StyleGAN-ADA模型w+隐空间插值取样与分析示意图;
图10c表示本发明实施例8提供的鳞状细胞肺癌转录组数据(GSE19804)聚类分析示意图;
图10d表示本发明实施例8提供的目标病人转录组癌与癌旁组织转录组图像;
图11表示本发明提供的转录组图像生成方法的流程图;
图12表示本发明提供的转录组图像生成装置的结构示意图;
图13表示本发明提供的计算机设备的内部结构示意图。
具体实施方式
现将详细地提供本发明实施方式的参考,其一个或多个实例描述于下文。提供每一实例作为解释而非限制本发明。实际上,对本领域技术人员而言,显而易见的是,可以对本发明进行多种修改和变化而不背离本发明的范围或精神。例如,作为一个实施方式的部分而说明或描述的特征可以用于另一实施方式中,来产生更进一步的实施方式。
因此,旨在本发明覆盖落入所附权利要求的范围及其等同范围中的此类修改和变化。本发明的其它对象、特征和方面公开于以下详细描述中或从中是显而易见的。本领域普通技术人员应理解本讨论仅是示例性实施方式的描述,而非意在限制本发明更广阔的方面。
传统研究使用基因的染色体位置作为坐标,实现了将转录组数据转换为二维图像,还有研究使用了t分布随机邻域嵌入(t-SNE)将转录组数据转换为二维图像,或者在REFIND10中使用贝叶斯度量多维缩放方法将转录组数据转换为二维图像。
在实际的应用中,这些方法获得的转录组图像仅能实现样本分类,功能较为单一,无法实现其他计算机视觉领域的深度学习能力。
为了解决上述问题中的至少一个,如图11所示,图11示出了本发明实施例提供的一种转录组图像生成方法的流程示意图,该方法可以由任意的电子设备执行,该转录组图像生成方法可以包括以下步骤S110-步骤S120。
数据获取步骤S110:获取第一目标生物的基因坐标数据以及第一目标生物的基因表达数据,第一目标生物的基因坐标数据包括根据第一目标生物的标准转录组数据集中蛋白编码基因的邻域关系确定的基因坐标;
第一图像生成步骤S120:根据第一目标生物的基因坐标数据确定第一目标生物的基因表达数据中各基因的坐标,将第一目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第一目标生物的基因表达数据中各基因的坐标以及像素强度生成第一目标生物的转录组图像。
具体地,第一目标生物是指具有丰富且优质表达谱数据的物种,例如小鼠和人等。
一些实施方式中,第一目标生物为模式生物,模式生物一般指可用于研究与揭示生命体某种具有普遍规律的生物现象的一类生物,本发明中,模式生物是指所有可以实现基于转录组数据转换成可用于深度学习的转录组图像的所有生物。
具体而言,第一目标生物包括酵母、玉米、水稻、线虫、果蝇、小鼠、人、狒狒、噬菌体、大肠杆菌、海胆、斑马鱼、爪蟾、拟南芥中的至少一种。
具体地,第一目标生物的基因坐标数据包括根据第一目标生物的标准数据集中在不同实验条件下不同组织和/或细胞中基于蛋白编码基因之间表达相似性的邻域关系而确定的基因坐标;进一步,基于蛋白编码基因之间表达相似性邻域关系而确定的基因坐标是指通过降维算法根据蛋白编码基因表达量计算得到的邻域关系投影在二维空间得到的基因坐标。其中,不同实验条件包括不同发育阶段、衰老状态、疾病状态、应激状态、不同的生理状态等各种条件,不同组织包括肺、胃和肝等组织,不同细胞包括体细胞、生殖细胞和诱导干细胞等等。
因此,为了获取第一目标生物的基因坐标数据,上述方法还包括计算第一目标生物的基因坐标的步骤,具体包括:
获取第一目标生物的标准转录组数据集,通过降维算法根据标准转录组数据集中蛋白编码基因的表达量计算第一目标生物蛋白编码基因之间的邻域关系,并将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的基因坐标。
具体地,对于任何生物而言,能够用于计算基因坐标并且根据该基因坐标生成能够用于机器学习转录组图像的转录组数据集都可以作为标准转录组数据集。本发明中,标准转录组数据集是指满足一定的样本选取标准的转录组数据集,且根据该转录组数据集计算基因之间的邻域关系而确定的基因坐标生成的转录组图像能够用于机器学习。一般而言,标准转录组数据集的样本选取标准满足以下三个条件:
1)样本量大且具有丰富的生物多样性;具体地,数据总样本数不小于200,总样本来源的细胞、组织、疾病种类不小于50个,单次转录组测序实验的组织/细胞水平的多样性不小于10;
2)样本来源具有平衡性,每种细胞或组织的转录组数据在总转录组数据集中的比例不宜过高也不宜过低;具体地,每种细胞或组织的转录组数据的比例不宜超过2%,不宜低于0.01%;
3)数据集中采集和处理,并具有最小的非生物误差,实验批次控制在20以内。
第一目标生物的标准转录组数据集可从现有的相应物种的经标准化处理的转录组数据库中获取。可以理解的是,第一目标生物的标准转录组数据集包括第一目标生物不同组织和/或细胞在不同发育阶段、不同疾病状态、不同衰老状态、不同应激状态以及不同生理状态下的转录组数据集,还包括不同类型细胞的转录组数据。
一些具体实施方案中,第一目标生物的标准转录组数据集包括第一目标生物的发育转录组数据、衰老转录组数据、疾病转录组数据、应激转录组数据以及特殊生理状态转录组数据中的至少一种;以及第一目标生物的生殖细胞转录组数据和诱导多能干细胞转录组数据。
其中,第一目标生物的发育转录组数据包括第一目标生物在不同发育阶段的不同组织和/或细胞的转录组数据,例如胚胎期的转录组数据;衰老转录组数据包括第一目标生物处于衰老状态的不同组织和/或细胞的转录组数据;疾病转录组数据包括第一目标生物处于不同疾病状态下的不同组织和/或细胞的转录组数据,例如癌症组织和癌旁组织的转录组数据;应激转录组数据包括第一目标生物处于应激状态的不同组织和/或细胞的转录组数据,如热休克应激状态的转录组数据;特殊生理状态转录组数据是指第一目标生物处于不同生理状态的转录组数据,例如睡眠状态和非睡眠状态下的转录组数据等等;第一目标生物的生殖细胞转录组数据包括精子和/卵子的转录组数据。可以理解的是,根据数据研究目的的不同,特殊生理状态转录组数据可以包含进食与饥饿、运动与静息、昼夜节律变换等实验条件下采集的转录组数据,疾病转录组数据可以包括癌症患者患病后的转录组数据和患病前作为对照的转录组数据,或者癌症患者和健康受试者对照的转录组数据。
具体地,本发明采用了ENCODE3(ENCSR574CRQ)、Tabula Muris Senis(GSE132040)、以及DBTMEE(DRA000484)三个转录组数据集,用UMAP算法计算小鼠全基因组蛋白质编码基因的邻域关系坐标,从而获得小鼠全基因组蛋白质编码基因的坐标。
其中,统一流形逼近与投影(UMAP,Uniform Manifold Approximation andProjection)是一种降维流形学习技术,其假设可用数据样本均匀(Uniform)分布在拓扑空间(Manifold)中,可以从这些有限数据样本中近似(Approximation)并映射(Projection)到低维空间,是一种非常有效的可视化和可伸缩降维算法。在可视化质量方面,UMAP算法保留了更多全局结构、具有优越的运行性能和更好的可扩展性。此外,UMAP对嵌入维数没有计算限制,使得它可以作为机器学习的通用维数约简技术。
本发明创造性地将UMAP算法中数据样本的均匀分布假设运用于基因组内基因间关系上,把描述基因间所有关系的空间视为基因组拓扑空间,每个基因在这拓扑空间的位置由基因在每个转录组样本维度上的表达量计算而得的欧几里德邻域关系,然后降维投影到二维平面,可以得到基因组中每个蛋白编码基因的坐标。
基因坐标计算过程中,UMAP首先使用Nearest-Neighbor-Descent算法找到每个基因最近的邻居,通过调整UMAP的n_neighbors超参数来指定使用多少个近邻点,也即邻域数。UMAP通过在尝试学习流形结构时限制局部邻域的大小来实现平衡数据中的局部和全局结构。一个小的邻域数意味着处理结果需要一个非常局部的解释,准确地捕捉结构的细节。而较大的邻域数意味着处理结果将基于更大的区域产生,因此处理结果在整个流形中整体上更准确。可以理解的是,根据局部和全局结构的平衡需求,可以设置不同的邻域数计算邻域关系坐标。
本发明通过调整邻域数值为15,使得UMAP计算的基因基于相似性表达的邻域关系坐标分布于二维平面空间形成鸟形流形图,获得了具有深度学习能力的转录组图像。
本发明的转录组图像可以单独地、直接地投入应用。首先,转录组图像本身可以在发生样本混淆的情况下直接帮助判断转录组样本来源,具体地可以根据转录组图像特定功能区的颜色判定其组织来源;此外,转录组图像本身可以提示组织样本的取样时间以及判断疾病性质,如免疫冷或免疫热疾病等等。
一些实施方案中,为了将基因表达数据呈现在一定尺寸的平面上,便于后续用于机器学习,将将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的基因坐标具体包括:
将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的原始基因坐标,对第一目标生物的原始基因坐标进行旋转和/或缩放处理,得到第一目标生物在第一预设尺寸平面的基因坐标。
具体地,原始基因坐标是指UMAP算法根据标准转录组数据集中蛋白质编码基因表达量计算的蛋白编码基因邻域关系坐标,由于根据原始基因坐标形成的转录组图像的尺寸无法用于机器学习,通过将原始基因坐标中每个基因的坐标进行旋转和/或缩放,得到每个基因在第一预设尺寸平面内的基因坐标,进而获得第一预设尺寸的转录组图像,从而使得转录组图像的尺寸能够满足机器学习的要求。
一些实施方案中,对于其他生物的基因坐标,可以根据第一目标生物的基因坐标以及不同生物之间的同源基因得到其他生物的基因坐标,因此,上述方法还包括:
第二图像生成步骤:根据第二目标生物和第一目标生物的同源基因以及第一目标生物的基因坐标数据确定第二目标生物的基因坐标数据;获取第二目标生物的基因表达数据,根据第二目标生物的基因坐标数据确定第二目标生物的基因表达数据中各基因的坐标;将第二目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第二目标生物的基因表达数据中各基因的坐标以及像素强度生成第二目标生物的转录组图像。
具体地,第二目标生物是具有高进化保守性且与第一目标生物具有同源基因的生物。一些具体实施方案中,第二目标生物可以是人或狒狒等。根据第一目标生物和第二目标生物的同源关系,将第一目标生物的基因坐标引入第二目标生物的基因组,得到第二目标生物的基因坐标数据。
例如,第一目标生物是小鼠时,可以根据小鼠的基因坐标数据以及小鼠和人的同源基因,得到人的基因坐标数据;或者第一目标生物为人时,可以根据人和狒狒的同源基因,从人的基因坐标数据中得到狒狒的基因坐标数据。
进一步,根据第二目标生物的基因坐标数据确定第二目标生物的基因表达数据中各基因的坐标,用于在第二目标图像矩阵中定位各基因,第二目标生物的基因表达数据中各基因的表达量用于转换成基因的像素强度以用于在转录组图像中显示基因的表达量信息。
一些具体实施方案中,第一图像生成步骤或第二图像生成步骤具体包括:
将基因表达数据中每个基因的表达量按照预设规则转换为每个基因的整数表达值,根据相应目标生物的基因表达数据中各基因的坐标以及各基因的整数表达值生成相应的基因表达谱列表,将基因表达谱列表转换成转录组图像矩阵以生成相应的转录组图像,转录组图像矩阵包含基因表达数据中每个基因的坐标以及和每个基因的整数表达值一一对应的像素强度。
具体地,预设规则是指将基因表达量转换为基因的整数表达值的运算规则,进一步是指将基因表达量转换为基因在[1,255]区间的整数表达值的运算规则,根据基因表达数据的检测方法的不同,基因的表达量可以是根据RNAseq转录组测序数据得到的表达量,也可以是微阵列测序得到的探针信号强度。
一些具体实施方案中,预设规则包括以下规则中的至少一种:
1)对于测序转录组数据,通过(log2n*14+m)+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是每个基因的FPKM值,m为[0,3]之间整数常数;需要说明的是,m的取值满足基因组不少于50%的基因表达量经转化后在[1,255]区间内为佳;进一步,m的取值满足基因组不少于90%的基因表达量经转化后在[1,255]区间内为佳;为了达到更好的深度学习效果,本发明的m的取值满足基因组不少于90%的基因表达量经转化后在[1,255]区间内。
2)对于基因芯片转录组数据,通过(log2n-m)*k*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是来自微阵列的探针信号强度,m为[0,3]之间的整数常数,k为[0.5,2.0]之间正数常数,其中,k一般取小数点后保留一位的常数即可,m、k、n的取值满足基因组不少于50%的基因表达量经转化后在[1,255]区间内为佳;进一步,m、k、n的取值满足基因组不少于90%的基因表达量经转化后在[1,255]区间内为佳;为了达到更好的深度学习效果,本发明的m、k、n的取值满足基因组不少于90%的基因表达量经转化后在[1,255]区间内。
一些实施方案中,根据基因在[1,255]区间的整数表达值与基因的像素强度一一对应,基因的像素强度可以为单通道的像素强度,也可以为多通道的像素强度。为了实现更好的深度学习效果,本发明的基因在[1,255]区间的整数表达值与彩色色系的像素强度一一对应。具体地,通过ggplot2将基因表达谱列表转换为RGBA四通道的转录组图像矩阵,以将基因在[1,255]区间的整数表达值转换为基因在RGBA四通道的像素强度,使得基因在[1,255]区间的整数表达值与基因的像素强度通过五色彩虹渐变色系一一对应,其中,红色对应的整数表达值为0,紫色对应的整数表达值为255,每个整数表达值对应一个五色彩虹渐变色系中的一个颜色,不同的整数表达值即表示不同颜色,每个颜色的RGBA四通道像素强度是已知的,根据基因的整数表达值即可通过五色彩虹渐变色系确定每个基因的RGBA四通道的像素强度。
一些具体实施方案中,基因表达谱列表包括以下基因信息:基因名称、基因坐标以及基因在[1,255]区间的整数表达值。基因表达谱列表中的基因信息按照基因的表达量升序或降序排列。
其中,将基因表达谱列表转换成转录组图像矩阵以生成相应的转录组图像具体包括:
将基因表达谱列表中的基因信息按照各基因表达量升序或降序排列,按照基因表达谱列表中基因信息的排序顺序将转录组图像矩阵中每个基因打印至相应坐标位置生成具有相应像素强度的圆点以构成转录组图像。
一些具体实施方案中,为了减少转录组图像的信息稀疏性,每个基因在转录组图像中由以基因坐标为中心且面积为20~30个像素的圆点表示。
可以理解的是,由于基因坐标有部分重叠,将基因表达谱列表转换成转录组图像矩阵进行打印时,先打印的基因信息会被后打印的基因信息覆盖掉,所以先打印表达量低的基因再打印表达量高的基因以确保表达量高的基因信息能尽可能被保留。也就是说,为了保留高表达基因的表达数据,ggplot2按照表达量的升序读取基因表达谱列表中的基因信息并生成转录组图像,从而将高表达基因对应的基因表达谱列表转换成转录组图像。
需要说明的是,本发明的第一目标生物或第二目标生物的基因表达数据可以为全基因组表达数据,也可以为基因组部分基因的表达数据。第一目标生物或第二目标生物的基因表达数据为全基因组表达数据时,转录组图像为完整转录组图像;第一目标生物或第二目标生物的基因表达数据为部分基因的表达数据时,转录组图像为非完整转录组图像。
一些具体实施方案中,采用部分基因的表达数据获得非完整转录组图像时,优先采用表达量高的基因表达数据转换为非完整转录组图像,预设数量基因是指基因表达数据中按照基因表达量从高到低排序得到的预设数量表达量最高的基因。
一些具体实施方案中,预设数量不小于100。进一步,预设数量可以为100~200。
一些具体实施方案中,转录组图像矩阵中各基因的坐标是指各基因在第一预设尺寸平面的坐标;完整转录组图像或非完整转录组图像的尺寸为第二预设尺寸;第二预设尺寸和第一预设尺寸相同或不同。
一些具体实施方案中,第一预设尺寸为512*512像素;第二预设尺寸包括512*512像素、1024*1024像素以及3072*3072像素中的至少一种;非完整转录组图像的尺寸为1024*1024像素。
一些具体实施方案中,转录组图像还包括第一虚拟基因和第二虚拟基因,其中,第一虚拟基因的整数表达值为0,坐标为(15,15),第二虚拟基因的整数表达值为255,坐标为(25,25)。
一些实施方案中,上述方法还包括:
获取第一图像生成步骤或第二图像生成步骤生成的完整转录组图像和非完整转录组图像,将完整转录组图像和非完整转录组图像横向拼接生成完整-非完整配对转录组图像。
具体地,完整转录组图像和非完整转录组图像是指同一生物同一样本的全基因组转录组图像和预设数量基因转录组图像。对于尺寸相同的完整转录组图像和非完整转录组图像,可以直接通过横向拼接生成完整-非完整配对转录组图像,对于尺寸不同的完整转录组图像和非完整转录组图像,将完整转录组图像和非完整转录组图像的尺寸分别调整成第三预设尺寸,将第三预设尺寸的完整转录组图像和非完整转录组图像横向拼接生成第四预设尺寸的完整-非完整配对转录组图像。
本发明的完整-非完整配对转录组图像用于训练机器学习模型,使得机器学习模型能够生成非完整转录组图像配对的完整转录组图像,从而实现对仅呈现部分基因表达数据的非完整转录组图像进行图像补全,生成相应的含有基因组表达数据的完整转录组图像。
一些具体实施方案中,第三预设尺寸为768*768像素,第四预设尺寸为768*1536像素。
一些具体实施方案中,上述方法还包括:
获取第一图像生成模块或第二图像生成模块输出的两组完整转录组图像,两组完整转录组图像尺寸不同,将两组完整转录组图像中较小尺寸的完整转录组图像压缩为第三预设尺寸的转录组图像,将第三预设尺寸的转录组图像设定为低分辨转录组图像,两组转录组图像中尺寸较大的完整转录组图像设定为高分辨转录组图像,以得到低分辨-高分辨配对转录组图像。
可以理解的是,用ggplot2生成图片的时候,每个基因占用的像素是固定的,具体个数可以为20~30中的任意一个整数,因此,图片越小,基因间的重叠就越大,照片就比较“模糊”,图片越大,基因间重叠越小,照片越清晰,大尺寸的转录组图像包含的信息更多。
一些具体实施方案中,两组完整转录组图像的尺寸分别为1024*1024像素和3072*3072像素;
高分辨转录组图像的尺寸为3072*3072像素;
低分辨转录组图像的尺寸为768*768像素,且低分辨转录组图像由1024*1024像素图片压缩形成,进而保留更多的基因表达信息。
可以理解的是,本发明的转录组图像生成方法可以根据目标生物的全基因组的表达数据生成不同尺寸的转录组图像。
进一步,转录组图像可以用于搭建图像库进行深度学习后再投入应用,因此,本发明的第二方面提供了一种转录组图像库构建方法,包括:
获取目标生物的深度学习转录组数据集,深度学习转录组数据集的转录组数据按照样本信息分类包含不同样本类别的转录组数据,样本信息包括转录组样本的组织来源和病理状态;
将深度学习转录组数据集通过上述转录组图像库构建方法构建对应的完整转录组图像库;和/或
将深度学习转录组数据集通过上述转录组图像库构建方法构建对应的非完整转录组图像库;和/或
将深度学习转录组数据集通过上述转录组图像库构建方法构建对应的完整-非完整配对转录组图像库;和/或
将深度学习转录组数据集通过上述转录组图像库构建方法对应的低分辨-高分辨配对完整转录组图像库。
具体地,深度学习转录组数据集是来源于不同组织以及具有不同生理/病理状态的转录组数据,将转录组数据按照样本信息进行分类,每一类表示特定组织和特定病理状态的数据。按照不同组织来源,转录组样本组织来源可以是肺、肝、胃等,按照组织或细胞的病理状态,转录组样本可以是癌症组织转录组,也可以是癌旁组织转录组,癌旁组织也可以称为对照组织,当然,根据研究目的的不同,癌症组织的对照组织也可以是癌症组织癌变前的正常组织。为了便于调用转录组图像及转录组数据的样本信息,将转录组图像及转录组数据的样本信息存储为.json或.csv文本。
可以理解的是,根据不同的应用需求,本发明的深度学习转录组样本并不局限于上述样本类别的转录组,只要能够实现深度学习的功能,本发明的深度学习转录组的样本还可以是不同发育阶段、不同应激状态和/或不同生理状态的转录组样本。例如,按照目标生物所处的不同生理状态,转录组样本可以是饥饿状态的转录组样本和非饥饿状态的转录组,或者睡眠状态和非睡眠状态的转录组样本。
进一步,根据机器学习模型构建的不同用途,通过上述转录组图像生成方法生成的不同转录组图像,用于构建不同用途的机器学习模型的训练图像库。本发明根据转录组图像库的后续应用将转录组图像库分为四类,包括某种疾病组织及其对照组织的转录组图像库,多种类别疾病组织和对照组织的转录组图像库,完整-非完整配对转录组图像库,低分辨-高分辨配对完整转录组图像库。
其中,完整-非完整配对转录组图像库可以用于训练pix2pix模型从而构建转录组图像补全模型,实现对仅有局部基因表达数据的非完整转录组图像的补全。具体地,Pix2Pix模型包括生成器和判别器,其中,生成器为U-Net结构,判别器是条件判别器PatchGAN,Pix2Pix模型能够根据判别器模型学习到的真实完整转录组图像,将输入的非完整转录组图像映射到接近于真实完整转录组图像的补全转录组图像。
一些具体实施例中,本发明的完整-非完整配对转录组图像库通过对93类组织/疾病来源转录组样本每类随机抽样100次生成共9200套1024*1024像素的完整转录组图像和表达量最高200个基因的非完整转录组图像,经ImageMagick压缩至768*768像素,然后横向拼接成768*1536像素的完整-非完整转录组“图像对”。
完整-非完整转录组配对图像库可以用于训练基于cycleGAN的pix2pix机器学习模型。训练后,该模型可以根据任意提供的仅包含表达量最高的200个基因的非完整转录组图像推算出包含全基因组转录信息的完整转录组图像。推算而得的补全转录组图像可以由训练过的卷积神经网络判断其具有高度保真性,能够保留其肿瘤或正常组织来源特质。
因此,本发明的第三方面提供了一种转录组图像补全方法,包括:
获取根据上述转录组图像生成方法生成的非完整转录组图像,将非完整转录组图像输入经训练的图像补全模型,由图像补全模型输出非完整转录组图像对应的补全转录组图像;
其中,图像补全模型采用转录组图像库构建方法构建的完整-非完整配对转录组图像库训练预先构建的第一机器学习模型得到。
一些具体实施方案中,第一机器学习模型包括GAN模型。
一些优选实施方案中,第一机器学习模型为pix2pix模型。
低分辨-高分辨配对完整转录组图像库可以用于训练SRGAN模型从而构建图像超分辨处理模型。具体地,SRGAN模型的网络结构包括生成器、判别器和vgg网络,训练过程中生成器和判别器交替训练,不断迭代;vgg网络使用在ImageNet上预训练的权重,权重不做训练和更新,只参与Loss的计算。使用SRGAN模型能够实现将低分辨的转录组图像转换成高分辨的转录组图像。
一些具体实施方案中,鉴于每个基因在转录组图像中占一定数量像素的面积,因此在1024*1024转录组图像中基因间存在大量像素重叠的情况,不利于还原基因表达信息,需要将通过机器学习模型拟合成的转录组图像进一步放大到3072*3072像素转录组图像。
为了实现转录组图像的超分辨放大,本发明构建了两种低分辨-高分辨转录组图像库:93类组织/疾病转录组样本每类随机取样20次生成共1840套512*512像素和1024*1024像素配对转录组图像库,以及768*768像素与3072*3072像素配对图像库。其中,768*768像素图片由1024*1024图片压缩而来。每个图像库含两个子目录,分别存放低分辨和高分辨转录组图片,每个转录组数据生成的低分辨和高分辨转录组图片以同样的文件名命名。这两个图像库分别用来训练一个2倍超分辨SRGAN模型(从512到1024像素的SRGAN512_1024)和4倍超分辨SRGAN模型(从768到3072像素的SRGAN768_3072)。训练好的模型可以将任何拟合出来的512*512,768*768,或1024*1024像素图片放大到3072*3072像素图片并高保真地还原出每个基因的表达值。即便是训练过程中没有使用过的疾病种类如肺鳞癌来源的局部转录组也能够高保真地复原。
因此,本发明的第四方面还提供了一种转录组图像超分辨处理方法,包括:
获取根据上述转录组图像补全方法生成的补全转录组图像或者仿真转录组图像合成方法合成的仿真转录组图像,将补全转录组图像或仿真转录组图像输入经训练的图像超分辨处理模型,由图像超分辨处理模型输出相应的高分辨补全转录组图像或高分辨仿真转录组图像;
其中,图像超分辨处理模型通过上述转录组图像库构建方法构建的低分辨-高分辨配对转录组图像库训练预先构建的第三机器学习模型得到。
一些具体实施方案中,第三机器学习模型包括SRGAN模型。
构建包含多种类别的对照组织和疾病组织的完整转录组图像库可以用于训练StyleGAN模型从而构建条件性转录组图像合成模型,实现人工合成多种类别样本的仿真转录组图像。StyleGAN模型具有生成器以及判别器,可以生成高质量的HD图像,同时能够控制图像不同层次的特征。本发明通过StyleGAN模型的潜在空间插值和特征向量转移可以了解疾病发病机制。
因此,本发明的第五方面还提供了一种仿真转录组图像合成方法,包括:
通过经训练的条件性转录组图像合成模型合成特定疾病组织或对照组织的仿真转录组图像,条件性转录组图像合成模型通过上述方法构建的完整转录组图像库,结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;或者
通过经训练的非条件性转录组图像合成模型合成非特定疾病组织或非特定对照组织仿真转录组图像,非条件性转录组图像合成模型通过上述转录组图像库构建方法构建的完整转录组训练图像库,不结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到。
一些具体实施方案中,第二机器学习模型包括StyleGAN模型。
一些实施方案中,上述方法还包括:
图像-表达谱转换步骤:将转录组图像转换成包含转录组图像中每个基因表达量的数值化基因组表达谱,转录组图像包括补全转录组图像和仿真转录组图像中的至少一种。
具体地,数值化基因组表达谱是指通过转录组图像转换得到的包含转录组图像中每个基因的表达信息,表达信息具体可以是表达量,转录组图像可以是补全转录组图像或者仿真转录组图像,以此根据部分基因的转录组数据获得基因组中所有蛋白编码基因的表达信息,或者拟合的特定疾病组织或者特定对照组织的表达信息。当然,根据完整转录组图像也能转换得到数值化基因组表达谱,以用于疾病发病机制研究等。
因此,本发明的第六方面还提供了一种疾病标志物筛选方法,包括:
疾病标志物筛选步骤:采用上述转录组图像超分辨处理方法获取预设疾病组织及对照组织的高分辨仿真转录组图像集中每个转录组图像的数值化基因组表达谱;
对疾病组织和对照组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为疾病标志物和/或确定疾病的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为不同疾病亚型的疾病亚型标志物和/或确定不同疾病亚型的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类得到疾病亚型之间的差异表达基因,筛选具有生存预后功能的差异表达基因作为疾病预后标志物。
具体地,通过对数值化基因表达谱的聚类分析,可以筛选同一患者疾病组织和正常组织的转录组样本的差异化表达基因,也可以筛选不同患者同一疾病的差异化表达基因,进而筛选区分正常人和患者的疾病标志物,或者区分不同疾病亚型的标志物。其中,本发明涉及的聚类分析可以是任何用于根据基因的表达量筛选差异化基因的聚类方法,例如用在R语言用hclust进行分析,在此不作具体限制。进一步,根据不同疾病亚型的差异化表达基因对真实患者进行生存分析,筛选有生存预后功能的差异表达基因,能够得到具有预后功能的疾病标志物。其中,本发明涉及的生存分析也均为本领域任意的常规生存分析方法,在此不作具体限制。
此外,本发明的第七方面提供了一种发病机制评估方法,包括:
发病机制评估步骤:采用上述转录组图像超分辨处理方法获取目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像,将目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像翻转入上述仿真转录组图像合成方法使用的非条件性转录组图像合成模型的潜在空间得到相应的潜在空间疾病组织转录组图像和对照组织转录组图像,以及通过插值分别得到目标患者和对照患者的至少一个中间状态转录组图像;将目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像转换成数值化基因组表达谱,通过降维算法根据目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的数值化基因组表达谱计算转录组图像之间的邻域关系坐标,根据目标患者和对照患者潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的邻域关系坐标确定目标患者的发病机制。
具体地,目标患者是指需要确定其独特发病机制的患有预设疾病的受试者,对照患者是指与目标患者患有相同疾病的患者,相同疾病是指疾病亚型相同、肿瘤分期等相同的疾病。术语“潜在空间”也称之为“隐空间”,本发明中,非条件性转录组图像合成模型的“潜在空间”是转录组数据的压缩表示。本发明的一种具体实施方案中,非条件性转录组图像合成模型为StyleGAN模型,那么潜在空间则为w+潜在空间,中间状态转录组图像是指在潜在空间通过插值生成的新转录组图像,也可以称之为插值转录组图像。具体地,插值取样的方法可以根据分析需求自行限定,在此不做具体限定。
进一步,为了更直观的区分目标患者和其他患者的疾病发病机制,将根据目标患者和对照患者潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像转换成数值化基因组表达谱,通过降维算法根据数值化基因组表达谱计算不同转录组图像之间的领域关系并关投影至二维空间得到不同转录组图像的坐标,根据转录组图像坐标的变化趋势可以区分不同患者的发病路径,例如,可以根据发病路径对不同发病患者进行分类。进一步,对发病路径的终点状态相似的患者进行基因网络分析,可以分析具有相似终点状态的发病路径的对应的发病机制。进而根据该发病机制筛选药物靶点用于药物开发或者筛选适配治疗药物。
一些具体实施方案中,采用统一流形逼近与投影算法计算转录组图像之间的邻域关系坐标,以更直观的区分目标患者和其他患者的疾病发病路径。
一些实施方案中,上述方法还包括:
药物筛选步骤:根据疾病发病机制筛选药物靶点和/或选择适配的治疗药物;和/或
药物实验病人筛选步骤:根据药物的靶向机制和疾病发病机制筛选适配病人群进行临床试验。
具体地,本发明的发病机制评估方法相比于普通的药物评估方法,能够快速区分具有相同类型疾病但发病机制不同的病人,为临床诊断和治疗或者精准医学领域的研究均提供了重要的参考信息。例如,根据患者的疾病发病机制筛选药物靶点用于新药的开发,或者用于选择适配的治疗药物;或者根据药物的靶向机制更精准的筛选对应发病机制的病人进行药物实验。
本发明的第八方面提供了一种早期疾病标志物筛选方法,包括:
早期疾病标志物筛选步骤:获取目标受试者正常组织的转录组图像,目标受试者正常组织的转录组图像采用上述转录组图像生成方法生成的目标受试者正常组织的完整转录组图像或者采用上述转录组图像超分辨处理方法生成的目标受试者正常组织的高分辨补全转录组图像;将目标受试者正常组织的转录组图像翻转入上述仿真转录组图像合成方法使用的非条件性转录组图像合成模型的潜在空间并矢量转化为目标受试者疾病组织的转录组图像;将目标受试者正常组织的转录组图像和疾病组织的转录组图像转为数值化基因组表达谱,目标受试者两组转录组图像的数值化基因组表达谱之间的差异化表达基因作为早期疾病标志物。
具体地,目标受试者的正常组织可以是健康受试者的正常组织,也可以是疾病患者的正常组织,以用于预测正常组织发生病变后的疾病组织转录组图像,并根据正常组织的转录组图像和预测的疾病组织的转录组图像之间的差异化表达基因确定早期疾病标志物,从而实现疾病的早发现、早治疗。
需要说明的是,矢量转化是指通过机器学习得出疾病发病的矢量特征,然后将目标人群的正常转录组乘以疾病的矢量特征,得到每个目标受试者正常组织对应的疾病转录组图像。根据非条件性转录组图像合成模型学习的疾病矢量特征可以预测目标受试者正常组织发生病变后形成的疾病转录组图像,从而可以预测正常组织病变机制,确定目标受试者的早期疾病标志物,通过早期疾病标志物对目标受试者进行早期诊断。
本发明的第九方面提供了一种确定样本来源的方法,包括:
样本来源确定步骤:获取采用上述转录组图像生成方法生成未知来源样本的完整转录组图像或者采用上述转录组图像超分辨处理方法生成未知来源样本的高分辨补全转录组图像;将未知来源样本的转录组图像翻转入上述仿真转录组图像合成方法使用的非条件性转录组图像合成模型的潜在空间生成未知来源样本的潜在空间转录组图像;采用上述仿真转录组图像合成方法使用的非条件性转录组图像合成模型合成不同样本类别的转录组图像;将未知来源样本的潜在空间转录组图像和不同样本类别的转录组图像转换成数值化基因组表达谱,对所有转录组图像的数值化基因组表达谱进行聚类分类以确定未知来源样本所属的样本类别。
具体地,聚类分类的手段可以是本领域常规的聚类手段,只要能够根据数值化基因组表达谱中的基因表达量对未知来源样本和已知的不同类别样本进行聚类即可,根据分类结果将和未知来源样本在同一类的样本的类别确定为未知来源样本所属的样本类别。
此外,构建包含对照组织和某种疾病组织的完整转录组图像库、非完整转录组图像库或者高分辨补全转录组图像库中的任意一种,可以用于训练卷积神经网络模型从而构建转录组图像分类模型,实现对转录组图像按照样本信息进行分类,区分对照组织样本和特定疾病组织样本。
一些具体实施例中,本发明采用两百多对肺鳞癌组织的完整转录组要和正常癌旁组织的完整转录组图像训练的卷积神经网络,可以高效判断未知来源样本转录组图像为正常或肺鳞癌。进一步,仅采用转录组图像的肺组织特异功能区,细胞增殖功能区,免疫功能区内基因构成的非完整转录组图像库,也能用于深度学习并判定未知转录组样本来源于肺鳞癌组织或正常组织。
因此,本发明的第十方面还提供了一种转录组图像分类方法,包括:
获取根据上述转录组图像生成方法生成的完整转录组图像或者非完整转录组图像或者采用上述转录组图像超分辨处理方法生成的高分辨补全转录组图像;
将完整转录组图像或者非完整转录组图像或者高分辨补全转录组图像输入经训练的转录组图像分类模型,根据转录组图像分类模型的输出预测待测样本是否患预设疾病;
图像分类模型采用转录组图像库构建方法生成的完整转录组图像库或者非完整转录组图像库,或者采用上述转录组图像补全方法生成的补全转录组图像库,训练预先构建的第四机器学习模型得到;其中,
完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,非完整转录组图像是指组织特异功能区、细胞增殖功能区和免疫功能区的基因表达数据生成的转录组图像。
一些具体实施方案中,第四机器学习模型包括卷积神经网络模型。
相应地,本发明的第十一方面提供了一种转录组图像机器学习模型构建方法,包括:
获取根据上述转录组图像库构建方法构建的完整转录组训练图像库、完整-非完整配对转录组图像库和低分辨-高分辨配对转录组图像库中的至少一种图像库;
采用完整转录组训练图像库训练预先构建的第一机器学习模型,以构建完整转录组图像分类模型;或者
采用完整-非完整配对转录组图像库,训练预先构建的第二机器学习模型,以构建图像补全模型;或者
采用低分辨-高分辨配对转录组图像集训练预先构建的第三机器学习模型,以构建图像超分辨处理模型;和/或
获取根据转录组图像库构建方法构建的完整转录组图像库或者非完整转录组图像库,或者采用转录组图像超分辨处理方法生成的高分辨补全转录组图像库,训练预先构建的第四机器学习模型,以得到转录组图像分类模型;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,非完整转录组图像是指组织特异功能区、细胞增殖功能区和免疫功能区的基因表达数据生成的转录组图像。
一些具体实施方案中,第一机器学习模型包括pix2pix模型;和/或
第二机器学习模型包括StyleGAN模型;和/或
第三机器学习模型包括SRGAN模型;和/或
第四机器学习模型包括卷积神经网络模型。
基于与本发明提供的转录组图像生成方法相同的原理,本发明实施例还提供了一种转录组图像生成装置,如图12所示,该转录组图像生成装置可以包括数据获取模块210和第一图像生成模块220。因此,本发明的十二方面提供了一种转录组图像生成装置,包括:
数据获取模块210:用于获取第一目标生物的基因坐标数据以及第一目标生物的基因表达数据,第一目标生物基因坐标数据包括根据第一目标生物的标准转录组数据集中蛋白编码基因的邻域关系确定的基因坐标;
第一图像生成模块220:用于根据第一目标生物的基因坐标数据确定第一目标生物的基因表达数据中各基因的坐标,将第一目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第一目标生物的基因表达数据中各基因的坐标以及像素强度生成第一目标生物的转录组图像。
一些实施方案中,上述装置还包括:
基因坐标计算模块:用于获取第一目标生物的标准转录组数据集,通过降维算法根据标准转录组数据集中蛋白编码基因的表达量计算第一目标生物蛋白编码基因之间的邻域关系,并将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的基因坐标;
一些具体实施方案中,降维算法包括统一流形逼近与投影算法。
一些实施方案中,标准转录组数据集包括第一目标生物的发育转录组数据、衰老转录组数据、疾病转录组数据、应激转录组数据以及特殊生理状态转录组数据中的至少一种;以及
第一目标生物的生殖细胞转录组数据和诱导多能干细胞转录组数据。
一些实施方案中,将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的基因坐标具体包括:
将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的原始基因坐标,对第一目标生物的原始基因坐标进行旋转和/或缩放处理,得到第一目标生物在第一预设尺寸平面的基因坐标。
一些实施方案中,还包括第二图像生成模块:
用于根据第二目标生物和第一目标生物的同源基因以及第一目标生物的基因坐标数据确定第二目标生物的基因坐标数据;获取第二目标生物的基因表达数据,根据第二目标生物的基因坐标数据确定第二目标生物的基因表达数据中各基因的坐标;将第二目标生物的基因表达数据中各基因的表达量转换成各基因的像素强度,根据第二目标生物的基因表达数据中各基因的坐标以及像素强度生成第二目标生物的转录组图像。
一些实施方案中,第一图像生成模块和/或第二图像生成模块还用于:
将基因表达数据中每个基因的表达量按照预设规则转换为每个基因的整数表达值,根据相应目标生物的基因表达数据中各基因的坐标以及各基因的整数表达值生成相应的基因表达谱列表,将基因表达谱列表转换成转录组图像矩阵以生成相应的转录组图像,转录组图像矩阵包含基因表达数据中每个基因的坐标以及和每个基因的整数表达值一一对应的像素强度。
一些实施方案中,预设规则包括以下规则中的至少一种:
1)对于测序转录组数据,通过(log2n+m)*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是每个基因的FPKM值,m为[0,3]之间的整数常数;
2)对于微阵列转录组数据,通过(log2n-m)*k*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是来自微阵列的探针信号强度,m为[0,3]之间的整数常数,k为[0.5,2.0]之间正数常数。
一些实施方案中,基因表达谱列表包括以下基因信息:基因名称、基因坐标以及各基因的像素强度;和/或
每个基因在转录组图像中由以基因坐标为中心且面积为20~30个像素的圆点表示;和/或
转录组图像还包括第一虚拟基因和第二虚拟基因,其中,第一虚拟基因的整数表达值为0,坐标为(15,15),第二虚拟基因的整数表达值为255,坐标为(25,25)。
一些实施方案中,第一图像生成模块和/或第二图像生成模块还用于:
将基因表达谱列表中的基因信息按照各基因表达量升序或降序排列,按照基因表达谱列表中基因信息的排序顺序将转录组图像矩阵中每个基因打印至相应坐标位置生成具有相应像素强度的圆点以构成转录组图像。
一些实施方案中,第一目标生物或第二目标生物的基因表达数据为全基因组表达数据时,转录组图像为完整转录组图像;
第一目标生物或第二目标生物的基因表达数据为预设数量基因的表达数据时,转录组图像为非完整转录组图像。
一些实施方案中,预设数量基因是指基因表达数据中按照基因表达量从高到低排序得到的预设数量表达量最高的基因;和/或
预设数量不小于100;和/或
完整转录组图像或非完整转录组图像的尺寸为第二预设尺寸,第二预设尺寸和第一预设尺寸相同或不同;和/或
非完整转录组图像还包括第一虚拟基因和第二虚拟基因,其中,第一虚拟基因的整数表达值为0,坐标为(15,15),第二虚拟基因的整数表达值为255,坐标为(25,25);
一些具体实施方案中,第一预设尺寸为512*512像素;和/或
第二预设尺寸包括512*512像素、1024*1024像素以及3072*3072像素中的至少一种;和/或
非完整转录组图像的尺寸为1024*1024像素。
一些实施方案中,第一目标生物为模式生物;和/或
第二目标生物和第一目标生物具有同源基因;
一些具体实施方案中,第一目标生物包括酵母、玉米、水稻、线虫、果蝇、小鼠、人、狒狒、噬菌体、大肠杆菌、海胆、斑马鱼、爪蟾、拟南芥中的至少一种。
一些实施方案中,还包括:
第三图像生成模块:用于获取目标图像生成模块输出的完整转录组图像和非完整转录组图像,并将完整转录组图像和非完整转录组图像的尺寸分别调整成第三预设尺寸,将第三预设尺寸的完整转录组图像和非完整转录组图像横向拼接生成第四预设尺寸的完整-非完整配对转录组图像,目标图像生成模块包括第一图像生成模块或者第二图像生成模块;
一些具体实施方案中,第三预设尺寸为768*768像素;
第四预设尺寸为768*1536像素。
一些实施方案中,还包括:
第四图像生成模块:用于获取目标图像生成模块输出的两组完整转录组图像,两组完整转录组图像尺寸不同,将两组完整转录组图像中较小尺寸的完整转录组图像压缩为第三预设尺寸的转录组图像,将第三预设尺寸的转录组图像设定为低分辨转录组图像,两组转录组图像中尺寸较大的完整转录组图像设定为高分辨转录组图像,以得到低分辨-高分辨配对转录组图像,目标图像生成模块包括第一图像生成模块或者第二图像生成模块;
一些具体实施方案中,两组完整转录组图像的尺寸分别为1024*1024像素和3072*3072像素;
一些具体实施方案中,高分辨转录组图像的尺寸为3072*3072像素;
一些具体实施方案中,低分辨转录组图像的尺寸为768*768像素。
本发明的第十三方面提供了一种转录组图像库构建装置,包括:
深度学习数据集获取模块:用于获取目标生物的深度学习转录组数据集,深度学习转录组数据集按照样本信息分类包括不同样本类别的转录组数据,样本信息包括转录组样本的组织来源和病理状态;
图像库构建模块:用于将深度学习转录组数据集输入上述转录组图像生成装置以构建深度学习转录组数据集对应的完整转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成装置以构建深度学习转录组数据集对应的非完整转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成装置以构建深度学习转录组数据集对应的完整-非完整配对转录组图像库;和/或
将深度学习转录组数据集输入上述转录组图像生成装置以构建深度学习转录组数据集对应的低分辨-高分辨配对完整转录组图像库。
本发明的第十四方面提供了一种转录组图像补全装置,包括:
图像补全模块:用于获取根据上述转录组图像生成装置生成的非完整转录组图像,将非完整转录组图像输入经训练的图像补全模型,由图像补全模型输出非完整转录组图像对应的补全转录组图像;
其中,图像补全模型采用上述转录组图像生成装置构建的完整-非完整配对转录组图像库训练预先构建的第一机器学习模型得到;
一些具体实施方案中,第一机器学习模型包括GAN模型;
一些具体实施方案中,第一机器学习模型为pix2pix模型。
本发明的第十五方面提供了一种仿真转录组图像合成装置,包括:
仿真转录组图像合成模块:用于通过经训练的条件性转录组图像合成模型合成特定疾病组织或对照组织的仿真转录组图像,条件性转录组图像合成模型通过上述转录组图像库构建装置构建的完整转录组图像库,结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;或者
通过经训练的非条件性转录组图像合成模型合成非特定疾病组织或非特定对照组织仿真转录组图像,非条件性转录组图像合成模型通过权利要求15构建的完整转录组训练图像库,不结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;
一些具体实施方案中,第二机器学习模型包括StyleGAN模型。
本发明的第十六方面提供了一种转录组图像超分辨处理装置,包括:
图像超分辨处理模块:用于获取根据上述转录组图像补全装置生成的补全转录组图像或者上述仿真转录组图像合成装置生成的仿真转录组图像,将补全转录组图像或仿真转录组图像输入经训练的图像超分辨处理模型,由图像超分辨处理模型输出相应的高分辨补全转录组图像或高分辨仿真转录组图像;
其中,图像超分辨处理模型通过上述转录组图像库构建装置构建的低分辨-高分辨配对转录组图像库训练预先构建的第三机器学习模型得到;
一些具体实施方案中,第三机器学习模型包括SRGAN模型。
一些实施方案中,上述装置还包括:
图像-表达谱转换模块:用于将转录组图像转换成包含转录组图像中每个基因表达量的数值化基因组表达谱,转录组图像包括补全转录组图像和仿真转录组图像中的至少一种。
本发明的第十七方面提供了一种疾病标志物筛选装置,包括:
疾病诊断标志物筛选模块:采用上述转录组图像超分辨处理装置获取预设疾病组织及对照组织的高分辨仿真转录组图像集中每个转录组图像的数值化基因组表达谱;
对疾病组织和对照组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为疾病标志物和/或确定疾病的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为不同疾病亚型的疾病亚型标志物和/或确定不同疾病亚型的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类得到疾病亚型之间的差异表达基因,筛选具有生存预后功能的差异表达基因作为疾病预后标志物。
本发明的第十八方面目提供了一种发病机制评估装置,包括:
发病机制评估模块:采用上述转录组图像超分辨处理装置获取目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像,将目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像翻转入上述仿真转录组图像合成装置使用的非条件性转录组图像合成模型的潜在空间得到相应的潜在空间疾病组织转录组图像和对照组织转录组图像,以及通过插值分别得到目标患者和对照患者的中间状态转录组图像;将目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像转换成数值化基因组表达谱,通过降维算法根据目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的数值化基因组表达谱计算转录组图像之间的邻域关系坐标,根据目标患者和对照患者潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的邻域关系坐标确定目标患者的发病机制。
一些实施方案中,上述装置还包括:
药物筛选模块:用于根据疾病发病机制筛选药物靶点和/或选择适配的治疗药物;和/或
药物实验病人筛选模块:用于根据药物的靶向机制和疾病发病机制筛选适配病人群进行临床试验;
一些具体实施方案中,降维算法为统一流形逼近与投影算法。
本发明的第十九方面提供了一种早期疾病标志物筛选装置,包括:
早期疾病标志物模块:用于获取采用上述转录组图像生成装置生成目标受试者正常组织的完整转录组图像或者采用上述转录组图像超分辨处理装置生成目标受试者正常组织的高分辨补全转录组图像;将目标受试者正常组织的转录组图像翻转入上述仿真转录组图像合成装置使用的非条件性转录组图像合成模型的潜在空间并矢量转化为目标受试者疾病组织的转录组图像;将目标受试者正常组织的转录组图像和疾病组织的转录组图像转换为数值化基因组表达谱,获取目标受试者两组转录组图像的数值化基因组表达谱之间的差异化表达基因作为早期疾病标志物。
本发明的第二十方面提供了一种确定样本来源的装置,包括:
样本来源确定模块:获取采用上述转录组图像生成装置生成未知来源样本的完整转录组图像或者采用上述转录组图像超分辨处理装置生成未知来源样本的高分辨补全转录组图像;将未知来源样本的转录组图像翻转入上述仿真转录组图像合成装置使用的非条件性转录组图像合成模型的潜在空间生成未知来源样本的潜在空间转录组图像;采用上述仿真转录组图像合成装置使用的非条件性转录组图像合成模型合成不同样本类别的转录组图像;将未知来源样本的潜在空间转录组图像和不同样本类别的转录组图像转换成数值化基因组表达谱,对所有转录组图像的数值化基因组表达谱进行聚类分类以确定未知来源样本所属的样本类别。
本发明的第二十一方面提供了一种转录组图像分类装置,包括:
图像分类模块:用于获取待测样本根据上述转录组图像库构建装置构建的完整转录组图像或者采用上述转录组图像超分辨处理装置生成的高分辨补全转录组图像;将完整转录组图像或者高分辨补全转录组图像输入经训练的转录组图像分类模型,根据转录组图像分类模型的输出预测待测样本是否患预设疾病;
图像分类模型采用上述转录组图像库构建装置构建的完整转录组图像库或者非完整转录组图像库,或者采用上述转录组图像超分辨处理装置生成的高分辨补全转录组图像库训练预先构建的第四机器学习模型得到;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,非完整转录组图像是指组织特异功能区、细胞增殖功能区和免疫功能区的基因表达数据生成的转录组图像;
一些具体实施方案中,第四机器学习模型包括卷积神经网络模型。
本发明的第二十二方面提供了一种转录组图像机器学习模型构建装置,包括:
第一模型构建模块:用于获取根据上述转录组图像库构建装置构建的完整转录组训练图像库、完整-非完整配对转录组图像库和低分辨-高分辨配对转录组图像库中的至少一种图像库;
采用完整转录组训练图像库训练预先构建的第一机器学习模型,以构建完整转录组图像分类模型;或者
采用完整-非完整配对转录组图像库,训练预先构建的第二机器学习模型,以构建图像补全模型;或者
采用低分辨-高分辨配对转录组图像集训练预先构建的第三机器学习模型,以构建图像超分辨处理模型;和/或
第二模型构建模块:用于获取根据上述转录组图像生成装置生成的完整转录组图像库或者非完整转录组图像库,或者采用上述转录组图像超分辨处理装置生成的高分辨补全转录组图像库;采用完整转录组图像库或者非完整转录组图像库或者高分辨补全转录组图像库训练预先构建的第四机器学习模型,以得到转录组图像分类模型;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,非完整转录组图像是指组织特异功能区、细胞增殖功能区和免疫功能区的基因表达数据生成的转录组图像;
一些具体实施方案中,第一机器学习模型包括pix2pix模型;和/或
第二机器学习模型包括StyleGAN模型;和/或
第三机器学习模型包括SRGAN模型;和/或
第四机器学习模型包括卷积神经网络模型。
本发明的第二十三方面提供了上述任意一种方法或装置在疾病诊断和治疗或者非疾病诊断和治疗中的应用。
一些实施方案中,疾病诊断包括疾病类型诊断、疾病分型诊断和疾病早期诊断中的至少一种;和/或
非疾病诊断和治疗包括疾病标志物筛选、早期疾病标志物筛选、药物实验病人筛选、发病机制评估和药物靶点筛选中的至少一种;和/或
疾病治疗包括发病机制评估、疾病预后和疾病适用药物筛选中的至少一种。
具体地,根据转录组图像的分类方法可以进行疾病的诊断,根据仿真转录组图像的基因表达图谱的聚类分析,可以进行疾病分型,或确定疾病亚型,及/或亚型之间的差异表达基因,逐个或组合分析其对疾病,特别是肿瘤的预后的影响,从而发现新的疾病标志物。根据非条件性模型的潜在空间可以预测健康人的转录组图像对应的疾病组织的转录组图像状态,进而根据二者的差异表达基因挖掘健康人的早期疾病标志物。
进一步,根据患者发病机制或者疾病亚型分类结果,相应地选择治疗药物。
更进一步地,根据发病机制或疾病亚型与临床药物靶标匹配的人群进行药物试验。
本发明的第二十四方面还提供了一组基因组学信息可视化方法,根据上述装置或方法获取的第一目标生物的基因坐标数据或者上述装置或方法得到的第二目标生物的基因坐标数据,将相应目标生物的基因组学信息中每个基因的信息以相应的像素强度呈现于每个基因的坐标对应的像素点位置,每个基因的像素强度与基因组信息中每个基因的信息相对应。
一些实施方案中,基因组信息包括基因组中每个基因的基因突变、基因拷贝数、基因表观遗传修饰、基因转录速度、基因转录本剪接、基因转录本数目、基因转录本翻译速度、基因编码蛋白质丰度、基因编码蛋白质降解速度、基因编码蛋白质翻译后修饰、基因编码蛋白质活性和基因间互作信息中的至少一种。
关于转录组图像的相关装置的具体限定可以参见上文中对于转录组图像相关方法的限定,在此不再赘述。上述转录组图像的相关装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施方案中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。当该计算机设备为终端时,还包括与系统总线连接的显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种表情识别模型的处理方法和图像处理方法中的至少一种。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述多重PCR引物设计方法的步骤。
本发明还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述多重PCR引物设计方法的步骤。
本发明还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述多重PCR引物设计方法的步骤。
需要说明的是,本发明所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(DynamicRandomAccess Memory,DRAM)等。本发明所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本发明所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
下面将结合实施例对本发明的实施方案进行详细描述。
本实施例采用以下工具用于Phoenix转换和后续实验:
R Studio(https://www.rstudio.com/products/rstudio/);
PyCharm(https://www.jetbrains.com/pycharm/);
Prism 9(https://www.graphpad.com/scientific-software/prism/);
pix2pix(Isola et al.Image-to-Image Translation with ConditionalAdversarial Networks,November,2018);
SRGAN(Ledig等。Photo-Realistic Single Image Super-Resolution Using aGenerative Adversarial Network,2017年5月);
StyleGAN2-ADA(https://github.com/NVlabs/stylegan2-ada)、DAVID Web服务器和STRING Web服务器。
pix2pix鉴别器具有六个Conv2D层(64、128、256、512、512、1),生成器具有七个块,每个用于编码器(64、128、256、512x4)和解码器(512x4、256,128,64)。它使用LUSC数据集进行训练,batch_size为1,lr为0.0002。
pix2pix模型通过以下方式评估:1)图像分类结果与前200个基因表达数据的转录组图像标记(癌症或正常);2)Pearson相关和与SRGAN结合的MAE。
SRGAN鉴别器具有八个Conv2D层(64x2、128x2、256x2、512x2),生成器具有一个顺序块、六个剩余块和一个上采样块。从512到1024像素的缩放是使用配对的低分辨率和高分辨率转录组图像、crop_size88和batch_size32进行训练的。从768到3072分辨率的提升是使用来自PanCancer Atlas数据集的配对转录组图像、crop_size178、batch_size4进行训练的。
SRGAN模型通过以下方式评估:
1)Pearson相关性:从3072*3072图片和真实转录组数据中提取的数字基因表达值;
2)图片提取值与真实值之间的平均绝对误差(MAE)。
用于图像分类的Keras卷积神经网络有六个Conv2D层(16-512)、六个MaxPooling2D层和两个Dense层(512、1)。
对于图像分类(Keras卷积神经网络)、自动补全(pix2pix)和超分辨率(SRGAN),将训练得到的模型的测试结果与真实数据进行比较。
StyleGAN2-ADA网络在鉴别器中具有七个块(512-8),在生成器网络中具有八个块(4-512),并且两者都具有65536个特征。条件模型和无条件模型均使用PanCancer Atlas数据集中的46500张图像进行训练。训练后,使用条件模型的生成函数合成仿真LUSC转录组图像。
UMAP是利用GSE132040、ENCSR574CRQ和DRA000484合并的RNAseq数据集计算的。用于研究可视化昼夜节律转录组变化的狒狒数据集是GSE98965。用于可视化和训练的LUSC数据集(GSE18842、19804、27262)是从CuMiDa下载的。用于生成对抗网络训练的PanCancerAtlas数据集是通过GDC数据传输工具(DTT)下载的。
转录组数据按升序排序,由R中的ggplot2渲染成图像。x轴和y轴范围设置为(0,512),点大小为0.1,配色方案5色彩虹渐变色。对于512*512像素的图像,尺寸设置为1.79英寸。对于1024*1024像素,尺寸设置为3.58英寸;对于3072*3072像素,尺寸设置为10.74英寸。对于表达水平前200基因的合成转录组图像的生成,转录组数据按升序排序。最后200行基因以及在(20,20)坐标处设置的表达量为0的点和(15,15)坐标处设置的表达量为255的点参考由ggplot2打印并通过ImageMagick保存。肺特异性区、增殖区和免疫区的部分转录组图像(IJK图像)以类似方式打印。
ggplot2打印的图像有四个通道:RGBA;它们通过ImageMagick真彩色选项转换为三通道sRGB格式。用于训练的512*512和768*768图像从1024*1024图像调整大小,但用于LUSC分类的IJK图像除外。
PanCancer Atlas RNAseq数据集(https://gdc.cancer.gov/access-data/gdc-data-portal)按照组织类别和组织疾病类别被分成93类,用于生成两个图像库,一个图像库包括9300个图像,其中93个样本类中的每一个被采样100次,一个图像库包括46500个图像,每个类被采样500次。
UMAP转换的小鼠蛋白质编码基因的每个基因功能区中基因的功能富集在DAVID网络服务器上进行。基因分析和功能富集在STRING网络服务器上进行。
实施例1小鼠转录组图像
图5a表示本发明小鼠转录组数据二维成像过程示意图。
该方法包括三步:第一,基于RNA测序的三个转录组数据集ENCODE3(ENCSR574CRQ)、Tabula Muris Senis(GSE132040)、以及DBTMEE(DRA000484)合并成一个数据集,该数据集被导入到R中,并用于使用bio_plotr包中的plot_UMAP函数进行基因投影,邻域数设置为15,距离矩阵为欧几里得,维度设置为2,求得能够解释基因在样品间表达相似性的最佳邻域关系解,并将该邻域关系投影到UMAP1/2二维空间,坐标系旋转30后,重置坐标原点为(-17.5,-17.5),拉伸坐标系16倍,取整,生成全基因组坐标列表,小鼠基因组中共有20424个蛋白质编码基因成功地映射到18545个独特的坐标对上。
第二,将转录组数据每个基因的表达量n(RNA测序的FPKM)经(log2n+m)*14+1,小于1和大于255的值分别由1和255替代,输出为基因的整数表达值。整数常数m取值限定于[0,3]区间,一个转录组数据集的所有基因取同一m值,m值选择标准为尽可能多的基因经转换后其表达量在[1,255]之间。本实施例m值取3。
第三,将转录组基因按其在目标转录组数据样本中表达量由低到高排序,根据坐标列表和表达量在ggplot2生成转录组图像,其x、y坐标限定在[0,512]区间内,基因由0.1pt的圆点表示,颜色设定为5-color彩虹渐变色,大小可分为1.79x1.79英寸(512*512像素)、3.58x3.58英寸(1024*1024像素)、10.74x10.74英寸(3072*3072像素)三种。每个转录组图设两个参照基因校准转录组图片颜色:最高基因,坐标为(15,15),表达量为255;最低基因,坐标为(25,25),表达量为0。
小鼠基因组蛋白质编码基因通过基于一致性流形逼近和投影法对转录组数据集学习后计算二维投影坐标。坐标分布成凤凰形状,因此称为凤凰图示法。
图1a为本实施例提供的小鼠转录组数据凤凰图示结果。在不同组织特异性表达的基因和不同功能类别的基因在二维投影平面的不同区域富集。不同区域以颜色区分;
图1b为小鼠转录组数据凤凰图示法代表性图片。每个点的像素强度由位于该坐标点的基因表达量(fragments per kilobase of exon per million reads,FPKM)去对数(log2)乘以14取整而来。图中的色标尺从0(红)to255(紫)。
其中,生殖区位于鸟形的“头部”(A区)和“颈部”(B区)组成,“头部”(A区)由与“颈部”(B区)相邻的精子特异性基因组成,“颈部”富含在生殖细胞/组织(包括精子、卵母细胞和睾丸)中选择性表达的基因,具体如图1a、图1b、和图5b所示。生殖区下方是身体计划区(C区),它富含早期胚胎发生过程中表达的基因(图1a)。身体计划区左侧与皮肤(E/F)、神经元组织(G)、肌肉(H)和肺/线粒体/代谢相关基因(I)和细胞增殖(J)相连,右侧与免疫(K)、消化组织(L/O)相关基因。身体计划区下方是一大群难以分区的管家基因,这些基因参与腹部和足部区域基因的转录、翻译、降解、细胞粘附和迁移(D、M、N、P、Q区)。图1b展示的转录组图像都可以根据其特定功能区的颜色亮度判定其组织来源。
实施例2狒狒转录组图像
狒狒基因组中蛋白质编码基因的坐标是从它们在小鼠中的同源基因的坐标转移而来。
对于狒狒转录组数据集,基因的整数表达值通过表达量转换为min(round((log2n+3)*14+1),255),其中n是单个基因RNA测序的FPKM值。
转录组数据首先按表达量的升序排序,由R中的ggplot2渲染成图像。x轴和y轴范围设置为(0,512),点大小为0.1,配色方案为5色彩虹渐变色。对于512*512像素的图像,尺寸设置为1.79英寸。
图1c是狒狒转录组的鸟形流形图,转录组数据来源于狒狒视交叉上核(suprachiasmatic nucleus,SCN)在不同时间(ZT2-ZT20)取样测序结果。图1c的转录组图像可以提示组织样本的取样时间。具体地,SCN转录组图像中的神经元区基因表达在ZT14处达到其低谷,这与SCN在10pm左右开始不活动一致,如图1c展示的视交叉上核转录组图像其神经功能区紫色圆点减少表明组织样本收集于ZT14。
图5b表示狒狒不同组织的转录组图像。取样时间为ZT0,即早上8点。颜色标尺从0(红)到255(紫);图5c表示狒狒肺组织昼夜节律转录组图像。肺组织取样时间分别为ZT0、6、12、18,即早上八点、下午两点、晚上八点、凌晨两点。图5b和图5c的转录组图像显示神经组织特异表达基因在ZT0的肺部组织特异高表达。
实施例3人类转录组图像
人类基因组中蛋白质编码基因的坐标是从它们在小鼠中的同源基因的坐标转移而来。
对于人类测序转录组数据集,基因的像素强度由log2转换的FPKM值乘以14,加1,四舍五入,并在[1,255]之间进行裁剪。对于LUSC基因芯片转录组数据,基因的像素强度由通过(log2n-3)*1.7*14+1进行转换,四舍五入并在[1,255]之间进行裁剪,其中n是来自微阵列的探针信号。
转录组数据首先按表达量的升序排序,由R中的ggplot2渲染成图像。x轴和y轴范围设置为(0,512),点大小为0.1,配色方案为5色彩虹渐变色。对于512*512像素的图像,尺寸设置为1.79英寸。
人类转录组数据集来源于PanCanAtlas转录组数据。
图2a局部放大图显示增殖区(右上角)基因表达上调和肺组织特异(左下角)基因下调;图2b局部放大图显示较小幅度的肺组织特异基因下调;图2c局部放大图显示免疫基因下调。
免疫区和组织特异性区的可见和可变减少为癌症提供了可能的分层信号。从广义上讲,几乎所有来自PanCancer Atlas数据集的癌症转录组都可以分为免疫热,其中,免疫基因的表达水平与增殖基因相似或更高,以及免疫冷,其中免疫基因的表达水平明显低于增殖基因,具体如图6所示。
PanCanAtlas转录组数据集生成转录组图片后,根据其免疫相关基因富集区(图中的箭头指示区,即k区)颜色的深浅,即可判断该肿瘤转录组中免疫相关基因的表达水平,也即免疫冷(immune cold)和免疫热(immune hot);图中黄色箭头指示目标肿瘤转录组免疫相关基因表达水平低,即免疫冷,蓝色箭头指示目标肿瘤转录组免疫相关基因表达水平高,即免疫热。
图2g表示基于肺泡脂质分泌物蛋白(surfacant protein A2,SFTPA2)转录本水平的肺腺癌病人中位生存期(median survival time,MST)预测结果;p-值为Log-rank(Mantel-Cox)统计检验值;图2h表示基于SFTPA2转录本水平的鳞状细胞肺癌生存期预测结果。
根据图2g可知,表面活性蛋白A2(SFTPA2)下调与肺腺癌患者诊断后中位生存时间(MST)降低相关,SFTPA2低表达的LUAD中位生存时间为45个月,SFTPA2高表达的LUAD中位生存时间105个月,p=0.0016;SFTPA2低表达的LUSC中位生存时间为70个月,SFTPA2高表达的LUSC中位生存时间36个月,p=0.0026。因此,SFTPA2低表达是LUSC患者生存的预后标志物
实施例4pix2pix-SRGAN模型合成完整转录组图像
pix2pix-SRGAN模型训练使用了PanCanAtlas转录组数据集中的1634个样本(Train,N=1634),包括20个肺腺癌(LUAD)转录组样本,但不包括任何鳞状细胞肺癌(LUSC)转录组样本。PanCancer Atlas数据集中93类组织/疾病转录组样本每个转录组数据用于合成三组转录组图像:1024*1024像素完整转录组图像和3072*3072完整转录组图像,以及仅前200个高表达基因的1024*1024非完整转录组图像,基于pix2pix和SRGAN的生成式对抗网络训练过程示意图具体如图8a所示。
将前200个高表达基因的1024*1024像素非完整转录组图像和1024*1024像素完整转录组图像压缩成低分辨率转录组图像(768*768像素),然后横向拼接成768*1536像素的完整-非完整转录组“图像对”,用于训练pix2pix机器学习模型。pix2pix生成式对抗网络训练过程中,其生成模型(generative model)损失函数值(G_Loss)迅速下降后在低位维持稳定,具体如图8b表示。
训练好的负责将仅包含表达量最高的两百个基因(top200)表达数据的低分辨率非完整转录组图像(768*768像素)扩充完整成为包含全部基因表达数据的低分辨补全转录组图像;
93类组织/疾病转录组样本每类随机取样20次生成共1840套512*512像素和1024*1024像素配对转录组图像库,以及768*768像素与3072*3072像素配对图像库。其中,768*768像素图片由1024*1024图片压缩而来。每个图像库含两个子目录,分别存放低分辨和高分辨转录组图片,每个转录组数据生成的低分辨和高分辨转录组图片以同样的文件名命名,用于训练一个2倍超分辨SRGAN模型(从512到1024像素的SRGAN512_1024)和4倍超分辨SRGAN模型(从768到3072像素的SRGAN768_3072)。SRGAN生成式对抗网络训练过程中,生成模型(generative model)损失函数值(G_Loss)迅速下降后在低位维持稳定;SRGAN768_3072指转录组图片从768*768像素放大到3072*3072像素的机器学习模型,具体如图8c表示。SRGAN生成式对抗网络训练过程中,生成模型(generative model)合成的转录组图片的最大信噪比(peak signal to noise ratio,PSNR)逐步升高后趋于极限值,具体如图8d表示。
经过200个周期的训练,pix2pix-SRGAN模型仅仅使用10%的转录组数据,具体如图3a所示,即200个基因的转录组数据合成高度逼真的完整转录组图像,具体如图3b所示。其中,通过200个基因合成转录组图像和真实转录组图像的Pearson相关性为0.93,具体如3d所示,其中,相关性验证使用了555个肺腺癌转录组样本和546个鳞状细胞肺癌样本,验证的肺腺癌样本与训练样本之间无交叉。平均绝对误差(MAE)为0.238,从3072*3072图像到数值的转换过程使得合成转录组图像相对于真实转录组图像的准确度增加了0.021MAE,从768*768到3072*3072的反卷积过程使得合成转录组图像相对于真实转录组图像的准确度增加了0.102个额外的MAE,具体如图3c所示。真实与推算的肺腺癌与鳞癌转录组基因表达量差值分布图具体如图3e所示;图3e中每个点代表一个基因,点的横坐标为该基因在真实(Real)的腺癌跟鳞癌组织表达量的差值,点的纵坐标为该基因在推算(Inferred)的腺癌转录组与鳞癌转录组表达量的差值。每个腺癌转录组和鳞癌转录组都有一个与其对应的由其表达量最高的200个基因的表达量经训练好的pix2pix-SRGAN模型推算而来的一个“补全转录组”。
此外,鳞状细胞肺癌(lung squamous cell carcinoma,LUSC)转录组数据来源于GSE18842、GSE19804、GSE27262三个微阵列转录组数据集,532个转录组数据用于训练(Train)pix2pix模型和SRGAN模型,20个用于测试(Test)。pix2pix-SRGAN相结合的转录组补全模型推算基因表达绝对误差均值(mean absolute error,MAE)分布如图8e所示,基因表达的推算值由鳞状细胞肺癌转录组样本表达量最高的200个基因转换得到的非完整转录组图像经训练好的pix2pix-SRGAN模型合成而来;绝对误差均值则是每个基因在每个真实的转录组样本中的表达量与其对应的“推算转录组”中的表达值的差值的绝对值求平均而来。pix2pix-SRGAN相结合的转录组补全模型推算基因表达值与真实表达值间的皮尔森相关系数(Pearson correlation coefficient)分布图如图8f表示;皮尔森相关系数由真实转录组样本与其对应的“推算转录组”样本间全基因组表达值的协方差计算而来。
现有技术C-map、D-GEX和XGBoost方法使用约1000个基因和约9500个基因的转录数据进行比较:在微阵列平台中Pearson相关性>0.9和MAE>0.282,在RNAseq平台中MAE>0.439。
与现有技术相比,本实施例的pix2pix/SRGAN组合模型在覆盖率(15000对9500)、准确度(MAE为0.238对0.439)、范围(取log2后基因表达值在[0,18]区间,相比于现有的取log2的基因表达值在[4,15]区间),以及对信息输入的需求(200个基因对固定1000个基因;10%训练集对80%训练集)均优于现有技术。
实施例5转录组图像分类
如图7所示,使用来源于GSE18842、GSE19804、GSE27262三个微阵列转录组数据集合并的鳞状细胞肺癌(lung squamous cell carcinoma,LUSC)转录组数据集训练Keras卷积神经网络,学习区分肺鳞癌转录组图像和癌旁组织转录组图像,batch_size为20,learning_rate为0.0001;训练图像库包含532个基于基因芯片的鳞状细胞肺癌和癌旁组织(1:1比例)转录组图像,用于训练和验证的图片比例为7:3,训练100个回合。训练效果如图2d所示。图2d表示基于卷积神经网络的鳞状细胞肺癌与癌旁组织转录组图像分类;卷积神经网络图像分类模型训练100个回合,准确度逐步改善,错误率(loss)稳步下降。
实际上,部分转录组图像由增殖区(J)、免疫区(K)和肺/线粒体/代谢区(I)组成,如图2e所示,图2e表示肺癌病人(#109)肺癌组织和癌旁组织局部转录组图像,图像仅包含肺组织特异表达基因(I),细胞周期基因(J),以及免疫相关基因(K),基于卷积神经网络的鳞状细胞肺癌与癌旁组织非完整转录组图像分类训练效果如图2f所示。
进一步,采用上述训练好的卷积神经网络判别推算而来的肺鳞癌和癌旁组织转录组图像,达到100%的准确度的分类,如果只使用推算的肺鳞癌和癌旁组织的非完整转录组图像,能够进行超过95%的准确度的分类,结果如图3f所示;推算转录组图像中的10个由肺鳞癌转录组推算而来,另10个由癌旁组织转录组数据推算而来;数据来源于GSE19804微阵列肺癌转录组数据集,与基于RNA测序的PanCanAtlas数据集无交叉。
实施例6条件性StyleGAN模型合成仿真转录组图像
本实施例将PanCanAtlas转录组数据集按组织/疾病性质分成93类,每一类样品随机取样500次,共生成46500张1024*1024像素的转录组图像,ImageMagick压缩至512*512像素。此外,该转录组图像库还包括一份标注了每个转录组样本组织/疾病类别的宏信息文件给转录组图像做标签。
本实施例带宏文件标签信息的转录组图像库可以用来训练条件性StyleGAN-ADA。
具体地,PanCancer Atlas数据集具有93个类别的转录组图像被输入以训练条件性StyleGAN2-ADA网络,条件性StyleGAN-ADA模型训练及后续分析流程图如9a所示。在2500kimg训练后,用其生成模型(generative model)合成62张512*512像素鳞状细胞肺癌仿真转录组图片,经训练好的SRGAN512_1024模型和SRGAN768_3072模型将其分放大到1024*1024,压缩至768*768,再放大到3072*3072像素,然后根据每个基因在图上的坐标和对应坐标点的像素强度生成数值化基因组表达谱。62个仿真鳞状细胞肺癌转录组的数值化基因组表达谱经R语言的hclust聚类分析分成三个大类后比较大类之间的差异表达基因、对差异表达基因进行DAVID功能富集分析、以及基于差异表达基因进行生存预后分析。
进一步,训练好的条件性StyleGAN模型还可以通过加入较小数量的新的疾病种类样本进行再进一步的训练,获得新的疾病转录组潜空间组织规律。
实施例7疾病预后标志物筛选
肺鳞状细胞癌(LUSC)真实和合成转录组图像的亚型的分层聚类分析在R中使用hclust包进行,默认设置使用基因表达量在[1,255]之间缩放转换数据。通过双尾t检验确定簇之间的差异调节基因,并由DAVID评估p值最低的前1000个基因的功能富集。
在Prism9中进行中位存活时间(MST)分析。选择在每个类别中的样本间具有最大变异的基因进行分析。线粒体电子传递链复合物I基因在样本间的变异较低,取前六个可变基因(NDUFA2、A6、B7、B11、S7和V1)的平均值。
具体地,采用上述条件性StyleGAN模型合成62个仿真LUSC(第58类)转录组图像进行聚类分析,聚类分析结果显示所有转录组图像两步分叉成三个主要子集,具体如图4b和图9b所示。集群I和II之间差异调节基因(DEG)的基因集富集分析显示DEG含有细胞粘附、线粒体电子传递复合物I和EGFR信号功能相关基因,具体如图9b所示,以及集群IIa和IIbDEG含有膜蛋白和免疫反应功能相关基因。
鳞状细胞肺癌临床样本转录组数据中线粒体呼吸链复合体I、SFTPA2、CD48等表达量分布情况示意图如图4c所示;线粒体呼吸链复合体I的表达量为NDUFA2、A6、B7、B11、S7和V1六个基因的平均值。每个基因按照其表达量中位数分成高、低两组。根据图4c可知,真实LUSC转录组中一级和二级分支点的DEG富含免疫基因,但不富含线粒体电子传递复合物I。
进一步,根据分泌物蛋白SFTPA2(S)、线粒体呼吸链复合体I和表面受体蛋白CD48表达水平对真实LUSC患者进行分类,并检查他们的生存预后价值,具体如图4d~图4f所示,图4d~图4f表示鳞状细胞肺癌病人确诊后生存概率分布图,病人按照线粒体呼吸链复合体I(C)、分泌物蛋白SFTPA2(S)、表面受体蛋白CD48的表达量高低分组。
其中,线粒体呼吸链复合体I(electron transport complex I,ETCI)相关基因表达水平对鳞状细胞肺癌病人生存影响的示意图如图9c所示。ETCI表达水平高的病人中位确诊后生存期(median survival after diagnosis)为54个月,ETCI表达水平低的病人生存期为47个月,两者无统计显著差异。表面受体蛋白CD48相关基因的表达水平对鳞状细胞肺癌病人生存影响的示意图如图9d表示;CD48表达水平高的病人中位生存期为45个月,CD48水平低的病人生存期为57个月,两者无统计显著差异。
结果表明,单独的线粒体呼吸链复合体I(electron transport complex I,ETCI)相关基因和单独的免疫相关基因对患者生存都没有预后价值,但线粒体呼吸链复合体I高表达和免疫相关基因低表达(ChighIlow)的患者的MST为64个月,低线粒体复合物I和高免疫(ClowIhigh)基因表达的患者的MST为39个月,具体如图4d所示。同样,将高线粒体或低免疫基因表达与低表面活性蛋白表达相结合,MST分别延长至80个月(ChighSlow,具体如图4e所示)和89个月(IlowSlow,具体如图4f所示)。
实施例8非条件性StyleGAN模型评估疾病发病机制
使用LUSC数据集和PanCancer数据集的转录组图像用于训练非条件StyleGAN模型,相关流程图如图10a所示。StyleGAN-ADA模型先由PanCanAtlas转录组数据集生成的46500张图片不带标签训练2700kimg,FID(Fréchet inception distance)分值达到5.92,然后加入由基于微阵列的鳞状细胞肺癌转录组数据集(GSE18842,19804,27262)随机抽样10000次生成的转录组图片集继续训练1300kimg,FID值达到6.12。StyleGAN-ADA模型在PanCanAtlas转录组图片集非条件训练后生成StyleGAN-ADA w+潜在空间。
肺鳞状细胞肺癌转录组数据(GSE19804)的聚类分析示意图如图10c所示。具体地,聚类分析由R语言的hclust功能实现,选择肿瘤分期和聚类关系上比较接近但细胞增殖区基因调控差异显著的四个病人122、126、130、144作为进一步分析对象;T指肿瘤转录组,N指癌旁对照组织转录组。图10d矩形框处显示病人122和126的肿瘤转录组的细胞增殖区基因显著上调而病人130和144肿瘤转录组细胞增殖区基因上调幅度较小。
非条件性StyleGAN-ADA模型w+隐空间插值取样与分析示意图如图10b所示。具体地,四对鳞状细胞肺癌病人癌组织与癌旁组织转录组映射入训练好的非条件性StyleGAN-ADA模型w+隐空间,在每对癌旁组织和癌组织转录组隐空间映射点之间插值取样,转录组潜在空间插值取样示意图入图4c所示,鳞状细胞肺癌病人的癌组织转录组和癌旁组织转录组分别翻转入w+潜在空间并在其间取八步插值共生成十张(从正常到肿瘤编号0到9)转录组图片,从正常到肿瘤状态编号0到9,箭指从正常到肿瘤转录组隐空间插值取样过程中逐渐上调的细胞周期基因,箭头指插值取样过程中逐渐下降的免疫相关基因,从而每个患者生成10张转录组图片。
将所有10x4张转录组图片经训练好的SRGAN放大到3072*3072像素转录组图片后生成40个数值化转录组图谱;UMAP解析40个转录组图谱之间的邻域关系并将之投影到二维空间,投影结果如图4h所示。
图4h表示插值取样转录组在流形空间的投影坐标示意图;鳞状细胞肺癌病人122/126从正常到肿瘤插值取样过程中转录组在UMAP2维度显著下降但在UMAP1维度无显著变化;与它们不同的是,病人130/144转录插值取样过程中UMAP1和UMAP2均有一定幅度的上升。
通过对四个病人共40个插值取样转录组的UMAP分析,确定细胞周期高表达的122和126号病人其细胞周期基因的高表达与UMAP2成负相关,随肿瘤进展而逐步升高。图4i表示细胞周期基因E2F7表达量与UMAP2维度关联的示意图;E2F7表达量在病人122/126转录组空间从正常到肿瘤取样过程中随UMAP2维度坐标下降而上升,但在病人130/144转录组空间从正常到肿瘤插值取样过程中无显著变化。
进一步,通过皮尔逊相关系数和STRING(https://string-db.org/)分析肿瘤病人发病机制。具体地,UMAP2和内插转录组中的基因之间的Pearson相关性分析在excel中进行。选择所有样本中表达水平高于42(相当于3log2转化的FPKM)的基因进行Pearson相关分析,以减少低表达基因的大变化倍数对分析的影响。
通过对插值转录组中与UMAP2负相关的基因的网络分析发现一个含41个基因的跟蛋白质泛素化降解高度相关的基因网络,表明病人122和126的肺鳞癌发病及细胞周期基因上调与泛素化蛋白质降解通道密切相关,具体如图4j所示。图4j表示STRING基因网络分析癌症发生机制示意图;病人122/126转录组空间从正常到肿瘤取样过程中随UMAP2维度坐标下降而上升最显著的100个基因中的41个与泛素基因在同一个网络中,表明蛋白质泛素化降解水平上升是驱动病人122/126林状细胞肺癌发生的潜在机制。因此,蛋白酶体上调是患者122和126的选择性和潜在的肿瘤发生驱动因素,蛋白酶体抑制剂硼替佐米可能是患者122和患者126的有效治疗药物。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (57)

1.一种转录组图像生成装置,其特征在于,包括:
数据获取模块:用于获取第一目标生物的基因坐标数据以及第一目标生物的基因表达数据,所述第一目标生物基因坐标数据通过降维算法根据第一目标生物蛋白编码基因的表达量计算第一目标生物蛋白编码基因之间的邻域关系,并将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到;
第一图像生成模块:用于根据第一目标生物的基因坐标数据确定所述第一目标生物的基因表达数据中各基因的坐标,根据第一目标生物的基因表达数据中各基因的坐标以及各基因的表达量生成第一目标生物的转录组图像矩阵,所述转录组图像矩阵包括第一目标生物的基因表达数据中每个基因的坐标以及与每个基因的表达量一一对应的像素强度,根据所述第一目标生物的转录组图像矩阵生成第一目标生物的转录组图像。
2.根据权利要求1所述的装置,其特征在于,还包括:
基因坐标计算模块:用于获取第一目标生物的标准转录组数据集,通过降维算法根据所述标准转录组数据集中蛋白编码基因的表达量计算第一目标生物蛋白编码基因之间的邻域关系,并将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到所述第一目标生物的基因坐标数据;
优选的,所述降维算法包括统一流形逼近与投影算法。
3.根据权利要求2所述的装置,其特征在于,所述标准转录组数据集包括发育转录组数据、衰老转录组数据、疾病转录组数据、应激转录组数据以及特殊生理状态转录组数据中的至少一种;以及
生殖细胞转录组数据和诱导多能干细胞转录组数据。
4.根据权利要求3所述的装置,其特征在于,所述将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到所述第一目标生物的基因坐标数据具体包括:
将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的原始基因坐标,对第一目标生物的原始基因坐标进行旋转和/或缩放处理,得到第一目标生物在第一预设尺寸平面的基因坐标数据。
5.根据权利要求1所述的装置,其特征在于,还包括第二图像生成模块:
用于根据第二目标生物和第一目标生物的同源基因以及第一目标生物的基因坐标数据确定第二目标生物的基因坐标数据;获取第二目标生物的基因表达数据,根据第二目标生物的基因坐标数据确定第二目标生物的基因表达数据中各基因的坐标;根据第二目标生物的基因表达数据中各基因的坐标以及各基因的表达量生成第二目标生物的转录组图像矩阵,所述转录组图像矩阵包括第二目标生物的基因表达数据中每个基因的坐标以及与每个基因的表达量一一对应的像素强度,根据所述第二目标生物的转录组图像矩阵生成第二目标生物的转录组图像。
6.根据权利要求5所述的装置,其特征在于,所述第一图像生成模块和/或所述第二图像生成模块还用于:
将基因表达数据中每个基因的表达量按照预设规则转换为每个基因的整数表达值,根据相应目标生物的基因表达数据中各基因的坐标以及各基因的整数表达值生成相应的基因表达谱数据,将基因表达谱数据转换成转录组图像矩阵以生成相应的转录组图像,所述转录组图像矩阵包含基因表达数据中每个基因的坐标以及和每个基因的整数表达值一一对应的像素强度。
7.根据权利要求6所述的装置,其特征在于,所述预设规则包括以下规则中的至少一种:
1)对于测序转录组数据,通过(log2n+m)*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是每个基因的FPKM值,m为[0,3]之间的整数常数;
2)对于基因芯片转录组数据,通过(log2n-m)*k*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是来自微阵列的探针信号强度,m为[0,3]之间的整数常数,k为[0.5,2.0]之间整数常数。
8.根据权利要求6或7所述的装置,其特征在于,所述基因表达谱数据包括以下基因信息:基因名称、基因坐标以及各基因在[1,255]区间的整数表达值;和/或
转录组图像还包括第一虚拟基因和第二虚拟基因,其中,第一虚拟基因的整数表达值为0,坐标为(15,15),第二虚拟基因的整数表达值为255,坐标为(25,25)。
9.根据权利要求8所述的装置,其特征在于,所述第一图像生成模块和/或所述第二图像生成模块还用于:将基因表达谱列表中的基因信息按照各基因表达量升序或降序排列,按照基因表达谱列表中基因信息的排序顺序将转录组图像矩阵中每个基因打印至相应坐标位置生成具有相应像素强度的圆点以构成转录组图像;
优选的,每个基因在转录组图像中由以基因坐标为中心且面积为20~30个像素的圆点表示。
10.根据权利要求5-7、9任一项所述的装置,其特征在于,所述第一目标生物或第二目标生物的基因表达数据为全基因组表达数据时,所述转录组图像为完整转录组图像;
所述第一目标生物或第二目标生物的基因表达数据为预设数量基因的表达数据时,所述转录组图像为非完整转录组图像。
11.根据权利要求10所述的装置,其特征在于,所述预设数量基因是指基因表达数据中按照基因表达量从高到低排序得到的预设数量表达量最高的基因;和/或
所述预设数量不小于100;和/或
所述完整转录组图像或非完整转录组图像的尺寸为第二预设尺寸,所述第二预设尺寸和第一预设尺寸相同或不同;和/或
所述第一预设尺寸为512*512像素;和/或
所述第二预设尺寸包括512*512像素、1024*1024像素以及3072*3072像素中的至少一种;和/或
所述非完整转录组图像的尺寸为1024*1024像素。
12.根据权利要求5-7、9、11任一项所述的装置,其特征在于,所述第一目标生物为模式生物;和/或
所述第二目标生物和所述第一目标生物具有同源基因;
优选的,所述第一目标生物包括酵母、玉米、水稻、线虫、果蝇、小鼠、人、狒狒、噬菌体、大肠杆菌、海胆、斑马鱼、爪蟾、拟南芥中的至少一种。
13.根据权利要求5-7、9、11任一项所述的装置,其特征在于,还包括:
第三图像生成模块:用于获取目标图像生成模块输出的完整转录组图像和非完整转录组图像,并将所述完整转录组图像和所述非完整转录组图像的尺寸分别调整成第三预设尺寸,将第三预设尺寸的完整转录组图像和非完整转录组图像横向拼接生成第四预设尺寸的完整-非完整配对转录组图像,所述目标图像生成模块包括第一图像生成模块或者第二图像生成模块;
优选的,第三预设尺寸为768*768像素;
优选的,第四预设尺寸为768*1536像素。
14.根据权利要求13所述的装置,其特征在于,还包括:
第四图像生成模块:用于获取目标图像生成模块输出的两组完整转录组图像,两组完整转录组图像尺寸不同,将两组完整转录组图像中较小尺寸的完整转录组图像压缩为第三预设尺寸的转录组图像,将第三预设尺寸的转录组图像设定为低分辨转录组图像,两组转录组图像中尺寸较大的完整转录组图像设定为高分辨转录组图像,以得到低分辨-高分辨配对转录组图像,所述目标图像生成模块包括第一图像生成模块或者第二图像生成模块;
优选的,两组完整转录组图像的尺寸分别为1024*1024像素和3072*3072像素;
优选的,所述高分辨转录组图像的尺寸为3072*3072像素;
优选的,所述低分辨转录组图像的尺寸为768*768像素。
15.一种转录组图像库构建装置,其特征在于,包括:
深度学习数据集获取模块:用于获取目标生物的深度学习转录组数据集,所述深度学习转录组数据集按照样本信息分类包括不同样本类别的转录组数据,所述样本信息包括转录组样本的组织来源和病理状态;
图像库构建模块:用于将深度学习转录组数据集输入权利要求1~14任一项所述的装置以构建深度学习转录组数据集对应的完整转录组图像库;和/或
将深度学习转录组数据集输入权利要求1~14任一项所述的装置以构建深度学习转录组数据集对应的非完整转录组图像库;和/或
将深度学习转录组数据集输入权利要求13所述的装置以构建深度学习转录组数据集对应的完整-非完整配对转录组图像库;和/或
将深度学习转录组数据集输入权利要求14所述的装置以构建深度学习转录组数据集对应的低分辨-高分辨配对完整转录组图像库。
16.一种转录组图像补全装置,其特征在于,包括:
图像补全模块:用于获取根据权利要求1~14任一项所述的装置生成的非完整转录组图像,将所述非完整转录组图像输入经训练的图像补全模型,由所述图像补全模型输出所述非完整转录组图像对应的补全转录组图像;
其中,所述图像补全模型采用权利要求13所述的装置构建的完整-非完整配对转录组图像库训练预先构建的第一机器学习模型得到;
优选的,所述第一机器学习模型包括GAN模型;
优选的,所述第一机器学习模型为pix2pix模型。
17.一种仿真转录组图像合成装置,其特征在于,包括:
仿真转录组图像合成模块:用于通过经训练的条件性转录组图像合成模型合成特定疾病组织或对照组织的仿真转录组图像,所述条件性转录组图像合成模型通过权利要求15所述的装置构建的完整转录组图像库,结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;或者
通过经训练的非条件性转录组图像合成模型合成非特定疾病组织或非特定对照组织仿真转录组图像,所述非条件性转录组图像合成模型通过权利要求15构建的完整转录组训练图像库,不结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;
优选的,所述第二机器学习模型包括StyleGAN模型。
18.一种转录组图像超分辨处理装置,其特征在于,包括:
图像超分辨处理模块:用于获取根据权利要求16所述的装置生成的补全转录组图像或者权利要求17所述的装置生成的仿真转录组图像,将补全转录组图像或仿真转录组图像输入经训练的图像超分辨处理模型,由所述图像超分辨处理模型输出相应的高分辨补全转录组图像或高分辨仿真转录组图像;
其中,所述图像超分辨处理模型通过权利要求15所述的装置构建的低分辨-高分辨配对转录组图像库训练预先构建的第三机器学习模型得到;
优选的,所述第三机器学习模型包括SRGAN模型。
19.根据权利要求18所述的装置,其特征在于,还包括:
图像-表达谱转换模块:用于将转录组图像转换成包含转录组图像中每个基因表达量的数值化基因组表达谱,所述转录组图像包括补全转录组图像和仿真转录组图像中的至少一种。
20.一种疾病标志物筛选装置,其特征在于,包括:
疾病标志物筛选模块:采用权利要求19所述的装置获取预设疾病组织及对照组织的高分辨仿真转录组图像集中每个转录组图像的数值化基因组表达谱;
对疾病组织和对照组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为疾病标志物和/或确定疾病的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为不同疾病亚型的疾病亚型标志物和/或确定不同疾病亚型的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类得到疾病亚型之间的差异表达基因,筛选具有生存预后功能的差异表达基因作为疾病预后标志物。
21.一种发病机制评估装置,其特征在于,包括:
发病机制评估模块:用于获取目标患者根据权利要求1~14任一项所述的装置生成的预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像,将目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像翻转入权利要求17所述的装置使用的非条件性转录组图像合成模型的潜在空间得到相应的潜在空间疾病组织转录组图像和对照组织转录组图像,以及通过插值分别得到目标患者和对照患者的中间状态转录组图像;将目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像转换成数值化基因组表达谱,通过降维算法根据目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的数值化基因组表达谱计算转录组图像之间的邻域关系坐标,根据目标患者和对照患者潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的邻域关系坐标确定目标患者的发病机制。
22.根据权利要求21所述的装置,其特征在于,还包括:
药物筛选模块:用于根据疾病发病机制筛选药物靶点和/或选择适配的治疗药物;和/或
药物实验病人筛选模块:用于根据药物的靶向机制和疾病发病机制筛选适配病人群进行临床试验;
优选的,所述降维算法包括统一流形逼近与投影算法。
23.一种早期疾病标志物筛选装置,其特征在于,包括:
早期疾病标志物筛选模块:用于获取目标受试者正常组织的转录组图像,所述目标受试者正常组织的转录组图像包括采用权利要求1~14任一项所述的装置生成的目标受试者正常组织的完整转录组图像或者采用权利要求18所述的装置生成的目标受试者正常组织的高分辨补全转录组图像;将目标受试者正常组织的转录组图像翻转入权利要求17所述的装置使用的非条件性转录组图像合成模型的潜在空间并矢量转化为目标受试者疾病组织的转录组图像;将目标受试者正常组织的转录组图像和疾病组织的转录组图像转为数值化基因组表达谱,获取目标受试者两组数值化基因组表达谱之间的差异化表达基因作为早期疾病标志物。
24.一种确定样本来源的装置,其特征在于,包括:
样本来源确定模块:获取采用权利要求1~14任一项所述的装置生成的未知来源样本的完整转录组图像或者采用权利要求18所述的装置生成的未知来源样本的高分辨补全转录组图像;将未知来源样本的转录组图像翻转入权利要求17所述的装置使用的非条件性转录组图像合成模型的潜在空间生成未知来源样本的潜在空间转录组图像;采用权利要求17所述的装置使用的非条件性转录组图像合成模型合成不同样本类别的转录组图像;将未知来源样本的潜在空间转录组图像和不同样本类别的转录组图像转换成数值化基因组表达谱,对所有转录组图像的数值化基因组表达谱进行聚类分类以确定未知来源样本所属的样本类别。
25.一种转录组图像分类装置,其特征在于,包括:
图像分类模块:用于获取待测样本根据权利要求1~14任一项所述的装置生成的完整转录组图像或者非完整转录组图像或者采用权利要求18所述的装置生成的高分辨补全转录组图像;将所述完整转录组图像或者非完整转录组图像或者高分辨补全转录组图像输入经训练的转录组图像分类模型,根据所述转录组图像分类模型的输出预测待测样本是否患预设疾病;
所述图像分类模型采用权利要求15所述的装置构建的完整转录组图像库或者非完整转录组图像库,或者采用权利要求18所述的装置生成的高分辨补全转录组图像库训练预先构建的第四机器学习模型得到;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,所述非完整转录组图像是指由组织特异表达基因、细胞增殖相关基因和免疫相关基因构成的转录组图像;
优选的,所述第四机器学习模型包括卷积神经网络模型。
26.一种转录组图像机器学习模型构建装置,其特征在于,包括:
第一模型构建模块:用于获取根据权利要求15所述的装置构建的完整转录组训练图像库、完整-非完整配对转录组图像库和低分辨-高分辨配对转录组图像库中的至少一种图像库;
采用所述完整转录组训练图像库训练预先构建的第一机器学习模型,以构建完整转录组图像分类模型;或者
采用所述完整-非完整配对转录组图像库,训练预先构建的第二机器学习模型,以构建图像补全模型;或者
采用所述低分辨-高分辨配对转录组图像集训练预先构建的第三机器学习模型,以构建图像超分辨处理模型;
和/或
第二模型构建模块:用于获取根据权利要求15所述的装置构建的完整转录组图像库或者非完整转录组图像库,或者采用权利要求18所述的装置生成的高分辨补全转录组图像库;采用所述完整转录组图像库或者完整转录组图像库或高分辨补全转录组图像库训练预先构建的第四机器学习模型,以得到转录组图像分类模型;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,所述非完整转录组图像是指由组织特异表达基因、细胞增殖相关基因和免疫相关基因构成的转录组图像;
优选的,所述第一机器学习模型包括pix2pix模型;和/或
所述第二机器学习模型包括StyleGAN模型;和/或
所述第三机器学习模型包括SRGAN模型;和/或
所述第四机器学习模型包括卷积神经网络模型。
27.一种转录组图像生成方法,其特征在于,包括:
数据获取步骤:获取第一目标生物的基因坐标数据以及第一目标生物的基因表达数据,所述第一目标生物基因坐标数据通过降维算法根据第一目标生物蛋白编码基因的表达量计算第一目标生物蛋白编码基因之间的邻域关系,并将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到;
第一图像生成步骤:根据第一目标生物的基因坐标数据确定所述第一目标生物的基因表达数据中各基因的坐标,根据第一目标生物的基因表达数据中各基因的坐标以及各基因的表达量生成第一目标生物的转录组图像矩阵,所述转录组图像矩阵包括第一目标生物的基因表达数据中每个基因的坐标以及与每个基因的表达量一一对应的像素强度,根据所述第一目标生物的转录组图像矩阵生成第一目标生物的转录组图像。
28.根据权利要求27所述的方法,其特征在于,还包括:
基因坐标计算步骤:获取第一目标生物的标准转录组数据集,通过降维算法根据所述标准转录组数据集中蛋白编码基因的表达量计算第一目标生物蛋白编码基因之间的邻域关系,并将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到所述第一目标生物的基因坐标数据;优选的,所述降维算法包括统一流形逼近与投影算法。
29.根据权利要求28所述的方法,其特征在于,所述标准转录组数据集包括发育转录组数据、衰老转录组数据、疾病转录组数据、应激转录组数据以及特殊生理状态转录组数据中的至少一种;以及
生殖细胞转录组数据和诱导多能干细胞转录组数据。
30.根据权利要求29所述的方法,其特征在于,所述将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到所述第一目标生物的基因坐标数据具体包括:
将第一目标生物蛋白编码基因之间的邻域关系投影至二维空间得到第一目标生物的原始基因坐标,对第一目标生物的原始基因坐标进行旋转和/或缩放处理,得到第一目标生物在第一预设尺寸平面的基因坐标数据。
31.根据权利要求27所述的方法,其特征在于,还包括第二图像生成步骤:
根据第二目标生物和第一目标生物的同源基因以及第一目标生物的基因坐标数据确定第二目标生物的基因坐标数据;获取第二目标生物的基因表达数据,根据第二目标生物的基因坐标数据确定第二目标生物的基因表达数据中各基因的坐标;根据第二目标生物的基因表达数据中各基因的坐标以及各基因的表达量生成第二目标生物的转录组图像矩阵,所述转录组图像矩阵包括第二目标生物的基因表达数据中每个基因的坐标以及与每个基因的表达量一一对应的像素,根据第二目标生物的转录组图像矩阵生成第二目标生物的转录组图像。
32.根据权利要求31所述的方法,其特征在于,所述第一图像生成步骤和/或所述第二图像生成步骤还包括:
将基因表达数据中每个基因的表达量按照预设规则转换为每个基因的整数表达值,根据相应目标生物的基因表达数据中各基因的坐标以及各基因的整数表达值生成相应的基因表达谱数据,将基因表达谱数据转换成转录组图像矩阵以生成相应的转录组图像,所述转录组图像矩阵包含基因表达数据中每个基因的坐标以及和每个基因的整数表达值一一对应的像素强度。
33.根据权利要求32所述的方法,其特征在于,所述预设规则包括以下规则中的至少一种:
1)对于测序转录组数据,通过(log2n+m)*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是每个基因的FPKM值,m为[0,3]之间的整数常数;
2)对于基因芯片转录组数据,通过(log2n-m)*k*14+1将每个基因的表达量转换为每个基因在[1,255]区间的整数表达值,其中n是来自微阵列的探针信号强度,m为[0,3]之间的整数常数,k为[0.5,2.0]之间正数常数。
34.根据权利要求32或33所述的方法,其特征在于,所述基因表达谱数据包括以下基因信息:基因名称、基因坐标以及各基因的整数表达值;和/或
转录组图像还包括第一虚拟基因和第二虚拟基因,其中,第一虚拟基因的整数表达值为0,坐标为(15,15),第二虚拟基因的整数表达值为255,坐标为(25,25)。
35.根据权利要求31-33任一项所述的方法,其特征在于,所述第一图像生成步骤和/或第二图像生成步骤还包括:
将基因表达谱数据中的基因信息按照各基因表达量升序或降序排列,按照基因表达谱数据中基因信息的排序顺序将转录组图像矩阵中每个基因打印至相应坐标位置生成具有相应像素强度的圆点以构成转录组图像;
优选的,每个基因在转录组图像中由以基因坐标为中心且面积为20~30个像素的圆点表示。
36.根据权利要求31-33任一项所述的方法,其特征在于,所述第一目标生物或第二目标生物的基因表达数据为全基因组表达数据时,所述转录组图像为完整转录组图像;
所述第一目标生物或第二目标生物的基因表达数据为预设数量基因的表达数据时,所述转录组图像为非完整转录组图像。
37.根据权利要求36所述的方法,其特征在于,所述预设数量基因是指基因表达数据中按照基因表达量从高到低排序得到的预设数量表达量最高的基因;和/或
所述预设数量不小于100;和/或
所述完整转录组图像或非完整转录组图像的尺寸为第二预设尺寸,所述第二预设尺寸和第一预设尺寸相同或不同;和/或
优选的,第一预设尺寸为512*512像素;
优选的,所述第二预设尺寸包括512*512像素、1024*1024像素以及3072*3072像素中的至少一种;
优选的,所述非完整转录组图像的尺寸为1024*1024像素。
38.根据权利要求31-33任一项所述的方法,其特征在于,所述第一目标生物为模式生物;和/或
所述第二目标生物和所述第一目标生物具有同源基因;
优选的,所述第一目标生物包括酵母、玉米、水稻、线虫、果蝇、小鼠、人、狒狒、噬菌体、大肠杆菌、海胆、斑马鱼、爪蟾、拟南芥中的至少一种。
39.根据权利要求31-33任一项所述的方法,其特征在于,还包括:
第三图像生成步骤:获取目标图像生成步骤输出的完整转录组图像和非完整转录组图像,并将所述完整转录组图像和所述非完整转录组图像的尺寸分别调整成第三预设尺寸,将第三预设尺寸的完整转录组图像和非完整转录组图像横向拼接生成第四预设尺寸的完整-非完整配对转录组图像,所述目标图像生成步骤包括第一图像生成步骤或者第二图像生成步骤;
优选的,第三预设尺寸为768*768像素;
优选的,第四预设尺寸为768*1536像素。
40.根据权利要求39所述的方法,其特征在于,还包括:
第四图像生成步骤:获取目标图像生成步骤输出的两组完整转录组图像,两组完整转录组图像尺寸不同,将两组完整转录组图像中较小尺寸的完整转录组图像压缩为第三预设尺寸的转录组图像,将第三预设尺寸的转录组图像设定为低分辨转录组图像,两组转录组图像中尺寸较大的完整转录组图像设定为高分辨转录组图像,以得到低分辨-高分辨配对转录组图像,所述目标图像生成步骤包括第一图像生成步骤或者第二图像生成步骤;
优选的,两组完整转录组图像的尺寸分别为1024*1024像素和3072*3072像素;
优选的,所述高分辨转录组图像的尺寸为3072*3072像素;
优选的,所述低分辨转录组图像的尺寸为768*768像素。
41.一种转录组图像库构建方法,其特征在于,包括:
深度学习数据集获取步骤:获取目标生物的深度学习转录组数据集,所述深度学习转录组数据集按照样本信息分类包括不同样本类别的转录组数据,所述样本信息包括转录组样本的组织来源和病理状态;
图像库构建步骤:将深度学习转录组数据集输入权利要求27~40任一项所述的方法以构建深度学习转录组数据集对应的完整转录组图像库;和/或
将深度学习转录组数据集输入权利要求27~40任一项所述的方法以构建深度学习转录组数据集对应的非完整转录组图像库;和/或
将深度学习转录组数据集输入权利要求39所述的方法以构建深度学习转录组数据集对应的完整-非完整配对转录组图像库;和/或
将深度学习转录组数据集输入权利要求40所述的方法以构建深度学习转录组数据集对应的低分辨-高分辨配对完整转录组图像库。
42.一种转录组图像补全方法,其特征在于,包括:
图像补全步骤:获取根据权利要求27~40任一项所述的方法生成的非完整转录组图像,将所述非完整转录组图像输入经训练的图像补全模型,由所述图像补全模型输出所述非完整转录组图像对应的补全转录组图像;
其中,所述图像补全模型采用权利要求39所述的方法构建的完整-非完整配对转录组图像库训练预先构建的第一机器学习模型得到;
优选的,所述第一机器学习模型包括GAN模型;
优选的,所述第一机器学习模型为pix2pix模型。
43.一种仿真转录组图像合成方法,其特征在于,包括:
仿真转录组图像合成步骤:通过经训练的条件性转录组图像合成模型合成特定疾病组织或对照组织的仿真转录组图像,所述条件性转录组图像合成模型通过权利要求41所述的方法构建的完整转录组图像库,结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;或者
通过经训练的非条件性转录组图像合成模型合成非特定疾病组织或非特定对照组织仿真转录组图像,所述非条件性转录组图像合成模型通过权利要求41所述的方法构建的完整转录组训练图像库,不结合深度学习转录组数据集的样本信息,训练预先构建的第二机器学习模型得到;
优选的,所述第二机器学习模型包括StyleGAN模型。
44.一种转录组图像超分辨处理方法,其特征在于,包括:
图像超分辨处理步骤:获取根据权利要求42所述的方法生成的补全转录组图像或者权利要求43所述的方法生成的仿真转录组图像,将补全转录组图像或仿真转录组图像输入经训练的图像超分辨处理模型,由所述图像超分辨处理模型输出相应的高分辨补全转录组图像或高分辨仿真转录组图像;
其中,所述图像超分辨处理模型通过权利要求41所述的方法构建的低分辨-高分辨配对转录组图像库训练预先构建的第三机器学习模型得到;
优选的,所述第三机器学习模型包括SRGAN模型。
45.根据权利要求44所述的方法,其特征在于,还包括:
图像-表达谱转换步骤:将转录组图像转换成包含转录组图像中每个基因表达量的数值化基因组表达谱,所述转录组图像包括补全转录组图像和仿真转录组图像中的至少一种。
46.一种疾病标志物筛选方法,其特征在于,包括:
疾病标志物筛选步骤:采用权利要求45所述的方法获取预设疾病组织及对照组织的高分辨仿真转录组图像集中每个转录组图像的数值化基因组表达谱;
对疾病组织和对照组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为疾病标志物和/或确定疾病的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类筛选差异表达基因作为不同疾病亚型的疾病亚型标志物和/或确定不同疾病亚型的发病机制;和/或
对预设疾病组织的数值化基因组表达谱进行聚类分类得到疾病亚型之间的差异表达基因,筛选具有生存预后功能的差异表达基因作为疾病预后标志物。
47.一种发病机制评估方法,其特征在于,包括:
发病机制评估步骤:采用权利要求27~40任一项所述的方法获取目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像,将目标患者预设疾病组织和对照组织的完整转录组图像以及对照患者预设疾病组织和对照组织的完整转录组图像翻转入权利要求43所述的方法使用的非条件性转录组图像合成模型的潜在空间得到相应的潜在空间疾病组织转录组图像和对照组织转录组图像,以及通过插值分别得到目标患者和对照患者的中间状态转录组图像;将目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像转换成数值化基因组表达谱,通过降维算法根据目标患者和对照患者在潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的数值化基因组表达谱计算转录组图像之间的邻域关系坐标,根据目标患者和对照患者潜在空间的疾病组织转录组图像、对照组织转录组图像和中间状态转录组图像的邻域关系坐标确定目标患者的发病机制。
48.根据权利要求47所述的方法,其特征在于,还包括:
药物筛选步骤:根据疾病发病机制筛选药物靶点和/或选择适配的治疗药物;和/或
药物实验病人筛选步骤:根据药物的靶向机制和疾病发病机制筛选适配病人群进行临床试验;
优选的,所述降维算法包括统一流形逼近与投影算法。
49.一种早期疾病标志物筛选方法,其特征在于,包括:
早期疾病标志物筛选步骤:获取目标受试者正常组织的转录组图像,所述目标受试者正常组织的转录组图像包括采用权利要求27~40任一项所述的方法生成的目标受试者正常组织的完整转录组图像或者采用权利要求44所述的方法生成的目标受试者正常组织的高分辨补全转录组图像;将目标受试者正常组织的转录组图像翻转入权利要求43所述的方法使用的非条件性转录组图像合成模型的潜在空间并矢量转化为目标受试者疾病组织的转录组图像;将目标受试者正常组织的转录组图像和疾病组织的转录组图像转为数值化基因组表达谱,获取目标受试者两组数值化基因组表达谱之间的差异化表达基因以作为早期疾病标志物。
50.一种确定样本来源的方法,其特征在于,包括:
样本来源确定步骤:获取采用权利要求27~40任一项所述的方法生成的未知来源样本的完整转录组图像或者采用权利要求44所述的方法生成的未知来源样本的高分辨补全转录组图像;将未知来源样本的转录组图像翻转入权利要求43所述的方法使用的非条件性转录组图像合成模型的潜在空间生成未知来源样本的潜在空间转录组图像;采用权利要求43所述的方法使用的非条件性转录组图像合成模型合成不同样本类别的转录组图像;将未知来源样本的潜在空间转录组图像和不同样本类别的转录组图像转换成数值化基因组表达谱,对所有转录组图像的数值化基因组表达谱进行聚类分类以确定未知来源样本所属的样本类别。
51.一种转录组图像分类方法,其特征在于,包括:
图像分类步骤:获取待测样本根据权利要求41所述的方法构建的完整转录组图像或者非完整转录组图像或者采用权利要求44所述的方法生成的高分辨补全转录组图像;将所述完整转录组图像或者完整转录组图像或者高分辨补全转录组图像输入经训练的转录组图像分类模型,根据所述转录组图像分类模型的输出预测待测样本是否患预设疾病;
所述图像分类模型采用权利要求27~40任一项所述的方法生成的完整转录组图像库或者非完整转录组图像库,或者采用权利要求43所述的方法生成的高分辨补全转录组图像库训练预先构建的第四机器学习模型得到;其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,所述非完整转录组图像是指由组织特异表达基因、细胞增殖相关基因和免疫相关基因构成的转录组图像;
优选的,所述第四机器学习模型包括卷积神经网络模型。
52.一种转录组图像机器学习模型构建方法,其特征在于,包括:
第一模型构建步骤:获取根据权利要求41所述的方法构建的完整转录组训练图像库、完整-非完整配对转录组图像库和低分辨-高分辨配对转录组图像库中的至少一种图像库;
采用所述完整转录组训练图像库训练预先构建的第一机器学习模型,以构建完整转录组图像分类模型;或者
采用所述完整-非完整配对转录组图像库,训练预先构建的第二机器学习模型,以构建图像补全模型;或者
采用所述低分辨-高分辨配对转录组图像集训练预先构建的第三机器学习模型,以构建图像超分辨处理模型;
和/或
第二模型构建步骤:获取根据权利要求41所述的方法构建的完整转录组图像库或者非完整转录组图像库,或者采用权利要求44所述的方法生成的高分辨补全转录组图像库;采用所述完整转录组图像库或者非完整转录组图像库或者高分辨补全转录组图像库训练预先构建的第四机器学习模型,以得到转录组图像分类模型,其中,完整转录组图像库包括对照组织的转录组图像和预设疾病组织的完整转录组图像,非完整转录组图像库包括对照组织的转录组图像和预设疾病组织的非完整转录组图像,高分辨补全转录组图像库包括对照组织的高分辨补全转录组图像和预设疾病组织的高分辨补全转录组图像,所述非完整转录组图像是指由组织特异表达基因、细胞增殖相关基因和免疫相关基因构成的转录组图像;
优选的,所述第一机器学习模型包括pix2pix模型;和/或
所述第二机器学习模型包括StyleGAN模型;和/或
所述第三机器学习模型包括SRGAN模型;和/或
所述第四机器学习模型包括卷积神经网络模型。
53.根据权利要求1~26任一项所述的装置或者根据权利要求27~52任一项所述的方法在非疾病诊断和治疗中的应用。
54.一组基因组学信息可视化方法,其特征在于,根据权利要求1~26任一项所述的装置或权利要求27~52任一项所述的方法获取的第一目标生物的基因坐标数据,或者权利要求5~26任一项所述的装置或31~52任一项所述的方法得到的第二目标生物的基因坐标数据,将相应目标生物的基因组信息中每个基因的信息以相应的像素强度呈现于每个基因的坐标对应的像素点位置,每个基因的像素强度与所述基因组信息中每个基因的信息相对应;
优选的,所述基因组信息包括基因组中每个基因的基因突变、基因拷贝数、基因表观遗传修饰、基因转录速度、基因转录本剪接、基因转录本数目、基因转录本翻译速度、基因编码蛋白质丰度、基因编码蛋白质降解速度、基因编码蛋白质翻译后修饰、基因编码蛋白质活性和基因间互作信息中的至少一种。
55.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求27至52中任一项所述的方法或权利要求54所述的方法中的步骤。
56.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求27至52中任一项所述的方法或权利要求54所述的方法中的步骤。
57.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求27至52中任一项所述的方法或权利要求55所述的方法中的步骤。
CN202210368372.4A 2022-04-08 2022-04-08 转录组图像生成装置、方法和应用 Active CN114882955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210368372.4A CN114882955B (zh) 2022-04-08 2022-04-08 转录组图像生成装置、方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210368372.4A CN114882955B (zh) 2022-04-08 2022-04-08 转录组图像生成装置、方法和应用

Publications (2)

Publication Number Publication Date
CN114882955A CN114882955A (zh) 2022-08-09
CN114882955B true CN114882955B (zh) 2023-04-07

Family

ID=82668911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210368372.4A Active CN114882955B (zh) 2022-04-08 2022-04-08 转录组图像生成装置、方法和应用

Country Status (1)

Country Link
CN (1) CN114882955B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631849B (zh) * 2022-10-19 2023-04-28 哈尔滨工业大学 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备
CN116312782B (zh) * 2023-05-18 2023-08-01 南京航空航天大学 一种融合影像基因数据的空间转录组spot区域聚类方法
CN117219167B (zh) * 2023-10-25 2024-02-20 中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心) 一种样本间差异的归因方法、装置、电子设备及存储介质
CN117235464B (zh) * 2023-11-14 2024-02-23 华东交通大学 一种傅里叶近红外干涉信号虚拟生成评价方法及系统
CN117671676B (zh) * 2024-01-30 2024-04-09 中山大学附属口腔医院 一种基于空间转录组可视化图像评估异常免疫细胞的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324002B (zh) * 2011-06-03 2013-10-30 哈尔滨工程大学 基于数字图像处理的dna序列的二维图像表示方法
JP5945434B2 (ja) * 2012-03-16 2016-07-05 オリンパス株式会社 生物試料の画像解析方法、画像解析装置、画像撮影装置およびプログラム
US20180150608A1 (en) * 2016-11-30 2018-05-31 Electronics And Telecommunications Research Institute Device and method for diagnosing cardiovascular disease using genome information and health medical checkup data
CN110379459B (zh) * 2019-08-13 2021-06-29 杭州新范式生物医药科技有限公司 一种基于转录组时序动态变化和基因功能关联发现分子标志物的方法及系统
CN113192553B (zh) * 2020-01-14 2022-09-09 北京大学 基于单细胞转录组测序数据预测细胞空间关系的方法
US11308616B2 (en) * 2020-08-04 2022-04-19 PAIGE.AI, Inc. Systems and methods to process electronic images to provide image-based cell group targeting
CN112522371A (zh) * 2020-12-21 2021-03-19 广州基迪奥生物科技有限公司 一种空间转录组测序数据的分析方法

Also Published As

Publication number Publication date
CN114882955A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN114882955B (zh) 转录组图像生成装置、方法和应用
Szubert et al. Structure-preserving visualisation of high dimensional single-cell datasets
Mahfouz et al. Visualizing the spatial gene expression organization in the brain through non-linear similarity embeddings
Claes et al. Toward DNA-based facial composites: preliminary results and validation
US20170357844A1 (en) Image-based tumor phenotyping with machine learning from synthetic data
US10192641B2 (en) Method of generating a dynamic pathway map
Putra et al. Enhanced skin condition prediction through machine learning using dynamic training and testing augmentation
CN107924457A (zh) 用于在多路复用/超复合荧光组织图像中查找苏木精和曙红(h&e)染色的组织图像中的感兴趣区域并量化肿瘤内细胞空间异质性的系统和方法
US20220292674A1 (en) Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery
Qu et al. Simultaneous recognition and segmentation of cells: application in C. elegans
Yang et al. A multiorgan segmentation model for CT volumes via full convolution-deconvolution network
WO2023193267A1 (zh) 转录组图像生成装置、方法和应用
Wu et al. Highly Regional Genes: graph-based gene selection for single-cell RNA-seq data
Bellier et al. Combining counts and incidence data: an efficient approach for estimating the log-normal species abundance distribution and diversity indices
EP4239647A1 (en) Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery
Le Cao et al. Package ‘mixOmics’
CN115762796A (zh) 目标模型的获取方法、预后评估值确定方法、装置、设备及介质
Su et al. Smoother: a unified and modular framework for incorporating structural dependency in spatial omics data
Dong et al. Multi-task dictionary learning based on convolutional neural networks for longitudinal clinical score predictions in Alzheimer’s disease
Hu et al. A novel method for discovering local spatial clusters of genomic regions with functional relationships from DNA contact maps
WO2012168810A2 (en) Cross-modal application of combination signatures indicative of a phenotype
US20230230704A1 (en) Methods and systems for providing molecular data based on ct images
Gilbert et al. The Allen Brain Atlas: toward understanding brain behavior and function through data acquisition, visualization, analysis, and integration
Wang et al. Missing-value imputation and in-silico region detection for spatially resolved transcriptomics
Lund et al. AntiSplodge: a neural-network-based RNA-profile deconvolution pipeline designed for spatial transcriptomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant