CN115346599A - H&e图像基因和细胞异质性预测方法、系统和存储介质 - Google Patents

H&e图像基因和细胞异质性预测方法、系统和存储介质 Download PDF

Info

Publication number
CN115346599A
CN115346599A CN202211282187.XA CN202211282187A CN115346599A CN 115346599 A CN115346599 A CN 115346599A CN 202211282187 A CN202211282187 A CN 202211282187A CN 115346599 A CN115346599 A CN 115346599A
Authority
CN
China
Prior art keywords
transcriptome
cell
spatial
gene
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211282187.XA
Other languages
English (en)
Other versions
CN115346599B (zh
Inventor
罗杨钖
周小波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202211282187.XA priority Critical patent/CN115346599B/zh
Publication of CN115346599A publication Critical patent/CN115346599A/zh
Application granted granted Critical
Publication of CN115346599B publication Critical patent/CN115346599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于图像处理技术领域,具体涉及一种H&E图像基因和细胞异质性的预测方法和系统。本发明的方法包括如下步骤:步骤1,输入H&E图像;步骤2,采用机器学习模型对H&E图像进行分析,得到H&E图像中每个像素块的基因表达和细胞类型的预测结果;步骤3,输出所述预测结果;其中,所述机器学习模型的训练过程中,以包含基因信息及细胞类型信息的空间转录组数据及其对应的H&E图像作为构成训练集的数据。此外本发明还提供了实现上述方法的系统。本发明为基因表达的异质性分析提供了新的方法,具有很好的应用前景。

Description

H&E图像基因和细胞异质性预测方法、系统和存储介质
技术领域
本发明属于图像处理技术领域,具体涉及一种H&E图像基因和细胞异质性预测方法、系统和存储介质。
背景技术
肿瘤内异质性对癌症患者的准确诊断和建立个性化治疗策略带来了重大挑战。这种异质性可能是治疗耐药性、疾病进展和癌症复发的基础。如何便捷快速的确定肿瘤异质性目前是临床治疗中面临的难题。
组织病理学H&E染色(苏木精和伊红染色)图像是临床判断肿瘤进展的重要依据。H&E染色技术具有方便、快捷、以及经济适用等特点。医生可通过H&E染色呈现的图像可大致的识别样本的生物组织学区域,判断肿瘤的发展阶段。然而H&E图像包含着的丰富的分子生物信息却无法通过肉眼判断。目前国内外已建立了多个临床医学领域的数据库,其中包含着来源于不同病人,不同病种的H&E染色图像。例如TCGA(癌症基因组图谱)数据库中就包含了33种癌症的20000多个样本数据。如果存在一种可以通过H&E图像判断肿瘤异质性的方法,这将极大的加深我们对肿瘤的理解,同时也有助于快速寻找潜在的治疗靶点,提升临床治疗效果。
单细胞及空间转录组技术的发展,使得这一设想成为现实。
肿瘤组织取样后,可通过单细胞转录组测序技术将组织分离成单个细胞,然后进行全基因组表达量的测定。通过分析每个细胞不同的基因表达状态,人们得以确定细胞的异质性。然而这一技术会导致空间信息的缺少,即无法判断这些异质性细胞的空间分布,以及它们在空间上的相互作用。作为承担生命活动机体的基本组成单元,细胞需要在特定的空间位置与自身的微环境协同,才能发挥其特有的生物学功能。所以细胞的空间信息对研究和理解细胞生物学、肿瘤生物学、发育生物学等学科的发展尤为重要。空间转录组技术的出现弥补了这一缺陷。
空间转录组学结合显微成像和测序技术,在获得基因表达数据的同时,最大程度的保留了样本的空间位置信息。空间转录组基于原位测序技术,每张测序玻片上排列着紧密的空间位点,每个空间位点上都含有带有位置信息编码的分子成像探针,这些探针捕捉组织的转录组并支持测序和成像。根据应用技术的不同,空间位点的直径大小也会有变化(10-100μm),但是最后的测序结果都记录在(空间位点x基因表达)的矩阵中。然而,空间转录组测序成本高,分子捕捉效率低下,测验结果存在大量的缺失值,也达不到单细胞级别的分辨率。因此,仅靠空间转录组信息无法达到分辨肿瘤细胞异质性的目的。
总之,目前上述现有技术或存在难以识别基因信息,或存在缺少空间信息无法进行异质性分析,或存在检测成本和存在缺失值的问题。因此,本领域亟需一种低成本且能够有效地对H&E图像基因表达的异质性进行分析的方法。
发明内容
针对现有技术的问题,本发明提供一种H&E图像基因和细胞异质性预测方法、系统和存储介质,目的在于实现对H&E图像基因表达和细胞类型的预测,为基因表达异质性分析等临床应用提供新的手段。
一种H&E图像基因和细胞异质性预测方法,包括如下步骤:
步骤1,输入H&E图像;
步骤2,采用机器学习模型对H&E图像进行分析,得到H&E图像中每个像素块的基因表达和细胞类型的预测结果;
步骤3,输出所述预测结果;
其中,所述机器学习模型的训练过程中,以包含基因信息及细胞类型信息的空间转录组数据及其对应的H&E图像作为构成训练集的数据。
优选的,所述机器学习模型是基于DenseNet-121模型的CNN网络。
优选的,所述包含基因信息及细胞类型信息的空间转录组数据按照如下方法得到:
步骤A,收集组织相同或采样样本相邻的单细胞转录组数据和原始空间转录组数据;
步骤B,以单细胞转录组数据中的基因表达为参考,对所述原始空间转录组数据中基因表达的缺失值进行插补;
步骤C,对单细胞转录组数据的细胞类型进行标注;
步骤D,使用基于神经网络的迁移学习方法,以单细胞转录组数据为源领域,经过步骤B处理后的原始空间转录组数据为目标领域,通过半监督的学习方法预测空间转录组中每个空间位点的细胞类型,即得包含基因信息及细胞类型信息的空间转录组数据。
优选的,步骤B中,对所述缺失值进行插补的方法包括如下步骤:
步骤B1,对所述原始空间转录组数据的表达矩阵按如下公式进行标准化处理:
Figure 434503DEST_PATH_IMAGE001
其中,i表示所述原始空间转录组数据中的某个空间位点,j表示某个基因,g(ij)代表所述原始空间转录组数据中第i个空间位点中第j个基因的原始表达量,
Figure 170640DEST_PATH_IMAGE003
代表某个空间位点中所有基因的平均表达量,
Figure 653574DEST_PATH_IMAGE004
为标准化后的第i个空间位点中第j个基因的表达量;
步骤B2,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵的行对齐,填补空间转录组上缺失的基因表达量为0;
步骤B3,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵合并,使列随机交叉混合,对空间转录组缺失基因的表达量进行预测。
优选的,步骤B中,所述插补采用stPlus、SpaGE、Seurat、Liger、gimVI、FIST、GWNMF、Spatial-NN或REMAP进行。
优选的,步骤C中,细胞类型的标注采用Seurat、scater或scapy进行。
优选的,步骤D中,所述神经网络由一个输入层和两个全连接层组成,第一个全连接用于捕捉空间转录组与单细胞转录组的对齐特征,第二个全连接层用于预测细胞类型;
来源于空间转录组的细胞通过余弦相似度预测细胞类型,来源于单细胞转录组的细胞通过softmax分类器预测细胞类型。
优选的,步骤2中,通过softmax分类器以及交叉熵损失函数来预测基因表达或细胞类型。
本发明还提供一种H&E图像基因和细胞异质性预测系统,包括:
输入模块,用于输入数据;
单细胞转录组与空间转录组的映射模块,用于根据单细胞转录组数据和原始空间转录组计算获得包含基因信息及细胞类型信息的空间转录组数据;
H&E图像与空间转录组的映射模块,用于按照上述预测方法对H&E图像中每个像素块的基因表达和细胞类型进行预测;
输出模块,用于输出预测结果。
本发明还提供一种计算机可读存储介质,其上存储有用于实现上述预测方法的计算机程序。
本发明中所述“空间位点”代表着空间转录组测序玻片上的每一个空间位置。根据不同的技术,这个空间位点(空间位置)的直径大小不一致,其大小范围可在10-100μm。虽然测序技术不同,但最后的测序结果都记录在(空间位点x基因表达)的矩阵中。
本发明联合单细胞转录组和空间转录组构建了包含基因信息及细胞类型信息的空间转录组数据,利用该数据训练的机器学习模型,能够对H&E图像的基因表达和细胞类型进行预测。由此,本发明建立了完善的连接单细胞转录组、空间转录组、组织病理学H&E图像的联合分析系统,填补了空间转录组的缺失值,可辅助进行更高精度的基因分析和细胞类型估计。
本发明可从普通的组织病理学H&E图像中识别高变基因,并通过这些基因的位置分布和功能分析,筛选潜在的肿瘤治疗生物靶点;可帮助临床通过H&E图像识别肿瘤内异质性,结合其空间位置有助于加深肿瘤微环境的了解。可辅助临床治疗方案的制定,如病人是否适合免疫治疗,以及哪种免疫治疗法。因此,本发明的方法和系统具有很好的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明实施例1的流程示意图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1 H&E图像基因和细胞异质性的预测方法和系统
本实施例的系统包括:
输入模块,用于输入数据;
单细胞转录组与空间转录组的映射模块,用于根据单细胞转录组数据和原始空间转录组计算获得包含基因信息及细胞类型信息的空间转录组数据;
H&E图像与空间转录组的映射模块,用于按照对H&E图像中每个像素块的基因表达和细胞类型进行预测;
输出模块,用于输出预测结果。
采用上述系统进行H&E图像基因和细胞异质性的预测的方法流程如图1所示,具体包括如下步骤:
S1,收集三种数据:原始空间转录组数据、单细胞转录组数据以及H&E图像。
其中,单细胞转录组样本与空间转录组样本互为相邻样本,或者两者来源于同一种组织。
H&E图像包括空间转录组中的H&E图像(用于训练模型),以及未做过空间转录组的普通组织病理学H&E图像(用于作为模型训练完成后的待预测数据)。
S2,构建包含基因信息及细胞类型信息的空间转录组数据。
具体步骤为:
S2.1,原始空间转录组数据基因表达缺失值插补:对原始空间转录组数据的表达矩阵按公式1进行标准化处理:
Figure 922881DEST_PATH_IMAGE001
(1)
其中,i表示所述原始空间转录组数据中的某个空间位点,j表示某个基因,g(ij)代表所述原始空间转录组数据中第i个空间位点中第j个基因的原始表达量,
Figure 833068DEST_PATH_IMAGE003
代表某个空间位点中所有基因的平均表达量,
Figure 289457DEST_PATH_IMAGE004
为标准化后的第i个空间位点中第j个基因的表达量。
然后,将空间转录组基因表达矩阵的行(基因)与单细胞转录组基因表达矩阵的行(基因)对齐,填补空间转录组上缺失的基因表达量为0;
随后,将两个矩阵合并,使列(空间位点/细胞)随机交叉混合,使用stPlus软件对空间转录组缺失基因的表达量进行预测。
S2.2,单细胞注释:使用现有的单细胞分析软件,如Seurat,scater,scapy 等对单细胞转录组进行PCA降维,kNN聚类,然后计算每一类的特征基因,联合已知的各类细胞的标志基因对每个细胞的类型进行标注。
S2.3,利用已标注的单细胞转录组数据预测空间转录组的细胞类型:
使用基于神经网络的迁移学习(Transfer Learning)方法,以单细胞转录组为源领域,原始空间转录组为目标领域,通过半监督的学习方法预测原始空间转录组中每个空间位点的细胞类型。
该神经网络由一个输入层两个全连接层组成。输入层为插补后与单细胞转录组具有相同基因维度的空间转录组表达矩阵,以及注释后带有细胞类型标签的单细胞转录组表达矩阵。第一个全连接层作为捕捉空间转录组与单细胞转录组对齐特征的JointEmbedding Layer。第二个全连接层为Prediction Layer,其维度与单细胞注释的细胞类型种类数相等。来源于空间转录组的细胞通过余弦相似度,来源于单细胞转录组的细胞通过softmax分类器来预测细胞类型。
该神经网络的具体过程如下:
Joint Embedding Layer的损失函数:
Figure 811968DEST_PATH_IMAGE005
(2)
Figure 670202DEST_PATH_IMAGE006
(3)
Figure 751291DEST_PATH_IMAGE007
为单个细胞(i)的基因表信息;
Figure 694976DEST_PATH_IMAGE008
为函数
Figure 254133DEST_PATH_IMAGE009
的系数;
Figure 966875DEST_PATH_IMAGE010
为细胞经过Joint Embedding Layer的输出;
Figure 466469DEST_PATH_IMAGE011
为Joint Embedding Layer中所有神经元的集合,D为神经元总数,jD中单个的神经元;
Figure 163029DEST_PATH_IMAGE012
为所有细胞经过Joint Embedding Layer中神经元j中后输出值
Figure 260298DEST_PATH_IMAGE013
的平均数;
Figure 93125DEST_PATH_IMAGE014
为在Joint Embedding Layer中 每个细胞i与 神经元 j之间相关性的绝对值的和;
N为数据组所包含的细胞数总数,n为N中的单个细胞;
当细胞来源于单细胞转录组时,
Figure 984858DEST_PATH_IMAGE015
,此时Joint Embedding Layer的损失函数为
Figure 168714DEST_PATH_IMAGE016
;当细胞来源于空间转录组时,
Figure 69674DEST_PATH_IMAGE015
,此时Joint EmbeddingLayer的损失函数为
Figure 258472DEST_PATH_IMAGE017
。在训练时分别从单细胞转录组提取和空间转录组提取相同细胞数的小样本进行训练,即
Figure 117844DEST_PATH_IMAGE018
Prediction Layer的损失函数:
当细胞来源于空间转录组时,每一个细胞将与单细胞转录组中的每个细胞进行比较,余弦相似度高的两者进行配对。
余弦相似度定义为:
Figure 523418DEST_PATH_IMAGE019
(4)
Figure 228068DEST_PATH_IMAGE020
代表空间转录组中待配对的细胞在Joint Embedding Layer的输出;
Figure 35487DEST_PATH_IMAGE021
代表单细胞转录组中与空间转录组配对的细胞Joint Embedding Layer的输出;
“< , >”代表两个向量的点积;
Figure 534602DEST_PATH_IMAGE022
Figure 928936DEST_PATH_IMAGE022
” 代表向量的长度(模);
此时损失函数为:
Figure 437278DEST_PATH_IMAGE023
(5)
Figure 833624DEST_PATH_IMAGE024
代表来源于空间转录组的细胞;
Figure 34799DEST_PATH_IMAGE025
代表来源于单细胞转录组的细胞;
Figure 447588DEST_PATH_IMAGE026
与上相同为函数
Figure 494041DEST_PATH_IMAGE028
的系数;
P为具有高余弦相似度的细胞总数
当细胞来源于单细胞转录组时,因为细胞都已经过细胞注释,每个细胞的细胞类型为已知信息,我们将使用交叉熵损失函数进行有监督学习:
Figure 10473DEST_PATH_IMAGE029
(6)
Figure DEST_PATH_IMAGE030
(7)
Figure 179286DEST_PATH_IMAGE031
代表着单细胞转录组的细胞在Joint Embedding Layer的输出;
Figure 781169DEST_PATH_IMAGE032
函数代表着Prediction Layer的输出;
Figure 132778DEST_PATH_IMAGE033
代表着softmax转换后的概率向量;
Figure 238137DEST_PATH_IMAGE034
代表来源于单细胞转录组的细胞,单个细胞为i
T为已注释的细胞类型的总数,t为每个细胞类型;
Figure 249956DEST_PATH_IMAGE035
代表着来源于单细胞转录组的所有细胞交叉熵损失函数。
如上所示,该神经网络的最终损失函数为:
Figure 339134DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
(8)
S3,利用步骤S2得到的包含基因信息及细胞类型信息的空间转录组数据及其对应的H&E图像构成训练数据,训练一个基于DenseNet-121模型的CNN网络。
在预测基因表达时,最后一层的全连接层的维度等于目标基因数。本实施例设目标基因数等于非冗余的每种细胞类型的前100个标志基因的总和;在预测细胞类型时,最后一层全连接层的维度等于空间转录组的细胞类型数。通过softmax分类器以及交叉熵损失函数来预测基因表达或细胞类型。为了防止过拟合,采取丢弃正则化(dropout andregularization)的方法,在每次训练迭代中随机丢弃每个卷积层20%-50%的节点。
S4,模型训练完成后,即可输入待预测的H&E图像,得到H&E图像中每个像素块的基因表达和细胞类型的预测结果。
通过上述实施例可以看到,本发明可利用已公开的空间转录组信息进行训练,然后对相同组织的病理学H&E图像进行基因和细胞组成成分分析。例如目前已公开了23篇有关于乳腺癌的空间转录数据,通过使用这些数据进行训练,就可对任一一张独立的乳腺癌组织病理学H&E图像进行基因表达和细胞类型预测。本发明为基因表达的异质性分析提供了新的方法,具有很好的应用前景。

Claims (10)

1.一种H&E图像基因和细胞异质性预测方法,其特征在于,包括如下步骤:
步骤1,输入H&E图像;
步骤2,采用机器学习模型对H&E图像进行分析,得到H&E图像中每个像素块的基因表达和细胞类型的预测结果;
步骤3,输出所述预测结果;
其中,所述机器学习模型的训练过程中,以包含基因信息及细胞类型信息的空间转录组数据及其对应的H&E图像作为构成训练集的数据。
2.按照权利要求1所述的H&E图像基因和细胞异质性预测方法,其特征在于:所述机器学习模型是基于DenseNet-121模型的CNN网络。
3.按照权利要求1所述的H&E图像基因和细胞异质性预测方法,其特征在于:所述包含基因信息及细胞类型信息的空间转录组数据按照如下方法得到:
步骤A,收集组织相同或采样样本相邻的单细胞转录组数据和原始空间转录组数据;
步骤B,以单细胞转录组数据中的基因表达为参考,对所述原始空间转录组数据中基因表达的缺失值进行插补;
步骤C,对单细胞转录组数据的细胞类型进行标注;
步骤D,使用基于神经网络的迁移学习方法,以单细胞转录组数据为源领域,经过步骤B处理后的原始空间转录组数据为目标领域,通过半监督的学习方法预测空间转录组中每个空间位点的细胞类型,即得包含基因信息及细胞类型信息的空间转录组数据。
4.按照权利要求3所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤B中,对所述缺失值进行插补的方法包括如下步骤:
步骤B1,对所述原始空间转录组数据的表达矩阵按如下公式进行标准化处理:
Figure 511936DEST_PATH_IMAGE001
其中,i表示所述原始空间转录组数据中的某个空间位点,j表示某个基因,g(ij)代表所述原始空间转录组数据中第i个空间位点中第j个基因的原始表达量,
Figure DEST_PATH_IMAGE002
代表某个空间位点中所有基因的平均表达量,
Figure 534119DEST_PATH_IMAGE003
为标准化后的第i个空间位点中第j个基因的表达量;
步骤B2,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵的行对齐,填补空间转录组上缺失的基因表达量为0;
步骤B3,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵合并,使列随机交叉混合,对空间转录组缺失基因的表达量进行预测。
5.按照权利要求3所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤B中,所述插补采用stPlus、SpaGE、Seurat、Liger、gimVI、FIST、GWNMF、Spatial-NN或REMAP进行。
6.按照权利要求3所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤C中,细胞类型的标注采用Seurat、scater或scapy进行。
7.按照权利要求3所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤D中,所述神经网络由一个输入层和两个全连接层组成,第一个全连接用于捕捉空间转录组与单细胞转录组的对齐特征,第二个全连接层用于预测细胞类型;
来源于空间转录组的细胞通过余弦相似度预测细胞类型,来源于单细胞转录组的细胞通过softmax分类器预测细胞类型。
8.按照权利要求1所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤2中,通过softmax分类器以及交叉熵损失函数来预测基因表达或细胞类型。
9.一种H&E图像基因和细胞异质性预测系统,其特征在于,包括:
输入模块,用于输入数据;
单细胞转录组与空间转录组的映射模块,用于根据单细胞转录组数据和原始空间转录组计算获得包含基因信息及细胞类型信息的空间转录组数据;
H&E图像与空间转录组的映射模块,用于按照权利要求1-8任一项所述的预测方法对H&E图像中每个像素块的基因表达和细胞类型进行预测;
输出模块,用于输出预测结果。
10.一种计算机可读存储介质,其特征在于:其上存储有用于实现权利要求1-8任一项所述的H&E图像基因和细胞异质性预测方法的计算机程序。
CN202211282187.XA 2022-10-19 2022-10-19 H&e图像基因和细胞异质性预测方法、系统和存储介质 Active CN115346599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211282187.XA CN115346599B (zh) 2022-10-19 2022-10-19 H&e图像基因和细胞异质性预测方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211282187.XA CN115346599B (zh) 2022-10-19 2022-10-19 H&e图像基因和细胞异质性预测方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN115346599A true CN115346599A (zh) 2022-11-15
CN115346599B CN115346599B (zh) 2023-02-17

Family

ID=83957165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211282187.XA Active CN115346599B (zh) 2022-10-19 2022-10-19 H&e图像基因和细胞异质性预测方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN115346599B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117352062A (zh) * 2023-09-13 2024-01-05 哈尔滨工业大学 一种基于细胞异质性功能的内分泌疾病基因特征融合方法
CN117671676A (zh) * 2024-01-30 2024-03-08 中山大学附属口腔医院 一种基于空间转录组可视化图像评估异常免疫细胞的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112522371A (zh) * 2020-12-21 2021-03-19 广州基迪奥生物科技有限公司 一种空间转录组测序数据的分析方法
WO2021108556A1 (en) * 2019-11-26 2021-06-03 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Methods of identifying cell-type-specific gene expression levels by deconvolving bulk gene expression
CN114091603A (zh) * 2021-11-22 2022-02-25 上海交通大学 一种空间转录组细胞聚类、分析方法
US20220068438A1 (en) * 2020-08-27 2022-03-03 The Broad Institute, Inc. Deep learning and alignment of spatially-resolved whole transcriptomes of single cells
CN114496083A (zh) * 2022-01-26 2022-05-13 腾讯科技(深圳)有限公司 细胞类型确定方法、装置、设备以及存储介质
CN114496099A (zh) * 2022-01-26 2022-05-13 腾讯科技(深圳)有限公司 细胞功能注释方法、装置、设备及介质
WO2022173828A1 (en) * 2021-02-09 2022-08-18 The Board Of Trustees Of The Leland Stanford Junior University Identification of cell types in multiplexed in situ images by combining expression profiling and spatial information
CN114944193A (zh) * 2022-05-20 2022-08-26 南开大学 整合单细胞转录组与空间转录组数据的分析方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021108556A1 (en) * 2019-11-26 2021-06-03 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Methods of identifying cell-type-specific gene expression levels by deconvolving bulk gene expression
US20220068438A1 (en) * 2020-08-27 2022-03-03 The Broad Institute, Inc. Deep learning and alignment of spatially-resolved whole transcriptomes of single cells
CN112522371A (zh) * 2020-12-21 2021-03-19 广州基迪奥生物科技有限公司 一种空间转录组测序数据的分析方法
WO2022173828A1 (en) * 2021-02-09 2022-08-18 The Board Of Trustees Of The Leland Stanford Junior University Identification of cell types in multiplexed in situ images by combining expression profiling and spatial information
CN114091603A (zh) * 2021-11-22 2022-02-25 上海交通大学 一种空间转录组细胞聚类、分析方法
CN114496083A (zh) * 2022-01-26 2022-05-13 腾讯科技(深圳)有限公司 细胞类型确定方法、装置、设备以及存储介质
CN114496099A (zh) * 2022-01-26 2022-05-13 腾讯科技(深圳)有限公司 细胞功能注释方法、装置、设备及介质
CN114944193A (zh) * 2022-05-20 2022-08-26 南开大学 整合单细胞转录组与空间转录组数据的分析方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HONGYOON CHOI 等: "Deep learning-based tumor microenvironment cell types mapping from H&E images of lung adenocarcinoma using spatial transcriptomic data", 《PROCEEDINGS OF THE AMERICAN ASSOCIATION FOR CANCER RESEARCH ANNUAL MEETING》 *
ROMAIN LOPEZ 等: "Multi-resolution deconvolution of spatial transcriptomics data reveals continuous patterns of inflammation", 《NATURE BIOTECHNOLOGY》 *
SUNGWOO BAE 等: "CellDART: cell type inference by domain adaptation of single-cell and spatial transcriptomic data", 《NUCLEIC ACIDS RESEARCH》 *
YINGXIN LIN 等: "scJoint integrates atlas-scale single-cell RNA-seq and ATAC-seq data with transfer learning", 《NAT BIOTECHNOL》 *
刘志强等: "转录组学研究方法在药用植物银杏中的应用", 《上海中医药大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117352062A (zh) * 2023-09-13 2024-01-05 哈尔滨工业大学 一种基于细胞异质性功能的内分泌疾病基因特征融合方法
CN117671676A (zh) * 2024-01-30 2024-03-08 中山大学附属口腔医院 一种基于空间转录组可视化图像评估异常免疫细胞的方法
CN117671676B (zh) * 2024-01-30 2024-04-09 中山大学附属口腔医院 一种基于空间转录组可视化图像评估异常免疫细胞的方法

Also Published As

Publication number Publication date
CN115346599B (zh) 2023-02-17

Similar Documents

Publication Publication Date Title
Yan et al. Breast cancer histopathological image classification using a hybrid deep neural network
CN115346599B (zh) H&amp;e图像基因和细胞异质性预测方法、系统和存储介质
US20220292674A1 (en) Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery
Elmannai et al. Deep learning models combining for breast cancer histopathology image classification
Ding et al. Feature-enhanced graph networks for genetic mutational prediction using histopathological images in colon cancer
CN111539491B (zh) 基于深度学习与注意力机制的多发性结节分类系统和方法
CN117422704B (zh) 一种基于多模态数据的癌症预测方法、系统及设备
Riordan et al. Automated analysis and classification of histological tissue features by multi-dimensional microscopic molecular profiling
Liu et al. SRAS‐net: Low‐resolution chromosome image classification based on deep learning
Yang et al. Identifying plant disease and severity from leaves: A deep multitask learning framework using triple-branch Swin Transformer and deep supervision
Khan et al. GLNET: global–local CNN's-based informed model for detection of breast cancer categories from histopathological slides
EP4239647A1 (en) Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery
CN115457061A (zh) 一种基于选择性多分支空洞卷积的腺体细胞图像分割方法
Asif et al. CGO-ensemble: Chaos game optimization algorithm-based fusion of deep neural networks for accurate Mpox detection
Bahadir et al. Artificial intelligence applications in histopathology
Preibisch et al. Image-based representation of massive spatial transcriptomics datasets
Zhu et al. A novel multispace image reconstruction method for pathological image classification based on structural information
Tang et al. Lesion segmentation and RECIST diameter prediction via click-driven attention and dual-path connection
Rauf et al. Lymphocyte detection for cancer analysis using a novel fusion block based channel boosted CNN
Karthikeyan et al. Colorectal cancer detection based on convolutional neural networks (CNN) and ranking algorithm
Liu et al. Mgct: Mutual-guided cross-modality transformer for survival outcome prediction using integrative histopathology-genomic features
Tang et al. Morphological profiling for drug discovery in the era of deep learning
CN117095788A (zh) 多组学数据集成的癌症-药物反应预测模型及其建立方法
Kadirappa et al. DeepHistoNet: A robust deep‐learning model for the classification of hepatocellular, lung, and colon carcinoma
Shi et al. Masked hypergraph learning for weakly supervised histopathology whole slide image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant