CN115346599A - H&e图像基因和细胞异质性预测方法、系统和存储介质 - Google Patents
H&e图像基因和细胞异质性预测方法、系统和存储介质 Download PDFInfo
- Publication number
- CN115346599A CN115346599A CN202211282187.XA CN202211282187A CN115346599A CN 115346599 A CN115346599 A CN 115346599A CN 202211282187 A CN202211282187 A CN 202211282187A CN 115346599 A CN115346599 A CN 115346599A
- Authority
- CN
- China
- Prior art keywords
- transcriptome
- cell
- spatial
- gene
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims description 7
- 230000014509 gene expression Effects 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 5
- 238000013518 transcription Methods 0.000 claims abstract description 4
- 230000035897 transcription Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 230000001413 cellular effect Effects 0.000 claims description 4
- 238000013526 transfer learning Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000007812 deficiency Effects 0.000 claims description 2
- 238000002156 mixing Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 210000004027 cell Anatomy 0.000 description 92
- 206010028980 Neoplasm Diseases 0.000 description 13
- 238000012163 sequencing technique Methods 0.000 description 10
- 239000000523 sample Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 238000009169 immunotherapy Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010186 staining Methods 0.000 description 2
- 238000011269 treatment regimen Methods 0.000 description 2
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007490 hematoxylin and eosin (H&E) staining Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002601 intratumoral effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于图像处理技术领域,具体涉及一种H&E图像基因和细胞异质性的预测方法和系统。本发明的方法包括如下步骤:步骤1,输入H&E图像;步骤2,采用机器学习模型对H&E图像进行分析,得到H&E图像中每个像素块的基因表达和细胞类型的预测结果;步骤3,输出所述预测结果;其中,所述机器学习模型的训练过程中,以包含基因信息及细胞类型信息的空间转录组数据及其对应的H&E图像作为构成训练集的数据。此外本发明还提供了实现上述方法的系统。本发明为基因表达的异质性分析提供了新的方法,具有很好的应用前景。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种H&E图像基因和细胞异质性预测方法、系统和存储介质。
背景技术
肿瘤内异质性对癌症患者的准确诊断和建立个性化治疗策略带来了重大挑战。这种异质性可能是治疗耐药性、疾病进展和癌症复发的基础。如何便捷快速的确定肿瘤异质性目前是临床治疗中面临的难题。
组织病理学H&E染色(苏木精和伊红染色)图像是临床判断肿瘤进展的重要依据。H&E染色技术具有方便、快捷、以及经济适用等特点。医生可通过H&E染色呈现的图像可大致的识别样本的生物组织学区域,判断肿瘤的发展阶段。然而H&E图像包含着的丰富的分子生物信息却无法通过肉眼判断。目前国内外已建立了多个临床医学领域的数据库,其中包含着来源于不同病人,不同病种的H&E染色图像。例如TCGA(癌症基因组图谱)数据库中就包含了33种癌症的20000多个样本数据。如果存在一种可以通过H&E图像判断肿瘤异质性的方法,这将极大的加深我们对肿瘤的理解,同时也有助于快速寻找潜在的治疗靶点,提升临床治疗效果。
单细胞及空间转录组技术的发展,使得这一设想成为现实。
肿瘤组织取样后,可通过单细胞转录组测序技术将组织分离成单个细胞,然后进行全基因组表达量的测定。通过分析每个细胞不同的基因表达状态,人们得以确定细胞的异质性。然而这一技术会导致空间信息的缺少,即无法判断这些异质性细胞的空间分布,以及它们在空间上的相互作用。作为承担生命活动机体的基本组成单元,细胞需要在特定的空间位置与自身的微环境协同,才能发挥其特有的生物学功能。所以细胞的空间信息对研究和理解细胞生物学、肿瘤生物学、发育生物学等学科的发展尤为重要。空间转录组技术的出现弥补了这一缺陷。
空间转录组学结合显微成像和测序技术,在获得基因表达数据的同时,最大程度的保留了样本的空间位置信息。空间转录组基于原位测序技术,每张测序玻片上排列着紧密的空间位点,每个空间位点上都含有带有位置信息编码的分子成像探针,这些探针捕捉组织的转录组并支持测序和成像。根据应用技术的不同,空间位点的直径大小也会有变化(10-100μm),但是最后的测序结果都记录在(空间位点x基因表达)的矩阵中。然而,空间转录组测序成本高,分子捕捉效率低下,测验结果存在大量的缺失值,也达不到单细胞级别的分辨率。因此,仅靠空间转录组信息无法达到分辨肿瘤细胞异质性的目的。
总之,目前上述现有技术或存在难以识别基因信息,或存在缺少空间信息无法进行异质性分析,或存在检测成本和存在缺失值的问题。因此,本领域亟需一种低成本且能够有效地对H&E图像基因表达的异质性进行分析的方法。
发明内容
针对现有技术的问题,本发明提供一种H&E图像基因和细胞异质性预测方法、系统和存储介质,目的在于实现对H&E图像基因表达和细胞类型的预测,为基因表达异质性分析等临床应用提供新的手段。
一种H&E图像基因和细胞异质性预测方法,包括如下步骤:
步骤1,输入H&E图像;
步骤2,采用机器学习模型对H&E图像进行分析,得到H&E图像中每个像素块的基因表达和细胞类型的预测结果;
步骤3,输出所述预测结果;
其中,所述机器学习模型的训练过程中,以包含基因信息及细胞类型信息的空间转录组数据及其对应的H&E图像作为构成训练集的数据。
优选的,所述机器学习模型是基于DenseNet-121模型的CNN网络。
优选的,所述包含基因信息及细胞类型信息的空间转录组数据按照如下方法得到:
步骤A,收集组织相同或采样样本相邻的单细胞转录组数据和原始空间转录组数据;
步骤B,以单细胞转录组数据中的基因表达为参考,对所述原始空间转录组数据中基因表达的缺失值进行插补;
步骤C,对单细胞转录组数据的细胞类型进行标注;
步骤D,使用基于神经网络的迁移学习方法,以单细胞转录组数据为源领域,经过步骤B处理后的原始空间转录组数据为目标领域,通过半监督的学习方法预测空间转录组中每个空间位点的细胞类型,即得包含基因信息及细胞类型信息的空间转录组数据。
优选的,步骤B中,对所述缺失值进行插补的方法包括如下步骤:
步骤B1,对所述原始空间转录组数据的表达矩阵按如下公式进行标准化处理:
其中,i表示所述原始空间转录组数据中的某个空间位点,j表示某个基因,g(ij)代表所述原始空间转录组数据中第i个空间位点中第j个基因的原始表达量,代表某个空间位点中所有基因的平均表达量,为标准化后的第i个空间位点中第j个基因的表达量;
步骤B2,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵的行对齐,填补空间转录组上缺失的基因表达量为0;
步骤B3,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵合并,使列随机交叉混合,对空间转录组缺失基因的表达量进行预测。
优选的,步骤B中,所述插补采用stPlus、SpaGE、Seurat、Liger、gimVI、FIST、GWNMF、Spatial-NN或REMAP进行。
优选的,步骤C中,细胞类型的标注采用Seurat、scater或scapy进行。
优选的,步骤D中,所述神经网络由一个输入层和两个全连接层组成,第一个全连接用于捕捉空间转录组与单细胞转录组的对齐特征,第二个全连接层用于预测细胞类型;
来源于空间转录组的细胞通过余弦相似度预测细胞类型,来源于单细胞转录组的细胞通过softmax分类器预测细胞类型。
优选的,步骤2中,通过softmax分类器以及交叉熵损失函数来预测基因表达或细胞类型。
本发明还提供一种H&E图像基因和细胞异质性预测系统,包括:
输入模块,用于输入数据;
单细胞转录组与空间转录组的映射模块,用于根据单细胞转录组数据和原始空间转录组计算获得包含基因信息及细胞类型信息的空间转录组数据;
H&E图像与空间转录组的映射模块,用于按照上述预测方法对H&E图像中每个像素块的基因表达和细胞类型进行预测;
输出模块,用于输出预测结果。
本发明还提供一种计算机可读存储介质,其上存储有用于实现上述预测方法的计算机程序。
本发明中所述“空间位点”代表着空间转录组测序玻片上的每一个空间位置。根据不同的技术,这个空间位点(空间位置)的直径大小不一致,其大小范围可在10-100μm。虽然测序技术不同,但最后的测序结果都记录在(空间位点x基因表达)的矩阵中。
本发明联合单细胞转录组和空间转录组构建了包含基因信息及细胞类型信息的空间转录组数据,利用该数据训练的机器学习模型,能够对H&E图像的基因表达和细胞类型进行预测。由此,本发明建立了完善的连接单细胞转录组、空间转录组、组织病理学H&E图像的联合分析系统,填补了空间转录组的缺失值,可辅助进行更高精度的基因分析和细胞类型估计。
本发明可从普通的组织病理学H&E图像中识别高变基因,并通过这些基因的位置分布和功能分析,筛选潜在的肿瘤治疗生物靶点;可帮助临床通过H&E图像识别肿瘤内异质性,结合其空间位置有助于加深肿瘤微环境的了解。可辅助临床治疗方案的制定,如病人是否适合免疫治疗,以及哪种免疫治疗法。因此,本发明的方法和系统具有很好的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明实施例1的流程示意图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1 H&E图像基因和细胞异质性的预测方法和系统
本实施例的系统包括:
输入模块,用于输入数据;
单细胞转录组与空间转录组的映射模块,用于根据单细胞转录组数据和原始空间转录组计算获得包含基因信息及细胞类型信息的空间转录组数据;
H&E图像与空间转录组的映射模块,用于按照对H&E图像中每个像素块的基因表达和细胞类型进行预测;
输出模块,用于输出预测结果。
采用上述系统进行H&E图像基因和细胞异质性的预测的方法流程如图1所示,具体包括如下步骤:
S1,收集三种数据:原始空间转录组数据、单细胞转录组数据以及H&E图像。
其中,单细胞转录组样本与空间转录组样本互为相邻样本,或者两者来源于同一种组织。
H&E图像包括空间转录组中的H&E图像(用于训练模型),以及未做过空间转录组的普通组织病理学H&E图像(用于作为模型训练完成后的待预测数据)。
S2,构建包含基因信息及细胞类型信息的空间转录组数据。
具体步骤为:
S2.1,原始空间转录组数据基因表达缺失值插补:对原始空间转录组数据的表达矩阵按公式1进行标准化处理:
其中,i表示所述原始空间转录组数据中的某个空间位点,j表示某个基因,g(ij)代表所述原始空间转录组数据中第i个空间位点中第j个基因的原始表达量,代表某个空间位点中所有基因的平均表达量,为标准化后的第i个空间位点中第j个基因的表达量。
然后,将空间转录组基因表达矩阵的行(基因)与单细胞转录组基因表达矩阵的行(基因)对齐,填补空间转录组上缺失的基因表达量为0;
随后,将两个矩阵合并,使列(空间位点/细胞)随机交叉混合,使用stPlus软件对空间转录组缺失基因的表达量进行预测。
S2.2,单细胞注释:使用现有的单细胞分析软件,如Seurat,scater,scapy 等对单细胞转录组进行PCA降维,kNN聚类,然后计算每一类的特征基因,联合已知的各类细胞的标志基因对每个细胞的类型进行标注。
S2.3,利用已标注的单细胞转录组数据预测空间转录组的细胞类型:
使用基于神经网络的迁移学习(Transfer Learning)方法,以单细胞转录组为源领域,原始空间转录组为目标领域,通过半监督的学习方法预测原始空间转录组中每个空间位点的细胞类型。
该神经网络由一个输入层两个全连接层组成。输入层为插补后与单细胞转录组具有相同基因维度的空间转录组表达矩阵,以及注释后带有细胞类型标签的单细胞转录组表达矩阵。第一个全连接层作为捕捉空间转录组与单细胞转录组对齐特征的JointEmbedding Layer。第二个全连接层为Prediction Layer,其维度与单细胞注释的细胞类型种类数相等。来源于空间转录组的细胞通过余弦相似度,来源于单细胞转录组的细胞通过softmax分类器来预测细胞类型。
该神经网络的具体过程如下:
Joint Embedding Layer的损失函数:
N为数据组所包含的细胞数总数,n为N中的单个细胞;
当细胞来源于单细胞转录组时,,此时Joint Embedding Layer的损失函数为;当细胞来源于空间转录组时,,此时Joint EmbeddingLayer的损失函数为。在训练时分别从单细胞转录组提取和空间转录组提取相同细胞数的小样本进行训练,即。
Prediction Layer的损失函数:
当细胞来源于空间转录组时,每一个细胞将与单细胞转录组中的每个细胞进行比较,余弦相似度高的两者进行配对。
余弦相似度定义为:
“< , >”代表两个向量的点积;
此时损失函数为:
P为具有高余弦相似度的细胞总数。
当细胞来源于单细胞转录组时,因为细胞都已经过细胞注释,每个细胞的细胞类型为已知信息,我们将使用交叉熵损失函数进行有监督学习:
T为已注释的细胞类型的总数,t为每个细胞类型;
如上所示,该神经网络的最终损失函数为:
S3,利用步骤S2得到的包含基因信息及细胞类型信息的空间转录组数据及其对应的H&E图像构成训练数据,训练一个基于DenseNet-121模型的CNN网络。
在预测基因表达时,最后一层的全连接层的维度等于目标基因数。本实施例设目标基因数等于非冗余的每种细胞类型的前100个标志基因的总和;在预测细胞类型时,最后一层全连接层的维度等于空间转录组的细胞类型数。通过softmax分类器以及交叉熵损失函数来预测基因表达或细胞类型。为了防止过拟合,采取丢弃正则化(dropout andregularization)的方法,在每次训练迭代中随机丢弃每个卷积层20%-50%的节点。
S4,模型训练完成后,即可输入待预测的H&E图像,得到H&E图像中每个像素块的基因表达和细胞类型的预测结果。
通过上述实施例可以看到,本发明可利用已公开的空间转录组信息进行训练,然后对相同组织的病理学H&E图像进行基因和细胞组成成分分析。例如目前已公开了23篇有关于乳腺癌的空间转录数据,通过使用这些数据进行训练,就可对任一一张独立的乳腺癌组织病理学H&E图像进行基因表达和细胞类型预测。本发明为基因表达的异质性分析提供了新的方法,具有很好的应用前景。
Claims (10)
1.一种H&E图像基因和细胞异质性预测方法,其特征在于,包括如下步骤:
步骤1,输入H&E图像;
步骤2,采用机器学习模型对H&E图像进行分析,得到H&E图像中每个像素块的基因表达和细胞类型的预测结果;
步骤3,输出所述预测结果;
其中,所述机器学习模型的训练过程中,以包含基因信息及细胞类型信息的空间转录组数据及其对应的H&E图像作为构成训练集的数据。
2.按照权利要求1所述的H&E图像基因和细胞异质性预测方法,其特征在于:所述机器学习模型是基于DenseNet-121模型的CNN网络。
3.按照权利要求1所述的H&E图像基因和细胞异质性预测方法,其特征在于:所述包含基因信息及细胞类型信息的空间转录组数据按照如下方法得到:
步骤A,收集组织相同或采样样本相邻的单细胞转录组数据和原始空间转录组数据;
步骤B,以单细胞转录组数据中的基因表达为参考,对所述原始空间转录组数据中基因表达的缺失值进行插补;
步骤C,对单细胞转录组数据的细胞类型进行标注;
步骤D,使用基于神经网络的迁移学习方法,以单细胞转录组数据为源领域,经过步骤B处理后的原始空间转录组数据为目标领域,通过半监督的学习方法预测空间转录组中每个空间位点的细胞类型,即得包含基因信息及细胞类型信息的空间转录组数据。
4.按照权利要求3所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤B中,对所述缺失值进行插补的方法包括如下步骤:
步骤B1,对所述原始空间转录组数据的表达矩阵按如下公式进行标准化处理:
其中,i表示所述原始空间转录组数据中的某个空间位点,j表示某个基因,g(ij)代表所述原始空间转录组数据中第i个空间位点中第j个基因的原始表达量,代表某个空间位点中所有基因的平均表达量,为标准化后的第i个空间位点中第j个基因的表达量;
步骤B2,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵的行对齐,填补空间转录组上缺失的基因表达量为0;
步骤B3,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵合并,使列随机交叉混合,对空间转录组缺失基因的表达量进行预测。
5.按照权利要求3所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤B中,所述插补采用stPlus、SpaGE、Seurat、Liger、gimVI、FIST、GWNMF、Spatial-NN或REMAP进行。
6.按照权利要求3所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤C中,细胞类型的标注采用Seurat、scater或scapy进行。
7.按照权利要求3所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤D中,所述神经网络由一个输入层和两个全连接层组成,第一个全连接用于捕捉空间转录组与单细胞转录组的对齐特征,第二个全连接层用于预测细胞类型;
来源于空间转录组的细胞通过余弦相似度预测细胞类型,来源于单细胞转录组的细胞通过softmax分类器预测细胞类型。
8.按照权利要求1所述的H&E图像基因和细胞异质性预测方法,其特征在于:步骤2中,通过softmax分类器以及交叉熵损失函数来预测基因表达或细胞类型。
9.一种H&E图像基因和细胞异质性预测系统,其特征在于,包括:
输入模块,用于输入数据;
单细胞转录组与空间转录组的映射模块,用于根据单细胞转录组数据和原始空间转录组计算获得包含基因信息及细胞类型信息的空间转录组数据;
H&E图像与空间转录组的映射模块,用于按照权利要求1-8任一项所述的预测方法对H&E图像中每个像素块的基因表达和细胞类型进行预测;
输出模块,用于输出预测结果。
10.一种计算机可读存储介质,其特征在于:其上存储有用于实现权利要求1-8任一项所述的H&E图像基因和细胞异质性预测方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211282187.XA CN115346599B (zh) | 2022-10-19 | 2022-10-19 | H&e图像基因和细胞异质性预测方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211282187.XA CN115346599B (zh) | 2022-10-19 | 2022-10-19 | H&e图像基因和细胞异质性预测方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115346599A true CN115346599A (zh) | 2022-11-15 |
CN115346599B CN115346599B (zh) | 2023-02-17 |
Family
ID=83957165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211282187.XA Active CN115346599B (zh) | 2022-10-19 | 2022-10-19 | H&e图像基因和细胞异质性预测方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115346599B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117352062A (zh) * | 2023-09-13 | 2024-01-05 | 哈尔滨工业大学 | 一种基于细胞异质性功能的内分泌疾病基因特征融合方法 |
CN117671676A (zh) * | 2024-01-30 | 2024-03-08 | 中山大学附属口腔医院 | 一种基于空间转录组可视化图像评估异常免疫细胞的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112522371A (zh) * | 2020-12-21 | 2021-03-19 | 广州基迪奥生物科技有限公司 | 一种空间转录组测序数据的分析方法 |
WO2021108556A1 (en) * | 2019-11-26 | 2021-06-03 | The United States Of America, As Represented By The Secretary, Department Of Health And Human Services | Methods of identifying cell-type-specific gene expression levels by deconvolving bulk gene expression |
CN114091603A (zh) * | 2021-11-22 | 2022-02-25 | 上海交通大学 | 一种空间转录组细胞聚类、分析方法 |
US20220068438A1 (en) * | 2020-08-27 | 2022-03-03 | The Broad Institute, Inc. | Deep learning and alignment of spatially-resolved whole transcriptomes of single cells |
CN114496083A (zh) * | 2022-01-26 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 细胞类型确定方法、装置、设备以及存储介质 |
CN114496099A (zh) * | 2022-01-26 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 细胞功能注释方法、装置、设备及介质 |
WO2022173828A1 (en) * | 2021-02-09 | 2022-08-18 | The Board Of Trustees Of The Leland Stanford Junior University | Identification of cell types in multiplexed in situ images by combining expression profiling and spatial information |
CN114944193A (zh) * | 2022-05-20 | 2022-08-26 | 南开大学 | 整合单细胞转录组与空间转录组数据的分析方法及系统 |
-
2022
- 2022-10-19 CN CN202211282187.XA patent/CN115346599B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021108556A1 (en) * | 2019-11-26 | 2021-06-03 | The United States Of America, As Represented By The Secretary, Department Of Health And Human Services | Methods of identifying cell-type-specific gene expression levels by deconvolving bulk gene expression |
US20220068438A1 (en) * | 2020-08-27 | 2022-03-03 | The Broad Institute, Inc. | Deep learning and alignment of spatially-resolved whole transcriptomes of single cells |
CN112522371A (zh) * | 2020-12-21 | 2021-03-19 | 广州基迪奥生物科技有限公司 | 一种空间转录组测序数据的分析方法 |
WO2022173828A1 (en) * | 2021-02-09 | 2022-08-18 | The Board Of Trustees Of The Leland Stanford Junior University | Identification of cell types in multiplexed in situ images by combining expression profiling and spatial information |
CN114091603A (zh) * | 2021-11-22 | 2022-02-25 | 上海交通大学 | 一种空间转录组细胞聚类、分析方法 |
CN114496083A (zh) * | 2022-01-26 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 细胞类型确定方法、装置、设备以及存储介质 |
CN114496099A (zh) * | 2022-01-26 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 细胞功能注释方法、装置、设备及介质 |
CN114944193A (zh) * | 2022-05-20 | 2022-08-26 | 南开大学 | 整合单细胞转录组与空间转录组数据的分析方法及系统 |
Non-Patent Citations (5)
Title |
---|
HONGYOON CHOI 等: "Deep learning-based tumor microenvironment cell types mapping from H&E images of lung adenocarcinoma using spatial transcriptomic data", 《PROCEEDINGS OF THE AMERICAN ASSOCIATION FOR CANCER RESEARCH ANNUAL MEETING》 * |
ROMAIN LOPEZ 等: "Multi-resolution deconvolution of spatial transcriptomics data reveals continuous patterns of inflammation", 《NATURE BIOTECHNOLOGY》 * |
SUNGWOO BAE 等: "CellDART: cell type inference by domain adaptation of single-cell and spatial transcriptomic data", 《NUCLEIC ACIDS RESEARCH》 * |
YINGXIN LIN 等: "scJoint integrates atlas-scale single-cell RNA-seq and ATAC-seq data with transfer learning", 《NAT BIOTECHNOL》 * |
刘志强等: "转录组学研究方法在药用植物银杏中的应用", 《上海中医药大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117352062A (zh) * | 2023-09-13 | 2024-01-05 | 哈尔滨工业大学 | 一种基于细胞异质性功能的内分泌疾病基因特征融合方法 |
CN117671676A (zh) * | 2024-01-30 | 2024-03-08 | 中山大学附属口腔医院 | 一种基于空间转录组可视化图像评估异常免疫细胞的方法 |
CN117671676B (zh) * | 2024-01-30 | 2024-04-09 | 中山大学附属口腔医院 | 一种基于空间转录组可视化图像评估异常免疫细胞的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115346599B (zh) | 2023-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | Breast cancer histopathological image classification using a hybrid deep neural network | |
CN115346599B (zh) | H&e图像基因和细胞异质性预测方法、系统和存储介质 | |
US20220292674A1 (en) | Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery | |
Elmannai et al. | Deep learning models combining for breast cancer histopathology image classification | |
Ding et al. | Feature-enhanced graph networks for genetic mutational prediction using histopathological images in colon cancer | |
CN111539491B (zh) | 基于深度学习与注意力机制的多发性结节分类系统和方法 | |
CN117422704B (zh) | 一种基于多模态数据的癌症预测方法、系统及设备 | |
Riordan et al. | Automated analysis and classification of histological tissue features by multi-dimensional microscopic molecular profiling | |
Liu et al. | SRAS‐net: Low‐resolution chromosome image classification based on deep learning | |
Yang et al. | Identifying plant disease and severity from leaves: A deep multitask learning framework using triple-branch Swin Transformer and deep supervision | |
Khan et al. | GLNET: global–local CNN's-based informed model for detection of breast cancer categories from histopathological slides | |
EP4239647A1 (en) | Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery | |
CN115457061A (zh) | 一种基于选择性多分支空洞卷积的腺体细胞图像分割方法 | |
Asif et al. | CGO-ensemble: Chaos game optimization algorithm-based fusion of deep neural networks for accurate Mpox detection | |
Bahadir et al. | Artificial intelligence applications in histopathology | |
Preibisch et al. | Image-based representation of massive spatial transcriptomics datasets | |
Zhu et al. | A novel multispace image reconstruction method for pathological image classification based on structural information | |
Tang et al. | Lesion segmentation and RECIST diameter prediction via click-driven attention and dual-path connection | |
Rauf et al. | Lymphocyte detection for cancer analysis using a novel fusion block based channel boosted CNN | |
Karthikeyan et al. | Colorectal cancer detection based on convolutional neural networks (CNN) and ranking algorithm | |
Liu et al. | Mgct: Mutual-guided cross-modality transformer for survival outcome prediction using integrative histopathology-genomic features | |
Tang et al. | Morphological profiling for drug discovery in the era of deep learning | |
CN117095788A (zh) | 多组学数据集成的癌症-药物反应预测模型及其建立方法 | |
Kadirappa et al. | DeepHistoNet: A robust deep‐learning model for the classification of hepatocellular, lung, and colon carcinoma | |
Shi et al. | Masked hypergraph learning for weakly supervised histopathology whole slide image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |