CN116864012A - 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 - Google Patents
增强scRNA-seq数据基因表达相互作用的方法、设备和介质 Download PDFInfo
- Publication number
- CN116864012A CN116864012A CN202310726725.8A CN202310726725A CN116864012A CN 116864012 A CN116864012 A CN 116864012A CN 202310726725 A CN202310726725 A CN 202310726725A CN 116864012 A CN116864012 A CN 116864012A
- Authority
- CN
- China
- Prior art keywords
- cell
- cells
- gene expression
- matrix
- interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012174 single-cell RNA sequencing Methods 0.000 title claims abstract description 17
- 230000010663 Gene Expression Interactions Effects 0.000 title claims abstract description 13
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 12
- 230000014509 gene expression Effects 0.000 claims abstract description 114
- 239000011159 matrix material Substances 0.000 claims abstract description 100
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 52
- 238000012546 transfer Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000007704 transition Effects 0.000 claims description 28
- 238000012163 sequencing technique Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000000513 principal component analysis Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 5
- 210000004027 cell Anatomy 0.000 description 223
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 12
- 239000003550 marker Substances 0.000 description 8
- 101150066577 CD14 gene Proteins 0.000 description 6
- 101150087807 Itgam gene Proteins 0.000 description 6
- 238000010195 expression analysis Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 238000011223 gene expression profiling Methods 0.000 description 4
- 108020004999 messenger RNA Proteins 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 101150060950 CD3D gene Proteins 0.000 description 3
- 101000897405 Homo sapiens B-lymphocyte antigen CD20 Proteins 0.000 description 3
- 101000946863 Homo sapiens T-cell surface glycoprotein CD3 delta chain Proteins 0.000 description 3
- 101150098873 MS4A1 gene Proteins 0.000 description 3
- 210000001744 T-lymphocyte Anatomy 0.000 description 3
- 210000003719 b-lymphocyte Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种增强scRNA‑seq数据基因表达相互作用的方法、设备和介质,属于数据处理技术领域。所述方法首先对细胞‑基因表达谱矩阵进行主成分分析,获得能够表明细胞区别的特征基因,基于特征基因计算细胞距离,再根据细胞距离获得细胞相似性,进一步基于细胞相似性得到马尔可夫转移概率,并对细胞‑基因表达谱矩阵进行多重插补。本发明的方法能够消除细胞‑基因表达谱矩阵中的表达量噪声并填补缺失的表达量,最终能够有效增强基因表达相互作用,进一步可以提高细胞的聚类效果,有效进行细胞分型。
Description
技术领域
本发明属于数据处理技术领域,具体地,涉及一种增强scRNA-seq数据基因表达相互作用的方法、设备和介质。
背景技术
单细胞RNA测序(Single cell RNA sequencing,scRNA-seq)又叫单细胞转录组测序,是一种在单细胞水平上利用RNA测序对特定细胞群体进行基因表达谱定量的高通量实验技术,是近年来的一项热门技术。对于多细胞生物来说,细胞与细胞之间是有差异性的(cell heterogeneity),即细胞异质性。这种细胞异质性可以体现为不同的遗传背景,不同的分化状态,不同的物理特征,不同的基因突变谱和转录组、蛋白质组表达谱等。
对于单个细胞,由于mRNA分子采样不足,并不是所有的mRNA分子都能被捕获到,并且由于测序深度比较浅,一般每个细胞仅能检测到10%~50%的转录本,这导致细胞中许多基因计数为0,造成scRNA-seq测序结果中细胞基因表达矩阵的稀疏性。这种细胞基因表达矩阵的稀疏性给后续分析工作增加计算难度,也可能会严重模糊重要的基因间的相互关系。
为了克服单细胞RNA测序结果中细胞基因表达矩阵的稀疏性,目前大多数方法通过聚类的方式将成千上万的细胞聚类成少量的簇;或者通过其他方法合并基因(例如主成分分析[PCA]),创建“metagene”。虽然这些方法在一定程度上处理了稀疏性,但失去了单细胞或单基因的分辨率。
发明内容
为了解决上述技术问题,发明人旨在提供一种新的处理单细胞测序数据中稀疏性的方法,提高细胞聚类效果。为此,本发明采用的技术方案如下:
本发明第一方面提供一种增强scRNA-seq数据基因表达相互作用的方法,包括以下步骤:
S1,获得单细胞转录组测序数据的细胞-基因表达谱矩阵A;
S2,基于所述细胞-基因表达谱矩阵A,利用主成分分析方法筛选N个主成分,其中N=20~50,得到PCA矩阵;
S3,基于所述N个主成分的值计算任意两个细胞之间的距离,得到细胞距离矩阵D;
S4,基于所述细胞距离矩阵D利用核函数计算任意两个细胞之间的相似性,得到细胞相似性矩阵C;
S5,基于细胞相似性矩阵C,根据以下算法,计算任意两个细胞之间的转移概率,得到细胞转移概率矩阵:
所述两个细胞包括第一细胞和第二细胞,所述第一细胞与所述第二细胞的转移概率为所述第一细胞和所述第二细胞的相似性与第一细胞与所有细胞的相似性的总和的比值;
S6,基于所述细胞转移概率矩阵,根据以下算法,对所述细胞-基因表达谱矩阵A进行插补:
将第个细胞第个基因的表达量转换其余各个细胞的第个基因的表达量与所述第个细胞与相应细胞的转移概率的乘积的总和,
其中,=1~且=1~,代表所述细胞-基因表达谱矩阵A中细胞数目,=1~,代表所述细胞-基因表达谱矩阵A中基因数目。
在本发明的一些实施方案中,在步骤S2进行主成分分析之前,进一步包括对所述对细胞-基因表达谱矩阵A根据文库大小进行归一化的步骤,归一化的方法为:
;
其中,代表归一化后第个细胞中第个基因的表达量,代表归一化前第个细胞中第个基因的表达量;代表第个细胞所有基因的表达量总和,=1~;代表所有细胞所有基因表达量总和的平均值。
主成分分析(Principal Component Analysis,PCA)是一种使用最广泛的数据降维算法。降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。
在本发明的一些实施方案中,选择能够反应原始细胞差异的前N个主成分(PC)作为后续分析的数据。当N=20~50时,能反应约80%以上的信息。在本发明的一些优选实施方案中,选择N=30,即选择20个主成分进行分析,结果是足够稳健的。
在本发明的一些实施方案中,步骤S3中,所述距离为欧氏距离,所述的计算公式如下:
;
其中,代表第i个PC在第个细胞中的值,代表第i个PC在第个细胞中的值;=1~N。
在本发明的一些实施方案中,步骤S4中,在计算相似性之前,进一步使用UMAP(Uniform Manifold Approximation and Projection)算法对PCA矩阵进行非线性降维,降维后的结果为二维坐标信息,细胞基于表型的相似性聚集到不同区域。在本发明中,处于不同区域的细胞对稀疏矩阵的插补作用不明显,因此,对于处于不同区域的细胞,两两之间的相似性设置为0,对于同一区域的细胞,利用核函数计算任意两个细胞之间的相似性,
所述核函数为高斯核函数,所述的计算公式如下:
;
其中,是带宽,用于控制径向作用范围,=1~30。
不同的细胞具有不同的基因表达,不同的基因表达反映了细胞可能的表型,表型反映到细胞当中可以是细胞类型,如发育时期状态等。由于不同细胞的表型并不一致,因此针对不同细胞类型选择不同的值,太小(低于0.01时)会导致结果不稳定,准确性降低,即相同表型的细胞也难以分类为同类型细胞;越大高斯核函数的局部影响范围就会越大,过大时(大于100)产生过拟合的情况,即导致不同表型、距离较远的细胞也会被平均到一起,失去数据的分辨率。
在本发明的一些实施方案中,根据以下方式确定取值:
先确定细胞和细胞所在区域的密度,当密度小于0.3时,取值为20~30,密度大于等于0.3且密度小于等于0.6时,取值为5~20,密度大于0.6时,取值为1~5。
在本发明的一些实施方案中,得到细胞转移概率矩阵后,进一步进行如下处理:
(1)对于同一区域中任意细胞,确定与该两个细胞距离之和最小的15个细胞作为该两个细胞的邻居细胞,若不足15个,则全部其余细胞为邻居细胞;
(2)对于每个细胞,将其与非邻居细胞的细胞转移概率设置为0。
在本发明的一些实施方案中,步骤S6中,通过对转移概率矩阵求幂,对所述细胞-基因表达谱矩阵A进行多重插补:
;
其中,代表第次插补后的细胞-基因表达谱矩阵;代表迭代次数,从1开始并逐次加1进行多重插补;当进行第次插补时,对于每个细胞的每个基因,转换所采用的表达量均为所述细胞-基因表达谱矩阵A中各基因的表达量。
在本发明中,由于马尔可夫转移概率矩阵的特征值均为[0,1]之间,特征值通过指数运算会逐渐减小,其范围也在[0,1]之间。随着马尔可夫转移概率矩阵多次求幂,除1以外的所有特征值的大小不断减小,如此能够降低噪声的重要性,其解释能力接近于零。随着的增加,细胞从它们的邻居细胞那里学习缺失的值,迅速获得生物学上非常相似的细胞之间的关系。
在本发明的一些实施方案中,利用以下方式确定迭代次数:
进行第次插补后,先计算中第个细胞第个基因的相对表达量:
;
再计算第个细胞插补后的平均基因表达量:
;
再基于第次插补后和插补后的全部基因相对表达量的残差平方和与插补后的全部基因相对表达量的离差平方和,计算细胞的决定系数,公式如下:
;
;
;
若所有细胞的决定系数均小于预设阈值P1,则停止迭代,得到多重插补后的细胞-基因表达谱矩阵,
其中,=1~,P1=3%~10%。
在本发明的一些实施方案中,在进行第次插补时,若小于预设阈值P2,则先设置,再进行插补,其中,P2=0.00005~0.001。
本发明第二方面提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如本发明第一方面任一所述的一种增强scRNA-seq数据基因表达相互作用的方法的步骤。
本发明第三方面提供一种计算机可读存储介质,
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种增强scRNA-seq数据基因表达相互作用的方法的步骤。
本发明的有益效果
相对于现有技术,本发明的技术效果如下:
本发明的方法基于马尔可夫随机模型对单细胞转录组测序数据进行多重插补,从而能够消除细胞-基因表达谱矩阵中的表达量噪声并填补缺失的转录本计数。
利用本发明的方法对单细胞转录组测序数据得到的细胞-基因表达谱矩阵进行多重插补后,能够有效增强基因表达相互作用,进一步可以提高细胞的聚类效果,有效进行细胞分型。
附图说明
图1示出了单细胞转录组测序得到的细胞-基因表达谱矩阵(部分)。
图2示出了本发明实施例1中使用UMAP算法对PCA矩阵信息再次进行非线性降维后的聚类图。
图3示出了本发明实施例1中人PBMC单细胞转录组测序数据进行加权多重插补前后CD3D基因表达分析结果。
图4示出了本发明实施例1中人PBMC单细胞转录组测序数据进行加权多重插补前后MS4A1基因表达分析结果。
图5示出了本发明实施例1中人PBMC单细胞转录组测序数据进行加权多重插补前后CD14基因与ITGAM基因相互关系分析结果。
图6示出了本发明实施例2中人PBMC单细胞转录组测序数据进行加权多重插补前后CD3D基因表达分析结果。
图7示出了本发明实施例2中人PBMC单细胞转录组测序数据进行加权多重插补前后MS4A1基因表达分析结果。
图8示出了本发明实施例2中人PBMC单细胞转录组测序数据进行加权多重插补前后CD14基因与ITGAM基因相互关系分析结果。
图9示出了本发明实施例3中人PBMC单细胞转录组测序数据进行加权多重插补前后CD3D基因表达分析结果。
图10示出了本发明实施例3中人PBMC单细胞转录组测序数据进行加权多重插补前后MS4A1基因表达分析结果。
图11示出了本发明实施例3中人PBMC单细胞转录组测序数据进行加权多重插补前后CD14基因与ITGAM基因相互关系分析结果。
具体实施方式
除非另有说明、从上下文暗示或属于现有技术的惯例,否则本申请中所有的份数和百分比都基于重量,且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下,本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考,且其等价的同族专利也引入作为参考,特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致,则以本申请中提供的术语定义为准。
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
实施例
以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。
除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
实施例 1 单细胞测序基因矩阵稀疏性处理
1. 获得细胞-基因表达谱矩阵
采集人周血单核细胞(Peripheral Blood Mononuclear Cell,PBMC),进行单细胞测序,获得细胞-基因表达谱矩阵A,部分如图1和表1所示,图1中,列为不同的细胞(由Barcode表示,Barcode是由16个随机核苷酸组成的),行表示基因在不同细胞中的表达量(转录本count数),“·”代表表达量为0,即该基因转录本count数为0。可见细胞-基因表达谱矩阵A中很多基因的表达量0。
在本实施例中,细胞-基因表达谱中共包括2887个细胞36477个基因的表达量。
表1 细胞-基因表达谱矩阵
2. 细胞-基因表达谱矩阵A归一化及主成分分析
为了确保细胞之间的距离反映的是真实生物学差异而不受人为因素影响,发明对原始表达矩阵进行以下两步处理:
(1)对细胞-基因表达谱矩阵A根据文库大小进行归一化
归一化方式为:
;
其中,代表归一化后第个细胞中第个基因的表达量(转录本count数),=1~,代表细胞-基因表达谱矩阵A中细胞数目,代表归一化前第个细胞中第个基因的表达量;代表第个细胞所有基因的表达量总和(转录本count数总和),=1~且=1~,n代表细胞-基因表达谱矩阵A中基因数目;LS代表细胞文库大小集合,即每个细胞所有基因表达量总和(转录本count数总和)构成的集合,代表所有细胞转录本count数总和的平均值。
(2)主成分分析
主成分分析(Principal Component Analysis,PCA)是一种使用最广泛的数据降维算法。降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。
通过对归一化后的数据进行主成分分析,将n个基因即n维数据降为50个主成分(PC),进一步选择能够反应原始细胞差异的前30个主成分(PC)作为后续分析的数据。发明人研究证实,30个主成分能反应约80%以上的信息,因此选择30个主成分进行分析,结果是足够稳健的。
对于细胞1和细胞2,30个PC值如表2所示。
表2 细胞1和细胞2的PCA矩阵
部分细胞的前10个PC值如表3所示。
表3 部分细胞部分PCA矩阵
PC_1 | PC_2 | PC_3 | PC_4 | PC_5 | PC_6 | PC_7 | PC_8 | PC_9 | PC_10 | |
细胞1 | 3.19 | -1.73 | 1.68 | -0.21 | 3.41 | -11.20 | -5.54 | 6.87 | 3.36 | -2.59 |
细胞2 | 6.90 | -1.82 | -4.35 | 1.11 | -4.18 | -3.19 | -0.25 | 0.38 | -0.16 | 0.30 |
细胞3 | -0.54 | 0.15 | 2.12 | -0.83 | 4.14 | -3.08 | -3.92 | -0.45 | 0.17 | -0.46 |
细胞4 | 1.89 | -1.14 | 4.43 | 0.94 | 1.48 | 2.20 | -1.95 | -0.63 | -0.89 | -0.82 |
细胞5 | 9.00 | -2.56 | -5.70 | -0.60 | -3.67 | 2.59 | 0.72 | -1.05 | -0.16 | -0.65 |
细胞6 | 4.09 | -3.68 | 7.84 | 3.73 | -7.94 | -2.75 | -5.11 | -0.06 | 0.28 | 0.65 |
细胞7 | 3.54 | -0.03 | 2.20 | 0.06 | 1.97 | -6.59 | -2.46 | 1.88 | 0.80 | 1.34 |
细胞8 | 9.11 | -2.86 | -6.11 | -0.64 | -5.07 | -2.04 | 1.27 | 1.80 | 0.74 | 2.07 |
细胞9 | 8.04 | -1.49 | -4.29 | 0.50 | -3.27 | 2.24 | -0.68 | 0.28 | -0.65 | -0.63 |
细胞10 | 3.25 | -1.82 | 1.90 | -0.31 | 3.74 | 3.62 | -0.61 | 0.93 | -0.78 | -0.75 |
细胞11 | 0.18 | -0.32 | 1.95 | -1.58 | 4.03 | 3.06 | -0.14 | 0.64 | 0.14 | -0.05 |
细胞12 | 2.27 | -3.40 | -4.47 | -0.44 | -3.39 | -1.42 | 3.97 | 1.94 | -0.61 | -0.79 |
细胞13 | 3.96 | -1.77 | -1.14 | -2.80 | 0.60 | -3.15 | 0.36 | 4.20 | -0.67 | 4.84 |
细胞14 | 4.02 | -1.11 | 1.23 | -0.95 | 3.31 | 2.80 | -0.69 | 0.23 | -0.20 | -1.88 |
细胞15 | 7.63 | -1.99 | -4.59 | 0.14 | -2.59 | 0.61 | -0.36 | -1.29 | -0.07 | -0.05 |
细胞16 | 7.31 | -2.70 | -2.74 | 0.23 | -3.38 | -3.23 | 0.72 | 0.90 | 0.25 | 0.34 |
细胞17 | 4.76 | -1.50 | -2.77 | -0.68 | 0.67 | -3.34 | 0.91 | 2.16 | -0.63 | 0.80 |
细胞18 | 3.92 | -1.70 | 1.43 | -1.00 | 2.93 | 3.56 | -1.52 | 0.73 | -0.63 | -0.97 |
细胞19 | 2.25 | -1.71 | 2.00 | -1.52 | 3.83 | 4.17 | -2.67 | -0.11 | -0.68 | -0.46 |
细胞20 | 4.82 | -1.70 | -1.61 | -0.93 | 7.99 | -12.74 | -3.87 | 1.79 | 2.87 | -1.61 |
3. 计算细胞-细胞距离矩阵D
采用基于细胞的各PC值计算细胞与细胞之间的欧氏距离,计算公式如下:
;
其中,代表第个细胞和第个细胞之间的欧式距离,=1~且=1~,代表细胞数目,代表第i个PC在第个细胞中的值,代表第i个PC在第个细胞中的值;=1~N,N代表用于计算细胞欧式距离的主成分数目,N=30。当p=q时,即对于同一细胞,欧式距离值为0。计算可知,上述细胞1和细胞2的欧氏距离为22.95,进而可以计算得到2887个细胞任意两个细胞之间的欧氏距离。
部分细胞之间的欧式距离矩阵D如表4所示:
表4 细胞欧式距离矩阵
4. 采用自适应高斯核函数将距离矩阵转换为相似性矩阵
使用UMAP算法对PCA矩阵信息再次进行非线性降维,降维后的结果为二维坐标信息,该二维坐标信息在低维坐标上可以呈现出细胞具体的位置,细胞基于表型的相似性聚集到不同区域,如图2所示。对于处于不同区域的细胞,两两之间的相似性设置为0。
对于聚集到同一细胞区域的细胞之间的相关性,以往一般采用spearman/person的算法,通过比较细胞中归一化的基因表达量计算两两细胞之间的相关性系数。但是,由于单细胞转录组测序数据具有强稀疏性的特点,即很多基因检测不到转录本,计算得到的相关性均低于0.3,难以区分细胞与细胞之间的相似性强弱。
因此,在本实施例中,发明人引入自适应高斯核函数表示聚集到同一区域的两两细胞之间的相关性。
高斯核函数也称径向基(RBF)函数,是常用的一种核函数。它可以将有限维数据映射到高维空间,以达到区分两个向量的目的。
高斯核函数公式如下:
;
其中,代表细胞和细胞之间的相似性;是带宽,控制径向作用范围。
由此可见,高斯核函数是两个细胞之间欧式距离的单调函数,两个细胞之间的相关性随两个细胞的欧式距离增加呈现单调递减关系。
不同的细胞具有不同的基因表达,不同的基因表达反映了细胞可能的表型,表型反映到细胞当中可以是细胞类型,如发育时期状态等。由于不同细胞的表型并不一致,因此针对不同细胞类型选择不同的值,太小(低于0.01时)会导致结果不稳定,准确性降低,即相同表型的细胞也难以分类为同类型细胞;越大高斯核函数的局部影响范围就会越大,过大时(大于100)产生过拟合的情况,即导致不同表型、距离较远的细胞也会被平均到一起,失去数据的分辨率。
由图2可以看出,不同区域细胞(不同细胞类型)聚集的密度不同,如成熟细胞的数目远大于干细胞的数目,因此其对应密度也不一致。密度的范围为[0,1],密度较大区域的细胞其邻居会比密度小的区域的邻居。为了保证邻居数目尽可能一致,密度大的区域选择更小的值,密度小的区域选择更大的值。当密度小于0.3时,取值为25,密度大于等于0.3且密度小于等于0.6时,取值为10,密度大于0.6时,取值为3,通过该方式可以为低维坐标上不同局部区域的细胞确定较为接近的邻居细胞。
上述细胞1和细胞2共同聚集于同一区域,该区域的密度为0.4,设置取值为15,由于获取细胞1和细胞2的高斯核函数为:0.10。
由此,可以得到任意两个细胞之间的相似性,获得相似性矩阵,相同细胞相似性为1。部分细胞之间的相似性矩阵如表5所示:
表5 细胞之间的相似性矩阵
5. 计算马尔可夫转移概率矩阵
单细胞转录组测序过程中,由于mRNA的捕获是随机的,因此不同的细胞具有随机mRNA缺失的特点,该过程可以表征为马尔可夫过程。马尔可夫过程具有以下特性:在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变(过去),每一个状态的转移只依赖于其之前的那一个状态。对于单细胞转录组测序数据来讲,不同的细胞转换为其他细胞的概率是不同的。
基于相似性矩阵可获得马尔可夫转移概率矩阵。细胞转换为细胞的概率(马尔可夫转移概率)是细胞与细胞的相似性占细胞与其他每个细胞相似性总和的比值:
;
其中,代表细胞与细胞的马尔可夫转移概率,=1~且=1~,代表细胞与细胞的马尔可夫转移概率,代表第个细胞(),代表细胞个数;代表细胞与其他每个细胞相似性总和。
由此可见,对于马尔可夫转移概率矩阵的每一列或者每一行,其转移概率总和为1。部分细胞之间的马尔可夫转移概率矩阵M如表6所示:
表6 细胞之间的马尔可夫转移概率矩阵
6. 利用马尔可夫转移概率矩阵对基因-细胞表达谱矩阵进行加权多重插补
对于单细胞转录组测序数据而言,用于区分细胞表型的主要依据为高变基因(也称为特征向量),而数据的真实结构特征主要由顶部特征向量所体现,其余特征向量可能为噪声。马尔可夫转移概率矩阵中的特征值也反映了该特征信息,因此针对上述步骤首先基于马尔可夫转移概率矩阵的特征值大小保留顶部特征向量,顶部的特征向量主要来源于低频的特征值。
由于数据中噪声一般在数据中呈现较高的频率,因此对于马尔可夫转移概率矩阵进行求幂,可以对马尔可夫转移概率矩阵中的特征值(转移概率)进行低通滤波,即让低频率通过而滤掉或衰减高频,由此可以过滤掉包含在高频中的噪声。
进一步,基于求幂后的马尔可夫转移概率矩阵对细胞-基因表达谱矩阵A进行加权多重插补:
;
其中,代表第次插补后的细胞-基因表达谱矩阵;代表迭代次数,也为幂次,从1开始并逐次加1进行多重插补;当进行第次插补时,对于每个细胞的每个基因,转换所采用的表达量均为所述细胞-基因表达谱矩阵A中各基因的表达量。
进行第次插补后,细胞-基因表达谱矩阵中第个细胞第个基因的表达量会变为细胞-基因表达谱矩阵中第个细胞的各个相邻细胞的该基因的表达量乘第个细胞转换为该各个相邻细胞的概率(幂次为)之和:
;
由于马尔可夫转移概率矩阵的特征值均为[0,1]之间,特征值通过指数运算会逐渐减小,其范围也在[0,1]之间。随着马尔可夫转移概率矩阵多次求幂,除1以外的所有特征值的大小不断减小,如此能够降低噪声的重要性,其解释能力接近于零。随着的增加,细胞从它们的邻居细胞那里学习缺失的值,迅速获得生物学上非常相似的细胞之间的关系。
当噪声去除转变为真实生物信息信号去除,则达到最佳迭代次数。由于噪声通常与真实信号本身具有不同的频率(即分别为高频和低频),因此随着高频信息的去除,数据将发生快速变化,然后变为较慢地变化,达到收敛。当数据变化率低于首次低于阈值(本实施例设置为5%)时,可以认为达到收敛,达到最佳迭代次数。最终获得细胞-基因加权表达插补矩阵,以降低数据噪声并有效计算缺失的转录本表达量,而不会过度拟合数据。
细胞的数据变化率通过决定系数进行量化:
对于迭代次数,先计算插补后基因的相对表达量(基因表达量除以全部基因表达量的总和),
;
再计算细胞插补后的平均基因表达量:
;
再基于第次插补后和插补前的全部基因相对表达量的残差平方和()与插补后的全部基因相对表达量的离差平方和()计算细胞的决定系数,公式如下:
;
;
;
在本实施中,当时,所有细胞的决定系数均。由此获得了加权插补后的细胞-基因表达谱矩阵,有效降低了数据噪声并有效地填补了缺失的转录本表达量,并且不会过度拟合数据。
利用多重加权插补前后的细胞-基因表达谱矩阵分别进行分析,发现加权插补后相同基因的表达量在相邻细胞中更加一致,更加真实。例如对于T细胞的marker基因CD3D与B细胞的marker基因MS4A1,基因表达情况对比分别如图3和图4所示。可以看出,进行多重加权插补后的细胞-基因表达谱矩阵中,基因表达量在相邻的细胞间表达更加清晰,可以直观判断细胞类型的特征并确定具体的细胞类型。相反,在多重加权插补前,基因表达量即使是同一cluster中细胞中一致性也较差,难以基于细胞类型特异marker基因的表达量区分不同的细胞群。
另外,由于细胞中的各基因表达量随着真实信号的增强,各个细胞中基因的稀疏性降低,表达量为0的细胞数减少,基因之间的相关作用随之增强。如CD14基因和ITGAM基因均为髓系细胞的marker基因,在正常的髓系细胞中该两种基因表达相关性较强。但是利用多重加权插补前的细胞-基因表达谱矩阵难以发现这种相关性,利用多重加权插补后的细胞-基因表达谱矩阵进行分析,可以看出两者的相关性明显地展现出来,如图5所示。因此,利用本发明的方法,对于细胞类型的鉴定也起到非常积极的作用。
实施例 2 单细胞测序基因矩阵稀疏性处理的优化
本实施例对实施例1的方案进行进一步优化,具体地:
在计算马尔可夫转移概率矩阵时,进行如下处理:
对于同一区域(簇、类型)中任意两个细胞,确定与该两个细胞距离之和最小的15个细胞作为该两个细胞的邻居细胞,若不足15个,则全部其余细胞为邻居细胞。
对于每个细胞,将其与非邻居细胞的马尔可夫转移概率设置为0。
利用本实施例优化后的马尔可夫转移概率矩阵对基因-细胞表达谱矩阵进行加权多重插补,进一步进行分析。
同样,对于T细胞的marker基因CD3D与B细胞的marker基因MS4A1,基因表达情况对比分别如图6和图7所示。可见优化后的方法,基因表达量在相邻的细胞间表达进一步清晰,可以直观判断细胞类型的特征并确定具体的细胞类型。对于细胞之间的相互作用,同样如CD14基因和ITGAM基因,两者的相关性进一步得到加强,如图8所示。
实施例 3 单细胞测序基因矩阵稀疏性处理的进一步优化
本实施例对实施例2的方案进行进一步优化,具体地:
在利用马尔可夫转移概率矩阵对基因-细胞表达谱矩阵进行加权多重插补步骤中,对于马尔可夫转移概率矩阵进行求幂时,当幂次为时,若某个特征值低于0.001,则将该特征值赋值0,再进行插补。
利用本实施例优化后的方法对基因-细胞表达谱矩阵进行加权多重插补后进行分析。结果发现,优化后的方法能够去除数据中的大部分噪声。
同样,对于T细胞的marker基因CD3D与B细胞的marker基因MS4A1,基因表达情况对比分别如图9和图10所示。可见优化后的方法,基因表达量在相邻的细胞间表达进一步清晰,可以直观判断细胞类型的特征并确定具体的细胞类型。对于细胞之间的相互作用,同样如CD14基因和ITGAM基因,两者的相关性进一步得到加强,如图11所示。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (10)
1.一种增强scRNA-seq数据基因表达相互作用的方法,其特征在于,包括以下步骤:
S1,获得单细胞转录组测序数据的细胞-基因表达谱矩阵A;
S2,基于所述细胞-基因表达谱矩阵A,利用主成分分析方法筛选N个主成分,其中N=20~50,得到PCA矩阵;
S3,基于所述N个主成分的值计算任意两个细胞之间的距离,得到细胞距离矩阵D;
S4,基于所述细胞距离矩阵D利用核函数计算任意两个细胞之间的相似性,得到细胞相似性矩阵C;
S5,基于细胞相似性矩阵C,根据以下算法,计算任意两个细胞之间的转移概率,得到细胞转移概率矩阵:
所述两个细胞包括第一细胞和第二细胞,所述第一细胞与所述第二细胞的转移概率为所述第一细胞和所述第二细胞的相似性与第一细胞与所有细胞的相似性的总和的比值;
S6,基于所述细胞转移概率矩阵,根据以下算法,对所述细胞-基因表达谱矩阵A进行插补:
将第个细胞第个基因的表达量转换其余各个细胞的第个基因的表达量与所述第个细胞与相应细胞的转移概率的乘积的总和,
其中,=1~且=1~,代表所述细胞-基因表达谱矩阵A中细胞数目,=1~,代表所述细胞-基因表达谱矩阵A中基因数目。
2.根据权利要求1所述的一种增强scRNA-seq数据基因表达相互作用的方法,其特征在于,步骤S3中,所述距离为欧氏距离,所述的计算公式如下:
;
其中,代表第i个PC在第个细胞中的值,代表第i个PC在第个细胞中的值;=1~N。
3.根据权利要求1或2所述的一种增强scRNA-seq数据基因表达相互作用的方法,其特征在于,步骤S4中,在计算相似性之前,进一步使用UMAP算法对PCA矩阵进行非线性降维,降维后的结果为二维坐标信息,细胞基于表型的相似性聚集到不同区域,对于处于不同区域的细胞,两两之间的相似性设置为0,对于同一区域的细胞,再利用核函数计算任意两个细胞之间的相似性,
所述核函数为高斯核函数,所述的计算公式如下:
;
其中,是带宽,用于控制径向作用范围,=1~30。
4.根据权利要求3所述的一种增强scRNA-seq数据基因表达相互作用的方法,其特征在于,根据以下方式确定取值:
先确定细胞和细胞所在区域的密度,当密度小于0.3时,取值为20~30,密度大于等于0.3且密度小于等于0.6时,取值为5~20,密度大于0.6时,取值为1~5。
5.根据权利要求3所述的一种增强scRNA-seq数据基因表达相互作用的方法,其特征在于,得到细胞转移概率矩阵后,进一步进行如下处理:
(1)对于同一区域中任意细胞,确定与该两个细胞距离之和最小的15个细胞作为该两个细胞的邻居细胞,若不足15个,则全部其余细胞为邻居细胞;
(2)对于每个细胞,将其与非邻居细胞的细胞转移概率设置为0。
6.根据权利要求1所述的一种增强scRNA-seq数据基因表达相互作用的方法,其特征在于,步骤S6中,通过对转移概率矩阵求幂,对所述细胞-基因表达谱矩阵A进行多重插补:
;
其中,代表第次插补后的细胞-基因表达谱矩阵;代表迭代次数,从1开始并逐次加1进行多重插补;当进行第次插补时,对于每个细胞的每个基因,转换所采用的表达量均为所述细胞-基因表达谱矩阵A中各基因的表达量。
7.根据权利要求6所述的一种增强scRNA-seq数据基因表达相互作用的方法,其特征在于,利用以下方式确定迭代次数:
进行第次插补后,先计算中第个细胞第个基因的相对表达量:
;
再计算第个细胞插补后的平均基因表达量:
;
再基于第次插补后和插补后的全部基因相对表达量的残差平方和与插补后的全部基因相对表达量的离差平方和,计算细胞的决定系数,公式如下:
;
;
;
若所有细胞的决定系数均小于预设阈值P1,则停止迭代,得到多重插补后的细胞-基因表达谱矩阵,
其中,=1~,P1=3%~10%。
8.根据权利要求6或7所述的一种增强scRNA-seq数据基因表达相互作用的方法,其特征在于,在进行第次插补时,若小于预设阈值P2,则先设置,再进行插补,其中,P2=0.00005~0.001。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-8任一所述的一种增强scRNA-seq数据基因表达相互作用的方法的步骤。
10.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8任一所述的一种增强scRNA-seq数据基因表达相互作用的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410222359.7A CN117995282A (zh) | 2023-06-19 | 2023-06-19 | 增强单细胞rna测序数据中基因表达相互作用的方法、设备和介质 |
CN202310726725.8A CN116864012B (zh) | 2023-06-19 | 2023-06-19 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310726725.8A CN116864012B (zh) | 2023-06-19 | 2023-06-19 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410222359.7A Division CN117995282A (zh) | 2023-06-19 | 2023-06-19 | 增强单细胞rna测序数据中基因表达相互作用的方法、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116864012A true CN116864012A (zh) | 2023-10-10 |
CN116864012B CN116864012B (zh) | 2024-02-27 |
Family
ID=88229548
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310726725.8A Active CN116864012B (zh) | 2023-06-19 | 2023-06-19 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
CN202410222359.7A Pending CN117995282A (zh) | 2023-06-19 | 2023-06-19 | 增强单细胞rna测序数据中基因表达相互作用的方法、设备和介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410222359.7A Pending CN117995282A (zh) | 2023-06-19 | 2023-06-19 | 增强单细胞rna测序数据中基因表达相互作用的方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116864012B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017075292A1 (en) * | 2015-10-28 | 2017-05-04 | The Broad Institute, Inc. | Systems and methods for determining relative abundances of biomolecules |
CN109670543A (zh) * | 2018-12-12 | 2019-04-23 | 中国人民解放军军事科学院军事医学研究院 | 一种数据融合方法及装置 |
WO2020047453A1 (en) * | 2018-08-31 | 2020-03-05 | Ampel Biosolutions, Llc | Systems and methods for single-cell rna-seq data analysis |
US20210090686A1 (en) * | 2019-09-25 | 2021-03-25 | Regeneron Pharmaceuticals, Inc. | Single cell rna-seq data processing |
WO2022106074A1 (en) * | 2020-11-19 | 2022-05-27 | NEC Laboratories Europe GmbH | Method and system for quantifying cellular activity from high throughput sequencing data |
CN114974421A (zh) * | 2022-05-20 | 2022-08-30 | 南开大学 | 基于扩散-降噪的单细胞转录组测序数据补插方法及系统 |
CN115101130A (zh) * | 2022-06-30 | 2022-09-23 | 山东大学 | 一种基于网络对抗学习的单细胞数据插补方法及系统 |
CN115394358A (zh) * | 2022-08-31 | 2022-11-25 | 西安理工大学 | 基于深度学习的单细胞测序基因表达数据插补方法和系统 |
CN115631793A (zh) * | 2022-12-01 | 2023-01-20 | 新格元(南京)生物科技有限公司 | 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备 |
-
2023
- 2023-06-19 CN CN202310726725.8A patent/CN116864012B/zh active Active
- 2023-06-19 CN CN202410222359.7A patent/CN117995282A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017075292A1 (en) * | 2015-10-28 | 2017-05-04 | The Broad Institute, Inc. | Systems and methods for determining relative abundances of biomolecules |
WO2020047453A1 (en) * | 2018-08-31 | 2020-03-05 | Ampel Biosolutions, Llc | Systems and methods for single-cell rna-seq data analysis |
CN109670543A (zh) * | 2018-12-12 | 2019-04-23 | 中国人民解放军军事科学院军事医学研究院 | 一种数据融合方法及装置 |
US20210090686A1 (en) * | 2019-09-25 | 2021-03-25 | Regeneron Pharmaceuticals, Inc. | Single cell rna-seq data processing |
WO2022106074A1 (en) * | 2020-11-19 | 2022-05-27 | NEC Laboratories Europe GmbH | Method and system for quantifying cellular activity from high throughput sequencing data |
CN114974421A (zh) * | 2022-05-20 | 2022-08-30 | 南开大学 | 基于扩散-降噪的单细胞转录组测序数据补插方法及系统 |
CN115101130A (zh) * | 2022-06-30 | 2022-09-23 | 山东大学 | 一种基于网络对抗学习的单细胞数据插补方法及系统 |
CN115394358A (zh) * | 2022-08-31 | 2022-11-25 | 西安理工大学 | 基于深度学习的单细胞测序基因表达数据插补方法和系统 |
CN115631793A (zh) * | 2022-12-01 | 2023-01-20 | 新格元(南京)生物科技有限公司 | 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备 |
Non-Patent Citations (2)
Title |
---|
赵霄晨;潘耀柱;白海;: "下一代测序在白细胞抗原基因分型中的应用", 解放军医药杂志, no. 07, 28 July 2017 (2017-07-28) * |
高美加;: "基于loess回归加权的单细胞RNA-seq数据预处理算法", 智能计算机与应用, no. 05, 1 May 2020 (2020-05-01) * |
Also Published As
Publication number | Publication date |
---|---|
CN116864012B (zh) | 2024-02-27 |
CN117995282A (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Witten | Classification and clustering of sequencing data using a Poisson model | |
De Smet et al. | Adaptive quality-based clustering of gene expression profiles | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
CN103793600B (zh) | 基因微阵列数据的分类器模型生成方法 | |
CN102663681A (zh) | 基于排序k-均值算法的灰度图像分割方法 | |
Li et al. | Single-cell RNA-seq data clustering: a survey with performance comparison study | |
CN115631793A (zh) | 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备 | |
CN116864012B (zh) | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 | |
WO2022058339A1 (en) | Method and system for subsampling of cells from single-cell genomics dataset | |
Wani | Microarray classification using sub-space grids | |
CN101921847A (zh) | 基于模糊k-nn算法的肿瘤基因表达谱分类方法 | |
Zhou et al. | A new method for classification in DNA sequence | |
CN117877587A (zh) | 一种全基因组预测模型的深度学习算法 | |
CN110942089B (zh) | 一种基于多级决策的击键识别方法 | |
CN107122999A (zh) | 基于聚类算法确定用户对应用软件偏好程度的方法及装置 | |
CN118380048B (zh) | 基于Transformer模型预测的单细胞RNA测序数据聚类方法 | |
CN111401783A (zh) | 一种电力系统运行数据集成特征选择方法 | |
CN113178233B (zh) | 大规模单细胞转录组数据高效聚类方法 | |
CN117727373B (zh) | 基于样本和特征双加权的特征约简中智c-均值聚类方法 | |
Fan et al. | Predicting yeast protein localization sites by a new clustering algorithm based on weighted feature ensemble | |
CN117437976B (zh) | 基于基因检测的疾病风险筛查方法及系统 | |
CN113177604B (zh) | 一种基于改进l1正则化和聚类的高维数据特征选择方法 | |
Wang et al. | Clustering using adaptive self-organizing maps (ASOM) and applications | |
Costa et al. | A symbolic approach to gene expression time series analysis | |
Yuan et al. | Partial mixture model for tight clustering in exploratory gene expression analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |