CN114678070A - 单细胞rna测序数据降维方法、设备及可读存储介质 - Google Patents

单细胞rna测序数据降维方法、设备及可读存储介质 Download PDF

Info

Publication number
CN114678070A
CN114678070A CN202210332642.6A CN202210332642A CN114678070A CN 114678070 A CN114678070 A CN 114678070A CN 202210332642 A CN202210332642 A CN 202210332642A CN 114678070 A CN114678070 A CN 114678070A
Authority
CN
China
Prior art keywords
matrix
sequencing data
dimension reduction
rna sequencing
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210332642.6A
Other languages
English (en)
Inventor
张乐飞
廖明辉
杜博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210332642.6A priority Critical patent/CN114678070A/zh
Publication of CN114678070A publication Critical patent/CN114678070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种单细胞RNA测序数据降维方法、设备及可读存储介质。该方法包括:对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X;根据两两单细胞间的马氏距离,构造连接矩阵A;基于A构造图自编码器模型;将X输入图自编码器模型,得到重构特征矩阵Y、重构连接矩阵
Figure DDA0003573596020000011
以及提取图自编码器模型中维度最低的层的隐变量Z;根据X、A、Y、
Figure DDA0003573596020000012
以及Z得到总损失函数;采用梯度下降法得到最小化的总损失函数以及训练完成的图自编码器模型;提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。通过本发明,实现了在庞大、复杂且高维的数据上展开降维任务时保持了细胞之间的结构信息。

Description

单细胞RNA测序数据降维方法、设备及可读存储介质
技术领域
本发明涉及深度学习技术领域,尤其涉及一种单细胞RNA测序数据降维方法、设备及可读存储介质。
背景技术
复杂的生物组织和生命体是由形态各异、功能各异的细胞群组成。单细胞RNA测序(scRNA-seq)技术是对每一个细胞的RNA进行测序,得到所有基因在该细胞的表达量。与传统的批量测序不同,它具备分析单个细胞的生物学状态的能力,被广泛应用于肿瘤生物学、胚胎发育学、器官形成等诸多生物学领域。在scRNA-seq数据中,细胞的每一个基因的表达量都可视为该细胞的一个特征,从中挖掘生物信息的关键步骤是将高维且复杂的scRNA-seq数据降维到二维以达到可视化的效果,直观地观察到细胞群体的分布。
一个scRNA-seq数据一般含有几万甚至几十万个细胞,每个细胞含有几万个基因表达特征,目前的降维方法不能从如此庞大且高维的数据中充分挖掘出关键信息。传统降维方法都有各自的局限性,比如PCA等线性方法不能在二维或三维空间准确有效捕捉到原始高维数据的特征。近年随着深度学习的发展,一些基于深度学习的聚类方法被提出来,但是面对大量、高维且携带大量噪声的scRNA-seq数据,降维效果仍然不佳。同时目前的降维方法缺少对细胞之间结构信息的挖掘,而对于scRNA-seq数据来说,细胞之间的结构信息是不能忽视的,生物状态相似的细胞中包含的结构信息蕴藏着大量的生物信息。
因此需要一种能够在高维、大量且携带大量噪声的的scRNA-seq数据中挖掘细胞之间结构信息的方法,去胜任降维任务。
发明内容
为解决上述技术问题,本发明提供了一种单细胞RNA测序数据降维方法、设备及可读存储介质。
第一方面,本发明提供一种单细胞RNA测序数据降维方法,所述单细胞RNA测序数据降维方法包括:
对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X,N为正整数;
计算两两单细胞间的马氏距离;
根据两两单细胞间的马氏距离,构造连接矩阵A;
基于连接矩阵A构造图自编码器模型;
将特征矩阵X输入图自编码器模型;
获取图自编码器模型输出的重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000023
以及提取图自编码器模型中维度最低的层的隐变量Z;
根据特征矩阵X、连接矩阵A、重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000024
以及隐变量Z得到总损失函数;
采用梯度下降法得到最小化的总损失函数以及训练完成的图自编码器模型;
提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。
可选的,所述对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X的步骤包括:
从N个单细胞的单细胞测序数据中选取满足预设条件的M个基因为特征,得到特征矩阵X,N为正整数,其中,预设条件为:
dg>exp[-(mg-b)]+0.02
其中,
Figure BDA0003573595000000021
mg={log2Xig|Xig>0},I是单位1,Xig是细胞i的第g个基因表达量,b为通过二分法得到的与M对应的超参数。
可选的,所述根据两两单细胞间的马氏距离,构造连接矩阵A的步骤包括:
以每个单细胞为节点,对于细胞i,选取与细胞i的马氏距离最小的前t个细胞作为细胞i的近邻点进行构图,得到连接图;
基于连接图,构造连接矩阵A,其中,与细胞j若为细胞i的近邻点,则连接矩阵A中第i行第j列的元素Aij为1,否则为0。
可选的,图自编码器模型的传播公式为:
Figure BDA0003573595000000022
其中,
Figure BDA0003573595000000031
IN是N阶单位矩阵,
Figure BDA0003573595000000032
W(h-1)为第(h-1)层可训练参数,ReLU(·)为非线性激活函数。
可选的,所述根据特征矩阵X、连接矩阵A、重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000039
以及隐变量Z得到总损失函数的步骤包括:
根据特征矩阵X以及重构特征矩阵Y得到内容重构损失函数L1
根据连接矩阵A以及重构连接矩阵
Figure BDA00035735950000000310
得到图结构重构损失函数L2
根据连接矩阵A以及隐变量Z得到低维图结构重构损失函数L3
根据总损失函数计算公式,得到总损失函数Loss,总损失函数计算公式为:
Loss=L1+L2+λ·L3
其中,λ为预设值。
可选的,内容重构损失函数L1为:
Figure BDA0003573595000000033
其中,Xij为特征矩阵X中第i行第j列的元素,Yij为重构特征矩阵Y中第i行第j列的元素。
可选的,图结构重构损失函数L2为:
Figure BDA0003573595000000034
其中,
Figure BDA0003573595000000035
sigmoid(·)为非线性激活函数,T为矩阵的转置操作,Aij
Figure BDA0003573595000000036
分别是A、
Figure BDA0003573595000000037
中第i行第j列的元素。
可选的,低维图结构重构损失函数L3为:
Figure BDA0003573595000000038
其中,H=sigmoid(ZTZ),sigmoid(·)为非线性激活函数,T为矩阵的转置操作,Aij是A中第i行第j列的元素,Hij是H中第i行第j列的元素。
第二方面,本发明还提供一种单细胞RNA测序数据降维设备,所述单细胞RNA测序数据降维设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的单细胞RNA测序数据降维程序,其中所述单细胞RNA测序数据降维程序被所述处理器执行时,实现如上所述的单细胞RNA测序数据降维方法的步骤。
第三方面,本发明还提供一种可读存储介质,所述可读存储介质上存储有单细胞RNA测序数据降维程序,其中所述单细胞RNA测序数据降维程序被处理器执行时,实现如上所述的单细胞RNA测序数据降维方法的步骤。
本发明中,对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X,N为正整数;计算两两单细胞间的马氏距离;根据两两单细胞间的马氏距离,构造连接矩阵A;基于连接矩阵A构造图自编码器模型;将特征矩阵X输入图自编码器模型;获取图自编码器模型输出的重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000041
以及提取图自编码器模型中维度最低的层的隐变量Z;根据特征矩阵X、连接矩阵A、重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000042
以及隐变量Z得到总损失函数;采用梯度下降法得到最小化的总损失函数以及训练完成的图自编码器模型;提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。通过本发明,通过马氏距离衡量细胞间的相似性,去除了不同基因表达水平的量纲的影响,排除了基因之间的相互性干扰;图自编码器模型利用到邻近单细胞的信息,使得在庞大、复杂且高维的数据上展开降维任务时保持了细胞之间的结构信息。
附图说明
图1为本发明实施例方案中涉及的单细胞RNA测序数据降维设备的硬件结构示意图;
图2为本发明单细胞RNA测序数据降维方法一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
第一方面,本发明实施例提供一种单细胞RNA测序数据降维设备,该单细胞RNA测序数据降维设备可以是个人计算机(personal computer,PC)、笔记本电脑、服务器等具有数据处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的单细胞RNA测序数据降维设备的硬件结构示意图。本发明实施例中,单细胞RNA测序数据降维设备可以包括处理器1001(例如中央处理器Central Processing Unit,CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity,WI-FI接口);存储器1005可以是高速随机存取存储器(random access memory,RAM),也可以是稳定的存储器(non-volatilememory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及单细胞RNA测序数据降维程序。其中,处理器1001可以调用存储器1005中存储的单细胞RNA测序数据降维程序,并执行本发明实施例提供的单细胞RNA测序数据降维方法。
第二方面,本发明实施例提供了一种单细胞RNA测序数据降维方法。
一实施例中,参照图2,图2为本发明单细胞RNA测序数据降维方法一实施例的流程示意图。如图2所示,单细胞RNA测序数据降维方法包括:
步骤S10,对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X,N为正整数;
本实施例中,从单细胞RNA测序数据集中选择N个单细胞的单细胞测序数据,然后对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X,N为正整数。
进一步地,一实施例中,步骤S10包括:
从N个单细胞的单细胞测序数据中选取满足预设条件的M个基因为特征,得到特征矩阵X,N为正整数,其中,预设条件为:
dg>exp[-(mg-b)]+0.02
其中,
Figure BDA0003573595000000061
mg={log2Xig|Xig>0},I是单位1,Xig是细胞i的第g个基因表达量,b为通过二分法得到的与M对应的超参数。
本实施例中,从单细胞RNA测序数据集中选择N个单细胞测序数据。预定取M=2000个基因作为细胞的特征,二分法查找出与M=2000对应的超参数b,使得dg满足:
dg>exp[-(mg-b)]+0.02
其中,
Figure BDA0003573595000000062
mg={log2Xig|Xig>0},I是单位1,Xig是细胞i的第g个基因表达量,b为通过二分法得到的与M对应的超参数。
步骤S20,计算两两单细胞间的马氏距离;
本实施例中,为消除基因之间表达值的差异性,通过马氏距离计算公式,计算两两单细胞间的马氏距离。
步骤S30,根据两两单细胞间的马氏距离,构造连接矩阵A;
本实施例中,根据两两单细胞间的马氏距离即可确定两两单细胞间相似度,从而基于两两单细胞间的相似度构造连接矩阵A。
进一步地,一实施例中,步骤S30包括:
以每个单细胞为节点,对于细胞i,选取与细胞i的马氏距离最小的前t个细胞作为细胞i的近邻点进行构图,得到连接图;基于连接图,构造连接矩阵A,其中,与细胞j若为细胞i的近邻点,则连接矩阵A中第i行第j列的元素Aij为1,否则为0。
本实施例中,t选为(0.01×N)和20中的最大值。
步骤S40,基于连接矩阵A构造图自编码器模型;
本实施例中,基于连接矩阵A构造图自编码器模型,具体的,图自编码器模型的传播公式为:
Figure BDA0003573595000000063
其中,
Figure BDA0003573595000000064
IN是N阶单位矩阵,
Figure BDA0003573595000000065
W(h-1)为第(h-1)层可训练参数,ReLU(·)为非线性激活函数。作为示意,图自编码器各层的维度为2000-512-256-128-68-10-2-10-68-128-512-2000,维度为2的层的隐变量Z将在图自编码器模型训练完毕后提取出来作为降维的结果,最后一层作为重构矩阵Y。
步骤S50,将特征矩阵X输入图自编码器模型;
步骤S60,获取图自编码器模型输出的重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000071
以及提取图自编码器模型中维度最低的层的隐变量Z;
步骤S70,根据特征矩阵X、连接矩阵A、重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000072
以及隐变量Z得到总损失函数;
本实施例中,根据特征矩阵X以及重构特征矩阵Y得到内容重构损失函数L1
根据连接矩阵A以及重构连接矩阵
Figure BDA0003573595000000073
得到图结构重构损失函数L2
根据连接矩阵A以及隐变量Z得到低维图结构重构损失函数L3
根据总损失函数计算公式,得到总损失函数Loss,总损失函数计算公式为:
Loss=L1+L2+λ·L3
其中,λ为预设值。
进一步地,一实施例中,内容重构损失函数L1为:
Figure BDA0003573595000000074
其中,Xij为特征矩阵X中第i行第j列的元素,Yij为重构特征矩阵Y中第i行第j列的元素。
进一步地,一实施例中,图结构重构损失函数L2为:
Figure BDA0003573595000000075
其中,
Figure BDA0003573595000000076
sigmoid(·)为非线性激活函数,T为矩阵的转置操作,Aij
Figure BDA0003573595000000077
分别是A、
Figure BDA0003573595000000078
中第i行第j列的元素。
进一步地,一实施例中,低维图结构重构损失函数L3为:
Figure BDA0003573595000000079
其中,H=sigmoid(ZTZ),sigmoid(·)为非线性激活函数,T为矩阵的转置操作,Aij是A中第i行第j列的元素,Hij是H中第i行第j列的元素。
步骤S80,采用梯度下降法得到最小化的总损失函数以及训练完成的图自编码器模型;
本实施例中,采用梯度下降法调整图自编码器模型的参数,从而得到最小化的总损失函数以及最小化的总损失函数对应的图自编码器模型参数。
步骤S90,提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。
本实施例中,根据步骤S80得到训练完成的图自编码器模型后,即可提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。
本实施例中,对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X,N为正整数;计算两两单细胞间的马氏距离;根据两两单细胞间的马氏距离,构造连接矩阵A;基于连接矩阵A构造图自编码器模型;将特征矩阵X输入图自编码器模型;获取图自编码器模型输出的重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000081
以及提取图自编码器模型中维度最低的层的隐变量Z;根据特征矩阵X、连接矩阵A、重构特征矩阵Y、重构连接矩阵
Figure BDA0003573595000000082
以及隐变量Z得到总损失函数;采用梯度下降法得到最小化的总损失函数以及训练完成的图自编码器模型;提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。通过本实施例,通过马氏距离衡量细胞间的相似性,去除了不同基因表达水平的量纲的影响,排除了基因之间的相互性干扰;图自编码器模型利用到邻近单细胞的信息,使得在庞大、复杂且高维的数据上展开降维任务时保持了细胞之间的结构信息。
第三方面,本发明实施例还提供一种可读存储介质。
本发明可读存储介质上存储有单细胞RNA测序数据降维程序,其中所述单细胞RNA测序数据降维程序被处理器执行时,实现如上述的单细胞RNA测序数据降维方法的步骤。
其中,单细胞RNA测序数据降维程序被执行时所实现的方法可参照本发明单细胞RNA测序数据降维方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种单细胞RNA测序数据降维方法,其特征在于,所述单细胞RNA测序数据降维方法包括:
对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X,N为正整数;
计算两两单细胞间的马氏距离;
根据两两单细胞间的马氏距离,构造连接矩阵A;
基于连接矩阵A构造图自编码器模型;
将特征矩阵X输入图自编码器模型;
获取图自编码器模型输出的重构特征矩阵Y、重构连接矩阵
Figure FDA0003573594990000012
以及提取图自编码器模型中维度最低的层的隐变量Z;
根据特征矩阵X、连接矩阵A、重构特征矩阵Y、重构连接矩阵
Figure FDA0003573594990000013
以及隐变量Z得到总损失函数;
采用梯度下降法得到最小化的总损失函数以及训练完成的图自编码器模型;
提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。
2.如权利要求1所述的单细胞RNA测序数据降维方法,其特征在于,所述对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X的步骤包括:
从N个单细胞的单细胞测序数据中选取满足预设条件的M个基因为特征,得到特征矩阵X,N为正整数,其中,预设条件为:
dg>exp[-(mg-b)]+0.02
其中,
Figure FDA0003573594990000011
mg={log2Xig|Xig>0},I是单位1,Xig是细胞i的第g个基因表达量,b为通过二分法得到的与M对应的超参数。
3.如权利要求1所述的单细胞RNA测序数据降维方法,其特征在于,所述根据两两单细胞间的马氏距离,构造连接矩阵A的步骤包括:
以每个单细胞为节点,对于细胞i,选取与细胞i的马氏距离最小的前t个细胞作为细胞i的近邻点进行构图,得到连接图;
基于连接图,构造连接矩阵A,其中,与细胞j若为细胞i的近邻点,则连接矩阵A中第i行第j列的元素Aij为1,否则为0。
4.如权利要求3所述的单细胞RNA测序数据降维方法,其特征在于,图自编码器模型的传播公式为:
Figure FDA0003573594990000021
其中,
Figure FDA0003573594990000022
IN是N阶单位矩阵,
Figure FDA0003573594990000023
W(h-1)为第(h-1)层可训练参数,ReLU(·)为非线性激活函数。
5.如权利要求1所述的单细胞RNA测序数据降维方法,其特征在于,所述根据特征矩阵X、连接矩阵A、重构特征矩阵Y、重构连接矩阵
Figure FDA0003573594990000026
以及隐变量Z得到总损失函数的步骤包括:
根据特征矩阵X以及重构特征矩阵Y得到内容重构损失函数L1
根据连接矩阵A以及重构连接矩阵
Figure FDA0003573594990000025
得到图结构重构损失函数L2
根据连接矩阵A以及隐变量Z得到低维图结构重构损失函数L3
根据总损失函数计算公式,得到总损失函数Loss,总损失函数计算公式为:
Loss=L1+L2+λ·L3
其中,λ为预设值。
6.如权利要求5所述的单细胞RNA测序数据降维方法,其特征在于,内容重构损失函数L1为:
Figure FDA0003573594990000024
其中,Xij为特征矩阵X中第i行第j列的元素,Yij为重构特征矩阵Y中第i行第j列的元素。
7.如权利要求5所述的单细胞RNA测序数据降维方法,其特征在于,图结构重构损失函数L2为:
Figure FDA0003573594990000031
其中,
Figure FDA0003573594990000032
sigmoid(·)为非线性激活函数,T为矩阵的转置操作,Aij
Figure FDA0003573594990000033
分别是A、
Figure FDA0003573594990000034
中第i行第j列的元素。
8.如权利要求5所述的单细胞RNA测序数据降维方法,其特征在于,低维图结构重构损失函数L3为:
Figure FDA0003573594990000035
其中,H=sigmoid(ZTZ),sigmoid(·)为非线性激活函数,T为矩阵的转置操作,Aij是A中第i行第j列的元素,Hij是H中第i行第j列的元素。
9.一种单细胞RNA测序数据降维设备,其特征在于,所述单细胞RNA测序数据降维设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的单细胞RNA测序数据降维程序,其中所述单细胞RNA测序数据降维程序被所述处理器执行时,实现如权利要求1至7中任一项所述的单细胞RNA测序数据降维方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有单细胞RNA测序数据降维程序,其中所述单细胞RNA测序数据降维程序被处理器执行时,实现如权利要求1至7中任一项所述的单细胞RNA测序数据降维方法的步骤。
CN202210332642.6A 2022-03-30 2022-03-30 单细胞rna测序数据降维方法、设备及可读存储介质 Pending CN114678070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210332642.6A CN114678070A (zh) 2022-03-30 2022-03-30 单细胞rna测序数据降维方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210332642.6A CN114678070A (zh) 2022-03-30 2022-03-30 单细胞rna测序数据降维方法、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114678070A true CN114678070A (zh) 2022-06-28

Family

ID=82076008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210332642.6A Pending CN114678070A (zh) 2022-03-30 2022-03-30 单细胞rna测序数据降维方法、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114678070A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024104510A1 (zh) * 2022-11-16 2024-05-23 北京昌平实验室 一种分析组织细胞成分的方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024104510A1 (zh) * 2022-11-16 2024-05-23 北京昌平实验室 一种分析组织细胞成分的方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Ročková et al. EMVS: The EM approach to Bayesian variable selection
Eisen et al. Cluster analysis and display of genome-wide expression patterns
Yang et al. Finding correlated biclusters from gene expression data
Finnegan et al. Maximum entropy methods for extracting the learned features of deep neural networks
Maulik et al. Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data
Lee et al. A modified local quadratic approximation algorithm for penalized optimization problems
CN113420421B (zh) 移动边缘计算中基于时序正则化张量分解的QoS预测方法
González et al. Maximum likelihood estimation and expectation–maximization algorithm for controlled branching processes
Radhakrishnan et al. Simple, fast, and flexible framework for matrix completion with infinite width neural networks
CN115995011B (zh) 基于图正则化的非线性正交非负矩阵分解图像聚类方法
CN114678070A (zh) 单细胞rna测序数据降维方法、设备及可读存储介质
Islam et al. Cartography of genomic interactions enables deep analysis of single-cell expression data
CN114334013A (zh) 一种单细胞聚类方法、装置、设备及可读存储介质
Song et al. Sparse multivariate functional principal component analysis
Zhao et al. A block coordinate descent approach for sparse principal component analysis
Ng Recent developments in expectation‐maximization methods for analyzing complex data
Pircalabelu et al. Mixed scale joint graphical lasso
CN114897290B (zh) 业务流程的演化识别方法、装置、终端设备以及存储介质
Zhen et al. A novel framework for single-cell hi-c clustering based on graph-convolution-based imputation and two-phase-based feature extraction
Robert Frost Eigenvectors from eigenvalues sparse principal component analysis
Chen et al. A New Basis for Sparse Principal Component Analysis
Gower et al. Inference of population genetics parameters using discriminator neural networks: an adversarial Monte Carlo approach
Chen et al. Incomplete data analysis
CN113434815A (zh) 基于相似与相异约束半监督非负矩阵分解的社区检测方法
Bagyamani et al. Biological significance of gene expression data using similarity based biclustering algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination