CN117079726B - 基于单细胞的数据库可视化方法及相关设备 - Google Patents
基于单细胞的数据库可视化方法及相关设备 Download PDFInfo
- Publication number
- CN117079726B CN117079726B CN202311332719.0A CN202311332719A CN117079726B CN 117079726 B CN117079726 B CN 117079726B CN 202311332719 A CN202311332719 A CN 202311332719A CN 117079726 B CN117079726 B CN 117079726B
- Authority
- CN
- China
- Prior art keywords
- cell
- gene
- data set
- data
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007794 visualization technique Methods 0.000 title claims abstract description 23
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 177
- 230000014509 gene expression Effects 0.000 claims abstract description 51
- 239000003814 drug Substances 0.000 claims abstract description 40
- 201000010099 disease Diseases 0.000 claims abstract description 39
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 39
- 229940079593 drug Drugs 0.000 claims abstract description 39
- 230000003993 interaction Effects 0.000 claims abstract description 26
- 238000011160 research Methods 0.000 claims abstract description 23
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 239000003086 colorant Substances 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 208000029078 coronary artery disease Diseases 0.000 description 13
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000001717 pathogenic effect Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 206010002383 Angina Pectoris Diseases 0.000 description 1
- 206010003211 Arteriosclerosis coronary artery Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000031226 Hyperlipidaemia Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 108091030146 MiRBase Proteins 0.000 description 1
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 208000015606 cardiovascular system disease Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 208000037976 chronic inflammation Diseases 0.000 description 1
- 230000006020 chronic inflammation Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 208000026758 coronary atherosclerosis Diseases 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 208000031225 myocardial ischemia Diseases 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000004218 vascular function Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及单细胞数据整合的领域,尤其是涉及一种基于单细胞的数据库可视化方法及相关设备,其包括建立数据库,存储收集的用于疾病治疗的潜在药物信息、蛋白和RNA层面的基因相互作用信息,以及包含单细胞层面的疾病研究的数据集;基于药物信息、基因相互作用信息以及数据集,整理成关系型数据表并存储在数据库内;获取输入的基因和药物列表,在数据库中检索,返回与基因和药物列表匹配的结果集;基于结果集,绘制包括聚类图、表达图谱或小提琴图的关系图形,并输出。本发明具有将单细胞研究数据与其他研究数据进行更好的整合,使得单细胞研究数据的访问更加直接的效果。
Description
技术领域
本发明涉及单细胞数据整合的领域,尤其是涉及一种基于单细胞的数据库可视化方法及相关设备。
背景技术
随着医疗领域的发展,对于疾病的临床研究、分子生物学研究等已经达到了很高的深度。以冠心病为例,冠心病是严重危害我国人民群众生命健康的慢性心血管系统疾病。医学界主流学说认为冠心病的发病由高血压、高血脂、精神紧张等多种因素引起的慢性炎症和血管功能损伤导致,临床表现如冠状动脉粥样硬化、心肌缺血、心绞痛等。也有大量研究认为冠心病与多种基因有关。因此,开展分子机制研究,寻找冠心病致病基因,是设计针对冠心病的药物或发现新适应症的常用手段。现今公共数据库对冠心病的研究文献早已超过一百万篇,包括各类临床前研究、分子生物学研究等,对冠心病的致病基因和疾病关系研究达到前所未有的深度。
但是,现存的与冠心病相关的数据库虽然提供了对基因相互作用的可视化方法,但对基因相互作用的信息的收集仅仅停留在蛋白质层面,对其他生物大分子的相互作用没有记录。近年来,单细胞测序技术的出现掀起了医学领域从个体和器官分辨率到单个细胞分辨率的范式转变,单细胞技术产生的大量单细胞数据是产生新的生物学假设的宝贵资源,而现存的疾病数据库都没有包含最新的单细胞数据,因此这些数据库的可拓展性不强,传统宏观层面积累的知识无法与最新的单细胞数据有效整合。
发明内容
为了将单细胞研究数据与其他研究数据进行更好的整合,使得单细胞研究数据的访问更加直接,本发明提供一种基于单细胞的数据库可视化方法及相关设备。
本发明提供一种基于单细胞的数据库可视化方法,采用如下的技术方案:
一种基于单细胞的数据库可视化方法,包括建立数据库,存储收集的用于疾病治疗的潜在药物信息、蛋白和RNA层面的基因相互作用信息,以及包含单细胞层面的疾病研究的数据集;
基于药物信息、基因相互作用信息以及数据集,整理成关系型数据表并存储在数据库内;
获取输入的基因和药物列表,在数据库中检索,返回与基因和药物列表匹配的结果集;
基于结果集,绘制包括聚类图、表达图谱和/或小提琴图的关系图形,并输出。
在一个具体的可实施方案中,基因相互作用信息的获取方法为:
获取文献数据,基于文献数据进行筛选和确证,获取基因信息和对应的文献信息;
获取基因的相互作用数据,基于相互作用数据建立成对关系表,在数据库的基因范围内进行名称匹配,在数据库中保存同时存在于数据库的基因范围的同对基因;
基因信息包括基因本体信息、基因对应的疾病、基因与疾病的关联方式、实验方法、样本来源,
若是队列研究,则基因信息还包括队列的种族地域信息、证据强度。
在一个具体的可实施方案中,数据集的获取方法为:
获取单细胞测序技术的疾病研究文献数据,从疾病研究文献数据中提取单细胞数据集,对单细胞数据集进行质量控制、细胞过滤、数据标准化、数据降维、聚类、二维嵌入、高变基因筛选;
将处理后的单细胞数据集,以及每个单细胞数据集中的基因的表达量的均值和标准差存储在数据库中。
在一个具体的可实施方案中,单细胞数据集进行数据标准化的方法为:
获取特定基因在特定细胞中的表达量x,
获取特定基因在单细胞数据集中表达量的均值µ,
获取特定基因在单细胞数据集的所有细胞中表达量的分布的标准差σ,
通过公式:
计算得到标准化后的数值z;
单细胞数据集进行数据降维的方法为:
计算z的协方差矩阵,对协方差矩阵进行特征值分解,获得特征值和特征向量,根据特征值的大小,选择前M个与特征值对应的特征向量,将z投影到选取的特征向量上,得到降维后的坐标数据;
其中,10≤M≤200;
单细胞数据集进行聚类的方法为:
基于Leiden算法,将坐标数据对应的单细胞数据集中的细胞,根据特征向量之间的距离进行分类,将特征向量之间距离在预设阈值之内的坐标数据对应的细胞划分为一类,并对分类的细胞设定分类标签;
单细胞数据集进行二维嵌入的方法为:
将协方差矩阵映射到二维向量空间中,获得单细胞数据集中每个细胞对应的z在二维向量空间中的坐标,获得单细胞数据集中的细胞对应的a值和b值;
单细胞数据集进行高变基因筛选的方法为:
计算单细胞数据集中每个基因的表达量的方差,将基因按照方差从大到小排列,去除单细胞数据集中方差第M位之后的基因,得到前M个基因的表达矩阵。
在一个具体的可实施方案中,聚类图的生成方法为:
不同的分类标签采用不同的颜色进行标记,
基于单细胞数据集中每个细胞的a值和b值,绘制二维散点图,
基于回调函数,在二维散点图的数据点生成数据点对应的细胞的标准差最大的J个基因的z的柱状图。
在一个具体的可实施方案中,表达图谱的生成方法为:
基于单细胞数据集中每个细胞的a值和b值,绘制二维散点图,
根据输入的基因,将单细胞数据集中每个细胞对应基因的z进行归一化,
当z<0.5时,将z映射到第一RGB值区间内,使得每一z对应不同的RGB值,二维散点图中的数据点调用RGB值,显示RGB值对应的颜色,
当0.5≤z≤1时,将z映射到第二RGB值区间内,使得每一z对应不同的RGB值,二维散点图中的数据点调用RGB值,显示RGB值对应的颜色。
在一个具体的可实施方案中,小提琴图的生成方法为:
基于均值µ和标准差σ,计算输入的基因标准化之前在对应细胞中的表达量x,
根据公式
计算获得带宽h,
其中,N为单细胞数据集中的细胞数;
根据公式
计算基因的每个细胞对应的高斯核密度估计,
其中,x为基因在对应细胞中的表达量,
xi为基因在第i个细胞中的表达量,
K为高斯函数,即
其中,π为圆周率,e为自然对数的底;
将基因在细胞中的表达量转化为一左一右两个点的纵坐标像素值,根据公式
计算高斯核密度估计的归一化值S,
其中,
f为类目轴上一个基因对应的横坐标宽度像素值,
ρ为细胞的高斯核密度估计,
ρmin为基因的所有细胞中高斯核密度估计的最大值,
ρmax为基因的所有细胞中高斯核密度估计的最小值,
以高变基因筛选出的高变基因的序号构建类目轴,以基因的序号减去高斯核密度的归一化值S为左侧横坐标的像素值,以基因的序号加上高斯核密度的归一化值S为右侧横坐标的像素值,以基因在细胞中的表达量转化为一左一右两个点的纵坐标像素值,构建小提琴图。
本发明还提供一种基于单细胞的数据库可视化装置,采用如下的技术方案:
基于单细胞的数据库可视化装置,包括:
存储器,存储所述数据库;
输入模块,获取输入的所述基因和药物列表;
处理器,获取所述基因和药物列表,执行上述的基于单细胞的数据库可视化方法,生成所述聚类图、所述表达图谱和/或所述小提琴图;
输出模块,输出疾病单细胞数据。
本发明还提供一种电子设备,采用如下的技术方案:
一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的基于单细胞的数据库可视化方法。
本发明还提供一种存储有计算机指令的非瞬时计算机可读存储介质,采用如下的技术方案:
一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述的基于单细胞的数据库可视化方法。
综上所述,本发明包括以下至少一种有益技术效果:
1. 通过用于疾病治疗的潜在药物信息、蛋白和RNA层面的基因相互作用信息,以及包含单细胞层面的疾病研究的数据集数据的整合,首次融入了疾病的相关疾病层面,首次实现了由用户自定义网络探索疾病与其相关疾病的致病基因的一致部分和差异部分,可以更好地研究、区分疾病与其相关疾病的关联。
2.从多个生物维度(包括蛋白、微小RNA、长非编码RNA、药物、疾病表型等)来构建与疾病的联系,相较于现有的只从蛋白维度构建与疾病的联系,能够提供更加系统、立体的认知,为疾病研究者提供更具有启发性的知识呈现方式。
3. 能够根据输入的药物信息和基因作用信息,获取相关的单细胞数据,具有更高的交互性,且单细胞数据的访问更加快捷、直接。相较于现有技术中单细胞数据的可视化多使用本地制作成位图后导入到数据库中的方法,本发明能够对聚类图和基因表达图谱进行放缩,还能对任一数据点的高变基因进行进一步的探究,使用更加便捷。
附图说明
图1是基于单细胞的数据库可视化方法的流程图。
图2是单细胞数据库的聚类图。
图3是单细胞数据库的表达图谱。
图4是单细胞数据库的小提琴图。
具体实施方式
以下结合附图1对本发明作进一步详细说明。
本发明实施例提供的基于单细胞的数据库可视化方法可以应用在服务器上,也可以应用在终端上。其中,该服务器可以是物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN),以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是具有较强计算能力的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile Station,MS)、移动终端(MobileTerminal)等,本发明在此不做限定。
参照图1,为方便说明,以下采用冠心病举例说明,基于单细胞的数据库可视化方法包括如下步骤:
S100,构建包括用于疾病治疗的潜在药物信息、蛋白和RNA层面的基因相互作用信息,以及包含单细胞层面的疾病研究的数据集的数据库。
其中,文献数据通过在Cygwin64虚拟机中使用Entrez Direct接口下载得到。通过人工阅读文献摘要和全文进行确证和筛选,获得基因与对应文献等多维度的基因信息。基因信息包括但不限于基因本体信息、基因对应的疾病、基因与改疾病的关联方式、实验方法、样本来源等,如果是队列研究还包括队列的种族地域信息、证据强度等多项信息。
获得基因信息之后,再根据基因信息从STRING数据库、miRbase数据库、LncACTdb数据库中下载到成对的关系型数据表后,在拟构建的数据库的基因范围内进行名称匹配,当一对数据中的两种基因都存在于拟构建的数据库的基因范围中时,将基因信息和基因相互作用信息保存在拟构建的数据库中,删除其余的基因信息和基因相互作用信息。
药物信息通过在DrugBank数据库中搜索冠心病相关表型得到的,每一种药物在DrugBank数据库中收集其常用名、CAS号、别称、UNII号等多项信息。在确定药物之后,药物与基因的相互作用数据也从DrugBank数据库中收集。将收集到的药物信息以及药物与基因的相互作用信息保存在拟构建的数据库中。
包含单细胞层面的疾病研究的数据集是通过收集2017年之后的所有设计单细胞测序技术的冠心病研究文献,下载由文献作者公开的单细胞数据集,再用Seurat4.0对单细胞数据集进行质量控制、细胞过滤、数据标准化、数据降维、聚类、二维嵌入、高变基因筛选之后,将多个单细胞数据集中的数据汇总得到的。
具体而言,S110获取到单细胞数据集的数据后,对所有数值按照基因类别计算标准差和平均值,用公式:
计算得到标准化后的数值z,来完成对单细胞数据集中数据的标准化。
其中,x为特定基因在特定细胞中的表达量,
µ为特定基因在单细胞数据集中表达量的均值,
σ为特定基因在单细胞数据集的所有细胞中表达量的分布的标准差。
S120,通过主成分分析法,对完成标准化后的数据进行降维,从而增大信噪比、减小后续分析的运算量。且主成分分析法能够最大程度地保留原始数据的信息,提升数据降维后保留的信息量。
S130,通过计算z的协方差矩阵,对协方差矩阵进行特征值分解,获得特征值和特征向量,根据特征值的大小,按照特征值由大到小的顺序,选择前M个与特征值对应的特征向量,将z投影到选取的特征向量上,得到降维后的每个z对应的坐标数据。需要注意的是,M的取值范围为10≤M≤200,本具体实施方式中优选为50。
对单细胞数据集进行高变基因筛选。
计算所有单细胞数据集中每个基因的表达量的方差,将基因按照方差从大到小排列,去除单细胞数据集中方差第M位之后的基因,得到前M个基因的表达矩阵,表达矩阵也为协方差矩阵,并通过对协方差矩阵进行特征值分解,获得特征值和特征向量,最后得到降维后的每个z对应的坐标数据。
S140,对单细胞数据集的数据进行聚类和二维嵌入。
对单细胞数据集进行聚类。
基于Leiden算法,将坐标数据对应的单细胞数据集中的细胞,根据特征向量之间的距离进行分类,将特征向量之间距离在预设阈值之内(包括等于阈值的)的坐标数据对应的细胞划分为一类,并对分类的细胞设定分类标签。
对单细胞数据集进行二维嵌入。
通过t-SNE算法和UMAP算法将协方差矩阵映射到二维向量空间中,获得单细胞数据集中的细胞对应的a值和b值,进而获得单细胞数据集中每个细胞对应的z在二维向量空间中的坐标(a,b)。
需要注意的是,进行聚类和二维嵌入的数据可以为未进行高变基因筛选的数据。另外,为了能够将标准化的数据还原为标准化前的数据,将计算得到的每个单细胞数据集中每个基因的表达量的均值μ和标准差σ存储在数据库中。
通过将上述的数据整理成关系型数据表,并存储在服务器的MySQL管理工具phpMyAdmin中,使得上述的数据能够在网站中被访问,并进行可视化的展现。
S200,获取用户输入的基因和药物列表,在数据库中检索并返回该药物的药物信息、药物与基因的相互作用信息、基因与基因的相互作用信息等,以及该基因对应的疾病的信息,汇总成为结果集,基于结果集生成包括但不限于聚类图、表达图谱和小提琴图的关系图形的一种或多种。用户能够在网页中对这些图表进行访问。
基于用户输入的基因和药物列表,以及操作指令等,从数据库中调用对应的单细胞数据集的数据(单细胞数据集不一定只有一个,可以有多个),根据单细胞数据集中每个细胞的a值和b值,将a值和b值转化为二维坐标系中的坐标(a,b),用Apache ECharts插件绘制成二维散点图,每一个细胞即为二维散点图中的一个数据点。
基于S140中基于Leiden算法对细胞进行的聚类,使得相同分类标签的细胞在二维散点图中采用相同颜色进行标记,不同分类标签的细胞采用不同的颜色进行标记。
同时,使用Apache ECharts的回调函数,使得用户操作光标悬停在二维散点图中的数据点时,从该细胞对应的单细胞数据集中获取标准差最大的J个基因在该细胞的z。其中,2≤J≤50,本具体实施方式中,J=10。采用setTimeout()函数将这10个z绘制成柱状图,便于用户快速了解所选细胞的高变基因的z。
通过上述方法生成的二维散点图为单细胞数据集的聚类图,单细胞数据集中的数据可以为通过高变基因筛选后的前M个数据,以此过滤掉在个体细胞中变异较少的基因,从而减少噪音和误差的影响,提高数据的可靠性和准确性。
参照图2,为输出的单细胞数据库的聚类图,图中的每一个点代表一个细胞,每一个点在图中的位置由ECharts插件根据每个细胞的a值和b值自动生成,由于Leiden算法对细胞进行的标记,聚类后属于同一类的细胞均显示为同一颜色,而不同类的细胞则采用不同颜色进行区分,标记的颜色可以为预先设置的,也可以为用户自选的。另外,不同的分类标签采用从0开始的分群代号进行编号。通过ECharts自带的圈划放大、还原原始比例工具,即图2中右上角图标,能够对聚类图进行局部放大、放大还原等操作。另一方面,根据单细胞数据集中每个细胞的a值和b值绘制成二维散点图后,通过获取用户指定基因的指令,对指定的基因的z进行归一化。需要注意的是,若用户未指定基因,则默认指定调用的单细胞数据集中z标准差最大的基因。
对于完成归一化后的z进行比较,若z<0.5,则将z映射到RGB值(65,3,83)到(33,143,140)的线性范围内。具体而言,将RGB值作为三维空间坐标系中的坐标点,RGB值(65,3,83)到(33,143,140)即为三维空间坐标系中(65,3,83),(33,143,140)两个坐标点之间的连线。当0.5≤z≤1时,则将z映射到RGB值(33,143,140)到(248,231,44)的线性范围内。将z映射到RGB值的线性范围内,即为将z投影到(65,3,83),(33,143,140)两点连线上。不同的z在连线上为不同的投影点,通过将投影点的坐标信息重新转化为RGB值,将RGB值输入二维散点图的数据点中,即数据点的颜色为该数据点对应的细胞的z对应的RGB值代表的颜色。以此生成单细胞数据集的表达图谱,表达图谱中采用的数据同样可以为通过高变基因筛选后的前M个数据。
需要注意的是,上述的RGB值范围为科研绘图常用颜色,仅用于举例说明,实际应用中,可以为任意RGB值范围,本发明在此不做限定。
用户通过观察表达图谱中数据点的颜色变化,直观地了解到指定的基因在单细胞数据集中表达量的集中分布情况。
参照图3,为输出的单细胞数据库的表达图谱,根据用户选择的基因,筛选出带有该基因的细胞,图中的每一个点代表一个细胞,每一个点在图中的位置由ECharts插件根据每个细胞的a值和b值自动生成,每一个点的颜色的RGB值为由前述算法生成的RGB值,对应于该细胞的该基因的表达量。为方便展示,本具体实施方式中采用不同灰度进行基因表达量的表示,颜色越趋于黑色,基因表达量越大,颜色越趋于白色基因表达量越小。图3中右上角图标的功能与图2中右上角图标的功能相同,不再赘述。
小提琴图的生成方法为:
基于用户输入的基因和药物列表,以及操作指令等,从数据库中调用对应的单细胞数据集的数据(单细胞数据集不一定只有一个,可以有多个),单细胞数据集的数据为前M个经过高变基因筛选的数据。获取单细胞数据集中所有基因的均值µ和标准差σ,通过公式:
计算标准化之前细胞中基因的表达量x。
以高变基因构建小提琴图的类目轴,具体为将高变基因的编号作为小提琴图坐标轴的刻度值。
通过带宽计算公式:
计算获得带宽h,
其中,N为单细胞数据集中的细胞数。
再结合高斯函数K,即
其中,π为圆周率,e为自然对数的底。
通过核密度估计公式:
计算得到输入基因对应的每个细胞对应的高斯核密度估计ρ。
其中,xi为单细胞数据集中输入基因在第i个细胞中的表达量。
使用renderItem的api.coord方法将基因在细胞中的表达量转化为小提琴图左右两个点的纵坐标像素值,将基因的序号与高斯核密度的归一化值的差,作为小提琴图左侧坐标的横坐标像素值,将基因的序号与高斯核密度的归一化值的和,作为小提琴图左侧坐标的横坐标像素值,将前述的坐标的刻度值、像素值按照基因为单位传回给renderItem函数,生成小提琴图。
其中,高斯核密度的归一化值通过公式:
计算得到。
其中,f为类目轴上一个基因对应的横坐标宽度像素值,
ρ为细胞的高斯核密度估计,
ρmin为输入基因对应的每个细胞对应的高斯核密度估计的最大值,
ρmax为输入基因对应的每个细胞对应的高斯核密度估计的最小值。
参照图4,为输出的单细胞数据库的小提琴图,根据用户所选择的单细胞数据集来生成,图中的每一个列代表该单细胞数据集的一个高变基,图中展示前50个。纵坐标为该基因的z值。该图可以表示数据的集中程度,即每个高变基因在各个z值的细胞数量的分布,每一列中黑色区域的横向宽度越大,代表该基因在该z值附近的细胞数量越多,反之,每一列中黑色区域的横向宽度越小,代表该基因在该z值附近的细胞数量越少。
本发明具体实施方式还公开一种基于单细胞的数据库可视化装置,包括:
存储器,存储数据库;
输入模块,具体可以为键盘、鼠标等,获取输入的基因和药物列表;
处理器,获取基因和药物列表,执行上述的基于单细胞的数据库可视化方法,生成聚类图、表达图谱和/或小提琴图;
输出模块,具体可以为显示器,输出疾病单细胞数据。
本发明具体实施方式还公开一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的基于单细胞的数据库可视化方法。
本发明具体实施方式还公开一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述的基于单细胞的数据库可视化方法。
以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
Claims (7)
1.一种基于单细胞的数据库可视化方法,其特征在于:包括建立数据库,存储收集的用于疾病治疗的潜在药物信息、蛋白和RNA层面的基因相互作用信息,以及包含单细胞层面的疾病研究的数据集;
基于药物信息、基因相互作用信息以及数据集,整理成关系型数据表并存储在数据库内;
获取输入的基因和药物列表,在数据库中检索,返回与基因和药物列表匹配的结果集;
基于结果集,绘制包括聚类图、表达图谱和/或小提琴图的关系图形,并输出;
基因相互作用信息的获取方法为:
获取文献数据,基于文献数据进行筛选和确证,获取基因信息和对应的文献信息;
获取基因的相互作用数据,基于相互作用数据建立成对关系表,在数据库的基因范围内进行名称匹配,在数据库中保存同时存在于数据库的基因范围的同对基因;
基因信息包括基因本体信息、基因对应的疾病、基因与疾病的关联方式、实验方法、样本来源,
若是队列研究,则基因信息还包括队列的种族地域信息、证据强度;
数据集的获取方法为:
获取单细胞测序技术的疾病研究文献数据,从疾病研究文献数据中提取单细胞数据集,对单细胞数据集进行质量控制、细胞过滤、数据标准化、数据降维、聚类、二维嵌入、高变基因筛选;
将处理后的单细胞数据集,以及每个单细胞数据集中的基因的表达量的均值和标准差存储在数据库中;
单细胞数据集进行数据标准化的方法为:
获取特定基因在特定细胞中的表达量x,
获取特定基因在单细胞数据集中表达量的均值µ,
获取特定基因在单细胞数据集的所有细胞中表达量的分布的标准差σ,
通过公式:
计算得到标准化后的数值z;
单细胞数据集进行数据降维的方法为:
计算z的协方差矩阵,对协方差矩阵进行特征值分解,获得特征值和特征向量,根据特征值的大小,选择前M个与特征值对应的特征向量,将z投影到选取的特征向量上,得到降维后的坐标数据;
其中,10≤M≤200;
单细胞数据集进行聚类的方法为:
基于Leiden算法,将坐标数据对应的单细胞数据集中的细胞,根据特征向量之间的距离进行分类,将特征向量之间距离在预设阈值之内的坐标数据对应的细胞划分为一类,并对分类的细胞设定分类标签;
单细胞数据集进行二维嵌入的方法为:
将协方差矩阵映射到二维向量空间中,获得单细胞数据集中每个细胞对应的z在二维向量空间中的坐标,获得单细胞数据集中的细胞对应的a值和b值;
单细胞数据集进行高变基因筛选的方法为:
计算单细胞数据集中每个基因的表达量的方差,将基因按照方差从大到小排列,去除单细胞数据集中方差第M位之后的基因,得到前M个基因的表达矩阵。
2.根据权利要求1所述的基于单细胞的数据库可视化方法,其特征在于:聚类图的生成方法为:
不同的分类标签采用不同的颜色进行标记,
基于单细胞数据集中每个细胞的a值和b值,绘制二维散点图,
基于回调函数,在二维散点图的数据点生成数据点对应的细胞的标准差最大的J个基因的z的柱状图。
3.根据权利要求1所述的基于单细胞的数据库可视化方法,其特征在于:表达图谱的生成方法为:
基于单细胞数据集中每个细胞的a值和b值,绘制二维散点图,
根据输入的基因,将单细胞数据集中每个细胞对应基因的z进行归一化,
当z<0.5时,将z映射到第一RGB值区间内,使得每一z对应不同的RGB值,二维散点图中的数据点调用RGB值,显示RGB值对应的颜色,
当0.5≤z≤1时,将z映射到第二RGB值区间内,使得每一z对应不同的RGB值,二维散点图中的数据点调用RGB值,显示RGB值对应的颜色。
4.根据权利要求1所述的基于单细胞的数据库可视化方法,其特征在于:小提琴图的生成方法为:
基于均值µ和标准差σ,计算输入的基因标准化之前在对应细胞中的表达量x,
根据公式
计算获得带宽h,
其中,N为单细胞数据集中的细胞数;
根据公式
计算基因的每个细胞对应的高斯核密度估计,
其中,x为基因在对应细胞中的表达量,
xi为基因在第i个细胞中的表达量,
K为高斯函数,即
其中,π为圆周率,e为自然对数的底;
将基因在细胞中的表达量转化为一左一右两个点的纵坐标像素值,根据公式
计算高斯核密度估计的归一化值S,
其中,
f为类目轴上一个基因对应的横坐标宽度像素值,
ρ为细胞的高斯核密度估计,
ρmin为基因的所有细胞中高斯核密度估计的最大值,
ρmax为基因的所有细胞中高斯核密度估计的最小值,
以高变基因筛选出的高变基因的序号构建类目轴,以基因的序号减去高斯核密度的归一化值S为左侧横坐标的像素值,以基因的序号加上高斯核密度的归一化值S为右侧横坐标的像素值,以基因在细胞中的表达量转化为一左一右两个点的纵坐标像素值,构建小提琴图。
5.基于单细胞的数据库可视化装置,其特征在于:包括:
存储器,存储所述数据库;
输入模块,获取输入的所述基因和药物列表;
处理器,获取所述基因和药物列表,执行权利要求1-4中任一项所述的基于单细胞的数据库可视化方法,生成所述聚类图、所述表达图谱和/或所述小提琴图;
输出模块,输出疾病单细胞数据。
6.一种电子设备,其特征在于:包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行权利要求1-4中任一所述的基于单细胞的数据库可视化方法。
7.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于:计算机指令用于使计算机执行权利要求1-4中任一项所述的基于单细胞的数据库可视化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311332719.0A CN117079726B (zh) | 2023-10-16 | 2023-10-16 | 基于单细胞的数据库可视化方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311332719.0A CN117079726B (zh) | 2023-10-16 | 2023-10-16 | 基于单细胞的数据库可视化方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117079726A CN117079726A (zh) | 2023-11-17 |
CN117079726B true CN117079726B (zh) | 2024-01-30 |
Family
ID=88715635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311332719.0A Active CN117079726B (zh) | 2023-10-16 | 2023-10-16 | 基于单细胞的数据库可视化方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079726B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989297A (zh) * | 2009-07-30 | 2011-03-23 | 陈越 | 用于计算机上的疾病基因相关药物发掘系统 |
CN107066835A (zh) * | 2017-01-19 | 2017-08-18 | 东南大学 | 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用 |
CN109033756A (zh) * | 2018-06-29 | 2018-12-18 | 迈凯基因科技有限公司 | 一种非小细胞肺癌基因变异及药物解读多数据库交互系统 |
CN110570903A (zh) * | 2019-08-12 | 2019-12-13 | 中山大学孙逸仙纪念医院 | 一种改善中脑黑质多巴胺神经元活力防治帕金森病的药物 |
CN111057748A (zh) * | 2019-12-31 | 2020-04-24 | 苏州安泰赫生物科技有限公司 | 一种检测t细胞活性的方法 |
CN111627502A (zh) * | 2020-05-22 | 2020-09-04 | 中山大学 | 一种单细胞数据可视化的方法、系统、装置及存储介质 |
CN112133370A (zh) * | 2020-08-20 | 2020-12-25 | 中南大学湘雅医院 | 细胞分类方法、装置、计算机设备和存储介质 |
CN112599199A (zh) * | 2020-12-29 | 2021-04-02 | 上海派森诺生物科技股份有限公司 | 一种适用于10x单细胞转录组测序数据的分析方法 |
CN113838528A (zh) * | 2021-09-02 | 2021-12-24 | 浙江大学 | 基于单细胞免疫组库数据的单细胞水平耦合可视化方法 |
CN114822686A (zh) * | 2021-01-27 | 2022-07-29 | 上海大学 | 基于信息熵筛选单细胞数据敏感性基因的方法 |
CN114944193A (zh) * | 2022-05-20 | 2022-08-26 | 南开大学 | 整合单细胞转录组与空间转录组数据的分析方法及系统 |
CN115346637A (zh) * | 2022-08-02 | 2022-11-15 | 中国人民解放军空军军医大学 | 一种肿瘤靶向药物推荐方法及系统 |
CN116486920A (zh) * | 2023-02-08 | 2023-07-25 | 重庆大学 | 一种基于迭代em聚类的单细胞转录组疾病特异性细胞分析方法 |
CN116705193A (zh) * | 2023-05-29 | 2023-09-05 | 长沙金域医学检验实验室有限公司 | 一种重定位候选药物的筛选方法及其应用 |
-
2023
- 2023-10-16 CN CN202311332719.0A patent/CN117079726B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989297A (zh) * | 2009-07-30 | 2011-03-23 | 陈越 | 用于计算机上的疾病基因相关药物发掘系统 |
CN107066835A (zh) * | 2017-01-19 | 2017-08-18 | 东南大学 | 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用 |
CN109033756A (zh) * | 2018-06-29 | 2018-12-18 | 迈凯基因科技有限公司 | 一种非小细胞肺癌基因变异及药物解读多数据库交互系统 |
CN110570903A (zh) * | 2019-08-12 | 2019-12-13 | 中山大学孙逸仙纪念医院 | 一种改善中脑黑质多巴胺神经元活力防治帕金森病的药物 |
CN111057748A (zh) * | 2019-12-31 | 2020-04-24 | 苏州安泰赫生物科技有限公司 | 一种检测t细胞活性的方法 |
CN111627502A (zh) * | 2020-05-22 | 2020-09-04 | 中山大学 | 一种单细胞数据可视化的方法、系统、装置及存储介质 |
CN112133370A (zh) * | 2020-08-20 | 2020-12-25 | 中南大学湘雅医院 | 细胞分类方法、装置、计算机设备和存储介质 |
CN112599199A (zh) * | 2020-12-29 | 2021-04-02 | 上海派森诺生物科技股份有限公司 | 一种适用于10x单细胞转录组测序数据的分析方法 |
CN114822686A (zh) * | 2021-01-27 | 2022-07-29 | 上海大学 | 基于信息熵筛选单细胞数据敏感性基因的方法 |
CN113838528A (zh) * | 2021-09-02 | 2021-12-24 | 浙江大学 | 基于单细胞免疫组库数据的单细胞水平耦合可视化方法 |
CN114944193A (zh) * | 2022-05-20 | 2022-08-26 | 南开大学 | 整合单细胞转录组与空间转录组数据的分析方法及系统 |
CN115346637A (zh) * | 2022-08-02 | 2022-11-15 | 中国人民解放军空军军医大学 | 一种肿瘤靶向药物推荐方法及系统 |
CN116486920A (zh) * | 2023-02-08 | 2023-07-25 | 重庆大学 | 一种基于迭代em聚类的单细胞转录组疾病特异性细胞分析方法 |
CN116705193A (zh) * | 2023-05-29 | 2023-09-05 | 长沙金域医学检验实验室有限公司 | 一种重定位候选药物的筛选方法及其应用 |
Non-Patent Citations (3)
Title |
---|
Xue-juan Li 等.CancerSCEM: a database of single-cell expression map across various human cancers.《2013 IEEE International Conference on Bioinformatics and Biomedicine》.2022,第50卷(第D1期),D1147–D1155. * |
郑光敏 等.单细胞测序数据的智能解析与数据库.《发育医学电子杂志》.2020,第8卷(第1期),8-14. * |
郑淮予.单细胞相关技术趋势分析算法研究.《中国优秀硕士学位论文全文数据库 基础科学辑》.2022,第2022年卷(第1期),A006-395. * |
Also Published As
Publication number | Publication date |
---|---|
CN117079726A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230102326A1 (en) | Discovering population structure from patterns of identity-by-descent | |
Maguire et al. | Taxonomy-based glyph design—with a case study on visualizing workflows of biological experiments | |
Fisher et al. | Modelling the errors in areal interpolation between zonal systems by Monte Carlo simulation | |
EP3716099A1 (en) | Document classification device | |
CN107391963A (zh) | 基于计算云平台的真核无参转录组交互分析系统及其方法 | |
Bartsch et al. | A web-portal for interactive data exploration, visualization, and hypothesis testing | |
JP4997892B2 (ja) | 検索システム、検索方法及び検索プログラム | |
CN110909222A (zh) | 基于聚类的用户画像建立方法、装置、介质及电子设备 | |
Heyer et al. | MAGIC Tool: integrated microarray data analysis | |
US20230056839A1 (en) | Cancer prognosis | |
Komura et al. | Luigi: Large-scale histopathological image retrieval system using deep texture representations | |
Cario et al. | Orchid: a novel management, annotation and machine learning framework for analyzing cancer mutations | |
CN112699230A (zh) | 一种恶性肿瘤诊疗知识获取方法及装置 | |
Huang et al. | Bm-net: Cnn-based mobilenet-v3 and bilinear structure for breast cancer detection in whole slide images | |
CN115579065A (zh) | 数据的聚类处理方法、装置、电子设备和存储介质 | |
JP2018014058A (ja) | 医療情報処理システム、医療情報処理装置及び医療情報処理方法 | |
Tabatabaei et al. | Towards More Transparent and Accurate Cancer Diagnosis with an Unsupervised CAE Approach | |
CN117079726B (zh) | 基于单细胞的数据库可视化方法及相关设备 | |
Meehan et al. | Automated subset identification and characterization pipeline for multidimensional flow and mass cytometry data clustering and visualization | |
Bussola et al. | Quantification of the immune content in neuroblastoma: Deep learning and topological data analysis in digital pathology | |
US20230296398A1 (en) | Transforming and navigating historical map images | |
Dittimi et al. | Mobile phone based ensemble classification of deep learned feature for medical image analysis | |
CN116825269A (zh) | 体检报告的处理方法、装置、电子设备和可读存储介质 | |
Li et al. | Contrast enhancement for cDNA microarray image based on fourth-order moment | |
Bidaut et al. | ClutrFree: cluster tree visualization and interpretation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |