CN114136868A - 一种基于密度和非参数聚类的流式细胞术全自动分群方法 - Google Patents
一种基于密度和非参数聚类的流式细胞术全自动分群方法 Download PDFInfo
- Publication number
- CN114136868A CN114136868A CN202111468598.3A CN202111468598A CN114136868A CN 114136868 A CN114136868 A CN 114136868A CN 202111468598 A CN202111468598 A CN 202111468598A CN 114136868 A CN114136868 A CN 114136868A
- Authority
- CN
- China
- Prior art keywords
- clustering
- spilliover
- density
- matrix
- automatic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000684 flow cytometry Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 239000007788 liquid Substances 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 4
- 238000009412 basement excavation Methods 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 210000004027 cell Anatomy 0.000 description 26
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 210000003651 basophil Anatomy 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003979 eosinophil Anatomy 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 201000002364 leukopenia Diseases 0.000 description 1
- 231100001022 leukopenia Toxicity 0.000 description 1
- 230000031864 metaphase Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000005087 mononuclear cell Anatomy 0.000 description 1
- 210000003643 myeloid progenitor cell Anatomy 0.000 description 1
- 210000000822 natural killer cell Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 210000004180 plasmocyte Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Optical investigation techniques, e.g. flow cytometry
- G01N15/1429—Signal processing
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Dispersion Chemistry (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于密度和非参数聚类的流式细胞术全自动分群方法,属于医学数据处理和流式细胞术数据分析的技术领域,兼顾了不同算法特点和流式细胞术数据分析流程,全程不需要用户指定细胞群数量,有利于自动化过程和新型细胞群体的发现和挖掘;降维速度快,UMAP降维速度比t‑SNE降维快2‑10倍,大大节约自动分群时间;DBSCAN结合FlowPeaks算法,可对任何形状的细胞群体进行准确区分,且可有效排除噪音干扰和非特异信号。
Description
技术领域
本发明涉及医学数据处理和流式细胞术数据分析的技术领域,具体涉及一种基于密度和非参数聚类的流式细胞术全自动分群方法。
背景技术
现有的细胞分群方法基于主成分分析(PCA)降维和K-means聚类。在该算法中,PCA降维速度快,适合阳性群和阴性群分群十分清晰的情况,一旦阳性和阴性没有充分分开时,降维后的群体会发生重叠,导致聚类困难;K-means聚类精度差,仅适合准确聚类区分降维后呈类圆形分布的细胞群体,而在降维后不规则分布的细胞群体,聚类能力极差,而且K-means算法需要事先指定细胞群数量,这对自动分群是一个障碍,会引入人为分群误差,不利于自动化过程和新型细胞群体的发现和挖掘。还有的方法未涉及降维算法,直接采用神经网络模型在多维空间进行分群和细胞性质判断,在准确度和性能上,会有较大损失。
发明内容
针对现有技术的不足,本发明提供了一种基于密度和非参数聚类的流式细胞术全自动分群方法,解决了上述背景技术中提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于密度和非参数聚类的流式细胞术全自动分群方法,包括以下步骤:
(1)读取流式细胞仪产生的原始数据FCS或LMD文件,读取后,将原始数据FCS或LMD文件保存为一个内存中的变量curData;
(2)对变量curData进行预处理;
(3)对于预处理后的变量curData,自动应用SpillOver矩阵,优先级依次为FCS/LMD文件自带的SpillOver矩阵、既往保存过的通用SpillOver矩阵;
(4)若步骤(3)中不存在FCS/LMD文件自带的SpillOver矩阵和既往保存过的通用SpillOver矩阵,则自动跳出调节SpillOver矩阵的窗口,给用户可视化调节SpillOver矩阵,应用于变量curData,同时保存为通用SpillOver矩阵;
(5)对应用SpillOver矩阵之后的变量curData,进行自动Logicle转换;
(6)对变量curData进行自动降维;
(7)对降维后的数据按照细胞群体密度分布进行自动聚类;
(8)对降维后密度分布差异不大且部分连接在一起的细胞群体,继续使用非参数聚类和基于分段回归的变化点检测进一步细分;
(9)对无法细分的细胞群体进行人工干预;
(10)根据聚类结果,将流式数据以两两组合的散点图呈现给用户,且标注细胞比例和数量。
作为优选,所述步骤(2)中预处理的步骤包括:
(2.1)去除Time坐标轴上液流不稳定的信号;
(2.2)如果数据中存在FSC的A、H或W通道信号,则进行FSC信号的粘连体排除处理;
(2.3)如果数据中存在SSC的A、H或W通道信号,则进一步去除SSC信号的粘连体。
作为优选,所述步骤(6)中的降维算法采用UMAP(Uniform ManifoldApproximation and Projection for Dimension Reduction)。
作为优选,所述步骤(7)中的自动聚类算法采用DBSCAN(Density-based spatialclustering of applications with noise)或OPTICS(Ordering points to identifythe clustering structure)或HDBSCAN(Hierarchical Density-Based SpatialClustering of Applications with Noise)。
作为优选,所述步骤(8)中的细分算法采用密度类算法或树状聚类算法,具体包括FlowMeans、K-means、K-means++、SOM(Self-organizing map)、Affinity propagation、Hierarchical clustering、BIRCH、Spectral clustering、Expectation–maximizationalgorithm。
本发明提供了一种基于密度和非参数聚类的流式细胞术全自动分群方法,具备以下有益效果:
1、兼顾了不同算法特点和流式细胞术数据分析流程,全程不需要用户指定细胞群数量,有利于自动化过程和新型细胞群体的发现和挖掘;
2、降维速度快,UMAP降维速度比t-SNE降维快2-10倍,大大节约自动分群时间;
3、DBSCAN结合FlowPeaks算法,可对任何形状的细胞群体进行准确区分,且可有效排除噪音干扰和非特异信号;
4、对稀有细胞的分析能力好,可实现最少5个细胞的自动聚类;
5、最后呈现的结果,根据临床实际分析习惯以两两组合散点图呈现,在当前临床常用的10色流式中进行了广泛测试,兼容2色-50色甚至更高维度的流式数据。
附图说明
图1为本发明的流程步骤图;
图2为本发明实施例1的细胞聚类图;
图3为本发明实施例1中非特异信号3的散点图;
图4为本发明实施例1中非特异信号10的散点图;
图5为本发明实施例1中中性粒细胞1的散点图;
图6为本发明实施例1中T细胞2的散点图;
图7为本发明实施例1中髓系祖细胞4的散点图;
图8为本发明实施例1中单核细胞5的散点图;
图9为本发明实施例1中B细胞6的散点图;
图10为本发明实施例1中嗜酸粒细胞7的散点图;
图11为本发明实施例1中NK细胞8的散点图;
图12为本发明实施例1中嗜碱粒细胞9的散点图;
图13为本发明实施例1中浆细胞11的散点图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
一例白细胞减少患者的骨髓样本,10色方案,根据本发明图1所示方法,获取流式FCS或LMD文件,读取数据,将各荧光通道数据结合FCS(前向散射光)、SSC(侧向散射光)整理成表格数据,每一行代表一个细胞,每一列代表该细胞对应通道的荧光信号或物理参数值,TIME列代表该细胞被获取的时间点,利用UMAP算法快速降维;实测5万个12维的流式数据,UMAP降维平均耗时35.45秒,t-SNE降维平均耗时173.98秒。
根据降维后细胞群体密度分布,采用DBSCAN算法进行聚类,聚类图如图2所示;该图中1-中性粒细胞,2-T细胞,3-非特异信号,4-髓系祖细胞,5-单核细胞,6-B细胞(中期和末期为主),7-嗜酸粒细胞,8-NK细胞,9-嗜碱粒细胞,10-非特异信号,11-浆细胞,12、13、14、15为干扰信号。
将聚类结果以实际操作常用的散点图呈现,非特异信号3如图3所示,非特异信号10如图4所示,分出比例不同的各类细胞,如图5-13所示。
由于单一基于密度算法的聚类并不完善,对于降维后密度分布差异不大,且部分连接在一起的细胞群体无法区分开来,因此继续使用费参数聚类和基于分段回归的变化点检测,对这些密度算法无法分开的群体采用FlowMeans算法进一步细分。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于,包括以下步骤:
(1)读取流式细胞仪产生的原始数据FCS或LMD文件,读取后,将原始数据FCS或LMD文件保存为一个内存中的变量;
(2)对变量curData进行预处理;
(3)对于预处理后的变量curData,自动应用SpillOver矩阵,优先级依次为FCS/LMD文件自带的SpillOver矩阵、既往保存过的通用SpillOver矩阵;
(4)若步骤(3)中不存在FCS/LMD文件自带的SpillOver矩阵和既往保存过的通用SpillOver矩阵,则自动跳出调节SpillOver矩阵的窗口,给用户可视化调节SpillOver矩阵,应用于变量curData,同时保存为通用SpillOver矩阵;
(5)对应用SpillOver矩阵之后的变量curData,进行自动Logicle转换;
(6)对变量curData进行自动降维;
(7)对降维后的数据按照细胞群体密度分布进行自动聚类;
(8)对降维后密度分布差异不大且部分连接在一起的细胞群体,继续使用非参数聚类和基于分段回归的变化点检测进一步细分;
(9)对无法细分的细胞群体进行人工干预;
(10)根据聚类结果,将流式数据以两两组合的散点图呈现给用户,且标注细胞比例和数量。
2.根据权利要求1所述的一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于,所述步骤(2)中预处理的步骤包括:
(2.1)去除Time坐标轴上液流不稳定的信号;
(2.2)如果数据中存在FSC的A、H或W通道信号,则进行FSC信号的粘连体排除处理;
(2.3)如果数据中存在SSC的A、H或W通道信号,则进一步去除SSC信号的粘连体。
3.根据权利要求1所述的一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于:所述步骤(6)中的降维算法采用UMAP。
4.根据权利要求1所述的一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于:所述步骤(7)中的自动聚类算法采用DBSCAN。
5.根据权利要求1所述的一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于:所述步骤(8)中的细分算法根据数据分布不同采用密度类算法或树状聚类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111468598.3A CN114136868B (zh) | 2021-12-03 | 2021-12-03 | 一种基于密度和非参数聚类的流式细胞术全自动分群方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111468598.3A CN114136868B (zh) | 2021-12-03 | 2021-12-03 | 一种基于密度和非参数聚类的流式细胞术全自动分群方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114136868A true CN114136868A (zh) | 2022-03-04 |
CN114136868B CN114136868B (zh) | 2022-07-15 |
Family
ID=80388059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111468598.3A Active CN114136868B (zh) | 2021-12-03 | 2021-12-03 | 一种基于密度和非参数聚类的流式细胞术全自动分群方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114136868B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4661913A (en) * | 1984-09-11 | 1987-04-28 | Becton, Dickinson And Company | Apparatus and method for the detection and classification of articles using flow cytometry techniques |
CN105424560A (zh) * | 2015-11-24 | 2016-03-23 | 苏州创继生物科技有限公司 | 流式颗粒仪数据自动化定量分析方法 |
CN106548205A (zh) * | 2016-10-21 | 2017-03-29 | 北京信息科技大学 | 一种流式细胞数据快速自动分群及圈门方法 |
CN106548204A (zh) * | 2016-11-01 | 2017-03-29 | 北京信息科技大学 | 流式细胞仪数据快速自动分群方法 |
CN106548203A (zh) * | 2016-10-21 | 2017-03-29 | 北京信息科技大学 | 一种多参数流式细胞数据快速自动分群和设门方法 |
CN107389536A (zh) * | 2017-07-31 | 2017-11-24 | 上海纳衍生物科技有限公司 | 基于密度‑距离中心算法的流式细胞粒子分类计数方法 |
CN108520249A (zh) * | 2018-04-19 | 2018-09-11 | 赵乐 | 一种细胞分类器的构建方法、装置及系统 |
CN110412287A (zh) * | 2019-07-11 | 2019-11-05 | 上海宸安生物科技有限公司 | 一种基于单细胞的免疫细胞分型定量分析方法 |
US20200208114A1 (en) * | 2018-12-10 | 2020-07-02 | The Broad Institute, Inc. | Taxonomy and use of bone marrow stromal cell |
WO2021041994A2 (en) * | 2019-08-30 | 2021-03-04 | Juno Therapeutics, Inc. | Machine learning methods for classifying cells |
CN113188981A (zh) * | 2021-04-30 | 2021-07-30 | 天津深析智能科技发展有限公司 | 一种多因子细胞因子自动分析方法 |
CN113380318A (zh) * | 2021-06-07 | 2021-09-10 | 天津金域医学检验实验室有限公司 | 人工智能辅助流式细胞术40cd免疫表型检测方法及系统 |
-
2021
- 2021-12-03 CN CN202111468598.3A patent/CN114136868B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4661913A (en) * | 1984-09-11 | 1987-04-28 | Becton, Dickinson And Company | Apparatus and method for the detection and classification of articles using flow cytometry techniques |
CN105424560A (zh) * | 2015-11-24 | 2016-03-23 | 苏州创继生物科技有限公司 | 流式颗粒仪数据自动化定量分析方法 |
CN106548205A (zh) * | 2016-10-21 | 2017-03-29 | 北京信息科技大学 | 一种流式细胞数据快速自动分群及圈门方法 |
CN106548203A (zh) * | 2016-10-21 | 2017-03-29 | 北京信息科技大学 | 一种多参数流式细胞数据快速自动分群和设门方法 |
CN106548204A (zh) * | 2016-11-01 | 2017-03-29 | 北京信息科技大学 | 流式细胞仪数据快速自动分群方法 |
CN107389536A (zh) * | 2017-07-31 | 2017-11-24 | 上海纳衍生物科技有限公司 | 基于密度‑距离中心算法的流式细胞粒子分类计数方法 |
CN108520249A (zh) * | 2018-04-19 | 2018-09-11 | 赵乐 | 一种细胞分类器的构建方法、装置及系统 |
US20200208114A1 (en) * | 2018-12-10 | 2020-07-02 | The Broad Institute, Inc. | Taxonomy and use of bone marrow stromal cell |
CN110412287A (zh) * | 2019-07-11 | 2019-11-05 | 上海宸安生物科技有限公司 | 一种基于单细胞的免疫细胞分型定量分析方法 |
WO2021041994A2 (en) * | 2019-08-30 | 2021-03-04 | Juno Therapeutics, Inc. | Machine learning methods for classifying cells |
CN113188981A (zh) * | 2021-04-30 | 2021-07-30 | 天津深析智能科技发展有限公司 | 一种多因子细胞因子自动分析方法 |
CN113380318A (zh) * | 2021-06-07 | 2021-09-10 | 天津金域医学检验实验室有限公司 | 人工智能辅助流式细胞术40cd免疫表型检测方法及系统 |
Non-Patent Citations (4)
Title |
---|
ALBINA RAHIM ET AL.: ""High throughput automated analysis of big flow cytometry data"", 《METHODS》 * |
C.E. PEDREIRA ET AL.: ""Journal of Immunological Methods EuroFlow approach"", 《JOURNAL OF IMMUNOLOGICAL METHODS》 * |
梁昊岳 等: ""基于FlowJo 软件生物信息学降维方法的小鼠骨髓造血干祖细胞流式分析"", 《医疗卫生装备》 * |
马闪闪等: "基于核主成分分析的流式细胞数据分群方法研究", 《生物医学工程学杂志》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114136868B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106248559B (zh) | 一种基于深度学习的白细胞五分类方法 | |
US7697764B2 (en) | Similar pattern searching apparatus, method of similar pattern searching, program for similar pattern searching, and fractionation apparatus | |
CN109471847B (zh) | 一种i/o拥塞控制方法及控制系统 | |
CN107389536B (zh) | 基于密度-距离中心算法的流式细胞粒子分类计数方法 | |
CN111259933B (zh) | 基于分布式并行决策树的高维特征数据分类方法及系统 | |
US10133962B2 (en) | Method of digital information classification | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN108280236A (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN112599199A (zh) | 一种适用于10x单细胞转录组测序数据的分析方法 | |
CN1783092A (zh) | 数据分析装置和数据分析方法 | |
CN111832389A (zh) | 一种骨髓细胞形态学自动检测系统的计数及分析方法 | |
CN114136868B (zh) | 一种基于密度和非参数聚类的流式细胞术全自动分群方法 | |
CN116720090A (zh) | 一种基于层次的自适应聚类方法 | |
CN113188982B (zh) | 淋巴细胞亚群自动分析中有效去除单核细胞干扰的方法 | |
CN114020593B (zh) | 一种基于轨迹聚类的异质流程日志采样方法与系统 | |
CN112257778B (zh) | 一种基于用户用电行为的两阶段精细化聚类方法 | |
JP2023546645A (ja) | シングルセルゲノミクスデータセットからの細胞のサブサンプリング方法及びシステム | |
CN113218848A (zh) | 一种判断非特异细胞群的方法 | |
Shi et al. | High throughput neuromorphic brain interface with CuO x resistive crossbars for real-time spike sorting | |
CN108776707B (zh) | 针对探索性查询的抽样方法 | |
CN116363416A (zh) | 一种图像去重方法、装置、电子设备和存储介质 | |
CN115862746A (zh) | 一种精准的单细胞多组学匹配数据生成方法 | |
CN114328506A (zh) | 一种智能船舶自动控制系统 | |
CN108062563A (zh) | 一种基于类别均衡的代表样本发现方法 | |
CN109002833B (zh) | 一种微液滴数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |