CN114136868A - 一种基于密度和非参数聚类的流式细胞术全自动分群方法 - Google Patents

一种基于密度和非参数聚类的流式细胞术全自动分群方法 Download PDF

Info

Publication number
CN114136868A
CN114136868A CN202111468598.3A CN202111468598A CN114136868A CN 114136868 A CN114136868 A CN 114136868A CN 202111468598 A CN202111468598 A CN 202111468598A CN 114136868 A CN114136868 A CN 114136868A
Authority
CN
China
Prior art keywords
clustering
spilliover
density
matrix
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111468598.3A
Other languages
English (en)
Other versions
CN114136868B (zh
Inventor
倪万茂
林鹏程
迟妍妍
倪万根
陈乐芝
陈鹏贵
陈慧
项艺超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Bozhen Biotechnology Co ltd
Original Assignee
Zhejiang Bozhen Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Bozhen Biotechnology Co ltd filed Critical Zhejiang Bozhen Biotechnology Co ltd
Priority to CN202111468598.3A priority Critical patent/CN114136868B/zh
Publication of CN114136868A publication Critical patent/CN114136868A/zh
Application granted granted Critical
Publication of CN114136868B publication Critical patent/CN114136868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1429Signal processing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Dispersion Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于密度和非参数聚类的流式细胞术全自动分群方法,属于医学数据处理和流式细胞术数据分析的技术领域,兼顾了不同算法特点和流式细胞术数据分析流程,全程不需要用户指定细胞群数量,有利于自动化过程和新型细胞群体的发现和挖掘;降维速度快,UMAP降维速度比t‑SNE降维快2‑10倍,大大节约自动分群时间;DBSCAN结合FlowPeaks算法,可对任何形状的细胞群体进行准确区分,且可有效排除噪音干扰和非特异信号。

Description

一种基于密度和非参数聚类的流式细胞术全自动分群方法
技术领域
本发明涉及医学数据处理和流式细胞术数据分析的技术领域,具体涉及一种基于密度和非参数聚类的流式细胞术全自动分群方法。
背景技术
现有的细胞分群方法基于主成分分析(PCA)降维和K-means聚类。在该算法中,PCA降维速度快,适合阳性群和阴性群分群十分清晰的情况,一旦阳性和阴性没有充分分开时,降维后的群体会发生重叠,导致聚类困难;K-means聚类精度差,仅适合准确聚类区分降维后呈类圆形分布的细胞群体,而在降维后不规则分布的细胞群体,聚类能力极差,而且K-means算法需要事先指定细胞群数量,这对自动分群是一个障碍,会引入人为分群误差,不利于自动化过程和新型细胞群体的发现和挖掘。还有的方法未涉及降维算法,直接采用神经网络模型在多维空间进行分群和细胞性质判断,在准确度和性能上,会有较大损失。
发明内容
针对现有技术的不足,本发明提供了一种基于密度和非参数聚类的流式细胞术全自动分群方法,解决了上述背景技术中提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于密度和非参数聚类的流式细胞术全自动分群方法,包括以下步骤:
(1)读取流式细胞仪产生的原始数据FCS或LMD文件,读取后,将原始数据FCS或LMD文件保存为一个内存中的变量curData;
(2)对变量curData进行预处理;
(3)对于预处理后的变量curData,自动应用SpillOver矩阵,优先级依次为FCS/LMD文件自带的SpillOver矩阵、既往保存过的通用SpillOver矩阵;
(4)若步骤(3)中不存在FCS/LMD文件自带的SpillOver矩阵和既往保存过的通用SpillOver矩阵,则自动跳出调节SpillOver矩阵的窗口,给用户可视化调节SpillOver矩阵,应用于变量curData,同时保存为通用SpillOver矩阵;
(5)对应用SpillOver矩阵之后的变量curData,进行自动Logicle转换;
(6)对变量curData进行自动降维;
(7)对降维后的数据按照细胞群体密度分布进行自动聚类;
(8)对降维后密度分布差异不大且部分连接在一起的细胞群体,继续使用非参数聚类和基于分段回归的变化点检测进一步细分;
(9)对无法细分的细胞群体进行人工干预;
(10)根据聚类结果,将流式数据以两两组合的散点图呈现给用户,且标注细胞比例和数量。
作为优选,所述步骤(2)中预处理的步骤包括:
(2.1)去除Time坐标轴上液流不稳定的信号;
(2.2)如果数据中存在FSC的A、H或W通道信号,则进行FSC信号的粘连体排除处理;
(2.3)如果数据中存在SSC的A、H或W通道信号,则进一步去除SSC信号的粘连体。
作为优选,所述步骤(6)中的降维算法采用UMAP(Uniform ManifoldApproximation and Projection for Dimension Reduction)。
作为优选,所述步骤(7)中的自动聚类算法采用DBSCAN(Density-based spatialclustering of applications with noise)或OPTICS(Ordering points to identifythe clustering structure)或HDBSCAN(Hierarchical Density-Based SpatialClustering of Applications with Noise)。
作为优选,所述步骤(8)中的细分算法采用密度类算法或树状聚类算法,具体包括FlowMeans、K-means、K-means++、SOM(Self-organizing map)、Affinity propagation、Hierarchical clustering、BIRCH、Spectral clustering、Expectation–maximizationalgorithm。
本发明提供了一种基于密度和非参数聚类的流式细胞术全自动分群方法,具备以下有益效果:
1、兼顾了不同算法特点和流式细胞术数据分析流程,全程不需要用户指定细胞群数量,有利于自动化过程和新型细胞群体的发现和挖掘;
2、降维速度快,UMAP降维速度比t-SNE降维快2-10倍,大大节约自动分群时间;
3、DBSCAN结合FlowPeaks算法,可对任何形状的细胞群体进行准确区分,且可有效排除噪音干扰和非特异信号;
4、对稀有细胞的分析能力好,可实现最少5个细胞的自动聚类;
5、最后呈现的结果,根据临床实际分析习惯以两两组合散点图呈现,在当前临床常用的10色流式中进行了广泛测试,兼容2色-50色甚至更高维度的流式数据。
附图说明
图1为本发明的流程步骤图;
图2为本发明实施例1的细胞聚类图;
图3为本发明实施例1中非特异信号3的散点图;
图4为本发明实施例1中非特异信号10的散点图;
图5为本发明实施例1中中性粒细胞1的散点图;
图6为本发明实施例1中T细胞2的散点图;
图7为本发明实施例1中髓系祖细胞4的散点图;
图8为本发明实施例1中单核细胞5的散点图;
图9为本发明实施例1中B细胞6的散点图;
图10为本发明实施例1中嗜酸粒细胞7的散点图;
图11为本发明实施例1中NK细胞8的散点图;
图12为本发明实施例1中嗜碱粒细胞9的散点图;
图13为本发明实施例1中浆细胞11的散点图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
一例白细胞减少患者的骨髓样本,10色方案,根据本发明图1所示方法,获取流式FCS或LMD文件,读取数据,将各荧光通道数据结合FCS(前向散射光)、SSC(侧向散射光)整理成表格数据,每一行代表一个细胞,每一列代表该细胞对应通道的荧光信号或物理参数值,TIME列代表该细胞被获取的时间点,利用UMAP算法快速降维;实测5万个12维的流式数据,UMAP降维平均耗时35.45秒,t-SNE降维平均耗时173.98秒。
根据降维后细胞群体密度分布,采用DBSCAN算法进行聚类,聚类图如图2所示;该图中1-中性粒细胞,2-T细胞,3-非特异信号,4-髓系祖细胞,5-单核细胞,6-B细胞(中期和末期为主),7-嗜酸粒细胞,8-NK细胞,9-嗜碱粒细胞,10-非特异信号,11-浆细胞,12、13、14、15为干扰信号。
将聚类结果以实际操作常用的散点图呈现,非特异信号3如图3所示,非特异信号10如图4所示,分出比例不同的各类细胞,如图5-13所示。
由于单一基于密度算法的聚类并不完善,对于降维后密度分布差异不大,且部分连接在一起的细胞群体无法区分开来,因此继续使用费参数聚类和基于分段回归的变化点检测,对这些密度算法无法分开的群体采用FlowMeans算法进一步细分。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于,包括以下步骤:
(1)读取流式细胞仪产生的原始数据FCS或LMD文件,读取后,将原始数据FCS或LMD文件保存为一个内存中的变量;
(2)对变量curData进行预处理;
(3)对于预处理后的变量curData,自动应用SpillOver矩阵,优先级依次为FCS/LMD文件自带的SpillOver矩阵、既往保存过的通用SpillOver矩阵;
(4)若步骤(3)中不存在FCS/LMD文件自带的SpillOver矩阵和既往保存过的通用SpillOver矩阵,则自动跳出调节SpillOver矩阵的窗口,给用户可视化调节SpillOver矩阵,应用于变量curData,同时保存为通用SpillOver矩阵;
(5)对应用SpillOver矩阵之后的变量curData,进行自动Logicle转换;
(6)对变量curData进行自动降维;
(7)对降维后的数据按照细胞群体密度分布进行自动聚类;
(8)对降维后密度分布差异不大且部分连接在一起的细胞群体,继续使用非参数聚类和基于分段回归的变化点检测进一步细分;
(9)对无法细分的细胞群体进行人工干预;
(10)根据聚类结果,将流式数据以两两组合的散点图呈现给用户,且标注细胞比例和数量。
2.根据权利要求1所述的一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于,所述步骤(2)中预处理的步骤包括:
(2.1)去除Time坐标轴上液流不稳定的信号;
(2.2)如果数据中存在FSC的A、H或W通道信号,则进行FSC信号的粘连体排除处理;
(2.3)如果数据中存在SSC的A、H或W通道信号,则进一步去除SSC信号的粘连体。
3.根据权利要求1所述的一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于:所述步骤(6)中的降维算法采用UMAP。
4.根据权利要求1所述的一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于:所述步骤(7)中的自动聚类算法采用DBSCAN。
5.根据权利要求1所述的一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于:所述步骤(8)中的细分算法根据数据分布不同采用密度类算法或树状聚类算法。
CN202111468598.3A 2021-12-03 2021-12-03 一种基于密度和非参数聚类的流式细胞术全自动分群方法 Active CN114136868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111468598.3A CN114136868B (zh) 2021-12-03 2021-12-03 一种基于密度和非参数聚类的流式细胞术全自动分群方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111468598.3A CN114136868B (zh) 2021-12-03 2021-12-03 一种基于密度和非参数聚类的流式细胞术全自动分群方法

Publications (2)

Publication Number Publication Date
CN114136868A true CN114136868A (zh) 2022-03-04
CN114136868B CN114136868B (zh) 2022-07-15

Family

ID=80388059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111468598.3A Active CN114136868B (zh) 2021-12-03 2021-12-03 一种基于密度和非参数聚类的流式细胞术全自动分群方法

Country Status (1)

Country Link
CN (1) CN114136868B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4661913A (en) * 1984-09-11 1987-04-28 Becton, Dickinson And Company Apparatus and method for the detection and classification of articles using flow cytometry techniques
CN105424560A (zh) * 2015-11-24 2016-03-23 苏州创继生物科技有限公司 流式颗粒仪数据自动化定量分析方法
CN106548205A (zh) * 2016-10-21 2017-03-29 北京信息科技大学 一种流式细胞数据快速自动分群及圈门方法
CN106548204A (zh) * 2016-11-01 2017-03-29 北京信息科技大学 流式细胞仪数据快速自动分群方法
CN106548203A (zh) * 2016-10-21 2017-03-29 北京信息科技大学 一种多参数流式细胞数据快速自动分群和设门方法
CN107389536A (zh) * 2017-07-31 2017-11-24 上海纳衍生物科技有限公司 基于密度‑距离中心算法的流式细胞粒子分类计数方法
CN108520249A (zh) * 2018-04-19 2018-09-11 赵乐 一种细胞分类器的构建方法、装置及系统
CN110412287A (zh) * 2019-07-11 2019-11-05 上海宸安生物科技有限公司 一种基于单细胞的免疫细胞分型定量分析方法
US20200208114A1 (en) * 2018-12-10 2020-07-02 The Broad Institute, Inc. Taxonomy and use of bone marrow stromal cell
WO2021041994A2 (en) * 2019-08-30 2021-03-04 Juno Therapeutics, Inc. Machine learning methods for classifying cells
CN113188981A (zh) * 2021-04-30 2021-07-30 天津深析智能科技发展有限公司 一种多因子细胞因子自动分析方法
CN113380318A (zh) * 2021-06-07 2021-09-10 天津金域医学检验实验室有限公司 人工智能辅助流式细胞术40cd免疫表型检测方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4661913A (en) * 1984-09-11 1987-04-28 Becton, Dickinson And Company Apparatus and method for the detection and classification of articles using flow cytometry techniques
CN105424560A (zh) * 2015-11-24 2016-03-23 苏州创继生物科技有限公司 流式颗粒仪数据自动化定量分析方法
CN106548205A (zh) * 2016-10-21 2017-03-29 北京信息科技大学 一种流式细胞数据快速自动分群及圈门方法
CN106548203A (zh) * 2016-10-21 2017-03-29 北京信息科技大学 一种多参数流式细胞数据快速自动分群和设门方法
CN106548204A (zh) * 2016-11-01 2017-03-29 北京信息科技大学 流式细胞仪数据快速自动分群方法
CN107389536A (zh) * 2017-07-31 2017-11-24 上海纳衍生物科技有限公司 基于密度‑距离中心算法的流式细胞粒子分类计数方法
CN108520249A (zh) * 2018-04-19 2018-09-11 赵乐 一种细胞分类器的构建方法、装置及系统
US20200208114A1 (en) * 2018-12-10 2020-07-02 The Broad Institute, Inc. Taxonomy and use of bone marrow stromal cell
CN110412287A (zh) * 2019-07-11 2019-11-05 上海宸安生物科技有限公司 一种基于单细胞的免疫细胞分型定量分析方法
WO2021041994A2 (en) * 2019-08-30 2021-03-04 Juno Therapeutics, Inc. Machine learning methods for classifying cells
CN113188981A (zh) * 2021-04-30 2021-07-30 天津深析智能科技发展有限公司 一种多因子细胞因子自动分析方法
CN113380318A (zh) * 2021-06-07 2021-09-10 天津金域医学检验实验室有限公司 人工智能辅助流式细胞术40cd免疫表型检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALBINA RAHIM ET AL.: ""High throughput automated analysis of big flow cytometry data"", 《METHODS》 *
C.E. PEDREIRA ET AL.: ""Journal of Immunological Methods EuroFlow approach"", 《JOURNAL OF IMMUNOLOGICAL METHODS》 *
梁昊岳 等: ""基于FlowJo 软件生物信息学降维方法的小鼠骨髓造血干祖细胞流式分析"", 《医疗卫生装备》 *
马闪闪等: "基于核主成分分析的流式细胞数据分群方法研究", 《生物医学工程学杂志》 *

Also Published As

Publication number Publication date
CN114136868B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN106248559B (zh) 一种基于深度学习的白细胞五分类方法
US7697764B2 (en) Similar pattern searching apparatus, method of similar pattern searching, program for similar pattern searching, and fractionation apparatus
CN109471847B (zh) 一种i/o拥塞控制方法及控制系统
CN107389536B (zh) 基于密度-距离中心算法的流式细胞粒子分类计数方法
CN111259933B (zh) 基于分布式并行决策树的高维特征数据分类方法及系统
US10133962B2 (en) Method of digital information classification
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN112599199A (zh) 一种适用于10x单细胞转录组测序数据的分析方法
CN1783092A (zh) 数据分析装置和数据分析方法
CN111832389A (zh) 一种骨髓细胞形态学自动检测系统的计数及分析方法
CN114136868B (zh) 一种基于密度和非参数聚类的流式细胞术全自动分群方法
CN116720090A (zh) 一种基于层次的自适应聚类方法
CN113188982B (zh) 淋巴细胞亚群自动分析中有效去除单核细胞干扰的方法
CN114020593B (zh) 一种基于轨迹聚类的异质流程日志采样方法与系统
CN112257778B (zh) 一种基于用户用电行为的两阶段精细化聚类方法
JP2023546645A (ja) シングルセルゲノミクスデータセットからの細胞のサブサンプリング方法及びシステム
CN113218848A (zh) 一种判断非特异细胞群的方法
Shi et al. High throughput neuromorphic brain interface with CuO x resistive crossbars for real-time spike sorting
CN108776707B (zh) 针对探索性查询的抽样方法
CN116363416A (zh) 一种图像去重方法、装置、电子设备和存储介质
CN115862746A (zh) 一种精准的单细胞多组学匹配数据生成方法
CN114328506A (zh) 一种智能船舶自动控制系统
CN108062563A (zh) 一种基于类别均衡的代表样本发现方法
CN109002833B (zh) 一种微液滴数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant