CN117517176B - 一种流式细胞数据自动处理方法及装置 - Google Patents

一种流式细胞数据自动处理方法及装置 Download PDF

Info

Publication number
CN117517176B
CN117517176B CN202410009684.5A CN202410009684A CN117517176B CN 117517176 B CN117517176 B CN 117517176B CN 202410009684 A CN202410009684 A CN 202410009684A CN 117517176 B CN117517176 B CN 117517176B
Authority
CN
China
Prior art keywords
data
cell population
target cell
determining
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410009684.5A
Other languages
English (en)
Other versions
CN117517176A (zh
Inventor
晏波
石航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Prism Tech Biotechnology Co ltd
Original Assignee
Chengdu Prism Tech Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Prism Tech Biotechnology Co ltd filed Critical Chengdu Prism Tech Biotechnology Co ltd
Priority to CN202410009684.5A priority Critical patent/CN117517176B/zh
Publication of CN117517176A publication Critical patent/CN117517176A/zh
Application granted granted Critical
Publication of CN117517176B publication Critical patent/CN117517176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Electro-optical investigation, e.g. flow cytometers
    • G01N15/1429Electro-optical investigation, e.g. flow cytometers using an analyser being characterised by its signal processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/1006Investigating individual particles for cytology

Abstract

本发明公开了一种流式细胞数据自动处理方法及装置,该方法包括:先获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;然后将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;接着根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;最后根据需求项公式在所述最佳细胞群体中确定出需要的参数,并根据所述运算参数和需求项公式确定需求项的值,实现了快速准确地对流式细胞数据进行处理,极大的避免了对人工的依赖,提升了处理流式细胞数据的效率。

Description

一种流式细胞数据自动处理方法及装置
技术领域
本发明属于细胞数据处理技术领域,具体涉及一种流式细胞数据自动处理方法及装置。
背景技术
在医学研究过程中,对细胞的研究和处理分析是非常重要的一个环节,一般是通过流式细胞仪针对流式细胞进行采集得到流式细胞数据,该流式细胞数据可以看作是离散数据点,每个数据点对应一个细胞,然后对该数据进行分析。
现有技术中对于流式细胞数据的常规分析是应用统计学方法和领域专业知识,通过人工手动圈门选定特定细胞群体进行定性或者定量分析,但是人工选定存在主观误差以及效率低下,并且流式细胞数据通常为高维度和具备复杂结构,对人工要求较高。
因此,如何快速准确地对流式细胞数据进行处理,避免对人工的依赖,是本领域技术人员有待解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中对流式细胞数据进行分析处理时较为依赖于人工、效率低下的技术问题。
为实现上述技术目的,一方面,本发明提供了一种流式细胞数据自动处理方法,该方法包括:
获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;
将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;
根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;
根据需求项公式在所述最佳细胞群体中确定出需要的运算参数,并根据所述运算参数和需求项公式确定需求项的值。
进一步地,所述预处理具体包括依次进行的数据清洗和降维处理。
进一步地,所述数据清洗具体包括:
为不同的数据通道设定对应的通道阈值;
基于所述通道阈值对所述待处理数据进行过滤得到过滤数据;
在所述过滤数据中确定出离群点,并将所有离群点进行删除得到筛选数据;
将所述筛选数据进行对数转换得到清洗完成数据。
进一步地,所述降维处理具体包括:
将所述清洗完成数据进行标准化处理得到标准化数据,所述标准化处理具体为标准分数处理;
基于所述标准化数据和预设系数构建每两个特征之间的相关系数矩阵;
根据所述相关系数矩阵确定出相关系数矩阵的特征值以及特征向量;
将各相关系数矩阵按照对应特征值从大到小的顺序进行排序;
将排序中预设名次的特征值对应的特征向量组合成特征向量矩阵,并将所述特征向量矩阵和所述清洗完成数据相乘得到所述第一数据。
进一步地,所述将所述第一数据进行分群并构建分群结构树,具体包括:
初始化结构树;
将所述第一数据按照预设尺寸、预设特征以及基于每个像素点统计的细胞粒子数量构建二维密度分布图像,其中,所述二维密度分布图像中通过灰度值映射密度值;
确定出所述二维密度分布图像的最大灰度值和最小灰度值;
基于所述最大灰度值、最小灰度值和预设步长对所述密度分布图进行阈值分割,并获取分割后的所有连通区域集合以及初始化结构树中所有叶子节点对应的区域集合;
基于所有连通区域集合和所有区域集合确定每一个连通区域集合的属性,所述属性具体包括所述叶子节点的子区域和根节点,并根据所述连通区域集合的属性将所述连通区域集合添加至所述初始化结构树中得到分群结构树。
进一步地,所述根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体,具体为通过如下公式进行确定:
式中,为G中第i个群体对象和目标细胞群体特征对应的目标细胞群体之间的距离,m为所述目标细胞群体特征的特征数量,/>为G中第i个群体对象的第j个特征的特征值,/>为所述目标细胞群体特征中的第j个特征的特征值,G为所述分群结构树的细胞群体集合,/>为G中与目标细胞群体差异最小的群体对象也即最佳细胞群体,/>为G中第i个群体对象。
进一步地,所述需求项公式具体为:为根据目标细胞进行计算得到需求结果而预先设立的公式。
进一步地,所述需求还包括执行项目、待处理数据编号和待处理数据名称,所述方法还包括将所述执行项目、待处理数据编号和待处理数据名称和所述需求项的值汇总为报告并进行保存
另一方面,本发明还提供了一种流式细胞数据自动处理装置,所述装置包括:
配置模块,用于获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;
预处理模块,用于将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;
筛选模块,用于根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;
确定模块,用于根据需求项公式在所述最佳细胞群体中确定出需要的运算参数,并根据所述运算参数和需求项公式确定需求项的值。
本发明提供的一种流式细胞数据自动处理方法及装置,与现有技术相比,本方法先获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;然后将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;接着根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;最后根据需求项公式在所述最佳细胞群体中确定出需要的参数,并根据所述运算参数和需求项公式确定需求项的值,实现了快速准确地对流式细胞数据进行处理,极大的避免了对人工的依赖,提升了处理流式细胞数据的效率。
另外,本发明还提供配置需求的步骤,可灵活配置待解析的细胞数据以及需求项,可直接添加或者修改需要得到的结果,无需针对不同分析项目开发新的分析系统,且不需要对分析过程或者特征识别过程进行硬编码,能够最大限度复用代码,降低了处理成本。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本说明书实施例提供的流式细胞数据自动处理方法的流程示意图;
图2所示为本说明书实施例提供的流式细胞数据自动处理装置的结构示意图;
图3所示为本说明书实施例中样本数据列表的示意图;
图4所示为本说明书实施例整体执行过程示意图;
图5所示为本说明书实施例提供的流式细胞数据自动处理服务器的硬件结构框图;
图6所示为本说明书实施例中流式细胞数据的示例图;
图7所示为本说明书实施例中经过降维处理后的第一数据的示例图。
具体实施方式
为了使本领域普通技术人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示为本说明实施例提供的流式细胞数据自动处理方法的流程示意图,虽然本说明提供了如下实施例或附图中所示的方法操作步骤或装置结构,但基于常规或无需创造性劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元,在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
本说明实施例中提供的流式细胞数据自动处理方法可以应用在客户端和服务器等终端设备中,如图1所示,所述方法具体包括如下步骤:
步骤S101、获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式。
待处理数据也即需要处理的流式细胞数据,该数据是通过流式细胞仪采集的数据,其可以认为是离散数据点,一般流式细胞仪会有多个数据数据通道,例如散射光通道和荧光通道,每个数据通道代表不同的散射光或荧光特征信号的输出,所以当一个细胞点进行测量会在每个通道上都有对应输出信号,而不同的细胞在对应通道上的输出信号的强度也就是数据值大小不一样,假设有10个数据通道,那么相应的也就对应10个特征维度,也即10个特征,则每个细胞点的测量将输出10个通道对应的信号强度值,以反应细胞的特定特征信号,如图6所示为流式细胞数据示例,包括细胞粒子样本和各特征如FSC-H、SSC-H和PE-H等。
具体的,目标细胞群体也即需要确定的细胞群体,通过目标细胞群体特征来进行识别确定,该特征为基于先验数据预设的,包括有形状、位置、数量占比范围、粒子数量范围值以及与其他群体的相互位置关系等,在下述的分群结构树中,每个细胞群体都有相应的形状,位置、数量占比、细胞粒子数量以及与其它群体的相互位置关系。
待处理数据以单独的样本进行保存并创建样本数据列表,将单个样本为基础建立单独的试验项目文件进行保存至数据持久存储层:负责数据的持久化存储,主要组件包括数据库组件以及文件系统,用于存储系统配置信息、数据分析结果和样本数据存档,用户可添加、删除样本列表中的样本数据。可支持导入的样本数据格式为标准FCS文件格式,如图3所示为样本数据列表示意图,包括标本时间也即样本名称,标本检测时间也即样本检测处理时间,标本ID也即样本编号,每个试验项目文件对应一个确定的分析项目类别,比如TBNK,T亚群、DFI、ROS等具体的分析项目类别。这里的分析项目类别列表来自于分析配置数据库,也就是说在选择试验文件具体的分析项目类别之前,需要先在配置好对应的分析项目类别。
另外,在进行配置时,还可选择数据展示方式,包括散点图、直方图或者密度分布图,根据需要可将本申请处理流程中各步骤中体现出的细胞分布情况进行直观展示。
在对待处理数据进行处理时,先读取配置的需求,该需求还包括了数据要求,通过该数据要求对待处理数据判断,确定待处理数据是否合格,具体为判断待处理数据的粒子数量,如果待处理数据不合格,则终止此次检测处理,并提示用户重新选择样本。
步骤S102、将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树,其中,预处理具体包括依次进行的数据清洗和降维处理。
具体的,数据预处理主要包括两个任务:一是对数据清洗,去除噪声和无效数据点;二是对数据按照分析要求进行必要的转换。数据转换依据分析数据配置信息里面的数据转换配置要求进行,包括对数据进行对数转换、降维处理。数据预处理会对原始数据特征通道转换后,生成新的数据特征通道,以便于后续用于数据分析。
在本申请实施例中,所述数据清洗具体包括:
为不同的数据通道设定对应的通道阈值;
基于所述通道阈值对所述待处理数据进行过滤得到过滤数据;
在所述过滤数据中确定出离群点,并将所有离群点进行删除得到筛选数据;
将所述筛选数据进行对数转换得到清洗完成数据。
具体的,去除噪声和无效数据点主要包括两个方面的内容,一个是去除由于增益过大造成的“数据封顶”,依据设定的不同的通道阈值T,可过滤掉“封顶的数据”,得到新的数据集也即过滤数据:示意性表示为。第二个方面是依据配置的分析视图,基于二维的密度分布图或其他方式,自动判别离群点并进行删除得到筛选数据。采用局部离群因子(Local Outlier Factor:LOF)算法,根据数据点周围的数据密集情况,首先计算每个数据点的一个局部可达密度,然后通过局部可达密度进一步计算得到每个数据点的一个离群因子,该离群因子即标识了一个数据点的离群程度,因子值越大,表示离群程度越高,因子值越小,表示离群程度越低。最后,删除离群程度最大的top(n)个点后得到筛选数据,n来自于分析项目的对应视图配置离群比例,对于一般的试验分析,保证,对最终的分析结果影响较小,系统默认比例为0.5%。
对于大部分荧光通道的数据,需要转换成对数才能更好的显示聚群细胞和提取细胞群体信息,将筛选数据进行转换,转换后的数据为:,其中/>为转换后的数据集,D为原始数据集,将转换生的数据按指定的新数据通道名称保存,以便于后续使用。
在本申请实施例中,所述降维处理具体包括:
将所述清洗完成数据进行标准化处理得到标准化数据,所述标准化处理具体为标准分数处理;
基于所述标准化数据和预设系数构建每两个特征维度之间的相关系数矩阵;
根据所述相关系数矩阵确定出相关系数矩阵的特征值以及特征向量;
将各相关系数矩阵按照对应特征值从大到小的顺序进行排序;
将排序中预设名次的特征值对应的特征向量组合成特征向量矩阵,并将所述特征向量矩阵和所述清洗完成数据相乘得到所述第一数据。
具体的,上述相关系数(Correlation Coefficient)是用来度量两个变量间线性相关程度的统计量,反应了两个变量之间是否存在线性相关性以及线性相关性的强度,具体而言,在此处具体指标准化数据中每两个数据之间也即每两个特征进行计算所得到的值,相关系数矩阵也即是由这些相关系数构成的矩阵,数据降维主要目的有两个,一个是用于数据可视化,可在视图上更好的显示细胞聚群,另一个是方便数据分析,在一些试验项目的视图中,降维处理之后细胞分群更明显,便于后续更方便高效的构造细胞结构树。降维算法采用主成分分析(PCA),一般用于一些具有相关性的数据通道,在大于二维的情况下,将数据降到二维或者一维用于显示和后续分析,在具体应用场景中,执行过程可如下所示:
在进行PCA降维的第一步,使用Z-score标准化也即上述中的标准化处理,也即标准分数处理,消除量纲影响。公式:,其中,x是原始数据,/>是数据的均值,/>是数据的标准差。
基于标准化之后的数据,计算相关系数构建相关矩阵也即特征矩阵。对相关矩阵计算其特征值(Eigenvalues)和特征值对应的特征向量(Eigenvectors),通过下面的式子:
式中,为特征值,n为原始数据维度数量也即特征矩阵对应的特征值,k为降维后特征数量。
选择最大的前k个特征值对应的特征向量,组成特征向量矩阵,将原始数据与特征向量矩阵相乘,可得到数据维度降低到k维的新数据,即使新数据维度没有减少,也可提高数据可视化理解和降低噪声影响,降维之后的流式细胞数据可如图7所示,包括降维处理之后的新特征k,k的数量不大于流式细胞数据的特征数量。
另外,去除无效数据、离群处理是在原始数据集上处理,不会生成新的数据通道;而对数处理和降维处理,都会生成新的数据通道。
在本申请实施例中,所述将所述第一数据进行分群并构建分群结构树,具体包括:
初始化结构树;
将所述第一数据按照预设尺寸和预设特征构建二维平面图像,并基于灰度值将所述二维平面图像转换为二维密度分布图像;
确定出所述二维密度分布图像的最大灰度值和最小灰度值;
基于所述最大灰度值、最小灰度值和预设步长对所述密度分布图进行阈值分割,并获取分割后的所有连通区域集合以及初始化结构树中所有叶子节点对应的区域集合;
基于所有连通区域集合和所有区域集合确定每一个连通区域集合的属性,所述属性具体包括所述叶子节点的子区域和根节点,并根据所述连通区域集合的属性将所述连通区域集合添加至所述初始化结构树中得到分群结构树。
具体的,可根据预设尺寸,或者进行配置时,用户配置的数据特征通道将第一数据转换为密度分布图也即细胞密度分布图,如图7所示,降维后的数据并非常见的图像数据,但是可根据降维后的数据构建二维平面图像,将第一数据按照预设尺寸和预设的数据特征构建二维平面图,并基于数据分布计算二维密度分布图像,以256级灰度值大小代表对应位置的密度大小,对于细胞密度分布图,密度越高灰度值越大,使用多阈值迭代对图像进行分割。阈值由图像中全局最小灰度值开始,到全局最大灰度值结束,按一定步长对图像进行二值化处理,然后搜索二值化处理之后的图像中的连通区域,每个连通区域对应一个细胞群体,用此构造细胞分群结构树。由于阈值选取是由小到大,所以分割的图像也是由小到大,每次分割的图像对应密度相近的细胞聚群,将每次得到的细胞聚群按出现的先后顺序,组织在一起构成由父群到子群再到叶子群的细胞分群结构树。
在具体应用场景中,该步骤可如下所示:
B1、初始化细胞分群结构树G;
B2、将数据视图转换为大小为W×H的密度分布灰度图D,密度越大,则灰度值越大;
B3、获取图像的最大灰度值max(D)和最小灰min(D)度值;
B4、从min(D)到max(D),以步长t循环对图像进行阈值分割:
表示当前分割后计算得到的连通区域集合;
表示当前分群结构树G的所有叶子节点对应的区域集合;
判断所有连通区域:
如果,则将/>添加为/>的子区域(子群);
如果,则将/>添加为根节点;
统计所有节点的子节点数量,如果子节点数量只有1个,则删除此子节点。
步骤S103、根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体。
在本申请实施例中,所述根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体,具体为通过如下公式进行确定:
式中,为G中第i个群体对象和目标细胞群体特征对应的目标细胞群体之间的距离,m为所述目标细胞群体特征的特征数量,/>为G中第i个群体对象的第j个特征的特征值,/>为所述目标细胞群体特征中的第j个特征的特征值,G为所述分群结构树的细胞群体集合,/>为G中与目标细胞群体差异最小的群体对象也即最佳细胞群体,/>为G中第i个群体对象。
具体的,假设当前视图细胞群体集合为,细胞群体结构树为,每个细胞群体的特征集合为/>,通过上述公式来确定分群结构树中每个细胞群体与目标细胞群体的欧式几何距离,距离最短的即为最佳细胞群体,也就是需要的目标细胞群体。通过以上操作,可以从细胞结构树中筛选出最接近视图定义的细胞群体。
步骤S104、根据需求项公式在所述最佳细胞群体中确定出需要的参数,并根据所述运算参数和需求项公式确定需求项的值。
具体的,需求项公式具体为根据目标细胞进行计算得到需求结果所预先设立的公式,需求项公式定义了最终要输出的分析结果项的参与计算内容和计算方式。需求项公式定义包括名称,标识,参考范围,计算表达式;可以参与计算的内容包括,样本数据属性、视图数据属性、分群的数据属性。
以DFI(DNA-fragmetation-index,精子DNA碎片率)分析的计算公式为例说明:
确定DFI:也即确定要计算的数据项名称(可用于后面的公式表达式项);
确定P3、P2、P4:这些为对应的目标细胞群体ID;
确定X.TotalCellsInParent:表示细胞群体X在父数据视图中对应的细胞数量。
公式计算依赖于表达式中的数据项是否存在,表达式中可包括简单函数,比如说,min,max,range等。公式计算前将中缀表达式转换为前缀表达式进行求值。
在本申请实施例中,所述需求还包括执行项目、待处理数据编号和待处理数据名称,所述方法还包括将所述执行项目、待处理数据编号和待处理数据名称和所述需求项的值汇总为报告并进行保存。
基于数据分析的结果数据以及配置的分析项目对应的报表模板,将分析结果数据填充到分析报表模板对应的位置,并输出Word报表文档,也可将此文档直接输出打印机。
具体的,配置需求时还可依据实际的试验项目分析要求,定义直方图、散点图或密度图,例如视图ID、视图名称、视图类别、数据来源也即待处理数据ID、数据特征通道也即X:数据特征通道名称,坐标系(对数或线性),Y:数据特征通道名称,坐标系(对数或线性),直方图不需要Y轴。
在具体应用过程中,本申请方案整体执行过程可如图4所示,具体包括:
分析人员或者用户或者工作人员,将样本文件输入到预处理模块中,同时分析模式配置数据库根据配置好的需求分析确定数据要求、视图要求、细胞群体要求和需要的计算公式,也即需求项公式,通过预处理模块将样本文件进行预处理得到主成分数据集,处理过程见上述,同时,通过预处理模块将样本文件传输至历史数据库中进行样本文件存储;通过细胞分类聚类模块来对主成分数据集进行分群构建出细胞分群结构树,通过分群筛选模块基于细胞群体要求也即目标细胞群体特征对细胞分群结构树进行筛选,确定出目标群体,目标群体和预处理模块中得到的需求群体是一致的,然后基于计算公式对目标群体进行计算得到计算结果,并对结果数据项进行结果存储在历史数据库中;然后对于结果数据进行分析确定各项信息后进行报表生成,并将生成的报表存储在历史数据库中;还可将生成的报表转为word文档或者PDF文档进行打印输出给分析人员查看。
基于上述的流式细胞数据自动处理方法,本说明一个或多个实施例还提供一种流式细胞数据自动处理的平台、终端,该平台或终端可以包括使用本说明书实施例所述方法的装置、软件、模块、插件、服务器、客户端等并结合必要的实施硬件的装置,基于同一创新构思,本说明书实施例提供的一个或多个实施例中的系统如下面的实施例所述,由于系统解决问题的实施方案与方法类似,因此本说明书实施例具体的系统的实施可以参考前述方法的实施,重复之处不再赘述,以下所使用的术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,软硬件结合的实现也是可能并被构想的。
具体地,图2是本说明书提供的流式细胞数据自动处理装置一个实施例的模块结构示意图,如图2所示,本说明书中提供的流式细胞数据自动处理装置包括:
配置模块201,用于获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;
预处理模块202,用于将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;
筛选模块203,用于根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;
确定模块204,用于根据需求项公式在所述最佳细胞群体中确定出需要的运算参数,并根据所述运算参数和需求项公式确定需求项的值。
需要说明的是,上述的系统根据对应方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照上述对应的方法实施例的描述,在此不作一一赘述。
本申请实施例还提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为用于执行如上述实施例提供的方法。
本申请实施例提供的电子设备,通过存储器存储处理器的可执行指令,当处理器执行该可执行指令时,能够先获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;然后将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;接着根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;最后根据需求项公式在所述最佳细胞群体中确定出需要的参数,并根据所述运算参数和需求项公式确定需求项的值,实现了快速准确地对流式细胞数据进行处理,极大的避免了对人工的依赖,提升了处理流式细胞数据的效率。
本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图5是本说明书一个实施例中流式细胞数据自动处理服务器的硬件结构框图,该计算机终端可以是上述实施例中的流式细胞数据自动处理服务器或流式细胞数据自动处理装置。可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的非易失性存储器200、以及用于通信功能的传输模块300。
非易失性存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的流式细胞数据自动处理方法对应的程序指令/模块,处理器100通过运行存储在非易失性存储器200内的软件程序以及模块,从而执行各种功能应用以及资源数据更新。非易失性存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,非易失性存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果,如:
获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;
将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;
根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;
根据需求项公式在所述最佳细胞群体中确定出需要的运算参数,并根据所述运算参数和需求项公式确定需求项的值。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如ram、rom等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、u盘;利用光学方式存储信息的装置如,cd或dvd。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书实施例并不局限于必须是符合行业通信标准、标准计算机资源数据更新和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或插件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
这些计算机程序指令也可装载到计算机或其他可编程资源数据更新设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.一种流式细胞数据自动处理方法,其特征在于,所述方法包括:
获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;
将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;
根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;
根据需求项公式在所述最佳细胞群体中确定出需要的运算参数,并根据所述运算参数和需求项公式确定需求项的值;
其中,所述预处理具体包括依次进行的数据清洗和降维处理,所述数据清洗具体包括:
为不同的数据通道设定对应的通道阈值;
基于所述通道阈值对所述待处理数据进行过滤得到过滤数据;
将所述过滤数据确定出离群点,并将所有离群点进行删除得到筛选数据;
将所述筛选数据进行对数转换得到清洗完成数据;
其中,所述降维处理具体包括:
将所述清洗完成数据进行标准化处理得到标准化数据;
基于所述标准化数据和预设系数构建每两个特征维度之间的相关系数矩阵;
根据所述相关系数矩阵确定出相关系数矩阵的特征值以及特征向量;
将各相关系数矩阵按照对应特征值从大到小的顺序进行排序;
将排序中预设名次的特征值对应的特征向量组合成特征向量矩阵,并将所述特征向量矩阵和所述清洗完成数据相乘得到所述第一数据;
其中,所述将所述第一数据进行分群并构建分群结构树,具体包括:
初始化结构树;
将所述第一数据按照预设尺寸、预设特征以及基于每个像素点统计的细胞粒子数量构建二维密度分布图像,其中,所述二维密度分布图像中通过灰度值映射密度值;
确定出所述二维密度分布图像的最大灰度值和最小灰度值;
基于所述最大灰度值、最小灰度值和预设步长对所述密度分布图进行阈值分割,并获取分割后的所有连通区域集合以及初始化结构树中所有叶子节点对应的区域集合;
基于所有连通区域集合和所有区域集合确定每一个连通区域集合的属性,所述属性具体包括所述叶子节点的子区域和根节点,并根据所述连通区域集合的属性将所述连通区域集合添加至所述初始化结构树中得到分群结构树;
所述根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体,具体为通过如下公式进行确定:
式中,G中第i个群体对象和目标细胞群体特征对应的目标细胞群体之间的距离,m为所述目标细胞群体特征的特征数量,/>G中第i个群体对象的第j个特征的特征值,/>为所述目标细胞群体特征中的第j个特征的特征值,G所述分群结构树的细胞群体集合,/>G中与目标细胞群体差异最小的群体对象也即最佳细胞群体,/>G中第i个群体对象;
其中,所述需求项公式具体为:为根据目标细胞进行计算得到需求结果而预先设立的公式。
2.如权利要求1所述的流式细胞数据自动处理方法,其特征在于,所述需求还包括执行项目、待处理数据编号和待处理数据名称,所述方法还包括将所述执行项目、待处理数据编号和待处理数据名称和所述需求项的值汇总为报告并进行保存。
3.一种流式细胞数据自动处理装置,其特征在于,所述装置包括:
配置模块,用于获取待处理数据,同时配置需求,所述需求至少包括目标细胞群体特征和需求项公式;
预处理模块,用于将所述待处理数据经过预处理后得到第一数据,并根据所述目标细胞群体特征对所述第一数据进行分群并构建分群结构树;
筛选模块,用于根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体;
确定模块,用于根据需求项公式在所述最佳细胞群体中确定出需要的运算参数,并根据所述运算参数和需求项公式确定需求项的值;
其中,所述预处理具体包括依次进行的数据清洗和降维处理,所述数据清洗具体包括:
为不同的数据通道设定对应的通道阈值;
基于所述通道阈值对所述待处理数据进行过滤得到过滤数据;
将所述过滤数据确定出离群点,并将所有离群点进行删除得到筛选数据;
将所述筛选数据进行对数转换得到清洗完成数据;
其中,所述降维处理具体包括:
将所述清洗完成数据进行标准化处理得到标准化数据;
基于所述标准化数据和预设系数构建每两个特征维度之间的相关系数矩阵;
根据所述相关系数矩阵确定出相关系数矩阵的特征值以及特征向量;
将各相关系数矩阵按照对应特征值从大到小的顺序进行排序;
将排序中预设名次的特征值对应的特征向量组合成特征向量矩阵,并将所述特征向量矩阵和所述清洗完成数据相乘得到所述第一数据;
其中,所述将所述第一数据进行分群并构建分群结构树,具体包括:
初始化结构树;
将所述第一数据按照预设尺寸、预设特征以及基于每个像素点统计的细胞粒子数量构建二维密度分布图像,其中,所述二维密度分布图像中通过灰度值映射密度值;
确定出所述二维密度分布图像的最大灰度值和最小灰度值;
基于所述最大灰度值、最小灰度值和预设步长对所述密度分布图进行阈值分割,并获取分割后的所有连通区域集合以及初始化结构树中所有叶子节点对应的区域集合;
基于所有连通区域集合和所有区域集合确定每一个连通区域集合的属性,所述属性具体包括所述叶子节点的子区域和根节点,并根据所述连通区域集合的属性将所述连通区域集合添加至所述初始化结构树中得到分群结构树;
所述根据所述目标细胞群体特征在所述分群结构树中筛选出最佳细胞群体,具体为通过如下公式进行确定:
式中,G中第i个群体对象和目标细胞群体特征对应的目标细胞群体之间的距离,m为所述目标细胞群体特征的特征数量,/>G中第i个群体对象的第j个特征的特征值,/>为所述目标细胞群体特征中的第j个特征的特征值,G所述分群结构树的细胞群体集合,/>G中与目标细胞群体差异最小的群体对象也即最佳细胞群体,/>G中第i个群体对象;
其中,所述需求项公式具体为:为根据目标细胞进行计算得到需求结果而预先设立的公式。
CN202410009684.5A 2024-01-04 2024-01-04 一种流式细胞数据自动处理方法及装置 Active CN117517176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410009684.5A CN117517176B (zh) 2024-01-04 2024-01-04 一种流式细胞数据自动处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410009684.5A CN117517176B (zh) 2024-01-04 2024-01-04 一种流式细胞数据自动处理方法及装置

Publications (2)

Publication Number Publication Date
CN117517176A CN117517176A (zh) 2024-02-06
CN117517176B true CN117517176B (zh) 2024-03-22

Family

ID=89749797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410009684.5A Active CN117517176B (zh) 2024-01-04 2024-01-04 一种流式细胞数据自动处理方法及装置

Country Status (1)

Country Link
CN (1) CN117517176B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014188170A1 (en) * 2013-05-20 2014-11-27 Cell Therapy Limited Multicolor flow cytometry method for identifying a population of cells, in particular mesenchymal stem cells
CN106548204A (zh) * 2016-11-01 2017-03-29 北京信息科技大学 流式细胞仪数据快速自动分群方法
CN218546480U (zh) * 2022-08-17 2023-02-28 成都棱镜泰克生物科技有限公司 用于侧向散射光及荧光收集的光学系统及装置
CN117235929A (zh) * 2023-09-26 2023-12-15 中国科学院沈阳自动化研究所 基于知识图谱和机器学习的三维cad生成式设计方法
CN117269009A (zh) * 2023-09-22 2023-12-22 广州金域医学检验中心有限公司 流式细胞仪样本容量预警方法、装置、系统、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11096901B2 (en) * 2009-03-06 2021-08-24 Metaqor Llc Dynamic bio-nanoparticle platforms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014188170A1 (en) * 2013-05-20 2014-11-27 Cell Therapy Limited Multicolor flow cytometry method for identifying a population of cells, in particular mesenchymal stem cells
CN106548204A (zh) * 2016-11-01 2017-03-29 北京信息科技大学 流式细胞仪数据快速自动分群方法
CN218546480U (zh) * 2022-08-17 2023-02-28 成都棱镜泰克生物科技有限公司 用于侧向散射光及荧光收集的光学系统及装置
CN117269009A (zh) * 2023-09-22 2023-12-22 广州金域医学检验中心有限公司 流式细胞仪样本容量预警方法、装置、系统、设备及介质
CN117235929A (zh) * 2023-09-26 2023-12-15 中国科学院沈阳自动化研究所 基于知识图谱和机器学习的三维cad生成式设计方法

Also Published As

Publication number Publication date
CN117517176A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
WO2021196632A1 (zh) 一种全景数字病理图像智能分析系统及方法
CN108470172B (zh) 一种文本信息识别方法及装置
Xu et al. Wheat ear counting using K-means clustering segmentation and convolutional neural network
EP4020315A1 (en) Method, apparatus and system for determining label
Maiti et al. Capturing, eliciting, predicting and prioritizing (CEPP) non-functional requirements metadata during the early stages of agile software development
CN112367273B (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
CN112257801B (zh) 图像的增量聚类方法、装置、电子设备及存储介质
Geng et al. An improved helmet detection method for YOLOv3 on an unbalanced dataset
CN112580780A (zh) 模型训练的处理方法、装置、设备和存储介质
CN112233102A (zh) 图像样本集中噪声的识别方法、装置、设备及存储介质
CN117517176B (zh) 一种流式细胞数据自动处理方法及装置
CN112084913B (zh) 一种端到端的人体检测与属性识别方法
Lin et al. Integrated circuit board object detection and image augmentation fusion model based on YOLO
CN116186594B (zh) 基于决策网络结合大数据实现环境变化趋势智能检测方法
CN112560925A (zh) 一种复杂场景目标检测数据集构建方法及系统
CN112052730A (zh) 一种3d动态人像识别监控设备及方法
CN116304721A (zh) 基于数据类别的大数据治理中数据标准制定方法及系统
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN113096079B (zh) 图像分析系统及其构建方法
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
CN114548307A (zh) 分类模型训练方法和装置、分类方法和装置
CN114971110A (zh) 一种根因组合确定的方法、相关装置、设备以及存储介质
CN112580781A (zh) 深度学习模型的处理方法、装置、设备和存储介质
CN115797675B (zh) 一种人工智能图像处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant