CN115407076A - 一种基于细胞散点图的异常检测方法 - Google Patents

一种基于细胞散点图的异常检测方法 Download PDF

Info

Publication number
CN115407076A
CN115407076A CN202211004127.1A CN202211004127A CN115407076A CN 115407076 A CN115407076 A CN 115407076A CN 202211004127 A CN202211004127 A CN 202211004127A CN 115407076 A CN115407076 A CN 115407076A
Authority
CN
China
Prior art keywords
cell
information
point
coordinate
risk data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211004127.1A
Other languages
English (en)
Inventor
李柏蕤
连荷清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Botu Yingcong Suzhou Technology Co ltd
Original Assignee
Botu Yingcong Suzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Botu Yingcong Suzhou Technology Co ltd filed Critical Botu Yingcong Suzhou Technology Co ltd
Priority to CN202211004127.1A priority Critical patent/CN115407076A/zh
Publication of CN115407076A publication Critical patent/CN115407076A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N35/00Automatic analysis not limited to methods or materials provided for in any single one of groups G01N1/00 - G01N33/00; Handling materials therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Immunology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于细胞散点图的异常检测方法,包括以下步骤:S1、获取样本的细胞散点图,在细胞散点图内建立平面坐标系,并遍历每个点,将坐标信息和种类信息赋予每个细胞点;S2、根据细胞种类信息,计算各种细胞的细胞簇中心和离群容忍度;S3、根据各细胞种类的细胞簇中心和离群容忍度进行高斯分布建模;S4、设定风险数据阈值,对每种细胞种类的容忍度外各点进行风险数据评分;S5、根据风险数据评分判断各种类细胞是否存在。本发明避免给机器的便携性和成本加大了负担,不增加额外的损耗。

Description

一种基于细胞散点图的异常检测方法
技术领域
本发明涉及细胞检测领域,特别是涉及一种基于细胞散点图的异常检测方法。
背景技术
血细胞分析仪blood cell analyzer,通过溶血剂破坏红细胞,白细胞胞膜轻微受损,利用SSC获得不同白细胞内部构造复杂程度的差异;通过荧光染色,利用SFL获得不同白细胞核酸及细胞器种类和多少的差异,从而对各类白细胞进行区别计数。并对所测细胞进行统计,以SSC为横坐标,以SFL为纵坐标,得到WDF散点图。统计种类主要包括五种细胞:Debris:影细胞/细胞碎片;NRBC:有核红细胞;LYMPH:淋巴细胞;Abnormal lymph Blast:异常淋巴细胞/原幼淋巴细胞;Atypical lymph:不典型淋巴细胞/异型淋巴细胞;MONO:单核细胞;Blast:原始细胞;NEUT+BASO:中性粒细胞及嗜碱性粒细胞;Left shift:核左移;IG:幼稚粒细胞;EO:嗜酸性粒细胞。
散点图的异常检测是目前提升血球仪的一种有效手段。由于目前血球仪自动判别的准确率仍存在一定的缺陷,由于目前并没有将散点图的识别看做一个异常检测任务,因此我们宏观的讨论异常检测算法的相关工作。对于数据质量的不同,异常检测主要分为三大类:
监督任务:这类任务的数据有很明确的异常或正常的标签。一般处理这种情况,操作者会将其看待成二分类的任务。但它面临着昂贵的数据标记和实践中离群值稀缺的问题。
半监督任务:首先,由于问题的性质,很难获得大量的异常数据,无论是标记的还是未标记的。这类任务的数据对正常样本有很明确的标注,异常类没有标注。由于对异常数据的访问受限,构建异常检测器通常只使用正常数据进行半监督或一类分类设置。这种情况一般会采用引入代理任务,从而通过自监督的方式来完成异常检测任务。这种方法通过构建异常检测器通常只使用正常数据进行半监督或一类分类设置。生成模型在概率密度低于某个阈值时声明异常。然而,异常分数被定义为像素级重建错误或概率密度的集合,无法捕获高级语义信息。
无监督任务:这类任务就是所有的数据都没有标注。在这种情况下会首先对数据进行特征抽取,然后通过测距的类似方法进行分类。其中特征的抽取可以看做是一种生成任务。近年来,海量的图像/视频数据激发了无监督异常检测在计算机视觉中的重要应用,如提炼web图像查询结果、视频异常事件检测等。不幸的是,尽管端到端深度神经网络(DNN)在计算机视觉领域取得了显著的成功,但一种有效的端到端无监督异常检测策略仍在探索中:最先进的方法都依赖于深度自动编码器(AE)或卷积自动编码器(CAE)来实现易于实现的基于DNN的无监督异常检测模型,但它们都存在AE/CAE的无效表示学习。另外必须对概念进行两个澄清:首先,在一些文献中,“无监督离群值/异常检测”实际上指的是半监督的任务,而不是这里特指的无监督。其次,最近的一个话题是离群分布样本检测,它检测的样本不是来自于训练样本的分布。它类似于半监督任务,但它需要标记良好的多类数据进行训练,而不是对半监督定义的单类数据。
为解决上述问题,现需一种基于细胞散点图的异常检测方法。
发明内容
本发明是为了解决现有技术中监督任务面临着昂贵的数据标记和实践中离群值稀缺、半监督任务很难获得大量的异常数据和无监督任务所有的数据都没有标注的问题,提供了一种基于细胞散点图的异常检测方法,通过将每一种细胞种类看做一个独立的高斯分布,解决了上述问题。
本发明提供了一种基于细胞散点图的异常检测方法,包括以下步骤:
S1、获取样本的细胞散点图,在细胞散点图内建立平面坐标系,并遍历每个点,将坐标信息和种类信息赋予每个细胞点;
S2、根据细胞种类信息,计算各种细胞的细胞簇中心和离群容忍度;
S3、根据各细胞种类的细胞簇中心和离群容忍度进行高斯分布建模;
S4、设定风险数据阈值,对每种细胞种类的容忍度外各点进行风险数据评分;
S5、根据风险数据评分判断各种类细胞是否存在。
本发明所述的一种基于细胞散点图的异常检测方法,作为优选方式,步骤S1中在细胞散点图内建立平面坐标系,并遍历每个点,将坐标信息和种类信息赋予每个细胞点具体包括将图像左下角作为坐标的原点,横向是X轴的正半轴,纵向是Y轴的正半轴,遍历像素的方式找到每个点的坐标信息和种类信息,坐标信息表示为Zi=(xi,yi),其中Zi为细胞的坐标信息,xi为x轴坐标,yi为y轴坐标;种类信息包括淋巴细胞、单核细胞、粒细胞及嗜碱性粒细胞、嗜酸性粒细胞和幼稚粒细胞。
本发明所述的一种基于细胞散点图的异常检测方法,作为优选方式,步骤S2中细胞簇中心具体计算方法为根据相同种类信息的细胞的坐标信息计算坐标均值作为细胞簇中心的位置数据。
本发明所述的一种基于细胞散点图的异常检测方法,作为优选方式,步骤S2中各种类细胞的离群容忍度具体计算方法为根据相同种类信息的细胞的坐标信息计算坐标方差作为细胞的离群容忍度。
本发明所述的一种基于细胞散点图的异常检测方法,作为优选方式,步骤S3的根据各细胞种类的细胞簇中心和离群容忍度进行高斯分布建模具体公式为:
Figure BDA0003808160880000031
其中,uz为该类别所有坐标数据Zn的二维均值,εz为协方差。
本发明所述的一种基于细胞散点图的异常检测方法,作为优选方式,步骤S4的风险数据评分根据以下公式:
Figure BDA0003808160880000041
本发明所述的一种基于细胞散点图的异常检测方法,作为优选方式,步骤S5具体为设定总的风险阈值,累加所有建模过程中被列为存在风险数据的评分总和,总分数高于总风险阈值则被判断该种类细胞存在异常,否则判定为该种类细胞不存在异常。
本发明所述的一种基于细胞散点图的异常检测方法,作为优选方式,步骤S5具体为将各种类细胞的各点与风险数据阈值进行对比,超过风险数据阈值的点标记为异常范围细胞,否则标记为安全范围细胞,并计算各种类细胞中异常范围细胞和安全范围细胞的比例,根据比例得到细胞存在异常情况的可能性大小。
本发明有益效果如下:
散点图数据天然的缺少语义信息,使用现有的深度学习方法在特征抽取过程中很难获得有意义的特征;散点图数据天然的存在高斯分布的先验,即大部分的点都在均值的附近,而仅有少数的点方差比较大。因此每一种细胞种类就可以做为一个独立的高斯分布,并采用高斯模型拟合散点图数据,通过数据离群的程度,判别散点图是否存在异常。
另外,由于深度学习需要的计算性能很高,需要在开发的血液仪中追加显卡,这给机器的便携性和成本加大了负担。而高斯拟合模型就不增加额外的损耗。
附图说明
图1为一种基于细胞散点图的异常检测方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
如图1所示,一种基于细胞散点图的异常检测方法,包括以下步骤:
S1、获取样本的细胞散点图,在细胞散点图内建立平面坐标系,并遍历每个点,将坐标信息和种类信息赋予每个细胞点;
S2、根据细胞种类信息,计算各种细胞的细胞簇中心和离群容忍度;
S3、根据各细胞种类的细胞簇中心和离群容忍度进行高斯分布建模;
S4、设定风险数据阈值,对每种细胞种类的容忍度外各点进行风险数据评分;
S5、根据风险数据评分判断各种类细胞是否存在。
在血球仪器中,我们将散点图作为一种风险评估因子,来缓解血常规异常情况的漏检。一般情况下,目前仪器的精确度是70%,因此有30%需要人工的复查。我们通过利用散点图这一性质,从不同的角度,将异常样本区分出来。在血球仪中,仪器会自动的将白细胞的不同区域,聚类成5个区域。通过观察,每个区域都符合高斯分布特性,即类中心的点数量密集,越远离类中心,点的个数越稀疏。
我们将五类统计细胞各自独立的分析。对每一个种类进行建模。在新的待测样本传入后,对五个类别逐个进行高斯模型的拟合,中心区域呈现高亮的,原因是中心区域的数据比较密集,重叠度高。周边的颜色暗淡说明比较数据系数。我们对各细胞种类进行高斯建模,并根据所设计的得分函数,如果任何一类异常点过多,方差过大,最终得分低于设定的阈值,就可以判别该图像是异常样本。若五个类别分数都超过各自的阈值,则判别成正常样本。
从医学的角度认为,相同的细胞器应该拥有相似甚至相同的表征,一旦发生恶性变化该细胞器的表征随之也发生变化,即体现在图像上就是会一定程度上的远离簇中心。
步骤S1中在细胞散点图内建立平面坐标系,并遍历每个点,将坐标信息和种类信息赋予每个细胞点具体包括将图像左下角作为坐标的原点,横向是X轴的正半轴,纵向是Y轴的正半轴,遍历像素的方式找到每个点的坐标信息和种类信息,坐标信息表示为Zi=(xi,yi),其中Zi为细胞的坐标信息,xi为x轴坐标,yi为y轴坐标;种类信息包括淋巴细胞、单核细胞、粒细胞及嗜碱性粒细胞、嗜酸性粒细胞和幼稚粒细胞。
数据化图像信息:因为散点图是一种缺乏语义信息的图像,不利于直接进行分析。
但是从对异常散点图的分布于正常散点图分布的观察中,不难发现,相同类别的细胞器,会有规律的进行聚集,这就导致散布在图中的数据点会有“规律”的按照类别聚集在一起。我们可以遵循这种“规律”来评估散点图图像的异常情况。为了便于计算,我们将图像左下角作为坐标的原点,横向是X轴的正半轴,纵向是Y轴的正半轴。同一种细胞器同一种颜色。通过遍历像素的方式找到每个点的坐标信息,以及种类信息。不同的种类在散点图中是特定的颜色。这样我们将每个细胞器对应的每个数据点,映射到了一个坐标系下,方便我们下一步通过位置,来描述性质。
由于我们对每个散点图的内部种类区别对待,则产出的位置数据,也是按照类别进行接下来独立的处理。
步骤S2中细胞簇中心具体计算方法为根据相同种类信息的细胞的坐标信息计算坐标均值作为细胞簇中心的位置数据。
步骤S2中各种类细胞的离群容忍度具体计算方法为根据相同种类信息的细胞的坐标信息计算坐标方差作为细胞的离群容忍度。
统计各类型的均值和方差:
数据是有标签的,可以明确知道正常散点图的分布情况,因此可以通过统计来建模正常的分布模式,不符合我们建立的模式的数据点,我们就认为是风险点。在统计均值和方差的过程中,我们仅仅统计所有正常散点图中点的坐标,利用统计求平均的方式计算每一个类别的均值和方差。
步骤S3的根据各细胞种类的细胞簇中心和离群容忍度进行高斯分布建模具体公式为:
Figure BDA0003808160880000071
其中,uz为该类别所有坐标数据Zn的二维均值,εz为协方差。待测数据的拟合:
相同细胞种类就应该拥有相同的分布模式,在图中的坐标点应该相似甚至相同。而不同种类细胞,由于细胞性质发生了改变,在坐标中的表现就是会和簇中心存在一定的距离,这个距离就是建模的关键。
在分别统计好五个类别的超参数后,即每个类别的均值和方差。可以把该类的均值看成簇中心。把方差作为调节模型的离群容忍度。方差越大,模型容忍度越高,也就是允许数据点一定程度上的偏离簇中心。因此数据的拟合本质上就是保留存在异常风险的数据点。
步骤S4的风险数据评分根据以下公式:
Figure BDA0003808160880000081
得分函数的判别:
在步骤S3过程将每一个种类分别进行了高斯分布的建模,被作为有风险的异常数据都会经过风险数据评分公式进行风险评估。每一个数据点风险越高,评分也就越高,最终累加所有建模过程中被列为存在风险数据的评分总和,总分数高于阈值则被判断该种类细胞存在异常。
步骤S5具体为设定总的风险阈值,累加所有建模过程中被列为存在风险数据的评分总和,总分数高于总风险阈值则被判断该种类细胞存在异常,否则判定为该种类细胞不存在异常。
实施例2
区别于实施例1的结果判定方法,步骤S5具体为将各种类细胞的各点与风险数据阈值进行对比,超过风险数据阈值的点标记为异常范围细胞,否则标记为安全范围细胞,并计算各种类细胞中异常范围细胞和安全范围细胞的比例,根据比例得到细胞存在异常情况的可能性大小。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于细胞散点图的异常检测方法,其特征在于:包括以下步骤:
S1、获取样本的细胞散点图,在所述细胞散点图内建立平面坐标系,并遍历每个点,将坐标信息和种类信息赋予每个细胞点;
S2、根据细胞种类信息,计算各种细胞的细胞簇中心和离群容忍度;
S3、根据各细胞种类的细胞簇中心和离群容忍度进行高斯分布建模;
S4、设定风险数据阈值,对每种细胞种类的容忍度外各点进行风险数据评分;
S5、根据风险数据评分判断各种类细胞是否存在。
2.根据权利要求1所述的一种基于细胞散点图的异常检测方法,其特征在于:所述步骤S1中在所述细胞散点图内建立平面坐标系,并遍历每个点,将坐标信息和种类信息赋予每个细胞点具体包括将图像左下角作为坐标的原点,横向是X轴的正半轴,纵向是Y轴的正半轴,遍历像素的方式找到每个点的坐标信息和种类信息,所述坐标信息表示为Zi=(xi,yi),其中Zi为细胞的坐标信息,xi为x轴坐标,yi为y轴坐标;所述种类信息包括淋巴细胞、单核细胞、粒细胞及嗜碱性粒细胞、嗜酸性粒细胞和幼稚粒细胞。
3.根据权利要求1所述的一种基于细胞散点图的异常检测方法,其特征在于:所述步骤S2中所述细胞簇中心具体计算方法为根据相同种类信息的细胞的坐标信息计算坐标均值作为细胞簇中心的位置数据。
4.根据权利要求1所述的一种基于细胞散点图的异常检测方法,其特征在于:所述步骤S2中各种类细胞的所述离群容忍度具体计算方法为根据相同种类信息的细胞的坐标信息计算坐标方差作为细胞的所述离群容忍度。
5.根据权利要求2所述的一种基于细胞散点图的异常检测方法,其特征在于:所述步骤S3所述的根据各细胞种类的细胞簇中心和离群容忍度进行高斯分布建模具体公式为:
Figure FDA0003808160870000021
其中,uz为该类别所有坐标数据Zn的二维均值,εz为协方差。
6.根据权利要求5所述的一种基于细胞散点图的异常检测方法,其特征在于:所述步骤S4的风险数据评分根据以下公式:
Figure FDA0003808160870000022
7.根据权利要求1所述的一种基于细胞散点图的异常检测方法,其特征在于:所述步骤S5具体为设定总的风险阈值,累加所有建模过程中被列为存在风险数据的评分总和,总分数高于总风险阈值则被判断该种类细胞存在异常,否则判定为该种类细胞不存在异常。
8.根据权利要求1所述的一种基于细胞散点图的异常检测方法,其特征在于:所述步骤S5具体为将各种类细胞的各点与风险数据阈值进行对比,超过风险数据阈值的点标记为异常范围细胞,否则标记为安全范围细胞,并计算各种类细胞中异常范围细胞和安全范围细胞的比例,根据所述比例得到细胞存在异常情况的可能性大小。
CN202211004127.1A 2022-08-22 2022-08-22 一种基于细胞散点图的异常检测方法 Pending CN115407076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211004127.1A CN115407076A (zh) 2022-08-22 2022-08-22 一种基于细胞散点图的异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211004127.1A CN115407076A (zh) 2022-08-22 2022-08-22 一种基于细胞散点图的异常检测方法

Publications (1)

Publication Number Publication Date
CN115407076A true CN115407076A (zh) 2022-11-29

Family

ID=84162033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211004127.1A Pending CN115407076A (zh) 2022-08-22 2022-08-22 一种基于细胞散点图的异常检测方法

Country Status (1)

Country Link
CN (1) CN115407076A (zh)

Similar Documents

Publication Publication Date Title
CN106248559B (zh) 一种基于深度学习的白细胞五分类方法
Mui et al. Automated classification of nucleated blood cells using a binary tree classifier
CN101226190B (zh) 流式细胞术的自动分类方法和装置
US20160169786A1 (en) Automated flow cytometry analysis method and system
CN106228554B (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN115019158B (zh) 一种基于图像识别的海洋污染区域识别方法及系统
CN111950525B (zh) 一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法
CN114140669B (zh) 焊接缺陷识别模型训练方法、装置和计算机终端
CN107389536B (zh) 基于密度-距离中心算法的流式细胞粒子分类计数方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
US11331024B2 (en) Calibration method for critical point of mental fatigue based on self-organized criticality
CN112132831A (zh) 一种白细胞散点图异常联合检测方法及系统
CN112906738A (zh) 一种水质检测及处理方法
CN114529226B (zh) 基于工业物联网的地下水污染的监测方法与系统
CN115294109A (zh) 基于人工智能的实木板材生产缺陷识别系统、电子设备
CN111860531A (zh) 一种基于图像处理的扬尘污染识别方法
CN112001315A (zh) 基于迁移学习和图像纹理特征的骨髓细胞分类识别方法
WO2014157750A1 (ko) 하수처리장 유출수질의 상태에 대한 원인인자 제공장치 및 방법
CN112313702A (zh) 显示控制设备、显示控制方法以及显示控制程序
CN101231229A (zh) 液体含菌量非染色自动计数方法
CN115407076A (zh) 一种基于细胞散点图的异常检测方法
CN116777917A (zh) 一种光缆生产用缺陷检测方法及系统
CN111274949A (zh) 一种基于结构分析的血液病白细胞散点图相似度分析方法
CN116246100A (zh) 染色体图像可解释评估选取方法、装置、设备及存储介质
EP3230887A1 (en) Automated flow cytometry analysis method and system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination