CN114324124A

CN114324124A - 一种基于概率密度估计的散点样本数据扩充方法

Info

Publication number: CN114324124A
Application number: CN202111569653.8A
Authority: CN
Inventors: 韦笑; 王梦龙; 秦鑫龙; 王岩
Original assignee: Urit Medical Electronic Co Ltd
Current assignee: Urit Medical Electronic Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-12

Abstract

本发明涉及医疗技术领域，具体涉及一种基于概率密度估计的散点样本数据扩充方法，包括提取样本的生成模板中的散点组，并对散点组进行标注后分类，得到多个类型数据；为多个类型数据分别建立概率分布模型；基于多个概率分布模型的概率分别建立多个概率方程，并基于多个概率方程将对应的概率分布模型进行初始化，得到多个初始化模型，设置多个初始化模型的迭代次数；根据迭代次数加1后的奇偶，计算多个初始化模型的后验概率；更新多个初始化模型中的参数，并对多个初始化模型的后验概率进行统计；直至相邻两个后验概率之差的绝对值小于预设阈值，或迭代次数达到上限阈值，得到最终分布模型；基于最终分布模型，生成多个散点数据。

Description

一种基于概率密度估计的散点样本数据扩充方法

技术领域

本发明涉及医疗技术领域，尤其涉及一种基于概率密度估计的散点样本数据扩充方法。

背景技术

流式细胞分析仪是分析人体生理情况的一种重要仪器，它通过分析血液、尿液的散点图，计算出被测标本内各类细胞的数量以及占比，提示人体是否存在可能的病变，给医生的诊断提供依据。流式细胞仪运行过程中会使体液(血液、尿液、胸腹水等)中的物质依次通过激光器照射，然后接收并记录物质通过激光器时前向、10°侧向、90°侧向等方向上散射出的激光强度，得到该细胞体积、内部复杂度、核酸含量等特征的相对值。当流式细胞仪采集到到几百或几千个细胞特征后，则可以汇总形成该组被测标本的细胞散点图，散点图中同类细胞由于具有相同的特征，因而会聚集成团。依据该理论，流式细胞仪可以通过一定的细胞分类算法，对散点图上的细胞进行分类。由于人与人之间细胞形态、大小都不会完全相同，因此开发细胞分类算法时需要在大量的标本上进行性能验证，以保证分类算法具有较强的鲁棒性。为收集到足够数量的标本散点图，目前主流的方法是大量收集血液、尿液标本进行测试，每一份标本重复测试数次后存储其散点图数据存入样本库。

该方法面临着诸多问题，首先，每收集一份样本数据，都要流式细胞仪进行一次测试，因此需要消耗大量时间、大量试剂来收集到足量的样本。其次，某些特定的标本常常难以大量收集，例如疟疾血样常见于热带国家，且疟疾标本无法运回总部实验室进行分析。再次，每份标本的体积有限，只能测试一定的次数，若需要大量收集某个标本的样本数据，则需要长期对该标本的主人跟踪，定期采集其体液标本送入流式细胞仪采集数据，成本高昂。

发明内容

本发明的目的在于提供一种基于概率密度估计的散点样本数据扩充方法，旨在解决现有的细胞分类算法需要通过对大量样本进行分析，耗时长成本高，的问题。

为实现上述目的，本发明提供了一种基于概率密度估计的散点样本数据扩充方法，包括以下步骤：

S1提取样本的生成模板中的散点组，并对所述散点组进行标注后分类，得到多个类型数据；

S2分别为多个所述类型数据建立概率分布模型；

S3基于多个所述概率分布模型的概率分别建立多个概率方程，并基于多个所述概率方程将对应的所述概率分布模型进行初始化，得到多个初始化模型，设置多个所述初始化模型的迭代次数；

S4根据所述迭代次数加1后的奇偶情况，计算多个所述初始化模型的后验概率；

S5更新多个所述初始化模型中的参数，并对多个所述初始化模型的所述后验概率进行统计；

S6重复步骤S4和S5，直至相邻两个所述后验概率之差的绝对值小于预设阈值，或迭代次数达到上限阈值，得到最终分布模型；

S7基于所述最终分布模型，生成多个散点数据。

其中，所述S1提取样本的生成模板中的散点组，并对所述散点组进行标注后分类，得到多个类型数据的具体方式为：

S11通过所述流式细胞仪对所述样本进行采集，得到散点图测试结果样本；

S12将所述散点图测试结果样本作为散点数据生成模板，得到生成模板；

S13提取所述生成模板中的散点组，并对所述散点组进行标注后分类，得到多个类型数据。

其中，所述S4根据所述迭代次数加1后的奇偶情况，计算多个所述初始化模型的后验概率的具体方式为：

S41判断多个所述初始化模型中的其中一个所述迭代次数加1后的奇偶，当为奇数时执行S42，当为偶数时执行S43；

S42计算所述散点组中的对应一个的所述散点对应的所述概率分布模型的所述后验概率；

S43计算多个所述类型数据中的对应一类所述类型数据的所述后验概率；

S44重复步骤S41至S43，直至得出多个所述初始化模型的所述后验概率。

其中，所述S5更新多个所述初始化模型中的参数，并对多个所述初始化模型的所述后验概率进行统计的具体方式为：

更新多个所述初始化模型中的所述协方差矩阵和所述概率分布模型的参数，并对多个所述初始化模型的所述后验概率进行统计。

其中，所述S7基于所述最终分布模型，生成多个散点数据的具体方式为：

S71随机生成坐标和整数；

S72将所述坐标和所述整数带入所述最终分布模型中，得到散点概率；

S73生成随机小数，若所述小数大于等于所述散点概率，则将所述坐标作为散点数据保存；

S74重复步骤S71至S74，得到多个所述散点数据。

本发明的一种基于概率密度估计的散点样本数据扩充方法，通过提取样本的生成模板中的散点组，并对所述散点组进行标注后分类，得到多个类型数据；分别为多个所述类型数据建立概率分布模型；基于多个所述概率分布模型的概率分别建立多个概率方程，并基于多个所述概率方程将对应的所述概率分布模型进行初始化，得到多个初始化模型，设置多个所述初始化模型的迭代次数；根据所述迭代次数加1后的奇偶情况，计算多个所述初始化模型的后验概率；更新多个所述初始化模型中的参数，并对多个所述初始化模型的所述后验概率进行统计；重复前两个步骤，直至相邻两个所述后验概率之差的绝对值小于预设阈值，或迭代次数达到上限阈值，得到最终分布模型，可通过一次标本测试获得多份散点图数据，解决了现有的细胞分类算法需要通过对大量样本进行分析，耗时长成本高，的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于概率密度估计的散点样本数据扩充方法的流程图。

图2是提取样本的生成模板中的散点组，并对所述散点组进行标注后分类，得到多个类型数据的流程图。

图3是分别为多个所述类型数据建立概率分布模型的流程图。

图4是根据所述迭代次数加1后的奇偶情况，计算多个所述初始化模型的后验概率的流程图。

图5是基于所述最终分布模型，生成多个散点数据流程图。

图6是血细胞的散点图测试结果样本图。

图7是血细胞的概率函数分布图。

图8是散点数据为100个坐标的样本图。

图9是散点数据为1000个坐标的样本图。

图10是散点数据为10000个坐标的样本图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图5，本发明提供一种基于概率密度估计的散点样本数据扩充方法，包括以下步骤：

具体方式为：S11通过所述流式细胞仪对所述样本进行采集，得到散点图测试结果样本；

具体的，所述模板样本包含N个散点(N>1000)。

具体的，将N个散点标注并分为了M类型数据。

S2分别为多个所述类型数据建立概率分布模型；

具体方式为：S21计算所述散点组的平均值和协方差矩阵；

所述散点组的平均值也就是重心点

S22基于所述平均值和所述协方差矩阵分别为多个所述类型数据建立概率分布模型。

具体的，为M类型数据建立M个概率分布模型，由于细胞分布近似于二维高斯分布，于是此处使用二维高斯函数建立模型f_i(x，y)。

其中，式中i表示M类型数据的第i类数据，Σ_i为模型的协方差矩阵；p_i是第i类数据x轴与y轴之间的相关系数；

分别为第i类数据x轴、y轴标准差；

为第i类散点数据的重心坐标，T是数学的上矩阵的转置标志。

具体的，所述概率方程G(x,y)，表示坐标(x,y)处散点的出现总概率。

其中，式中P_i为模型f_i(x,y)的概率。

随后开始初始化模型，得到多个所述初始化模型，所有P_i的初始值均设为

所有p_i的初始值均设为0，各

以0到1之间的随机值初始化，迭代次数K设为0。

具体方式为：S41判断多个所述初始化模型中的其中一个所述迭代次数加1后的奇偶，当为奇数时执行S42，当为偶数时执行S43；

具体的，当迭代次数是奇数时，直接计算各个散点j相对概率分布模型i的后验概率ψ_ij。

具体的，当迭代次数是偶数时，则仅计算类型为i的散点的后验概率ψ_ij。

S44重复步骤S41至S43，直至得出多个所述初始化模型的所述后验概率ψ_ij；

其中，式中i表示第i类数据，j表示模板样本中N个散点中的第j个散点。

假设有N个高斯模型所述二维高斯函数建立模型(N个散点团)，奇数时把所有散点数据分别带入1、2、3...i个高斯模型的公式，以更新各个模型，偶数时，把第1类散点数据(也就是只要第1个高斯模型对应的散点团的散点)带入第1个高斯模型，第2类散点带入第2个模型...，第i类散点带入第i个模型，以更新各个模型，这样做的目的是加速模型的收敛速度、提高模型鲁棒性。实际上若一直执行奇数的步骤，模型同样也可以收敛。迭代过程中所有散点数据全部计算与每个分类数据单独计算间隔进行，以加速模型参数的收敛。

具体的，更新多个所述初始化模型中的所述协方差矩阵和所述概率分布模型的参数，并对多个所述初始化模型的所述后验概率进行统计。

根据下式更新所述初始化模型对应的所述概率方程中的参数Σ_i、P_i，式中N_i为本次迭代中f_i(x,y)所用的数据点总数。当K为奇数时，N_i＝N；当K为偶数时，N_i的值等于类型为i的散点的个数。同时当K为偶数时，不更新P_i。完成参数更新后，统计本次迭代完成后全部点的概率和，该和用G_K表示。

具体的，直至前后两次循环的G_K、G_K-1之差的绝对值小于阈值或迭代次数达到上限，此时取当前各Σ_i、P_i作为最终值，得到第i类数据的分布模型f_i(x,y)即所述最终分布模型。

S7基于所述最终分布模型，生成多个散点数据。

具体方式为：S71随机生成坐标和整数；

具体的，随机生成坐标(x_n,y_n)与整数a，其中a∈[1，M]。

具体的，将坐标(x_n,y_n)带入f_a(x,y)得到概率p_n。

其中，定义了a∈[1,M]，因此fa(x,y)就是fi(x,y)中的某一个。例如:

a＝1时，fa(x,y)＝f1(x,y)；

a＝2时，fa(x,y)＝f2(x,y)；

具体的，生成一个随机小数b，且令

若b大于设定的阈值且p_n≥b，则保留点(x_n,y_n)。

S74重复步骤S71至S74，得到多个所述散点数据。

以流式细胞仪的血细胞计数样本数据扩充为例加以说明：

步骤1：取一人血标本，通过流式细胞仪计数细胞数量，得到一份血细胞散点图样本作为散点数据生成模板，该样本图形与直方图分布如图6所示，图中每个点表示一个细胞，不同类型的细胞已完成分类并使用不同的形状表示，其中星形为淋巴细胞，倒三角为单核细胞，菱形为中性粒细胞，圆形为嗜酸性粒细胞。步骤2：上图已将散点图中细胞散点分为四类，根据标签可计算出各类细胞的重心点μ_i。

步骤3：将P₁、P₂、P₃、P₄初始值设为0.25，将各p_i初始值设为0，以随机值初始化各

此时：

将各点坐标代入概率分布方程G(x,y)可得到初始条件下各坐标的分布概率，本实施中初始条件下G(0.5,0.5)＝0.1333524。本实施中初始条件下的概率函数分布如图7所示，图中四个圆圈表示四个f_i(x,y)：

步骤4：迭代次数K加一。当迭代次数是奇数时，将所有散点数据依次代入各个ψ_ij，得到各点j相对概率分布模型i的后验概率ψ_ij。当迭代次数是偶数时，仅将类型为i的散点带入类型i数据的分布f_i(x,y)，得到ψ_ij。

式中i表示第i类数据，j表示模板样本N个散点中的第j个散点。

步骤5：根据下式更新参数Σ_i、P_i，式中N_i为本次迭代中f_i(x,y)所用的数据点总数，当K为奇数时，N_i＝N，当K为偶数时，N_i的值等于模板样本N个散点中类型为i的散点的个数。同时当K为偶数时，不更新P_i。完成参数更新后，统计本次迭代完成后全部点的概率加权和G_K。

步骤6：本次实施中设置迭代次数上限为2000，重复步骤4、步骤5，直至|G_K-G_K-1|<0.1或K>2000。当迭代停止后，取当前的各Σ_i、P_i作为最终值，得到各高斯分布模型的最终估计结果f_i(x,y)。本次实施完成迭代后，得到各参数如下：

P₁＝0.09620503；

P₂＝0.57764903；

P₃＝0.26663166；

P₄＝0.05951428；

步骤7：随机生成坐标(x_n,y_n)与整数a，其中a∈[1，M]，将坐标(x_n,y_n带入f_a(x,y)得到概率p_n。再生成一个随机小数b，且令

若b大于设定的阈值且p_n≥b，则保留点(x_n,y_n)。

步骤8：重复步骤7直至生成足够的散点数据，即可获得一份扩充数据。至此本实施根据所选的模板样本完成了散点概率分布估计，建立了散点分布模型，此后便可以根据模型扩充出任意数量符合模板样本分布的新数据，散点数据为100个坐标时如图8所示，散点数据为1000个坐标时如图9所示，散点数据为1000个坐标时如图10所示。

有益效果，本发明改变了过去测一次血液、尿液标本才能获取到一份散点图数据的模式，可通过一次标本测试获得多份散点图数据。具体来说以高斯概率公式作为基础，计算现有散点图数据的分布概率，将多个高斯分布叠加建立了输入流式细胞仪细胞散点图的数学模型。通过整合随机生成符合该模型分布的散点，生成与输入流式细胞仪细胞散点图分布相似的新散点图，将新散点图用于流式细胞仪性能测试，大幅度降低研发成本投入，解决了现有的细胞分类算法需要通过对大量样本进行分析，耗时长成本高，的问题。

以上所揭露的仅为本发明一种基于概率密度估计的散点样本数据扩充方法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于概率密度估计的散点样本数据扩充方法，其特征在于，包括以下步骤：

S2分别为多个所述类型数据建立概率分布模型；

S7基于所述最终分布模型，生成多个散点数据。

2.如权利要求1所述的基于概率密度估计的散点样本数据扩充方法，其特征在于，

所述S1提取样本的生成模板中的散点组，并对所述散点组进行标注后分类，得到多个类型数据的具体方式为：

3.如权利要求2所述的基于概率密度估计的散点样本数据扩充方法，其特征在于，

所述S2分别为多个所述类型数据建立概率分布模型的具体方式为：

S21计算所述散点组的平均值和协方差矩阵；

4.如权利要求1所述的基于概率密度估计的散点样本数据扩充方法，其特征在于，

所述S4根据所述迭代次数加1后的奇偶情况，计算多个所述初始化模型的后验概率的具体方式为：

5.如权利要求3所述的基于概率密度估计的散点样本数据扩充方法，其特征在于，

所述S5更新多个所述初始化模型中的参数，并对多个所述初始化模型的所述后验概率进行统计的具体方式为：

6.如权利要求1所述的基于概率密度估计的散点样本数据扩充方法，其特征在于，

所述S7基于所述最终分布模型，生成多个散点数据的具体方式为：

S71随机生成坐标和整数；

S74重复步骤S71至S74，得到多个所述散点数据。