CN117542047A

CN117542047A - 高密度基因芯片微珠类型的自适应判断方法及装置

Info

Publication number: CN117542047A
Application number: CN202311502094.8A
Authority: CN
Inventors: 刘超钧; 刘若愚; 许心意; 李智
Original assignee: Suzhou Lasso Biochip Technology Co ltd
Current assignee: Suzhou Lasso Biochip Technology Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-09

Abstract

本发明提供了一种高密度基因芯片微珠类型的自适应判断方法及装置。自适应判断方法包括步骤S1：获取同一高密度基因芯片在不同光道下得到的扫描图中提取出来的每个微珠的灰度值；步骤S2：将不同光道扫描图中的同一微珠对应的灰度值进行预处理后的数据转换到极坐标中进行聚类；步骤S3：根据每个微珠在极坐标中所处的位置和预先设定的判断规则判断微珠类型，所述预先设定的判断规则包括每个微珠在极坐标中所处的位置与微珠类型之间的对应关系。本申请的技术方案操作简单，能够通过代码化的方式实现快速准确地自动判断高密度基因芯片上的微珠类型。

Description

高密度基因芯片微珠类型的自适应判断方法及装置

技术领域

本发明涉及基因芯片的微珠类型的判断方法，尤其涉及一种基于极坐标的高密度基因芯片微珠类型的自适应判断方法。

背景技术

在高密度基因芯片的生产制造环节，需要对高密度基因芯片进行解码，为此，我们需要知道在高密度基因芯片上的每一个微珠的类型，但是由于微珠铺入方式的限制，我们无法在最开始得知这一信息。现有技术采用多光道多次循环(“杂交-扫描-洗脱”为一次循环)解码实验方法确定高密度基因芯片上的微珠类型，但是，这种方法在杂交次数少，扫描光道少的情况下，效果会略显逊色。

发明内容

为了克服上述技术缺陷，本发明的第一个方面提供一种基于极坐标的高密度基因芯片微珠类型的自适应判断方法，其包括：

步骤S1：获取同一高密度基因芯片在不同光道下得到的扫描图中提取出来的每个微珠的灰度值；

步骤S2：将不同光道扫描图中的同一微珠对应的灰度值进行预处理后的数据转换到极坐标中进行聚类；

步骤S3：根据每个微珠在极坐标中所处的位置和预先设定的判断规则判断微珠类型，所述预先设定的判断规则包括每个微珠在极坐标中所处的位置与微珠类型之间的对应关系。

进一步地，在步骤S1中使用的不同光道包括光道a和光道b；在步骤S2中，微珠在光道a和光道b的灰度值分别用I_a,I_b表示，极坐标中的两条坐标轴的含义如下：

x轴：

y轴：

x轴表示同一微珠两光道灰度值的比值的对数，y轴表示同一微珠两光道灰度值的模值；

每一微珠在极坐标中的位置定义为(θ，ρ)。

进一步地，在步骤S2中，通过下述标准化方法进行预处理，从而使α，β两簇数据中心点的θ值关于y轴对称：

α＝(i|I_a(i)≥I_b(i))

β＝(j|I_b(j)＞I_a(j))

U＝α+β

在||α||＝β||的情况下，最终可得：

其中，I_a(i)为i微珠在a光道中的灰度值，I_b(i)为i微珠在b光道中的灰度值，I_b(j)为j微珠在b光道中的灰度值，I_a(j)为j微珠在a光道中的灰度值，α为满足条件的i微珠的集合，β为满足条件的j微珠的集合，U为由α和β组成的微珠全集。

进一步地，在步骤S2中，所述预处理方法进一步包括：若两光道各自所有微珠的灰度值的对数的和不相等，我们便可以通过等式两端各乘以一个系数F_a，F_b的方式使得等式在任何情况下都成立：

上式经过幂运算变换后可得：

如果想在预处理后，两光道所有微珠灰度值均值为M：

通过求解以上方程组，我们可以得到一组F_a，F_b的取值，使得a光道和b光道中所有微珠灰度值均值为M。

进一步地，在步骤S3中，假设θ的阈值为ω，ρ的阈值为σ，所述判断规则为：

第一微珠类型：ρ≥σ且θ≤-ω；

第二微珠类型：ρ≥σ且θ≥ω；

第一异常类型：ρ<σ；

第二异常类型：ρ≥σ且θ≥-ω且θ≤ω。

进一步地，通过以下方法确定阈值ω和阈值σ的取值：

(1)选取多组数据，进行预处理，使得极坐标中的点在ρ轴上的最小取值变为0(I-min(I))；

(2)暂将落在第一象限中的所有微珠划分为第一微珠类型，第二象限中的所有微珠划分为第二微珠类型；

(3)将整个极坐标划分为众多细小的子区域；

(4)计算每个子区域中微珠的微珠类型与预先得到的微珠类型真实值的准确率，作为该子区域的准确率；

(5)根据不同ρ对应的准确率，确定当准确率为acc时的ρ取值为阈值σ，其中acc为所有子区域的准确率的99％百分位数；

(6)去除低于阈值σ的数据点，对剩余数据进行幂运算预处理；

(7)重复上述步骤(2)～(4)；

(8)根据上述步骤(7)得到的不同θ对应的准确率，确定当准确率为acc时的θ取值为阈值ω，其中acc为所有子区域的准确率的99％百分位数。

本发明的第二个方面提供一种基于极坐标的高密度基因芯片微珠类型的自适应判断装置，其包括：

输入模块，所述输入模块用于获取同一高密度基因芯片在不同光道下得到的扫描图中提取出来的每个微珠的灰度值；

数据处理模块，所述数据处理模块用于将不同光道扫描图中的同一微珠对应的灰度值进行预处理后的数据转换到极坐标中进行聚类；

判断模块，所述判断模块用于根据每个微珠在极坐标中所处的位置和预先设定的判断规则判断微珠类型，所述预先设定的判断规则包括每个微珠在极坐标中所处的位置与微珠类型之间的对应关系。

进一步地，不同光道包括光道a和光道b；微珠在光道a和光道b的灰度值分别用I_a,I_b表示，极坐标中的两条坐标轴的含义如下：

x轴：

y轴：

每一微珠在极坐标中的位置定义为(θ，ρ)。

进一步地，所述数据处理模块用于通过下述标准化方法进行预处理，从而使α，β两簇数据中心点的θ值关于y轴对称：

α＝(i|I_a(i)≥I_b(i))

β＝(j|I_b(j)＞I_a(j))

U＝α+β

在||α||＝||β||的情况下，最终可得：

进一步地，所述数据处理模块还用于：若两光道各自所有微珠的灰度值的对数的和不相等，我们便可以通过等式两端各乘以一个系数F_a，F_b的方式使得等式在任何情况下都成立：

上式经过幂运算变换后可得：

如果想在预处理后，两光道所有微珠灰度值均值为M：

进一步地，假设θ的阈值为ω，ρ的阈值为σ，所述判断模块使用的所述判断规则为：

第一微珠类型：ρ≥σ且θ≤-ω；

第二微珠类型：ρ≥σ且θ≥ω；

第一异常类型：ρ<σ；

第二异常类型：ρ≥σ且θ≥-ω且θ≤ω。

进一步地，所述判断模块通过以下方法确定阈值ω和阈值σ的取值：

(3)将整个极坐标划分为众多细小的子区域；

(7)重复上述步骤(2)～(4)；

采用了上述技术方案后，与现有技术相比，具有以下有益效果：

本申请技术方案将高密度基因芯片上的每一颗微珠在多个光道中的灰度值进行预处理并转化到极坐标中进行聚类的方式来自适应地判断作为核酸探针固定载体的微珠类型，而不仅仅考虑单一光道的灰度值(若仅仅考虑单一光道的灰度值，微珠类型判断的准确度不高)，从而更加准确地区分微珠类型。之所以选择极坐标而不是笛卡尔坐标系，是因为在极坐标中，不同的微珠类型自然地处于不同的象限之中，更有利于我们区分；而笛卡尔坐标系中所有数据点均处于第一象限。另一个极坐标好处，是可以用一条平行于坐标轴的直线来依据两光道灰度值模值将数据分开；而在笛卡尔坐标系中则需要复杂的曲线才能达到相同的效果。

然而微珠灰度值在极坐标系中的分布通常是不利于聚类的(因为其每簇的数据分布为长条型，且不同簇数据之间有交叠，这导致了现有的聚类算法均无法高效地将这种分布的数据分开)，为了解决此问题，我们将每一颗微珠在多个光道的扫描图灰度值进行一定的预处理(例如，标准化和幂运算)后转化到极坐标系中，从而使得所有芯片数据都能对称地出现在极坐标中相对固定的位置，并且两簇数据中心点的θ值能够关于y轴对称，确保了我们的极坐标聚类算法拥有良好的结果。并且，进一步地，通过寻找一组合适的ω,σ(σ为极坐标y轴方向上的阈值，ω为极坐标x轴方向上的阈值)的取值使得我们的算法划分出的微珠类型尽量准确。经过在测试集上进行测试，召回率((划分出的微珠类型1数量+划分出的微珠类型2数量)/(真实微珠类型1数量+真实微珠类型2数量))达到98％以上，准确率达到97％以上。综上所述，本申请的技术方案操作简单，能够通过代码化的方式实现快速准确地自动判断高密度基因芯片上的微珠类型。

附图说明

图1为本申请的基于极坐标的高密度基因芯片微珠类型的自适应判断方法的流程图；

图2为不同ρ对应的准确率图，图中x轴为ρ，y轴为对应的准确率；

图3为不同θ对应的准确率图，图中x轴为θ，y轴为对应的准确率；

图4为准确率的热力图，图中为x,y,z轴为别为θ、ρ、准确率；

图5为每一颗微珠在多个光道的扫描图灰度值进行一定的预处理(例如，标准化和幂运算)后转化到极坐标系中的效果示例图，图中的左、右两簇数据中心点的θ值关于y轴对称，位于左、右两簇数据下方的那一簇数据对应于第一异常类型(ρ<σ)的微珠。

具体实施方式

以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

本实施例提供一种基于极坐标的高密度基因芯片微珠类型的自适应判断装置，其包括：输入模块、数据处理模块和判断模块。输入模块用于获取同一高密度基因芯片在不同光道下得到的扫描图中提取出来的每个微珠的灰度值。数据处理模块用于将不同光道扫描图中的同一微珠对应的灰度值进行预处理后的数据转换到极坐标中进行聚类。判断模块用于根据每个微珠在极坐标中所处的位置和预先设定的判断规则判断微珠类型，所述预先设定的判断规则包括每个微珠在极坐标中所处的位置与微珠类型之间的对应关系。

如图1所示，采用上述基于极坐标的高密度基因芯片微珠类型的自适应判断装置对进行高密度基因芯片微珠类型进行判断的方法包括步骤S1-步骤S3(通过计算机程序被执行时实现步骤S1-步骤S3)：

步骤S1：获取同一高密度基因芯片在不同光道下得到的扫描图中提取出来的每个微珠的灰度值

首先，将同一高密度基因芯片在不同光道下进行扫描，分别得到不同光道下的扫描图，然后从每一张高密度基因芯片扫描图中提取出每个微珠的灰度值。示例地，本实施例使用的不同光道包括光道a和光道b，微珠在光道a和光道b的灰度值分别用I_a，I_b表示。本实施例技术方案能够在极坐标中同时考虑两个光道的信息，自适应地判断高密度基因芯片中作为核酸探针固定载体的微球的类型，而不仅仅考虑单一光道的灰度值，从而更加准确地区分微珠类型。

步骤S2：将不同光道扫描图中的同一微珠对应的灰度值进行预处理后的数据转换到极坐标中进行聚类

本步骤通过将不同光道扫描图中，同一微珠的灰度值组合到一起，再将灰度值转移到极坐标中进行聚类。本实施例选择将每颗微珠在两个光道中的灰度值绘制在极坐标中的方式判断其微珠类型。之所以选择极坐标而不是笛卡尔坐标系，是因为在极坐标中，不同的微珠类型自然地处于不同的象限之中，更有利于我们区分；而笛卡尔坐标系中所有数据点均处于第一象限。另一个极坐标好处，是可以用一条平行于坐标轴的直线来依据两光道灰度值模值将数据分开；而在笛卡尔坐标系中则需要复杂的曲线才能达到相同的效果。

本申请中的极坐标中的两条坐标轴的含义如下：

x轴：

y轴：

x轴表示同一微珠两光道灰度值的比值的对数，为了避免当I_b＞I_a时的比值取值范围远大于I_b＜I_a时的比值取值范围，我们对比值取对数，使得比值的取值范围能够尽量达到关于y轴对称的效果。y轴表示同一微珠两光道灰度值的模值。每一微珠在极坐标中的位置定义为(θ，ρ)。

然而微珠灰度值在极坐标系中的分布通常是不利于聚类的：其每簇的数据分布为长条型，且不同簇数据之间有交叠。这导致了现有的聚类算法均无法高效地将这种分布的数据分开。因此，我们的做法是，将每一颗微珠在两个光道的扫描图灰度值进行一定的预处理后，转化到极坐标系中。不幸的是，对于不同的芯片而言，灰度值的分布并不完全相同；因此，如果我们想要对所有的数据通过极坐标中固定的区域来判断微珠类型，并不会有太好的效果。因此，为了使得所有芯片的数据都能出现在极坐标中相对固定的位置，并且两簇数据中心点的θ值能够关于y轴对称，我们提出并使用下面的标准化方法来对数据进行标准化。

设有效的微珠的集合为α，β，其定义分别为：

α＝(i|I_a(i)≥I_b(i))

β＝(j|I_b(j)＞I_a(j))

其与全集U的关系：

U＝α+β

若我们想α，β两簇两簇数据中心点的θ值关于y轴对称，则其应满足以下关系：

经变形，等式变为：

将对数求和转变为其指数相乘：

经变形，等式变为：

在实际设计实验中，我们将集合α与集合β的微珠数量设计为一致，因此我们有：

||α||＝||β||

在这种条件下，上式变化为：

若我们对等式两边取对数，等式变为：

因此，我们可以看到：当两个光道所有微珠灰度值的乘积相等(或灰度值的对数的和相等)时，其转换到极坐标系后，两簇点关于y轴对称。

在上述公式中，I_a(i)为i微珠在a光道中的灰度值，I_b(i)为i微珠在b光道中的灰度值，I_b(j)为j微珠在b光道中的灰度值，I_a(j)为j微珠在a光道中的灰度值，α为满足条件的i微珠的集合，β为满足条件的j微珠的集合，U为由α和β组成的微珠全集。

但是一般情况下，这两个乘积并不相等，所以我们直接将原始数据转换到极坐标系，并不利于我们的分析。这时，我们可以通过标准化而达到“是数据关于y轴对称”的目的。

根据上述等式，若两光道各自所有微珠的灰度值的对数的和不相等，我们便可以通过等式两端各乘以一个系数F_a，F_b的方式使得等式在任何情况下都成立：

上式经过幂运算变换后可得：

至此，我们可以非常清晰地看出，通过对某光道的所有微珠灰度值进行幂运算的方式对数据进行预处理，我们可以使得数据变换到极坐标后，两簇数据关于y轴对称。

有无数组F_a，F_b的取值可以使得预处理后数据在极坐标中可以关于y轴对称。

如果我们想在预处理后，两光道所有微珠灰度值均值为M：

通过求解以上方程组，我们可以得到一组F_a，F_b的取值，使得：

(1)a光道和b光道中所有微珠预处理后灰度值的均值为M。

(2)这组数据转换到极坐标后，两簇数据中心点的θ值关于y轴对称。

因此，通过我们提出的这种预处理方法，我们可以确保任何数据转换到我们的极坐标中后，两簇数据对称地出现在相对比较固定的位置。这也确保了我们的极坐标聚类算法拥有良好的结果。

步骤S3：根据每个微珠在极坐标中所处的位置和预先设定的判断规则判断微珠类型，所述预先设定的判断规则包括每个微珠在极坐标中所处的位置与微珠类型之间的对应关系

既然数据的分布位置已经基本固定，假设θ的阈值为ω，ρ的阈值为σ，我们便可以通过以下方法确定阈值ω和阈值σ的取值，从而使得我们的算法划分出的微珠类型尽量准确：

(3)将整个极坐标划分为众多细小的子区域；

(4)计算每个子区域中微珠的微珠类型与预先得到的微珠类型真实值(微珠类型真实值是采用现有常规技术预先确定的，例如，多光道多循环(“杂交-扫描-洗脱”为一次循环)的解码方法)得到的微珠类型作为标准答案，与极坐标法中不同子区域得到的结果对比计算准确率)的准确率，作为该子区域的准确率；

(5)根据不同ρ对应的准确率，确定当准确率为acc时的ρ取值为阈值σ，其中acc为所有子区域的准确率的99％百分位数，如图2所示，阈值σ为30，当ρ≥30时，ρ取值对应的微珠的解码准确率达到很高的水平；

(6)去除低于阈值σ的数据点(即去除准确率低于acc的ρ取值，其中acc为所有子区域的准确率的99％百分位数)，对剩余数据进行幂运算预处理；

(7)重复上述步骤(2)～(4)；

(8)根据上述步骤(7)得到的不同θ对应的准确率，确定当准确率为acc时的θ取值为阈值ω，其中acc为所有子区域的准确率的99％百分位数。如图3所示，阈值ω为0.7和-0.7，当θ≥0.7或者θ≤-0.7时，θ取值对应的微珠的解码准确率达到很高的水平。

准确率的热力图如图4所示，图中x,y,z轴分别为θ、ρ、准确率。

最终我们算法的效果如图5所示，经过在实际数据上进行测试，可以看到，我们的算法很好地将不同簇的数据进行了划分。

最后，根据每个微珠在极坐标中所处的位置和预先设定的判断规则判断微珠类型。

示例地，预先设定的判断规则为：

第一微珠类型：ρ≥σ且θ≤-ω；

第二微珠类型：ρ≥σ且θ≥ω；

第一异常类型：ρ<σ；

第二异常类型：ρ≥σ且θ≥-ω且θ≤ω。

本领域技术人员可以理解的是，上述微珠类型和异常类型仅是便于理解的示例，并不用于限定高密度基因芯片上的微珠类型和异常类型。

此外，经过在测试集上进行测试，召回率(召回率＝(划分出的第一微珠类型数量+划分出的第二微珠类型数量)/(真实第一微珠类型数量+真实第二微珠类型数量))达到98％以上，准确率达到97％以上。

应当注意的是，本发明的实施例有较佳的实施性，且并非对本发明作任何形式的限制，任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例，但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于极坐标的高密度基因芯片微珠类型的自适应判断方法，其特征在于，包括：

2.如权利要求1所述的基于极坐标的高密度基因芯片微珠类型的自适应判断方法，其特征在于，在步骤S1中使用的不同光道包括光道a和光道b；在步骤S2中，微珠在光道a和光道b的灰度值分别用I_a,I_b表示，极坐标中的两条坐标轴的含义如下：

x轴：

y轴：

每一微珠在极坐标中的位置定义为(θ，ρ)。

3.如权利要求2所述的基于极坐标的高密度基因芯片微珠类型的自适应判断方法，其特征在于，在步骤S2中，通过下述标准化方法进行预处理，从而使α,β两簇数据中心点的θ值关于y轴对称：

α＝(i|I_a(i)≥I_b(i))

β＝(j|I_b(j)＞I_a(j))

U＝α+β

在||α||＝||β||的情况下，最终可得：

4.如权利要求3所述的基于极坐标的高密度基因芯片微珠类型的自适应判断方法，其特征在于，在步骤S2中，所述预处理方法进一步包括：若两光道各自所有微珠的灰度值的对数的和不相等，我们便可以通过等式两端各乘以一个系数F_a，F_b的方式使得等式在任何情况下都成立：

上式经过幂运算变换后可得：

如果想在预处理后，两光道所有微珠灰度值均值为M：

5.如权利要求4所述的基于极坐标的高密度基因芯片微珠类型的自适应判断方法，其特征在于，在步骤S3中，假设θ的阈值为ω，ρ的阈值为σ，所述判断规则为：

第一微珠类型：ρ≥σ且θ≤-ω；

第二微珠类型：ρ≥σ且θ≥ω；

第一异常类型：ρ<σ；

第二异常类型：ρ≥σ且θ≥-ω且θ≤ω。

6.如权利要求5所述的基于极坐标的高密度基因芯片微珠类型的自适应判断方法，其特征在于，通过以下方法确定阈值ω和阈值σ的取值：

(3)将整个极坐标划分为众多细小的子区域；

(7)重复上述步骤(2)～(4)；

7.一种基于极坐标的高密度基因芯片微珠类型的自适应判断装置，其特征在于，包括：

8.如权利要求7所述的基于极坐标的高密度基因芯片微珠类型的自适应判断装置，其特征在于，不同光道包括光道a和光道b；微珠在光道a和光道b的灰度值分别用I_a,I_b表示，极坐标中的两条坐标轴的含义如下：

x轴：

y轴：

每一微珠在极坐标中的位置定义为(θ，ρ)。

9.如权利要求8所述的基于极坐标的高密度基因芯片微珠类型的自适应判断装置，其特征在于，所述数据处理模块用于通过下述标准化方法进行预处理，从而使α,β两簇数据中心点的θ值关于y轴对称：

α＝(i|I_a(i)≥I_b(i))

β＝(j|I_b(j)＞I_a(j))

U＝α+β

在||α||＝||β||的情况下，最终可得：

10.如权利要求9所述的基于极坐标的高密度基因芯片微珠类型的自适应判断装置，其特征在于，所述数据处理模块还用于：若两光道各自所有微珠的灰度值的对数的和不相等，我们便可以通过等式两端各乘以一个系数F_a，F_b的方式使得等式在任何情况下都成立：

上式经过幂运算变换后可得：

如果想在预处理后，两光道所有微珠灰度值均值为M：

11.如权利要求10所述的基于极坐标的高密度基因芯片微珠类型的自适应判断装置，其特征在于，假设θ的阈值为ω，ρ的阈值为σ，所述判断模块使用的所述判断规则为：

第一微珠类型：ρ≥σ且θ≤-ω；

第二微珠类型：ρ≥σ且θ≥ω；

第一异常类型：ρ<σ；

第二异常类型：ρ≥σ且θ≥-ω且θ≤ω。

12.如权利要求11所述的基于极坐标的高密度基因芯片微珠类型的自适应判断装置，其特征在于，所述判断模块通过以下方法确定阈值ω和阈值σ的取值：

(3)将整个极坐标划分为众多细小的子区域；

(7)重复上述步骤(2)～(4)；