CN109002833B - 一种微液滴数据分析方法及系统 - Google Patents

一种微液滴数据分析方法及系统 Download PDF

Info

Publication number
CN109002833B
CN109002833B CN201810600465.9A CN201810600465A CN109002833B CN 109002833 B CN109002833 B CN 109002833B CN 201810600465 A CN201810600465 A CN 201810600465A CN 109002833 B CN109002833 B CN 109002833B
Authority
CN
China
Prior art keywords
signal cluster
sample data
vic
cluster
fam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810600465.9A
Other languages
English (en)
Other versions
CN109002833A (zh
Inventor
马旭
曹宗富
蔡瑞琨
路建波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Science And Technology National Health Commission
Original Assignee
Institute Of Science And Technology National Health Commission
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Science And Technology National Health Commission filed Critical Institute Of Science And Technology National Health Commission
Priority to CN201810600465.9A priority Critical patent/CN109002833B/zh
Publication of CN109002833A publication Critical patent/CN109002833A/zh
Application granted granted Critical
Publication of CN109002833B publication Critical patent/CN109002833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种微液滴数据分析方法及系统,能够高效的对微液滴数据进行聚类分析,并且提高了分析结果的准确性和稳定性。该方法包括:步骤S1:从微液滴样本中获取m个样本数据,m>>3;步骤S2:采用K‑均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇;步骤S3:计算fam信号簇与Vic信号簇的比值结果,当比值结果属于阈值范围内时,执行步骤S5,否则,执行步骤S4;步骤S4:通过K‑均值算法对Vic信号簇优化校正,或者通过DBSCAN算法对fam信号簇优化校正,返回步骤S3;步骤S5:输出Vic信号簇、fam信号簇和噪音信号簇的聚类分布图,得到微液滴样本的数据分析结果。该系统包括上述技术方案所提的方法。

Description

一种微液滴数据分析方法及系统
技术领域
本发明涉及生物反应数值模拟计算技术领域,尤其涉及一种微液滴数据分析方法及系统。
背景技术
微滴式数字PCR技术是一种新型的核酸检测方法,其原理是将每个样本反应液均匀地分布到大量的乳液包裹的微液滴中,在每个微液滴中独立地进行PCR扩增反应,然后通过类似于流式细胞技术的方法逐个对液滴的荧光信号进行检测,确定阳性反应孔和阴性反应孔的个数,再通过统计学方法泊松分布计算样本中核酸拷贝数。
在对微液滴的数据分析过程中,其核心步骤就是对微液滴进行聚类分析,然后根据聚类结果输出微液滴数据的分析结果。现有的微液滴数据分析方法通常是使用能够显示两个测量通道参数的二维散点图,以人工设门的方式对二维散点图中的数据进行聚类分析,但是随着技术的发展,检测参数的数据量也随之成倍增加,传统的人工设门的分析方法已不能够满足庞大的微液滴数据分析业务。
发明内容
本发明的目的在于提供一种微液滴数据分析方法及系统,能够高效的对微液滴数据进行聚类分析,并且提高了分析结果的准确性和稳定性。
为了实现上述目的,本发明的一方面提供一种微液滴数据分析方法,包括:
步骤S1:从微液滴样本中获取m个样本数据,m>>3;
步骤S2:采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇;
步骤S3:计算所述fam信号簇与所述Vic信号簇的比值结果,当所述比值结果属于阈值范围内时,执行步骤S5,否则,执行步骤S4;
步骤S4:通过K-均值算法对所述Vic信号簇优化校正,或者通过DBSCAN算法对所述fam信号簇优化校正,返回步骤S3;
步骤S5:输出Vic信号簇、fam信号簇和噪音信号簇的聚类分布图,得到所述微液滴样本的数据分析结果。
优选地,所述步骤S2,采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇的方法包括:
构建坐标轴,所述坐标轴包括m个样本数据;
随机选取3个样本数据标记,分别标记第一中心点、第二中心点和第三中心点;
依次计算各样本数据分别至各中心点的相异度值,得到初次相异度值集合;
基于所述初次相异度值集合对未标记样本数据进行聚类,分别得到初次Vic信号簇、初次fam信号簇和初次噪音信号簇,并分别重新计算初次Vic信号簇的中心点、初次fam信号簇的中心点和初次噪音信号簇的中心点;
分别计算各样本数据与重新确定的3个中心点的相异度值,得到第2次相异度值集合;
基于第2次相异度值集合对各样本数据进行聚类,对应得到2次Vic信号簇、2次fam信号簇和2次噪音信号簇;
判断第2次聚类结果是否与初次聚类结果一致,若是,将第2次聚类结果输出;否则,执行下述步骤,
再次计算2次Vic信号簇的中心点、2次fam信号簇的中心点和2次噪音信号簇的中心点;
分别计算各样本数据与上次确定的3个中心点的相异度值,得到第n次的聚类结果,n≥3,直至第n次的聚类结果与第n-1次的聚类结果一致,将第n次的聚类结果输出。
较佳地,n次Vic信号簇的中心点、n次fam信号簇的中心点和n次噪音信号簇的中心点的计算方法分别为:
统计n-1次Vic信号簇中的全部样本数据并计算其坐标均值,得到n次Vic信号簇的中心点;
统计n-1次fam信号簇中的全部样本数据并计算其坐标均值,得到n次fam信号簇的中心点;
统计n-1次噪音信号簇中的全部样本数据并计算其坐标均值,得到n次噪音信号簇的中心点。
具体地,上述基于第n次相异度值集合对各样本数据聚类,对应得到n次Vic信号簇、n次fam信号簇和n次噪音信号簇的方法包括:
从所述第n次相异度值集合中,依次筛选各样本数据对应的最小相异度值;
根据所述最小相异度值将各样本数据对应与n次Vic信号簇的中心点、n次fam信号簇的中心点和n次噪音信号簇的中心点聚类,得到n次Vic信号簇、n次Vic信号簇和n次噪音信号簇。
示例性地,所述相异度值的计算方法为:
采用余弦距离公式计算两点坐标余弦值cosθ,所述两点坐标对应为样本数据的坐标,以及任一中心点的坐标;
应用公式|1-cosθ|求得两点坐标的相异度值。
具体地,所述步骤S4,通过K-均值算法对所述Vic信号簇优化校正,或者通过DBSCAN算法对所述fam信号簇优化校正,返回步骤S3包括:
当所述比值结果小于阈值范围时,采用K-均值算法继续对Vic信号簇进行优化校正;或者,
当所述比值结果大于阈值范围时,采用DBSCAN算法继续对Vic信号簇进行优化校正;
返回步骤S3。
较佳地,所述当比值结果小于阈值范围时,采用K-均值算法继续对Vic信号簇进行优化校正的方法包括:
在Vic信号簇中随机选择2个样本数据,分别标记为第四中心点和第五中心点;
分别计算Vic信号簇中各样本数据分别至第四中心点和第五中心点的相异度值,得到初次优化相异度值集合;
基于所述初次优化相异度值集合对各样本数据进行聚类,得到初次优化Vic信号簇和初次优化噪音信号簇,并分别计算初次优化Vic信号簇的中心点和初次优化噪音信号簇的中心点;
分别计算Vic信号簇中各样本数据与重新确定的2个中心点的相异度值,得到第2次优化相异度值集合;
基于第2次优化相异度值集合对Vic信号簇中各样本数据进行聚类,对应得到2次优化Vic信号簇和2次优化噪音信号簇;
判断第2次聚类结果是否与初次聚类结果一致,若是,将第2次聚类结果输出;否则,执行下述步骤,
再次计算2次优化Vic信号簇的中心点和2次优化噪音信号簇的中心点;
依次计算Vic信号簇中各样本数据与上次确定的2个中心点的相异度值,得到第n次的聚类结果,n≥3,直至第n次的聚类结果与第n-1次的聚类结果一致,输出优化后的Vic信号簇和优化后的噪音信号簇。
优选地,所述当比值结果大于阈值范围时,采用DBSCAN算法继续对Vic信号簇进行优化校正的方法包括:
步骤S41:预设扫描半径eps和最小包含点数minPts,并在fam信号簇中随机选择一个未访问的样本数据P,标记为已访问;
步骤S42:以P为圆心获取与其距离在eps之内所有的未访问样本数据;
步骤S43:判断所述未访问样本数据的数量是否大于或等于minPts,若是,则将所述eps之内的所有样本数据定义为候选集合,执行步骤S44,否则,将P定义为噪声点,重新执行步骤S41;
步骤S44:在候选集合中随机选择一个未访问的样本数据标记为P’,以P’为圆心获取与其距离在eps之内的所有样本数据;
步骤S45:判断该样本数据的数量是否大于或等于minPts,若是,则将所述eps之内的样本数据整合至所述候选集合,执行步骤S46,否则,将P’定义为噪声点,并重新执行步骤S44;
步骤S46:重复执行步骤S44和步骤S45直至候选集合充分被拓展,将候选集合中的样本数据标记为优化后的fam信号簇,将所有噪声点标记为校正噪音信号簇。
优选地,将噪音信号簇、优化噪音信号簇和校正噪音信号簇归纳为优化后的噪音信号簇。
与现有技术相比,本发明提供的微液滴数据分析方法具有以下有益效果:
本发明提供的微液滴数据分析方法中,同时使用了K-均值算法和DBSCAN算法对样本数据进行聚类分析,具体的,首先采用K-均值算法对m个样本数据进行分类,初步得到Vic信号簇、fam信号簇以及噪音信号簇,此时需要校正Vic信号簇和fam信号簇的分布比例,当fam信号簇与Vic信号簇的比值结果处于阈值范围内时,则认为Vic信号簇和fam信号簇的分布比例准确,直接输出当前的Vic信号簇、fam信号簇和噪音信号簇,而当fam信号簇与Vic信号簇的比值结果不处于阈值范围内时,则需要采用K-均值算法对Vic信号簇优化校正,或者需要采用DBSCAN算法对fam信号簇优化校正,直至优化校正后的fam信号簇与Vic信号簇的比值结果处在阈值范围内为止,并输出优化校正后的fam信号簇、Vic信号簇和噪音信号簇,及其对应的聚类分布图,使得检测人员根据聚类分布图得到微液滴样本的数据分析结果。
众所周知,K-均值算法是最早出现的聚类分析算法之一,属于基于距离的聚类算法,对于异常值或极值敏感,适合处理分布集中的大样本数据集,具有聚类速度快、效率高的特点,但也存在聚类结果准确性低的缺陷,例如,只能得到“类圆形”的聚类簇;DBSCAN算法是基于密度的聚类算法之一,其优势在于由于是基于“密度”来聚类的,因此可以在具有噪音的空间数据库中发现任意形状的簇,从而弥补了距离聚类只能发现“类圆形”聚类簇的不足,故本发明采用K-均值算法和DBSCAN算法相结合的技术方案,实现达到快速、准确的聚类目的,进而给微液滴样本分析提供有力的数据支持。
本发明的另一方面提供一种微液滴数据分析系统,应用于上述技术方案所述的一种微液滴数据分析方法中,所述系统包括:
获取单元,用于从微液滴样本中获取m个样本数据,m>>3;
分类单元,用于采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇;
比较单元,用于计算所述fam信号簇与所示Vic信号簇的比值结果;
优化校正单元,用于在比值结果不属于阈值范围内时,通过K-均值算法对所述Vic信号簇优化校正,或者通过DBSCAN算法对所述fam信号簇优化校正;
结果输出单元,用于输出Vic信号簇、fam信号簇和噪音信号簇的聚类分布图,得到所述微液滴样本的数据分析结果。
与现有技术相比,本发明提供的微液滴数据分析系统的有益效果与上述技术方案提供的微液滴数据分析方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例一中微液滴数据分析方法的流程示意图;
图2为本发明实施例一中,一组随机实验数据对应的m个样本数据在坐标轴上呈现的原始示意图;
图3a为本发明实施例一中,一组随机实验数据中的m个样本数据对应的Vic信号簇与fam信号簇的比值处于阈值范围内时的聚类示意图;
图3b为本发明实施例一中,一组随机实验数据中的m个样本数据对应的Vic信号簇与fam信号簇的比值不处于阈值范围内时的聚类示意图;
图3c为对图3b优化后的Vic信号簇、fam信号簇和噪音信号簇的聚类示意图;
图4为本发明实施例二中微液滴数据分析系统的结构示意图。
附图标记:
1-获取单元, 2-分类单元;
3-比较单元, 4-优化校正单元;
5-结果输出单元。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
图1为本发明实施例一中微液滴数据分析方法的流程示意图。请参阅图1,本实施例提供一种微液滴数据分析方法,包括:
步骤S1:从微液滴样本中获取m个样本数据,m>>3;步骤S2:采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇;步骤S3:计算fam信号簇与Vic信号簇的比值结果,当比值结果属于阈值范围内时,执行步骤S5,否则,执行步骤S4;步骤S4:通过K-均值算法对Vic信号簇优化校正,或者通过DBSCAN算法对fam信号簇优化校正,返回步骤S3;步骤S5:输出Vic信号簇、fam信号簇和噪音信号簇的聚类分布图,得到微液滴样本的数据分析结果。
本实施例提供的微液滴数据分析方法中,同时使用了K-均值算法和DBSCAN算法对样本数据进行聚类分析,具体的,首先采用K-均值算法对m个样本数据进行分类,初步得到Vic信号簇、fam信号簇以及噪音信号簇,此时需要校正Vic信号簇和fam信号簇的分布比例,当fam信号簇与Vic信号簇的比值结果处于阈值范围内时,则认为Vic信号簇和fam信号簇的分布比例准确,直接输出当前的Vic信号簇、fam信号簇和噪音信号簇,而当fam信号簇与Vic信号簇的比值结果不处于阈值范围内时,则需要采用K-均值算法对Vic信号簇优化校正,或者需要采用DBSCAN算法对fam信号簇优化校正,直至优化校正后的fam信号簇与Vic信号簇的比值结果处在阈值范围内为止,并输出优化校正后的fam信号簇、Vic信号簇和噪音信号簇,及其对应的聚类分布图,使得检测人员根据聚类分布图得到微液滴样本的数据分析结果。
众所周知,K-均值算法是最早出现的聚类分析算法之一,属于基于距离的聚类算法,对于异常值或极值敏感,适合处理分布集中的大样本数据集,具有聚类速度快、效率高的特点,但也存在聚类结果准确性低的缺陷,例如,只能得到“类圆形”的聚类簇;DBSCAN算法(具有噪声的基于密度的聚类方法)是基于密度的聚类算法之一,其优势在于由于是基于“密度”来聚类的,因此可以在具有噪音的空间数据库中发现任意形状的簇,从而弥补了距离聚类只能发现“类圆形”聚类簇的不足,故本实施例采用K-均值算法和DBSCAN算法相结合的技术方案,实现达到快速、准确的聚类目的,进而给微液滴样本分析提供有力的数据支持。
可以理解的是,上述阈值范围是基于海量数据采样分析得到的,优选地,阈值范围为0.9~1.1。
具体地,上述实施例中步骤S2,采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇的方法包括:
请参阅图2或图3a或图3b,构建坐标轴,坐标轴包括m个样本数据;随机选取3个样本数据标记,分别标记第一中心点、第二中心点和第三中心点;分别计算各样本数据分别至各中心点的相异度值,得到初次相异度值集合;基于初次相异度值集合对未标记样本数据进行聚类,分别得到初次Vic信号簇、初次fam信号簇和初次噪音信号簇,并分别重新计算初次Vic信号簇的中心点、初次fam信号簇的中心点和初次噪音信号簇的中心点;分别计算各样本数据与重新确定的3个中心点的相异度值,得到第2次相异度值集合;基于第2次相异度值集合对各样本数据进行聚类,对应得到2次Vic信号簇、2次fam信号簇和2次噪音信号簇;判断第2次聚类结果是否与初次聚类结果一致,若是,将第2次聚类结果输出;否则,执行下述步骤,再次计算2次Vic信号簇的中心点、2次fam信号簇的中心点和2次噪音信号簇的中心点;分别计算各样本数据与上次确定的3个中心点的相异度值,得到第n次的聚类结果,n≥3,直至第n次的聚类结果与第n-1次的聚类结果一致,将第n次的聚类结果输出。
举例说明,随机选择两组实验数据,从其中一组实验数据中随机选取3个样本数据标记,分别标记第一中心点、第二中心点和第三中心点;接着分别计算各样本数据分别至各中心点的相异度值,得到初次相异度值集合;基于初次相异度值集合对未标记样本数据进行聚类,分别得到初次Vic信号簇、初次fam信号簇和初次噪音信号簇,当Vic信号簇与fam信号簇的比值处于阈值范围内时,则说明聚类结果符合要求,此时直接输出如图3a所示的聚类结果即可,无需对其继续聚类优化。
而从另一组随机实验数据中随机选取3个样本数据标记,分别标记第一中心点、第二中心点和第三中心点;分别计算各样本数据分别至各中心点的相异度值,得到初次相异度值集合;基于初次相异度值集合对未标记样本数据进行聚类,分别得到初次Vic信号簇、初次fam信号簇和初次噪音信号簇,当Vic信号簇与fam信号簇的比值不处于阈值范围内时,如图3b所示,则说明聚类结果不符合要求,此时需要对其继续聚类优化,聚类优化的过程如下,分别重新计算初次Vic信号簇的中心点、初次fam信号簇的中心点和初次噪音信号簇的中心点;分别计算各样本数据与重新确定的3个中心点的相异度值,得到第2次相异度值集合;基于第2次相异度值集合对各样本数据进行聚类,对应得到2次Vic信号簇、2次fam信号簇和2次噪音信号簇;判断第2次聚类结果是否与初次聚类结果一致,若是,将第2次聚类结果输出;否则,执行下述步骤,再次计算2次Vic信号簇的中心点、2次fam信号簇的中心点和2次噪音信号簇的中心点;分别计算各样本数据与上次确定的3个中心点的相异度值,得到第n次的聚类结果,n≥3,直至第n次的聚类结果与第n-1次的聚类结果一致,将第n次的聚类结果输出,结果如图3c所示。
具体实施时,m个样本数据以数据点的形式分布在坐标轴上,每一个样本数据的坐标为(xm,ym),首先随机选取3个样本数据以建立3个簇的中心点,然后计算各样本数据分别至3个簇的中心点的相异度值,得到初次相异度值集合,并根据初次相异度值集合聚类得到初次Vic信号簇、初次fam信号簇和初次噪音信号簇,紧接着计算初次Vic信号簇的中心点、初次fam信号簇的中心点和初次噪音信号簇的中心点,然后计算各样本数据至重新确定的3个中心点的相异度值,得到第2次相异度值集合并聚类得到2次Vic信号簇、2次fam信号簇和2次噪音信号簇,以此递归,以相同的方法继续求得n次Vic信号簇、n次fam信号簇和n次噪音信号簇,直至聚类结果不再变化将该聚类结果输出,从而保证初步分类的Vic信号簇、fam信号簇和噪音信号簇的相对准确性。
另外,上述基于第n次相异度值集合对各样本数据聚类,对应得到n次Vic信号簇、n次fam信号簇和n次噪音信号簇的方法包括:从第n次相异度值集合中,依次筛选各样本数据对应的最小相异度值;根据最小相异度值将各样本数据对应与n次Vic信号簇的中心点、n次fam信号簇的中心点和n次噪音信号簇的中心点聚类,得到n次Vic信号簇、n次Vic信号簇和n次噪音信号簇;上述相异度值的计算方法为:采用余弦距离公式计算两点坐标余弦值cosθ,两点坐标对应为样本数据的坐标,以及任一中心点的坐标;应用公式|1-cosθ|求得两点坐标的相异度值。其中,余弦距离公式如下:(x1,y1)和(x2,y2)为两点的坐标。
可以理解的是,随机样本的选取数据量与检测所需的数据类别息息相关,当检测所需的实验数据为3个时,在m个样本数据中随机选择3个样本数据标记,例如,Vic信号簇、fam信号簇、噪音信号簇;当检测所需的实验数据为w个时,则在m个样本数据中随机选择w个样本数据标记,m>>w;因此,本实施例不对样本数据的随机标记数量进行限制,本领域技术人员可根据实际情况自由选择。
需要说明的是,上述实施例中n次Vic信号簇的中心点、n次fam信号簇的中心点和n次噪音信号簇的中心点的计算方法分别为:
统计n-1次Vic信号簇中的全部样本数据并计算其坐标均值,得到n次Vic信号簇的中心点;统计n-1次fam信号簇中的全部样本数据并计算其坐标均值,得到n次fam信号簇的中心点;统计n-1次噪音信号簇中的全部样本数据并计算其坐标均值,得到n次噪音信号簇的中心点。例如,第2次Vic信号簇包括h个样本数据,则第2次Vic信号簇的中心点(xu2,yu2)的计算方法为,xu2=(x1+x2+……xh)/2,yu2=(y1+y2+……yh)/2。
优选地,上述实施例中步骤S4,通过K-均值算法对Vic信号簇优化校正,或者通过DBSCAN算法对fam信号簇优化校正,返回步骤S3包括:
当比值结果小于阈值范围时,采用K-均值算法继续对Vic信号簇进行优化校正;或者,当比值结果大于阈值范围时,采用DBSCAN算法继续对Vic信号簇进行优化校正;返回步骤S3。
具体地,当比值结果小于阈值范围时,采用K-均值算法继续对Vic信号簇进行优化校正的方法包括:
在Vic信号簇中随机选择2个样本数据,分别标记为第四中心点和第五中心点;分别计算Vic信号簇中各样本数据分别至第四中心点和第五中心点的相异度值,得到初次优化相异度值集合;基于初次优化相异度值集合对各样本数据进行聚类,得到初次优化Vic信号簇和初次优化噪音信号簇,并分别计算初次优化Vic信号簇的中心点和初次优化噪音信号簇的中心点;分别计算Vic信号簇中各样本数据与重新确定的2个中心点的相异度值,得到第2次优化相异度值集合;基于第2次优化相异度值集合对Vic信号簇中各样本数据进行聚类,对应得到2次优化Vic信号簇和2次优化噪音信号簇;判断第2次聚类结果是否与初次聚类结果一致,若是,将第2次聚类结果输出;否则,执行下述步骤,再次计算2次优化Vic信号簇的中心点和2次优化噪音信号簇的中心点;依次计算Vic信号簇中各样本数据与上次确定的2个中心点的相异度值,得到第n次的聚类结果,n≥3,直至第n次的聚类结果与第n-1次的聚类结果一致,输出优化后的Vic信号簇和优化后的噪音信号簇。
或者,当比值结果大于阈值范围时,采用DBSCAN算法继续对Vic信号簇进行优化校正的方法包括:
步骤S41:预设扫描半径eps和最小包含点数minPts,并在fam信号簇中随机选择一个未访问的样本数据P,标记为已访问;步骤S42:以P为圆心获取与其距离在eps之内所有的未访问样本数据;步骤S43:判断未访问样本数据的数量是否大于或等于minPts,若是,则将eps之内的所有样本数据定义为候选集合,执行步骤S44,否则,将P定义为噪声点,重新执行步骤S41;步骤S44:在候选集合中随机选择一个未访问的样本数据标记为P’,以P’为圆心获取与其距离在eps之内的所有样本数据;步骤S45:判断该样本数据的数量是否大于或等于minPts,若是,则将eps之内的样本数据整合至候选集合,执行步骤S46,否则,将P’定义为噪声点,并重新执行步骤S44;步骤S46:重复执行步骤S44和步骤S45直至候选集合充分被拓展,将候选集合中的样本数据标记为优化后的fam信号簇,将所有噪声点标记为校正噪音信号簇。
如图3c所示,呈现了优化后的Vic信号簇、优化后的fam信号簇以及优化后的噪音信号簇,其中优化后的噪音信号簇为噪音信号簇、优化噪音信号簇和校正噪音信号簇的归纳。
实施例二
请参阅图1和图4,本实施例提供一种微液滴数据分析系统,包括:
获取单元1,用于从微液滴样本中获取m个样本数据,m>>3;
分类单元2,用于采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇;
比较单元3,用于计算fam信号簇与Vic信号簇的比值结果;
优化校正单元4,用于在比值结果不属于阈值范围内时,通过K-均值算法对Vic信号簇优化校正,或者通过DBSCAN算法对fam信号簇优化校正;
结果输出单元5,用于输出Vic信号簇、fam信号簇和噪音信号簇的聚类分布图,得到微液滴样本的数据分析结果。
其中,获取单元1的输出端与分类单元2的输入端连接,分类单元2的输出端与比较单元3的输入端连接,比较单元3的输出端分别与优化校正单元4和结果输出单元5连接,优化校正单元4的输出端分别与结果输出单元5的输入端和比较单元3的输入端连接。
与现有技术相比,本发明实施例提供的微液滴数据分析系统的有益效果与上述实施例一提供的微液滴数据分析方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种微液滴数据分析方法,其特征在于,包括:
步骤S1:从微液滴样本中获取m个样本数据,m>>3;
步骤S2:采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇;
步骤S3:计算所述fam信号簇与所述Vic信号簇的比值结果,当所述比值结果属于阈值范围内时,执行步骤S5,否则,执行步骤S4;
步骤S4:当所述比值结果小于阈值范围时通过K-均值算法对所述Vic信号簇优化校正,或者,当所述比值结果大于阈值范围时通过DBSCAN算法对所述fam信号簇优化校正,返回步骤S3;
步骤S5:输出Vic信号簇、fam信号簇和噪音信号簇的聚类分布图,得到所述微液滴样本的数据分析结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2,采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇的方法包括:
构建坐标轴,所述坐标轴包括m个样本数据;
随机选取3个样本数据,分别标记第一中心点、第二中心点和第三中心点;
分别计算各样本数据分别至各中心点的相异度值,得到初次相异度值集合;
基于所述初次相异度值集合对未标记样本数据进行聚类,分别得到初次Vic信号簇、初次fam信号簇和初次噪音信号簇,并分别重新计算初次Vic信号簇的中心点、初次fam信号簇的中心点和初次噪音信号簇的中心点;
分别计算各样本数据与重新确定的3个中心点的相异度值,得到第2次相异度值集合;
基于第2次相异度值集合对各样本数据进行聚类,对应得到2次Vic信号簇、2次fam信号簇和2次噪音信号簇;
判断第2次聚类结果是否与初次聚类结果一致,若是,将第2次聚类结果输出;否则,执行下述步骤,
再次计算2次Vic信号簇的中心点、2次fam信号簇的中心点和2次噪音信号簇的中心点;
分别计算各样本数据与上次确定的3个中心点的相异度值,得到第n次的聚类结果,n≥3,直至第n次的聚类结果与第n-1次的聚类结果一致,将第n次的聚类结果输出。
3.根据权利要求2所述的方法,其特征在于,n次Vic信号簇的中心点、n次fam信号簇的中心点和n次噪音信号簇的中心点的计算方法分别为:
统计n-1次Vic信号簇中的全部样本数据并计算其坐标均值,得到n次Vic信号簇的中心点;
统计n-1次fam信号簇中的全部样本数据并计算其坐标均值,得到n次fam信号簇的中心点;
统计n-1次噪音信号簇中的全部样本数据并计算其坐标均值,得到n次噪音信号簇的中心点。
4.根据权利要求2所述的方法,其特征在于,上述基于第n次相异度值集合对各样本数据聚类,对应得到n次Vic信号簇、n次fam信号簇和n次噪音信号簇的方法包括:
从所述第n次相异度值集合中,依次筛选各样本数据对应的最小相异度值;
根据所述最小相异度值将各样本数据对应与n次Vic信号簇的中心点、n次fam信号簇的中心点和n次噪音信号簇的中心点聚类,得到n次Vic信号簇、n次Vic信号簇和n次噪音信号簇。
5.根据权利要求2所述的方法,其特征在于,所述相异度值的计算方法为:
采用余弦距离公式计算两点坐标余弦值cosθ,所述两点坐标对应为样本数据的坐标,以及任一中心点的坐标;
应用公式|1-cosθ|求得两点坐标的相异度值。
6.根据权利要求4所述的方法,其特征在于,当所述比值结果小于阈值范围时,采用K-均值算法继续对Vic信号簇进行优化校正的方法包括:
在Vic信号簇中随机选择2个样本数据,分别标记为第四中心点和第五中心点;
分别计算Vic信号簇中各样本数据分别至第四中心点和第五中心点的相异度值,得到初次优化相异度值集合;
基于所述初次优化相异度值集合对各样本数据进行聚类,得到初次优化Vic信号簇和初次优化噪音信号簇,并分别计算初次优化Vic信号簇的中心点和初次优化噪音信号簇的中心点;
分别计算Vic信号簇中各样本数据与重新确定的2个中心点的相异度值,得到第2次优化相异度值集合;
基于第2次优化相异度值集合对Vic信号簇中各样本数据进行聚类,对应得到2次优化Vic信号簇和2次优化噪音信号簇;
判断第2次聚类结果是否与初次聚类结果一致,若是,将第2次聚类结果输出;否则,执行下述步骤,
再次计算2次优化Vic信号簇的中心点和2次优化噪音信号簇的中心点;
依次计算Vic信号簇中各样本数据与上次确定的2个中心点的相异度值,得到第n次的聚类结果,n≥3,直至第n次的聚类结果与第n-1次的聚类结果一致,输出优化后的Vic信号簇和优化后的噪音信号簇。
7.根据权利要求6所述的方法,其特征在于,当所述比值结果大于阈值范围时,采用DBSCAN算法继续对Vic信号簇进行优化校正的方法包括:
步骤S41:预设扫描半径eps和最小包含点数minPts,并在fam信号簇中随机选择一个未访问的样本数据P,标记为已访问;
步骤S42:以P为圆心获取与其距离在eps之内所有的未访问样本数据;
步骤S43:判断所述未访问样本数据的数量是否大于或等于minPts,若是,则将所述eps之内的所有样本数据定义为候选集合,执行步骤S44,否则,将P定义为噪声点,重新执行步骤S41;
步骤S44:在候选集合中随机选择一个未访问的样本数据标记为P’,以P’为圆心获取与其距离在eps之内的所有样本数据;
步骤S45:判断该样本数据的数量是否大于或等于minPts,若是,则将所述eps之内的样本数据整合至所述候选集合,执行步骤S46,否则,将P’定义为噪声点,并重新执行步骤S44;
步骤S46:重复执行步骤S44和步骤S45直至候选集合充分被拓展,将候选集合中的样本数据标记为优化后的fam信号簇,将所有噪声点标记为校正噪音信号簇。
8.根据权利要求7所述的方法,其特征在于,将噪音信号簇、优化噪音信号簇和校正噪音信号簇归纳为优化后的噪音信号簇。
9.一种微液滴数据分析系统,其特征在于,包括:
获取单元,用于从微液滴样本中获取m个样本数据,m>>3;
分类单元,用于采用K-均值算法对m个样本数据进行初步分类,得到Vic信号簇、fam信号簇以及噪音信号簇;
比较单元,用于计算所述fam信号簇与所述Vic信号簇的比值结果;
优化校正单元,用于在比值结果不属于阈值范围内,当所述比值结果小于阈值范围时通过K-均值算法对所述Vic信号簇优化校正,或者,当所述比值结果大于阈值范围时通过DBSCAN算法对所述fam信号簇优化校正;
结果输出单元,用于输出Vic信号簇、fam信号簇和噪音信号簇的聚类分布图,得到所述微液滴样本的数据分析结果。
CN201810600465.9A 2018-06-12 2018-06-12 一种微液滴数据分析方法及系统 Active CN109002833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810600465.9A CN109002833B (zh) 2018-06-12 2018-06-12 一种微液滴数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810600465.9A CN109002833B (zh) 2018-06-12 2018-06-12 一种微液滴数据分析方法及系统

Publications (2)

Publication Number Publication Date
CN109002833A CN109002833A (zh) 2018-12-14
CN109002833B true CN109002833B (zh) 2019-08-27

Family

ID=64600678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810600465.9A Active CN109002833B (zh) 2018-06-12 2018-06-12 一种微液滴数据分析方法及系统

Country Status (1)

Country Link
CN (1) CN109002833B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111778318B (zh) * 2020-07-10 2023-01-10 清华大学深圳国际研究生院 一种基于CRISPR/Cas系统检测核酸分子的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663100A (zh) * 2012-04-13 2012-09-12 西安电子科技大学 一种两阶段混合粒子群优化聚类方法
CN104903899A (zh) * 2012-11-07 2015-09-09 生命技术公司 用于数字pcr数据的视像工具
CN106596489A (zh) * 2016-12-19 2017-04-26 中国科学院苏州生物医学工程技术研究所 用于荧光液滴检测中荧光强度数据的处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6076751B2 (ja) * 2013-01-22 2017-02-08 株式会社日立製作所 異常診断方法およびその装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663100A (zh) * 2012-04-13 2012-09-12 西安电子科技大学 一种两阶段混合粒子群优化聚类方法
CN104903899A (zh) * 2012-11-07 2015-09-09 生命技术公司 用于数字pcr数据的视像工具
CN106596489A (zh) * 2016-12-19 2017-04-26 中国科学院苏州生物医学工程技术研究所 用于荧光液滴检测中荧光强度数据的处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数字PCR荧光检测仪的数据分析方法的设计和实现;李鑫鑫;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415;第5-30页 *

Also Published As

Publication number Publication date
CN109002833A (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
CN101893704B (zh) 一种基于粗糙集的雷达辐射源信号识别方法
CN104331712B (zh) 一种藻类细胞图像自动分类方法
CN104200114B (zh) 流式细胞仪数据快速分析方法
CN108460427A (zh) 一种分类模型训练方法、装置以及分类方法及装置
CN109344845B (zh) 一种基于Triplet深度神经网络结构的特征匹配方法
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
Smith Cluster ensemble Kalman filter
CN109490838A (zh) 一种面向数据库残缺的雷达辐射源识别方法
CN111564179A (zh) 一种基于三元组神经网络的物种生物学分类方法及系统
CN113705570A (zh) 一种基于深度学习的少样本目标检测方法
CN114781514A (zh) 一种融合注意力机制的漂浮物目标检测方法及系统
CN110738132A (zh) 一种具备判别性感知能力的目标检测质量盲评价方法
CN109002833B (zh) 一种微液滴数据分析方法及系统
CN110728214B (zh) 一种基于尺度匹配的弱小人物目标检测方法
CN106251004B (zh) 基于改进空间距离划分的目标分群方法
CN111414930B (zh) 深度学习模型训练方法及装置、电子设备及存储介质
CN118116469A (zh) 一种序列质量参数的生成方法及装置
CN103310205A (zh) 一种手写体数字识别方法及装置
CN110007764A (zh) 一种手势骨架识别方法、装置、系统及存储介质
CN117095230A (zh) 基于图像大数据智能分析的空气质量低耗评估方法及系统
Pereira et al. Assessing active learning strategies to improve the quality control of the soybean seed vigor
CN104778478A (zh) 一种手写数字识别方法
CN109951409B (zh) 一种确定调制信号类别的方法及系统
CN113313138A (zh) 基于概率生成模型的入侵行为特征转换方法、检测方法
CN106650790A (zh) 一种基于蜂群智能的遥感影像聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 12 Dahui Temple Road, Haidian District, Beijing 100081

Applicant after: Research Institute of Science and Technology, National Health Commission

Address before: No. 12 Dahui Temple Road, Haidian District, Beijing 100081

Applicant before: SCIENCE TECHNOLOGY RESEARCH INSTITUTE OF NATIONAL HEALTH AND FAMILY PLANNING COMMISSION OF THE PEOPLE'S REPUBLICK OF CHINA

CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 12 Dahui Temple Road, Haidian District, Beijing 100081

Applicant after: Institute of Science and Technology, National Health Commission

Address before: No. 12 Dahui Temple Road, Haidian District, Beijing 100081

Applicant before: Research Institute of Science and Technology, National Health Commission

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40000914

Country of ref document: HK