CN114184599B - 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置 - Google Patents
单细胞拉曼光谱采集数目估计方法、数据处理方法及装置 Download PDFInfo
- Publication number
- CN114184599B CN114184599B CN202111654282.3A CN202111654282A CN114184599B CN 114184599 B CN114184599 B CN 114184599B CN 202111654282 A CN202111654282 A CN 202111654282A CN 114184599 B CN114184599 B CN 114184599B
- Authority
- CN
- China
- Prior art keywords
- raman spectrum
- raman
- cell
- analysis
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001237 Raman spectrum Methods 0.000 title claims abstract description 221
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000001069 Raman spectroscopy Methods 0.000 claims abstract description 111
- 238000004458 analytical method Methods 0.000 claims abstract description 75
- 238000001228 spectrum Methods 0.000 claims abstract description 62
- 239000012491 analyte Substances 0.000 claims abstract description 59
- 239000000126 substance Substances 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000003909 pattern recognition Methods 0.000 claims description 60
- 230000003595 spectral effect Effects 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000004445 quantitative analysis Methods 0.000 claims description 26
- 238000007781 pre-processing Methods 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000000513 principal component analysis Methods 0.000 claims description 16
- 230000000007 visual effect Effects 0.000 claims description 14
- 238000010224 classification analysis Methods 0.000 claims description 13
- 238000004451 qualitative analysis Methods 0.000 claims description 11
- 238000013106 supervised machine learning method Methods 0.000 claims description 11
- 238000003332 Raman imaging Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 10
- 238000012800 visualization Methods 0.000 claims description 10
- 238000006467 substitution reaction Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000013179 statistical model Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000013107 unsupervised machine learning method Methods 0.000 claims description 6
- 230000003834 intracellular effect Effects 0.000 claims description 5
- 230000006798 recombination Effects 0.000 claims description 5
- 238000005215 recombination Methods 0.000 claims description 5
- 238000004611 spectroscopical analysis Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 4
- 210000004027 cell Anatomy 0.000 description 92
- 239000000203 mixture Substances 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 9
- 102000004169 proteins and genes Human genes 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000003211 malignant effect Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 210000000963 osteoblast Anatomy 0.000 description 5
- 238000011002 quantification Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 210000002421 cell wall Anatomy 0.000 description 4
- 210000000805 cytoplasm Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 150000002632 lipids Chemical class 0.000 description 4
- 210000001178 neural stem cell Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 3
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000003061 neural cell Anatomy 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000007417 hierarchical cluster analysis Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000007473 univariate analysis Methods 0.000 description 2
- IMQLKJBTEOYOSI-UHFFFAOYSA-N Diphosphoinositol tetrakisphosphate Chemical compound OP(O)(=O)OC1C(OP(O)(O)=O)C(OP(O)(O)=O)C(OP(O)(O)=O)C(OP(O)(O)=O)C1OP(O)(O)=O IMQLKJBTEOYOSI-UHFFFAOYSA-N 0.000 description 1
- 229910008760 WITec Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- WHWDWIHXSPCOKZ-UHFFFAOYSA-N hexahydrofarnesyl acetone Natural products CC(C)CCCC(C)CCCC(C)CCCC(C)=O WHWDWIHXSPCOKZ-UHFFFAOYSA-N 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
Landscapes
- Health & Medical Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明属于数据处理技术领域,公开了一种单细胞拉曼光谱采集数目估计方法、数据处理方法及装置。单细胞拉曼光谱采集数目方法通过根据目标分析物的拉曼光谱信噪比、百分含量和指定阈值计算获得目标分析物被检出的概率值;然后计算拉曼光谱采集数目,从而可以在目标分析物和其它物质的光谱有重叠,即存在背景噪声的情况下,更加合理地计算目标分析物被检出的概率值,进而更加准确地计算拉曼光谱采集数目。单细胞拉曼光谱数据处理方法及装置,则整合了适合分析单细胞拉曼光谱数据的分析流程,并且嵌入了新开发的估计拉曼数据采集数目的方法,可以为用户提供单细胞拉曼光谱分析的半自动化分析平台,可以简化单细胞拉曼光谱分析操作。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种单细胞拉曼光谱采集数目估计方法、单细胞拉曼光谱数据处理方法及装置。
背景技术
拉曼光谱可以无损地获取生物化学物质的特征信息,是一项出色的单细胞分析技术。然而生物分子的拉曼谱带通常是彼此重叠的,此外,细胞是复杂并且动态的生物系统而不是简单的生物化学物质的无序的分布。因此在每一个数据采样点,也就是拉曼成像数据中的每一个像素点(pixel),都有全序列的拉曼光谱,而不是在某一个拉曼波长的拉曼峰值。因此,拉曼成像数据包含了细胞样品中多个生物分子的特征光谱信息。通过数据挖掘分析技术,可以将信息丰富的拉曼光谱成像数据转化为细胞中的生物化学信息,获取拉曼成像数据中无法用单变量分析获得的信息。
在单细胞拉曼成像过程中,由于拉曼的灵敏度较低,采集拉曼光谱时需要较长时间的曝光,使得数据采集时间增长,有可能需要数小时甚至更长。而长时间的数据采集会导致实验时间过长,也影响细胞动态数据的收集,因此估计分析模型所需要的最小数目的拉曼光谱采集点(subsampling)十分重要,可以使得拉曼采集更加有效。
现有的估计拉曼光谱采集点数目的方法是利用二项分布(Binomialdistribution)统计模型,计算拉曼光谱采集数目。假设在n个光谱中找到目标分析物的k个光谱的概率如下式(1)所示:
其中,p代表找到目标分析物的概率。
那么找到至少一个目标分析物的概率如下式(2)所示:
Prob(k>0)=1-Prob(k=0)=1-(1-p)n (2)
所需要的拉曼光谱数据采集点的数目为:
其中,p也就是目标分析物的百分含量C%。
这里假设事件成功,也就Prob(k>0)等于99.7%,根据3sigma法则,也就是统计学上“几乎一定”可以找到至少一个目标分析物的光谱,根据公式(3),根据目标分析物的百分含量C%,可以求出最少的拉曼光谱采集点的数目。目标分析物的百分含量C%,也就是找到目标分析物的概率p越低,光谱采集数目(The number ofspectra)越高。
然而在这个现有的二项分布统计模型中,不管目标分析物和其它物质的光谱是否有重叠,即不管是否存在背景噪声,计算出来的光谱采集数目都相同,这显然是不符合实际的,导致拉曼光谱采集数目的计算不够准确。
发明内容
本发明的目的在于提供一种单细胞拉曼光谱采集数目估计方法,可以提高拉曼光谱采集数目的计算准确性,基于此还提供了一种单细胞拉曼光谱数据处理方法及装置。
本发明实施例第一方面公开一种单细胞拉曼光谱采集数目估计方法,包括:
在采集拉曼成像数据之前做预实验,以收集简单的拉曼数据,根据简单的拉曼数据获取目标分析物的拉曼光谱信噪比;
根据用户在操作界面上选择的分析目的,确定对应的指定阈值;
当拉曼光谱信噪比小于指定阈值时,根据目标分析物的拉曼光谱信噪比、百分含量以及指定阈值,计算获得目标分析物被检出的概率值;
将概率值输入二项分布统计模型,获得拉曼光谱采集数目。
本发明实施例第二方面公开一种单细胞拉曼光谱数据处理方法,包括:
光谱预处理:对拉曼光谱数据进行预处理,预处理包括去噪音、拉曼尖峰去除、基线平滑和光谱缩放;其中,拉曼光谱数据包括各个拉曼光谱采集点在不同拉曼波长下的拉曼光谱值,拉曼光谱采集点的数量是根据第一方面的拉曼光谱采集数目估计方法而确定的;
模式识别:根据用户在操作界面上选择的模式识别目的,通过对应的机器学习方法,对预处理后的拉曼光谱数据进行模式识别,以建立模式识别模型;
模型验证:利用交叉验证、置换测试、混淆矩阵和/或接受者操作特性曲线方法,对模式识别模型进行验证。
本发明实施例第三方面公开一种单细胞拉曼光谱数据处理装置,包括光谱预处理单元、模式识别单元和模型验证单元:
光谱预处理单元,用于对拉曼光谱数据进行预处理,预处理包括去噪音、拉曼尖峰去除、基线平滑和光谱缩放;其中,拉曼光谱数据包括各个拉曼光谱采集点在不同拉曼波长下的拉曼光谱值,拉曼光谱采集点的数量是根据第一方面的拉曼光谱采集数目估计方法而确定的;
模式识别单元,用于根据用户在操作界面上选择的模式识别目的,通过对应的机器学习方法,对预处理后的拉曼光谱数据进行模式识别,以建立模式识别模型;
模型验证单元,用于利用交互检验、置换测试、混淆矩阵和/或接受者操作特性曲线方法,对模式识别模型进行验证。
本发明的有益效果在于,所提供的单细胞拉曼光谱采集数目估计方法,通过在采集拉曼成像数据之前做预实验,以收集简单的拉曼数据,获取目标分析物的拉曼光谱信噪比,并根据用户在操作界面上选择的分析目的确定对应的指定阈值,在拉曼光谱信噪比小于指定阈值时,根据目标分析物的拉曼光谱信噪比、百分含量和指定阈值计算获得目标分析物被检出的概率值;然后将概率值输入二项分布统计模型,获得拉曼光谱采集数目,从而可以在目标分析物和其它物质的光谱有重叠,即存在背景噪声的情况下,结合目标分析物的拉曼光谱信噪比,更加合理地计算目标分析物被检出的概率值,进而更加准确地计算拉曼光谱采集数目。
本发明的有益效果还在于,所提供的单细胞拉曼光谱数据处理方法及装置,通过针对单细胞拉曼光谱数据而开发的基于Matlab的图形用户界面“CELL IMAGE”,即操作界面,整合了适合分析单细胞拉曼光谱数据的分析流程,并且嵌入了新开发的估计拉曼数据采集数目的方法,可以为用户提供单细胞拉曼光谱分析的半自动化分析平台,用户可以直接在操作界面上进行操作,还可以提供很多针对单细胞拉曼光谱数据的预处理和各种模式识别对应的机器学习方法,用户只需简单进行选择操作,即可对拉曼光谱数据进行预处理、建立模式识别模型对预处理后的拉曼光谱数据进行模式识别、以及对模式识别模型进行验证等,从而可以简化单细胞拉曼光谱分析操作,无需分析人员熟悉程序语言或者太多的专业知识,可以实现半自动化分析。
附图说明
此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
图1是含有RNA和DNA的混合物A的拉曼光谱图;
图2是含有RNA和蛋白质的混合物B的拉曼光谱图;
图3是一种单细胞拉曼光谱采集数目估计方法的流程图;
图4是混合物A中RNA在定性分析时所需要的拉曼光谱采集数目随RNA百分含量的变化曲线;
图5是混合物A中RNA在定量分析时所需要的拉曼光谱采集数目随RNA百分含量的变化曲线图;
图6是混合物B中RNA所需要的拉曼光谱采集数目随RNA百分含量的变化曲线图;
图7是一种单细胞拉曼光谱数据处理方法的流程图;
图8是塑料的原始拉曼光谱图;
图9是去除拉曼尖峰后的塑料的拉曼光谱图;
图10是图8中检测到的拉曼尖峰示意图;
图11是图9进行归一化后的拉曼光谱图;
图12是一种单细胞拉曼光谱数据处理装置的结构示意图;
图13是预处理后的恶性成骨细胞的拉曼光谱图;
图14是恶性成骨细胞的细胞核的得分图;
图15是恶性成骨细胞的细胞质的得分图;
图16是恶性成骨细胞的细胞壁的得分图;
图17是细胞核、细胞质和细胞壁的得分图对应的载荷图;
图18是包含人诱导多功能干细胞、神经干细胞和神经细胞的010S细胞株的原始拉曼光谱图;
图19是人诱导多功能干细胞、神经干细胞和神经细胞的聚类示意图;
图20是模拟的10个单细胞样本的平均拉曼光谱图;
图21是PLS模型对预测集的预测结果的均方误差示意图。
附图标记说明:
100、光谱预处理单元;200、模式识别单元;300、模型验证单元。
具体实施方式
为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。
除非特别说明或另有定义,本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下,本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分,不代表具体的数量或顺序。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。本文所使用的“该”为相应位置之前所提及或描述的技术特征或技术内容,该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的,也可以是相似的。
毫无疑义,与本发明的目的相违背,或者明显矛盾的技术内容或技术特征,应被排除在外。
为了便于理解本发明,先对现有的拉曼光谱采集数目计算方法进行比较分析。现有二项分布统计模型中,一般将目标分析物的百分含量C%作为找到目标分析物的概率值p,计算出的最小的拉曼光谱采集数目。然而这种方法并不适用目标分析物的光谱和其它物质的光谱有重叠的复杂体系,现采用两组模拟数据来进行比较分析。两组模拟数据的两个组分以任意浓度进行混合。如图1所示,第一组模拟数据中,混合物A含有RNA和DNA;如图2所示,第二组模拟数据中,混合物B包括蛋白质和RNA。在目标分析物是RNA且RNA含量相同的情况下,根据公式(3)计算得出的光谱采集点数目相同。可是从图1和图2中可明显看出,第一组模拟数据中,目标分析物RNA与干扰物DNA的光谱有较为严重的重叠,RNA的特征峰1250nm,峰值为0.85,在此波长处,DNA的峰值是0.46。而第二组模拟数据中,RNA的特征峰是784nm,峰值为1,在此波长处,蛋白质的拉曼吸收波长非常小(0.003),蛋白质的拉曼吸收峰不会影响RNA。这两种不同的情况,找到目标分析物RNA的概率值p显然是不同的,这样计算明显不合理,导致拉曼光谱采集数目的计算不够准确。
基于此,本发明实施例提出一种新的单细胞拉曼光谱采集数目估计方法,可以更加合理地计算找到目标分析物的概率值p,进而更加准确地计算拉曼光谱采集数目。
如图3所示,本发明实施例公开一种单细胞拉曼光谱采集数目估计方法,包括以下步骤S1.1~S1.4:
S1.1、在采集拉曼成像数据之前,做预实验以收集简单的拉曼数据,根据简单的拉曼数据获取目标分析物的拉曼光谱信噪比。
S1.2、根据用户在操作界面上选择的分析目的,确定对应的指定阈值。
其中,分析目的为定性分析或定量分析。在一般的情况下,定性分析的检出限(LOD,limit ofdetection)应该是3倍信噪比,而定量分析的定量限(LOQ,limitofquantification)应该是10倍信噪比。在混合物中和目标分析物有重叠的光谱可以被视为背景噪音,在有背景噪音的情况下,仍然需要达到检出限或者定量限来实现定性和定量分析。因此,当用户选择的分析目的为定性分析时,对应的指定阈值为3;当用户选择的分析目的为定量分析,对应的指定阈值为10。
S1.3、根据目标分析物的拉曼光谱信噪比、百分含量以及指定阈值,计算获得目标分析物被检出的概率值。
S1.4、将概率值输入二项分布统计模型,获得拉曼光谱采集数目。
步骤S1.3中,若拉曼光谱信噪比大于或等于指定阈值,目标分析物被检出的概率值等于目标分析物的百分含量:
p=C% (4)
若拉曼光谱信噪比小于指定阈值,具体通过以下公式计算获得目标分析物被检出的概率值:
其中,VSNR代表目标分析物的拉曼光谱信噪比,C%代表目标分析物的百分含量,K代表指定阈值,p代表目标分析物被检出的概率值。
因此当定性分析,K=3时,若VSNR低于3,找到目标分析物的概率pDetection可以通过以下公式(6)计算得到:
当定量分析K=10时,若VSNR低于10,找到目标分析物的概率pQuantification可以通过以下公式(7)计算得到:
公式(6)和(7)中,VSNR指的是目标分析物特征峰的信噪比,等于目标分析物与干扰物的光谱在特征波长下的比值。举例来说,如图1所示的混合物A的拉曼光谱中,RNA的特征峰1250nm,峰值为0.85,在此波长处,DNA的峰值是0.46,因此RNA的VSNR=0.85/0.46,也就是1.84。
利用公式(6)和(7),可以计算出分别在定性和定量分析当中找到目标分析物的概率p,再执行步骤S1.4,将p带入公式(3)中,就可以计算出最小的拉曼光谱采集数目。
基于上述混合物A,在定性分析时,通过以上公式(3)和(6)计算可得目标分析物RNA所需要的拉曼光谱采集数目n随RNA含量百分比C%的变化曲线,如图4所示,其中横坐标是含量百分比C%,纵坐标是定性分析需要的拉曼光谱采集数目n。在定量分析时,通过以上公式(3)和(7)计算可得目标分析物RNA所需要的拉曼光谱采集数目n随RNA含量百分比C%的变化曲线,如图5所示,其中横坐标是含量百分比C%,纵坐标是定量分析需要的拉曼光谱采集数目n。由图4和图5可以看出,定量分析所需要的拉曼光谱采集数目比定性分析所需要的拉曼光谱采集数目要大。
在图2所示的混合物B的拉曼光谱中,RNA的特征峰是784nm,峰值为1,在此波长处,蛋白质的拉曼吸收波长非常小(0.003),因此此波长处RNA的信噪比等于300,远大于10。这种情况下,利用公式(4),直接将目标分析物的百分含量作为目标分析物被检出的概率值,然后执行步骤S1.4,即利用公式(3)计算出最小的光谱采集数目。需要的拉曼光谱采集数目n随RNA含量百分比C%的变化曲线,如图6所示。通过对比图4,5和图6可以看出,干扰物光谱和目标分析物光谱有重合时所需要的光谱采集数目比目标分析物光谱没有被干扰物光谱覆盖时所需要的光谱采集数目高。
考虑到现有针对单细胞拉曼光谱数据的两类分析方法中,其中一类包括程序语言(例如MATLAB、R、Phyton)。这一类方法的使用需要数据分析者通过使用工具箱以及编程,灵活利用各种不同的算法对单细胞拉曼光谱数据进行分析,没有专门针对单细胞拉曼光谱的数据分析平台,而这需要数据分析者掌握专业的编程知识,这对于非编程专业人员要求过高。另一类方法是基于和光谱数据分析软件(例如SIMCA),这一类方法包含了光谱数据处理的各种方法,数据分析人员无需专业的编程知识就是选择较多的光谱分析方法,然而这一类分析方法并非针对单细胞拉曼光谱数据,因此并没有包含许多针对单细胞拉曼光谱数据的分析方法,而单细胞拉曼数据分析主要包括细胞可视化分析、细胞分类分析和细胞定量分析,每一种分析方法都有其合适的特定的方法,例如细胞内的可视化应该选择聚类方法,例如PCA等等。数据分析者需要从较多的方法中选择合适的方法,而处理光谱数据方法尤其是模式识别过程中的机器学习方法选择较多,非针对性的数据分析平台对数据分析者的专业知识的能力要求较高。同时数据分析之后的整合和重组也较为复杂,适用性光谱分析软中,很难灵活分析。
基于此,本发明实施例中,可以预先针对单细胞拉曼光谱数据而开发基于Matlab的图形用户界面“CELL IMAGE”,即操作界面。“CELL IMAGE”包含单细胞拉曼数据分析的主要步骤,如图7所示的一种单细胞拉曼光谱数据处理方法,包括步骤S2~S4:光谱预处理、模式识别和模型验证。
S2、光谱预处理:对拉曼光谱数据进行预处理,预处理包括去噪音、拉曼尖峰去除、基线平滑和光谱缩放。其中,拉曼光谱数据包括各个拉曼光谱采集点在不同拉曼波长下的拉曼光谱值,拉曼光谱采集点的数量是根据图3所示的拉曼光谱采集数目估计方法而确定的,拉曼光谱采集点的数量等于或大于估计得到的拉曼光谱采集数目。
步骤S2中的所有的数据预处理方法都已经输入默认值,用户可以通过操作界面更改参数。
其中,去噪音使用的包括多项式平滑算法。拉曼尖峰去除使用的方法包括核主成分分析(kernel principal component analysis residual diagnosis,KPCARD)或者上述的基于稳健主成分分析的新方法。基线平滑使用的方法包括形态加权惩罚最小二乘法(Morphological Weighted Penalized Least Squares,MPLS)。归一化可选择的方法包括去中心化、纵向标准化、横向标准化、自动归一化和标准正态变换等。
考虑到敏锐的拉曼尖峰(cosmic ray)偶尔会在少数相邻的拉曼光谱采集点中发生,拉曼尖峰会干扰真实的拉曼信号。拉曼尖峰各不相同,在宽度和强度上有显着的差异,并且会大大扭曲光谱。此外,当它与感兴趣的信号重叠时,拉曼尖峰会增加光谱的方差,这会影响多元建模的准确性和光谱的分析。
目前现有去除拉曼尖峰的方法分为四种类型,其中第一种包括单扫描方法,该方法基于以下假设:拉曼尖峰的宽度将比光谱中的预期峰窄得多。这就要求系统的光谱分辨率小于光谱峰的宽度,然而实际的光谱并非如此,这取决于激光源和光谱仪的特性以及被分析的化学成分。在许多情况下,这些方法此类别中不适用,是因为它们要么对具有与基础频谱特征相当的宽度的拉曼尖峰不敏感,要么依赖于经验选择的阈值,这些阈值可能在数据集之间有所不同。第二类去除拉曼尖峰的方法是基于拉曼尖峰污染连续光谱中同一像素的可能性很小。此类别的算法包括上限频谱方法及其改进的变化。第三种方法是优化光学系统,在这种情况下,通过比较沿检测器上不同像素行记录的光谱来检测拉曼尖峰。第四类基于映射技术,并且需要空间相邻光谱的映射。执行最近邻居比较法,并选择最紧密相关的频谱。基于期望的噪声选择偏移,并且如果原始频谱中的频谱分量的强度值与偏移频谱中的对应值相差超过偏移的值,则取较低的值。
目前现有的大部分拉曼尖峰去除的方法都只适合于符合假设前提的光谱数据,需要较长的计算时间或依赖昂贵的设备。除此之外,现有的众多去除拉曼尖峰的方法中,大部分方法对分析方法的参数敏感,不同的参数可以带来不同的结果。这使得数据分析过程中需要尝试需要不同的参数,会增加分析时间以及增减分析结果的不确定性。
基于此,步骤S2中,对拉曼光谱数据进行拉曼尖峰去除的具体实施方式可以包括:用户在操作界面上选择一个窗口的宽度;窗口的宽度包括一定数量的拉曼波长;在窗口每次滑动一个步长后,对窗口范围内的拉曼光谱数据进行稳健主成分分析;若稳健主成分分析判定窗口范围内的某个拉曼光谱值为异常值,将该拉曼光谱值确定为拉曼尖峰;利用线性多项式对窗口范围内除拉曼尖峰之外的其它拉曼光谱值进行曲线拟合,构造拉曼尖峰的新数据点;将拉曼尖峰替换成新数据点。
通过上述的利用滑动窗口进行稳健主成分分析的方法去除异常的拉曼尖峰,相比于现有的去除拉曼尖峰方法,可以针对拉曼光谱数据本身的特点,利用同一个拉曼波长下不同的拉曼光谱采集点中出现的拉曼尖峰,相对于其他的正常的拉曼光谱值属于异常值,对选取的参数不敏感,在不需要考虑参数设置的情况下,能够自动去除拉曼尖峰以及可能存在的自然光线(room light),同时在计算上更加的快速和有效,不需要依赖昂贵的设备,更加有利于半自动化的分析。
上述的对拉曼光谱数据进行拉曼尖峰去除具体可以包括以下实施步骤:
S2.1、在操作界面上选择一个窗口的宽度,默认值是3个拉曼波长。
S2.2、将窗口范围内的n个拉曼光谱采集点、3个拉曼波长的数据组成一个分析矩阵,对这个分析矩阵进行稳健主成分分析,实现异常值的选择。
其中,稳健主成分分析选择异常值是基于正交距离(orthogonal distance)和得分距离(score distance)进行异常值判定的。正交距离ODi和得分距离SDi的计算公式如下:
式中,xi是分析矩阵的第i行,是中心点,P是载荷,/>是第i行的得分。
式中,lj是稳健的协方差矩阵特征值。
S2.3、当某个拉曼光谱值的正交距离和得分距离在统计学上偏离大部分数值时,该拉曼光谱值被认为是异常值,也就是拉曼尖峰。利用线性插入法(linear interpolation)取代异常值。
当某个拉曼光谱值的正交距离大于第一临界值、且得分距离大于第二临界值,认为该拉曼光谱值在统计学上偏离大部分数值,因此判定该拉曼光谱值为异常值,也就是拉曼尖峰。
其中,线性插入法是一种使用线性多项式进行曲线拟合的方法,可以在一组离散的已知数据点范围内构造新数据点。使用线性插入法可以使得将拉曼尖峰替换成新数据点后,可以获得平滑的拉曼光谱。
S2.4、移动窗口连续选取不同拉曼波长后重复执行步骤S2.2~S2.3。
如图8所示的塑料的原始拉曼光谱中,有许多的拉曼尖峰,这些拉曼尖峰的存在会影响后续拉曼光谱的解析,在经过上述基于稳健主成分分析的窗口移动尖峰去除法进行拉曼尖峰去除后如图9所示,图10所示的是检测到的拉曼尖峰。从图9中可以看到,所有的拉曼尖峰都被有效的剔除出来,而如图11所示,归一化后的拉曼光谱显示线性插入的值很好地取代了异常值。
S3、模式识别:根据在操作界面上选择的模式识别目的,通过对应的机器学习方法,对预处理后的拉曼光谱数据进行模式识别,以建立模式识别模型。
S4、模型验证:利用交叉验证、置换测试、混淆矩阵和/或接受者操作特性曲线方法,对模式识别模型进行验证。
步骤S3是单细胞拉曼光谱数据分析的第二个步骤,即基于机器学习的模式识别。由于不同的模式识别目的,选择的机器学习方法不同,根据三种不同的模式识别目的,分别是细胞可视化分析、细胞分类分析和细胞定量分析,有三种不同的实施方式。在不同的实施方式中,数据组成的结构不同。
步骤S3可以具体包括以下三种实施方式:
一、当模式识别目的为细胞可视化分析时,根据用户在操作界面上选择的降维分析方法或者聚类分析方法,对拉曼光谱数据中单细胞内的不同物质进行分类,并根据不同物质的分类信息进行数据重组,获得单细胞的可视化信息,以建立模式识别模型。
在细胞可视化分析当中,细胞可视化分析输入的拉曼光谱数据的组成是一个光谱矩阵,大小是拉曼光谱采集点的数量(the number ofpixels)×波长数(thenumberofwavelength)。在细胞可视化分析之前,可以在操作界面上显示拉曼光谱采集点的数量,然后用户可以通过操作界面输入横向和纵向的数据采集点个数以及进行特定波长的选择;其中,横向和纵向的数据采集点个数的乘积应该等于拉曼光谱采集点的数量。本数据处理分析平台可以对各拉曼光谱采集点在特定波长下的拉曼光谱值进行处理,根据横向和纵向的数据采集点个数形成一个伪结果,即初步的细胞成像,然后在操作界面上显示该初步的细胞成像,根据该初步的细胞成像结果,用户可以进一步的对输入的光谱矩阵进行切割,然后再进行细胞可视化分析。
细胞可视化分析过程中的原理是利用分类方法,通过细胞内不同的物质的特征光谱对物质进行分类再分别展示,实现不同物质可视化。可以实现细胞内不同物质可视化的方法包括两类,第一类是降维方法,包括主成分分析、顶点成分分析、独立成分分析等等。这一类方法将输入的光谱矩阵分解为载荷矩阵和得分矩阵。载荷矩阵中包含了细胞内不同物质的纯光谱信息,得分矩阵中包含了不同的物质在不同的拉曼光谱采集点上的浓度信息。第二类细胞可视化的方法是聚类分析方法,包括K-平均值法以及层次聚类分析。与第一类的降维方法不同的是,这一类方法并不会提取细胞内不同物质的特征光谱,因此利用聚类分析方法可以对细胞内的不同物质进行分类,但是不会获得不同物质的浓度信息。不论降维方法还是聚类分析方法,只要获取到细胞内不同物质的分类信息,就可以对拉曼光谱数据进行重组,得到细胞的可视化信息。
二、当模式识别目的为细胞分类分析时,根据用户在操作界面上选择的有监督的机器学习方法,通过光谱信息和细胞分类信息对拉曼光谱数据中多个单细胞进行分类,以建立模式识别模型;或者,根据用户在操作界面上选择的无监督的机器学习方法,通过光谱信息对拉曼光谱数据中多个单细胞进行分类,以建立模式识别模型。
在细胞分类分析当中,包括有监督和无监督的机器学习方法。其中无监督学习方法包括降维方法,例如主成分分析、独立成分分析;也包括聚类分析方法,例如K-平均值法、层次聚类分析。细胞分类分析输入的拉曼光谱数据是一个X矩阵,大小是细胞数目(thenumber ofcells)×波长数(the number of wavelength),无监督的机器学习方法根据每一类细胞不同的特征光谱信息对细胞进行分类。而有监督的机器学习方法中,除了包含光谱信息的X矩阵(细胞数目×波长数),还需要Y矩阵,Y矩阵包含了每个细胞的分类信息。有监督的机器学习方法包括线性判别分类(LDA)、偏最小二乘(PLS-DA)和支持向量机(SVM),这些方法通过对利用包含了分类信息的Y矩阵和光谱信息的X矩阵进行建模,可以对新的细胞的分类信息进行预测。
三、当模式识别目的为细胞定量分析时,根据用户在操作界面上选择的有监督的机器学习方法,通过光谱信息和细胞内物质的浓度信息,对各个拉曼光谱采集点的拉曼光谱值进行预测,以建立模式识别模型;根据预测结果获得微观浓度信息和/或宏观浓度信息。
细胞定量分析分为宏观和微观浓度测定。当分析目标是细胞内某种物质的整体浓度时,也就是说一个细胞对应于一个浓度水平,称之为宏观定量分析。当分析目标是细胞中的每一个拉曼光谱采集点,或者说是拉曼成像图上每一个像素点(pixel)时,称之为微观定量分析。不论是宏观还是微观定量分析,在利用训练集建模时,都需要利用包含光谱信息的X矩阵(细胞数目×波长数)和包含所有细胞内物质的浓度信息的Y矩阵(细胞数目×已知浓度的成分数目),通过单变量分析、偏最小二乘分析、主成分回归等方法进行建模。在对细胞微观浓度进行预测时,预测集为细胞中每一个拉曼光谱采集点对应的拉曼光谱,通过对细胞内某个物质微观浓度的预测,可以获得该物质在细胞中的微观浓度信息。平均化这些微观浓度信息,就可以获得该物质在细胞中的宏观浓度信息。
考虑到以上机器学习的模式识别模型,尤其是有监督的机器学习模型,可能会提供过度乐观的结果,因此还可以对模式识别模型进行验证,执行步骤S4。其中,本数据处理分析平台提供的验证方法包括交互检验、置换测试、混淆矩阵和接受者操作特性曲线(receiver operating characteristic curve,ROC)等方法。验证方法可以是根据用于建模的机器学习方法进行选择。例如,偏最小二乘模型应该通过交叉验证和/或置换测试进行验证。其中,交叉验证是最常用的机器学习模型验证的方法,除了用于验证模型的可靠性,也可以用于估计降维数据分析中的成分数的选择,可以应用于大多数机器学习方法。混淆矩阵验证通常用于分类的模型验证。ROC曲线也可以用于验证分类模型,但是只能用于分两类的情况。
通过实施本数据处理分析平台,整合了适合分析单细胞拉曼光谱数据的分析流程,并且嵌入了新开发的估计拉曼数据采集数目的方法,可以为用户提供单细胞拉曼光谱分析的半自动化分析平台,用户可以直接在操作界面上进行操作,还可以提供很多针对单细胞拉曼光谱数据的预处理和各种模式识别对应的机器学习方法,用户只需简单进行选择操作,即可对拉曼光谱数据进行预处理、建立模式识别模型对预处理后的拉曼光谱数据进行模式识别、以及对模式识别模型进行验证等,从而可以简化单细胞拉曼光谱分析操作,无需分析人员熟悉程序语言或者太多的专业知识,可以实现半自动化分析。
如图12所示,本发明实施例还公开一种单细胞拉曼光谱数据处理装置,包括光谱预处理单元100、模式识别单元200和模型验证单元300;其中,
光谱预处理单元100,用于对拉曼光谱数据进行预处理,预处理包括去噪音、拉曼尖峰去除、基线平滑和光谱缩放;其中,拉曼光谱数据包括各个拉曼光谱采集点在不同拉曼波长下的拉曼光谱值,拉曼光谱采集点的数量是根据图3所示的拉曼光谱采集数目估计方法而确定的,拉曼光谱采集点的数量等于或大于估计得到的拉曼光谱采集数目。
进一步地,上述的光谱预处理单元100中对拉曼光谱数据进行拉曼尖峰去除的方式具体为:用户在操作界面上选择一个窗口的宽度;窗口的宽度包括一定数量的拉曼波长;在窗口每次滑动一个步长后,对窗口范围内的拉曼光谱数据进行稳健主成分分析;若稳健主成分分析判定窗口范围内的某个拉曼光谱值为异常值,将该拉曼光谱值确定为拉曼尖峰;利用线性多项式对窗口范围内除拉曼尖峰之外的其它拉曼光谱值进行曲线拟合,构造拉曼尖峰的新数据点;将拉曼尖峰替换成新数据点。
模式识别单元200,用于根据用户在操作界面上选择的模式识别目的,通过对应的机器学习方法,对预处理后的拉曼光谱数据进行模式识别,以建立模式识别模型。
进一步地,模式识别目的包括细胞可视化分析、细胞分类分析或细胞定量分析;模式识别单元200包括以下未图示的模块:
细胞可视化分析模块,用于在模式识别目的为细胞可视化分析时,根据用户在操作界面上选择的降维分析方法或者聚类分析方法,对拉曼光谱数据中单细胞内的不同物质进行分类,并根据不同物质的分类信息进行数据重组,获得单细胞的可视化信息,以建立模式识别模型;
分类分析模块,用于在模式识别目的为细胞分类分析时,根据用户在操作界面上选择的有监督的机器学习方法,通过光谱信息和细胞分类信息对拉曼光谱数据中多个单细胞进行分类,以建立模式识别模型,或者,根据用户在操作界面上选择的无监督的机器学习方法,通过光谱信息对拉曼光谱数据中多个单细胞进行分类,以建立模式识别模型;
定量分析模块,用于在模式识别目的具体为细胞定量分析时,根据用户在操作界面上选择的有监督的机器学习方法,通过光谱信息和细胞内物质的浓度信息,对各个拉曼光谱采集点的拉曼光谱值进行预测,以建立模式识别模型;根据预测结果获得微观浓度信息和/或宏观浓度信息。
模型验证单元300,用于利用交互检验、置换测试、混淆矩阵和/或接受者操作特性曲线方法,对模式识别模型进行验证。
分析实例(一):细胞可视化分析
数据介绍:恶性成骨细胞的拉曼光谱数据;
拉曼光谱条件:Alpha 500R拉曼共聚焦光谱系统(WITec GmbH,Ulm,Germany),激发波长:532(NA=1);
拉曼光谱数据:原始拉曼光谱数据去除了噪音、宇宙射线和背景,以及平滑等预处理后的拉曼光谱数据如图13所示,数据大小为2500(采集点数)*750(波长数),其中,2500是对细胞的拉曼成像的取样点;
分析结果:如图14至图17所示,图14为细胞核的得分图,图15为细胞质的得分图,图16为细胞壁的得分图,图17为细胞核、细胞质和细胞壁的得分图对应的载荷图,该载荷图对应于这三种物质的拉曼光谱图。
分析实例(二):细胞分类分析
数据介绍:010S细胞株中的人诱导多功能干细胞(HiPSC,1560)、神经干细胞(NSC,979)和神经细胞(Neuron cell,1128);
拉曼光谱条件:HR Evolution confocal Raman microscope拉曼共聚焦光谱系统(Horiba Jobin-Yvon),激发波长:532(NA=1),每个细胞重复测量三次;
拉曼光谱数据:原始拉曼光谱数据如图18所示,数据大小为3667(细胞样本数)*1019(波长数)。3667是拉曼光谱测量的个数,其中包括部分重复样本。
分析结果:原始拉曼光谱数据去除了噪音、宇宙射线和背景,以及平滑等预处理后,利用t-SNE算法进行分类,t-SNE算法的分析结果如图19所示,从图19中可看出,三种不同的细胞形成了三种聚类。
分析实例(三):细胞定量分析
数据介绍:单细胞样本的模拟拉曼光谱数据;
其中,每个单细胞样本含有蛋白质、脂质和核酸三种物质,训练集包括有10个单细胞样本,10个单细胞样本中的蛋白质、脂质和核酸三种物质的含量为其在细胞内的浓度乘以一个0到1之间的随机数目。通过平均化每一个单细胞样本的模拟拉曼光谱数据,得到每个单细胞样本的平均拉曼光谱,如图20所示,图中横坐标为波长数目,纵坐标为拉曼光谱值,将每个单细胞样本的平均拉曼光谱组成训练集中的X矩阵,获取每个单细胞样本的脂质含量组成Y矩阵。已知三种物质,因此根据3个成分数目利用PLS进行数学建模,并利用训练集中的X矩阵的Y矩阵对模型进行训练,获得PLS模型之后,利用这个PLS模型对预测集中的单细胞样本的脂质浓度进行预测。
最后利用交互检验(Cross-validation)计算PLS模型对预测集的预测结果的均方误差(mean squared error),如图21所示,图中横坐标为成分数目,纵坐标为均方误差值,当成分数目小于或等于4时,均方误差较小且接近0。说明所建立的PLS模型可靠,是一个值得信赖的PLS模型。
以上实施例的目的,是对本发明的技术方案进行示例性的再现与推导,并以此完整的描述本发明的技术方案、目的及效果,其目的是使公众对本发明的公开内容的理解更加透彻、全面,并不以此限定本发明的保护范围。以上实施例也并非是基于本发明的穷尽性列举,在此之外,还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。
Claims (8)
1.单细胞拉曼光谱采集数目估计方法,其特征在于:
在采集拉曼成像数据之前做预实验,以收集简单的拉曼数据,根据简单的拉曼数据获取目标分析物的拉曼光谱信噪比;
根据用户在操作界面上选择的分析目的,确定对应的指定阈值;
当拉曼光谱信噪比小于指定阈值时,根据目标分析物的拉曼光谱信噪比、百分含量以及指定阈值,计算获得目标分析物被检出的概率值;其中,具体通过以下公式计算获得目标分析物被检出的概率值:
其中,代表目标分析物的拉曼光谱信噪比,C%代表目标分析物的百分含量,K代表指定阈值,p代表目标分析物被检出的概率值;
当目标分析物的拉曼光谱信噪比大于或等于指定阈值时,目标分析物被检出的概率值p等于目标分析物的百分含量C%;
将概率值输入二项分布统计模型,获得拉曼光谱采集数目。
2.如权利要求1的单细胞拉曼光谱采集数目估计方法,其特征在于,根据用户在操作界面上选择的分析目的,为定性分析或定量分析,确定对应的指定阈值,包括:
若分析目的为定性分析,对应的指定阈值K为3;
若分析目的为定量分析,对应的指定阈值K为10。
3.单细胞拉曼光谱数据处理方法,其特征在于,包括以下流程:
光谱预处理:对拉曼光谱数据进行预处理,预处理包括去噪音、拉曼尖峰去除、基线平滑和光谱缩放;其中,拉曼光谱数据包括各个拉曼光谱采集点在不同拉曼波长下的拉曼光谱值,拉曼光谱采集点的数量是根据权利要求1或2的拉曼光谱采集数目估计方法而确定的;
模式识别:根据用户在操作界面上选择的模式识别目的,通过对应的机器学习方法,对预处理后的拉曼光谱数据进行模式识别,以建立模式识别模型;
模型验证:利用交叉验证、置换测试、混淆矩阵和/或接受者操作特性曲线方法,对模式识别模型进行验证。
4.如权利要求3的单细胞拉曼光谱数据处理方法,其特征在于,模式识别目的包括细胞可视化分析、细胞分类分析或细胞定量分析,对应于不同的机器学习方法,对预处理后的拉曼光谱数据进行模式识别,以建立模式识别模型:
当模式识别目的为细胞可视化分析时,根据用户在操作界面上选择的降维分析方法或者聚类分析方法,对拉曼光谱数据中单细胞内的不同物质进行分类,并根据不同物质的分类信息进行数据重组,获得单细胞的可视化信息,以建立模式识别模型;
当模式识别目的为细胞分类分析时,根据用户在操作界面上选择的有监督的机器学习方法,通过光谱信息和细胞分类信息对拉曼光谱数据中多个单细胞进行分类,以建立模式识别模型;或者根据用户在操作界面上选择的无监督的机器学习方法,通过光谱信息对拉曼光谱数据中多个单细胞进行分类,以建立模式识别模型;
当模式识别目的为细胞定量分析时,根据用户在操作界面上选择的有监督的机器学习方法,通过光谱信息和细胞内物质的浓度信息,对各个拉曼光谱采集点的拉曼光谱值进行预测,以建立模式识别模型;根据预测结果获得微观浓度信息和/或宏观浓度信息。
5.如权利要求3或4的单细胞拉曼光谱数据处理方法,其特征在于,对拉曼光谱数据的预处理包括拉曼尖峰去除,具体的步骤为:
在操作界面上选择一个窗口的宽度;窗口的宽度包括一定数量的拉曼波长;
在窗口每次滑动一个步长后,对窗口范围内的拉曼光谱数据进行稳健主成分分析;
若稳健主成分分析判定窗口范围内的某个拉曼光谱值为异常值,将该拉曼光谱值确定为拉曼尖峰;
利用线性多项式对窗口范围内除拉曼尖峰之外的其它拉曼光谱值进行曲线拟合,构造拉曼尖峰的新数据点;
将拉曼尖峰替换成新数据点。
6.单细胞拉曼光谱数据处理装置,其特征在于,装置包括光谱预处理单元、模式识别单元和模型验证单元:
光谱预处理单元,用于对拉曼光谱数据进行预处理,预处理包括去噪音、拉曼尖峰去除、基线平滑和光谱缩放;其中,拉曼光谱数据包括各个拉曼光谱采集点在不同拉曼波长下的拉曼光谱值,拉曼光谱采集点的数量是根据权利要求1或2的拉曼光谱采集数目估计方法而确定的;
模式识别单元,用于根据用户在操作界面上选择的模式识别目的,通过对应的机器学习方法,对预处理后的拉曼光谱数据进行模式识别,以建立模式识别模型;
模型验证单元,用于利用交互检验、置换测试、混淆矩阵和/或接受者操作特性曲线方法,对模式识别模型进行验证。
7.如权利要求6的单细胞拉曼光谱数据处理装置,其特征在于,模式识别目的包括细胞可视化分析、细胞分类分析或细胞定量分析;模式识别单元包括:
细胞可视化分析模块,用于在模式识别目的为细胞可视化分析时,根据用户在操作界面上选择的降维分析方法或者聚类分析方法,对拉曼光谱数据中单细胞内的不同物质进行分类,并根据不同物质的分类信息进行数据重组,获得单细胞的可视化信息,以建立模式识别模型;
分类分析模块,用于在模式识别目的为细胞分类分析时,根据用户在操作界面上选择的有监督的机器学习方法,通过光谱信息和细胞分类信息对拉曼光谱数据中多个单细胞进行分类,以建立模式识别模型,或者,根据用户在操作界面上选择的无监督的机器学习方法,通过光谱信息对拉曼光谱数据中多个单细胞进行分类,以建立模式识别模型;
定量分析模块,用于在模式识别目的为细胞定量分析时,根据用户在操作界面上选择的有监督的机器学习方法,通过光谱信息和细胞内物质的浓度信息,对各个拉曼光谱采集点的拉曼光谱值进行预测,以建立模式识别模型;根据预测结果获得微观浓度信息和/或宏观浓度信息。
8.如权利要求6或7的单细胞拉曼光谱数据处理装置,其特征在于,光谱预处理单元用于对拉曼光谱数据进行拉曼尖峰去除的方式具体为:
用户在操作界面上选择一个窗口的宽度;窗口的宽度包括一定数量的拉曼波长;在窗口每次滑动一个步长后,在窗口范围内的拉曼光谱数据进行稳健主成分分析;若稳健主成分分析判定窗口范围内的某个拉曼光谱值为异常值,将该拉曼光谱值确定为拉曼尖峰;利用线性多项式对窗口范围内除拉曼尖峰之外的其它拉曼光谱值进行曲线拟合,构造拉曼尖峰的新数据点;将拉曼尖峰替换成新数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111654282.3A CN114184599B (zh) | 2021-12-30 | 2021-12-30 | 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111654282.3A CN114184599B (zh) | 2021-12-30 | 2021-12-30 | 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114184599A CN114184599A (zh) | 2022-03-15 |
CN114184599B true CN114184599B (zh) | 2024-04-26 |
Family
ID=80606426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111654282.3A Active CN114184599B (zh) | 2021-12-30 | 2021-12-30 | 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114184599B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114813457B (zh) * | 2022-04-24 | 2024-07-09 | 北京石油化工学院 | 一种用于悬浮细胞培养的实时监测系统及方法 |
CN116030032A (zh) * | 2023-02-16 | 2023-04-28 | 四川省肿瘤医院 | 基于拉曼光谱数据的乳腺癌分析设备、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015165394A1 (zh) * | 2013-05-31 | 2015-11-05 | 欧普图斯(苏州)光学纳米科技有限公司 | 面向多行业检测的激光拉曼光谱智能化辨识方法及系统 |
CN105588827A (zh) * | 2014-10-24 | 2016-05-18 | 中国科学院青岛生物能源与过程研究所 | 活体单细胞拉曼分析平台数字控制系统和方法 |
CN109142317A (zh) * | 2018-08-29 | 2019-01-04 | 厦门大学 | 一种基于随机森林模型的拉曼光谱物质识别方法 |
CN113670894A (zh) * | 2021-10-22 | 2021-11-19 | 港湾之星健康生物(深圳)有限公司 | 拉曼光谱定量监测物质含量的方法 |
-
2021
- 2021-12-30 CN CN202111654282.3A patent/CN114184599B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015165394A1 (zh) * | 2013-05-31 | 2015-11-05 | 欧普图斯(苏州)光学纳米科技有限公司 | 面向多行业检测的激光拉曼光谱智能化辨识方法及系统 |
CN105588827A (zh) * | 2014-10-24 | 2016-05-18 | 中国科学院青岛生物能源与过程研究所 | 活体单细胞拉曼分析平台数字控制系统和方法 |
CN109142317A (zh) * | 2018-08-29 | 2019-01-04 | 厦门大学 | 一种基于随机森林模型的拉曼光谱物质识别方法 |
CN113670894A (zh) * | 2021-10-22 | 2021-11-19 | 港湾之星健康生物(深圳)有限公司 | 拉曼光谱定量监测物质含量的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114184599A (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Chemometric analysis in Raman spectroscopy from experimental design to machine learning–based modeling | |
US12094575B2 (en) | Automated detection of boundaries in mass spectrometry data | |
Cuadros-Rodríguez et al. | Quality performance metrics in multivariate classification methods for qualitative analysis | |
JP6729455B2 (ja) | 分析データ解析装置及び分析データ解析方法 | |
CN114184599B (zh) | 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置 | |
JP6091493B2 (ja) | 試料に存在する成分を決定するための分光装置と分光法 | |
US8190551B2 (en) | Classification of fabrics by near-infrared spectroscopy | |
JP6715451B2 (ja) | マススペクトル解析システム,方法およびプログラム | |
US20130026391A1 (en) | Information processing apparatus, information processing method, program, and method of correcting intensity of fluorescence spectrum | |
JP2005308741A (ja) | 少なくとも1つの成分および生成する生成物の観点でサンプルを特性付けし、特性付けデータを提供するための2つ以上の技術に基づいた少なくとも1つのサンプルの分析;方法、システムおよび指示プログラム | |
KR20160130422A (ko) | 화물을 검사하는 방법 및 그 시스템 | |
CN112712108A (zh) | 一种拉曼光谱多元数据分析方法 | |
CN108827909B (zh) | 基于可见近红外光谱与多目标融合的土壤快速分类方法 | |
CN112204378A (zh) | 活体组织解析装置、活体组织解析程序以及活体组织解析方法 | |
CN117556245B (zh) | 一种四甲基氢氧化铵生产过滤杂质检测方法 | |
US9501822B2 (en) | Computer-implemented platform for automated fluorescence imaging and kinetic analysis | |
Leegwater et al. | From data to a validated score-based LR system: a practitioner’s guide | |
CN113567605A (zh) | 质量色谱图的自动化解释模型构建方法、装置和电子设备 | |
CN115398552A (zh) | 遗传算法用于基于拉曼光谱识别样品特征的用途 | |
JP6280910B2 (ja) | 分光システムの性能を測定するための方法 | |
US9734122B2 (en) | System, method and computer-accessible medium for evaluating a malignancy status in at-risk populations and during patient treatment management | |
Cocchi et al. | Chemometrics–Bioinformatics | |
CN105866042A (zh) | 基于像素指标无偏估计法生物品质指标空间分布检测方法 | |
Grissa et al. | A hybrid data mining approach for the identification of biomarkers in metabolomic data | |
US20230351263A1 (en) | Active machine learning model for targeted mass spectrometry data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |