CN115280133A - 信息处理系统、信息处理装置和信息处理方法 - Google Patents

信息处理系统、信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN115280133A
CN115280133A CN202180021071.8A CN202180021071A CN115280133A CN 115280133 A CN115280133 A CN 115280133A CN 202180021071 A CN202180021071 A CN 202180021071A CN 115280133 A CN115280133 A CN 115280133A
Authority
CN
China
Prior art keywords
sample
information
data
information processing
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180021071.8A
Other languages
English (en)
Inventor
西牧悠二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN115280133A publication Critical patent/CN115280133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1434Optical arrangements
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1429Signal processing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1456Optical investigation techniques, e.g. flow cytometry without spatial resolution of the texture or inner structure of the particle, e.g. processing of pulse signals
    • G01N15/1459Optical investigation techniques, e.g. flow cytometry without spatial resolution of the texture or inner structure of the particle, e.g. processing of pulse signals the analysis being performed on a sample stream
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1468Optical investigation techniques, e.g. flow cytometry with spatial resolution of the texture or inner structure of the particle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/1006Investigating individual particles for cytology
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1468Optical investigation techniques, e.g. flow cytometry with spatial resolution of the texture or inner structure of the particle
    • G01N2015/1472Optical investigation techniques, e.g. flow cytometry with spatial resolution of the texture or inner structure of the particle with colour
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N2015/1477Multiparameters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2610/00Assays involving self-assembled monolayers [SAMs]
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound

Landscapes

  • Chemical & Material Sciences (AREA)
  • Dispersion Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明减少数据。根据实施方式的信息处理系统包括:激发光源(100),用激发光照射属于样本组的相应的多个样本;测量单元(142),测量通过用激发光照射样本产生的荧光;以及信息处理单元(2),基于针对各个样本测量的荧光的荧光信号之中相似的荧光信号之间的差值产生差分数据。

Description

信息处理系统、信息处理装置和信息处理方法
技术领域
本公开涉及信息处理系统、信息处理装置和信息处理方法。
背景技术
在医学、生物化学等领域中,流式细胞仪有时用于快速测量大量微粒的特性。流式细胞仪是使用被称为流式细胞仪的分析方法的测量设备并且用光照射微粒(诸如流过流动细胞的细胞)并且检测从微粒发射的荧光等。
在下一代流式细胞仪中,荧光信号是多色的以便能够详细分析细胞。作为这样的下一代流式细胞仪,已经开发了光谱型流式细胞仪。在光谱型流式细胞仪中,诸如棱镜或光栅的分光元件用于分散从诸如标记有多个荧光染料的细胞的微粒发出的光。通过其中排列有不同检测波长区域中的多个光接收元件的光接收元件阵列来检测分散光。通过收集光接收元件的检测值,获取细胞等测量对象物的测量光谱。
与使用滤波器分离和检测每个波长区域的荧光的滤波器方案相比,这种光谱型流式细胞仪具有以下优点:关于荧光的信息可以用作分析信息而不泄漏信息。
引用列表
专利文献
专利文献1:JP 2009-104026 A
发明内容
技术问题
当使用光谱型流式细胞仪时,可以获取其中混合多种荧光染料的光谱的测量光谱和表示每种荧光染料的测量结果的测量数据。因此,具有能够使用测量光谱和测量数据这两者来精细地进行测量对象的分析的优点。然而,为了在本地环境中执行这样的分析,有必要在本地环境中确保足够的计算资源。
因此,考虑将在本地环境中获得的数据传送到云环境,并在云环境中对测量目标进行分析。通过对分析应用进行云化,能够利用云环境的足够的计算资源来容易地执行测量对象的详细分析,并且能够容易地执行数据共享等,并且提高了便利性。
然而,当每个样本获取的数据的维数由于荧光信号的多色而增加时,样本组的数据量大大增加。因此,当尝试在云侧进行分析时,存在数据传送花费很长时间的问题。
由于数据量的增加直接导致存储数据的存储成本的增加,因此还存在由于多色导致云侧所需的存储成本大大增加的问题。
因此,本公开提出了能够减少数据量的信息处理系统、信息处理装置和信息处理方法。
问题的解决方案
根据一个实施方式的信息处理系统包括:激发光源,用激发光照射属于样本组的相应的多个样本;测量单元,测量通过利用激发光照射样本而产生的荧光;以及信息处理单元,基于针对各个样本测量的荧光的荧光信号之中的相似的荧光信号之间的差值生成差分数据。
附图说明
图1是示出了在第一实施方式中使用的流式细胞仪的示意性配置实例的示意图。
图2是示出了图1中所示的流式细胞仪的示意性配置实例的框图。
图3是示出了根据第一实施方式的信息处理系统的示意性配置实例的框图。
图4是用于说明根据第一实施方式的未混合的示图。
图5是示出根据第一实施方式的保持荧光光谱的样本组的数据结构实例的示图。
图6是示出了根据第一实施方式的保持荧光染料信息的样本组的数据结构实例的示图。
图7是示出了根据第一实施方式的测量光谱的样本数据示例(面积)(样本A)的示图。
图8是示出根据第一实施方式的测量光谱的样本数据示例(面积)(样本B)的示图。
图9是示出根据第一实施方式的测量光谱的样本数据实例(高度)(样本A)的示图。
图10是示出根据第一实施方式的测量光谱的样本数据实例(高度)(样本B)的示图。
图11是用于说明根据第一实施方式的通过词典式压缩方法(LZ方法)的压缩处理的实例的示图。
图12是示出在图11中所示的压缩处理中创建的词典的实施例的示图。
图13是用于说明根据第一实施例的使用熵编码(霍夫曼码)的压缩处理的示例的示图。
图14是示出图13中所示的压缩处理中的正常位表示与熵编码之间的对应关系的示图。
图15是用于说明根据第一实施例的数据减少方法的概要的示图。
图16是示出在图15的步骤S01中执行的差分数据的生成的实例的示图。
图17是用于说明根据第一实施方式的样本组的特征的实例的示图。
图18是用于说明根据第一实施例的差分数据的示意图。
图19是用于说明根据第一实施例的第一相似性确定方法的示图。
图20是用于说明根据第一实施例的第二相似性确定方法的示图。
图21是示出根据第一实施方式的差值出现频率管理数据库的实例的示图。
图22是用于说明根据第一实施方式的第一相似样本选择方法的示图。
图23是用于说明根据第一实施方式的第二相似样本选择方法的示图(部分1)。
图24是用于说明根据第一实施方式的第二相似样本选择方法的示图(部分2)。
图25是用于说明根据第一实施方式的第二相似样本选择方法的示图(部分3)。
图26是用于说明根据第一实施方式的第二相似样本选择方法的示图(部分4)。
图27是用于说明根据第一实施方式的第二相似样本选择方法的示图(部分5)。
图28是用于说明根据第三实施方式的压缩、传输和解码的执行顺序实例的示图。
图29是用于更详细地说明根据第三实施方式的压缩、传输和解码的执行顺序实例的示图。
具体实施方式
下面参考附图详细说明本发明的优选实施例。另外,在本说明书和附图中,对具有大致相同的功能结构的结构要素标注相同的附图标记,省略重复的说明。
注意,按照以下顺序进行说明。
1.第一实施例
1.1流式细胞仪的概述
1.2光谱型流式细胞仪的示意性配置实例
1.3信息处理系统的示意性配置实例
1.4关于未混合
1.5关于数据结构
1.5.1测量光谱的数据结构实例
1.5.2荧光染料信息的数据结构实例
1.6样本数据实例
1.7关于样本数据的问题
1.8数据减少方法
1.8.1不必要的位表示的减少
1.8.2词典法(LZ法)
1.8.3熵编码
1.8.4统计预测
1.9可逆压缩高维数据的问题
1.9.1减少不必要的位表示的情况
1.9.2词典法的情况(LZ方法)
1.9.3熵编码的情况
1.9.4统计预测的情况
1.10数据减少方法
1.11数据减少方法
1.11.1数据的压缩/解压缩
1.11.2差分数据的格式
1.11.3差分数据生成/恢复方法
1.11.3.1相似样本的确定方法
1.11.3.1.1第一相似性确定方法
1.11.3.1.2第二相似性确定方法
1.11.3.2相似样本的选择方法
1.11.3.2.1第一相似样本选择方法
1.11.3.2.2第二相似样本选择方法
1.12概述
2.第二实施例
2.1在荧光光谱/荧光染料信息中获得的相似性信息的相互使用
3.第三实施方式
3.1通过划分压缩/解码的云传输的加速
1.第一实施例
下面参考附图详细说明本公开内容的第一实施方式。
1.1流式细胞仪的概述
根据本实施方式的流式细胞仪可以是使用称为流式细胞计数法的分析方法单独地分析样本的设备。在流式细胞仪中,样本被标记有在特定条件下发射光的荧光试剂,并且当照射激发光时发射的光被收集作为荧光信息。可以从该荧光信息分析细胞。
一般的流式细胞仪使用光学滤波器为每个波长区域分割和提取从样本辐射的荧光,并采用通过测量荧光获得的数据作为关于荧光染料的信息(相当于下文所述的荧光染料信息)。
另一方面,光谱型流式细胞仪使用由棱镜等构成的分光器而不使用光学滤波器来分离每个波长的荧光,并测量每个波长的光强度以获取从样本照射的光的光谱信息(以下称为测量光谱)。光谱型流式细胞仪使用荧光光谱参考通过被称为光谱未混合(在下文中简称为未混合)的处理来分离每种荧光染料的测量光谱。
未混合是将由光谱型流式细胞仪获得的测量光谱与每种荧光染料的荧光光谱的线性总和近似以从测量光谱中获得每种荧光染料的荧光染料信息的方法。通过未混合产生的每种荧光染料的荧光染料信息用于例如样本如细胞的分析。
应注意,本说明中的荧光信号可被定义为包括测量光谱和荧光染料信息两者的概念。
在本说明中,将每种荧光染料的荧光光谱称为荧光光谱参考。荧光光谱参考是从用单一荧光染料标记的样本获得的光谱,并且可以包括从未标记的样本获得的自发荧光光谱。在此,荧光光谱参考可以通过光谱型流式细胞仪获取,或者可以使用从荧光染料供应商提供的目录值等。
在本实施方式中,作为光学测量装置,示出了能够获取测量光谱和荧光染料信息两者的光谱型流式细胞仪。然而,不仅如此,还可以使用获取荧光染料信息的普通流式细胞仪。
在此,在流式细胞仪中,存在微芯片方案、液滴方案、比色皿方案、流动池方案等作为用于将样本提供至流路上的观察点(在下文中称为点)的方案。在本实施方式中,示出了微芯片方案(部分,流动池方案)的流式细胞仪。然而,流式细胞仪不限于此,并且可以是另一供应方案的流式细胞仪。
作为流式细胞仪,存在用于分析样本(诸如细胞)目的的分析仪类型和用于分析分选样本的目的的细胞分选仪类型。在本实施方式中,示出了分析仪型流式细胞仪。然而,流式细胞仪不限于此,并且可以是细胞分选仪类型的流式细胞仪。
此外,本公开不限于流式细胞仪,并且可以是利用激发光照射样本并且基于样本的荧光分析样本的各种光学测量装置。例如,本公开可以是获取诸如载玻片上的组织切片的样本的图像的显微镜。
1.2光谱型流式细胞仪的示意性配置实例
图1是示出了在本实施方式中使用的光谱流式细胞仪(在下文中,简称为流式细胞仪)的示意性配置实例的示意图。图2是示出了图1中所示的流式细胞仪的示意性配置实例的框图。为了便于附图,在图1和图2的每一个中省略了光学元件的一部分。
如图1和图2所示,根据本实施方式的流式细胞仪1包括光源单元100、解复用光学系统150、散射光检测单元130和荧光检测单元140,并检测来自使用微芯片120供应至预定流路的样本的光。
样本是,例如,生物衍生的颗粒,如细胞、微生物、或生物相关的颗粒,并且包括多个生物衍生的颗粒的群体。样本可以是,例如,生物衍生的微粒,如细胞,如动物细胞(例如,血细胞)或植物细胞;细菌,如大肠杆菌;病毒,如烟草花叶病毒;微生物,如真菌,如酵母;构成细胞的生物相关颗粒,如染色体、脂质体、线粒体、外泌体、或各种细胞器(细胞器);或生物相关聚合物,如核酸、蛋白质、脂质、糖链、或其复合物。此外,样本广泛地包括合成颗粒如胶乳颗粒、凝胶颗粒和工业颗粒。工业颗粒可以是,例如,有机或无机聚合物材料、金属等。有机高分子材料的实例包括聚苯乙烯、苯乙烯-二乙烯基苯和聚甲基丙烯酸甲酯。无机聚合物材料的实例包括玻璃、二氧化硅和磁性材料。金属的实例包括金胶体、铝等。这些颗粒的形状总体上是球形的,但可以是非球形的。颗粒的尺寸、质量等没有特别限制。
在此,用一种或多种荧光染料标记(染色)样本。用荧光染料标记样本可通过已知方法进行。例如,当样本是细胞时,选择性结合至细胞表面上存在的抗原的荧光标记抗体和待测量细胞混合,并且荧光标记抗体结合至细胞表面上的抗原,从而可以用荧光染料标记待测量细胞。
荧光标记的抗体是荧光染料作为标记与其结合的抗体。具体地,荧光标记的抗体可以是通过抗生物素蛋白-生物素反应将结合有抗生物素蛋白的荧光染料结合至生物素标记的抗体而获得的荧光标记的抗体。可替代地,荧光标记的抗体可以是通过将荧光染料直接结合至抗体而获得的荧光标记的抗体。注意,作为抗体,可以使用多克隆抗体或单克隆抗体。用于标记样本的荧光染料没有特别限制。可以使用用于染色细胞等的至少一种或多种已知染料。
(光源单元100)
如图1所示,光源单元100包括例如一个或多个(在该实例中为三个)激发光源101至103、全反射镜111、二向色镜112和113、全反射镜115以及物镜116。
在该配置中,全反射镜111、二向色镜112和113以及全反射镜115构成将从激发光源101至103发射的激发光L1至L3引导到预定光路上的波导光学系统。
物镜116配置会聚光学系统,该会聚光学系统将在预定光路上传播的激发光L1至L3会聚于设置在微芯片120中的流路上的点123a上。注意,点123a不限于一个点,也就是说,激发光L1至L3可分别会聚在不同的点上。各激发光L1至L3的会聚位置不需要与点123a一致,并且可以在激发光L1至L3的光轴上前后移动。
在图1所示的实例中,设置分别发射具有不同波长的激发光L1至L3的三个激发光源101至103。作为激发光源101至103,例如,可以使用发射相干光的激光光源。例如,激发光源102可以是发射蓝色激光束(峰值波长:488nm(纳米),功率:20mW)的DPSS激光器(二极管泵浦固态激光器)。激发光源101可以是发射红色激光束(峰值波长:637nm,功率:20mW)的激光二极管。类似地,激发光源103可以是发射近紫外激光束(峰值波长:405nm,功率:8mW)的激光二极管。从激发光源101至103发射的激发光L1至L3可以是脉冲光。
例如,全反射镜111在预定方向上全反射从激发光源101发射的激发光L1。
二向色镜112是用于使由全反射镜111反射的激发光L1的光轴与从激发光源102发射的激发光L2的光轴匹配或者准直的光学元件。例如,二向色镜112透射由全反射镜111反射的激发光L1并且反射从激发光源102发射的激发光L2。例如,被设计为透射具有637nm的波长的光并且反射具有488nm的波长的光的二向色镜可以用作二向色镜112。
二向色镜113是用于使激发光L1和从二向色镜112反射的激发光L2的光轴与从激发光源103发射的激发光L3的光轴匹配或准直的光学元件。例如,二向色镜113透射由全反射镜111反射的激发光L1并且反射从激发光源103发射的激发光L3。例如,被设计为透射具有637nm的波长的光和具有488nm的波长的光并且反射具有405nm的波长的光的二向色镜可以用作二向色镜113。
最终由二向色镜113收集为在相同方向上行进的光的激发光L1至L3由全反射镜115全反射并且入射在物镜116上。
注意,用于将激发光L1至L3转换成平行光的光束整形单元可以设置在从激发光源101至103到物镜116的光路上。光束整形单元可以由例如一个或多个透镜或反射镜配置。
物镜116将入射在其上的激发光L1至L3会聚在以下说明的微芯片120中的流动路径上的预定点123a上。当利用作为脉冲光的激发光L1至L3照射点123a时,随着样本通过点123a,从样本发射荧光,并且激发光L1至L3被样本散射,以产生散射光。
在本说明中,在所有方向上从样本生成的散射光之中,在激发光L1至L3的行进方向上向前行进的预定角度范围内的分量被称为前向散射光L12,在激发光L1至L3的行进方向上向后行进的预定角度范围内的分量被称为后向散射光,并且在从激发光L1至L3的光轴偏离预定角度以上的方向上的分量被称为侧向散射光。
例如,物镜116具有相对于光轴对应于大约30°到40°的数值孔径。从样本发射的荧光中的在激发光L1至L3的行进方向上向前行进的预定角度范围内的分量(在下文中称为荧光L13)和前向散射光L12被输入至在激发光L1至L3的行进方向上向前布置的解复用光学系统150。
(解复用光学系统150)
如图1和图2所示,例如,解复用光学系统150包括滤波器151、准直透镜152、二向色镜153以及全反射镜154(见图1)。然而,解复用光学系统150不限于该配置并且可以进行各种修改。
例如,在激发光L1至L3的光路上布置在微芯片120的下游侧的滤波器151选择性地阻挡光L11中向微芯片120的下游侧行进的激发光L1至L3的一部分(例如,激发光L1和L3)。此处,行进至微芯片120的下游侧的光包括激发光L1至L3(包括其前向散射光)和从微芯片120中的样本辐射的荧光L13。因此,滤波器151阻挡激发光L1和L3的分量并透射激发光L2和荧光L13的分量(这被称为前向散射光L12)。
应注意,滤波器151被布置为相对于光L16的光轴倾斜。因此,可以防止被滤波器151反射的光L16的返回光经由物镜116等入射在散射光检测单元130等上。
例如,通过准直透镜152将透射穿过滤波器151的前向散射光L12和荧光L13转换成平行光,然后在二向色镜153中解复用。例如,二向色镜153反射入射光中的前向散射光L12并且透射荧光L13。由二向色镜153反射的前向散射光L12被引导至散射光检测单元130。将透射通过二向色镜153的荧光L13引导至荧光检测单元140。
(散射光检测单元130)
例如,散射光检测单元130包括:多个透镜131、133、以及135,其对由二向色镜153和全反射镜132反射的前向散射光L12的光束截面进行整形;光圈137,其调节前向散射光L12的光量;掩模134,其选择性地透射前向散射光L12中的具有特定波长的光(例如,激发光L2的分量);以及光电检测器136,其检测透射通过掩模134和透镜135并且被入射的光。
光电检测器136由例如二维图像传感器或光电二极管配置并且检测透射通过掩模134和透镜135并且使其入射的光的量和大小。由光电检测器136检测的信号被输入到例如下面说明的信息处理装置2。
(荧光检测单元140)
例如,荧光检测单元140包括光谱光学系统141和光电检测器142,光谱光学系统141将入射到光谱光学系统上的荧光L13分散成每个波长的分散光L14,光电检测器142检测每个预定波长带(也称为通道)的分散光L14的光量。
光谱光学系统141包括例如一个或多个光学元件141a(诸如棱镜和衍射光栅)并且将入射在其上的荧光L13分散成针对各个波长朝向不同角度发射的分散光7L14。
例如,光电检测器142可由接收每个通道的光的多个光接收单元配置。在这种情况下,多个光接收单元可沿光谱光学系统141的光谱方向排列成一行或者两行或更多行。例如,对于每个光接收单元,可以使用诸如光电倍增管的光电转换元件。然而,可以使用二维图像传感器等代替多个光接收单元。
指示由光电检测器142检测的每个通道的荧光L13的光量的信号(荧光信号)被输入到例如以下说明的信息处理装置2。
1.3信息处理系统的示意性配置实例
图3是示出了根据本实施方式的信息处理系统的示意性配置实例的框图。如图3所示,信息处理系统可由例如以上说明的流式细胞仪1、信息处理装置2、云3以及一个或多个终端4配置。
信息处理装置2通过例如个人计算机或工作站配置并且执行通过流式细胞仪1检测的数据的获取、对待分析的样本的部分分析工作等。例如,信息处理装置2可相当于权利要求中的信息处理单元的实施例。应注意,信息处理装置2可包括用于经由预定网络发送各种数据的发送单元以及用于从预定网络接收各种数据的接收单元。
云3经由诸如LAN(局域网)、因特网或移动通信网络的预定网络连接至信息处理装置2并且基于从信息处理装置2传输的数据执行样本的详细分析。
终端4是用户侧的终端,例如由个人计算机、桌面终端或智能电话配置,负责样本的详细分析,并且是用户执行云3的分析指令、云3获得的分析结果的获取和检查等的终端。
1.4关于未混合
这里,更详细地说明本实施例中的信息处理装置2和/或云3中执行的未混合。图4是用于说明根据本实施方式的未混合的示图。如上所述,未混合是用于用荧光光谱参考的线性总和近似通过光谱型流式细胞仪获得的测量光谱以获得待分析的样本的荧光染料信息的处理。图4示出了其中相应的四种荧光染料的荧光光谱C1至C4彼此重叠的测量光谱C1+C2+C3+C4被分离为各四种荧光染料的荧光光谱C1至C4(荧光染料信息)的实例。
通常,荧光染料信息的维数小于测量光谱的维数。因此,可通过利用未混合将测量光谱转换成荧光染料信息来减少数据量。注意,维数是等于数据类型的数量的值。例如,在测量光谱中,维数可以等同于通道的数目,并且在荧光染料信息中,维数可以等同于颜色的数目。
例如,由索尼公司(Sony Corporation)(注册商标)制造的光谱型细胞分析仪ID7000(注册商标)可以将最大188个通道(即,维数=188)的测量光谱转换成44种颜色(即,维数=44)的荧光染料信息。然而,荧光染料信息的维数可以是根据用于标记样本的荧光试剂的数目而改变的值。
1.5关于数据结构
这里,下面说明每个测量光谱和荧光染料信息的数据结构。应注意,在以下说明中,参考实例说明从使用七个激发光源(即,具有不同波长的七种类型的激发光;在图2中,三个激发光源101至103)和32通道光电检测器142生成最大188通道的测量光谱的流式细胞仪1输出的测量光谱的数据结构和在将测量光谱转换成44种颜色的荧光染料信息的情况下的荧光染料信息的数据结构。
1.5.1测量光谱的数据结构实例
图5是示出根据本实施方式的保持荧光光谱的样本组的数据结构实例的示图。在此,样本组指示通过流式细胞仪1测量的样本的群体。如图5所示,样本组由从试管或孔获得并且由流式细胞仪1测量的每个样本的样本数据配置。样本数据可以是通过测量各个样本而获得的测量光谱。在一个样本组中可以包括大约几万到两千万或更多样本。
每个样本数据具有称为层(deck)的单元。每一层对应一个激发光源(即一个激发光)。因此,在此实例中,一个样本数据具有七个层#1到#7。
层#1至#7中的每个由最多32个通道ch1至ch32配置。然而,在各层#1至#7中,由于在与比激发光短的波长相当的通道中未出现荧光,因此并非所有的层#1至#7都具有32个通道。在此实例中,整个一个样本数据总共配置最大188个通道的数据。
每个通道由Area(面积)和Height(高度)的数据配置。然而,除了这些之外或者代替这些中的一个,可以使用Width(宽度)。应注意,Area(面积)可以是通过Height(高度)×Width(宽度)计算的值或者通过将该值乘以预定系数而获得的值。
这里,假设Area为28位,Height为20位,并且样本的数量是2千万,则最大188个通道的样本数据的数据量是大约23千兆字节的巨大数据量。
1.5.2荧光染料信息的数据结构实例
图6是示出了根据本实施方式的保持荧光染料信息的样本组的数据结构实例的示图。在本实例中,类似于图5中的样本组,样本组由通过流式细胞仪1测量的每个样本的样本数据配置。样本组中可以包括大约几万到两千万或更多样本的样本数据。然而,在本实施例中,样本数据可以是通过荧光分离从单个样本获得的测量光谱而获得的荧光染料信息。
在本实例中,由最大44个颜色#1至#44的颜色信息配置每个样本数据,并且颜色#1至#44的每个包括Area(面积)和Height(高度)的数据。然而,除了这些之外或者代替这些中的一个,可以使用宽度(宽度)。
这里,假设Area为28位,Height为20位,并且样本的数量是两千万,则最大44种颜色的样本数据的数据量也是大约5千兆字节的巨大数据量。
注意,上述测量光谱的数据结构和荧光染料信息仅是实例。测量光谱和荧光染料信息不必具有以上说明的数据结构。即,如果存在保持大量高维数据作为要传输的数据和/或要保存的数据的组(在本实施例中,测量光谱和/或荧光染料信息),并且该组所保持的高维数据的类型是具有小于整个高维数据的数据结构的数据,则本实施例可以应用于各种数据。例如,本实施方式还可应用于由使用滤波器的普通流式细胞仪获取的荧光染料信息。
1.6样本数据实例
接着,参照几个实例来说明本实施例的样本数据。
图7和图8是示出根据本实施方式的测量光谱的样本数据实例(Area)的示图。图9和图10是示出根据本实施方式的测量光谱的样本数据实例(Height)的示图。要注意的是,在图7中所示的样本数据实例(Area)和在图9中所示的样本数据实例(Height)是从相同的样本A中获取的数据,并且在图8中所示的样本数据实例(Area)和在图10中所示的样本数据实例(Height)是从相同的样本B中获取的数据。
如图7和图8所示,测量频谱的Area的样本数据分别具有最大188个通道的数据,并且每个通道由28位数据表示。
类似地,如图9和图10所示,测量频谱的Height的样本数据分别具有最大188个通道的数据,并且每个通道由20位数据表示。
1.7关于样本数据的问题
如上所述,在根据本实施方式的流式细胞仪1中,通过多次着色获取的每个样本的维数增加。因而,样本组的数据增加。在流式细胞仪1中,为了提高便利性和高级分析,分析环境被云化(参见图3)。
当分析环境被云化时,需要将待分析的数据(荧光信号,即,测量光谱和/或荧光染料信息)从流式细胞仪1侧(信息处理装置2)传输至云3。然而,如上所述,由于测量光谱的数据量和/或荧光染料信息是巨大的,因此如果试图将这些数据传输至云3,则产生巨大的传输时间。
在数据传输之后,需要将传输的数据(荧光信号,即测量光谱和/或荧光染料信息)保存在云3侧。然而,为了保存数据,需要确保云3侧的存储器的巨大容量,并且云3侧所需的存储成本变得巨大。
如上所述,当流式细胞仪1是多色的时,由于因多维化引起的数据量增加,会出现诸如数据传输时间增加和存储成本增加的问题。
因此,在本实施方式中,参照几个实例说明减少从流式细胞仪1输出的数据(例如,测量光谱)的数据量或者从数据生成的数据(例如,荧光染料信息)的数据量的方法,该数据是要传输或保存的数据(荧光信号,即,测量光谱和/或荧光染料信息)。
1.8数据减少方法
当从流式细胞仪1获得的测量光谱的数据量或荧光染料信息减少时,需要在分析时恢复数据量减少之前的数据。因此,在本实施例中,提出了通过可逆压缩的数据减少方法作为数据量减少方法。下面说明关于可以在本实施例中使用的可逆压缩方法的几个实例。
1.8.1不必要的位表示的减少
首先,作为第一可逆压缩方法,示出通过减少不必要的位表示进行压缩的方法。该方法是当数值被表示为位时,减少未使用的位的数量并且以较少的位的数量表示数据的方法。例如,在一般的计算机中,System.int32等结构(也称为类型)被广泛使用。
这里,System.int32可表示的动态范围在“-231”至“231-1”的范围内,然而,如果要表示的数值仅存在高达8位的“0”至“255”,则System.int32的动态范围未被用尽。因此,浪费了未使用的位。
因此,在这种情况下,通过用System.uint8替换要使用的结构,可以将数据从32位减少到8位。在这种减少未使用的位的方法中,可以通过添加对应于减少的位的位来恢复原始数据。
1.8.2词典法(LZ法)
作为第二可逆压缩方法,可想到词典压缩方法(LZ方法)。LZ方法是通过用词典表示数据来减少数据量的方法。在图11和图12中示出了通过LZ方法的压缩处理的实例。
在LZ方法中,例如,当输入在图11中示出的输入数据“a b ab aa ba aab aabaaaba”时,通过从顶部按顺序读取输入数据顺序地创建在图12中示出的词典。然后,当在从顶部读取输入数据的过程中存在在词典中注册的数据时,如图11所示,使用在图12中示出的词典中注册的词典编号表示输出数据“(0,a)(0,b)(1,b)(1,a)(2,a)(4,b)(6,a)(7,-)”。因此,例如,19个字节(=1字节×19)的输入数据被压缩为16个字节(=2字节×8)的输出数据。
在这种LZ方法中,可以基于输出数据通过参考词典来恢复原始数据(输入数据)。
1.8.3熵编码
作为第三种可逆压缩方法,可以想到使用熵编码的压缩方法。使用熵编码的压缩方法是以短位长度表示具有高出现频率的数据并且以长位长度表示具有低出现频率的数据以减少数据的方法。使用熵编码(霍夫曼码)的压缩处理的实例在图13和图14中示出。
如图13所示,当数据串“1 1 1 1 2 2 3 4”由正常的2位表示时,因为数据串被表示为“00 00 00 00 01 01 10 11”,并且数据串的总位数是16位。另一方面,当使用图14所示的熵编码时,由于数据串“1 1 1 1 2 2 3 4”被表示为“0 0 0 0 10 10 110 111”,所以数据串的总位数减少至14位。
这种使用熵编码的压缩方法也可以基于熵编码和常规位表示之间的对应关系(图14)将由熵编码表示的数据串恢复为由正常2位表示的数据串。
注意,在使用熵编码的压缩方法中,由于根据数据的出现概率确定位长度,因此,具体地,当在出现频率中存在偏差时,可以大大减少数据。
1.8.4统计预测
作为第四种可逆压缩方法,可以想到使用统计预测的压缩方法。使用统计预测的压缩方法是通过从观察到的数据预测接下来出现的数据来减少数据的方法。例如,设想“abcabc”继续的数据。当通过熵编码压缩该数据时,因为不存在“a”、“b”和“c”的出现频率的偏差,所以不能增加数据压缩比。另一方面,当使用“b”出现在“a”旁边的概率来编码数据时,由于可给予偏差,所以可增加数据压缩比(reduction ratio)。
注意,以上示出的可逆压缩方法中的两个或更多个可以结合使用。例如,在诸如zip的压缩方法中,词典压缩方法(LZ方法)和使用熵编码的压缩方法被组合以压缩数据。在本实施例中,可以使用各种可逆压缩方法及其组合,而不限于上述可逆压缩方法。
1.9可逆压缩高维数据的问题
随后,说明使用以上说明的可逆压缩方法中的每一者可逆地压缩例如样本群组等高维数据中的问题。
1.9.1减少不必要的位表示的情况
在示出为第一可逆压缩方法的通过减少不必要的位表示进行压缩的方法中,保存数据的结构的动态范围根据设备可取的值来计算。因此,存在除了极端的测量数据以外不能有效地实现压缩比的问题。
1.9.2词典法的情况(LZ方法)
在示出了第二可逆压缩方式的词典压缩方式(LZ方式)中,使用针对诸如荧光光谱的每个样本而变化的数据的词典,难以了解光谱形状的特征。因此,存在难以有效地提高压缩比的问题。即使将一个样本数据注册在词典中,因为其他样本数据的光谱形状不太容易完全一致,所以难以增大压缩比。类似地,即使样本数据被精细地分割并且被注册在词典中,也难以如预期那样增加压缩比,因为完美的一致性是罕见的。
1.9.3熵编码的情况
在使用示出为第三可逆压缩方法的熵编码的压缩方法中,当具有诸如样本数据的诸如28位或20位的宽动态范围的数据作为目标时,存在可以采用的数值的许多变化,并且出现频率的偏差不太容易发生。因此,存在难以增大压缩比的问题。
1.9.4统计预测的情况
在使用示出为第四可逆压缩方法的统计预测的压缩方法中,难以根据诸如荧光光谱的光谱形状的观测值来预测下一值。因此,存在难以生成高精度的预测模型、难以提高压缩比的问题。
如上所述,在上述现有的可逆压缩方法中,存在的问题在于,不能对诸如样本组的高维数据执行有效的数据减少。
1.10数据减少方法
因此,在本实施方式中,通过使用样本组的特性可以有效地提高数据压缩比。图15是用于说明根据本实施方式的数据减少方法的概况的示图。要注意的是,例如,通过执行预定程序的信息处理装置2可实现下面所示的数据减少方法中的压缩操作。数据减少方法中的解压缩操作可以例如通过云3执行预定程序来实现。即,在本实施方式中,信息处理装置2还可以用作差分计算单元和压缩单元,并且云3也可以用作解压缩单元和恢复单元。
如图15所示,在本实施方式中,为了在压缩时使用样本组的特性,在数据压缩(S02)之前执行差分数据的生成(S01)。类似地,在解压缩时,执行解压缩(S11)差分数据的恢复(S12)。在生成差分数据(S01)时,计算样本组中的样本之间的差值。要注意的是,在数据压缩(S02)中生成的压缩数据可传输给云3,或者可保存在包含在信息处理装置2内的记录装置(也称为存储单元)内。
生成差分数据的原因是通过计算具有相似光谱形状的样本之间的差值来增加减小压缩的效果。在图16中示出了在图15的步骤S01中执行的差分数据的生成的实例。在图16所示的实例中,假设样本A和样本B是具有相似光谱形状的样本。如图16所示,通过计算具有相似光谱形状的样本A与样本B之间的差值,可以缩小差分数据中的动态范围。注意,这里所指的动态范围可以是最小值和最大值之间的差。通过缩小动态范围,可以增加通过减少不必要的位表示的压缩方法或使用熵编码的压缩方法的数据减少效果。
作为计算样本组中的样本之间的差值的原因,样本组的特性是相关的。图17是用于说明根据本实施方式的样本组的特征的实例的示图。
如图17所示,作为样本组的特征,首先,样本组中的样本的类型的数量(例如,细胞类型的数量)压倒性地小于整个样本组的样本的数量(例如,细胞的数量)。在样本组中存在几万到几千万个样本。包括在样本组中的样本的类型的数量大约是几百,并且是小于样本组中的样本的数量的值。因此,关于任何样本,极有可能存在具有与样本的特征相似的特征的样本。
作为第一特性,相同类型的样本具有相似的特征值。在图17中示出的实例中,当样本#1和样本#3是相同类型的样本(细胞)时,样本的样本数据具有相似的光谱形状。
以这种方式,当以样本为单位观察整个样本组时,存在冗余部分。因此,在本实施例中,通过使用差值去除冗余部分来增加数据压缩比。
1.11数据减少方法
接下来,下面参考具体实例说明根据本实施例的数据减少方法。要注意的是,在以下说明中,说明在图15中所示的压缩和解压缩中的数据减少方法。
1.11.1数据的压缩/解压缩
在图15所示的数据压缩/解压缩中,可使用上述可逆压缩方法或可逆压缩方法的组合。通过根据使用中的可逆压缩方法改变下面说明的确定样本之间的相似性的方法,可以计算有利于数据减少的差分数据。
1.11.2差分数据的格式
图18是用于说明根据本实施方式的差分数据的示意图。应注意,图18示出了样本#100被指定为类似于样本#1的样本并且样本#1被压缩成差分数据的情况。
如图18所示,根据本实施方式的差分数据由例如报头区域R1和数据区域R2构成。
在数据区域R2中,例如,存储通过计算每个维度(通道)的样本数据之间的差值而计算的每个维度(通道)的差值。
在报头区域R1中,存储用于指定差值被计算的样本的索引。注意,当通过减少不必要的位表示进行压缩的方法被用作可逆压缩方法时,用于指定每个维度的差值中的最高有效位(MSB)的信息也被存储在报头区域R1中。
当样本#1的样本数据被恢复为原始数据时,使用报头区域R1中的相似样本的索引。应注意,当从样本组中未发现与样本#1相似的样本时,代替相似样本的索引,可将提前分配为表示相似样本不存在的值的具体数值(例如,“0”)存储在报头区域R1中。
根据这种数据格式,尽管报头区域R1的数据量与原始数据相比增加,但是存储在数据区域R2中的数据量可以显著减少。因此,结果,与原始数据相比,可以显著地减少数据量。
1.11.3差分数据生成/恢复方法
随后,说明根据本实施例的差分数据的生成方法和恢复方法。此外,在以下的说明中,对相似样本确定方法和样本选择方法进行具体描述。
1.11.3.1相似样本的确定方法
首先,说明当给出多个样本时用于确定哪个样本与特定样本最相似的方法(相似性确定方法)。如上所述,由于样本数据是多维数据,因此一般地,可以使用欧几里得距离、余弦相似性等来确定两个样本之间的相似性。然而,在本实施例中,由于被确定为相似的样本之间的差值是要被压缩的数据,所以压缩效率可以根据以哪种方法确定两个样本之间的相似性而改变,换言之,通过适当地选择相似性确定方法而改变。这意味着可以通过选择相似性确定方法和设计差值来控制压缩效率。因此,在本实施例中,除了上述的一般相似性确定方法(欧几里德距离、余弦相似性等)以外,还示出以下两种方法。
1.11.3.1.1第一相似性确定方法
作为第一相似性确定方法,示出了获得具有窄动态范围的差值的方法。图19是用于说明根据本实施方式的第一相似性确定方法的示图。在图19中,示出了确定样本B和样本C中的哪一个与样本A更相似。
如图19中所示,在第一相似性确定方法中,首先,计算样本的差值。在该计算中,例如,针对样本计算与所有其他样本的差值。在图19中所示的实例中,针对样本A计算与样本B的差值和与样本C的差值。
随后,关于针对样本计算的差值的数据集(差值#1至#188)指定最高有效位(MSB)。在图19中所示的实例中,当样本A和样本B的差值的数据集被表示为差值AB并且样本A和样本C的差值的数据集被表示为差值AC时,差值的MSB被指定用于差值AB和差值AC中的每一个。
接下来,在计算包括针对各个数据集指定的最大MSB之中的最小MSB的数据集时使用的样本数据的样本被指定为相似样本。在图19所示的示例中,当差值AB的MSB小于差值AC的MSB时,样本B被指定为类似于样本A的样本。
注意,当存在包括最小MSB的多个数据集时,例如,可选择具有附加到样本的最小索引的样本。
如上所述,通过将样本之间的相似性确定为其差值的MSB是最小的样本的组合,例如,可以通过减少不必要的位表示来最大限度地发挥压缩方法的压缩效率。
注意,当通过减少不必要的位表示的压缩方法来压缩差分数据时,用于指定差值的MSB的信息可以存储在报头区域R1中。
1.11.3.1.2第二相似性确定方法
作为第二相似性确定方法,示出了获得具有高熵的差值的方法。图20是用于说明根据本实施方式的第二相似性确定方法的示图。在图20中,确定样本B和样本C中的哪一个类似于样本A。
在第二相似性确定方法中,生成样本之间的差值的方法可类似于第一相似性确定方法。因此,这里省略方法的详细说明。
如图20所示,在第二相似性确定方法中,首先,使用差值出现频率管理数据库301管理包括在差值AB中的差值#1至#188和包括在差值AC中的差值#1至#188的相应值的出现频率(也称为出现次数)。例如,每当计算差值AB和差值AC中的每一维的差值时,通过在差值出现频率管理数据库301中将与差值相同的值的出现频率增加1,可以实现这种管理。注意,差值出现频率管理数据库301可以是存储过去针对相同样本组计算的差值的出现频率的数据库。即,差值出现频率管理数据库301可以针对每个样本组或者针对相同样本组的相似性确定处理的每次执行被创建。然而,差值出现频率管理数据库301不限于此。
在图21中,示出了根据本实施方式的差值出现频率管理数据库的示例。如图21所示,在差值出现频率管理数据库301中,针对差值的每个值管理出现频率。根据出现频率分配具有不同位长度的熵编码。熵编码分配方法可以是与使用熵编码的压缩方法相同的方法。
接下来,在第二相似性确定方法中,为差值AB和差值AC中的每一个指定差值#1至#188的出现频率。针对差值AB和差值AC中的每个计算指定的出现频率的总值。用于创建具有较大计算总值的数据集的样本数据的样本被指定为相似样本。在图20中示出的实例中,当差值AB的出现频率的总值大于差值AC的出现频率的总值时,样本B被指定为类似于样本A的样本。
使用另一实例对此进行说明。例如,当五个样本A、B、C、X和Y存在于样本组中并且在样本X和样本Y被确定为相似之后从五个样本发现样本A的相似样本时,从样本X和样本Y之间的差值指定的出现频率被存储在差值出现频率管理数据库301中。当在该状态下发现与样本A相似的相似样本时,计算各个差值AB、AC、AX和AY的数据集中的差值的出现频率af1至af188的总和。具有最大总值的数据集的样本被指定为类似于样本A的相似样本。
以上说明了这两种相似性确定方法。然而,在本实施方式中,不一定必须确定相似样本。当在MSB中获得优选值或在原始数据中的总出现频率而不是在差值的数据集中获得优选值时,原始数据可直接用作将被压缩的数据而无需计算差值。在这种情况下,指示数据区域R2中的数据是原始数据的信息可被存储在报头区域R1中,而不是指示类似样本的索引中。
1.11.3.2相似样本的选择方法
接下来,说明选择相似样本的方法。作为选择相似样本的方法,例如,可示出使用一般聚类的方法和使用词典的方法。
1.11.3.2.1第一相似样本选择方法
示出为第一相似样本选择方法的使用聚类的方法是从集群的代表性点选择代表性样本且用与代表性样本的差值表示样本的方法。图22是用于说明根据本实施方式的第一相似样本选择方法的示图。在图22中,示出了k均值聚类用作聚类方法的情况。
如图22中所示,在第一相似样本选择方法中,对样本组执行k均值法聚类。从所生成的集群中确定代表性样本。在图22中所示的实例中,样本A到E的五个样本被划分为包括样本A、B和E的集群和包括样本C和D的集群的两个集群。选择最靠近集群中心的样本A和样本C作为相应集群的代表性样本。
在第一相似样本选择方法中,除了代表性样本之外的样本由与代表性样本的差值来表示。在图22所示的实例中,样本B和样本E由与代表性样本A的差值表示。样本D由与代表性样本C的差值表示。
1.11.3.2.2第二相似样本选择方法
示例为第二相似样本选择方法的利用词典的方法是在从顶部读取样本组并且使用词典生成差值的同时构造词典的方法。图23至图27是用于说明根据本实施方式的第二相似样本选择方法的示图。应注意,在图23至图27中,示出了样本A至E中的五个样本包括在样本组中的情况。
在第二类似样本选择方法中,初始状态下的词典可以处于空状态,即,处于什么都未注册的状态。在第二相似样本选择方法中,如图23所示,首先,从顶部依次读取样本组中的样本作为输入。因此,在第一阶段中,读取样本组中顶部的样本A的样本数据。接下来,将读取的样本A的样本数据以词典号#1注册词典中。作为样本A的差分数据,直接输出样本A的样本数据。此时,由于样本A的差分数据不是差值,所以作为表示差分数据不是差值的值而预先分配的特定数值(例如,“0”)被存储在报头区域R1中的参考词典号中。
接下来,如图24所示,样本组中的下一个样本B的样本数据被读取作为输入。计算读取的样本B与样本A之间的差值。当根据读取的样本B和样本A之间的差值确定样本B与样本A相似时,通过从样本B中减去样本A计算出的差值BA被输出作为样本B的差分数据。用于指定用于计算差值的样本A的参考词典编号(=1)被存储在报头区域R1中的参考词典编号中。
接下来,如图25所示,样本组中的下一个样本C的样本数据被读取作为输入。计算读取的样本C与样本A之间的差值。当从读取的样本C与样本A之间的差值确定样本C与样本A不相似时,样本C的样本数据以词典号#2注册在词典中。作为样本C的差分数据,直接输出样本C的样本数据。此时,由于样本C的差分数据不是差值,所以作为表示差分数据不是差值的值而预先分配的特定数值(例如,“0”)被存储在报头区域R1中的参考词典号中。
接下来,如图26中所示,样本组中的下一个样本D的样本数据被读取作为输入。分别计算所读取的样本D与样本A之间的差值以及样本D与样本C之间的差值。当从所计算的差值确定样本D与样本C相似时,通过从样本D减去样本C所计算的差值DC被输出作为样本D的差分数据。用于指定用于计算差值的样本C的参考词典编号(=2)被存储在报头区域R1中的参考词典编号中。
此后,如图27所示,通过重复执行相同操作,最终针对所有样本生成在报头中包括参考词典号的差分数据。
1.12概述
如上所述,根据本实施例,由于可根据数据的特性来压缩将被压缩的数据(样本组),所以可减少数据传送时间或防止数据传送时间的增加,并可降低存储数据所需的存储成本或防止存储成本的增加。
例如,即使当从多色的下一代流式细胞仪1获取的样本组从信息处理装置2转移到云3时,也可以减少样本组的传送时间或防止传送时间的增加。通过将上述数据减少方法应用于要存储在云3中的样本组,还可以实现存储样本组所需的存储成本的降低或防止存储成本的增加。
2.第二实施例
随后,说明本公开的第二实施例。应注意,因为根据本实施方式的流式细胞仪和信息处理系统的配置和操作可以类似于以上说明的实施方式的配置和操作,所以在此省略其详细说明。
2.1在荧光光谱/荧光染料信息中获得的相似性信息的相互使用
第一实施例中待压缩的数据是荧光光谱和/或荧光染料信息。因此,当荧光光谱和荧光染料信息均被压缩时,在荧光光谱的压缩和荧光染料信息的压缩中的每一个中,可能需要执行差分数据的生成(相当于图15中的步骤S01)。
然而,要压缩的荧光光谱和荧光染料信息是从相同的样本组测量的荧光光谱和从荧光光谱产生的荧光染料信息。因此,被确定为在荧光光谱中具有高相似性的样本也极有可能被确定为在荧光染料信息中具有高相似性。这是因为在荧光光谱和荧光染料信息之间维数不同,但表示荧光光谱和荧光染料信息的样本的类型是相同的。
在这种情况下,认为关于在荧光光谱和荧光染料信息中的一个的数据压缩中的差分数据(S01)的生成中获得的相似性的信息(以下称为相似性信息)可用于另一个的数据压缩(相似性信息的相互使用)。
因此,在本实施方式中,在生成其他差分数据(S01)时使用在荧光光谱和荧光染料信息的各自的压缩处理中的一个差分数据(S01)的生成中的相似样本确定处理中获得的结果(相似性信息),省略在其他差分数据(S01)的生成中的相似样本确定处理。结果,由于其他压缩处理被加速,所以整个压缩处理可以被加速。
例如,通过在数据库等中对在一个压缩处理的处理中生成的每个样本的相似性信息(表示哪个样本相似的信息)进行管理,并且在另一个压缩处理中参照在数据库等中管理的相似性信息,可以实现相似性信息的相互使用。
其他配置、操作和效果可类似于上述实施例中的配置、操作和效果。因此,这里省略其详细说明。
3.第三实施方式
随后,说明本发明的第三实施方式。应注意,因为根据本实施方式的流式细胞仪和信息处理系统的配置和操作可以类似于以上说明的实施方式的配置和操作,所以在此省略其详细说明。
3.1通过划分压缩/解码的云传输的加速
图28是用于说明根据本实施方式的压缩、传输和解码的执行顺序实例的示图,其中,(a)是示出了在顺序执行压缩、传输和解码的情况下的处理流程的示意图,并且(b)是示出了在压缩、传输和解码被流水线化的情况下的处理流程的示意图。
如图28的(a)中所示,当依次执行压缩、数据传输和解码时,在信息处理装置2中执行压缩处理S1(见图3)并且收集了所有压缩数据之后,执行从信息处理装置2到云3的压缩数据的传输S2,此后,在云3侧接收到所有压缩数据之后,执行压缩数据的恢复S3。
另一方面,如图28的(b)所示,当压缩、数据传输和解码被流水线化并且部分地执行并行处理时,不等待信息处理装置2中的压缩处理S1(参见图3)的完成,从信息处理装置2到云3的压缩数据的传输S2按照生成的压缩数据的顺序进行,此后,以从在云3侧接收的压缩数据的顺序进行压缩数据的恢复S3。因此,通过流水线化压缩、数据传送和解码,可以大大减少从在信息处理装置2侧压缩样本数据到在云3侧恢复压缩数据所需的时间。
图29是用于更详细地说明根据本实施方式的压缩、传输和解码的执行顺序实例的示图。如图29中所示,在本实施方式中,样本组被划分为多个块。每个块可由例如大约几千到几十万个样本配置。
信息处理装置2以块为单位执行压缩并且从完成压缩的块依次将压缩的数据传送(传输→接收)至云3。云3顺序地恢复以块为单位从信息处理装置2接收的压缩数据。
利用这种流水线,下一个块的压缩处理(例如,压缩#2和#3)隐藏在前一个块的传送处理(例如,传输#1和#2以及接收#1)之后,并且前一个块的恢复处理(例如,恢复#1和#2)隐藏在后一个块的传送处理(例如,传输#3和接收#2和#3)之后。因此,可以大大减少从压缩到所有样本数据的恢复的处理时间。
注意,当将被压缩的数据划分为更小的块单元时,存在数据压缩比降低的可能性。然而,虽然在本实施例中示出的样本数据中样本的数量是几万到两千万或更多,但是当样本的类型的数量是大约几百时,即使样本组被划分为大约几千到几十万个块,也能够在块中实现足够的数据压缩比。
其他配置、操作和效果可类似于上述实施例中的配置、操作和效果。因此,这里省略其详细说明。
以上参照附图详细说明了本发明的优选实施方式。然而,本公开的技术范围不限于这种实例。显然,在本公开的技术领域中具有普通知识的技术人员可获得在权利要求中描述的技术思想范畴内的各种更改或校正。应当理解,这些变更和校正自然属于本公开的技术范围。
本说明书中描述的效果仅是说明性的或说明性的,而不是限制性的。即,根据本公开的技术可以从本说明书的描述连同或者代替效果而实现对本领域技术人员显而易见的其他效果。
应注意,以下配置也属于本公开的技术范围。
(1)一种信息处理系统,包括:
激发光源,用激发光照射属于样本组的相应的多个样本;
测量单元,测量通过利用激发光照射样本而产生的荧光;以及
信息处理单元,基于针对各个样本测量的所述荧光的荧光信号之中相似的荧光信号之间的差值生成差分数据。
(2)根据(1)的信息处理系统,其中,
信息处理单元将在从多个荧光信号中选择的两个荧光信号的组合之中具有最小的计算出的差值的组合设置为相似的荧光信号。
(3)根据(1)或(2)所述的信息处理系统,其中
荧光信号包括多个维度,并且
信息处理单元将在从多个荧光信号中选择的两个荧光信号的组合之中在对应的维度之间计算的差的最大值最小的组合设置为相似的荧光信号。
(4)根据(1)至(3)中任一项所述的信息处理系统,其中
信息处理单元将在从多个荧光信号中选择的两个荧光信号的组合之中具有最高的计算的差值的出现频率的组合设置为相似的荧光信号。
(5)根据(1)至(4)中任一项所述的信息处理系统,其中
荧光信号包括多个维度,并且
信息处理单元将在从多个荧光信号中选择的两个荧光信号的组合之中在相应的维度之间计算的差值出现频率总数最大的组合设置为相似的荧光信号。
(6)根据(1)至(5)中任一项所述的信息处理系统,其中
信息处理单元使用欧几里得距离和余弦相似性中的至少一个指定相似的荧光信号。
(7)根据(1)至(6)中任一项所述的信息处理系统,其中
差分数据包括第一信息,所述第一信息用于指定用于计算差值的相似荧光信号的组合。
(8)根据(7)的信息处理系统,其中,
当样本组中不存在与多个荧光信号中的第一荧光信号相似的荧光信号时,差分数据包括预定的第二信息而不是第一信息。
(9)根据(1)至(8)中任一项所述的信息处理系统,其中
信息处理单元通过压缩差分数据生成压缩数据。
(10)根据(9)的信息处理系统,其中,
信息处理单元使用可逆压缩方法压缩差分数据。
(11)根据(9)或(10)所述的信息处理系统,其中
信息处理单元使用通过减少不必要的位表示进行压缩的方法、词典压缩方法、使用熵编码的压缩方法和使用统计预测的压缩方法中的至少一个方法来压缩差分数据。
(12)根据(10)所述的信息处理系统,其中
差分数据包括用于指定差值的最高有效位的信息,并且
信息处理单元使用包括通过减少不必要的位表示进行压缩的方法的可逆压缩方法来压缩差分数据。
(13)根据(1)至(12)中任一项所述的信息处理系统,其中
荧光信号包括通过使用光照射样本而产生的光的第一光谱信息。
(14)根据(1)至(13)中任一项所述的信息处理系统,其中
荧光信号包括荧光染料的荧光染料信息,所述荧光染料信息从通过用激发光照射用荧光染料标记的样本而产生的光的光谱信息中获得。
(15)根据(1)至(14)中任一项所述的信息处理系统,其中
荧光信号包括通过用激发光照射用荧光染料标记的样本产生的光的光谱信息以及从光谱信息获得的荧光染料的荧光染料信息,以及
信息处理单元基于计算相似光谱信息之间的差值时所指定的相应相似光谱信息的样本的组合来指定相似的荧光染料信息并且计算所指定的所述相似荧光染料信息之间的差值。
(16)根据(9)至(12)中任一项所述的信息处理系统,进一步包括:
发送单元,经由预定网络发送由信息处理单元生成的压缩数据。
(17)根据(9)至(12)中任一项所述的信息处理系统,进一步包括:
存储单元,存储由信息处理单元生成的压缩数据。
(18)根据(1)至(17)中任一项所述的信息处理系统,进一步包括:
解压缩单元,解压缩由信息处理单元生成的差值的压缩数据;以及
恢复单元,基于由解压缩单元解压缩的差值恢复多个荧光信号。
(19)一种信息处理装置,包括:
差分计算单元,计算基于通过用激发光照射属于样本组的相应的多个样本而产生的荧光的荧光信号之中相似的荧光信号之间的差值;以及
压缩单元,压缩差值。
(20)一种信息处理方法,包括:
计算基于通过用激发光照射属于样本组的相应的多个样本而产生的荧光的荧光信号之中相似的荧光信号之间的差值;以及
压缩该差值。
参考标号列表
1 流式细胞仪
2 信息处理装置
3 云层
4 终端
100 光源单元
101至103 激发光源
111、115 全反射镜
112、113 双色反射镜
116 物镜
120 微芯片
123 聚光
130 散射光检测单元
131、133、135 透镜
132 全反射镜
134 掩模
136 光电检测器
137 光圈
140 荧光检测单元
141 光谱光学系统
141a 光学元件
142 光电检测器
150 解多路复用器光学系统
151 滤波器
152、准直透镜
153 双色反射镜
154 全反射镜
L1、L2、L3 激发光
L11 光
L12 正向散射光
L13 荧光
L14 散射光。

Claims (20)

1.一种信息处理系统,包括:
激发光源,用激发光照射属于样本组的相应的多个样本;
测量单元,测量通过利用所述激发光照射样本而产生的荧光;以及
信息处理单元,基于针对各个样本测量的所述荧光的荧光信号之中相似的荧光信号之间的差值生成差分数据。
2.根据权利要求1所述的信息处理系统,其中
所述信息处理单元将在从所述多个荧光信号中选择的两个荧光信号的组合之中具有最小的计算的差值的组合设置为所述相似的荧光信号。
3.根据权利要求1所述的信息处理系统,其中
所述荧光信号包括多个维度,并且
所述信息处理单元将在从所述多个荧光信号中选择的两个荧光信号的组合之中在对应的维度之间计算的差值最大值最小的组合设置为所述相似的荧光信号。
4.根据权利要求1所述的信息处理系统,其中
所述信息处理单元将在从所述多个荧光信号中选择的两个荧光信号的组合之中具有最高的计算的差值的出现频率的组合设置为所述相似的荧光信号。
5.根据权利要求1所述的信息处理系统,其中
所述荧光信号包括多个维度,并且
所述信息处理单元将在从所述多个荧光信号中选择的两个荧光信号的组合之中在相应的维度之间计算的差值出现频率总数最大的组合设置为所述相似的荧光信号。
6.根据权利要求1所述的信息处理系统,其中
所述信息处理单元使用欧几里得距离和余弦相似性中的至少一个指定所述相似的荧光信号。
7.根据权利要求1所述的信息处理系统,其中
所述差分数据包括第一信息,所述第一信息用于指定用于计算所述差值的所述相似荧光信号的组合。
8.根据权利要求7所述的信息处理系统,其中,
当所述样本组中不存在与所述多个荧光信号中的第一荧光信号相似的荧光信号时,所述差分数据包括预定的第二信息而不是所述第一信息。
9.根据权利要求1所述的信息处理系统,其中
所述信息处理单元通过压缩所述差分数据生成压缩数据。
10.根据权利要求9所述的信息处理系统,其中
所述信息处理单元使用可逆压缩方法压缩所述差分数据。
11.根据权利要求9所述的信息处理系统,其中
所述信息处理单元使用通过减少不必要的位表示进行压缩的方法、词典压缩方法、使用熵编码的压缩方法和使用统计预测的压缩方法中的至少一个方法来压缩所述差分数据。
12.根据权利要求10所述的信息处理系统,其中
所述差分数据包括用于指定所述差值的最高有效位的信息,并且
所述信息处理单元使用包括通过减少不必要的位表示进行压缩的方法的所述可逆压缩方法来压缩所述差分数据。
13.根据权利要求1所述的信息处理系统,其中
所述荧光信号包括通过使用光照射所述样本而产生的光的第一光谱信息。
14.根据权利要求1所述的信息处理系统,其中
所述荧光信号包括所述荧光染料的荧光染料信息,所述荧光染料信息从通过用激发光照射用所述荧光染料标记的所述样本而产生的光的光谱信息中获得。
15.根据权利要求1所述的信息处理系统,其中
所述荧光信号包括通过用激发光照射用荧光染料标记的所述样本产生的光的光谱信息以及从所述光谱信息获得的所述荧光染料的荧光染料信息,以及
所述信息处理单元基于计算相似光谱信息之间的差值时所指定的相应相似光谱信息的所述样本的组合来指定相似的荧光染料信息并且计算所指定的相似荧光染料信息之间的差值。
16.根据权利要求9所述的信息处理系统,进一步包括:
发送单元,经由预定网络发送由所述信息处理单元生成的所述压缩数据。
17.根据权利要求9所述的信息处理系统,进一步包括:
存储单元,存储由所述信息处理单元生成的所述压缩数据。
18.根据权利要求1所述的信息处理系统,进一步包括:
解压缩单元,解压缩由信息处理单元生成的差值的压缩数据;以及
恢复单元,基于由所述解压缩单元解压缩的差值恢复所述多个荧光信号。
19.一种信息处理装置,包括:
差分计算单元,计算基于通过用激发光照射属于样本组的相应的多个样本而产生的荧光的荧光信号之中相似的荧光信号之间的差值;以及
压缩单元,压缩所述差值。
20.一种信息处理方法,包括:
计算基于通过用激发光照射属于样本组的相应的多个样本而产生的荧光的荧光信号之中相似的荧光信号之间的差值;以及
压缩所述差值。
CN202180021071.8A 2020-03-26 2021-02-18 信息处理系统、信息处理装置和信息处理方法 Pending CN115280133A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020056230 2020-03-26
JP2020-056230 2020-03-26
PCT/JP2021/006046 WO2021192750A1 (ja) 2020-03-26 2021-02-18 情報処理システム、情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
CN115280133A true CN115280133A (zh) 2022-11-01

Family

ID=77892484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180021071.8A Pending CN115280133A (zh) 2020-03-26 2021-02-18 信息处理系统、信息处理装置和信息处理方法

Country Status (5)

Country Link
US (1) US20230138514A1 (zh)
EP (1) EP4130712A4 (zh)
JP (1) JPWO2021192750A1 (zh)
CN (1) CN115280133A (zh)
WO (1) WO2021192750A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0620428B1 (en) * 1993-03-19 1998-09-23 Becton, Dickinson and Company Method for compression of multiparameter event list recordings
JP4109124B2 (ja) * 2003-01-10 2008-07-02 大日本印刷株式会社 時系列信号の符号化装置
JP4465362B2 (ja) * 2004-09-10 2010-05-19 パイオニア株式会社 画像処理装置、画像処理方法、および画像処理プログラム
JP2008199587A (ja) * 2007-01-18 2008-08-28 Matsushita Electric Ind Co Ltd 画像符号化装置、画像復号化装置および方法
JP2009104026A (ja) 2007-10-25 2009-05-14 Nisca Corp 光学フィルタの製造方法及び光学フィルタ並びに撮像光量調整装置
US8751462B2 (en) * 2008-11-14 2014-06-10 Emc Corporation Delta compression after identity deduplication
JP2012004636A (ja) * 2010-06-14 2012-01-05 Yokogawa Electric Corp データ圧縮装置およびデータ復元装置
JP5870851B2 (ja) * 2012-05-29 2016-03-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2017203679A1 (ja) * 2016-05-27 2017-11-30 株式会社日立ハイテクノロジーズ 発光画像符号化装置、発光画像復号化装置、及び発光画像解析システム

Also Published As

Publication number Publication date
EP4130712A4 (en) 2023-08-30
WO2021192750A1 (ja) 2021-09-30
US20230138514A1 (en) 2023-05-04
JPWO2021192750A1 (zh) 2021-09-30
EP4130712A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
US11340167B2 (en) Fluorescence intensity correcting method, fluorescence intensity calculating method, and fluorescence intensity calculating apparatus
Grégori et al. Hyperspectral cytometry at the single‐cell level using a 32‐channel photodetector
CN107045637B (zh) 一种基于光谱的血液物种识别仪及识别方法
US20220082488A1 (en) Methods of forming multi-color fluorescence-based flow cytometry panel
JP5937780B2 (ja) 蛍光スペクトル補正方法及び蛍光スペクトル測定装置
US20230120382A1 (en) Information processing device, information processing method, program, and optical measurement system
CN109187443B (zh) 基于多波长透射光谱的水体细菌微生物准确识别方法
WO2021100622A1 (ja) 情報処理システムおよび情報処理装置
US20220003655A1 (en) Information processing apparatus, information processing method, and computer program
US20220283073A1 (en) Information processing device, information processing method, program, and information processing system
US20240027457A1 (en) High parameter reagent panel and reagent kit for effective detection of aberrant cells in acute myeloid leukemia
CN115280133A (zh) 信息处理系统、信息处理装置和信息处理方法
US11561161B2 (en) Information processing apparatus, information processing method, and program
JP2021036224A (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
US20230168195A1 (en) Particle analysis system, information processing method, and program
WO2023171463A1 (ja) 情報処理装置及び情報処理システム
EP4227665A1 (en) Server system, information processing system, data acquisition client terminal, data analysis client terminal, and information processing method
CN117355739A (zh) 分析生物样品或化合物或化学元素的方法
Out BI® _PHOTONICS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination