CN114375477A - 用于处理生物学相关数据的系统和方法、用于控制显微镜的系统和方法及显微镜 - Google Patents

用于处理生物学相关数据的系统和方法、用于控制显微镜的系统和方法及显微镜 Download PDF

Info

Publication number
CN114375477A
CN114375477A CN201980099034.1A CN201980099034A CN114375477A CN 114375477 A CN114375477 A CN 114375477A CN 201980099034 A CN201980099034 A CN 201980099034A CN 114375477 A CN114375477 A CN 114375477A
Authority
CN
China
Prior art keywords
dimensional representation
image
dimensional
biologically relevant
microscope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980099034.1A
Other languages
English (en)
Inventor
C·卡佩尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ThyssenKrupp Industrial Solutions AG
Original Assignee
Uhde GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uhde GmbH filed Critical Uhde GmbH
Publication of CN114375477A publication Critical patent/CN114375477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

用于处理生物学相关数据的系统(100)包括一个或多个处理器(110),该一个或多个处理器联接至一个或多个存储设备(120)。系统(100)配置为接收基于生物学相关图像的检索数据(103),并配置为通过由一个或多个处理器(110)执行的经训练的视觉识别机器学习算法,生成基于生物学相关图像的检索数据(103)的第一高维表示。该第一高维表示包括至少3个条目,每个条目具有不同的值。进一步地,系统(100)配置为获得多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的多个第二高维表示(105)。另外,系统(100)配置为通过一个或多个处理器(110)将第一高维表示与多个第二高维表示中的每个第二高维表示(105)进行比较。

Description

用于处理生物学相关数据的系统和方法、用于控制显微镜的 系统和方法及显微镜
技术领域
示例涉及生物学相关数据的处理和/或显微镜的控制。
背景技术
在许多生物学应用中,会产生大量数据。例如,从大量生物结构采集图像并将图像存储在数据库中。手动分析生物数据非常耗时且成本较高。
发明内容
因此,需要改进用于处理生物学相关数据和/或显微镜的控制的理念。
这种需要可以通过权利要求的主题得到满足。
一些实施例涉及一种系统,该系统包括联接至一个或多个存储设备的一个或多个处理器。该系统配置为接收基于生物学相关图像的检索数据,并配置为通过由一个或多个处理器执行的经训练的视觉识别机器学习算法,生成基于生物学相关图像的检索数据的第一高维表示。第一高维表示包括至少3个条目,每个条目具有不同的值。进一步地,该系统配置为获得多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的多个第二高维表示。另外,该系统配置为将第一高维表示与多个第二高维表示中的每个第二高维表示进行比较。
通过使用视觉识别机器学习算法,可以将基于图像的检索请求映射至高维表示。通过使高维表示具有拥有各种不同值的条目(与独热编码表示相反),语义相似的生物学检索词可以映射到相似的高维表示。通过获得多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的高维表示,可以找到与检索请求的高维表示相同或相似的高维表示。以这种方式,使得可以找到与检索请求相对应的图像或文字。以这种方式,经训练的视觉识别机器学习算法可以实现根据基于图像的检索输入,在多个生物图像(例如,生物图像数据库)中检索生物学相关图像,或在多个生物学相关文本(例如,科学论文集或科学论文库)中检索生物学相关文本。即使图像之前未加标签或标记,也可以实现在已经存在的数据库或由运行实验生成的图像(例如,由显微镜拍摄的一个或多个生物样本的图像)中进行检索。
一些实施例涉及一种系统,该系统包括一个或多个处理器以及一个或多个存储设备。该系统配置为接收基于图像的检索数据,并配置为通过由一个或多个处理器执行的经训练的视觉识别机器学习算法,生成基于图像的检索数据的第一高维表示。第一高维表示包括至少3个条目,每个条目具有不同的值。进一步地,该系统配置为获得多个基于图像的输入数据集的多个第二高维表示,并配置为基于第一高维表示与多个第二高维表示中的每个第二高维表示的比较,从多个第二高维表示中选择第二高维表示。另外,该系统配置为提供控制信号,用于基于所选择的第二高维表示控制显微镜的操作。
通过使用视觉识别机器学习算法,可以将基于图像的检索请求映射至高维表示。通过使高维表示具有拥有各种不同值的条目(与独热编码表示相反),语义相似的检索词可以映射到相似的高维表示。通过获得多个基于图像的输入数据集的高维表示,可以找到与检索词的高维表示相同或相似的高维表示。以这种方式,使得可以找到与检索请求相对应的图像。利用该信息,可以将显微镜驱动至相应位置,拍摄图像,以便能够拍摄感兴趣位置的其他图像(例如,使用更高放大倍率、不同光线或滤光片拍摄的图像)。以这种方式,样本(例如,生物样本或集成电路)可以首先以低放大率成像以找到与检索请求相对应的位置,之后可以更详细地对感兴趣的位置进行分析。
一些实施例涉及一种系统,该系统包括联接到一个或多个存储设备的一个或多个处理器。该系统配置为通过由一个或多个处理器执行的聚类算法,确定多个基于图像的输入数据集的多个第二高维表示的多个聚类。进一步地,该系统配置为确定多个聚类中的聚类的聚类中心的第一高维表示,并配置为基于第一高维表示与多个第二高维表示中的每个第二高维表示或第二高维表示的子集的比较,从多个第二高维表示中选择第二高维表示。另外,该系统配置为提供控制信号,用于基于所选择的第二高维表示控制显微镜的操作。
通过鉴定(identify)第二高维表示的聚类,可以将与语义相似内容相对应的第二高维表示组合为一个聚类。通过确定聚类中心并通过比较鉴定出最接近聚类中心的一个或多个第二高维表示,可以找到一个或多个图像,该一个或多个图像代表该聚类的典型图像。例如,不同的聚类可以包括对应于生物样本的不同特征部分(例如,细胞质、细胞核、细胞骨架)的第二高维表示。该系统能够提供控制信号,从而使显微镜移动至拍摄一个或多个聚类的典型图像所在的位置(例如,以便在该位置以变化的显微镜参数拍摄更多图像)。
附图说明
以下将仅通过示例的方式并参考附图对装置和/或方法的一些示例进行描述,其中:
图1是用于处理生物学相关数据的系统的示意图;
图2是用于处理生物学相关数据的另一种系统的示意图;
图3是用于处理生物学相关数据的另一种系统的示意图;
图4是用于控制显微镜的系统的示意图;
图5是用于根据基于生物学相关图像的检索数据控制显微镜的系统的示意图;
图6是用于控制显微镜的系统的示意图;
图7a是通过使用聚类算法根据基于生物学相关图像的检索数据来控制显微镜的系统的示意图;
图7b是通过使用聚类算法来处理生物学相关数据的系统的示意图;
图8是用于处理数据的系统的示意图;
图9是用于处理生物学相关数据的方法的流程图;
图10是用于控制显微镜的方法的流程图;并且
图11是用于控制另一种显微镜的方法的流程图。
具体实施方式
现在将参考其中示出了一些示例的附图,对各个示例进行更全面的描述。在图中,为了清楚起见,可能夸大了线、层和/或区域的厚度。
相应地,虽然另外的示例能够具有各种修改和替代形式,但其一些特定示例已在图中示出并随后将进行详细描述。然而,该详细描述并非将另外的示例限制为所描述的特定形式。另外的示例可以涵盖落入本公开范围内的所有修改、等同物和替代物。在整个附图描述中,相同或相似的附图标记指代相同或相似的元件,这些相同或相似的附图标记在相互比较时可以以相同或改动的形式实施,同时提供相同或相似的功能。
将理解的是,当某个元件被称为“连接”或“联接”至另一个元件时,这些元件可以直接连接或联接,或经由一个或多个中间元件连接或联接。除非明确或隐含地另外定义,否则如果使用“或”组合两个元件A和B,则这将被理解为公开所有可能的组合,即仅A、仅B以及A和B。用于相同组合的替代用语为“A和B中的至少一个”或“A和/或B”。加以必要的修改,这同样适用于两个以上元件的组合。
本文用于描述特定示例的术语并非旨在限制另外的示例。无论何时,使用诸如“一个(a)”、“一个(an)”和“所述(the)”之类的单数形式以及仅使用单个元件未被明确或隐含地定义为强制性的情况下,另外的示例也可以使用复数个元件来实现相同的功能。同样,当某种功能之后被描述为使用多个元件实现时,另外的示例可以使用单个元件或处理实体实现相同的功能。将进一步理解的是,当使用时,术语“包括”(comprise)、“包括(comprising)”、“包含(includes)”和/或“包含(including)指出存在所阐述的特征、整数、步骤、操作、过程、动作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、过程、动作、元件、组件和/或其任何组。
除非另有定义,否则所有术语(包括技术术语和科学术语)在本文中均以其示例所属领域的普通含义使用。
图1示出了根据实施例的用于处理生物学相关数据的系统100的示意图。系统100包括一个或多个处理器110,所述一个或多个处理器联接至一个或多个存储设备120。系统100配置为接收(第一)基于生物学相关图像的检索数据103,并配置为通过由一个或多个处理器110执行的经训练的视觉识别机器学习算法,来生成(第一)基于生物学相关图像的检索数据103的第一高维表示。第一高维表示包括至少3个条目,每个条目具有不同的值,(或包括彼此之间取值不同的至少20个条目、至少50个条目或至少100个条目)。进一步地,系统100配置为获得多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的多个第二高维表示105。另外,系统100配置为通过一个或多个处理器110将第一高维表示与多个第二高维表示中的每个第二高维表示105进行比较。
基于生物学相关图像的检索数据103可以是以下各项的图像的图像数据(例如,图像的像素数据):包括核苷酸或核苷酸序列的生物结构;包括蛋白质或蛋白质序列的生物结构;生物分子;生物组织;具有特定行为的生物结构;和/或具有特定生物学功能或特定生物活性的生物结构。生物结构可以是在体内或体外的分子、类病毒或病毒、人工或天然膜包封囊泡、亚细胞结构(如细胞器)、细胞、球状体、类器官、三维细胞培养物、生物组织、器官切片或器官的一部分。例如,生物结构的图像可以是细胞或组织内的蛋白质的位置的图像,或者可以是具有所标记的核苷酸探针与其结合(例如,原位杂交)的内源核苷酸(例如,DNA)的细胞或组织的图像。图像数据可以包括针对图像的每个颜色维度(例如,用于RGB表示的三个颜色维度)的图像的每个像素的像素值。例如,依据成像模态,其他通道可以适于与激发或发射波长、荧光寿命、光偏振、三个空间维度中的载物台位置、不同成像角度相关。基于生物学相关图像的检索数据103可以是XY像素图、体积数据(XYZ)、时间序列数据(XY+T)或其组合(XYZT)。此外,可以包含取决于图像源的类型的附加维度,诸如通道(例如,光谱发射带)、激发波长、载物台位置、如在多孔板或多位置实验中的逻辑位置、和/或如在光片成像中的反射镜和/或物镜位置。例如,用户可以输入图像作为像素图或更高维度的图片,或者数据库可以提供图像作为像素图或更高维度的图片。基于生物学相关图像的检索数据103可以从一个或多个存储设备、由存储设备存储的数据库接收,或者可以由用户输入。
高维表示(例如,第一高维表示和第二高维表示)可以是隐藏表示、潜在向量、嵌入(embedding)、语义嵌入和/或令牌嵌入(token embedding),和/或也可以称为隐藏表示、潜在向量、嵌入、语义嵌入和/或令牌嵌入。
第一高维表示和/或第二高维表示可以是数字表示(例如,仅包括数值)。第一高维表示和/或第二高维表示可以包括100个以上的维度(或300个以上的维度或500个以上的维度)和/或10000个以下的维度(或3000个以下的维度或1000个以下维度)。高维表示的每个条目可以是高维表示的一个维度(例如,具有100个维度的高维表示包括100个条目)。例如,使用具有300个以上的维度且1000个以下的维度的高维表示可以实现具有语义相关性的生物学相关数据的合适表示。第一高维表示可以是第一向量并且每个第二高维表示可以是相应的第二向量。如果对于第一高维表示的条目和第二高维表示的条目使用向量表示,则可以实施有效的比较和/或其他计算(例如,归一化),但是其他表示(例如,作为矩阵的表示)也是可行的。例如,第一高维表示和/或第二高维表示可以是归一化向量。第一高维表示和第二高维表示可以归一化为相同的值(例如1)。例如,经训练的语言识别机器学习算法的最后一层可以表示非线性运算,该运算另外可以执行归一化。第一高维表示和/或第二高维表示可以由经训练的视觉识别机器学习算法生成,该算法可能已通过损失函数进行了训练,使得经训练的视觉识别机器学习算法输出归一化的高维表示。然而,也可以运用用于第一高维表示和第二高维表示的归一化的其他方法。
例如,与独热编码表示(one hot encoded representation)相比,第一高维表示和/或第二高维表示可以包括取值不等于0的各种条目(至少三个条目)。对应于第一高维表示,多个第二高维表示中的每个第二高维表示可以包括至少3个条目,每个条目具有不同的值,(或包括彼此之间取值不同的至少20个条目、至少50个条目或至少100个条目)。通过使用允许具有取值不等于0的各种条目的高维表示,可以再现有关高维表示之间的语义关系的信息。例如,第一高维表示的条目的50%以上(或70%以上或90%以上)的值和/或第二高维表示的条目的50%以上(或70%以上或90%以上)的值可以不等于0。有时,独热编码表示也具有一个以上的不等于0的条目,但只有一个条目具有高值,而所有其他条目的值都处于噪声级(例如,低于该一个高值的10%)。相反,例如,第一高维表示的5个以上的条目(或20个以上的条目或50个以上条目)的值可以比第一高维表示的条目的最大绝对值大10%(或大20%或大30%)。进一步地,多个第二高维表示中的每个第二高维表示的5个以上的条目(或20个以上的条目或50个以上的条目)的值可以比第二高维表示的条目的相应的最大绝对值大10%(或大20%或大30%)。例如,多个第二高维表示中的一个第二高维表示的5个以上的条目(或20个以上的条目或50个以上的条目)的值可以比该一个第二高维表示的条目的最大绝对值大10%(或大20%或大30%)。例如,第一高维表示和/或第二高维表示的每个条目可以包括介于-1和1之间的值。
通过将具有经训练的参数集的经训练的视觉识别机器学习算法的至少一部分(例如,编码器)应用于基于生物学相关图像的检索数据103,可以生成第一高维表示。例如,通过经训练的视觉识别机器学习算法生成第一高维表示可以意指第一高维表示是通过经训练的视觉识别机器学习算法的编码器生成的。经训练的视觉识别机器学习算法的经训练的参数集可以在如下文所述的训练视觉识别机器学习算法期间获得。
第一高维表示的一个或多个条目的值和/或第二高维表示的一个或多个条目的值可以与存在特定生物学功能或特定生物活性的可能性成比例。通过使用生成保留了输入数据集的语义相似度的高维表示的映射,与语义不太相似的高维表示相比,语义相似的高维表示彼此之间可以具有更近的距离。进一步地,如果两个高维表示表示具有相同或相似的特定生物学功能或特定生物活性的输入数据集,则这两个高维表示中的一个或多个条目可以具有相同或相似的值。由于保留了语义,因此高维表示的一个或多个条目可以指示出现或存在特定生物学功能或特定生物活性。例如,高维表示的一个或多个条目的值越高,存在与这些一个或多个条目相关的生物学功能或生物活性的可能性就可以越高。
经训练的视觉识别机器学习算法也可以称为图像识别模型或视觉模型。经训练的视觉识别机器学习算法可以是或可以包括经训练的视觉识别神经网络。经训练的视觉识别神经网络可以包括20个以上的层(或40个以上的层或80个以上的层)和/或400个以下的层(或200个以下的层或150个以下的层)。经训练的视觉识别神经网络可以是卷积神经网络或胶囊网络。使用卷积神经网络或胶囊网络可以针对基于生物学相关图像的数据提供具有高精度的经训练的视觉识别机器学习算法。然而,也可以运用其他视觉识别算法。例如,经训练的视觉识别神经网络可以包括多个卷积层和多个池化层。然而,例如,如果使用胶囊网络和/或使用步幅=2来代替步幅=1进行卷积,则可以避免池化层。经训练的视觉识别神经网络可以使用修正线性单元激活函数。使用修正线性单元激活函数可以针对基于生物学相关图像的输入数据提供高精度的经训练的视觉识别机器学习算法,但是也可以运用其他激活函数(例如,hard tanh激活函数、sigmoid激活函数或tanh激活函数)。例如,经训练的视觉识别神经网络可以包括卷积神经网络和/或可以是深度取决于输入图像的大小的残差网络(ResNet)或密集连接卷积网络(DenseNet)。
通过从数据库(例如,由一个或多个存储设备存储的数据库)接收第二高维表示105,或通过基于多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集生成多个第二高维表示105,可以获得多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的多个第二高维表示105。例如,如果多个第二高维表示基于多个基于生物学相关图像的输入数据集,则系统100可以配置为通过由一个或多个处理器执行的经训练的视觉识别机器学习算法生成多个第二高维表示中的第二高维表示,从而获得第二高维表示。例如,经训练的视觉模型能够表示语义嵌入空间中的图像(例如,表示为第二高维表示)。另选地,如果多个第二高维表示基于多个基于生物学相关语言的输入数据集,则系统100可以配置为通过由一个或多个处理器执行的经训练的语言识别机器学习算法生成多个第二高维表示中的第二高维表示,从而获得第二高维表示。可选地,可以如结合图6、7a和/或7b所述,对第二高维表示进行聚类,然后可以将第一高维表示与聚类中心的每个第二高维表示进行比较或与最接近聚类中心的第二高维表示进行比较。
与基于生物学相关图像的检索数据103类似,多个基于生物学相关图像的输入数据集中的每个基于生物学相关图像的输入数据集可以是以下各项的图像的图像数据(例如,图像的像素数据):包括核苷酸或核苷酸序列的生物结构;包括蛋白质或蛋白质序列的生物结构;生物分子;生物组织;具有特定行为的生物结构;和/或具有特定生物学功能或特定生物活性的生物结构。经训练的视觉识别机器学习算法可以将这些图像的图像数据转换为语义嵌入(例如,第二高维表示)。可以从一个或多个存储设备或从由存储设备存储的数据库接收多个基于生物学相关图像的输入数据集。
多个基于生物学相关语言的输入数据集中的每个基于生物学相关语言的输入数据集可以是与生物结构、生物学功能、生物行为或生物活性相关的文本性输入。例如,基于生物学相关语言的输入数据集可以是核苷酸序列、蛋白质序列、对生物分子或生物结构的描述、对生物分子或生物结构的行为的描述、和/或对生物学功能或生物活性的描述。文本性输入可以是自然语言,该自然语言描述生物分子(例如,多糖、多/寡核苷酸、蛋白质或脂质)或生物分子在实验或数据集的情景下的行为。例如,基于生物学相关语言的检索数据101可以是核苷酸序列、蛋白质序列或一组生物学术语的粗粒度检索词。
一组生物学术语可以包括多个属于同一生物学主题的粗粒度检索词(或另选地称为分子生物学主题词)。一组生物学术语可以是催化活性(例如,作为使用用于离析物和产物的词的某种反应式)、途径(例如,涉及哪个途径,例如,糖酵解)、位点和/或区域(例如,结合位点、活性位点、核苷酸结合位点)、GO基因本体(例如,分子功能,如烟酰胺腺嘌呤二核苷酸NAD结合、微管结合)、GO生物学功能(例如,细胞凋亡、糖异生)、酶和/或途径数据库(例如,用于如在BRENDA/EC编号或UniPathways中的sic函数(sic function)的唯一标识符)、亚细胞定位(例如,细胞质、细胞核、细胞骨架)、家族和/或结构域(例如,如用于翻译后修饰(posttranslational modification)的结合位点、基序)、开放阅读框、单核苷酸多态性、限制性位点(例如,由限制性酶识别的寡核苷酸)和/或生物合成途径(例如,脂质、多糖、核苷酸或蛋白质的生物合成)。例如,该组生物学术语可以是亚细胞定位组,并且粗粒度检索词可以是细胞质、细胞核和细胞骨架。
如果使用粗粒度检索词作为基于生物学相关语言的输入数据集,则多个基于生物学相关语言的输入数据集中的基于生物学相关语言的输入数据集可以包括50个以下的字符(或30个以下的字符或20个以下的字符)的长度,和/或如果使用核苷酸序列或蛋白质序列作为基于生物学相关语言的输入数据集,则多个基于生物学相关语言的输入数据集中的基于生物学相关语言的输入数据集可以包括20个以上的字符(或40个以上的字符、60个以上的字符或80个以上的字符)的长度。例如,由于将三个碱基对编码成一个氨基酸,因此核苷酸序列(DNA/RNA)通常比多肽序列(例如,肽、蛋白质)长约三倍。例如,如果基于生物学相关语言的输入数据集是蛋白质序列或氨基酸,则该基于生物学相关语言的输入数据集可以包括20个以上的字符的长度。如果基于生物学相关语言的输入数据集是核苷酸序列或自然语言的描述性文本,则该基于生物学相关语言的输入数据集可以包括60个以上的字符的长度。例如,基于生物学相关语言的输入数据集可以包括至少一个非数字字符(例如,字母字符)。
经训练的语言识别机器学习算法也可以被称为文本性模型、文本模型或语言模型。语言识别机器学习算法可以是或可以包括经训练的语言识别神经网络。经训练的语言识别神经网络可以包括30个以上的层(或50个以上的层或80个以上的层)和/或500个以下的层(或300个以下的层或200个以下的层)。经训练的语言识别神经网络可以是递归神经网络,例如,长短期记忆网络。使用递归神经网络,例如,长短期记忆网络,可以针对基于生物学相关语言的数据提供具有高精度的语言识别机器学习算法。然而,也可以运用其他语言识别算法。例如,经训练的语言识别机器学习算法可以是一种能够处理长度可变的输入数据的算法(例如,Transformer-XL算法)。例如,第一基于生物学相关语言的输入数据集的长度不同于第二基于生物学相关语言的输入数据集的长度。例如,蛋白质序列通常有数十到数百个氨基酸长(一个氨基酸在蛋白质序列中表示为一个字母)。“语义”(例如序列中子串的生物学功能(在生物学中称为多肽、基序或结构域)在长度上可以不同。因此,可以使用能够接收长度可变的输入的架构。
一个或多个处理器110可以配置为将第一高维表示与多个第二高维表示中的每个第二高维表示进行比较。可以通过计算第一高维表示和第二高维表示之间的距离将第一高维表示与第二高维表示进行比较。如果用向量(例如,归一化向量)表示第一高维表示和第二高维表示,则可以不费力地计算出第一高维表示和第二高维表示之间的距离(例如,欧几里德距离(Euclidean distance)或推土机距离(earth mover′s distance))。可以针对多个第二高维表示中的每个第二高维表示重复计算上述距离。例如,将第一高维表示与多个第二高维表示中的每个第二高维表示进行比较是基于欧几里德距离函数或推土机距离函数来进行的。基于计算出的距离,系统100可以基于选择标准(例如,一个或多个具有最近距离或在距离阈值内的第二高维表示)选择一个或多个第二高维表示。例如,系统100可以配置为基于该比较选择出多个第二高维表示中最接近第一高维表示的第二高维表示。系统100可以输出或存储一个或多个满足选择标准的第二高维表示、多个基于生物学相关图像的输入数据集中对应于所述一个或多个第二高维表示的一个或多个基于生物学相关图像的输入数据集、和/或多个基于生物学相关语言的输入数据集中对应于所述一个或多个第二高维表示的一个或多个基于生物学相关语言的输入数据集。例如,系统100可以输出和/或存储最接近的第二高维表示、多个基于生物学相关图像的输入数据集中对应于最接近的第二高维表示的基于生物学相关图像的输入数据集、和/或多个基于生物学相关语言的输入数据集中对应于最接近的第二高维表示的基于生物学相关语言的输入数据集。
由于使用了具有若干个不等于0的条目的高维表示,因此可以组合两个或更多个高维表示,以便针对两个或更多个检索词的逻辑组合进行检索。例如,用户可以输入两个或更多个检索图像和一个或多个逻辑运算符(例如,AND运算符或NOT运算符),并且可以基于逻辑运算符来组合对应生成的第一高维表示。例如,系统100可以配置为接收第二基于生物学相关图像的检索数据和有关逻辑运算符的信息。进一步地,系统100可以通过由一个或多个处理器执行的经训练的语言识别机器学习算法,生成第二基于生物学相关图像的检索数据的第一高维表示。另外,系统100可以基于第一基于生物学相关图像的检索数据的第一高维表示和第二基于生物学相关图像的检索数据的第一高维表示的组合,根据逻辑运算符确定组合高维表示。组合高维表示可以是归一化的高维表示(例如,归一化向量)。
进一步地,系统100可以将组合高维表示与多个第二高维表示中的每个第二高维表示进行比较。基于组合高维表示与多个第二高维表示中的每个第二高维表示的比较,可以基于选择标准(例如,一个或多个具有最近距离或在距离阈值内的第二高维表示)选择一个或多个第二高维表示。
系统100可以输出或存储一个或多个满足选择标准的第二高维表示、多个基于生物学相关图像的输入数据集中对应于所述一个或多个第二高维表示的一个或多个基于生物学相关图像的输入数据集、和/或多个基于生物学相关语言的输入数据集中对应于所述一个或多个第二高维表示的一个或多个基于生物学相关语言的输入数据集。所选择的一个或多个基于生物学相关图像的输入数据集(例如,生物图像)或所选择的一个或多个基于生物学相关语言的输入数据集(例如,生物文本)可以示出或描述包括检索词的逻辑组合的生物结构,所述检索词如由第一基于生物学相关图像的检索数据、第二基于生物学相关图像的检索数据和有关逻辑运算符的信息表示。以这种方式,可以实现针对两个或更多个检索图像的逻辑组合进行的检索。逻辑运算符可以是AND运算符、OR运算符或NOT运算符。NOT运算符可以抑制不需要的命中项。可以通过针对否定检索词进行的检索来确定NOT运算。例如,可以生成否定检索词的嵌入(例如,第一高维表示)并取反。然后,可以在与图像相关联的多个嵌入(多个第二高维表示)中确定最接近否定检索词的嵌入的k个嵌入,并从多个嵌入中去除所述k个嵌入。可选地,可以确定剩余多个嵌入的平均值(例如,中心点(medoid)或算术平均值)。该新计算的第二高维表示可以用于嵌入空间中的新查询以获得更精确的命中项。OR运算可以通过针对每个检索词确定最接近或k个最接近元素(第二高维表示)来实现,其中k是介于2和N之间的整数。例如,可以循环检索所有OR连接的检索词并且可以输出最接近命中项或k个最接近命中项。进一步地,通过解析表达式并相继地或从里到外地进行检索,可以将若干个逻辑运算符进行组合。
例如,逻辑运算符是AND运算符,并且组合高维表示是通过将第一基于生物学相关图像的检索数据的第一高维表示与第二基于生物学相关图像的检索数据的第一高维表示相加和/或求平均值而确定的。例如,可以确定第一基于生物学相关图像的检索数据的第一高维表示和第二基于生物学相关图像的检索数据的第一高维表示的算数平均值。例如,算术平均值可以通过以下式确定:
Figure BDA0003495185460000121
其中yi是第一高维表示,并且N是待平均的向量数量(例如,逻辑组合检索词的数量)。确定算术平均值可以获得归一化高维表示。另选地,可以使用几何平均值、调和平均值、二次平均值或中心点。中心点可用于避免具有孔的分布(例如,没有数据点的封闭区域)出现较大误差。中心点可以找到最接近平均值的元素。中心点m可以定义为:
Figure BDA0003495185460000122
其中y是整个嵌入(多个第二高维表示),yi是第二高维表示中的一个,
Figure BDA0003495185460000123
是对应于检索词的嵌入(第一高维表示),并且d是距离度量(例如,欧几里德距离或L2范数)。例如,可以找到最接近平均值的元素Y,之后可以确定最接近中心点的k个元素(例如,通过快速排序算法确定)。
如上所述,基于生物学相关图像的检索数据103可以具有各种类型(例如,包括核苷酸序列或蛋白质序列的生物结构的图像或表示一组生物学术语的粗粒度检索词的生物结构的图像)。可以训练单个视觉识别机器学习算法以便仅处理一种类型的输入。因此,系统100可以配置为依据基于生物学相关图像的检索数据103,从多个经训练的视觉识别机器学习算法中选择视觉语言识别机器学习算法。例如,多个经训练的视觉识别机器学习算法可以由一个或多个存储设备120存储,并且系统100可以依据作为基于生物学相关图像的检索数据103接收的输入类型,选择经训练的视觉识别机器学习算法之一。例如,可以通过配置为对基于生物学相关图像的检索数据103进行分类的分类算法(例如,视觉识别机器学习算法),从多个经训练的视觉识别机器学习算法中选择所述经训练的视觉识别机器学习算法。
系统100可以在显微镜中实现,系统100可以连接至显微镜或可以包括显微镜。显微镜可以配置为通过拍摄一个或多个生物样本的图像来获得基于生物学相关图像的检索数据103和/或多个基于生物学相关图像的输入数据集。多个基于生物学相关图像的输入数据集可以由一个或多个存储设备120存储,和/或可以提供多个基于生物学相关图像的输入数据集以生成多个第二高维表示。
系统100的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图2至图7)进行阐述。系统100可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图2示出了根据实施例的用于处理生物学相关数据的系统200的示意图。用户可以使用图像(例如,基于生物学相关图像的检索数据)作为例如包括特定蛋白质序列或核苷酸序列的生物结构的图像来开始查询201。例如,系统200包括视觉模型220(例如,CNN),该视觉模型已经过文本性模型的语义嵌入训练,该文本性模型已针对以下各项进行了训练:大量蛋白质序列(例如,蛋白质序列数据库);核苷酸序列(例如,核苷酸序列数据库);科学出版物(例如,生物学相关出版物的数据库);或其他描述感兴趣对象的作用和/或生物学功能的文本,诸如,博客帖子、研究组的主页、线上文章、论坛或社交媒体帖子。例如,如下所述,视觉模型220已学会在训练期间预测这些语义嵌入,但也可以是其他模型训练方式。用户输入201(例如,查询文本)可以首先由视觉模型210分类到相应的类别(例如,包含蛋白质序列或核苷酸序列的生物结构的图像),并且系统200可以从包含处理输入文本的类别所需的一个或多个视觉模型的此类模型的存储库找到针对该类别的正确的第二视觉模型230。然后,使用穿过相应的经预训练的视觉模型230(经训练的视觉识别机器学习算法)的前向传播(forward pass),将查询图像201转换为其相应的嵌入260(第一高维表示)。数据库240(例如,由一个或多个存储设备存储的数据库240)中的图像数据或作为显微镜中运行实验的一部分的图像数据可以经由穿过经预训练的视觉模型220的前向传播转换为其相应的嵌入250(多个第二高维表示)。经预训练的视觉模型220和第二视觉模型230可以是相同的视觉模型(经训练的视觉识别机器学习算法)。例如,出于性能原因,这一部分可以在用户查询之前完成并存储在合适的数据库255中(例如,由一个或多个存储设备存储的数据库),或者例如,与图像数据一起存储在合适的数据库255中。数据库240和数据库255可以是等同或相同的,但是它们也可以是不同的数据库。然而,对于如在运行实验中的单个或少量的图像,图像的前向传播可以在运行中完成,从而绕过257视觉嵌入250的中间存储装置255。例如,图像存储库240可以表示公共或专用数据库,或者其可以表示运行实验期间显微镜的存储介质。两种生成的嵌入(即一种用于查询文本的嵌入260和一种用于图像的嵌入250)可以在嵌入空间中进行比较270(例如,可以计算其相对距离)。可以使用不同的距离度量进行该比较,诸如欧几里德距离或推土机距离。也可以使用其他距离度量(例如,在聚类中使用的距离度量)。例如,可以确定最接近的嵌入280,并且可以在存储库240中查找相应图像290并将其返回给用户。要返回的图像数量可以由用户预先确定或根据距离阈值或其他标准计算。例如,对一个或多个最接近的嵌入的检索可以提供多个嵌入250(多个第二高维表示)中的k个最接近的元素,其中k为整数。例如,可以确定检索查询的嵌入与多个嵌入250的所有元素之间的欧几里德距离(L2范数)。可以对得到的距离(例如,与多个嵌入中的元素的数量相同)进行排序,并且可以输出具有最小距离的元素或具有k个最小距离的k个元素。
系统200的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1、图3至图7)进行阐述。系统200可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图3示出了根据实施例的用于处理生物学相关数据的系统300的示意图。用户可以使用图像(例如,基于生物学相关图像的检索数据)作为例如包括特定蛋白质序列或核苷酸序列的生物结构的图像开始查询201。可选地,可以使用合适的分类器210(例如,神经网络、统计机器学习算法,它们取决于输入类型)对查询201进行预分类。在一些实施例中,可以跳过315预分类。预分类的结果可以用于选择合适的模型230,该模型可以通过用作特征提取器的经预训练的模型230将用户查询201转换为其相关语义嵌入260。
用户输入和来自数据源240的图像在该语义嵌入空间中进行连接和处理。数据源240可以是专用数据存储库或公共数据存储库或诸如显微镜之类的成像设备。数据类型可以是图像、文本、粗粒度检索词或由数据源记录的仪器特定数据。例如,可以包括视觉模型220(例如,CNN),该视觉模型已经过文本性模型的语义嵌入训练,该文本性模型已针对以下各项进行了训练:大量蛋白质序列(例如,蛋白质序列数据库);核苷酸序列(例如,核苷酸序列数据库);科学出版物(例如,生物学相关出版物的数据库);或其他描述感兴趣对象的作用和/或生物学功能的文本,诸如,博客帖子、研究组的主页、线上文章、论坛或社交媒体帖子。视觉模型220可以已进行了预训练,以便在训练期间预测这些语义嵌入。例如,第一视觉模型220和输入特征提取器230(例如,第二视觉模型)都针对相同的嵌入空间进行了训练。第一视觉模型220和特征提取器230可以是相同的视觉模型(经训练的视觉识别机器学习算法)。然后,使用穿过输入特征提取器230的前向传播将查询201转换为其相应的嵌入260。来自作为数据库或作为显微镜中运行实验的一部分的数据源240的数据可以经由穿过经预训练的模型220(视觉模型)的前向传播转换为其相应的嵌入250。例如,出于性能原因,该程序可以在用户查询之前完成,并且语义嵌入存储在合适数据库255中,或者例如,与图像数据一起存储在合适数据库255中。数据库240和数据库255可以是等同或相同的,但是它们也可以是不同的数据库。然而,对于如在运行实验中的单个或少量的图像,该图像的前向传播可以在运行中完成,从而绕过257视觉嵌入的中间存储装置255。两种生成的嵌入(即一种用于查询的嵌入260和一种用于数据源的嵌入250)现在可以在嵌入空间中进行比较270(例如,可以计算其相对距离)。可以使用不同的距离度量进行该比较,诸如欧几里德距离或推土机距离。也可以使用其他距离度量。例如,在聚类中使用的距离度量可以发挥作用。
系统300可以确定最接近的嵌入280,可以在存储库240或运行实验中查找相应的数据(例如,图像),并且可以将相应的数据返回381。根据实施例的确切目的,最后的步骤可以导致不同的下游处理步骤。在一些情况下,可能需要将数据(诸如在样本方面发现的对象的坐标和载物台坐标)馈送383到可以改变运行实验的过程的图像源(例如,显微镜)。在一些实施例中,可以将相应的数据输出给用户385,用户385可以决定调整运行实验或进一步处理数据。其他实施例可以将相应的数据存档在数据库387中,以供将来检索。另选地,仍然在语义嵌入空间中,相应数据可以转换回到任何输入数据类型并且可以用于查询公共数据库389,以便搜索科学出版物、社交媒体条目或博客帖子390、相同生物分子的图像393或通过序列比对395识别的生物序列。所有找到的信息可以返回给用户385,和/或作为记录在当前运行实验或所搜索数据源自的存储库中的图像的功能注释写入数据库387。
图3可以示出使用图像查询的图像到图像的检索的示例。在一个实施例中,图像存储库240可以表示公共数据库或专用数据库,在另一个实施例中,图像存储库240可以表示运行实验期间的显微镜的存储介质。
系统300的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1、图2和图4至图7)进行阐述。系统300可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图4示出了根据实施例的用于控制显微镜的系统400的示意图。系统400包括一个或多个处理器110和一个或多个存储设备120。系统400配置为接收基于图像的检索数据401,并配置为通过由一个或多个处理器110执行的经训练的视觉识别机器学习算法,生成基于图像的检索数据401的第一高维表示。第一高维表示包括至少3个条目,每个条目具有不同的值,(或包括彼此之间取值不同的至少20个条目、至少50个条目或至少100个条目)。进一步地,系统400配置为获得多个基于图像的输入数据集的多个第二高维表示405,并配置为基于通过一个或多个处理器110进行的第一高维表示与多个第二高维表示中的每个第二高维表示405的比较,从多个第二高维表示中选择第二高维表示405。另外,系统400配置为提供控制信号411,用于基于所选择的第二高维表示405来控制显微镜的操作。
基于图像的检索数据401可以是待分析的样本的图像的图像数据(例如,图像的像素数据)。待分析的样本可以是生物样本、集成电路或任何其他可以通过显微镜成像的样本。例如,如果样本为生物样本,则基于图像的检索数据401可以是以下各项的图像:包括核苷酸或核苷酸序列的生物结构;包括蛋白质或蛋白质序列的生物结构;生物分子;生物组织;具有特定行为的生物结构;和/或具有特定生物学功能或特定生物活性的生物结构。例如,如果样本是集成电路,则基于图像的检索数据401可以是子电路(例如,存储器单元、转换器单元、ESD保护电路)、电路元件(例如,晶体管、电容器或线圈)或结构元件(例如,栅极、过孔、焊盘或垫片)的图像。
多个第二高维表示405可以从数据库中获得或者可以通过视觉识别机器学习算法生成。例如,系统400可以配置为通过由一个或多个处理器110执行的视觉识别机器学习算法,生成多个基于图像的输入数据集的多个第二高维表示405。
显微镜可以配置为拍摄样本的多个图像。多个基于图像的输入数据集可以表示样本的多个图像。多个基于图像的输入数据集可以是由显微镜拍摄的样本的图像的图像数据。例如,可以在不同位置拍摄样本的多个图像以覆盖整个样本,或覆盖因过大而无法以期望的放大率拍摄单个图像的样本的感兴趣区域。多个图像中的每个图像的图像数据可以表示多个基于图像的输入数据集中的一个基于图像的输入数据集。系统400可以配置为存储拍摄图像所在的位置。所述位置可以与对应的图像一起被存储或与对应的第二高维表示405一起被存储。系统400可以包括显微镜,或者显微镜可以连接至系统400或者可以包括系统400。
系统400可以选择多个第二高维表示中满足选择标准(例如,最接近第一高维表示的第二高维表示)的第二高维表示。第一高维表示与多个第二高维表示中的每个第二高维表示的比较可以提供一个或多个最接近第一高维表示的第二高维表示。系统400可以配置为基于该比较选择多个第二高维表示中最接近第一高维表示的一个或多个第二高维表示。
系统400可以配置为基于所选择的第二高维表示确定显微镜目标位置。显微镜目标位置可以是拍摄图像所在的位置,该位置对应于所选择的第二高维表示。例如,显微镜目标位置可以是与所选择的第二高维表示一起存储的位置或者是与图像一起存储的位置,该位置对应于所选择的第二高维表示。显微镜目标位置可以是拍摄图像所在的位置,该图像由基于图像的输入数据表示,并且该位置对应于所选择的第二高维表示。
系统400可以配置为提供控制信号,以便基于所确定的显微镜目标位置控制显微镜的操作。控制信号411可以是提供给显微镜的电信号,以控制移动、放大倍率、光源选择、滤光器选择和/或另外的显微镜功能。例如,控制信号411可以配置为触发显微镜以驱动至显微镜目标位置。例如,响应于控制信号411,可以使显微镜的光学器件和/或样本台移动至显微镜目标位置。以这种方式,可以在该位置拍摄样本的其他图像,该位置是检索的结果。例如,可以以更高放大倍率、不同光源和/或不同滤光器拍摄感兴趣区域的图像。例如,基于语言的检索数据405可以表示对大型生物样本中细胞核的检索,并且系统400可以提供用于将显微镜驱动至细胞核位置的控制信号411。如果可以找到若干个细胞核,则系统400可以配置为提供控制信号411,从而将显微镜相继驱动至不同位置,以便在这些位置拍摄更多图像。
系统400的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图3和图5至7)进行阐述。系统400可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图5示出了根据实施例的用于根据基于生物学相关图像的检索数据控制显微镜的系统500的示意图。系统500可以与结合图4描述的系统类似地实现。系统500能够找到与用户提供的查询图像相似的图像并且可以更改运行实验。显微镜501可以将载物台移回至所找到的相似图像的所有位置。
例如,用户可以将图像用作输入(例如,基于生物学相关图像的检索数据)开始查询550并开始实验。用户输入可以如上文或下文所述穿过经预先训练的视觉模型220。穿过该视觉模型220的前向传播可以创建图像260的语义嵌入(第一高维表示)。显微镜501可以创建一系列图像510(例如,如上文或下文定义的系列类型)。图像510可以如之前一样穿过同一视觉模型220进行前向传播,以创建相应的嵌入250(多个第二高维表示)。可以计算270这些后面的嵌入与来自用户查询的一个或多个嵌入之间的距离。在所记录的嵌入250之中,可以找到通过对该距离进行阈值处理定义的或通过预先确定或自动找到的检索结果的数量定义的相似图像。可以找到580其相应的坐标并将这些坐标传回590到显微镜,显微镜进而可以改变实验以记录那些新坐标595。例如,上文或下文描述了关于坐标类型和对实验的改变的细节。用户可以同时发送多张图像进行查询,而不是仅查询一张图像。
在该实施例的变体中,查询图像550可以不是由用户手动输入的,而是可以是同一个或另一个成像设备的另一个实验的结果,该成像设备自动触发对该实验的查询。在该实施例的另一个变体中,查询图像550可以来自数据库(例如,作为检索查询的结果,该检索查询进而可以已被手动输入或通过成像设备或实验室设备输入)并自动触发对该实验的查询。
图5可以示出用于基于用户定义的输入图像查询运行实验的图像到图像的检索的示例。
系统500的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图4和图6至图11)进行阐述。系统500可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图6示出了根据实施例的用于控制显微镜的系统的示意图。系统600包括一个或多个处理器110,所述一个或多个处理器联接至一个或多个存储设备120。系统600配置为通过由一个或多个处理器110执行的聚类算法,确定多个基于图像的输入数据集的多个第二高维表示405的多个聚类。进一步地,系统600配置为确定多个聚类中的聚类的聚类中心的第一高维表示,并配置为基于第一高维表示与多个第二高维表示中的每个第二高维表示405或第二高维表示405的子集的比较,从多个第二高维表示中选择第二高维表示405。另外,系统600配置为提供控制信号411,以便基于所选择的第二高维表示控制显微镜的操作。
第二高维表示405的聚类可以表示彼此之间距离小的多个第二高维表示405。例如,一个聚类的第二高维表示405彼此之间的距离可以比距其他聚类的第二高维表示405的距离更小,和/或一个聚类的第二高维表示405可以包括到自己的聚类的聚类中心的距离比到多个聚类的任何其他聚类中心的距离更小的距离。多个聚类中的每个聚类可以包括至少5个(或至少10个、至少20个或至少50个)第二高维表示405。
聚类算法可以是或者可以包括机器学习算法,例如,k均值聚类算法、均值漂移聚类算法、k中心点聚类算法、支持向量机算法、随机森林算法或梯度提升算法。
系统600可以确定多个聚类中的每个聚类的聚类中心的第一高维表示。系统600可以例如通过计算聚类的第二高维表示、到聚类的所有第二高维表示的总距离最小的第二高维表示的线性组合或通过聚类的第二高维表示的非线性组合,确定聚类中心的第一高维表示。
系统600可以配置为通过由一个或多个处理器110执行的视觉识别机器学习算法,生成多个基于图像的输入数据集的多个第二高维表示。
系统600可以配置为基于该比较选择多个第二高维表示中的最接近第一高维表示的一个或多个第二高维表示。
系统600可以配置为基于所选择的第二高维表示确定显微镜目标位置。显微镜目标位置可以是拍摄图像所在的位置,该位置由对应于所选择的第二高维表示的基于图像的输入数据表示。控制信号可以配置为触发显微镜以驱动至显微镜目标位置。
系统600还可以包括配置为拍摄样本的多个图像的显微镜。多个基于图像的输入数据集可以表示样本的多个图像。
系统600的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图5和图7a至图11)进行阐述。系统600可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图7a示出了根据实施例的通过使用聚类算法根据基于生物学相关图像的检索数据来控制显微镜的系统700的示意图。系统700可以与结合图6描述的系统类似地实现。显微镜501可以产生一系列图像510,这些图像的坐标被存储。如下文所述被预训练的视觉模型220可以借助于前向传播计算相应的嵌入250(例如,潜在向量、多个第二高维表示)。通过合适的聚类算法740、诸如k均值聚类算法、均值漂移聚类算法或其他算法,可以对所得的嵌入250集进行聚类。对于每个聚类,通过计算相应潜在向量250的组合,可以确定中心750。例如,可以使用线性组合(聚类的第二高维表示的线性组合)。可以另选地应用其他组合,包括非线性组合。以这种方式,可以获得本身为潜在向量的聚类中心760。通过应用如上文或下文所述的合适的距离度量,可以对所获取的一系列图像510执行770图像检索,以获得其嵌入与所找到的聚类中心最相似的那些图像。相似度阈值可以自动计算、由用户提供和/或通过向用户展示检索结果并让用户选择期望的图像而获得和/或细化。可以获得580细化的检索结果的坐标并将这些坐标传回590至显微镜,显微镜进而可以改变实验以在那些坐标595处记录新图像。对于显微镜可用的任何硬件参数(例如,一个或多个或所有参数),那些新图像可以具有与之前的仪器设置相同或不同的仪器设置(例如,不同照明或检测设置、不同物镜、变焦等)。在所有步骤580、590和595,可以进行用户交互,其中用户可以可选地细化检索结果,或可以决定获取哪些坐标或使用哪些成像模态或获取哪个类别的图像以及忽略哪个类别的图像。
在如上所述意义上的坐标可以是载物台位置(横向位置)、时间戳、z位置(轴向位置)、照明波长、检测波长、反射镜位置(例如,如在光片显微镜中的反射镜位置)、循环中的迭代次数、样品中的逻辑位置(诸如,多孔板中的孔或多位置实验中所定义的位置)、时间门控记录中的时间门、荧光寿命图像中的纳秒时间戳和/或显微镜可以沿着其维度记录图像系列的、显微镜可用的任何其他硬件参数。
图7a可以示出用于通过使用语义嵌入的无监督聚类来查询运行实验的图像到图像的检索的示例。
系统700的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图6和图7b至图11)进行阐述。系统700可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图7b示出了根据实施例的通过使用聚类算法来处理生物学相关数据的系统790的示意图。系统790可以与结合图6和/或图7a描述的系统类似地实现。
显微镜501可以产生一系列图像510,这些图像穿过经预训练的视觉模型220以计算语义嵌入250。以类似于结合图6和/或图7a所描述的方式,对语义嵌入250进行聚类。如由项目数量阈值或距离测量阈值所定义的任何新的聚类或离群值可以通过合适的聚类算法740(诸如,k均值聚类算法、均值漂移聚类算法或其他算法)进行鉴定。例如,可以在之后采取四个动作中的一个动作或这些动作的组合。新聚类的坐标可以发送至显微镜,以改变当前运行实验并更改791图像模态,例如,如结合图7a所描述的。另外或另选地,对应于新发现的语义嵌入的聚类的图像可以返回给用户792,用户进而可以改变当前运行实验或决定要采取的其他动作。另外或另选地,新发现的嵌入及其对应的图像和元数据可以作为注释存储在存储库793中已供未来检索。另外或另选地,新发现的聚类的语义嵌入可以转换为生物序列、自然语言或粗粒度检索词,并且可以用于查询公共数据库794以搜索科学出版物、社交媒体条目或博客帖子795、同一生物分子的图像796或如通过序列比对797鉴定的生物序列。所有找到的信息可以返回给用户和/或作为当前运行实验中记录的图像的功能注释写入数据库。
系统790可以实现对感兴趣的新结构(例如,表型)的鉴定。
根据一个方面,可以在记录期间进行聚类。以这种方式,可以识别可对应于生物表型的各种类别的图像。这些图像(例如,通过k中心点聚类的k均值确定的图像)的示例可以呈现给用户。用户可以识别样本中包括哪些表型。用户可以节省手动检索这些表型的时间,并且可以另外获得关于这些表型出现频率的描述性统计数据。进一步地,可以在详细记录中(例如,以更高分辨率或按照时间序列)检测并省略表型或实验伪影的不相关的类别。以这种方式,可以节省记录所用的时间和后续数据分析所用的时间。
根据一个方面,已经可用的数据(例如,代替使用运行实验的图像)可以基于其存储的语义嵌入通过无监督聚类进行分析。以这种方式,可以检测现有的类别。这些类别可以作为注释添加到数据库中,并且可以进一步用于未来检索。
根据一个方面,运行实验的数据可以通过无监督聚类进行分类并进行进一步处理(例如,如图7a中所示)。
系统790的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图7a和图8至图11)进行阐述。系统790可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
结合图1至图7b之一描述的系统可以包括或者可以是计算机设备(例如,个人计算机、膝上型计算机、平板计算机或移动电话),其中一个或多个处理器和一个或多个存储设备位于该计算机设备中,或者该系统可以是分布式计算系统(例如,具有分布在各个位置(例如,本地客户端和一个或多个远程服务场群和/或数据中心)的一个或多个处理器和一个或多个存储设备的云计算系统)。该系统可以包括数据处理系统,该数据处理系统包含用于联接系统的各个部件的系统总线。系统总线可以提供系统的各个部件之间的通信链接并且可以实施为单个总线、总线组合或以任何其他合适的方式实施。电子组件可以联接到系统总线。电子组件可以包含任何电路或电路组合。在一个实施例中,电子组件包含可以是任何类型的处理器。如本文所用的,处理器可以意指任何类型的计算电路,诸如但不限于微处理器、微控制器、复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、图形处理器、数字信号处理器(DSP)、多核处理器、显微镜或显微镜部件(例如,相机)的现场可编程门阵列(FPGA)或任何其他类型的处理器或处理电路。可以包含在电子组件中的其他类型的电路可以是定制电路、专用集成电路(ASlC)等,诸如,例如在像移动电话、平板计算机、膝上型计算机、双向无线电设备和类似电子系统等无线设备中使用的一个或多个电路(诸如通信电路)。该系统包含一个或多个存储设备,该存储设备进而可以包含一个或多个适于特定应用的存储元件(诸如,呈随机存取存储器(RAM)的形式的主存储器)、一个或多个硬盘驱动器、和/或一个或多个处理可移动介质(诸如光盘(CD)、闪存卡、数字化视频光盘(DVD)等)的驱动器。该系统还可以包含显示设备、一个或多个扬声器、以及键盘和/或控制器,该键盘和/或控制器可以包含鼠标、轨迹球、触摸屏、语音识别设备、或允许系统用户向系统输入信息并从系统接收信息的任何其他设备。
另外,该系统可以包括连接到计算机设备或分布式计算系统的显微镜。显微镜可以配置为通过拍摄一个或多个样本的图像而生成基于生物学相关图像的输入数据集。
显微镜可以是光学显微镜(例如,衍射极限或亚衍射极限显微镜,如例如超分辨率显微镜或纳米显微镜)。显微镜可以是独立显微镜或具有附接的部件(例如,共焦扫描仪、附加相机、激光器、气候室、自动加载机构、液体处理系统、附接的光学部件(如附加的多光子光路、光学镊子等))的显微镜系统。例如,如果其他图像源可以采集与生物序列(例如,蛋白质、核酸、脂质)或其他样本相关的对象的图像,也可以使用这些其他图像源。例如,根据上文或下文所述的实施例的显微镜可以实现深度发现显微镜。
该系统的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图11)进行阐述。该系统可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
一些实施例涉及一种显微镜,该显微镜包括如结合图1至图7b中的一个或多个图描述的系统。另选地,显微镜可以是如结合图1至图7b中的一个或多个图描述的系统的一部分或与该系统连接。图8示出了根据实施例的用于处理数据的系统800的示意图。配置为拍摄一个或多个样本(例如,生物样本或集成电路)的图像的显微镜810连接至配置为处理数据的计算机设备820(例如,个人计算机、膝上型计算机、平板计算机或移动电话)。显微镜810和计算机设备820可以如结合图1至图7b中的一个或多个图所述的那样实施。
图9示出了根据实施例的用于处理基于生物学相关图像的检索数据的方法的流程图。方法900包括接收910基于生物学相关图像的检索数据,并通过经训练的视觉识别机器学习算法,生成920基于生物学相关图像的检索数据的第一高维表示。第一高维表示包括至少3个条目,每个条目具有不同的值。进一步地,方法900包括获得930多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的多个第二高维表示。另外,方法900包括将第一高维表示与多个第二高维表示中的每个第二高维表示进行比较940。
通过使用视觉识别机器学习算法,可以将基于图像的检索请求映射至高维表示。通过使高维表示具有拥有各种不同值的条目(与独热编码表示相比),语义相似的生物学检索词可以映射至相似的高维表示。通过获得多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的高维表示,可以找到与检索请求的高维表示相同或相似的高维表示。以这种方式,使得可以找到与检索请求相对应的图像或文本。以这种方式,经训练的视觉识别机器学习算法可以实现根据基于图像的检索输入,在多个生物学图像(例如,生物学图像数据库)中检索生物学相关图像,或在多个生物学相关文本(例如,科学论文集或科学论文库)中检索生物学相关文本。即使图像之前未加标签或标记,也可以实现在已经存在的数据库或由运行实验生成的图像(例如,由显微镜拍摄的一个或多个生物样本的图像)中进行检索。
方法900的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图7b)进行阐述。方法900可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图10示出了根据实施例的用于控制显微镜的方法的流程图。方法1000包括接收1010基于图像的检索数据,并通过经训练的视觉识别机器学习算法,生成1020基于图像的检索数据的第一高维表示。第一高维表示包括至少3个条目,每个条目具有不同的值。进一步地,方法1000包括获得1030多个基于图像的输入数据集的多个第二高维表示,并基于第一高维表示与多个第二高维表示中的每个第二高维表示的比较,从多个第二高维表示中选择1040第二高维表示。另外,方法1000包括基于所选择的第二高维表示控制1050显微镜的操作。
通过使用视觉识别机器学习算法,可以将基于图像的检索请求映射至高维表示。通过使高维表示具有拥有各种不同值的条目(与独热编码表示相比),语义相似的检索词可以映射到相似的高维表示。通过获得多个基于图像的输入数据集的高维表示,可以找到与检索词的高维表示相同或相似的高维表示。以这种方式,使得可以找到与检索请求相对应的图像。利用该信息,可以将显微镜驱动至相应位置,拍摄图像,以便能够拍摄感兴趣位置的其他图像(例如,使用更高放大倍率、不同光线或滤光片拍摄的图像)。以这种方式,样本(例如,生物样本或集成电路)可以首先以低放大率成像以找到与检索请求相对应的位置,之后可以更详细地对感兴趣的位置进行分析。
方法1000的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图7b)进行阐述。方法1000可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图11示出了根据实施例的用于控制显微镜的另一种方法的流程图。方法1100包括通过聚类算法确定1110多个基于图像的输入数据集的多个第二高维表示的多个聚类,并确定1120多个聚类中的一个聚类的聚类中心的第一高维表示。进一步地,方法1100包括基于第一高维表示与多个第二高维表示中的每个第二高维表示或第二高维表示的子集的比较,从多个第二高维表示中选择1130第二高维表示。另外,方法1100包括提供1140控制信号,用于基于所选择的第二高维表示控制显微镜的操作。
通过鉴定第二高维表示的聚类,可以将与语义相似内容相对应的第二高维表示组合为一个聚类。通过确定聚类中心并通过比较鉴定出最接近聚类中心的一个或多个第二高维表示,可以找到一个或多个图像,所述一个或多个图像代表该聚类的典型图像。例如,不同的聚类可以包括对应于生物样本的不同特征部分(例如,细胞质、细胞核、细胞骨架)的第二高维表示。该系统能够提供控制信号,从而使显微镜移动至拍摄一个或多个聚类的典型图像的位置(例如,以便在该位置以变化的显微镜参数拍摄更多图像)。
方法1100的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图10)进行阐述。方法1100可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
在下文中,描述了上述一个或多个实施例(例如,结合图1至图11中的一个或多个图描述的实施例)的应用和/或实施细节的一些示例。
根据一个方面,提出了数据库或运行显微镜实验中的图像到图像的检索功能。图像到图像的检索的类型可以基于通过第一阶段文本模型创建的查询的语义嵌入。第二阶段图像模型可以将这些语义嵌入与图像相关,从而将图像域连接至文本域。可以根据语义嵌入空间中的距离度量对命中项的相关性进行评分。这不仅可以允许搜索完全匹配项,还可以允许搜索具有相关语义的相似图像。在生物学相关语义的情景下,这可以意指相似的生物学功能。一方面可以允许在运行实验中检索整个样本并搜索与查询图像或样本中先前未知的对象相似的图像。
一般生物学并且特别是显微镜学可以产生大量数据,这些数据通常注释很差或根本没有注释。例如,只有在回顾时才清楚哪些注释可能是有用的或者哪些新的生物学发现在实验时不为人知。重点可以是图像数据,但所提出的理念可能并不一定限于图像数据。例如,图像可能超越2D像素图,而是涵盖具有三个空间维度、时间维度和与所使用的荧光染料的物理特性或与成像系统的特性相关的其他维度的多维图像张量。根据一个方面,通过允许对数据库中存储的或作为显微镜中运行实验的一部分的大量图像数据进行语义检索,可以使此类数据变得可访问。上述实验可以是单一一次性实验,也可以是诸如筛选活动之类的长期实验的一部分。
图像到图像的检索不仅可以在数据库中而其还可以在运行实验(例如,当前样本)中实现对与输入查询相似的图像的检索,这可以将样本变成可检索的数据资源。另外或另选地,图像到图像的检索可以实现在运行实验中对图像进行自动聚类,并且可以实现从当前样本、未来样本或从图像存储库中搜索所有相关图像。这可以表示一种知识发现工具,该工具可以找到稀少事件或在样本中找到以前未知(例如,如用户未指定的)的对象。
根据一个方面,图像到图像的检索可用于可选地在运行实验期间查询作为图像源的显微镜,并更改该运行实验。
使用统计机器学习(例如,支持向量机、随机森林或梯度提升)的图像到图像的检索的其他实现方式可能必须依赖由人类专家策划或设计的图像特征。图像的高维度性可能会降低这种经典机器学习方法的准确性。根据所提出理念的一个方面,可以使用深度学习(例如,CNN、胶囊网络)提取图像特征,例如,从而自动允许在多个尺度上使用大量图像特征,这可以提高图像识别的准确性。进一步地,图像可以映射到语义嵌入而不是独热编码向量,这可以允许找到之前未看见但相似的图像。由于在生物样本的图像中发现存在很大的形态变化,因此所提出的理念可以比其他方法具有更高的命中率,这可以是命中事件或未命中事件。
图像到图像的检索的示例可以基于以下步骤:
1.训练成从图像中预测语义令牌嵌入的视觉模型可以将查询图像转换为其相关的语义嵌入。
2.相同的视觉模型还可以创建来自成像设备或数据库的一系列图像的相应嵌入。
3.根据查询和图像的语义嵌入之间的在嵌入空间中的距离度量,可以检索相关的最接近的命中项并对最接近的命中项进行评分。
4.可选地,在运行实验中,可以使用命中项的物理坐标,以更改实验并在这些坐标处开始图像的另选记录。
该模型可以按如下文所述进行训练,但也可以以不同的方式进行训练。
例如,获得查询的语义嵌入(例如,上述步骤1)的四种另选方式可以是:
a)用户手动输入。
b)使用(同一或其他)成像设备的实验结果。
c)来自数据库(例如,通过成像或使用另一台实验室设备手动查询或自动查询)
d)由成像设备和模型产生的图像嵌入的无监督聚类和算术组合。
根据一个方面,用户可以利用图像而非文本来查询数据库。数据库中的所有图像可以已使用一种或多种如上文或下文所述的经预训练的视觉模型(例如,CNN)转换为嵌入。这些嵌入可以与图像数据一起存储在相同或不同的数据库中。用户查询可以通过穿过同一视觉模型的前向传播而转换为嵌入。使用合适的距离度量,可以搜索并返回语义上(在嵌入空间中)最接近的图像。可以使用不同的距离度量进行该比较,诸如欧几里德距离或推土机距离,但也可以使用其他距离度量。聚类中使用的大多数距离度量可以发挥作用。
例如,无论是由用户提供的还是在运行实验期间仅由显微镜获取的任何图像,都可以用来发现整个样本中语义相关图像。可以以与前述类似的方式来执行转换和相似度检索。由显微镜获取的数据可以布置成使得每个图像在例如马赛克(mosaic)(例如,覆盖比当前视野更大的视野的图像集)内的逻辑坐标或例如物理载物台坐标可以与图像数据相关联。
图像到图像的检索可用于查询现有数据库或来自具有任何图像的运行实验中的数据。在运行实验的情景下,由显微镜获取的任何图像都可以用于查询数据库以找到相似图像。通过对该图像的其他注释,可以搜索到另外的信息,并且可以获得有关所讨论图像的结构和功能的新见解。这可以将显微镜变成智能实验室助手,该智能实验室助手可以通过语义和功能信息增强图像数据,从而帮助解释数据。
根据一个方面,可以在整个样本中找到与用户提供或记录的图像相似的图像。通过显微镜可以使用预扫描记录可检索量的图像。预扫描可以覆盖比当前视野更大的区域或体积。查询图像可以由用户提供或由用户从当前实验中选择或由经预训练的视觉模型自动选择。这可以节省时间,因为可以在不同的成像条件和模态(诸如,更多的颜色、不同放大倍率、附加寿命信息等)下仅详细记录感兴趣的位置。这还可以节省存储空间,因为实际上可以仅存储感兴趣的图像。可以丢弃其他图像。
另选地或另外,可以执行自动聚类,并且显微镜可以通过指出样本中存在哪些不同的语义类别来辅助用户获得新的见解。通过自动进行预扫描和聚类步骤,用户可以节省用于手动查找、鉴定和表征所有对象(例如,单细胞、器官、组织、类器官及其部分)的大量时间。而且,因为语义嵌入空间可以作为客观相似度测度,因此可以消除偏差,由于根据生物学相关文本数据创建嵌入,因此这可以直接将图像与有意义的生物学相关联。
实际上,通过所提出的显微镜可以将样本转换为可检索的数据资源。
所提出的图像到图像的检索的应用可以是基础生物学研究(例如,帮助查找相关数据并减少实验记录时间)和/或药物发现中的命中验证和毒理学分析。
经训练的语言识别机器学习算法和/或经训练的视觉识别机器学习算法可以通过以下描述的训练获得。一种用于训练用于处理生物学相关数据的机器学习算法的系统可以包括一个或多个处理器和一个或多个存储设备。该系统可以配置为接收基于生物学相关语言的输入训练数据。另外,该系统可以配置为通过由一个或多个处理器执行的语言识别机器学习算法,生成基于生物学相关语言的输入训练数据的第一高维表示。第一高维表示包括至少3个条目,每个条目具有不同的值。进一步地,该系统可以配置为通过由一个或多个处理器执行的语言识别机器学习算法,基于第一高维表示生成基于生物学相关语言的输出训练数据。另外,该系统可以配置为依据基于生物学相关语言的输入训练数据与基于生物学相关语言的输出训练数据的比较,调整语言识别机器学习算法。另外,该系统可以配置为接收与基于生物学相关语言的输入训练数据相关联的基于生物学相关图像的输入训练数据。进一步地,该系统可以配置为通过由一个或多个处理器执行的视觉识别机器学习算法,生成基于生物学相关图像的输入训练数据的第二高维表示。第二高维表示包括至少3个条目,每个条目具有不同的值。进一步地,该系统可以配置为基于第一高维表示与第二高维表示的比较,调整视觉识别机器学习算法。
基于生物学相关语言的输入训练数据可以是与生物结构、生物学功能、生物行为或生物活性相关的文本性输入。例如,基于生物学相关语言的输入训练数据可以是核苷酸序列、蛋白质序列、对生物分子或生物结构的描述、对生物分子或生物结构的行为的描述、和/或对生物学功能或生物活性的描述。基于生物学相关语言的输入训练数据可以是训练组的第一基于生物学相关语言的输入训练数据集(例如,输入字符序列,例如核苷酸序列或蛋白质序列)。训练组可以包括多个基于生物学相关语言的输入训练数据集。
基于生物学相关语言的输出训练数据可以与可选地包括对下一个元素进行预测的基于生物学相关语言的输入训练数据属于同一类型。例如,基于生物学相关语言的输入训练数据可以是生物序列(例如,核苷酸序列或蛋白质序列),而基于生物学相关语言的输出训练数据也可以是生物序列(例如,核苷酸序列或蛋白质序列)。可以训练语言识别机器学习算法,使得基于生物学相关语言的输出训练数据等同于可选地包括对生物序列的下一个元素进行预测的基于生物学相关语言的输入训练数据。在另一个示例中,基于生物学相关语言的输入训练数据可以是粗粒度检索词的生物类别,而基于生物学相关语言的输出训练数据也可以是粗粒度检索词的生物类别。
基于生物学相关图像的输入训练数据可以是以下各项的图像的图像训练数据(例如,训练图像的像素数据):包括核苷酸或核苷酸序列的生物结构;包括蛋白质或蛋白质序列的生物结构;生物分子;生物组织;具有特定行为的生物结构;和/或具有特定生物学功能或特定生物活性的生物结构。基于生物学相关图像的输入训练数据可以是训练组的第一基于生物学相关图像的输入训练数据集。训练组可以包括多个基于生物学相关图像的输入训练数据集。
基于生物学相关语言的输入训练数据可以是训练组的基于生物学相关语言的输入训练数据集(例如,输入字符序列,例如核苷酸序列或蛋白质序列)。训练组可以包括多个基于生物学相关语言的输入训练数据集。该系统可以针对训练组的多个基于生物学相关语言的输入训练数据集中的每一个重复生成第一高维表示。进一步地,该系统可以针对每个所生成的第一高维表示生成基于生物学相关语言的输出训练数据。该系统可以基于训练组的多个基于生物学相关语言的输入训练数据集中的基于生物学相关语言的输入训练数据与对应的基于生物学相关语言的输出训练数据的每次比较,调整语言识别机器学习算法。换言之,该系统可以配置为针对基于生物学相关语言的输入训练数据集的训练组的每个基于生物学相关语言的输入训练数据,重复生成第一高维表示、生成基于生物学相关语言的输出训练数据、和调整语言识别机器学习算法。训练组可以包括足够的基于生物学相关语言的输入训练数据集,从而可以实现训练目标(例如,损失函数的输出变化低于阈值)。
在语言识别机器学习算法的训练期间生成的多个所有第一高维表示可以称为潜在空间或语义空间。
该系统可以针对训练组的多个基于生物学相关图像的输入训练数据集中的每一个重复生成第二高维表示。进一步地,该系统可以基于第一高维表示与对应的第二高维表示的每一次比较,调整视觉识别机器学习算法。换言之,该系统可以针对基于生物学相关图像的输入训练数据集的训练组的每个基于生物学相关图像的输入训练数据,重复生成第二高维表示和调整视觉识别机器学习算法。训练组可以包括足够的基于生物学相关图像的输入训练数据集,从而可以实现训练目标(例如,损失函数的输出变化低于阈值)。
例如,系统100使用语言识别机器学习算法和视觉识别机器学习算法的组合(例如,也称为视觉语义模型)。语言识别机器学习算法和/或视觉识别机器学习算法可以是深度学习算法和/或人工智能算法。
训练可以快速收敛,和/或通过使用交叉熵损失函数(但是也可以使用其他损失函数)训练语言识别机器学习算法,该训练可以为生物学相关数据提供训练好的算法。
通过基于由语言识别机器学习算法生成的高维表示与由对应的输入训练数据的视觉识别机器学习算法生成的高维表示的比较来调整视觉识别机器学习算法的参数,而可以对视觉识别机器学习算法进行训练。例如,可以基于该比较来调整视觉识别神经网络的网络权重。对视觉识别机器学习算法的参数(例如,网络权重)的调整可以在考虑损失函数的情况下完成。例如,用于调整视觉识别机器学习算法的第一高维表示与第二高维表示的比较可以基于余弦相似度损失函数来进行。训练可以快速收敛,和/或通过使用余弦相似度损失函数(但是也可以使用其他损失函数)训练视觉识别机器学习算法,该训练可以为生物学相关数据提供训练好的算法。
例如,视觉模型可以学习如何在语义嵌入空间中表示图像(例如,作为向量)。因此,可以使用对两个向量的距离的测度,其可以表示预测A(第二高维表示)和真实情况B(第一高维表示)。例如,测度是如以下定义的余弦相似度:
Figure BDA0003495185460000321
其中,用预测A和真实情况B的点积除以其相应大小(例如,在L2范数或欧几里德范数中)的点积。
关于用于训练机器学习算法的系统的非训练特定方面的更多细节将结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图11)进行阐述。
实施例可以基于使用机器学习模型或机器学习算法。机器学习可以是指计算机系统可以在不使用显式指令而是依赖于模型和推理的情况下用来执行特定任务的算法和统计模型。例如,在机器学习中,可以使用从历史和/或训练数据的分析中推断出的数据转换,而不是使用基于规则的数据转换。例如,可以使用机器学习模型或使用机器学习算法来分析图像的内容。为了使机器学习模型分析图像内容,可以使用训练图像作为输入并使用训练内容信息作为输出来训练机器学习模型。通过采用大量训练图像和/或训练序列(例如,单词或句子)以及相关联的训练内容信息(例如,标签或注释)训练机器学习模型,机器学习模型“学习”识别图像的内容,因此可以使用机器学习模型识别未包含在训练数据中的图像的内容。相同的原理也可以用于其他种类的传感器数据:通过使用训练传感器数据和期望的输出来训练机器学习模型,机器学习模型“学习”传感器数据和输出之间的转换,该转换可用于基于提供给机器学习模型的非训练传感器数据而提供输出。
机器学习模型可以使用训练输入数据进行训练。以上详细说明的示例使用被称为“监督学习”的训练方法。在监督学习中,使用多个训练样品来训练机器学习模型,其中每个样品可以包括多个输入数据值和多个期望输出值,即:每个训练样品与期望输出值相关联。通过指定训练样品和期望输出值,机器学习模型基于与训练期间提供的样品相似的输入样品,“学习”提供哪个输出值。除了监督学习之外,还可以使用半监督学习。在半监督学习中,一些训练样品缺少对应的期望输出值。监督学习可以基于监督学习算法、例如分类算法、回归算法或相似度学习算法来进行。当输出被限制为一组有限的值时,可以使用分类算法,即:将输入归类到一组有限的值中的一个值。当输出可以具有任何数值(在某个范围内)时,可以使用回归算法。相似度学习算法可以类似于分类算法和回归算法,但是基于使用测量两个对象的相似或相关程度的相似度函数从示例中进行学习。除了监督或半监督学习之外,还可以使用无监督学习来训练机器学习模型。在无监督学习中,可以(仅)提供输入数据,并且可以使用无监督学习算法来找到输入数据中的结构,例如,通过对输入数据进行分组或聚类,找到数据中的共性。聚类是将包括多个输入值的输入数据分配到子集(聚类)中,从而根据一个或多个(预定义的)相似度标准,同一聚类内的输入值是相似的,但与包含在其他聚类中的输入值不相似。
强化学习是第三组机器学习算法。换言之,强化学习可以用来训练机器学习模型。在强化学习中,训练一个或多个软件参与者(称为“软件代理”)以在环境中采取动作。基于所采取的动作,计算奖励。强化学习基于训练一个或多个软件代理来选择动作,以便增加累积奖励,从而使软件代理在给定的任务中变得更好(如通过不断增加的奖励所证明的)。
此外,一些技术可以应用于一些机器学习算法。例如,可以使用特征学习。换言之,机器学习模型可以至少部分地使用特征学习进行训练,和/或机器学习算法可以包括特征学习成分。特征学习算法(也可以称为表征学习算法(representation learningalgorithm))可以保留其输入中的信息,但也能够以使这些信息变得有用的方式将其转换,这种转换通常作为执行分类或预测之前的预处理步骤。例如,特征学习可以基于主成分分析或聚类分析。
在一些示例中,可以使用异常检测(即离群值检测),其目的在于为与大多数输入或训练数据明显不同而引起猜疑的输入值提供鉴定。换言之,机器学习模型可以至少部分地使用异常检测进行训练,和/或机器学习算法可以包括异常检测成分。
在一些示例中,机器学习算法可以使用决策树作为预测模型。换言之,机器学习模型可以基于决策树。在决策树中,关于某个项目(例如,一组输入值)的观察可以由决策树的分支表示,而与该项目对应的输出值可以由决策树的叶子表示。决策树可以支持离散值和连续值作为输出值。如果使用离散值,则决策树可以指示为分类树,如果使用连续值,则决策树可以指示为回归树。
关联规则是另一种可用于机器学习算法中的技术。换言之,机器学习模型可以基于一个或多个关联规则。关联规则是通过鉴定大量数据中变量之间的关系而创建的。机器学习算法可以鉴定和/或利用一个或多个关系规则,该关系规则表示从数据导出的知识(knowledge)。上述规则可以例如用于存储、操纵或应用该知识。
机器学习算法通常基于机器学习模型。换言之,术语“机器学习算法”可以指示可用于创建、训练或使用机器学习模型的一组指令。术语“机器学习模型”可以指示例如基于由机器学习算法执行的训练表示所学知识的数据结构和/或规则组。在实施例中,机器学习算法的使用可以意味着使用基础机器学习模型(或多个基础机器学习模型)。一个机器学习模型的使用可以意味着机器学习模型和/或作为机器学习模型的数据结构/规则组是由机器学习算法训练的。
例如,机器学习模型可以是人工神经网络(ANN)。ANN是受生物神经网络(诸如可以在视网膜或大脑中找到的生物神经网络)启发的系统。ANN包括多个互连的节点和节点之间的多个连接部,即所谓的边。通常存在三种类型的节点,即:接收输入值的输入节点、(仅)连接至其他节点的隐藏节点、以及提供输出值的输出节点。每个节点可以表示一个人工神经元。每条边都可以将信息从一个节点传输到另一个节点。节点的输出可以定义为其输入的总和的(非线性)函数。节点的输入可以基于边的“权重”或提供输入的节点的“权重”用于上述函数中。在学习过程中可以调整节点和/或边的权重。换言之,人工神经网络的训练可以包括调整人工神经网络的节点和/或边的权重,即针对给定输入实现期望输出。
另选地,机器学习模型可以是支持向量机、随机森林模型或梯度提升模型。支持向量机(即支持向量网络)是具有相关联的学习算法的监督学习模型,该相关联的学习算法可用于例如在分类或回归分析中分析数据。通过为输入提供属于两个类别之一的多个训练输入值,可以对支持向量机进行训练。支持向量机可以训练成为两个类别之一分配新的输入值。另选地,机器学习模型可以是贝叶斯网络(Bayesian network),贝叶斯网络是一种概率有向无环图模型(directed acyclic graphical model)。贝叶斯网络可以使用有向无环图表示一组随机变量及其条件依赖关系。另选地,机器学习模型可以基于遗传算法,该算法是一种模仿自然选择的过程的检索算法和启发式技术。
如本文所用,术语“和/或”包含一个或多个相关联的所列项目的任一和所有组合,并且可以缩写为“/”。
尽管已经在装置的情景下描述了一些方面,但显而易见的是,这些方面也表示对相应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的情景下描述的一些方面也表示对相应装置的相应的块或项目或特征的描述。方法步骤中的一些或全部步骤可以由(或使用)硬件装置(如,例如处理器、微处理器、可编程计算机或电子电路)执行。在一些实施例中,某一个或多个最重要的方法步骤可以由这样的装置执行。
依据某些实施要求,本发明的实施例可以以硬件或软件实施。上述实施可以使用诸如其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光光碟(Blu-Ray)、CD、ROM、PROM和EPROM、EEPROM或FLASH存储器)之类的非暂时性存储介质执行,这些电子可读控制信号与可编程计算机系统协作(或能够协作)从而执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,这些电子可读控制信号能够与可编程计算机系统协作,从而执行本文所述的方法之一。
通常,本发明的实施例可以实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,程序代码可操作用于执行其中一种方法。例如,程序代码可以存储在机器可读载体上。例如,计算机程序可以存储在非暂时性存储介质上。一些实施例涉及一种包含机器可读指令的非暂时性存储介质,当机器可读指令被执行时,以实施根据所提出的理念或上述一个或多个示例的方法。
其他实施例包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。
换言之,本发明的实施例因此是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文描述的方法之一。
因此,本发明的另一个实施例是一种存储介质(或数据载体,或计算机可读介质),该存储介质包括其上存储的计算机程序,该计算机程序在其由处理器执行时用于执行本文描述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非过渡性的。本发明的另一个实施例是如本文所述的装置,该装置包括处理器和存储介质。
因此,本发明的另一个实施例是数据流或信号序列,该数据流或信号序列表示用于执行本文描述的方法之一的计算机程序。该数据流或信号序列例如可以配置为经由数据通信连接(例如,经由互联网)进行传输。
另一个实施例包括处理器件,例如,计算机或可编程逻辑设备,该处理器件配置为或适合于执行本文描述的方法之一。
另一个实施例包括计算机,在该计算机上安装有用于执行本文描述的方法之一的计算机程序。
根据本发明的另一个实施例包括一种装置或系统,该装置或系统配置为向接收器传送(例如,以电子方式或光学方式传送)用于执行本文描述的方法之一的计算机程序。该接收器例如可以是计算机、移动设备、存储设备等。该装置或系统例如可以包括用于向接收器传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑设备(例如,现场可编程门阵列)可用于执行本文描述的方法中的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文描述的方法之一。通常,这些方法优选地由任何硬件装置执行。
附图标记列表
100 用于处理生物学相关数据的系统
103 基于生物学相关图像的检索数据
105 第二高维表示
110 一个或多个处理器
120 一个或多个存储设备
200 用于处理生物学相关数据的系统
201 查询、检索查询、基于生物学相关图像的检索数据
210 视觉模型、分类器
220 经训练的视觉识别机器学习算法、视觉模型
230 经训练的视觉识别机器学习算法、视觉模型
240 数据库
250 嵌入、多个第二高维表示
255 数据库、中间存储装置
257 旁路
260 嵌入、第一高维表示
270 嵌入空间中的比较
280 最接近的嵌入
290 相应的图像
300 用于处理生物学相关数据的系统
315 跳过的预分类
381 返回对应于最接近的嵌入的图像
383 将数据馈送至图像源
385 用户
387 数据库
389 公共数据库
390 科学出版物、社交媒体条目或博客帖子
393 生物分子的图像
395 生物序列
400 用于控制显微镜的系统
401 基于图像的检索数据
405 第二高维表示
411 控制信号
500 用于控制显微镜的系统
501 显微镜
510 图像
550 查询、检索查询、基于图像的检索数据
580 查找相应坐标
590 将相应坐标传回至显微镜
595 相应坐标、新坐标
600 用于控制显微镜的系统
700 用于控制显微镜的系统
740 聚类算法
750 确定聚类的中心
760 聚类中心的潜在向量
770 运用距离度量
790 用于使用聚类算法处理生物学相关数据的系统
791 更改图像模态
792 用户
793 存储库
794 公共数据库
795 科学出版物、社交媒体条目或博客帖子
796 生物分子的图像
797 生物序列
800 用于训练机器学习算法的系统
810 显微镜
820 计算机设备
900 用于处理基于生物学相关图像的检索数据的方法
910 接收基于生物学相关图像的检索数据
920 生成第一高维表示
930 获得多个第二高维表示
940 将第一高维表示与每个第二高维表示进行比较
1000 用于控制显微镜的方法
1010 接收基于图像的检索数据
1020 生成第一高维表示
1030 获得多个第二高维表示
1040 选择第二高维表示
1050 控制显微镜的操作
1100 用于控制显微镜的方法
1110 确定多个聚类
1120 确定第一高维表示
1130 选择第二高维表示
1140 提供控制信号。

Claims (35)

1.一种系统(100、200、300),该系统包括一个或多个处理器(110)和一个或多个存储设备(120),其中,所述系统(100)配置为:
接收基于生物学相关图像的检索数据(103);
通过由所述一个或多个处理器(110)执行的经训练的视觉识别机器学习算法,生成所述基于生物学相关图像的检索数据(103)的第一高维表示(260),其中,所述第一高维表示(260)包括至少3个条目,每个条目具有不同的值;
获得多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的多个第二高维表示(105、250);并且
将所述第一高维表示(260)与所述多个第二高维表示(105、250)中的每个第二高维表示进行比较。
2.根据权利要求1所述的系统,其中,所述基于生物学相关图像的检索数据(103)是以下中的至少一种的图像的图像数据:包括核苷酸序列的生物结构;包括蛋白质序列的生物结构;生物分子;生物组织;具有特定行为的生物结构;或具有特定生物学功能或特定生物活性的生物结构。
3.根据前述权利要求中任一项所述的系统,其中,所述第一高维表示(260)的一个或多个条目的值与存在特定生物学功能或特定生物活性的可能性成比例。
4.根据前述权利要求中任一项所述的系统,其中,所述第二高维表示(105、250)的一个或多个条目的值与存在特定生物学功能或特定生物活性的可能性成比例。
5.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为基于所述比较来选择所述多个第二高维表示(105、250)中最接近所述第一高维表示(260)的第二高维表示。
6.根据权利要求5所述的系统,其中,所述系统(100)配置为输出以下中的至少一个:最接近的第二高维表示;所述多个基于生物学相关图像的输入数据集中对应于最接近的第二高维表示的基于生物学相关图像的输入数据集;或所述多个基于生物学相关语言的输入数据集中对应于最接近的第二高维表示的基于生物学相关语言的输入数据集。
7.根据前述权利要求中任一项所述的系统,其中,所述第一高维表示(260)与所述多个第二高维表示(105、250)中的每个第二高维表示的比较基于欧几里德距离函数或推土机距离函数来进行。
8.根据前述权利要求中任一项所述的系统,其中,所述第一高维表示(260)和所述第二高维表示(105、250)为数字表示。
9.根据前述权利要求中任一项所述的系统,其中,所述第一高维表示(260)和所述第二高维表示(105、250)均包括100个以上的维度。
10.根据前述权利要求中任一项所述的系统,其中,所述第一高维表示(260)是第一向量并且所述第二高维表示(105、250)是第二向量。
11.根据前述权利要求中任一项所述的系统,其中,所述第一高维表示(260)的所述条目的50%以上的值和所述第二高维表示(105、250)的所述条目的50%以上的值不等于0。
12.根据前述权利要求中任一项所述的系统,其中,所述第一高维表示(260)的5个以上的条目的值比所述第一高维表示(260)的所述条目的最大绝对值大10%,并且所述多个第二高维表示(105、250)中的每个第二高维表示的5个以上的条目的值比所述第二高维表示(105、250)的所述条目的相应最大绝对值大10%。
13.根据前述权利要求中任一项所述的系统,其中,所述经训练的视觉识别机器学习算法包括经训练的视觉识别神经网络。
14.根据权利要求13所述的系统,其中,所述经训练的视觉识别神经网络包括30个以上的层。
15.根据权利要求13或14所述的系统,其中,所述经训练的视觉识别神经网络为卷积神经网络或胶囊网络。
16.根据权利要求13、14或15所述的系统,其中,所述经训练的视觉识别神经网络包括多个卷积层和多个池化层。
17.根据权利要求13至16中任一项所述的系统,其中,所述经训练的视觉识别神经网络使用修正线性单元激活函数。
18.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为通过由所述一个或多个处理器执行的所述经训练的视觉识别机器学习算法生成所述多个基于生物学相关图像的输入数据集或所述多个基于生物学相关语言的输入数据集的所述多个第二高维表示中的第二高维表示(105、250),而获得所述第二高维表示(105、250),其中,所述多个第二高维表示(105、250)中的每个第二高维表示包括至少3个条目,每个条目具有不同的值。
19.根据前述权利要求中任一项所述的系统,该系统还包括显微镜(501、810),所述显微镜配置为通过拍摄生物样本的图像而获得所述多个基于生物学相关图像的输入数据集。
20.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为基于所述基于生物学相关图像的检索数据(103),从多个经训练的视觉识别机器学习算法中选择所述经训练的视觉识别机器学习算法。
21.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为:
接收第二基于生物学相关图像的检索数据和有关逻辑运算符的信息;
通过由所述一个或多个处理器(110)执行的所述经训练的视觉识别机器学习算法,生成所述第二基于生物学相关图像的检索数据的第一高维表示;
基于第一基于生物学相关图像的检索数据(103)的所述第一高维表示(260)和所述第二基于生物学相关图像的检索数据的所述第一高维表示的组合,根据所述逻辑运算符确定组合高维表示;以及
将所述组合高维表示与所述多个第二高维表示(105、250)中的每个第二高维表示进行比较。
22.根据权利要求21所述的系统,其中,所述逻辑运算符是AND运算符,并且所述组合高维表示是通过将所述第一基于生物学相关图像的检索数据(103)的所述第一高维表示(260)与所述第二基于生物学相关图像的检索数据的所述第一高维表示相加而确定的。
23.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为控制显微镜(501、810)的操作。
24.一种系统(400、500),该系统包括一个或多个处理器(110)和一个或多个存储设备(120),其中,所述系统(100)配置为:
接收基于图像的检索数据(401);
通过由所述一个或多个处理器(110)执行的经训练的视觉识别机器学习算法,生成所述基于图像的检索数据(401)的第一高维表示,其中,所述第一高维表示包括至少3个条目,每个条目具有不同的值;
获得多个基于图像的输入数据集的多个第二高维表示(405);
基于所述第一高维表示与所述多个第二高维表示中的每个第二高维表示(405)的比较,从所述多个第二高维表示中选择第二高维表示(405);
提供控制信号(411),用于基于所选择的第二高维表示控制显微镜(501、810)的操作。
25.一种系统(600、700、790),该系统包括一个或多个处理器(110)和一个或多个存储设备(120),其中,所述系统(100)配置为:
通过由所述一个或多个处理器(110)执行的聚类算法,确定多个基于图像的输入数据集的多个第二高维表示(405)的多个聚类;
确定所述多个聚类中的聚类的聚类中心的第一高维表示;
基于所述第一高维表示与所述多个第二高维表示中的每个第二高维表示(405)或第二高维表示(405)的子集的比较,从所述多个第二高维表示中选择第二高维表示(405);以及
提供控制信号(411),用于基于所选择的第二高维表示控制显微镜的操作。
26.根据权利要求24所述的系统,其中,所述聚类算法包括k均值聚类算法或均值漂移聚类算法。
27.根据权利要求24至26中任一项所述的系统,其中,所述系统(100)配置为基于所选择的第二高维表示确定显微镜目标位置,其中,所述显微镜目标位置是拍摄图像所在的位置,该图像由基于图像的输入数据表示,并且所述位置对应于所选择的第二高维表示,其中,所述控制信号配置为触发所述显微镜以驱动至所述显微镜目标位置。
28.根据权利要求24至27中任一项所述的系统,其中,所述系统(100)配置为通过由所述一个或多个处理器(110)执行的视觉识别机器学习算法,生成所述多个基于图像的输入数据集的所述多个第二高维表示。
29.根据权利要求24至28中任一项所述的系统,其中,所述系统(100)配置为基于所述比较选择所述多个第二高维表示中最接近所述第一高维表示的第二高维表示。
30.根据权利要求24至29中任一项所述的系统,该系统还包括配置为拍摄样本的多个图像的所述显微镜,其中,所述多个基于图像的输入数据集表示所述样本的所述多个图像。
31.一种显微镜,该显微镜包括前述权利要求中任一项所述的系统。
32.一种用于处理基于生物学相关图像的检索数据的方法(900),所述方法包括:
接收(910)基于生物学相关图像的检索数据;
通过经训练的视觉识别机器学习算法,生成(920)所述基于生物学相关图像的检索数据的第一高维表示,其中,所述第一高维表示包括至少3个条目,每个条目具有不同的值;
获得(930)多个基于生物学相关图像的输入数据集或多个基于生物学相关语言的输入数据集的多个第二高维表示;并且
将所述第一高维表示与所述多个第二高维表示中的每个第二高维表示进行比较(940)。
33.一种用于控制显微镜的方法(1000),所述方法包括:
接收(1010)基于图像的检索数据;
通过经训练的视觉识别机器学习算法,生成(1020)所述基于图像的检索数据的第一高维表示,其中,所述第一高维表示包括至少3个条目,每个条目具有不同的值;
获得(1030)多个基于图像的输入数据集的多个第二高维表示;
基于所述第一高维表示与所述多个第二高维表示中的每个第二高维表示的比较,从所述多个第二高维表示中选择(1040)第二高维表示;并且
基于所选择的第二高维表示控制(1050)显微镜的操作。
34.一种用于控制显微镜的方法(1100),所述方法包括:
通过聚类算法确定(1110)多个基于图像的输入数据集的多个第二高维表示的多个聚类;
确定(1120)所述多个聚类中的聚类的聚类中心的第一高维表示;
基于所述第一高维表示与所述多个第二高维表示中的每个第二高维表示或第二高维表示的子集的比较,从所述多个第二高维表示中选择(1130)第二高维表示;并且
提供(1140)控制信号,用于基于所选择的第二高维表示控制显微镜的操作。
35.一种具有程序代码的计算机程序,当所述程序由处理器执行时,所述程序代码用于执行根据权利要求32至34中任一项所述的方法。
CN201980099034.1A 2019-06-07 2019-06-07 用于处理生物学相关数据的系统和方法、用于控制显微镜的系统和方法及显微镜 Pending CN114375477A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/064978 WO2020244779A1 (en) 2019-06-07 2019-06-07 A system and method for processing biology-related data, a system and method for controlling a microscope and a microscope

Publications (1)

Publication Number Publication Date
CN114375477A true CN114375477A (zh) 2022-04-19

Family

ID=66867116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980099034.1A Pending CN114375477A (zh) 2019-06-07 2019-06-07 用于处理生物学相关数据的系统和方法、用于控制显微镜的系统和方法及显微镜

Country Status (5)

Country Link
US (1) US20220245188A1 (zh)
EP (1) EP3981008A1 (zh)
JP (1) JP2022542752A (zh)
CN (1) CN114375477A (zh)
WO (1) WO2020244779A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599749B1 (en) * 2019-12-23 2023-03-07 Thales Sa Method of and system for explainable knowledge-based visual question answering
CN116030454B (zh) * 2023-03-28 2023-07-18 中南民族大学 一种基于胶囊网络和多语言模型的文字识别方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60231032D1 (de) * 2001-04-12 2009-03-19 Cellavision Ab Verfahren in der mikroskopie und mikroskop, wobei teilbilder aufgezeichnet und in demselben koordinatensystem im puzzle-verfahren angeordnet werden, um eine präzise positionierung der mikroskopstufe zu ermöglichen
JP2004259061A (ja) * 2003-02-26 2004-09-16 Intec Web & Genome Informatics Corp 情報検索装置、情報検索方法、及び情報検索プログラム
JP2005269605A (ja) * 2004-02-20 2005-09-29 Fuji Photo Film Co Ltd デジタル図鑑システム、図鑑検索方法、図鑑検索プログラム
US8319829B2 (en) * 2008-05-16 2012-11-27 Ffei Limited Method and system for controlling the position of a microscope lens
JP2014127011A (ja) * 2012-12-26 2014-07-07 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP6160187B2 (ja) * 2013-04-09 2017-07-12 ソニー株式会社 分析装置、分析プログラム及び分析システム
US20170032285A1 (en) * 2014-04-09 2017-02-02 Entrupy Inc. Authenticating physical objects using machine learning from microscopic variations
WO2015195609A1 (en) * 2014-06-16 2015-12-23 Siemens Healthcare Diagnostics Inc. Analyzing digital holographic microscopy data for hematology applications
US10769501B1 (en) * 2017-02-15 2020-09-08 Google Llc Analysis of perturbed subjects using semantic embeddings
WO2019178561A2 (en) * 2018-03-16 2019-09-19 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Using machine learning and/or neural networks to validate stem cells and their derivatives for use in cell therapy, drug discovery, and diagnostics

Also Published As

Publication number Publication date
US20220245188A1 (en) 2022-08-04
JP2022542752A (ja) 2022-10-07
EP3981008A1 (en) 2022-04-13
WO2020244779A1 (en) 2020-12-10

Similar Documents

Publication Publication Date Title
JP7443401B2 (ja) 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム
Wang et al. Deep learning approach to peripheral leukocyte recognition
Jeckel et al. Advances and opportunities in image analysis of bacterial cells and communities
Koskinen et al. PANNZER: high-throughput functional annotation of uncharacterized proteins in an error-prone environment
Chessel An overview of data science uses in bioimage informatics
Arowolo et al. A survey of dimension reduction and classification methods for RNA-Seq data on malaria vector
WO2023217222A1 (zh) 细胞信息统计方法、装置、设备及计算机可读存储介质
Momeni et al. Deep recurrent attention models for histopathological image analysis
CN114743600A (zh) 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法
Sanchez-Fernandez et al. CLOOME: contrastive learning unlocks bioimaging databases for queries with chemical structures
CN114375477A (zh) 用于处理生物学相关数据的系统和方法、用于控制显微镜的系统和方法及显微镜
US11960518B2 (en) System and method for processing biology-related data, a system and method for controlling a microscope and a microscope
JP7346603B2 (ja) 生物学関連のデータを処理するためのシステムおよび方法ならびに顕微鏡
Maurya et al. Automated detection of bioimages using novel deep feature fusion algorithm and effective high-dimensional feature selection approach
Rahman et al. IDMIL: an alignment-free Interpretable Deep Multiple Instance Learning (MIL) for predicting disease from whole-metagenomic data
George et al. Significance of global vectors representation in protein sequences analysis
Tiwari et al. An optimal feature selection method for histopathology tissue image classification using adaptive jaya algorithm
Gancheva et al. SOA based system for big genomic data analytics and knowledge discovery
Hawkins-Hooker et al. Projection layers improve deep learning models of regulatory DNA function
WO2020244777A1 (en) A system and method for generating a biology-related image-based output data set of a typical image of a biological structure and a system and method for training a generative adversarial network
EP4116869A1 (en) A method and an apparatus for predicting a future state of a biological system, a system and a computer program
Miao et al. End-to-end deep memory network for visual-textual sentiment analysis
Hu et al. Structured Data Encoder for Neural Networks Based on Gradient Boosting Decision Tree
The et al. Adaptive Lung Diseases Images Classification Technique Based on Deep Learning
León et al. Learning to segment mouse embryo cells

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination