CN114391162A - 用于处理生物学相关数据的系统和方法及显微镜 - Google Patents

用于处理生物学相关数据的系统和方法及显微镜 Download PDF

Info

Publication number
CN114391162A
CN114391162A CN201980099041.1A CN201980099041A CN114391162A CN 114391162 A CN114391162 A CN 114391162A CN 201980099041 A CN201980099041 A CN 201980099041A CN 114391162 A CN114391162 A CN 114391162A
Authority
CN
China
Prior art keywords
biologically relevant
dimensional representation
machine learning
trained
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980099041.1A
Other languages
English (en)
Inventor
C·卡佩尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ThyssenKrupp Industrial Solutions AG
Original Assignee
Uhde GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uhde GmbH filed Critical Uhde GmbH
Publication of CN114391162A publication Critical patent/CN114391162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

系统(100)包括一个或多个处理器(110)和一个或多个存储设备(120),该系统配置为获取基于生物学相关图像的输入数据(107),并通过由一个或多个处理器(110)执行的经训练的视觉识别机器学习算法,生成基于生物学相关图像的输入数据(107)的高维表示。该高维表示包括至少3个条目,每个条目具有不同的值。进一步地,该系统配置为执行下列中的至少一项:通过一个或多个存储设备(120)将基于生物学相关图像的输入数据(107)的高维表示与基于生物学相关图像的输入数据(107)一起存储;或者输出与所述高维表示对应的基于生物学相关语言的输出数据(109)。

Description

用于处理生物学相关数据的系统和方法及显微镜
技术领域
示例涉及生物学相关数据的处理。
背景技术
在许多生物学应用中,会产生大量数据。例如,从大量生物结构采集图像并将图像存储在数据库中。手动分析生物数据非常耗时且成本较高。
发明内容
因此,需要改进用于处理生物学相关数据的理念。
这种需要可以通过权利要求的主题得到满足。
一些实施例涉及一种系统,该系统包括联接至一个或多个存储设备的一个或多个处理器。该系统配置为获取基于生物学相关图像的输入数据,并通过由一个或多个处理器执行的经训练的视觉识别机器学习算法,生成基于生物学相关图像的输入数据的高维表示。该高维表示包括至少3个条目,每个条目具有不同的值。进一步地,该系统配置为通过一个或多个存储设备将基于生物学相关图像的输入数据的高维表示与该基于生物学相关图像的输入数据一起存储和/或输出与高维表示对应的基于生物学相关语言的输出数据。
通过使用视觉识别机器学习算法,可以将图像映射至高维表示。通过使高维表示具有拥有各种不同值的条目(与独热编码表示相反),具有语义上相似的内容的图像可以映射到相似的高维表示。这些高维表示可以作为图像的注释或标签存储或输出,和/或这些高维表示可以映射到描述图像的内容的文本性信息。以这种方式,即使现有数据库中的图像和/或运行实验的图像之前没有被标记,这些图像也可以被注释或标记。如果数据库中的图像或运行实验的图像被对应的高维表示标记,则这些图像可以通过文本到图像的检索(例如,输入文本性检索词并输出存储在数据库中的一个或多个对应的图像)或图像到图像的检索(例如,输入检索图像并输出存储在数据库中的一个或多个相似图像)进行检索。
附图说明
以下将仅通过示例的方式并参考附图对装置和/或方法的一些示例进行描述,其中:
图1是用于处理基于生物学相关图像的输入数据的系统的示意图;
图2是用于标记基于生物学相关图像的输入数据的系统的示意图;
图3是用于处理生物学相关数据的系统的示意图,该系统包括显微镜;以及
图4是用于处理基于生物学相关图像的输入数据的的方法的流程图。
具体实施方式
现在将参考其中示出了一些示例的附图,对各个示例进行更全面的描述。在图中,为了清楚起见,可能夸大了线、层和/或区域的厚度。
相应地,虽然另外的示例能够具有各种修改和替代形式,但其一些特定示例已在图中示出并随后将进行详细描述。然而,该详细描述并非将另外的示例限制为所描述的特定形式。另外的示例可以涵盖落入本公开范围内的所有修改、等同物和替代物。在整个附图描述中,相同或相似的附图标记指代相同或相似的元件,这些相同或相似的附图标记在相互比较时可以以相同或改动的形式实施,同时提供相同或相似的功能。
将理解的是,当某个元件被称为“连接”或“联接”至另一个元件时,这些元件可以直接连接或联接,或经由一个或多个中间元件连接或联接。除非明确或隐含地另外定义,否则如果使用“或”组合两个元件A和B,则这将被理解为公开所有可能的组合,即仅A、仅B以及A和B。用于相同组合的替代用语为“A和B中的至少一个”或“A和/或B”。加以必要的修改,这同样适用于两个以上元件的组合。
本文用于描述特定示例的术语并非旨在限制另外的示例。无论何时,使用诸如“一个(a)”、“一个(an)”和“所述(the)”之类的单数形式以及仅使用单个元件未被明确或隐含地定义为强制性的情况下,另外的示例也可以使用复数个元件来实现相同的功能。同样,当某种功能之后被描述为使用多个元件实现时,另外的示例可以使用单个元件或处理实体实现相同的功能。将进一步理解的是,当使用时,术语“包括”(comprise)、“包括(comprising)”、“包含(includes)”和/或“包含(including)指出存在所阐述的特征、整数、步骤、操作、过程、动作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、过程、动作、元件、组件和/或其任何组。
除非另有定义,否则所有术语(包括技术术语和科学术语)在本文中均以其示例所属领域的普通含义使用。
图1示出了根据实施例的用于处理基于生物学相关图像的输入数据的系统的示意图。系统100包括一个或多个处理器110,所述一个或多个处理器联接至一个或多个存储设备120。系统100配置为获取(第一)基于生物学相关图像的输入数据107,并通过由一个或多个处理器110执行的(第一)经训练的视觉识别机器学习算法,来生成基于生物学相关图像的输入数据107的(第一)高维表示。该高维表示包括至少3个条目,每个条目具有不同的值,(或包括彼此之间取值不同的至少20个条目、至少50个条目或至少100个条目)。进一步地,系统100配置为通过一个或多个存储设备120将基于生物学相关图像的输入数据107的高维表示与基于生物学相关图像的输入数据107一起存储和/或输出和/或存储与高维表示对应的(第一)基于生物学相关语言的输出数据109。
基于生物学相关图像的输入数据107可以是以下各项的图像的图像数据(例如,图像的像素数据):包括核苷酸或核苷酸序列的生物结构;包括蛋白质或蛋白质序列的生物结构;生物分子;生物组织;具有特定行为的生物结构;和/或具有特定生物学功能或特定生物活性的生物结构。生物结构可以是在体内或体外的分子、类病毒或病毒、人工或天然膜包封囊泡、亚细胞结构(如细胞器)、细胞、球状体、类器官、三维细胞培养物、生物组织、器官切片或器官的一部分。例如,生物结构的图像可以是细胞或组织内的蛋白质的位置的图像,或者可以是具有所标记的核苷酸探针与其结合(例如,原位杂交)的内源核苷酸(例如,DNA)的细胞或组织的图像。图像数据可以包括针对图像的每个颜色维度(例如,用于RGB表示的三个颜色维度)的图像的每个像素的像素值。例如,依据成像模态,其他通道可以适于与激发或发射波长、荧光寿命、光偏振、三个空间维度中的载物台位置、不同成像角度相关。基于生物学相关图像的输入数据集可以是XY像素图、体积数据(XYZ)、时间序列数据(XY+T)或其组合(XYZT)。此外,可以包含取决于图像源的类型的附加维度,诸如通道(例如,光谱发射带)、激发波长、载物台位置、如在多孔板或多位置实验中的逻辑位置、和/或如在光片成像中的反射镜和/或物镜位置。例如,基于生物学相关图像的输入数据107可以从数据库(例如,由一个或多个存储设备存储的数据库)中获取或者可以在运行实验期间由成像设备(例如显微镜、照相机)获取。例如,系统100可以包括显微镜,显微镜被配置为通过拍摄生物样本的图像来获取基于生物学相关图像的输入数据107。
高维表示可以是隐藏表示、潜在向量、嵌入(embedding)、语义嵌入和/或令牌嵌入(token embedding),和/或也可以称为隐藏表示、潜在向量、嵌入、语义嵌入和/或令牌嵌入。
高维表示可以是数字表示(例如,仅包括数值)。高维表示可以包括100个以上的维度(或300个以上的维度或500个以上的维度)和/或10000个以下的维度(或3000个以下的维度或1000个以下维度)。高维表示的每个条目可以是高维表示的一个维度(例如,具有100个维度的高维表示包括100个条目)。例如,使用具有300个以上的维度且1000个以下的维度的高维表示可以实现具有语义相关性的生物学相关数据的合适表示。高维表示可以是向量。如果对于高维表示的条目使用向量表示,则可以实现有效的比较和/或其他计算(例如,归一化),但是其他表示(例如,作为矩阵的表示)也是可行的。例如,高维表示可以是归一化向量。高维表示可以由经训练的视觉识别机器学习算法生成,该算法可能已通过损失函数进行了训练,使得经训练的视觉识别机器学习算法输出归一化的高维表示。然而,也可以运用用于高维表示的归一化的其他方法。
例如,与独热编码表示(one hot encoded representation)相比,高维表示可以包括取值不等于0的各种条目(至少三个条目)。通过使用允许具有取值不等于0的各种条目的高维表示,可以再现有关高维表示之间的语义关系的信息。例如,高维表示的条目的50%以上(或70%以上或90%以上)的值可以不等于0。有时,独热编码表示也具有一个以上的不等于0的条目,但只有一个条目具有高值,而所有其他条目的值都处于噪声级(例如,低于该一个高值的10%)。相反,例如,高维表示的5个以上的条目(或20个以上的条目或50个以上条目)的值可以比高维表示的条目的最大绝对值大10%(或大20%或大30%)。例如,高维表示的每个条目可以包括介于-1和1之间的值。
通过将具有经训练的参数集的经训练的视觉识别机器学习算法的至少一部分(例如,编码器)应用于基于生物学相关图像的输入数据107,可以确定高维表示。例如,通过经训练的视觉识别机器学习算法生成高维表示可以意指高维表示是通过经训练的视觉识别机器学习算法的编码器生成的。经训练的视觉识别机器学习算法的经训练的参数集可以在如下文所述的训练视觉识别机器学习算法期间获得。
高维表示的一个或多个条目的值可以与存在特定生物学功能或特定生物活性的可能性成比例。通过使用生成保留了输入数据集的语义相似度的高维表示的映射,与语义不太相似的高维表示相比,语义相似的高维表示彼此之间可以具有更近的距离。进一步地,如果两个高维表示表示具有相同或相似的特定生物学功能或特定生物活性的输入数据集,则这两个高维表示中的一个或多个条目可以具有相同或相似的值。由于保留了语义,因此高维表示的一个或多个条目可以指示出现或存在特定生物学功能或特定生物活性。例如,高维表示的一个或多个条目的值越高,存在与这些一个或多个条目相关的生物学功能或生物活性的可能性就可以越高。
经训练的视觉识别机器学习算法也可以称为图像识别模型或视觉模型。经训练的视觉识别机器学习算法可以是或可以包括经训练的视觉识别神经网络。经训练的视觉识别神经网络可以包括20个以上的层(或40个以上的层或80个以上的层)和/或400个以下的层(或200个以下的层或150个以下的层)。经训练的视觉识别神经网络可以是卷积神经网络或胶囊网络。使用卷积神经网络或胶囊网络可以针对基于生物学相关图像的数据提供具有高精度的经训练的视觉识别机器学习算法。然而,也可以运用其他视觉识别算法。例如,经训练的视觉识别神经网络可以包括多个卷积层和多个池化层。然而,例如,如果使用胶囊网络和/或使用步幅=2来代替步幅=1进行卷积,则可以避免池化层。经训练的视觉识别神经网络可以使用修正线性单元激活函数。使用修正线性单元激活函数可以针对基于生物学相关图像的输入数据提供高精度的经训练的视觉识别机器学习算法,但是也可以运用其他激活函数(例如,hard tanh激活函数、sigmoid激活函数或tanh激活函数)。例如,经训练的视觉识别神经网络可以包括卷积神经网络和/或可以是深度取决于输入图像的大小的残差网络(ResNet)或密集连接卷积网络(DenseNet)。
系统100可以将基于生物学相关图像的输入数据107的高维表示与基于生物学相关图像的输入数据107一起存储在数据库(例如由一个或多个存储设备存储的数据库)中。数据库可以将多个图像与对应的高维表示一起存储。高维表示可以用作基于生物学相关图像的输入数据107的注释、标签或标记。数据库中的图像可以通过对应的高维表示进行检索。
另外地或可选择地,系统100可以(例如通过显示器、屏幕)向用户输出与高维表示对应的基于生物学相关语言的输出数据109,和/或系统100可以向存储设备输出与高维表示对应的基于生物学相关语言的输出数据109,以将基于生物学相关语言的输出数据109与基于生物学相关图像的输入数据107一起进行存储。该基于生物学相关语言的输出数据109可以是与已针对其生成高维表示的图像中示出的生物结构、生物结构的生物学功能、生物行为或生物活性相关的文本性输出。例如,基于生物学相关语言的输出数据109可以是核苷酸序列、蛋白质序列、对生物分子或生物结构的描述、对生物分子或生物结构的行为的描述、和/或对生物学功能或生物活性的描述。文本性输出可以是自然语言,该自然语言描述生物分子(例如,多糖、多/寡核苷酸、蛋白质或脂质)或生物分子在实验或数据集的情景下的行为。例如,基于生物学相关语言的输出数据109可以是核苷酸序列、蛋白质序列或一组生物学术语的粗粒度检索词。
一组生物学术语可以包括多个属于同一生物学主题的粗粒度检索词(或另选地称为分子生物学主题词)。一组生物学术语可以是催化活性(例如,作为使用用于离析物和产物的词的某种反应式)、途径(例如,涉及哪个途径,例如,糖酵解)、位点和/或区域(例如,结合位点、活性位点、核苷酸结合位点)、GO基因本体(例如,分子功能,如烟酰胺腺嘌呤二核苷酸NAD结合、微管结合)、GO生物学功能(例如,细胞凋亡、糖异生)、酶和/或途径数据库(例如,用于如在BRENDA/EC编号或UniPathways中的sic函数(sic function)的唯一标识符)、亚细胞定位(例如,细胞质、细胞核、细胞骨架)、家族和/或结构域(例如,如用于翻译后修饰(posttranslational modification)的结合位点、基序)、开放阅读框、单核苷酸多态性、限制性位点(例如,由限制性酶识别的寡核苷酸)和/或生物合成途径(例如,脂质、多糖、核苷酸或蛋白质的生物合成)。例如,该组生物学术语可以是亚细胞定位组,并且粗粒度检索词可以是细胞质、细胞核和细胞骨架。
基于生物学相关语言的输出数据109可以是关于图像内容的文本性信息,文本性信息与高维表示对应。基于生物学相关语言的输出数据109可以根据高维表示(例如通过使用经训练的语言识别机器学习算法)来确定。例如,系统100可配置为根据高维表示通过由一个或多个处理器110执行的经训练的语言识别机器学习算法的解码器来确定基于生物学相关语言的输出数据109。
经训练的语言识别机器学习算法也可以被称为文本性模型、文本模型或语言模型。语言识别机器学习算法可以是或可以包括经训练的语言识别神经网络。经训练的语言识别神经网络可以包括30个以上的层(或50个以上的层或80个以上的层)和/或500个以下的层(或300个以下的层或200个以下的层)。经训练的语言识别神经网络可以是递归神经网络,例如,长短期记忆网络。使用递归神经网络,例如,长短期记忆网络,可以针对基于生物学相关语言的数据提供具有高精度的语言识别机器学习算法。然而,也可以运用其他语言识别算法。例如,经训练的语言识别机器学习算法可以是一种能够处理长度可变的输出数据的算法。例如,第一基于生物学相关语言的输出数据的长度可以不同于第二基于生物学相关语言的输出数据的长度。例如,蛋白质序列通常有数十到数百个氨基酸长(一个氨基酸在蛋白质序列中表示为一个字母)。“语义”(例如序列中子串的生物学功能(在生物学中称为多肽、基序(motifs)或结构域(domains))在长度上可以不同。因此,可以使用能够提供长度可变的输出的架构。经训练的语言识别机器学习算法的解码器可以是经训练的语言识别机器学习算法的一部分,其可用于在语言识别机器学习算法的训练期间根据隐藏向量(高维表示)生成预测。
基于生物学相关语言的输出数据109可以是字母字符的序列(例如核苷酸序列或蛋白质序列)或针对其训练语言识别机器学习算法的文本。例如,基于生物学相关语言的输出数据109可以是由生物结构包含的核苷酸序列或蛋白质序列,已拍摄该生物结构的图像。可选择地或替代地,基于生物学相关语言的输出数据109可以是由经训练的语言识别机器学习算法训练的词汇(例如粗粒度检索词)的条目。
系统100可以针对大量图像生成高维表示。基于生物学相关图像的输入数据109可以是存储在数据库中或由运行实验生成的多个基于生物学相关图像的数据集中的一个基于生物学相关图像的数据集。例如,系统100可以获取多个基于生物学相关图像的数据集,并通过经训练的视觉识别机器学习算法针对多个基于生物学相关图像的数据集的每个基于生物学相关图像的输入数据集生成单独的高维表示。此外,系统100可以将单独的高维表示与对应的基于生物学相关图像的输入数据集一起存储,和/或可以输出与单独的高维表示对应的基于生物学相关语言的输出数据集。以这种方式,可以自动注释大量图像。
除了以高维表示的形式对图像生成注释之外,系统100还可以配置为在所注释的图像中检索一个或多个图像。例如,系统100可以接收基于生物学相关语言的检索数据并通过经训练的语言识别机器学习算法生成基于生物学相关语言的检索数据的高维表示。该基于生物学相关语言的检索数据可以由用户通过输入接口(例如键盘)输入。基于生物学相关语言的检索数据可以是应在数据库中检索(例如以找出相似图像;图像到图像的检索)的显示内容的图像的图像数据,或者可以是应在数据库中检索(例如,以找出与检索词对应的图像;文本到图像的检索)的检索词(例如核苷酸序列、蛋白质序列或粗粒度检索词)的文本性输入。虽然经训练的语言识别机器学习算法可以与用于生成基于生物学相关语言的输出数据的语言识别机器学习算法相同,但是经训练的语言识别机器学习算法的编码器可以代替解码器用于生成高维表示。
此外,系统100可以将基于生物学相关语言的检索数据的高维表示与多个基于生物学相关图像的数据集的单独的高维表示进行比较。通过计算两个高维表示之间的距离,可以将基于生物学相关语言的检索数据的高维表示与基于生物学相关图像的数据集的单独的高维表示进行比较。如果两个高维表示由向量(例如归一化向量)表示,则可以不费力地计算两个高维表示之间的距离(例如欧几里德距离或推土机距离)。可以针对多个基于生物学相关图像的数据集的每个单独的高维表示重复地计算距离。基于所计算的距离,系统100可以根据选择标准(例如具有最近距离或在距离阈值内的一个或多个单独的高维表示)选择多个基于生物学相关图像的数据集的一个或多个单独的高维表示。例如,系统100可以配置为根据该比较选择与基于生物学相关语言的检索数据的高维表示最接近的多个基于生物学相关图像的数据集的单独的高维表示。系统100可以根据该比较输出或存储多个基于生物学相关图像的数据集中的一个基于生物学相关图像的数据集。例如,系统100可以输出和/或存储与最接近基于生物学相关语言的检索数据的高维表示的单独的高维表示对应的基于生物学相关图像的数据集。
如上所述,基于生物学相关图像的输入数据107可以具有各种类型(例如,包括核苷酸序列或蛋白质序列的生物结构的图像或表示一组生物学术语的粗粒度检索词的生物结构的图像)。可以训练单个视觉识别机器学习算法以便仅处理一种类型的输入。因此,系统100可以配置为依据基于生物学相关图像的输入数据107,从多个经训练的视觉识别机器学习算法中选择视觉语言识别机器学习算法。例如,多个经训练的视觉识别机器学习算法可以由一个或多个存储设备120存储,并且系统100可以依据作为基于生物学相关图像的输入数据107接收的输入类型,选择经训练的视觉识别机器学习算法之一。例如,可以通过配置为对基于生物学相关图像的输入数据107进行分类的分类算法(例如,视觉识别机器学习算法),从多个经训练的视觉识别机器学习算法中选择所述经训练的视觉识别机器学习算法。
系统100可以通过不同的经训练的视觉识别机器学习算法确定同一图像的若干注释。例如,系统100可以从多个经训练的视觉识别机器学习算法中选择用于生成第一高维表示的第一经训练的视觉识别机器学习算法,并从多个经训练的视觉识别机器学习算法中选择第二经训练的视觉识别机器学习算法。此外,系统100可以通过第二经训练的视觉识别机器学习算法生成基于生物学相关图像的输入数据107的第二高维表示。第二高维表示可以包括至少3个条目,每个条目具有不同的值,(或至少20个、至少50个或至少100个彼此具有不同值的条目)。多个经训练的视觉识别机器学习算法中的每个经训练的视觉识别机器学习算法均能够针对不同类型的注释(例如核苷酸序列、蛋白质序列或粗粒度检索词)进行训练,并能够生成对应的高维表示。此外,系统100可以通过一个或多个存储设备120将基于生物学相关图像的输入数据107的第二高维表示与第一高维表示和基于生物学相关图像的输入数据107一起存储,和/或系统100可以输出与第二高维表示对应的第一基于生物学相关语言的输出数据和第二基于生物学相关语言的输出数据。第二基于生物学相关语言的输出数据可以通过第二经训练的语言识别机器学习算法确定,该第二经训练的语言识别机器学习算法是针对与第二视觉识别机器学习算法相同类型的注释进行训练的。例如,如果基于生物学相关图像的输入数据可以是包含核苷酸序列的生物结构的图像的图像数据,则第一基于生物学相关语言的输出数据109可以是作为文本的核苷酸序列(例如GATTACA),并且第二基于生物学相关语言的输出数据可以是对生物结构的生物学功能或生物活性的描述。
系统100可以配置为控制显微镜的操作。例如,系统100可以控制显微镜移动到样本的以下位置:在该位置处应该拍摄待由系统100注释的图像。
系统100的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图2至图4)进行阐述。系统100可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
图2示出了根据实施例的用于标记基于生物学相关图像的输入数据的系统的示意图。系统200可以与结合图1描述的系统类似的方式实现。存储在存储库201中的图像可以穿过经预训练的视觉模型220(经训练的视觉识别机器学习算法)。可以存在任意数量的这种模型240,每个模型针对一种类型的图像注释(或标签)。图像注释的类型可以是生物序列、自然语言或上述任何的粗粒度检索词。因此,可以存在用于选择适当模型210的机制。该机制可以是识别可能内容和其可用的图像注释的查找表、用户提供的列表或第一经预训练的视觉模型本身。例如,第一模型210可以识别图像是否包含所标记的蛋白质或荧光原位杂交(例如所标记的核苷酸),并且第一模型210可以选择适用于蛋白质序列或核苷酸序列的功能注释。然后,由经预训练的视觉模型220、240计算的语义嵌入230(高维表示)可以存储在数据库260中,这些语义嵌入在数据库中可以用于未来的检索(例如文本到图像的检索和/或图像到图像的检索)。最后一个数据库260可以(但不必须)等同于第一存储库200。为了使嵌入变成人可读的,可以通过相同的相应文本模型250将嵌入转换为文本或粗粒度检索词,其中文本模型250用于创建嵌入,以训练如下文所述的视觉模型并将嵌入写入数据库260。
作为将注释写入数据库的替代方法,针对新类别的功能注释的预测可以在运行实验期间输出给用户,以为用户的现场决策提供背景。
图2可以示出一种用于未来检索查询的智能标记的系统。
系统200的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1或图3和图4)进行阐述。系统200可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
结合图1和图2之一描述的系统可以包括或者可以是计算机设备(例如,个人计算机、膝上型计算机、平板计算机或移动电话),其中一个或多个处理器和一个或多个存储设备位于该计算机设备中,或者该系统可以是分布式计算系统(例如,具有分布在各个位置(例如,本地客户端和一个或多个远程服务场群和/或数据中心)的一个或多个处理器和一个或多个存储设备的云计算系统)。该系统可以包括数据处理系统,该数据处理系统包含用于联接系统的各个部件的系统总线。系统总线可以提供系统的各个部件之间的通信链接并且可以实施为单个总线、总线组合或以任何其他合适的方式实施。电子组件可以联接到系统总线。电子组件可以包含任何电路或电路组合。在一个实施例中,电子组件包含可以是任何类型的处理器。如本文所用的,处理器可以意指任何类型的计算电路,诸如但不限于微处理器、微控制器、复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、图形处理器、数字信号处理器(DSP)、多核处理器、显微镜或显微镜部件(例如,相机)的现场可编程门阵列(FPGA)或任何其他类型的处理器或处理电路。可以包含在电子组件中的其他类型的电路可以是定制电路、专用集成电路(ASlC)等,诸如,例如在像移动电话、平板计算机、膝上型计算机、双向无线电设备和类似电子系统等无线设备中使用的一个或多个电路(诸如通信电路)。该系统包含一个或多个存储设备,该存储设备进而可以包含一个或多个适于特定应用的存储元件(诸如,呈随机存取存储器(RAM)的形式的主存储器)、一个或多个硬盘驱动器、和/或一个或多个处理可移动介质(诸如光盘(CD)、闪存卡、数字化视频光盘(DVD)等)的驱动器。该系统还可以包含显示设备、一个或多个扬声器、以及键盘和/或控制器,该键盘和/或控制器可以包含鼠标、轨迹球、触摸屏、语音识别设备、或允许系统用户向系统输入信息并从系统接收信息的任何其他设备。
另外,该系统可以包括连接到计算机设备或分布式计算系统的显微镜。显微镜可以配置为通过拍摄一个或多个样本的图像而生成基于生物学相关图像的输入数据集。
显微镜可以是光学显微镜(例如,衍射极限或亚衍射极限显微镜,如例如超分辨率显微镜或纳米显微镜)。显微镜可以是独立显微镜或具有附接的部件(例如,共焦扫描仪、附加相机、激光器、气候室、自动加载机构、液体处理系统、附接的光学部件(如附加的多光子光路、光学镊子等))的显微镜系统。例如,如果其他图像源可以采集与生物序列(例如,蛋白质、核酸、脂质)或其他样本相关的对象的图像,也可以使用这些其他图像源。例如,根据上文或下文所述的实施例的显微镜可以实现深度发现显微镜。
该系统的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图4)进行阐述。该系统可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
一些实施例涉及一种显微镜,该显微镜包括如结合图1至图2中的一个或多个图描述的系统。另选地,显微镜可以是如结合图1至图2中的一个或多个图描述的系统的一部分或与该系统连接。图3示出了根据实施例的用于处理数据的系统300的示意图。配置为拍摄一个或多个生物样本的图像的显微镜310连接至配置为处理生物学相关数据的计算机设备320(例如,个人计算机、膝上型计算机、平板计算机或移动电话)。显微镜310和计算机设备320可以如结合图1至图2中的一个或多个图所述的那样实施。
图4示出了根据实施例的用于处理基于生物学相关图像的输入数据的方法的流程图。方法400包括获取410基于生物学相关图像的输入数据,并通过经训练的视觉识别机器学习算法,生成420基于生物学相关图像的输入数据的高维表示。高维表示包括至少3个条目,每个条目具有不同的值。进一步地,方法400包括将基于生物学相关图像的输入数据的高维表示与基于生物学相关图像的输入数据一起存储430,和/或输出430与高维表示对应的基于生物学相关语言的输出数据。
通过使用视觉识别机器学习算法,可以将图像映射到高维表示。通过允许高维表示具有拥有各种不同值的条目(与独热编码表示相比),具有语义上相似的内容的图像可以映射到相似的高维表示。这些高维表示可以作为图像的注释或标签存储或输出,和/或这些高维表示可以映射到描述图像的内容的文本性数据。以这种方式,即使现有数据库中的图像和/或运行实验的图像之前没有被标记,这些图像也可以被注释或标记。如果数据库中或运行实验的图像由相应的高维表示标记,则这些图像可以通过文本到图像的检索(例如,输入文本性检索词并输出存储在数据库中的相应图像)或图像到图像的检索(例如,输入检索图像并输出存储在数据库中的相似图像)进行检索。
方法400的更多细节和方面结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图3)进行阐述。方法400可以包括与所提出的理念的一个或多个方面和/或以上或以下描述的一个或多个示例的一个或多个方面相对应的一个或多个附加可选特征。
在下文中,描述了上述一个或多个实施例(例如,结合图1至图4中的一个或多个图描述的实施例)的应用和/或实施细节的一些示例。
根据一方面,可以利用如上文或如下文所述被训练成根据图像预测语义嵌入的视觉模型来自动注释(“标记”)数据存储库中的图像或在运行显微镜实验期间生成的图像。然后可以通过使用文本查询(例如生物序列、粗粒度检索词)使图像变成可检索的。这也可以应用于以前未见过的对象类别(“零样本学习”)。
上文和/或下文描述的智能标记功能可以通过使以前未被注释的图像在数据库中可检索来产生价值。虽然显微镜用户的目标可以是主动地标记他们的数据,但是在实验时通常并不知道其它哪些数据可能与以后的分析相关。此外,突飞猛进的生物发现意味着未来可能会发现生物分子的新功能,而这在实验时是未知的。借助所提出的理念的智能标记功能,可以对先前作业的数据以及存储在大型工作组、机构的存储库中或公共数据库中的数据进行回顾性注释。以这种方式,通过使用数据挖掘技术、机器学习以及相关分析形式构建的模型,可以实现更快的检索查询、检索查询中更具体的过滤以及更精确的预测。此类分析的输出可以用于做出有关显微镜的运行工作流程的决策和更改显微镜的运行工作流程。
取代依赖于单个(discreet)标签(例如在独热编码向量中),所提出的理念可以输出语义嵌入,所述语义嵌入为潜在向量。因此,即使在标签没有完全正确预测时,如果标签在语义上接近正确标签,则仍然可以使用这些标签。使用独热编码的分类变量作为输出的其它技术通常会做出正确或错误的预测,并且如果是错误的预测,则通常完全偏离目标,这是因为独热编码的分类类变量将不同类别视为完全不相关的。
由所提出的理念创建的语义嵌入可以作为生物学功能的代理,这可以有助于将大量数据分组为功能组,这可以与生物研究人员的相关性更大,因为这些功能组可能使用针对生物序列(如下文所述)进行了训练的语言模型或提供对生物学功能的描述的自然语言来创建的。
根据一方面的智能标记可以基于以下步骤:
1.经预训练的视觉模型可以识别来自成像设备或数据库的图像内容,并选择合适的第二模型。可以如上文所述实现该模型选择。
2.第二经预训练的视觉模型可以创建来自成像设备或数据库的一系列图像的相应嵌入。
3.这些语义嵌入可以写入数据库以供将来检索,例如文本到图像的检索或图像到图像的检索或其它检索。
4.可选地,可以通过合适的模型将嵌入转换回文本或粗粒度检索词(如上文所述)或其它人类可读格式。
用于预测语义嵌入的模型可以如下文所述进行训练,但是也可以以不同的方式进行训练。
步骤1可以是可选的。用于标记的图像可以是使用(同一或其他)成像设备的实验的结果。可以从数据库接收用于标记的图像(例如手动查询或通过成像或其它实验室设备自动查询)。可以通过无监督聚类和/或由成像设备和模型产生的图像嵌入的算术组合来获取用于标记的图像。
所提出的理念可以实现泛化,这可以指的是在针对其训练模型的同类别内对先前未见过的输入做出正确预测的能力。零样本学习可以指的是在针对其训练模型的类别之外对先前未见过的输入做出正确预测的能力。零样本学习可以在生物学领域开辟新的能力。
对于既不包含在训练集中也非任何训练类别的一部分的未知图像,所提出的理念能够预测功能注释,诸如上面所述的粗粒度检索词。该信息可以在运行实验期间输出给用户或作为功能注释写入图像数据库。功能注释可以相当于智能标记机制,该智能标记机制可以为以前未注释或未标记的图像提供信息注释。
例如,可以将任何产生大型数据集的实验与数据记录一起自动注释。由所提出的理念产生的自动注释可以与可用的元数据(例如仪器数据、描述样品制备的数据、关于进行实验和使用的化学品的数据以及来自实验室管理和信息系统的数据)相结合。大型“组学(omics)”规模筛选、药物筛选或目标验证和毒理学筛选可以是此类实验的示例。
所提出的理念还可以用于回顾性标记太大或太杂而无法手动注释的现有大量数据。
例如,知识通常可以以结构化的方式表示。在生物分子的情景中,常见类别可以指的是如上所述的粗粒度检索词。它们可以用作查询术语,并且也可以表示为如从经预训练的语言模型(以如下文所述的类似方式训练)获取的其相应的语义嵌入。
经训练的语言识别机器学习算法和/或经训练的视觉识别机器学习算法可以通过以下描述的训练获得。一种用于训练用于处理生物学相关数据的机器学习算法的系统可以包括一个或多个处理器和一个或多个存储设备。该系统可以配置为接收基于生物学相关语言的输入训练数据。另外,该系统可以配置为通过由一个或多个处理器执行的语言识别机器学习算法,生成基于生物学相关语言的输入训练数据的第一高维表示。第一高维表示包括至少3个条目,每个条目具有不同的值。进一步地,该系统可以配置为通过由一个或多个处理器执行的语言识别机器学习算法,基于第一高维表示生成基于生物学相关语言的输出训练数据。另外,该系统可以配置为依据基于生物学相关语言的输入训练数据与基于生物学相关语言的输出训练数据的比较,调整语言识别机器学习算法。另外,该系统可以配置为接收与基于生物学相关语言的输入训练数据相关联的基于生物学相关图像的输入训练数据。进一步地,该系统可以配置为通过由一个或多个处理器执行的视觉识别机器学习算法,生成基于生物学相关图像的输入训练数据的第二高维表示。第二高维表示包括至少3个条目,每个条目具有不同的值。进一步地,该系统可以配置为基于第一高维表示与第二高维表示的比较,调整视觉识别机器学习算法。
基于生物学相关语言的输入训练数据可以是与生物结构、生物学功能、生物行为或生物活性相关的文本性输入。例如,基于生物学相关语言的输入训练数据可以是核苷酸序列、蛋白质序列、对生物分子或生物结构的描述、对生物分子或生物结构的行为的描述、和/或对生物学功能或生物活性的描述。基于生物学相关语言的输入训练数据可以是训练组的第一基于生物学相关语言的输入训练数据集(例如,输入字符序列,例如核苷酸序列或蛋白质序列)。训练组可以包括多个基于生物学相关语言的输入训练数据集。
基于生物学相关语言的输出训练数据可以与可选地包括对下一个元素进行预测的基于生物学相关语言的输入训练数据属于同一类型。例如,基于生物学相关语言的输入训练数据可以是生物序列(例如,核苷酸序列或蛋白质序列),而基于生物学相关语言的输出训练数据也可以是生物序列(例如,核苷酸序列或蛋白质序列)。可以训练语言识别机器学习算法,使得基于生物学相关语言的输出训练数据等同于可选地包括对生物序列的下一个元素进行预测的基于生物学相关语言的输入训练数据。在另一个示例中,基于生物学相关语言的输入训练数据可以是粗粒度检索词的生物类别,而基于生物学相关语言的输出训练数据也可以是粗粒度检索词的生物类别。
基于生物学相关图像的输入训练数据可以是以下各项的图像的图像训练数据(例如,训练图像的像素数据):包括核苷酸或核苷酸序列的生物结构;包括蛋白质或蛋白质序列的生物结构;生物分子;生物组织;具有特定行为的生物结构;和/或具有特定生物学功能或特定生物活性的生物结构。基于生物学相关图像的输入训练数据可以是训练组的第一基于生物学相关图像的输入训练数据集。训练组可以包括多个基于生物学相关图像的输入训练数据集。
基于生物学相关语言的输入训练数据可以是训练组的基于生物学相关语言的输入训练数据集(例如,输入字符序列,例如核苷酸序列或蛋白质序列)。训练组可以包括多个基于生物学相关语言的输入训练数据集。该系统可以针对训练组的多个基于生物学相关语言的输入训练数据集中的每一个重复生成第一高维表示。进一步地,该系统可以针对每个所生成的第一高维表示生成基于生物学相关语言的输出训练数据。该系统可以基于训练组的多个基于生物学相关语言的输入训练数据集中的基于生物学相关语言的输入训练数据与对应的基于生物学相关语言的输出训练数据的每次比较,调整语言识别机器学习算法。换言之,该系统可以配置为针对基于生物学相关语言的输入训练数据集的训练组的每个基于生物学相关语言的输入训练数据,重复生成第一高维表示、生成基于生物学相关语言的输出训练数据、和调整语言识别机器学习算法。训练组可以包括足够的基于生物学相关语言的输入训练数据集,从而可以实现训练目标(例如,损失函数的输出变化低于阈值)。
在语言识别机器学习算法的训练期间生成的多个所有第一高维表示可以称为潜在空间或语义空间。
该系统可以针对训练组的多个基于生物学相关图像的输入训练数据集中的每一个重复生成第二高维表示。进一步地,该系统可以基于第一高维表示与对应的第二高维表示的每一次比较,调整视觉识别机器学习算法。换言之,该系统可以针对基于生物学相关图像的输入训练数据集的训练组的每个基于生物学相关图像的输入训练数据,重复生成第二高维表示和调整视觉识别机器学习算法。训练组可以包括足够的基于生物学相关图像的输入训练数据集,从而可以实现训练目标(例如,损失函数的输出变化低于阈值)。
例如,系统100使用语言识别机器学习算法和视觉识别机器学习算法的组合(例如,也称为视觉语义模型)。语言识别机器学习算法和/或视觉识别机器学习算法可以是深度学习算法和/或人工智能算法。
训练可以快速收敛,和/或通过使用交叉熵损失函数(但是也可以使用其他损失函数)训练语言识别机器学习算法,该训练可以为生物学相关数据提供训练好的算法。
通过基于由语言识别机器学习算法生成的高维表示与由对应的输入训练数据的视觉识别机器学习算法生成的高维表示的比较来调整视觉识别机器学习算法的参数,而可以对视觉识别机器学习算法进行训练。例如,可以基于该比较来调整视觉识别神经网络的网络权重。对视觉识别机器学习算法的参数(例如,网络权重)的调整可以在考虑损失函数的情况下完成。例如,用于调整视觉识别机器学习算法的第一高维表示与第二高维表示的比较可以基于余弦相似度损失函数来进行。训练可以快速收敛,和/或通过使用余弦相似度损失函数(但是也可以使用其他损失函数)训练视觉识别机器学习算法,该训练可以为生物学相关数据提供训练好的算法。
例如,视觉模型可以学习如何在语义嵌入空间中表示图像(例如,作为向量)。因此,可以使用对两个向量的距离的测度,其可以表示预测A(第二高维表示)和真实情况B(第一高维表示)。例如,测度是如以下定义的余弦相似度:
Figure BDA0003495177920000181
其中,用预测A和真实情况B的点积除以其相应大小(例如,在L2范数或欧几里德范数中)的点积。
关于用于训练机器学习算法的系统的非训练特定方面的更多细节将结合所提出的理念和/或以上或以下描述的一个或多个示例(例如,图1至图4)进行阐述。
实施例可以基于使用机器学习模型或机器学习算法。机器学习可以是指计算机系统可以在不使用显式指令而是依赖于模型和推理的情况下用来执行特定任务的算法和统计模型。例如,在机器学习中,可以使用从历史和/或训练数据的分析中推断出的数据转换,而不是使用基于规则的数据转换。例如,可以使用机器学习模型或使用机器学习算法来分析图像的内容。为了使机器学习模型分析图像内容,可以使用训练图像作为输入并使用训练内容信息作为输出来训练机器学习模型。通过采用大量训练图像和/或训练序列(例如,单词或句子)以及相关联的训练内容信息(例如,标签或注释)训练机器学习模型,机器学习模型“学习”识别图像的内容,因此可以使用机器学习模型识别未包含在训练数据中的图像的内容。相同的原理也可以用于其他种类的传感器数据:通过使用训练传感器数据和期望的输出来训练机器学习模型,机器学习模型“学习”传感器数据和输出之间的转换,该转换可用于基于提供给机器学习模型的非训练传感器数据而提供输出。
机器学习模型可以使用训练输入数据进行训练。以上详细说明的示例使用被称为“监督学习”的训练方法。在监督学习中,使用多个训练样品来训练机器学习模型,其中每个样品可以包括多个输入数据值和多个期望输出值,即:每个训练样品与期望输出值相关联。通过指定训练样品和期望输出值,机器学习模型基于与训练期间提供的样品相似的输入样品,“学习”提供哪个输出值。除了监督学习之外,还可以使用半监督学习。在半监督学习中,一些训练样品缺少对应的期望输出值。监督学习可以基于监督学习算法、例如分类算法、回归算法或相似度学习算法来进行。当输出被限制为一组有限的值时,可以使用分类算法,即:将输入归类到一组有限的值中的一个值。当输出可以具有任何数值(在某个范围内)时,可以使用回归算法。相似度学习算法可以类似于分类算法和回归算法,但是基于使用测量两个对象的相似或相关程度的相似度函数从示例中进行学习。除了监督或半监督学习之外,还可以使用无监督学习来训练机器学习模型。在无监督学习中,可以(仅)提供输入数据,并且可以使用无监督学习算法来找到输入数据中的结构,例如,通过对输入数据进行分组或聚类,找到数据中的共性。聚类是将包括多个输入值的输入数据分配到子集(聚类)中,从而根据一个或多个(预定义的)相似度标准,同一聚类内的输入值是相似的,但与包含在其他聚类中的输入值不相似。
强化学习是第三组机器学习算法。换言之,强化学习可以用来训练机器学习模型。在强化学习中,训练一个或多个软件参与者(称为“软件代理”)以在环境中采取动作。基于所采取的动作,计算奖励。强化学习基于训练一个或多个软件代理来选择动作,以便增加累积奖励,从而使软件代理在给定的任务中变得更好(如通过不断增加的奖励所证明的)。
此外,一些技术可以应用于一些机器学习算法。例如,可以使用特征学习。换言之,机器学习模型可以至少部分地使用特征学习进行训练,和/或机器学习算法可以包括特征学习成分。特征学习算法(也可以称为表征学习算法(representation learningalgorithm))可以保留其输入中的信息,但也能够以使这些信息变得有用的方式将其转换,这种转换通常作为执行分类或预测之前的预处理步骤。例如,特征学习可以基于主成分分析或聚类分析。
在一些示例中,可以使用异常检测(即离群值检测),其目的在于为与大多数输入或训练数据明显不同而引起猜疑的输入值提供鉴定。换言之,机器学习模型可以至少部分地使用异常检测进行训练,和/或机器学习算法可以包括异常检测成分。
在一些示例中,机器学习算法可以使用决策树作为预测模型。换言之,机器学习模型可以基于决策树。在决策树中,关于某个项目(例如,一组输入值)的观察可以由决策树的分支表示,而与该项目对应的输出值可以由决策树的叶子表示。决策树可以支持离散值和连续值作为输出值。如果使用离散值,则决策树可以指示为分类树,如果使用连续值,则决策树可以指示为回归树。
关联规则是另一种可用于机器学习算法中的技术。换言之,机器学习模型可以基于一个或多个关联规则。关联规则是通过鉴定大量数据中变量之间的关系而创建的。机器学习算法可以鉴定和/或利用一个或多个关系规则,该关系规则表示从数据导出的知识(knowledge)。上述规则可以例如用于存储、操纵或应用该知识。
机器学习算法通常基于机器学习模型。换言之,术语“机器学习算法”可以指示可用于创建、训练或使用机器学习模型的一组指令。术语“机器学习模型”可以指示例如基于由机器学习算法执行的训练表示所学知识的数据结构和/或规则组。在实施例中,机器学习算法的使用可以意味着使用基础机器学习模型(或多个基础机器学习模型)。一个机器学习模型的使用可以意味着机器学习模型和/或作为机器学习模型的数据结构/规则组是由机器学习算法训练的。
例如,机器学习模型可以是人工神经网络(ANN)。ANN是受生物神经网络(诸如可以在视网膜或大脑中找到的生物神经网络)启发的系统。ANN包括多个互连的节点和节点之间的多个连接部,即所谓的边。通常存在三种类型的节点,即:接收输入值的输入节点、(仅)连接至其他节点的隐藏节点、以及提供输出值的输出节点。每个节点可以表示一个人工神经元。每条边都可以将信息从一个节点传输到另一个节点。节点的输出可以定义为其输入的总和的(非线性)函数。节点的输入可以基于边的“权重”或提供输入的节点的“权重”用于上述函数中。在学习过程中可以调整节点和/或边的权重。换言之,人工神经网络的训练可以包括调整人工神经网络的节点和/或边的权重,即针对给定输入实现期望输出。
另选地,机器学习模型可以是支持向量机、随机森林模型或梯度提升模型。支持向量机(即支持向量网络)是具有相关联的学习算法的监督学习模型,该相关联的学习算法可用于例如在分类或回归分析中分析数据。通过为输入提供属于两个类别之一的多个训练输入值,可以对支持向量机进行训练。支持向量机可以训练成为两个类别之一分配新的输入值。另选地,机器学习模型可以是贝叶斯网络(Bayesian network),贝叶斯网络是一种概率有向无环图模型(directed acyclic graphical model)。贝叶斯网络可以使用有向无环图表示一组随机变量及其条件依赖关系。另选地,机器学习模型可以基于遗传算法,该算法是一种模仿自然选择的过程的检索算法和启发式技术。
如本文所用,术语“和/或”包含一个或多个相关联的所列项目的任一和所有组合,并且可以缩写为“/”。
尽管已经在装置的情景下描述了一些方面,但显而易见的是,这些方面也表示对相应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的情景下描述的一些方面也表示对相应装置的相应的块或项目或特征的描述。方法步骤中的一些或全部步骤可以由(或使用)硬件装置(如,例如处理器、微处理器、可编程计算机或电子电路)执行。在一些实施例中,某一个或多个最重要的方法步骤可以由这样的装置执行。
依据某些实施要求,本发明的实施例可以以硬件或软件实施。上述实施可以使用诸如其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光光碟(Blu-Ray)、CD、ROM、PROM和EPROM、EEPROM或FLASH存储器)之类的非暂时性存储介质执行,这些电子可读控制信号与可编程计算机系统协作(或能够协作)从而执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,这些电子可读控制信号能够与可编程计算机系统协作,从而执行本文所述的方法之一。
通常,本发明的实施例可以实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,程序代码可操作用于执行其中一种方法。例如,程序代码可以存储在机器可读载体上。例如,计算机程序可以存储在非暂时性存储介质上。一些实施例涉及一种包含机器可读指令的非暂时性存储介质,当机器可读指令被执行时,以实施根据所提出的理念或上述一个或多个示例的方法。
其他实施例包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。
换言之,本发明的实施例因此是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文描述的方法之一。
因此,本发明的另一个实施例是一种存储介质(或数据载体,或计算机可读介质),该存储介质包括其上存储的计算机程序,该计算机程序在其由处理器执行时用于执行本文描述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非过渡性的。本发明的另一个实施例是如本文所述的装置,该装置包括处理器和存储介质。
因此,本发明的另一个实施例是数据流或信号序列,该数据流或信号序列表示用于执行本文描述的方法之一的计算机程序。该数据流或信号序列例如可以配置为经由数据通信连接(例如,经由互联网)进行传输。
另一个实施例包括处理器件,例如,计算机或可编程逻辑设备,该处理器件配置为或适合于执行本文描述的方法之一。
另一个实施例包括计算机,在该计算机上安装有用于执行本文描述的方法之一的计算机程序。
根据本发明的另一个实施例包括一种装置或系统,该装置或系统配置为向接收器传送(例如,以电子方式或光学方式传送)用于执行本文描述的方法之一的计算机程序。该接收器例如可以是计算机、移动设备、存储设备等。该装置或系统例如可以包括用于向接收器传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑设备(例如,现场可编程门阵列)可用于执行本文描述的方法中的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文描述的方法之一。通常,这些方法优选地由任何硬件装置执行。
附图标记列表
100 用于处理生物学相关数据的系统
107 基于生物学相关图像的输入数据
109 基于生物学相关语言的输出数据
110 一个或多个处理器
120 一个或多个存储设备
200 用于处理生物学相关数据的系统
201 存储库
210 第一模型
220 经预训练的视觉模型
230 语义嵌入;高维表示
240 经预训练的视觉模型;经训练的视觉识别机器学习算法
250 文本模型;经训练的语言识别机器学习算法
260 数据库
300 用于处理生物学相关数据的系统
310 显微镜
320 计算机设备
400 用于处理基于生物学相关图像的输入数据的方法
410 获取基于生物学相关图像的输入数据
420 生成高维表示
430 存储或输出中的至少一种。

Claims (25)

1.一种系统(100、200),该系统包括一个或多个处理器(110)和一个或多个存储设备(120),其中,所述系统(100)配置为:
获取基于生物学相关图像的输入数据(107);
通过由所述一个或多个处理器(110)执行的经训练的视觉识别机器学习算法(220),生成所述基于生物学相关图像的输入数据(107)的高维表示(230),其中,所述高维表示(230)包括至少3个条目,每个条目具有不同的值;
执行下列中的至少一项:
通过所述一个或多个存储设备(120)将所述基于生物学相关图像的输入数据(107)的所述高维表示(230)与所述基于生物学相关图像的输入数据(107)一起存储;或者
输出与所述高维表示(230)对应的基于生物学相关语言的输出数据(109)。
2.根据权利要求1所述的系统,其中,所述基于生物学相关图像的输入数据(107)是以下中的至少一种的图像的图像数据:包括核苷酸序列的生物结构;包括蛋白质序列的生物结构;生物分子;生物组织;具有特定行为的生物结构;或具有特定生物学功能或特定生物活性的生物结构。
3.根据前述权利要求中任一项所述的系统,其中,所述高维表示(230)的一个或多个条目的值与存在特定生物学功能或特定生物活性的可能性成比例。
4.根据前述权利要求中任一项所述的系统,其中,所述基于生物学相关语言的输出数据(109)是以下中的至少一种:核苷酸序列;蛋白质序列;对生物分子或生物结构的描述;对生物分子或生物结构的行为的描述;或者对生物学功能或生物活性的描述。
5.根据前述权利要求中任一项所述的系统,该系统还包括显微镜,该显微镜配置为通过拍摄生物样本的图像来获取所述基于生物学相关图像的输入数据(107)。
6.根据前述权利要求中任一项所述的系统,其中,所述高维表示(230)为数字表示。
7.根据前述权利要求中任一项所述的系统,其中,所述高维表示(230)包括100个以上的维度。
8.根据前述权利要求中任一项所述的系统,其中,所述高维表示(230)是向量。
9.根据前述权利要求中任一项所述的系统,其中,所述高维表示(230)的所述条目的50%以上的值不等于0。
10.根据前述权利要求中任一项所述的系统,其中,所述高维表示(230)的5个以上的条目的值比所述高维表示(230)的条目的最大绝对值大10%。
11.根据前述权利要求中任一项所述的系统,其中,所述经训练的视觉识别机器学习算法(220)包括经训练的视觉识别神经网络。
12.根据权利要求11所述的系统,其中,所述经训练的视觉识别神经网络包括30个以上的层。
13.根据权利要求11或12所述的系统,其中,所述经训练的视觉识别神经网络为卷积神经网络或胶囊网络。
14.根据权利要求11、12或13所述的系统,其中,所述经训练的视觉识别神经网络包括多个卷积层和多个池化层。
15.根据权利要求11至14中任一项所述的系统,其中,所述经训练的视觉识别神经网络使用修正线性单元激活函数。
16.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为通过由所述一个或多个处理器(110)执行的经训练的语言识别机器学习算法(250)的解码器,根据所述高维表示(230)来确定所述基于生物学相关语言的输出数据(109)。
17.根据权利要求16所述的系统,其中,所述基于生物学相关语言的输出数据(109)是由所述经训练的语言识别机器学习算法(250)训练的词汇的条目。
18.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为:
获取多个基于生物学相关图像的数据集;
通过由所述一个或多个处理器(110)执行的所述经训练的视觉识别机器学习算法(220),针对所述多个基于生物学相关图像的数据集的每个基于生物学相关图像的输入数据集生成单独的高维表示;
执行下列各项中的至少一项:通过所述一个或多个存储设备(120)将所述单独的高维表示与对应的基于生物学相关图像的输入数据集一起存储;或者输出与所述单独的高维表示对应的基于生物学相关语言的输出数据集。
19.根据权利要求18所述的系统,其中,所述系统(100)配置为:
接收基于生物学相关语言的检索数据;
通过由所述一个或多个处理器(110)执行的经训练的语言识别机器学习算法(250),生成所述基于生物学语言的检索数据(101)的高维表示;
将所述基于生物学相关语言的检索数据的所述高维表示与所述多个基于生物学相关图像的数据集的所述单独的高维表示进行比较;以及
根据所述比较输出所述多个基于生物学相关图像的数据集中的一个基于生物学相关图像的数据集。
20.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为基于所述基于生物学相关图像的输入数据(107),从多个经训练的视觉识别机器学习算法中选择所述经训练的视觉识别机器学习算法(220)。
21.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为:
从多个经训练的视觉识别机器学习算法中选择用于生成所述第一高维表示(230)的第一经训练的视觉识别机器学习算法(220);
从所述多个经训练的视觉识别机器学习算法中选择第二经训练的视觉识别机器学习算法;
通过由所述一个或多个处理器(110)执行的所述第二经训练的视觉识别机器学习算法,生成所述基于生物学相关图像的输入数据(107)的第二高维表示,其中,所述第二高维表示包括至少3个条目,每个条目具有不同的值;以及
执行下列各项中的至少一项:通过所述一个或多个存储设备(120)将所述基于生物学相关图像的输入数据(107)的所述第二高维表示与所述第一高维表示(230)和所述基于生物学相关图像的输入数据(107)一起存储;或者输出与所述第二高维表示对应的第一基于生物学相关语言的输出数据和第二基于生物学相关语言的输出数据。
22.根据前述权利要求中任一项所述的系统,其中,所述系统(100)配置为控制显微镜(310)的操作。
23.一种显微镜,该显微镜包括前述权利要求中任一项所述的系统。
24.一种用于处理基于生物学相关图像的输入数据的方法(400),所述方法包括:
获取(410)基于生物学相关图像的输入数据;
通过经训练的视觉识别机器学习算法,生成(420)所述基于生物学相关图像的输入数据的高维表示,其中,所述高维表示包括至少3个条目,每个条目具有不同的值;以及
执行(430)下列各项中的至少一项:将所述基于生物学相关图像的输入数据的所述高维表示与所述基于生物学相关图像的输入数据一起存储;或者输出与所述高维表示对应的基于生物学相关语言的输出数据。
25.一种具有程序代码的计算机程序,当所述程序由处理器执行时,所述程序代码用于执行根据权利要求24所述的方法。
CN201980099041.1A 2019-06-07 2019-06-07 用于处理生物学相关数据的系统和方法及显微镜 Pending CN114391162A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/064971 WO2020244776A1 (en) 2019-06-07 2019-06-07 System and method for processing biology-related data and a microscope

Publications (1)

Publication Number Publication Date
CN114391162A true CN114391162A (zh) 2022-04-22

Family

ID=66857881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980099041.1A Pending CN114391162A (zh) 2019-06-07 2019-06-07 用于处理生物学相关数据的系统和方法及显微镜

Country Status (5)

Country Link
US (1) US20220254177A1 (zh)
EP (1) EP3980920A1 (zh)
JP (1) JP7346603B2 (zh)
CN (1) CN114391162A (zh)
WO (1) WO2020244776A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063635A (zh) * 2022-06-23 2022-09-16 澜途集思生态科技集团有限公司 基于DetNAS算法的生态生物识别方法
CN115457548B (zh) * 2022-09-19 2023-06-16 清华大学 冷冻电镜中的高分辨率密度图配准方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013201909A (ja) * 2012-03-27 2013-10-07 National Institute Of Advanced Industrial Science & Technology 細胞画像判定装置、方法、並びにプログラム
US8995740B2 (en) * 2013-04-17 2015-03-31 General Electric Company System and method for multiplexed biomarker quantitation using single cell segmentation on sequentially stained tissue
US10866984B2 (en) * 2015-08-03 2020-12-15 Orand S.A. Sketch-based image searching system using cell-orientation histograms and outline extraction based on medium-level features
US10049450B2 (en) * 2015-12-03 2018-08-14 Case Western Reserve University High-throughput adaptive sampling for whole-slide histopathology image analysis
US9971966B2 (en) * 2016-02-26 2018-05-15 Google Llc Processing cell images using neural networks
EP3432784B1 (en) * 2016-03-24 2020-09-23 The Regents of The University of California Deep-learning-based cancer classification using a hierarchical classification framework
WO2018091486A1 (en) * 2016-11-16 2018-05-24 Ventana Medical Systems, Inc. Convolutional neural networks for locating objects of interest in images of biological samples
US10573003B2 (en) * 2017-02-13 2020-02-25 Amit Sethi Systems and methods for computational pathology using points-of-interest
US10769501B1 (en) * 2017-02-15 2020-09-08 Google Llc Analysis of perturbed subjects using semantic embeddings
US10282589B2 (en) * 2017-08-29 2019-05-07 Konica Minolta Laboratory U.S.A., Inc. Method and system for detection and classification of cells using convolutional neural networks
US10846367B2 (en) * 2017-09-15 2020-11-24 Case Western Reserve University University Predicting recurrence in early stage non-small cell lung cancer (NSCLC) with integrated radiomic and pathomic features
US10496884B1 (en) * 2017-09-19 2019-12-03 Deepradiology Inc. Transformation of textbook information
US10740896B2 (en) * 2017-12-29 2020-08-11 Leica Biosystems Imaging, Inc. Processing of histology images with a convolutional neural network to identify tumors
US10902591B2 (en) * 2018-02-09 2021-01-26 Case Western Reserve University Predicting pathological complete response to neoadjuvant chemotherapy from baseline breast dynamic contrast enhanced magnetic resonance imaging (DCE-MRI)
JP2018125019A (ja) * 2018-03-27 2018-08-09 エルピクセル株式会社 画像処理装置及び画像処理方法
JP7126864B2 (ja) * 2018-05-25 2022-08-29 キヤノンメディカルシステムズ株式会社 医用信号処理装置及び学習プログラム
US11011265B2 (en) * 2018-06-28 2021-05-18 Case Western Reserve University Predicting prostate cancer risk of progression with multiparametric magnetic resonance imaging using machine learning and peritumoral radiomics
US11087864B2 (en) * 2018-07-17 2021-08-10 Petuum Inc. Systems and methods for automatically tagging concepts to, and generating text reports for, medical images based on machine learning
JP7270058B2 (ja) * 2019-03-12 2023-05-09 エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト 予測的組織パターン特定のためのマルチプルインスタンスラーナ
US20240054384A1 (en) * 2020-07-31 2024-02-15 Meta Platforms, Inc. Operation-based partitioning of a parallelizable machine learning model network on accelerator hardware

Also Published As

Publication number Publication date
WO2020244776A1 (en) 2020-12-10
US20220254177A1 (en) 2022-08-11
JP7346603B2 (ja) 2023-09-19
EP3980920A1 (en) 2022-04-13
JP2022542753A (ja) 2022-10-07

Similar Documents

Publication Publication Date Title
JP7443401B2 (ja) 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム
Jeckel et al. Advances and opportunities in image analysis of bacterial cells and communities
Savojardo et al. DeepSig: deep learning improves signal peptide detection in proteins
Sekhon et al. DeepDiff: DEEP-learning for predicting DIFFerential gene expression from histone modifications
Nadif et al. Unsupervised and self-supervised deep learning approaches for biomedical text mining
Albahra et al. Artificial intelligence and machine learning overview in pathology & laboratory medicine: A general review of data preprocessing and basic supervised concepts
Hong et al. DTranNER: biomedical named entity recognition with deep learning-based label-label transition model
Ieremie et al. TransformerGO: predicting protein–protein interactions by modelling the attention between sets of gene ontology terms
Viñas et al. Adversarial generation of gene expression data
Yu et al. iDNA-ABT: advanced deep learning model for detecting DNA methylation with adaptive features and transductive information maximization
Arowolo et al. A survey of dimension reduction and classification methods for RNA-Seq data on malaria vector
CN114972222A (zh) 细胞信息统计方法、装置、设备及计算机可读存储介质
JP7346603B2 (ja) 生物学関連のデータを処理するためのシステムおよび方法ならびに顕微鏡
Sanchez-Fernandez et al. CLOOME: contrastive learning unlocks bioimaging databases for queries with chemical structures
US11960518B2 (en) System and method for processing biology-related data, a system and method for controlling a microscope and a microscope
US20220245188A1 (en) A system and method for processing biology-related data, a system and method for controlling a microscope and a microscope
Rahman et al. IDMIL: an alignment-free Interpretable Deep Multiple Instance Learning (MIL) for predicting disease from whole-metagenomic data
George et al. Significance of global vectors representation in protein sequences analysis
Yang et al. AnnoFly: annotating Drosophila embryonic images based on an attention-enhanced RNN model
Jeong et al. Consistency enhancement of model prediction on document-level named entity recognition
EP4116869A1 (en) A method and an apparatus for predicting a future state of a biological system, a system and a computer program
Pan et al. Predicting protein subcellular location using learned distributed representations from a protein-protein network
WO2020244777A1 (en) A system and method for generating a biology-related image-based output data set of a typical image of a biological structure and a system and method for training a generative adversarial network
EP4273608A1 (en) Automatic acquisition of microscopy image sets
Islam et al. Deep Multi-Modal Approach for Protein Function Prediction and Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination