CN116843995A - 细胞影像学预训练模型构建方法和装置 - Google Patents

细胞影像学预训练模型构建方法和装置 Download PDF

Info

Publication number
CN116843995A
CN116843995A CN202310788070.7A CN202310788070A CN116843995A CN 116843995 A CN116843995 A CN 116843995A CN 202310788070 A CN202310788070 A CN 202310788070A CN 116843995 A CN116843995 A CN 116843995A
Authority
CN
China
Prior art keywords
training
data
image
cell image
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310788070.7A
Other languages
English (en)
Inventor
成昊
丁彦
于文龙
顾忠泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Institute Of Sports Health
Original Assignee
Jiangsu Institute Of Sports Health
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Institute Of Sports Health filed Critical Jiangsu Institute Of Sports Health
Priority to CN202310788070.7A priority Critical patent/CN116843995A/zh
Publication of CN116843995A publication Critical patent/CN116843995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种细胞影像学预训练模型构建方法和装置,属于细胞影像学领域。提出一种细胞影像学预训练模型构建方法,包括图像重建、图像匹配、图像‑组学数据对齐、图像‑活性数据对齐四个任务,涉及多模态学习、预训练模型、低资源微调方法,通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能,从而缓解大型预训练模型的训练成本。

Description

细胞影像学预训练模型构建方法和装置
技术领域
本申请实施例涉及细胞影像学领域,特别涉及一种细胞影像学预训练模型构建方法和装置。
背景技术
细胞影像学是生物医学领域中的研究分支之一,它可以帮助科学家更好地了解细胞的结构和功能,探索生物体的发育和疾病机制。深度学习模型的不断完善、互联网海量真实数据的积累和生成式预训练的广泛应用,使得人工智能模型在自然语言理解、语音处理、计算机视觉等领域地交叉应用取得显著进展。基于深度学习的多模态预训练模型研究在增强细胞影像分析能力,疾病的早期诊断和治疗,提高药物研发效率等领域的意义日益凸显。预训练模型起源于自然语言处理领域的语言模型,是一种在大规模文本数据上进行训练的人工智能模型。这些模型使用深度学习技术,如变换器(Transformer)架构,通过自监督学习的方式来预测文本中的下一个词或填充缺失的部分,从而学习语言的上下文和语义关系。预训练模型通常会在大量的互联网文本数据上进行预训练,这些数据可以包括维基百科、新闻文章、书籍、论坛帖子等等。通过对这些数据进行大规模训练,预训练模型可以学习到丰富的语言知识和通用的语义理解能力。一旦预训练完成,这些模型可以用于各种自然语言处理任务,如问答系统、机器翻译、文本摘要、对话系统等。在进行特定任务的微调训练时,预训练模型会在具有标注数据的任务数据上进行训练,以适应特定任务的要求。预训练模型的好处在于它们能够通过大规模的文本数据来获取语言知识,并在各种任务中展示出强大的语义理解和生成能力。
然而,它们也存在一些限制,例如对于特定领域的专业知识可能不够准确,以及在处理敏感信息或有歧义的文本时可能存在一定的风险。总体而言,预训练模型为各种自然语言处理任务提供了强大的基础,并且随着技术的不断进步,预训练模型的性能和应用领域也在不断扩展和改进。是一个通过大量数据进行无监督或者弱监督训练并被保存下来的网络。当我们遇到新的问题时,便不再需要从零开始训练新模型,而可以直接用这个已有的网络入手,进行简单的学习便可解决该新问题。近年来,融合计算机视觉和自然语言处理方向的多模态深度学习也越来越受到关注,在基于图像和视频的字幕生成、视觉问答(VQA)、视觉对话、基于文本的图像生成等方面研究成果显著。多模态模型是一种可以处理多种输入模态(例如图像、文本、语音等)的人工智能模型。它们能够从不同的感知来源中获取信息,并将这些信息结合起来进行综合分析和理解。在传统的自然语言处理任务中,通常只使用文本数据作为输入。但是,在现实世界中,我们经常会遇到多种信息来源的情况,例如在图像描述生成中,需要同时理解图像内容和相关的文本描述。这就需要多模态模型能够处理不同模态的数据,并进行跨模态的信息融合和学习。多模态模型的设计可以基于预训练模型的思想。例如,可以使用预训练的文本模型(如BERT、GPT等)和预训练的图像模型(如卷积神经网络)作为基础,然后将它们连接起来,通过联合训练来学习跨模态的表示和关联。这种方法可以使模型能够从多个模态中提取特征,并在不同模态之间建立语义联系。
然而,构建和训练针对垂直领域的多模态模型也面临一些挑战,包括数据的标注、特征融合、模态不平衡等问题。因此,研究者们一直在努力改进多模态模型的性能和鲁棒性,并探索更有效的跨模态表示和联合训练方法。总而言之,多模态模型能够为我们提供有效的图文交互手段,是智能医疗通过图像诊断的重要基石。当下应用在生物医药领域的深度学习模型,大多使用某一特定任务的有标签数据进行训练(例如息肉分割、药效预测等),但是随着领域数据不断增多,任务需求不断精细,当前有标签数据难以满足模型需求,而新的标注需求带来的是更专业、工作量更大的人力成本。
所以,将多模态学习与预训练模型运用在生物医药领域,充分利用日积月累的领域无监督数据,是目前火热的研究方向之一。然而,此类模型参数动辄百万级别,需要成百上千的GPU集群进行训练,使得开发成本骤升,普通研究人员无法获得充足的训练资源,此类模型成为只有大企业能够参与研究的方向。
发明内容
本申请实施例提供了一种细胞影像学预训练模型构建方法,所述技术方案如下:
一方面,提供了一种细胞影像学预训练模型构建方法,所述方法适用于多模态学习场景,所述方法包括:
获取训练细胞影像与对应的组学数据和活性数据,并输入预训练模型;
在训练过程中,通过处理方式转换器对数据类型的输入进行传输;
通过目标编码方式对所述训练细胞影像进行编码,得到重建细胞影像,所述目标编码方式通过对比所述训练细胞影像的降维信息与KDBE编码降维信息得到,所述重建细胞影像保持所述训练细胞影像的语义;
对组合数据对进行对比学习,编码后输入前馈神经网络,预测匹配的概率分布,所述组合数据对包括细胞明场图与荧光图数据对、细胞影像与组学数据数据对和细胞影像与活性数据对;
根据所述匹配的概率分布得到所述组合数据对的数据匹配结果;
根据所述数据匹配结果继续训练所述预训练模型。
可选的,在所述预训练模型中引入低秩分解矩阵,同时固定住预训练权重,所述低秩分解矩阵用于模拟降维与升维;
通过所述低秩分解矩阵训练降维矩阵与升维矩阵,输出结果与所述预训练模型的参数叠加。
可选的,所述获取训练数据之前,所述方法还包括:
收集细胞影像数据;
对所述细胞影像数据进行预处理与数据清洗,得到所述训练细胞影像。
可选的,所述对所述细胞影像数据进行预处理与数据清洗,得到所述训练细胞影像,包括:
对所述细胞影像数据进行高斯滤波与图像归一化处理,得到平滑图像;
按照独立细胞规格对所述平滑图像进行分割,得到初始训练细胞影像;
基于评估标准对所述初始训练细胞影像进行异常值检测与调整,得到所述训练细胞影像。
可选的,在所述预训练模型中引入教师模型,所述教师模型用于训练视觉编码器。
可选的,所述通过目标编码方式对所述训练细胞影像进行编码,得到重建细胞影像,包括:
将所述训练细胞影像分割为若干相同大小的图像块;
随机选取少量图像块将所述训练细胞影像掩盖,得到掩码图片数据;
通过预设编码方式对所述掩码图片数据进行编解码;
从所述预设编码方式中确定出最优编码方式;
在所述最优编码方式下对所述训练细胞影像进行重建,得到所述重建细胞影像。
可选的,所述对组合数据对进行对比学习,编码后输入前馈神经网络,预测匹配的概率分布,包括:
构造所述组合数据对的正样本对和负样本对;
将计算所述正样本对和负样本对编码后的余弦相似度输入前馈神经网络,预测匹配的概率分布。
另一方面,提供了一种细胞影像学预训练模型构建装置,所述装置适用于多模态学习场景,所述装置包括:
数据获取模块,用于获取训练细胞影像与对应的组学数据和活性数据,并输入预训练模型;
转换传输模块,用于在训练过程中,通过处理方式转换器对数据类型的输入进行传输;
影像重建模块,用于通过目标编码方式对所述训练细胞影像进行编码,得到重建细胞影像,所述目标编码方式通过对比所述训练细胞影像的降维信息与KDBE编码降维信息得到,所述重建细胞影像保持所述训练细胞影像的语义;
对比学习模块,用于对组合数据对进行对比学习,编码后输入前馈神经网络,预测匹配的概率分布,所述组合数据对包括细胞明场图与荧光图数据对、细胞影像与组学数据对和细胞影像与活性数据对;
数据匹配模块,用于根据所述匹配的概率分布得到所述组合数据对的数据匹配结果;
模型训练模块,用于根据所述数据匹配结果继续训练所述预训练模型。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面所述的细胞影像学预训练模型构建方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如上述方面所述的细胞影像学预训练模型构建方法。
另一方面,还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述方面所述的细胞影像学预训练模型构建方法。
本申请实施例中,提出一种细胞影像学预训练模型构建方法,包括图像重建、图像匹配、图像-组学数据对齐、图像-活性数据对齐四个任务,涉及多模态学习、预训练模型、低资源微调方法,通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能,从而缓解大型预训练模型的训练成本。
附图说明
图1示出了本申请一示例性实施例提供的细胞影像学预训练模型构建方法的流程图;
图2示出了本申请一示例性实施例提供的模型训练过程示意图;
图3示出了本申请一示例性实施例提供的最优编码方式确定的流程示意图;
图4分别示出了多模态学习以及图像匹配与多模态对齐任务的流程示意图;
图5示出了本申请一个实施例提供的细胞影像学预训练模型构建装置的模块示意图;
图6示出了本申请一个实施例提供的服务器600的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
实施例1
请参考图1,其示出了本申请一示例性实施例提供的细胞影像学预训练模型构建方法的流程图。该方法包括:
步骤101,获取训练细胞影像与对应的组学数据和活性数据,并输入预训练模型。
在细胞学影像领域,构建细胞影像样本库用于提供训练细胞影像。细胞影像样本库存储不同来源的肿瘤类器官样本,包括由脱敏处理后临床样本原代提取的肿瘤类器官,从其他样本库获得的类器官样本,从干细胞诱导分化的特定类型的肿瘤类器官,细胞系构建的类器官,开源数据库和文献等多种细胞影像来源。
对于开源数据以及其本身所对应的文献来源,相应分别提取出此文献的主要作者与其相对应的H指数(H-index),发表平台与其相对应的影响分数(Impact Score),以及此文献的总被引用次数作为评估指标,根据传统学术领域的文献评估方法来构造出一套有效且直观的数据可靠性与质量评估系统。
在一种可能的实施方式中,步骤101中的训练细胞影像为细胞影像样本库中经过预处理与数据清洗后的训练样本,具体过程通过实施例2展开描述。
经过预处理和数据清洗之后,得到大量的训练细胞影像,其中聚集体图像占2%,器官芯片约占6%(明场与荧光图像各3%),其余图像均为类器官图像。涵盖了人类血液,骨骼,肝脏,结直肠,神经等组织器官,小鼠器官,并得到相应的组学数据和活性数据。
示例性的,组学数据可以是细胞的基因组学、转录组学、蛋白质组学、代谢组学数据,比如细胞遗传物质中某些基因的转录水平数据(FPKM),蛋白质丰度数据(LFQ);活性数据可以是细胞存活率,凋亡率等,本申请实施例对此不作限定。
本申请提出基于多模态学习的低资源预训练模型训练方法,训练可适应下游生物医学领域任务的模型,如图2所示,整体流程分为四个任务,包括图像重建、图像匹配、图像-组学数据对齐、图像-活性数据对齐,涉及多模态学习、预训练模型、低资源微调方法三个技术点。
对于图2中的英文描述为通用性描述,根据现有的学习知识,其中,英文注释包括如下。
Multi-Modal Pretrained model,多模态预训练模型;
LORA,低秩自适应方法;
Task-specific model,将预训练模型作为编码器,进行输入数据的特征编码,再将特征编码传入下游任务模型做特定任务,记为task-specific model。
步骤102,在训练过程中,通过处理方式转换器对数据类型的输入进行传输。
不同于传统的单模态学习模型并局限于使用单一类型的数据,多模态学习作为深度学习的一个分支,在模型训练的过程中拥有着同时处理多种不同类型如图像,文本,音频的数据的能力。而在不同的数据类型提供着不同的信息的情况下,使用多模态模型可以有效地突破数据局限性,不但可以捕捉特定模态数据所独有的信息,同时也能学习不同模态数据之间的关系,并组合使用。多模态模型往往以多个针对不同数据类型的单模态模型组合而成,在独立处理完各自的模态数据并提取出相对应信息之后,这些信息将被聚合并用于之后的模型训练。
采用Multiway Transformer,内部含有一个处理方式转换器,分别对应图像、表格数据、数据对,可使用统一的架构传输不同类型的数据。该结构使得模型不仅仅在多模态下游任务中表现优良,在传统单模态下游任务中性能达到领先水平。
步骤103,通过目标编码方式对训练细胞影像进行编码,得到重建细胞影像。
目标编码方式通过对比训练细胞影像的降维信息与KDBE编码降维信息得到,重建细胞影像保持训练细胞影像的语义。
在一种可能的实施方式中,步骤103包括步骤3.1至步骤3.5。
步骤3.1,将训练细胞影像分割为若干相同大小的图像块。
步骤3.2,随机选取少量图像块将训练细胞影像掩盖,得到掩码图片数据。
步骤3.3,通过预设编码方式对掩码图片数据进行编解码。
步骤3.4,从预设编码方式中确定出最优编码方式。
步骤3.5,在最优编码方式下对训练细胞影像进行重建,得到重建细胞影像。
在一个示例中,对于计算机视觉方向的预训练方法,首先采用codebook编码方式,该编码来源于使用训练过的矢量量化-知识蒸馏算法(Vector-quantized KnowledgeDistillation,VQ-KD)的训练,其本质是某种特定类型的图片的参数,同一个编码本中可以有不同的参数。在与其并行的流程中,我们将其分割为若干相同大小的图像块,随机选取少量图像块,将其掩盖,得到掩码图片数据,随后,我们通过与已有的codebook作运算,选出结果最为合理的编码方式来重建,得到去除掩码的重建图像。流程如图3所示,其中,MaskedImage Modeling Head指代掩码图像建模的编码输出层。
在一种可能的实施方式中,通过如下方式确定出最优编码方式。首先对分割的图像块进行编码操作,得到的向量与codebook中的向量计算L2范数,获得最大L2的codebook的指数作为图像块的指数,从而将该获得最大L2对应的图像块的编码方式确定为最优编码方式。
在上述流程中,KDBE(Knowledge Distillation Based Encoder)同样来源于使用训练过的矢量量化-知识蒸馏算法(Vector-quantized Knowledge Distillation,VQ-KD)。需要注意的是,编码本并不改变编码器和解码器的计算过程,其作用在于使用编码本中已有编码方式处理图像,得到降维信息并与当前通过KDBE编码的经过降维的信息作对比,从而从编码本选出最合适的编码用于重建图像。
通过将掩码图像的分块编码和解码,我们就得到了一张重建过的,去除掩码的图像,需要注意的是,由于是通过已有的编码方式来编解码图像,所以图像本身并不清晰,或者可能丢失了大部分的细节信息,但是所得结果仍然保持着原图片的语义,或者说,重建后的图像是适用于多模态模型的。
步骤104,对组合数据对进行对比学习,编码后输入前馈神经网络,预测匹配的概率分布。
组合数据对包括细胞明场图与荧光图数据对、细胞影像与组学数据数据对和细胞影像与活性数据对。
在一种可能的实施方式中,步骤104包括步骤4.1至步骤4.2。
步骤4.1,构造组合数据对的正样本对和负样本对。
步骤4.2,将计算所述正样本对和负样本对编码后输入前馈神经网络,预测匹配的概率分布。
步骤105,根据匹配的概率分布得到组合数据对的数据匹配结果。
步骤106,根据数据匹配结果继续训练预训练模型。
在一个示例中,对比学习(Contrastive Learning)是一种自监督学习方法,通过比较数据样本的不同视角或变换形式,学习得到数据的有意义表示。对比学习的目标是通过最大化正样本对的相似性并最小化负样本对的相似性来推动表示学习。对比学习的基本思想是构造正样本对和负样本对,并设计一个损失函数来衡量它们之间的相似性。正样本对包含来自同一样本的不同视角或变换形式的数据,而负样本对则包含来自不同样本的数据。通常,这些样本对会通过数据增强技术(如随机裁剪、颜色变换等)生成。
在训练过程中,对比学习模型通过学习将正样本对的表示在表示空间中拉近,并将负样本对的表示推开。这样,相似的样本在表示空间中会更加接近,而不相似的样本会更加远离。这种学习方式可以帮助模型学习到数据的共享特征和结构,从而得到更有用的表示。
图4的(a)和(b)分别示出了多模态学习以及图像匹配与多模态对齐任务的流程示意图。
在图像匹配和多模态对齐的任务当中,我们采用该思想进行表格数据和图像数据的对比学习,针对细胞明场图与荧光图数据对、细胞影像与组学数据数据对和细胞影像与活性数据对,构造正负样本,对不用类型数据进行Multiway Transformer,编码后输入前馈神经网络,预测匹配的概率分布,使得相匹配的数据对相似度最大,不匹配的数据对相似度最小。
实施例2
此外,为得到与训练模型更为匹配的训练数据,获取训练数据之前,方法还包括:
步骤201,收集细胞影像数据。
步骤202,对细胞影像数据进行预处理与数据清洗,得到训练细胞影像。
与人类不同,图像在机器学习模型中往往以一组独立像素点或向量来表示。在这种情况下,针对细胞影像数据的数据清洗与预处理将起到图像增强的作用并赋予学习模型提取隐藏信息的能力,有效增强了深度学习模型的整体表现。数据清洗和预处理分为以下几点。
(1)对细胞影像数据进行高斯滤波与图像归一化处理,得到平滑图像。
图像分析基于细胞影像低分辨率的特点,我们首先对数据进行高斯滤波与图像归一化从而消除噪声并增强像素值来达到平滑图像,使细胞边界清晰。
(2)按照独立细胞规格对平滑图像进行分割,得到初始训练细胞影像。
随后,我们对图像进行分割,将含有多个独立细胞区域的图像分割为多个独立细胞区域的小图像作为训练数据。在这一步当中,现有的边缘识别算法在针对细胞影像数据展现出较差的泛化效果,我们采用自适应阈值分割算法对于明场图像能起到较好的分割效果。
(3)基于评估标准对初始训练细胞影像进行异常值检测与调整,得到训练细胞影像。
图像质量控制对于经过切割而得到的小型图像,由于原有图像质量与算法本身的局限性,存在大量的不清晰的,未被分割的,部分可视的,或者细胞大小极小的图像。这些低质量的图像往往含有大量的异常值,与噪声和信息丢失的影响叠加,会对模型的预训练产生例如偏差值增大的不利的影响。为了有效的过滤掉这些无效的小型图像,我们首先通过图像大小,像素值的方差,熵值作为图片信息包含量的评估标准而去除模糊,较小或低效的图。在考虑到整体的复杂的情况下,我们之后运用了相对简单却有效的PCA(principalcomponent analysis,主成分分析)作为无模型异常值检测的方法从而更进一步的去除异常值以便于数据集的整合。
(4)特征提取与处理和数据降维.
基于预训练模型的工作原理与性质,这两项均已包含在编码器的训练与预训练模型过程,固不需要额外的处理手段。
实施例3
可选的,在预训练模型中引入低秩分解矩阵。同时固定住预训练权重,低秩分解矩阵用于模拟降维与升维。通过低秩分解矩阵训练降维矩阵与升维矩阵,输出结果与多预训练模型的参数叠加。
大公司或者研究机构,都是有足够资源的来开发大型多模态模型,但是对于一般的小公司或者个人来说,要想开发自己的大模型几乎不可能,所以需要使用微调模型来得到较为合适的模型参数。
目前主流的方法包括2019年Houlsby N等人提出的Adapter Tuning,斯坦福提出的Prefix-Tuning,谷歌提出的Prompt Tuning,2022年清华提出的P-tuning v2。然而这些方法都有各自的一些问题:Adapter Tuning增加了模型层数,引入了额外的推理延迟。Prefix-Tuning难于训练,且预留给Prompt的序列挤占了下游任务的输入序列空间,影响模型性能。P-tuning v2很容易导致旧知识遗忘,微调之后的模型,在之前的问题上表现明显变差。
我们使用低秩自适应方法(LORA)缓解或解决上述问题,并且不会引入额外的物理延迟,在保证模型质量的同时显著减少下游任务的可训练参数量。低秩自适应方法得益于前人的一些关于内在维度(intrinsic dimension)的发现:模型是过参数化的,它们有更小的内在维度,模型主要依赖于这个低的内在维度(low intrinsic dimension)去做任务适配。所以,在对于大参数量的模型来说,任务适配过程中权重的改变量是低秩(low rank)的,我们通过优化适应过程中密集层变化的秩分解矩阵,来间接训练神经网络中的一些密集层,同时保持预先训练的权重不变。
具体原理为在原始多模态预训练模型旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsic rank。训练的时候固定多模态预训练模型的参数,只训练降维矩阵与升维矩阵。而模型的输入输出维度不变,输出时将与多模态预训练模型的参数叠加。
用随机高斯分布初始化A,用0矩阵初始化B,保证训练的开始此旁路矩阵依然是0矩阵。
假设要在下游任务微调一个预训练语言模型(如GPT-3),则需要更新预训练模型参数,公式表示如下:W=W0+△W,上式是预训练模型初始化的参数,△W就是需要更新的参数。如果是全参数微调,则它的参数量是W=W0(如果是GPT-3,则这个数字是1750亿)。从这可以看出要全参数微调大语言模型,代价是非常高的。而对于LORA来说,只需要微调△W。
具体来看,假设预训练的矩阵为W0∈Rd*k,它的更新可表示为:W0+△W=W0+BA,A∈Rr*k,B∈Rd*r,其中秩r<<min(d,k)。在LoRA的训练过程中,W0是固定不变的,只有A和B是训练参数。在前向过程中,W和W0都会乘以相同的输入,最后相加。
实施例4
在实施例1的基础上,步骤103中的架构还可以进一步优化,在预训练模型中引入了教师模型,这里的教师模型的监督学习不同于普通的监督学习,教师模型用于训练视觉编码器。
一般来说,我们通过给图像标注或者给出标注信息的文档来进行监督学习,但是在本模型中,教师模型的意义在于评估重建图像的质量,从而完成自监督学习。
在上述各个实施例中,提出一种细胞影像学预训练模型构建方法,包括图像重建、图像匹配、图像-组学数据对齐、图像-活性数据对齐四个任务,涉及多模态学习、预训练模型、低资源微调方法,通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能,从而缓解大型预训练模型的训练成本。
如图5所示,提供了一种细胞影像学预训练模型构建装置的模型示意图,该装置适用于多模态学习场景,所述装置包括:
数据获取模块501,用于获取训练细胞影像与对应的组学数据和活性数据,并输入预训练模型;
转换传输模块502,用于在训练过程中,通过处理方式转换器对数据类型的输入进行传输;
影像重建模块503,用于通过目标编码方式对所述训练细胞影像进行编码,得到重建细胞影像,所述目标编码方式通过对比所述训练细胞影像的降维信息与KDBE编码降维信息作对得到,所述重建细胞影像保持所述训练细胞影像的语义;
对比学习模块504,用于对组合数据对进行对比学习,编码后输入前馈神经网络,预测匹配的概率分布,所述组合数据对包括细胞明场图与荧光图数据对、细胞影像与组学数据数据对和细胞影像与活性数据对;
数据匹配模块505,用于根据所述匹配的概率分布得到所述组合数据对的数据匹配结果;
模型训练模块506,用于根据所述数据匹配结果继续训练所述预训练模型。
可选的,所述数据获取模块501之前,所述装置还包括:
数据收集模块,用于收集细胞影像数据;
数据收集模块,用于对所述细胞影像数据进行预处理与数据清洗,得到所述训练细胞影像。
可选的,所述数据收集模块,包括:
第一收集单元,用于对所述细胞影像数据进行高斯滤波与图像归一化处理,得到平滑图像;
第二收集单元,用于按照独立细胞规格对所述平滑图像进行分割,得到初始训练细胞影像;
第三收集单元,用于基于评估标准对所述初始训练细胞影像进行异常值检测与调整,得到所述训练细胞影像。
可选的,在所述预训练模型中引入教师模型,所述教师模型用于训练视觉编码器。
可选的,所述影像重建模块503,包括:
第一重建单元,用于将所述训练细胞影像分割为若干相同大小的图像块;
第二重建单元,用于随机选取少量图像块将所述训练细胞影像掩盖,得到掩码图片数据;
第三重建单元,用于通过预设编码方式对所述掩码图片数据进行编解码;
第四重建单元,用于从所述预设编码方式中确定出最优编码方式;
第五重建单元,用于在所述最优编码方式下对所述训练细胞影像进行重建,得到所述重建细胞影像。
可选的,所述对比学习模块504,包括:
第一学习单元,用于构造所述组合数据对的正样本对和负样本对;
第二学习单元,用于将计算所述正样本对和负样本对编码后输入前馈神经网络,预测匹配的概率分布。
请参考图6,其示出了本申请一个实施例提供的服务器600的结构示意图。该服务器600可用于实施于上述实施例中提供的细胞影像学预训练模型构建方法。具体来讲:
所述服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本申请的各种实施例,所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于实现上述服务器侧的细胞影像学预训练模型构建方法的指令。
所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行,以实现上述细胞影像学预训练模型构建方法中各个步骤的功能。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述各个实施例提供的细胞影像学预训练模型构建方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种细胞影像学预训练模型构建方法,其特征在于,所述方法适用于多模态学习场景,所述方法包括:
获取训练细胞影像与对应的组学数据和活性数据,并输入预训练模型;
在训练过程中,通过处理方式转换器对数据类型的输入进行传输;
通过目标编码方式对所述训练细胞影像进行编码,得到重建细胞影像,所述目标编码方式通过对比所述训练细胞影像的降维信息与KDBE编码降维信息得到,所述重建细胞影像保持所述训练细胞影像的语义;
对组合数据对进行对比学习,编码后输入前馈神经网络,预测匹配的概率分布,所述组合数据对包括细胞明场图与荧光图数据对、细胞影像与组学数据对和细胞影像与活性数据对;
根据所述匹配的概率分布得到所述组合数据对的数据匹配结果;
根据所述数据匹配结果继续训练所述预训练模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述预训练模型中引入低秩分解矩阵,同时固定住预训练权重,所述低秩分解矩阵用于模拟降维与升维;
通过所述低秩分解矩阵训练降维矩阵与升维矩阵,输出结果与所述预训练模型的参数叠加。
3.根据权利要求1所述的方法,其特征在于,所述获取训练数据之前,所述方法还包括:
收集细胞影像数据;
对所述细胞影像数据进行预处理与数据清洗,得到所述训练细胞影像。
4.根据权利要求3所述的方法,其特征在于,所述对所述细胞影像数据进行预处理与数据清洗,得到所述训练细胞影像,包括:
对所述细胞影像数据进行高斯滤波与图像归一化处理,得到平滑图像;
按照独立细胞规格对所述平滑图像进行分割,得到初始训练细胞影像;
基于评估标准对所述初始训练细胞影像进行异常值检测与调整,得到所述训练细胞影像。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述预训练模型中引入教师模型,所述教师模型用于训练视觉编码器。
6.根据权利要求1所述的方法,其特征在于,所述通过目标编码方式对所述训练细胞影像进行编码,得到重建细胞影像,包括:
将所述训练细胞影像分割为若干相同大小的图像块;
随机选取少量图像块将所述训练细胞影像掩盖,得到掩码图片数据;
通过预设编码方式对所述掩码图片数据进行编解码;
从所述预设编码方式中确定出最优编码方式;
在所述最优编码方式下对所述训练细胞影像进行重建,得到所述重建细胞影像。
7.根据权利要求1所述的方法,其特征在于,所述对组合数据对进行对比学习,编码后输入前馈神经网络,预测匹配的概率分布,包括:
构造所述组合数据对的正样本对和负样本对;
将计算所述正样本对和负样本对编码后输入前馈神经网络,预测匹配的概率分布。
8.一种细胞影像学预训练模型构建装置,其特征在于,所述装置适用于多模态学习场景,所述装置包括:
数据获取模块,用于获取训练细胞影像与对应的组学数据和活性数据,并输入预训练模型;
转换传输模块,用于在训练过程中,通过处理方式转换器对数据类型的输入进行传输;
影像重建模块,用于通过目标编码方式对所述训练细胞影像进行编码,得到重建细胞影像,所述目标编码方式通过对比所述训练细胞影像的降维信息与KDBE编码降维信息得到,所述重建细胞影像保持所述训练细胞影像的语义;
对比学习模块,用于对组合数据对进行对比学习,编码后输入前馈神经网络,预测匹配的概率分布,所述组合数据对包括细胞明场图与荧光图数据对、细胞影像与组学数据数据对和细胞影像与活性数据对;
数据匹配模块,用于根据所述匹配的概率分布得到所述组合数据对的数据匹配结果;
模型训练模块,用于根据所述数据匹配结果继续训练所述预训练模型。
9.一种服务器,其特征在于,所述服务器包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如权利要求1至7任一所述的细胞影像学预训练模型构建方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如权利要求1至7任一所述的细胞影像学预训练模型构建方法。
CN202310788070.7A 2023-06-29 2023-06-29 细胞影像学预训练模型构建方法和装置 Pending CN116843995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310788070.7A CN116843995A (zh) 2023-06-29 2023-06-29 细胞影像学预训练模型构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310788070.7A CN116843995A (zh) 2023-06-29 2023-06-29 细胞影像学预训练模型构建方法和装置

Publications (1)

Publication Number Publication Date
CN116843995A true CN116843995A (zh) 2023-10-03

Family

ID=88162840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310788070.7A Pending CN116843995A (zh) 2023-06-29 2023-06-29 细胞影像学预训练模型构建方法和装置

Country Status (1)

Country Link
CN (1) CN116843995A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094419A (zh) * 2023-10-16 2023-11-21 华南理工大学 面向多模态内容输出的大语言模型训练方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094419A (zh) * 2023-10-16 2023-11-21 华南理工大学 面向多模态内容输出的大语言模型训练方法、装置及介质
CN117094419B (zh) * 2023-10-16 2024-01-30 华南理工大学 面向多模态内容输出的大语言模型训练方法、装置及介质

Similar Documents

Publication Publication Date Title
Sun et al. Efficient multimodal transformer with dual-level feature restoration for robust multimodal sentiment analysis
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN111881292B (zh) 一种文本分类方法及装置
Islam et al. A comprehensive survey on applications of transformers for deep learning tasks
EP4361843A1 (en) Neural network searching method and related device
CN113505193A (zh) 一种数据处理方法及相关设备
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN114220516A (zh) 一种基于层级循环神经网络解码的脑ct医学报告生成方法
Kaswan et al. AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data
Pan et al. AMAM: an attention-based multimodal alignment model for medical visual question answering
Akbarian et al. Evaluating knowledge transfer in the neural network for medical images
CN116843995A (zh) 细胞影像学预训练模型构建方法和装置
Sarrouti et al. Visual question generation from radiology images
Huang et al. TeFNA: Text-centered fusion network with crossmodal attention for multimodal sentiment analysis
CN115374771A (zh) 文本标签确定方法及装置
Bhardwaj et al. Computational biology in the lens of CNN
Liu et al. Parameter-efficient transfer learning for medical visual question answering
CN111128390B (zh) 一种基于骨科症状特征选取的文本处理方法
El-Gayar Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction
US20240028831A1 (en) Apparatus and a method for detecting associations among datasets of different types
CN117009501B (zh) 一种摘要信息生成方法及相关装置
WO2023143262A1 (zh) 一种数据处理方法及相关设备
Kumar et al. Data Science: A Revolution of Data
Liu et al. Multimodal consistency-specificity fusion based on information bottleneck for sentiment analysis
Liang et al. RSKD: Enhanced medical image segmentation via multi-layer, rank-sensitive knowledge distillation in Vision Transformer models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination