CN116776157B - 支持模态增加的模型学习方法及其装置 - Google Patents

支持模态增加的模型学习方法及其装置 Download PDF

Info

Publication number
CN116776157B
CN116776157B CN202311034854.7A CN202311034854A CN116776157B CN 116776157 B CN116776157 B CN 116776157B CN 202311034854 A CN202311034854 A CN 202311034854A CN 116776157 B CN116776157 B CN 116776157B
Authority
CN
China
Prior art keywords
model
data
modal
learning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311034854.7A
Other languages
English (en)
Other versions
CN116776157A (zh
Inventor
戴勇
洪晓鹏
王亚斌
马智恒
蒋冬梅
王耀威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202311034854.7A priority Critical patent/CN116776157B/zh
Publication of CN116776157A publication Critical patent/CN116776157A/zh
Application granted granted Critical
Publication of CN116776157B publication Critical patent/CN116776157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种支持模态增加的模型学习方法及其装置,所述方法包括以下步骤:获取具有不同模态特征的训练数据,模态特征包括但不限于文本信息、可见光图像和热红外图像;将训练数据输入到预设的学习模型,生成与模态特征对应的模型分支;计算训练数据的特征损失值,并根据特征损失值对模型分支进行优化;联合优化后的模型分支,对学习模型进行测试,能对少量的数据进行有效训练,并准确地处理不同模态的训练数据,提高模型学习方法的兼容性。

Description

支持模态增加的模型学习方法及其装置
技术领域
本发明涉及模型学习技术领域,尤其是一种支持模态增加的模型学习方法及其装置。
背景技术
人工智能算法的快速发展,推动着各行各业的智能化转型。目前,单一模态的信息已逐渐不能满足差异化行业的应用需求,支持多种模态的信息处理方法的需求日益增大。应运而生的多模态预训练模型层出不穷,然而当前的多模态预训练模型均采用某些固定模态进行训练,无法满足不同行业的差异化模态增加的应用需求。如何有效利用当前的多模态预训练模型,以应对模态增加的多模态模型增量学习是当前亟需解决的问题。
发明内容
为解决上述问题,本发明的目的在于提供一种支持模态增加的模型学习方法、装置及其存储介质,通过联合多个模态的模型分支,提高模型学习方法的准确率和兼容性。
本发明解决其问题所采用的技术方案是:
第一方面,本申请实施例提供一种支持模态增加的模型学习方法,所述方法包括:获取具有不同模态特征的训练数据,所述模态特征包括但不限于文本信息、可见光图像和热红外图像;将所述训练数据输入到预设的学习模型,生成与所述模态特征对应的模型分支;计算所述训练数据的特征损失值,并根据所述特征损失值对所述模型分支进行优化;联合优化后的所述模型分支,对所述学习模型进行测试。
第二方面,本申请实施例提供一种支持模态增加的模型学习装置,包括:获取模块,用于获取具有不同模态特征的训练数据,所述模态特征包括但不限于文本信息、可见光图像和热红外图像;生成模块,用于将所述训练数据输入到预设的学习模型,生成与所述模态特征对应的模型分支;优化模块,用于计算所述训练数据的特征损失值,并根据所述特征损失值对所述模型分支进行优化;测试模块,用于联合优化后的所述模型分支,对所述学习模型进行测试。
第三方面,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的支持模态增加的模型学习方法。
第四方面,本申请实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的支持模态增加的模型学习方法。
本申请实施例,通过获取具有不同模态特征的训练数据,模态特征包括但不限于文本信息、可见光图像和热红外图像;将训练数据输入到预设的学习模型,生成与模态特征对应的模型分支;计算训练数据的特征损失值,并根据特征损失值对模型分支进行优化;联合优化后的模型分支,对学习模型进行测试,能对少量的数据进行有效训练,并准确地处理不同模态的训练数据,提高模型学习方法的兼容性。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
图1为本发明实施例一种支持模态增加的模型学习方法的流程图;
图2为图1中步骤S1000的流程图;
图3为图1中步骤S2000的流程图;
图4为图1中步骤S3000的流程图;
图5为图4中步骤S3100的流程图;
图6为图1中步骤S4000的流程图;
图7为图6中步骤S4100的流程图;
图8为本发明实施例一种支持模态增加的模型学习装置的结构图;
图9是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
本发明实施例涉及的支持模态增加的模型学习方法及其装置,是基于神经网络的模型学习方法。其中,变换器(Transformer)模型是目前已发布的一种性能优异的神经网络,它通过跟踪序列数据中的关系来学习上下文并因此学习含义。Transformer模型应用了一组不断发展的数学技术,称为注意力或自我注意力,以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。
然而,在实际应用中,针对模态增加的情况,现有的模型学习方法没有对应的设计方案,主要采用联合训练和方法迁移等手段。其中,联合训练手段需采用增加模态和原始模态数据从头训练且受限于部分数据量稀少和训练成本高昂的问题,无法有效解决模态增加的模型学习需求;方法迁移手段主要将面向数据、任务或类别增加的增量学习方法迁移解决模态增加问题,该类方法一般针对单一模态数据设计,并不能有效解决多模态数据中各模态的异源和异构特点带来的语义对齐、特征表示空间差异等难题,无法有效处理训练过程中关于模态增加问题。
基于以上,本发明实施例提供一种支持模态增加的模型学习方法及其装置,通过获取具有不同模态特征的训练数据,模态特征包括但不限于文本信息、可见光图像和热红外图像;将训练数据输入到预设的学习模型,生成与模态特征对应的模型分支;计算训练数据的特征损失值,并根据特征损失值对模型分支进行优化;联合优化后的模型分支,对学习模型进行测试,能对少量的数据进行有效训练,并准确地处理不同模态的训练数据,提高模型学习方法的兼容性。
请参见图1,图1示出了本发明实施例提供的一种支持模态增加的模型学习方法的流程。如图1所示,本发明实施例的支持模态增加的模型学习方法包括以下步骤:
步骤S1000、获取具有不同模态特征的训练数据,模态特征包括但不限于文本信息、可见光图像和热红外图像。
可以理解的是,训练数据是指数据挖掘过程中用于训练数据挖掘模型的数据。训练数据的选择一般有以下要求:数据样本尽可能大,数据多样化,数据样本质量较高。比如,以人群计数任务为例,训练数据的模态特征包括但不限于文本信息、可见光图像和热红外图像。在实际应用中,训练数据的获取能通过直接导入现有的文本信息、可见光图像和热红外图像数据集进行训练,比如基于本文构建的面向人群计数的RGBT数据集等。
可以理解的是,在训练过程中,现有的学习模型只能针对某一模态特征的训练数据进行分析处理,在输入不同模态特征的训练数据的情况下,学习模型往往不能进行模态特征的分类处理,并根据新增的模态特征进行训练。
请参见图2,图2示出了上述步骤S1000的另一实施例的具体实现过程示意图。如图2所示,步骤S1000至少包括以下步骤:
步骤S1100、配对训练数据和预设的原始数据,得到配对数据。
可以理解的是,通过收集预设的原始数据和训练数据的配对数据,且配对数据无需任何标签标注。具体地,在Transformer模型的应用中,实现了无标签化,并具有更高的性能。在Transformer出现之前,用户必须使用大型的标记数据集来训练神经网络,这些数据集的生产成本高昂且耗时。通过在数学上找到元素之间的模式,Transformer消除了这种需求,在网络和企业数据库中提供了数万亿的图像和数PB的文本数据。
具体地,配对数据能用如下公式表示:
其中,为预设的原始数据,/>为训练数据,/>为配对数据的数量,/>为配对数据的序号。在对配对数据进行训练时无需采用真实的标签,仅需基于配对关系,缩短了数据处理的时间。
步骤S1200、预处理配对数据,并对配对数据进行特征嵌入处理,得到训练特征数据。
可以理解的是,特征嵌入层是深度学习中常用的一种层类型。它主要用于将输入数据(如图像、文本、音频等)转换为一组向量表示,称为特征嵌入这些向量表示通常具有一些良好的性质,如低维度、语义相关性、可学习性等,可以被用于后续的模型训练和应用中。具体地,特征嵌入层的实现方式有很多种,最常用的是基于神经网络的方法。在图像处理中,卷积神经网络(CNN)通常用于提取图像的特征嵌入,而在自然语言处理中,循环神经网络(RNN)和Transformer等模型则得到广泛的应用。
可以理解的是,特征嵌入层的好处在于它可以将原始数据转换为更加适合模型处理的向量表示,从而提高模型的精度和效率。同时,特征嵌入层本身也可以通过反向传播进行优化,从而进一步提升模型的性能。
步骤S1300、对训练特征数据进行聚类处理,获取模态特征的聚类中心。
可以理解的是,聚类处理是运用形态学算子将临近的类似分类区域聚类并合并。分类图像经常缺少空间连续性(分类区域中斑点或洞的存在)。低通滤波虽然可以用来平滑这些图像,但是类别信息常常会被临近类别的编码干扰,聚类处理解决了这个问题。首先将被选的分类用一个扩大操作合并到一起,然后用参数对话框中指定了大小的变换核对分类图像进行侵蚀操作。
可以理解的是,聚类就是按照某个特定标准把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。目前,常用的聚类算法可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。
步骤S2000、将训练数据输入到预设的学习模型,生成与模态特征对应的模型分支。
可以理解的是,将训练数据输入到预设的学习模型的过程中,在已有的模型分支与训练数据的模态特征匹配的情况下,需要针对已有的模型分支进行学习和模型的优化,即进行模态内域的增量学习。在已有的模型分支无法与训练数据的模态特征匹配的情况下,需要根据模态特征新增模型分支,即进行跨模态域的增量学习。在面对具有不同模态特征的训练数据,学习模型需要根据实际情况,生成与模态特征对应的模型分支。
请参见图3,图3示出了上述步骤S2000的另一实施例的具体实现过程示意图。如图3所示,步骤S2000至少包括以下步骤:
步骤S2100、在模型分支与配对数据的模态特征一致的情况下,将学习模型的最后一层的特征分类器替换为全连接层,对训练数据进行特征分类。
可以理解的是,在模型分支与配对数据的模态特征一致的情况下,已有的模型分支与训练数据的模态特征相匹配,则通过学习模型的全连接层对训练数据进行特征分类。其中,进行模态内域的增量学习属于现有技术,此处不再赘述。
在实际应用中,学习模型中的可见光模型分支采用与Vision Transformer (ViT)模型相同的网络结构,由于ViT是在公开数据集进行训练的,与当前具体任务所需的分类器需求不同,因此需删除原始网络最后一层的特征分类器,并重新设置一层全连接层为当前任务相关的特征处理器。具体地,以可见光数据为训练数据,通过固定预训练参数的学习模型class token分类特征,并进行可见光模型分支的class token分类特征,实现模态内域增量学习。
步骤S2200、在模型分支与配对数据的模态特征不一致的情况下,通过学习模型对配对数据进行特征分类,新增与配对数据的模态特征匹配的模型分支。
可以理解的是,在模型分支与配对数据的模态特征不一致的情况下,已有的模型分支无法与训练数据的模态特征相匹配,则需要新增与配对数据的模态特征匹配的模型分支。
在实际应用中,新增的模型分支同样采用Transformer的网络结构,在最后一层class token设置当前增加模态对应任务的特征分类器。具体地,以配对数据中的可见光-增加模态数据为训练数据,通过固定预训练参数的通识模型class token得到可见光的分类特征,并进行增加模态模型分支特征分类器得到的分类特征,实现跨模态域的增量学习。
步骤S3000、计算训练数据的特征损失值,并根据特征损失值对模型分支进行优化。
可以理解的是,模型优化的选择直接关系到最终学习模型的性能。在训练过程中出现误差较大的情况,未必是特征的问题或者模型设计的问题很可能是优化算法的问题,而且好的优化算法还能够帮助加速训练模型。因此,在生成模型分支后还需要对模型分支进行优化。
请参见图4,图4示出了上述步骤S3000的另一实施例的具体实现过程示意图。如图4所示,步骤S3000至少包括以下步骤:
步骤S3100、计算多个配对数据的相似度。
可以理解的是,由于Transformer模型的输入数据在进行训练时无需采用真实的标签,仅需基于配对关系。因此,为了对生成模型分支进行进一步的优化,需要计算多个配对数据的相似度。
请参见图5,图5示出了上述步骤S3100的另一实施例的具体实现过程示意图。如图5所示,步骤S3100至少包括以下步骤:
步骤S3110、对多个配对数据进行伪标注处理,得到配对数据的独热编码。
可以理解的是,上述步骤中的模型分支在进行训练时无需采用真实的标签,仅需基于配对关系的配对数据。具体地,数据进行训练时一次读取的批处理大小为B,则对应学习模型和模型分支分别读取B个对应数据,依次根据对应关系,自适应给当前批数据根据其读取顺序生成当前序号对应标注为1其余为0 的独热编码。其中/>为输入数据在该批数据中的序号。
步骤S3120、根据配对数据的独热编码,通过格拉姆矩阵计算多个配对数据的相似度。
可以理解的是,根据上述步骤S3100中获取的独热编码,通过格拉姆矩阵计算获取当前批中学习模型和模型分支的训练数据的相互关系为:
其中,和/>分别当前批数据中学习模型和模型分支训练数据的序号。
步骤S3200、根据配对数据的经过学习模型后的输出特征,获取模型分支的距离约束。
可以理解的是,距离约束即保证将两被约束面可以约束到指定的距离,这是一个柔性的约束,即可以设置最大和最下距离。其中,根据配对数据的经过学习模型后的输出特征,获取模型分支的距离约束属于现有技术,此处不再赘述。
步骤S3300、根据配对数据的相似度和距离约束,得到训练数据的特征损失值。
可以理解的是,假设学习模型为,模型分支为/>。则输入数据/>通过对应的网络输出的特征为/>。进一步基于上述步骤S3100中的相似度对输出特征进行拟合,特征度量损失能用以下公式表示:
其中,表示学习模型class token分类特征和模型分支class token分类特征的距离约束,设定为差值的均方和。/>为预设的阈值,用以当特征距离过大时辅助网络优化。
步骤S3400、根据训练数据的特征损失值对模型分支进行优化。
可以理解的是,在获取训练数据的特征损失值后,能通过优化参数对模型分支进行优化,以提高学习模型的准确率。其中,通过特征损失值对模型分支进行优化属于现有技术,此处不再赘述。
步骤S4000、联合优化后的模型分支,对学习模型进行测试。
可以理解的是,联合上述步骤中获取的原始模态模型分支和增加模态模型分支,并在模型分支前部设置用于根据进行模态特征分类的模态切换开关,各模型分支和模态切换开关共同组成联合模型。当处于模型测试阶段时,输入数据通过模态切换开关后输入到对应的模态模型分支,从而获得任务相关的结果,对学习模型进行测试。
请参见图6,图6示出了上述步骤S4000的另一实施例的具体实现过程示意图。如图5所示,步骤S4000至少包括以下步骤:
步骤S4100、获取测试数据,并根据聚类中心,得到测试数据的模态特征。
可以理解的是,上述步骤S1300已对配对数据进行特征嵌入处理,并对训练特征数据进行聚类处理,获取模态特征的聚类中心并存储于模态切换开关中。在测试过程中,测试数据输入至模态切换开关后,通过计算其与各模态聚类中心的距离,距离最近的聚类中心所属的模态即为当前测试数据所属的模态特征。
请参见图7,图7示出了上述步骤S4100的另一实施例的具体实现过程示意图。如图6所示,步骤S4100至少包括以下步骤:
步骤S4110、获取测试数据,并对测试数据进行特征嵌入处理,得到测试特征数据。
可以理解的是,通过对测试数据进行特征嵌入处理,以便于计算测试数据的特征嵌入与聚类中心的距离,提高模态切换开关的分类精准性。其中,通过学习模型测试数据进行特征嵌入处理属于现有技术,此处不再赘述。
步骤S4120、计算测试特征数据与聚类中心的距离值,得到测试数据的模态特征。
可以理解的是,输入数据的特征嵌入输入至模态切换开关后,计算其与各个模态聚类中心的距离值。在实际应用中,距离值最小的聚类中心所属的模态特征即为当前测试数据所属的模态特征。通过计算测试特征数据与聚类中心的距离值,能精准地确定测试数据的模态特征,提高学习模型的测试效率和准确率。
可以理解的是也能通过设置距离阈值,并对比测试特征数据与聚类中心的距离值和距离阈值。在测试特征数据与聚类中心的距离值小于等于距离阈值的情况下,测试数据的模态特征在学习模型中具有与之匹配的模型分支;在测试特征数据与聚类中心的距离值大于距离阈值的情况下,在学习模型中不具有与之匹配的模型分支,并通过学习模型新增与之匹配的模型分支,实现跨模态域的增量学习。
步骤S4200、把测试数据输入与测试数据的模态特征对应的模型分支中,输出测试结果。
可以理解的是,把测试数据输入到与之匹配的模型分支中,便于学习模型能精准地对测试数据进行处理和分析,以提高学习模型的测试效率和测试精准性。
在实际应用中,本申请实施例以人群计数任务为例,在可见光-热红外数据集RGBT-CC上进行实验。独立可见光模型采用与本申请实施例提供的可见光分支相同的网络结构,以随机参数为初始化状态,仅使用任务损失函数,使用配对数据中的可见光模态数据作为输入训练得到。独立热红外模型采用与申请实施例提供的热红外分支相同的网络结构,以随机参数为初始化状态,仅使用任务损失函数,使用配对数据中的热红外模态数据作为输入训练得到。基于当前Transformer的快速发展,本申请选择目前已发布的性能优异的ViT模型作为学习模型。具体地,本申请实施例提供的学习模型采用预训练的“vit_base_patch16_224”模型结构并进行参数固定,联合模型可见光分支和热红外分支采用相同的模型结构,随机初始化参数后进行参数优化。
具体地,独立可见光模型、独立热红外模型和本申请实施例的学习模型结果对比如下表1所示,可以看出:本申请实施例提供的支持模态增加的模型学习方法性能优异,对可见光和热红模态进行处理时,联合模型性能指标RMSE均值相比独立可见光模型提升18.56%,相比独立热红外模型提升35.88%;联合模型性能指标MAE均值相比独立可见光模型提升18.57%,相比独立热红外模型提升38.89%。本申请实施例提供的学习模型对可见光输入图像和热红外输入图像的性能均分别优于上述独立可见光模型和独立热红外模型对两个模型的性能表现,表明本申请实施例提供的学习模型具备同时有效处理可见光和热红外模态的能力,可有效应对模态增加问题。
表1
参见图8,图8是本申请实施例提供的支持模态增加的模型学习装置500的结构示意图,本申请实施例提供的支持模态增加的模型学习方法的整个流程中涉及支持模态增加的模型学习装置中的以下模块:获取模块510、生成模块520、优化模块530和测试模块540。
其中,获取模块510,用于获取具有不同模态特征的训练数据,模态特征包括但不限于文本信息、可见光图像和热红外图像;
生成模块520,用于将训练数据输入到预设的学习模型,生成与模态特征对应的模型分支;
优化模块530,用于计算训练数据的特征损失值,并根据特征损失值对模型分支进行优化;
测试模块540,用于联合优化后的模型分支,对学习模型进行测试。
需要说明的是,上述装置的模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图9示出了本申请实施例提供的电子设备600。该电子设备600包括但不限于:
存储器601,用于存储程序;
处理器602,用于执行存储器601存储的程序,当处理器602执行存储器601存储的程序时,处理器602用于执行上述的支持模态增加的模型学习方法。
处理器602和存储器601可以通过总线或者其他方式连接。
存储器601作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本申请任意实施例描述的支持模态增加的模型学习方法。处理器602通过运行存储在存储器601中的非暂态软件程序以及指令,从而实现上述的支持模态增加的模型学习方法。
存储器601可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述的支持模态增加的模型学习方法。此外,存储器601可以包括高速随机存取存储器,还可以包括非暂态存储器,比如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器601可选包括相对于处理器602远程设置的存储器,这些远程存储器可以通过网络连接至该处理器602。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述的支持模态增加的模型学习方法所需的非暂态软件程序以及指令存储在存储器601中,当被一个或者多个处理器602执行时,执行本申请任意实施例提供的支持模态增加的模型学习方法。
本申请实施例还提供了一种存储介质,存储有计算机可执行指令,计算机可执行指令用于执行上述的支持模态增加的模型学习方法。
在一实施例中,该存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器602执行,比如,被上述电子设备600中的一个处理器602执行,可使得上述一个或多个处理器602执行本申请任意实施例提供的支持模态增加的模型学习方法。
以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (8)

1.一种支持模态增加的模型学习方法,其特征在于,包括以下步骤:
获取具有不同模态特征的训练数据,所述模态特征包括但不限于文本信息、可见光图像和热红外图像,包括:配对所述训练数据和预设的原始数据,得到配对数据;预处理所述配对数据,并对所述配对数据进行特征嵌入处理,得到训练特征数据;对所述训练特征数据进行聚类处理,获取所述模态特征的聚类中心;
将所述训练数据输入到预设的学习模型,生成与所述模态特征对应的模型分支,包括:在所述模型分支与所述配对数据的模态特征一致的情况下,将所述学习模型的最后一层的特征分类器替换为全连接层,对所述训练数据进行特征分类;在所述模型分支与所述配对数据的模态特征不一致的情况下,通过所述学习模型对所述配对数据进行特征分类,新增与所述配对数据的模态特征匹配的所述模型分支;
计算所述训练数据的特征损失值,并根据所述特征损失值对所述模型分支进行优化;
联合优化后的所述模型分支,对所述学习模型进行测试。
2.根据权利要求1所述的一种支持模态增加的模型学习方法,其特征在于,所述计算所述训练数据的特征损失值,并根据所述特征损失值对所述模型分支进行优化,包括:
计算多个所述配对数据的相似度;
根据所述配对数据的经过所述学习模型后的输出特征,获取所述模型分支的距离约束;
根据所述配对数据的相似度和所述距离约束,得到所述训练数据的特征损失值。
3.根据权利要求2所述的一种支持模态增加的模型学习方法,其特征在于,所述计算多个所述配对数据的相似度,包括:
对多个所述配对数据进行伪标注处理,得到所述配对数据的独热编码;
根据所述配对数据的独热编码,通过格拉姆矩阵计算多个所述配对数据的相似度。
4.根据权利要求2所述的一种支持模态增加的模型学习方法,其特征在于,所述联合优化后的所述模型分支,对所述学习模型进行测试,包括:
获取测试数据,并根据所述聚类中心,得到所述测试数据的模态特征;
把所述测试数据输入与所述测试数据的模态特征对应的所述模型分支中,输出测试结果。
5.根据权利要求4所述的一种支持模态增加的模型学习方法,其特征在于,所述获取测试数据,并根据所述聚类中心,得到所述测试数据的模态特征,包括:
获取测试数据,并对所述测试数据进行特征嵌入处理,得到测试特征数据;
计算所述测试特征数据与所述聚类中心的距离值,得到所述测试数据的模态特征。
6.一种支持模态增加的模型学习装置,其特征在于,包括:
获取模块,用于获取具有不同模态特征的训练数据,所述模态特征包括但不限于文本信息、可见光图像和热红外图像,包括:配对所述训练数据和预设的原始数据,得到配对数据;预处理所述配对数据,并对所述配对数据进行特征嵌入处理,得到训练特征数据;对所述训练特征数据进行聚类处理,获取所述模态特征的聚类中心;
生成模块,用于将所述训练数据输入到预设的学习模型,生成与所述模态特征对应的模型分支,包括:在所述模型分支与所述配对数据的模态特征一致的情况下,将所述学习模型的最后一层的特征分类器替换为全连接层,对所述训练数据进行特征分类;在所述模型分支与所述配对数据的模态特征不一致的情况下,通过所述学习模型对所述配对数据进行特征分类,新增与所述配对数据的模态特征匹配的所述模型分支;
优化模块,用于计算所述训练数据的特征损失值,并根据所述特征损失值对所述模型分支进行优化;
测试模块,用于联合优化后的所述模型分支,对所述学习模型进行测试。
7.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至5任意一项所述的支持模态增加的模型学习方法。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至5任意一项所述的支持模态增加的模型学习方法。
CN202311034854.7A 2023-08-17 2023-08-17 支持模态增加的模型学习方法及其装置 Active CN116776157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311034854.7A CN116776157B (zh) 2023-08-17 2023-08-17 支持模态增加的模型学习方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311034854.7A CN116776157B (zh) 2023-08-17 2023-08-17 支持模态增加的模型学习方法及其装置

Publications (2)

Publication Number Publication Date
CN116776157A CN116776157A (zh) 2023-09-19
CN116776157B true CN116776157B (zh) 2023-12-12

Family

ID=88013692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311034854.7A Active CN116776157B (zh) 2023-08-17 2023-08-17 支持模态增加的模型学习方法及其装置

Country Status (1)

Country Link
CN (1) CN116776157B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315428B (zh) * 2023-10-30 2024-04-05 燕山大学 一种跨模态特征对齐融合的人群计数系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN113344215A (zh) * 2021-06-01 2021-09-03 山东大学 支持新模态在线学习的可扩展认知发育方法及系统
CN114387650A (zh) * 2022-01-11 2022-04-22 浙江商汤科技开发有限公司 聚类及模型训练方法和装置、设备及存储介质
CN115017355A (zh) * 2022-05-09 2022-09-06 阿里巴巴(中国)有限公司 图像的提取器训练、搜索方法、电子设备和存储介质
CN115100582A (zh) * 2022-08-25 2022-09-23 有米科技股份有限公司 基于多模态数据的模型训练方法及装置
CN115861670A (zh) * 2022-11-11 2023-03-28 科大讯飞股份有限公司 特征提取模型的训练方法和数据处理方法及装置
CN116052286A (zh) * 2023-01-05 2023-05-02 浙江大华技术股份有限公司 活体检测模型的训练方法、活体检测方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562180B2 (en) * 2019-05-03 2023-01-24 Microsoft Technology Licensing, Llc Characterizing failures of a machine learning model based on instance features

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN113344215A (zh) * 2021-06-01 2021-09-03 山东大学 支持新模态在线学习的可扩展认知发育方法及系统
CN114387650A (zh) * 2022-01-11 2022-04-22 浙江商汤科技开发有限公司 聚类及模型训练方法和装置、设备及存储介质
CN115017355A (zh) * 2022-05-09 2022-09-06 阿里巴巴(中国)有限公司 图像的提取器训练、搜索方法、电子设备和存储介质
CN115100582A (zh) * 2022-08-25 2022-09-23 有米科技股份有限公司 基于多模态数据的模型训练方法及装置
CN115861670A (zh) * 2022-11-11 2023-03-28 科大讯飞股份有限公司 特征提取模型的训练方法和数据处理方法及装置
CN116052286A (zh) * 2023-01-05 2023-05-02 浙江大华技术股份有限公司 活体检测模型的训练方法、活体检测方法及相关设备

Also Published As

Publication number Publication date
CN116776157A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN103299324B (zh) 使用潜在子标记来学习用于视频注释的标记
CN109325148A (zh) 生成信息的方法和装置
CN107168992A (zh) 基于人工智能的文章分类方法及装置、设备与可读介质
CN111582409A (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
CN116776157B (zh) 支持模态增加的模型学习方法及其装置
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN115017911A (zh) 针对视觉和语言的跨模态处理
Xiong et al. Diagnose like a pathologist: Transformer-enabled hierarchical attention-guided multiple instance learning for whole slide image classification
CN112990378A (zh) 基于人工智能的场景识别方法、装置及电子设备
CN113516142A (zh) 文本图像匹配方法、装置、设备及存储介质
CN110135428B (zh) 图像分割处理方法和装置
Altun et al. SKETRACK: stroke-based recognition of online hand-drawn sketches of arrow-connected diagrams and digital logic circuit diagrams
CN113780365A (zh) 样本生成方法和装置
CN116522565B (zh) 一种基于bim的电力工程设计配电网规划方法及计算机设备
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN113407837A (zh) 基于人工智能的智慧医疗大数据处理方法及智慧医疗系统
CN115204318B (zh) 事件自动层级分类方法及电子设备
CN115439919B (zh) 模型更新方法、装置、设备、存储介质及程序产品
CN113139540B (zh) 背板检测方法及设备
CN114648650A (zh) 神经网络训练、目标检测的方法及装置、设备及存储介质
CN115131291A (zh) 对象计数模型的训练方法、装置、设备以及存储介质
CN111091198B (zh) 一种数据处理方法及装置
CN110032716B (zh) 文字编码方法和装置、可读存储介质及电子设备
CN113705559A (zh) 基于人工智能的文字识别方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant