CN117076090B - 任务模型的构建方法、装置、设备及计算机可读存储介质 - Google Patents
任务模型的构建方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117076090B CN117076090B CN202311305215.XA CN202311305215A CN117076090B CN 117076090 B CN117076090 B CN 117076090B CN 202311305215 A CN202311305215 A CN 202311305215A CN 117076090 B CN117076090 B CN 117076090B
- Authority
- CN
- China
- Prior art keywords
- task
- processed
- model
- adaptation layer
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 39
- 230000006978 adaptation Effects 0.000 claims abstract description 301
- 238000000034 method Methods 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 48
- 230000008859 change Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 16
- 238000004590 computer program Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Neurology (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请的实施例公开了一种任务模型的构建方法、装置、设备及计算机可读存储介质。该方法包括:从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层,该待处理任务用于对待处理数据进行处理;获取与目标编码层的数量相匹配的适配层;基于待处理任务和目标编码层所输出的待处理数据对应的特征信息,对适配层中初始化的模型参数进行调整,得到调整后的适配层;基于调整后的适配层构建得到待处理任务的任务模型。通过该方法,可以减小任务模型的构建成本。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种任务模型的构建方法、装置、设备和计算机可读存储介质。
背景技术
在深度学习领域,不同的任务可以通过不同的深度学习模型来执行。例如,物品识别任务和行为识别任务是两个相互独立的任务,这样就需要单独训练两个模型,即物品识别模型和行为识别模型。
然而,在实际应用中,随着计算机需要执行越来越多的任务,为每个任务训练一个独立的模型将会导致模型数量随任务数量线性增加。这样一来,在进行不同任务各自的任务模型的构建时,需要投入大量的计算机硬件资源,从而使得任务模型的构建成本显著上升。
因此,如何减小任务模型的构建成本是亟待解决的问题。
发明内容
为解决上述技术问题,本申请的实施例提供了一种任务模型的构建方法、装置、设备以及计算机可读存储介质,可以减小任务模型的构建成本。
其中,本申请所采用的技术方案为:
一种任务模型的构建方法,包括:
从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层,所述待处理任务用于对待处理数据进行处理;
获取与所述目标编码层的数量相匹配的适配层;
基于所述待处理任务和所述目标编码层所输出的所述待处理数据对应的特征信息,对所述适配层中初始化的模型参数进行调整,得到调整后的适配层;
基于所述调整后的适配层构建得到所述待处理任务的任务模型。
一种任务模型的构建装置,包括:
选择单元,用于从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层,所述待处理任务用于对待处理数据进行处理;
获取单元,用于获取与所述目标编码层的数量相匹配的适配层;
处理单元,用于基于所述待处理任务和所述目标编码层所输出的所述待处理数据对应的特征信息,对所述适配层中初始化的模型参数进行调整,得到调整后的适配层;
构建单元,用于基于所述调整后的适配层构建得到所述待处理任务的任务模型。
在本申请的一个实施例中,基于前述方案,所述获取单元,还用于获取所述待处理任务的类型信息;处理单元,用于基于所述类型信息和所述目标编码层中所输出的所述待处理数据对应的特征信息,计算所述适配层的参数调整值;基于所述参数调整值对所述适配层中初始化的模型参数进行调整,得到所述调整后的适配层。
在本申请的一个实施例中,基于前述方案,所述处理单元,还用于若所述目标编码层的数量为多个,则基于所获取到的适配层为每个目标编码层分配一个适配层;针对每个适配层,基于所述待处理任务和所述适配层对应的目标编码层所输出的所述待处理数据对应的特征信息,对所述适配层中初始化的模型参数进行调整。
在本申请的一个实施例中,基于前述方案,所述处理单元,还用于若检测到所述适配层的序号大于预设序号阈值,则将所述适配层作为目标适配层,并确定小于所述序号的其他序号;所述获取单元,还用于获取所述其他序号对应的适配层所输出的特征信息;所述处理单元,还用于基于所述待处理任务、所述目标适配层对应的目标编码层所输出的所述待处理数据对应的特征信息,以及所述其他序号对应的适配层所输出的特征信息,对所述目标适配层中初始化的模型参数进行调整。
在本申请的一个实施例中,基于前述方案,所述处理单元,还用于基于所述目标编码层的权重信息和所述其他序号对应的适配层的权重信息,对所述目标编码层所输出的所述待处理数据对应的特征信息和所述其他序号对应的适配层所输出的特征信息进行加权求和计算,得到加权后的特征信息;基于所述待处理任务的类型信息和所述加权后的特征信息对所述目标适配层中初始化的模型参数进行调整。
在本申请的一个实施例中,基于前述方案,所述调整后的适配层的数量为多个,每个调整后的适配层具有序号;所述构建单元,还用于基于所述每个调整后的适配层对应的序号,将多个调整后的适配层进行连接,构建得到所述待处理任务的任务模型。
在本申请的一个实施例中,基于前述方案,所述获取单元,还用于获取所述目标编码层所输出的所述待处理数据对应的特征信息;所述处理单元,还用于若检测到所获取到的特征信息与所述适配层的预设维度信息对应的维度不匹配,则对所获取到的特征信息进行维度更改,得到维度更改后的特征信息;基于所述待处理任务和所述维度更改后的特征信息,对所述适配层中初始化的模型参数进行调整,得到所述调整后的适配层。
在本申请的一个实施例中,基于前述方案,所述处理单元,还用于将待处理数据输入到所述已构建的主干模型中,以在所述目标编码层中对所述待处理数据进行特征提取,得到所述待处理数据对应的特征信息。
在本申请的一个实施例中,基于前述方案,在所述从已构建的主干模型含有的多个编码层中选择所述待处理任务对应的目标编码层之前,所述处理单元,还用于检测多个待构建任务对应待构建的主干模型的类型;基于所述主干模型的类型获取预设数量的编码层,并将所述预设数量的编码层进行连接,得到初始的主干模型;所述处理单元,还用于对所述初始的主干模型进行训练,得到所述已构建的主干模型。
在本申请的一个实施例中,基于前述方案,在所述基于调整后的适配层构建得到所述待处理任务的任务模型之后,所述处理单元,还用于基于所述任务模型的输出结果计算所述任务模型的损失结果;基于所述损失结果进行梯度回传,以对所述调整后的适配层进行模型参数的更新,并截断向所述已构建的主干模型的梯度回传,得到更新后的任务模型。
一种任务模型的构建设备,包括处理器及存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现如上的任务模型的构建方法。
一种计算机可读存储介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行如上的任务模型的构建方法。
一种计算机程序产品,包括计算机可读指令,计算机可读指令被处理器执行时实现如上的任务模型的构建方法。
在上述技术方案中:
在已构建的主干模型中选择出目标编码层后,可以对待处理任务获取与目标编码层的数量相匹配的适配层,适配层中初始化的模型参数可以基于已构建的主干模型含有的目标编码层来确定。
首先,构建待处理任务的任务模型时,只需要在已构建的主干模型中选择出目标编码层,再通过相应的特征转换就可以构建,无需对该待处理任务单独训练一个完整的模型,提高了任务模型构建的效率。
其次,这样使得已构建的主干模型中,编码层所输出的待处理数据对应的特征信息可以共享给其他的模型,减小了任务模型的构建成本。
再次,不同的待处理任务可以使用不同组合的目标编码层,再对适配器进行参数调整,就可以得到每个待处理任务的任务模型,彼此之间数据相互隔离,提高了任务模型的数据安全性。
最后,不同任务模型之间可以按照需求进行合并,提高了任务模型构建的灵活性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请涉及的一种实施环境的示意图。
图2a是本申请涉及的一种注意力编码器的结构示意图。
图2b是本申请涉及的一种自注意力结构的示意图。
图3是根据一示例性实施例示出的一种任务模型的构建方法的流程图。
图4是本申请涉及的一种单个待处理任务的训练阶段示意图。
图5是本申请涉及的一种多个待处理任务的合并过程示意图。
图6是根据另一示例性实施例示出的一种任务模型的构建方法的流程图。
图7是根据另一示例性实施例示出的一种任务模型的构建方法的流程图。
图8是根据另一示例性实施例示出的一种任务模型的构建方法的流程图。
图9是根据另一示例性实施例示出的一种任务模型的构建方法的流程图。
图10是根据另一示例性实施例示出的一种任务模型的构建方法的流程图。
图11是根据一示例性实施例示出的一种任务模型的构建装置的框图。
图12是根据一示例性实施例示出的一种任务模型的构建设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相同的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相同的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以整合或部分整合,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是,在本申请中提及的“多个”是指两个或者两个以上。
在本申请的具体实施方式中,涉及到用户相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例中所涉及到的公式可以灵活调整,例如增加相应参数或减少相应参数等。
在介绍本申请实施例的技术方案之前,先在这里介绍本申请实施例涉及的技术名词。
任务模型是指在机器学习和深度学习领域中的一个模型,用于执行特定的任务或学习特定任务相关的模式和特征。任务模型通常是在通用的模型架构基础上构建的,以满足特定任务的需求,例如分类、回归、生成等。任务模型的构建通常涉及模型参数的调整和训练,以最大程度地提高任务性能。
注意力编码器(Attention Encoder)用于描述一种神经网络层或模块,其核心特征是注意力机制(Attention Mechanism)。在自然语言处理和计算机视觉领域,注意力编码器通常被用来处理序列数据,如文本或图像,以便模型可以关注输入中不同部分的不同程度。一个常见的注意力编码器是Seq2Seq模型中的注意力机制,用于机器翻译和文本摘要等任务。
Transformer Encoder(变换器编码器)是深度学习中的一种通用模块,是注意力编码器的一种特殊架构,主要用于自然语言处理和其他序列建模任务。它由多个层组成,每个层包括以下关键组件:
第一正规化(Norm)结构:通常用于对输入特征进行标准化,以确保输入的均值和方差稳定。可以使用层归一化(Layer Normalization)作为正规化结构,有助于训练的稳定性和收敛性。
多头自注意力(Multi-Head Self-Attention,Multi-Head)结构:多头注意力可以由多个自注意力(self-attention)结构组成,每个自注意力结构可以将输入序列中的元素按照空间位置组成一个序列,从而有效地捕获序列中不同位置的信息交互。多头自注意力机制允许模型同时关注不同位置和特征,有助于学习不同级别的特征表示。
第二正规化(Norm)结构:与第一正规化(Norm)结构类似,这一层通常用于对多头自注意力的输出进行正规化。
多层感知机(Multi-Layer Perceptron,MLP)是一种基本的神经网络结构,用于机器学习和深度学习任务。MLP通常由多个神经元层组成,每个神经元层都与下一层全连接。MLP是深度学习中的基本组件,可以用于各种任务,包括回归、分类、降维、生成等。它的多层结构和非线性激活函数使其能够捕捉复杂的特征和关系,因此在机器学习中具有广泛的应用。MLP的能力和性能可以通过调整神经元层的数量和结构来进行自定义,从而适应不同的任务需求。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
适配层是一种网络层,用于将一个模型的输出调整或转换成另一个模型所需的格式或维度。适配层的主要作用是在多任务学习或迁移学习等场景中,使不同模型之间能够协同工作,可以对适配层进行特征转换,将一个模型的输出适应另一个模型的输入。本申请实施例中,适配层进行特征转化时,其内部参数可以基于其对应的目标编码层所输出的特征信息进行调整,以得到调整后的适配层。
在相关技术中,不同的任务可以通过不同的深度学习模型来执行,然而,在实际应用中,随着计算机需要执行越来越多的任务,为每个任务训练一个独立的模型将会导致模型数量随任务数量线性增加。这样在进行不同任务各自的任务模型的构建时,需要投入大量的计算机硬件资源,从而使得任务模型的构建成本显著上升。
基于此,本申请的实施例分别提出了一种任务模型的构建方法、一种任务模型的构建装置、一种任务模型的构建设备、一种计算机可读存储介质以及一种计算机程序产品。在这些实施例中,在已构建的主干模型中选择出目标编码层后,可以对待处理任务获取与目标编码层的数量相匹配的适配层,适配层中初始化的模型参数可以基于已构建的主干模型含有的目标编码层来确定。这样,构建待处理任务的任务模型时,只需要在已构建的主干模型中选择出目标编码层,再通过相应的特征转换就可以构建,无需对该待处理任务单独训练一个完整的模型,减小了任务模型的构建成本。
请参阅图1,图1是本申请涉及的一种实施环境的示意图。
图1所示的实施环境包括任务模型的构建系统110,该系统110可以部署在计算机上,可以包含已构建的主干模型110、任务模型的构建模块150和待处理任务的任务模型。
其中,已构建的主干模型110是由计算机生成的,一个已构建的主干模型中可以包含多个编码层,每个编码层可以采用注意力编码器(Attention Encoder)。在初始阶段,编码层的模型参数可以是初始化的,且没有待处理数据输入,后续在进行该主干模型110的构建过程中,计算机可以对各个编码层的初始化的模型参数进行调整,以得到该已构建的主干模型110。此时,可以将待处理数据输入到已构建的主干模型110中,这样,其中的每个编码层都可以相应输出待处理数据的特征信息,每个编码层所输出的特征信息不相同。
示例性地,在图1中,该已构建的主干模型110包含9个编码层,依次为编码层111、编码层112、……、编码层119。该9个编码层在进行模型参数的调整之前都是相同的,因此可以随机地进行依次连接,得到一个初始的主干模型,而后对每个编码层分别进行模型参数的调整,就可以得到已构建的主干模型110。
需要说明的是,主干模型在初始阶段可以称为初始的主干模型,在构建完成后,可以称为已构建的主干模型。主干模型包含的编码层的数量可以根据实际需求进行调整,且不同的主干模型中可以包含不同数量的编码层。本申请实施例以一个主干模型中包含9个编码层为例进行说明。
任务模型的构建模型150中至少可以包含目标编码层选择模块120、特征转换模块130和维度更改模块140。
目标编码层选择模块120用于从已构建的主干模型110中选择目标编码层,目标编码层将用于构建待处理任务的任务模型160。计算机可以根据待处理任务的需求来确定目标编码层的数量和类型。
特征转换模块130用于基于目标编码层输出的待处理数据的特征信息,和待处理任务,对该目标编码层所分配到的适配层进行特征转换,以得到调整后的适配层,这样就可以得到待处理任务的任务模型160。
维度更改模块140用于调整目标编码层输出的特征向量的维度,以确保目标编码层的输出特征信息与对应的适配层的预设维度信息相匹配。
待处理任务的任务模型160中可以包括多个适配层,每个适配层都是通过对应的目标编码层进行特征转换得到的。当目标编码层选择模块120从已构建的主干模型110中选择出目标编码层后,计算机可以为每个目标编码层分配一个初始化的适配层,初始化的适配层中的结构也可以采用Attention Encoder。初始化的适配层中可以包含初始化的模型参数,对该初始化的模型参数进行调整,就可以得到待处理任务的任务模型160。
不同的待处理任务的任务模型中的适配层的数量可以不相同,图1中的待处理任务的任务模型160包含3个适配层,即适配层161至适配层163。其中,每个适配层都是基于已构建的主干模型110中的某个编码层进行特征转换得到的。例如,适配层161是基于编码层111得到的,适配层162是基于编码层114得到的,适配层163是基于编码层118得到的。
值得注意的是,每个编码层本身已经具有待处理数据的输入和输出,而每个适配层也可以使用这些编码层的输出和输出。这种共享使得待处理任务的任务模型可以不需要单独输入待处理数据,而是利用已构建的主干模型110中编码层的中间特征(即各个编码层所输出的待处理数据的特征信息)来构建任务模型。
从上述描述可知,已构建的主干模型110中的编码层和待处理任务的任务模型160中的适配层,都可以采用Attention Encoder。其中,已构建的主干模型110可以选择较大且已经通过大数据预训练好的通用模型,例如经过图像网-21K(ImageNet-21k)训练集训练好的ViT-B/16模型,该ViT-B/16模型具体较强通用性,可以在不同下游任务都有较好泛化能力。
具体来说,ViT-B/16模型是由多个通用的Transformer Encoder(AttentionEncoder中的一种)结构组合而成。而适配层也可以采用Attention Encoder结构。
如图2a所示为一种注意力编码器的结构示意图。该注意力编码器可以应用于主干模型的编码层,也可以应用于待处理任务的任务模型的适配层。注意力编码器可以包含正规化、多头注意力和多层感知机三种结构。其中,正规化部分可以包含两个。在多头注意力结构中,还可以包含多个自注意力(self-attention)结构。本申请实施例中,多个注意力编码器可以进行堆叠,例如,注意力编码器1连接注意力编码器2,注意力编码器2连接注意力编码器3,以此类推。这样,从第二个注意力编码器开始,每个注意力编码器的输入是前一个注意力编码器的输出。需要注意的是,每个注意力编码器的输入可以是输入特征信息。
如图2b所示为一种自注意力结构的示意图。自注意力结构中包含矩阵乘法(matmul)部分、偏置项(scale)部分和归一化部分。其中,归一化部分可以使用softmax函数。
对于一个数据序列,通过上述注意力编码器和自注意力结构的计算就可以得到该数据序列中每个元素的最终表示。下面以数据序列为一张图片为例对生成每个元素的最终表示的过程进行描述:
对于一张图片I,其高与宽为H和W,通道(channel)数为C,则其组成的序列长度为,序列中每个元素包含C个通道。其中,这里的通道可以是不同颜色通道,例如红色、绿色和蓝色通道,用于表示彩色图像的不同颜色信息。通道也可以是不同的特征通道,用于表示图像中的各种特征,例如边缘、纹理、形状等。也即,实际上这C个通道是该图片I中每个元素的特征信息。
当注意力编码器接收到该数据序列后,可以先使用第一个Norm进行标准化处理,再使用自注意力结构,该数据序列中每个元素的特征信息进行三个线性变换,分别得到查询向量(Q)、键向量(K)和值向量(V)。Q、K和V向量所对应的维度通常是相同的,可以通过矩阵乘法和添加偏置项的方法,来计算出该维度。接下来,可以将每个元素的查询向量与键向量分别进行点积计算,然后点积结果除以一个缩放因子(可以避免相似度过大或过小),从而得到每个元素的查询向量与键向量之间的相似度分数。每个相似度分数可以与值向量进行加权平均运算,就可以得到每个元素的加权向量表示。最后,将每个元素的加权向量表示进行求和,就可以得到每个元素的最终向量表示,该最终向量表示即为图2b所示的输出特征。进一步可以使用图2a中的第二Norm和MLP继续处理,就可以得到该注意力编码器对应的输出特征信息。该输出特征信息可以作为下一个注意力编码器的输出,再根据上述的处理步骤进行处理,得到下一个注意力编码器的输出特征信息,以此类推。
本申请实施例中的任务模型的构建系统可以部署在服务器中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图3,图3是根据一示例性实施例示出的一种任务模型的构建方法的流程图。该方法可以适用于图1所示的实施环境,并且由计算机具体执行。当然该方法也可以适用于其它的实施环境,在此并不对该方法的执行主体进行限制。
以下将以计算机作为示例性的执行主体对该任务模型的构建方法进行详细阐述。如图3所示,在一示例性实施例中,该方法至少包括如下步骤:
S310,从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层,该待处理任务用于对待处理数据进行处理。
在本申请的一个实施示例中,该已构建的主干模型可以是经过图像网-21K(ImageNet-21k)训练集训练好的ViT-B/16模型。
在本申请的一个实施示例中,计算机可以检测多个待构建任务共同对应的待构建主干模型的类型。该多个待构建任务需要共享一个主干模型,但此时该主干模型还未构建出来,计算机就需要检测出这多个待构建任务所对应的待构建的主干模型的类型,不同的待构建主干模型的类型可能对应不同数量的编码层。这样,基于检测到的主干模型的类型,计算机可以获取相应预设数量的编码层,并将它们连接在一起,组合形成了一个初始的主干模型。这个初始的主干模型的所有模型参数都是初始状态的。接下来,计算机会准备特定的训练数据集,用于对这个主干模型进行训练。在训练过程中,计算机会不断地调整每个编码层中的模型参数,以使其适应特定任务的需求。最终,就可以得到一个已构建的主干模型,该已构建的主干模型可以被多个待构建任务共享,具有良好的泛化能力。
若检测到存在针对待处理数据的待处理任务,那么计算机可以在该已构建的主干模型中的多个编码层中,选择出所需要的编码层作为该待处理任务的目标编码层。具体该待处理任务需要从多个编码层中选择哪些编码层作为目标编码层,可以由本领域技术人员确定,本申请实施例不做限定。
需要说明的是,不同的待处理任务可以选择出不同组合的目标编码层。例如,假设已构建的主干模型中包含9个编码层,即编码层1至编码层9。待处理任务1可以根据实际需求,选择编码层1、编码层4和编码层8作为目标编码层。待处理任务2可以根据实际需求,选择编码层2、编码层3、编码层4、编码层6和编码层9作为目标编码层。也即,不同的待处理任务所需要的目标编码层的数量和序号可以不同。
S320,获取与目标编码层的数量相匹配的适配层。
为了与目标编码层的数量相匹配,计算机会获取与目标编码层数量相对应的适配层。这意味着对于每个选择的目标编码层,将会有一个对应的适配层,以确保每个目标编码层都有相应的适配层与之关联。这样有助于确保每个适配层都能够接收并处理来自目标编码层的信息,从而实现任务模型的构建。
S330,基于待处理任务和目标编码层所输出的待处理数据对应的特征信息,对适配层中初始化的模型参数进行调整,得到调整后的适配层。
计算机可以向该已构建的主干模型中的第一个编码层输入待处理数据,这样,每个编码层都可以输出各自的待处理数据对应的特征信息。
根据待处理任务和目标编码层所输出的待处理数据对应的特征信息,计算机将适配层中初始化的模型参数进行调整,以得到调整后的适配层。这个过程可以看作是根据待处理任务和目标编码层输出的特征信息对适配层进行个性化地定制,使其能够更好地适应待处理任务的任务需求。
在本申请的一个实施示例中,计算机可以基于待处理任务的类型信息和目标编码层中所输出的待处理数据对应的特征信息,计算适配层的参数调整值,再基于该调整参数值对适配层中初始化的模型参数进行调整,得到调整后的适配层。
在本申请的一个实施示例中,如果存在多个目标编码层,计算机可以为每个目标编码层分配一个独立的适配层。这意味着每个适配层将与其对应的目标编码层相对应,并按照目标编码层在主干模型中的顺序排列在待处理任务的任务模型中。在构建待处理任务的任务模型时,除了第一个适配层外,从第二个适配层开始,其特征转换所依据的特征信息包含两部分特征信息:一是与该适配层对应的目标编码层所输出的待处理数据的特征信息,二是前一个适配层所输出的特征信息。这种方式充分利用了前面适配层的输出信息,以便更好地进行特征转换,从而更有效地构建任务模型。
在本申请的一个实施示例中,从第二个适配层开始,计算机可以获取当前适配层对应的两部分特征信息各自的权重信息,这些权重信息可以是事先预设的,也可以是计算机动态确定的。接下来,计算机可以基于这两部分信息的权重,进行加权求和计算,从而得到加权后的特征信息。随后,计算机可以将这个加权后的特征信息与待处理任务的类型信息结合起来,以对当前适配层中初始化的模型参数进行相应的调整。
在本申请的一个实施示例中,计算机可以对每个目标编码层输出的待处理数据对应的特征信息进行维度检测,若检测到该特征信息与适配层的预设维度信息对应的维度不匹配,则对所获取到的特征信息进行维度更改,得到维度更改后的特征信息。该维度更改后的特征信息可以与适配层的预设维度信息的维度相匹配。
S340,基于调整后的适配层构建得到待处理任务的任务模型。
其中,该调整后的适配层的数量为多个,每个调整后的适配层具有序号,计算机可以基于每个调整后的适配层对应的序号,将多个调整后的适配层进行连接,构建得到待处理任务的任务模型。
具体地,计算机可以将调整后的适配层,按照其对应的目标编码层在主干模型中的顺序,依次进行连接,就可以得到该待处理任务的任务模型。例如,待处理任务的任务模型的目标编码层包括编码层1、编码层4和编码层8,那么就可以将对应的调整后的适配层依次将编码层1对应的调整后的适配层、编码层4对应的特征的适配层和编码层8对应的调整后的适配层进行连接,从而获得最终的任务模型。
可选地,计算机也可以在向每个目标编码层都分配一个适配层之后,就将这些已分配的适配层按照对应目标编码层在主干模型中的顺序,依次进行连接,得到一个初始的任务模型。进而,在这个初始的任务模型上,基于每个适配层对应的目标编码层,对每个适配层进行调整,得到每个适配层对应的调整后的适配层。这样就可以直接得到最终的待处理任务的任务模型。
在本申请的一个实施示例中,计算机可以基于任务模型的输出结果计算任务模型的损失结果,并基于损失结果进行梯度回传,该梯度回传用于对任务模型中的各个适配层的模型参数进行更新,以实现对任务模型的更新,加强其处理的鲁棒性。且该梯度回传仅在任务模型的适配层中进行回传,计算机可以截断向已构建的主干模型的梯度回传。
在本申请的一个实施示例中,计算机可以对基于已构建的主干模型所构建出的不同待处理任务的任务模型进行合并,得到一个包含多个任务模型的任务模型网络。各个待处理任务的任务模型之间相互隔离。例如,可以将基于已构建的主干模型构建的待处理任务T1、T2、T3、……、TN分别对应的任务模型进行合并,得到一个整体的任务模型网络。
如图4为本申请实施例的一种单个待处理任务的训练阶段示意图。图4中,该已构建的主干模型包含编码层1至编码层9,该待处理任务1所对应的目标编码层包括编码层2和编码层8,因此,计算机可以对编码层2分配一个适配层1,对编码层8分配一个适配层2。
这样,计算机就可以使用编码层2所输出的待处理数据的特征信息和待处理任务的类型信息,对该适配层1中初始化的模型参数进行调整,得到调整后的适配层1。类似地,计算机可以使用编码层8所输出的待处理数据的特征信息、待处理任务的类型信息和适配层1所输出的特征信息对适配层2中初始化的模型参数进行调整,得到调整后的适配层2。
将调整后的适配层1和调整后的适配层2依次连接起来,就形成了待处理任务1的任务模型。其中,每个调整后的适配层中的模型参数还可以继续训练,或者使用梯度回传进一步优化每个调整后的适配层中的模型参数。而已构建的主干模型的模型参数需要保持已构建完成时的状态。
如图5为本申请实施例的一种多个待处理任务的合并过程示意图。图5中包含了待处理任务1和待处理任务2,待处理任务1使用了编码层2和编码层8进行特征转换,得到了待处理任务1的任务模型;待处理任务2使用了编码层2、编码层3和编码层9进行特征转换,得到了待处理任务2的任务模型。计算机可以将待处理任务1和待处理任务2合并为一个任务模型网络。
通过该方法,在已经建立的主干模型中选择目标编码层后,可以为待处理任务获取与目标编码层数量相匹配的适配层。这些适配层的初始模型参数可以基于已建立的主干模型中的目标编码层来确定。这种方法允许在构建待处理任务的任务模型时,通过选择目标编码层并进行相应的特征转换,而无需单独训练一个完整的模型,提高了任务模型的构建效率。并且,在构建过程中共享已建立的主干模型中编码层所输出的待处理数据的特征信息,降低了任务模型构建的成本。同时,不同的待处理任务可以使用不同组合的目标编码层,再对适配器进行参数调整,就可以得到每个待处理任务的任务模型,彼此之间数据相互隔离,提高了任务模型的数据安全性。不同任务模型之间可以按照需求进行合并,提高了任务模型构建的灵活性。
在本申请的一个实施例中,提供了另一种任务模型的构建方法,该任务模型的构建方法可以由计算机来执行。如图6所示,该任务模型的构建方法可以包括S310至S320、S610至S630和S340。也即,S610至S630是图3所示的S330的具体实现方法。
下面对S610至S630进行描述:
S610,获取待处理任务的类型信息。
计算机需要明确待处理任务的类型信息,该类型信息根据实际应用的需求来确定的。任务的类型信息可以包括分类、回归、生成等,不同类型的任务需要不同的任务模型。
S620,基于类型信息和目标编码层中所输出的待处理数据对应的特征信息,计算适配层的参数调整值。
计算机可以根据待处理任务的类型信息以及目标编码层中输出的待处理数据对应的特征信息来计算适配层的参数调整值。计算机可以使用特定的算法或方法来确定如何调整适配层的模型参数,以使其适应当前待处理任务的需求。其中,该适配层是待处理任务中的第一个适配层。
S630,基于参数调整值对适配层中初始化的模型参数进行调整,得到调整后的适配层。
计算机可以将使用在计算得到的参数调整值来更新适配层中初始化的模型参数。这样可以使得适配层的模型参数变得更适合当前待处理任务,以便进行相应的数据处理。
通过该方法,计算机可以在已构建的主干模型的基础上,通过根据待处理任务的类型信息和目标编码层输出的特征信息来动态调整适配层的模型参数,从而构建适用于不同任务的任务模型,减少了任务模型的构建成本和复杂性。
在本申请的一个实施例中,提供了另一种任务模型的构建方法,该任务模型的构建方法可以由计算机来执行。如图7所示,该任务模型的构建方法可以包括S310至S320、S710至S720和S340。也即,S710至S720是图3所示的S330的具体实现方法。
下面对S710至S720进行描述:
S710,若目标编码层的数量为多个,则基于所获取到的适配层为每个目标编码层分配一个适配层。
当目标编码层的数量大于一个时,计算机会为每个目标编码层分别分配一个适配层。这样,每个目标编码层都会有一个专门的适配层,以便更好地适应不同的目标编码层的特征信息。
S720,针对每个适配层,基于待处理任务和适配层对应的目标编码层所输出的待处理数据对应的特征信息,对适配层中初始化的模型参数进行调整。
对于每个适配层,计算机会基于当前待处理任务的类型信息以及该适配层对应的目标编码层所输出的待处理数据对应的特征信息来进行模型参数的调整。这意味着每个适配层都会根据当前任务的需求进行参数调整,以使其能够更好地处理当前任务的数据。
通过该方法,计算机对每个目标编码层分配一个适配层,并确保这些适配层能够根据所对应目标编码层的特征信息进行动态调整,以适应不同任务的需求。这样,计算机可以更好地利用已构建的主干模型中的编码层,并根据不同的任务类型来调整适配层的参数,以获得更好的任务性能。
在本申请的一个实施例中,提供了另一种任务模型的构建方法,该任务模型的构建方法可以由计算机来执行。如图8所示,该任务模型的构建方法可以包括S310至S320、S710、S810至S830和S340。也即,S810至S830是图7所示的S720的具体实现方法。
下面对S810至S830进行描述:
S810,若检测到适配层的序号大于预设序号阈值,则将适配层作为目标适配层,并确定小于该序号的其他序号。
在本申请的一个实施例中,计算机选择出目标编码层之后,可以对每个目标编码层分配一个适配层,进而可以根据目标编码层在主干模型中的序号对每个适配层进行编号。例如,待处理任务对应的目标编码层为编码层1、编码层4和编码层8,那么就可以将这三者对应的适配层分别编号为1、2和3。
计算机可以检测适配层的序号是否大于预设序号阈值,该预设序号阈值可以是1。如果某适配层的序号大于该预设序号阈值,那么它将被确定为目标适配层,并且系统会进一步确定小于这个序号的其他适配层的序号。该其他序号可以是目标适配层的序号的前一个序号。例如,适配层分别编号为1、2和3,那么适配层2和适配层3都可以作为目标适配层。
S820,获取该其他序号对应的适配层所输出的特征信息。
例如,目标适配层的序号为3,计算机就可以获取适配层2所输出的特征信息。目标适配层为2,计算机也可以获取适配层1所输出的特征信息。而适配层1不作为目标适配层,因此不获取其他序号对应的适配层所输出的特征信息。
S830,基于待处理任务、目标适配层对应的目标编码层所输出的待处理数据对应的特征信息,以及其他序号对应的适配层所输出的特征信息,对目标适配层中初始化的模型参数进行调整。
具体地,S830可以包括S831至S832。
下面对S831至S832进行描述:
S831,基于目标编码层的权重信息和其他序号对应的适配层的权重信息,对目标编码层所输出的待处理数据对应的特征信息和其他序号对应的适配层所输出的特征信息进行加权求和计算,得到加权后的特征信息。
一个目标适配层在进行特征转换的过程中,可以依据两个来源的特征信息。第一个来源是该目标适配层对应的目标编码层所输出的待处理数据的特征信息,这部分信息是已构建的主干模型的中间特征,包含了原始数据的高级向量表示。
第二个来源是目标适配层的前一个适配层(即其他序号对应的适配层)所输出的特征信息。
计算机可以合并这两部分特征信息,得到加权后的特征信息。计算机可以确定它们在最终特征信息中的相对贡献,也就是权重信息。这些权重信息可以是预先定义好的,也可以根据具体任务的特点动态确定。例如,如果任务需要更多来自目标编码层的信息,那么相应的权重可能会分配更多的重要性给目标编码层的特征信息。
计算机可以对两种特征信息执行加权求和操作,将两部分特征信息相加,考虑了它们各自的权重信息。这样,就可以得到一个加权后的特征信息,它已经融合了来自两个来源的特征信息。
S832,基于待处理任务的类型信息和加权后的特征信息对目标适配层中初始化的模型参数进行调整。
计算机使用该加权后的特征信息以及待处理任务的类型信息,来微调当前适配层中初始化的模型参数。这个微调过程使得该适配层更好地适应当前待处理任务的需求,从而构建出更适合的任务模型。
通过该方法,计算机对目标适配层进行模型参数调整,确保其能够在处理当前待处理任务时充分利用其他适配层的信息,以增强不同适配层之间的关联关系,从而提高任务模型的性能。
在本申请的一个实施例中,提供了另一种任务模型的构建方法,该任务模型的构建方法可以由计算机来执行。如图9所示,该任务模型的构建方法可以包括S310至S320、S910至S930和S340。也即S910至S930是图3所示的S330的具体实现方法。
下面对S910至S930进行描述:
S910,获取目标编码层所输出的待处理数据对应的特征信息。
计算机可以将待处理数据输入到已构建的主干模型中,以在所述目标编码层中对所述待处理数据进行特征提取,得到待处理数据对应的特征信息。其中,该目标编码层所输出的待处理数据对应的特征信息可以是其中的多层感知机所输出的特征信息。
S920,若检测到所获取到的特征信息与适配层的预设维度信息对应的维度不匹配,则对所获取到的特征信息进行维度更改,得到维度更改后的特征信息。
计算机可以验证目标编码层的特征信息和适配层的预设维度信息是否具有相匹配的维度。如果它们的维度不匹配,计算机将执行维度更改的操作。维度更改可以减小目标编码层的特征信息的维度,从而减小适配层的计算量,提高最终构建出的任务模型的处理效率。
可选地,该预设维度信息可以表征大于预设维度阈值的目标编码层的特征信息需要进行维度减小处理。
可选地,若目标编码层的特征信息与适配层的预设维度信息相匹配,则无需进行维度更改。
可选地,即使目标编码层的特征信息小于预设维度阈值,计算机也可以对其进行维度减小处理,可以进一步减小适配层的计算量,但需要权衡维度减小的效果和信息损失。
S930,基于待处理任务和维度更改后的特征信息,对适配层中初始化的模型参数进行调整,得到调整后的适配层。
若对目标编码层的特征信息进行了维度更改,则在后续的处理中, 使用更改后的特征信息替代目标编码层的特征信息。这样,也可以对适配层中初始化的模型参数进行调整,得到调整后的适配层。
通过该方法,计算机可以对目标编码层输出的待处理数据的特征信息进行维度减小,从而可以减小适配层的数据复杂度,提高任务模型的处理效率。
在本申请的一个实施例中,提供了另一种任务模型的构建方法,该任务模型的构建方法可以由计算机来执行。如图10所示,该任务模型的构建方法可以包括S1001至S1020。
下面对S1001至S1020进行描述:
S1001,检测多个待构建任务对应待构建的主干模型的类型。
S1002,基于主干模型的类型获取预设数量的编码层,并连接得到初始的主干模型。
S1003,对初始的主干模型进行训练,得到已构建的主干模型。
此时的已构建的主干模型就固定了,后续不再对该已构建的主干模型进行任何模型参数的改动。
S1004,将待处理数据输入到已构建的主干模型中。
这样,每个编码层都可以相应输出待处理数据对应的特征信息,且每个编码层输出的特征信息可以是不相同的,它们都对待处理数据进行了不同程度的特征提取。
S1005,是否检测到存在针对待处理数据的待处理任务。
若是,则执行S1006;若否,则执行S1007。
S1006,等待针对待处理数据的待处理任务。
S1007,从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层。
S1008,获取与目标编码层的数量相匹配的适配层,并对每个目标编码层都分配一个适配层。
S1009,目标编码层所输出的特征信息的维度是否与对应适配层的预设维度信息相匹配。
其中,该目标编码层所输出的特征信息是指目标编码层所输出的待处理数据的特征信息。
若是,则执行S1011;若否,则执行S1010。
S1010,对目标编码层所输出的特征信息进行维度更改,用维度更改后的特征信息代替该目标编码层所输出的特征信息。
执行完S1010后,可以执行S1011。
S1011,令i=1。
S1012,适配层i是否为目标适配层。
一个适配层的序号i的确定可以是基于该适配层对应的目标编码层在已构建的主干模型中的顺序确定的。计算机可以将所获取到的多个目标编码层的序号按照从小到大的顺序进行排列,再确定适配层i对应的目标编码层在这些获取到的多个目标编码层中所排列的位次,就可以将确定出位次作为适配层i的序号。例如,对于一个待处理任务,其对应的多个目标编码层在已构建的主干模型中的序号分别为2、3、8,那么这3个目标编码层对应的适配层的序号就分别是1、2、3。
其中,该目标适配层为序号大于预设序号阈值的适配层。例如,该预设序号阈值为1时,那么序号大于1的适配层都是目标适配层。
若是,则执行S1014;若否,则执行S1013。
S1013,基于待处理任务的类型信息和适配层i对应的目标编码层输出的特征信息对适配层i中初始化的模型参数进行调整,得到调整后的适配层i。
其中,此时的适配层i是序号小于或等于预设序号阈值的适配层,例如该预设序号阈值为1时,该适配层i可以是适配层1。
执行完S1013后,可以执行S1017。
S1014,获取适配层i-1输出的特征信息。
S1015,对适配层i对应的目标编码层所输出的特征信息和适配层i-1所输出的特征信息进行加权求和计算,得到加权后的特征信息。
S1016,基于待处理任务的类型信息和加权后的特征信息对适配层i中初始化的模型参数进行调整,得到调整后的适配层i。
S1017,i是否等于适配层总数量。
其中,该适配层总数量是该待处理任务的所有适配层的数量,与目标编码层的数量相同。
若是,则执行S1018;若否,则令i=i+1,再执行S1011。
S1018,将所有调整后的适配层i进行连接,得到待处理任务的任务模型。
S1019,对所有待处理任务的任务模型进行合并,得到任务模型网络。
其中,这些待处理任务的任务模型都是基于该已构建的主干模型构建出来的。
通过该方法,一方面,每个待处理任务的适配层是使用已构建的主干模型的目标编码层的特征信息,使得不同任务的任务模型可以共享已构建主干模型中的特征信息,无需对每个任务单独训练一个完整的模型,既提高了任务模型的构建效率,又降低了任务模型的构建成本。
另一方面,计算机可以对目标适配层进行模型参数调整,确保其能够在处理当前待处理任务时充分利用其他适配层的信息,以增强不同适配层之间的关联性,从而提高任务模型的性能。
通过该方法,在已建立的主干模型中,选择目标编码层后,可以为每个待处理任务快速获取相匹配的适配层。这些适配层的初始化的模型参数是基于已有的主干模型中的目标编码层确定的,无需单独训练完整的模型,显著提高了任务模型的构建效率。
在构建过程中,特征信息是在已建立的主干模型中编码层所输出的待处理数据的基础上共享的,从而减少了任务模型构建的成本。此外,不同的待处理任务可以使用不同的目标编码层组合,然后对适配层进行参数调整,以获得每个任务的独立任务模型,确保了任务模型之间的数据隔离和安全性。同时,可以根据需求合并不同任务模型,从而提高了任务模型构建的灵活性和可扩展性。
图11是本申请的一个实施例示出的任务模型的构建装置的框图。如图11所示,该任务模型的构建装置可以应用于计算机,该装置包括:
选择单元1110,用于从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层,该待处理任务用于对待处理数据进行处理;
获取单元1120,用于获取与目标编码层的数量相匹配的适配层;
处理单元1130,用于基于待处理任务和目标编码层所输出的待处理数据对应的特征信息,对适配层中初始化的模型参数进行调整,得到调整后的适配层;
构建单元1140,用于基于调整后的适配层构建得到待处理任务的任务模型。
在本申请的一个实施例中,基于前述方案,获取单元1120,还用于获取待处理任务的类型信息;处理单元1130,用于基于类型信息和目标编码层中所输出的待处理数据对应的特征信息,计算适配层的参数调整值;基于参数调整值对适配层中初始化的模型参数进行调整,得到调整后的适配层。
在本申请的一个实施例中,基于前述方案,处理单元1130,还用于若目标编码层的数量为多个,则基于所获取到的适配层为每个目标编码层分配一个适配层;针对每个适配层,基于待处理任务和适配层对应的目标编码层所输出的待处理数据对应的特征信息,对适配层中初始化的模型参数进行调整。
在本申请的一个实施例中,基于前述方案,处理单元1130,还用于若检测到适配层的序号大于预设序号阈值,则将适配层作为目标适配层,并确定小于序号的其他序号;获取单元1120,还用于获取其他序号对应的适配层所输出的特征信息;处理单元1130,还用于基于待处理任务、目标适配层对应的目标编码层所输出的待处理数据对应的特征信息,以及其他序号对应的适配层所输出的特征信息,对目标适配层中初始化的模型参数进行调整。
在本申请的一个实施例中,基于前述方案,处理单元1130,还用于基于目标编码层的权重信息和其他序号对应的适配层的权重信息,对目标编码层所输出的待处理数据对应的特征信息和其他序号对应的适配层所输出的特征信息进行加权求和计算,得到加权后的特征信息;基于待处理任务的类型信息和加权后的特征信息对目标适配层中初始化的模型参数进行调整。
在本申请的一个实施例中,基于前述方案,获取单元1120,还用于获取目标编码层所输出的待处理数据对应的特征信息;处理单元1130,还用于若检测到所获取到的特征信息与适配层的预设维度信息对应的维度不匹配,则对所获取到的特征信息进行维度更改,得到维度更改后的特征信息;基于待处理任务和维度更改后的特征信息,对适配层中初始化的模型参数进行调整,得到调整后的适配层。
在本申请的一个实施例中,基于前述方案,调整后的适配层的数量为多个,每个调整后的适配层具有序号;构建单元1140,还用于基于每个调整后的适配层对应的序号,将多个调整后的适配层进行连接,构建得到待处理任务的任务模型。
在本申请的一个实施例中,基于前述方案,处理单元1130,还用于将待处理数据输入到已构建的主干模型中,以在目标编码层中对待处理数据进行特征提取,得到待处理数据对应的特征信息。
在本申请的一个实施例中,基于前述方案,在从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层之前,处理单元1130,还用于检测多个待构建任务对应待构建的主干模型的类型;基于主干模型的类型获取预设数量的编码层,并将预设数量的编码层进行连接,得到初始的主干模型;处理单元1130,还用于对初始的主干模型进行训练,得到已构建的主干模型。
在本申请的一个实施例中,基于前述方案,在基于调整后的适配层构建得到待处理任务的任务模型之后,处理单元1130,还用于基于任务模型的输出结果计算任务模型的损失结果;基于损失结果进行梯度回传,以对调整后的适配层进行模型参数的更新,并截断向已构建的主干模型的梯度回传,得到更新后的任务模型。
需要说明的是,前述实施例所提供的装置与前述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述。
本申请的实施例还提供了一种任务模型的构建设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得电子设备实现如前的任务模型的构建方法。
图12是适于用来实现本申请实施例的任务模型的构建设备的计算机系统的结构示意图。
需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input /Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不相同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的任务模型的构建方法。该计算机可读介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读介质中。计算机设备的处理器从计算机可读介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的任务模型的构建方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (10)
1.一种任务模型的构建方法,其特征在于,包括:
从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层,所述待处理任务用于对待处理数据进行处理;所述待处理任务为图像处理任务和文本处理任务中的至少一个;
获取与所述目标编码层的数量相匹配的适配层;
获取所述待处理任务的类型信息,并基于所述类型信息和所述目标编码层中所输出的所述待处理数据对应的特征信息,计算所述适配层的参数调整值;
基于所述参数调整值对所述适配层中初始化的模型参数进行调整;
若所述目标编码层的数量为多个,则基于所获取到的适配层为每个目标编码层分配一个适配层;
针对每个适配层,若检测到所述适配层的序号大于预设序号阈值,则将所述适配层作为目标适配层,并确定小于所述序号的其他序号;
获取所述其他序号对应的适配层所输出的特征信息;
基于所述待处理任务、所述目标适配层对应的目标编码层所输出的所述待处理数据对应的特征信息,以及所述其他序号对应的适配层所输出的特征信息,对所述目标适配层中初始化的模型参数进行调整;
基于调整后的适配层构建得到所述待处理任务的任务模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待处理任务、所述目标适配层对应的目标编码层所输出的所述待处理数据对应的特征信息,以及所述其他序号对应的适配层所输出的特征信息,对所述目标适配层中初始化的模型参数进行调整,包括:
基于所述目标编码层的权重信息和所述其他序号对应的适配层的权重信息,对所述目标编码层所输出的所述待处理数据对应的特征信息和所述其他序号对应的适配层所输出的特征信息进行加权求和计算,得到加权后的特征信息;
基于所述待处理任务的类型信息和所述加权后的特征信息对所述目标适配层中初始化的模型参数进行调整。
3.根据权利要求1所述的方法,其特征在于,所述调整后的适配层的数量为多个,每个调整后的适配层具有序号;
所述基于所述调整后的适配层构建得到所述待处理任务的任务模型,包括:
基于所述每个调整后的适配层对应的序号,将多个调整后的适配层进行连接,构建得到所述待处理任务的任务模型。
4.根据权利要求1所述的方法,其特征在于,所述基于所述类型信息和所述目标编码层中所输出的所述待处理数据对应的特征信息,计算所述适配层的参数调整值,包括:
获取所述目标编码层所输出的所述待处理数据对应的特征信息;
若检测到所获取到的特征信息与所述适配层的预设维度信息对应的维度不匹配,则对所获取到的特征信息进行维度更改,得到维度更改后的特征信息;
基于所述类型信息和所述维度更改后的特征信息,计算所述适配层的参数调整值。
5.根据权利要求4所述的方法,其特征在于,所述获取所述目标编码层所输出的所述待处理数据对应的特征信息,包括:
将待处理数据输入到所述已构建的主干模型中,以在所述目标编码层中对所述待处理数据进行特征提取,得到所述待处理数据对应的特征信息。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在所述从已构建的主干模型含有的多个编码层中选择所述待处理任务对应的目标编码层之前,所述方法还包括:
检测多个待构建任务对应待构建的主干模型的类型;
基于所述主干模型的类型获取预设数量的编码层,并将所述预设数量的编码层进行连接,得到初始的主干模型;
对所述初始的主干模型进行训练,得到所述已构建的主干模型。
7.根据权利要求1至5中任一项所述的方法,其特征在于,在所述基于调整后的适配层构建得到所述待处理任务的任务模型之后,所述方法还包括:
基于所述任务模型的输出结果计算所述任务模型的损失结果;
基于所述损失结果进行梯度回传,以对所述调整后的适配层进行模型参数的更新,并截断向所述已构建的主干模型的梯度回传,得到更新后的任务模型。
8.一种任务模型的构建装置,其特征在于,包括:
选择单元,用于从已构建的主干模型含有的多个编码层中选择待处理任务对应的目标编码层,所述待处理任务用于对待处理数据进行处理;
获取单元,用于获取与所述目标编码层的数量相匹配的适配层;
所述获取单元,还用于若所述目标编码层的数量为多个,则基于所获取到的适配层为每个目标编码层分配一个适配层;获取所述待处理任务的类型信息,并基于所述类型信息和所述目标编码层中所输出的所述待处理数据对应的特征信息,计算所述适配层的参数调整值;
处理单元,用于基于所述参数调整值对所述适配层中初始化的模型参数进行调整;针对每个适配层,若检测到所述适配层的序号大于预设序号阈值,则将所述适配层作为目标适配层,并确定小于所述序号的其他序号;获取所述其他序号对应的适配层所输出的特征信息;基于所述待处理任务、所述目标适配层对应的目标编码层所输出的所述待处理数据对应的特征信息,以及所述其他序号对应的适配层所输出的特征信息,对所述目标适配层中初始化的模型参数进行调整;
构建单元,用于基于调整后的适配层构建得到所述待处理任务的任务模型。
9.一种任务模型的构建设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311305215.XA CN117076090B (zh) | 2023-10-10 | 2023-10-10 | 任务模型的构建方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311305215.XA CN117076090B (zh) | 2023-10-10 | 2023-10-10 | 任务模型的构建方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076090A CN117076090A (zh) | 2023-11-17 |
CN117076090B true CN117076090B (zh) | 2024-03-19 |
Family
ID=88713701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311305215.XA Active CN117076090B (zh) | 2023-10-10 | 2023-10-10 | 任务模型的构建方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076090B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340190A (zh) * | 2020-02-23 | 2020-06-26 | 华为技术有限公司 | 构建网络结构的方法与装置、及图像生成方法与装置 |
CN112800053A (zh) * | 2021-01-05 | 2021-05-14 | 深圳索信达数据技术有限公司 | 数据模型的生成方法、调用方法、装置、设备及存储介质 |
CN114781654A (zh) * | 2022-06-21 | 2022-07-22 | 平安科技(深圳)有限公司 | 联邦迁移学习方法、装置、计算机设备及介质 |
CN114781648A (zh) * | 2022-04-14 | 2022-07-22 | 武汉大学 | 面向机器学习任务的自动化编排、构建、执行方法及系统 |
CN115391499A (zh) * | 2022-07-22 | 2022-11-25 | 网易(杭州)网络有限公司 | 生成多任务生成模型的方法、问答对生成方法和相关装置 |
CN116109866A (zh) * | 2023-01-18 | 2023-05-12 | 阿里巴巴(中国)有限公司 | 微调模型构建、图像分类处理方法及装置、电子设备 |
-
2023
- 2023-10-10 CN CN202311305215.XA patent/CN117076090B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340190A (zh) * | 2020-02-23 | 2020-06-26 | 华为技术有限公司 | 构建网络结构的方法与装置、及图像生成方法与装置 |
CN112800053A (zh) * | 2021-01-05 | 2021-05-14 | 深圳索信达数据技术有限公司 | 数据模型的生成方法、调用方法、装置、设备及存储介质 |
CN114781648A (zh) * | 2022-04-14 | 2022-07-22 | 武汉大学 | 面向机器学习任务的自动化编排、构建、执行方法及系统 |
CN114781654A (zh) * | 2022-06-21 | 2022-07-22 | 平安科技(深圳)有限公司 | 联邦迁移学习方法、装置、计算机设备及介质 |
CN115391499A (zh) * | 2022-07-22 | 2022-11-25 | 网易(杭州)网络有限公司 | 生成多任务生成模型的方法、问答对生成方法和相关装置 |
CN116109866A (zh) * | 2023-01-18 | 2023-05-12 | 阿里巴巴(中国)有限公司 | 微调模型构建、图像分类处理方法及装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117076090A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695674B (zh) | 联邦学习方法、装置、计算机设备及可读存储介质 | |
CN111324774B (zh) | 一种视频去重方法和装置 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN116756574B (zh) | 多模态预训练模型的训练方法、使用方法、装置和设备 | |
CN108959482A (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN113064968B (zh) | 一种基于张量融合网络的社交媒体情感分析方法及系统 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN111930894A (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN110795618B (zh) | 内容推荐方法、装置、设备及计算机可读存储介质 | |
JP2022169743A (ja) | 情報抽出方法、装置、電子機器及び記憶媒体 | |
CN110889759A (zh) | 信用数据的确定方法、装置及存储介质 | |
CN117633707B (zh) | 一种细粒度多模态中文大语言模型构建方法及计算机存储介质 | |
CN111709493A (zh) | 对象分类方法、训练方法、装置、设备及存储介质 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN117437317A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN117787380A (zh) | 模型获取方法、装置、介质及设备 | |
CN117611938A (zh) | 多模态模型训练方法、装置、设备及存储介质 | |
CN117076090B (zh) | 任务模型的构建方法、装置、设备及计算机可读存储介质 | |
CN117034133A (zh) | 一种数据处理方法、装置、设备和介质 | |
CN111144492B (zh) | 面向移动端虚拟现实与增强现实的场景图谱生成方法 | |
Zhang et al. | [Retracted] Cloud Application in the Construction of English Virtual Teaching Resources Based on Digital Three‐Dimensional Technology | |
CN113609397A (zh) | 用于推送信息的方法和装置 | |
CN114494774B (zh) | 一种图像分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |