CN118036666A - 任务处理方法、装置、设备、存储介质及计算机程序产品 - Google Patents

任务处理方法、装置、设备、存储介质及计算机程序产品 Download PDF

Info

Publication number
CN118036666A
CN118036666A CN202410438726.7A CN202410438726A CN118036666A CN 118036666 A CN118036666 A CN 118036666A CN 202410438726 A CN202410438726 A CN 202410438726A CN 118036666 A CN118036666 A CN 118036666A
Authority
CN
China
Prior art keywords
task
network
sequence
networks
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410438726.7A
Other languages
English (en)
Other versions
CN118036666B (zh
Inventor
汪玉
宁雪妃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202410438726.7A priority Critical patent/CN118036666B/zh
Publication of CN118036666A publication Critical patent/CN118036666A/zh
Application granted granted Critical
Publication of CN118036666B publication Critical patent/CN118036666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明涉及人工智能技术领域,特别涉及一种任务处理方法、装置、设备、存储介质及计算机程序产品,其中,方法包括:获取待处理的任务的输入序列;将输入序列输入训练完成的大语言模型,其中,大语言模型包括编码器、公共解码器、任务选择网络、包括与多个类型的任务对应的多个任务网络的专有任务网络和融合任务网络;利用编码器对输入序列进行编码以得到编码序列,其中编码序列表示输入序列的特征;利用公共解码器对编码序列进行解码以得到解码序列,并通过任务选择网络和/或融合任务网络处理解码序列以得到任务的输出序列。由此,解决了相关技术中训练模型过程中无法同时兼顾多个任务,且存在长程遗忘等问题。

Description

任务处理方法、装置、设备、存储介质及计算机程序产品
技术领域
本申请涉及人工智能技术领域,特别涉及一种任务处理方法、装置、设备、存储介质及计算机程序产品。
背景技术
随着深度学习技术的快速发展,自然语言处理领域能够利用神经网络处理多种任务,包括任务理解、对话以及生成等多种任务,如何在多种任务上均获得性能的提升,不损害其他任务的性能是一种值得研究的话题。
相关技术一般是通过混合数据集的方式来训练模型,但训练过程中由于参数的调整,会导致历史知识的性能丢失,且在训练过程中样本不均衡会导致模型偏向性,因此,无法同时兼顾多个任务的问题。
发明内容
本申请提供一种任务处理方法、装置、电子设备、存储介质及计算机程序产品,以解决相关技术中训练模型过程中无法同时兼顾多个任务,且存在长程遗忘等问题。
本申请第一方面实施例提供一种任务处理方法,包括以下步骤:获取待处理的任务的输入序列;将输入序列输入训练完成的大语言模型以获得任务的输出序列,其中,大语言模型包括编码器、公共解码器、任务选择网络、包括与多个类型的任务对应的多个任务网络的专有任务网络和融合任务网络;利用编码器对输入序列进行编码以得到编码序列,其中编码序列表示输入序列的特征;利用公共解码器对编码序列进行解码以得到解码序列,并通过任务选择网络和/或融合任务网络处理解码序列以得到任务的输出序列。
可选地,在本申请的一个实施例中,通过任务选择网络处理解码序列包括:任务选择网络对编码序列进行分类以得到任务与多个类型的任务中的每个类型的任务对应的任务概率;根据任务与每个类型的任务对应的任务概率选择多个任务网络中的最优任务网络和/或融合任务网络来处理解码序列以得到任务的输出序列。
可选地,在本申请的一个实施例中,专有任务网络的输出公式为:
其中,当/>的时候取值为1,其他时候取值为0;N为多个任务网络的总数,/>为1~N之间的正整数;/>为多个任务网络中任务概率最大的任务网络,/>为在第t次迭代时任务的输出序列,/>为多个任务网络中第i个任务网络的权重矩阵,/>为在第t次迭代时的公共解码器输出的解码序列。
可选地,在本申请的一个实施例中,融合任务网络的融合公式为:
其中,其中,为多个任务网络中第i个任务网络的任务概率,N为多个任务网络的总数,/>为1~N之间的正整数,/>为多个任务网络中第i个任务网络的权重矩阵。
可选地,在本申请的一个实施例中,在将输入序列输入训练完成的大语言模型之前,还包括:利用多个类型的任务样本基于训练损失函数对任务选择网络、专有任务网络和融合任务网络进行训练,其中,训练损失函数包括用于任务选择网络的第一损失函数、用于多个任务网络的第二损失函数、用于融合任务网络的第三损失函数以及用于参数蒸馏的第四损失函数。
可选地,在本申请的一个实施例中,对任务选择网络、专有任务网络和融合任务网络进行训练包括:利用第一任务样本集合对专有任务网络中的多个任务网络进行训练,其中第一任务样本集合包括多个类型中的每个类型的第一数量的任务;对经训练的多个任务网络的权重矩阵取平均以得到融合任务网络的初始权重矩阵;利用第二任务样本集合对融合任务网络进行训练以得到经训练的融合任务网络,其中第二任务样本集合包括多个类型中的每个类型的第二数量的任务。
本申请第二方面实施例提供一种任务处理装置,包括:获取模块,用于获取待处理的任务的输入序列;输入模块,用于将输入序列输入训练完成的大语言模型,其中,大语言模型包括编码器、公共解码器、任务选择网络、包括与多个类型的任务对应的多个任务网络的专有任务网络和融合任务网络;编码模块,用于利用编码器对输入序列进行编码以得到编码序列,其中编码序列表示输入序列的特征;解码模块,用于利用公共解码器对编码序列进行解码以得到解码序列,并通过任务选择网络和/或融合任务网络处理解码序列以得到任务的输出序列。
可选地,在本申请的一个实施例中,解码模块,进一步用于:任务选择网络对编码序列进行分类以得到任务与多个类型的任务中的每个类型的任务对应的任务概率;根据任务与每个类型的任务对应的任务概率选择多个任务网络中的最优任务网络和/或融合任务网络来处理解码序列以得到任务的输出序列;
融合任务网络的融合公式为:
其中,为多个任务网络中第i个任务网络的任务概率,N为多个任务网络的总数,/>为1~N之间的正整数,/>为多个任务网络中第i个任务网络的权重矩阵。
可选地,在本申请的一个实施例中,专有任务网络的输出公式为:
其中,当/>的时候取值为1,其他时候取值为0;/>为多个任务网络中任务概率最大的任务网络,/>为在第t次迭代时任务的输出序列,/>为多个任务网络中第i个任务网络的权重矩阵,/>为在第t次迭代时的公共解码器输出的解码序列。
可选地,在本申请的一个实施例中,任务处理装置还包括:训练模块,用于在将输入序列输入训练完成的大语言模型之前,利用多个类型的任务样本基于训练损失函数对任务选择网络、专有任务网络和融合任务网络进行训练,其中,训练损失函数包括用于任务选择网络的第一损失函数、用于多个任务网络的第二损失函数、用于融合任务网络的第三损失函数以及用于参数蒸馏的第四损失函数。
可选地,在本申请的一个实施例中,训练模块进一步用于利用第一任务样本集合对专有任务网络中的多个任务网络进行训练,其中第一任务样本集合包括多个类型中的每个类型的第一数量的任务;对经训练的多个任务网络的权重矩阵取平均以得到融合任务网络的初始权重矩阵;利用第二任务样本集合对融合任务网络进行训练以得到经训练的融合任务网络,其中第二任务样本集合包括多个类型中的每个类型的第二数量的任务。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序,以实现如上述实施例的任务处理方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例的任务处理方法。
本申请第五方面实施例提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时,用于实现如上述实施例的任务处理方法。
由此,本申请至少具有如下有益效果:
本申请实施例可以通过大语言模型选择合适的任务网络,避免模型的长程遗忘,大大提高了任务的性能。同时通过融合不同的最优任务网络的网络参数,来获得多任务之间的平衡,避免因为数据不均衡导致的模型偏向性问题,从而使得大语言模型在多种任务中都获得性能的增益。由此,解决了相关技术中训练模型过程中无法同时兼顾多个任务,且存在长程遗忘等问题。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的任务处理方法的流程图;
图2为根据本申请一个实施例提供的任务处理方法的示例图;
图3为根据本申请实施例提供的任务处理装置的方框图;
图4为根据本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的任务处理方法、装置、电子设备及存储介质。针对上述背景技术中提到的问题,本申请提供了一种任务处理方法,在该方法中,通过大语言模型选择合适的任务网络,避免模型的长程遗忘,大大提高了任务的性能。同时通过融合不同的最优任务网络的网络参数,来获得多任务之间的平衡,避免因为数据不均衡导致的模型偏向性问题,从而使得大语言模型在多任务中都获得性能的增益。由此,解决了相关技术中训练模型过程中无法同时兼顾多个任务,且存在长程遗忘等问题。
具体而言,图1为本申请实施例所提供的一种任务处理方法的流程示意图。
如图1所示,该任务处理方法包括以下步骤:
在步骤S101中,获取待处理的任务的输入序列。
其中,任务可以为自然语言处理领域的任何合适的任务,包括但不限于文本分类、摘要、对话等。每个任务都有相应的输入文本,本申请实施例可以通过对输入文本进行预处理而得到输入序列。例如,预处理可以包括但不限于以下中的一项或多项:分词、清洗、标准化等。
在步骤S102中,将输入序列输入训练完成的大语言模型。
其中,大语言模型包括编码器、公共解码器、任务选择网络、包括与多个类型的任务对应的多个任务网络的专有任务网络和融合任务网络。
在步骤S103中,利用编码器对输入序列进行编码以得到编码序列,其中编码序列表示输入序列的特征。
在步骤S104中,利用公共解码器对编码序列进行解码以得到解码序列,并通过任务选择网络和/或融合任务网络处理解码序列以得到任务的输出序列。
本申请实施例的公共解码器可以包括在前馈层前面的任何合适的层,例如,带掩码的多头注意力层和/或多头注意力层等,其中,任务选择网络或融合任务网络相当于前馈层(即,全连接层)。
进一步地,通过任务选择网络处理解码序列包括:任务选择网络对编码序列进行分类以得到任务与多个类型的任务中的每个类型的任务对应的任务概率;根据任务与每个类型的任务对应的任务概率选择多个任务网络中的最优任务网络或融合任务网络来处理解码序列以得到任务的输出序列。
本申请实施例的任务选择网络可以如图2所示的任务选择器,对于输入序列(包含长度为L的词元(token)),其经过编码器的长度为L,维度为C,经过任务选择器(例如,softmax函数),再经过全局池化(例如,全局最大池化或均值池化),可以获得C维的全局特征/>,该特征就包含着全部输入的信息。通过对全局特征的分类,即可获得任务概率,其中/>的维度为N,对应着N种类型的任务网络,如图2所示的任务网络1、任务网络2……任务网络N-1和任务网络N。每个任务网络都有相应的权重矩阵。
如图2所示,本申请实施例可以通过三种方式处理解码序列以得到任务的输出序列。
1、根据任务与每个类型的任务对应的任务概率选择多个任务网络中的最优任务网络来处理解码序列以得到任务的输出序列,直接选择概率最大的任务网络为最优任务网络;
任务网络针对第t个token的输出为, 对于公共解码器的输出,本申请实施例可以称其为/>,其中t表示轮次。对于专有任务网络(包括任务网络1、任务网络2……任务网络N-1和任务网络N),在推理过程中,本申请实施例可以通过/>来选择最优的任务网络。其中,c是任务网络的编号。
对于专有任务网络,其定义模型的输出可以表达成以下的公式:
其中,为当/>的时候,条件为真时为1,其他时候为0;/>为第i个任务网络的权重矩阵,/>为解码器的输出;N为多个任务网络的总数,/>为1~N之间的正整数。
2、任务选择器选择多个任务网络中的目标任务网络后,将所有任务网络的权重按照概率加权后得到融合任务网络的权重,再通过融合任务网络得到任务的输出序列。通过融合任务网络,融合不同的最优任务网络的网络参数,来获得多任务之间的平衡,从而使得大语言模型在多任务中都获得性能的增益。
其中,融合任务网络用于融合每个任务的最优任务网络的网络参数,保证兼顾多个任务网络,其网络参数的融合公式如下:
其中,为任务概率,即任务与第i个任务网络对应的概率,/>为任务网络的类型编号,取值为1~N之间的正整数。
3、为了减少线上实时计算权重所需的时间,本申请实施例可以直接选择融合任务网络来产生任务的输出序列。此方式中,融合任务网络的权重可以通过进行预先训练而得到。
在本申请的一个实施例中,在将输入序列输入训练完成的大语言模型之前,还包括:利用多个类型的任务样本基于训练损失函数对任务选择网络、专有任务网络和融合任务网络进行训练,其中,训练损失函数包括用于任务选择网络的第一损失函数、用于多个任务网络的第二损失函数、用于融合任务网络的第三损失函数以及用于参数蒸馏的第四损失函数。
对任务选择网络、专有任务网络和融合任务网络进行训练主要可以包括两个阶段:
1)第一训练阶段用于产生专有任务网络:
训练损失函数定义为:
其中,为第一损失函数(例如,交叉熵损失函数),用来监督任务的选择。为第i个任务网络的第二损失函数。/>为用于融合任务网络的第三损失函数。
此外,为进行参数蒸馏的第四损失函数,从而保证融合任务网络不偏离每种任务网络的权重。
2)第二训练阶段可以获得通用网络参数。
获取N种类型中的每种类型的样本M个,通过M×N个样本来训练专有任务网络中的任务网络,统计融合任务网络的权重,获得取平均之后的权重/>。应理解,不同类型的训练样本数也可以不同。采用每种类型的相同数量的训练样本进行训练可以确保模型不会偏向某个类型,均衡融合任务网络的通用性能。
可选地,可以将该权重作为初始权重,然后再利用A×N个样本对融合任务网络进行训练,获得融合之后并且经优化的权重/>,在这个过程中,只训练融合任务网络,不调整专有任务网络中的任务网络的权重。其中,A和M可以相同或不同。
应理解,可替代地,可以不进行第二训练阶段,这种情况下融合任务网络的权重可以在推理时通过对专有任务网络中的任务网络的权重进行在线融合而得到。
进一步地,本申请实施例可以根据多个任务的任务类型选择不同的测试方式:
1)专有任务测试
测试流程:编码器、公共解码器 ->任务选择网络->指定任务网络输出
2)通用任务测试方案1
测试流程:编码器、公共解码器 ->任务选择网络->在线权重融合 ->融合任务网络输出
3)通用任务测试方案2,该方案相对于通用任务测试方案1来说,速度更快。
测试流程:编码器、公共解码器 ->融合任务网络输出
根据本申请实施例提出的任务处理方法,能够通过大语言模型选择合适的任务网络,避免模型的长程遗忘,大大提高了任务的性能。同时通过融合不同的任务网络的网络参数,来获得多任务之间的平衡,避免因为数据不均衡导致的模型偏向性问题,从而使得大语言模型在多任务中都获得性能的增益。由此,解决了相关技术中训练模型过程中无法同时兼顾多个任务,且存在长程遗忘等问题。
其次参照附图描述根据本申请实施例提出的任务处理装置。
图3是本申请实施例的任务处理装置的方框示意图。
如图3所示,该任务处理装置10包括:获取模块100、输入模块200、编码模块300和解码模块400。
其中,获取模块100用于获取待处理的任务的输入序列;输入模块200用于将输入序列输入训练完成的大语言模型,其中,大语言模型包括编码器、公共解码器、任务选择网络、包括与多个类型的任务对应的多个任务网络的专有任务网络和融合任务网络;编码模块300用于利用编码器对输入序列进行编码以得到编码序列,其中编码序列表示输入序列的特征;解码模块400用于利用公共解码器对编码序列进行解码以得到解码序列,并通过任务选择网络和/或融合任务网络处理解码序列以得到任务的输出序列。
在本申请的一个实施例中,解码模块400进一步用于:任务选择网络对编码序列进行分类以得到任务与多个类型的任务中的每个类型的任务对应的任务概率;根据任务与每个类型的任务对应的任务概率选择多个任务网络中的最优任务网络或融合任务网络来处理解码序列以得到任务的输出序列;
融合任务网络的融合公式为:
其中,为多个任务网络中第i个任务网络的任务概率,N为多个任务网络的总数,/>为1~N之间的正整数,/>为多个任务网络中第i个任务网络的权重矩阵。
在本申请的一个实施例中,专有任务网络的输出公式为:
其中,当/>的时候取值为1,其他时候取值为0;/>为多个任务网络中任务概率最大的任务网络,/>为在第t次迭代时任务的输出序列,/>为多个任务网络中第i个任务网络的权重矩阵,/>为在第t次迭代时的公共解码器输出的解码序列。
在本申请的一个实施例中,任务处理装置10还包括:训练模块,用于在将输入序列输入训练完成的大语言模型之前,利用多个类型的任务样本基于训练损失函数对任务选择网络、专有任务网络和融合任务网络进行训练,其中,训练损失函数包括用于任务选择网络的第一损失函数、用于多个任务网络的第二损失函数、用于融合任务网络的第三损失函数以及用于参数蒸馏的第四损失函数。
在本申请的一个实施例中,训练模块进一步用于利用第一任务样本集合对专有任务网络中的多个任务网络进行训练,其中第一任务样本集合包括多个类型中的每个类型的第一数量的任务;对经训练的多个任务网络的权重矩阵取平均以得到融合任务网络的初始权重矩阵;利用第二任务样本集合对融合任务网络进行训练以得到经训练的融合任务网络,其中第二任务样本集合包括多个类型中的每个类型的第二数量的任务。
需要说明的是,前述对任务处理方法实施例的解释说明也适用于该实施例的任务处理装置,此处不再赘述。
根据本申请实施例提出的任务处理装置,能够通过大语言模型选择合适任务网络,避免模型的长程遗忘,大大提高了任务的性能。同时通过融融合不同的最优任务网络的网络参数,来获得多任务之间的平衡,避免因为数据不均衡导致的模型偏向性问题,从而使得大语言模型在多任务中都获得性能的增益。由此,解决了相关技术中训练模型过程中无法同时兼顾多个任务,且存在长程遗忘等问题。
图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
处理器402执行程序时实现上述实施例中提供的任务处理方法。
进一步地,电子设备还包括:
通信接口403,用于存储器401和处理器402之间的通信。
存储器401,用于存放可在处理器402上运行的计算机程序。
存储器401可能包含高速RAM(Random Access Memory,随机存取存储器)存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
如果存储器401、处理器402和通信接口403独立实现,则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral Component,外部设备互连)总线或EISA(Extended Industry Standard Architecture,扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器401、处理器402及通信接口403,集成在一块芯片上实现,则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。
处理器402可能是一个CPU(Central Processing Unit,中央处理器),或者是ASIC(Application Specific Integrated Circuit,特定集成电路),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的任务处理方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,以用于实现上述的任务处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种任务处理方法,其特征在于,包括以下步骤:
获取待处理的任务的输入序列;
将所述输入序列输入训练完成的大语言模型,其中,所述大语言模型包括编码器、公共解码器、任务选择网络、包括与多个类型的任务对应的多个任务网络的专有任务网络和融合任务网络;
利用所述编码器对所述输入序列进行编码以得到编码序列,其中所述编码序列表示所述输入序列的特征;
利用所述公共解码器对所述编码序列进行解码以得到解码序列,并通过任务选择网络和/或融合任务网络处理所述解码序列以得到所述任务的输出序列。
2.根据权利要求1所述的任务处理方法,其特征在于,所述通过所述任务选择网络处理所述解码序列包括:
所述任务选择网络对所述编码序列进行分类以得到所述任务与所述多个类型的任务中的每个类型的任务对应的任务概率;
根据所述任务与每个类型的任务对应的任务概率选择所述多个任务网络中的最优任务网络和/或所述融合任务网络来处理所述解码序列以得到所述任务的输出序列。
3.根据权利要求1或2所述的任务处理方法,其特征在于,所述专有任务网络的输出公式为:
其中,当/>的时候取值为1,其他时候取值为0;N为所述多个任务网络的总数,/>为1~N之间的正整数;/>为所述多个任务网络中任务概率最大的任务网络,/>为在第t次迭代时所述任务的输出序列,/>为所述多个任务网络中第i个任务网络的权重矩阵,/>为在第t次迭代时的公共解码器输出的解码序列。
4.根据权利要求2所述的任务处理方法,其特征在于,所述融合任务网络的融合公式为:
其中,为所述多个任务网络中第i个任务网络的任务概率,/>为所述多个任务网络中第i个任务网络的权重矩阵。
5.根据权利要求2或4所述的任务处理方法,其特征在于,在将所述输入序列输入训练完成的大语言模型之前,还包括:
利用多个类型的任务样本基于训练损失函数对所述任务选择网络、所述专有任务网络和所述融合任务网络进行训练,
其中,所述训练损失函数包括用于所述任务选择网络的第一损失函数、用于所述多个任务网络的第二损失函数、用于融合任务网络的第三损失函数以及用于参数蒸馏的第四损失函数。
6.根据权利要求5所述的任务处理方法,其特征在于,对所述任务选择网络、所述专有任务网络和所述融合任务网络进行训练包括:
利用第一任务样本集合对所述专有任务网络中的多个任务网络进行训练,其中所述第一任务样本集合包括所述多个类型中的每个类型的第一数量的任务;
对经训练的所述多个任务网络的权重矩阵取平均以得到所述融合任务网络的初始权重矩阵;
利用第二任务样本集合对所述融合任务网络进行训练以得到经训练的融合任务网络,其中所述第二任务样本集合包括所述多个类型中的每个类型的第二数量的任务。
7.一种任务处理装置,其特征在于,包括:
获取模块,用于获取待处理的任务的输入序列;
输入模块,用于将所述输入序列输入训练完成的大语言模型,其中,所述大语言模型包括编码器、公共解码器、任务选择网络、包括与多个类型的任务对应的多个任务网络的专有任务网络和融合任务网络;
编码模块,用于利用所述编码器对所述输入序列进行编码以得到编码序列,其中所述编码序列表示所述输入序列的特征;
解码模块,用于利用所述公共解码器对所述编码序列进行解码以得到解码序列,并通过任务选择网络和/或融合任务网络处理所述解码序列以得到所述任务的输出序列。
8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-6任一项所述的任务处理方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-6任一项所述的任务处理方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时,用于实现权利要求1-6任一项所述的任务处理方法。
CN202410438726.7A 2024-04-12 2024-04-12 任务处理方法、装置、设备、存储介质及计算机程序产品 Active CN118036666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410438726.7A CN118036666B (zh) 2024-04-12 2024-04-12 任务处理方法、装置、设备、存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410438726.7A CN118036666B (zh) 2024-04-12 2024-04-12 任务处理方法、装置、设备、存储介质及计算机程序产品

Publications (2)

Publication Number Publication Date
CN118036666A true CN118036666A (zh) 2024-05-14
CN118036666B CN118036666B (zh) 2024-06-11

Family

ID=90991536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410438726.7A Active CN118036666B (zh) 2024-04-12 2024-04-12 任务处理方法、装置、设备、存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN118036666B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230086078A1 (en) * 2021-09-22 2023-03-23 Lenovo (Singapore) Pte. Ltd. Selecting a joint equalization and decoding model
CN116524320A (zh) * 2023-03-21 2023-08-01 国电电力宁夏新能源开发有限公司 目标检测和语义分割的多任务目标检测模型
CN116775807A (zh) * 2023-06-02 2023-09-19 阿里云计算有限公司 自然语言处理、模型训练方法、设备及存储介质
CN117114063A (zh) * 2023-08-30 2023-11-24 北京百度网讯科技有限公司 用于训练生成式大语言模型和用于处理图像任务的方法
CN117332366A (zh) * 2023-09-28 2024-01-02 北京有竹居网络技术有限公司 信息处理方法、任务执行方法、装置、设备及介质
CN117744754A (zh) * 2024-02-19 2024-03-22 浙江同花顺智能科技有限公司 大语言模型任务处理方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230086078A1 (en) * 2021-09-22 2023-03-23 Lenovo (Singapore) Pte. Ltd. Selecting a joint equalization and decoding model
CN116524320A (zh) * 2023-03-21 2023-08-01 国电电力宁夏新能源开发有限公司 目标检测和语义分割的多任务目标检测模型
CN116775807A (zh) * 2023-06-02 2023-09-19 阿里云计算有限公司 自然语言处理、模型训练方法、设备及存储介质
CN117114063A (zh) * 2023-08-30 2023-11-24 北京百度网讯科技有限公司 用于训练生成式大语言模型和用于处理图像任务的方法
CN117332366A (zh) * 2023-09-28 2024-01-02 北京有竹居网络技术有限公司 信息处理方法、任务执行方法、装置、设备及介质
CN117744754A (zh) * 2024-02-19 2024-03-22 浙江同花顺智能科技有限公司 大语言模型任务处理方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIYAO LI 等: "Evaluating Quantized Large Language Models", 《ARXIV》, 28 February 2024 (2024-02-28) *

Also Published As

Publication number Publication date
CN118036666B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN112116030B (zh) 一种基于向量标准化和知识蒸馏的图像分类方法
CN113033811B (zh) 两量子比特逻辑门的处理方法及装置
CN111507521A (zh) 台区电力负荷预测方法及预测装置
CN112232513A (zh) 一种量子态的制备方法及装置
CN110890985B (zh) 虚拟网络映射方法及其模型训练方法、装置
CN112528634A (zh) 文本纠错模型训练、识别方法、装置、设备及存储介质
CN115017178A (zh) 数据到文本生成模型的训练方法和装置
CN114490950A (zh) 编码器模型的训练方法及存储介质、相似度预测方法及系统
CN114358216B (zh) 基于机器学习框架的量子聚类方法及相关装置
CN109670582B (zh) 一种全定点化神经网络的设计方法
CN118036666B (zh) 任务处理方法、装置、设备、存储介质及计算机程序产品
CN116756536B (zh) 数据识别方法、模型训练方法、装置、设备及存储介质
CN115049852B (zh) 一种轴承故障诊断方法、装置、存储介质及电子设备
US9336498B2 (en) Method and apparatus for improving resilience in customized program learning network computational environments
CN114511767B (zh) 一种面向时序图数据的快速的状态预测方法
CN116280094A (zh) 一种基于Conv-Bi-LSTM模型的船舶升沉运动预测系统及预测方法
CN111916049B (zh) 一种语音合成方法及装置
Liang et al. Exploiting noise correlation for channel decoding with convolutional neural networks
CN114238658A (zh) 时序知识图谱的链接预测方法、装置及电子设备
KR20210058548A (ko) 인공 신경망을 이용한 자동변속기 모델링 방법
CN111033532B (zh) 生成对抗网络的训练方法和系统、电子设备和存储介质
CN112994923B (zh) 网元选取方法及装置
CN118036678B (zh) 自动化注意力稀疏化方法、装置、电子设备及存储介质
CN112949315B (zh) 基于文本生成网络生成用户描述文本的方法和装置
CN117010459B (zh) 基于模块化和序列化自动生成神经网络的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant