CN115438176A - 下游任务模型生成及任务执行的方法和设备 - Google Patents

下游任务模型生成及任务执行的方法和设备 Download PDF

Info

Publication number
CN115438176A
CN115438176A CN202211387996.7A CN202211387996A CN115438176A CN 115438176 A CN115438176 A CN 115438176A CN 202211387996 A CN202211387996 A CN 202211387996A CN 115438176 A CN115438176 A CN 115438176A
Authority
CN
China
Prior art keywords
task
model
downstream
input
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211387996.7A
Other languages
English (en)
Other versions
CN115438176B (zh
Inventor
杨浩
林俊旸
杨安
王鹏
周畅
杨红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202211387996.7A priority Critical patent/CN115438176B/zh
Publication of CN115438176A publication Critical patent/CN115438176A/zh
Application granted granted Critical
Publication of CN115438176B publication Critical patent/CN115438176B/zh
Priority to PCT/CN2023/127845 priority patent/WO2024099144A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提供一种下游任务模型生成及任务执行的方法和设备。本申请的方法,通过获取所述下游任务场景下的训练数据集,并在预训练模型的原有参数上增加下游任务执行参数,在对预训练模型进行微调训练过程中,固定预训练模型的原有参数,只基于下游任务场景下的训练数据集优化增加的少量下游任务执行参数,从而可以保留预训练模型在预训练预语料中学习的知识,并且减少需要优化的参数数量,在仅仅使用少量样本的情况获得较好的微调训练效果,能够减少微调所有模型参数带来的计算开销,提高预训练模型微调的效率,实现预训练模型的快速微调,提高下游任务模型的生成效率和性能。

Description

下游任务模型生成及任务执行的方法和设备
技术领域
本申请涉及计算机技术,尤其涉及一种下游任务模型生成及任务执行的方法和设备。
背景技术
随着计算机技术的快速发展,自然语言处理也随之蓬勃发展,在自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域中,预训练语言模型得到了广泛的关注和使用,预训练语言模型可以在大规模的未标记语料上进行预训练,并能够学习通用的语言表示,这些表示可以用于其他下游任务,如视觉问答(Visual QuestionAnswering,简称VQA)、图像描述(Image Caption,简称IC)、视觉蕴涵(Visual Entailment,检查VE)、指代表达与理解(Referring Expression Comprehension,简称REC)等NLP与计算机视觉交叉领域的任务,以及基于文本的情感分类任务和文本摘要任务等自然语言处理领域的任务,可以应用于视觉助理、智能机器人、在线教育等各个具体应用领域。
在应用于下游任务时,需要基于下游任务的数据集对预训练任务进行微调,以使微调后模型更加适用于下游任务。丰富多样的下游任务使得预训练模型在微调阶段的目标设计非常繁琐复杂,由于预训练模型与下游任务之间目标不一致,往往存在着“隔阂”,输入和输出之间存在结构偏差(structure bias),因此预训练模型通常无法直接适配下游任务,需要使用下游任务数据集微调预训练模型的参数。但是,随着预训练模型规模不断增大,预训练模型微调的硬件要求和下游数据需求都在不断上涨,通过微调预训练模型的参数生成下游任务模型的效率低。
发明内容
本申请提供一种下游任务模型生成及任务执行的方法和设备,用以解决通过微调预训练模型的参数生成下游任务模型的效率低的问题。
第一方面,本申请提供一种下游任务模型生成方法,包括:
获取下游任务场景下的训练数据集;
在预训练模型的原有参数上增加下游任务执行参数;
使用所述训练数据集调整所述预训练模型中的下游任务执行参数,生成所述下游任务的任务模型,所述下游任务的任务模型用于执行所述下游任务。
第二方面,本申请提供一种任务执行方法,包括:
响应于下游任务执行指令,获取输入数据;
根据所述下游任务场景下任务模型的输入的格式信息,生成所述输入数据对应的输入信息;
将所述输入信息输入训练好的任务模型进行处理,得到任务处理结果,所述任务模型是通过在预训练模型的原有参数上增加下游任务执行参数,基于所述下游任务场景下的训练数据集对所述预训练模型中的下游任务执行参数进行调整后得到的;
输出所述任务处理结果。
第三方面,本申请提供一种视觉问答任务执行方法,包括:
获取输入的图像和问题文本;
根据视觉问答任务场景下视觉问答任务模型的输入的格式信息、所述图像和问题文本,生成视觉问答任务模型的输入信息;
将所述输入信息输入视觉问答任务模型进行处理,得到所述问题文本对应的答案文本,所述视觉问答任务模型是通过在预训练模型的原有参数上增加下游任务执行参数,基于所述视觉问答任务场景下的训练数据集对所述预训练模型中的下游任务执行参数进行调整得到的;
输出所述问题文本对应的答案文本。
第四方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现上述任一方面所述的方法。
第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述任一方面所述的方法。
本申请提供的下游任务模型生成及任务执行的方法和设备,通过获取所述下游任务场景下的训练数据集,并在预训练模型的原有参数上增加下游任务执行参数,在对预训练模型进行微调训练过程中,固定预训练模型的原有参数,只基于下游任务场景下的训练数据集优化增加的少量下游任务执行参数,从而可以保留预训练模型在预训练预语料中学习的知识,并且减少需要优化的参数数量,在仅仅使用少量样本的情况获得较好的微调训练效果,能够减少微调所有模型参数带来的计算开销,提高预训练模型微调训练的效率,实现预训练模型的快速微调,提高下游任务模型的生成效率和性能。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请所适用的一示例网络架构的示意图;
图2为本申请一示例性实施例提供的下游任务模型生成方法流程图;
图3为本申请提供的下游任务模型生成方法提升微调训练效率的效果示意图;
图4为本申请一示例性实施例提供的多模态任务模型生成方法流程图;
图5为本申请一示例性实施例提供的任务执行方法流程图;
图6为本申请一示例性实施例提供的视觉问答任务执行方法流程图;
图7为本申请一示例实施例提供的下游任务模型生成装置的结构示意图;
图8为本申请一示例实施例提供的任务执行装置的结构示意图;
图9为本申请一示例实施例提供的视觉问答任务执行装置的结构示意图;
图10为本申请一示例实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
视觉问答任务:根据输入的图像和问题,从输入图像的视觉信息中确定问题的答案。
图像描述任务:生成输入图像的描述文本。
视觉蕴涵任务:预测输入图像和文本在语义上的相关性,即蕴涵、中性或矛盾。
指代表达与理解任务:根据输入文本定位输入图像中与输入文本对应的图像区域。
图像生成任务:基于输入的描述文本生成图像。
基于文本的情感分类任务:预测输入文本的情感分类信息。
文本摘要任务:生成输入文本的摘要信息。
多模态任务:是指输入输出数据涉及图像和文本等多种模态数据的下游任务,例如视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务等。
多模态预训练模型:是指输入输出数据涉及图像和文本等多种模态数据的预训练模型,经过微调训练后可以应用于多模态任务处理。如CLIP(Contrastive Language-ImagePre-training)模型为一种多模态预训练模型。
快速微调策略(Prompt tuning):用于辅助大规模预训练模型进行微调训练的方法。
下游任务执行参数(Prompt):也称为提示参数,是预训练模型快速微调策略中所增加的可训练参数。
预训练模型微调的方法存在如下技术缺陷:随着预训练模型规模不断增大,预训练模型微调训练的硬件要求和下游数据需求都在不断上涨,预训练模型微调训练的效率低。
为了解决上述技术问题,现有的一种基于提示的预训练模型微调方法为:在类别向量前面加入一组提示(prompt),通过添加了提示(prompt)的类别向量与样本向量进行匹配,选择匹配分类高的类别作为当前样本的类别。但是,在用于不同的下游任务时,需要为每个下游任务及数据集设计合适的提示(prompt),当数据集或者下游任务很多时,非常耗时耗力,另外手工设计提示(prompt)不太稳定,对某个词(或单词)可能很敏感,导致微调训练效果不好。
本申请提供一种下游任务模型生成方法,在对预训练模型进行微调训练生成下游任务模型时,获取下游任务场景下的训练数据集;在预训练模型的原有参数上增加下游任务执行参数;基于下游任务场景下的训练数据集对预训练模型中的下游任务执行参数进行调整,并固定预训练模型的原有参数,下游任务执行参数调整完成后,得到下游任务的任务模型,因为预训练模型的原有参数固定不变,因此可以保留预训练模型在预训练预语料中学习的知识,并且,仅微调数量较少的下游任务执行参数,使用较少的下游任务训练数据即可微调训练得到满足要求的下游任务模型,在同等训练数据集规模下,提高了预训练模型微调训练效果,随着预训练模型规模的增加,微调训练的效率提升越来越显著。
图1为本申请所适用的一示例网络架构的示意图。如图1所示,该网络架构包括负责生成下游任务模型的服务器,以及负责基于下游任务模型执行下游任务的电子设备。
其中,服务器可以是部署在云端的服务器集群、或者本地具有计算能力的设备。该服务器上存储有经过大规模训练预料预训练完成的预训练模型。服务器能够获取下游任务场景下的训练数据集。服务器在进行预训练模型的微调训练生成下游任务模型时,固定预训练模型的原有参数,在预训练模型的原有参数上增加下游任务执行参数,基于下游任务场景下的训练数据集对预训练模型中的下游任务执行参数进行训练,训练完成后即可得到下游任务的任务模型。进一步地,服务器可以将得到的下游任务的任务模型发送至指定的电子设备。
该电子设备可以是向服务器请求生成下游任务的任务模型的客户端设备,也可以是请求生成下游任务的任务模型的用户/服务器所属服务平台指定的另一电子设备,具体可以是客户本地部署的计算设备,也可以是云端部署的服务器等。
该电子设备可以用于执行下游任务并对外提供相应地服务,响应于下游任务的执行指令,电子设备获取下游任务的输入数据;根据下游任务场景下任务模型的输入的格式信息,生成任务模型的输入信息;将输入信息输入下游任务的任务模型进行处理,得到下游任务处理结果,并输出下游任务处理结果。
示例性地,以下游任务为视觉问答任务为例,服务器根据视觉问答任务场景下的训练数据集,在预训练的语言模型的原有参数上增加下游任务执行参数,基于视觉问答任务的训练数据对预训练语言模型中的下游任务执行参数进行训练,训练完成后即可得到视觉问答模型。该视觉问答模型可以部署到本地/另一云端服务器,以对外提供视觉问答功能。在需要执行视觉问答任务时,部署有视觉问答模型的设备获取下视觉问答任务场景下输入的图像和问题文本,根据视觉问答任务场景下的视觉问答任务模型的输入的格式信息、图像和问题文本,生成视觉问答任务模型的输入信息;将输入信息输入下游任务的任务模型进行处理,得到下游任务处理结果,并输出下游任务处理结果。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请一示例性实施例提供的下游任务模型生成方法流程图,本实施例的执行主体可以为上述负责生成下游任务模型的服务器。如图2所示,该方法具体步骤如下:
步骤S201、获取下游任务场景下的训练数据集。
本实施例中,不同下游任务场景下任务目标不同,也即是任务模型的输入和输出不完全相同,已实现不同的下游任务功能。
在对预训练模型进行微调生成下游任务的任务模型时,不同下游任务场景下使用的训练数据集不同,可以根据具体下游任务场景的任务目标设计待生成的下游任务模型的输入的格式信息和输出的格式信息。在获取下游任务场景下的训练数据集时,基于下游任务模型的输入的格式信息和输出的格式信息生成。
示例性地,一示例视觉问答任务场景下,任务模型的输入包括输入图像和问题,输出为问题的答案文本。生成式的图像描述任务场景下,任务模型的输入包括输入图像,以及特定的提示文本,输出为输入图像的描述文本。
步骤S202、在预训练模型的原有参数上增加下游任务执行参数。
本实施例中,在预训练模型的原有参数上增加下游任务执行参数,所增加的下游任务执行参数的量远小于原有参数的量。
其中,下游任务执行参数可以随机初始化生成的一组参数,或者是根据具体下游任务场景下的数据生成的一组参数。在对预训练模型进行微调生成下游任务模型时,仅调整预训练模型中的下游任务执行参数,以得到更加适用于特定下游任务场景的任务模型。
示例性地,可以在预训练模型的原有参数上拼接下游任务执行参数。具体地,可以在预训练模型的一层或多层参数上分别拼接下游任务执行参数。
步骤S203、使用训练数据集调整预训练模型中的下游任务执行参数,生成下游任务的任务模型,下游任务的任务模型用于执行下游任务。
该步骤中,在对预训练模型进行微调训练,生成下游任务模型的过程中,固定预训练模型的原有参数,使用下游任务场景下的训练数据集,对预训练模型中的下游任务执行参数进行训练,也即不更新预训练模型的原有参数,仅更新所增加的下游任务执行参数,训练完成后得到下游任务的任务模型。
本实施例中,基于同一预训练模型生成的多个下游任务的任务模型中预训练模型的原有参数相同,不同的是增加的下游任务执行参数。
具体地,将训练数据集中的样本数据对应的输入信息输入增加了下游任务执行参数的预训练模型,输出处理结果;根据处理结果与样本数据对应的标注数据,以及预设的损失函数计算损失值,根据损失值更新预训练模型中增加的下游任务执行参数。
其中,损失函数、训练结束的条件等的设置与现有的预训练模型微调训练方法中的设置方式类似,此处不再赘述。
本实施例中,下游任务模型可以应用于自然语言处理领域或计算机视觉领域。
示例性地,预训练模型可以为预训练的语言模型,下游任务可以包括如下至少一种:视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务、基于文本的情感分类任务、文本摘要任务。其中,视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务属于自然语言处理与计算机视觉的交叉领域,基于文本的情感分类任务、文本摘要任务属于自然语言处理领域。
通过本实施例提供的方法,基于其中任一下游任务场景下的训练数据集对增加了下游任务执行参数的预训练语言模型中的下游任务执行参数进行微调训练,可以得到用于执行该下游任务的任务模型。
本申请提供方法,具体可以应用于实现帮助视弱、盲人患者理解网上的图片、辨别物体、了解周围的环境等视觉助理功能;还可以用于VR程序中帮助用户与虚拟伙伴进行交流等的聊天机器人功能;还可以用于在线教育等场景中,帮助回答学生的问题等。
另外,本实施例提供的方法,可以用于除语言模型之外的其他预训练模型的微调训练,可以是生成式的预训练模型、预训练的分类模型、多模态预训练模型等等,此处不做具体限定。
本实施例中,在对预训练模型进行微调训练,生成下游任务模型的过程中,固定预训练模型的原有参数,只优化增加的少量下游任务执行参数,从而可以减少需要优化的参数数量,可以实现在仅仅使用少量样本的情况获得较好的微调训练效果,并且保留预训练模型在预训练预语料中学习的知识,从而避免微调所有模型参数带来的计算开销,提高预训练模型微调训练的效率,实现预训练模型的快速微调训练,从而提高生成下游任务模型的效率。在一可选实施方式中,基于图1所示的网络架构,服务器在微调训练预训练模型得到下游任务的任务模型之后,还可以将下游任务的任务模型发送至用于执行下游任务的电子设备。电子设备利用下游任务的任务模型执行下游任务,可以实现下游任务对应功能、或对外提供下游任务对应服务。
该电子设备可以是向服务器请求生成下游任务的任务模型的客户端设备,也可以是请求生成下游任务的任务模型的用户/服务器所属服务平台指定的另一电子设备,具体可以是客户本地部署的计算设备,也可以是云端部署的服务器等。
示例性地,服务器可以对外提供生成视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务、基于文本的情感分类任务、文本摘要任务等下游任务的任务模型的功能。服务器可以基于用户指定的下游任务,基于预训练的语言模型,使用用户指定的下游任务场景下的训练数据集对预训练的语言模型中增加的下游任务执行参数进行训练,生成指定下游任务的任务模型,并将下游任务的任务模型提供给用户指定的电子设备。用户可以指定视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务、基于文本的情感分类任务、文本摘要任务等下游任务中的任意一种。
可选地,服务器还可以存储已生成的一个或多个下游任务的任务模型,以便于下次需要时直接获取。
可选地,在存储各个下游任务的任务模型时,由于基于同一预训练模型训练生成的任务模型中,仅下游任务执行参数不同,而预训练模型的原有参数是完全相同的,因此可以存储一份预训练模型的原有参数,并存储训练完成后各个下游模型的下游任务执行参数。在需要获取某一下游任务场景下的任务模型时,通过在预训练模型的原有参数上增加该下游任务场景下训练完成的下游任务执行参数,即可得到下游任务的任务模型的完整参数,生成该下游任务场景下的任务模型,从而可以节省存储空间,并且任务模型的管理和维护更加灵活。
在另一可选实施方式中,在调整预训练模型中的下游任务执行参数得到下游任务的任务模型之后,服务器还可以直接在本地存储下游任务的任务模型。进一步地,服务器还可以用于执行下游任务,实现下游任务对应功能、或对外提供下游任务对应服务。
具体地,服务器接收下游任务的执行指令,响应于接收到下游任务的执行指令,服务器获取下游任务场景下的输入数据;根据下游任务场景下任务模型的输入的格式信息,生成任务模型的输入信息;将输入信息输入下游任务的任务模型进行处理,得到下游任务处理结果;输出下游任务处理结果。
在一可选实施例中,上述步骤S201中,获取下游任务场景下的训练数据集具体可以采用如下方式实现:
获取下游任务场景下的样本数据,根据下游任务场景下任务模型的输入的格式信息,生成样本数据对应的输入信息;并获取输入信息对应的标注数据,输入信息及标注数据构成训练数据集。训练样本的标注数据包括训练样本对应的正确的任务处理结果。
可选地,可以基于下游任务场景下任务模型的输入的格式信息,以及下游任务场景下的图文数据,生成符合任务模型的输入格式要求的输入信息,并获取输入信息的标注数据,输入信息及输入信息的标注数据构成下游任务的训练数据集。
其中,输入信息的标注数据可以通过人工标注得到,本实施例中只需少量带有标注数据的训练数据集,即可训练得到具有较优效果的下游任务的任务模型。
进一步地,可以为各个下游任务场景设置对应的输入提示模板,输入提示模板用于指示下游任务模型的输入的格式信息。不同的下游任务所对应的输入提示模板可以不同。另外,也不排除存在两个不同下游任务对应相同的输入提示模板的情况。
示例性地,一示例视觉问答任务场景下,任务模型的输入包括输入图像和问题,输出为问题的答案文本。视觉问答任务的输入提示模板可以包括输入图像和问题,具体可以表示为如下形式:“[BOS′]输入图像[BOS′] [BOS]问题[BOS]”。其中“[BOS′]输入图像[BOS′]”表示输入图像的数据(如对图像编码生成的图像向量),可以指代不同图像,“[BOS]问题[BOS]”指代输入的问题的数据(如对问题编码生成的文本向量),可以指定不同的问题。其中,两个“[BOS′]”用于标记图像数据,两个“[BOS]”用于标记文本数据,也可以使用其他两种不同的符号来区分标记图像数据和文本数据,例如在后续示例使用“[ ]”标记图像数据,使用“{ }”标记文本数据。视觉问答任务的输出为问题的答案文本。
示例性地,生成式的图像描述任务场景下,任务模型的输入包括输入图像,以及特定的提示文本。生成式的图像描述任务的输入提示模板可以包括输入图像,以及特定的提示文本,具体可以表示为如下形式:“[输入图像]图像描述了什么”。其中,“[输入图像]”输入图像的数据,可以指代不同图像。“图像描述了什么”为预设设置的特定的提示文本,可以用其他提示文本,但是一旦设定保持固定。生成式的图像描述任务的输出为描述文本。
示例性地,分类式的图像描述任务的输入提示模板可以与生成式的图像描述任务的输入提示模板相同,表示为如下形式:“[输入图像]图像描述了什么”。分类式的图像描述任务的输出为描述文本的分类标签,不同的分类标签指代预设多类描述文本分类中的一种。
示例性地,一示例视觉蕴涵任务的输入提示模板可以包括输入图像、输入文本1和输入文本2,输入提示模板可以表示为:“[输入图像]和文本1{输入文本1}是否意味着文本2{输入文本2}”。视觉蕴涵任务的输出为判断结果,包括是、否、有可能等。
在根据下游任务场景下任务模型的输入的格式信息,生成样本数据对应的输入信息时,可以基于下游任务场景下的输入提示模板,基于下游任务场景下的图文数据等样本数据,生成符合输入提示模板中样式要求的输入信息。
示例性地,服务器可以基于视觉问答任务的输入提示模板获取视觉问答任务场景下的训练数据集,并训练预训练模型中增加的下游任务执行参数得到视觉问答任务模型,并存储得到的(也即生成的)视觉问答任务模型。服务器对外提供视觉问答功能。其他功能模块需要使用视觉问答功能时,调用视觉问答功能模块,以向服务器发出视觉问答任务的执行指令。服务器响应于视觉问答任务的执行指令,获取输入的图像和问题文本,根据视觉问答任务的输入提示模板,生成输入图像和问题文本对应的输入信息,将输入信息输入视觉问答任务模型,通过视觉问答任务模型输出答案文本,将答案文本返回给其他功能模块。
可选地,在存储各个下游任务的任务模型时,由于基于同一预训练模型训练生成的任务模型中,仅下游任务执行参数不同,而预训练模型的原有参数是完全相同的,因此可以存储一份预训练模型的原有参数,并存储训练完成后各个下游模型的下游任务执行参数。在需要获取下游模型时,通过在预训练模型的原有参数上增加训练完成后下游任务模型的下游任务执行参数,即可得到下游任务模型的完整参数,从而生成下游任务的任务模型,可以节省存储空间,并且任务模型的管理和维护更加灵活。
本实施例中,只需根据各个下游任务场景下任务模型的输入的格式信息,为不同的下游任务场景设置对应的输入提示模板,基于下游任务场景下输入提示模板,可以自动生成下游任务场景下的训练数据集。基于下游任务场景下的训练数据集对预训练模型中增加的少量下游任务执行参数进行调整,即可生成下游任务的任务模型,可以提高下游任务模型的生成效率和性能。
参见图3,图3中横轴为预训练模型的参数量,竖轴为对预训练模型进行微调所需的时间,微调所需时间越长,表示预训练模型的微调训练的效率越低。如图3中所示,对于参数量为相同规模的预训练模型,通过本申请微调预训练模型中增加的下游任务执行参数的方法微调所需时间更短,节省了预训练模型微调所需时间。随着预训练模型参数量规模的增加(以参数量由93M依次增加为180M、470M、930M时微调所需的时间为例),相较于现有的预训练模型的微调方法,本申请微调预训练模型中增加的下游任务执行参数的方法能够节省的微调时间增长,训练效率的提升更加明显。
在一可选实施方式中,上述步骤S202中的下游任务执行参数可以通过如下方式生成:
从设置的词表中选择多个词,生成多个词的词向量;根据多个词的词向量,生成预训练模型中每层对应的下游任务执行参数,每层对应的下游任务执行参数包含至少一个词向量。
进一步地,上述步骤S202中在预训练模型中每层的原有参数上增加对应的下游任务执行参数,从而在预训练模型的用于编码(encoder)和解码(decoder)的层上均增加一些可训练的下游任务执行参数,在对预训练模型进行微调生成下游任务的任务模型的过程中,固定预训练模型的原有参数,仅调整增加的下游任务执行参数,使得在不同下游任务场景下调整后的下游任务执行参数不同,从而生成适用于特定下游任务场景的任务模型。
可选地,不同层对应的下游任务执行参数不同,通过在预训练模型的不同层上增加不同的下游任务执行参数,能够提高预训练模型微调效果,提高生成的下游任务模型的性能。
可选地,不同层对应的下游任务执行参数可以相同,也即最初在预训练模型的不同层上增加的下游任务执行参数相同。由于预训练模型的微调训练过程中会对下游任务执行参数进行调整,训练完成后不同层对应的下游任务执行参数不同。
可选地,各下游任务场景下设置的词表可以是随机生成的词表,可以是统一设置的预设词表。
可选地,各下游任务场景下设置的词表,还可以根据下游任务场景下的训练数据集进行设置,不同的下游任务场景下使用不同的词表。预设词表可以为预先配置的词表。
进一步地,根据多个词的词向量,生成预训练模型中每层对应的下游任务执行参数时,可以根据每一下游任务执行参数中包含的词向量的预设数量,从得到的多个词向量中选择预设数量个词向量进行拼接,得到一个下游任务执行参数。根据预训练模型的层数,生成每层的一个下游任务执行参数。其中,预设数量可以根据实际应用场景/领域进行设置和调整,此处不做具体限定。例如,预设数量可以在10到100取值,或者可以取其他值。
可选地,为了使得不同层对应的下游任务执行参数不同,在根据多个词的词向量,生成预训练模型中每层对应的下游任务执行参数时,可以根据每一下游任务执行参数中包含的词向量的预设数量,分别针对每一层,选择不同的词向量中选择进行拼接生成每一层的下游任务执行参数,使得为不同层选取的词向量不完全相同,从而保证不同层增加的下游任务执行参数不同。
进一步地,在预训练模型中每层的原有参数上增加对应的下游任务执行参数时,可以在预训练模型中每层的原有参数的前面(头部)拼接对应的下游任务执行参数,可以容易获取到下游任务执行参数,便于更新下游任务执行参数,并且使用多个连续的词向量拼接生成下游任务执行参数(prompt)进行快速微调,缓解了提示词敏感的问题。
另外,在预训练模型中每层的原有参数上增加对应的下游任务执行参数时,还可以在预训练模型中每层的原有参数的后面(尾部)拼接对应的下游任务执行参数。
图4为本申请一示例性实施例提供的多模态任务模型生成方法流程图。本实施例提供的方法,可以用于对多模态预训练模型进行微调训练,生成多模态任务模型。
如图4所示,该方法具体步骤如下:
步骤S401、响应于多模态任务的任务模型生成指令,获取多模态任务对应的输入提示模板。
其中,多模态任务可以包括如下至少一种:视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务。
多模态任务所涉及的输入和输出数据包括图像和文本等多个模态的数据。例如,视觉问答任务的输入包括图像数据和文本数据,输出为文本数据。图像描述任务的输入为图像数据,输出为文本数据。视觉蕴涵任务的输入为图像和文本,输出为图像区域的位置信息。图像生成任务的输入为文本数据,输出为图像数据。
本实施例中,可以为各个下游任务场景设置对应的输入提示模板,输入提示模板用于指示下游任务模型的输入的格式信息。
多模态任务的输入提示模板的提示模板用于指示预训练模型输入信息的格式信息。不同的多模态任务所对应的输入提示模板可以不同。另外,也不排除存在两个不同多模态任务对应相同的输入提示模板的情况。
示例性地,一示例视觉问答任务场景下,任务模型的输入包括输入图像和问题,输出为问题的答案文本。视觉问答任务的输入提示模板可以包括输入图像和问题,具体可以表示为如下形式:“[BOS′]输入图像[BOS′] [BOS]问题[BOS]”。其中“[BOS′]输入图像[BOS′]”表示输入图像的数据(如对图像编码生成的图像向量),可以指代不同图像,“[BOS]问题[BOS]”指代输入的问题的数据(如对问题编码生成的文本向量),可以指定不同的问题。其中,两个“[BOS′]”用于标记图像数据,两个“[BOS]”用于标记文本数据,也可以使用其他两种不同的符号来区分标记图像数据和文本数据,例如在后续示例使用“[ ]”标记图像数据,使用“{ }”标记文本数据。视觉问答任务的输出为问题的答案文本。
示例性地,生成式的图像描述任务场景下,任务模型的输入包括输入图像,以及特定的提示文本。生成式的图像描述任务的输入提示模板可以包括输入图像,以及特定的提示文本,具体可以表示为如下形式:“[输入图像]图像描述了什么”。其中,“[输入图像]”输入图像的数据,可以指代不同图像。“图像描述了什么”为预设设置的特定的提示文本,可以用其他提示文本,但是一旦设定保持固定。生成式的图像描述任务的输出为描述文本。
步骤S402、根据多模态任务对应的输入提示模板,获取多模态任务的训练数据集,多模态任务数据集中包括图像数据和文本数据。
该步骤中,可以基于下游的多模态任务对应的输入提示模板,基于多模态任务所属场景/领域下的图文数据等样本数据,生成符合输入提示模板格式要求的输入信息,并获取输入信息的标注数据,输入信息及输入信息的标注数据构成下游任务的训练数据集。
其中,输入信息的标注数据可以通过人工标注得到,本实施例中只需少量带有标注数据的训练数据集,即可训练得到具有较优效果的下游任务的任务模型。本实施例中,多模态任务的训练数据集中包括图像和文本等多个模态的数据。
步骤S403、在预训练模型的原有参数上增加下游任务执行参数。
该步骤与上述步骤S202的实现方式一致,具体实现方式参见步骤S202的相关内容,此处不再赘述。
步骤S404、基于多模态任务的训练数据集对预训练的语言模型中的下游任务执行参数进行调整,生成多模态任务模型。
该步骤中,在对预训练语言模型进行微调生成多模态任务模型的过程中,保持预训练语言模型的原有参数固定不变,基于多模态任务的训练数据集对预训练的语言模型中的下游任务执行参数进行调整,以得到更加适用于特定多模态任务的模型。
其中,多模态任务模型用于根据基于输入数据和输入提示模板生成的输入信息执行多模态任务,得到任务处理结果。
该步骤与上述步骤S203的实现方式一致,具体实现方式参见步骤S203的相关内容,此处不再赘述。
本实施例中,将提示学习引入多模态任务中,基于提示学习的方式,通过在预训练语言模型中增加下游任务执行参数,并基于多模态任务的输入提示模板生成多模态任务的训练数据集,基于多模态任务的训练数据集对预训练语言模型中增加的下游任务执行参数进行训练,以生成多模态任务的任务模型,只微调少量的下游任务执行参数的训练效果堪比现有技术中训练预训练模型全量参数的效果,提高了预训练语言模型的训练效率,能够快速训练生成多模态任务模型。
图5为本申请一示例性实施例提供的任务执行方法流程图。本实施例提供的任务执行方法,可以利用基于前述下游任务模型生成方法实施例生成的下游任务的任务模型,实现下游任务的执行,从而实现下游任务场景的相应功能,提供对应服务。本实施例提供的方法的执行主体为负责基于下游任务模型执行下游任务的电子设备。
如图5所示,该方法具体步骤如下:
步骤S501、响应于下游任务执行指令,获取输入数据。
本实施例中,电子设备存储有通过调整预训练模型中增加的下游任务执行参数得到的下游任务的任务模型,能够基于下游任务的任务模型,提供执行下游任务的功能或者对外提供下游任务对应的服务。
示例性地,电子设备提供执行下游任务的功能,其他功能模块需要使用执行下游任务的功能时,调用该下游任务的功能模块,以向电子设备发出下游任务的执行指令。电子设备响应于下游任务的执行指令,获取输入数据。
示例性地,电子设备对外提供下游任务对应的服务,在需要使用电子设备提供的下游任务对应服务时,用户通过客户端向电子设备发送下游任务执行指令。电子设备响应于下游任务的执行指令,获取输入数据。
其中,输入数据可以包括如下至少一种模态的数据:图像数据、文本数据。
步骤S502、根据下游任务场景下任务模型的输入的格式信息,生成输入数据对应的输入信息。
该步骤中,电子设备对输入数据中每一模态的数据分别进行编码生成对应向量,并根据当前任务场景下任务模型的输入的格式信息,生成任务模型的输入信息。
在一可选实施例中,可以为各个下游任务场景设置对应的输入提示模板,输入提示模板用于指示下游任务模型的输入的格式信息。
该步骤中,根据当前任务场景下的输入提示模板,生成输入数据对应的输入信息。
示例性地,一示例视觉问答任务的输入提示模板可以包括输入图像和问题,具体可以表示为如下形式:“[BOS′]输入图像[BOS′] [BOS]问题[BOS]”。其中“[BOS′]输入图像[BOS′]”表示输入图像的数据(如对图像编码生成的图像向量),可以指代不同图像,“[BOS]问题[BOS]”指代输入的问题的数据(如对问题编码生成的文本向量),可以指定不同的问题。其中,两个“[BOS′]”用于标记图像数据,两个“[BOS]”用于标记文本数据,也可以使用其他两种不同的符号来区分标记图像数据和文本数据,例如在后续示例使用“[ ]”标记图像数据,使用“{ }”标记文本数据。视觉问答任务的输出为问题的答案文本。电子设备获取到的输入数据包括输入图像和问题文本,将图像进行编码生成图像向量,将问题文本进行编码生成文本向量,根据视觉问答任务的输入提示模板“[BOS′]输入图像[BOS′] [BOS]问题[BOS]”,将图像对应的图像向量与问题文本对应的文本向量拼接,得到对应的输入信息。
示例性地,生成式的图像描述任务的输入提示模板可以包括输入图像,以及特定的提示文本,具体可以表示为如下形式:“[输入图像]图像描述了什么”。其中,“[输入图像]”输入图像的数据,可以指代不同图像。“图像描述了什么”为预设设置的特定的提示文本,可以用其他提示文本,但是一旦设定保持固定。生成式的图像描述任务的输出为描述文本。电子设备获取到的输入数据包括输入图像,对输入图像编码生成图像向量。根据生成式的图像描述任务的输入提示模板“[输入图像]图像描述了什么”,将“图像描述了什么”这一特定的提示文本进行编码生成文本向量,并将输入图像的图像向量与提示文本的文本向量拼接,得到对应的输入信息。
步骤S503、将输入信息输入训练好的任务模型进行处理,得到任务处理结果,任务模型是通过在预训练模型的原有参数上增加下游任务执行参数,基于任务的训练数据集对预训练模型中的下游任务执行参数进行训练得到的。
在基于当前任务场景下的输入提示模板生成输入数据对应的输入信息之后,将输入信息输入训练好的任务模型进行处理,得到任务处理结果。
本实施例中,任务模型是基于预训练模型,利用上述任一实施例提供的下游任务模型生成方法,通过根据当前任务场景下的输入提示模板,获取当前任务的训练数据集;在预训练模型的原有参数上增加下游任务执行参数,基于当前任务的训练数据集对预训练模型中的下游任务执行参数进行训练(微调)得到的,具体训练(微调)过程参见上述方法实施例中的相关说明,此处不再赘述。
步骤S504、输出任务处理结果。
示例性地,电子设备提供执行下游任务的功能,其他功能模块需要使用执行下游任务的功能时,调用该下游任务的功能模块,以向电子设备发出下游任务的执行指令。电子设备在得到任务处理结果之后,将任务处理结果返回给其他功能模块。
示例性地,电子设备对外提供下游任务对应的服务,在需要使用电子设备提供的下游任务对应服务时,用户通过客户端向电子设备发送下游任务执行指令。电子设备在得到任务处理结果之后,将任务处理结果输出至用户的客户端设备。
本实施例中,当前任务可以包括如下至少一种:视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务、基于文本的情感分类任务、文本摘要任务。其中,视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务属于自然语言处理与计算机视觉的交叉领域,基于文本的情感分类任务、文本摘要任务属于自然语言处理领域。
本实施例中,执行各类下游任务所使用的任务模型,是通过利用上述任一实施例提供的下游任务模型生成方法,通过根据当前任务对应的输入提示模板,获取当前任务的训练数据集;在预训练模型的原有参数上增加下游任务执行参数,基于当前任务的训练数据集对预训练模型中的下游任务执行参数进行训练得到的,能够实现预训练模型的快速训练,快速获取到下游任务的任务模型,在同等训练数据集规模下,提高了训练效果,从提高下游任务的执行效果。
参见图6,图6为本申请一示例性实施例提供的视觉问答任务执行方法流程图。本实施例提供的方法的执行主体为负责基于视觉问答任务模型执行视觉问答任务的电子设备。
如图6所示,该方法具体步骤如下:
步骤S601、获取输入的图像和问题文本。
电子设备存储有通过预训练语言模型中增加的下游任务执行参数得到的视觉问答任务模型,能够基于视觉问答任务模型,提供执行视觉问答任务的功能或者对外提供视觉问答任务对应的服务。
其中,视觉问答任务根据输入的图像和问题,从输入图像的视觉信息中确定问题的答案。
示例性地,电子设备提供执行视觉问答任务的功能,其他功能模块需要使用执行视觉问答任务的功能时,调用该视觉问答任务的功能模块,以向电子设备发出视觉问答任务的执行指令。电子设备响应于视觉问答任务的执行指令,获取输入参数中的图像和问题文本。
示例性地,电子设备对外提供视觉问答服务,在需要使用电子设备提供的视觉问答服务时,用户通过客户端向电子设备发送视觉问答请求。电子设备响应于视觉问答请求,获取用户输入的图像和问题文本。
步骤S602、根据视觉问答任务场景下视觉问答任务模型的输入的格式信息、图像和问题文本,生成视觉问答任务模型的输入信息。
具体地,可以为各个下游任务场景设置对应的输入提示模板,输入提示模板用于指示下游任务模型的输入的格式信息。
该步骤中,根据当前任务场景下的输入提示模板,生成输入的图像和问题文本对应的输入信息。
示例性地,视觉问答任务对应的输入提示模板可以包括输入图像和问题,具体可以表示为如下形式:“[BOS′]输入图像[BOS′] [BOS]问题[BOS]”。
其中“[BOS′]输入图像[BOS′]”表示输入图像的数据(如对图像编码生成的图像向量),可以指代不同图像,“[BOS]问题[BOS]”指代输入的问题的数据(如对问题编码生成的文本向量),可以指定不同的问题。
其中,两个“[BOS′]”用于标记图像数据,两个“[BOS]”用于标记文本数据,也可以使用其他两种不同的符号来区分标记图像数据和文本数据,例如在后续示例使用“[ ]”标记图像数据,使用“{ }”标记文本数据。
具体地,对图像进行编码生成对应的图像向量,并对问题文本进行编码生成对应的文本向量;根据视觉问答任务对应的输入提示模板,将图像向量与文本向量拼接,得到对应的输入信息。
步骤S603、将输入信息输入视觉问答任务模型进行处理,得到问题文本对应的答案文本。
其中,视觉问答任务模型是通过在预训练模型的原有参数上增加下游任务执行参数,基于视觉问答任务的训练数据集对预训练模型中的下游任务执行参数进行训练得到的,具体可以通过上述任一实施例提供的下游任务模型生成方法得到,本实施例不再赘述。
步骤S604、输出问题文本对应的答案文本。
示例性地,电子设备提供执行视觉问答任务的功能,其他功能模块需要使用执行视觉问答任务的功能时,调用该视觉问答任务的功能模块,以向电子设备发出视觉问答任务的执行指令。电子设备在得到答案文本之后,将答案文本返回给其他功能模块。
示例性地,电子设备对外提供视觉问答服务,在需要使用电子设备提供的视觉问答服务时,用户通过客户端向电子设备发送视觉问答请求。电子设备在得到答案文本之后,将答案文本输出至用户的客户端设备。
本实施例中,视觉问答模型是通过利用上述任一实施例提供的下游任务模型生成方法,通过根据视觉问答任务对应的输入提示模板,获取视觉问答任务的训练数据集;在预训练语言模型的原有参数上增加下游任务执行参数,基于视觉问答任务的训练数据集对预训练语言模型中的下游任务执行参数进行训练得到的,能够实现预训练语言模型的快速微调,快速获取到视觉问答任务模型,在同等训练数据集规模下,提高了微调效果,从提高视觉问答任务的执行效果。
图7为本申请一示例实施例提供的下游任务模型生成装置的结构示意图。本实施例提供的装置应用于执行下游任务模型生成方法。如图7所示,下游任务模型生成装置70包括:训练集生成模块71、参数增加模块72、参数调整模块73。
其中,训练集生成模块71用于获取下游任务场景下的训练数据集。
参数增加模块72用于在预训练模型的原有参数上增加下游任务执行参数。
参数调整模块73用于使用训练数据集调整预训练模型中的下游任务执行参数,生成下游任务的任务模型,下游任务的任务模型用于执行下游任务。
在一可选实施例中,在实现在预训练模型的原有参数上增加下游任务执行参数时,参数增加模块72还用于:
从设置的词表中选择多个词,生成多个词的词向量;根据多个词的词向量,生成预训练模型中每层对应的下游任务执行参数,每层对应的下游任务执行参数包含至少一个词向量;在预训练模型中每层的原有参数上增加对应的下游任务执行参数。
在一可选实施例中,参数增加模块72还用于:
根据下游任务场景下的训练数据集,设置下游任务场景下使用的词表。
在一可选实施例中,在实现在预训练模型中每层的原有参数上增加对应的下游任务执行参数时,参数增加模块72还用于:
在预训练模型中每层的原有参数的前面拼接对应的下游任务执行参数。
在一可选实施例中,在实现获取下游任务场景下的训练数据集时,训练集生成模块71还用于:
获取下游任务场景下的样本数据;根据下游任务场景下任务模型的输入的格式信息,生成样本数据对应的输入信息;获取输入信息对应的标注数据,输入信息及标注数据构成训练数据集。
在一可选实施例中,在实现根据下游任务场景下任务模型的输入的格式信息,生成样本数据对应的输入信息时,训练集生成模块71还用于:
获取下游任务场景下的输入提示模板,输入提示模板根据下游任务场景下任务模型的输入的格式信息确定;根据样本数据和下游任务场景下的输入提示模板,生成样本数据对应的输入信息。
在一可选实施例中,在生成下游任务的任务模型之后,参数调整模块73还用于:
将下游任务的任务模型发送至用于执行下游任务的电子设备。
在一可选实施例中,在训练完成后得到用于执行下游任务的任务模型之后,参数调整模块73还用于:
存储下游任务的任务模型;响应于下游任务的执行指令,获取下游任务的输入数据;根据下游任务场景下任务模型的输入的格式信息,生成任务模型的输入信息;将输入信息输入下游任务的任务模型进行处理,得到下游任务处理结果;输出下游任务处理结果。
在一可选实施例中,预训练模型为预训练的语言模型,下游任务包括如下至少一种:
视觉问答任务,用于根据输入的图像和问题,从输入图像的视觉信息中确定问题的答案;
图像描述任务,用于生成输入图像的描述文本;
视觉蕴涵任务,用于预测输入图像和文本在语义上的相关性;
指代表达与理解任务,用于根据输入文本定位输入图像中与输入文本对应的图像区域;
图像生成任务,用于基于输入的描述文本生成图像;
基于文本的情感分类任务,用于预测输入文本的情感分类信息;
文本摘要任务,用于生成输入文本的摘要信息。
本实施例提供的装置具体可以用于执行基于上述任一实施例提供的下游任务模型生成方法,具体功能和所能实现的技术效果此处不再赘述。
图8为本申请一示例实施例提供的任务执行装置的结构示意图。本实施例提供的装置应用于执行上述任务执行方法。如图8所示,任务执行装置80包括:数据输入模块81、输入信息生成模块82、任务执行模块83和结果输出模块84。
其中,数据输入模块81用于响应于下游任务执行指令,获取输入数据。
输入信息生成模块82用于根据下游任务场景下任务模型的输入的格式信息,生成输入数据对应的输入信息。
任务执行模块83用于将输入信息输入训练好的任务模型进行处理,得到任务处理结果,任务模型是通过在预训练模型的原有参数上增加下游任务执行参数,基于下游任务场景下的训练数据集对预训练模型中的下游任务执行参数进行调整后得到的。
结果输出模块84用于输出任务处理结果。
其中,下游任务为以下任意一种:
视觉问答任务,用于根据输入的图像和问题,从输入图像的视觉信息中确定问题的答案;
图像描述任务,用于生成输入图像的描述文本;
视觉蕴涵任务,用于预测输入图像和文本在语义上的相关性;
指代表达与理解任务,用于根据输入文本定位输入图像中与输入文本对应的图像区域;
图像生成任务,用于基于输入的描述文本生成图像;
基于文本的情感分类任务,用于预测输入文本的情感分类信息;
文本摘要任务,用于生成输入文本的摘要信息。
本实施例提供的装置具体可以用于执行基于上述任一实施例提供的任务执行方法,具体功能和所能实现的技术效果此处不再赘述。
图9为本申请一示例实施例提供的视觉问答任务执行装置的结构示意图。本实施例提供的装置应用于执行视觉问答任务执行方法。如图9所示,视觉问答任务执行装置90包括:数据输入模块91、输入信息生成模块92、视觉问答模块93和答案输出模块94
数据输入模块91用于获取输入的图像和问题文本。
输入信息生成模块92用于根据视觉问答任务场景下视觉问答任务模型的输入的格式信息、图像和问题文本,生成视觉问答任务模型的输入信息。
视觉问答模块93用于将输入信息输入视觉问答任务模型进行处理,得到问题文本对应的答案文本,视觉问答任务模型是通过在预训练模型的原有参数上增加下游任务执行参数,基于视觉问答任务场景下的训练数据集对预训练模型中的下游任务执行参数进行调整得到的。
答案输出模块94输出问题文本对应的答案文本。
在一可选实施例中,在实现根据视觉问答任务场景下的输入提示模板、图像和问题文本,生成视觉问答任务模型的输入信息时,输入信息生成模块92还用于:
对图像进行编码,生成对应的图像向量,并对问题文本进行编码,生成对应的文本向量;根据视觉问答任务场景下的输入提示模板,将图像向量与文本向量拼接,得到视觉问答任务模型的输入信息。
本实施例提供的装置具体可以用于执行基于上述任一实施例提供的视觉问答任务执行方法,具体功能和所能实现的技术效果此处不再赘述。
图10为本申请一示例实施例提供的电子设备的结构示意图。如图10所示,该电子设备100包括:处理器1001,以及与处理器1001通信连接的存储器1002,存储器1002存储计算机执行指令。
其中,处理器执行存储器存储的计算机执行指令,以实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。 “多个”的含义是两个以上,除非另有明确具体的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (14)

1.一种下游任务模型生成方法,其特征在于,所述下游任务模型应用于自然语言处理领域或计算机视觉领域,所述方法包括:
获取下游任务场景下的训练数据集;
在预训练模型的原有参数上增加下游任务执行参数;
使用所述训练数据集调整所述预训练模型中的下游任务执行参数,生成所述下游任务的任务模型,所述下游任务的任务模型用于执行所述下游任务。
2.根据权利要求1所述的方法,其特征在于,所述在预训练模型的原有参数上增加下游任务执行参数,包括:
从设置的词表中选择多个词,生成所述多个词的词向量;
根据所述多个词的词向量,生成所述预训练模型中每层对应的下游任务执行参数,每层对应的下游任务执行参数包含至少一个词向量;
在所述预训练模型中每层的原有参数上增加对应的下游任务执行参数。
3.根据权利要求2所述的方法,其特征在于,还包括:
根据所述下游任务场景下的训练数据集,设置所述下游任务场景下使用的词表。
4.根据权利要求2所述的方法,其特征在于,所述在所述预训练模型中每层的原有参数上增加对应的下游任务执行参数,包括:
在所述预训练模型中每层的原有参数的前面拼接对应的下游任务执行参数。
5.根据权利要求1所述的方法,其特征在于,所述获取下游任务场景下的训练数据集,包括:
获取所述下游任务场景下的样本数据;
根据所述下游任务场景下任务模型的输入的格式信息,生成所述样本数据对应的输入信息;
获取所述输入信息对应的标注数据,所述输入信息及标注数据构成训练数据集。
6.根据权利要求5所述的方法,其特征在于,所述根据所述下游任务场景下任务模型的输入的格式信息,生成所述样本数据对应的输入信息,包括:
获取所述下游任务场景下的输入提示模板,所述输入提示模板根据所述下游任务场景下任务模型的输入的格式信息确定;
根据所述样本数据和所述下游任务场景下的输入提示模板,生成所述样本数据对应的输入信息。
7.根据权利要求1所述的方法,其特征在于,在生成所述下游任务的任务模型之后,还包括:
将所述下游任务的任务模型发送至用于执行下游任务的电子设备。
8.根据权利要求1所述的方法,其特征在于,在生成所述下游任务的任务模型之后,还包括:
存储所述下游任务的任务模型;
响应于所述下游任务的执行指令,获取所述下游任务的输入数据;
根据所述下游任务场景下任务模型的输入的格式信息,生成任务模型的输入信息;
将所述输入信息输入所述下游任务的任务模型进行处理,得到下游任务处理结果;
输出所述下游任务处理结果。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述预训练模型为预训练的语言模型,
所述下游任务包括如下至少一种:
视觉问答任务,用于根据输入的图像和问题,从输入图像的视觉信息中确定问题的答案;
图像描述任务,用于生成输入图像的描述文本;
视觉蕴涵任务,用于预测输入图像和文本在语义上的相关性;
指代表达与理解任务,用于根据输入文本定位输入图像中与输入文本对应的图像区域;
图像生成任务,用于基于输入的描述文本生成图像;
基于文本的情感分类任务,用于预测输入文本的情感分类信息;
文本摘要任务,用于生成输入文本的摘要信息。
10.一种任务执行方法,其特征在于,应用于自然语言处理领域或计算机视觉领域,所述方法包括:
响应于下游任务执行指令,获取输入数据;
根据所述下游任务场景下任务模型的输入的格式信息,生成所述输入数据对应的输入信息;
将所述输入信息输入训练好的任务模型进行处理,得到任务处理结果,所述任务模型是通过在预训练模型的原有参数上增加下游任务执行参数,基于所述下游任务场景下的训练数据集对所述预训练模型中的下游任务执行参数进行调整后得到的;
输出所述任务处理结果。
11.一种视觉问答任务执行方法,其特征在于,包括:
获取输入的图像和问题文本;
根据视觉问答任务场景下视觉问答任务模型的输入的格式信息、所述图像和问题文本,生成视觉问答任务模型的输入信息;
将所述输入信息输入视觉问答任务模型进行处理,得到所述问题文本对应的答案文本,所述视觉问答任务模型是通过在预训练模型的原有参数上增加下游任务执行参数,基于所述视觉问答任务场景下的训练数据集对所述预训练模型中的下游任务执行参数进行调整得到的;
输出所述问题文本对应的答案文本。
12.根据权利要求11所述的方法,其特征在于,所述根据视觉问答任务场景下的输入提示模板、所述图像和问题文本,生成视觉问答任务模型的输入信息,包括:
对所述图像进行编码,生成对应的图像向量,并对所述问题文本进行编码,生成对应的文本向量;
根据所述视觉问答任务场景下的输入提示模板,将所述图像向量与所述文本向量拼接,得到视觉问答任务模型的输入信息。
13.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-12中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-12中任一项所述的方法。
CN202211387996.7A 2022-11-08 2022-11-08 下游任务模型生成及任务执行的方法和设备 Active CN115438176B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211387996.7A CN115438176B (zh) 2022-11-08 2022-11-08 下游任务模型生成及任务执行的方法和设备
PCT/CN2023/127845 WO2024099144A1 (zh) 2022-11-08 2023-10-30 下游任务模型生成及任务执行的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211387996.7A CN115438176B (zh) 2022-11-08 2022-11-08 下游任务模型生成及任务执行的方法和设备

Publications (2)

Publication Number Publication Date
CN115438176A true CN115438176A (zh) 2022-12-06
CN115438176B CN115438176B (zh) 2023-04-07

Family

ID=84252390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211387996.7A Active CN115438176B (zh) 2022-11-08 2022-11-08 下游任务模型生成及任务执行的方法和设备

Country Status (2)

Country Link
CN (1) CN115438176B (zh)
WO (1) WO2024099144A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245141A (zh) * 2023-01-13 2023-06-09 清华大学 迁移学习架构、方法、电子设备及存储介质
CN116306917A (zh) * 2023-05-17 2023-06-23 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质
CN116363452A (zh) * 2023-03-07 2023-06-30 阿里巴巴(中国)有限公司 任务模型训练方法以及装置
CN117994397A (zh) * 2024-03-29 2024-05-07 苏州元脑智能科技有限公司 数字人文本动作生成方法、装置、计算机设备和存储介质
WO2024099144A1 (zh) * 2022-11-08 2024-05-16 阿里巴巴达摩院(杭州)科技有限公司 下游任务模型生成及任务执行的方法和设备
CN116245141B (zh) * 2023-01-13 2024-06-04 清华大学 迁移学习架构、方法、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668320A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 基于词嵌入的模型训练方法、装置、电子设备及存储介质
CN113486162A (zh) * 2021-06-04 2021-10-08 北京大学 一种大规模预训练模型微调方法及装置
CN113569011A (zh) * 2021-07-27 2021-10-29 马上消费金融股份有限公司 文本匹配模型的训练方法、装置、设备及存储介质
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN114398899A (zh) * 2021-11-29 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 预训练语言模型的训练方法、装置、计算机设备和介质
CN114625840A (zh) * 2022-03-18 2022-06-14 鼎富智能科技有限公司 一种自然语言处理模型的训练方法和装置
JP2022099327A (ja) * 2020-12-22 2022-07-04 株式会社リコー 事前訓練言語モデル、装置及びコンピュータ読み取り可能な記憶媒体
CN114995903A (zh) * 2022-05-30 2022-09-02 中电金信软件有限公司 一种基于预训练语言模型的类别标签识别方法及装置
CN115080736A (zh) * 2022-05-23 2022-09-20 清华大学 一种判别式语言模型的模型调整方法及装置
CN115114439A (zh) * 2022-08-30 2022-09-27 北京百度网讯科技有限公司 多任务模型推理、多任务信息处理的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840651A (zh) * 2022-04-20 2022-08-02 南方科技大学 视觉问答的训练方法、系统及计算机可读存储介质
CN115438176B (zh) * 2022-11-08 2023-04-07 阿里巴巴达摩院(杭州)科技有限公司 下游任务模型生成及任务执行的方法和设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
JP2022099327A (ja) * 2020-12-22 2022-07-04 株式会社リコー 事前訓練言語モデル、装置及びコンピュータ読み取り可能な記憶媒体
CN112668320A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 基于词嵌入的模型训练方法、装置、电子设备及存储介质
CN113486162A (zh) * 2021-06-04 2021-10-08 北京大学 一种大规模预训练模型微调方法及装置
CN113569011A (zh) * 2021-07-27 2021-10-29 马上消费金融股份有限公司 文本匹配模型的训练方法、装置、设备及存储介质
CN114398899A (zh) * 2021-11-29 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 预训练语言模型的训练方法、装置、计算机设备和介质
CN114625840A (zh) * 2022-03-18 2022-06-14 鼎富智能科技有限公司 一种自然语言处理模型的训练方法和装置
CN115080736A (zh) * 2022-05-23 2022-09-20 清华大学 一种判别式语言模型的模型调整方法及装置
CN114995903A (zh) * 2022-05-30 2022-09-02 中电金信软件有限公司 一种基于预训练语言模型的类别标签识别方法及装置
CN115114439A (zh) * 2022-08-30 2022-09-27 北京百度网讯科技有限公司 多任务模型推理、多任务信息处理的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUN LIANG等: "《Language Model Adaptation for Downstream Tasks using Text Selection》" *
傅群超;王枞;: "用于文本分类的多探测任务语言模型微调" *
林怀逸;刘箴;柴玉梅;刘婷婷;柴艳杰;: "基于词向量预训练的不平衡文本情绪分类" *
蔡卓航: "《基于预训练深层模型的问答系统》" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024099144A1 (zh) * 2022-11-08 2024-05-16 阿里巴巴达摩院(杭州)科技有限公司 下游任务模型生成及任务执行的方法和设备
CN116245141A (zh) * 2023-01-13 2023-06-09 清华大学 迁移学习架构、方法、电子设备及存储介质
CN116245141B (zh) * 2023-01-13 2024-06-04 清华大学 迁移学习架构、方法、电子设备及存储介质
CN116363452A (zh) * 2023-03-07 2023-06-30 阿里巴巴(中国)有限公司 任务模型训练方法以及装置
CN116363452B (zh) * 2023-03-07 2024-01-09 阿里巴巴(中国)有限公司 任务模型训练方法以及装置
CN116306917A (zh) * 2023-05-17 2023-06-23 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质
CN116306917B (zh) * 2023-05-17 2023-09-08 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质
CN117994397A (zh) * 2024-03-29 2024-05-07 苏州元脑智能科技有限公司 数字人文本动作生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2024099144A1 (zh) 2024-05-16
CN115438176B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115438176B (zh) 下游任务模型生成及任务执行的方法和设备
US11721230B2 (en) Personalized learning system and method for the automated generation of structured learning assets based on user data
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111897941A (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN110807566A (zh) 人工智能模型评测方法、装置、设备及存储介质
US20200051451A1 (en) Short answer grade prediction
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
KR20230152741A (ko) 고정 언어 모델을 사용한 다중-모달 퓨-샷 학습
US20230351149A1 (en) Contrastive captioning neural networks
CN114510570A (zh) 基于小样本语料的意图分类方法、装置及计算机设备
Nagao Artificial intelligence accelerates human learning: Discussion data analytics
US20220188636A1 (en) Meta pseudo-labels
Ferlitsch Deep Learning Patterns and Practices
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN116932731B (zh) 面向5g消息的多模态知识问答方法及系统
CN112132075B (zh) 图文内容处理方法及介质
CN116743692A (zh) 一种历史消息折叠方法和系统
CN111310847B (zh) 训练要素分类模型的方法和装置
CN114676705A (zh) 一种对话关系处理方法、计算机及可读存储介质
CN113392249A (zh) 图文信息分类方法、图文分类模型训练方法、介质及设备
Raut A virtual chatbot for ITSM application
CN116167434B (zh) 一种弱监督视觉语言预训练模型的训练方法和装置
CN113111652B (zh) 数据处理方法、装置及计算设备
Mehta et al. Evolution in Automated Translator for Real Time Voice to Sign Language Transformation for the Deaf and Dumb People

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40082661

Country of ref document: HK