CN117852603A - 一种任务信息获取方法以及相关设备 - Google Patents

一种任务信息获取方法以及相关设备 Download PDF

Info

Publication number
CN117852603A
CN117852603A CN202311604028.1A CN202311604028A CN117852603A CN 117852603 A CN117852603 A CN 117852603A CN 202311604028 A CN202311604028 A CN 202311604028A CN 117852603 A CN117852603 A CN 117852603A
Authority
CN
China
Prior art keywords
data
information
target task
description information
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311604028.1A
Other languages
English (en)
Inventor
钟宛君
糜飞
曾幸山
尚利峰
蒋欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202311604028.1A priority Critical patent/CN117852603A/zh
Publication of CN117852603A publication Critical patent/CN117852603A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种任务信息获取方法以及相关设备,可自动获取任务的描述信息,以此作为模型训练的训练数据,以节约人力资源,从而降低模型训练的成本。本申请的方法包括:当需要训练出能完成目标任务的模型时,可先获取与目标任务关联的数据以及这些数据的处理结果。接着,可利用这些数据以及这些数据的处理结果,生成目标任务的第一描述信息。然后,可利用这些数据以及目标任务的第一描述信息,生成目标任务的多个第二描述信息,任意一个第二描述信息可承载这些数据。最后,可从目标任务的多个第二描述信息中选择目标任务的第三描述信息,故承载有这些数据的第三描述信息可作为训练数据,用于完成模型训练,从而得到可完成目标任务的模型。

Description

一种任务信息获取方法以及相关设备
技术领域
本申请实施例涉及人工智能(artificial intelligence,AI)技术,尤其涉及一种任务信息获取方法以及相关设备。
背景技术
指令微调(instruction tuning)指构造自然语言形式的指令来作为训练数据,以对待训练的神经网络模型进行训练,从而得到已训练的神经网络模型。基于指令微调,有利于让模型更好地理解指令的内容,并合理地对指令进行处应答。
在相关技术中,为了获取作为训练数据的指令,往往需要准备任务模版,任务模版也可以理解为某个任务的描述信息,该任务的描述信息通常呈现为用于描述该任务的文本,且该文本包含占位符。在得到该任务的描述信息后,可将相应的数据填充到该任务的描述信息所包含的占位符中,以构成指令。那么,可利用这些指令来完成模型训练。
上述过程中,由于该任务的描述信息通常由人工编写,需要耗费大量的人力资源,导致模型训练的成本过高。
发明内容
本申请实施例提供了一种任务信息获取方法以及相关设备,可自动获取任务的描述信息,以此作为模型训练的训练数据,以节约人力资源,从而降低模型训练的成本。
本申请实施例的第一方面提供了一种任务信息获取方法,该方法包括:
当需要训练出能完成目标任务的模型时,可先获取与目标任务关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果。需要说明的是,对数据进行基于目标任务的处理后所得到的处理结果也可以理解为与目标任务关联的数据的处理结果。
得到与目标任务关联的数据以及与目标任务关联的数据的处理结果后,可对与目标任务关联的数据以及与目标任务关联的数据的处理结果进行处理,从而得到目标任务的第一描述信息。需要说明的是,目标任务的第一描述信息通常不包含占位符。
得到目标任务的第一描述信息后,可与目标任务关联的数据以及目标任务的第一描述信息进行处理,从而得到目标任务的多个第二描述信息。需要说明的是,目标任务的多个第二文本中的任意一个第二文本可包含用于承载与目标任务关联的数据的占位符。
得到目标任务的多个第二描述信息后,可从这多个第二描述信息中选择某个或某些第二描述信息来作为目标任务的第三描述信息。那么,可将与目标任务关联的数据插入选择得到的第三描述信息中,从而得到承载有与目标任务关联的数据的第三描述信息。如此一来,可利用承载有与目标任务关联的数据的第三描述信息来完成模型训练,从而得到可完成目标任务的模型。
从上述方法可以看出:该方法提供了一种任务的描述信息的自动生成框架,该框架可基于与某个任务(即前述的目标任务)关联的数据以及这些数据的处理结果,自行生成该任务的多个描述信息(即前述目标任务的多个第二描述信息),并从该任务的多个描述信息挑选出该任务的最优描述信息(即前述目标任务的第三描述信息),以此来作为训练数据,从而完成模型训练。由于该框架的运行过程不涉及过多的人工参与,可节省人力资源,从而降低模型训练的成本。
在一种可能实现的方式中,数据包含至少一个子数据以及与至少一个子数据对应的至少一个数据类别,任意一个第二描述信息包含与至少一个数据类别对应的至少一个占位符,至少一个占位符用于承载至少一个子数据。前述实现方式中,与目标任务关联的数据可包含至少一个子数据以及与至少一个子数据对应的至少一个数据类别,由于目标任务的多个第二描述信息是基于与目标任务关联的数据以及目标任务的第一描述信息所得到的,故任意一个第二描述信息可包含与至少一个数据类别对应的至少一个占位符,这至少一个占位符可用于分别承载与目标任务关联的数据所包含的至少一个子数据。由此可见,这样所生成的目标任务的多个第二描述信息可直接作为目标任务的候选模板,且这些候选模板均包含占位符,故从这些候选模板所选出的最优模板(即第三描述信息)可插入与目标任务关联的数据,以作为模型训练的训练数据。
在一种可能实现的方式中,基于数据以及处理结果,生成目标任务的第一描述信息包括:通过第一神经网络模型对数据以及处理结果进行处理,得到目标任务的第一描述信息。前述实现方式中,得到与目标任务关联的数据以及与目标任务关联的数据的处理结果后,可将与目标任务关联的数据作为目标任务的输入,并将与目标任务关联的数据的处理结果作为目标任务的输出。接着,可基于目标任务的输入和输出可构建第一指令。然后,可通过第一神经网络模型对第一指令进行处理,从而得到目标任务的第一描述信息。由此可见,本申请实施例所提供的任务的描述信息的自动生成框架,该框架的运行过程可使用神经网络模型来完成目标任务的初始模版(即前述第一描述信息),可较为全面地考虑各种因素,使得最终挑选出来的目标任务的最优模板具备一定的质量,故基于最优模板所构建的训练数据,有利于提高模型训练的效果。
在一种可能实现的方式中,基于数据以及目标任务的第一描述信息,生成目标任务的多个第二描述信息包括:通过第二神经网络模型对数据以及目标任务的第一描述信息进行处理,得到目标任务的多个第二描述信息。前述实现方式中,得到目标任务的第一描述信息后,可将与目标任务关联的数据所包含的至少一个数据类别,视为目标任务的关键词。接着,可基于目标任务的第一描述信息以及目标任务的关键词构建第二指令。然后,可将第二指令输入至第二神经网络模型,以通过第二神经网络模型对第二指令进行处理,从而得到目标任务的多个第二描述信息。由此可见,本申请实施例所提供的任务的描述信息的自动生成框架,该框架的运行过程可使用神经网络模型来完成目标任务的的候选模版(即前述第二描述信息),可较为全面地考虑各种因素,使得最终挑选出来目标任务的的最优模板具备一定的质量,故基于最优模板所构建的训练数据,有利于提高模型训练的效果。
在一种可能实现的方式中,第三描述信息的数量为多个,从多个第二描述信息中选择第三描述信息包括:对多个第二描述信息进行聚类,得到多个信息类别,多个信息类别中的一个信息类别包含至少一个第二描述信息;从多个信息类别中选择多个第三描述信息。前述实现方式中,得到目标任务的多个第二描述信息后,可使用某种聚类算法对目标任务的多个第二描述信息进行聚类,从而得到多个信息类别。可以理解的是,在多个信息类别中,任意一个信息类别可包含目标任务的至少一个第二描述信息。得到多个信息类别后,可将每个信息类别中最优的第二描述信息确定为目标任务的第三描述信息,故最终可得到目标任务的多个第三描述信息。由此可见,本申请实施例所提供的任务的描述信息的自动生成框架,可通过聚类的方式来挑选目标任务的最优模版,可使得挑选得到的最优模板具备多样性,故基于最优模板所构建的训练数据,有利于进一步提高模型训练的效果。
在一种可能实现的方式中,多个第二描述信息以文本形式呈现,对多个第二描述信息进行聚类,得到多个信息类别包括:将以文本形式呈现的多个第二描述信息转换为以向量形式呈现的多个第二描述信息;对以向量形式呈现的多个第二描述信息进行聚类,得到多个信息类别。前述实现方式中,第二神经网络模型所输出的目标任务的多个第二描述信息通常是以文本形式呈现的,故在进行聚类之前,可先对以文本形式呈现的多个第二描述信息进行计算,得到以向量形式呈现的多个第二描述信息。然后,可对以向量形式呈现的多个第二描述信息进行聚类,从而得到多个信息类别。由此可见,通过将文本形式的候选模板转换为向量形式的候选模板,可提高针对候选模版的聚类效率。
在一种可能实现的方式中,该方法还包括:通过第三神经网络模型对承载有数据的多个第二描述信息分别进行处理,得到处理结果的多个概率;将多个概率作为多个第二描述信息的评估值;从多个类别中选择多个第三描述信息包括:在多个信息类别的任意一个信息类别中,将评估值最高的第二描述信息作为第三描述信息。前述实现方式中,得到目标任务的多个第二描述信息后,可将与目标任务关联的数据插入至多个第二描述信息中,以得到承载有与目标任务关联的数据的多个第二描述信息。对于承载有与目标任务关联的数据的多个第二描述信息,可将其分别输入至第三神经网络模型,从而预测得到与目标任务关联的数据的处理结果的多个概率,由于这多个概率与承载有与目标任务关联的数据的多个第二描述信息是一一对应的,故可将这多个概率作为目标任务的多个第二描述信息的评估值。那么,得到多个信息类别后,可从每个信息类别中,将评估值最高的第二描述信息作为目标任务的第三描述信息,故最终可得到目标任务的多个第三描述信息。由此可见,本申请实施例所提供的任务的描述信息的自动生成框架,可通过聚类+评估的方式来挑选目标任务的最优模版,可使得挑选得到的最优模板具备多样性和准确性,故基于最优模板所构建的训练数据,有利于更进一步地提高模型训练的效果。
在一种可能实现的方式中,模型训练的对象为第四神经网络模型,可完成目标任务的模型为第五神经网络模型。
本申请实施例的第二方面提供了一种任务信息获取装置,该装置包括:获取模块,用于获取与目标任务关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果;第一生成模块,用于基于数据以及处理结果,生成目标任务的第一描述信息;第二生成模块,用于基于数据以及目标任务的第一描述信息,生成目标任务的多个第二描述信息,任意一个第二描述信息包含用于承载数据的占位符;选择模块,用于从多个第二描述信息中选择第三描述信息,承载有数据的第三描述信息用于进行模型训练,以得到可完成目标任务的模型。
在一种可能实现的方式中,数据包含至少一个子数据以及与至少一个子数据对应的至少一个数据类别,任意一个第二描述信息包含与至少一个数据类别对应的至少一个占位符,至少一个占位符用于承载至少一个子数据。
在一种可能实现的方式中,第一生成模块,用于通过第一神经网络模型对数据以及处理结果进行处理,得到目标任务的第一描述信息。
在一种可能实现的方式中,第二生成模块,用于通过第二神经网络模型对数据以及目标任务的第一描述信息进行处理,得到目标任务的多个第二描述信息。
在一种可能实现的方式中,选择模块,用于:对多个第二描述信息进行聚类,得到多个信息类别,多个信息类别中的一个信息类别包含至少一个第二描述信息;从多个信息类别中选择多个第三描述信息。
在一种可能实现的方式中,多个第二描述信息以文本形式呈现,选择模块,用于:将以文本形式呈现的多个第二描述信息转换为以向量形式呈现的多个第二描述信息;对以向量形式呈现的多个第二描述信息进行聚类,得到多个信息类别。
在一种可能实现的方式中,该装置还包括:处理模块,用于通过第三神经网络模型对承载有数据的多个第二描述信息分别进行处理,得到处理结果的多个概率;评估模块,用于将多个概率作为多个第二描述信息的评估值;选择模块,用于在多个信息类别的任意一个信息类别中,将评估值最高的第二描述信息作为第三描述信息。
在一种可能实现的方式中,模型训练的对象为第四神经网络模型,可完成目标任务的模型为第五神经网络模型。
本申请实施例的第三方面提供了一种任务信息获取装置,该装置包括存储器和处理器;存储器存储有代码,处理器被配置为执行代码,当代码被执行时,任务信息获取装置执行如第一方面或第一方面中任意一种可能的实现方式所述的方法。
本申请实施例的第四方面提供了一种电路系统,该电路系统包括处理电路,该处理电路配置为执行如第一方面或第一方面中任意一种可能的实现方式所述的方法。
本申请实施例的第五方面提供了一种芯片系统,该芯片系统包括处理器,用于调用存储器中存储的计算机程序或计算机指令,以使得该处理器执行如第一方面或第一方面中任意一种可能的实现方式所述的方法。
在一种可能的实现方式中,该处理器通过接口与存储器耦合。
在一种可能的实现方式中,该芯片系统还包括存储器,该存储器中存储有计算机程序或计算机指令。
本申请实施例的第六方面提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,该程序在由计算机执行时,使得计算机实施如第一方面或第一方面中任意一种可能的实现方式所述的方法。
本申请实施例的第七方面提供了一种计算机程序产品,该计算机程序产品存储有指令,该指令在由计算机执行时,使得计算机实施如第一方面或第一方面中任意一种可能的实现方式所述的方法。
本申请实施例中,当需要训练出能完成目标任务的模型时,可先获取与目标任务关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果。接着,可利用与目标任务关联的数据以及这些数据的处理结果,生成目标任务的第一描述信息。然后,可利用与目标任务关联的数据以及目标任务的第一描述信息,生成目标任务的多个第二描述信息,任意一个第二描述信息包含用于承载与目标任务关联的数据的占位符。最后,可从目标任务的多个第二描述信息中选择目标任务的第三描述信息,故承载有与目标任务关联的数据的第三描述信息可作为训练数据,用于完成模型训练,从而得到可完成目标任务的模型。基于前述过程可知,本申请实施例提供了一种任务的描述信息的自动生成框架,该框架可基于与某个任务关联的数据以及这些数据的处理结果,自行生成该任务的多个描述信息(即前述目标任务的多个第二描述信息),并从该任务的多个描述信息挑选出该任务的最优描述信息(即前述目标任务的第三描述信息),以此来作为训练数据,从而完成模型训练。由于该框架的运行过程不涉及过多的人工参与,可节省人力资源,从而降低模型训练的成本。
附图说明
图1为人工智能主体框架的一种结构示意图;
图2a为本申请实施例提供的任务信息获取系统的一个结构示意图;
图2b为本申请实施例提供的任务信息获取系统的另一结构示意图;
图2c为本申请实施例提供的任务信息获取的相关设备的一个示意图;
图3为本申请实施例提供的系统架构的一个示意图;
图4为本申请实施例提供的任务信息获取方法的一个流程示意图;
图5为本申请实施例提供的获取任务描述信息的一个示意图;
图6为本申请实施例提供的获取任务描述信息的另一示意图;
图7为本申请实施例提供的选取任务描述信息的一个示意图;
图8为本申请实施例提供的任务信息获取装置的一个结构示意图;
图9为本申请实施例提供的执行设备的一个结构示意图;
图10为本申请实施例提供的训练设备的一个结构示意图;
图11为本申请实施例提供的芯片的一个结构示意图。
具体实施方式
本申请实施例提供了一种任务信息获取方法以及相关设备,可自动获取任务的描述信息,以此作为模型训练的训练数据,以节约人力资源,从而降低模型训练的成本。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
指令微调指构造自然语言形式的指令来作为训练数据,以对待训练的神经网络模型进行训练,从而得到已训练的神经网络模型。基于指令微调,有利于让模型更好地理解指令的内容,并合理地对指令进行处应答。
在相关技术中,为了获取作为训练数据的指令,往往需要准备任务模版,任务模版也可以理解为某个任务的描述信息,该任务的描述信息通常呈现为用于描述该任务的文本,且该文本包含占位符。在得到该任务的描述信息后,可将相应的数据填充到该任务的描述信息所包含的占位符中,以构成指令。那么,可利用这些指令来完成模型训练。例如,问答任务的描述信息为“请根据【文章】,回答【问题】”,由于某个数据包含【XX企业发展历史】这一文章以及【XX企业成立于哪一年】这一问题,故可将该数据插入至问答任务的描述信息中,以构成指令为“请根据【XX企业发展历史】,回答【XX企业成立于哪一年】”,故可利用该指令训练得到能完成问答任务的神经网络模型。
上述过程中,由于该任务的描述信息通常由人工编写,导致训练数据的构造需要耗费大量的人力资源(例如,该任务的描述信息需要工作人员付出大量的编写时间以及需要一定数量的工作人员来参与编写等等),导致模型训练的成本过高。
进一步地,由于该任务的描述信息通常通常由人工编写,编写的人员思维往往有限,导致编写得到的该任务的描述信息缺乏多样性(例如,工作人员无法编写出足够数量的关于某个任务的描述信息,也就是足够数量的该任务的模板等等),进而导致模型训练的效果不佳。
为了解决上述问题,本申请实施例提供了一种任务信息获取方法,该方法可以结合人工智能(artificial intelligence,AI)技术实现。AI技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能的技术学科,AI技术通过感知环境、获取知识并使用知识获得最佳结果。换句话说,人工智能技术是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。利用人工智能进行数据处理是人工智能常见的一个应用方式。
首先对人工智能系统总体工作流程进行描述,请参见图1,图1为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。
以下将对用于实现本申请实施例提供的方法的硬件设备进行介绍。
图2a为本申请实施例提供的任务信息获取系统的一个结构示意图,该任务信息获取系统包括用户设备以及数据处理设备。其中,用户设备包括手机、个人电脑或者信息处理中心等智能终端。用户设备为任务信息获取的发起端,作为任务信息获取请求的发起方,通常由用户通过用户设备发起请求。
上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的任务信息获取请求,再通过存储数据的存储器以及数据处理的处理器环节进行任务信息的获取处理。数据处理设备中的存储器可以是一个统称,包括本地存储以及存储历史数据的数据库,数据库可以在数据处理设备上,也可以在其它网络服务器上。
在图2a所示的任务信息获取系统中,用户设备可以接收用户的指令,例如用户设备可以获取用户输入/选择的某个任务,然后向数据处理设备发起请求,使得数据处理设备针对用户设备得到的该任务执行任务信息获取应用,从而得到该任务的描述信息。示例性的,用户设备可以获取用户输入的目标任务,然后向数据处理设备发起请求(该请求通常包含与目标任务相关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果等等)。随后,数据处理设备可基于该请求,针对目标任务进行一系列的处理(例如,信息生成以及信息选择等等),从而得到目标任务的描述信息。
在图2a中,数据处理设备可以执行本申请实施例的任务信息获取方法。
图2b为本申请实施例提供的任务信息获取系统的另一结构示意图,在图2b中,用户设备直接作为数据处理设备,该用户设备能够直接获取来自用户的输入并直接由用户设备本身的硬件进行处理,具体过程与图2a相似,可参考上面的描述,在此不再赘述。
在图2b所示的任务信息获取系统中,用户设备可以接收用户的指令,例如,用户设备可以获取用户输入的目标任务,然后用户设备可基于与目标任务相关联的数据以及对数据进行基于目标任务的处理后所得到的处理结果等等,针对目标任务进行一系列的处理(例如,信息生成以及信息选择等等),从而得到目标任务的描述信息。
在图2b中,用户设备自身就可以执行本申请实施例的任务信息获取方法。
图2c为本申请实施例提供的任务信息获取的相关设备的一个示意图。
上述图2a和图2b中的用户设备具体可以是图2c中的本地设备301或者本地设备302,图2a中的数据处理设备具体可以是图2c中的执行设备210,其中,数据存储系统250可以存储执行设备210的待处理数据,数据存储系统250可以集成在执行设备210上,也可以设置在云上或其它网络服务器上。
图2a和图2b中的处理器可以通过神经网络模型或者其它模型(例如,基于支持向量机的模型)进行数据训练/机器学习/深度学习,并利用数据最终训练或者学习得到的模型针对任务执行任务信息获取应用,从而得到相应的处理结果。
图3为本申请实施例提供的系统100架构的一个示意图,在图3中,执行设备110配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据,所述输入数据在本申请实施例中可以包括:各个待调度任务、可调用资源以及其他参数。
在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理(例如,利用符号表达式来完成针对混合整数规划方程的求解)过程中,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统150中。
最后,I/O接口112将处理结果返回给客户设备140,从而提供给用户。
值得说明的是,训练设备120针对某个目标(例如,获取本申请实施例所提供的任务信息方法中的目标任务的描述信息),基于不同的训练数据生成相应的目标模型(例如,本申请实施例所提供的任务信息获取方法中的第一神经网络模型、第二神经网络模型以及第三神经网络模型)/规则,该相应的目标模型/规则即可以用于实现上述目标。其中,训练数据可以存储在数据库130中,且来自于数据采集设备160采集的训练样本。
在图3中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,图3仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图3中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。如图3所示,可以根据训练设备120训练得到目标模型。
本申请实施例还提供的一种芯片,该芯片包括神经网络处理器NPU。该芯片可以被设置在如图3所示的执行设备110中,用以完成计算模块111的计算工作。该芯片也可以被设置在如图3所示的训练设备120中,用以完成训练设备120的训练工作并输出目标模型/规则。
神经网络处理器NPU,NPU作为协处理器挂载到主中央处理器(centralprocessing unit,CPU)(host CPU)上,由主CPU分配任务。NPU的核心部分为运算电路,控制器控制运算电路提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路是二维脉动阵列。运算电路还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)中。
向量计算单元可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元可以用于神经网络中非卷积/非FC层的网络计算,如池化(pooling),批归一化(batch normalization),局部响应归一化(localresponse normalization)等。
在一些实现种,向量计算单元能将经处理的输出的向量存储到统一缓存器。例如,向量计算单元可以将非线性函数应用到运算电路的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器(direct memory access controller,DMAC)将外部存储器中的输入数据搬运到输入存储器和/或统一存储器、将外部存储器中的权重数据存入权重存储器,以及将统一存储器中的数据存入外部存储器。
总线接口单元(bus interface unit,BIU),用于通过总线实现主CPU、DMAC和取指存储器之间进行交互。
与控制器连接的取指存储器(instruction fetch buffer),用于存储控制器使用的指令;
控制器,用于调用指存储器中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器,输入存储器,权重存储器以及取指存储器均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(doubledata rate synchronous dynamic random access memory,DDRSDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
神经网络中的每一层的工作可以用数学表达式y=a(Wx+b)来描述:从物理层面神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维;2、放大/缩小;3、旋转;4、平移;5、“弯曲”。其中1、2、3的操作由Wx完成,4的操作由+b完成,5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合。其中,W是权重向量,该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换,即每一层的权重W控制着如何变换空间。训练神经网络的目的,也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。
因为希望神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么神经网络的训练就变成了尽可能缩小这个loss的过程。
(2)反向传播算法
神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
值得注意的是,本申请实施例提供的任务信息获取方法,主要用于获取任务的描述信息,在任务的描述信息的获取过程中可涉及神经网络模型的应用(例如,使用了某个或某些已训练的神经网络模型来获取任务的描述信息)。在得到任务的描述信息后,任务的描述信息可用于后续神经网络模型的训练中(例如,任务的描述信息可作为某个待训练的神经网络模型的训练数据)。为了进一步了解该过程,下文结合图4对该过程做进一步的介绍,图4为本申请实施例提供的任务信息获取方法的一个流程示意图,如图4所示,该方法包括:
401、获取与目标任务关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果。
本实施例中,当需要训练出能完成目标任务的模型时,可从数据仓库中获取与目标任务关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果(下文简称为与目标任务关联的数据的处理结果)。需要说明的是,目标任务、与目标任务关联的数据以及与目标任务关联的数据的处理结构均是已存储在数据仓库中的。
具体地,可通过以下方式构建数据仓库:
(1)设存在多个任务,对于多个任务中的任意一个任务而言,可提前采集与该任务关联的数据以及与该任务关联的数据的处理结果。进一步地,与该任务关联的数据可包含至少一个子数据,以及与至少一个子数据一一对应的至少一个数据类别。
需要说明的是,对于多个任务中的其余任务而言,也可执行如同对该任务所执行的操作,故最终可采集得到与多个任务关联的数据以及与多个任务关联的数据的处理结果。
例如,设存在N个任务T1,T2,...,TN(N为大于或等于2的整数),对于任务Tt(t=1,...,N)而言,可采集与Tt关联的M个数据(M为大于或等于1的整数),以及这M个数据的处理结果/>对于与Tt关联的第i个数据/>(i=1,...,M)而言,/>可包含C个子数据以及这C个子数据的类别,即/>(C为大于或等于1的整数),/>包含第j个子数据以及第j个子数据的类别。
Tt可以为各种各样的任务,相应的,与Tt关联的数据也就不同。比如,当Tt为分类任务时,与文本分类任务关联的某个数据可以为“内容:XXX甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物”,/>的处理结果/>可以为“分类:娱乐新闻”。其中,/>包含一个子数据为“XXX甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物”,该子数据的类别为“内容”。
又如,当Tt为问答任务时,与问答任务关联的某个数据可以为“文章:XX企业发展历史:XX企业为一家科技型企业,其成立于...;问题:XX企业成立于哪一年”,/>的处理结果可以为“回答:XX企业成立于1987年”。其中,/>包含两个子数据即“XX企业发展历史:XX企业为一家科技型企业,其成立于...”以及“XX企业成立于哪一年”,这两个子数据的类别为“文章”和“问题”等等。
(2)在采集得到与多个任务关联的数据以及与多个任务关联的数据的处理结果后,对于任意一个任务而言,可在数据仓库中设置一块专属的存储区域,将与该任务关联的数据以及与该任务关联的数据的处理结果存储在该存储区域中,并将该任务作为该存储区域的索引。
需要说明的是,对于多个任务中的其余任务而言,也可执行如同对该任务所执行的操作,故最终可将与多个任务关联的数据以及与多个任务关联的数据的处理结果,相应地存储在数据仓库的多个存储区域中。如此一来,则成功构建了数据仓库。
更具体地,可通过以下方式从数据仓库中获取与目标任务关联的数据以及与目标任务关联的数据的处理结果:
在构建数据仓库后,由于多个任务分别作为数据仓库的多个存储区域的索引,若需要获取与目标任务(可以理解为多个任务中的某个任务)关联的数据以及与目标任务关联的数据的处理结果,可直接基于目标任务从数据仓库中找到相应的存储区域,并从该存储区域中读取与目标任务关联的数据以及与目标任务关联的数据的处理结果。
402、基于数据以及处理结果,生成目标任务的第一描述信息。
得到与目标任务关联的数据以及与目标任务关联的数据的处理结果后,可对与目标任务关联的数据以及与目标任务关联的数据的处理结果进行处理,从而得到目标任务的第一描述信息。需要说明的是,目标任务的第一描述信息可以理解为用于描述目标任务的第一文本,且第一文本不包含任何占位符。
具体地,可通过以下方式获取目标任务的第一描述信息:
得到与目标任务关联的数据以及与目标任务关联的数据的处理结果后,可将与目标任务关联的数据作为目标任务的输入,并将与目标任务关联的数据的处理结果作为目标任务的输出。接着,可基于目标任务的输入和输出可构建第一指令,第一指令用于指示以目标任务的输入和输出为参考,生成针对目标任务的初始描述。然后,可将第一指令输入至第一神经网络模型(也可以理解为已训练的神经网络模型),以通过第一神经网络模型对第一指令进行处理,从而得到目标任务的第一描述信息。
依旧如上述例子,如图5所示(图5为本申请实施例提供的获取任务描述信息的一个示意图),设需要获取Tt的模板(设Tt为分类任务),从数据仓库中读取与Tt关联的某个数据以及/>的处理结果/>后,可将/>“内容:XXX甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物”视为分类任务的输入,并将/>“分类:娱乐新闻”视为分类任务的输出。接着,可基于分类任务的输入和输出构建指令:“基于分类任务的输入和输出,生成一个对分类任务的尽可能丰富和详细的描述,并且流畅自然,符合人类书写习惯”。然后,可将该指令输入至已训练的大语言模型,使得模型输出分类任务的初始描述dt:“根据给定的内容,从已有的多个选项中选择答案,从而可以判断和识别该内容属于哪一类新闻”。
403、基于数据以及目标任务的第一描述信息,生成目标任务的多个第二描述信息,任意一个第二描述信息包含用于承载数据的占位符。
得到目标任务的第一描述信息后,可与目标任务关联的数据以及目标任务的第一描述信息进行处理,从而得到目标任务的多个第二描述信息(也可以称为目标任务的多个模板)。需要说明的是,目标任务的多个第二描述信息可以理解为用于描述目标任务的多个第二文本(第二文本和第一文本所表达的内容通常是相似的,但是二者表达的方式有所区别),且多个第二文本中的任意一个第二文本可包含用于承载与目标任务关联的数据的占位符。
具体地,目标任务的第二描述信息可通过以下方式呈现:
基于前述内容可知,与目标任务关联的数据可包含至少一个子数据,以及与至少一个子数据一一对应的至少一个数据类别,故相应地,在基于与目标任务关联的数据以及目标任务的第一描述信息所得到的目标任务的多个第二描述信息中,任意一个第二描述信息可包含与与至少一个数据类别一一对应的至少一个占位符。可以理解的是,在目标任务的多个第二描述信息中,任意一个第二描述信息所包含的至少一个占位符可用于分别承载与目标任务关联的数据所包含的至少一个子数据。
依旧如上述例子,由于包含的子数据为“XXX甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物”,该子数据的类别为“内容”,且分类任务的初始描述dt为“根据给定的内容,从已有的多个选项中选择答案,从而可以判断和识别该内容属于哪一类新闻”,故分类任务的最终描述可以为“请在给定的文章【内容】和备选类别选项1、选项2和选项3中,根据文章确定它所属的类别”,其中,【内容】也就是分类任务的最终描述所包含的占位符,该占位符可用于填充子数据“XXX甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物”。
更具体地,可通过以下方式获取目标任务的第二描述信息:
得到目标任务的第一描述信息后,可将与目标任务关联的数据所包含的至少一个数据类别,视为目标任务的关键词。接着,可基于目标任务的第一描述信息以及目标任务的关键词构建第二指令,第二指令用于指示将目标任务的关键词插入目标任务的初始描述,以生成针对目标任务的最终描述。然后,可将第二指令输入至第二神经网络模型(也可以理解为已训练的神经网络模型),以通过第二神经网络模型对第二指令进行处理,从而得到目标任务的多个第二描述信息。
依旧如上述例子,如图6所示(图6为本申请实施例提供的获取任务描述信息的另一示意图),得到dt后,可将所包含的子数据的类别“内容”视为分类任务的关键词。接着,可基于dt以及分类任务的关键词构建指令:“基于分类任务的关键词,对分类任务的初始描述进行改写,使其多样化,符合人的说话写作风格,并保留分类任务的关键词”。然后,可将该指令输入至已训练的大语言模型,使得模型输出分类任务的多个最终描述(也就是分类任务的多个模版),其中,最终描述/>为“请根据文章【内容】和给定的选项1、选项2和选项3中,判断哪一个最能代表文章中描述的概念或事件”,最终描述/>为“请在给定的文章【内容】和备选类别选项1、选项2和选项3中,根据文章确定它所属的类别”,/>为“请根据给定的文章【内容】,从备选的答案选项1、选项2和选项3中正确地判断出该文章属于哪一类内容”以及/>为“请从以下选项1、选项2和选项3中,正确选出与文章【内容】最相关的话题”等等。
404、从多个第二描述信息中选择第三描述信息,承载有数据的第三描述信息用于进行模型训练,以得到可完成目标任务的模型。
得到目标任务的多个第二描述信息后,可从目标任务的多个第二描述信息中,选择某个或某些第二描述信息来作为目标任务的第三描述信息。那么,可将与目标任务关联的数据插入选择得到的第三描述信息中,从而得到承载有与目标任务关联的数据的第三描述信息(也可以理解为第三指令,第三指令用于指示对与目标任务关联的数据,进行基于目标任务的处理)。如此一来,可利用承载有与目标任务关联的数据的第三描述信息来完成模型训练,从而得到可完成目标任务的模型。
具体地,可通过以下方式来获取目标任务的第三描述信息:
(1)得到目标任务的多个第二描述信息后,可使用某种聚类算法(例如,K-means算法等等)对目标任务的多个第二描述信息进行聚类,从而得到多个信息类别。可以理解的是,在多个信息类别中,任意一个信息类别可包含目标任务的至少一个第二描述信息。
一般地,第二神经网络模型所输出的目标任务的多个第二描述信息通常是以文本形式呈现的,故为了提高聚类的效率,在进行聚类之前,可先对以文本形式呈现的多个第二描述信息进行计算,得到以向量(embedding)形式呈现的多个第二描述信息。然后,可对以向量形式呈现的多个第二描述信息进行聚类,从而得到多个信息类别。
依旧如上述例子,得到分类任务的多个最终描述后,由于/>是文本形式的多个最终描述,可先将文本形式的多个最终描述转换为向量形式的最终描述/>并利用K-means算法对/>进行聚类,从而得到P个类别(P为大于或等于2的整数),每一个类别包含了至少一个向量形式的最终描述。
(2)得到多个信息类别后,对于多个信息类别中的任意一个信息类别而言,可从该信息类别所包含的至少一个第二描述信息中,将最优的第二描述信息确定为目标任务的第三描述信息。对于多个信息类别中的其余信息类别,也可执行如同对该信息类别所执行的操作,故最终可得到目标任务的多个第三描述信息。
更具体地,可通过以下方式从多个信息类别中获取目标任务的多个第三描述信息:
(1)得到目标任务的多个第二描述信息后,可将与目标任务关联的数据插入至多个第二描述信息中,以得到承载有与目标任务关联的数据的多个第二描述信息(也可以理解为多个第四指令,这多个第四指令均用于指示对与目标任务关联的数据,进行基于目标任务的处理)。对于承载有与目标任务关联的数据的任意一个第二描述信息,可将其输入至第三神经网络模型(已训练的神经网络模型),以通过第三神经网络模型对承载有与目标任务关联的数据的该第二描述信息进行处理,从而预测得到与目标任务关联的数据的处理结果的一个概率。
需要说明的是,对于承载有与目标任务关联的数据的其余第二描述信息,也可以执行类似的操作,故最终可得到与目标任务关联的数据的处理结果的多个概率,由于这多个概率与承载有与目标任务关联的数据的多个第二描述信息是一一对应的,故可将这多个概率作为目标任务的多个第二描述信息的评估值。
依旧如上述例子,如图7所示(图7为本申请实施例提供的选取任务描述信息的一个示意图),得到后,可将/>填入/>中,从而得到指令集可将指令集中的任意一个指令/>(u=1,...,K)输入至大语言模型中,以预测得到/>的概率/> 可直接作为最终描述/>的评估值。如此一来,最终可得到/>的所有评估值/>
(2)得到多个信息类别后,对于多个信息类别的任意一个信息类别而言,可从该信息类别所包含的至少一个第二描述信息中,将评估值最高的第二描述信息作为目标任务的第三描述信息。对于多个信息类别中的其余信息类别,也可执行如同对该信息类别所执行的操作,故最终可得到目标任务的多个第三描述信息。
依旧如上述例子,得到P个类别后,可在任意一个类别中将评估值最高的最终描述确定可用的最终描述,故最终可得到分类任务Tt的P个可用的最终描述,也就是Tt的P个可用模板。
应理解,本实施例中,图5至图7所示的例子中,仅以从数据仓库中读取与Tt关联的某个数据进行示意性介绍,并不对读取的数据数量构成限制。在实际应用中,也可以从数据仓库中读取与Tt关联的某几个数据/>等等,在后续中,多个数据的处理过程与单个数据的处理过程也是类似的,此处不再赘述。
还应理解,本实施例中,第一神经网络模型、第二神经网络模型和第三神经模型可以是同一个模型,当然,第一神经网络模型、第二神经网络模型和第三神经模型也可以是不同的模型,例如,图5至图7所示的例子中,这三者均为同一个大语言模型。
还应理解,在挑选出目标任务的第三描述信息后,搭载有与目标任务的第三描述信息可用于模型训练,模型训练的对象为第四神经网络模型(待训练的神经网络模型),模型训练得到的结果为第五神经网络模型(已训练的神经网络模型,来源于第四神经网络模型,也就是可完成目标任务的模型),第五神经网络模型与第一神经网络模型通常是不同的模型,同理,第五神经网络模型与第二神经网络模型也通常是不同的模型,第五神经网络模型与第三神经网络模型也通常是不同的模型。
本申请实施例中,当需要训练出能完成目标任务的模型时,可先获取与目标任务关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果。接着,可利用与目标任务关联的数据以及这些数据的处理结果,生成目标任务的第一描述信息。然后,可利用与目标任务关联的数据以及目标任务的第一描述信息,生成目标任务的多个第二描述信息,任意一个第二描述信息包含用于承载与目标任务关联的数据的占位符。最后,可从目标任务的多个第二描述信息中选择目标任务的第三描述信息,故承载有与目标任务关联的数据的第三描述信息可作为训练数据,用于完成模型训练,从而得到可完成目标任务的模型。基于前述过程可知,本申请实施例提供了一种任务的描述信息的自动生成框架,该框架可基于与某个任务关联的数据以及这些数据的处理结果,自行生成该任务的多个描述信息(即前述目标任务的多个第二描述信息),并从该任务的多个描述信息挑选出该任务的最优描述信息(即前述目标任务的第三描述信息),以此来作为训练数据,从而完成模型训练。由于该框架的运行过程不涉及过多的人工参与,可节省人力资源,从而降低模型训练的成本。
进一步地,本申请实施例所提供的任务的描述信息的自动生成框架,该框架的运行过程可使用神经网络模型来完成任务的描述信息的生成,且可利用两个阶段的处理(聚类和评估)来完成任务的描述信息的挑选,可较为全面地考虑各种因素,使得最终挑选出来的描述信息具备准确性和多样性,有利于提高模型训练的效果。
以上是对本申请实施例提供的任务信息获取方法所进行的详细说明,以下将对本申请实施例提供的任务信息获取装置进行介绍。图8为本申请实施例提供的任务信息获取装置的一个结构示意图,如图8所示,该装置包括:
获取模块801,用于获取与目标任务关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果。
第一生成模块802,用于基于数据以及处理结果,生成目标任务的第一描述信息。
第二生成模块803,用于基于数据以及目标任务的第一描述信息,生成目标任务的多个第二描述信息,任意一个第二描述信息包含用于承载数据的占位符。
选择模块804,用于从多个第二描述信息中选择第三描述信息,承载有数据的第三描述信息用于进行模型训练,以得到可完成目标任务的模型。
本申请实施例中,当需要训练出能完成目标任务的模型时,可先获取与目标任务关联的数据,以及对数据进行基于目标任务的处理后所得到的处理结果。接着,可利用与目标任务关联的数据以及这些数据的处理结果,生成目标任务的第一描述信息。然后,可利用与目标任务关联的数据以及目标任务的第一描述信息,生成目标任务的多个第二描述信息,任意一个第二描述信息包含用于承载与目标任务关联的数据的占位符。最后,可从目标任务的多个第二描述信息中选择目标任务的第三描述信息,故承载有与目标任务关联的数据的第三描述信息可作为训练数据,用于完成模型训练,从而得到可完成目标任务的模型。基于前述过程可知,本申请实施例提供了一种任务的描述信息的自动生成框架,该框架可基于与某个任务关联的数据以及这些数据的处理结果,自行生成该任务的多个描述信息(即前述目标任务的多个第二描述信息),并从该任务的多个描述信息挑选出该任务的最优描述信息(即前述目标任务的第三描述信息),以此来作为训练数据,从而完成模型训练。由于该框架的运行过程不涉及过多的人工参与,可节省人力资源,从而降低模型训练的成本。
在一种可能实现的方式中,数据包含至少一个子数据以及与至少一个子数据对应的至少一个数据类别,任意一个第二描述信息包含与至少一个数据类别对应的至少一个占位符,至少一个占位符用于承载至少一个子数据。
在一种可能实现的方式中,第一生成模块802,用于通过第一神经网络模型对数据以及处理结果进行处理,得到目标任务的第一描述信息。
在一种可能实现的方式中,第二生成模块803,用于通过第二神经网络模型对数据以及目标任务的第一描述信息进行处理,得到目标任务的多个第二描述信息。
在一种可能实现的方式中,选择模块804,用于:对多个第二描述信息进行聚类,得到多个信息类别,多个信息类别中的一个信息类别包含至少一个第二描述信息;从多个信息类别中选择多个第三描述信息。
在一种可能实现的方式中,多个第二描述信息以文本形式呈现,选择模块804,用于:将以文本形式呈现的多个第二描述信息转换为以向量形式呈现的多个第二描述信息;对以向量形式呈现的多个第二描述信息进行聚类,得到多个信息类别。
在一种可能实现的方式中,该装置还包括:处理模块,用于通过第三神经网络模型对承载有数据的多个第二描述信息分别进行处理,得到处理结果的多个概率;评估模块,用于将多个概率作为多个第二描述信息的评估值;选择模块804,用于在多个信息类别的任意一个信息类别中,将评估值最高的第二描述信息作为第三描述信息。
在一种可能实现的方式中,模型训练的对象为第四神经网络模型,可完成目标任务的模型为第五神经网络模型。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参考本申请实施例前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还涉及一种执行设备,图9为本申请实施例提供的执行设备的一个结构示意图。如图9所示,执行设备900具体可以表现为手机、平板、笔记本电脑、智能穿戴设备、服务器等,此处不做限定。其中,执行设备900上可部署有图8对应实施例中所描述的任务信息获取装置,用于实现图4对应实施例中任务信息获取的功能。具体的,执行设备900包括:接收器901、发射器902、处理器903和存储器904(其中执行设备900中的处理器903的数量可以一个或多个,图9中以一个处理器为例),其中,处理器903可以包括应用处理器9031和通信处理器9032。在本申请的一些实施例中,接收器901、发射器902、处理器903和存储器904可通过总线或其它方式连接。
存储器904可以包括只读存储器和随机存取存储器,并向处理器903提供指令和数据。存储器904的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器904存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器903控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器903中,或者由处理器903实现。处理器903可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器903中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器903可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器903可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器904,处理器903读取存储器904中的信息,结合其硬件完成上述方法的步骤。
接收器901可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器902可用于通过第一接口输出数字或字符信息;发射器902还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器902还可以包括显示屏等显示设备。
本申请实施例中,在一种情况下,处理器903,用于通过图4对应实施例中的第一神经网络模型,第二神经网络模型以及第三神经网络模型,获取目标任务的最优描述信息(即前述的第三描述信息)。
本申请实施例还涉及一种训练设备,图10为本申请实施例提供的训练设备的一个结构示意图。如图10所示,训练设备1000由一个或多个服务器实现,训练设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1010(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对训练设备中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1030通信,在训练设备1000上执行存储介质1030中的一系列指令操作。
训练设备1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058;或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
具体的,训练设备可以接收图9所示的执行设备所发送的目标任务的最优描述信息,并将目标任务的最优描述信息作为训练数据,以利用训练数据对第四神经网络模型进行训练,从而得到可完成目标任务的第五神经网络模型。
本申请实施例还涉及一种计算机存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例还涉及一种计算机程序产品,该计算机程序产品存储有指令,该指令在由计算机执行时使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的数据处理方法,或者,以使训练设备内的芯片执行上述实施例描述的数据处理方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图11,图11为本申请实施例提供的芯片的一个结构示意图,所述芯片可以表现为神经网络处理器NPU 1100,NPU 1100作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1103,通过控制器1104控制运算电路1103提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1103内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1103是二维脉动阵列。运算电路1103还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1103是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1102中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1101中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1108中。
统一存储器1106用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1105,DMAC被搬运到权重存储器1102中。输入数据也通过DMAC被搬运到统一存储器1106中。
BIU为Bus Interface Unit即,总线接口单元1111,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1109的交互。
总线接口单元1111(Bus Interface Unit,简称BIU),用于取指存储器1109从外部存储器获取指令,还用于存储单元访问控制器1105从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1106或将权重数据搬运到权重存储器1102中或将输入数据数据搬运到输入存储器1101中。
向量计算单元1107包括多个运算处理单元,在需要的情况下,对运算电路1103的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对预测标签平面进行上采样等。
在一些实现中,向量计算单元1107能将经处理的输出的向量存储到统一存储器1106。例如,向量计算单元1107可以将线性函数;或,非线性函数应用到运算电路1103的输出,例如对卷积层提取的预测标签平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1107生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1103的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1104连接的取指存储器(instruction fetch buffer)1109,用于存储控制器1104使用的指令;
统一存储器1106,输入存储器1101,权重存储器1102以及取指存储器1109均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。

Claims (19)

1.一种任务信息获取方法,其特征在于,所述方法包括:
获取与目标任务关联的数据,以及对所述数据进行基于所述目标任务的处理后所得到的处理结果;
基于所述数据以及所述处理结果,生成所述目标任务的第一描述信息;
基于所述数据以及所述目标任务的第一描述信息,生成所述目标任务的多个第二描述信息,任意一个第二描述信息包含用于承载所述数据的占位符;
从所述多个第二描述信息中选择第三描述信息,承载有所述数据的第三描述信息用于进行模型训练,以得到可完成所述目标任务的模型。
2.根据权利要求1所述的方法,其特征在于,所述数据包含至少一个子数据以及与所述至少一个子数据对应的至少一个数据类别,所述任意一个第二描述信息包含与所述至少一个数据类别对应的至少一个占位符,所述至少一个占位符用于承载所述至少一个子数据。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述数据以及所述处理结果,生成所述目标任务的第一描述信息包括:
通过第一神经网络模型对所述数据以及所述处理结果进行处理,得到所述目标任务的第一描述信息。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述基于所述数据以及所述目标任务的第一描述信息,生成所述目标任务的多个第二描述信息包括:
通过第二神经网络模型对所述数据以及所述目标任务的第一描述信息进行处理,得到所述目标任务的多个第二描述信息。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述第三描述信息的数量为多个,所述从所述多个第二描述信息中选择第三描述信息包括:
对所述多个第二描述信息进行聚类,得到多个信息类别,所述多个信息类别中的一个信息类别包含至少一个第二描述信息;
从所述多个信息类别中选择多个第三描述信息。
6.根据权利要求5所述的方法,其特征在于,所述多个第二描述信息以文本形式呈现,所述对所述多个第二描述信息进行聚类,得到多个信息类别包括:
将以文本形式呈现的多个第二描述信息转换为以向量形式呈现的多个第二描述信息;
对以向量形式呈现的多个第二描述信息进行聚类,得到多个信息类别。
7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
通过第三神经网络模型对承载有所述数据的多个第二描述信息分别进行处理,得到所述处理结果的多个概率;
将所述多个概率作为所述多个第二描述信息的评估值;
所述从所述多个类别中选择多个第三描述信息包括:
在多个信息类别的任意一个信息类别中,将评估值最高的第二描述信息作为第三描述信息。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述模型训练的对象为第四神经网络模型,所述可完成所述目标任务的模型为第五神经网络模型。
9.一种任务信息获取装置,其特征在于,所述装置包括:
获取模块,用于获取与目标任务关联的数据,以及对所述数据进行基于所述目标任务的处理后所得到的处理结果;
第一生成模块,用于基于所述数据以及所述处理结果,生成所述目标任务的第一描述信息;
第二生成模块,用于基于所述数据以及所述目标任务的第一描述信息,生成所述目标任务的多个第二描述信息,任意一个第二描述信息包含用于承载所述数据的占位符;
选择模块,用于从所述多个第二描述信息中选择第三描述信息,承载有所述数据的第三描述信息用于进行模型训练,以得到可完成所述目标任务的模型。
10.根据权利要求9所述的装置,其特征在于,所述数据包含至少一个子数据以及与所述至少一个子数据对应的至少一个数据类别,所述任意一个第二描述信息包含与所述至少一个数据类别对应的至少一个占位符,所述至少一个占位符用于承载所述至少一个子数据。
11.根据权利要求9或10所述的装置,其特征在于,所述第一生成模块,用于通过第一神经网络模型对所述数据以及所述处理结果进行处理,得到所述目标任务的第一描述信息。
12.根据权利要求9至11任意一项所述的装置,其特征在于,所述第二生成模块,用于通过第二神经网络模型对所述数据以及所述目标任务的第一描述信息进行处理,得到所述目标任务的多个第二描述信息。
13.根据权利要求9至12任意一项所述的装置,其特征在于,所述选择模块,用于:
对所述多个第二描述信息进行聚类,得到多个信息类别,所述多个信息类别中的一个信息类别包含至少一个第二描述信息;
从所述多个信息类别中选择多个第三描述信息。
14.根据权利要求13所述的装置,其特征在于,所述多个第二描述信息以文本形式呈现,所述选择模块,用于:
将以文本形式呈现的多个第二描述信息转换为以向量形式呈现的多个第二描述信息;
对以向量形式呈现的多个第二描述信息进行聚类,得到多个信息类别。
15.根据权利要求13或14所述的装置,其特征在于,所述装置还包括:
处理模块,用于通过第三神经网络模型对承载有所述数据的多个第二描述信息分别进行处理,得到所述处理结果的多个概率;
评估模块,用于将所述多个概率作为所述多个第二描述信息的评估值;
所述选择模块,用于在多个信息类别的任意一个信息类别中,将评估值最高的第二描述信息作为第三描述信息。
16.根据权利要求9至15任意一项所述的装置,其特征在于,所述模型训练的对象为第四神经网络模型,所述可完成所述目标任务的模型为第五神经网络模型。
17.一种任务信息获取装置,其特征在于,所述装置包括存储器和处理器;所述存储器存储有代码,所述处理器被配置为执行所述代码,当所述代码被执行时,所述任务信息获取装置执行如权利要求1至8任意一项所述的方法。
18.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或多个指令,所述指令在由一个或多个计算机执行时使得所述一个或多个计算机实施权利要求1至8任一所述的方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品存储有指令,所述指令在由计算机执行时,使得所述计算机实施权利要求1至8任意一项所述的方法。
CN202311604028.1A 2023-11-27 2023-11-27 一种任务信息获取方法以及相关设备 Pending CN117852603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311604028.1A CN117852603A (zh) 2023-11-27 2023-11-27 一种任务信息获取方法以及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311604028.1A CN117852603A (zh) 2023-11-27 2023-11-27 一种任务信息获取方法以及相关设备

Publications (1)

Publication Number Publication Date
CN117852603A true CN117852603A (zh) 2024-04-09

Family

ID=90542451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311604028.1A Pending CN117852603A (zh) 2023-11-27 2023-11-27 一种任务信息获取方法以及相关设备

Country Status (1)

Country Link
CN (1) CN117852603A (zh)

Similar Documents

Publication Publication Date Title
CN111898636B (zh) 一种数据处理方法及装置
CN113065633B (zh) 一种模型训练方法及其相关联设备
CN112529149B (zh) 一种数据处理方法及相关装置
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
CN113656563A (zh) 一种神经网络搜索方法及相关设备
WO2023050143A1 (zh) 一种推荐模型训练方法及装置
WO2024114659A1 (zh) 一种摘要生成方法及其相关设备
CN117056589A (zh) 一种物品推荐方法及其相关设备
CN116910201A (zh) 一种对话数据生成方法及其相关设备
CN116739154A (zh) 一种故障预测方法及其相关设备
CN116910357A (zh) 一种数据处理方法及相关装置
CN117251619A (zh) 一种数据处理方法及相关装置
CN116910202A (zh) 一种数据处理方法及相关设备
CN116312489A (zh) 一种模型训练方法及其相关设备
CN116204709A (zh) 一种数据处理方法及相关装置
CN115879524A (zh) 一种模型训练方法及其相关设备
CN114707070A (zh) 一种用户行为预测方法及其相关设备
CN114707643A (zh) 一种模型切分方法及其相关设备
CN117852603A (zh) 一种任务信息获取方法以及相关设备
CN113065638A (zh) 一种神经网络压缩方法及其相关设备
CN118262380A (zh) 一种模型训练方法及其相关设备
CN116611861A (zh) 一种消费预测方法及其相关设备
CN117746047A (zh) 一种图像处理方法及其相关设备
CN116881542A (zh) 一种物品推荐方法及其相关设备
WO2023051678A1 (zh) 一种推荐方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination