CN114840327A - 多模态多任务的处理方法、设备及系统 - Google Patents
多模态多任务的处理方法、设备及系统 Download PDFInfo
- Publication number
- CN114840327A CN114840327A CN202210746272.0A CN202210746272A CN114840327A CN 114840327 A CN114840327 A CN 114840327A CN 202210746272 A CN202210746272 A CN 202210746272A CN 114840327 A CN114840327 A CN 114840327A
- Authority
- CN
- China
- Prior art keywords
- task
- processed
- data
- processing
- tasks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 373
- 238000006243 chemical reaction Methods 0.000 claims abstract description 304
- 108091026890 Coding region Proteins 0.000 claims abstract description 138
- 238000000034 method Methods 0.000 claims abstract description 125
- 230000008569 process Effects 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims description 137
- 230000006978 adaptation Effects 0.000 claims description 36
- 238000004891 communication Methods 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000013501 data transformation Methods 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 21
- 238000004590 computer program Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 230000001737 promoting effect Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 229910052500 inorganic mineral Inorganic materials 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000011707 mineral Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/34—Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
- G06F9/345—Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5017—Task decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Stored Programmes (AREA)
Abstract
本申请实施例提供了一种多模态多任务的处理方法、设备及系统。系统中的任务标识组件通过任务表示框架获取不同模态的多个待处理任务,其中,所述任务表示框架用于限定对待处理任务进行描述的内容格式;通过数据转换组件来确定所述多个待处理任务中各个待处理任务所对应的编码序列;并通过数据处理组件基于各个待处理任务所对应的编码序列对所述多个待处理任务进行处理,获得与所述多个待处理任务各自对应的任务处理结果,从而实现了能够同时对不同模态的多个待处理任务进行处理,这样不仅保证了对待处理任务进行处理的质量和效率,并且还降低了对多模态多任务处理的困难程度和繁杂程度,使得多模态多任务的处理系统能够适用到各个应用场景中。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种多模态多任务的处理方法、设备及系统。
背景技术
自从人工智能AI诞生以来,得到了愈加广泛的重视,使得理论和技术日益成熟,应用领域也在不断扩大。目前,AI深度学习系统主要分为底层深度学习框架(pytorch/tensorflow)或者是面向特定模态&任务的框架(huggingface/mmdetection)。而随着T5、T0等语言模型以多模态模型的推出,“统一模型、任务”范式的AI模型越来越受到学术界和工业界的重视。然而,对于这类多模态、多任务的需求,目前还没有出现一个框架式的系统能够提供便捷的接口、工具和高效的实现满足这类需求,即目前的AI技术主要针对单任务、少任务或者相似任务为主的简单任务进行处理,并且主要是基于单模态数据进行训练得到的AI模型,这样得到的AI模型通常泛化能力比较弱,很难适应各种复杂的应用场景。
因此,现在亟需一种能够灵活的表示一个新的多模态任务、实现不同的模态编码解码器、容纳异构的计算负载、精细化的多任务调度的系统,以适用于各种不同的应用场景。
发明内容
本申请实施例提供一种多模态多任务的处理方法、设备及系统,不仅能够对复杂的多模态多任务进行处理,并且还降低了对多模态多任务处理的困难程度,使得多模态多任务的处理方法能够适用到各个应用场景中。
第一方面,本申请实施例提供了一种多模态多任务的处理方法,应用于多模态多任务的处理系统,所述处理系统包括任务表示组件、与所述任务表示组件通信连接的数据转换组件以及与所述数据转换组件通信连接的数据处理组件,所述方法包括:
所述任务表示组件确定任务表示框架所对应的任务表示元素,其中,所述任务表示框架用于限定对待处理任务进行描述的内容格式,所述任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素;
所述任务表示组件基于所述任务表示元素获取不同模态的多个待处理任务各自对应的任务描述信息、任务输入信息和任务输出信息;
所述数据转换组件确定各个待处理任务所对应的编码序列;
所述数据处理组件基于各个待处理任务所对应的编码序列对所述待处理任务进行处理,获得所述多个待处理任务各自对应的任务处理结果。
第二方面,本申请实施例提供了一种多模态多任务的处理装置,包括:
第一获取模块,用于确定任务表示框架所对应的任务表示元素,其中,所述任务表示框架用于限定对待处理任务进行描述的内容格式,所述任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素;
所述第一获取模块,还用于基于所述任务表示元素获取不同模态的多个待处理任务各自对应的任务描述信息、任务输入信息和任务输出信息;
第一确定模块,用于确定各个待处理任务所对应的编码序列;
第一处理模块,用于基于各个待处理任务所对应的编码序列对所述待处理任务进行处理,获得所述多个待处理任务各自对应的任务处理结果。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面所示的多模态多任务的处理方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面所示的多模态多任务的处理方法。
第五方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第一方面所示的多模态多任务的处理方法中的步骤。
第六方面,本发明实施例提供了一种多模态多任务的处理系统,包括:
任务表示组件,用于确定任务表示框架所对应的任务表示元素,其中,所述任务表示框架用于限定对待处理任务进行描述的内容格式,所述任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素;基于所述任务表示元素获取不同模态的多个待处理任务各自对应的任务描述信息、任务输入信息和任务输出信息;
数据转换组件,与所述任务表示组件通信连接,用于确定各个待处理任务所对应的编码序列;
数据处理组件,与所述数据转换组件通信连接,用于基于各个待处理任务所对应的编码序列对所述待处理任务进行处理,获得所述多个待处理任务各自对应的任务处理结果。
本申请实施例提供的技术方案,通过任务表示框获取不同模态的多个待处理任务,即不同模态的多个待处理任务都可以通过统一的任务表示框架进行描述,然后确定各个待处理任务所对应的编码序列,然后基于编码序列对各个待处理任务进行处理,获得与多个待处理任务各自对应的任务处理结果,从而完成了对不同模态的多个待处理任务的处理,不仅保证了任务处理结果的准确性,并且还降低了对多模态多任务处理的困难程度,使得多模态多任务的处理方法能够适用到各个应用场景中,进一步提高了该方案使用的灵活可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所可以使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一示例性实施例的一种多模态多任务的处理方法的应用场景示意图;
图2为本申请一示例性实施例的一种多模态多任务的处理方法的流程示意图;
图3为本申请实施例提供的通过任务表示框架获取不同模态的多个待处理任务的流程示意图;
图4为本申请实施例提供的确定所述多个待处理任务中各个待处理任务所对应的编码序列的流程示意图;
图5为本申请一示例性实施例的一种确定待处理任务所对应的编码序列方法的应用场景示意图;
图6为本申请一示例性实施例的一种确定待处理任务所对应的编码序列方法的应用场景示意图;
图7为本申请实施例提供的获得各个待处理任务所对应的编码序列的流程示意图;
图8为本申请一示例性实施例的一种确定不同图像所对应的各个图像块的位置序号的应用场景示意图;
图9为本申请实施例提供的获得与多模态任务各自对应的任务处理结果的流程示意图;
图10为本申请一示例性实施例的一种基于字典树对对各个待处理任务进行处理的应用场景示意图;
图11为本申请实施例提供了一种获得多模态多任务处理系统的流程示意图;
图12为本申请实施例提供的一种多模态多任务处理系统的训练方法的流程示意图;
图13为本申请实施例提供的一种多模态多任务处理系统的训练方法的应用示意图;
图14为本申请实施例提供的一种多模态多任务的处理装置的结构示意图;
图15为图14所示的多模态多任务的处理装置所对应的电子设备的结构示意图;
图16为本申请实施例提供的一种多模态多任务处理系统的训练装置的结构示意图;
图17为图16所示的多模态多任务处理系统的训练装置所对应的电子设备的结构示意图;
图18为本申请实施例提供的一种多模态多任务的处理系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还可以说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
为了方便本领域技术人员理解本申请实施例提供的技术方案,下面对相关技术进行简要说明:在AI技术领域中,AI技术主要是能够实现针对单任务、少任务或者相似任务为主的简单任务进行处理,对于通常的AI模型而言,往往是以单模态数据为主来组织训练样本,也就是说,目标的AI模型主要是针对单模态、为了解决特定问题而进行设计的,因此,训练得到的AI模型很难扩展到其他模态和其他任务中去,泛化能力有限。
为了解决上述技术问题,本实施例提供了一种多模态多任务的处理方法、设备及系统,其中,多模态多任务的处理方法的执行主体可以为多模态多任务的处理装置,该装置通信连接有请求端/客户端,具体实现时,该多模态多任务的处理装置可以实现为云端的服务器,此时,该多模态多任务的处理方法可以在云端来执行,在云端可以部署有若干计算节点(云服务器),每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit,简称SDK)、应用程序接口(ApplicationProgramming Interface,简称API)等形式。
针对本发明实施例提供的方案,云端可以提供有多模态多任务的处理服务的服务接口,用户通过客户端/请求端调用该多模态多任务的处理服务接口,以向云端触发调用该多模态多任务的处理服务接口的请求。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行多模态多任务的具体处理操作。
具体的,参考附图1所示,客户端/请求端可以是任何具有一定数据传输能力的计算设备,具体实现时,客户端/请求端可以是手机、个人电脑PC、平板电脑、设定应用程序等等。此外,客户端的基本结构可以包括:至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,简称ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,简称OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,客户端还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。
多模态多任务的处理装置是指可以提供多模态多任务处理的设备,在物理实现上,多模态多任务的处理装置可以是任何能够提供计算服务,响应不同模态的多任务处理服务,并可以进行多模态多任务处理的设备,例如:可以是集群服务器、常规服务器、云端的服务器、云主机、虚拟中心等。运营管理装置的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在上述本实施例中,客户端/请求端可以与多模态多任务的处理装置进行网络连接,该网络连接可以是无线或有线网络连接。若客户端/请求端与多模态多任务的处理装置是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G、6G等中的任意一种。
在本申请实施例中,客户端/请求端可以生成或者获取不同模态的多个待处理任务,该多个待处理任务可以包括多个待处理任务的具体任务内容,具体的,本实施例对于请求端获取不同模态的多个待处理任务的具体实现方式不做限定,在一些实例中,请求端上配置有交互界面,获取用户在交互界面所输入的执行操作,基于执行操作即可获取到不同模态的多个待处理任务。在另一些实例中,不同模态的多个待处理任务可以存储在第三设备中,第三设备与请求端通信连接,通过第三设备主动或者被动地获取到不同模态的多个待处理任务。在获取到不同模态的多个待处理任务之后,可以将不同模态的多个待处理任务发送至多模态多任务的处理装置,以使得多模态多任务的处理装置可以基于多个待处理任务对各个待处理任务进行处理。
多模态多任务的处理装置,用于获取请求端所发送的不同模态的多个待处理任务,具体的,任务表示组件通过任务表示框架获取不同模态的多个待处理任务,例如:多个待处理任务可以包括图像处理任务(图像增强处理任务、图像模糊处理任务、图像识别处理任务等等)、文本处理任务(文本编辑任务、文本识别任务、文本生成任务等等)、音频处理任务(音频识别任务、音频转换任务)等等。另外,上述的任务表示框架用于限定对待处理任务进行描述的内容格式,并且任务表示框架可以为seq2seq结构的任务表示框架、仅解码器结构decoder-only的任务表示框架等等,其中,seq2seq结构是一个Encoder–Decoder结构的网络,它的输入是一个序列,输出也是一个序列,Encoder用于将一个可变长度的信号序列变为固定长度的向量表达,Decoder用于将这个固定长度的向量变成可变长度的目标的信号序列。
可以注意的是,多模态多任务的处理装置不仅能够实现同时对不同模态的多个待处理任务进行处理,还能够实现对单一模态的一个或多个待处理任务进行处理。此外,多模态多任务的处理装置不仅可以被动地获取多个待处理任务并对多个待处理任务进行相对应的任务处理操作,还能够主动地进行不同模态的多个待处理任务处理操作,例如:按照预设检测周期定时地主动获取不同模态的多个待处理任务,或者实时地主动获取不同模态的多个待处理任务均可。
在任务表示组件通过任务表示框架获取到不同模态的多个待处理任务之后,数据转换组件对多个待处理任务进行转换以确定多个待处理任务中各个待处理任务所对应的编码序列,例如:通过对图像处理任务进行处理,获得图像处理任务相对应的编码序列1;通过对文本处理任务进行处理,获得文本处理任务相对应的编码序列2;通过对音频处理任务进行处理,获得音频处理任务相对应的编码序列3;而后数据处理组件基于多个待处理任务各自对应的编码序列对多个待处理任务进行处理,以获得与多个待处理任务各自对应的任务处理结果。
本实施例提供的技术方案,任务表示组件通过任务表示框架获取不同模态的多个待处理任务,其中,任务表示框架用于限定对待处理任务进行描述的内容格式,然后数据转换组件确定多个待处理任务中各个待处理任务所对应的编码序列,最后数据处理组件基于编码序列对多个待处理任务进行处理,获得与多个待处理任务各自对应的任务处理结果,实现了对不同模态的多个待处理任务进行处理,不仅保证了对多个待处理任务进行处理的效果,并且还降低了对多模态多任务处理的困难程度,使得该技术方案能够适用到各个应用场景中。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本申请一示例性实施例的一种多模态多任务的处理方法的流程示意图;参考附图2所示,本实施例提供了一种多模态多任务的处理方法,应用于多模态多任务的处理系统,该处理系统包括任务表示组件、与任务表示组件通信连接的数据转换组件以及与数据转换组件通信连接的数据处理组件,该方法的执行主体可以为多模态多任务的处理装置,可以理解的是,该处理装置可以实现为软件、或者软件和硬件的组合。具体的,该多模态多任务的处理方法可以包括:
步骤S201:任务表示组件通过任务表示框架获取不同模态的多个待处理任务,其中,任务表示框架用于限定对待处理任务进行描述的内容格式。
步骤S202:数据转换组件确定各个待处理任务所对应的编码序列。
步骤S203:数据处理组件基于各个待处理任务所对应的编码序列对待处理任务进行处理,获得多个待处理任务各自对应的任务处理结果。
本实施例中的多模态多任务的处理方法应用于多模态多任务的处理系统,该处理系统包括任务表示组件、数据转换组件以及数据处理组件。任务表示组件主要用于通过任务表示框架获取不同模态的多个待处理任务,其中,任务表示框架用于限定对待处理任务进行描述的内容格式。数据转换组件,与任务表示组件通信连接,用于确定各个待处理任务所对应的编码序列。数据处理组件,与数据转换组件通信连接,用于基于各个待处理任务所对应的编码序列对待处理任务进行处理,获得多个待处理任务各自对应的任务处理结果。
下面对上述各个步骤进行详细说明:
步骤S201:任务表示组件通过任务表示框架获取不同模态的多个待处理任务,其中,任务表示框架用于限定对待处理任务进行描述的内容格式。
在本发明实施例中,任务表示框架可以用于表示不同模态的各类任务的内容,其中,任务表示框架具体可以为:seq2seq结构的任务表示框、decoder-only结构的任务表示框等。当然的,任务表示框架的类型并不限于上述所陈述的类型,本领域技术人员也可以根据具体的应用需求和设计需求选择其他类型的任务表示框架,在此不再赘述。
当存在不同模态的多个任务处理需求时,则可以基于统一的任务表示框架获取到不同模态的多个待处理任务,由于任务表示框架用于限定对待处理任务进行描述的内容格式,即实现了对不同模态的多个待处理任务以统一的格式进行描述。例如,以语言描述指令(instruction)为基础,任何一个任务都可以由<任务文字描述,*输入,*输出>三元组的方式来共同描述,或者,任何一个任务都可以由<任务文字描述,*输入,*输出,任务处理精度>四元组的方式来共同描述等等。由上可知,通过任务表示框架可获得不同模态的多个待处理任务,使得不同模态的多个待处理任务都以统一的内容格式进行描述。
在实际应用中,可能会面对各种各样的任务,为了能够对各类任务进行统一处理,可以通过任务表示框架来获取不同模态的多个待处理任务,任务表示框架可以以生成式的方式来处理包含不同模态输入输出的各类任务。其中,不同模态任务所对应的数据模态可以包括以下至少之二:图像、文本、音频、图表、动作、表格等等,多个待处理任务可以具体为:文本处理任务、图像处理任务、音频处理任务、视频处理任务等,其可以根据实际具体的应用需求进行设定。
步骤S202:数据转换组件确定各个待处理任务所对应的编码序列。
对于不同模态的多个待处理任务而言,虽然采用了任务表示框架实现了对不同模态的多个待处理任务进行统一描述,此时,多模态多任务的处理装置获取到的多个待处理任务都是以文本描述的格式表示,对于处理装置而言,可能无法直接识别获取到的多个待处理任务并无法直接对多个待处理任务进行处理,并且,由于多个待处理任务对应于不同的数据模态,不同的数据模态对应有不同的数据处理方式,因此,为了能够实现对不同模态的多个待处理任务进行准确地处理操作,可以对各个待处理任务进行编码处理,从而可以确定多个待处理任务各自对应的编码序列。
在一些实例中,预先配置有用于对不同模态的待处理任务进行转换处理的数据转换算法/规则,在获取到多个待处理任务之后,基于待处理任务所对应的数据模态来确定各个待处理任务相对应的数据转换算法/规则,而后可以利用各个待处理任务相对应的数据转换算法/规则对各个待处理任务进行处理,以获得各个待处理任务相对应的编码序列。
在另一些实例中,在处理装置中预先配置有用于对所有能够预见模态的待处理任务进行处理的多个数据转换模块,利用上述多个数据转换模块对各自对应的待处理任务进行转换处理,以确定多个待处理任务各自对应的编码序列。具体的,为了能够保证对各个待处理任务进行转换的质量和效率,数据转换组件可以先获取能够实现数据转换处理的所有数据转换模块,然后数据转换组件在所有数据转换模块中确定各个待处理任务相对应的目标数据转换模块,数据转换组件利用目标数据转换模块对待处理任务进行转换,以确定多个待处理任务中各个待处理任务所对应的编码序列。
针对不同模态类型的待处理任务可以使用不同的数据转换模块(或称为IO转换器)进行转换处理,具体的,数据转换模块能够将原始输入的任务信息转化为多模态多任务的处理装置能识别并完成计算的中间结果(即编码序列),上述各个任务所对应的数据转换模块可以基于任务中的数据模态进行确定,此时,在获取到多个待处理任务之后,可以先确定多个待处理任务各自对应的数据模态,而后按照多个待处理任务各自对应的数据模态,调用相对应的目标转换模块,而后将待处理任务输入至对应的目标转换模块,从而可以获得目标转换模块所输出的编码序列。
可以注意的是,本实施例中所配置的所有数据转换模块可以支持的模态数据类型可以包括文本、图像、音频、检测框、图表、动作等类型,同时还可以根据实际应用需求进行对预先配置或者历史配置的所有数据转换模块进行动态添加,以使其可以对添加的新模态类型的待处理任务进行转化处理。同时,也可以根据实际应用需求对预先配置或者历史配置的所有数据转换模块进行动态删除,即实现了动态设置数据转换模块,这样可以提高了该方法使用的灵活程度,有利于满足不同用户的各种数据处理需求。
步骤S203:数据处理组件基于各个待处理任务所对应的编码序列对待处理任务进行处理,获得多个待处理任务各自对应的任务处理结果。
在数据转换组件确定多个待处理任务中各个待处理任务所对应的编码序列之后,则数据处理组件可以基于编码序列对多个待处理任务进行处理,获得与多个待处理任务各自对应地任务处理结果。其中,获得与多个待处理任务各自对应的任务处理结果的具体实现方式可以为:处理装置中配置有用于对各个模态的待处理任务进行分析处理的子模型,通过子模型对确定的各个待处理任务所对应的编码序列进行处理,获得与多个待处理任务各自对应的任务处理结果。当然的,本领域技术人员也可以采用其他的方式来基于编码序列对多个待处理任务进行处理,只要能够保证获得任务处理结果的准确可靠性即可,在此不再赘述。
可以注意的是,对于用户而言,当用户存在任务处理需求时,其只关心任务处理结果,并不关心任务处理的过程。而对于处理装置而言,处理装置基于编码序列对所对应的待处理任务进行分析处理时,直接获得的是任务处理结果所对应的编码序列,即计算机能够识别的任务处理结果,而用户对上述的编码序列无法直接解析,此时,为了能够使得用户能够直观地获得任务处理结果,则可以对任务处理结果所对应的编码序列进行转换操作,以获得满足用户需求、方便用户进行查看的任务处理结果,其中,满足用户需求主要可以包括:任务处理结果的输出数据模态满足用户的预设模态需求,任务处理结果所对应的数据类型满足用户的预设数据类型等等。
本申请实施例提供的多模态多任务的处理方法,应用于多模态多任务的处理系统,该处理系统包括任务表示组件、与任务表示组件通信连接的数据转换组件以及与数据转换组件通信连接的数据处理组件,任务表示组件通过任务表示框获取不同模态的多个待处理任务,即不同模态的多个待处理任务都可以通过统一的任务表示框架进行描述,然后数据转换组件确定各个待处理任务所对应的编码序列,然后数据处理组件基于编码序列对各个待处理任务进行处理,获得与多个待处理任务各自对应的任务处理结果,从而完成了对不同模态的多个待处理任务的处理,不仅保证了任务处理结果的准确性,并且还降低了对多模态多任务处理的困难程度,使得多模态多任务的处理方法能够适用到各个应用场景中,进一步提高了该方法使用的灵活可靠性。
图3为本申请实施例提供的通过任务表示框架获取不同模态的多个待处理任务的流程示意图;在上述实施例的基础上,参考附图3所示,本实施例提供了一种通过任务表示框架获取不同模态的多个待处理任务的实现方式,通过任务表示框架在对待处理任务的内容进行获取之前,可以先确定任务表示框架所对应的任务表示元素。具体的,任务表示组件通过任务表示框架获取不同模态的多个待处理任务,可以包括:
步骤S301:任务表示组件确定任务表示框架所对应的任务表示元素,任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素。
其中,由于任务表示框架用于限定待处理任务的内容格式,因此,为了能够准确地采用统一的内容格式获取到各种各样的任务描述,在任务表示组件获取不同模态的多个待处理任务之前,可以先确定任务表示框架所对应的任务表示元素。在一可选实施例中,任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素。任务描述信息是指对具体的待处理任务进行描述的信息,任务输入信息是指任务输入的具体信息,任务输出信息只指任务输出的具体信息。举例来说,在待处理任务为图像识别任务时,任务描述信息为识别图片中包括的物品、人物等对象,任务输入信息可以为待识别图像的地址链接、待识别图像的名称链接、待识别图像等等,任务输出信息可以为待识别图像中包括的具体物品、人物等等。
在又一可选实施例中,任务标识元素不仅可以包括上述的三个元素,还可以包括其他自定义元素,例如:用于限定任务处理时长的元素、用于限定任务处理精度的元素等等,本领域技术人员可以根据具体的应用场景或者应用需求进行配置,在此不再赘述。
在另一可选实施例中,任务表示框架所对应的任务表示元素可以只包括用于限定任务描述信息的元素、用于限定任务输入信息的元素或者任务表示框架所对应的任务表示元素可以只包括用于限定任务描述信息的元素。
步骤S302:任务表示组件基于任务表示元素获取不同模态的多个待处理任务各自对应的任务描述信息、任务输入信息和任务输出信息。
在确定任务表示框所对应的任务表示元素之后,任务表示组件可以基于任务表示元素获取不同模态的多个待处理任务中各个待处理任务所对应的任务描述信息。由于任务表示元素包括用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素,那么基于任务表示元素获取不同模态的多个待处理任务中各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息,其中,任务输入信息可以包括:任务输入数据和任务输入数据所对应的输入数据类型;任务输出信息包括:任务输出数据和任务输出数据所对应的输出数据类型,具体的,输入数据的类型可以包括以下至少之一:图像、文本、音频、图表、动作等,输出数据的类型可以包括以下至少之一:图像、文本、音频、图表、动作等,对输入数据的类型和输出数据的类型不做具体限定,本领域的技术人员可以根据实际具体的应用需求进行设置,可以说明的是,任务输入信息的数量可以为一个或多个,任务输出信息的数量也可以为一个或多个。
在实际应用中,可能会遇到各种类型的任务,任何一个任务都可以由任务描述信息、任务输入信息和任务输出信息三元组来共同描述,不限定任务的类型,具体的,基于任务表示元素可以准确、统一地获取各类的待处理任务所对应的任务描述信息、任务输入信息和任务输出信息。例如,在待处理任务包括图像描述任务,基于任务表示元素可以获取到图像描述任务所对应的任务描述信息为:{input1}这个图像描述的是什么{output1};任务输入信息为:内容=原始图像数据,类型=图像;任务输出信息为:内容=图像描述文本,类型=文本。
在利用处理装置进行数据处理的过程中,也可以根据需求定义一个新的任务,定义的新的待处理任务也可以基于任务表示元素获取对应的任务描述信息、任务输入信息和任务输出信息。例如:定义一个局部区域的图片问答任务,此时,基于任务表示元素可以获取到该任务所对应的任务描述信息为:在图像{input1}的区域{input2}中,物体是什么颜色{output1};任务输入信息为:第一个输入内容{input1}=原始图像数据,类型=图像,第二个输入内容{input2}=检测框数据,类型=框;任务输出信息为:内容=问答描述文本,类型=文本。由上可知,任务输入数据的个数可以为一个或者一个以上,同样地任务输出数据的个数也可以是一个或一个以上。
对于处理装置而言,为了能够方便处理装置能够准确地获取到各个模态的待处理任务,任务描述信息、任务输入信息和任务输出信息都有具体的占位符记号,上述的占位符记号用于供用户将真正的输入数据、输出数据填入到相应的占位符位置。
本实施例中,为了能够地获取到不同模态的多个待处理任务,首先确定任务表示框架所对应的任务表示元素,任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素。之后,基于任务表示元素获取不同模态的多个待处理任务中各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息,即将任何一个任务都按照统一格式进行文本描述,这样有效地实现了用有限种输入输出类型来描述不同模态的输入数据、输出数据,对于用户而言,不仅方便用户对该处理装置进行应用,并且方便用户根据需求对任务或者处理装置进行编写和调整操作,有效地降低了对处理装置进行开发的困难度。
图4为本申请实施例提供的确定多个待处理任务中各个待处理任务所对应的编码序列的流程示意图;在上述实施例的基础上,参考附图4所示,本实施例提供了一种确定多个待处理任务中各个待处理任务所对应的编码序列的实现方式,具体的,数据转换组件确定多个待处理任务中各个待处理任务所对应的编码序列可以包括:
步骤S401:数据转换组件获取用于对待处理任务进行处理的所有数据转换模块。
步骤S402:数据转换组件在所有数据转换模块中,确定各个待处理任务所对应的目标转换模块。
在多模态多任务的处理装置中提前配置有各种模态类型的数据转换模块,所配置的各种模态类型的数据转换模块可以支持各种模态类型的数据进行数据转换操作,目前主要可以支持图像类型的数据、文本类型的数据、音频类型的数据、检测框类型的数据等,若已有的数据转换模块不支持此模态类型的数据处理,用户也可以根据实际应用可以进行数据转换模块的配置操作。因此,在获取到不同模态的多个待处理任务之后,为了能够准确地对各个待处理任务进行分析处理,可以先获取用于对待处理任务进行处理的所有数据转换模块。
由于大部分情况下,所有的数据转换模块中均包括用于对各个待处理任务进行处理的目标转换模块,因此,在获取到所有数据转换模块之后,可以在所有数据转换模块中确定多个待处理任务中各个待处理任务所对应的目标转换模块。在一些实例中,各个待处理任务所对应的目标转换模块可以基于预先配置好的映射关系来确定,此时,在所有数据转换模块中,确定各个待处理任务所对应的目标转换模块可以包括:确定各个待处理任务所对应的任务标识,任务标识可以为任务名称、任务序号或者任务编号等等,预先配置有任务标识与数据转换模块之间的映射关系;基于映射关系和任务标识即可确定用于对各个待处理任务进行处理的目标转换模块。此时,不同的待处理任务可以对应于相同或者不同的目标转换模块。
在一些实例中,除了基于预先配置好的映射关系来确定目标转换模块之外,还可以基于各个待处理任务的数据模态或者数据类型来确定用于对各个待处理任务进行处理的目标转换模块,此时,在所有数据转换模块中,确定各个待处理任务所对应的目标转换模块可以包括:
步骤S4021:数据转换组件获取各个待处理任务所对应的数据模态。
其中,对于各个待处理任务而言,与各个待处理任务所对应的数据模态可以主要基于各个待处理任务中任务输入信息进行确定,具体的,可以基于任务输入信息中数据的类型来确定各个待处理任务所对应的数据模态。
步骤S4022:数据转换组件在所有数据转换模块中,检测是否存在与数据模态相匹配的适配转换模块。
由于不同模态的待处理任务可以对应有不同的适配转换模块,因此,为了能够适用于各种应用场景,多模态多任务的处理装置中会提前配置好有与各种模态的待处理任务相对应的适配转换模块,例如:对于数据模态为纯文本的待处理任务而言,配置有文本适配转换模块,对于数据模态为图像的待处理任务而言,配置有图像适配转换模块,对于数据模态为动作的待处理任务而言,配置有动作适配转换模块,对于数据模态为音频的待处理任务而言,配置有音频适配转换模块。
由上可知,为了能够准确地对各个待处理任务进行处理,在获取各个待处理任务所对应的数据模态之后,可以在所有的数据转换模块中查找是否存在与数据模块相匹配的适配转换模块,具体的,可以利用数据模态与数据转换模块之间预先配置好的映射关系进行查找识别操作。
步骤S4023:若存在,则数据转换组件将适配转换模块确定为用于对数据模态相对应的待处理任务进行处理的目标转换模块。
若所有的数据转换模块中存在相匹配的适配转换模块,则说明此时待处理任务所对应的数据模态为预置的能够支持处理操作的数据模态之一,因此,可以直接将适配转换模块确定为用于对待处理任务进行处理的目标转换模块,以利用目标转换模块对所对应的待处理任务进行编码处理,获得编码序列。
在实际应用中,也可能会出现用户定义了一个新类型或者新模态的待处理任务,即该待处理任务所对应的数据模态在多模态多任务的处理装置中并未提前配置,此时,为了能够准确地对上述待处理任务进行处理,用户可以基于数据模态进行适配转换模块的编写和配置操作,其具体的实现过程可以包括:
步骤S4024:若所有数据转换模块中不存在与数据模态相匹配的适配转换模块,则数据转换组件生成与数据模态相适配的适配转换模块。
步骤S4025:数据转换组件将适配转换模块确定为用于对数据模态相对应的待处理任务进行处理的目标转换模块。
当在所有的数据转换模块中进行查找识别的过程中,若所有数据转换模块中未检测到与待处理任务所对应的数据模态相对应的适配转换模块时,即此时所有的数据转换模块均不能准确地对待处理任务进行处理操作,此时,可以主动或者被动地生成与数据模态相适配的适配转换模块,在一些实例中,可以根据用户的配置操作被动地生成适配转换模块,此时,可以获取用户输入的模块配置操作,之后基于模块配置操作,生成与数据模态相适配的适配转换模块,以将适配转换模块确定为用于对数据模态相对应的待处理任务进行处理的目标转换模块。
在另一些实例中,处理装置可以基于待处理任务所对应的数据模态主动地生成与数据模态相适配的适配转换模块,此时,在预先配置的所有标准数据模态中,确定与待处理任务的数据模态最相似的目标标准数据模态,将目标标准数据模态所对应的数据转换模块确定为数据模态相适配的适配转换模块;或者,确定目标标准数据模态所对应的数据转换模块,基于目标标准数据模态与数据模态之间的相似度对数据转换模块中的预设参数进行调整,以生成与数据模态相适配的适配转换模块。
另外,在实际应用中,为了能够满足不同用户的不同需求,可以根据需求对该处理装置中的所有数据转换模块进行增加、删除、修改等操作。具体的,在获取用于对待处理任务进行处理的所有数据转换模块之后,多模态多任务的处理方法还可以包括:获取对所有数据转换模块进行调整的模块配置操作,基于模块配置操作对所有数据转换模块进行增加、删除或者修改操作,获得调整后的数据转换模块。
因此,可以基于模块配置操作可以实现灵活地对数据转换模块的各种调整操作,使得调整后的数据转换模块更符合实际应用需求,从而可以提高对多个待处理任务进行处理操作的效率。
步骤S403:数据转换组件利用目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列。
由于不同模态的待处理任务对应有不同的目标转换模块,因此,在确定各个待处理任务对应的目标转换模块之后,利用目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列。
在另一实施例中,在利用目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列之前,还可以对各个数据模态所对应的待处理任务进行预处理操作,以提高基于目标转换模块对相对应的待处理任务进行处理的质量和速度。
具体的,由于各个待处理任务所对应的数据模态不同,那么,在基于目标转换模块对相对应的待处理任务进行处理之前,可以进行不同的预处理操作。例如:对于数据模态为纯文本的待处理任务而言,在利用目标转换模块对相对应的待处理任务进行处理之前,可以先对文本内容进行分词,获取分词信息。对于数据模态为图像的待处理任务,在利用目标转换模块对相对应的待处理任务进行处理之前,可以先将输入的图像进行切块处理,获得切块后的图像信息。对于数据模态为音频的待处理任务,在利用目标转换模块对相对应的待处理任务进行处理之前,可以先进行特征提取处理,获得提取后的特征,具体可以通过卷积神经网络等或者其他方式进行特征的提取操作,只要保证提取到的特征的准确性即可。对于数据模态为检测框的待处理任务,在利用目标转换模块对相对应的待处理任务进行处理之前,可以先将检测框中连续归一化的坐标进行离散化处理,得到离散后的坐标信息。对于数据模态为图表Graph、表格Table等数据类型的待处理任务,在利用目标转换模块对相对应的待处理任务进行处理之前,可以先将其转换为纯文本,而后再对文本内容进行分词,获取分词信息,即对该类数据进行转换为纯文本之后,其后的处理操作可参考数据模态为纯文本的待处理任务的处理过程,在此不再赘述。
具体的,参考附图5所示,当确定多个待处理任务中各个待处理任务所对应的数据模态之后,若待处理任务所对应的数据模态为纯文本,则可以使用字节分词器(BPEtokenizer)对文本任务进行分词处理,得到词块序列(Token序列),例如:纯文本内容为“图片是什么颜色”,经过分词处理后可以获得以下词块序列“图”、“片”、“是”、“什”、“么”、“颜”、“色”。而后,利用对应的文本目标转换模块对词块序列进行处理,获得所对应的编码序列。
再例如,在待处理任务所对应的数据模态为图像时,具体的处理操作过程可以参考附图6。首先对图像任务所对应的图像进行切块处理,而可以获得与图像相对应的多个图像块,由于各个图像块的具体位置对于整个图像的识别和处理具有较大影响,因此,为了能够准确地对待处理任务进行处理,可以确定每个图像块的位置序号,而后基于图像块和位置序号进行任务处理操作。
需要注意的是,对于不同的图像任务而言,所对应的图像尺寸可能不同,此时,对图像进行切块处理时,所获得的图像块的数量也不同,为了能够统一对所有图像所对应的图像块进行位置标记操作,对于处理装置而言,采用了一种对位置序号进行确定的实现方式,具体的,处理装置可以获取到最大分辨率的图像,确定最大分辨率的图像进行切换处理,获得多个标准图像块,而后按照预设顺序(从左到右、从上到下)对多个标准图像块进行位置标号,获得多个标准图像块各自对应的标准位置标号,得到预设位置矩阵。
由于大部分的图像处理任务所对应的待处理图像往往是最大分辨率的图像中的至少一部分,因此可以根据预设位置矩阵确定图像对应的位置序号,具体的,可以对预设位置矩阵进行截取操作,并基于截取后的标准图像块的标准位置标号来确定待处理图像中各个图像块的位置序号,有效地保证了对各个图像块的位置序号进行确定的准确可靠性。
假设确定的待处理任务所对应的数据模态为动作时,具体的处理操作过程可以包括:首先将获取到的多帧动作进行离散化处理,得到离散化后的Token序列,之后利用动作目标转换模块对Token序列进行处理,获得所对应的编码序列。
本实施例中,有效地实现了基于不同的数据模态来确定用于对不同模态的待处理任务进行处理的目标转换模块,并利用目标转换模块对待处理任务进行编码处理,这样不仅提高了对各个待处理任务所对应的编码序列进行确定的准确可靠性,并且由于上述操作可以同步进行,有效地提高了对不同模态的多个待处理任务进行处理的质量和效率。
图7为本申请实施例提供的获得各个待处理任务所对应的编码序列的流程示意图;在上述实施例的基础上,参考附图7所示,在利用三元素的任务表示框架来获取各个待处理任务时,本实施例提供了一种利用目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列的实现方式,具体的,数据转换组件利用目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列可以包括:
步骤S701:数据转换组件获取各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息。
通过任务表示框架获取到了各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息,由于任务描述信息、任务输入信息和任务输出信息都是采用文本描述的格式,而上述各个待处理任务所对应的数据模态不同,而对于多模态多任务的处理装置来说,无法直接对不同模态的数据内容直接进行处理,此时,可以先将不同模态的数据内容转换为该处理装置可以识别的编码序列,因此可以先获取多个待处理任务中各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息,而后分别对各个信息进行处理,以得到对应的编码序列。并且对于一个待处理任务,可能会存在任务描述信息、任务输入信息和任务输出信息分别为不同的数据模态,那么就可以采用不同的目标转换模块进行转换处理。
步骤S702:数据转换组件利用目标转换模块对各个待处理任务所对应的任务描述信息进行处理,获得第一编码序列。
在获取到各个待处理任务所对应的任务描述信息之后,利用目标转换模块对各个待处理任务所对应的任务描述信息进行处理,获得第一编码序列。在一些实例中,不同模态的待处理任务所对应的目标转换模块可以不同,例如:在待处理任务为文本处理任务时,则可以确定用于对文本处理任务进行处理的目标转换模块可以为字节对编码适配器(即BPEtokenizer),而后可以利用上述的字节对编码适配器对文本处理任务中的任务描述信息进行处理,获得第一编码序列。在待处理任务为图像处理任务时,则可以确定用于对图像处理任务进行处理的目标转换模块可以为图像离散化模型VQGAN,而后可以利用图像离散化模型VQGAN对图像处理任务中的任务描述信息进行处理,获得第一编码序列。
需要说明的是,对于不同模态的待处理任务而言,虽然待处理任务的任务描述信息的数据模态往往是纯文本的内容,此时,任务描述信息可以通过关键字识别来确定具体的任务内容,能够使得一个模态的待处理任务对应一个统一的目标转换模块,可以将文本内容的识别功能集成在目标转换模块中,即每个目标转换模块均可以实现简单的文本识别操作。
步骤S703:数据转换组件利用目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列。
在获取到各个待处理任务所对应的任务输入信息之后,确定任务输入信息所对应的数据模态,基于确定的模态确定对应的目标转换模块,基于目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列。
其中,在对任务输入信息进行转换处理时,由于任务输入信息所对应的数据模态可能为不同模态,而不同模态的任务输入信息可以对应有不同的编码处理方式,因此,在对任务输入信息进行转换处理时,可以先判断数据信息是否为连续数据,并基于判定的数据类型进行相应的转换处理操作。具体的,基于目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列可以包括:
步骤S7031:数据转换组件确定任务输入信息中任务输入数据的数据类型。
步骤S7032:在数据类型为离散型数据时,则数据转换组件利用目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列。
步骤S7033:在数据类型为连续型数据时,则数据转换组件获取用于对任务输入数据进行处理的词汇表,并利用词汇表和目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列。
其中,词汇表用于进行数据编码的操作,不同模态的任务输入数据往往对应有不同的词汇表,为了能够实现对各种模态的数据进行编码处理,预先配置有各种词汇表。例如:数据模态为纯文本,则对应有文本词汇表;数据模态为图像,则对应有图像词汇表;数据模态为语音,则对应有语音词汇表等等。在获取到上述各个词汇表之后,为了方便对各个词汇表进行调用操作,可以将以上不同数据模态的词汇表汇集成一个统一的离散词汇表,将其存储在多模态多任务的处理装置中的预设存储区域,当需要使用词汇表时,可以直接读取统一的离散词汇表,离散的词汇表中汇集有用于对各个模态的数据进行处理的词汇表。
在获取到任务输入信息之后,为了得到更好的转换效果,可以确定任务输入数据的数据类型,而后基于不同的数据类型采用不同的方式来对任务输入数据进行编码处理,具体的,在数据类型为离散型数据,则可以直接利用目标转换模块对各个待处理任务所所对应的任务输入信息进行处理,获得第二编码序列。在数据类型为连续型数据时,则获取用于对任务输入数据进行处理的词汇表,并利用词汇表和目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列。
另外,在任务输入信息中的任务输入数据为图像时,由于会对图像进行切分处理,获得图像所对应的多个图像块,而多个图像块所对应的图像块位置能够直接影响对图像进行编码处理的结果,因此,在任务输入信息中的任务输入数据为图像时,利用词汇表和目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列可以包括:对图像进行划分,获得与图像相对应的多个图像块。而后,确定多个图像块各自对应的位置序号。最后,基于词汇表和位置序号、并利用目标转换模块对各个待处理任务所对应的图像进行处理,获得第二编码序列。
图像块的位置序号用于标识图像块相对于图像所在地位置信息以及编号信息,其具体可以基于预设规则进行获取,为了能够实现对不同尺寸的图像块所对应的位置序号采用统一的规则进行确定,上述的预设规则可以基于最大精度/尺寸的图像进行划分之后所获得的规则,具体的,先获取上述可支持的最大尺寸或者最大精度图像所对应的多个图像块,对多个图像块进行顺序编码操作,获得原始图像块序号。后续的图像处理任务中的图像的尺寸或者精度往往小于最大尺寸或者最大精度的图像,因此,后续的图像处理任务中的图像所对应的图像块序号往往是原始图像块序号的一部分,具体的,上述的位置序号可以是通过对原始图像块序号进行截取所获得,这样有效地实现了通过统一的规则来确定不同图像所对应的各个图像块的位置序号,有利于更快速地完成收敛,加快处理速度。
具体的,确定不同图像所对应的各个图像块的位置序号的实现方式可以参考附图8中所示,首先对图像进行划分,获得与图像相对应的多个图像块。获取最大精度/尺寸的原始图像,而后对该最大精度/尺寸的原始图像进行切分处理,获得原始图像所对应的各个图像块,并对原始图像所对应的各个图像块所对应的位置进行顺序编码操作,获取原始图像块序号。最后在原始图像上进行截取,获得图像所对应的多个图像块,并将截取到的图像块的序列号确定为多个图像块各自对应的位置序号。
在获取到各个图像块的位置序号之后,可以利用目标转换模块以及词汇表和位置序号对各个待处理任务所对应的图像进行处理,以获得第二编码序列,这样有效地保证了第二编码序列获取的准确可靠性,使得得到的编码序列效果更好。
步骤S704:数据转换组件利用目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列。
同样地,在获取到各个待处理任务所对应的任务输出信息之后,可以利用目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列。具体的,数据转换组件利用目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列可以包括:
步骤S7041:数据转换组件获取用于对任务输出信息进行处理的词汇表。
步骤S7042:数据转换组件利用词汇表和目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列。
在对任务输出信息进行处理时,首先可以获取到用于对任务输出信息进行处理的词汇表,并在获取到的词汇表中查找到任务输出数据所对应的数据模态,按照任务输出数据所对应的数据模态,利用目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列。
步骤S705:数据转换组件基于第一编码序列、第二编码序列和第三编码序列,获得各个待处理任务所对应的编码序列。
由于获得的各个待处理任务包括其所对应的任务描述信息、任务输入信息、任务输出信息,在对获取到的各个待处理任务进行编码转换处理时,可以分别对任务描述信息、任务输入信息、任务输出信息分别进行编码处理,以获得第一编码序列、第二编码序列和第三编码序列,并基于第一编码序列、第二编码序列和第三编码序列,获得多个待处理任务中各个待处理任务所对应的编码序列,在一些实例中,可以直接对第一编码序列、第二编码序列和第三编码序列进行拼接处理,从而可以获得各个待处理任务所对应的编码序列。在另一些实例中,可以对第一编码序列、第二编码序列和第三编码序列以预设方式进行融合处理,从而可以获得各个待处理任务所对应的编码序列。
本实施例中,通过获取各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息;而后利用目标转换模块分别对各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息进行处理,分别获得第一编码序列、第二编码序列和第三编码序列,而后基于第一编码序列、第二编码序列和第三编码序列获得各个待处理任务所对应的编码序列,从而有效地保证了对各个待处理任务所对应的编码序列进行获取操作,这样有利于提高对各个待处理任务进行分析处理的质量和效率。
图9为本申请实施例提供的获得与多模态任务各自对应的任务处理结果的流程示意图;在上述实施例的基础上,参考附图9所示,本实施例提供了一种基于编码序列对多模态任务进行处理,获得与多模态任务各自对应的任务处理结果的实现方式,具体的,数据处理组件基于各个待处理任务所对应的编码序列对待处理任务进行处理,获得与多个待处理任务各自对应的任务处理结果可以包括:
步骤S901:数据处理组件获取用于对不同模态的多个待处理任务进行处理的多模态任务处理系统。
其中,为了能够提高对不同模态的多个待处理任务进行处理的质量和效率,预先训练有用于对不同模态的多个待处理任务进行处理的多模态任务处理系统,该多模态任务处理系统可以为AI系统。
步骤S902:数据处理组件利用多模态任务处理系统对各个待处理任务所对应的编码序列进行处理,获得与多个待处理任务各自对应的任务处理结果。
在本申请实施例中,可以通过预先训练后的多模态任务系统来对多模态的多个待处理任务进行处理,利用多模态任务系统可以直接对编码序列进行处理,以获得与多个待处理任务各自对应的任务处理结果。
在利用多模态任务处理系统对各个待处理任务进行处理时,为了能够提高对各个待处理任务进行处理的质量和效果,在多模态任务处理系统中可以配置有用于对各个待处理任务进行处理的字典树,该字典树不仅能够保证任务处理的准确性,并且还能够提高任务处理的效率。
具体的,可以参考附图10所示,例如:在对“笔记本”进行分析处理时,通过分词处理,可以获得起始字符BOS为“笔”,结合字典树可知,对于起始字符“笔”而言,字典树中存在三个分支,分支1为位于字符“笔”之后的字符“记”以及位于字符“记”之后字符“本”,该分支1所对应的词汇则为“笔记本”;类似的,分支2为位于字符“笔”之后的字符“筒”以及位于字符“筒”之后字符“EOS”,该分支2所对应的词汇为“笔筒”;类似的,分支3为位于字符“笔”之后的字符为“EOS”,该分支3所对应的词汇为单独的“笔”。在进行分析时仅考虑当下生成词所在节点的子节点,最终得到分支1。其中,上述的BOS用于标识起始符,EOS用于标识结束符。同样地,在对“矿泉水”进行分析处理时,通过分词处理,可以获得起始字符BOS为“矿”,结合字典树可知,对于起始字符“矿”而言,字典树中存在两个分支,分支1为位于字符“矿”之后的字符“泉”以及位于字符“泉”之后字符“水”,该分支1所对应的词汇则为“矿泉水”;类似的,分支2为位于字符“矿”之后的字符“石”以及位于字符“石”之后字符“EOS”,该分支2所对应的词汇为“矿石”。在进行分析时仅考虑当下生成词所在节点的子节点,最终得到分支1。
本申请实施例中,直接基于获取到的多模态任务系统对各个待处理任务所对应的编码序列进行处理,这样不仅能够提高对各个待处理任务进行处理的质量和效率,并且采用同一个多模态任务系统能够对各种应用场景下的各种模态的多个待处理任务进行处理,进一步提高了该方法的适用范围和使用方便程度。
需要注意的是,为了能够实现利用多模态任务系统对不同模态的多个待处理任务进行处理,在获取用于对不同模态的多个任务进行处理的多模态任务处理系统之前,方法还可以包括对多模态任务系统进行训练的过程。具体的,参考附图11所示,本实施例提供了一种对多个不同模态的样本进行学习训练,获得多模态任务系统的实现方式,具体可以包括:
步骤S1101:学习训练组件通过任务表示框架获取训练样本,训练样本对应多个数据模态,每个训练样本对应有标准处理结果。
其中,为了能够使得多模态任务系统能够对不同模态的多个待处理任务进行准确地处理操作,多模态任务系统可以通过任务表示框架获取训练样本,具体的,训练样本的具体获取方式与上述实施例中不同模态的多个待处理任务的具体获取方式相类似,具体可参考上述陈述内容,在此不再赘述
由于训练样本用于实现对多模态任务进行学习训练操作,因此,训练样本对应多个数据模态,多个数据模态可以包括:文本数据模态、图像数据模态、音频数据模态、图表数据模态、视频数据模态、表格数据模态等所有能够预见的数据模态。对于上述的每个训练样本而言,可以对应有标准处理结果,这样可以使得学习训练结果更准确。并且,在对多模态任务系统进行学习训练时,可以采用一种鼓励简单样本学习的辅导损失函数作为目标函数,以对训练后的多模态任务进行预训练和微调操作。
步骤S1102:学习训练组件在训练样本中,确定多个不同模态的目标样本。
在对多模态任务系统进行学习训练时,所获得的训练样本往往是比较多的,为了能够高效地对多模态任务系统进行学习训练,那么在获取到训练样本之后,在训练样本中,确定多个不同模态的目标样本。在一些实例中,确定多个不同模态的目标样本的实现方式可以包括:在多个训练样本中,随机确定多个不同模态的目标样本;或者,获取用于确定多个不同模态的目标样本的样本比例参数,基于样本比例参数,在多个训练样本中确定多个不同模态的目标样本。
在对多模态任务系统进行训练时,配置一多任务调度单元(Multi-TaskScheduler),多任务调度单元用于控制在训练样本中采用不同的样本混合策略来确定不同模态的目标样本,具体实现时,多任务调度单元可以配置一随机混合策略,即在多个训练样本中,随机确定多个不同模态的目标样本,只要能够保证目标样本为多个不同模态即可。或者,多任务调度单元可以配置一样本比例参数,样本比例参数的具体数值用户可以根据需求或者应用场景进行配置或者调整,而后基于所配置的样本比例参数来确定多个不同模态的目标样本,从而有效地保证了对多个不同模态的目标样本进行确定的准确可靠性。
在另一实施例中,在确定多个不同模态的目标样本之后,可能会存在新增训练样本的情况,此时,本实施例中的方法还可以包括:通过任务表示框架获取新增样本,并将新增样本添加至目标样本中,获得用于对多模态任务处理系统进行训练的调整后样本。
具体的,在对多模态任务系统进行训练的过程中,用户可以根据实际应用需求随时进行样本的新增等操作,即调整训练样本,为了能够避免降低对多模态任务系统进行学习训练的效率,在获取到新增样本时,可以确定多模态任务系统的当前训练版本,并对当前训练版本的多模态任务系统进行输出,以使得用户可以基于当前训练样本的多模态任务进行应用操作。
在获取到新增样本之后,为了能够提高多模态任务系统的训练质量和效果,提高多模态任务系统的任务处理的准确率,可以将新增样本添加至目标样本中,从而获得调整后样本。上述实现方式中,通过一种任务众包模式来获取用于对多模态任务系统进行训练的样本,并且通过面向用户的任务描述编程后,通过任务调度器不仅可以持续把新增的任务纳入到多模态任务系统中,从而提高对多模态任务进行学习训练的质量和效率,并且还能够使得所训练的多任务处理系统可以处理各种模态类型的任务,提高了该方法的适用性,可以应用到更多的场景中。
步骤S1103:学习训练组件对多个不同模态的目标样本进行学习训练,获得多模态任务处理系统,或者,获得数据处理组件。
确定多个不同模态的目标样本之后,可以对多个不同模态的目标样本以及目标样本所对应的标准处理结果进行学习训练,获得多模态任务处理系统或者数据处理组件,所获得的多模态任务处理系统或者数据处理组件可以基于各个待处理任务所对应的编码序列进行处理,从而有效地保证了对待处理任务进行处理的效果。
图12为本申请实施例提供的一种多模态任务系统的训练方法的流程示意图;参考附图12所示,本实施例提供了一种多模态任务系统的训练方法,该方法的执行主体可以为多模态任务系统的训练装置,可以理解的是,该处理装置可以实现为软件、或者软件和硬件的组合。具体的,该多模态多任务的处理方法可以包括:
步骤S1201:通过任务表示框架获取不同模态的多个训练任务,其中,任务表示框架用于限定对训练任务进行描述的内容格式,多个训练任务各自对应有任务处理结果。
步骤S1202:确定多个训练任务各自对应的编码序列。
步骤S1203:基于多个训练任务各自对应的编码序列进行学习训练,获得用于对不同模态的多个任务进行处理的多模态任务系统。
通过任务表示框架获取不同模态的多个训练任务,并确定多个训练任务各自对应的编码序列,而后基于多个训练任务各自对应的编码序列进行学习训练,获得用于对不同模态的多个任务进行处理的多模态任务系统。具体实现方式与上述所示的实施例中步骤的实现方式相类似,具体可参考上述陈述内容,在此不再赘述。
具体实现时,可以参考附图13所示,以seq2seq结构的任务表示框架为例,多模态任务系统的训练过程可以包括:
步骤1:采用统一的一套seq2seq结构的任务表示框架,以生成式的方式来获得包含不同模态输入输出的各类训练任务。
具体的,以语言描述指令(instruction)为基础,任何一个模态的训练任务均可以由<任务文字描述,*输入,*输出>三元组的任务表示框架来共同描述,其中,输入、输出可以由<内容,类型>来表示。其中,类型可以包括图像、文本、音频、图表Graph、表格Table等等。任务文字描述中会有输入输出的占位符记号,在进行数据处理时,可以将真正的输入输出数据填入相应的占位符位置。
举例来说,“图像描述”(Image Caption)任务用任务表示框架可以表示为:<“{input1}这个图像描述的是什么{output1}”,*Input,*Output>,“*Input”可以为<内容=$原始图像数据,类型=图像>,“*Output”可以为<内容=$图像描述文本,类型=文本>。
通过上述的方式,有效地实现了将大多数的训练任务按照统一表示框架进行描述,即用文本描述任务,从而实现了利用有限种输入输出类型来描述不同模态的输入输出数据,对于没有太多AI基础的用户而言,可以方便通过任务描述接口来针对任意多模态任务的AI模型进行编写操作。
步骤2:通过IO转换层对所获得的各类训练任务进行转换处理,获得各类训练任务所对应的编码序列。
其中,针对不同的模态类型的训练数据可以使用不同的IO转换器,将原始模态的训练任务中的输入输出数据,转化为计算引擎能接受并完成计算的中间结果(编码序列)。系统目前已经支持文本、图像、音频、检测框、图表、表格等不同类型/模态的数据,同时,对于新的类型也可以动态支持。目前系统已支持的IO模态类型与对应的IO转换器如下:a、对于纯文本(Plain Text)类型的训练任务而言,可以使用字节对编码器(BPE tokenizer)将文本输入进行切分为分词(Token)序列后映射为编码序列;在对输出数据进行处理时,需要利用统一的词汇表。
b、对于图像数据的训练任务而言,可以先将输入图像切成图像块Patch(16x16),并通过残差网络Resnet等CV经典主干网络(CV Backbone)抽取图像编码特征,结合可扩展的图像位置编码所产生的位置序号后,形成与图像相对应的编码序列,而后可以将编码序列输入计算引擎。
c、对于自定义模态数据的训练任务而言,例如:在训练任务中的自定义模态数据为目标检测中的检测框(Bounding Box)类型数据,可以将检测框的连续归一化坐标分桶离散化,并映射为相应的编码序列。
d、对于音频数据的训练任务而言,对于输入音频,可以先获取音频数据的特征信息(FBank特征),而后通过卷积神经网络CNN进行特征抽取,形成编码序列;对于输出音频,可以使用向量量化vqvae的预测词表对输出数据进行编码处理。
e、对于图标Graph、表格Table(KeyValue对)等数据的训练任务而言,可将这类数据结构转为纯文本数据,随后使用文本IO Adaptor进行转换,形成相对应的编码序列。
需要注意的是,为了方便对各个类型的训练任务进行转换处理,可以将以上不同模态的输出数据所对应的词表汇集成一起,形成一个统一的离散向量空间集合,并在所有任务之间共享这个向量空间集合。
总的来说,对于各类的训练任务中的输入数据而言,可以按照输入数据的类型信息,调用相对应的输入转换器(IO Adaptor)进行转换操作,以将相对应的数据转换为编码序列;对于各类的训练任务中的输出数据而言,可以根据计算引擎的预测输出,并在向量空间集合中寻找输出数据所对应的数据类型,基于数据类型确定用于对输出数据进行编码处理的词汇表,而后基于词汇表对输出数据进行转换处理,获得编码序列。
需要注意的是,在本实施例中训练得到的多模态任务系统对某一任务进行处理时,可以实现动态的输出结果,举例来说,在用户甲在t1时刻时,存在一个“生成宣传文章”的处理任务时,在利用多模态任务系统对上述处理任务进行处理时,可以生成一宣传文章1,该宣传文章1中可以包括文本内容、图片、图表等内容。在用户甲在t2时刻时,同样存在一个“生成宣传文章”的处理任务时,在利用多模态任务系统对上述处理任务进行处理时,可以生成一宣传文章2,该宣传文章2中可以包括文本内容、图片、图表等内容,但是上述的宣传文章1与宣传文章2不同,包括:文本内容不同、图片的设置位置不同、图表的位置不同等等,有效地实现了对任务处理结果进行动态的输出操作。
步骤3:基于多个训练任务各自对应的编码序列进行学习训练,获得用于对不同模态的多个任务进行处理的多模态任务系统。
步骤4:通用计算引擎实现训练和微调处理,获得最终的多模态任务系统。
其中,可以采用相同深度(层数)的图神经网络的编码器-解码器(TransformerEncoder-Decoder)结构作为计算引擎的基本结构。其中,为了能够提高模型训练的稳定性并加快收敛速度,可以将编码器和解码器中的每个图神经网络中的网络基本单元改造成标准化的网络基本单元Normformer Block,具体可以通过对网络层的预设参数进行调整来实现网络基本单元的调整操作。
对于图神经网络中的编码器而言,编码器能够接收来自于输入各个训练任务所对应的编码序列数据;而后解码器中的生成插件,由于生成式模型的输出逻辑相比于输入编码来讲,会有更多条件限制,包括先验限制和任务相关的有限候选集的限制。因此,为了解决上述技术问题,可以结合字典树来进行数据处理操作,这样可以提高数据处理的质量和效率。
在初步获取到多模态任务系统之后,可以对多模态任务系统进行微调操作,具体的,在微调Finetune阶段,无需没有引入额外的头信息Head、提示Prompt等类似的任务相关的参数,而是采取和预训练阶段完全一致的任务表示和训练方法,即采用与训练方式完全相同的方式对多模态任务系统进行微调操作。
本实施例提供的技术方案,有效地实现了通过统一多模态多任务的表示方法、以及统一的训练框架来构建一个开放的多模态多任务的可扩展的开放AI学习系统,具体的,使用统一的任务表示框架来表示多模态和多任务学习,这样使得用户从面向模型结构编程转为面向任务描述编程,降低了开发门槛。另外,不同任务之间共享不同模态的IO转换机制,能够适应更多多模态任务,具体的,通过系统抽象操作,一个(新的)多模态任务可以用自然语言来进行描述,不同任务的训练和推理共享同一个计算引擎和同一套不同模态的IO转换机制,系统的输出也可以根据任务描述的不同选取不同的IO转换器进行不同模态的输出,因此获得了一个模态、任务可扩展的开放AI学习系统,所获得的多模态任务系统可以实现对多模态任务进行处理,并保证了任务处理结果的准确性,进一步提高了该方法的实用性。
具体应用时,本应用实施例提供了一种基于统一表示的多模态开放任务学习系统的多模态多任务的处理方法,该多模态多任务的处理方法能够实现对各种模态的任务进行处理,具体的,该多模态多任务的处理方法包括以下步骤:
步骤11:确定任务表示框架所对应的任务表示元素,其中任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素。
步骤12:基于任务表示元素获取不同模态的多个待处理任务中各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息。
步骤13:获取用于对待处理任务进行处理的所有数据转换模块。
步骤14:获取多个待处理任务中各个待处理任务所对应的数据模态。
步骤15:在所有数据转换模块中,检测是否存在与数据模态相匹配的适配转换模块。
步骤16:若存在,则将适配转换模块确定为用于对数据模态相对应的待处理任务进行处理的目标转换模块。
步骤17:若所有数据转换模块中不存在与数据模态相匹配的适配转换模块,则获取用户输入的模块配置操作,并基于模块配置操作,生成与数据模态相适配的适配转换模块,将适配转换模块确定为用于对数据模态相对应的待处理任务进行处理的目标转换模块。
步骤18:获取多个待处理任务中各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息。
步骤19:利用目标转换模块对各个待处理任务所对应的任务描述信息进行处理,获得第一编码序列。
步骤20:识别任务输入信息中包括的任务输入数据是否为连续数据。
步骤21:在任务输入数据为离散型数据时,则利用目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列;在任务输入数据为连续型数据时,则获取用于对任务输入数据进行处理的词汇表,并利用词汇表和目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列。
步骤22:获取用于对任务输出信息进行处理的词汇表。
步骤23:利用词汇表和目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列。
步骤24:基于第一编码序列、第二编码序列和第三编码序列,获得多个待处理任务中各个待处理任务所对应的编码序列。
步骤25:获取用于对不同模态的多个任务进行处理的多模态任务处理系统。
步骤26:利用多模态任务处理系统对编码序列进行处理,获得与多个待处理任务各自对应的任务处理结果。
本实施例提供的技术方案,通过任务表示框获取不同模态的多个待处理任务,即不同模态的多个待处理任务都可以通过使用统一的任务表示框架进行描述,然后确定多个待处理任务中各个待处理任务所对应的编码序列,然后基于编码序列对个待处理任务进行处理,获得与多个待处理任务各自对应的任务处理结果,从而完成了对不同模态的多个待处理任务的处理,不仅保证了任务处理结果的准确性,并且还降低了对多模态多任务处理的困难程度,使得多模态多任务的处理方法能够适用到各个应用场景中。
图14为本申请实施例提供的一种多模态多任务的处理装置的流程示意图;参考附图14所示,本实施例提供了一种多模态多任务的处理装置,该多模态多任务的处理装置用于执行上述图2所示的多模态多任务的处理方法,该多模态多任务的处理装置可以包括:
第一获取模块11,用于通过任务表示框架获取不同模态的多个待处理任务,其中,任务表示框架用于限定对待处理任务进行描述的内容格式;
第一确定模块12,用于确定各个待处理任务所对应的编码序列;
第一处理模块13,用于基于各个待处理任务所对应的编码序列对待处理任务进行处理,获得多个待处理任务各自对应的任务处理结果。
在一些实施例中,第一获取模块11用于:确定任务表示框架所对应的任务表示元素,任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素;基于任务表示元素获取不同模态的多个待处理任务各自对应的任务描述信息、任务输入信息和任务输出信息。
在一些实例中,任务输入信息包括:任务输入数据和任务输入数据所对应的输入数据类型;任务输出信息包括:任务输出数据和任务输出数据所对应的输出数据类型。
在一些实例中,第一确定模块12用于:获取用于对待处理任务进行处理的所有数据转换模块;在所有数据转换模块中,确定各个待处理任务所对应的目标转换模块;利用目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列。
在一些实例中,在所有数据转换模块中,确定多个待处理任务中各个待处理任务所对应的目标转换模块时,第一确定模块12用于:获取各个待处理任务所对应的数据模态;在所有数据转换模块中,检测是否存在与数据模态相匹配的适配转换模块;若存在,则将适配转换模块确定为用于对数据模态相对应的待处理任务进行处理的目标转换模块。
在一些实例中,在所有数据转换模块中,确定多个待处理任务中各个待处理任务所对应的目标转换模块时,第一确定模块12用于:若所有数据转换模块中不存在与数据模态相匹配的适配转换模块,则生成与数据模态相适配的适配转换模块;将适配转换模块确定为用于对数据模态相对应的待处理任务进行处理的目标转换模块。
在一些实例中,在获取用于对待处理任务进行处理的所有数据转换模块之后,处理装置还可以包括配置模块,配置模块用于:获取对所有数据转换模块进行调整的模块配置操作;基于模块配置操作对所有数据转换模块进行增加、删除或者修改操作,获得调整后的数据转换模块。
在一些实例中,第一确定模块12用于:获取各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息;利用目标转换模块对各个待处理任务所对应的任务描述信息进行处理,获得第一编码序列;利用目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列;利用目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列;基于第一编码序列、第二编码序列和第三编码序列,获得各个待处理任务所对应的编码序列。
在一些实例中,第一确定模块12用于:确定任务输入信息中任务输入数据的数据类型;在数据类型为离散型数据时,则利用目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列;在数据类型为连续型数据时,则获取用于对任务输入数据进行处理的词汇表,并利用词汇表和目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列。
在一些实例中,第一确定模块12用于:在任务输入信息中的任务输入数据为图像时,则对图像进行划分,获得与图像相对应的多个图像块;确定多个图像块各自对应的位置序号;基于词汇表和位置序号、并利用目标转换模块对图像进行处理,获得第二编码序列。
在一些实例中,第一确定模块12用于:获取用于对任务输出信息进行处理的词汇表;利用词汇表和目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列。
在一些实例中,第一处理模块13用于:获取用于对不同模态的多个待处理任务进行处理的多模态任务处理系统;利用多模态任务处理系统对各个待处理任务所对应的编码序列进行处理,获得与多个待处理任务各自对应的任务处理结果。
在一些实例中,在获取用于对不同模态的多个任务进行处理的多模态任务处理系统之前,处理装置还可以包括第一训练模块,第一训练模块用于:通过任务表示框架获取训练样本,训练样本对应多个数据模态,每个训练样本对应有标准处理结果;在训练样本中,确定多个不同模态的目标样本;对多个不同模态的目标样本进行学习训练,获得多模态任务处理系统,或者,获得数据处理组件。
在一些实例中,训练模块用于:在多个训练样本中,随机确定多个不同模态的目标样本;或者,获取用于确定多个不同模态的目标样本的样本比例参数,基于样本比例参数,在多个训练样本中确定多个不同模态的目标样本。
在一些实例中,在确定多个不同模态的目标样本之后,处理装置还可以包括第一调整模块,第一调整模块用于:通过任务表示框架获取新增样本;将新增样本添加至目标样本中,获得用于对多模态任务处理系统进行训练的调整后样本。
图14所示多模态多任务的处理装置可以执行图1-图10所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图10所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图15所示多模态多任务的处理装置的结构可实现为一电子设备,该电子设备可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。如图13所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储相对应电子设备执行上述图1-图10所示实施例中提供的多模态多任务的处理方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:通过任务表示框架获取不同模态的多个待处理任务,其中,任务表示框架用于限定对待处理任务进行描述的内容格式;确定各个待处理任务所对应的编码序列;基于各个待处理任务所对应的编码序列对待处理任务进行处理,获得多个待处理任务各自对应的任务处理结果。
进一步的,第一处理器21还用于执行前述图1-图10所示实施例中的全部或部分步骤。其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图10所示方法实施例中的多模态多任务的处理方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行图1-图10所示方法实施例中的多模态多任务的处理方法。
图16为本申请实施例提供的一种多模态任务系统的训练装置的流程示意图;参考附图16所示,本实施例提供了一种多模态任务系统的训练装置,该多模态多任务的处理装置用于执行上述图11所示的多模态任务系统的训练方法,具体的,该多模态任务系统的训练装置可以包括:
第二获取模块31,用于通过任务表示框架获取不同模态的多个训练任务,其中,任务表示框架用于限定对训练任务进行描述的内容格式,多个训练任务各自对应有任务处理结果;
第二确定模块32,用于确定多个训练任务各自对应的编码序列;
第二训练模块33,用于基于多个训练任务各自对应的编码序列进行学习训练,获得用于对不同模态的多个任务进行处理的多模态任务系统。
图16所示多模态任务系统的训练装置可以执行图11所示实施例的方法,本实施例未详细描述的部分,可参考对图11所示实施例的相关说明。该技术方案的执行过程和技术效果参见图11所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图16所示多模态任务系统的训练装置的结构可实现为一电子设备,该电子设备可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。如图17所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储相对应电子设备执行上述图11所示实施例中提供的多多模态任务系统的训练方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:通过任务表示框架获取不同模态的多个训练任务,其中,任务表示框架用于限定对训练任务进行描述的内容格式,多个训练任务各自对应有任务处理结果;确定多个训练任务各自对应的编码序列;基于多个训练任务各自对应的编码序列进行学习训练,获得用于对不同模态的多个任务进行处理的多模态任务系统。
进一步的,第二处理器41还用于执行前述图11所示实施例中的全部或部分步骤。其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图11所示方法实施例中的多模态任务系统的训练方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行图11所示方法实施例中的多模态任务系统的训练方法。
图18为本申请实施例提供的一种多模态多任务的处理系统的结构示意图;参考附图18所示,本实施例提供了一种多模态多任务的处理系统,该多模态多任务的处理系统包括任务表示组件、与任务表示组件通信连接的数据转换组件以及与数据转换组件通信连接的数据处理组件,具体的,该多模态多任务的处理系统可以包括:
任务表示组件51,用于通过任务表示框架获取不同模态的多个待处理任务,其中,任务表示框架用于限定对待处理任务进行描述的内容格式;
数据转换组件52,与任务表示组件通信连接,用于确定各个待处理任务所对应的编码序列;
数据处理组件53,与数据转换组件通信连接,用于基于各个待处理任务所对应的编码序列对待处理任务进行处理,获得多个待处理任务各自对应的任务处理结果。
在一些实例中,任务表示组件51用于:确定任务表示框架所对应的任务表示元素,任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素;基于任务表示元素获取不同模态的多个待处理任务各自对应的任务描述信息、任务输入信息和任务输出信息。
在一些实例中,数据转换组件52用于:获取用于对待处理任务进行处理的所有数据转换模块;在所有数据转换模块中,确定各个待处理任务所对应的目标转换模块;利用目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列。
在一些实例中,在数据转换组件52利用所述目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列时,数据转换组件52用于:获取各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息;利用所述目标转换模块对各个待处理任务所对应的任务描述信息进行处理,获得第一编码序列;利用所述目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列;利用所述目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列;基于所述第一编码序列、第二编码序列和第三编码序列,获得各个待处理任务所对应的编码序列。
另外,多模态多任务的处理系统还可以包括学习训练组件54,学习训练组件54用于:通过任务表示框架获取训练样本,训练样本对应多个数据模态,每个训练样本对应有标准处理结果;在训练样本中,确定多个不同模态的目标样本;对多个不同模态的目标样本进行学习训练,获得数据处理组件。
在一些实例中,学习训练组件54用于:通过任务表示框架获取新增样本;将新增样本添加至目标样本中,获得用于对多模态任务处理系统进行训练的调整后样本。
图18所示多模态多任务的处理系统可以执行图2所示实施例的方法,本实施例未详细描述的部分,可参考对图2所示实施例的相关说明。该技术方案的执行过程和技术效果参见图11所示实施例中的描述,在此不再赘述。
此外,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行图18所示方法实施例中的多模态多任务处理系统的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的可以选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (13)
1.一种多模态多任务的处理系统,其特征在于,包括:
任务表示组件,用于确定任务表示框架所对应的任务表示元素,其中,所述任务表示框架用于限定对待处理任务进行描述的内容格式,所述任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素;基于所述任务表示元素获取不同模态的多个待处理任务各自对应的任务描述信息、任务输入信息和任务输出信息;
数据转换组件,与所述任务表示组件通信连接,用于确定各个待处理任务所对应的编码序列;
数据处理组件,与所述数据转换组件通信连接,用于基于各个待处理任务所对应的编码序列对所述待处理任务进行处理,获得所述多个待处理任务各自对应的任务处理结果。
2.根据权利要求1所述的系统,其特征在于,在所述数据转换组件确定各个待处理任务所对应的编码序列时,所述数据转换组件用于:
获取用于对待处理任务进行处理的所有数据转换模块;
在所有数据转换模块中,确定各个待处理任务所对应的目标转换模块;
利用所述目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列。
3.根据权利要求2所述的系统,其特征在于,在所述数据转换组件利用所述目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列时,所述数据转换组件用于:
获取各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息;
利用所述目标转换模块对各个待处理任务所对应的任务描述信息进行处理,获得第一编码序列;
利用所述目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列;
利用所述目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列;
基于所述第一编码序列、第二编码序列和第三编码序列,获得各个待处理任务所对应的编码序列。
4.根据权利要求1所述的系统,其特征在于,所述系统还包括:学习训练组件,所述学习训练组件用于:
通过任务表示框架获取训练样本,所述训练样本对应多个数据模态,每个训练样本对应有标准处理结果;
在所述训练样本中,确定多个不同模态的目标样本;
对多个不同模态的目标样本进行学习训练,获得所述数据处理组件。
5.根据权利要求4所述的系统,其特征在于,在确定多个不同模态的目标样本之后,所述学习训练组件还用于:
通过所述任务表示框架获取新增样本;
将所述新增样本添加至所述目标样本中,获得用于对所述多模态任务处理系统进行训练的调整后样本。
6.一种多模态多任务的处理方法,其特征在于,应用于多模态多任务的处理系统,所述处理系统包括任务表示组件、与所述任务表示组件通信连接的数据转换组件以及与所述数据转换组件通信连接的数据处理组件,所述方法包括:
所述任务表示组件确定任务表示框架所对应的任务表示元素,其中,所述任务表示框架用于限定对待处理任务进行描述的内容格式,所述任务表示元素包括:用于限定任务描述信息的元素、用于限定任务输入信息的元素、用于限定任务输出信息的元素;
所述任务表示组件基于所述任务表示元素获取不同模态的多个待处理任务各自对应的任务描述信息、任务输入信息和任务输出信息;
所述数据转换组件确定各个待处理任务所对应的编码序列;
所述数据处理组件基于各个待处理任务所对应的编码序列对所述待处理任务进行处理,获得所述多个待处理任务各自对应的任务处理结果。
7.根据权利要求6所述的方法,其特征在于,所述数据转换组件确定各个待处理任务所对应的编码序列,包括:
所述数据转换组件获取用于对待处理任务进行处理的所有数据转换模块;
所述数据转换组件在所有数据转换模块中,确定各个待处理任务所对应的目标转换模块;
所述数据转换组件利用所述目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列。
8.根据权利要求7所述的方法,其特征在于,所述数据转换组件在所有数据转换模块中,确定各个待处理任务所对应的目标转换模块,包括:
所述数据转换组件获取各个待处理任务所对应的数据模态;
所述数据转换组件在所有数据转换模块中,检测是否存在与所述数据模态相匹配的适配转换模块;
若存在,则所述数据转换组件将所述适配转换模块确定为用于对所述数据模态相对应的待处理任务进行处理的目标转换模块。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
若所有数据转换模块中不存在与所述数据模态相匹配的适配转换模块,则所述数据转换组件生成与所述数据模态相适配的适配转换模块;
所述数据转换组件将所述适配转换模块确定为用于对所述数据模态相对应的待处理任务进行处理的目标转换模块。
10.根据权利要求7所述的方法,其特征在于,所述数据转换组件利用所述目标转换模块对相对应的待处理任务进行处理,获得各个待处理任务所对应的编码序列,包括:
所述数据转换组件获取各个待处理任务所对应的任务描述信息、任务输入信息和任务输出信息;
所述数据转换组件利用所述目标转换模块对各个待处理任务所对应的任务描述信息进行处理,获得第一编码序列;
所述数据转换组件利用所述目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列;
所述数据转换组件利用所述目标转换模块对各个待处理任务所对应的任务输出信息进行处理,获得第三编码序列;
所述数据转换组件基于所述第一编码序列、第二编码序列和第三编码序列,获得各个待处理任务所对应的编码序列。
11.根据权利要求10所述的方法,其特征在于,所述数据转换组件利用所述目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列,包括:
所述数据转换组件确定所述任务输入信息中任务输入数据的数据类型;
在所述数据类型为离散型数据时,则所述数据转换组件利用所述目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列;
在所述数据类型为连续型数据时,则所述数据转换组件获取用于对所述任务输入数据进行处理的词汇表,并利用所述词汇表和所述目标转换模块对各个待处理任务所对应的任务输入信息进行处理,获得第二编码序列。
12.根据权利要求6所述的方法,其特征在于,所述系统还包括:学习训练组件,所述方法还包括:
所述学习训练组件通过任务表示框架获取训练样本,所述训练样本对应多个数据模态,每个训练样本对应有标准处理结果;
所述学习训练组件在所述训练样本中,确定多个不同模态的目标样本;
所述学习训练组件对多个不同模态的目标样本进行学习训练,获得所述数据处理组件。
13.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求6-12中任意一项所述的多模态多任务的处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210746272.0A CN114840327B (zh) | 2022-06-29 | 2022-06-29 | 多模态多任务的处理方法、设备及系统 |
US18/332,989 US20240004703A1 (en) | 2022-06-29 | 2023-06-12 | Method, apparatus, and system for multi-modal multi-task processing |
EP23181105.0A EP4300366A1 (en) | 2022-06-29 | 2023-06-22 | Method, apparatus, and system for multi-modal multi-task processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210746272.0A CN114840327B (zh) | 2022-06-29 | 2022-06-29 | 多模态多任务的处理方法、设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114840327A true CN114840327A (zh) | 2022-08-02 |
CN114840327B CN114840327B (zh) | 2022-12-02 |
Family
ID=82574608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210746272.0A Active CN114840327B (zh) | 2022-06-29 | 2022-06-29 | 多模态多任务的处理方法、设备及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240004703A1 (zh) |
CN (1) | CN114840327B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115348323A (zh) * | 2022-08-15 | 2022-11-15 | 中国人民解放军战略支援部队信息工程大学 | 一种数据处理方法、装置、设备和存储介质 |
CN115601485A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 任务处理模型的数据处理方法及虚拟人物动画生成方法 |
CN116383620A (zh) * | 2023-03-29 | 2023-07-04 | 北京鹅厂科技有限公司 | 一种应用多模态人工智能的方法与装置 |
CN116595154A (zh) * | 2023-07-14 | 2023-08-15 | 阿里巴巴(中国)有限公司 | 任务处理方法以及自动问答方法 |
CN116774891A (zh) * | 2023-04-27 | 2023-09-19 | 北京鹅厂科技有限公司 | 一种应用人工智能的方法与装置 |
CN116798427A (zh) * | 2023-06-21 | 2023-09-22 | 支付宝(杭州)信息技术有限公司 | 基于多模态的人机交互方法及数字人系统 |
CN117194985A (zh) * | 2023-09-18 | 2023-12-08 | 镁佳(北京)科技有限公司 | 一种多模态多任务训练系统及多模态多任务训练方法 |
CN118097686A (zh) * | 2024-04-25 | 2024-05-28 | 支付宝(杭州)信息技术有限公司 | 多模态多任务医疗大模型训练方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427627A (zh) * | 2019-08-02 | 2019-11-08 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
US20200160559A1 (en) * | 2018-11-16 | 2020-05-21 | Uatc, Llc | Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection |
CN112119411A (zh) * | 2018-05-14 | 2020-12-22 | 宽腾矽公司 | 用于统合不同数据模态的统计模型的系统和方法 |
CN112183547A (zh) * | 2020-10-19 | 2021-01-05 | 中国科学院计算技术研究所 | 基于多模态数据的多任务学习方法及系统 |
CN112800785A (zh) * | 2021-04-13 | 2021-05-14 | 中国科学院自动化研究所 | 多模态机器翻译方法、装置、电子设备和存储介质 |
CN113240056A (zh) * | 2021-07-12 | 2021-08-10 | 北京百度网讯科技有限公司 | 多模态数据联合学习模型训练方法及装置 |
CN113792112A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言任务处理系统、训练方法、装置、设备及介质 |
CN114631091A (zh) * | 2019-10-18 | 2022-06-14 | 元平台公司 | 用于助理系统的使用结构本体的语义表示 |
-
2022
- 2022-06-29 CN CN202210746272.0A patent/CN114840327B/zh active Active
-
2023
- 2023-06-12 US US18/332,989 patent/US20240004703A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112119411A (zh) * | 2018-05-14 | 2020-12-22 | 宽腾矽公司 | 用于统合不同数据模态的统计模型的系统和方法 |
US20200160559A1 (en) * | 2018-11-16 | 2020-05-21 | Uatc, Llc | Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection |
CN110427627A (zh) * | 2019-08-02 | 2019-11-08 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN114631091A (zh) * | 2019-10-18 | 2022-06-14 | 元平台公司 | 用于助理系统的使用结构本体的语义表示 |
CN113792112A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言任务处理系统、训练方法、装置、设备及介质 |
CN112183547A (zh) * | 2020-10-19 | 2021-01-05 | 中国科学院计算技术研究所 | 基于多模态数据的多任务学习方法及系统 |
CN112800785A (zh) * | 2021-04-13 | 2021-05-14 | 中国科学院自动化研究所 | 多模态机器翻译方法、装置、电子设备和存储介质 |
CN113240056A (zh) * | 2021-07-12 | 2021-08-10 | 北京百度网讯科技有限公司 | 多模态数据联合学习模型训练方法及装置 |
Non-Patent Citations (5)
Title |
---|
PENGWANG, AN YANG, RUI MEN, JUNYANG LIN: "OFA:UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE SEQUENCE-TO-SEQUENCE LEARNING FRAMEWORK", 《HTTPS://WEB.ARCHIVE.ORG/WEB/20220615044720/HTTPS://ARXIV.ORG/PDF/2202.03052.PDF》 * |
RONGHANG HU; AMANPREET SINGH: "UniT: Multimodal Multitask Learning with a Unified Transformer", 《IEEE XPLORE》 * |
刘铭崴等: "多模态时空数据多层次可视化任务模型", 《测绘学报》 * |
张钰等: "多任务学习", 《计算机学报》 * |
狄程等: "面向流数据的实时处理及服务化系统", 《重庆大学学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115348323A (zh) * | 2022-08-15 | 2022-11-15 | 中国人民解放军战略支援部队信息工程大学 | 一种数据处理方法、装置、设备和存储介质 |
CN115601485A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 任务处理模型的数据处理方法及虚拟人物动画生成方法 |
CN116383620A (zh) * | 2023-03-29 | 2023-07-04 | 北京鹅厂科技有限公司 | 一种应用多模态人工智能的方法与装置 |
CN116383620B (zh) * | 2023-03-29 | 2023-10-20 | 北京鹅厂科技有限公司 | 一种应用多模态人工智能的方法与装置 |
CN116774891A (zh) * | 2023-04-27 | 2023-09-19 | 北京鹅厂科技有限公司 | 一种应用人工智能的方法与装置 |
CN116774891B (zh) * | 2023-04-27 | 2024-08-02 | 北京鹅厂科技有限公司 | 一种应用人工智能的方法与装置 |
CN116798427B (zh) * | 2023-06-21 | 2024-07-05 | 支付宝(杭州)信息技术有限公司 | 基于多模态的人机交互方法及数字人系统 |
CN116798427A (zh) * | 2023-06-21 | 2023-09-22 | 支付宝(杭州)信息技术有限公司 | 基于多模态的人机交互方法及数字人系统 |
CN116595154A (zh) * | 2023-07-14 | 2023-08-15 | 阿里巴巴(中国)有限公司 | 任务处理方法以及自动问答方法 |
CN116595154B (zh) * | 2023-07-14 | 2023-12-12 | 阿里巴巴(中国)有限公司 | 任务处理方法以及自动问答方法 |
CN117194985B (zh) * | 2023-09-18 | 2024-05-10 | 镁佳(北京)科技有限公司 | 一种多模态多任务训练系统及多模态多任务训练方法 |
CN117194985A (zh) * | 2023-09-18 | 2023-12-08 | 镁佳(北京)科技有限公司 | 一种多模态多任务训练系统及多模态多任务训练方法 |
CN118097686A (zh) * | 2024-04-25 | 2024-05-28 | 支付宝(杭州)信息技术有限公司 | 多模态多任务医疗大模型训练方法及装置 |
CN118097686B (zh) * | 2024-04-25 | 2024-08-16 | 支付宝(杭州)信息技术有限公司 | 多模态多任务医疗大模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114840327B (zh) | 2022-12-02 |
US20240004703A1 (en) | 2024-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114840327B (zh) | 多模态多任务的处理方法、设备及系统 | |
US11386271B2 (en) | Mathematical processing method, apparatus and device for text problem, and storage medium | |
JP7406606B2 (ja) | テキスト認識モデルの訓練方法、テキスト認識方法及び装置 | |
US20230177821A1 (en) | Document image understanding | |
CN110032633B (zh) | 多轮对话处理方法、装置和设备 | |
CN112685565A (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
AU2020387677B2 (en) | Video segmentation based on weighted knowledge graph | |
US11645513B2 (en) | Unary relation extraction using distant supervision | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN114638960A (zh) | 模型的训练方法、图像描述生成方法和装置、设备、介质 | |
CN111368531B (zh) | 翻译文本处理方法、装置、计算机设备和存储介质 | |
US11971916B2 (en) | Conversion of tabular format data to machine readable text for QA operations | |
WO2024045474A1 (zh) | 图像文案的生成方法、设备及计算机存储介质 | |
CN110851644A (zh) | 图像检索方法及装置、计算机可读存储介质、电子设备 | |
CN108268936B (zh) | 用于存储卷积神经网络的方法和装置 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN110019952B (zh) | 视频描述方法、系统及装置 | |
CN111680491A (zh) | 文档信息的抽取方法、装置和电子设备 | |
CN113887237A (zh) | 多意图文本的槽位预测方法、装置及计算机设备 | |
CN113408507B (zh) | 基于履历文件的命名实体识别方法、装置和电子设备 | |
CN117350298A (zh) | 目标语义信息的确定方法、装置及存储介质 | |
CN116956117A (zh) | 一种标签识别的方法、装置、设备、存储介质及程序产品 | |
CN116524528A (zh) | 用于分离被检测为一个文本边界框的单词的文本检测算法 | |
US11644961B1 (en) | Utilizing a transformer-based generative language model to generate digital design document variations | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |