CN114065948A - 构建预训练模型的方法、装置、终端设备和存储介质 - Google Patents

构建预训练模型的方法、装置、终端设备和存储介质 Download PDF

Info

Publication number
CN114065948A
CN114065948A CN202111362696.9A CN202111362696A CN114065948A CN 114065948 A CN114065948 A CN 114065948A CN 202111362696 A CN202111362696 A CN 202111362696A CN 114065948 A CN114065948 A CN 114065948A
Authority
CN
China
Prior art keywords
operator
model
original
operators
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111362696.9A
Other languages
English (en)
Inventor
彭奕
成杰峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111362696.9A priority Critical patent/CN114065948A/zh
Publication of CN114065948A publication Critical patent/CN114065948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/35Creation or generation of source code model driven
    • G06F8/355Round-trip engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请适用于人工智能技术领域,提供一种构建预训练模型的方法、装置、终端设备和存储介质。该方法首先获取用户输入的预训练模型的模型参数,该模型参数包含预训练模型的模型层数、准确率指标以及算子序列参数;然后,根据准确率指标从预设的模型库中查找与该准确率指标匹配的原始模型,并对该原始模型进行拆解,得到该原始模型的一个网络层包含的各个原始算子;接着,根据算子序列参数对各个原始算子以及算子序列参数中指示的其它算子进行组装,从而得到该预训练模型的一个目标网络层;最后,根据模型层数对该目标网络层进行复制并依次连接,从而构建出该预训练模型。采用该方法能够有效提高预训练模型的构建效率。

Description

构建预训练模型的方法、装置、终端设备和存储介质
技术领域
本申请涉及人工智能技术领域,提供一种构建预训练模型的方法、装置、终端设备和存储介质。
背景技术
目前,在构建预训练模型时,通常由开发者利用TensorFlow等深度学习框架从零开始地去实现模型中每个计算的步骤,也即构建各个算子。采用这种方式的优点是模型构建灵活,开发者有任何想法都可以着手实现。然而,开发者需要花费大量的时间从零开始编写模型代码,导致构建预训练模型的效率较低。
发明内容
有鉴于此,本申请提出一种构建预训练模型的方法、装置、终端设备和存储介质,能够提高构建预训练模型的效率。
第一方面,本申请实施例提供了一种构建预训练模型的方法,包括:
获取输入的模型参数,所述模型参数包含待构建的预训练模型的模型层数、准确率指标以及算子序列参数,所述算子序列参数用于指示所述预训练模型的一个网络层包含的各个目标算子以及所述各个目标算子的排列顺序;
从预设的模型库中查找与所述准确率指标匹配的原始模型;
对所述原始模型进行拆解,得到所述原始模型的一个网络层包含的各个原始算子;
根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,所述其它算子为所述各个目标算子中除所述各个原始算子之外的算子;
根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型。
本申请实施例采用的是一种模型算子拆解和组装的标准化方法。首先,获取用户输入的预训练模型的模型参数,该模型参数包含预训练模型的模型层数、准确率指标以及算子序列参数;然后,根据准确率指标从预设的模型库中查找与该准确率指标匹配的原始模型,并对该原始模型进行拆解,得到该原始模型的一个网络层包含的各个原始算子;接着,根据算子序列参数对各个原始算子以及算子序列参数中指示的其它算子进行组装,从而得到该预训练模型的一个目标网络层;最后,根据模型层数对该目标网络层进行复制并依次连接,从而构建出该预训练模型。在这个过程中,用户只需输入所要构建的预训练模型的模型参数即可,无需从零开始编写模型代码,因此能够有效提高预训练模型的构建效率。
在本申请的一个实施例中,所述从预设的模型库中查找与所述准确率指标匹配的原始模型,可以包括:
确定所述准确率指标所处的准确率范围区间;
从所述模型库中查找准确率落入所述准确率范围区间的一个模型,作为所述原始模型。
在本申请的一个实施例中,所述各个目标算子和所述各个原始算子相同,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,可以包括:
根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述各个原始算子进行组装,得到所述预训练模型的一个目标网络层。
在本申请的一个实施例中,所述各个目标算子包含所述各个原始算子以及一部分其它算子,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,可以包括:
通过实例化的方式构建出所述其它算子;
根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述各个原始算子和所述其它算子进行组装,得到所述预训练模型的一个目标网络层。
进一步的,所述模型参数还包含输入尺寸和注意力机制类型,所述通过实例化的方式构建出所述其它算子,可以包括:
获取所述输入尺寸和所述注意力机制类型;
从预先使用cuda语言封装完成的各个注意力机制算子中,选取与所述输入尺寸和所述注意力机制类型匹配的注意力机制算子,作为所述其它算子。
在本申请的一个实施例中,所述各个目标算子包含所述各个原始算子的一部分以及一部分其它算子,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,可以包括:
通过实例化的方式构建出所述其它算子;
将所述各个原始算子划分为第一原始算子和第二原始算子,其中所述第一原始算子为所述各个目标算子中包含的算子,所述第二原始算子为所述各个目标算子中不包含的算子;
针对每个所述第二原始算子,检测所述其它算子中是否具有与该第二原始算子功能相同的算子;若所述其它算子中具有与该第二原始算子功能相同的算子,则将该第二原始算子确定为可替代算子;若所述其它算子中不具有与该第二原始算子功能相同的算子,则将该第二原始算子确定为不可替代算子;
根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述第一原始算子、所述其它算子以及所述第二原始算子中的不可替代算子进行组装,得到所述预训练模型的一个目标网络层。
在本申请的一个实施例中,所述模型层数为N,所述根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型,可以包括:
对所述目标网络层进行复制N-1次,得到N个网络层;
依次连接所述N各网络层,从而构建出所述预训练模型。
第二方面,本申请实施例提供了一种构建预训练模型的装置,包括:
模型参数获取模块,用于获取输入的模型参数,所述模型参数包含待构建的预训练模型的模型层数、准确率指标以及算子序列参数,所述算子序列参数用于指示所述预训练模型的一个网络层包含的各个目标算子以及所述各个目标算子的排列顺序;
模型查找模块,用于从预设的模型库中查找与所述准确率指标匹配的原始模型;
模型拆解模块,用于对所述原始模型进行拆解,得到所述原始模型的一个网络层包含的各个原始算子;
算子组装模块,用于根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,所述其它算子为所述各个目标算子中除所述各个原始算子之外的算子;
模型构建模块,用于根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例第一方面提出的构建预训练模型的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请实施例第一方面提出的构建预训练模型的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当该计算机程序产品在终端设备上运行时,使得该终端设备执行如本申请实施例第一方面提出的构建预训练模型的方法。
上述第二方面至第五方面所能实现的有益效果,可以参照上述第一方面的相关说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种构建预训练模型的方法的一个实施例的流程图;
图2是本申请实施例提供的一个算子序列参数所指示的网络层的结构图;
图3是注意力机制算子的类型划分示意图;
图4是本申请实施例提供的一种构建预训练模型的装置的一个实施例的结构图;
图5是本申请实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
传统的预训练模型构建方法,一般需要开发者使用TensorFlow等深度学习框架从零开始地去实现每个计算的步骤,构造出模型中的每个算子,这种方法虽然可以灵活构建出任何形式的模型,但是需要开发者花费很长的时间用于编写模型代码,导致构建模型的效率较低。有鉴于此,本申请提出一种构建预训练模型的方法、装置、终端设备和存储介质,能够提高构建预训练模型的效率。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应当理解,本申请实施例提供的构建预训练模型的方法的执行主体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、大屏电视等终端设备或者服务器,本申请实施例对该终端设备和服务器的具体类型不作任何限制。这里的服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,本申请实施例中一种构建预训练模型的方法的一个实施例包括:
101、获取输入的模型参数,所述模型参数包含待构建的预训练模型的模型层数、准确率指标以及算子序列参数,所述算子序列参数用于指示所述预训练模型的一个网络层包含的各个目标算子以及所述各个目标算子的排列顺序;
首先,获取用户输入的模型参数。该模型参数用于指示待构建的预训练模型的要求,一般可以包含预训练模型的模型层数、准确率指标以及算子序列参数,等等。其中,算子序列参数用于指示该预训练模型的一个网络层包含的各个目标算子以及它们之间的排列顺序。
例如,用户输入的模型参数可以包含{layers,accuracy,sequence},其中layers表示预训练模型的层数,accuracy表示预训练模型的准确率指标,sequence表示算子序列参数。
示例性的,某个算子序列参数可以为sequence=[“library”、“attention”、“normalization”、“feedforward”、“normalization”]。其中,“library”表示库函数算子,“attention”表示注意力机制算子,“normalization”表示归一化算子,“feedforward”表示前馈网络算子。该算子序列参数表示预训练模型的一个网络层依次包含库函数算子、注意力机制算子、归一化算子、前馈网络算子以及归一化算子等目标算子,如图2所示。
102、从预设的模型库中查找与所述准确率指标匹配的原始模型;
在获取到输入的模型参数之后,可以根据模型参数中的准确率指标从预先构建的模型库中查找与该准确率指标匹配的一个原始模型。在实际操作中,可以预先构建出各个不同类型,不同准确率的原始模型,然后将这些原始模型存储到一个模型库中。在步骤102中,可以从该模型库中查找与该准确率指标匹配的任意一个原始模型。
在本申请实施例的一种实现方式中,所述从预设的模型库中查找与所述准确率指标匹配的原始模型,可以包括:
(1)确定所述准确率指标所处的准确率范围区间;
(2)从所述模型库中查找准确率落入所述准确率范围区间的一个模型,作为所述原始模型。
例如,若输入的模型参数中的准确率指标是85%,则可以确定其所处的准确率范围区间是80%-90%。该模型库中存储的每个原始模型都具有一个对应的准确率(可以在原始模型构建之后通过测试获得),此时可以从该模型库中查找准确率属于80%-90%范围区间的一个原始模型,具体可以查找准确率与85%最接近的一个原始模型。在后续步骤中,采用该原始模型的算子进行组装所获得的预训练模型,一般可以满足准确率指标的需求。
103、对所述原始模型进行拆解,得到所述原始模型的一个网络层包含的各个原始算子;
该原始模型是构建好的一个基准模型,其包含多个网络层,且每个网络层都包含多个算子(原始算子)。在步骤103中,可以对该原始模型进行拆解,得到该原始模型的一个网络层包含的各个原始算子。例如,原始模型的一个网络层包含原始算子A、原始算子B、原始算子C、原始算子B和原始算子D总共5个原始算子(A、B、C和D表示4种不同类型的算子),则在对该网络层进行拆解后,能够得到该5个原始算子以及它们之间的级联关系。
104、根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,所述其它算子为所述各个目标算子中除所述各个原始算子之外的算子;
在拆解出各个原始算子之后,可以根据该算子序列参数对各个原始算子进行组装,组装的顺序可以根据步骤103拆解时获得的各个原始算子的级联关系确定。在某些情况下,算子序列参数指示的目标算子可能不仅包含步骤103中拆解得到的原始算子,还包含一部分其它算子。在步骤104中,可以先实例化出该部分其它算子,然后针对各个原始算子和其它算子,按照该算子序列参数指示的顺序依次组装连接,最终得到该待构建模型的一个网络层(目标网络层)。
在本申请实施例的一种实现方式中,所述各个目标算子和所述各个原始算子相同,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,可以包括:
根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述各个原始算子进行组装,得到所述预训练模型的一个目标网络层。
在一种情况下,用户输入的算子序列参数中包含的各个目标算子恰好和步骤S3中拆解得到的各个原始算子相同,此时的处理方式最简单,只需将各个原始算子按照算子序列参数指示的排列顺序进行组装即可,最终得到该待构建模型的一个目标网络层。例如,算子序列参数指示的各个目标算子依次为“算子A、算子B、算子C、算子B和算子D”,在步骤S3中拆解到的各个原始算子也为“算子A、算子B、算子C、算子B和算子D”,此时只需要按顺序将“算子A、算子B、算子C、算子B和算子D”组装连接起来,即可得到待构建模型的一个目标网络层。
在本申请实施例的一种实现方式中,所述各个目标算子包含所述各个原始算子以及一部分其它算子,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,可以包括:
(1)通过实例化的方式构建出所述其它算子;
(2)根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述各个原始算子和所述其它算子进行组装,得到所述预训练模型的一个目标网络层。
在另一种情况下,用户输入的算子序列参数中包含的各个目标算子包括所有的原始算子以及一部分其它算子,此时需要先实例化出其它算子,然后再按照算子序列参数指示的排列顺序对各个原始算子和其它算子进行组装。例如,算子序列参数指示的各个目标算子依次为“算子A、算子B、算子C、算子B、算子D、算子E和算子F”,在步骤S3中拆解到的各个原始算子为“算子A、算子B、算子C、算子B和算子D”,此时首先需要实例化出算子E和算子F,然后按顺序将“算子A、算子B、算子C、算子B、算子D、算子E和算子F”组装连接起来,即可得到待构建模型的一个目标网络层。
进一步的,所述模型参数还包含输入尺寸和注意力机制类型,所述通过实例化的方式构建出所述其它算子,可以包括:
从预先使用cuda语言封装完成的各个注意力机制算子中,选取与所述输入尺寸和所述注意力机制类型匹配的注意力机制算子,作为所述其它算子。
例如,用户输入的模型参数为{input_shape,layers,accuracy,attention_type,sequence},其中input_shape表示模型的输入尺寸,attention_type表示模型所需的注意力机制算子的类型,layers表示预训练模型的层数,accuracy表示预训练模型的准确率指标,sequence表示算子序列参数。根据模型参数input_shape和attention_type,便可以实例化出对应的注意力机制算子。另外,在封装注意力机制算子时,在底层根据算子的计算步骤去编写cuda代码,编译好之后,再使用python语言去调用它。至于传统的封装注意力机制算子的方法,一般是由开发者们使用TensorFlow等框架去实现,这个过程大都是用CPU来计算的,即使可以调用GPU计算,仍然不够定制化,在底层会涉及到设备间的多次存取操作,处理效率较低。而本申请实施例采用cuda代码层面的封装,利用cuda的并行编程来实现,处理更为高效。
在分类上,根据计算方式的不同,注意力机制算子可以划分为加性注意力、点乘注意力、通用注意力以及放缩点乘注意力等类型,如图3所示。示例性的,BERT模型使用的注意力机制为放缩点乘注意力。
在本申请实施例的一种实现方式中,所述各个目标算子包含所述各个原始算子的一部分以及一部分其它算子,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,可以包括:
(1)通过实例化的方式构建出所述其它算子;
(2)将所述各个原始算子划分为第一原始算子和第二原始算子,其中所述第一原始算子为所述各个目标算子中包含的算子,所述第二原始算子为所述各个目标算子中不包含的算子;
(3)针对每个所述第二原始算子,检测所述其它算子中是否具有与该第二原始算子功能相同的算子;若所述其它算子中具有与该第二原始算子功能相同的算子,则将该第二原始算子确定为可替代算子;若所述其它算子中不具有与该第二原始算子功能相同的算子,则将该第二原始算子确定为不可替代算子;
(4)根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述第一原始算子、所述其它算子以及所述第二原始算子中的不可替代算子进行组装,得到所述预训练模型的一个目标网络层。
在另一种情况下,用户输入的算子序列参数中包含的各个目标算子包括一部分的原始算子以及一部分其它算子。例如,算子序列参数指示的各个目标算子依次为“算子A、算子B、算子C、算子D、算子E和算子F”,在步骤S3中拆解到的各个原始算子为“算子A、算子B、算子C、算子X和算子Y”,此时首先需要实例化出算子D、算子E和算子F作为其它算子;然后,将原始算子划分为第一原始算子“算子A、算子B、算子C”以及第二原始算子“算子X和算子Y”,针对其中的第二原始算子“算子X和算子Y”,分别检测其它算子“算子D、算子E和算子F”中是否具有和该第二原始算子的功能相同的算子,若有则将该第二原始算子确定为可替代算子,否则将该第二原始算子确定为不可替代算子。假设算子X可由算子E替代,而算子Y均不可由“算子D、算子E或者算子F”代替,则算子X为可替代算子,算子Y为不可替代算子。最后,按照算子序列参数指示的所述各个目标算子的排列顺序,依次对第一原始算子、其它算子以及第二原始算子中的不可替代算子进行组装。具体的,第一原始算子和其它算子都属于算子序列参数包含的目标算子,在组装时可直接按照算子序列参数指示的排序,而第二原始算子中的不可替代算子不是算子序列参数包含的目标算子,此时可以根据该不可替代算子的功能确定其排列顺序。比如,根据算子Y的功能确定其一般排列于网络层的最后,则可以按照“算子A、算子B、算子C、算子D、算子E、算子F和算子Y”的方式组装排列,得到待构建模型的一个目标网络层。对于原始算子中的可替代算子,由于已经实例化出具有相同功能的其它算子,故在组装时可以忽略这部分原始算子。而对于原始算子中的不可替代算子,由于实例化出的其它算子中不含有相同功能的算子,此时可能是由于用户疏忽或者不了解模型构建需求导致输入的算子序列参数中遗漏了实现重要功能的算子,因此在组装时不可忽略这部分原始算子。
105、根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型。
在组装出一个目标网络层之后,接下来可以根据输入的模型层数对该目标网络层进行复制,最后依次连接复制得到的各个网络层,从而构建出该预训练模型。
在本申请实施例的一种实现方式中,所述模型层数为N(N为大于1的整数),所述根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型,可以包括:
(1)对所述目标网络层进行复制N-1次,得到N个网络层;
(2)依次连接所述N个网络层,从而构建出所述预训练模型。
例如,若输入的模型层数为12,则可以复制11次该目标网络层,得到12个网络层,然后依次级联这12个网络层,从而构建出最终的预训练模型。
本申请实施例采用的是一种模型算子拆解和组装的标准化方法。首先,获取用户输入的预训练模型的模型参数,该模型参数包含预训练模型的模型层数、准确率指标以及算子序列参数;然后,根据准确率指标从预设的模型库中查找与该准确率指标匹配的原始模型,并对该原始模型进行拆解,得到该原始模型的一个网络层包含的各个原始算子;接着,根据算子序列参数对各个原始算子以及算子序列参数中指示的其它算子进行组装,从而得到该预训练模型的一个目标网络层;最后,根据模型层数对该目标网络层进行复制并依次连接,从而构建出该预训练模型。在这个过程中,用户只需输入所要构建的预训练模型的模型参数即可,无需从零开始编写模型代码,因此能够有效提高预训练模型的构建效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的构建预训练模型的方法,图4示出了本申请实施例提供的一种构建预训练模型的装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图4,该装置包括:
模型参数获取模块401,用于获取输入的模型参数,所述模型参数包含待构建的预训练模型的模型层数、准确率指标以及算子序列参数,所述算子序列参数用于指示所述预训练模型的一个网络层包含的各个目标算子以及所述各个目标算子的排列顺序;
模型查找模块402,用于从预设的模型库中查找与所述准确率指标匹配的原始模型;
模型拆解模块403,用于对所述原始模型进行拆解,得到所述原始模型的一个网络层包含的各个原始算子;
算子组装模块404,用于根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,所述其它算子为所述各个目标算子中除所述各个原始算子之外的算子;
模型构建模块405,用于根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型。
在本申请实施例的一种实现方式中,所述模型查找模块可以包括:
范围区间确定单元,用于确定所述准确率指标所处的准确率范围区间;
模型查找单元,用于从所述模型库中查找准确率落入所述准确率范围区间的一个模型,作为所述原始模型。
在本申请实施例的一种实现方式中,所述各个目标算子和所述各个原始算子相同,所述算子组装模块可以包括:
第一算子组装单元,用于根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述各个原始算子进行组装,得到所述预训练模型的一个目标网络层。
在本申请实施例的一种实现方式中,所述各个目标算子包含所述各个原始算子以及一部分其它算子,所述算子组装模块可以包括:
第一实例化单元,用于通过实例化的方式构建出所述其它算子;
第二算子组装单元,用于根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述各个原始算子和所述其它算子进行组装,得到所述预训练模型的一个目标网络层。
进一步的,所述模型参数还包含输入尺寸和注意力机制类型,所述第一实例化单元可以包括:
算子选取子单元,用于从预先使用cuda语言封装完成的各个注意力机制算子中,选取与所述输入尺寸和所述注意力机制类型匹配的注意力机制算子,作为所述其它算子。
在本申请实施例的一种实现方式中,所述各个目标算子包含所述各个原始算子的一部分以及一部分其它算子,所述算子组装模块可以包括:
第二实例化单元,用于通过实例化的方式构建出所述其它算子;
第一算子划分单元,用于将所述各个原始算子划分为第一原始算子和第二原始算子,其中所述第一原始算子为所述各个目标算子中包含的算子,所述第二原始算子为所述各个目标算子中不包含的算子;
第二算子划分单元,用于针对每个所述第二原始算子,检测所述其它算子中是否具有与该第二原始算子功能相同的算子;若所述其它算子中具有与该第二原始算子功能相同的算子,则将该第二原始算子确定为可替代算子;若所述其它算子中不具有与该第二原始算子功能相同的算子,则将该第二原始算子确定为不可替代算子;
第三算子组装单元,用于根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述第一原始算子、所述其它算子以及所述第二原始算子中的不可替代算子进行组装,得到所述预训练模型的一个目标网络层。
在本申请实施例的一种实现方式中,所述模型构建模块可以包括:
网络层复制单元,用于对对所述目标网络层进行复制N-1次,得到N个网络层;
网络层连接单元,用于依次连接所述N个网络层,从而构建出所述预训练模型。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1表示的任意一种构建预训练模型的方法。
本申请实施例还提供一种计算机程序产品,当该计算机程序产品在服务器上运行时,使得服务器执行实现如图1表示的任意一种构建预训练模型的方法。
图5是本申请一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个构建预训练模型的方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至405的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
所述终端设备5可以是智能手机、笔记本、掌上电脑及云端终端设备等计算设备。所述终端设备5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备5还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种构建预训练模型的方法,其特征在于,包括:
获取输入的模型参数,所述模型参数包含待构建的预训练模型的模型层数、准确率指标以及算子序列参数,所述算子序列参数用于指示所述预训练模型的一个网络层包含的各个目标算子以及所述各个目标算子的排列顺序;
从预设的模型库中查找与所述准确率指标匹配的原始模型;
对所述原始模型进行拆解,得到所述原始模型的一个网络层包含的各个原始算子;
根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,所述其它算子为所述各个目标算子中除所述各个原始算子之外的算子;
根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型。
2.如权利要求1所述的方法,其特征在于,所述从预设的模型库中查找与所述准确率指标匹配的原始模型,包括:
确定所述准确率指标所处的准确率范围区间;
从所述模型库中查找准确率落入所述准确率范围区间的一个模型,作为所述原始模型。
3.如权利要求1所述的方法,其特征在于,所述各个目标算子和所述各个原始算子相同,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,包括:
根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述各个原始算子进行组装,得到所述预训练模型的一个目标网络层。
4.如权利要求1所述的方法,其特征在于,所述各个目标算子包含所述各个原始算子以及一部分其它算子,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,包括:
通过实例化的方式构建出所述其它算子;
根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述各个原始算子和所述其它算子进行组装,得到所述预训练模型的一个目标网络层。
5.如权利要求4所述的方法,其特征在于,所述模型参数还包含输入尺寸和注意力机制类型,所述通过实例化的方式构建出所述其它算子,包括:
从预先使用cuda语言封装完成的各个注意力机制算子中,选取与所述输入尺寸和所述注意力机制类型匹配的注意力机制算子,作为所述其它算子。
6.如权利要求1所述的方法,其特征在于,所述各个目标算子包含所述各个原始算子的一部分以及一部分其它算子,所述根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,包括:
通过实例化的方式构建出所述其它算子;
将所述各个原始算子划分为第一原始算子和第二原始算子,其中所述第一原始算子为所述各个目标算子中包含的算子,所述第二原始算子为所述各个目标算子中不包含的算子;
针对每个所述第二原始算子,检测所述其它算子中是否具有与该第二原始算子功能相同的算子;若所述其它算子中具有与该第二原始算子功能相同的算子,则将该第二原始算子确定为可替代算子;若所述其它算子中不具有与该第二原始算子功能相同的算子,则将该第二原始算子确定为不可替代算子;
根据所述算子序列参数指示的所述各个目标算子的排列顺序,依次对所述第一原始算子、所述其它算子以及所述第二原始算子中的不可替代算子进行组装,得到所述预训练模型的一个目标网络层。
7.如权利要求1至6中任一项所述的方法,其特征在于,所述模型层数为N,所述根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型,包括:
对所述目标网络层进行复制N-1次,得到N个网络层;
依次连接所述N个网络层,从而构建出所述预训练模型。
8.一种构建预训练模型的装置,其特征在于,包括:
模型参数获取模块,用于获取输入的模型参数,所述模型参数包含待构建的预训练模型的模型层数、准确率指标以及算子序列参数,所述算子序列参数用于指示所述预训练模型的一个网络层包含的各个目标算子以及所述各个目标算子的排列顺序;
模型查找模块,用于从预设的模型库中查找与所述准确率指标匹配的原始模型;
模型拆解模块,用于对所述原始模型进行拆解,得到所述原始模型的一个网络层包含的各个原始算子;
算子组装模块,用于根据所述算子序列参数对所述各个原始算子以及实例化获得的其它算子进行组装,得到所述预训练模型的一个目标网络层,所述其它算子为所述各个目标算子中除所述各个原始算子之外的算子;
模型构建模块,用于根据所述模型层数对所述目标网络层进行复制,并依次连接复制得到的各个网络层,从而构建出所述预训练模型。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的构建预训练模型的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的构建预训练模型的方法。
CN202111362696.9A 2021-11-17 2021-11-17 构建预训练模型的方法、装置、终端设备和存储介质 Pending CN114065948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111362696.9A CN114065948A (zh) 2021-11-17 2021-11-17 构建预训练模型的方法、装置、终端设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111362696.9A CN114065948A (zh) 2021-11-17 2021-11-17 构建预训练模型的方法、装置、终端设备和存储介质

Publications (1)

Publication Number Publication Date
CN114065948A true CN114065948A (zh) 2022-02-18

Family

ID=80273316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111362696.9A Pending CN114065948A (zh) 2021-11-17 2021-11-17 构建预训练模型的方法、装置、终端设备和存储介质

Country Status (1)

Country Link
CN (1) CN114065948A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629338A (zh) * 2023-07-13 2023-08-22 腾讯科技(深圳)有限公司 一种模型数据的处理方法、相关装置、设备以及存储介质
CN117171577A (zh) * 2023-11-02 2023-12-05 之江实验室 一种高性能算子选择的动态决策方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629338A (zh) * 2023-07-13 2023-08-22 腾讯科技(深圳)有限公司 一种模型数据的处理方法、相关装置、设备以及存储介质
CN116629338B (zh) * 2023-07-13 2024-01-30 腾讯科技(深圳)有限公司 一种模型数据的处理方法、相关装置、设备以及存储介质
CN117171577A (zh) * 2023-11-02 2023-12-05 之江实验室 一种高性能算子选择的动态决策方法及装置
CN117171577B (zh) * 2023-11-02 2024-03-22 之江实验室 一种高性能算子选择的动态决策方法及装置

Similar Documents

Publication Publication Date Title
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN114065948A (zh) 构建预训练模型的方法、装置、终端设备和存储介质
CN110347724A (zh) 异常行为识别方法、装置、电子设备及介质
CN112036577B (zh) 基于数据形式的应用机器学习的方法、装置和电子设备
WO2020020287A1 (zh) 一种获取文本相似度的方法、装置、设备及可读存储介质
WO2023065746A1 (zh) 算法应用元生成方法、装置、电子设备、计算机程序产品及计算机可读存储介质
CN115237802A (zh) 基于人工智能的模拟测试方法及相关设备
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN114462582A (zh) 基于卷积神经网络模型的数据处理方法及装置、设备
CN108763260A (zh) 一种试题搜索方法、系统及终端设备
CN109766089B (zh) 基于动图的代码生成方法、装置、电子设备及存储介质
CN115905472A (zh) 商机业务处理方法、装置、服务器及计算机可读存储介质
CN115840775A (zh) 数据的提取方法、装置、服务器及存储介质
CN114581177A (zh) 产品推荐方法、装置、设备及存储介质
Štěpánková et al. Preprocessing for data mining and decision support
CN111324434B (zh) 计算任务的配置方法、装置及执行系统
CN112783986B (zh) 基于标签的对象分组编制方法及装置、存储介质、终端
CN115809304A (zh) 字段级血缘解析方法、装置、计算机设备、存储介质
CN114840555A (zh) 脚本优化方法、装置、设备及存储介质
CN117217431A (zh) 物料审核方法、装置、计算机设备和存储介质
CN118069044A (zh) 芯片数据存储方法、装置、设备、介质和产品
CN115238096A (zh) 一种信息处理方法及装置
CN116957125A (zh) 一种数据处理方法和相关装置
CN113688265A (zh) 图片查重方法、装置和计算机可读存储介质
CN117827902A (zh) 业务数据处理方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination