CN114756211A - 模型训练方法、装置、电子设备和存储介质 - Google Patents
模型训练方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114756211A CN114756211A CN202210522239.XA CN202210522239A CN114756211A CN 114756211 A CN114756211 A CN 114756211A CN 202210522239 A CN202210522239 A CN 202210522239A CN 114756211 A CN114756211 A CN 114756211A
- Authority
- CN
- China
- Prior art keywords
- model
- target
- type
- programming
- debugging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 175
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000006870 function Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 18
- 230000003044 adaptive effect Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000002829 reductive effect Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000005477 standard model Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Stored Programmes (AREA)
Abstract
本公开提供了一种模型训练方法、装置、电子设备和存储介质,涉及数据处理领域,具体为深度学习领域和人工智能领域。具体实现方案为:获取编程范式类型;获取所述编程范式类型对应的目标输入数据,所述目标输入数据通过对用户提供的标准输入数据进行转换得到;获取所述编程范式类型对应的目标模型,并将所述编程范式类型对应的目标输入数据输入至所述目标模型中,得到所述目标模型的输出数据;根据所述编程范式类型和所述目标模型的输出数据,对所述目标模型进行训练。本公开实施例可以降低模型训练的成本,以及提高模型训练的效率。
Description
技术领域
本公开涉及数据处理领域,具体为深度学习领域和人工智能领域,具体涉及一种模型训练方法、装置、电子设备和存储介质。
背景技术
在计算机科学中,通常存在多种编程范式,例如,声明式编程范式和命令式编程范式。
其中,声明式编程范式用于表达处理的目的,而不描述其具体执行方法。命令式编程范式是关注命令计算机如何做。不同编程范式的采用的编程语言或者实现算法不同。
发明内容
本公开提供了一种模型训练方法、装置、电子设备和存储介质。
根据本公开的一方面,提供了一种模型训练方法,包括:
获取编程范式类型;
获取编程范式类型对应的目标输入数据,目标输入数据为对用户提供的标准输入数据进行转换得到;
获取编程范式类型对应的目标模型,并将编程范式类型对应的目标输入数据输入至目标模型中,得到目标模型的输出数据;
根据编程范式类型和目标模型的输出数据,对目标模型进行训练。
根据本公开的一方面,提供了一种模型训练装置,包括:
编程范式类型获取模块,用于获取编程范式类型;
输入数据模块,用于获取编程范式类型对应的目标输入数据,目标输入数据为对用户提供的标准输入数据进行转换得到;
目标执行模块,用于获取编程范式类型对应的目标模型,并将编程范式类型对应的目标输入数据输入至目标模型中,得到目标模型的输出数据;
目标执行模块,用于根据编程范式类型和目标模型的输出数据,对目标模型进行训练。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的模型训练方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例的模型训练方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开任一实施例的模型训练方法。
本公开实施例可以降低模型训练的成本,以及提高模型训练的效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例公开的一种模型训练方法的示意图;
图2是根据本公开实施例公开的另一种模型训练方法的示意图;
图3是根据本公开实施例公开的另一种模型训练方法的示意图;
图4是根据本公开实施例公开的一种模型训练方法的示意图;
图5是根据本公开实施例公开的一种模型训练方法的场景图;
图6是根据本公开实施例公开的一种模型训练装置的结构图;
图7是用来实现本公开实施例的模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例公开的一种模型训练方法的流程图,本实施例可以适用于训练不同编程范式类型的模型的情况。本实施例方法可以由模型训练装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
S101,获取编程范式类型。
编程范式类型是指编程范式的类型。编程范式是指编程的风格。编程范式类型是用户输入的。示例性的,编程范式类型可以包括:声明式编程类型或命令式编程类型。其中,声明式编程类型(也称为静态图),在编译执行时先搭建起计算的图结构,然后再利用执行单元执行图结构操作。这种机制不易于用户编写,但机器执行计算资源消耗较小,适于工业模型部署。命令式编程类型(也被称为动态图),通常是程序执行计算语句后立即解释执行,并即时地拥有这个计算结果。这种机制更符合用户编程习惯,并且更易进行模式调试,易于用户编写但是机器执行计算资源消耗较大。现有的模型训练的框架存在这两种编程范式类型,用户可以根据需要选择适配的编程范式类型,建立模型结构,并输入样本数据训练模型。
S102,获取编程范式类型对应的目标输入数据,目标输入数据为对用户提供的标准输入数据进行转换得到。
输入数据为输入到模型中,对模型训练的数据。目标输入数据为编程范式类型对应的输入数据,可以直接输入到模型中。不同的编程范式类型适配的输入数据不同。标准输入数据为用户输入的输入数据,无法直接输入到模型中进行计算,与编程范式类型不适配。示例性的,可以预设标准输入数据与目标输入数据之间的对应关系,将标准输入数据转换为目标输入数据。又如,标准输入数据的数据格式为标准数据格式,目标输入数据的数据格式为目标数据格式,可以将标准输入数据的标准数据格式转换为目标数据格式,形式目标输入数据。
现有中,如果用户基于声明式编程类型建立模型结构,并进行模型训练,则用户需要提供声明式编程类型对应的输入数据;以及如果用户基于命令式编程类型建立模型结构,并进行模型训练,则用户需要提供命令式编程类型对应的输入数据。而使用本公开实施例的模型训练方法,用户只需要提供同一通用的标准范式的标准输入数据,本公开实施例模型训练方法可以将标准输入数据转换为用户指定的任意一种编程范式类型对应的目标输入数据。从而,用户采用相同内容的数据训练不同编程范式类型下的模型,只需要指定不同的编程范式类型即可,无需用户针对不同的编程范式类型分别提供对应的输入数据,降低输入数据的转换人工成本,同时提高不同编程范式类型的模型训练效率。
S103,获取编程范式类型对应的目标模型,并将编程范式类型对应的目标输入数据输入至目标模型中,得到目标模型的输出数据。
目标模型为待训练的模型。目标模型与编程范式类型对应。目标模型为用户指定的适配编程范式类型的模型。目标模型可以理解为编程范式类型对应的目标语言编写的模型。不同编程范式类型对应的目标模型运行方式不同。具体可以体现在,声明式编程类型对应的目标模型在执行时,每个步骤不输出结果,而是模型输出一个整体结果。命令式编程类型对应的模型在执行时,每个步骤输出结果,以及在执行最后一个步骤时,模型输出一个整体结果。编程范式类型对应的目标模型可以处理编程范式类型对应的目标输入数据。编程范式类型对应的目标模型无法处理标准输入数据。
S104,根据编程范式类型和目标模型的输出数据,对目标模型进行训练。
根据编程范式类型,确定对应的目标模型的训练方法,并基于对应的训练方法,输入目标模型的输出数据,对目标模型进行训练,得到训练完成的目标模型的参数。
示例性的,训练方法可以采用训练源文件描述,不同训练方法对应的训练源文件不同,也即编程范式类型不同,对应的训练源文件不同。训练源文件用于实现根据目标模型的输出数据,对目标模型进行训练。具体的,编译训练源文件,并执行编译后的训练源文件,即实现根据目标模型的输出数据,对目标模型进行训练。训练源文件包括源代码。编程范式类型对应的训练源文件的编程语言和计算逻辑与编程范式类型对应。实际上,可以预设模型开发的框架,该框架包括各编程范式类型对应的训练源文件,用户可以通过指定编程范式类型,即可获取编程范式类型对应的训练源文件对目标模型进行训练。如果用户对该框架提供的标准的训练源文件进行扩展,可以通过对指定的编程范式类型的训练源文件进行修改,并且,用户需要适配编程范式类型对该训练源文件进行修改,保证修改后的训练源文件仍与该编程范式类型适配。或者,用户可以直接提供与编程范式类型对应的训练源文件。
目标模型的输出数据是指目标模型对目标输入数据进行处理得到的前向计算结果。根据前向计算结果对目标模型进行训练。示例性的,可以基于梯度下降法训练模型,又如,可以根据目标模型的训练轮次是否大于预设轮次阈值,检测目标模型是否训练完成,又如,根据前向计算结果是否收敛,检测目标模型是否训练完成。
实际上,命令式编程的优势在于所有操作在运行时就已经完成,可随时获取每一个操作的执行结果,使得程序易于调试;声明式编程在过程中并没有实际执行操作,最后需要调用执行器来统一执行所有操作,计算结果需要通过执行器统一返回,这使得调试变得困难。但声明式编程的优势就在于,在“运行时”所有操作和执行顺序都已经定义完成,能够根据全局信息来做各种优化策略,比如合并相邻操作来进行加速或者减少中间变量,因此对于同样的网络结构,使用声明式编程模型运行往往能够获取更好的性能和更少的内存占用。另外在大数据大模型的分布式训练场景上,声明式编程训练在多机下性能更好,所以在一些大规模应用场景下,声明式编程模式更流行。总结来说,命令式编程模式适用于快速调研和调式,声明式编程模式性能更好,适用于大规模场景下的实际业务上线。
在现有技术中,用户通常是提供命令式编程对应的配置信息,采用命令式编程模型并训练,对该训练的模型进行调试。按照对应的最佳调试结果,重新提供声明式编程对应的配置信息,重新训练模型,生成声明式编程下的模型,并发布。这种方法导致,用户针对重复内容的配置信息,需要对应不同编程范式,分别提供对应的数据。
根据本公开的技术方案,通过将不同编程范式类型下的输入数据抽象成同一标准范式的标准输入数据,并对用户提供的标准范式下的标准输入数据,转换为适配编程范式类型对应的目标输入数据,以及将目标输入数据输入到适配编程范式类型的目标模型中,得到输出数据,并根据编程范式类型,对目标模型进行训练,可以针对不同编程范式类型,提供不同的编程模式下的模型训练方式,减少用户提供不同编程范式类型对应的输入数据,以及实现快速切换不同编程范式类型的模型进行训练,降低切换模型训练的人工成本,提高切换模型训练的效率,提高模型调试和发布效率,适配不同模型应用部署场景。
图2是根据本公开实施例公开的另一种模型训练方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。获取编程范式类型对应的目标模型,具体化为:获取标准模型,标准模型包括标准计算单元;根据在编程范式类型下标准计算单元与目标计算单元之间的对应关系,和标准模型中包括的标准计算单元,确定编程范式类型对应的目标模型,目标模型包括目标计算单元。
S201,获取编程范式类型。
S202,获取编程范式类型对应的目标输入数据,目标输入数据为对用户提供的标准输入数据进行转换得到。
可选的,获取编程范式类型对应的目标输入数据,包括:获取标准输入数据;获取编程范式类型对应的目标数据格式;对标准输入数据进行数据格式转换,得到目标数据格式的目标输入数据,目标输入数据与编程范式类型对应。
目标数据格式与编程范式类型对应,目标数据格式是编程范式类型对应的目标输入数据的数据格式。标准输入数据的数据格式为标准数据格式。确定标准数据格式和目标数据格式,可以查询对应的格式转换模块,该格式转换模块用于标准数据格式转换为目标数据格式。调用对应的该格式转换模块,对标准输入数据进行数据格式转换,得到目标数据格式的目标输入数据,从而,目标数据格式与编程范式类型对应,从而该目标输入数据与编程范式类型对应。
可以预先配置多个格式转化模块,分别用于将标准输入数据转换为变成范式类型对应的目标数据格式。从而,用户可以无需针对不同的编程范式类型,分别对应提供编程范式类型对应的目标输入数据,仅需要提供标准输入数据,由系统中预设的格式转换模块,根据用户需要进行格式转换,从而,在用户切换编程范式类型建立模型时,无需额外对输入数据进行修改。
通过根据编程范式类型对应的目标数据格式,将标准输入数据转换为目标数据格式的目标输入数据,得到与编程范式类型对应的目标输入数据,将标准输入数据精准转换为用户指定的任意一种编程范式类型对应目标输入数据,提高模型开发框架的易用性和灵活性,同时提高编程范式类型的输入数据的转换准确性,减少用户直接提供不同编程范式类型的输入数据产生错误的概率,提高模型的输入数据的准确性。
S203,获取编程范式类型对应的目标模型,并将编程范式类型对应的目标输入数据输入至目标模型中,得到目标模型的输出数据,目标模型包括:适配不同编程范式类型的标准计算单元。
计算单元用于组成模型,模型可以理解为多个计算单元组成的网络结构。实际上,模型可以抽象为计算表示operator和数据表示variable,模型包括至少一个层,每层执行的就是能操作均由一个或若干个计算表示组成,其中,该计算表示即为计算单元。每个计算单元接收一系列variable作为数据,经过计算后输出一系列variable。而模型首层的计算单元输入的variable即为输入数据,最后一层的计算单元输出的variable即为输出数据。中间层的计算单元的输入为相邻前一层的计算单元的输出,中间层的计算单元的输出为相邻后一层的计算单元的输入。
目标模型由计算单元组成。目标模型执行的计算操作实际是由计算单元执行。对不同的计算单元进行组网,形成目标模型。标准计算单元是指适配各编程范式类型的计算单元。也即是通用于任意编程类型的计算单元。
现有中,如果用户基于声明式编程类型建立模型结构,并进行模型训练,则用户需要根据声明式编程类型对应的计算单元组网,形成目标模型;以及如果用户基于命令式编程类型建立模型结构,并进行模型训练,则用户需要根据命令式编程类型对应的计算单元组网,形成目标模型。而使用本公开实施例的模型训练方法中,用户基于适配各编程范式的标准计算单元进行组网,形成的目标模型,从而目标模型适配各编程范式类型。从而实现训练不同编程范式类型下的目标模型,无需用户针对不同的编程范式类型分别提供对应的目标模型,降低模型的转换人工成本,同时提高不同编程范式类型的模型训练效率。
此外,目标模型还可以包括编程范式类型对应的目标计算单元。实际上,目标模型包括下述至少一项:编程范式类型对应的目标计算单元和适配不同编程范式类型的标准计算单元。目标计算单元为适配本发明实施例中用户选定的编程范式类型的计算单元。实际上,标准计算单元的功能可能无法覆盖编程范式类型对应的目标模型想要实现的全部计算功能,用户可以针对选定编程范式类型,定义目标模结构中包括与编程范式类型对应的目标计算单元。不过在这种情况下,用户切换编程范式类型训练模型,则需要对应不同的编程范式类型分别修改当前的目标计算单元为编程范式类型对应的目标计算单元。
S204,根据编程范式类型和目标模型的输出数据,对目标模型进行训练。
可选的,根据编程范式类型和目标模型的输出数据,对目标模型进行训练,包括:根据编程范式类型、输出数据和用户指定的损失函数,计算损失值;根据编程范式类型、损失值和用户指定的优化器,计算反向梯度,并更新目标模型的参数;根据编程范式类型和用户指定的目标值,检测目标模型是否训练完成。
编程范式类型用于确定损失值计算的方法、计算反向梯度和更新参数的方法以及检测目标模型是否完成训练的方法等。可以将模型训练的过程,抽象为三个步骤,第一个步骤为计算损失值,第二个步骤为计算方向梯度并更新参数,第三个步骤为检测目标模型是否训练完成。每个步骤均根据编程范式类型确定实现的方法。其中,输出数据为目标模型的前向计算结果,即按顺序依次执行目标模型的代码,计算得到的最终结果。损失函数用于将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”。损失函数可以计算输出数据与真实值之间的差异,其中,真实值是指基于输入数据,模型应当或期待得到的输出的数值。优化器用于基于损失值进行反向计算,得到梯度,以及更新参数。更具体的,优化器用于估计梯度下降最快的方向,并朝该方向迈出一步。目标值用于检测目标模型的训练效果,例如目标值可以是预设的准确率阈值。或者目标值还可以是损失值阈值,在损失值小于等于目标值时,确定模型训练完成;在损失值大于目标值时,模型未训练完成。
示例性的,可以针对每个方法预设源文件。如前例,训练源文件可以包括第一源文件、第二源文件和第三源文件。可以针对每个编程范式类型预设对应的源文件。根据编程范式类型,确定编程范式类型对应的第一源文件,以采用编程范式类型适配的方式,实现根据输出数据和用户指定的损失函数,计算损失值;确定编程范式类型对应的第二源文件,以采用编程范式类型适配的方式,实现损失值和用户指定的优化器,计算反向梯度,并更新目标模型的参数;确定编程范式类型对应的第三源文件,以采用编程范式类型适配的方式,实现检测目标模型是否完成训练。
在本公开实施例中,模型开发的框架可以预设各编程范式类型对应的源文件,用户可以通过指定编程范式类型,即可获取编程范式类型对应的源文件实现模型的部分训练步骤。如果用户对该框架提供的标准的源文件进行扩展,可以通过对指定的编程范式类型的源文件进行修改,并且,用户需要适配编程范式类型对该源文件进行修改,保证修改后的源文件仍与该编程范式类型适配。或者,用户可以直接提供与编程范式类型对应的源文件。
通过根据编程范式类型,计算损失值、更新参数,以及检测目标模型是否训练完成,可以针对不同的编程范式类型,分别采用适配的方法,实现部分训练步骤,可以将模型训练的步骤进行模块化,便于用户调整,提高模型训练步骤的灵活性,并且可以准确兼容不同编程范式类型。
可选的,模型训练方法还包括:调用编程范式类型对应的目标执行模块;根据目标模型的输出数据,对目标模型进行训练,包括:通过目标执行模块查询编程范式类型对应的第一源文件,根据输出数据和用户指定的损失函数,计算损失值;通过目标执行模块查询编程范式类型对应的第二源文件,根据损失值和用户指定的优化器,计算反向梯度,并更新目标模型的参数;通过目标执行模块查询编程范式类型对应的第三源文件,根据用户指定的目标值,检测目标模型是否训练完成。
编程范式类型对应的目标执行模块用于执行该编程范式类型对应的源文件,以训练该编程范式类型对应的目标模型。编程范式类型对应的目标执行模块的执行步骤方式不同。具体是,声明式编程类型对应的目标执行模块在对模型结构、预处理和后处理等步骤定义完成之后,才开始运行并训练目标模型。而命令式编程类型对应的目标执行模块是在定义每个步骤之后就可以执行该步骤,也即模型结构并未定义完成,也可以运行并训练目标模型。
在本公开实施例中,编程范式类型对应的目标执行模块可以检测出与编程范式类型对应的源文件并执行,从而实现编程范式类型对应的目标执行模块调用适配编程范式类型的可执行代码,从而,可以省略用户编写目标执行模块如何调用适配编程范式类型的可执行代码,减少模型开发代码量,提高模型开发效率。
根据本公开的技术方案,通过配置目标模型包括适配不同编程范式类型的标准计算单元,使得用户基于标准计算单元构建目标模型,从而目标模型与编程范式类型对应,可以在不同编程范式类型的场景中灵活切换模型训练模型,实现为用户提供一种适配全部编程范式类型的模型开发框架,提高模型开发框架的易用性和灵活性,减少用户直接提供适配不同便达成范式类型的目标模型的配置信息容易产生错误的概率,提高模型结构的准确性,以及提高切换模型训练的编程模式的灵活性和便利性。
图3是根据本公开实施例公开的另一种模型训练方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。融合得到融合特征,具体化为:在文本特征和图像特征中,剔除冗余特征和异常特征,得到融合特征。
S301,获取编程范式类型。
S302,获取编程范式类型对应的目标输入数据,目标输入数据为对用户提供的标准输入数据进行转换得到。
S303,获取编程范式类型对应的目标模型,并将编程范式类型对应的目标输入数据输入至目标模型中,得到目标模型的输出数据,目标模型为对用户指定的标准模型进行转换得到。
S304,根据目标模型的输出数据,对目标模型进行训练。
S305,对目标模型进行调试,确定调试初始模型。
对目标模型进行调试是指,调整目标模型的配置信息,使得找到效果最佳的模型参数。配置信息是指用于训练得到模型的一系列数据。配置信息可以包括下述至少一项:编程范式类型、运行环境配置信息、输入数据的内容、目标模型的模型结构、损失函数、优化器、目标值以及中间数据处理等。调试初始模型是指对目标模型进行调试,得到的效果最好,或者是用户需求的目标模型。调试初始模型用于发布到线上,以使公开下载使用。
S306,获取调试初始模型对应的上线模型并发布,其中,上线模型为基于调试初始模型的配置信息训练得到的声明式编程类型对应的模型。
上线模型是指声明式编程类型对应的模型。针对上线模型和调试初始模型,在除了编程范式类型之外的配置信息相同。调试初始模型可以是声明式编程类型对应的模型,此时,调试初始模型可以直接确定为上线模型。调试初始模型可以是非声明式编程类型对应的模型,例如命令式编程类型对应的模型,此时,需要获取调试初始模型在命令式编程类型训练得到的模型,确定为上线模型。通常,声明式编程模型运行往往能够获取更好的性能和更少的内存占用,由此,声明式编程模型适用于业务或服务等上线发布。
可选的,调试初始模型为命令式编程类型对应的模型;获取调试初始模型对应的上线模型,包括:获取调试初始模型对应的调试标准输入数据,以及调试初始模型对应的调试目标模型,调试目标模型与声明式编程类型对应;获取声明式编程类型对应的调试目标输入数据,调试目标输入数据为对调试标准输入数据进行转换得到;将调试目标输入数据输入至调试目标模型中,得到调试目标模型的输出数据;根据声明式编程类型和调试目标模型的输出数据,对调试目标模型进行训练,得到上线模型。
调试初始模型是在编程范式类型为命令式编程类型的情况下,训练得到的目标模型。调试目标模型与调试初始模型实现功能相同,且声明式编程类型对应的调试目标模型。调试标准输入数据用于转换为调试目标输入数据,以对训练得到命令式编程类型对应的调试初始模型。获取命令式编程类型对应的目标数据格式,将调试标准输入数据转换为目标数据格式的调试目标输入数据。基于与调试初始模型相同的调试标准输入数据,并转换为声明式编程类型对应的调试目标数据,对调试目标模型进行训练,得到声明式编程类型对应的调试目标模型。
实际上,调试目标模型与调试初始模型,是不同编程范式类型对应的模型。可以基于调试初始模型的配置信息,确定调试目标模型的配置信息。调试目标模型与调试初始模型的配置信息匹配,具体是指调试目标模型与调试初始模型实现的功能相同,但实现方法和网络结构适配对应的编程范式类型。例如,调试目标模型的网络结构适配声明式编程类型,调试初始模型的网络结构适配命令式编程类型。示例性的,调试初始模型仅包括标准计算单元,调试目标模型与调试初始模型的结构相同,又如,调试初始模型包括适配命令式编程类型对应的目标计算单元,调试目标模型包括与前述目标计算单元实现相同功能的适配声明式编程类型的目标计算单元。
将调试目标输入数据输入至调试目标模型中,得到调试目标模型的输出数据,并对调试目标模型进行训练,将训练完成的调试目标模型,确定为上线模型。上线模型用于作为调试初始模型的发布版本,公开上线,为各用户提供服务。
具体的,用户基于模型开发框架预设的命令式编程类型对应的训练源文件实现对调试初始模型进行训练,可以不需要针对调试目标模型提供声明式编程类型对应的源代码,只需要指定编程范式类型为声明式编程类型,可以基于模型开发框架中预设的声明式编程类型对应的训练源文件对调试目标模型进行训练。如果用户对命令式编程类型对应的训练源文件进行扩展(修改),则用户还需要对声明式编程类型对应的训练源文件进行适应性扩展。如果用户提供了命令式编程类型对应的训练源文件,则用户还需要相应提供声明式编程类型对应的训练源文件。
通过获取调试初始模型对应的调试标准输入数据,并转换为调试目标输入数据,并输入到调试初始模型在声明式编程类型下对应的调试目标模型中,得到调试目标模型的输出数据,并对调试目标模型进行训练,得到上线模型并发布,实现同一模型在不同编程范式类型的快速切换,由此可以基于命令式编程类型对应的模型进行调试,并基于调试结果,获取对应的声明式编程类型对应的模型,进行发布,适配模型训练开发上线的应用场景,提高模型训练和发布效率,以及提高模型的检测效果。
可选的,其中,方法通过执行运行源文件实现,模型训练方法还包括:获取用户指定的运行环境配置信息,运行环境配置信息包括下述至少一下项:处理器的类型和训练节点数量的类型;执行与运行环境配置信息对应的运行源文件。
运行源文件用于在编译执行时,可以实现本公开任意一个实施例提供的模型训练方法。运行环境配置信息用于确定运行和训练模型的环境。通常不同运行环境,实现同一功能的代码或者步骤是不同的。由此可以对应不同环境配置信息,分别对应设置不同的运行源文件。根据用户指定的运行环境配置信息,查询对应的运行源文件,并执行该对应的运行源文件,以适配该指定的运行环境。
处理器的类型可以包括下述至少一项:中央处理器(Central Processing Unit,CPU)和图像处理器(Graphics Processing Unit,GPU)。训练节点数量的类型可以包括单机类型或分布式类型。示例性的,针对CPU对应的运行源文件与GPU对应的运行源文件,CPU对应的计算单元对应的源文件,与GPU对应的计算单元对应的源文件不同,也即,运行于CPU和GPU上的实现同一功能的计算单元的源代码不同。又如,针对单机类型对应的运行源文件与分布式类型对应的运行源文件,分布式类型存在建立多个节点之间的通信的步骤,而单机类型不存在该步骤。
通过用户指定运行环境配置信息,可以适配不同的硬件运行环境中,适应性调整模型训练的源代码,增加模型训练过程的应用场景,并适配不同应用场景,可以准确适配硬件性能训练目标模型,提高目标模型的训练效率。
根据本公开的技术方案,通过对目标模型进行调试,得到调试初始模型,并获取对应的适配声明式编程类型的上线模型,以及发布该上线模型,可以适配业务服务发布的应用场景,生成性能更好,资源消耗更少的适配声明式编程类型的上线模型,提高发布模型的性能,降低发布模型的资源消耗,同时可以快速切换编程范式类型训练模型,提高模型的发布效率。
图4是根据本公开实施例公开的另一种模型训练方法的示意图。图5是根据本公开实施例公开的一种模型训练方法的场景图。
如图5所示,本公开实施例提供一个模型开发框架,该模型开发框架可以提供不同编程范式类型的通用的计算单元,提供标准输入数据到各编程范式类型对应的目标输入数据的转换功能,以及提供不同编程范式类型的通用的配置信息读取功能。并且,该模型开发框架还针对训练步骤,具体抽象出适配各编程范式类型对应的训练源文件,以便用户快速开发模型,同时还支持扩展,用户可以根据需要灵活调整训练步骤。用户只需要指定编程范式类型,并提供其余配置信息,标准输入数据,以及基于定义的通用的计算单元,进行模型结构定义,即可实现一个完整的训练模型流程,其中,剩余的训练步骤,可以采用模型开发框架预设的训练源文件实现。由此,用户可以根据不同业务需求,训练相同功能且对应不同编程范式类型的模型,增加模型训练的应用场景,同时,还可以快速由训练得到一个编程范式类型的模型切换训练得到另一个编程范式类型的模型。训练命令式编程类型对应的模型,可以使得用户进行调试,其中,每次修改配置信息,都需要重新训练,即修改一次配置信息,需要重新执行训练流程,得到一个命令式编程类型对应的模型,多次修改,对应得到多个命令式编程类型对应的模型。最终可以选择训练好的模型的配置信息,更改编程范式类型为声明式编程类型,训练得到声明式编程类型对应的模型,并上线运行。
其中,模型训练方法可以包括:
S401,获取编程范式类型。
实际上,用户输入配置信息,配置信息中包括编程范式类型。配置信息还可以包括:编程范式类型、运行环境配置信息、输入数据的内容、目标模型的模型结构、损失函数、优化器、目标值以及中间数据处理对应的源文件等。可以将上述配置信息均添加到一个yaml文件中,通过统一的配置读取接口,将yaml文件添加到模型训练流程中。读取用户提供的配置,获取用户选定的编程范式类型。
S402,获取标准输入数据。
S403,获取编程范式类型对应的目标数据格式。
S404,获取编程范式类型对应的目标输入数据,目标输入数据通过对用户提供的标准输入数据进行转换得到。
S405,对标准输入数据进行数据格式转换,得到目标数据格式的目标输入数据。
S406,获取编程范式类型对应的目标模型,并将编程范式类型对应的目标输入数据输入至目标模型中,得到目标模型的输出数据,目标模型包括:适配不同编程范式类型的标准计算单元。
本公开实施例提供的模型训练方法中提供模型开发框架,该框架使用适配不同编程范式类型的标准计算单元,也即标准计算单元适配全部编程范式类型。用户根据标准计算单元,定义模型结构,可以生成可以共享或适配全部编程范式类型的网络,即适配全部编程范式类型的目标模型。
S407,根据编程范式类型、输出数据和用户指定的损失函数,计算损失值。
S408,根据编程范式类型、损失值和用户指定的优化器,计算反向梯度,并更新目标模型的参数。
S409,根据编程范式类型和用户指定的目标值,检测目标模型是否训练完成。
针对损失值、优化器和检测训练是否完成的步骤等,模型开发框架均区分不同编程范式类型,分别抽象成若干接口。具体的,模型开发框架可以包括如下接口:create_model用于读取配置参数,调用目标模型;create_feeds用于将标准数据格式(numpy格式)的标准输入数据转化为目标数据格式(tensor)的目标输入数据;create_loss用于根据目标模型的输出数据和label(真实值),自定义loss损失函数;create_optimizer用于定义优化器,有默认实现也可用户自定义;train_forward用于实现训练流程,包含计算目标值(指标)的定义和模型自定义部分;infer_forward用于实现预测流程,包含一些目标值的自定义部分。
针对上述接口,用户均可以对这些接口的源文件进行扩展修改,或者直接自己编写与编程范式类型对应的源文件。从而模型开发框架支持用户自定义扩展这些功能。
此外,模型开发框架还包括数据导入接口,支持在任意目录地址下访问数据,以及支持更改访问数据的文件名称等。以及模型开发框架还可以预设组合一些计算单元,形成一个常用功能的计算单元集合,供用户调用。
根据本公开的技术方案,基于标准输入数据,以及适配全部编程范式类型的计算单元,使得用户可以自由切换动态图和静态图,并且还配置有自定义的接口,用户可以根据具体的模型需求来调整,增加模型的配置灵活性。
根据本公开的实施例,图6是本公开实施例中的模型训练装置的结构图,本公开实施例适用于训练不同编程范式类型的模型的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图6所示的一种模型训练装置600,包括:编程范式类型获取模块601、输入数据模块602和目标执行模块603;其中,
编程范式类型获取模块601,用于获取编程范式类型;
输入数据模块602,用于获取编程范式类型对应的目标输入数据,目标输入数据通过对用户提供的标准输入数据进行转换得到;
目标执行模块603,用于获取编程范式类型对应的目标模型,并将编程范式类型对应的目标输入数据输入至目标模型中,得到目标模型的输出数据;
目标执行模块603,用于根据编程范式类型和目标模型的输出数据,对目标模型进行训练。
根据本公开的技术方案,通过将不同编程范式类型下的输入数据抽象成同一标准范式的标准输入数据,并对用户提供的标准范式下的标准输入数据,转换为适配编程范式类型对应的目标输入数据,以及将目标输入数据输入到适配编程范式类型的目标模型中,得到输出数据,并根据编程范式类型,对目标模型进行训练,可以针对不同编程范式类型,提供不同的编程模式下的模型训练方式,减少用户提供不同编程范式类型对应的输入数据,以及实现快速切换不同编程范式类型的模型进行训练,降低切换模型训练的人工成本,提高切换模型训练的效率,提高模型调试和发布效率,适配不同模型应用部署场景。
进一步的,目标模型包括:适配不同编程范式类型的标准计算单元。
进一步的,输入数据模块602,包括:标准数据获取单元,用于获取标准输入数据;目标格式确定单元,用于获取编程范式类型对应的目标数据格式;目标格式转换模块,用于对标准输入数据进行数据格式转换,得到目标数据格式的目标输入数据,目标输入数据与编程范式类型对应。
进一步的,目标执行模块603,包括:损失值计算单元,用于根据编程范式类型、输出数据和用户指定的损失函数,计算损失值;参数更新单元,用于根据编程范式类型、损失值和用户指定的优化器,计算反向梯度,并更新目标模型的参数;训练检测单元,用于根据编程范式类型和用户指定的目标值,检测目标模型是否训练完成。
进一步的,模型训练装置,还包括:模型调试模块,用于对目标模型进行调试,确定调试初始模型;模型发布模块,用于获取调试初始模型对应的上线模型并发布,其中,上线模型为基于调试初始模型的配置信息训练得到的声明式编程类型对应的模型。
进一步的,,调试初始模型为命令式编程类型对应的模型;模型发布模块,包括:标准配置信息获取单元,用于获取调试初始模型对应的调试标准输入数据,以及调试初始模型对应的调试目标模型,调试目标模型与声明式编程类型对应;声明编程数据获取单元,用于获取声明式编程类型对应的调试目标输入数据,调试目标输入数据为对调试标准输入数据进行转换得到;声明编程模型运行单元,用于将调试目标输入数据输入至调试目标模型中,得到调试目标模型的输出数据;声明编程模型训练单元,用于根据声明式编程类型和调试目标模型的输出数据,对调试目标模型进行训练,得到上线模型。
进一步的,装置通过执行运行源文件实现,装置还包括:运行环境信息获取模块,用于获取用户指定的运行环境配置信息,运行环境配置信息包括下述至少一下项:处理器的类型和训练节点数量的类型;运行源文件运行模块,用于执行与运行环境配置信息对应的运行源文件。
上述模型训练装置可执行本公开任意实施例所提供的模型训练方法,具备执行模型训练方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性区域图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如模型训练方法。例如,在一些实施例中,模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或区域图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (17)
1.一种模型训练方法,包括:
获取编程范式类型;
获取所述编程范式类型对应的目标输入数据,所述目标输入数据通过对用户提供的标准输入数据进行转换得到;
获取所述编程范式类型对应的目标模型,并将所述编程范式类型对应的目标输入数据输入至所述目标模型中,得到所述目标模型的输出数据;
根据所述编程范式类型和所述目标模型的输出数据,对所述目标模型进行训练。
2.根据权利要求1所述的方法,其中,所述目标模型包括:适配不同编程范式类型的标准计算单元。
3.根据权利要求1所述的方法,其中,所述获取所述编程范式类型对应的目标输入数据,包括:
获取所述标准输入数据;
获取所述编程范式类型对应的目标数据格式;
对所述标准输入数据进行数据格式转换,得到所述目标数据格式的目标输入数据,所述目标输入数据与所述编程范式类型对应。
4.根据权利要求1所述的方法,其中,所述根据所述编程范式类型和所述目标模型的输出数据,对所述目标模型进行训练,包括:
根据所述编程范式类型、所述输出数据和所述用户指定的损失函数,计算损失值;
根据所述编程范式类型、所述损失值和所述用户指定的优化器,计算反向梯度,并更新所述目标模型的参数;
根据所述编程范式类型和所述用户指定的目标值,检测所述目标模型是否训练完成。
5.根据权利要求1所述的方法,还包括:
对所述目标模型进行调试,确定调试初始模型;
获取所述调试初始模型对应的上线模型并发布,其中,所述上线模型为基于所述调试初始模型的配置信息训练得到的声明式编程类型对应的模型。
6.根据权利要求5所述的方法,其中,所述调试初始模型为命令式编程类型对应的模型;
所述获取所述调试初始模型对应的上线模型,包括:
获取所述调试初始模型对应的调试标准输入数据,以及所述调试初始模型对应的调试目标模型,所述调试目标模型与所述声明式编程类型对应;
获取所述声明式编程类型对应的调试目标输入数据,所述调试目标输入数据为对所述调试标准输入数据进行转换得到;
将所述调试目标输入数据输入至所述调试目标模型中,得到所述调试目标模型的输出数据;
根据所述声明式编程类型和所述调试目标模型的输出数据,对所述调试目标模型进行训练,得到上线模型。
7.根据权利要求1-6任一项所述的方法,其中,所述方法通过执行运行源文件实现,所述方法还包括:
获取所述用户指定的运行环境配置信息,所述运行环境配置信息包括下述至少一下项:处理器的类型和训练节点数量的类型;
执行与所述运行环境配置信息对应的运行源文件。
8.一种模型训练装置,包括:
编程范式类型获取模块,用于获取编程范式类型;
输入数据模块,用于获取所述编程范式类型对应的目标输入数据,所述目标输入数据通过对用户提供的标准输入数据进行转换得到;
目标执行模块,用于获取所述编程范式类型对应的目标模型,并将所述编程范式类型对应的目标输入数据输入至所述目标模型中,得到所述目标模型的输出数据;
所述目标执行模块,用于根据所述编程范式类型和所述目标模型的输出数据,对所述目标模型进行训练。
9.根据权利要求8所述的装置,其中,所述目标模型包括:适配不同编程范式类型的标准计算单元。
10.根据权利要求8所述的装置,其中,所述输入数据模块,包括:
标准数据获取单元,用于获取所述标准输入数据;
目标格式确定单元,用于获取所述编程范式类型对应的目标数据格式;
目标格式转换模块,用于对所述标准输入数据进行数据格式转换,得到所述目标数据格式的目标输入数据,所述目标输入数据与所述编程范式类型对应。
11.根据权利要求8所述的装置,其中,所述目标执行模块,包括:
损失值计算单元,用于根据所述编程范式类型、所述输出数据和所述用户指定的损失函数,计算损失值;
参数更新单元,用于根据所述编程范式类型、所述损失值和所述用户指定的优化器,计算反向梯度,并更新所述目标模型的参数;
训练检测单元,用于根据所述编程范式类型和所述用户指定的目标值,检测所述目标模型是否训练完成。
12.根据权利要求8所述的装置,还包括:
模型调试模块,用于对所述目标模型进行调试,确定调试初始模型;
模型发布模块,用于获取所述调试初始模型对应的上线模型并发布,其中,所述上线模型为基于所述调试初始模型的配置信息训练得到的声明式编程类型对应的模型。
13.根据权利要求12所述的装置,其中,所述调试初始模型为命令式编程类型对应的模型;
所述模型发布模块,包括:
标准配置信息获取单元,用于获取所述调试初始模型对应的调试标准输入数据,以及所述调试初始模型对应的调试目标模型,所述调试目标模型与所述声明式编程类型对应;
声明编程数据获取单元,用于获取所述声明式编程类型对应的调试目标输入数据,所述调试目标输入数据为对所述调试标准输入数据进行转换得到;
声明编程模型运行单元,用于将所述调试目标输入数据输入至所述调试目标模型中,得到所述调试目标模型的输出数据;
声明编程模型训练单元,用于根据所述声明式编程类型和所述调试目标模型的输出数据,对所述调试目标模型进行训练,得到上线模型。
14.根据权利要求8所述的装置,其中,所述装置通过执行运行源文件实现,所述装置还包括:
运行环境信息获取模块,用于获取所述用户指定的运行环境配置信息,所述运行环境配置信息包括下述至少一下项:处理器的类型和训练节点数量的类型;
运行源文件运行模块,用于执行与所述运行环境配置信息对应的运行源文件。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的模型训练方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的模型训练方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210522239.XA CN114756211B (zh) | 2022-05-13 | 2022-05-13 | 模型训练方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210522239.XA CN114756211B (zh) | 2022-05-13 | 2022-05-13 | 模型训练方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114756211A true CN114756211A (zh) | 2022-07-15 |
CN114756211B CN114756211B (zh) | 2022-12-16 |
Family
ID=82335804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210522239.XA Active CN114756211B (zh) | 2022-05-13 | 2022-05-13 | 模型训练方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114756211B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841523A (zh) * | 2023-07-19 | 2023-10-03 | 上海海启科技有限公司 | 一种基于人工智能的在线编程方法及系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160078361A1 (en) * | 2014-09-11 | 2016-03-17 | Amazon Technologies, Inc. | Optimized training of linear machine learning models |
CN109416765A (zh) * | 2016-07-08 | 2019-03-01 | 微软技术许可有限责任公司 | 用于系统的元数据驱动的机器学习 |
CN110751269A (zh) * | 2019-10-18 | 2020-02-04 | 网易(杭州)网络有限公司 | 图神经网络训练方法、客户端设备及系统 |
CN111325872A (zh) * | 2020-01-21 | 2020-06-23 | 和智信(山东)大数据科技有限公司 | 基于计算机视觉的司机驾驶异常检测设备及检测方法 |
CN111338635A (zh) * | 2020-02-20 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 计算图的图编译方法、装置、设备及存储介质 |
CN111340192A (zh) * | 2020-02-28 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 网络路径分配模型训练方法、路径分配方法、以及装置 |
CN111369430A (zh) * | 2020-03-09 | 2020-07-03 | 中山大学 | 基于移动深度学习引擎的移动端人像智能背景替换方法 |
CN112162734A (zh) * | 2020-10-23 | 2021-01-01 | 福州大学 | 集成化的机器学习算法库与统一编程框架(面向深度学习) |
CN112417083A (zh) * | 2020-11-12 | 2021-02-26 | 福建亿榕信息技术有限公司 | 一种构建部署文本实体关系提取模型的方法和存储设备 |
CN112417358A (zh) * | 2020-12-03 | 2021-02-26 | 合肥中科类脑智能技术有限公司 | Ai模型训练在线实训学习系统及方法 |
CN112702375A (zh) * | 2019-10-23 | 2021-04-23 | 腾讯科技(深圳)有限公司 | 信息推送方法、装置、计算机设备以及存储介质 |
CN112698841A (zh) * | 2021-01-14 | 2021-04-23 | 北京大学(天津滨海)新一代信息技术研究院 | 面向Android的深度学习模型统一部署系统、方法、设备及介质 |
CN112764755A (zh) * | 2021-01-13 | 2021-05-07 | 北京百度网讯科技有限公司 | 代码转换方法、装置、设备以及存储介质 |
CN113409825A (zh) * | 2021-08-19 | 2021-09-17 | 南京裕隆生物医学发展有限公司 | 健康智能检测方法、装置、电子设备及可读存储介质 |
CN113837173A (zh) * | 2020-06-24 | 2021-12-24 | 顺丰科技有限公司 | 目标对象检测方法、装置、计算机设备和存储介质 |
CN114186609A (zh) * | 2021-11-09 | 2022-03-15 | 阿里巴巴云计算(北京)有限公司 | 模型训练方法和装置 |
CN114239853A (zh) * | 2021-12-15 | 2022-03-25 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质以及程序产品 |
-
2022
- 2022-05-13 CN CN202210522239.XA patent/CN114756211B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160078361A1 (en) * | 2014-09-11 | 2016-03-17 | Amazon Technologies, Inc. | Optimized training of linear machine learning models |
CN109416765A (zh) * | 2016-07-08 | 2019-03-01 | 微软技术许可有限责任公司 | 用于系统的元数据驱动的机器学习 |
CN110751269A (zh) * | 2019-10-18 | 2020-02-04 | 网易(杭州)网络有限公司 | 图神经网络训练方法、客户端设备及系统 |
CN112702375A (zh) * | 2019-10-23 | 2021-04-23 | 腾讯科技(深圳)有限公司 | 信息推送方法、装置、计算机设备以及存储介质 |
CN111325872A (zh) * | 2020-01-21 | 2020-06-23 | 和智信(山东)大数据科技有限公司 | 基于计算机视觉的司机驾驶异常检测设备及检测方法 |
CN111338635A (zh) * | 2020-02-20 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 计算图的图编译方法、装置、设备及存储介质 |
CN111340192A (zh) * | 2020-02-28 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 网络路径分配模型训练方法、路径分配方法、以及装置 |
CN111369430A (zh) * | 2020-03-09 | 2020-07-03 | 中山大学 | 基于移动深度学习引擎的移动端人像智能背景替换方法 |
CN113837173A (zh) * | 2020-06-24 | 2021-12-24 | 顺丰科技有限公司 | 目标对象检测方法、装置、计算机设备和存储介质 |
CN112162734A (zh) * | 2020-10-23 | 2021-01-01 | 福州大学 | 集成化的机器学习算法库与统一编程框架(面向深度学习) |
CN112417083A (zh) * | 2020-11-12 | 2021-02-26 | 福建亿榕信息技术有限公司 | 一种构建部署文本实体关系提取模型的方法和存储设备 |
CN112417358A (zh) * | 2020-12-03 | 2021-02-26 | 合肥中科类脑智能技术有限公司 | Ai模型训练在线实训学习系统及方法 |
CN112764755A (zh) * | 2021-01-13 | 2021-05-07 | 北京百度网讯科技有限公司 | 代码转换方法、装置、设备以及存储介质 |
CN112698841A (zh) * | 2021-01-14 | 2021-04-23 | 北京大学(天津滨海)新一代信息技术研究院 | 面向Android的深度学习模型统一部署系统、方法、设备及介质 |
CN113409825A (zh) * | 2021-08-19 | 2021-09-17 | 南京裕隆生物医学发展有限公司 | 健康智能检测方法、装置、电子设备及可读存储介质 |
CN114186609A (zh) * | 2021-11-09 | 2022-03-15 | 阿里巴巴云计算(北京)有限公司 | 模型训练方法和装置 |
CN114239853A (zh) * | 2021-12-15 | 2022-03-25 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质以及程序产品 |
Non-Patent Citations (2)
Title |
---|
TIANQI CHEN 等: "MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems", 《HTTPS://ARXIV.ORG/PDF/1512.01274.PDF》 * |
泛数字经济: "2022AI 框架技术持续演进-AI 框架演进步入深化阶段", 《HTTPS://VIEW.INEWS.QQ.COM/A/20220404A05QV900》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841523A (zh) * | 2023-07-19 | 2023-10-03 | 上海海启科技有限公司 | 一种基于人工智能的在线编程方法及系统 |
CN116841523B (zh) * | 2023-07-19 | 2023-12-22 | 上海海启科技有限公司 | 一种基于人工智能的在线编程方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114756211B (zh) | 2022-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113961351B (zh) | 深度学习模型的分布式训练方法、装置、设备及存储介质 | |
CN111143039A (zh) | 一种虚拟机的调度方法、装置及计算机存储介质 | |
CN110633959A (zh) | 基于图结构的审批任务创建方法、装置、设备及介质 | |
CN111966361A (zh) | 用于确定待部署模型的方法、装置、设备及其存储介质 | |
CN115509522A (zh) | 面向低代码场景的接口编排方法、系统、电子设备 | |
CN114756211B (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN112860356A (zh) | 一种api调用控制方法、装置、电子设备和存储介质 | |
CN114417780B (zh) | 状态同步方法、装置、电子设备及存储介质 | |
CN114997329A (zh) | 用于生成模型的方法、装置、设备、介质和产品 | |
CN112633502B (zh) | 一种深度学习模型的跨平台执行方法、装置及电子设备 | |
CN113127357A (zh) | 单元测试方法、装置、设备、存储介质及程序产品 | |
CN112817660A (zh) | 扩展小程序能力的方法、装置、设备以及存储介质 | |
CN117273069A (zh) | 一种基于神经网络模型的推理方法、装置、设备及介质 | |
CN117234582A (zh) | 一种项目代码处理方法、装置、电子设备及存储介质 | |
CN115809688B (zh) | 一种模型调试方法、装置、电子设备及存储介质 | |
CN114697398B (zh) | 数据处理方法、装置、电子设备、存储介质及产品 | |
CN113691403B (zh) | 拓扑节点配置方法、相关装置及计算机程序产品 | |
CN112783574B (zh) | 应用程序开发方法、装置、设备和存储介质 | |
CN115688917A (zh) | 神经网络模型的训练方法、装置、电子设备及存储介质 | |
CN114741294A (zh) | 一种页面的调试方法、装置、设备及存储介质 | |
CN112632293B (zh) | 行业图谱的构建方法、装置、电子设备及存储介质 | |
CN115269431A (zh) | 一种接口测试方法、装置、电子设备及存储介质 | |
CN114580543B (zh) | 模型训练方法、交互日志解析方法、装置、设备及介质 | |
CN113741887B (zh) | 模型生产方法、系统、装置及电子设备 | |
CN108459914B (zh) | 一种中间件命令执行方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |