CN114219029A - 一种模型训练系统、方法、装置、设备及介质 - Google Patents

一种模型训练系统、方法、装置、设备及介质 Download PDF

Info

Publication number
CN114219029A
CN114219029A CN202111543800.4A CN202111543800A CN114219029A CN 114219029 A CN114219029 A CN 114219029A CN 202111543800 A CN202111543800 A CN 202111543800A CN 114219029 A CN114219029 A CN 114219029A
Authority
CN
China
Prior art keywords
sub
module
identifier
modules
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111543800.4A
Other languages
English (en)
Inventor
王安
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111543800.4A priority Critical patent/CN114219029A/zh
Publication of CN114219029A publication Critical patent/CN114219029A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Stored Programmes (AREA)

Abstract

本申请涉及数据处理技术领域,尤其涉及一种模型训练系统、方法、装置、设备及介质,用以解决现有技术中不同的模型均采用各自的每个子模块,独立占用各种资源的问题。由于在申请实施例中,在对模型进行训练时,获取该第一标识的模型包含的每个子模块的第二标识,并采用第二标识对应的子模块对该模型进行训练,并且不同模型可能采用相同的子模块,从而使得某些具有相同步骤的模型可以采用同一子模块,避免了不同的模型均采用各自的每个子模块,独立占用各种资源,提高了资源利用率。

Description

一种模型训练系统、方法、装置、设备及介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种模型训练系统、方法、装置、设备及介质。
背景技术
在智能化应用建设中,模型广泛应用于自然语言处理、语音识别、人脸识别等场景。简单来说,模型训练指模型对于一定数量的基础数据进行抽象计算,并和理想结果集进行对比,从而对自身的参数进行调整的过程。
现有技术中不同模型可能包含相同的步骤,例如,自然语言处理对应的模型以及语音识别对应的模型,均包含“切词”对应的步骤,然而在对模型进行设计时,不同的模型均采用各自的每个子模块,独立占用各种资源。
发明内容
本申请实施例提供了一种模型训练系统、方法、装置、设备及介质,用以解决现有技术中不同的模型均采用各自的每个子模块,独立占用各种资源的问题。
本申请实施例提供了一种模型训练系统,所述系统包括:训练调度服务器、训练控制服务器以及执行不同功能的子模块;
所述训练调度服务器,用于接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至所述训练控制服务器;
所述训练控制服务器,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;
每个第二标识的子模块,用于基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
本申请实施例提供了一种模型训练方法,应用于训练调度服务器,所述方法包括:
接收第一指令,获取所述第一指令中携带的模型的第一标识;
根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至训练控制服务器,以使所述训练控制服务器,根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识。
本申请实施例提供了一种模型训练方法,应用于训练控制服务器,所述方法包括:
接收携带目标样本集及目标标注集的第二指令;其中,所述第二指令中还携带有模型的第一标识;
根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识,以使每个第二标识的子模块,基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
本申请实施例提供了一种模型训练方法,应用于执行不同功能的任一子模块,所述方法包括:
获取目标样本集及目标标注集;
基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
本申请实施例提供了一种模型训练方法,所述方法包括:
接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;
根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;
基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整。
本申请实施例提供了一种模型训练装置,所述装置包括:
第一接收获取模块,用于接收第一指令,获取所述第一指令中携带的模型的第一标识;
第一处理模块,用于根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至训练控制服务器。
本申请实施例提供了一种模型训练装置,应用于训练控制服务器,所述装置包括:
接收模块,用于接收携带目标样本集及目标标注集的第二指令;其中,所述第二指令中还携带有模型的第一标识;
第二处理模块,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识。
本申请实施例提供了一种模型训练装置,应用于执行不同功能的任一子模块,所述装置包括:
获取模块,用于获取目标样本集及目标标注集;
第四处理模块,用于基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
本申请实施例提供了一种模型训练装置,所述装置包括:
第二接收获取模块,用于接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;
第三处理模块,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整。
本申请实施例提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时执行上述任一所述模型训练方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时执行上述任一所述模型训练方法的步骤。
本申请实施例提供了一种计算机程序产品,其计算机程序产品包括:计算机程序代码、当所述计算机程序代码在计算机上运行时,使得计算机执行上述任一所述模型训练方法的步骤。
在本申请实施例中,在对模型进行训练时,训练调度服务器用于接收第一指令,在接收到该第一指令后,训练调度服务器获取第一指令中携带的模型的第一标识,并根据预先保存的模型标识与样本集及标注及的对应关系,获取第一标识对应的目标样本集及目标标注集,模型训练系统通过该目标样本集及该目标标注及对第一标识的模型进行训练,训练调度服务器将携带目标样本集及目标标注集的第二指令发送至训练控制服务器,训练控制服务器在接收到第二指令后,根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定第一标识的模型包含的每个子模块的第二标识,每个第二标识的子模块,根据目标样本集及目标标注集,对自身的参数进行调整,从而实现对第一标识的模型的训练。由于在申请实施例中,在对模型进行训练时,获取该第一标识的模型包含的每个子模块的第二标识,并采用第二标识对应的子模块对该模型进行训练,并且不同模型可能采用相同的子模块,从而使得某些具有相同步骤的模型可以采用同一子模块,避免了不同的模型均采用各自的每个子模块,独立占用各种资源,提高了资源利用率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种模型训练系统的结构示意图;
图2为本申请实施例提供的一种模型的子模块的执行顺序与有向无环图结合的示意图;
图3为本申请实施例所提供的一种训练控制服务器的处理过程示意图;
图4为本申请实施例提供的一种训练调度服务器的执行过程示意图;
图5为本申请实施例所提供的一种训练过程示意图;
图6为本申请实施例提供的一种模型训练方法的过程示意图;
图7为本申请实施例提供的一种模型训练方法的过程示意图;
图8为本申请实施例提供的一种模型训练方法的过程示意图;
图9为本申请实施例提供的一种模型训练方法的过程示意图;
图10为本申请实施例提供的一种模型训练装置结构示意图;
图11为本申请实施例提供的一种模型训练装置结构示意图;
图12为本申请实施例提供的一种模型训练装置结构示意图;
图13为本申请实施例提供的一种模型训练装置结构示意图;
图14为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中,在对模型进行训练时,训练调度服务器用于接收第一指令,在接收到该第一指令后,训练调度服务器获取第一指令中携带的模型的第一标识,并根据预先保存的模型标识与样本集及标注及的对应关系,获取第一标识对应的目标样本集及目标标注集,模型训练系统通过该目标样本集及该目标标注及对第一标识的模型进行训练,训练调度服务器将携带目标样本集及目标标注集的第二指令发送至训练控制服务器,训练控制服务器在接收到第二指令后,根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定第一标识的模型包含的每个子模块的第二标识,每个第二标识的子模块,根据目标样本集及目标标注集,对自身的参数进行调整,从而实现对第一标识的模型的训练。
为了提高资源利用率,本申请实施例提供了一种模型训练系统、方法、装置、设备及介质。
实施例1:
图1为本申请实施例提供的一种模型训练系统的结构示意图,该系统中包括训练调度服务器101、训练控制服务器102以及执行不同功能的子模块103;
所述训练调度服务器101,用于接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至所述训练控制服务器102;
所述训练控制服务器102,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;
每个第二标识的子模块103,用于基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在本申请实施例中,为了实现对模型的训练,训练调度服务器可以接收到第一指令,在接收到该第一指令后,对该第一指令中所携带的第一标识的模型进行训练。其中,该第一指令可以是工作人员通过客户端等设备所发送的。
在本申请实施例中,若需要对某一模型进行训练,可以向训练调度服务器发送进行模型训练的第一指令,该第一指令中携带有进行训练的模型的第一标识,为了对模型进行训练,训练调度服务器在接收到该第一指令后,获取该指令中携带的第一标识。训练调度服务器中预先保存有模型标识与样本集及标注集的对应关系,训练调度服务器可以在获取第一标识后,根据该第一标识及预先保存的模型标识与样本集及标注集的对应关系,确定该第一标识对应的目标样本集及目标标注集,从而可以基于该目标样本集及该目标标注集对该第一标识的模型进行训练。
训练调度服务器在获取到目标样本集及目标标注集后,将该目标样本集及该目标标注集携带在第二指令中发送至训练控制服务器,为了使得训练控制服务器知道对哪个模型进行训练,该第二指令中还携带有进行训练的模型的第一标识。训练控制服务器接收到该第二指令后,获取该第二指令中携带的第一标识。
训练控制服务器中预先保存有模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,训练控制服务器获取该第二指令中携带的第一标识后,根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,确定该第一标识的模型对应的每个子模块的第二标识及对应的每个子模块的顺序,该每个子模块的第二标识即为第一标识的模型包含的每个子模块的第二标识。
例如,确定的第一标识的模型的每个子模块分别为子模块a、子模块b及子模块c,确定出的子模块的顺序依次为子模块b、子模块c和子模块a。
每个第二标识的子模块,基于目标样本集及目标标注集,对自身的参数进行调整,具体的,对每个第二标识的子模块自身的参数进行调整时,当满足预设的条件时,得到调整完成的参数。在本申请实施例中,保存有各种标识的子模块,不同标识的模型可能包含同一子模块,因此无需针对每个模型都独立设计对应的子模块,从而可以节省资源,并提高模型设计的效率。
另外,在本申请实施例中,还可以是工作人员在训练调度服务器设置好每个标识的模型下次训练的时间及对应的该模型的标识,训练调度服务器按照预设的时间间隔判断是否到达任一标识的模型下次训练的时间,若到达任一标识的模型下次训练的时间,则训练调度服务器相当于接收到了第一指令,该第一指令中携带的标识,即为上述所描述的第一标识,则训练调度服务器获取第一标识对应的目标样本集及目标标注集,将携带目标样本集及目标标注集的第二指令发送至训练控制服务器,训练控制服务器依次确定第一标识的模型包含的每个子模块的第二标识,每个第二标识的子模块用于基于述目标样本集及目标标注集,对自身的参数进行调整。
由于在申请实施例中,在对模型进行训练时,获取该第一标识的模型包含的每个子模块的第二标识,并采用第二标识对应的子模块对该模型进行训练,并且不同模型可能采用相同的子模块,从而使得某些具有相同步骤的模型可以采用同一子模块,避免了不同的模型均采用各自的每个子模块,独立占用各种资源,提高了资源利用率。
实施例2:
为了准确地对模型的参数进行调整,在上述实施例的基础上,在本申请实施例中,所述系统还包括至少一个存储模块104;
所述训练控制服务器102,还用于将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址;
所述存储模块104,用于接收并存储所述目标样本集及所述目标标注集;
每个第二标识的子模块103,具体用于获取所述地址的所述存储模块中存储的所述目标样本集及所述目标标注集,基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在本申请实施例中,在对第一标识的模型进行训练时,训练控制服务器将获取到的目标样本集及目标标注集保存至存储模块中,存储模块接收到训练控制服务器发送的目标样本集及目标标注集之后,保存接收到的目标样本集及目标标注集。每个第二标识的子模块,基于存储模块中保存的目标样本集及目标标注集,对自身的参数进行调整。
训练控制服务器可以将目标样本集和目标标注集随机发送在任一存储模块,也可以将目标样本集及目标标注集分别发送至预先设置的对应的存储模块,其中,接收目标样本集的存储模块与接收目标标注集的存储模块可以为同一个,也可以为不同的,并为了使得第二标识的子模块可以基于该目标样本集及目标标注集对自身的参数进行调整,将存储目标样本集及目标标注集的存储模块的地址。
另外,模型训练的任务属于图形处理器(graphics processing unit,GPU)资源密集型的任务,通过Kubernetes可以方便的完成资源的监控。因此在本申请实施例中,该存储模块及每个第二标识的子模块的运行环境可以为Kubernetes。
实施例3:
为了准确地对模型的参数进行调整,在上述各实施例的基础上,在本申请实施例中,所述训练控制服务器102,具体用于将所述目标样本集保存至第一存储模块,并将所述第一存储模块的第一地址发送至所述第一标识的模型的子模块中排序在第一位的第一子模块;
所述第一子模块103,用于接收所述第一地址,获取所述第一地址的所述第一存储模块中保存的所述目标样本集,对所述目标样本集进行处理,将第一处理结果保存至第二存储模块,将所述第二存储模块的第二地址发送至所述训练控制服务器;
所述训练控制服务器102,还用于接收任一子模块发送的地址,并判断是否存在排序在发送所述子模块之后的其他子模块,若是,则将所述地址发送至所述其他子模块;
其他任一子模块103,用于接收所述地址,获取所述地址的存储模块中保存的每个处理结果,对所述每个处理结果进行处理,将第二处理结果保存至第三存储模块,将所述第三存储模块的第三地址发送至所述训练控制服务器。
在本申请实施例中,训练控制服务器用于将目标样本集发送至第一存储模块,第一存储模块存储接收到的目标样本集,另外,为了使得第一标识的模型的子模块基于目标样本集中的样本对模型的参数进行调整,训练控制服务器将第一存储模块的第一地址发送至第一标识的模型的子模块中排序在第一位的第一子模块。例如,确定的第一标识的模型的每个子模块分别为子模块a、子模块b及子模块c,并且所确定出的子模块的顺序依次为子模块b、子模块c和子模块a,则训练控制服务器将保存目标样本集的第一存储模块的第一地址发送至子模块b。
第一标识的模型的子模块中排序在第一位的第一子模块在接收到第一地址后,获取第一地址的第一存储模块中保存的目标样本集,并且对该目标样本集中的每个样本进行处理,确定第一处理结果。第一子模块在获取到第一处理结果之后,将该第一处理结果发送至第二存储模块,并为了使得第一标识的模型的子模块中排序在第一子模块之后的子模块可以基于该第一处理结果进行处理,第一子模块将该第二存储模块的第二地址发送至训练控制服务器。
训练控制服务器在接收到第一子模块发送的第二地址后,为了便于排序在该第一子模块之后的子模块继续进行数据处理,训练控制服务器将接收到的该第二存储模块的第二地址发送至排序在该第一子模块之后的其他子模块,该其他子模块在接收到训练控制服务器发送的第二地址后,获取该第二地址的第二存储模块所保存的每个第一处理结果,并对获取到的每个第一处理结果进行处理,获取处理后的第二处理结果,将第二处理结果发送至第三存储模块,第三存储模块接收该其他子模块发送的第二处理结果,并保存接收到的第二处理结果,其他子模块该将该第三存储模块的第三地址发送至训练控制服务器,训练控制器在接收到保存第二处理结果的第三存储模块的第三地址后,确定该其他子模块之后是否还存在子模块,若该其他子模块之后还存在子模块,则继续上述过程。
为了准确地对模型的参数进行调整,在上述各实施例的基础上,在本申请实施例中,所述训练控制服务器102,还用于接收任一子模块发送的地址,且判断排序在该子模块之后的其他子模块为至少两个,则将该地址发送至该至少两个其他子模块;或,若接收到至少两个子模块发送的地址,且判断存在排序在该两个子模块之后的其他子模块,则将该至少两个地址发送至所述其他子模块;
所述其他子模块103,用于若接收到所述至少两个地址,获取所述至少两个地址的存储模块中保存的每个处理结果,对所述至少两个地址的存储模块中对应顺序的处理结果进行处理,将处理后得到的第三处理结果保存至第四存储模块,将所述第四存储模块的第四地址发送至所述训练控制服务器。
在本申请实施例中,一次模型训练通常包括多个流程,比如自然语言处理中对样本集进行处理通常有加载预处理、分词、训练等流程,其中,每个流程可以对应一个或几个子模块,某些子模块是可以同时运行的,例如某一子模块用于捕捉局部的语义特征,另一子模块用于捕捉时序的语义特征,其中,捕捉这两个特征的子模块可以同时运行,并且捕捉这两个特征的任一子模块均无需使用另一个子模块处理完成的处理数据,因此为了提高模型的处理效率,可以将子模块的执行顺序与有向无环图结合,通过有向无环图直观的体现子模块的执行顺序,并应用在模型训练系统中。
具体的,当此次训练过程中某些子模块可以同时运行时,训练控制服务器在接收到任一子模块发送的地址后,判断存在排序在该子模块之后的其他子模块是否为至少两个,若排序在该子模块之后的其他子模块为至少两个,则将该地址发送至该至少两个其他子模块,该至少两个子模块,分别获取该地址保存的每个处理结果,对每个处理结果进行处理。该至少两个子模块分别获取处理后的每个处理结果,并分别将对应获取到的处理结果发送至不同的存储模块,另外,该至少两个子模块分别将对应的存储模块的地址发送至训练控制服务器。
训练控制服务器若接收到至少两个子模块发送的地址,则判断是否存在排序在该至少两个子模块之后的其他子模块,若存在排序在该至少两个子模块之后的其他子模块,也就是说该其他子模块会基于该至少两个子模块的处理结果继续进行后续处理,因此训练控制服务器在确定存在排序在该至少两个子模块之后的其他子模块之后,将该至少两个地址发送至该其他子模块。该其他子模块在该至少两个地址的至少两个存储模块中获取对应保存的每个处理结果,并获取该至少两个存储模块中对应的处理结果,该其他子模块对获取到的至少两个存储模块中对应的处理结果进行组合,对每个组合的结果进行处理,获取处理后的第三处理结果,将获取到的第三处理结果保存至第四存储模块,将所述第四存储模块的第四地址发送至所述训练控制服务器。
由于每个第二标识的子模块均是对目标样本集中的每个样本按照顺序处理,或均是对目标样本集对应处理后的每个处理结果按照顺序处理,因此该至少两个存储模块中的每个处理结果均为按照顺序对目标样本集中样本处理后的处理结果,也就是说该至少两个存储模块中相同顺序的处理结果为目标样本集中同一样本经过处理后的结果,例如,该至少两个存储模块中第五个处理结果均是对目标样本集中第五个样本处理后的处理结果。因此在本申请实施例中,该其他子模块可以获取该至少两个存储模块中相同顺序的处理结果,并对获取到的处理结果进行处理。
该每个处理结果可以为矩阵或向量。以该至少两个存储模块为两个存储模块,且该两个存储模块中的处理结果均为向量为例,则该其他子模块的处理过程可以为将对应顺序的向量结合,得到一个新的向量,具体的,可以是将从其中一个存储模块中获取到的向量排序在前,将从另一个存储模块中获取到的对应顺序的向量排序在后,结合成为一个新的向量。以该至少两个存储模块为两个存储模块,且该至少两个存储模块中的处理结果均为矩阵为例,则该其他子模块的处理过程可以为将对应顺序的矩阵进行点乘,得到一个新的矩阵,具体的,可以是将从其中一个存储模块中获取到的矩阵,点乘从另一个存储模块中与获取到的对应顺序的矩阵,得到一个新的矩阵。
图2为本申请实施例提供的一种模型的子模块的执行顺序与有向无环图结合的示意图。
由图2可知,在子模块1执行完成之后,子模块2及子模块4对子模块1的处理结果进行处理,子模块3对子模块2的处理结果进行处理,子模块5对子模块4及子模块3的处理结果进行处理。
其中,在记录该子模块的顺序时,在代码中可以通过List存放执行顺序,每一个List包含“from”和“to”两个属性,属性的值为子模块的标识,且所有from-to对可以组成一个有向无环图。
以对应的有向无环图为图2为例进行介绍,则训练控制服务器在接收到子模块1发送的地址后,确定排序在该子模块1之后的其他子模块为两个,将该子模块1发送的地址发送至子模块2及子模块4,子模块2及子模块4分别获取该地址的存储模块中保存的每个处理结果,并分别对获取到的每个处理结果进行处理。另外,训练控制服务器在接收到子模块3及子模块4发送的两个地址后,将这两个地址发送至子模块5,子模块5获取这两个地址的存储模块中对应顺序的处理结果进行处理。
为了准确地对模型的参数进行调整,在上述各实施例的基础上,在本申请实施例中,所述训练控制服务器102,还用于将所述目标标注集及每个第二标识的子模块的参数保存至第四存储模块,将所述第五存储模块的第五地址发送至所述第一标识的模型的子模块中排序在最后一位的第二子模块;
所述第二子模块103,用于获取所述第五地址的第五存储模块中存储的所述目标标注集及每个第二标识的子模块的参数,根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
在本申请实施例中,为了实现对模型的训练,训练控制服务器将目标标注集及每个第二标识的子模块的参数保存至第五存储模块,为了便于对第一标识的模型进行训练,训练控制服务器还将第五存储模块的第五地址发送至第一标识的模型的子模块中排序在最后一位的第二子模块。
第二子模块接收该第五地址,并获取第五地址的第五存储模块中保存的目标标注集及每个第二标识的子模块的参数,另外,第二子模块还接收保存上一子模块的处理结果的存储模块的地址,该存储模块所保存的每个处理结果为排序在该第二子模块之前的子模块处理完成的每个处理结果。该第二子模块获取该地址保存的每个处理结果,对每个处理结果进行处理,并获取处理后的第四处理结果,该第二子模块根据该第四处理结果及目标标注集,确定损失值,根据该损失值对每个第二标识的子模块的参数进行调整,得到每个第二标识的子模块调整后的参数,从而实现对模型的训练。
为了实现对模型的训练,在上述各实施例的基础上,在本申请实施例中,所述第二子模块103,还用于将所述每个第二标识的子模块调整后的参数发生至所述训练控制服务器;
所述训练控制服务器102,还用于将所述每个第二标识的子模块调整后的参数发送至对应标识的子模块;
所述子模块103,还用于根据接收到的调整后的参数,对自身的对应参数进行调整。
由于在本申请实施例中,第二标识的子模块中排序在最后一位的子模块为第二子模块,在对每个第二标识的子模块的参数调整完成后,将每个第二标识的子模块调整后的参数发送至训练控制服务器。
为了实现对第一标识的模型的训练,训练控制器在接收到每个第二标识的子模块调整后的参数后,将每个第二标识的子模块调整后的参数发送至对应标识的子模块,对应标识的子模块,在接收到调整后的参数后,采用调整后的参数对自身的对应的参数进行调整,具体的,将自身对应的参数调整为接收到的对应的调整后的参数。
另外在本申请实施例中,调整参数后的每个第二标识的子模块可以基于调整后的参数重新对目标样本集中的样本或获取到的每个处理结果进行处理,并根据处理后的处理结果及目标标注集确定损失函数是否收敛,若损失函数未收敛,则继续对每个第二标识的子模块的参数进行调整,直至损失函数收敛,或满足其他收敛条件。
实施例4:
为了实现对模型的训练,在上述各实施例的基础上,在本申请实施例中,任一第二标识的子模块103,用于执行失败时发送执行失败的指令至所述训练控制服务器;
所述训练控制服务器102,还用于接收所述子模块发送的执行失败的指令,判断所述子模块在此次训练的过程中失败的总次数是否超过预设次数阈值,若否,则发送重新执行的指令至所述子模块;
所述子模块103,用于接收重新执行的指令,并获取对应的地址的存储模块中保存的每个第五处理结果,对所述每个第五处理结果进行处理,将第六处理结果保存至第六存储模块,将所述第六存储模块的第六地址发送至所述训练控制服务器。
在本申请实施例中,可能存在某一第二标识的子模块执行失败的情况,为了顺利实现对模型的训练,任一第二标识的子模块,若执行失败,则向训练控制服务器发送执行失败的指令,训练控制服务器在接收到任一第二标识的子模块执行失败的指令后,根据此次训练过程中该子模块执行失败的总次数,确定该子模块是否故障,若该总次数超过预设次数阈值,则说明该子模块可能发生故障,则无需使得该子模块重新执行,若该总次数未超过次数阈值,则训练控制服务器向该子模块发送重新执行的指令。
该子模块在接收到训练控制服务器发送的重新执行的指令后,获取对应地址的存储模块所保存的每个第五处理结果,对每个第五处理结果进行处理,并将对第五处理结果处理后得到的第六处理结果发送至第六存储模块,第六存储模块保存接收到的第五处理结果,另外,该子模块还将存储该第六处理结果的第六存储模块的第六地址发送至训练控制服务器。
实施例5:
为了实现对模型的训练,在上述各实施例的基础上,在本申请实施例中,所述训练控制服务器102,还用于按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度,将该执行进度发送至训练调度服务器。
在本申请实施例中,训练控制服务器,还用于获取此次训练的执行进度,并将获取到的执行进度发送至训练调度服务器。具体的,训练控制服务器可以按照预设的时间间隔确定此次训练的执行进度,其中,执行进度的确定方式为,获取当前时间之前最后一次将存储模块的地址发送至哪个子模块,根据该子模块在子模块顺序中的排序,确定执行进度。例如,此次训练过程共5个子模块,当前运行到第3个子模块,则执行进度可以为3/5。
为了实现对模型的训练,在上述各实施例的基础上,在本申请实施例中,所述训练控制服务器102,还用于对所述训练调度服务器101进行动态注册,并与所述训练调度服务器进行心跳保持。
在本申请实施例中,为了实现对模型的训练,训练控制服务器还用于对训练调度服务器进行动态注册,通过动态注册告知训练调度服务器自己在线。另外,训练控制服务器还与训练调度服务器进行心跳保持,告知训练调度服务器自己可用,从而使得训练调度服务器可以准确地将第二指令发送至训练控制服务器,从而可以实现对模型的训练。其中,如何进行动态注册及如何进行心跳保持,为现有技术,在此不再赘述。
为了提高资源利用率,在上述各实施例的基础上,在本申请实施例中,所述训练控制服务器102,还用于在此次训练任务执行完成后的预设时间间隔后,删除此次训练任务执行时训练控制服务器所接收到的数据。
在本申请实施例中,为了避免训练控制服务器保存太多无用的数据,造成资源的浪费,训练控制服务器可以在此次训练任务执行完成后的预设时间间隔后,删除此次训练任务执行时接收到的数据。具体的,可以是在接收到排序在最后的子模块发送的地址之后的预设时间间隔后,删除训练控制服务器所对应接收到的数据,其中,该数据包括目标样本集、目标标注集,及此次训练过程所用到的每个子模块所发送的地址。
图3为本申请实施例所提供的一种训练控制服务器的处理过程示意图。
由图3可知,训练控制服务器中的加载子模块可以先接收训练调度服务器发送的第二指令,其中,训练控制服务器不会直接获取训练任务所需的数据,即目标样本集及目标标注集,训练控制服务器所获取到的数据是训练调度服务器所下发的。
训练控制服务器中的模型解析子模块,获取第一标识的模型的每个子模块及子模块的顺序,并将子模块的顺序解析成有向无环图。
训练控制服务器中的执行线程用于确定每个第二标识的子模块及子模块的顺序等。日志搜索线程负责和各个子模块通信,将训练执行过程的详细日志汇总,并通过通信线程发送至训练调度服务器。
另外,在每次训练任务执行完成后的预设时间间隔后,训练控制服务器中的后置清理器可以删除训练控制服务器所接收到的数据。
在本申请实施例中,训练调度服务器、训练控制服务器、每个第二标识子模块及存储模块之间的所有通信均可以采用超文本传输(Hyper Text Transfer Protocol,HTTP)协议及表述性状态传递(Representational State Transfer,REST)接口完成,也就是说训练调度服务器在将第二指令发送至训练控制服务器时可以采用HTTP协议及REST接口进行发送;训练控制器在将存储模块的地址发送至每个第二标识的子模块时,也可以采用HTTP协议及REST接口进行发送;训练控制服务器在将目标样本集及目标标注集发送至存储模块时,也可以采用HTTP协议及REST接口进行发送;任一第二标识的子模块在将对应处理完成的处理结果发生至存储模块时,也可以采用HTTP协议及REST接口进行发送。具体的,如何采用HTTP协议及REST接口进行通信为现有技术,在此不再赘述。
在本申请实施例中,在对模型训练完成后,训练调度服务器还可以通过“回调地址”,将回调的内容发送至发送第一指令的设备,实现了训练任务的进度和结果同步,高效可靠。为了保证回调的幂等性和完整性,本申请实施例中发送至将第一指令发送至训练调度服务器的设备的数据可以包含:
Figure BDA0003415109360000181
表1
由表1可知,回调的内容包含字段名为“知,回调,中文名为“业务ID务,用于区分每次训练过程的标识符的数据,用于区分每次训练过程的标识符的数据;还可以包括字段名为“TrainId”,中文名为“调度ID度,训练调度服务器每次获取目标样本集及目标标注集的ID号;当然还可以包括其他可以自定义的内容。
实施例6:
图4为本申请实施例提供的一种训练调度服务器的执行过程示意图。
由图4可知,训练调度服务器的任务触发线程可以按照预设的时间间隔判断是否到达预设时间,若到达预设时间,则获取对应的模型的标识。训练调度服务器的管理线程负责将第二指令发送至训练控制服务器,训练调度服务器的训练进度进程用于接收训练控制服务器发送的执行进度,训练调度服务器的结果处理线程用于将模型训练的详细过程发送至将第一指令发送至训练调度服务器的设备。
另外,在本申请实施例中,工作人员可以根据每个模型的子流程,将需要的训练执行逻辑做成相应的镜像存入镜像仓库,训练控制服务器可以运行对应的镜像,运行相应的镜像后,每个运行后的镜像基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
图5为本申请实施例所提供的一种训练过程示意图。
工作人员将每个模型的子流程的执行逻辑做成相应的镜像存入镜像仓库,并配置运行镜像时的运行顺序,在对任一模型进行训练时,子模块所在的服务器根据运行顺序,依次在镜像仓库中获取对应的镜像,并运行获取到的镜像,相当于本申请实施例中所描述的每个第二标识的子模块基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在本申请实施例中,该预设次数阈值可以是训练调度服务器所获取到并发送至训练控制服务器的,训练调度服务器在获取预设次数阈值时,可以是获取的第一标识的模型对应的训练任务表,该训练任务表中包含该预设次数阈值,另外该训练任务表中还包含“训练任务ID”、“第一标识”、“任务描述”、“回调地址”等字段。其中,“训练任务ID”在每次进行模型训练时对应的ID均不相同,“第一标识”用于识别对哪个模型进行训练,“回调地址”可以将训练过程的详情主动回传至发起训练的一侧。
另外,在本申请实施例中,训练调度服务器还用于在每一次模型训练时创建训练实例表,通过该训练实例表记录训练任务的每一次调度,即每一次获取目标样本集及目标标注集等数据的时间信息等信息,除了一些基本的任务信息,还包括“训练结果”和“训练日志路径”。训练日志通过文本形式从回传至训练调度服务器,并以“日期/训练实例ID/日志文件”层级形式保存到NAS磁盘。还可记录训练管理器表,该表主要记录当前训练控制服务器的心跳时间。
字段名 中文名
Id 标识符
Name 名称
Namespace 命名空间
Image 镜像
Command 启动命令
Env 环境变量
Limits 资源配置
TtlSecondsAfterFinished 生存时间
NodeSelector 节点选择器
表2
表2为本申请实施例中,管理人员在配置子模块时所需的字段名及对应的中文名,其中,字段名包括“Id”,对应的中文名为“标识符”,其在多个子模块中是唯一的,子模块顺序中引用该字段表示具体是哪一个子模块;字段名包括“Name”,对应的中文名为“名称”,其具体为子模块名称,便于工作人员在应用系统查看;字段名包括“Namespace”,对应的中文名为“命名空间”,其具体为在容器环境中该子模块在指定命名空间启动,利于GPU资源规划管理;字段名包括“Image”,对应的中文名为“镜像”,其具体为实现该子模块的功能所需获取的特定镜像;字段名包括“Command”,对应的中文名为“启动命令”,其具体为该子模块启动后的执行命令及参数;字段名包括“Env”,对应的中文名为“环境变量”,其具体为该子模块所应用的容器在启动时传入容器内部的参数;字段名包括“Limits”,对应的中文名为“资源配置”,其具体为容器能为该子模块分配到的最大资源;字段名包括“TtlSecondsAfterFinished”,对应的中文名为“生存时间”,其具体为该子模块处理完成后容器保留多久销毁;字段名包括“NodeSelector”,对应的中文名为“节点选择器”,其具体为容器在指定节点运行。
实施例7:
图6为本申请实施例提供的一种模型训练方法的过程示意图,该过程包括:
S601:接收第一指令,获取所述第一指令中携带的模型的第一标识;
S602:根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至训练控制服务器。
该方法应用于训练调度服务器,具体的训练调度服务器执行该模型训练方法的过程可以参见上述其他实施例,具体内容不再赘述。
图7为本申请实施例提供的一种模型训练方法的过程示意图,该过程包括:
S701:接收携带目标样本集及目标标注集的第二指令;其中,所述第二指令中还携带有模型的第一标识;
S702:根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识。
在一种可能的实施方式中,所述方法还包括:
将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址。
在一种可能的实施方式中,所述将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址包括:
将所述目标样本集保存至第一存储模块,并将所述第一存储模块的第一地址发送至所述第一标识的模型的子模块中排序在第一位的第一子模块;
接收任一子模块发送的地址,并判断是否存在排序在发送所述子模块之后的其他子模块,若是,则将所述地址发送至所述其他子模块。
在一种可能的实施方式中,所述方法还包括:
接收任一子模块发送的地址,且判断排序在该子模块之后的其他子模块为至少两个,则将该地址发送至该至少两个其他子模块;或,若接收到至少两个子模块发送的地址,且判断存在排序在该两个子模块之后的其他子模块,则将该至少两个地址发送至所述其他子模块。
在一种可能的实施方式中,所述方法还包括:
将所述目标标注集及每个第二标识的子模块的参数保存至第五存储模块,将所述第五存储模块的第五地址发送至所述第一标识的模型的子模块中排序在最后一位的第二子模块。
在一种可能的实施方式中,所述方法还包括:
将每个第二标识的子模块调整后的参数发送至对应标识的子模块。
在一种可能的实施方式中,所述方法还包括:
接收任一子模块发送的执行失败的指令,判断所述子模块在此次训练的过程中失败的总次数是否超过预设次数阈值,若否,则发送重新执行的指令至该子模块。
在一种可能的实施方式中,所述方法还包括:
按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度,将该执行进度发送至训练调度服务器。
在一种可能的实施方式中,所述方法还包括:
对训练调度服务器进行动态注册,并与所述训练调度服务器进行心跳保持。
在一种可能的实施方式中,所述方法还包括:
在此次执行任务完成后的预设时间间隔后,删除此次训练任务执行时该训练控制服务器所接收到的数据。
该方法应用于训练控制服务器,具体的训练控制服务器执行该模型训练方法的过程可以参见上述其他实施例,具体内容不再赘述。
图8为本申请实施例提供的一种模型训练方法的过程示意图,该过程包括:
S801:获取目标样本集及目标标注集;
S802:基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在一种可能的实施方式中,所述获取目标样本集及目标标注集包括:
接收训练控制服务器发送的存储模块的地址,获取所述地址的所述存储模块中存储的所述目标样本集及所述目标标注集。
在一种可能的实施方式中,所述方法还包括:
接收训练控制服务器发送的地址,获取所述地址的存储模块中保存的每个处理结果,对所述每个处理结果进行处理,将第二处理结果保存至第三存储模块,将所述第三存储模块的第三地址发送至所述训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
若接收到至少两个地址,获取所述至少两个地址的存储模块中保存的每个处理结果,分别对每个处理结果进行处理,将处理后得到的第三处理结果保存至第四存储模块,将所述第四存储模块的第四地址发送至所述训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
若该子模块为第一标识的模型的子模块中排序在最后一位的第二子模块,则接收训练控制服务器发送的保存目标标注集及每个第二标识的子模块的参数的第五存储模块的第五地址;
获取所述第五地址的第五存储模块中存储的所述目标标注集及每个第二标识的子模块的参数,根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
若该子模块为第一标识的模型的子模块中排序在最后一位的第二子模块,则将每个第二标识的子模块调整后的参数发生至训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
根据接收到的调整后的参数,对自身的对应参数进行调整。
在一种可能的实施方式中,所述方法还包括:
执行失败时发送执行失败的指令至训练控制服务器;
接收重新执行的指令,并获取对应的地址的存储模块中保存的每个第五处理结果,对所述每个第五处理结果进行处理,将第六处理结果保存至第六存储模块,将所述第六存储模块的第六地址发送至所述训练控制服务器。
该方法应用于执行不同功能的子模块,具体的执行不同功能的子模块执行该模型训练方法的过程可以参见上述其他实施例,具体内容不再赘述。
图9为本申请实施例提供的一种模型训练方法的过程示意图,该过程包括:
S901:接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;
S902:根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;
S903:基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整。
在一种可能的实施方式中,所述基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整包括:
若确定任一子模块排序在至少两个并列的子模块之后,则获取该并列的至少两个子模块的处理结果,分别对每个处理结果进行处理;或
若确定排序在任一子模块之后的其他子模块为至少两个,则控制所述至少两个其他子模块基于该子模块的处理结果进行处理。
在一种可能的实施方式中,所述方法还包括:
根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度。
实施例8:
图10为本申请实施例提供的一种模型训练装置结构示意图,所述装置包括:
第一接收获取模块1001,用于接收第一指令,获取所述第一指令中携带的模型的第一标识;
第一处理模块1002,用于根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至训练控制服务器。
图11为本申请实施例提供的一种模型训练装置结构示意图,所述装置包括:
接收模块1101,用于接收携带目标样本集及目标标注集的第二指令;其中,所述第二指令中还携带有模型的第一标识;
第二处理模块1102,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识。
在一种可能的实施方式中,所述第二处理模块1102,还用于将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址。
在一种可能的实施方式中,所述第二处理模块1102,具体用于将所述目标样本集保存至第一存储模块,并将所述第一存储模块的第一地址发送至所述第一标识的模型的子模块中排序在第一位的第一子模块;接收任一子模块发送的地址,并判断是否存在排序在发送所述子模块之后的其他子模块,若是,则将所述地址发送至所述其他子模块。
在一种可能的实施方式中,所述第二处理模块1102,还用于接收任一子模块发送的地址,且判断排序在该子模块之后的其他子模块为至少两个,则将该地址发送至该至少两个其他子模块;或,若接收到至少两个子模块发送的地址,且判断存在排序在该两个子模块之后的其他子模块,则将该至少两个地址发送至所述其他子模块。
在一种可能的实施方式中,所述第二处理模块1102,还用于将所述目标标注集及每个第二标识的子模块的参数保存至第五存储模块,将所述第五存储模块的第五地址发送至所述第一标识的模型的子模块中排序在最后一位的第二子模块。
在一种可能的实施方式中,所述第二处理模块1102,还用于将每个第二标识的子模块调整后的参数发送至对应标识的子模块。
在一种可能的实施方式中,所述第二处理模块1102,还用于接收任一子模块发送的执行失败的指令,判断所述子模块在此次训练的过程中失败的总次数是否超过预设次数阈值,若否,则发送重新执行的指令至该子模块。
在一种可能的实施方式中,所述第二处理模块1102,还用于按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度,将该执行进度发送至训练调度服务器。
在一种可能的实施方式中,所述第二处理模块1102,还用于对训练调度服务器进行动态注册,并与所述训练调度服务器进行心跳保持。
在一种可能的实施方式中,所述第二处理模块1102,还用于在此次执行任务完成后的预设时间间隔后,删除此次训练任务执行时该训练控制服务器所接收到的数据。
图12为本申请实施例提供的一种模型训练装置结构示意图,所述装置包括:
获取模块1201,用于获取目标样本集及目标标注集;
第四处理模块1202,用于基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在一种可能的实施方式中,所述获取模块1201,具体用于接收训练控制服务器发送的存储模块的地址,获取所述地址的所述存储模块中存储的所述目标样本集及所述目标标注集。
在一种可能的实施方式中,所述获取模块1201,具体用于接收训练控制服务器发送的地址,获取所述地址的存储模块中保存的每个处理结果,对所述每个处理结果进行处理,将第二处理结果保存至第三存储模块,将所述第三存储模块的第三地址发送至所述训练控制服务器。
在一种可能的实施方式中,所述获取模块1201,还用于若接收到至少两个地址,获取所述至少两个地址的存储模块中保存的每个处理结果,分别对每个处理结果进行处理,将处理后得到的第三处理结果保存至第四存储模块,将所述第四存储模块的第四地址发送至所述训练控制服务器。
在一种可能的实施方式中,所述获取模块1201,还用于若该子模块为第一标识的模型的子模块中排序在最后一位的第二子模块,则接收训练控制服务器发送的保存目标标注集及每个第二标识的子模块的参数的第五存储模块的第五地址;获取所述第五地址的第五存储模块中存储的所述目标标注集及每个第二标识的子模块的参数,根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
在一种可能的实施方式中,所述获取模块1201,还用于若该子模块为第一标识的模型的子模块中排序在最后一位的第二子模块,则将每个第二标识的子模块调整后的参数发生至训练控制服务器。
在一种可能的实施方式中,所述获取模块1201,还用于根据接收到的调整后的参数,对自身的对应参数进行调整。
在一种可能的实施方式中,所述第四处理模块1202,还用于执行失败时发送执行失败的指令至训练控制服务器;接收重新执行的指令,并获取对应的地址的存储模块中保存的每个第五处理结果,对所述每个第五处理结果进行处理,将第六处理结果保存至第六存储模块,将所述第六存储模块的第六地址发送至所述训练控制服务器。
图13为本申请实施例提供的一种模型训练装置结构示意图,所述装置包括:
第二接收获取模块1301,用于接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;
第三处理模块1302,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;基于所述目标样本集及所述目标标注集,对第一标识的子模块的参数进行调整。
在一种可能的实施方式中,所述第三处理模块1302,具体用于若确定任一子模块排序在至少两个并列的子模块之后,则获取该并列的至少两个子模块的处理结果,分别对每个处理结果进行处理;或若确定排序在任一子模块之后的其他子模块为至少两个,则控制所述至少两个其他子模块基于该子模块的处理结果进行处理。
在一种可能的实施方式中,所述第三处理模块1302,还用于根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
在一种可能的实施方式中,所述第三处理模块1302,还用于按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度。
实施例9:
图14为本申请提供的一种电子设备结构示意图,在上述各实施例的基础上,本申请实施例还提供了一种电子设备,如图14所示,包括:处理器1401、通信接口1402、存储器1403和通信总线1404,其中,处理器1401,通信接口1402,存储器1403通过通信总线1404完成相互间的通信;
所述存储器1403中存储有计算机程序,当所述程序被所述处理器1401执行时,使得所述处理器1401执行如下步骤:
接收第一指令,获取所述第一指令中携带的模型的第一标识;
根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至训练控制服务器,以使所述训练控制服务器,根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识。
在上述各实施例的基础上,本发明实施例还提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。
所述存储器中存储有计算机程序,当所述程序被所述处理器1401执行时,使得所述处理器执行如下步骤:
接收携带目标样本集及目标标注集的第二指令;其中,所述第二指令中还携带有模型的第一标识;
根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识,以使每个第二标识的子模块,基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址。
在一种可能的实施方式中,所述将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址包括:
将所述目标样本集保存至第一存储模块,并将所述第一存储模块的第一地址发送至所述第一标识的模型的子模块中排序在第一位的第一子模块;
接收任一子模块发送的地址,并判断是否存在排序在发送所述子模块之后的其他子模块,若是,则将所述地址发送至所述其他子模块。
在一种可能的实施方式中,所述方法还包括:
接收任一子模块发送的地址,且判断排序在该子模块之后的其他子模块为至少两个,则将该地址发送至该至少两个其他子模块;或,若接收到至少两个子模块发送的地址,且判断存在排序在该两个子模块之后的其他子模块,则将该至少两个地址发送至所述其他子模块。
在一种可能的实施方式中,所述方法还包括:
将所述目标标注集及每个第二标识的子模块的参数保存至第五存储模块,将所述第五存储模块的第五地址发送至所述第一标识的模型的子模块中排序在最后一位的第二子模块。
在一种可能的实施方式中,所述方法还包括:
将每个第二标识的子模块调整后的参数发送至对应标识的子模块。
在一种可能的实施方式中,所述方法还包括:
接收任一子模块发送的执行失败的指令,判断所述子模块在此次训练的过程中失败的总次数是否超过预设次数阈值,若否,则发送重新执行的指令至该子模块。
在一种可能的实施方式中,所述方法还包括:
按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度,将该执行进度发送至训练调度服务器。
在一种可能的实施方式中,所述方法还包括:
对训练调度服务器进行动态注册,并与所述训练调度服务器进行心跳保持。
在一种可能的实施方式中,所述方法还包括:
在此次执行任务完成后的预设时间间隔后,删除此次训练任务执行时该训练控制服务器所接收到的数据。
在上述各实施例的基础上,本发明实施例还提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。
所述存储器中存储有计算机程序,当所述程序被所述处理器1401执行时,使得所述处理器执行如下步骤:
获取目标样本集及目标标注集;
基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在一种可能的实施方式中,所述获取目标样本集及目标标注集包括:
接收训练控制服务器发送的存储模块的地址,获取所述地址的所述存储模块中存储的所述目标样本集及所述目标标注集。
在一种可能的实施方式中,所述方法还包括:
接收训练控制服务器发送的地址,获取所述地址的存储模块中保存的每个处理结果,对所述每个处理结果进行处理,将第二处理结果保存至第三存储模块,将所述第三存储模块的第三地址发送至所述训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
若接收到至少两个地址,获取所述至少两个地址的存储模块中保存的每个处理结果,分别对每个处理结果进行处理,将处理后得到的第三处理结果保存至第四存储模块,将所述第四存储模块的第四地址发送至所述训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
若该子模块为第一标识的模型的子模块中排序在最后一位的第二子模块,则接收训练控制服务器发送的保存目标标注集及每个第二标识的子模块的参数的第五存储模块的第五地址;
获取所述第五地址的第五存储模块中存储的所述目标标注集及每个第二标识的子模块的参数,根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
若该子模块为第一标识的模型的子模块中排序在最后一位的第二子模块,则将每个第二标识的子模块调整后的参数发生至训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
根据接收到的调整后的参数,对自身的对应参数进行调整。
在一种可能的实施方式中,所述方法还包括:
执行失败时发送执行失败的指令至训练控制服务器;
接收重新执行的指令,并获取对应的地址的存储模块中保存的每个第五处理结果,对所述每个第五处理结果进行处理,将第六处理结果保存至第六存储模块,将所述第六存储模块的第六地址发送至所述训练控制服务器。
在上述各实施例的基础上,本发明实施例还提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。
所述存储器中存储有计算机程序,当所述程序被所述处理器1401执行时,使得所述处理器执行如下步骤:
接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;
根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;
基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整。
在一种可能的实施方式中,所述基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整包括:
若确定任一子模块排序在至少两个并列的子模块之后,则获取该并列的至少两个子模块的处理结果,分别对每个处理结果进行处理;或
若确定排序在任一子模块之后的其他子模块为至少两个,则控制所述至少两个其他子模块基于该子模块的处理结果进行处理。
在一种可能的实施方式中,所述方法还包括:
根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例10:
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行如下步骤:
接收第一指令,获取所述第一指令中携带的模型的第一标识;
根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至训练控制服务器,以使所述训练控制服务器,根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识。
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
接收携带目标样本集及目标标注集的第二指令;其中,所述第二指令中还携带有模型的第一标识;
根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识,以使每个第二标识的子模块,基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址。
在一种可能的实施方式中,所述将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址包括:
将所述目标样本集保存至第一存储模块,并将所述第一存储模块的第一地址发送至所述第一标识的模型的子模块中排序在第一位的第一子模块;
接收任一子模块发送的地址,并判断是否存在排序在发送所述子模块之后的其他子模块,若是,则将所述地址发送至所述其他子模块。
在一种可能的实施方式中,所述方法还包括:
接收任一子模块发送的地址,且判断排序在该子模块之后的其他子模块为至少两个,则将该地址发送至该至少两个其他子模块;或,若接收到至少两个子模块发送的地址,且判断存在排序在该两个子模块之后的其他子模块,则将该至少两个地址发送至所述其他子模块。
在一种可能的实施方式中,所述方法还包括:
将所述目标标注集及每个第二标识的子模块的参数保存至第五存储模块,将所述第五存储模块的第五地址发送至所述第一标识的模型的子模块中排序在最后一位的第二子模块。
在一种可能的实施方式中,所述方法还包括:
将每个第二标识的子模块调整后的参数发送至对应标识的子模块。
在一种可能的实施方式中,所述方法还包括:
接收任一子模块发送的执行失败的指令,判断所述子模块在此次训练的过程中失败的总次数是否超过预设次数阈值,若否,则发送重新执行的指令至该子模块。
在一种可能的实施方式中,所述方法还包括:
按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度,将该执行进度发送至训练调度服务器。
在一种可能的实施方式中,所述方法还包括:
对训练调度服务器进行动态注册,并与所述训练调度服务器进行心跳保持。
在一种可能的实施方式中,所述方法还包括:
在此次执行任务完成后的预设时间间隔后,删除此次训练任务执行时该训练控制服务器所接收到的数据。
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
获取目标样本集及目标标注集;
基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
在一种可能的实施方式中,所述获取目标样本集及目标标注集包括:
接收训练控制服务器发送的存储模块的地址,获取所述地址的所述存储模块中存储的所述目标样本集及所述目标标注集。
在一种可能的实施方式中,所述方法还包括:
接收训练控制服务器发送的地址,获取所述地址的存储模块中保存的每个处理结果,对所述每个处理结果进行处理,将第二处理结果保存至第三存储模块,将所述第三存储模块的第三地址发送至所述训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
若接收到至少两个地址,获取所述至少两个地址的存储模块中保存的每个处理结果,分别对每个处理结果进行处理,将处理后得到的第三处理结果保存至第四存储模块,将所述第四存储模块的第四地址发送至所述训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
若该子模块为第一标识的模型的子模块中排序在最后一位的第二子模块,则接收训练控制服务器发送的保存目标标注集及每个第二标识的子模块的参数的第五存储模块的第五地址;
获取所述第五地址的第五存储模块中存储的所述目标标注集及每个第二标识的子模块的参数,根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对对所述每个第二标识的子模块的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
若该子模块为第一标识的模型的子模块中排序在最后一位的第二子模块,则将每个第二标识的子模块调整后的参数发生至训练控制服务器。
在一种可能的实施方式中,所述方法还包括:
根据接收到的调整后的参数,对自身的对应参数进行调整。
在一种可能的实施方式中,所述方法还包括:
执行失败时发送执行失败的指令至训练控制服务器;
接收重新执行的指令,并获取对应的地址的存储模块中保存的每个第五处理结果,对所述每个第五处理结果进行处理,将第六处理结果保存至第六存储模块,将所述第六存储模块的第六地址发送至所述训练控制服务器。
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;
根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;
基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整。
在一种可能的实施方式中,所述基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整包括:
若确定任一子模块排序在至少两个并列的子模块之后,则获取该并列的至少两个子模块的处理结果,分别对每个处理结果进行处理;或
若确定排序在任一子模块之后的其他子模块为至少两个,则控制所述至少两个其他子模块基于该子模块的处理结果进行处理。
在一种可能的实施方式中,所述方法还包括:
根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度。
实施例11:
本申请实施例还提供了一种计算机程序产品,该计算机程序产品被计算机执行时实现上述应用于电子设备的任一方法实施例所述的模型训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。
由于在申请实施例中,在对模型进行训练时,获取该第一标识的模型包含的每个子模块的第二标识,并采用第二标识对应的子模块对该模型进行训练,并且不同模型可能采用相同的子模块,从而使得某些具有相同步骤的模型可以采用同一子模块,避免了不同的模型均采用各自的每个子模块,独立占用各种资源,提高了资源利用率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (22)

1.一种模型训练系统,其特征在于,所述系统包括:训练调度服务器、训练控制服务器以及执行不同功能的子模块;
所述训练调度服务器,用于接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至所述训练控制服务器;
所述训练控制服务器,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;
每个第二标识的子模块,用于基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括至少一个存储模块;
所述训练控制服务器,还用于将所述目标样本集及所述目标标注集发送至任一存储模块,并发送所述存储模块的地址;
所述存储模块,用于接收并存储所述目标样本集及所述目标标注集;
每个第二标识的子模块,具体用于获取所述地址的所述存储模块中存储的所述目标样本集及所述目标标注集,基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
3.根据权利要求2所述的系统,其特征在于,所述训练控制服务器,具体用于将所述目标样本集保存至第一存储模块,并将所述第一存储模块的第一地址发送至所述第一标识的模型的子模块中排序在第一位的第一子模块;
所述第一子模块,用于接收所述第一地址,获取所述第一地址的所述第一存储模块中保存的所述目标样本集,对所述目标样本集进行处理,将第一处理结果保存至第二存储模块,将所述第二存储模块的第二地址发送至所述训练控制服务器;
所述训练控制服务器,还用于接收任一子模块发送的地址,并判断是否存在排序在发送所述子模块之后的其他子模块,若是,则将所述地址发送至所述其他子模块;
其他任一子模块,用于接收所述地址,获取所述地址的存储模块中保存的每个处理结果,对所述每个处理结果进行处理,将第二处理结果保存至第三存储模块,将所述第三存储模块的第三地址发送至所述训练控制服务器。
4.根据权利要求3所述的系统,其特征在于,所述训练控制服务器,还用于接收任一子模块发送的地址,且判断排序在该子模块之后的其他子模块为至少两个,则将该地址发送至该至少两个其他子模块;或,若接收到至少两个子模块发送的地址,且判断存在排序在该两个子模块之后的其他子模块,则将该至少两个地址发送至所述其他子模块;
所述其他子模块,用于若接收到所述至少两个地址,获取所述至少两个地址的存储模块中保存的每个处理结果,对所述至少两个地址的存储模块中对应顺序的处理结果进行处理,将处理后得到的第三处理结果保存至第四存储模块,将所述第四存储模块的第四地址发送至所述训练控制服务器。
5.根据权利要求3所述的系统,其特征在于,所述训练控制服务器,还用于将所述目标标注集及每个第二标识的子模块的参数保存至第五存储模块,将所述第五存储模块的第五地址发送至所述第一标识的模型的子模块中排序在最后一位的第二子模块;
所述第二子模块,用于获取所述第五地址的第五存储模块中存储的所述目标标注集及每个第二标识的子模块的参数,根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
6.根据权利要求5所述的系统,其特征在于,所述第二子模块,还用于将所述每个第二标识的子模块调整后的参数发生至所述训练控制服务器;
所述训练控制服务器,还用于将所述每个第二标识的子模块调整后的参数发送至对应标识的子模块;
所述子模块,还用于根据接收到的调整后的参数,对自身的对应参数进行调整。
7.根据权利要求1所述的系统,其特征在于,任一第二标识的子模块,用于执行失败时发送执行失败的指令至所述训练控制服务器;
所述训练控制服务器,还用于接收所述子模块发送的执行失败的指令,判断所述子模块在此次训练的过程中失败的总次数是否超过预设次数阈值,若否,则发送重新执行的指令至所述子模块;
所述子模块,用于接收重新执行的指令,并获取对应的地址的存储模块中保存的每个第五处理结果,对所述每个第五处理结果进行处理,将第六处理结果保存至第六存储模块,将所述第六存储模块的第六地址发送至所述训练控制服务器。
8.根据权利要求1所述的系统,其特征在于,所述训练控制服务器,还用于按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度,将该执行进度发送至训练调度服务器。
9.根据权利要求1所述的系统,其特征在于,所述训练控制服务器,还用于对所述训练调度服务器进行动态注册,并与所述训练调度服务器进行心跳保持。
10.根据权利要求1-9任一项所述的系统,其特征在于,所述训练控制服务器,还用于在此次执行任务完成后的预设时间间隔后,删除此次训练任务执行时该训练控制服务器所接收到的数据。
11.一种模型训练方法,应用于训练调度服务器,其特征在于,所述方法包括:
接收第一指令,获取所述第一指令中携带的模型的第一标识;
根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至训练控制服务器,以使所述训练控制服务器,根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识。
12.一种模型训练方法,应用于训练控制服务器,其特征在于,所述方法包括:
接收携带目标样本集及目标标注集的第二指令;其中,所述第二指令中还携带有模型的第一标识;
根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识,以使每个第二标识的子模块,基于所述目标样本集及所述目标标注集,对自身的参数进行调整。
13.一种模型训练方法,其特征在于,所述方法包括:
接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;
根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;
基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整。
14.根据权利要求13所述的方法,其特征在于,所述基于所述目标样本集及所述目标标注集,对所述第二标识的每个子模块的参数进行调整包括:
若确定任一子模块排序在至少两个并列的子模块之后,则获取该并列的至少两个子模块的处理结果,分别对每个处理结果进行处理;或
若确定排序在任一子模块之后的其他子模块为至少两个,则控制所述至少两个其他子模块基于该子模块的处理结果进行处理。
15.根据权利要求14所述的方法,其特征在于,所述方法还包括:
根据所述目标标注集、每个第二标识的子模块的参数及该第二子模块处理获取到的第四处理结果,对所述每个第二标识的子模块的参数进行调整。
16.根据权利要求13所述的方法,其特征在于,所述方法还包括:
按照预设的时间间隔根据当前进行数据处理的子模块,及子模块的顺序,确定此次训练的执行进度。
17.一种模型训练装置,应用于训练调度服务器,其特征在于,所述装置包括:
第一接收获取模块,用于接收第一指令,获取所述第一指令中携带的模型的第一标识;
第一处理模块,用于根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;将携带所述目标样本集及所述目标标注集的第二指令发送至训练控制服务器。
18.一种模型训练装置,应用于训练控制服务器,其特征在于,所述装置包括:
接收模块,用于接收携带目标样本集及目标标注集的第二指令;其中,所述第二指令中还携带有模型的第一标识;
第二处理模块,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识。
19.一种模型训练装置,其特征在于,所述装置包括:
第二接收获取模块,用于接收第一指令,获取所述第一指令中携带的模型的第一标识,根据预先保存的模型标识与样本集及标注集的对应关系,获取所述第一标识对应的目标样本集及目标标注集;
第三处理模块,用于根据预先保存的模型标识与子模块的标识的对应关系及子模块的顺序的对应关系,依次确定所述第一标识的模型包含的每个子模块的第二标识;基于所述目标样本集及所述目标标注集,对第一标识的模型包含的子模块的参数进行调整。
20.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时执行权利要求11-16中任一所述模型训练方法的步骤。
21.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时执行权利要求11-16中任一所述模型训练方法的步骤。
22.一种计算机程序产品,其特征在于,其计算机程序产品包括:计算机程序代码、当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求11-16中任一所述模型训练方法的步骤。
CN202111543800.4A 2021-12-16 2021-12-16 一种模型训练系统、方法、装置、设备及介质 Pending CN114219029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111543800.4A CN114219029A (zh) 2021-12-16 2021-12-16 一种模型训练系统、方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111543800.4A CN114219029A (zh) 2021-12-16 2021-12-16 一种模型训练系统、方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114219029A true CN114219029A (zh) 2022-03-22

Family

ID=80702944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111543800.4A Pending CN114219029A (zh) 2021-12-16 2021-12-16 一种模型训练系统、方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114219029A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197664A (zh) * 2018-01-24 2018-06-22 北京墨丘科技有限公司 模型获取方法、装置、电子设备及计算机可读存储介质
CN109492698A (zh) * 2018-11-20 2019-03-19 腾讯科技(深圳)有限公司 一种模型训练的方法、对象检测的方法以及相关装置
CN111324732A (zh) * 2020-01-21 2020-06-23 中信百信银行股份有限公司 模型训练方法、文本处理方法、装置及电子设备
CN112560912A (zh) * 2020-12-03 2021-03-26 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备和存储介质
CN112561077A (zh) * 2020-12-14 2021-03-26 北京百度网讯科技有限公司 多任务模型的训练方法、装置及电子设备
CN113592209A (zh) * 2021-02-04 2021-11-02 腾讯科技(深圳)有限公司 一种模型训练任务管理方法、装置、终端和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197664A (zh) * 2018-01-24 2018-06-22 北京墨丘科技有限公司 模型获取方法、装置、电子设备及计算机可读存储介质
CN109492698A (zh) * 2018-11-20 2019-03-19 腾讯科技(深圳)有限公司 一种模型训练的方法、对象检测的方法以及相关装置
CN111324732A (zh) * 2020-01-21 2020-06-23 中信百信银行股份有限公司 模型训练方法、文本处理方法、装置及电子设备
CN112560912A (zh) * 2020-12-03 2021-03-26 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备和存储介质
CN112561077A (zh) * 2020-12-14 2021-03-26 北京百度网讯科技有限公司 多任务模型的训练方法、装置及电子设备
CN113592209A (zh) * 2021-02-04 2021-11-02 腾讯科技(深圳)有限公司 一种模型训练任务管理方法、装置、终端和存储介质

Similar Documents

Publication Publication Date Title
CN109150572B (zh) 实现告警关联的方法、装置以及计算机可读存储介质
CN110704231A (zh) 一种故障处理方法及装置
EP3617896A1 (en) Method and apparatus for intelligent response
CN105404896A (zh) 标注数据处理方法和标注数据处理系统
CN105185375B (zh) 一种信息处理方法和电子设备
CN106682036A (zh) 一种数据交换系统及其交换方法
CN107870948A (zh) 任务调度方法和装置
CN109144734A (zh) 一种容器资源配额分配方法和装置
CN109460365B (zh) 一种系统性能测试方法、装置、设备及存储介质
CN106775948A (zh) 一种基于优先级的云任务调度方法及装置
CN108829802B (zh) 关联日志回放方法及装置
CN107203464B (zh) 业务问题的定位方法以及装置
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN110019285A (zh) 一种警情识别分派方法及电子设备
CN111198754A (zh) 一种任务调度方法及装置
CN114219029A (zh) 一种模型训练系统、方法、装置、设备及介质
CN111625330A (zh) 跨线程的任务处理方法、装置、服务器及存储介质
CN116303320A (zh) 基于日志文件的实时任务管理方法、装置、设备及介质
CN114221883B (zh) 消息测试方法、装置、服务器及存储介质
CN108985341A (zh) 一种神经网络模型的训练集评估方法及系统
CN111160583B (zh) 一种数据处理方法及装置
CN112395119B (zh) 异常数据处理方法、装置、服务器及存储介质
CN107103003B (zh) 获取链路中数据的方法、获取设备、处理设备和系统
CN117573329B (zh) 多脑协同的任务调度方法、任务调度装置及存储介质
CN117591565B (zh) 虚拟机器人的实例处理方法、实例处理装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination