CN113822432B - 样本数据的处理方法、装置、电子设备及存储介质 - Google Patents

样本数据的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113822432B
CN113822432B CN202110368290.5A CN202110368290A CN113822432B CN 113822432 B CN113822432 B CN 113822432B CN 202110368290 A CN202110368290 A CN 202110368290A CN 113822432 B CN113822432 B CN 113822432B
Authority
CN
China
Prior art keywords
sample data
training
probability
strategy
data partitioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110368290.5A
Other languages
English (en)
Other versions
CN113822432A (zh
Inventor
黄绿君
吴荣彬
曾文秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110368290.5A priority Critical patent/CN113822432B/zh
Publication of CN113822432A publication Critical patent/CN113822432A/zh
Application granted granted Critical
Publication of CN113822432B publication Critical patent/CN113822432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提出一种样本数据的处理方法,该方法包括服务器获取分布式训练任务的训练样本集;所述服务器在每次进行模型训练之前从多个候选样本数据划分策略中,选取一个目标样本数据划分策略;所述服务器基于所述目标样本数据划分策略,对所述训练样本集进行划分,生成多个训练样本子集;所述服务器将所述多个训练样本子集分发给多个工作节点进行当次模型训练。本申请中,在每次模型训练开始前,服务器从多个候选的样本数据划分策略中随机选取一个作为目标样本数据划分策略,实现了对于训练样本集的高效动态划分,使得不同样本数据划分策略的优点被充分利用,保障了分布式训练的模型效果和收敛速率。

Description

样本数据的处理方法、装置、电子设备及存储介质
技术领域
本申请涉及机器学习技术领域,尤其涉及样本数据的处理方法、装置、电子设备及存储介质。
背景技术
随着大数据技术的快速发展,可以更高效的利用大数据训练更准确的大模型,从而有效的逼近很多困难问题的决策边界,由于资源的限制,大数据模型的训练需要用到分布式训练技术,其中,数据并行模式下的模型分布式训练中,如何对样本数据进行划分成为了需要解决的问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请第一方面提出一种样本数据的处理方法。
本申请第二方面还提出一种样本数据的处理装置。
本申请第三方面提出一种电子设备。
本申请第四方面提出一种计算机可读存储介质。
本申请第五方面提出一种计算机程序产品。
本申请第一方面提出一种样本数据的处理方法,包括服务器获取分布式训练任务的训练样本集;所述服务器在每次进行模型训练之前从多个候选样本数据划分策略中,选取一个目标样本数据划分策略;所述服务器基于所述目标样本数据划分策略,对所述训练样本集进行划分,生成多个训练样本子集,所述服务器将多个所述训练样本子集分发给多个工作节点进行当次模型训练。
另外,本申请第一方面提出的样本数据的处理方法还可以具有如下附加的技术特征:
根据本申请的一个实施例,所述服务器在每次进行模型训练之前从多个候选样本数据划分策略中,选取一个目标样本数据划分策略,包括:所述服务器获取所述候选样本数据划分策略对应的概率区间,其中,每个所述候选样本数据划分策略概率区间拼接形成全概率;所述服务器针对每次模型训练,生成随机数,并确定所述随机数所处的目标概率区间;所述服务器将所述目标概率区间对应的候选样本数据划分策略,确定所述目标样本数据划分策略。
根据本申请的一个实施例,所述服务器获取所述候选样本数据划分策略对应的概率区间,包括:所述服务器获取所述候选样本数据划分策略的被选中概率;所述服务器基于所述被选中概率和预设的划分策略顺序,确定所述候选样本数据划分策略对应的概率区间端点值;所述服务器基于所述概率区间端点值,生成所述候选样本数据划分策略对应的概率区间。
根据本申请的一个实施例,所述服务器获取所述候选样本数据划分策略的被选中概率,包括:所述服务器基于所述候选样本数据划分策略的数量,等概率配置所述候选样本数据划分策略的被选中概率。
根据本申请的一个实施例,所述服务器获取所述候选样本数据划分策略的被选中概率,包括:所述服务器获取所述候选样本数据划分策略的权重值,基于所述权重值,生成所述候选样本数据划分策略的被选中概率。
根据本申请的一个实施例,所述服务器获取所述候选样本数据划分策略的被选中概率,包括:所述服务器获取所述分布式训练任务的配置信息;所述服务器基于所述配置信息,获取所述候选样本数据划分策略的被选中概率。
根据本申请的一个实施例,所述服务器基于所述配置信息,获取所述候选样本数据划分策略的被选中概率,包括:所述服务器基于所述配置信息,获取所述候选样本数据划分策略在对所述训练样本集进行划分时的运算复杂度,以及基于并行随机梯度下降时的收敛速率;所述服务器基于所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略的被选中概率。
根据本申请的一个实施例,所述服务器基于所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略被选中的概率,包括:所述服务器基于所述运算复杂度和所述收敛速率,获取所有的所述候选样本数据的合计复杂度;所述服务器针对每个所述候选样本数据划分策略,基于所述候选样本数据划分策略的所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略的第一总复杂度;所述服务器基于所述候选样本数据划分策略的第一总复杂度和所述合计复杂度,获取所述候选样本数据划分策略的被选中概率。
为实现上述第一方面提出的样本数据的处理方法,本申请第二方面还提出一种样本数据的处理装置,包括获取模块,用于服务器获取分布式训练任务的训练样本集;策略选取模块,用于所述服务器在每次进行模型训练之前从多个候选样本数据划分策略中,选取一个目标样本数据划分策略;样本划分模块,用于所述服务器基于所述目标样本数据划分策略,对所述训练样本集进行划分,生成多个训练样本子集;发送模块,用于所述服务器将多个训练样本子集分发给多个工作节点进行当次模型训练。
本申请第二方面提出的样本数据的处理装置还可以具有如下附加的技术特征:
根据本申请的一个实施例,所述策略选取模块,包括:概率区间获取单元,用于获取所述候选样本数据划分策略对应的概率区间,其中,每个所述候选样本数据划分策略概率区间拼接形成全概率;随机数生成单元,用于针对每次模型训练,生成随机数,并确定所述随机数所处的目标概率区间;策略选取单元,用于将所述目标概率区间对应的候选样本数据划分策略,确定所述目标样本数据划分策略。
根据本申请的一个实施例,所述概率区间获取单元,包括概率获取子单元,用于获取所述候选样本数据划分策略的被选中概率;端点值获取子单元,用于基于所述被选中概率和预设的划分策略顺序,确定所述候选样本数据划分策略对应的概率区间端点值;区间生成子单元,用于基于所述概率区间端点值,生成所述候选样本数据划分策略对应的概率区间。
根据本申请的一个实施例,所述概率获取子单元,进一步用于基于所述候选样本数据划分策略的数量,等概率配置所述候选样本数据划分策略的被选中概率。
根据本申请的一个实施例,所述概率获取子单元,进一步用于获取所述候选样本数据划分策略的权重值,基于所述权重值,生成所述候选样本数据划分策略的被选中概率。
根据本申请的一个实施例,所述概率获取子单元,进一步用于获取所述分布式训练任务的配置信息;基于所述配置信息,获取所述候选样本数据划分策略的被选中概率。
根据本申请的一个实施例,所述概率获取子单元,进一步用于基于所述配置信息,获取所述候选样本数据划分策略在对所述训练样本集进行划分时的运算复杂度,以及基于并行随机梯度下降时的收敛速率;基于所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略的被选中概率。
根据本申请的一个实施例,所述概率获取子单元,进一步用于基于所述运算复杂度和所述收敛速率,获取所有的所述候选样本数据的合计复杂度;针对每个所述候选样本数据划分策略,基于所述候选样本数据划分策略的所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略的第一总复杂度;基于所述候选样本数据划分策略的第一总复杂度和所述合计复杂度,获取所述候选样本数据划分策略的被选中概率。
为达到上述目的,本申请第三方面提出了一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面提出的样本数据的处理方法。
本申请第四方面提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面提出的样本数据的处理方法。
本申请第五方面提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面提出的样本数据的处理方法。
本申请提出的样本数据的处理方法和装置,服务器基于分布式训练任务获取训练样本集,后在训练过程中的每次训练之前选取一个目标样本的数据划分策略,基于目标样本数据划分策略对训练样本集进行划分,生成多个训练样本子集,后分发给多个工作节点进行当次训练。本申请中,在每次模型训练开始前,服务器从多个候选的样本数据划分策略中选取一个确定为目标样本数据划分策略,服务器基于不同的样本数据划分策略对训练样本数据进行数据处理,使得全部轮次的模型训练过程能够有机会使用不同类型的样本数据划分策略,并分发给工作节点进行局部模型训练。全部轮次的模型训练过程中,服务器能够有机会选取不同的样本数据划分策略,使得每次的模型训练可以基于获取到的不同的训练样本集进行训练,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得每一轮次的模型训练可以基于不同的训练样本子集得到充分的训练,进而保障了模型分布式训练的模型效果和收敛速率。
应当理解,本申请所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一实施例的样本数据的处理方法的流程示意图;
图2为本申请另一个实施例的样本数据的处理方法的流程示意图;
图3为本申请另一个实施例的样本数据的处理方法的流程示意图;
图4为本申请另一个实施例的样本数据的处理方法的应用示意图;
图5为本申请另一个实施例的样本数据的处理方法的流程示意图;
图6为本申请另一个实施例的样本数据的处理方法的流程示意图;
图7为本申请另一个实施例的样本数据的处理方法的流程示意图;
图8为本申请一个实施例的样本数据的处理装置的结构示意图;
图9为本申请另一个实施例的样本数据的处理装置的结构示意图;
图10为本申请一个实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图描述本申请实施例的样本数据划分的方法、装置、电子设备和存储介质。
图1为本申请一实施例的样本数据的处理方法的流程示意图。该样本数据的处理方法由服务器执行,该服务器为分布式系统中的服务器,可以对机器学习模型进行分布式训练。在该分布式系统中还包括多个工作节点(worker)每个工作节点可以负责对本地模型进行训练。
如图1所示,该样本数据处理方法包括:
S101,服务器获取分布式训练任务的训练样本集。
训练样本集为用于模型训练的数据集,基于训练样本集执行算法并输出运算结果,根据输出的结果对构建的模型进行调试,同时,将运算的过程及结果存储于构建的模型中,进而完成模型的训练。故而,训练样本集的组成数据具有数量大、有效性强、覆盖面广的基础特性。
本申请实施例中,服务器可以接收分布式训练任务,并基于分布式训练任务,可以获取训练任务的配置信息,基于该配置信息获取训练样本集。可选地,训练任务的配置信息可以包括训练所需要的训练样本的相关信息。基于训练样本的相关信息实时采集用于分布式训练任务的训练样本集。其中,训练所需要的训练样本的相关信息可以包括样本采集类型、样本采集对象、样本采集时刻等相关信息。
可选地,分布式训练任务的配置信息中还可以包括样本配置文件,从样本配置文件中直接提取出用于分布式训练任务的训练样本集。
S102,服务器在每次进行模型训练之前从多个候选样本数据划分策略中,选取一个目标样本数据划分策略。
分布式模型训练中存在不同的候选样本数据划分策略,根据不同的训练任务,结合用户的需求,服务器可以在候选样本数据划分策略中,选取一个候选样本数据划分策略,作为目标样本数据划分策略,比如,基于随机采样的样本划分策略、基于全部的置乱切分的样本划分策略以及基于局部的置乱切分的样本划分策略等等。
实现中,分布式模型训练需要基于样本对模型进行多次训练,通过多次训练过程中的各个工作节点根据优化方法进行的模型训练,以及局部训练完毕后的模型的聚合、更新方式的累积,使得训练完成后的模型可以更加有效的逼近很多困难问题的决策边界。
不同的候选样本数据划分策略,具有不同的优点和缺点。由于对训练样本集划分方式的不同,使得生成的训练样本子集以及模型聚合更新的过程存在差异,进而导致了不同的候选样本数据划分策略,可以产生不同的模型训练效果。
可结合如下示例理解,比如,基于随机采样的样本划分策略,该划分策略的优点是,可以保证每个工作节点上的训练样本子集与练样本集是独立同分布的,因此在模型训练效果上有理论保障,但是当训练样本集规模较大时,该方法无法做到对训练样本集的充分利用,可能导致部分标注的稀有训练样本集的资源浪费。
再比如,基于全部的置乱切分的样本划分策略,具体的实施方法为,该划分策略的优点是,可以让各个工作节点上训练样本子集更加接近的满足数据独立同分布的假设,同时置乱操作的复杂度远低于有放回的随机抽样,但是,因为切分后的训练样本子集的不独立性,导致收敛速度较基于随机采样的样本划分策略的方法有所降低。
本申请实施例中,在每一轮次的模型训练开始前,服务器会从不同的候选的样本数据划分策略中,选取一种确认为目标样本数据划分策略,使得在全部轮次的训练过程中,能够有机会使用不同类型的样本数据划分策略,进而使得不同的样本数据划分策略有点得到充分的利用,实现了对于训练样本集的高效动态的划分。
其中,每一轮次选取不同的样本数据划分策略作为目标样本数据划分策略,可以使得每一种样本数据划分策略的缺点被最大限度的规避和淡化,提高了训练样本集划分有效性。
S103,服务器基于目标样本数据划分策略,对训练样本集进行划分,生成多个训练样本子集。
本申请实施例中,在每次模型训练开始之前,服务器可以基于选取的目标样本数据划分策略对训练样本集进行划分,进而生成多个训练样本子集。
其中,生成的样本子集可以为各工作节点的局部模型训练提供训练样本。
S104,服务器将多个训练样本子集分发给多个工作节点进行当次模型训练。
本申请实施例中,基于训练样本集进行划分生成多个训练样本子集后,服务器可以将训练样本子集分别发送给多个工作节点,作为各工作节点的本地数据。
进一步地,各工作节点获取到作为本地数据的训练样本子集后,进行局部模型训练,进而完成当次的全局模型训练。
本申请提出的样本数据划分的方法,服务器基于分布式训练任务获取训练样本集,后在训练过程中的每次训练之前选取一个目标样本的数据划分策略,基于目标样本数据划分策略对训练样本集进行划分,生成多个训练样本子集,后分发给多个工作节点进行当次训练。本申请中,在每次模型训练开始前,服务器从多个候选的样本数据划分策略中选取一个确定为目标样本数据划分策略。服务器基于不同的样本数据划分策略对训练样本数据进行数据处理,使得模型训练过程中能够有机会使用不同类型的样本数据划分策略,并分发给工作节点进行局部模型训练。全部轮次的模型训练过程中,服务器能够有机会选取不同的样本数据划分策略,使得每次的模型训练可以基于获取到的不同的训练样本集进行训练,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得每一轮次的模型训练可以基于不同的训练样本子集得到充分的训练,进而保障了模型分布式训练的模型效果和收敛速率。
图2为本申请另一个实施例的样本数据处理方法的流程示意图。如图2所示,该样本数据处理方法包括:
S201,服务器获取分布式训练任务的训练样本集。
步骤S201可参见上述S101相关内容,此处不再赘述。
S202,服务器获取候选样本数据划分策略对应的概率区间,其中,每个候选样本数据划分策略概率区间拼接形成全概率。
本申请实施例中,每个候选样本数据划分策略可以具有不同的概率区间,其中,不同的候选样本数据划分策略对应的概率区间拼接可以形成全概率100%。可选地,服务器可以按照需求为不同的候选样本数据划分策略配置对应的概率区间。比如,服务器可以按照多个候选样本数据划分策略的配置顺序,为每个候选样本数据划分策略配置一个对应的概率区间,需要说明的是,配置的所有概率区间相加后形成全概率100%。
S203,服务器针对每次模型训练,生成随机数,并确定随机数所处的目标概率区间。
S204,服务器将目标概率区间对应的候选样本数据划分策略,确定目标样本数据划分策略。
为保证每次训练开始前,服务器可以重新从候选样本数据划分策略中确定目标样本数据划分策略,本申请实施例中,服务器可以在每次训练开始之前,生成随机数,其中,生成的随机数处于0~1区间内,例如,可以基于随机数生成器生成0~1区间内的随机数。由于处于0~1之间的随机数可以表征为概率数据,故而,可以根据随机数对应的概率数据,确定随机数所属的目标概率区间。
本申请实施例中,可以通过随机数生成器每次生成一个0~1之间的随机数,服务器根据候选数据样本划分策略对应的概率区间的端点值判断随机数所属的目标概率区间,将该目标概率区间对应的候选数据样本划分策略确定为目标样本数据划分策略,后根据目标样本数据划分策略对训练样本集进行划分。
图3示出了服务器利用随机数落入的区间生成样本划分策略的示意应用,如图3所示,设定P1为基于随机采样的样本划分策略对应的概率区间、P2为基于全局的置乱切分的的样本划分策略对应的概率区间、P3为基于局部的置乱切分的样本划分策略对应的概率区间,设定概率区间P1的端点值为0~40%,概率区间P2的端点值为40%~75%,概率区间P3的端点值为75%~100%。
随机数产生器当次训练生成的随机数为0.66,换算成百分比为66%,可以判断40%<66%<75%,随机数0.66所属的概率区间为P2,进而确定P2概率区间所对应的基于全局的置乱切分的的样本划分策略为目标样本数据划分策略。
本申请实施例中,服务器根据随机数落入的目标概率区间选择对应的候选样本数据划分策略,并将该候选样本数据划分策略确定为目标样本数据划分策略。
如图3所示,当随机数所属目标概率区间为P1时,则确定的目标样本数据划分策略为基于随机采样的样本划分策略;当随机数所属的目标概率区间为P2时,则确定的目标样本数据划分策略为基于全局的置乱切分的的样本划分策略;当随机数所属的目标概率区间为P3时,则确定的目标样本数据划分策略为基于局部的置乱切分的样本划分策略。
S205,服务器基于目标样本数据划分策略,对训练样本集进行划分,生成多个训练样本子集。
本申请实施例中,基于确定的目标样本数据划分策略对训练样本集进行划分,生成多个训练样本子集。
S206,服务器将多个训练样本子集分发给多个工作节点进行当次模型训练。
可选地,当目标样本数据划分策略为基于随机采样的样本划分策略时,样本处理方法为在训练样本集中进行有放回的随机采样,然后按照每个工作节点的容量为其分配相应数量的训练样本子集。
可选地,当目标样本数据划分策略为基于全局的置乱切分的的样本划分策略时,样本处理方法为将训练样本集数据进行乱序排列,然后按照工作节点的个数将打乱后的训练样本子集分配到各个工作节点上。每个工作节点只利用分配给自己的训练样本子集进行模型训练。当划分到本地的训练样本子集被优化算法依照顺序使用完一遍之后,再进行全局的训练样本子集打乱和重新分配,让各个工作节点上训练样本子更加接近的满足数据独立同分布的假设。
可选地,当目标样本数据划分策略为基于局部的置乱切分的样本划分策略时,样本处理方法为将训练样本集数据进行乱序排列,然后按照工作节点的个数将打乱后的训练样本子集分配到各个工作节点上。每个工作节点只利用分配给自己的训练样本子集进行模型训练。当划分到本地的训练样本子集被优化算法依照顺序使用完一遍之后,仅对本地训练样本子集进行局部打乱和分配。
本申请提出的样本数据处理方法,获取样本数据划分策略对应的概率区间,针对每次训练产生的单一随机数所对应的概率区域确定为目标概率区间,根据目标概率区间对应的候选样本数据划分策略确定目标样本数据划分策略。本申请中,在每次模型训练开始前,随机数产生的不确定性,使得每次的模型训练可以基于获取到的不同的训练样本集进行训练,实现了目标样本数据划分策略的随机性选取,使得全部轮次的模型训练过程能够有机会使用不同的样本数据划分策略,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得每一轮次的模型训练可以基于不同的训练样本子集得到充分的训练,进而保障了模型分布式训练的模型效果和收敛速率。
为进一步理解上述实施例,可结合图4,图4为本申请另一个实施例的样本数据处理方法的流程示意图。如图4所示,该样本数据处理方法包括:
S401,服务器获取候选样本数据划分策略的被选中概率。
本申请实施例中,根据不同的算法,服务器可以获取到不同的候选样本数据划分策略在当次训练中被选中的概率。
作为一种可能实现的方式,服务器可以基于候选样本数据划分策略的数量,等概率配置候选样本数据划分策略的被选中概率。
等概率,可以理解为具有相同的被选中的概率,比如在随机抽样中,每个样品具有相同的被抽中的概率,可以理解为每个样品被抽中的概率是等概率。
可以等概率配置样本数据划分策略被选中的概率,获取所有候选样本数据划分策略的数量,根据设定的算法生成每个候选样本数据策略被选中的概率。比如,所有的候选样本数据划分策略的数量共计4个,将4作为被除数,用100%作为除数,可以得到,每个候选样本数据划分策略被选中的概率均为25%。
作为另一种可能实现的方式,服务器可以获取候选样本数据划分策略的权重值,基于权重值,生成候选样本数据划分策略的被选中概率。
权重值,指用来描述某一因素或者指标相对于某一事物的重要程度的数值,权重值可以通过划分多个层次指标进行判断和计算。不同的候选样本数据划分策略的权重值可以由用户自行配置,在每次模型训练开始之前,根据用户配置的权重选取相应的候选样本数据划分策略。
本申请实施例中,用户可以基于模型训练的输出模型效果,为不同的候选样本数据划分策略分别配置权重值,服务器可以将不同的候选样本数据划分策略的权重值转换成对应的候选样本数据划分策略的被选中概率。
其中,全部的候选样本数据划分策略的权重值的加和结果为1。
比如,全部的候选样本数据划分策略包括三种,分别为策略A、策略B以及策略C,则可以设定策略A的权重值为0.5,策略B的权重值为0.3,策略C的权重值为0.2,进一步的,将全部的候选样本数据划分策略的权重值转换成候选样本数据划分策略被选中概率,则策略A被选中的概率为50%,策略B被选中的概率为30%,策略C被选中的概率为20%。
需要特别说明的是,当用户为某一种候选样本数据划分策略的权重配置为1,其他候选样本数据划分策略的权重值被配置为0时,权重值为1的候选样本数据划分策略,在每一轮次的模型训练开始前,可以被选中作为目标样本数据划分策略的概率为100%。
作为另一种可能实现的方式,服务器可以获取分布式训练任务的配置信息,以及服务器基于配置信息,获取候选样本数据划分策略的被选中概率。如图5所示,图5为本申请另一实施例的样本数据处理方法的流程示意图,该方法包括如下:
S501,服务器获取分布式训练任务的配置信息。
分布式训练任务的配置信息,包括训练样本集的样本数量、模型训练时的小批量规模、分布式训练工作节点的数量以及不同场景下模型训练轮数等配置参数。服务器可以根据配置参数,动态地计算不同的候选样本数据划分策略在全部轮次的分布式模型训练中所对应的最佳被选中概率。
不同的配置信息影响候选样本数据划分策略在对训练样本集进行划分时的运算复杂度和基于并行随机梯度下降时的收敛速率,因此,服务器可以基于该运算复杂度和收敛速率,获取候选样本数据划分策略的被选中概率。
S502,服务器基于配置信息,获取候选样本数据划分策略在对训练样本集进行划分时的运算复杂度,以及基于并行随机梯度下降时的收敛速率。
设定候选样本数据划分策略为基于随机采样的样本划分策略、基于全局的置乱切分的样本划分策略以及基于局部的置乱切分的样本划分策略,设定模型分布式训练的初始化配置为训练样本集的样本数量为n,模型训练是的小批量规模为b,分布式训练工作节点的数量为K,不同场景下模型训练的轮数为E。
则不同的候选样本数据划分策略的运算复杂度的计算方法如下:
对于样本数量为n的训练样本集,基于随机采样的样本划分策略,进行n次有放回抽样的复杂度为O1=O(n)(公式1);
基于全局的置乱切分的样本划分策略,进行一次全局置乱运算的复杂度为O2=O(log n)(公式2);
基于局部的置乱切分的样本划分策略,仅对划分后的分配至各个工作节点的训练样本子集进行一次局部置乱运算的复杂度为O3=O(log n/K)(公式3)。
不同的候选样本数据划分策略的并行随机梯度下降时的收敛速率的计算方法如下:
当目标函数是光滑的,带有随机采样的样本划分策略的并行随机梯度下降法的收敛速率为
带有全局的置乱切分的样本划分策略的并行随机梯度下降法的收敛速率为
带有局部的置乱切分的样本划分策略的并行随机梯度下降法的收敛速率为
S503,服务器基于运算复杂度和收敛速率,获取候选样本数据划分策略的被选中概率。
本申请实施例中,获取到运算复杂度和收敛速率后,可以根据算法的规则获取到候选样本数据划分策略的被选中概率。为了更好的理解步骤S503,可结合图6,如图6所示,该方法如下:
S601,服务器基于运算复杂度和收敛速率,获取所有的候选样本数据的合计复杂度。
S602,服务器针对每个候选样本数据划分策略,基于候选样本数据划分策略的运算复杂度和收敛速率,获取所有的候选样本数据的合计复杂度,以及候选样本数据划分策略的第一总复杂度。
对不同的候选样本数据划分策略的采样/划分运算复杂度和训练收敛速率的合计复杂度进行归一化,归一化后,不同的候选样本数据划分策略的采样/划分运算复杂度和训练收敛速率的第一总复杂度计算方法如下:
归一化后基于随机采样的样本划分策略的采样操作和训练收敛的第一总复杂度为
归一化后基于全局的置乱切分的样本划分策略的操作和训练收敛的第一总复杂度为
归一化后基于局部的置乱切分的样本划分策略的操作和训练收敛的第一总复杂度为
S603,服务器基于候选样本数据划分策略的第一总复杂度和合计复杂度,获取候选样本数据划分策略的被选中概率。
基于候选样本数据划分策略的第一总复杂度和合计复杂度,计算每一轮迭代中,三种候选样本数据划分策略被选中的概率。
基于随机采样的样本划分策略被选中的概率为:
基于全局的置乱切分的样本划分策略被选中的概率为:
基于局部的置乱切分的样本划分策略被选中的概率为
其中,为了减少模型训练的计算开销,第一总复杂度高的方法被选用的概率应更低一些。
需要特别说明的是,上述实施例提出的基于随机采样的样本划分策略、基于全局的置乱切分的的样本划分策略以及基于局部的置乱切分的样本划分策略的候选样本数据划分策略仅作为本申请的示例,不能作为对本申请的限制。
S402,服务器基于被选中概率和预设的划分策略顺序,确定候选样本数据划分策略对应的概率区间端点值。
本申请实施例中,服务器根据候选样本数据划分策略被选中的概率和预设的候选样本数据划分策略的排序,可以确定候选样本划分策略对应的概率区间的端点值。
可选地,候选样本数据划分策略被选中的概率为等概率时,服务器可以预先设定好候选样本数据划分策略的排序,根据排列的顺序进行概率区间的划分。比如,候选样本数据划分策略分别包括策略1、策略2以及策略3,且三者预设的顺序为策略1首位,其次是策略2,策略3排序为第3位,则候选样本数据划分策略对应的概率区间的端点值为策略1的端点值为0和1/3,策略2的端点值为1/3和2/3,策略3的端点值为2/3和1。
可选地,候选样本数据划分策略根据权重值或者动态计算等运算方法确定被选中的概率,服务器可以根据运算出的对应的候选样本数据划分策略的被选中概率进行排序,并将不同的候选样本数据划分策略被选中的概率值作为对应的概率区间的端点值。比如,候选样本数据划分策略分别包括策略1、策略2以及策略3,且三者的被选中概率的运算结果为策略1的被选中概率为33%,策略2的被选中概率为47%,策略3的被选中概率为79%,则策略1的端点值为0和33%,策略2的端点值为33%和47%,策略3的端点值为47%和100%。
S403,服务器基于概率区间端点值,生成候选样本数据划分策略对应的概率区间。
本申请实施例中,服务器基于确定的概率区间的端点值可以生成候选样本数据划分策略对应的概率区间,以步骤S504中的示例为例。
可选地,当候选样本数据划分策略被选中的概率为等概率时,策略1的端点值为0和1/3,策略2的端点值为1/3和2/3,策略3的端点值为2/3和1,生成的对应的概率区间为策略1为0~1/3,策略2为1/3~2/3,策略3为2/3~1。
可选地,当候选样本数据划分策略根据权重值或者动态计算等运算方法确定被选中的概率时,策略1的端点值为0和33%,策略2的端点值为33%和47%,策略3的端点值为47%和100%,则生成的对应的概率区间为策略1为0~33%,策略2为33%~47%,策略3为47%~100%。
本申请提出的样本数据处理方法,服务器根据不同的算法获取候选样本数据划分策略的被选中概率,基于获取的被选中概率和预设的顺序确定候选样本数据划分策略对应的概率区间的端点值,进而生成候选样本数据划分策略对应的概率区间。本申请中,服务器基于不同的算法获取候选样本数据划分策略的被选中概率,进而生成不同的候选样本数据划分策略对应的概率区间,强化了目标概率区间选择的不确定性,使得每次的模型训练可以基于获取到的不同的训练样本集进行训练,实现了目标样本数据划分策略的随机性选取,使得全部轮次的模型训练过程能够有机会使用不同的样本数据划分策略,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得每一轮次的模型训练可以基于不同的训练样本子集得到充分的训练,进而保障了模型分布式训练的模型效果和收敛速率。
为更好理解上述实施例,可结合图7,图7示出了模型分布式训练的整体流程,如图7所示,包括:
S701,服务器确定目标样本数据划分策略。
S702,服务器基于目标样本数据划分策略对训练样本集进行划分,生成训练样本子集。
S703,服务器将训练样本子集分发到分布式训练的各个工作节点上。
S704,各工作节点并行的进行局部模型训练。
S705,是否完成当次训练。
S706,模型训练轮次加一。
S707,是否完成指定的模型训练轮数。
S708,训练完成,输出最终模型。
本申请实施例中,服务器获取到的分布式训练的初始化配置,并确定目标样本数据划分策略后,进行样本训练集的划分,生成样本训练子集,并发送至模型的各个节点进行局部模型训练。完成当次训练后,进入步骤S707进行判定,若当次训练未完成,则返回步骤S706重新进行各个工作节点的局部模型训练,若完成了当次训练,则进入下一轮次的模型训练。完成全部轮次的模型训练后,进入步骤S707进行判定,若指定的模型训练轮次并未完成,则返回步骤S704重新根据目标样本数据划分策略划分训练样本集,生成新的训练样本子集,再次进入新一轮的模型训练中,若指定的模型训练轮次全部完成,则可以结束模型训练并输出最终模型。
本申请提出的样本数据处理方法,服务器获取初始化配置并确定目标样本数据划分策略,基于确定的目标样本数据划分策略划分训练样本集,生成训练样本子集,并发送至各工作节点进行局部模型训练,局部模型训练结束后判定是否完成当次训练。若没有完成当次训练,则各个工作节点重新开始当次的模型训练,若完成当次训练,则可以进入下一轮次的模型训练。指定轮次的模型训练结束后,再次进入判定。若没有完成指定轮次的模型训练,则从训练样本集划分开始再一次的模型训练,若已经完成指定轮次的全部模型训练,则训练结束,并输出最终的训练模型。本申请中,服务器根据不同的规则,从多个候选的样本数据划分策略中选取一个作为目标样本数据划分策略。服务器基于不同的样本数据划分策略对训练样本数据进行数据处理,并分发给工作节点进行局部模型训练。全部轮次的模型训练过程中,服务器能够有机会选取不同的样本数据划分策略,使得每次的模型训练可以基于获取到的不同的训练样本集进行训练,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得每一轮次的模型训练可以基于不同的训练样本子集得到充分的训练,进而保障了模型分布式训练的模型效果和收敛速率。
与上述几种实施例提出的样本数据处理方法相对应,本申请的一个实施例还提出了一种样本数据处理装置,由于本申请实施例提出的样本数据处理装置与上述几种实施例提出的样本数据处理方法相对应,因此上述样本数据处理方法的实施方式也适用于本申请实施例提出的图样本数据处理装置,在下述实施例中不再详细描述。
图8为本申请一实施例的样本数据处理装置的结构示意图,如图8所示,样本数据处理装置800,包括获取模块81、策略选取模块82、样本划分模块83、发送模块84,其中:
获取模块81,用于获取分布式训练任务的训练样本集;
策略选取模块82,用于在每次进行模型训练之前从多个候选样本数据划分策略中,选取一个目标样本数据划分策略;
样本划分模块83,用于基于目标样本数据划分策略,对训练样本集进行划分,生成多个训练样本子集;
发送模块84,用于将多个训练样本子集分发给多个工作节点进行当次训练。
本申请提出的样本数据划分的装置,基于分布式训练任务获取训练样本集,后在训练过程中的每次训练之前选取一个目标样本的数据划分策略,基于目标样本数据划分策略对训练样本集进行划分,生成多个训练样本子集,后分发给多个工作节点进行当次训练。本申请中,在每次模型训练开始前,从多个候选的样本数据划分策略中选取一个作为目标样本数据划分策略,服务器基于不同的样本数据划分策略对训练样本数据进行数据处理,并分发给工作节点进行局部模型训练。全部轮次的模型训练过程中,服务器能够有机会选取不同的样本数据划分策略,使得每次的模型训练可以基于获取到的不同的训练样本集进行训练,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得不同样本数据划分策略的优点被充分利用,保障了分布式训练的模型效果和收敛速率。
图9为本申请一实施例的样本数据处理装置的结构示意图,如图9所示,样本数据处理装置900,包括获取模块91、策略选取模块92、样本划分模块93、发送模块94,其中:
获取模块81、策略选取模块82、样本划分模块83、发送模块84与获取模块91、策略选取模块92、样本划分模块93、发送模块94,具有相同的结构和功能。
本申请实施例中,策略选取模块92,包括:
概率区间获取单元921,用于获取候选样本数据划分策略对应的概率区间,其中,每个候选样本数据划分策略概率区间拼接形成全概率;
随机数生成单元922,用于针对每次模型训练,生成随机数,并确定随机数所处的目标概率区间;
策略选取单元923,用于将目标概率区间对应的候选样本数据划分策略,确定目标样本数据划分策略。
本申请实施例中,概率区间获取单元921,包括:
概率获取子单元9211,用于获取候选样本数据划分策略的被选中概率;
端点值获取子单元9212,用于基于被选中概率和预设的划分策略顺序,确定候选样本数据划分策略对应的概率区间端点值;
区间生成子单元9213,用于基于概率区间端点值,生成候选样本数据划分策略对应的概率区间。
本申请实施例中,概率获取子单元9211,进一步用于基于候选样本数据划分策略的数量,等概率配置候选样本数据划分策略的被选中概率。
本申请实施例中,概率获取子单元9211,进一步用于获取候选样本数据划分策略的权重值,基于权重值,生成所选样本数据划分策略的被选中概率。
本申请实施例中,概率获取子单元9211,进一步用于获取分布式训练任务的配置信息;服务器基于配置信息,获取候选样本数据划分策略的被选中概率。
本申请实施例中,概率获取子单元9211,进一步用于基于配置信息,获取候选样本数据划分策略在对训练样本集进行划分时的运算复杂度,以及基于并行随机梯度下降时的收敛速率;服务器基于运算复杂度和收敛速率,获取候选样本数据划分策略的被选中概率。
本申请实施例中,概率获取子单元9211,进一步用于基于运算复杂度和收敛速率,获取所有的候选样本数据的合计复杂度;服务器针对每个候选样本数据划分策略,基于候选样本数据划分策略的运算复杂度和收敛速率,获取候选样本数据划分策略的第一总复杂度;服务器基于候选样本数据划分策略的第一总复杂度和合计复杂度,获取候选样本数据划分策略的被选中概率。
本申请提出的样本数据处理装置,服务器获取分布式训练任务的训练样本集,在每次训练开始前,根据不同的规则,服务器从多个候选样本数据划分策略中,选取一个作为目标样本数据划分策略,服务器对训练样本集进行划分生成训练样本子集,并分发给各个工作节点,进行当次模型训练。本申请中,在每次模型训练开始前,服务器根据不同的规则,从多个候选的样本数据划分策略中选取一个作为目标样本数据划分策略。服务器基于不同的样本数据划分策略对训练样本数据进行数据处理,并分发给工作节点进行局部模型训练,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得不同样本数据划分策略的优点被充分利用,使得每一轮次的模型训练可以基于不同的训练样本子集得到充分的训练,保障了分布式训练的模型效果和收敛速率。
为达到上述实施例,本申请还提出了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本申请的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,设备1000包括存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序,处理器1020执行程序指令时,实现上述实施例提出的样本数据的处理方法。
本申请实施例提出的电子设备,通过处理器1020执行存储在存储器1010上的计算机程序,服务器获取分布式训练任务的训练样本集,在每次训练开始前,根据不同的规则从多个候选样本数据划分策略中,选取一个作为目标样本数据划分策略,对训练样本集进行划分生成训练样本子集,并分发给各个工作节点,进行当次模型训练。本申请中,在每次模型训练开始前,服务器根据不同的规则,从多个候选的样本数据划分策略中选取一个作为目标样本数据划分策略。服务器基于不同的样本数据划分策略对训练样本数据进行数据处理,并分发给工作节点进行局部模型训练。全部轮次的模型训练过程中,服务器能够有机会选取不同的样本数据划分策略,使得每次的模型训练可以基于获取到的不同的训练样本集进行训练,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得每一轮次的模型训练可以基于不同的训练样本子集得到充分的训练,进而保障了模型分布式训练的模型效果和收敛速率。
本申请实施例提出的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器1020执行时,实现上述实施例提出的样本数据的处理方法。
本申请实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,通过处理器1020执行存储在存储器1010上的计算机程序,服务器获取分布式训练任务的训练样本集,在每次训练开始前,根据不同的规则从多个候选样本数据划分策略中,选取一个作为目标样本数据划分策略,对训练样本集进行划分生成训练样本子集,并分发给各个工作节点,进行当次模型训练。本申请中,在每次模型训练开始前,服务器根据不同的规则,从多个候选的样本数据划分策略中选取一个作为目标样本数据划分策略。服务器基于不同的样本数据划分策略对训练样本数据进行数据处理,并分发给工作节点进行局部模型训练。全部轮次的模型训练过程中,服务器能够有机会选取不同的样本数据划分策略,使得每次的模型训练可以基于获取到的不同的训练样本集进行训练,进而使得不同的样本数据划分策略的优点被充分利用,实现了对于训练样本集的高效动态划分,使得每一轮次的模型训练可以基于不同的训练样本子集得到充分的训练,进而保障了模型分布式训练的模型效果和收敛速率。
本申请实施例提出的一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时,实现上述实施例提出的样本数据的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本身的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(“VirtualPrivate Server”,或简称“VPS”)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合区块链的服务器。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种样本数据的处理方法,其特征在于,包括:
服务器获取分布式训练任务的训练样本集;
所述服务器获取候选样本数据划分策略对应的概率区间,其中,每个所述候选样本数据划分策略概率区间拼接形成全概率;
所述服务器针对每次模型训练,生成随机数,并确定所述随机数所处的目标概率区间;
所述服务器将所述目标概率区间对应的候选样本数据划分策略,确定为目标样本数据划分策略;
所述服务器基于所述目标样本数据划分策略,对所述训练样本集进行划分,生成多个训练样本子集;
所述服务器将所述多个训练样本子集分发给多个工作节点进行当次模型训练。
2.根据权利要求1所述的样本数据的处理方法,其特征在于,所述服务器获取所述候选样本数据划分策略对应的概率区间,包括:
所述服务器获取所述候选样本数据划分策略的被选中概率;
所述服务器基于所述被选中概率和预设的划分策略顺序,确定所述候选样本数据划分策略对应的概率区间端点值;
所述服务器基于所述概率区间端点值,生成所述候选样本数据划分策略对应的概率区间。
3.根据权利要求2所述的样本数据的处理方法,其特征在于,所述服务器获取所述候选样本数据划分策略的被选中概率,包括:
所述服务器基于所述候选样本数据划分策略的数量,等概率配置所述候选样本数据划分策略的被选中概率。
4.根据权利要求2所述的样本数据的处理方法,其特征在于,所述服务器获取所述候选样本数据划分策略的被选中概率,包括:
所述服务器获取所述候选样本数据划分策略的权重值,基于所述权重值,生成所述候选样本数据划分策略的被选中概率。
5.根据权利要求2所述的样本数据的处理方法,其特征在于,所述服务器获取所述候选样本数据划分策略的被选中概率,包括:
所述服务器获取所述分布式训练任务的配置信息;
所述服务器基于所述配置信息,获取所述候选样本数据划分策略的被选中概率。
6.根据权利要求5所述的样本数据的处理方法,其特征在于,所述服务器基于所述配置信息,获取所述候选样本数据划分策略的被选中概率,包括:
所述服务器基于所述配置信息,获取所述候选样本数据划分策略在对所述训练样本集进行划分时的运算复杂度,以及基于并行随机梯度下降时的收敛速率;
所述服务器基于所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略的被选中概率。
7.根据权利要求6所述的样本数据的处理方法,其特征在于,所述服务器基于所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略被选中的概率,包括:
所述服务器基于所述运算复杂度和所述收敛速率,获取所有的所述候选样本数据的合计复杂度;
所述服务器针对每个所述候选样本数据划分策略,基于所述候选样本数据划分策略的所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略的第一总复杂度;
所述服务器基于所述候选样本数据划分策略的第一总复杂度和所述合计复杂度,获取所述候选样本数据划分策略的被选中概率。
8.一种样本数据的处理装置,其特征在于,包括
获取模块,用于获取分布式训练任务的训练样本集;
策略选取模块,用于在每次进行模型训练之前从多个候选样本数据划分策略中,选取一个目标样本数据划分策略;
样本划分模块,用于基于所述目标样本数据划分策略,对所述训练样本集进行划分,生成多个训练样本子集;
发送模块,用于将所述多个训练样本子集分发给多个工作节点进行当次模型训练;
所述策略选取模块,包括:
概率区间获取单元,用于获取所述候选样本数据划分策略对应的概率区间,其中,每个所述候选样本数据划分策略概率区间拼接形成全概率;
随机数生成单元,用于针对每次模型训练,生成随机数,并确定所述随机数所处的目标概率区间;
策略选取单元,用于将所述目标概率区间对应的候选样本数据划分策略,确定为所述目标样本数据划分策略。
9.根据权利要求8所述的样本数据的处理装置,其特征在于,所述概率区间获取单元,包括:
概率获取子单元,用于获取所述候选样本数据划分策略的被选中概率;
端点值获取子单元,用于基于所述被选中概率和预设的划分策略顺序,确定所述候选样本数据划分策略对应的概率区间端点值;
区间生成子单元,用于基于所述概率区间端点值,生成所述候选样本数据划分策略对应的概率区间。
10.根据权利要求9所述的样本数据的处理装置,其特征在于,所述概率获取子单元,进一步用于:
基于所述候选样本数据划分策略的数量,等概率配置所述候选样本数据划分策略的被选中概率。
11.根据权利要求9所述的样本数据的处理装置,其特征在于,所述概率获取子单元,进一步用于:
获取所述候选样本数据划分策略的权重值,基于所述权重值,生成所述候选样本数据划分策略的被选中概率。
12.根据权利要求9所述的样本数据的处理装置,其特征在于,所述概率获取子单元,进一步用于:
获取所述分布式训练任务的配置信息;
基于所述配置信息,获取所述候选样本数据划分策略的被选中概率。
13.根据权利要求12所述的样本数据处理装置,其特征在于,所述概率获取子单元,进一步用于:
基于所述配置信息,获取所述候选样本数据划分策略在对所述训练样本集进行划分时的运算复杂度,以及基于并行随机梯度下降时的收敛速率;
基于所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略的被选中概率。
14.根据权利要求13所述的样本数据处理装置,其特征在于,所述概率获取子单元,进一步用于:
基于所述运算复杂度和所述收敛速率,获取所有的所述候选样本数据的合计复杂度;
针对每个所述候选样本数据划分策略,基于所述候选样本数据划分策略的所述运算复杂度和所述收敛速率,获取所述候选样本数据划分策略的第一总复杂度;
基于所述候选样本数据划分策略的第一总复杂度和所述合计复杂度,获取所述候选样本数据划分策略的被选中概率。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
CN202110368290.5A 2021-04-06 2021-04-06 样本数据的处理方法、装置、电子设备及存储介质 Active CN113822432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110368290.5A CN113822432B (zh) 2021-04-06 2021-04-06 样本数据的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110368290.5A CN113822432B (zh) 2021-04-06 2021-04-06 样本数据的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113822432A CN113822432A (zh) 2021-12-21
CN113822432B true CN113822432B (zh) 2024-02-06

Family

ID=78912435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110368290.5A Active CN113822432B (zh) 2021-04-06 2021-04-06 样本数据的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113822432B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254040A (zh) * 2011-08-15 2011-11-23 哈尔滨工业大学 一种基于支撑向量机的Web划分方法
CN106599798A (zh) * 2016-11-25 2017-04-26 南京蓝泰交通设施有限责任公司 一种面向大数据处理的人脸识别训练方法脸识别方法
CN108876039A (zh) * 2018-06-21 2018-11-23 浙江工业大学 一种基于支持向量机的含分布式电源配电网电能质量预测方法
CN108985327A (zh) * 2018-06-05 2018-12-11 东南大学 一种基于因子分析的地形匹配区自组织优化分类方法
CN109993229A (zh) * 2019-04-02 2019-07-09 广东石油化工学院 一种严重不平衡数据分类方法
CN111259933A (zh) * 2020-01-09 2020-06-09 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN112580902A (zh) * 2021-02-26 2021-03-30 腾讯科技(深圳)有限公司 对象数据处理方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580290B (zh) * 2019-09-12 2022-12-13 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254040A (zh) * 2011-08-15 2011-11-23 哈尔滨工业大学 一种基于支撑向量机的Web划分方法
CN106599798A (zh) * 2016-11-25 2017-04-26 南京蓝泰交通设施有限责任公司 一种面向大数据处理的人脸识别训练方法脸识别方法
CN108985327A (zh) * 2018-06-05 2018-12-11 东南大学 一种基于因子分析的地形匹配区自组织优化分类方法
CN108876039A (zh) * 2018-06-21 2018-11-23 浙江工业大学 一种基于支持向量机的含分布式电源配电网电能质量预测方法
CN109993229A (zh) * 2019-04-02 2019-07-09 广东石油化工学院 一种严重不平衡数据分类方法
CN111259933A (zh) * 2020-01-09 2020-06-09 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN112580902A (zh) * 2021-02-26 2021-03-30 腾讯科技(深圳)有限公司 对象数据处理方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主动学习的加权支持向量机的分类;鲍翠梅;;计算机工程与设计(04);全文 *

Also Published As

Publication number Publication date
CN113822432A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN107656807B (zh) 一种虚拟资源的自动弹性伸缩方法及装置
US8572621B2 (en) Selection of server for relocation of application program based on largest number of algorithms with identical output using selected server resource criteria
CN106844405A (zh) 数据查询方法和装置
WO2013155417A2 (en) Data coreset compression
CN114500339B (zh) 一种节点带宽监测方法、装置、电子设备及存储介质
US9934325B2 (en) Method and apparatus for distributing graph data in distributed computing environment
CN116680060A (zh) 面向异构计算系统的任务分配方法、装置、设备和介质
CN115237595A (zh) 数据处理方法、装置、分发服务器、系统及存储介质
CN113822432B (zh) 样本数据的处理方法、装置、电子设备及存储介质
CN112445776A (zh) 基于Presto的动态分桶方法、系统、设备及可读存储介质
CN109918401B (zh) 建筑工程清单数据处理方法、装置、存储介质和计算机设备
Fukunaga et al. Virtual machine placement for minimizing connection cost in data center networks
US10609132B2 (en) Hash data structure biasing
CN115883357A (zh) 一种软负载服务器处理方法、装置、电子设备及介质
CN113434270A (zh) 数据资源调度方法、装置、电子设备及存储介质
CN113283879A (zh) 一种施工量的确定方法、装置、电子设备及可读存储介质
US11502971B1 (en) Using multi-phase constraint programming to assign resource guarantees of consumers to hosts
EP3804381A1 (en) Cellular telecommunications network
CN113687939A (zh) 资源的分配方法、装置和非易失性计算机可读存储介质
CN111597396A (zh) 异构网络社群检测方法、装置、计算机设备及存储介质
CN114900562B (zh) 一种资源获取方法、装置、电子设备和存储介质
CN112463576B (zh) 云计算性能测试方法、装置、设备及存储介质
CN112101570B (zh) 一种模型训练和使用方法、装置、设备及存储介质
CN113900731B (zh) 请求处理方法、装置、设备和存储介质
CN111651125B (zh) 一种分布式系统中存储区块的确定方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant