CN112085208A - 一种利用云端进行模型训练的方法及装置 - Google Patents

一种利用云端进行模型训练的方法及装置 Download PDF

Info

Publication number
CN112085208A
CN112085208A CN202010755736.5A CN202010755736A CN112085208A CN 112085208 A CN112085208 A CN 112085208A CN 202010755736 A CN202010755736 A CN 202010755736A CN 112085208 A CN112085208 A CN 112085208A
Authority
CN
China
Prior art keywords
processor
cloud
model training
data set
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010755736.5A
Other languages
English (en)
Other versions
CN112085208B (zh
Inventor
余虹建
李锦丰
李秋庆
朱军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Juyun Technology Co ltd
Original Assignee
Beijing Juyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Juyun Technology Co ltd filed Critical Beijing Juyun Technology Co ltd
Priority to CN202010755736.5A priority Critical patent/CN112085208B/zh
Publication of CN112085208A publication Critical patent/CN112085208A/zh
Application granted granted Critical
Publication of CN112085208B publication Critical patent/CN112085208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开一种利用云端进行模型训练的方法及装置,涉及计算机技术领域,能够有效提高模型训练对云端资源的利用效率。所述方法包括:向第一云端的第一处理器发送模型训练任务所需的训练数据集;向所述第一云端的第二处理器发送所述模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。本发明可应用于机器学习的模型训练中。

Description

一种利用云端进行模型训练的方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种利用云端进行模型训练的方法及装置。
背景技术
近年来,人工智能技术在产业和生活中得到了越来越广泛的应用。机器学习作为人工智能领域的一个重要分支,能够通过大量的训练数据,得到较为理想的数学模型。
由于模型训练需要对大量的数据执行复杂的计算,本地资源或用户私有云(private cloud)资源常常难以单独支撑,因此,常常需要借助公有云(public cloud)资源的帮助来实现模型训练任务。然而,由于模型训练涉及的数据量巨大,在不同的云端之间进行数据传输的过程首先就会耗费大量的时间并占用宝贵的计算资源,导致模型训练任务整体对云端资源的利用效率较低。
发明内容
有鉴于此,本发明实施例提供一种利用云端进行模型训练的方法、装置、电子设备及存储介质,能够有效提高模型训练对云端资源的利用效率。
第一方面,本发明实施例提供一种利用云端进行模型训练的方法,包括:
向第一云端的第一处理器发送模型训练任务所需的训练数据集;
向所述第一云端的第二处理器发送所述模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。
可选的,所述向第一云端的第一处理器发送模型训练任务所需的训练数据集包括:
指示所述第一云端开启第一处理器并部署存储引擎;
向所述第一处理器发送模型训练任务所需的训练数据集,并通过所述存储引擎存储所述训练数据集。
可选的,所述向所述第一云端的第二处理器发送所述模型训练任务包括:
指示所述第一云端开启所述第二处理器;
向所述第二处理器发送所述模型训练任务。
可选的,所述指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练包括:
获取所述第一处理器对所述训练数据集的存储地址;
指示所述第二处理器通过所述存储地址获取所述训练数据集,以利用所述训练数据集进行模型训练。
可选的,所述向所述第一云端的第一处理器发送模型训练任务所需的训练数据集之前,所述方法还包括:
根据模型训练任务对计算能力和存储能力的需求,从所述第一云端满足所述需求的服务器中选择所述第一处理器和所述第二处理器,以使所述第一处理器和所述第二处理器之间的距离最小。
可选的,所述指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练之后,所述方法还包括:
当接收到需要使用所述训练数据集的其他训练任务时,指示执行所述其他训练任务的服务器从所述第一云端的获取所述训练数据集,其中,执行所述其他训练任务的服务器位于所述第一云端或位于所述第一云端之外。
第二方面,本发明的实施例还提供一种利用云端进行模型训练的方法,包括:
通过第一处理器接收第二云端发送的训练数据集;
通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练。
可选的,所述通过第一处理器接收第二云端发送的训练数据集包括:
根据所述第二云端的指示,开启第一处理器并部署存储引擎;
通过所述第一处理器接收所述第二云端发送的所述训练数据集,并通过所述存储引擎存储所述训练数据集。
可选的,所述通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务包括:
根据所述第二云端的指示,开启所述第二处理器;
通过所述第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务。
可选的,所述利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练包括:
根据所述第二云端的指示,获取所述训练数据集的存储地址;
在所述第二处理器上运行所述模型训练任务,并从所述存储地址读取所述所述训练数据集进行模型训练。
可选的,所述利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练之后,所述方法还包括:
根据所述第二云端的指示,向需要使用所述训练数据集的其他训练任务所在的服务器提供所述训练数据集,其中,执行所述其他训练任务的服务器位于所述第一处理器所在的第一云端或位于所述第一云端之外。
第三方面,本发明的实施例还提供一种利用云端进行模型训练的装置,包括:
第一发送单元,用于向第一云端的第一处理器发送模型训练任务所需的训练数据集;
第二发送单元,用于向所述第一云端的第二处理器发送所述模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
指示单元,用于指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。
可选的,所述第一发送单元包括:
第一指示模块,用于指示所述第一云端开启第一处理器并部署存储引擎;
第一发送模块,用于向所述第一处理器发送模型训练任务所需的训练数据集,并通过所述存储引擎存储所述训练数据集。
可选的,所述第二发送单元包括:
第二指示模块,用于指示所述第一云端开启所述第二处理器;
第二发送模块,用于向所述第二处理器发送所述模型训练任务。
可选的,所述指示单元包括:
第一获取模块,用于获取所述第一处理器对所述训练数据集的存储地址;
第三指示模块,用于指示所述第二处理器通过所述存储地址获取所述训练数据集,以利用所述训练数据集进行模型训练。
可选的,所述装置还包括:
选择单元,用于在向所述第一云端的第一处理器发送模型训练任务所需的训练数据集之前,根据模型训练任务对计算能力和存储能力的需求,从所述第一云端满足所述需求的服务器中选择所述第一处理器和所述第二处理器,以使所述第一处理器和所述第二处理器之间的距离最小。
可选的,所述指示单元,还用于在指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练之后,当接收到需要使用所述训练数据集的其他训练任务时,指示执行所述其他训练任务的服务器从所述第一云端的获取所述训练数据集,其中,执行所述其他训练任务的服务器位于所述第一云端或位于所述第一云端之外。
第四方面,本发明的实施例还提供一种利用云端进行模型训练的装置,包括:
第一接收单元,用于通过第一处理器接收第二云端发送的训练数据集;
第二接收单元,用于通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
训练单元,用于利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练。
可选的,所述第一接收单元包括:
第一开启模块,用于根据所述第二云端的指示,开启第一处理器并部署存储引擎;
第一接收模块,用于通过所述第一处理器接收所述第二云端发送的所述训练数据集,并通过所述存储引擎存储所述训练数据集。
可选的,所述第二接收单元包括:
第二开启模块,用于根据所述第二云端的指示,开启所述第二处理器;
第二接收模块,用于通过所述第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务。
可选的,所述训练单元包括:
第二获取模块,用于根据所述第二云端的指示,获取所述训练数据集的存储地址;
训练模块,用于在所述第二处理器上运行所述模型训练任务,并从所述存储地址读取所述所述训练数据集进行模型训练。
可选的,所述装置还包括:
提供单元,用于在利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练之后,根据所述第二云端的指示,向需要使用所述训练数据集的其他训练任务所在的服务器提供所述训练数据集,其中,执行所述其他训练任务的服务器位于所述第一处理器所在的第一云端或位于所述第一云端之外。
第五方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种利用云端进行模型训练的方法。
第六方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种利用云端进行模型训练的方法。
第七方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种利用云端进行模型训练的方法。
第八方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种利用云端进行模型训练的方法。
本发明的实施例提供的利用云端进行模型训练的方法、装置、电子设备及存储介质,能够先向第一云端的第一处理器发送模型训练任务所需的训练数据集,再向所述第一云端的第二处理器发送所述模型训练任务,然后指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。这样就将模型训练任务与对应的训练数据集分开传输,由于训练数据集数量巨大,对训练数据集先行传输,待训练数据集传输完毕或基本完毕后,再传输模型训练任务。又由于第二处理器主要用于执行模型训练任务,需要较高的计算性能,而第一处理器仅仅用于对训练数据集进行存储,无需太高计算性能,因此,整体而言,具有较高计算性能的第二处理器仅仅在模型训练阶段开启即可,无需在训练数据集传输过程中开启和运行,因此第二处理器的运行时间被大大缩短,并通过较低计算性能的第一处理器填补第二处理器的空缺,进行训练数据集传输,因此整体而言有效提高了模型对云端资源的利用效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的实施例中利用云端进行模型训练的一种应用场景示意图;
图2为本发明的实施例提供的利用云端进行模型训练的方法的一种流程图;
图3为本发明的实施例提供的利用云端进行模型训练的方法的一种流程图;
图4为本发明的实施例提供的利用云端进行模型训练的装置的一种结构示意图;
图5为本发明的实施例提供的利用云端进行模型训练的装置的一种结构示意图;
图6为本发明的实施例提供的电子设备的一种结构示意图;
图7为本发明的实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在机器学习中,一方面需要具有强大计算能力的计算机进行模型训练,另一方面也需要足够的数据样本来供计算机进行学习。如背景技术所言,由于模型训练需要对大量的数据执行复杂的计算,本地资源或用户私有云资源常常难以单独支撑,因此,常常需要借助公有云资源的帮助来实现模型训练任务。然而,在不同的云端之间进行大量的数据传输本身也会耗费大量的时间并占用宝贵的计算资源,导致模型训练任务整体对云端资源的利用效率较低。
为了提高模型训练任务对云端资源的利用效率,第一方面,本发明的实施例提供了一种利用云端进行模型训练的方法,能够通过用户私有云和公有云之间的高效交互进行模型训练,从而有效提高模型训练对云端资源的利用效率。示例性的,用户私有云与公有云之间的交互示意图可以如图1所示。
如图2所示,本发明的实施例提供的利用云端进行模型训练的方法,基于第二云端中的任务管理服务器,该方法可以包括:
S11,向第一云端的第一处理器发送模型训练任务所需的训练数据集;
可选的,第一云端可以是具有足够运算资源、能够对外提供运算服务的云端,既可以为私有云,也可以为公有云。第二云端可以是资源不足以支撑所述模型训练任务的云端,同样第二云端也可以是私有云或公有云。由于第二云端资源不足,在本步骤中,第二云端与第一云端交互,将模型训练任务所需的训练数据集发送到第一云端的第一处理器。可选的,第一处理器例如可以为CPU。
一项模型训练任务所需的所有训练数据可以形成一个训练数据集(data set)。训练数据集中的数据可以以文件的形式被模型训练服务器读取。由于模型训练所需的数据量巨大,一个训练数据集常常可以包括千万级别的文件数。
S12,向所述第一云端的第二处理器发送所述模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
待步骤S11中的所述训练数据集传输完毕或基本传输完毕后,可以向第一云端的第二处理器发送模型训练任务,该模型训练任务与第一处理器接收的训练数据集相对应。本步骤中,接收模型训练任务的第二处理器的计算能力高于第一处理器的计算能力,例如第二处理器可以为GPU,第一处理器可以为CPU,或者第二处理器为性能较高的GPU,第一处理器可以为性能较低的GPU等。
S13,指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。
由于第一处理器和第二处理器都是第二云端的任务管理服务器选择的,任务管理服务器与第一处理器和第二处理器都有交互,待步骤S11和步骤S12中的训练数据集和模型训练任务都传输完毕后,第二云端的任务管理服务器可以进一步指示第一云端的第二处理器利用第一云端的第一处理器接收的训练数据进行模型训练。
本发明的实施例提供的利用云端进行模型训练的方法,第二云端中的任务管理服务器能够先向第一云端的第一处理器发送模型训练任务所需的训练数据集,再向所述第一云端的第二处理器发送所述模型训练任务,然后指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。这样就将模型训练任务与对应的训练数据集分开传输,由于训练数据集数量巨大,对训练数据集先行传输,待训练数据集传输完毕或基本完毕后,再传输模型训练任务。又由于第二处理器主要用于执行模型训练任务,需要较高的计算性能,而第一处理器仅仅用于对训练数据集进行存储,无需太高计算性能,因此,整体而言,具有较高计算性能的第二处理器仅仅在模型训练阶段开启即可,无需在训练数据集传输过程中开启和运行,因此第二处理器的运行时间被大大缩短,并通过较低计算性能的第一处理器填补第二处理器的空缺,进行训练数据集传输,因此整体而言有效提高了模型对云端资源的利用效率。
可选的,在步骤S11中,向第一云端的第一处理器发送模型训练任务所需的训练数据集具体可以包括:
指示所述第一云端开启第一处理器并部署存储引擎;
向所述第一处理器发送模型训练任务所需的训练数据集,并通过所述存储引擎存储所述训练数据集。
例如,可以向第一云端的第一处理器发送命令,使第一处理器开始运行,并为第一处理器部署对应的存储空间,用于存储接收到的训练数据集。可选的,部署的存储空间既可以位于第一处理器所在的服务器,也可以位于其他服务器,只要所述第一处理器能够对该存储空间进行存储操作即可。
可选的,步骤S12中,向所述第一云端的第二处理器发送所述模型训练任务具体可以包括:
指示所述第一云端开启所述第二处理器;
向所述第二处理器发送所述模型训练任务。
例如,可以向第一云端的第二处理器发送命令,使第二处理器开始运行并接收所述模型训练任务。模型训练任务可以是进行模型训练的代码,运行该代码可以读取相应的训练数据集进行模型训练,得到训练出的模型。
待步骤S11和步骤S12中的训练数据集和模型训练任务都传输完毕后,即可以在步骤S13中进一步指示第一云端的第二处理器利用第一云端的第一处理器接收的训练数据进行模型训练。
具体而言,步骤S13中指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练可以包括:
获取所述第一处理器对所述训练数据集的存储地址;
指示所述第二处理器通过所述存储地址获取所述训练数据集,以利用所述训练数据集进行模型训练。
例如,在本发明的一个实施例中,第二云端的任务管理服务器可以通过第一云端的第一处理器交互,获取第一处理器将训练数据集存储在地址ADDR1,则任务管理服务器可以与第一云端的第二处理器交互,指示所述第二处理器去ADDR1处读取训练数据集。可选的,第二处理器既可以直接去ADDR1读取训练数据集,也可以通过与第一处理器交互,读取ADDR1处存储的训练数据集。
由于模型训练任务的完成可能会需要第二处理器与第一处理器进行交互,为了提高交互效率,在本发明的一个实施例中,在向所述第一云端的第一处理器发送模型训练任务所需的训练数据集之前,本发明的实施例提供的利用云端进行模型训练的方法还可以包括:
根据模型训练任务对计算能力和存储能力的需求,从所述第一云端满足所述需求的服务器中选择所述第一处理器和所述第二处理器,以使所述第一处理器和所述第二处理器之间的距离最小。例如,第一处理器和第二处理器可以位于同一台主机上,或者位于同一个局域网内。
当第二处理器执行完模型训练任务后,上传到第一云端的训练数据集可以继续保留,这样当其他云端的其他模型训练任务也需要使用此训练数据集进行模型训练时,也可以使用,无需花费时间和资源进行数据传输。
具体而言,在本发明的一个实施例中,步骤S13中指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练之后,本发明的实施例提供的利用云端进行模型训练的方法还可以包括:当接收到需要使用所述训练数据集的其他训练任务时,指示执行所述其他训练任务的服务器从所述第一云端的获取所述训练数据集,其中,执行所述其他训练任务的服务器位于所述第一云端或位于所述第一云端之外。
相应的,第二方面,本发明的实施例还提供一种利用云端进行模型训练的方法,能够有效提高模型训练对云端资源的利用效率。
如图3所示,本发明的实施例提供的利用云端进行模型训练的方法,基于第一云端,可以包括:
S21,通过第一处理器接收第二云端发送的训练数据集;
可选的,第一云端可以是具有足够运算资源、能够对外提供运算服务的云端,既可以为私有云,也可以为公有云。第二云端可以是资源不足以支撑所述模型训练任务的云端,同样第二云端也可以是私有云或公有云。由于第二云端资源不足,在本步骤中,第一云端与第二云端交互,通过第一云端的第一处理器接收训练数据集。可选的,第一处理器例如可以为CPU。
一项模型训练任务所需的所有训练数据可以形成一个训练数据集(data set)。训练数据集中的数据可以以文件的形式被模型训练服务器读取。由于模型训练所需的数据量巨大,一个训练数据集常常可以包括千万级别的文件数。
S22,通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
待步骤S21中的所述训练数据集传输完毕或基本传输完毕后,可以通过第二处理器接收第二云端发送的模型训练任务,该模型训练任务与第一处理器接收的训练数据集相对应。
本步骤中,接收模型训练任务的第二处理器的计算能力高于第一处理器的计算能力,例如第二处理器可以为GPU,第一处理器可以为CPU,或者第二处理器为性能较高的GPU,第一处理器可以为性能较低的GPU等。
S23,利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练。
由于第一处理器和第二处理器都是第二云端的任务管理服务器选择的,任务管理服务器与第一处理器和第二处理器都有交互,待步骤S21和步骤S22中的训练数据集和模型训练任务都传输完毕后,第一云端的第二处理器可以根据第二云端中任务管理服务器的进一步指示,利用第一处理器接收的训练数据进行模型训练。
本发明的实施例提供的利用云端进行模型训练的方法,第一云端能够通过第一处理器接收第二云端发送的训练数据集,通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务,利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练。这样就将模型训练任务与对应的训练数据集分开传输,由于训练数据集数量巨大,对训练数据集先行传输,待训练数据集传输完毕或基本完毕后,再传输模型训练任务。又由于第二处理器主要用于执行模型训练任务,需要较高的计算性能,而第一处理器仅仅用于对训练数据集进行存储,无需太高计算性能,因此,整体而言,具有较高计算性能的第二处理器仅仅在模型训练阶段开启即可,无需在训练数据集传输过程中开启和运行,因此第二处理器的运行时间被大大缩短,并通过较低计算性能的第一处理器填补第二处理器的空缺,进行训练数据集传输,因此整体而言有效提高了模型对云端资源的利用效率。
可选的,步骤S21中通过第一处理器接收第二云端发送的训练数据集可以包括:
根据所述第二云端的指示,开启第一处理器并部署存储引擎;
通过所述第一处理器接收所述第二云端发送的所述训练数据集,并通过所述存储引擎存储所述训练数据集。
例如,可以根据第二云端的命令使第一处理器开始运行,并为第一处理器部署对应的存储空间,用于存储接收到的训练数据集。可选的,部署的存储空间既可以位于第一处理器所在的服务器,也可以位于其他服务器,只要所述第一处理器能够对该存储空间进行存储操作即可。
可选的,步骤S22中,通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务可以包括:
根据所述第二云端的指示,开启所述第二处理器;
通过所述第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务。
其中,模型训练任务可以是进行模型训练的代码,运行该代码可以读取相应的训练数据集进行模型训练,得到训练出的模型。
待步骤S21和步骤S22中的训练数据集和模型训练任务都传输完毕后,即可以在步骤S23中利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练,具体可以包括:
根据所述第二云端的指示,获取所述训练数据集的存储地址;
在所述第二处理器上运行所述模型训练任务,并从所述存储地址读取所述所述训练数据集进行模型训练。
例如,在本发明的一个实施例中,第二云端的任务管理服务器可以通过第一云端的第一处理器交互,获取第一处理器将训练数据集存储在地址ADDR1,向第一云端的第二处理器发出指示。所述第二处理器可以根据第二云端的指示,去ADDR1处读取训练数据集。可选的,第二处理器既可以直接去ADDR1读取训练数据集,也可以通过与第一处理器交互,读取ADDR1处存储的训练数据集。
当第二处理器执行完模型训练任务后,上传到第一云端的训练数据集可以继续保留,这样当其他云端的其他模型训练任务也需要使用此训练数据集进行模型训练时,也可以使用,无需花费时间和资源进行数据传输。
具体而言,在本发明的一个实施例中,步骤S23中所述利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练之后,本发明的实施例提供的利用云端进行模型训练的方法还可以包括:根据所述第二云端的指示,向需要使用所述训练数据集的其他训练任务所在的服务器提供所述训练数据集,其中,执行所述其他训练任务的服务器位于所述第一处理器所在的第一云端或位于所述第一云端之外。
相应的,第三方面,本发明的实施例还提供一种利用云端进行模型训练的装置,能够有效提高模型训练对云端资源的利用效率。
如图4所示,本发明的实施例提供的利用云端进行模型训练的装置可以包括:
第一发送单元31,用于向第一云端的第一处理器发送模型训练任务所需的训练数据集;
第二发送单元32,用于向所述第一云端的第二处理器发送所述模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
指示单元33,用于指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。
本发明的实施例提供的利用云端进行模型训练的方法,能够先向第一云端的第一处理器发送模型训练任务所需的训练数据集,再向所述第一云端的第二处理器发送所述模型训练任务,然后指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。这样就将模型训练任务与对应的训练数据集分开传输,由于训练数据集数量巨大,对训练数据集先行传输,待训练数据集传输完毕或基本完毕后,再传输模型训练任务。又由于第二处理器主要用于执行模型训练任务,需要较高的计算性能,而第一处理器仅仅用于对训练数据集进行存储,无需太高计算性能,因此,整体而言,具有较高计算性能的第二处理器仅仅在模型训练阶段开启即可,无需在训练数据集传输过程中开启和运行,因此第二处理器的运行时间被大大缩短,并通过较低计算性能的第一处理器填补第二处理器的空缺,进行训练数据集传输,因此整体而言有效提高了模型对云端资源的利用效率。
可选的,第一发送单元31可以包括:
第一指示模块,用于指示所述第一云端开启第一处理器并部署存储引擎;
第一发送模块,用于向所述第一处理器发送模型训练任务所需的训练数据集,并通过所述存储引擎存储所述训练数据集。
可选的,第二发送单元32可以包括:
第二指示模块,用于指示所述第一云端开启所述第二处理器;
第二发送模块,用于向所述第二处理器发送所述模型训练任务。
可选的,指示单元33可以包括:
第一获取模块,用于获取所述第一处理器对所述训练数据集的存储地址;
第三指示模块,用于指示所述第二处理器通过所述存储地址获取所述训练数据集,以利用所述训练数据集进行模型训练。
可选的,所述利用云端进行模型训练的装置还可以包括:
选择单元,用于在向所述第一云端的第一处理器发送模型训练任务所需的训练数据集之前,根据模型训练任务对计算能力和存储能力的需求,从所述第一云端满足所述需求的服务器中选择所述第一处理器和所述第二处理器,以使所述第一处理器和所述第二处理器之间的距离最小。
可选的,指示单元33,还可以用于在指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练之后,当接收到需要使用所述训练数据集的其他训练任务时,指示执行所述其他训练任务的服务器从所述第一云端的获取所述训练数据集,其中,执行所述其他训练任务的服务器位于所述第一云端或位于所述第一云端之外。
相应的,第四方面,本发明的实施例还提供一种利用云端进行模型训练的装置,能够有效提高模型训练对云端资源的利用效率。
如图5所示,本发明的实施例提供的利用云端进行模型训练的装置可以包括:
第一接收单元41,用于通过第一处理器接收第二云端发送的训练数据集;
第二接收单元42,用于通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
训练单元43,用于利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练。
本发明的实施例提供的利用云端进行模型训练的方法,第一云端能够通过第一处理器接收第二云端发送的训练数据集,通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务,利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练。这样就将模型训练任务与对应的训练数据集分开传输,由于训练数据集数量巨大,对训练数据集先行传输,待训练数据集传输完毕或基本完毕后,再传输模型训练任务。又由于第二处理器主要用于执行模型训练任务,需要较高的计算性能,而第一处理器仅仅用于对训练数据集进行存储,无需太高计算性能,因此,整体而言,具有较高计算性能的第二处理器仅仅在模型训练阶段开启即可,无需在训练数据集传输过程中开启和运行,因此第二处理器的运行时间被大大缩短,并通过较低计算性能的第一处理器填补第二处理器的空缺,进行训练数据集传输,因此整体而言有效提高了模型对云端资源的利用效率。
可选的,第一接收单元41可以包括:
第一开启模块,用于根据所述第二云端的指示,开启第一处理器并部署存储引擎;
第一接收模块,用于通过所述第一处理器接收所述第二云端发送的所述训练数据集,并通过所述存储引擎存储所述训练数据集。
可选的,第二接收单元42可以包括:
第二开启模块,用于根据所述第二云端的指示,开启所述第二处理器;
第二接收模块,用于通过所述第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务。
可选的,训练单元43可以包括:
第二获取模块,用于根据所述第二云端的指示,获取所述训练数据集的存储地址;
训练模块,用于在所述第二处理器上运行所述模型训练任务,并从所述存储地址读取所述所述训练数据集进行模型训练。
可选的,所述装置还可以包括:
提供单元,用于在利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练之后,根据所述第二云端的指示,向需要使用所述训练数据集的其他训练任务所在的服务器提供所述训练数据集,其中,执行所述其他训练任务的服务器位于所述第一处理器所在的第一云端或位于所述第一云端之外。
第五方面,本发明的实施例还提供一种电子设备,能够有效提高模型训练任务对云端资源的利用效率。
如图6所示,本发明的实施例提供的电子设备,可以包括:壳体51、处理器52、存储器53、电路板54和电源电路55,其中,电路板54安置在壳体51围成的空间内部,处理器52和存储器53设置在电路板54上;电源电路55,用于为上述电子设备的各个电路或器件供电;存储器53用于存储可执行程序代码;处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例提供的利用云端进行模型训练的方法。
处理器52对上述步骤的具体执行过程以及处理器52通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
第六方面,本发明的实施例还提供一种电子设备,能够有效提高模型训练任务对云端资源的利用效率。
如图7所示,本发明的实施例提供的电子设备,可以包括:壳体61、处理器62、存储器63、电路板64和电源电路65,其中,电路板64安置在壳体61围成的空间内部,处理器62和存储器63设置在电路板64上;电源电路65,用于为上述电子设备的各个电路或器件供电;存储器63用于存储可执行程序代码;处理器62通过读取存储器63中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例提供的利用云端进行模型训练的方法。
处理器62对上述步骤的具体执行过程以及处理器62通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
上述电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
相应的,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种利用云端进行模型训练的方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
相应的,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种利用云端进行模型训练的方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种利用云端进行模型训练的方法,其特征在于,包括:
向第一云端的第一处理器发送模型训练任务所需的训练数据集;
向所述第一云端的第二处理器发送所述模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。
2.根据权利要求1所述的方法,其特征在于,所述向第一云端的第一处理器发送模型训练任务所需的训练数据集包括:
指示所述第一云端开启第一处理器并部署存储引擎;
向所述第一处理器发送模型训练任务所需的训练数据集,并通过所述存储引擎存储所述训练数据集。
3.根据权利要求1所述的方法,其特征在于,所述向所述第一云端的第二处理器发送所述模型训练任务包括:
指示所述第一云端开启所述第二处理器;
向所述第二处理器发送所述模型训练任务。
4.根据权利要求1所述的方法,其特征在于,所述指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练包括:
获取所述第一处理器对所述训练数据集的存储地址;
指示所述第二处理器通过所述存储地址获取所述训练数据集,以利用所述训练数据集进行模型训练。
5.根据权利要求1所述的方法,其特征在于,所述向所述第一云端的第一处理器发送模型训练任务所需的训练数据集之前,所述方法还包括:
根据模型训练任务对计算能力和存储能力的需求,从所述第一云端满足所述需求的服务器中选择所述第一处理器和所述第二处理器,以使所述第一处理器和所述第二处理器之间的距离最小。
6.一种利用云端进行模型训练的方法,其特征在于,包括:
通过第一处理器接收第二云端发送的训练数据集;
通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练。
7.一种利用云端进行模型训练的装置,其特征在于,包括:
第一发送单元,用于向第一云端的第一处理器发送模型训练任务所需的训练数据集;
第二发送单元,用于向所述第一云端的第二处理器发送所述模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
指示单元,用于指示所述第二处理器利用所述第一处理器接收的所述训练数据集进行模型训练。
8.一种利用云端进行模型训练的装置,其特征在于,包括:
第一接收单元,用于通过第一处理器接收第二云端发送的训练数据集;
第二接收单元,用于通过第二处理器接收所述第二云端发送的所述训练数据集对应的模型训练任务,所述第二处理器的计算能力高于所述第一处理器的计算能力;
训练单元,用于利用所述第一处理器接收的所述训练数据集和所述第二处理器接收的所述模型训练任务,在所述第二处理器上进行模型训练。
9.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求1-5中任一项所述的利用云端进行模型训练的方法。
10.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求6所述的利用云端进行模型训练的方法。
CN202010755736.5A 2020-07-30 2020-07-30 一种利用云端进行模型训练的方法及装置 Active CN112085208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010755736.5A CN112085208B (zh) 2020-07-30 2020-07-30 一种利用云端进行模型训练的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010755736.5A CN112085208B (zh) 2020-07-30 2020-07-30 一种利用云端进行模型训练的方法及装置

Publications (2)

Publication Number Publication Date
CN112085208A true CN112085208A (zh) 2020-12-15
CN112085208B CN112085208B (zh) 2024-08-20

Family

ID=73735242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010755736.5A Active CN112085208B (zh) 2020-07-30 2020-07-30 一种利用云端进行模型训练的方法及装置

Country Status (1)

Country Link
CN (1) CN112085208B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733892A (zh) * 2020-12-28 2021-04-30 北京聚云科技有限公司 一种用于模型训练的数据交互方法及装置
CN112749127A (zh) * 2020-12-28 2021-05-04 北京聚云科技有限公司 一种用于模型训练的数据提供方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392398A (zh) * 2017-08-28 2017-11-24 济南浪潮高新科技投资发展有限公司 一种农业管理方法、雾计算平台及系统
CN108027889A (zh) * 2016-01-25 2018-05-11 华为技术有限公司 一种用于增量式学习云系统的训练、调度方法及相关设备
CN109003253A (zh) * 2017-05-24 2018-12-14 通用电气公司 神经网络点云生成系统
CN109615058A (zh) * 2018-10-24 2019-04-12 上海新储集成电路有限公司 一种神经网络模型的训练方法
CN109840591A (zh) * 2017-11-29 2019-06-04 华为技术有限公司 模型训练系统、方法和存储介质
CN110301128A (zh) * 2017-03-02 2019-10-01 华为技术有限公司 基于学习的资源管理数据中心云架构
CN110417565A (zh) * 2018-04-27 2019-11-05 华为技术有限公司 一种模型更新方法、装置及系统
CN110874440A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 一种信息推送及其模型训练的方法、装置及电子设备
WO2020134704A1 (zh) * 2018-12-28 2020-07-02 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108027889A (zh) * 2016-01-25 2018-05-11 华为技术有限公司 一种用于增量式学习云系统的训练、调度方法及相关设备
CN110301128A (zh) * 2017-03-02 2019-10-01 华为技术有限公司 基于学习的资源管理数据中心云架构
CN109003253A (zh) * 2017-05-24 2018-12-14 通用电气公司 神经网络点云生成系统
CN107392398A (zh) * 2017-08-28 2017-11-24 济南浪潮高新科技投资发展有限公司 一种农业管理方法、雾计算平台及系统
CN109840591A (zh) * 2017-11-29 2019-06-04 华为技术有限公司 模型训练系统、方法和存储介质
CN110417565A (zh) * 2018-04-27 2019-11-05 华为技术有限公司 一种模型更新方法、装置及系统
CN109615058A (zh) * 2018-10-24 2019-04-12 上海新储集成电路有限公司 一种神经网络模型的训练方法
WO2020134704A1 (zh) * 2018-12-28 2020-07-02 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质
CN110874440A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 一种信息推送及其模型训练的方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王艳 等: "基于事件驱动的云端动态任务分解模式优化方法", 《系统仿真学报》, vol. 30, no. 11, 30 November 2018 (2018-11-30), pages 4029 - 4042 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733892A (zh) * 2020-12-28 2021-04-30 北京聚云科技有限公司 一种用于模型训练的数据交互方法及装置
CN112749127A (zh) * 2020-12-28 2021-05-04 北京聚云科技有限公司 一种用于模型训练的数据提供方法及系统

Also Published As

Publication number Publication date
CN112085208B (zh) 2024-08-20

Similar Documents

Publication Publication Date Title
CN109167750B (zh) 一种数据包传输方法、装置、电子设备及存储介质
CN107370804B (zh) 软件应用处理方法和装置
CN108777812B (zh) 一种录屏直播方法、装置、电子设备及存储介质
CN112087487B (zh) 模型训练任务的调度方法、装置、电子设备及存储介质
CN106227567A (zh) 一种分享应用程序的方法、装置及电子设备
CN112085208A (zh) 一种利用云端进行模型训练的方法及装置
CN106250182B (zh) 一种文件处理方法、装置及电子设备
CN111158750A (zh) 一种基于Unity的游戏安装包的打包方法及装置
CN112423285A (zh) 终端设备的联网方法、电子设备及存储介质
CN112084017A (zh) 一种内存管理方法、装置、电子设备及存储介质
CN110652728A (zh) 一种游戏资源管理方法、装置、电子设备及存储介质
CN110221878A (zh) 一种游戏服务的更新方法、装置、电子设备及存储介质
CN114372297A (zh) 一种基于消息摘要算法校验文件完整性的方法及装置
CN112749127A (zh) 一种用于模型训练的数据提供方法及系统
CN109344052B (zh) 一种接口自动化测试方法、装置及电子设备
CN114281321A (zh) 一种软件开发快捷编辑方法、装置、电子设备及介质
CN115454670A (zh) 一种计算机进程信息枚举方法、装置和电子设备
CN106557525B (zh) 应用程序残留文件的清理方法、装置及电子设备
CN114356867A (zh) 一种压缩包文件的打开方法、装置、电子设备及存储介质
CN114065005A (zh) 一种系统配置优化参数方法、装置、电子设备及存储介质
CN114327457A (zh) 一种便捷的壁纸编辑开发方法、装置、电子设备及介质
CN102891888B (zh) 一种数据访问方法及相关设备、系统
CN111240843A (zh) 一种数据获取方法、装置、电子设备及存储介质
CN112733892A (zh) 一种用于模型训练的数据交互方法及装置
CN110624243A (zh) 一种播放音乐的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant