CN116610607A - 一种人工智能模型的训练方法、装置、设备及介质 - Google Patents
一种人工智能模型的训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116610607A CN116610607A CN202310573574.7A CN202310573574A CN116610607A CN 116610607 A CN116610607 A CN 116610607A CN 202310573574 A CN202310573574 A CN 202310573574A CN 116610607 A CN116610607 A CN 116610607A
- Authority
- CN
- China
- Prior art keywords
- memory
- parameters
- trained
- model
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 78
- 238000004891 communication Methods 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 102100035964 Gastrokine-2 Human genes 0.000 description 1
- 101001075215 Homo sapiens Gastrokine-2 Proteins 0.000 description 1
- 101150116046 PCBD1 gene Proteins 0.000 description 1
- 102100029333 Pterin-4-alpha-carbinolamine dehydratase Human genes 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/20—Handling requests for interconnection or transfer for access to input/output bus
- G06F13/28—Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1668—Details of memory controller
- G06F13/1673—Details of memory controller using buffers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4282—Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2213/00—Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F2213/0026—PCI express
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本申请公开了一种人工智能模型的训练方法、装置、设备及介质,属于人工智能技术领域,该方法包括:当要对人工智能模型进行训练时,则基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存;利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器,以使图形处理器对待训练参数进行更新,并将更新后的待训练参数发送至内存;重复执行将内存中的待训练参数发送至图形处理器的高速缓冲存储器,以使图形处理器对待训练参数进行更新的步骤,直至人工智能模型收敛。通过该方法不仅可以极大的提高在对人工智能模型进行训练时的效率,而且,也可以提高人工智能模型的数据训练规模。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种人工智能模型的训练方法、装置、设备及介质。
背景技术
在相关技术中,对人工智能模型(Artificial Intelligence,AI模型)进行训练时,基本上都是将人工智能模型的模型参数和待训练参数存储在中央处理器(CentralProcessing Unit,CPU)中,然后,再将中央处理器中所存储的模型参数和待训练参数转移到图形处理器(Graphics Processing Unit,GPU)上进行训练。
由于中央处理器与图形处理器之间主要是依赖于PCIe(Peripheral ComponentInterconnect express,高速串行计算机扩展总线标准)协议进行数据交互,图形处理器在对人工智能模型进行训练时,首先需要将中央处理器上的模型参数和待训练参数发送至系统内存中,然后,再将系统内存中的模型参数和待训练参数加载到图形处理器的显存上才能对人工智能模型进行训练,这样不仅导致中央处理器和图形处理器之间的数据交互传输路径较长、人工智能模型的训练效率较低,而且,也极大的限缩了人工智能模型的数据训练规模。目前,针对这一技术问题,还没有较为有效的解决办法。
发明内容
有鉴于此,本发明的目的在于提供一种人工智能模型的训练方法、装置、设备及介质,以进一步提高在对人工智能模型进行训练时的效率,并同时提高人工智能模型的数据训练规模。其具体方案如下:
为了解决相关技术中的技术缺陷,本申请提供了一种人工智能模型的训练方法,应用于中央处理器;该方法包括:
当要对人工智能模型进行训练时,则基于计算快速链路通信协议将所述中央处理器的内存中所述人工智能模型的模型参数发送至图形处理器的显存;
利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
重复执行所述利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
一方面,所述基于计算快速链路通信协议将所述中央处理器的内存中所述人工智能模型的模型参数发送至图形处理器的显存的过程,包括:
基于所述计算快速链路通信协议,并利用直接内存访问技术将所述中央处理器的所述内存中所述人工智能模型的所述模型参数发送至所述图形处理器的所述显存。
一方面,所述基于计算快速链路通信协议将所述中央处理器的内存中所述人工智能模型的模型参数发送至图形处理器的显存的过程,包括:
以所述图形处理器中所述显存的剩余存储容量等于零为原则,并基于所述计算快速链路通信协议将所述中央处理器的所述内存中所述人工智能模型的模型参数发送至所述图形处理器的所述显存。
一方面,上述方法还包括:
根据所述人工智能模型在训练过程中的收敛程度对目标参数的数值进行设定;其中,所述目标参数为所述人工智能模型中用于防止过拟合的参数。
一方面,所述目标参数的取值范围为0.3到0.6。
一方面,所述人工智能模型具体为基于神经网络所创建的机器学习模型。
一方面,上述方法还包括:
在所述图形处理器上扩展连接多个所述图形处理器。
一方面,所述在所述图形处理器上扩展连接多个所述图形处理器的过程,包括:
利用支持计算快速链路的交换机在所述图形处理器上扩展连接多个所述图形处理器。
为了解决相关技术中的技术缺陷,本申请还公开了一种人工智能模型的训练方法,应用于图形处理器;该方法包括:
当要对人工智能模型进行训练时,则利用所述图形处理器的显存接收中央处理器基于计算快速链路通信协议从内存所发送的所述人工智能模型的模型参数;
利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
重复执行所述利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
一方面,所述对所述待训练参数进行更新的过程,包括:
利用前向算法和后向算法对所述待训练参数进行更新。
一方面,上述方法还包括:
将更新后的所述待训练参数写回至所述图形处理器的所述显存。
一方面,所述将更新后的所述待训练参数发送至所述内存的过程,包括:
利用所述计算快速链路高速缓存协议将更新后的所述待训练参数发送至所述中央处理器的所述内存。
一方面,所述将更新后的所述待训练参数写回至所述图形处理器的所述显存的过程,包括:
通过显存总线将更新后的所述待训练参数写回至所述图形处理器的所述显存。
一方面,上述方法还包括:
根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整,以使所述图形处理器的高速缓冲存储器和所述中央处理器的高速缓冲存储器内的存储数据保持一致。
一方面,所述根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整的过程,包括:
利用数据一致性引擎模块根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整。
一方面,所述利用数据一致性引擎模块根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整的过程,包括:
利用所述数据一致性引擎模块通过计算快速链路通信协议将所述图形处理器的高速缓冲存储器内的存储数据发送至所述中央处理器的高速缓冲存储器,以对所述中央处理器的高速缓冲存储器内的存储数据进行调整。
为了解决相关技术中的技术缺陷,本申请还提供了一种人工智能模型的训练装置,应用于中央处理器;该装置包括:
参数发送模块,用于当要对人工智能模型进行训练时,则基于计算快速链路通信协议将所述中央处理器的内存中所述人工智能模型的模型参数发送至图形处理器的显存;
参数更新模块,用于利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
模型训练模块,用于重复执行所述利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
为了解决相关技术中的技术缺陷,本申请还公开了一种人工智能模型的训练装置,应用于图形处理器;该装置包括:
参数加载模块,用于当要对人工智能模型进行训练时,则利用所述图形处理器的显存接收中央处理器基于计算快速链路通信协议从内存所发送的所述人工智能模型的模型参数;
数据更新模块,用于利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
模型迭代模块,用于重复执行所述利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
为了解决相关技术中的技术缺陷,本申请还公开了一种人工智能模型的训练设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前述所公开的一种人工智能模型的训练方法的步骤。
为了解决相关技术中的技术缺陷,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述所公开的一种人工智能模型的训练方法的步骤。
可见,在本发明所提供的人工智能模型训练方法中,当要对人工智能模型进行训练时,中央处理器首先是基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存,然后,再利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器中,从而使得图形处理器能够对待训练参数进行更新,图形处理器对待训练参数更新完毕之后,图形处理器会将更新后的待训练参数发送至中央处理器的内存中。之后,中央处理器会重复执行利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器,以使图形处理器对待训练参数进行更新,并将更新后的待训练参数发送至内存的步骤,直至人工智能模型收敛。在本发明中图形处理器通过计算快速链路通信协议和计算快速链路高速缓存协议可以直接将中央处理器上所存储的模型参数和待训练参数当成图形处理器的缓存使用,从而使得图形处理器无需经过系统内存来加载中央处理器上所存储的模型参数和待训练参数才能对人工智能模型进行训练,由此就能够显著缩短中央处理器与图形处理器之间的数据传输路径,这样不仅可以极大的提高在对人工智能模型进行训练时的效率,而且,也可以提高人工智能模型的数据训练规模。相应的,本发明所提供的一种人工智能模型的训练装置、设备及介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种人工智能模型的训练方法的流程图;
图2为中央处理器和图形处理器对人工智能模型进行训练时的硬件架构图;
图3为本发明实施例所提供的另一种人工智能模型的训练方法的流程图;
图4为图形处理器对人工智能模型中的待训练参数进行更新计算时的示意图;
图5为在图形处理器和中央处理器中分别添加数据一致性引擎模块和代理模块时的示意图;
图6为本发明实施例所提供的一种人工智能模型的训练装置的结构图;
图7为本发明实施例所提供的另一种人工智能模型的训练装置的结构图;
图8为本发明实施例所提供的一种人工智能模型的训练设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1为本发明实施例所提供的一种人工智能模型的训练方法的流程图,该方法包括:
步骤S11:当要对人工智能模型进行训练时,则基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存;
步骤S12:利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器,以使图形处理器对待训练参数进行更新,并将更新后的待训练参数发送至内存;
步骤S13:重复执行利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器,以使图形处理器对待训练参数进行更新,并将更新后的待训练参数发送至内存的步骤,直至人工智能模型收敛。
在本实施例中,是提供了一种人工智能模型的训练方法,利用该方法不仅可以极大的提高在对人工智能模型进行训练时的效率,而且,也可以提高人工智能模型的数据训练规模。该方法是以中央处理器为执行主体进行具体说明。
请参见图2,图2为中央处理器和图形处理器对人工智能模型进行训练时的硬件架构图。在图2所示的硬件架构图中,中央处理器通过内存总线与内存(Double Data Rate,DDR)相连,图形处理器通过显存总线与显存(Graphics Double Data Rate,GDDR)相连,中央处理器与图形处理器通过PCIe总线相连,中央处理器和图形处理器均支持CXL(ComputerExpress Link,开放性互联技术)协议。
当要对人工智能模型进行训练时,中央处理器首先是基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存。也即,人工智能模型的模型参数是预先存储在中央处理器的内存中。当中央处理器基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存时,就相当于让图形处理器加载了人工智能模型的模型参数,在此情况下图形处理器再通过加载人工智能模型的待训练参数就可以对人工智能模型进行训练。
需要说明的是,在本实施例中,人工智能模型是指基于神经网络所创建的机器学习模型。计算快速链路通信协议是指CXL.io协议,计算快速链路通信协议本质上是PCIe5.0协议的扩展,用于设备发现、配置、寄存器访问等等,它为I/O(Input/Output,输入输出)设备提供了非一致性数据的加载/存储接口,所以,中央处理器通过计算快速链路通信协议就可以将内存中所存储人工智能模型的模型参数发送至图形处理器的显存。
之后,中央处理器会利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器。其中,计算快速链路高速缓存协议是指CXL.cache协议。可以理解的是,因为计算快速链路高速缓存协议定义了设备对主机的访问,允许设备使用请求/响应机制以极低的延迟访问主机内存中的数据,所以,中央处理器会直接利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器中。
当图形处理器获取到人工智能模型的待训练参数时,再结合人工智能模型的模型参数就可以对待训练参数进行更新,其中,待训练参数包括人工智能模型的参变量parameter、动量momentum以及方差variance等等。当图形处理器对人工智能模型的待训练参数更新完毕之后,图形处理器就会将更新后的待训练参数发送到中央处理器的内存中,从而使得更新后的待训练参数能够对训练参数进行下一次的更新与迭代。
最后,中央处理器会重复执行步骤S12:利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器,以使图形处理器对待训练参数进行更新,并将更新后的待训练参数发送至内存,直至人工智能模型收敛。
相较于相关技术而言,在本方法中图形处理器通过CXL协议中的计算快速链路通信协议和计算快速链路高速缓存协议可以直接将中央处理器上所存储的模型参数和待训练参数当成图形处理器的缓存使用,从而使得图形处理器无需经过系统内存来加载中央处理器上所存储的模型参数和待训练参数才能对人工智能模型进行训练,由此就能够显著缩短中央处理器与图形处理器之间的数据传输路径,这样不仅可以极大的提高在对人工智能模型进行训练时的效率,而且,也可以提高人工智能模型的数据训练规模。
可见,在本实施例所提供的人工智能模型训练方法中,当要对人工智能模型进行训练时,中央处理器首先是基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存,然后,再利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器中,从而使得图形处理器能够对待训练参数进行更新,图形处理器对待训练参数更新完毕之后,图形处理器会将更新后的待训练参数发送至中央处理器的内存中。之后,中央处理器会重复执行利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器,以使图形处理器对待训练参数进行更新,并将更新后的待训练参数发送至内存的步骤,直至人工智能模型收敛。在本实施例中图形处理器通过计算快速链路通信协议和计算快速链路高速缓存协议可以直接将中央处理器上所存储的模型参数和待训练参数当成图形处理器的缓存使用,从而使得图形处理器无需经过系统内存来加载中央处理器上所存储的模型参数和待训练参数才能对人工智能模型进行训练,由此就能够显著缩短中央处理器与图形处理器之间的数据传输路径,这样不仅可以极大的提高在对人工智能模型进行训练时的效率,而且,也可以提高人工智能模型的数据训练规模。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,在一些实施例中,上述步骤:基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存的过程,包括:
基于计算快速链路通信协议,并利用直接内存访问技术将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存。
在本实施例中,中央处理器是基于计算快速链路通信协议,并利用直接内存访问技术(Direct Memory Access,DMA)将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存。
可以理解的是,因为直接内存访问技术是一种完全由硬件执行IO交换的工作方式,通过直接内存访问技术能够使数据从附加设备上直接发送到计算机主板的内存上,交换数据不需要经过中央处理器,所以,中央处理器通过直接内存访问技术就可以将内存中人工智能模型的模型参数发送至图形处理器的显存上,由此就能够极大的提高中央处理器在向图形处理器发送人工智能模型的模型参数时的数据传输速度。
显然,通过本实施例所提供的技术方案,就可以进一步提高中央处理器在向图形处理器发送人工智能模型的模型参数时的数据传输速度。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,在一些实施例中,上述步骤:基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存的过程,包括:
以图形处理器中显存的剩余存储容量等于零为原则,并基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存。
在实际应用中,中央处理器在向图形处理器发送人工智能模型的模型参数时,可以以图形处理器中显存的剩余存储容量等于零为原则,并基于计算机快速链路通信协议将人工智能模型的模型参数发送至图形处理器的显存。能够想到的是,通过这样的设置方式就相当于是在最大程度上将人工智能模型中与训练过程不相关的模型参数存储在了中央处理器的内存中,而将人工智能模型中与训练过程相关的训练参数集中存储在了中央处理器的高速缓冲存储器中,在此设置方式下,就可以相对减少图形处理器和中央处理器之间的数据交互数量,由此也能够进一步提高图形处理器对人工智能模型的训练速度。
显然,通过本实施例所提供的技术方案,就可以进一步提高图形处理器对人工智能模型的训练速度。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,在一些实施例中,上述训练方法还包括:
根据人工智能模型在训练过程中的收敛程度对目标参数的数值进行设定;其中,目标参数为人工智能模型中用于防止过拟合的参数。
在实际应用中,图形处理器和中央处理器在一些应用场景下的数据通信量会比较大。假设人工智能模型的模型参数量为M,那么中央处理器在执行步骤S12和步骤S13时,中央处理器和图形处理器之间的数据通信量可以达到12M,那么中央处理器和图形处理器读入和写出的数据总量就会高达24M。
在本实施例中,为了进一步减少图形处理器和中央处理器之间的数据通信量,还对人工智能模型中用于防止过拟合目标参数的数值进行了具体限定。其中,人工智能模型中用于防止过拟合的目标参数具体是指参数dropout。
可以理解的是,人工智能模型中参数dropout的作用是让人工智能模型中的某些神经元不进行工作。那么,通过对参数dropout进行限定就可以达到减少人工智能模型中待训练参数的目的。
具体的,人工智能模型的参数dropout可以根据人工智能模型在训练过程中的收敛程度进行设定。因为随着人工智能模型在训练过程中的收敛,人工智能模型中待更新的训练参数就会越来越少,在此情况下就可以通过对参数dropout进行设定来限缩人工智能模型中待更新训练参数的数量。在实际应用中,可以将目标参数的取值范围设定为0.3到0.6之间,也即,可以将参数dropout的取值范围限制在0.3到0.6之间,并根据人工智能模型在训练过程中的收敛程度来对参数dropout的具体取值进行更为细致地调整。
可见,通过本实施例所提供的技术方案,就可以对中央处理器和图形处理器之间的通信数据进行压缩,并将只发生变化的待更新参数在中央处理器和图形处理器之间进行数据传输,由此就可以进一步减少中央处理器和图形处理器之间的数据传输量。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,在一些实施例中,上述训练方法还包括:
在图形处理器上扩展连接多个图形处理器。
在实际应用中,还可以在图形处理器上扩展连接多个图形处理器来提高人工智能模型的数据训练规模。能够想到的是,当将多个图形处理器并联在一起时,多个图形处理器就可以同时对人工智能模型中的待训练参数进行更新,并对人工智能模型进行训练,这样就可以进一步提高在对人工智能模型进行训练时的训练速度,并且,也可以提高人工智能模型的数据训练规模。
在一些实施例中,上述步骤:在图形处理器上扩展连接多个图形处理器的过程,包括:
利用支持计算快速链路的交换机在图形处理器上扩展连接多个图形处理器。
具体的,可以利用支持计算快速链路的交换机在图形处理器上扩展连接多个图形处理器,也即,可以利用CXL的Switch技术在图形处理器上扩展连接多个图形处理器。因为使用支持计算快速链路的交换机可以实现不同数量图形处理器的互联互通,所以,在实际操作过程中就可以利用支持计算快速链路的交换机在图形处理器上扩展连接多个图形处理器。
显然,通过本实施例所提供的技术方案,不仅可以提高在对人工智能模型进行训练时的效率,而且,也可以提高人工智能模型的数据训练规模。
请参见图3,图3为本发明实施例所提供的另一种人工智能模型的训练方法的流程图,该方法包括:
步骤S21:当要对人工智能模型进行训练时,则利用图形处理器的显存接收中央处理器基于计算快速链路通信协议从内存所发送的人工智能模型的模型参数;
步骤S22:利用图形处理器的高速缓冲存储器接收中央处理器通过计算快速链路高速缓存协议从内存所发送的待训练参数,对待训练参数进行更新,并将更新后的待训练参数发送至内存;
步骤S23:重复执行利用图形处理器的高速缓冲存储器接收中央处理器通过计算快速链路高速缓存协议从内存所发送的待训练参数,对待训练参数进行更新,并将更新后的待训练参数发送至内存的步骤,直至人工智能模型收敛。
在本实施例中,是提供了一种人工智能模型的训练方法,利用该方法不仅可以极大的提高在对人工智能模型进行训练时的效率,而且,也可以提高人工智能模型的数据训练规模。该方法是以图形处理器为执行主体进行具体说明。本实施例所提供的一种人工智能模型的训练方法,可参见前述实施例人工智能模型的训练方法所公开的内容,在此不再作具体赘述。
可见,在本实施例所提供的人工智能模型训练方法中,当要对人工智能模型进行训练时,中央处理器首先是基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存,然后,再利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器中,从而使得图形处理器能够对待训练参数进行更新,图形处理器对待训练参数更新完毕之后,图形处理器会将更新后的待训练参数发送至中央处理器的内存中。之后,中央处理器会重复执行利用计算快速链路高速缓存协议将内存中的待训练参数发送至图形处理器的高速缓冲存储器,以使图形处理器对待训练参数进行更新,并将更新后的待训练参数发送至内存的步骤,直至人工智能模型收敛。在本实施例中图形处理器通过计算快速链路通信协议和计算快速链路高速缓存协议可以直接将中央处理器上所存储的模型参数和待训练参数当成图形处理器的缓存使用,从而使得图形处理器无需经过系统内存来加载中央处理器上所存储的模型参数和待训练参数才能对人工智能模型进行训练,由此就能够显著缩短中央处理器与图形处理器之间的数据传输路径,这样不仅可以极大的提高在对人工智能模型进行训练时的效率,而且,也可以提高人工智能模型的数据训练规模。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,在一些实施例中,上述步骤:对待训练参数进行更新的过程,包括:
利用前向算法和后向算法对待训练参数进行更新。
在本实施例中,图形处理器在对人工智能模型中的待训练参数进行更新的过程中,是对人工智能模型的参数更新流程作了归纳与总结,并利用前向算法和后向算法对人工智能模型中的待训练参数进行了计算与更新。
在一些实施例中,上述训练方法还包括:
将更新后的待训练参数写回至图形处理器的显存。
当图形处理器利用前向算法和后向算法对人工智能模型中的待训练参数计算更新完毕之后,图形处理器除了会将更新后的待训练参数发送至中央处理器的内存中之外,还会将更新后的待训练参数写回至图形处理器的显存中,从而使得更新后的待训练参数能够对训练参数进行下一次的更新与迭代。
在一些实施例中,上述步骤:将更新后的待训练参数发送至内存的过程,包括:
利用计算快速链路高速缓存协议将更新后的待训练参数发送至中央处理器的内存。
在一些实施例中,上述步骤:将更新后的待训练参数写回至图形处理器的显存的过程,包括:
通过显存总线将更新后的待训练参数写回至图形处理器的显存。
请参见图4,图4为图形处理器对人工智能模型中的待训练参数进行更新计算时的示意图。具体的,当图形处理器利用计算快速链路高速缓存协议将中央处理器内存中的待训练参数加载至图形处理器的高速缓冲存储器中时,图形处理器就会利用前向算法和后向算法对人工智能模型中的待训练参数进行计算与更新。并且,当图形处理器利用前向算法和后向算法对人工智能模型中的待训练参数计算更新完毕之后,图形处理器还会利用计算快速链路高速缓存协议将更新后的待训练参数写回至中央处理器的内存中,同时图形处理器还会通过显存总线将更新后的待训练参数写回至图形处理器的显存,从而使得更新后的待训练参数能够对训练参数进行下一次的更新与迭代。
显然,通过本实施例所提供的技术方案,就可以使得图形处理器对人工智能模型中的待训练参数进行更新与计算。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,在一些实施例中,上述训练方法还包括:
根据图形处理器的高速缓冲存储器内的存储数据对中央处理器的高速缓冲存储器内的存储数据进行调整,以使图形处理器的高速缓冲存储器和中央处理器的高速缓冲存储器内的存储数据保持一致。
在本实施例中,为了保证人工智能模型训练结果的可靠性与准确性,还在图形处理器内部设置了数据通信模块,并利用数据通信模块来保证图形处理器的高速缓冲存储器和中央处理器的高速缓冲存储器中存储数据的一致性。
能够想到的是,如果图形处理器的高速缓冲存储器和中央处理器的高速缓冲存储器中的存储数据不一致,那么图形处理器在从中央处理器上加载模型参数和待训练参数,并对待训练参数进行更新计算时,就会出现错误与异常。在本实施例中,为了避免上述问题的发生,图形处理器还会根据其高速缓冲存储器内部所存储的存储数据对中央处理器的高速缓冲存储器内的存储数据进行调整与更新,从而使得图形处理器的高速缓冲存储器和中央处理器的高速缓冲存储器内的存储数据能够保持一致。
在一些实施例中,上述步骤:根据图形处理器的高速缓冲存储器内的存储数据对中央处理器的高速缓冲存储器内的存储数据进行调整的过程,包括:
利用数据一致性引擎模块根据图形处理器的高速缓冲存储器内的存储数据对中央处理器的高速缓冲存储器内的存储数据进行调整。
具体的,为了实现上述功能可以在图形处理器中添加功能组件数据一致性引擎模块(DCOH,Device’s Coherency Engine),并在中央处理器中添加功能组件代理模块(HA,Home Agent)。请参见图5,图5为在图形处理器和中央处理器中分别添加数据一致性引擎模块和代理模块时的示意图。其中,数据一致性引擎模块和代理模块是用于实现CXL的功能模块,它们的主要作用是用于维护图形处理器中缓存与中央处理器内存之间数据的一致性。
此外,图形处理器中的缓存和中央处理器中的内存在进行数据交互时,图形处理器中的参数dropout会随着迭代次数的增加,变化的参数越来越少,因此通过这样的设置方式还可以减少图形处理器和中央处理器之间的数据传输数量,并且,传输数据的一致性是由硬件维护的,相较于使用软件传输数据而言,数据传输效率更高。
在一些实施例中,上述步骤:利用数据一致性引擎模块根据图形处理器的高速缓冲存储器内的存储数据对中央处理器的高速缓冲存储器内的存储数据进行调整的过程,包括:
利用数据一致性引擎模块通过计算快速链路通信协议将图形处理器的高速缓冲存储器内的存储数据发送至中央处理器的高速缓冲存储器,以对中央处理器的高速缓冲存储器内的存储数据进行调整。
具体的,在本实施例中,当图形处理器控制数据一致性引擎模块通过计算快速链路通信协议将其内部高速缓冲存储器中的存储数据发送至中央处理器的高速缓冲存储器时,中央处理器中的功能组件代理模块就会根据图形处理器中高速缓冲存储器内的存储数据对中央处理器高速缓冲存储器内部的存储数据进行调整,并由此保证图形处理器的高速缓冲存储器和中央处理器的高速缓冲存储器内的存储数据可以保持一致。
显然,通过本实施例所提供的技术方案,就可以保证人工智能模型训练结果的准确性与可靠性。
在上述实施例中,是对人工智能模型的训练方法进行了详细描述,本申请还提供了与一种人工智能模型的训练装置相对应的实施例。需要说明的是,本实施例是从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
请参见图6,图6为本发明实施例所提供的一种人工智能模型的训练装置的结构图,该装置包括:
参数发送模块201,用于当要对人工智能模型进行训练时,则基于计算快速链路通信协议将中央处理器的内存中人工智能模型的模型参数发送至图形处理器的显存;
参数更新模块202,用于利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
模型训练模块203,用于重复执行所述利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
在一些实施例中,参数发送模块201,包括:
第一参数发送单元,用于基于所述计算快速链路通信协议,并利用直接内存访问技术将所述中央处理器的所述内存中所述人工智能模型的所述模型参数发送至所述图形处理器的所述显存。
在一些实施例中,参数发送模块201,包括:
第二参数发送单元,用于以所述图形处理器中所述显存的剩余存储容量等于零为原则,并基于所述计算快速链路通信协议将所述中央处理器的所述内存中所述人工智能模型的模型参数发送至所述图形处理器的所述显存。
在一些实施例中,上述装置还包括:
图形处理器扩展模块,用于在所述图形处理器上扩展连接多个所述图形处理器。
在一些实施例中,图形处理器扩展模块,包括:
图形处理器扩展单元,用于利用支持计算快速链路的交换机在所述图形处理器上扩展连接多个所述图形处理器。
本发明实施例所提供的一种人工智能模型的训练装置,具有前述所公开的一种人工智能模型的训练方法所具有的有益效果。
请参见图7,图7为本发明实施例所提供的另一种人工智能模型的训练装置的结构图,该装置包括:
参数加载模块210,用于当要对人工智能模型进行训练时,则利用所述图形处理器的显存接收中央处理器基于计算快速链路通信协议从内存所发送的所述人工智能模型的模型参数;
数据更新模块220,用于利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
模型迭代模块230,用于重复执行所述利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
在一些实施例中,数据更新模块220,包括:
数据更新单元,用于利用前向算法和后向算法对所述待训练参数进行更新。
在一些实施例中,上述训练装置还包括:
参数写回模块,用于将更新后的所述待训练参数写回至所述图形处理器的所述显存。
在一些实施例中,模型迭代模块230,包括:
参数发送单元,用于利用所述计算快速链路高速缓存协议将更新后的所述待训练参数发送至所述中央处理器的所述内存。
在一些实施例中,参数写回模块,包括:
参数写回单元,用于通过显存总线将更新后的所述待训练参数写回至所述图形处理器的所述显存。
在一些实施例中,上述装置还包括:
数据调整模块,用于根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整,以使所述图形处理器的高速缓冲存储器和所述中央处理器的高速缓冲存储器内的存储数据保持一致。
在一些实施例中,数据调整模块,包括:
数据调整子模块,用于利用数据一致性引擎模块根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整。
在一些实施例中,数据调整子模块,包括:
数据调整单元,用于利用数据一致性引擎模块通过计算快速链路通信协议将所述图形处理器的高速缓冲存储器内的存储数据发送至所述中央处理器的高速缓冲存储器,以对所述中央处理器的高速缓冲存储器内的存储数据进行调整。
本发明实施例所提供的一种人工智能模型的训练装置,具有前述所公开的一种人工智能模型的训练方法所具有的有益效果。
请参见图8,图8为本发明实施例所提供的一种人工智能模型的训练设备的结构图,该设备包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序时实现如前述所公开的一种人工智能模型的训练方法的步骤。
本实施例所提供的一种人工智能模型的训练设备可以包括但不限于平板电脑、笔记本电脑或者台式电脑等。
其中,处理器32可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器32可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器32也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器;协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器32可以集成有图像处理器,图像处理器用于负责显示屏所需要显示内容的渲染和绘制。一些实施例中,处理器32可以集成有图像处理器,图像处理器用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中,处理器32还可以包括人工智能处理器,该人工智能处理器用于处理有关机器学习的计算操作。
存储器31可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器31还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器31至少用于存储以下计算机程序301,其中,该计算机程序被处理器32加载并执行之后,能够实现前述任一实施例公开的一种人工智能模型的训练方法的相关步骤。另外,存储器31所存储的资源还可以包括操作系统302和数据303等,存储方式可以是短暂存储或者永久存储。其中,操作系统302可以包括Windows、Unix、Linux等。数据303可以包括但不限于上述人工智能模型的训练方法所涉及到的数据等等。
在一些实施例中,人工智能模型的训练设备还可以包括显示屏33、输入输出接口34、通信接口35、电源36以及通信总线37。
本领域技术人员可以理解,图8中示出的结构并不构成对人工智能模型的训练设备的限定,可以包括比图示更多或更少的组件。
处理器32通过调用存储于存储器31中的指令以实现上述任一实施例所提供的一种人工智能模型的训练方法。
本发明实施例所提供的一种人工智能模型的训练设备,具有前述所公开的一种人工智能模型的训练方法所具有的有益效果。
相应的,本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述所公开的一种人工智能模型的训练方法的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
由于计算机可读存储介质部分的实施例与上述所描述的一种人工智能模型的训练方法部分的实施例相互对应,因此计算机可读存储介质可参见上述人工智能模型的训练方法部分实施例的相关描述,这里暂不赘述。
本发明实施例所提供的一种计算机可读存储介质,具有前述所公开的一种人工智能模型的训练方法所具有的有益效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种人工智能模型的训练方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1.一种人工智能模型的训练方法,其特征在于,应用于中央处理器;该方法包括:
当要对人工智能模型进行训练时,则基于计算快速链路通信协议将所述中央处理器的内存中所述人工智能模型的模型参数发送至图形处理器的显存;
利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
重复执行所述利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
2.根据权利要求1所述的训练方法,其特征在于,所述基于计算快速链路通信协议将所述中央处理器的内存中所述人工智能模型的模型参数发送至图形处理器的显存的过程,包括:
基于所述计算快速链路通信协议,并利用直接内存访问技术将所述中央处理器的所述内存中所述人工智能模型的所述模型参数发送至所述图形处理器的所述显存。
3.根据权利要求1所述的训练方法,其特征在于,所述基于计算快速链路通信协议将所述中央处理器的内存中所述人工智能模型的模型参数发送至图形处理器的显存的过程,包括:
以所述图形处理器中所述显存的剩余存储容量等于零为原则,并基于所述计算快速链路通信协议将所述中央处理器的所述内存中所述人工智能模型的模型参数发送至所述图形处理器的所述显存。
4.根据权利要求1所述的训练方法,其特征在于,还包括:
根据所述人工智能模型在训练过程中的收敛程度对目标参数的数值进行设定;其中,所述目标参数为所述人工智能模型中用于防止过拟合的参数。
5.根据权利要求4所述的训练方法,其特征在于,所述目标参数的取值范围为0.3到0.6。
6.根据权利要求1所述的训练方法,其特征在于,所述人工智能模型具体为基于神经网络所创建的机器学习模型。
7.根据权利要求1至6任一项所述的训练方法,其特征在于,还包括:
在所述图形处理器上扩展连接多个所述图形处理器。
8.根据权利要求7所述的训练方法,其特征在于,所述在所述图形处理器上扩展连接多个所述图形处理器的过程,包括:
利用支持计算快速链路的交换机在所述图形处理器上扩展连接多个所述图形处理器。
9.一种人工智能模型的训练方法,其特征在于,应用于图形处理器;该方法包括:
当要对人工智能模型进行训练时,则利用所述图形处理器的显存接收中央处理器基于计算快速链路通信协议从内存所发送的所述人工智能模型的模型参数;
利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
重复执行所述利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
10.根据权利要求9所述的训练方法,其特征在于,所述对所述待训练参数进行更新的过程,包括:
利用前向算法和后向算法对所述待训练参数进行更新。
11.根据权利要求9所述的训练方法,其特征在于,还包括:
将更新后的所述待训练参数写回至所述图形处理器的所述显存。
12.根据权利要求9所述的训练方法,其特征在于,所述将更新后的所述待训练参数发送至所述内存的过程,包括:
利用所述计算快速链路高速缓存协议将更新后的所述待训练参数发送至所述中央处理器的所述内存。
13.根据权利要求11所述的训练方法,其特征在于,所述将更新后的所述待训练参数写回至所述图形处理器的所述显存的过程,包括:
通过显存总线将更新后的所述待训练参数写回至所述图形处理器的所述显存。
14.根据权利要求9所述的训练方法,其特征在于,还包括:
根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整,以使所述图形处理器的高速缓冲存储器和所述中央处理器的高速缓冲存储器内的存储数据保持一致。
15.根据权利要求14所述的训练方法,其特征在于,所述根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整的过程,包括:
利用数据一致性引擎模块根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整。
16.根据权利要求15所述的训练方法,其特征在于,所述利用数据一致性引擎模块根据所述图形处理器的高速缓冲存储器内的存储数据对所述中央处理器的高速缓冲存储器内的存储数据进行调整的过程,包括:
利用所述数据一致性引擎模块通过计算快速链路通信协议将所述图形处理器的高速缓冲存储器内的存储数据发送至所述中央处理器的高速缓冲存储器,以对所述中央处理器的高速缓冲存储器内的存储数据进行调整。
17.一种人工智能模型的训练装置,其特征在于,应用于中央处理器;该装置包括:
参数发送模块,用于当要对人工智能模型进行训练时,则基于计算快速链路通信协议将所述中央处理器的内存中所述人工智能模型的模型参数发送至图形处理器的显存;
参数更新模块,用于利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
模型训练模块,用于重复执行所述利用计算快速链路高速缓存协议将所述内存中的待训练参数发送至所述图形处理器的高速缓冲存储器,以使所述图形处理器对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
18.一种人工智能模型的训练装置,其特征在于,应用于图形处理器;该装置包括:
参数加载模块,用于当要对人工智能模型进行训练时,则利用所述图形处理器的显存接收中央处理器基于计算快速链路通信协议从内存所发送的所述人工智能模型的模型参数;
数据更新模块,用于利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存;
模型迭代模块,用于重复执行所述利用所述图形处理器的高速缓冲存储器接收所述中央处理器通过计算快速链路高速缓存协议从所述内存所发送的待训练参数,对所述待训练参数进行更新,并将更新后的所述待训练参数发送至所述内存的步骤,直至所述人工智能模型收敛。
19.一种人工智能模型的训练设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8或者如权利要求9至16任一项所述的一种人工智能模型的训练方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8或者如权利要求9至16任一项所述的一种人工智能模型的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573574.7A CN116610607A (zh) | 2023-05-19 | 2023-05-19 | 一种人工智能模型的训练方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573574.7A CN116610607A (zh) | 2023-05-19 | 2023-05-19 | 一种人工智能模型的训练方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116610607A true CN116610607A (zh) | 2023-08-18 |
Family
ID=87675983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310573574.7A Pending CN116610607A (zh) | 2023-05-19 | 2023-05-19 | 一种人工智能模型的训练方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116610607A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777009A (zh) * | 2023-08-24 | 2023-09-19 | 之江实验室 | 基于内存池的智能计算系统架构和并行训练方法 |
CN117195997A (zh) * | 2023-11-06 | 2023-12-08 | 之江实验室 | 一种模型训练方法、装置、存储介质及电子设备 |
CN117785490A (zh) * | 2024-02-27 | 2024-03-29 | 苏州元脑智能科技有限公司 | 一种图神经网络模型的训练架构、方法、系统及服务器 |
CN118279126A (zh) * | 2024-05-31 | 2024-07-02 | 浪潮电子信息产业股份有限公司 | 图形处理单元显存处理方法、服务器、产品、设备及介质 |
-
2023
- 2023-05-19 CN CN202310573574.7A patent/CN116610607A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777009A (zh) * | 2023-08-24 | 2023-09-19 | 之江实验室 | 基于内存池的智能计算系统架构和并行训练方法 |
CN116777009B (zh) * | 2023-08-24 | 2023-10-20 | 之江实验室 | 基于内存池的智能计算系统架构和并行训练方法 |
CN117195997A (zh) * | 2023-11-06 | 2023-12-08 | 之江实验室 | 一种模型训练方法、装置、存储介质及电子设备 |
CN117195997B (zh) * | 2023-11-06 | 2024-03-01 | 之江实验室 | 一种模型训练方法、装置、存储介质及电子设备 |
CN117785490A (zh) * | 2024-02-27 | 2024-03-29 | 苏州元脑智能科技有限公司 | 一种图神经网络模型的训练架构、方法、系统及服务器 |
CN117785490B (zh) * | 2024-02-27 | 2024-05-10 | 苏州元脑智能科技有限公司 | 一种图神经网络模型的训练架构、方法、系统及服务器 |
CN118279126A (zh) * | 2024-05-31 | 2024-07-02 | 浪潮电子信息产业股份有限公司 | 图形处理单元显存处理方法、服务器、产品、设备及介质 |
CN118279126B (zh) * | 2024-05-31 | 2024-08-30 | 浪潮电子信息产业股份有限公司 | 图形处理单元显存处理方法、服务器、产品、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116610607A (zh) | 一种人工智能模型的训练方法、装置、设备及介质 | |
EP4131020A1 (en) | Data processing method and device | |
US20080005484A1 (en) | Cache coherency controller management | |
CN112633505B (zh) | 一种基于risc-v的人工智能推理方法和系统 | |
EP4235441A1 (en) | System, method and apparatus for peer-to-peer communication | |
US20220292337A1 (en) | Neural network processing unit, neural network processing method and device | |
US11275632B2 (en) | Broadcast command and response | |
CN105359122B (zh) | 多cpu系统中的增强型数据传输 | |
CN103714044A (zh) | 一种基于片上网络的高效率矩阵转置簇以及转置方法 | |
CN117806833A (zh) | 一种数据处理系统、方法及介质 | |
US11082327B2 (en) | System and method for computational transport network-on-chip (NoC) | |
CN117591450B (zh) | 一种数据处理系统、方法、设备及介质 | |
US20210056403A1 (en) | Neural network internal data fast access memory buffer | |
CN117312215B (zh) | 一种服务器系统、作业执行方法、装置及设备和介质 | |
WO2024094058A1 (zh) | 一种模型训练方法及相关装置 | |
CN109684256A (zh) | 服务器及数据传输方法 | |
CN116438543A (zh) | 数据和模型并行化中的共享存储器空间 | |
EP2801032B1 (en) | Bimodal functionality between coherent link and memory expansion | |
CN116303113A (zh) | 用于拓扑系统间直接存储访问的方法及装置、设备与介质 | |
CN112711442B (zh) | 一种主机命令写入方法、设备、系统及可读存储介质 | |
CN111026258B (zh) | 处理器及降低电源纹波的方法 | |
CN109919307B (zh) | Fpga及深度残差网络实现方法、系统、计算机介质 | |
US20240168639A1 (en) | Efficient reduce-scatter via near-memory computation | |
CN117785489B (zh) | 一种服务器及一种任务执行方法、装置和存储介质 | |
CN116777009B (zh) | 基于内存池的智能计算系统架构和并行训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |