CN110334801A - 一种卷积神经网络的硬件加速方法、装置、设备及系统 - Google Patents
一种卷积神经网络的硬件加速方法、装置、设备及系统 Download PDFInfo
- Publication number
- CN110334801A CN110334801A CN201910384808.7A CN201910384808A CN110334801A CN 110334801 A CN110334801 A CN 110334801A CN 201910384808 A CN201910384808 A CN 201910384808A CN 110334801 A CN110334801 A CN 110334801A
- Authority
- CN
- China
- Prior art keywords
- hardware
- memory
- calculating
- convolutional neural
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30145—Instruction analysis, e.g. decoding, instruction word fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Abstract
本发明公开了一种卷积神经网络的硬件加速方法、装置、设备、系统及硬件加速卡,该方法包括:处理器根据接收的主机发送的开始计算命令,从存储器获取计算指令;根据计算指令,生成对应的计算指导参数,并将计算指导参数发送到卷积加速器,以控制卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到存储器;计算完成后,向主机发送计算完成信号;本发明中将硬件加速卡上的处理器作为控制中枢,通过处理器执行主机的指令来灵活适配各种卷积神经网络,进而指导卷积加速器正常有序工作,增强了硬件加速卡上计算任务运行的自主性,减少了主机干预,进一步减小了系统延时,提高了硬件加速的性能。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种卷积神经网络的硬件加速方法、装置、设备、系统及硬件加速卡。
背景技术
在对卷积神经网络进行硬件加速时,往往在硬件加速卡(如FPGA板卡)上设计专用的卷积加速器来提高卷积计算的效率,实现对卷积层的加速,但是卷积加速器是一种专用的计算单元,在工作时需要与处理器来进行控制、给定每一次计算的参数、监控运行状态等。
现有技术中,往往使用与硬件加速卡连接的服务器中的主机直接控制卷积加速器的计算,而主机的干预会产生较大的系统延时,影响硬件加速性能,不利于用户体验。
因此,如何能够增强硬件加速卡上计算任务运行的自主性,减少主机干预,进一步减小系统延时,提高硬件加速性能,是现今急需解决的问题。
发明内容
本发明的目的是提供一种卷积神经网络的硬件加速方法、装置、设备、系统及硬件加速卡,以增强硬件加速卡上计算任务运行的自主性,减少主机干预,提高硬件加速性能。
为解决上述技术问题,本发明提供一种卷积神经网络的硬件加速方法,包括:
处理器根据接收的主机发送的开始计算命令,从存储器获取计算指令;
根据所述计算指令,生成对应的计算指导参数,并将所述计算指导参数发送到卷积加速器,以控制所述卷积加速器利用所述存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到所述存储器;
计算完成后,向所述主机发送计算完成信号;其中,所述处理器、所述卷积加速器和所述存储器均设置在硬件加速卡上。
可选的,所述处理器根据接收的主机发送的开始计算命令,从存储器获取计算指令之前,还包括:
所述主机将所述计算指令和所述卷积核系数存储到所述存储器;
将当前批待计算特征图存储到所述存储器;
生成并向所述处理器发送的所述开始计算命令。
可选的,所述计算完成后,向所述主机发送计算完成信号之后,还包括:
所述主机根据所述计算完成信号,从所述存储器获取所述计算结果;
将下一批待计算特征图存储到所述存储器,并执行所述生成并向所述处理器发送的所述开始计算命令的步骤。
可选的,所述根据所述计算指令,生成对应的计算指导参数,并将所述计算指导参数发送到卷积加速器之后,还包括:
所述卷积加速器根据所述计算指导参数,利用所述卷积核系数对所述待计算特征图进行卷积神经网络计算;其中,所述计算指导参数包括控制信号和参数信息;
计算完成后,将所述计算结果存储到所述存储器。
可选的,该方法还包括:
所述处理器实时监测所述计算指令的执行状态和所述卷积加速器的运行状态,并生成对应的状态信息发送到所述主机。
本发明还提供了一种卷积神经网络的硬件加速装置,包括:
获取模块,用于根据接收的主机发送的开始计算命令,从存储器获取计算指令;
指令执行模块,用于根据所述计算指令,生成对应的计算指导参数,并将所述计算指导参数发送到卷积加速器,以控制所述卷积加速器利用所述存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到所述存储器;
发送模块,用于计算完成后,向所述主机发送计算完成信号。
本发明还提供了一种卷积神经网络的硬件加速设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述的卷积神经网络的硬件加速方法的步骤。
本发明还提供了一种硬件加速卡,包括:
如上一项所述的卷积神经网络的硬件加速设备;
与所述硬件加速设备连接的存储器和卷积加速器。
此外,本发明还提供了一种卷积神经网络的硬件加速系统,包括:
如上一项所述的硬件加速卡;
与所述硬件加速卡连接的主机。
可选的,所述主机与所述硬件加速卡通过PCIE接口连接。
本发明所提供的一种卷积神经网络的硬件加速方法,包括:处理器根据接收的主机发送的开始计算命令,从存储器获取计算指令;根据计算指令,生成对应的计算指导参数,并将计算指导参数发送到卷积加速器,以控制卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到存储器;计算完成后,向主机发送计算完成信号;其中,处理器、卷积加速器和存储器均设置在硬件加速卡上;
可见,本发明中将硬件加速卡上的处理器作为控制中枢,通过处理器执行主机的指令来灵活适配各种卷积神经网络,进而指导卷积加速器正常有序工作,实现了对卷积神经网络的硬件加速,增强了硬件加速卡上计算任务运行的自主性,减少了主机干预,进一步减小了系统延时,提高了硬件加速的性能。此外,本发明还提供了一种卷积神经网络的硬件加速装置、设备、系统及硬件加速卡,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种卷积神经网络的硬件加速方法的流程图;
图2为本发明实施例所提供的一种卷积神经网络的硬件加速方法的系统结构示意图;
图3为本发明实施例所提供的一种卷积神经网络的硬件加速装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的一种卷积神经网络的硬件加速方法的流程图。该方法可以包括:
步骤101:处理器根据接收的主机发送的开始计算命令,从存储器获取计算指令。
其中,本步骤中的处理器(处理器核)可以为在板卡(硬件加速卡)上设置的用于与主机交互,指导卷积加速器正常有序地完成卷积神经网络各层计算的设备。对于处理器的具体类型选择,可以由设计人员自行设置,本实施例对此不做任何限制。
具体的,本步骤中的开始计算命令可以为与硬件加速卡连接的服务器上的主机向处理器发送的告知处理器开始计算的命令,即主机进行完计算准备工作后,可以向处理器发送开始计算命令。对于开始计算命令的具体内容和类型,可以由设计人员根据实用场景和用户需求自行设置,如可以包括主机存储在板卡上存储器(如DDR)中的数据(如计算指令、卷积核系数和待计算特征图)的地址。本实施例对此不做任何限制。
对应的,本步骤之前还可以包括主机进行计算准备的步骤,如利用硬件加速卡分批对特征图进行卷积神经网络计算时,主机可以将计算指令、卷积核系数和当前批待计算特征图存储到板卡上的存储器,并向处理器发送开始计算命令。例如硬件加速卡与主机通过PCIE接口连接时,如图2所示,硬件加速卡插到服务器的PCIE插槽且服务器上电后,主机(Host)可以通过PCIE接口把将要计算的卷积神经网络的一组指令(计算指令)传输到板卡上DDR;通过PCIE接口把卷积核系数传输到板卡上DDR;通过PCIE接口把一组Batch为N的输入特征图(当前批待计算特征图)传输到板上DDR;然后再处理器发送开始计算的命令。
可以理解的是,本步骤的目的可以为板卡上的处理器在接收到开始计算命令后,从板卡上的存储器中获取主机存储的计算指令。具体的,对于处理器从存储器获取计算指令的具体方式,可以由设计人员根据实用场景和用户需求自行设置,如图2所示,处理器(Scheduling Controller)可以先从存储器(DDR)缓存计算指令到Cache(Instructioncache),再从Cache取指。本实施例对此不做任何限制。
对应的,对于处理器获取的计算指令的具体内容,可以由设计人员自行设置,只要处理器可以在执行计算指令时,获取对应的用于指导卷积加速器进行卷积神经网络计算所需的计算指导参数,本实施例对此不做任何限制。
步骤102:根据计算指令,生成对应的计算指导参数,并将计算指导参数发送到卷积加速器,以控制卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到存储器。
其中,本步骤中的计算指导参数可以为处理器执行计算指令所得到的用于控制(指导)卷积加速器进行卷积神经网络计算所需的参数。对于计算指导参数的具体内容,可以由设计人员自行设置,可以采用与现有技术中主机直接控制卷积加速器的方法相同或相似方式实现,如图2所示,计算指导参数可以包括控制信号(Ctrl Signal)和参数信息(ParaInfo)。只要处理器可以通过输出的计算指导参数,指导卷积加速器的计算,本实施例对此不做任何限制。
对应的,对于本步骤中处理器根据计算指令,生成对应的计算指导参数的具体方式,可以由设计人员自行设置,如处理器可以通过对计算指令的译码,产生计算指导参数(如控制信号和参数信息)。本实施例对此不做任何限制。
可以理解的是,本步骤的目的可以为板卡上的处理器通过将生成的计算指导参数发送给卷积加速器,指导卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到存储器。对应的,本步骤之后还可以包括卷积加速器根据接收的计算指导参数,利用存储器中的卷积核系数,对存储器中的待计算特征图进行卷积神经网络计算,并将计算结果存储到存储器的步骤。
对应的,对于卷积加速器根据接收的计算指导参数,利用存储器中的卷积核系数,对存储器中的待计算特征图进行卷积神经网络计算的具体方式,可以由设计人员自行设置,如可以采用与现有卷积加速器进行卷积神经网络计算的方法相同或相似的方式实现,本实施例对此不做任何限制。
具体的,本步骤中存储卷积核系数和待计算特征图的存储器,以及存储计算指令的存储器,可以为板卡上一个相同的存储器(如DDR),也可以为板卡上不同的存储器,本实施例对此不做任何限制。
需要说明的是,为了使主机可以了解硬件加速卡中的计算状态,在计算过程中,处理器还可以监测计算指令的执行状态和卷积加速器的运行状态,并生成对应的状态信息发送到主机。如图2所示,处理器可以在计算过程中实时监测计算指令的执行状态和卷积加速器(CNN Accelerator)的运行状态(State Info),并生成对应的状态信息(AXI_LITE)发送到主机。
步骤103:计算完成后,向主机发送计算完成信号;其中,处理器、卷积加速器和存储器均设置在硬件加速卡上。
可以理解的是,本步骤的目的可以为处理器通过向主机发送计算完成信号,告知主机存储到存储器上的待计算特征图已经计算完成,提示主机可以从存储器上读取对应的计算结果。
具体的,对于本步骤中的计算完成信号的具体内容和类型,可以由设计人员自行设置,如计算完成信号可以为中断信号,即处理器可以产生中断给主机,主机收到该中断后可以将板卡上的存储器中的计算结果读回主机。
对应的,主机利用硬件加速卡分批对特征图进行卷积神经网络计算时,本步骤之后还可以包括:主机根据计算完成信号,从存储器获取计算结果;将下一批待计算特征图存储到存储器,再次生成并向处理器发送的开始计算命令的步骤。也就是说,由于每批待计算特征图的计算方式相同,卷积加速器计算所需的计算指导参数和卷积核系数不需变化,主机仅在当前批待计算特征图计算完成后,将下一批待计算特征图存储到存储器并向处理器发送开始计算命令,直至每批待计算特征图均计算完成后,再向主机发送停止命令。结束系统工作。
本实施例中,本发明实施例中将硬件加速卡上的处理器作为控制中枢,通过处理器执行主机的指令来灵活适配各种卷积神经网络,进而指导卷积加速器正常有序工作,实现了对卷积神经网络的硬件加速,增强了硬件加速卡上计算任务运行的自主性,减少了主机干预,进一步减小了系统延时,提高了硬件加速的性能。
请参考图3,图3为本发明实施例所提供的一种卷积神经网络的硬件加速装置的结构框图。该装置可以包括:
获取模块100,用于根据接收的主机发送的开始计算命令,从存储器获取计算指令;
指令执行模块200,用于根据计算指令,生成对应的计算指导参数,并将计算指导参数发送到卷积加速器,以控制卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到存储器;
发送模块300,用于计算完成后,向主机发送计算完成信号。
可选的,该装置还可以包括:
检测模块,用于实时监测计算指令的执行状态和卷积加速器的运行状态,并生成对应的状态信息发送到主机。
本实施例中,本发明实施例中将硬件加速卡上的处理器作为控制中枢,通过处理器执行主机的指令来灵活适配各种卷积神经网络,进而指导卷积加速器正常有序工作,实现了对卷积神经网络的硬件加速,增强了硬件加速卡上计算任务运行的自主性,减少了主机干预,进一步减小了系统延时,提高了硬件加速的性能。
本发明实施例还提供了一种卷积神经网络的硬件加速设备,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现如上述实施例所提供的卷积神经网络的硬件加速方法的步骤。
本发明实施例还提供了一种硬件加速卡,包括:如上一实施例所提供的卷积神经网络的硬件加速设备;与硬件加速设备连接的存储器和卷积加速器。
此外,本发明还提供了一种卷积神经网络的硬件加速系统,包括:如上一实施例所提供的硬件加速卡;与硬件加速卡连接的主机。
可选的,主机与硬件加速卡通过PCIE接口连接。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备、系统及硬件加速卡而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种卷积神经网络的硬件加速方法、装置、设备、系统及硬件加速卡进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种卷积神经网络的硬件加速方法,其特征在于,包括:
处理器根据接收的主机发送的开始计算命令,从存储器获取计算指令;
根据所述计算指令,生成对应的计算指导参数,并将所述计算指导参数发送到卷积加速器,以控制所述卷积加速器利用所述存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到所述存储器;
计算完成后,向所述主机发送计算完成信号;其中,所述处理器、所述卷积加速器和所述存储器均设置在硬件加速卡上。
2.根据权利要求1所述的卷积神经网络的硬件加速方法,其特征在于,所述处理器根据接收的主机发送的开始计算命令,从存储器获取计算指令之前,还包括:
所述主机将所述计算指令和所述卷积核系数存储到所述存储器;
将当前批待计算特征图存储到所述存储器;
生成并向所述处理器发送的所述开始计算命令。
3.根据权利要求2所述的卷积神经网络的硬件加速方法,其特征在于,所述计算完成后,向所述主机发送计算完成信号之后,还包括:
所述主机根据所述计算完成信号,从所述存储器获取所述计算结果;
将下一批待计算特征图存储到所述存储器,并执行所述生成并向所述处理器发送的所述开始计算命令的步骤。
4.根据权利要求1所述的卷积神经网络的硬件加速方法,其特征在于,所述根据所述计算指令,生成对应的计算指导参数,并将所述计算指导参数发送到卷积加速器之后,还包括:
所述卷积加速器根据所述计算指导参数,利用所述卷积核系数对所述待计算特征图进行卷积神经网络计算;其中,所述计算指导参数包括控制信号和参数信息;
计算完成后,将所述计算结果存储到所述存储器。
5.根据权利要求1至4任一项所述的卷积神经网络的硬件加速方法,其特征在于,还包括:
所述处理器实时监测所述计算指令的执行状态和所述卷积加速器的运行状态,并生成对应的状态信息发送到所述主机。
6.一种卷积神经网络的硬件加速装置,其特征在于,包括:
获取模块,用于根据接收的主机发送的开始计算命令,从存储器获取计算指令;
指令执行模块,用于根据所述计算指令,生成对应的计算指导参数,并将所述计算指导参数发送到卷积加速器,以控制所述卷积加速器利用所述存储器中的卷积核系数和待计算特征图进行卷积神经网络计算,并将计算结果存储到所述存储器;
发送模块,用于计算完成后,向所述主机发送计算完成信号。
7.一种卷积神经网络的硬件加速设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1或5所述的卷积神经网络的硬件加速方法的步骤。
8.一种硬件加速卡,其特征在于,包括:
如权利要求7所述的卷积神经网络的硬件加速设备;
与所述硬件加速设备连接的存储器和卷积加速器。
9.一种卷积神经网络的硬件加速系统,其特征在于,包括:
如权利要求8所述的硬件加速卡;
与所述硬件加速卡连接的主机。
10.根据权利要求9所述的卷积神经网络的硬件加速系统,其特征在于,所述主机与所述硬件加速卡通过PCIE接口连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910384808.7A CN110334801A (zh) | 2019-05-09 | 2019-05-09 | 一种卷积神经网络的硬件加速方法、装置、设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910384808.7A CN110334801A (zh) | 2019-05-09 | 2019-05-09 | 一种卷积神经网络的硬件加速方法、装置、设备及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334801A true CN110334801A (zh) | 2019-10-15 |
Family
ID=68139970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910384808.7A Pending CN110334801A (zh) | 2019-05-09 | 2019-05-09 | 一种卷积神经网络的硬件加速方法、装置、设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334801A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143272A (zh) * | 2019-12-28 | 2020-05-12 | 浪潮(北京)电子信息产业有限公司 | 异构计算平台的数据处理方法、装置及可读存储介质 |
CN111241031A (zh) * | 2020-01-07 | 2020-06-05 | 北京三快在线科技有限公司 | 一种数据计算系统、方法以及装置 |
CN111898698A (zh) * | 2020-08-10 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 对象的处理方法及装置、存储介质和电子设备 |
CN112073225A (zh) * | 2020-08-25 | 2020-12-11 | 山东理工职业学院 | 一种基于校园网速设计的加速器系统以及流程 |
CN114003392A (zh) * | 2021-12-28 | 2022-02-01 | 苏州浪潮智能科技有限公司 | 一种数据加速计算方法及相关装置 |
US11403069B2 (en) | 2017-07-24 | 2022-08-02 | Tesla, Inc. | Accelerated mathematical engine |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11487288B2 (en) | 2017-03-23 | 2022-11-01 | Tesla, Inc. | Data synthesis for autonomous control systems |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
CN115860049A (zh) * | 2023-03-02 | 2023-03-28 | 瀚博半导体(上海)有限公司 | 一种数据调度方法和设备 |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11665108B2 (en) | 2018-10-25 | 2023-05-30 | Tesla, Inc. | QoS manager for system on a chip communications |
US11681649B2 (en) | 2017-07-24 | 2023-06-20 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11734562B2 (en) | 2018-06-20 | 2023-08-22 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11748620B2 (en) | 2019-02-01 | 2023-09-05 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
CN116720551A (zh) * | 2023-08-02 | 2023-09-08 | 苏州浪潮智能科技有限公司 | 脉冲神经网络的卷积加速方法及卷积加速器 |
US11790664B2 (en) | 2019-02-19 | 2023-10-17 | Tesla, Inc. | Estimating object properties using visual image data |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11841434B2 (en) | 2018-07-20 | 2023-12-12 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11893774B2 (en) | 2018-10-11 | 2024-02-06 | Tesla, Inc. | Systems and methods for training machine models with augmented data |
US11983630B2 (en) | 2023-01-19 | 2024-05-14 | Tesla, Inc. | Neural networks for embedded devices |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399758A (zh) * | 2011-12-31 | 2013-11-20 | 华为数字技术(成都)有限公司 | 硬件加速方法、装置和系统 |
CN106875012A (zh) * | 2017-02-09 | 2017-06-20 | 武汉魅瞳科技有限公司 | 一种基于fpga的深度卷积神经网络的流水化加速系统 |
CN107657263A (zh) * | 2016-08-12 | 2018-02-02 | 北京深鉴科技有限公司 | 一种用于实现ann的深度处理单元 |
CN108804077A (zh) * | 2017-04-28 | 2018-11-13 | 英特尔公司 | 用来执行用于机器学习的浮点和整数操作的指令和逻辑 |
CN108805272A (zh) * | 2018-05-03 | 2018-11-13 | 东南大学 | 一种基于fpga的通用卷积神经网络加速器 |
CN109086867A (zh) * | 2018-07-02 | 2018-12-25 | 武汉魅瞳科技有限公司 | 一种基于fpga的卷积神经网络加速系统 |
CN109409509A (zh) * | 2018-12-24 | 2019-03-01 | 济南浪潮高新科技投资发展有限公司 | 一种针对基于fpga的卷积神经网络加速器的数据结构和加速方法 |
CN109460813A (zh) * | 2018-09-10 | 2019-03-12 | 中国科学院深圳先进技术研究院 | 卷积神经网络计算的加速方法、装置、设备及存储介质 |
CN109542713A (zh) * | 2019-02-21 | 2019-03-29 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种验证方法及验证装置 |
-
2019
- 2019-05-09 CN CN201910384808.7A patent/CN110334801A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399758A (zh) * | 2011-12-31 | 2013-11-20 | 华为数字技术(成都)有限公司 | 硬件加速方法、装置和系统 |
CN107657263A (zh) * | 2016-08-12 | 2018-02-02 | 北京深鉴科技有限公司 | 一种用于实现ann的深度处理单元 |
CN106875012A (zh) * | 2017-02-09 | 2017-06-20 | 武汉魅瞳科技有限公司 | 一种基于fpga的深度卷积神经网络的流水化加速系统 |
CN108804077A (zh) * | 2017-04-28 | 2018-11-13 | 英特尔公司 | 用来执行用于机器学习的浮点和整数操作的指令和逻辑 |
CN108805272A (zh) * | 2018-05-03 | 2018-11-13 | 东南大学 | 一种基于fpga的通用卷积神经网络加速器 |
CN109086867A (zh) * | 2018-07-02 | 2018-12-25 | 武汉魅瞳科技有限公司 | 一种基于fpga的卷积神经网络加速系统 |
CN109460813A (zh) * | 2018-09-10 | 2019-03-12 | 中国科学院深圳先进技术研究院 | 卷积神经网络计算的加速方法、装置、设备及存储介质 |
CN109409509A (zh) * | 2018-12-24 | 2019-03-01 | 济南浪潮高新科技投资发展有限公司 | 一种针对基于fpga的卷积神经网络加速器的数据结构和加速方法 |
CN109542713A (zh) * | 2019-02-21 | 2019-03-29 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种验证方法及验证装置 |
Non-Patent Citations (1)
Title |
---|
SONGPU HUANG ET AL.: "Design and Implementation of Convolutional Neural Network Accelerator with Variable Layer-by-layer Debugging", 《ICDLT’18》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11487288B2 (en) | 2017-03-23 | 2022-11-01 | Tesla, Inc. | Data synthesis for autonomous control systems |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11681649B2 (en) | 2017-07-24 | 2023-06-20 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11403069B2 (en) | 2017-07-24 | 2022-08-02 | Tesla, Inc. | Accelerated mathematical engine |
US11797304B2 (en) | 2018-02-01 | 2023-10-24 | Tesla, Inc. | Instruction set architecture for a vector computational unit |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11734562B2 (en) | 2018-06-20 | 2023-08-22 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11841434B2 (en) | 2018-07-20 | 2023-12-12 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
US11893774B2 (en) | 2018-10-11 | 2024-02-06 | Tesla, Inc. | Systems and methods for training machine models with augmented data |
US11665108B2 (en) | 2018-10-25 | 2023-05-30 | Tesla, Inc. | QoS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11908171B2 (en) | 2018-12-04 | 2024-02-20 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US11748620B2 (en) | 2019-02-01 | 2023-09-05 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US11790664B2 (en) | 2019-02-19 | 2023-10-17 | Tesla, Inc. | Estimating object properties using visual image data |
CN111143272A (zh) * | 2019-12-28 | 2020-05-12 | 浪潮(北京)电子信息产业有限公司 | 异构计算平台的数据处理方法、装置及可读存储介质 |
CN111241031A (zh) * | 2020-01-07 | 2020-06-05 | 北京三快在线科技有限公司 | 一种数据计算系统、方法以及装置 |
CN111898698A (zh) * | 2020-08-10 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 对象的处理方法及装置、存储介质和电子设备 |
CN111898698B (zh) * | 2020-08-10 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 对象的处理方法及装置、存储介质和电子设备 |
CN112073225A (zh) * | 2020-08-25 | 2020-12-11 | 山东理工职业学院 | 一种基于校园网速设计的加速器系统以及流程 |
CN114003392A (zh) * | 2021-12-28 | 2022-02-01 | 苏州浪潮智能科技有限公司 | 一种数据加速计算方法及相关装置 |
US11983630B2 (en) | 2023-01-19 | 2024-05-14 | Tesla, Inc. | Neural networks for embedded devices |
CN115860049A (zh) * | 2023-03-02 | 2023-03-28 | 瀚博半导体(上海)有限公司 | 一种数据调度方法和设备 |
CN116720551B (zh) * | 2023-08-02 | 2023-09-29 | 苏州浪潮智能科技有限公司 | 脉冲神经网络的卷积加速方法及卷积加速器 |
CN116720551A (zh) * | 2023-08-02 | 2023-09-08 | 苏州浪潮智能科技有限公司 | 脉冲神经网络的卷积加速方法及卷积加速器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334801A (zh) | 一种卷积神经网络的硬件加速方法、装置、设备及系统 | |
US20140094313A1 (en) | Replay and resumption of suspended game | |
CN106489132B (zh) | 读写数据的方法、装置、存储设备和计算机系统 | |
CN109947573A (zh) | 适用于电力系统边缘计算的智能加速芯片 | |
CN114003392B (zh) | 一种数据加速计算方法及相关装置 | |
CN112306623A (zh) | 深度学习任务的处理方法、装置及计算机可读存储介质 | |
CN108241534A (zh) | 一种任务处理、分配、管理、计算的方法以及装置 | |
US8768680B2 (en) | Simulator of multi-core system employing reconfigurable processor cores and method of simulating multi-core system employing reconfigurable processor cores | |
CN105677491B (zh) | 一种数据传输方法及装置 | |
CN107065616A (zh) | 联动控制方法及装置、计算机可读存储介质 | |
CN110765594B (zh) | 一种风电场实时仿真器内部交互接口控制方法及装置 | |
CN108427584A (zh) | 快速启动的具有并行计算核的芯片及该芯片的配置方法 | |
CN109960571A (zh) | 一种多模块调度方法、装置及系统 | |
CN105867847B (zh) | 访存控制方法、装置及系统 | |
CN116069447A (zh) | 一种虚拟机numa拓扑生成方法、装置、设备、介质 | |
CN109582392A (zh) | Bios配置选项的配置方法、装置、设备及存储介质 | |
US5875289A (en) | Method and system for simulating auto-init mode DMA data transfers | |
CN109597577A (zh) | 一种处理nvme协议读写命令的方法、系统及相关装置 | |
CN109471679A (zh) | 一种对pcie交换芯片配置文件进行配置的方法 | |
CN107025064B (zh) | 一种低延迟高iops的数据访问方法 | |
CN110019487A (zh) | 一种数据库连接管理方法及装置 | |
CN111736986B (zh) | 一种深度学习模型的fpga加速执行方法及相关装置 | |
CN106919341A (zh) | 一种下发i/o的方法及装置 | |
CN109101424A (zh) | 一种实现数据激励的方法及装置 | |
JP2021533517A (ja) | データ処理モジュール、データ処理システム、およびデータ処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |
|
RJ01 | Rejection of invention patent application after publication |