CN110163350A - 一种计算装置及方法 - Google Patents
一种计算装置及方法 Download PDFInfo
- Publication number
- CN110163350A CN110163350A CN201810149287.2A CN201810149287A CN110163350A CN 110163350 A CN110163350 A CN 110163350A CN 201810149287 A CN201810149287 A CN 201810149287A CN 110163350 A CN110163350 A CN 110163350A
- Authority
- CN
- China
- Prior art keywords
- data
- input data
- mentioned
- input
- circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/3001—Arithmetic instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/3017—Runtime instruction translation, e.g. macros
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
- G06N3/065—Analogue means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Neurology (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Advance Control (AREA)
Abstract
本申请提供了一种计算装置,该计算装置用于执行网络模型的计算,该网络模型包括神经网络模型和/或非神经网络模型。该计算装置包括:存储单元包括:数据输入输出单元,该数据输入输出单元获取第一输入数据、网络模型以及计算指令;控制器单元从存储单元提取计算指令,解析该计算指令得到数据转换指令和/或一个或多个运算指令,将数据转换指令和多个运算指令以及第一输入数据发送给运算单元;运算单元根据数据转换指令将第一输入数据转换为以定点数据表示的第二输入数据;根据多个运算指令对第二输入数据执行计算以得到计算指令的结果。本发明实施例对参与网络模型计算的数据采用定点数据进行表示,可提升训练运算的处理速度和处理效率。
Description
技术领域
本申请涉及信息处理技术领域,具体涉及一种计算装置及方法。
背景技术
随着信息技术的不断发展和人们日益增长的需求,人们对信息及时性的要求越来越高了。目前,终端对信息的获取以及处理均是基于通用处理器获得的。
在实践中发现,这种基于通用处理器运行软件程序来处理信息的方式,受限于通用处理器的运行速率,特别是在通用处理器负荷较大的情况下,信息处理效率较低、时延较大,对于信息处理的计算模型例如训练模型来说,训练运算的计算量更大,通用的处理器完成训练运算的时间长,效率低。
申请内容
本申请实施例提供了一种计算装置及方法,可提升运算的处理速度,提高效率。
第一方面,本发明实施例提供了在一种计算装置,所述计算装置用于执行网络模型的计算,所述网络模型包括:神经网络模型和/或非神经网络模型;所述计算装置包括:运算单元、控制器单元以及存储单元,所述存储单元包括:数据输入输出单元;
所述数据输入输出单元,用于获取第一输入数据、网络模型以及计算指令;
所述控制器单元,用于从所述存储单元提取所述计算指令,解析该计算指令得到数据转换指令和多个运算指令,其中,所述数据转换指令包括操作域和操作码,该操作码用于指示所述数据类型转换指令的功能,所述数据类型转换指令的操作域包括小数点位置、用于指示第一输入数据的数据类型的标志位和数据类型的转换方式;将所述数据转换指令的操作码和操作域及所述多个运算指令以及所述第一输入数据发送给所述运算单元;;
所述运算单元,用于根据所述数据转换指令的操作码和操作域将所述第一输入数据转换为第二输入数据,该第二输入数据为定点数据;根据所述多个运算指令对所述第二输入数据执行计算得到计算指令的结果。
在一种可行的实施例中,所述存储单元还包括:存储介质和标量数据存储单元;
所述存储介质,用于存储所述网络模型、输入数据、权值数据;
所述标量数据存储单元,用于存储标量数据。
在一种可行的实施例中,所述控制器单元包括:指令存储单元、指令存储单元和存储队列单元;
所述指令存储单元,用于存储所述网络模型关联的计算指令;
所述指令处理单元,用于对所述计算指令解析得到所述数据转换指令和所述多个运算指令,并解析所述数据转换指令以得到所述数据转换指令的操作码和操作域;
所述存储队列单元,用于存储指令队列,该指令队列包括:按该队列的前后顺序待执行的多个运算指令或计算指令。
在一种可行的实施例中,所述运算单元包括:依赖关系处理单元;
所述依赖关系处理单元,用于确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系,如所述第一运算指令与所述第零运算指令存在关联关系,将所述第一运算指令缓存在所述指令存储单元内,在所述第零运算指令执行完毕后,从所述指令存储单元提取所述第一运算指令传输至所述运算单元;
所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括:
依据所述第一运算指令提取所述第一运算指令中所需数据的第一存储地址区间,依据所述第零运算指令提取所述第零运算指令中所需数据的第零存储地址区间,如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域,确定所述第一运算指令与所述第零运算指令具有关联关系,如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域,确定所述第一运算指令与所述第零运算指令不具有关联关系。
在一种可行的实施例中,所述运算单元包括:数据转换电路和多个运算模块,所述多个运算模块包用于执行n个流水级的计算,n大于或者等于2;
所述数据转换电路,用于根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型,然后根据所述小数点位置和所述数据类型的转换方式标识,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型或者小数点位置与所述第一输入数据的数据类型或者小数点位置不一致;
所述运算单元,具体用于对所述第二输入数据执行第一流水级的计算得到第一结果,将第一结果输入到第二流水级执行第二流水级的计算得到第二结果,将第n-1结果输入到第n流水级执行第n流水级的计算得到第n结果,将所述第n结果输入到所述存储单元,所述n为大于等于3的整数。
在一种可行的实施例中,所述运算单元包括一个主处理电路、分支处理电路以及多个从处理电路,
所述主处理电路,用于根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型,然后根据所述小数点位置和所述数据类型的转换方式标识,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型或者小数点位置与所述第一输入数据的数据类型或者小数点位置不一致;
所述主处理电路,还用于将一个第二输入数据分配成多个数据块,将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述分支处理电路;
所述分支处理电路,用于转发所述主处理电路与所述多个从处理电路之间的数据;
所述多个从处理电路,用于依据该运算指令对接收到的数据块执行运算得到中间结果,并将中间结果传输给所述分支处理电路;
所述主处理电路,用于将分支处理电路发送的中间结果进行处理得到该计算指令的结果,将该计算指令的结果发送给所述控制器单元。
在一种可行的实施例中,所述运算单元包括一个主处理电路以及多个从处理电路;
所述多个从处理电路呈阵列分布;每个从处理电路与相邻的其他从处理电路连接,所述主处理电路连接所述多个从处理电路中的K个从处理电路,所述K个从处理电路为:第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路;
所述K个从处理电路,用于在所述主处理电路以及多个从处理电路之间的数据以及指令的转发;
所述主处理电路,用于根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型,然后根据所述小数点位置和所述数据类型的转换方式标识,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型或者小数点位置与所述第一输入数据的数据类型或者小数点位置不一致;
所述主处理电路,还用于将一个第二输入数据分配成多个数据块,将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述K个从处理电路;
所述K个从处理电路,用于转换所述主处理电路与所述多个从处理电路之间的数据;
所述多个从处理电路,用于依据该运算指令对接收到的数据块执行运算得到中间结果,并将运算结果传输给所述K个从处理电路;
所述主处理电路,用于将所述K个从处理电路发送的中间结果进行处理得到该计算指令的结果,将该计算指令的结果发送给所述控制器单元。
在一种可行的实施例中,所述主处理电路,具体用于将多个处理电路发送的中间结果进行组合排序得到该计算指令的结果;
或所述主处理电路,具体用于将多个处理电路的发送的中间结果进行组合排序以及激活处理后得到该计算指令的结果。
在一种可行的实施例中,所述主处理电路包括:转换处理电路、激活处理电路、加法处理电路中的一种或任意组合;
所述转换处理电路,用于将主处理电路接收的数据块或中间结果执行第一数据结构与第二数据结构之间的互换;或将主处理电路接收的数据块或中间结果执行第一数据类型与第二数据类型之间的互换;
所述激活处理电路,用于执行主处理电路内数据的激活运算;
所述加法处理电路,用于执行加法运算或累加运算。
在一种可行的实施例中,所述从处理电路包括:乘法处理电路;
所述乘法处理电路,用于对接收到的数据块执行乘积运算得到乘积结果。
在一种可行的实施例中,所述从处理电路还包括:累加处理电路,所述累加处理电路,用于对该乘积结果执行累加运算得到该中间结果。
第二方面,本发明实施例提供了一种计算方法,其特征在于,该方法包括:
所述方法用于执行网络模型的计算,所述网络模型包括:神经网络模型和/或非神经网络模型,所述方法包括:
获取第一输入数据、所述网络模型和计算指令;
解析所述计算指令,以得到数据转换指令和多个运算指令,所述数据转换指令包括数据转换指令包括操作域和操作码,该操作码用于指示所述数据类型转换指令的功能,所述数据类型转换指令的操作域包括小数点位置、用于指示第一输入数据的数据类型的标志位和数据类型的转换方式;
根据所述数据转换指令将所述第一输入数据转换为第二输入数据,该第二输入数据为定点数据;
根据所述多个运算指令对所述第二输入数据执行计算得到计算指令的结果。
在一种可行的实施例中,所述根据所述数据转换指令将所述第一输入数据转换为第二输入数据,包括:
解析所述数据转换指令,以得到所述小数点位置、所述用于指示第一输入数据的数据类型的标志位和数据类型的转换方式;
根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型;
根据所述小数点位置和所述数据类型的转换方式,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型与所述第一输入数据的数据类型不一致。
在一种可行的实施例中,当所述第一输入数据和所述第二输入数据均为定点数据时,所述第一输入数据的小数点位置和所述第二输入数据的小数点位置不一致。
第三方面,本发明实施例提供了一种神经网络运算装置,该神经网络运算装置包括一个或者多个第一方面所述的计算装置。该神经网络运算装置用于从其他处理装置中获取待运算数据和控制信息,并执行指定的神经网络运算,将执行结果通过I/O接口传递给其他处理装置;
当所述神经网络运算装置包含多个所述计算装置时,所述多个所述计算装置间可以通过特定的结构进行链接并传输数据;
其中,多个所述计算装置通过PCIE总线进行互联并传输数据,以支持更大规模的神经网络的运算;多个所述计算装置共享同一控制系统或拥有各自的控制系统;多个所述计算装置共享内存或者拥有各自的内存;多个所述计算装置的互联方式是任意互联拓扑。
第四方面,本发明实施例提供了一种组合处理装置,该组合处理装置包括如第三方面所述的神经网络处理装置、通用互联接口,和其他处理装置。该神经网络运算装置与上述其他处理装置进行交互,共同完成用户指定的操作。该组合处理装置还可以包括存储装置,该存储装置分别与所述神经网络运算装置和所述其他处理装置连接,用于保存所述神经网络运算装置和所述其他处理装置的数据。
第五方面,本发明实施例提供了一种神经网络芯片,该神经网络芯片包括上述第一方面所述的计算装置、上述第三方面所述的神经网络运算装置或者上述第四方面所述的组合处理装置。
第六方面,本发明实施例提供了一种神经网络芯片封装结构,该神经网络芯片封装结构包括上述第五方面所述的神经网络芯片;
第七方面,本发明实施例提供了一种板卡,该板卡包括上述第六方面所述的神经网络芯片封装结构。
第八方面,本发明实施例提供了一种电子装置,该电子装置包括上述第六方面所述的神经网络芯片或者上述第七方面所述的板卡。
在一些实施例中,所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
在一些实施例中,所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。
可以看出,在本申请实施例的方案中,该计算装置包括:存储单元包括:数据输入输出单元,该数据输入输出单元获取第一输入数据、网络模型以及计算指令;控制器单元从存储单元提取计算指令,解析该计算指令得到数据转换指令和/或一个或多个运算指令,将数据转换指令和多个运算指令以及第一输入数据发送给运算单元;运算单元根据数据转换指令将第一输入数据转换为以定点数据表示的第二输入数据;根据多个运算指令对第二输入数据执行计算以得到计算指令的结果。本发明实施例对参与网络模型计算的数据采用定点数据进行表示,可提升训练运算的处理速度和处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供一种定点数据的数据结构示意图;
图2为本申请实施例提供另一种定点数据的数据结构示意图;
图3A是本申请实施例提供的一种计算装置的结构示意图;
图3B是本申请一个实施例提供的计算装置的结构示意图;
图3C是本申请另一个实施例提供的计算装置的结构示意图;
图3D是本申请实施例提供的主处理电路的结构示意图;
图4为本申请实施例提供的一种单层人工神经网络正向运算流程图;
图5为本申请实施例提供的一种神经网络正向运算和反向训练流程图;
图6是本申请实施例提供的一种组合处理装置的结构图;
图7是本申请实施例提供的另一种组合处理装置的结构图;
图8为本申请实施例提供的一种计算方法的流程示意图;
图9为本申请实施例提供的一种数据的小数点位置确定和调整流程示意图;
图10为本申请实施例提供的另一种定点数据的结构示意图;
图11为本申请实施例提供的另一种定点数据的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
首先介绍定点数据的结构,参加图1,图1为本申请实施例提供一种定点数据的数据结构示意图。如图1所示有符号的定点数据,该定点数据占X比特位,该定点数据又可称为X位定点数据。其中,该X位定点数据包括占1比特的符号位、M比特的整数位和N比特的小数位,X-1=M+N。对于无符号的定点数据,只包括M比特的整数位和N比特的小数位,即X=M+N。
相比于32位浮点数据表示形式,本发明采用的短位定点数据表示形式除了占用比特位数更少外,对于网路模型中同一层、同一类型的数据,如第一个卷积层的所有卷积核、输入神经元或者偏置数据,还另外设置了一个标志位记录定点数据的小数点位置,该标志位即为Point Location。这样可以根据输入数据的分布来调整上述标志位的大小,从而达到调整定点数据的精度与定点数据可表示范围。
举例说明,将浮点数68.6875转换为小数点位置为5的有符号16位定点数据。其中,对于小数点位置为5的有符号16位定点数据,其整数部分占10比特,小数部分占5比特,符号位占1比特。上述数据转换单元将上述浮点数68.6875转换成有符号16位定点数据为0000010010010110,如图2所示。
参阅图3A,图3A为本申请实施提供了一种计算装置的结构示意图,该计算装置包括:存储单元10、控制器单元11和运算单元12,其中,控制器单元11与存储单元10以及运算单元12;
该存储单元10可以包括:数据输入输出单元203,
数据输入输出单元203,用于获取第一输入数据、网络模型以及计算指令;
控制器单元11,用于从所述存储单元10提取上述计算指令,解析该计算指令以得到数据转换指令和/或一个或者多个运算指令,其中,所述数据转换指令包括操作域和操作码,该操作码用于指示所述数据类型转换指令的功能,所述数据类型转换指令的操作域包括小数点位置、用于指示第一输入数据的数据类型的标志位。
可选地,上述数据转换指令的操作域还包括数据类型的转换方式标识,该标识对应一种数据类型的转换方式。
上述控制器单元11,解析上述数据转换指令,以得到上述小数点位置、用于指示第一输入数据的数据类型的标志位和上述数据类型的转换方式标识(可选地),将上述一条或多条运算指令、第一输入数据、上述小数点位置、用于指示第一输入数据的数据类型的标志位和上述数据类型的转换方式标识(可选地)发送至运算单元12。
运算单元12,用于根据上述小数点位置、用于指示第一输入数据的数据类型的标志位和上述数据类型的转换方式标识将所述第一输入数据转换为第二输入数据,该第二输入数据为定点数据,根据所述多个运算指令对第二输入数据执行计算得到计算指令的结果。
可选的,该控制器单元11包括:指令存储单元110、指令存储单元111和存储队列单元113;
上述指令存储单元110,用于存储与上述网络模型关联的计算指令;
所述指令处理单元111,用于对所述计算指令解析得到上述多个运算指令和上述数据转换指令,并解析数据转换指令,以得到上述小数点位置、用于指示第一输入数据的数据类型的标志位和上述数据类型的转换方式标识;
存储队列单元113,用于存储指令队列,该指令队列包括:按该队列的前后顺序待执行的多个运算指令或计算指令。
该计算指令可以包括:一个或多个操作域以及一个操作码。该计算指令可以包括神经网络运算指令。以神经网络运算指令为例,如表1所示,其中,寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以为操作域。其中,每个寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以是一个或者多个寄存器的号码。具体参见下表1:
表1
可选的,存储单元10还可以包括:存储介质201和标量数据存储单元202
存储介质201可以为片外存储器,当然在实际应用中,也可以为片内存储器,用于存储数据块,该数据块具体可以为n维数据,n为大于等于1的整数,例如,n=1时,为1维数据,即向量,如n=2时,为2维数据,即矩阵,如n=3或3以上时,为多维张量。
可选的,该控制器单元11还可以包括:
所述依赖关系处理单元,用于在具有多个运算指令时,确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系,如所述第一运算指令与所述第零运算指令存在关联关系,则将所述第一运算指令缓存在所述指令存储单元内,在所述第零运算指令执行完毕后,从所述指令存储单元提取所述第一运算指令传输至所述运算单元;
所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括:
依据所述第一运算指令提取所述第一运算指令中所需数据(例如矩阵)的第一存储地址区间,依据所述第零运算指令提取所述第零运算指令中所需矩阵的第零存储地址区间,如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域,则确定所述第一运算指令与所述第零运算指令具有关联关系,如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域,则确定所述第一运算指令与所述第零运算指令不具有关联关系。
在一个实施例里,该运算单元12可以包括数据转换电路和多个运算模块,所述多个运算模块用于执行n个流水级的计算,n大于或者等于2;
所述数据转换电路;根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型,然后根据所述小数点位置和所述数据类型的转换方式,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型与所述第一输入数据的数据类型不一致;
该运算单元12具体用于对所述第二输入数据执行第一流水级的计算得到第一结果,将第一结果输入到第二流水级执行第二流水级的计算得到第二结果,…,将所述第n-1结果输入到第n流水级执行第n流水级的计算得到第n结果,将所述第n结果输入到所述存储单元。n可以为大于等于3的整数。
具体地,上述具体地,上述数据类型的转换方式标识与上述数据类型的转换方式一一对应。参见下表2,表2为一种可行的数据类型的转换方式标识与数据类型的转换方式的对应关系表。
数据类型的转换方式标识 | 数据类型的转换方式 |
00 | 定点数据转换为定点数据 |
01 | 浮点数据转换为浮点数据 |
10 | 定点数据转换为浮点数据 |
11 | 浮点数据转换为定点数据 |
表3
图表3所示,当上述数据类型的转换方式标识为00时,上述数据类型的转换方式为定点数据转换为定点数据;当上述数据类型的转换方式标识为01时,上述数据类型的转换方式为浮点数据转换为浮点数据;当上述数据类型的转换方式标识为10时,上述数据类型的转换方式为定点数据转换为浮点数据;当上述数据类型的转换方式标识为11时,上述数据类型的转换方式为浮点数据转换为定点数据。
可选地,上述数据类型的转换方式标识与数据类型的转换方式的对应关系还可如下表3所示。
数据类型的转换方式标识 | 数据类型的转换方式 |
0000 | 64位定点数据转换为64位浮点数据 |
0001 | 32位定点数据转换为64位浮点数据 |
0010 | 16位定点数据转换为64位浮点数据 |
0011 | 32位定点数据转换为32位浮点数据 |
0100 | 16位定点数据转换为32位浮点数据 |
0101 | 16位定点数据转换为16位浮点数据 |
0110 | 64位浮点数据转换为64位定点数据 |
0111 | 32位浮点数据转换为64位定点数据 |
1000 | 16位浮点数据转换为64位定点数据 |
1001 | 32位浮点数据转换为32位定点数据 |
1010 | 16位浮点数据转换为32位定点数据 |
1011 | 16位浮点数据转换为16位定点数据 |
表3
如表3所示,当上述数据类型的转换方式标识为0000时,上述数据类型的转换方式为64位定点数据转换为64位浮点数据;当上述数据类型的转换方式标识为0001时,上述数据类型的转换方式为32位定点数据转换为64位浮点数据;当上述数据类型的转换方式标识为0010时,上述数据类型的转换方式为16位定点数据转换为64位浮点数据;当上述数据类型的转换方式标识为0011时,上述数据类型的转换方式为32位定点数据转换为32位浮点数据;当上述数据类型的转换方式标识为0100时,上述数据类型的转换方式为16位定点数据转换为32位浮点数据;当上述数据类型的转换方式标识为0101时,上述数据类型的转换方式为16位定点数据转换为16位浮点数据;当上述数据类型的转换方式标识为0110时,上述数据类型的转换方式为64位浮点数据转换为64位定点数据;当上述数据类型的转换方式标识为0111时,上述数据类型的转换方式为32位浮点数据转换为64位定点数据;当上述数据类型的转换方式标识为1000时,上述数据类型的转换方式为16位浮点数据转换为64位定点数据;当上述数据类型的转换方式标识为1001时,上述数据类型的转换方式为32位浮点数据转换为32位定点数据;当上述数据类型的转换方式标识为1010时,上述数据类型的转换方式为16位浮点数据转换为32位定点数据;当上述数据类型的转换方式标识为1011时,上述数据类型的转换方式为16位浮点数据转换为16位定点数据。
在一种可行的实施例中,上述控制器单元11从上述存储单元中获取计算指令,解析该计算指令以得到一个或者多个运算指令,其中该运算指令可为可变格式运算指令或者定点格式运算指令。
其中,上述可变格式运算指令包括包括操作码和操作域,该操作码用于指示该可变格式运算指令的功能,上述操作域包括第一输入数据的首地址、第一输入数据的长度(可选地)、输出数据的首地址、小数点位置、用于指示进行运算的数据类型标志位(可选地)和操作类型标识。
当上述运算指令为可变格式运算指令时,上述控制器单元11解析上述可变格式运算指令,以得到上述第一输入数据的首地址、上述第一输入数据的长度、上述输出数据的首地址、上述小数点位置、上述用于指示进行运算的数据类型标志位和操作类型标识,然后将第一输入数据的首地址、上述第一输入数据的长度、上述输出数据的首地址、上述小数点位置、上述用于指示进行运算的数据类型标志位和操作类型标识发送至上述运算单元12。
上述运算单元12的数据转换电路根据上述第一输入数据的首地址和第一输入数据的长度从上述存储单元10中读取上述第一输入数据,然后根据上述用于指示进行运算的数据类型标志位、上述小数点位置和上述操作类型标识指示的操作类型将上述第一输入数据转换为第二输入数据;上述运算单元12的多个运算模块对该第二输入数据进行运算,以得到上述计算指令的结果;将该计算指令的结果存储至上述存储单元10中上述输出数据的首地址对应的位置。
其中,上述标志位用于指示上述运算单元12进行运算时参与运算的数据的类型。该类型包括定点数据,浮点数据、整型数据和离散数据等。
举例说明,上述标志位为0或1。当该标志位为1时,上述运算单元12进行浮点运算,即参与运算的数据类型为浮点数据;当上述标识位为0时,上述运算单元12进行定点运算,即参与运算的数据类型为定点数据。
上述运算单元12的数据转换电路可根据上述标志位和上述操作类型标识的映射关系确定对上述第二输入数据的数据类型和进行运算的类型。
具体地,参见表4,表4为标志位与操作类型标识的映射关系表。
表4
如表4所示,当上述操作类型标识为0且上述标志位为0时,上述第一输入数据为定点数据,上述运算单元12的多个运算模块进行定点运算,不进行数据转换;当上述操作类型标识为1且上述标志位为0时,上述第一输入数据为浮点数据,上述运算单元12的多个运算模块进行浮点运算,不进行数据转换;当上述操作类型标识为1且上述标志位为0时,上述第一输入数据为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为浮点数据,上述运算单元12的多个运算模块对第二输入数据进行运算;当上述操作类型标识为1且上述标志位为1时,上述第一输入数据为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为定点数据,上述运算单元12的多个运算模块对该第二输入数据进行运算。
其中,上述定点数据包括64位定点数据、32位定点数据、16位定点数据。上述浮点数据64位浮点数据、32位浮点数据和16位浮点数据。上述标志位与操作类型标识的映射关系具体还可参见下表5。
表5
如表5所示,当上述操作类型标识为0000且上述标志位为0时,上述第一输入数据为64为定点数据,上述运算单元12的多个运算模块进行64位定点运算,不进行数据类型转换;当上述操作类型标识为0000且上述标志位为1时,上述第一输入数据为64为浮点数据,上述运算单元12的多个运算模块进行64位浮点运算,不进行数据类型转换;当上述操作类型标识为0001且上述标志位为0时,上述第一输入数据为32为定点数据,上述运算单元12的多个运算模块进行32位定点运算,不进行数据类型转换;当上述操作类型标识为0001且上述标志位为1时,上述第一输入数据为32为浮点数据,上述运算单元12的多个运算模块进行32位浮点运算,不进行数据类型转换;当上述操作类型标识为0010且上述标志位为0时,上述第一输入数据为16为定点数据,上述运算单元12的多个运算模块进行16位定点运算,不进行数据类型转换;当上述操作类型标识为0010且上述标志位为1时,上述第一输入数据为16为浮点数据,上述运算单元12的多个运算模块进行16位浮点运算,不进行数据类型转换。
当上述操作类型标识为0011且上述标志位为0时,上述第一输入数据为64为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为64为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行64位浮点运算;当上述操作类型标识为0011且上述标志位为1时,上述第一输入数据为64为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为64为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行64位定点运算。
当上述操作类型标识为0100且上述标志位为0时,上述第一输入数据为32为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为64为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行64位浮点运算;当上述操作类型标识为0100且上述标志位为1时,上述第一输入数据为32为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为64为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行64位定点运算。
当上述操作类型标识为0101且上述标志位为0时,上述第一输入数据为16为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为64为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行64位浮点运算;当上述操作类型标识为0101且上述标志位为1时,上述第一输入数据为16为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为64为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行64位定点运算。
当上述操作类型标识为0110且上述标志位为0时,上述第一输入数据为32为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为32为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行32位浮点运算;当上述操作类型标识为0110且上述标志位为1时,上述第一输入数据为32为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为32为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行32位定点运算。
当上述操作类型标识为0111且上述标志位为0时,上述第一输入数据为16为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为32为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行32位浮点运算;当上述操作类型标识为0111且上述标志位为1时,上述第一输入数据为16为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为32为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行32位定点运算。
当上述操作类型标识为1000且上述标志位为0时,上述第一输入数据为16为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为16为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行16位浮点运算;当上述操作类型标识为1000且上述标志位为1时,上述第一输入数据为16为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为16为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行16位定点运算。
当上述操作类型标识为1001且上述标志位为0时,上述第一输入数据为64为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为32为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行32位浮点运算;当上述操作类型标识为1001且上述标志位为1时,上述第一输入数据为64为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为32为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行32位定点运算。
当上述操作类型标识为1010且上述标志位为0时,上述第一输入数据为64为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为16为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行16位浮点运算;当上述操作类型标识为1010且上述标志位为1时,上述第一输入数据为64为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为16为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行16位定点运算。
当上述操作类型标识为1011且上述标志位为0时,上述第一输入数据为32为定点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为16为浮点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行16位浮点运算;当上述操作类型标识为1011且上述标志位为1时,上述第一输入数据为32为浮点数据,上述运算单元12的数据转换电路先根据上述小数点位置将上述第一输入数据转换为第二输入数据,第二输入数据为16为定点数据,然后上述运算单元12的多个运算模块对该第二输入数据进行16位定点运算。
在一种可行的实施例中,上述运算指令为定点格式运算指令,该定点格式运算指令包括操作域和操作码,该操作码用于指示该定点格式运算指令的功能,定点格式运算指令的操作码包括第一输入数据的首地址,第一输入数据的长度(可选地)、输出数据的首地址和小数点位置。
上述控制器单元11获取上述定点格式运算指令后,解析该定点格式运算指令,以得到上述第一输入数据的首地址、第一输入数据的长度、输出数据的首地址和小数点位置;然后上述控制器单元11将第一输入数据的首地址、第一输入数据的长度、输出数据的首地址和小数点位置发送至上述运算单元12,该运算单元12根据上述第一输入数据的首地址和第一输出数据的长度从上述存储器中获取输出数据,该输出数据为定点数据。上述运算单元12的多个运算模块根据上述小数点位置对上述第一输入数据进行运算,以得到计算指令的结果,并将该计算指令的结果存储至上述存储单元中上述输出数据的首地址对应的位置。
在一种可行的实施例中,上述运算装置的运算单元在进行上述多层网络模型的第i层的运算之前,该运算装置的控制器单元11获取配置指令,该配置指令包括小数点位置和参与运算的数据类型。该控制器单元11解析该配置指令,以得到小数点位置和参与运算的数据类型。然后上述控制器单元11将小数点位置和参与运算的数据类型发送至上述运算单元12,然后该运算单元获取输入数据后,判断输入数据的数据类型与参与运算的数据类型是否一致;当输入数据的数据类型与参与运算的数据类型不一致时,上述运算单元12对该输入数据进行数据类型转换,使得输入数据的数据类型与参与运算的数据类型一致。然后运算单元对转换后的输入数据进行运算;当输入数据的数据类型与参与运算的数据类型一致时,上述运算单元12直接进行运算,不用进行数据类型转换。
进一步地,当上述输入数据为定点数据且参与运算的数据类型为定点数据时,上述运算单元判断输入数据的小数点位置与参与运算的小数点位置是否一致,若不一致,该运算单元将输入数据转换为与小数点位置与参与运算的数据的小数点位置一致的定点数据,然后再进行运算。
换句话说,上述运算指令可以替换为上述配置指令。
具体的,该运算单元12执行运算包括神经网络运算。
在一个实施例里,运算单元12包括但不仅限于:第一部分的第一个或多个乘法器;第二部分的一个或者多个加法器(更具体的,第二个部分的加法器也可以组成加法树);第三部分的激活函数单元;和/或第四部分的向量处理单元。更具体的,向量处理单元可以处理向量运算和/或池化运算。第一部分将输入数据1(in1)和输入数据2(in2)相乘得到相乘之后的输出(out),过程为:out=in1*in2;第二部分将输入数据in1通过加法器相加得到输出数据(out)。更具体的,第二部分为加法树时,将输入数据in1通过加法树逐级相加得到输出数据(out),其中in1是一个长度为N的向量,N大于1,过程为:out=in1[1]+in1[2]+...+in1[N],和/或将输入数据(in1)通过加法数累加之后和输入数据(in2)相加得到输出数据(out),过程为:out=in1[1]+in1[2]+...+in1[N]+in2,或者将输入数据(in1)和输入数据(in2)相加得到输出数据(out),过程为:out=in1+in2;第三部分将输入数据(in)通过激活函数(active)运算得到激活输出数据(out),过程为:out=active(in),激活函数active可以是sigmoid、tanh、relu、softmax等,除了做激活操作,第三部分可以实现其他的非线性函数,可将输入数据(in)通过运算(f)得到输出数据(out),过程为:out=f(in)。向量处理单元将输入数据(in)通过池化运算得到池化操作之后的输出数据(out),过程为out=pool(in),其中pool为池化操作,池化操作包括但不限于:平均值池化,最大值池化,中值池化,输入数据in是和输出out相关的一个池化核中的数据。
所述运算单元执行运算包括第一部分是将所述输入数据1和输入数据2相乘,得到相乘之后的数据;和/或第二部分执行加法运算(更具体的,为加法树运算,用于将输入数据1通过加法树逐级相加),或者将所述输入数据1通过和输入数据2相加得到输出数据;和/或第三部分执行激活函数运算,对输入数据通过激活函数(active)运算得到输出数据;和/或第四部分执行池化运算,out=pool(in),其中pool为池化操作,池化操作包括但不限于:平均值池化,最大值池化,中值池化,输入数据in是和输出out相关的一个池化核中的数据。以上几个部分的运算可以自由选择一个多个部分进行不同顺序的组合,从而实现各种不同功能的运算。计算单元相应的即组成了二级,三级,或者四级流水级架构。
在另一个可选的实施例里,该运算单元12可以包括一个主处理电路、分支处理电路以及多个从处理电路。
其中,上述主处理电路获取上述小数点位置、用于指示第一输入数据的数据类型的标志位和数据类型的转换方式,根据上述第一输入数据的数据类型标志位确定上述第一输入数据的数据类型,然后根据小数点位置和数据类型的转换方式,将上述第一输入数据转换为第二输入数据,该第二输入数据的数据类型与上述第一输入数据的数据类型不一致。
所述主处理电路,用于将一个第二输入数据分配成多个数据块,将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述分支处理电路;该分支处理电路用于转发上述主处理电路和从处理电路之间的数据。上述分支处理电路将上述多个数据块中的至少一个数据块和多个运算指令中的至少一个运算指令转发至上述从处理电路。
所述多个从处理电路,用于依据该运算指令对接收到的数据块执行运算得到中间结果,并将运算结果传输给所述主处理电路;
所述主处理电路,用于将多个从处理电路发送的中间结果进行处理得到该计算指令的结果,将该计算指令的结果发送给所述控制器单元。
在一种可选实施例中,上述控制器单元11获取上述计算指令,解析该计算指令得到一个或多个运算指令。
其中,上述运算指令可为可变格式运算指令和定点格式运算指令。可变格式运算指令的定点格式运算指令的参数参见上述图3A所示实施例的相关描述,在此不在叙述。
上述控制器单元11解析上述运算指令,以得到该运算指令的操作码和操作域。然后将运算指令的操作码和操作域发送至上述运算单元12
该运算单元12的主处理电路接收到上述运算指令的操作码和操作域后,根据运算指令(可变格式运算指令和定点格式运算指令)的操作码和操作域获取上述第二输入数据,具体过程可参见上述图3A所示实施例的相关描述,在此不再叙述。
上述主处理电路获取上述第二输入数据后,将一个第二输入数据分配成多个数据块,将该多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令通过分支处理电路发送至上述从处理电路,该从处理电路根据接收到的运算指令对接收到的数据进行运算,将执行运算得到的中间结果通过上述分支处理电路传输至上述主处理电路,该主处理电路对上述多个从处理电路发送的中间结果进行处理,得到上述计算指令的结果,将该计算指令的结果发送至上述控制器单元。
在一种可选实施例中,上述控制器单元11获取上述计算指令,解析该计算指令得到一个或多个运算指令。
其中,上述运算指令可为可变格式运算指令和定点格式运算指令。可变格式运算指令的定点格式运算指令的参数参见上述图3A所示实施例的相关描述,在此不在叙述。
上述控制器单元11解析上述运算指令,以得到该运算指令的操作码和操作域。然后将运算指令的操作码和操作域发送至上述运算单元12。
上述运算单元12的主处理电路接收到上述一个或者多个运算指令的操作码和操作域后,将该一个或者多个运算指令中的至少一个运算指令的操作码和操作域通过上述分支处理电路发送至从处理电路。该从处理电路根据接收到的运算指令的操作码和操作域获取上述第二输入数据,具体过程可参见上述图3A所示实施例的相关描述,在此不再叙述。
上述从处理电路根据接收到运算指令对根据该指令获取的第二输入数据进行运算,得到中间结果,然后将该中间结果通过上述分支处理电路传输至上述主处理电路。该主处理电路对上述多个从处理电路发送的中间结果进行处理,得到上述计算指令的结果,将该计算指令的结果发送至上述控制器单元。
在一种可选实施例中,运算单元12如图3B所示,可以包括分支处理电路103;其具体的连接结构如图3B所示,其中,主处理电路101与分支处理电路103连接,分支处理电路103与多个从处理电路102连接;
分支处理电路103,用于执行转发主处理电路101与从处理电路102之间的数据或指令。
另一种可选实施例中,运算单元12如图3C所示,可以包括一个主处理电路101和多个从处理电路102。在一个实施例里,如图3C所示,多个从处理电路呈阵列分布;每个从处理电路与相邻的其他从处理电路连接,主处理电路连接所述多个从处理电路中的K个从处理电路,所述K个从处理电路为:第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路。
K个从处理电路,用于在所述主处理电路以及多个从处理电路之间的数据以及指令的转发。
上述主处理电路根据小数点位置和数据类型的转换方式,将第一输入数据转换为第二输入数据,所述第二输入数据的数据类型与所述第一输入数据的数据类型不一致。
所述主处理电路,还用于将一个第二输入数据分配成多个数据块,将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述K个从处理电路;
所述K个从处理电路,用于转换所述主处理电路与所述多个从处理电路之间的数据;
所述多个从处理电路,用于依据该运算指令对接收到的数据块执行运算得到中间结果,并将运算结果传输给所述K个从处理电路;
所述主处理电路,用于将所述K个从处理电路发送的中间结果进行处理得到该计算指令的结果,将该计算指令的结果发送给所述控制器单元。
在一种选的实施例中,上述控制器单元11获取上述计算指令,解析该计算指令得到一个或多个运算指令。
其中,上述运算指令可为可变格式运算指令和定点格式运算指令。可变格式运算指令的定点格式运算指令的参数参见上述图3A所示实施例的相关描述,在此不在叙述。
上述控制器单元11解析上述运算指令,以得到该运算指令的操作码和操作域。然后将运算指令的操作码和操作域发送至上述运算单元12。
该运算单元12的主处理电路接收到上述一个或多个运算指令的操作码和操作域后,根据运算指令(可变格式运算指令和定点格式运算指令)的操作码和操作域域获取上述第二输入数据,具体过程可参见上述图3A所示实施例的相关描述,在此不再叙述。
上述主处理电路将一个第二输入数据分配成多个数据块,将该多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给上述K个从处理电路;
上述K个从处理电路转换所述主处理电路与上述多个从处理电路之间的数据;
上述多个从处理电路根据接收到的运算指令对接收到的数据块执行运算得到中间结果,并将运算结果传输给所述K个从处理电路;
上述主处理电路将所述K个从处理电路发送的中间结果进行处理得到该计算指令的结果,将该计算指令的结果发送给上述控制器单元。
在一种可选的实施例中,上述控制器单元11获取上述计算指令,解析该计算指令得到一个或多个运算指令。
其中,上述运算指令可为可变格式运算指令和定点格式运算指令。可变格式运算指令的定点格式运算指令的参数参见上述图3A所示实施例的相关描述,在此不在叙述。
上述控制器单元11解析上述运算指令,以得到该运算指令的操作码和操作域。然后将运算指令的操作码和操作域发送至上述运算单元12。
上述运算单元12的主处理电路接收到上述一个或多个运算指令后,将该一个或多个运算指令中的至少一个运算指令的操作码和操作域发送至上述K个从处理电路。该K个从处理电路根据接收到的运算指令的操作码和操作域获取上述第二输入数据,具体过程可参见上述图3A所示实施例的相关描述,在此不再叙述。
上述K个从处理电路将上述第二输入数据和运算指令发送给上述多个从处理电路,该多个从处理电路根据接收到运算指令对根据该指令获取的第二输入数据进行运算,得到中间结果,然后将该中间结果通过上述K个从处理电路传输至上述主处理电路。该主处理电路对上述多个从处理电路发送的中间结果进行处理,得到上述计算指令的结果,将该计算指令的结果发送至上述控制器单元。
其中,上述第二输入数据为有符号的定点数据或者无符号的定点数据
其中,上述小数点位置PointLocation用于表示定点数据中小数部分的所占的比特位数,或者上述小数点位置用于表征定点数据的精度,即2-Point Location。该小数点位置的值越大,则该定点数据的精度越高。
需要说明的是,上述第一输入数据为长位数非定点数据,例如32位浮点数据,也可以是针对标准的64位或者16位浮点数等,这里只是以32位为具体实施例进行说明;上述第二输入数据为短位数定点数据,又称为较少位数定点数据,表示相对于长位数非定点数据的第一输入数据来说,采用更少的位数来表示的定点数据。
在一种可行的实施例中,上述第一输入数据为非定点数据,上述第二输入数据为定点数据,该第一输入数据占的比特位数大于或者等于上述第二输入数据占的比特位数。比如上述第一输入输入数据为32位浮点数,上述第二输入数据为32位定点数据;再比如上述第一输入输入数据为32位浮点数,上述第二输入数据为16位定点数据。
具体地,对于不同的网络模型的不同的层,上述第一输入数据包括不同类型的数据。该不同类型的数据的小数点位置不相同,即对应的定点数据的精度不同。对于全连接层,上述第一输入数据包括输入神经元、权值和偏置数据等数据;对于卷积层时,上述第一输入数据包括卷积核、输入神经元和偏置数据等数据。
比如对于全连接层,上述小数点位置包括输入神经元的小数点位置、权值的小数点位置和偏置数据的小数点位置。其中,上述输入神经元的小数点位置、权值的小数点位置和偏置数据的小数点位置可以全部相同或者部分相同或者互不相同。
可选的,如图3D所示,该主处理电路还可以包括:转换处理电路110、激活处理电路111、加法处理电路112中的一种或任意组合;
转换处理电路110,用于将主处理电路接收的数据块或中间结果执行第一数据结构与第二数据结构之间的互换(例如连续数据与离散数据的转换);或将主处理电路接收的数据块或中间结果执行第一数据类型与第二数据类型之间的互换(例如定点类型与浮点类型的转换);
激活处理电路111,用于执行主处理电路内数据的激活运算;
加法处理电路112,用于执行加法运算或累加运算。
所述主处理电路,用于将一个输入数据分配成多个数据块,将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述从处理电路;
所述多个从处理电路,用于依据该运算指令对接收到的数据块执行运算得到中间结果,并将运算结果传输给所述主处理电路;
所述主处理电路,用于将多个从处理电路发送的中间结果进行处理得到该计算指令的结果,将该计算指令的结果发送给所述控制器单元。
所述从处理电路包括:乘法处理电路;
所述乘法处理电路,用于对接收到的数据块执行乘积运算得到乘积结果;
转发处理电路(可选的),用于将接收到的数据块或乘积结果转发。
累加处理电路,所述累加处理电路,用于对该乘积结果执行累加运算得到该中间结果。
在一种可选实施例中,上述计算装置还包括运算缓存单元,该运算缓存单元用于缓存上述从处理电路进行运算得到的中间结果。
上述计算装置还包括舍入单元,在进行运算过程中,由于对第二输入数据进行加法运算、乘法运算和/或其他运算得到的运算结果(该运算结果包括中间运算结果和计算指令的结果)的精度会超出当前定点数据的精度范围,因此上述运算缓存单元缓存上述中间运算结果。在运算结束后,上述舍入单元对超出定点数据精度范围的运算结果进行舍入操作,得到舍入后的运算结果,然后上述数据转换单元将该舍入后的运算结果转换为当前定数数据类型的数据。
具体地,上述舍入单元对上述中间运算结果进行舍入操作,该舍入操作为随机舍入操作、四舍五入操作、向上舍入操作、向下舍入操作和截断舍入操作中的任一种。
当上述舍入单元执行随机舍入操作时,该舍入单元具体执行如下操作:
其中,y表示对舍入前的运算结果x进行随机舍入得到的数据,即上述舍入后的运算结果,ε为当前定点数据表示格式所能表示的最小正数,即2-Point Location,表示对上述舍入前的运算结果x直接截得定点数据所得的数(类似于对小数做向下取整操作),w.p.表示概率,上述公式表示对上述舍入前的运算结果x进行随机舍入获得的数据为的概率为对上述中间运算结果x进行随机舍入获得的数据为的概率为
当上述舍入单元进行四舍五入操作时,该舍入单元具体执行如下操作:
其中,y表示对上述舍入前的运算结果x进行四舍五入后得到的数据,即上述舍入后的运算结果,ε为当前定点数据表示格式所能表示的最小正整数,即2-Point Location,为ε的整数倍,其值为小于或等于x的最大数。上述公式表示当上述舍入前的运算结果x满足条件时,上述舍入后的运算结果为当上述舍入前的运算结果满足条件时,上述舍入后的运算结果为
当上述舍入单元进行向上舍入操作时,该舍入单元具体执行如下操作:
其中,y表示对上述舍入前运算结果x进行向上舍入后得到的数据,即上述舍入后的运算结果,|x|为ε的整数倍,其值为大于或等于x的最小数,ε为当前定点数据表示格式所能表示的最小正整数,即2-Point Location。
当上述舍入单元进行向下舍入操作时,该舍入单元具体执行如下操作:
其中,y表示对上述舍入前的运算结果x进行向下舍入后得到的数据,即上述舍入后的运算结果,为ε的整数倍,其值为小于或等于x的最大数,ε为当前定点数据表示格式所能表示的最小正整数,即2-Point Location。
当上述舍入单元进行截断舍入操作时,该舍入单元具体执行如下操作:
y=[x]
其中,y表示对上述舍入前的运算结果x进行截断舍入后得到的数据,即上述舍入后的运算结果,[x]表示对上述运算结果x直接截得定点数据所得的数据。
上述舍入单元得到上述舍入后的中间运算结果后,上述运算单元12根据上述第一输入数据的小数点位置将该舍入后的中间运算结果转换为当前定点数据类型的数据。
在一种可选的实施例中,上述运算装置还包括数据统计单元,该数据统计单元用于用于对所述多层网络模型的每一层中同一类型的输入数据进行统计,以得到所述每一层中每种类型的输入数据的小数点位置。
该数据统计单元也可以是外部装置的一部分,上述运算装置在进行数据转换之前,从外部装置获取参与运算数据的小数点位置。
具体地,上述数据统计单元包括:
获取子单元,用于提取所述多层网络模型的每一层中同一类型的输入数据;
统计子单元,用于统计并获取所述多层网络模型的每一层中同一类型的输入数据在预设区间上的分布比例;
分析子单元,用于根据所述分布比例获取所述多层网络模型的每一层中同一类型的输入数据的小数点位置。
其中,上述预设区间可为[-2X-1-i,2X-1-i-2-i],i=0,1,2,...,n,n为预设设定的一正整数,X为定点数据所占的比特位数。上述预设区间[-2X-1-i,2X-1-i-2-i]包括n+1个子区间。上述统计子单元统计上述多层网络模型的每一层中同一类型的输入数据在上述n+1个子区间上分布信息,并根据该分布信息获取上述第一分布比例。该第一分布比例为p0,p1,p2,...,pn,该n+1个数值为上述多层网络模型的每一层中同一类型的输入数据在上述n+1个子区间上的分布比例,。上述分析子单元预先设定一个溢出率EPL,从0,1,2,...,n中获取去最大的i,使得pi≥1-EPL,该最大的i为上述多层网络模型的每一层中同一类型的输入数据的小数点位置。换句话说,上述分析子单元取上述多层网络模型的每一层中同一类型的输入数据的小数点位置为:max{i/pi≥1-EPL,i∈{0,1,2,...,n}},即在满足大于或者等于1-EPL的pi中,选取最大的下标值i为上述多层网络模型的每一层中同一类型的输入数据的小数点位置。
需要说明的是,上述pi为上述多层网络模型的每一层中同一类型的输入数据中取值在区间[-2X-1-i,2X-1-i-2-i]中的输入数据的个数与上述多层网络模型的每一层中同一类型的输入数据总个数的比值。比如m1个多层网络模型的每一层中同一类型的输入数据中有m2个输入数据取值在区间[-2X-1-i,2X-1-i-2-i]中,则上述
在一种可行的实施例中,为了提高运算效率,上述获取子单元随机或者抽样提取所述多层网络模型的每一层中同一类型的输入数据中的部分数据,然后按照上述方法获取该部分数据的小数点位置,然后根据该部分数据的小数点位置对该类型输入数据进行数据转换(包括浮点数据转换为定点数据、定点数据转换为定点数据、定点数据转换为定点数据等等),可以实现在即保持精度的前提下,又可以提高计算速度和效率。
在一种可行的实施例中,在片上系统(System On Chip,SOC)中包括主处理器和协处理器,该主处理器包括上述运算装置。该协处理器根据上述方法获取上述多层网络模型的每一层中同一类型的输入数据的小数点位置,并将该多层网络模型的每一层中同一类型的输入数据的小数点位置传输至上述运算装置,或者该运算装置在需要使用上述多层网络模型的每一层中同一类型的输入数据的小数点位置时,从上述协处理器中获取上述多层网络模型的每一层中同一类型的输入数据的小数点位置。
在一种可行的实施例中,上述第一输入数据为均为非定点数据,该非定点数据包括包括长位数浮点数据、短位数浮点数据、整型数据和离散数据等。
上述第一输入数据的数据类型互不相同。比如上述输入神经元、权值和偏置数据均为浮点数据;上述输入神经元、权值和偏置数据中的部分数据为浮点数据,部分数据为整型数据;上述输入神经元、权值和偏置数据均为整型数据。上述运算装置可实现非定点数据到定点数据的转换,即可实现长位数浮点数据、短位数浮点数据、整型数据和离散数据等类型等数据向定点数据的转换。该定点数据可为有符号定点数据或者无符号定点数据。
在一种可行的实施例中,上述第一输入数据和第二输入数据均为定点数据,且第一输入数据和第二输入数据可均为有符号的定点数据,或者均为无符号的定点数据,或者其中一个为无符号的定点数据,另一个为有符号的定点数据。且第一输入数据的小数点位置和第二输入数据的小数点位置不同。
在一种可行的实施例中,第一输入数据为定点数据,上述第二输入数据为非定点数据。换言之,上述运算装置可实现定点数据到非定点数据的转换。
图4为本发明实施例提供的一种单层神经网络正向运算流程图。该流程图描述利用本发明实施的神经网络运算装置和指令集实现的一种单层神经网络正向运算的过程。对于每一层来说,首先对输入神经元向量进行加权求和计算出本层的中间结果向量。该中间结果向量加偏置并激活得到输出神经元向量。将输出神经元向量作为下一层的输入神经元向量。
在一个具体的应用场景中,上述运算装置可以是一个训练装置。在进行神经网络模型训练之前,该训练装置获取参与神经网络模型训练的训练数据,该训练数据为非定点数据,并按照上述方法获取上述训练数据的小数点位置。上述训练装置根据上述训练数据的小数点位置将该训练数据转换为以定点数据表示的训练数据。上述训练装置根据该以定点数据表示的训练数据进行正向神经网络运算,得到神经网络运算结果。上述训练装置对超出训练数据的小数点位置所能表示数据精度范围的神经网络运算结果进行随机舍入操作,以得到舍入后的神经网络运算结果,该神经网络运算结果位于上述训练数据的小数点位置所能表示数据精度范围内。按照上述方法,上述训练装置获取多层神经网络每层的神经网络运算结果,即输出神经元。上述训练装置根据每层输出神经元得到输出神经元的梯度,并根据该输出神经元的梯度进行反向运算,得到权值梯度,从而根据该权值梯度更新神经网络模型的权值。
上述训练装置重复执行上述过程,以达到训练神经网络模型的目的。
其中,上述正向运算包括上述多层神经网络运算,该多层神经网络运算包括卷积等运算,该卷积运算是由卷积运算指令实现的。
上述卷积运算指令为Cambricon指令集中的一种指令,该Cambricon指令集的特征在于,指令由操作码和操作数组成,指令集包含四种类型的指令,分别是控制指令(controlinstructions),数据传输指令(data transfer instructions),运算指令(computationalinstructions),逻辑指令(logical instructions)。
优选的,指令集中每一条指令长度为定长。例如,指令集中每一条指令长度可以为64bit。
进一步的,控制指令用于控制执行过程。控制指令包括跳转(jump)指令和条件分支(conditionalbranch)指令。
进一步的,数据传输指令用于完成不同存储介质之间的数据传输。数据传输指令包括加载(load)指令,存储(store)指令,搬运(move)指令。load指令用于将数据从主存加载到缓存,store指令用于将数据从缓存存储到主存,move指令用于在缓存与缓存或者缓存与寄存器或者寄存器与寄存器之间搬运数据。数据传输指令支持三种不同的数据组织方式,包括矩阵,向量和标量。
进一步的,运算指令用于完成神经网络算术运算。运算指令包括矩阵运算指令,向量运算指令和标量运算指令。
更进一步的,矩阵运算指令完成神经网络中的矩阵运算,包括矩阵乘向量(matrixmultiply vector),向量乘矩阵(vector multiply matrix),矩阵乘标量(matrixmultiply scalar),外积(outer product),矩阵加矩阵(matrix addmatrix),矩阵减矩阵(matrix subtract matrix)。
更进一步的,向量运算指令完成神经网络中的向量运算,包括向量基本运算(vector elementary arithmetics),向量超越函数运算(vectortranscendentalfunctions),内积(dotproduct),向量随机生成(random vector generator),向量中最大/最小值(maximum/minimum ofavector)。其中向量基本运算包括向量加,减,乘,除(add,subtract,multiply,divide),向量超越函数是指那些不满足任何以多项式作系数的多项式方程的函数,包括但不仅限于指数函数,对数函数,三角函数,反三角函数。
更进一步的,标量运算指令完成神经网络中的标量运算,包括标量基本运算(scalar elementary arithmetics)和标量超越函数运算(scalar transcendentalfunctions)。其中标量基本运算包括标量加,减,乘,除(add,subtract,multiply,divide),标量超越函数是指那些不满足任何以多项式作系数的多项式方程的函数,包括但不仅限于指数函数,对数函数,三角函数,反三角函数。
进一步的,逻辑指令用于神经网络的逻辑运算。逻辑运算包括向量逻辑运算指令和标量逻辑运算指令。
更进一步的,向量逻辑运算指令包括向量比较(vector compare),向量逻辑运算(vector logical operations)和向量大于合并(vector greaterthan merge)。其中向量比较包括但大于,小于,等于,大于等于,小于等于和不等于。向量逻辑运算包括与,或,非。
更进一步的,标量逻辑运算包括标量比较(scalar compare),标量逻辑运算(scalar logical operations)。其中标量比较包括但大于,小于,等于,大于等于,小于等于和不等于。标量逻辑运算包括与,或,非。
对于多层神经网络,其实现过程是,在正向运算中,当上一层人工神经网络执行完成之后,下一层的运算指令会将运算单元中计算出的输出神经元作为下一层的输入神经元进行运算(或者是对该输出神经元进行某些操作再作为下一层的输入神经元),同时,将权值也替换为下一层的权值;在反向运算中,当上一层人工神经网络的反向运算执行完成后,下一层运算指令会将运算单元中计算出的输入神经元梯度作为下一层的输出神经元梯度进行运算(或者是对该输入神经元梯度进行某些操作再作为下一层的输出神经元梯度),同时将权值替换为下一层的权值。如图5所示,图5中虚线的箭头表示反向运算,实现的箭头表示正向运算。
另一个实施例里,该运算指令为矩阵乘以矩阵的指令、累加指令、激活指令等等计算指令,包括正向运算指令和方向训练指令。
下面通过神经网络运算指令来说明如图3A所示的计算装置的具体计算方法。对于神经网络运算指令来说,其实际需要执行的公式可以为:s=s(∑wxi+b)其中,即将权值w乘以输入数据xi,进行求和,然后加上偏置b后做激活运算s(h),得到,最终的输出结果s。
如图3A所示的计算装置执行神经网络正向运算指令的方法具体可以为:
控制器单元从指令存储单元内提取神经网络正向运算指令、神经网络运算指令对应的操作域以及至少一个操作码,控制器单元将该操作域传输至数据访问单元,将该至少一个操作码发送至运算单元。
控制器单元从存储介质内提取该操作域对应的权值w和偏置b(当b为0时,不需要提取偏置b),将权值w和偏置b传输至运算单元的主处理电路,控制器单元从存储介质内提取输入数据Xi,将该输入数据Xi发送至主处理电路。
主处理电路将输入数据Xi拆分成n个数据块;
控制器单元的指令处理单元依据该至少一个操作码确定乘法指令、偏置指令和累加指令,将乘法指令、偏置指令和累加指令发送至主处理电路,主处理电路将该乘法指令、权值w以广播的方式发送给多个从处理电路,将该n个数据块分发给该多个从处理电路(例如具有n个从处理电路,那么每个从处理电路发送一个数据块);多个从处理电路,用于依据该乘法指令将该权值w与接收到的数据块执行乘法运算得到中间结果,将该中间结果发送至主处理电路,该主处理电路依据该累加指令将多个从处理电路发送的中间结果执行累加运算得到累加结果,依据该偏执指令将该累加结果执行加偏执b得到最终结果,将该最终结果发送至该控制器单元。
另外,加法运算和乘法运算的顺序可以调换。
需要说明的是,上述计算装置执行神经网络反向训练指令的方法类似于上述计算装置执行神经网络执行正向运算指令的过程,具体可参见上述反向训练的相关描述,在此不再叙述。
本申请提供的技术方案通过一个指令即神经网络运算指令即实现了神经网络的乘法运算以及偏置运算,在神经网络计算的中间结果均无需存储或提取,减少了中间数据的存储以及提取操作,所以其具有减少对应的操作步骤,提高神经网络的计算效果的优点。
本申请还揭露了一个神经网络运算装置,其包括一个或多个在本申请中提到的计算装置,用于从其他处理装置中获取待运算数据和控制信息,执行指定的神经网络运算,执行结果通过I/O接口传递给外围设备。外围设备譬如摄像头,显示器,鼠标,键盘,网卡,wifi接口,服务器。当包含一个以上计算装置时,计算装置间可以通过特定的结构进行链接并传输数据,譬如,通过PCIE总线进行互联并传输数据,以支持更大规模的神经网络的运算。此时,可以共享同一控制系统,也可以有各自独立的控制系统;可以共享内存,也可以每个加速器有各自的内存。此外,其互联方式可以是任意互联拓扑。
该神经网络运算装置具有较高的兼容性,可通过PCIE接口与各种类型的服务器相连接。
本申请还揭露了一个组合处理装置,其包括上述的神经网络运算装置,通用互联接口,和其他处理装置。神经网络运算装置与其他处理装置进行交互,共同完成用户指定的操作。图6为组合处理装置的示意图。
其他处理装置,包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为神经网络运算装置与外部数据和控制的接口,包括数据搬运,完成对本神经网络运算装置的开启、停止等基本控制;其他处理装置也可以和神经网络运算装置协作共同完成运算任务。
通用互联接口,用于在所述神经网络运算装置与其他处理装置间传输数据和控制指令。该神经网络运算装置从其他处理装置中获取所需的输入数据,写入神经网络运算装置片上的存储装置;可以从其他处理装置中获取控制指令,写入神经网络运算装置片上的控制缓存;也可以读取神经网络运算装置的存储模块中的数据并传输给其他处理装置。
可选的,该结构如图7所示,还可以包括存储装置,存储装置分别与所述神经网络运算装置和所述其他处理装置连接。存储装置用于保存在所述神经网络运算装置和所述其他处理装置的数据,尤其适用于所需要运算的数据在本神经网络运算装置或其他处理装置的内部存储中无法全部保存的数据。
该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统,有效降低控制部分的核心面积,提高处理速度,降低整体功耗。此情况时,该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头,显示器,鼠标,键盘,网卡,wifi接口。
在一些实施例里,还申请了一种芯片,其包括了上述神经网络运算装置或组合处理装置。
在一些实施例里,申请了一种芯片封装结构,其包括了上述芯片。
在一些实施例里,申请了一种板卡,其包括了上述芯片封装结构。
在一些实施例里,申请了一种电子设备,其包括了上述板卡。
电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。
参见图8,图8为本发明实施例提供的一种计算方法,所述方法用于执行网络模型的计算,所述网络模型包括:神经网络模型和/或非神经网络模型,所述方法包括:
S801、运算装置获取第一输入数据、所述网络模型和计算指令。
S802、运算装置解析所述计算指令,以得到数据转换指令和多个运算指令。
其中,所述数据转换指令包括数据转换指令包括操作域和操作码,该操作码用于指示所述数据类型转换指令的功能,所述数据类型转换指令的操作域包括小数点位置、用于指示第一输入数据的数据类型的标志位和数据类型的转换方式。
S803、运算装置根据所述数据转换指令将所述第一输入数据转换为第二输入数据,该第二输入数据为定点数据。
其中,所述根据所述数据转换指令将所述第一输入数据转换为第二输入数据,包括:
解析所述数据转换指令,以得到所述小数点位置、所述用于指示第一输入数据的数据类型的标志位和数据类型的转换方式;
根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型;
根据所述小数点位置和所述数据类型的转换方式,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型与所述第一输入数据的数据类型不一致。
其中,当所述第一输入数据和所述第二输入数据均为定点数据时,所述第一输入数据的小数点位置和所述第二输入数据的小数点位置不一致。
S804、运算装置根据所述多个运算指令对所述第二输入数据执行计算得到计算指令的结果。
其中,上述运算指令包括正向运算指令和反向训练指令,即上述运算装置在执行正向运算指令和或反向训练指令(即该运算装置进行正向运算和/或反向训练)过程中,上述运算装置可根据上述图8所示实施例将参与运算的数据转换为定点数据,进行定点运算。
需要说明的是,上述步骤S801-S804具体描述可参见图1-7所示实施例的相关描述,在此不再叙述。
在一个具体的应用场景中,上述运算装置将参与运算的数据转换为定点数据,并对定点数据的小数点位置进行调整,具体过程参见图9,如图9所示,该方法包括:
S901、运算装置获取第一输入数据。
其中,上述第一输入数据为参与多层网络模型的第m层运算的数据,该第一输入数据为任意类型的数据。比如该第一输入数据为定点数据、浮点数据、整型数据或离散数据,m为大于0的整数。
其中,上述多层网络模型的第m层为线性层,该线性层包括但不限定于卷积层和全连接层。上述第一输入数据包括输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数。
S902、运算装置确定第一输入数据的小数点位置和定点数据的位宽。
其中,上述第一输入数据的定点数据的位宽为以定点数据表示的第一输入数据所占的比特位,上述小数点位置为以定点数据表示的第一数据数据的小数部分所占的比特位。该小数点位置用于表征定点数据的精度。
参见图10,图10为定点数据的格式示意图。如图10所示,该定点数据所占的比特位数为bitnum,小数点位置为s,该定点数据的精度为2s。第一位为符号位,用于指示该定数据是正数还是负数。比如当符号位为0时,表示该定点数据为正数;当符号位为1时,表示该定点数据为负数。该定点数据表示的范围为[neg,pos],其中,pos=(2bitnum-1-1)*2s,neg=-(2bitnum-1-1)*2s。
其中,上述bitnum可以去任意正整数。上述s可为任意不小于s_min的整数
可选地,上述bitnum可为8、16、24、32、64或者其他值。
优选地,上述s_min为-64。
可选地,上述bitnum为8,16,24,32或者其他值。s可以取任意不小于s_min的整数,优选地,s_min取-64。
具体地,第一输入数据可以为任意类型的额数据,该第一输入数据a根据上述小数点位置和定点数据的位宽转换为第二输入数据具体如下:
其中,当上述第一输入数据a满足条件neg≤a≤pos时,上述第二输入数据为当上述第一输入数据a大于pos时,上述第二输入数据为pos;当上述第一输入数据a小于neg时,上述第二输入数据为neg。
在一种实施例中,对于卷积层和全连接层的输入神经元、权值、输出神经元、输入神经元导数、输出神经元导数和权值导数均采用定点数据进行表示。
可选地,上述输入神经元采用的定点数据的位宽可为8、16、32、64或者其他值。优选地,上述输入神经元采用的定点数据的位宽为8。
可选地,上述权值采用的定点数据的位宽可为8、16、32、64或者其他值。优选地,上述权值采用的定点数据的位宽为8。
可选地,上述输入神经元导数采用的定点数据的位宽可为8、16、32、64或者其他值。优选地,上述输入神经元导数采用的定点数据的位宽为16。
可选地,上述输出神经元导数采用的定点数据的位宽可为8、16、32、64或者其他值。优选地,上述输出神经元导数采用的定点数据的位宽为24。
可选地,上述权值导数采用的定点数据的位宽可为8、16、32、64或者其他值。优选地,上述权值导数采用的定点数据的位宽为24。
在一种实施例中,对于参与上述多层网络模型运算的数据中数值较大的数据a可采用多种定点表示方法,具体参见图11:
如图11所示,对上述数据a(即上述第一输入数据)采用3种定点数据组合表示,即该数据a由定点数据1、定点数据2和定点数据3组成。其中,定点数据1的位宽为bitnum1,小数点位置为s1,定点数据2的位宽为bitnum2,小数点位置为s2;定点数据3的位宽为bitnum3,小数点位置为s2,且bitnum2-2=s1-1,bitnum3-2=s2-1。采用3种定点数据表示的范围为[neg,pos],其中,pos=(2bitnum-1-1)*2s,neg=-(2bitnum-1-1)*2s。
具体地,第一输入数据可以为任意类型的额数据,该第一输入数据a根据上述小数点位置和定点数据的位宽转换为第二输入数据具体如下:
其中,当上述第一输入数据a满足条件neg≤a≤pos时,上述第二输入数据为且 当上述第一输入数据a大于pos时,上述第二输入数据为pos;当上述第一输入数据a小于neg时,上述第二输入数据为neg。
S903、运算装置初始化第一输入数据的小数点位置和调整第一输入数据的小数点位置。
其中,上述小数点位置s需要根据不同类别的数据、不同神经网络层的数据,处于不同迭代轮次的数据进行初始化和动态调整。
下面具体介绍第一输入数据的小数点位置s的初始化过程,即确定进行第一次将第一输入数据转换时定点数据所采用的小数点位置s。
其中,上述运算装置第一输入数据的小数点位置s的初始化包括:根据第一输入数据绝对值最大值初始化第一输入数据的小数点位置s;根据第一输入数据绝对值的最小值初始化第一输入数据的小数点位置s;根据第一输入数据中不同数据类型间关系初始化第一输入数据的小数点位置s;根据经验值常量初始化第一输入数据的小数点位置s。
具体地,下面分别具体介绍上述初始化过程。
a)、根据第一输入数据绝对值的最大值初始化第一输入数据的小数点位置s:
具体通过以下公式第一输入数据的小数点位置s:。
其中,上述amax为上述第一输入数据绝对值的最大值,上述bitnum为上述第一输入数据转换为定点数据的位宽,上述sa为上述第一输入数据的小数点位置。
其中,参与运算的数据按类别与网络层次可分为:第l层的输入神经元X(l)、输出神经元Y(l)、权值W(l)、输入神经元导数输出神经元导数和权值导数寻找绝对值最大值时,可以按数据类别寻找;可以分层、分类别寻找;可以分层、分类别、分组寻找。第一输入数据绝对值的最大值的确定方法包括:
a.1)、按数据类别寻找绝对值最大值
具体地,第一输入数据包括向量/矩阵中的每个元素为ai (l),其中,该a(l)可为输入神经元X(l)或输出神经元Y(l)或权值W(l)或输入神经元导数或输出神经元导数或权值导数换言之,上述第一输入数据包括输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数,上述第一输入数据的小数点位置包括输入神经元的小数点位置、权值的小数点位置、输出神经元的小数点位置、输入神经元导数的小数点位置、权值导数的小数点位置和输出神经元导数的小数点位置。该输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数均以矩阵或者向量形式表示的。通过遍历上述多层网络模型。的每一层的向量/矩阵中所有元素,获取每种类别数据的绝对值最大值,即通过公式确定每种类别数据a转换为定点数据的小数点位置sa。
a.2)、分层分类别寻找绝对值最大值
具体地,第一输入数据向量/矩阵中的每个元素为ai (l),其中,该a(l)可为输入神经元X(l)或输出神经元Y(l)或权值W(l)或输入神经元导数或输出神经元导数或权值导数换言之,上述多层网络模型的每层均包括输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数。上述第一输入数据的小数点位置包括输入神经元的小数点位置、权值的小数点位置、输出神经元的小数点位置、输入神经元导数的小数点位置、权值导数的小数点位置和输出神经元导数的小数点位置。该输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数均以矩阵/向量表示。通过遍历多层网络模型的每层的每种数据的向量/矩阵中的所有元素,获取每种类别数据的绝对值的最大值,即通过公式:确定在第l层每种类别数据a的小数点位置
a.3)、分层分类别分组进寻找绝对值最大值
具体地,第一输入数据向量/矩阵中的每个元素为ai (l),其中a(l)可为输入神经元X(l)或输出神经元Y(l)或权值W(l)或输入神经元导数或输出神经元导数或权值导数换言之,上述多层网络模型的每层的数据类别包括输入神经元、权值、输出神经元、输入神经元导数、权值导数和输出神经元导数。将上述多层网络模型的每层的每种类型数据分为g组,或者通过其他任意分组规则进行分组。然后遍历上述多层网络模型中每层每种类型数据对应的g组数据中每组数据的每个元素,获取该组数据中绝对值最大的元素,即通过公式确定每层中每种数据类别对应的g组数据每组的小数点位置
其中,上述任意分组规则包括但不限定于根据数据范围进行分组、根据数据训练批次进行分组等规则。
b)根据第一输入数据的绝对值最小值初始化该第一输入数据的小数点位置s:
具体地,找到待量化数据的绝对值最小值amin,通过以下公式确定定点化精度s。
其中,上述amin为上述第一输入数据的绝对值最小值。获取amin的过程具体可参见上述步骤a.1)、a.2)、a.3)。
c)根据第一输入数据中不同数据类型间关系初始化定点精度s:
具体地,多层网络模型中的任一层(比如第l层)的数据类型a(l)的小数点位置可以由第l层的数据类型b(l)的小数点位置根据公式确定。
其中,a(l)和b(l)可为输入神经元X(l)或输出神经元Y(l)或权值W(l)或输入神经元导数或输出神经元导数或权值导数其中,a(l)和b(l)为整数常数。
d)根据经验值常量初始化第一输入数据的小数点为孩子s:
具体地,上述多层网络模型的任一层(比如第l层)的数据类型a(l)的小数点位置sa (l)可人为设定sa (l)=c,其中c为整数常数,上述a(l)可为输入神经元X(l)或输出神经元Y(l)或权值W(l)或输入神经元导数或输出神经元导数或权值导数
优选地,上述输入神经元的小数点位置初始化值和输出神经元的小数点位置初始化值均可在[-8,8]范围内选取;权值的小数点位置初始化值可在[-17,8]范围内选取,输入神经元导数的小数点位置初始化值和输出神经元导数的小数点位置初始化值均可在[-40,-20]范围内选取。权值导数的小数点位置初始化值可在[-48,-12]范围内选取。
下面具体介绍动态调整数据上述小数点位置s的方法。
动态调整小数点位置s的方法包括向上调整s(s变大),和向下调整s(s变小)。具体包括根据第一输入数据绝对值最大值单步向上调整;根据第一输入数据绝对值最大值逐步向上调整;根据第一输入数据分布单步向上调整;根据第一输入数据分布逐步向上调整;根据第一输入数据绝对值最大值向下调整。
a)、根据第一输入数据中数据绝对值的最大值单步向上调整:
假设上述小数点位置调整之前为s_old,该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos]。其中,pos=(2bitnum-1-1)*2s_old,neg=-(2bitnum-1-1)*2s_old。当上述第一输入数据中数据绝对值的最大值amax≥pos时,则调整之后的小数点位置为否则不调整上述小数点位置,即s_new=s_old。
b)、根据第一输入数据中数据绝对值的最大值逐步向上调整:
假设上述小数点位置调整之前为s_old,该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos],其中pos=(2bitnum-1-1)*2s_old,neg=-(2bitnum-1-1)*2s_old。当上述第一输入数据中数据绝对值的最大值amax≥pos时,则调整之后的小数点位置为s_new=s_old+1;否则不调整上述小数点位置,即s_new=s_old。
c)、根据第一输入数据分布单步向上调整:
假设上述小数点位置调整之前为s_old,该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos],其中pos=(2bitnum-1-1)*2s_old,neg=-(2bitnum-1-1)*2s_old。计算第一输入数据的绝对值的统计量,如绝对值的均值amean和绝对值的标准差astd。设置数据的最大范围amax=amean+nastd。当amax≥pos时,否则不调整上述小数点位置,即s_new=s_old。
优选地,上述n可取2或者3
d)、根据第一输入数据分布逐步向上调整:
假设上述小数点位置调整之前为s_old,该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos],其中pos=(2bitnum-1-1)*2s_old,neg=-(2bitnum-1-1)*2s_old。计算第一输入数据的绝对值的统计量,如绝对值的均值amean和绝对值的标准差astd。设置数据的最大范围amax=amean+nastd,n可取3。当amax≥pos时,s_new=s_old+1,否则不调整上述小数点位置,即s_new=s_old。
e)、根据待量化数据绝对值最大值向下调整:
假设上述小数点位置调整之前为s_old,该小数点位置s_old对应的定点数据可表示数据范围是[neg,pos],其中pos=(2bitnum-1-1)*2s_old,neg=-(2bitnum-1-1)*2s_old。当第一输入数据的绝对值最大值amax<2s_old+(bitnum-n)且s_old≥smin时,s_new=s_old-1,其中n为整数常数,smin可以是整数,也可以是负无穷。
优选地,上述n为3,上述smin为-64。
可选地,对于调整上述小数点位置的频率,可以是永远不调整第一输入数据的小数点位置;或者是每隔n个第一训练周期(即iteration)调整一次,n为常量;或者每隔n个第二训练周期(即epoch)调整一次,n为常量;或者是每隔n个第一训练周期或n个第二训练周期调整一次第一输入数据的小数点位置,每隔n个第一训练周期或第二训练周期调整一次第一输入数据的小数点位置,然后调整n=αn,其中α大于1;或者是每隔n个第一训练周期或第二训练周期调整一次第一输入数据的小数点位置,随着训练轮数递增,逐渐减小n。
优选地,每隔100个第一训练周期调整一次输入神经元的小数点位置、权值的小数点位置和输出神经元的小数点位置。每隔20个第一训练周期调整一次输入神经元导数的小数点位置和输出神经元导数的小数点位置。
需要说明的是,上述第一训练周期为训练一批次样本所需的时间,第二训练周期为对所有训练样本进行一次训练所需的时间。
需要指出的是,上述计算装置与上述运算装置是同一个装置,两种称呼相互通用。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (19)
1.一种计算装置,其特征在于,所述计算装置用于执行网络模型的计算,所述网络模型包括:神经网络模型和/或非神经网络模型;所述计算装置包括:运算单元、控制器单元以及存储单元,所述存储单元包括:数据输入输出单元;
所述数据输入输出单元,用于获取第一输入数据、网络模型以及计算指令;
所述控制器单元,用于从所述存储单元提取所述计算指令,解析该计算指令得到数据转换指令和/或一个或多个运算指令,其中,所述数据转换指令包括操作域和操作码,该操作码用于指示所述数据类型转换指令的功能,所述数据类型转换指令的操作域包括小数点位置、用于指示第一输入数据的数据类型的标志位和数据类型的转换方式标识;将所述数据转换指令的操作码和操作域及所述多个运算指令以及所述第一输入数据发送给所述运算单元;;
所述运算单元,用于根据所述数据转换指令的操作码和操作域将所述第一输入数据转换为第二输入数据,该第二输入数据为定点数据;根据所述多个运算指令对所述第二输入数据执行计算得到计算指令的结果。
2.根据权利要求1所述的装置,其特征在于,所述存储单元还包括:存储介质和标量数据存储单元;
所述存储介质,用于存储所述网络模型、输入数据、权值数据;
所述标量数据存储单元,用于存储标量数据。
3.根据权利要求1所述的装置,其特征在于,所述控制器单元包括:指令存储单元、指令存储单元和存储队列单元;
所述指令存储单元,用于存储所述网络模型关联的计算指令;
所述指令处理单元,用于对所述计算指令解析得到所述数据转换指令和所述多个运算指令,并解析所述数据转换指令以得到所述数据转换指令的操作码和操作域;
所述存储队列单元,用于存储指令队列,该指令队列包括:按该队列的前后顺序待执行的多个运算指令或计算指令。
4.根据权利要求3所述的装置,其特征在于,所述运算单元包括:依赖关系处理单元;
所述依赖关系处理单元,用于确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系,如所述第一运算指令与所述第零运算指令存在关联关系,将所述第一运算指令缓存在所述指令存储单元内,在所述第零运算指令执行完毕后,从所述指令存储单元提取所述第一运算指令传输至所述运算单元;
所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括:
依据所述第一运算指令提取所述第一运算指令中所需数据的第一存储地址区间,依据所述第零运算指令提取所述第零运算指令中所需数据的第零存储地址区间,如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域,确定所述第一运算指令与所述第零运算指令具有关联关系,如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域,确定所述第一运算指令与所述第零运算指令不具有关联关系。
5.根据权利要求1所述的装置,其特征在于,所述运算单元包括:数据转换电路和多个运算模块,所述多个运算模块包用于执行n个流水级的计算,n大于或者等于2;
所述数据转换电路,用于根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型,然后根据所述小数点位置和所述数据类型的转换方式标识,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型与所述第一输入数据的数据类型不一致;
所述运算单元,具体用于对所述第二输入数据执行第一流水级的计算得到第一结果,将第一结果输入到第二流水级执行第二流水级的计算得到第二结果,将第n-1结果输入到第n流水级执行第n流水级的计算得到第n结果,将所述第n结果输入到所述存储单元,所述n为大于等于3的整数。
6.根据权利要求1所述的装置,其特征在于,所述运算单元包括一个主处理电路、分支处理电路以及多个从处理电路,
所述主处理电路,用于根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型,然后根据所述小数点位置和所述数据类型的转换方式标识,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型与所述第一输入数据的数据类型不一致;
所述主处理电路,还用于将一个第二输入数据分配成多个数据块,将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述分支处理电路;
所述分支处理电路,用于转发所述主处理电路与所述多个从处理电路之间的数据;
所述多个从处理电路,用于依据该运算指令对接收到的数据块执行运算得到中间结果,并将中间结果传输给所述分支处理电路;
所述主处理电路,用于将分支处理电路发送的中间结果进行处理得到该计算指令的结果,将该计算指令的结果发送给所述控制器单元。
7.根据权利要求1所述的装置,其特征在于,所述运算单元包括一个主处理电路以及多个从处理电路;
所述多个从处理电路呈阵列分布;每个从处理电路与相邻的其他从处理电路连接,所述主处理电路连接所述多个从处理电路中的K个从处理电路,所述K个从处理电路为:第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路;
所述K个从处理电路,用于在所述主处理电路以及多个从处理电路之间的数据以及指令的转发;
所述主处理电路,用于根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型,然后根据所述小数点位置和所述数据类型的转换方式标识,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型与所述第一输入数据的数据类型不一致;
所述主处理电路,还用于将一个第二输入数据分配成多个数据块,将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述K个从处理电路;
所述K个从处理电路,用于转换所述主处理电路与所述多个从处理电路之间的数据;
所述多个从处理电路,用于依据该运算指令对接收到的数据块执行运算得到中间结果,并将运算结果传输给所述K个从处理电路;
所述主处理电路,用于将所述K个从处理电路发送的中间结果进行处理得到该计算指令的结果,将该计算指令的结果发送给所述控制器单元。
8.根据权利要求6或7所述的装置,其特征在于,
所述主处理电路,具体用于将多个处理电路发送的中间结果进行组合排序得到该计算指令的结果;
或所述主处理电路,具体用于将多个处理电路的发送的中间结果进行组合排序以及激活处理后得到该计算指令的结果。
9.根据权利要求6或7所述的装置,其特征在于,所述主处理电路包括:转换处理电路、激活处理电路、加法处理电路中的一种或任意组合;
所述转换处理电路,用于将主处理电路接收的数据块或中间结果执行第一数据结构与第二数据结构之间的互换;或将主处理电路接收的数据块或中间结果执行第一数据类型与第二数据类型之间的互换;
所述激活处理电路,用于执行主处理电路内数据的激活运算;
所述加法处理电路,用于执行加法运算或累加运算。
10.根据权利要求6或7所述的装置,其特征在于,所述从处理电路包括:乘法处理电路;
所述乘法处理电路,用于对接收到的数据块执行乘积运算得到乘积结果。
11.根据权利要求6或7所述的装置,其特征在于,所述从处理电路还包括:累加处理电路,所述累加处理电路,用于对该乘积结果执行累加运算得到该中间结果。
12.一种神经网络运算装置,其特征在于,所述神经网络运算装置包括一个或多个如权利要求1-11任一项所述的计算装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的神经网络运算,将执行结果通过I/O接口传递给其他处理装置;
当所述神经网络运算装置包含多个所述计算装置时,所述多个所述计算装置间可以通过特定的结构进行连接并传输数据;
其中,多个所述计算装置通过快速外部设备互连总线PCIE总线进行互联并传输数据,以支持更大规模的神经网络的运算;多个所述计算装置共享同一控制系统或拥有各自的控制系统;多个所述计算装置共享内存或者拥有各自的内存;多个所述计算装置的互联方式是任意互联拓扑。
13.一种组合处理装置,其特征在于,所述组合处理装置包括如权利要求12所述的神经网络运算装置,通用互联接口和其他处理装置;
所述神经网络运算装置与所述其他处理装置进行交互,共同完成用户指定的计算操作。
14.根据权利要求13所述的组合处理装置,其特征在于,还包括:存储装置,该存储装置分别与所述神经网络运算装置和所述其他处理装置连接,用于保存所述神经网络运算装置和所述其他处理装置的数据。
15.一种神经网络芯片,其特征在于,所述神经网络芯片包括如权利要求12所述的神经网络运算装置或如权利要求13所述的组合处理装置或如权利要求14所述的组合处理装置。
16.一种电子设备,其特征在于,所述电子设备包括如所述权利要求15所述的芯片。
17.一种计算方法,其特征在于,所述方法用于执行网络模型的计算,所述网络模型包括:神经网络模型和/或非神经网络模型,所述方法包括:
获取第一输入数据、所述网络模型和计算指令;
解析所述计算指令,以得到数据转换指令和多个运算指令,所述数据转换指令包括数据转换指令包括操作域和操作码,该操作码用于指示所述数据类型转换指令的功能,所述数据类型转换指令的操作域包括小数点位置、用于指示第一输入数据的数据类型的标志位和数据类型的转换方式;
根据所述数据转换指令将所述第一输入数据转换为第二输入数据,该第二输入数据为定点数据;
根据所述多个运算指令对所述第二输入数据执行计算得到计算指令的结果。
18.根据权利要求17所述的方法,其特征在于,所述根据所述数据转换指令将所述第一输入数据转换为第二输入数据,包括:
解析所述数据转换指令,以得到所述小数点位置、所述用于指示第一输入数据的数据类型的标志位和数据类型的转换方式;
根据所述第一输入数据的数据类型标志位确定所述第一输入数据的数据类型;
根据所述小数点位置和所述数据类型的转换方式,将所述第一输入数据转换为第二输入数据,所述第二输入数据的数据类型与所述第一输入数据的数据类型不一致。
19.根据权利要求18所述的方法,其特征在于,当所述第一输入数据和所述第二输入数据均为定点数据时,所述第一输入数据的小数点位置和所述第二输入数据的小数点位置不一致。
Priority Applications (51)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810149287.2A CN110163350B (zh) | 2018-02-13 | 2018-02-13 | 一种计算装置及方法 |
EP19212754.6A EP3651075B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
EP19212750.4A EP3651071B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
US16/614,215 US11609760B2 (en) | 2018-02-13 | 2018-09-03 | Computing device and method |
EP19212749.6A EP3651070B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
EP19212756.1A EP3651077B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
EP18906652.5A EP3617959B1 (en) | 2018-02-13 | 2018-09-03 | Computing device and method |
JP2019549547A JP6846534B2 (ja) | 2018-02-13 | 2018-09-03 | 計算装置と計算方法 |
KR1020197028167A KR102354722B1 (ko) | 2018-02-13 | 2018-09-03 | 계산 장치 및 방법 |
EP19212753.8A EP3651074B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
CN201910195600.0A CN110163356B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
KR1020197028161A KR102354720B1 (ko) | 2018-02-13 | 2018-09-03 | 계산 장치 및 방법 |
KR1020197023810A KR102252137B1 (ko) | 2018-02-13 | 2018-09-03 | 계산 장치 및 방법 |
EP19212751.2A EP3651072B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
EP19212752.0A EP3651073B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
EP19213389.0A EP3651078B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
KR1020197026717A KR102148110B1 (ko) | 2018-02-13 | 2018-09-03 | 계산 장치 및 방법 |
CN201910195599.1A CN110163355B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
CN201910195627.XA CN110163357B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
EP19212746.2A EP3640863B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
CN201910195820.3A CN110163361B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
CN201910195535.1A CN110163353B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
EP19212755.3A EP3651076B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
CN201910195899.XA CN110163363B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
CN201880002628.1A CN110383300B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
CN201910195819.0A CN110163360B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
CN201910195818.6A CN110163359B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
CN201910195598.7A CN110163354B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
KR1020197028148A KR102354718B1 (ko) | 2018-02-13 | 2018-09-03 | 계산 장치 및 방법 |
PCT/CN2018/103850 WO2019157812A1 (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
EP19214004.4A EP3651079B1 (en) | 2018-02-13 | 2018-09-03 | Computation device and method |
CN201910195816.7A CN110163358B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
CN201910195898.5A CN110163362B (zh) | 2018-02-13 | 2018-09-03 | 一种计算装置及方法 |
TW108102996A TWI795519B (zh) | 2018-02-13 | 2019-01-25 | 計算裝置、機器學習運算裝置、組合處理裝置、神經網絡芯片、電子設備、板卡及執行機器學習計算的方法 |
TW112100421A TWI827432B (zh) | 2018-02-13 | 2019-01-25 | 計算裝置、機器學習運算裝置、組合處理裝置、神經網絡芯片、電子設備、板卡、及計算方法 |
JP2019222369A JP6826181B2 (ja) | 2018-02-13 | 2019-12-09 | 計算装置と計算方法 |
JP2019222372A JP6905573B2 (ja) | 2018-02-13 | 2019-12-09 | 計算装置と計算方法 |
JP2019222370A JP6880160B2 (ja) | 2018-02-13 | 2019-12-09 | 計算装置と計算方法 |
JP2019222371A JP6865805B2 (ja) | 2018-02-13 | 2019-12-09 | 計算装置と計算方法 |
US16/715,062 US11507370B2 (en) | 2018-02-13 | 2019-12-16 | Method and device for dynamically adjusting decimal point positions in neural network computations |
US16/715,037 US11663002B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/714,946 US12073215B2 (en) | 2018-02-13 | 2019-12-16 | Computing device with a conversion unit to convert data values between various sizes of fixed-point and floating-point data |
US16/715,235 US11106598B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/714,875 US11630666B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/714,915 US11720357B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/714,974 US11740898B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/715,301 US11704125B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/715,393 US11397579B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/715,170 US11709672B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/715,009 US11620130B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
US16/714,899 US11169803B2 (en) | 2018-02-13 | 2019-12-16 | Computing device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810149287.2A CN110163350B (zh) | 2018-02-13 | 2018-02-13 | 一种计算装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163350A true CN110163350A (zh) | 2019-08-23 |
CN110163350B CN110163350B (zh) | 2021-06-08 |
Family
ID=67635358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810149287.2A Active CN110163350B (zh) | 2018-02-13 | 2018-02-13 | 一种计算装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163350B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276447A (zh) * | 2018-03-14 | 2019-09-24 | 上海寒武纪信息科技有限公司 | 一种计算装置及方法 |
CN110488412A (zh) * | 2019-08-26 | 2019-11-22 | 光子算数(北京)科技有限责任公司 | 一种光子人工智能芯片 |
CN110888623A (zh) * | 2019-11-25 | 2020-03-17 | 集美大学 | 数据转换方法、乘法器、加法器、终端设备及存储介质 |
US11397579B2 (en) | 2018-02-13 | 2022-07-26 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11630666B2 (en) | 2018-02-13 | 2023-04-18 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
CN116450086A (zh) * | 2022-01-05 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 包括乘累加器的芯片、终端和控制方法 |
US11847554B2 (en) | 2019-04-18 | 2023-12-19 | Cambricon Technologies Corporation Limited | Data processing method and related products |
CN110276447B (zh) * | 2018-03-14 | 2024-09-24 | 上海寒武纪信息科技有限公司 | 一种计算装置及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426344A (zh) * | 2015-11-09 | 2016-03-23 | 南京大学 | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 |
CN107315566A (zh) * | 2016-04-26 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 一种用于执行向量循环移位运算的装置和方法 |
CN107315575A (zh) * | 2016-04-26 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 一种用于执行向量合并运算的装置和方法 |
CN107315563A (zh) * | 2016-04-26 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 一种用于执行向量比较运算的装置和方法 |
CN107316078A (zh) * | 2016-04-27 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN107330515A (zh) * | 2016-04-29 | 2017-11-07 | 北京中科寒武纪科技有限公司 | 一种用于执行人工神经网络正向运算的装置和方法 |
CN107608715A (zh) * | 2017-07-20 | 2018-01-19 | 上海寒武纪信息科技有限公司 | 用于执行人工神经网络正向运算的装置及方法 |
-
2018
- 2018-02-13 CN CN201810149287.2A patent/CN110163350B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426344A (zh) * | 2015-11-09 | 2016-03-23 | 南京大学 | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 |
CN107315566A (zh) * | 2016-04-26 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 一种用于执行向量循环移位运算的装置和方法 |
CN107315575A (zh) * | 2016-04-26 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 一种用于执行向量合并运算的装置和方法 |
CN107315563A (zh) * | 2016-04-26 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 一种用于执行向量比较运算的装置和方法 |
CN107316078A (zh) * | 2016-04-27 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN107330515A (zh) * | 2016-04-29 | 2017-11-07 | 北京中科寒武纪科技有限公司 | 一种用于执行人工神经网络正向运算的装置和方法 |
CN107608715A (zh) * | 2017-07-20 | 2018-01-19 | 上海寒武纪信息科技有限公司 | 用于执行人工神经网络正向运算的装置及方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11740898B2 (en) | 2018-02-13 | 2023-08-29 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11397579B2 (en) | 2018-02-13 | 2022-07-26 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11620130B2 (en) | 2018-02-13 | 2023-04-04 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11630666B2 (en) | 2018-02-13 | 2023-04-18 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11663002B2 (en) | 2018-02-13 | 2023-05-30 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11704125B2 (en) | 2018-02-13 | 2023-07-18 | Cambricon (Xi'an) Semiconductor Co., Ltd. | Computing device and method |
US11709672B2 (en) | 2018-02-13 | 2023-07-25 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11720357B2 (en) | 2018-02-13 | 2023-08-08 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
CN110276447B (zh) * | 2018-03-14 | 2024-09-24 | 上海寒武纪信息科技有限公司 | 一种计算装置及方法 |
CN110276447A (zh) * | 2018-03-14 | 2019-09-24 | 上海寒武纪信息科技有限公司 | 一种计算装置及方法 |
US11847554B2 (en) | 2019-04-18 | 2023-12-19 | Cambricon Technologies Corporation Limited | Data processing method and related products |
CN110488412A (zh) * | 2019-08-26 | 2019-11-22 | 光子算数(北京)科技有限责任公司 | 一种光子人工智能芯片 |
CN110888623B (zh) * | 2019-11-25 | 2021-11-23 | 集美大学 | 数据转换方法、乘法器、加法器、终端设备及存储介质 |
CN110888623A (zh) * | 2019-11-25 | 2020-03-17 | 集美大学 | 数据转换方法、乘法器、加法器、终端设备及存储介质 |
CN116450086A (zh) * | 2022-01-05 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 包括乘累加器的芯片、终端和控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110163350B (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163353A (zh) | 一种计算装置及方法 | |
US11710041B2 (en) | Feature map and weight selection method and accelerating device | |
CN110163350A (zh) | 一种计算装置及方法 | |
CN110383300A (zh) | 一种计算装置及方法 | |
CN109189474A (zh) | 神经网络处理装置及其执行向量加和指令的方法 | |
Li et al. | Deep reinforcement learning: Framework, applications, and embedded implementations | |
CN108733348B (zh) | 融合向量乘法器和使用其进行运算的方法 | |
CN106650924A (zh) | 一种基于时间维和空间维数据流压缩的处理器、设计方法 | |
CN209231976U (zh) | 一种可重构神经网络算法的加速装置 | |
CN109389209A (zh) | 处理装置及处理方法 | |
CN109389210A (zh) | 处理方法和处理装置 | |
CN110276447A (zh) | 一种计算装置及方法 | |
CN111382848A (zh) | 一种计算装置及相关产品 | |
CN110276447B (zh) | 一种计算装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |