CN109298848A - 双模式浮点除法平方根的电路 - Google Patents
双模式浮点除法平方根的电路 Download PDFInfo
- Publication number
- CN109298848A CN109298848A CN201810999006.2A CN201810999006A CN109298848A CN 109298848 A CN109298848 A CN 109298848A CN 201810999006 A CN201810999006 A CN 201810999006A CN 109298848 A CN109298848 A CN 109298848A
- Authority
- CN
- China
- Prior art keywords
- iteration
- precision
- mantissa
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
- G06F7/535—Dividing only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/544—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
- G06F7/552—Powers or roots, e.g. Pythagorean sums
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
一种双模式浮点除法平方根的电路,包括:数据处理单元,用于对被操作数进行平方根操作、或者对被操作数和操作数进行除法操作,确定操作结果q的符号位和指数位,其中,所述被操作数x和所述操作数d均为单路双精度64位数据,或者均为双路单精度32位数据;迭代输入初始化单元,用于根据所述符号位和指数位,确定迭代初始化输入数据W[0];迭代单元,用于对W[0]进行迭代处理,在每一次迭代结束后,对所述q进行数值转换,确定迭代后的q;舍入单元,用于所述迭代后的q的尾数q_man(q1_man/q2_man)进行舍入,确定舍入结果;输出单元,用于将所述舍入结果与所述符号位和指数位进行拼接,确定并输出所述操作结果q。
Description
技术领域
本发明涉及数字信号处理领域,尤其涉及一种基于SRT-16算法的可以处理一种双精度和并行处理两种单精度的高效双模式浮点除法开方的电路结构
背景技术
在数字信号处理中,浮点除法和平方根运算是处理器中非常重要的功能部件,该部件性能的好坏严重影响整个处理器的性能。SRT-16算法是实现浮点除法和开方运算的一种高基的数字循环算法。SRT-16算法是采用加法方法进行循环迭代计算得到商q,每次迭代产生4位的冗余商,第i次迭代公式如下:
其中qi表示每次迭代产生的4位二进制冗余商值,它由冗余的2位二进制高位商qHi和低位商qLi组合而成;w[i]表示第i次循环的部分余数和;v[i]表示迭代中间值;FHi和FLi为迭代加法项;w[i+1]表示第i次迭代后的部分余数;x表示被除数或被开方数;d表示除数;S[i]表示平方根运算中,第i次迭代后非冗余的商值。
从迭代公式可知,浮点除法运算qHi的值由d,16w[i]组成的函数决定,qLi的值由d,v[i]和qHi组成的函数决定;浮点平方根运算qHi的值由S[i],16w[i]组成的函数决定,qLi的值由S[i],v[i]和qHi组成的函数决定,这些函数统称为商选择函数QSEL,由于商选择函数中选择区间的重叠,使得d,16w[i],v[i],S[i]并不需要全位宽输入到QSEL中,只需要选用截断位宽的同时v[i]可由16w[i]和FHi决定,故选择函数的表达式为:
目前单一实现浮点除法和平方根运算的电路结构研究较多,两种浮点运算通过两种电路结构进行计算,但是在实际的应用平台中使用这种方法进行两种浮点运算的效率是较低的。因此需要一种统一的电路结构,在只增加少量的硬件条件下,既能实现浮点除法运算,又能实现浮点平方根运算。
同时,传统的浮点运算体系结构只能处理一种精度的浮点计算,对于需要大量处理不同精度浮点运算的应用平台,这种体系结构性能较低。
发明内容
(一)要解决的技术问题
本发明提供了一种双模式浮点除法平方根的电路,以解决上述的至少一项技术问题。
(二)技术方案
本发明实施例提供了一种双模式浮点除法平方根的电路,包括:
数据处理单元,用于对被操作数进行平方根操作、或者对被操作数和操作数进行除法操作,确定操作结果q的符号位和指数位,其中,所述被操作数x和所述操作数d均为单路双精度64位数据,或者均为双路单精度32位数据;
迭代输入初始化单元,用于根据所述符号位和指数位,确定迭代初始化输入数据W[0];
迭代单元,用于对W[0]进行迭代处理,在每一次迭代结束后,对所述q进行数值转换,确定迭代后的q;
舍入单元,用于所述迭代后的q的尾数q_man(q1_man/q2_man)进行舍入,确定舍入结果;
输出单元,用于将所述舍入结果与所述符号位和指数位进行拼接,确定并输出所述操作结果q。
在本发明的一些实施例中,在每一次迭代中,所述迭代单元产生4位冗余操作值,q的取值范围为[1/4,1],双路单精度32位数据迭代的次数为7次,单路双精度64位数据迭代的次数为14次。
在本发明的一些实施例中,对于单路双精度64位数据x,最高位x[63]为x符号位,x[62∶52]为x的11位指数,x[51∶0]为x的52位尾数;对于双路单精度32位数据x1和x2,x1和x2共同组成64比特的x,其中x[63]为x1符号位,x[62∶55]为x1的8位指数位,x[54∶32]为x1的23位尾数,x[31]为x2符号位,x[30∶23]为x2的8位指数位,x[22∶0]为x2的23位尾数。
在本发明的一些实施例中,所述电路的可配置控制信号func等于1时,电路配置成除法运算;func等于0,电路配置成平方根运算;配置电路的模式信号op等于1时,电路配置成并行处理的双路单精度32位数据运算;op等于0,电路配置成单路双精度64位数据运算。
在本发明的一些实施例中,所述数据处理单元包括两个减法器,所述两个减法器的运算结果的奇偶标志位为odd,用于平方根运算中尾数的移位操作:odd等于1时,被操作数指数为奇数,需要对指数进行加1操作,同时尾数需要右移一位;odd等于0时,被操作数指数为偶数,指数和尾数保持不变。
在本发明的一些实施例中,所述迭代单元中,对于除法运算,W[0]=x-d;对应平方根运算,W[0]=x-1。
在本发明的一些实施例中,对于除法运算,被操作数的尾数初始化范围为[1/4,1/2],操作数的尾数初始化范围为[1/2,1];对于平方根运算,被操作数的尾数初始化范围为[1/4,1]。
在本发明的一些实施例中,所述迭代单元包括两个寄存器A1和A2、以及两个寄存器B1和B2,用于对所述q进行数值转换为非冗余形式,以及存储第i次迭代后的操作结果值S[i];
在本发明的一些实施例中,用于存储双精度浮点运算中操作结果值,以及存储一种单精度浮点运算中操作结果值;A2,B2为28位的寄存器,用于存储另一种单精度浮点中的操作结果值;迭代后的操作结果的尾数值q_man在A1、A2中获得;d_man为除数d的尾数,对应的输入d[54∶0],d_man既包含了双精度运算下,除数d的尾数,又包含了并行处理两种单精度运算,除数d1和d2的尾数。
在本发明的一些实施例中,所述迭代单元还包括:两个双模式的CSA1和CSA2、双模式操作结果产生单元和双模式加法项产生单元,所述迭代单元还用于:
根据所述双模式操作结果产生单元产生6位的高位操作结果qH[i]和低位操作结果qL[i],高位操作结果qH[i]既可以表示双精度浮点运算的3位高位操作结果,后3位高位操作结果为零,又可以表示两个并行计算的单精度浮点运算的3位高位操作结果;低位操作结果qL[i]既可以表示双精度浮点运算的3位低位操作结果,后3位低位操作结果为零,又可以表示两个并行计算的单精度浮点运算的3位低位操作结果;
所述迭代单元还用于将所述qH[i]和qL[i]作为双模式加法项产生单元的输入,产生高位加法项FHi和低位加法项FLi;
对于第i次迭代初始部分余数,左移4位后得到16Ws_i和16Wc_i,将FHi,16Ws_i和16Wc_i作为CSA1的输入用来产生Vs_i,Vc_i,同时产生的Vs_i,Vc_i与FLi作为CSA2的输入用来产生Ws_i+1,Wc_i+1作为下一次迭代的输入。
在本发明的一些实施例中,还包括预处理单元,用于对x,d进行检测,去除不满足IEEE-754标准中规格化的数据,输出满足IEEE-754标准中规格化的数据。
(三)有益效果
本发明的双模式浮点除法平方根的电路,相较于现有技术,至少具有以下优点:
1、基于SRT-16算法,电路原理简单,计算精度高,面积消耗低等优点。针对SRT-16算法中,除法、平方根的运算中只有加法项不同的特点,在只增加少量硬件的情况下,能够动态配置实现浮点除法和平方根两种运算,能够处理一种精度的浮点运算,而且在保证面积消耗的前提下,能够动态配置成并行处理两个同种精度的浮点运算;
2、采用双模式的电路设计方式,在只增加少量硬件的情况下,既能处理一种双精度浮点运算,又能并行处理两路单精度浮点运算,大大提高了浮点运算单元处理不同精度运算时的性能;
3、采用流水线结构实现SRT-16算法中的迭代过程,相比于现有的基于SRT-4的算法的迭代运算通常采用的循环结构,数据吞吐量大大提高,更适于高性能运算。
附图说明
图1为本发明实施例的双模式浮点除法平方根电路的结构示意图。
图2为本发明实施例规定的输入数据x,d的形式示意图。
图3为本发明实施例的数据处理单元的示意图。
图4为本发明实施例的迭代输入初始化单元的示意图。
图5为本发明实施例的迭代单元的示意图。
图6为本发明实施例的迭代单元流水线的结构示意图。
图7为本发明实施例的双模式FH-Generate(高位加法项FH[i]产生单元)的示意图。
图8为本发明实施例的浮点平方根运算中p[i]项的实现示意图。
图9(a)为本发明实施例的单路双精度64位数据的Q-Generate的示意图。
图9(b)为本发明实施例的并行的双路单精度32位数据的Q-Generate的示意图。
图10为本发明实施例的统一商选择函数查找表。
图11为本发明实施例的双模式CSA的结构示意图。
具体实施方式
目前,浮点运算体系结构正朝着从标量运算到矢量运算的发展,即一种双模式高性能浮点运算处理结构。基于此,本发明提供了一种双模式浮点除法平方根的电路,基于SRT-16算法,除法、平方根的运算中只有加法项不同的特点,在只增加少量硬件的情况下,能够动态配置实现浮点除法和平方根两种运算,能够处理一种精度的浮点运算,而且在保证面积消耗的前提下,能够动态配置成并行处理两个同种精度的浮点运算。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提供了一种双模式浮点除法平方根的电路,如图1所示,包括:
数据处理单元,用于对被操作数进行平方根操作、或者对被操作数和操作数进行除法操作,确定操作结果q的符号位和指数位,其中,所述被操作数x和所述操作数d均为单路双精度64位数据,或者均为双路单精度32位数据;
迭代输入初始化单元,用于根据所述符号位和指数位,确定迭代初始化输入数据W[0];
迭代单元,用于对W[0]进行迭代处理,在每一次迭代结束后,对所述q进行数值转换,确定迭代后的q;
舍入单元,用于所述迭代后的q的尾数q_man(q1_man/q2_man)进行舍入,确定舍入结果;
输出单元,用于将所述舍入结果与所述符号位和指数位进行拼接,确定并输出所述操作结果q。
根据本发明的一种实施例,在每一次迭代中,所述迭代单元产生4位冗余操作值,q的取值范围为[1/4,1],双路单精度32位数据迭代的次数为7次,单路双精度64位数据迭代的次数为14次。
根据本发明的一种实施例,对于单路双精度64位数据x,最高位x[63]为x符号位,x[62∶52]为x的11位指数,x[51∶0]为x的52位尾数;对于双路单精度32位数据x1和x2,x1和x2共同组成64比特的x,其中x[63]为x1符号位,x[62∶55]为x1的8位指数位,x[54∶32]为x1的23位尾数,x[31]为x2符号位,x[30∶23]为x2的8位指数位,x[22∶0]为x2的23位尾数。
根据本发明的一种实施例,所述电路的可配置控制信号func等于1时,电路配置成除法运算;func等于0,电路配置成平方根运算;配置电路的模式信号op等于1时,电路配置成并行处理的双路单精度32位数据运算;op等于0,电路配置成单路双精度64位数据运算。
根据本发明的一种实施例,所述数据处理单元包括两个减法器,所述两个减法器的运算结果的奇偶标志位为odd,用于平方根运算中尾数的移位操作:odd等于1时,被操作数指数为奇数,需要对指数进行加1操作,同时尾数需要右移一位;odd等于0时,被操作数指数为偶数,指数和尾数保持不变。
根据本发明的一种实施例,所述迭代单元中,对于除法运算,W[0]=x-d;对应平方根运算,W[0]=x-1。
在本发明的一些实施例中,对于除法运算,被操作数的尾数初始化范围为[1/4,1/2],操作数的尾数初始化范围为[1/2,1];对于平方根运算,被操作数的尾数初始化范围为[1/4,1]。
根据本发明的一种实施例,所述迭代单元包括两个寄存器A1和A2、以及两个寄存器B1和B2,用于对所述q进行数值转换为非冗余形式,以及存储第i次迭代后的操作结果值S[i];
根据本发明的一种实施例,用于存储双精度浮点运算中操作结果值,以及存储一种单精度浮点运算中操作结果值;A2,B2为28位的寄存器,用于存储另一种单精度浮点中的操作结果值;迭代后的操作结果的尾数值q_man在A1、A2中获得;d_man为除数d的尾数,对应的输入d[54∶0],d_man既包含了双精度运算下,除数d的尾数,又包含了并行处理两种单精度运算,除数d1和d2的尾数。
根据本发明的一种实施例,所述迭代单元还包括:两个双模式的CSA1和CSA2、双模式操作结果产生单元和双模式加法项产生单元,所述迭代单元还用于:
根据所述双模式操作结果产生单元产生6位的高位操作结果qH[i]和低位操作结果qL[i],高位操作结果qH[i]既可以表示双精度浮点运算的3位高位操作结果,后3位高位操作结果为零,又可以表示两个并行计算的单精度浮点运算的3位高位操作结果;低位操作结果qL[i]既可以表示双精度浮点运算的3位低位操作结果,后3位低位操作结果为零,又可以表示两个并行计算的单精度浮点运算的3位低位操作结果;
所述迭代单元还用于将所述qH[i]和qL[i]作为双模式加法项产生单元的输入,产生高位加法项FHi和低位加法项FLi;
对于第i次迭代初始部分余数,左移4位后得到16Ws_i和16Wc_i,将FHi,16Ws_i和16Wc_i作为CSA1的输入用来产生Vs_i,Vc_i,同时产生的Vs_i,Vc_i与FLi作为CSA2的输入用来产生Ws_i+1,Wc_i+1作为下一次迭代的输入。
根据本发明的一种实施例,还包括预处理单元,用于对x,d进行检测,去除不满足IEEE-754标准中规格化的数据,输出满足IEEE-754标准中规格化的数据。
图2为本发明实施例规定的输入数据x,d的形式示意图,如图2所示,本发明支持一种双精度的数据运算和并行的两种单精度的运算,输入数据的位宽为64比特。以被除数或被开方数x为例,对于双精度数据,最高位x[63]为x符号位,x[62∶52]为x的11位指数,x[51∶0]为x的52位尾数;对于两种单精度数据,x1,x2都为32比特,x1和x2共同组成64比特的x,其中x[63]为x1符号位,x[62∶55]为x1的8位指数位,x[54∶32]为x1的23位尾数,x[31]为x2符号位,x[30∶23]为x2的8位指数位,x[22∶0]为x2的23位尾数。对于除数d也是采用相同的数据输入形式。
本发明还可以包括预处理单元,对输入浮点数据x,d进行检测。对于不满足IEEE-754标准中规格化的数据和本发明规定的数据格式的数据,作为数据输入异常处理。由此,得到如图2所示的被操作数和操作数。
接下来,就以除法操作为例,对本发明进行详细解释。
x为被除数或者被开方数,d为除数,q为商值。func、op作为整个电路模块的可配置控制信号,其中func等于1,将电路配置成浮点除法运算,func等于0,将电路配置成浮点平方根运算。op用于配置电路的双模式(单路双精度和双路单精度)功能。op等于1,将电路配置成并行处理两路单精度浮点运算,op等于0,将电路配置成单路双精度浮点运算。odd为奇偶标志位,用于平方根运算中尾数的移位操作。odd等于1,代表被开方数指数为奇数,需要对指数进行加1操作,同时尾数需要右移一位。odd等于0,代表被开方数指数为偶数,指数和尾数保持不变。
数据处理单元计算商q的符号位和指数位(Sign&Exp)。
迭代输入初始化单元。为双模式尾数处理单元提供迭代初始化输入数据W[0],为了减小电路延时,迭代过程中采用CSA(Carry Save Adder,进位保留加法器),W[0]被分解为加法和Ws[0]、以及进位和Wc[0]两部分。
迭代单元,用于完成整个加法迭代运算。由于采用SRT-16算法,每一次迭代产生4位冗余商值,浮点除法商值q的取值范围为[1/4,1],为了满足精度要求,双路单精度32位数据迭代的次数为7次,单路双精度64位数据迭代的次数为14次。这是因为双路单精度32位数据是并行(同时)计算,每一次迭代产生4位商,一共需要产生24位商,需要6次迭代,增加一次迭代进行舍入操作,故需要7次迭代。单路双精度64位数据,每一次迭代产生4位商,一共需要产生52位商,需要13次迭代,增加一次迭代进行舍入操作,故需要14次。
每一次迭代产生的4位冗余商值需要转换为非冗余形式,为了减少延时,采用商飞速转换(On-The-Fly)的技术(参照文献M.D.Ercegovac and T.lang,“On-the-flyConversion from Redundant into Conventional Representation”,IEEE Transactionson Computers,vol.C-36,pp.895-897,July 1987),每一次迭代结束后,立刻进行商值转换。为了提高电路吞吐率,电路采用全流水的设计结构。
舍入单元,对商q的尾数q_man(q1_man/q2_man)进行舍入,其中,舍入操作则可以采用IEEE-754标准中的最近舍入的方法。
输出单元,将完成舍入操作的q_man(q1_man/q2_man)和对应的符号指数位进行拼接,输出最后的商值q。
图3为本发明实施例的数据处理单元的示意图,如图3所示,其中的Exp_x,Exp_d分别为双精度数据x,d的指数位,Exp_x1,Exp_x2,Exp_d1,Exp_d2分别为并行输入的单精度数据x1,x2,d1,d2的指数位。图中虚线左边部分为双精度数据x,d指数运算电路结构,为了减少电路开销,对电路资源进行复用,单精度数据x1,d1的指数的运算同样采用该电路结构,图中虚线右边则进行单精度数据x2,d2的指数运算。func和op信号作为可配置信号动态配置电路,使电路实现不同的运算。
Mux1,Mux2,Mux6,SUB1和SUB2在fun,op的控制下完成x和d,x1和d1,x2和d2指数相减的运算,odd为SUB1和SUB2运算结果的奇偶标志位,对于平方根指数运算,指数为奇数需要加1再除2,同时尾数要右移一位。指数为偶数则直接除2。ADD1和ADD3完成加1操作,移位器右移一位完成除2操作。MUX 4和MUX 8作为偏置Bias的选择器,加法器ADD2和ADD4完成指数规格化操作。
图4为本发明实施例的迭代输入初始化单元的示意图,如图4所示,初始化单元为尾数迭代模块提供初始化输入W[0]。为了减小电路延时,W[0]被分解为加法和Ws[0]、进位和Wc[0]两部分。对于除法运算,w[0]=x-d。对于平方根运算w[0]=x-1。可配置控制信号func,odd共同配置选择器MUX 1,MUX 2,MUX 3,完成平方根指数为奇数时,尾数的移位操作和不同精度除法和平方根运算中尾数初始化。对于除法运算x的尾数初始化范围为[1/4,1/2],d的尾数初始化范围为[1/2,1]。对于平方根运算x的尾数初始化范围为[1/4,1]。op信号配置选择器MUX 4和MUX 5,完成双模式功能的切换。加法器ADD支持双模式运算,既可以进行一个55位加法器运算,同时可以拆分为一个28位加法器和一个27位加法器。
图5为本发明实施例的迭代单元的示意图,如图5所示,迭代电路模块主要由两个(CSA1和CSA2)双模式的CSA、双模式Q-generate(商产生单元)以及F-generate(双模式加法项产生单元)三个部分组成。可配置信号func和op对三个模块进行动态配置,实现除法、开方的浮点运算和双模式功能。ys[i],yc[i]为截断的部分余数,为了支持双模式的功能,ys[i],yc[i]的位宽由只支持一种精度运算的9位宽,变成18位位宽。在浮点平方根运算中,为了支持商的飞速转换,使用两个寄存器A,B存储第i次迭代后的商值S[i]。为了支持双模式功能,A1,B1为56位的寄存器,既能存储双精度浮点运算中商值,又能存储一种单精度浮点运算中商值。A2,B2为28位的寄存器,用于存储另一种单精度浮点中的商值。最终商的尾数值q_man在A1、A2中获得。d_man为除数d的尾数,对应的输入d[54∶0],d_man既包含了双精度运算下,除数d的尾数,又包含了并行处理两种单精度运算,除数d1和d2的尾数。
ys[i]、yc[i]、和作为双模式Q-generate模块中选择函数的输入,产生6位的高位商qH[i]和低位商qL[i],高位商qH[i]既可以表示双精度浮点运算的3位(1位符号位,2位商值)高位商(剩下低3位补零),又可以表示两个并行计算的单精度浮点运算的3位高位商,qL[i]也用同样的方式表示低位商。
qHi和qLi同时作为双模式F-generate单元的输入,产生高位加法项FHi和低位加法项FLi。FH_i,16Ws_i和16Wc_i作为CSA1的输入用来产生SRT-16算法中的V[i]项(Vs_i,Vc_i),V[i],FL_i作为CSA2的输入用来产生SRT-16算法中的W[i+1](Ws_i+1,Wc_i+1),W[i+1]又作为下次迭代的输入。
图6为本发明实施例的迭代单元流水线的结构示意图,如图6所示,电路共采用14级流水线结构,有效提高数据吞吐率。
图7为本发明实施例的双模式FH-Generate(高位加法项FH[i]产生单元)的示意图,如图7所示,图中Product Generator(倍积器)产生不同高位商对应的高位加法项,qH[i]作为选择项对高位加法项进行选择。对于浮点除法运算,倍积产生器产生的高位加法项为8d,4d,-4d,-8d,只需要对尾数d_man进行移位操作即可。对于浮点平方根运算,倍积器产生的高位加法项为8p[i-1],4p[i-1],-4p[i-1],-8p[i-1],其中p[i-1]与qH[i]、A[i-1]、B[i-1]的关系如图7所示,对转换得到的p[i-1]进行移位操作得到高位加法项。
FL-Generate(低位加法项FL[i]产生单元)电路结构与FH-Generate基本一致,只是由Product Generator产生倍积不同。对于浮点除法运算,倍积产生器产生的低位加法项为2d,d,-2d,-d,只需要对尾数d_man进行移位操作即可。对于浮点平方根运算,倍积器产生的低位加法项为2p[i-1],p[i-1],-2p[i-1],-p[i-1]。
为了支持浮点除法和平方根运算,通过func的动态配置,产生不同加法项。对于双精度浮点运算,其加法项FHi有58位,为了支持双模式功能,其加法项可由两个单精度的29位加法项拼接而成。
图8为本发明实施例的浮点平方根运算中p[i]项的实现示意图,如图8所示,当S[i+1]取不同值时,根据当前迭代的i值,对寄存器A和寄存器B中的第i组和第i-1组进行修改即可,其中,a,b表示当前寄存器中的值,表示对两位二进制值取反。
图9(a)为本发明实施例的单路双精度64位数据的Q-Generate(商产生单元)的示意图,图9(b)为本发明实施例的并行的双路单精度32位数据的Q-Generate的示意图,如图所示,ys[i]和yc[i]输入后,先通过加法器ADD相加得到截断的部分余数y,在func的配置下,y、和截断的作为高位商选择函数的输入产生高位商qH[i],qH[i]产生后选择截断的加法项 与y相加得到新的截断部分余数v,v与或作为低位商选择函数的输入产生低位商qL[i]。为了支持双模式功能,QSEL1_H(高位商选择函数)和QSEL1_L(低位商选择函数)既能支持双精度运算高低位商值选择,也能支持一个单精度运算高低位商值选择。QSEL2_H和QSEL2_L则完成对另一个单精度运算高低位的商值选择。为了完成浮点除法和平方根的运算,采用一种统一的商选择函数,其示意图如图10所示,截断的部分余数y,在或确定的情况下,y在不同的选择区间内,选出不同的商值q。
图11为本发明实施例的双模式CSA(进位保留加法器)示意图,对于58位的CSA,既可以当做一个58位的加法器,又可以拆分成两个29位加法器,58为的加法器用于双精度运算中迭代加法器,通过op配置成两个29位的加法器,用于并行的两个单精度浮点运算迭代中的加法运算。具体原理为:当配置成两个29位加法器是,第28位进位和Cin[28]置为零,即可将加法器拆分成两个进位保留加法器。
综上,本发明的双模式浮点除法平方根的电路,基于SRT-16算法,实现了双模式的电路设计方式,在只增加少量硬件的情况下,既能处理一种双精度浮点运算,又能并行处理两路单精度浮点运算,大大提高了浮点运算单元处理不同精度运算时的性能。
除非有所知名为相反之意,本说明书及所附权利要求中的数值参数是近似值,能够根据通过本发明的内容所得的所需特性改变。具体而言,所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字,应理解为在所有情况中是受到“约”的用语所修饰。一般情况下,其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。
再者,“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的“一”或“一个”不排除存在多个这样的元件。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种双模式浮点除法平方根的电路,包括:
数据处理单元,用于对被操作数进行平方根操作、或者对被操作数和操作数进行除法操作,确定操作结果q的符号位和指数位,其中,所述被操作数x和所述操作数d均为单路双精度64位数据,或者均为双路单精度32位数据;
迭代输入初始化单元,用于根据所述符号位和指数位,确定迭代初始化输入数据W[0];
迭代单元,用于对W[0]进行迭代处理,在每一次迭代结束后,对所述q进行数值转换,确定迭代后的q;
舍入单元,用于所述迭代后的q的尾数q_man(q1_man/q2_man)进行舍入,确定舍入结果;
输出单元,用于将所述舍入结果与所述符号位和指数位进行拼接,确定并输出所述操作结果q。
2.根据权利要求1所述的电路,其中,在每一次迭代中,所述迭代单元产生4位冗余操作值,q的取值范围为[1/4,1],双路单精度32位数据迭代的次数为7次,单路双精度64位数据迭代的次数为14次。
3.根据权利要求1所述的电路,其中,对于单路双精度64位数据x,最高位x[63]为x符号位,x[62∶52]为x的11位指数,x[51∶0]为x的52位尾数;对于双路单精度32位数据x1和x2,x1和x2共同组成64比特的x,其中x[63]为x1符号位,x[62∶55]为x1的8位指数位,x[54∶32]为x1的23位尾数,x[31]为x2符号位,x[30∶23]为x2的8位指数位,x[22∶0]为x2的23位尾数。
4.根据权利要求1所述的电路,其中,所述电路的可配置控制信号func等于1时,电路配置成除法运算;func等于0,电路配置成平方根运算;配置电路的模式信号op等于1时,电路配置成并行处理的双路单精度32位数据运算;op等于0,电路配置成单路双精度64位数据运算。
5.根据权利要求1所述的电路,其中,所述数据处理单元包括两个减法器,所述两个减法器的运算结果的奇偶标志位为odd,用于平方根运算中尾数的移位操作:odd等于1时,被操作数指数为奇数,需要对指数进行加1操作,同时尾数需要右移一位;odd等于0时,被操作数指数为偶数,指数和尾数保持不变。
6.根据权利要求1所述的电路,其中,所述迭代单元中,对于除法运算,W[0]=x-d;对应平方根运算,W[0]=x-1。
7.根据权利要求1所述的电路,其中,对于除法运算,被操作数的尾数初始化范围为[1/4,1/2],操作数的尾数初始化范围为[1/2,1];对于平方根运算,被操作数的尾数初始化范围为[1/4,1]。
8.根据权利要求1所述的电路,其中,所述迭代单元包括两个寄存器A1和A2、以及两个寄存器B1和B2,用于对所述q进行数值转换为非冗余形式,以及存储第i次迭代后的操作结果值S[i];
其中,所述A1和A2为56位的寄存器,用于存储双精度浮点运算中操作结果值,以及存储一种单精度浮点运算中操作结果值;A2,B2为28位的寄存器,用于存储另一种单精度浮点中的操作结果值;迭代后的操作结果的尾数值q_man在A1、A2中获得;d_man为除数d的尾数,对应的输入d[54∶0],d_man既包含了双精度运算下,除数d的尾数,又包含了并行处理两种单精度运算,除数d1和d2的尾数。
9.根据权利要求8所述的电路,其中,所述迭代单元还包括:两个双模式的CSA1和CSA2、双模式操作结果产生单元和双模式加法项产生单元,所述迭代单元还用于:
根据所述双模式操作结果产生单元产生6位的高位操作结果qH[i]和低位操作结果qL[i],高位操作结果qH[i]既可以表示双精度浮点运算的3位高位操作结果,后3位高位操作结果为零,又可以表示两个并行计算的单精度浮点运算的3位高位操作结果;低位操作结果qL[i]既可以表示双精度浮点运算的3位低位操作结果,后3位低位操作结果为零,又可以表示两个并行计算的单精度浮点运算的3位低位操作结果;
所述迭代单元还用于将所述qH[i]和qL[i]作为双模式加法项产生单元的输入,产生高位加法项FHi和低位加法项FLi;
对于第i次迭代初始部分余数,左移4位后得到16Ws_i和16Wc_i,将FHi,16Ws_i和16Wc_i作为CSA1的输入用来产生Vs_i,Vc_i,同时产生的Vs_i,Vc_i与FLi作为CSA2的输入用来产生Ws_i+1,Wc_i+1作为下一次迭代的输入。
10.根据权利要求1所述的电路,其中,还包括预处理单元,用于对x,d进行检测,去除不满足IEEE-754标准中规格化的数据,输出满足IEEE-754标准中规格化的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810999006.2A CN109298848B (zh) | 2018-08-29 | 2018-08-29 | 双模式浮点除法平方根的电路 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810999006.2A CN109298848B (zh) | 2018-08-29 | 2018-08-29 | 双模式浮点除法平方根的电路 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109298848A true CN109298848A (zh) | 2019-02-01 |
CN109298848B CN109298848B (zh) | 2023-06-20 |
Family
ID=65165781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810999006.2A Active CN109298848B (zh) | 2018-08-29 | 2018-08-29 | 双模式浮点除法平方根的电路 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109298848B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181357A (zh) * | 2020-09-02 | 2021-01-05 | 大连理工大学 | 除法运算方法、装置、电子设备和介质 |
CN117785117A (zh) * | 2023-12-26 | 2024-03-29 | 合芯科技(苏州)有限公司 | 基于srt4实现srt16的除法运算电路 |
CN117785116A (zh) * | 2023-12-26 | 2024-03-29 | 合芯科技(苏州)有限公司 | 基于srt4实现srt16的开方运算电路 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963895B1 (en) * | 2000-05-01 | 2005-11-08 | Raza Microelectronics, Inc. | Floating point pipeline method and circuit for fast inverse square root calculations |
CN101216753A (zh) * | 2008-01-04 | 2008-07-09 | 清华大学 | 一种用于浮点除法和平方根运算的预处理电路结构 |
CN107567613A (zh) * | 2015-04-21 | 2018-01-09 | 高通股份有限公司 | 高性能除法及根计算单元 |
CN108459840A (zh) * | 2018-02-14 | 2018-08-28 | 中国科学院电子学研究所 | 一种simd结构浮点融合点乘运算单元 |
-
2018
- 2018-08-29 CN CN201810999006.2A patent/CN109298848B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963895B1 (en) * | 2000-05-01 | 2005-11-08 | Raza Microelectronics, Inc. | Floating point pipeline method and circuit for fast inverse square root calculations |
CN101216753A (zh) * | 2008-01-04 | 2008-07-09 | 清华大学 | 一种用于浮点除法和平方根运算的预处理电路结构 |
CN107567613A (zh) * | 2015-04-21 | 2018-01-09 | 高通股份有限公司 | 高性能除法及根计算单元 |
CN108459840A (zh) * | 2018-02-14 | 2018-08-28 | 中国科学院电子学研究所 | 一种simd结构浮点融合点乘运算单元 |
Non-Patent Citations (1)
Title |
---|
梁政等: "嵌入式协处理器中除法和平方根计算的整合设计", 《计算机研究与发展》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181357A (zh) * | 2020-09-02 | 2021-01-05 | 大连理工大学 | 除法运算方法、装置、电子设备和介质 |
WO2022047873A1 (zh) * | 2020-09-02 | 2022-03-10 | 大连理工大学 | 除法运算方法、装置、电子设备和介质 |
CN117785117A (zh) * | 2023-12-26 | 2024-03-29 | 合芯科技(苏州)有限公司 | 基于srt4实现srt16的除法运算电路 |
CN117785116A (zh) * | 2023-12-26 | 2024-03-29 | 合芯科技(苏州)有限公司 | 基于srt4实现srt16的开方运算电路 |
Also Published As
Publication number | Publication date |
---|---|
CN109298848B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7395304B2 (en) | Method and apparatus for performing single-cycle addition or subtraction and comparison in redundant form arithmetic | |
US9753695B2 (en) | Datapath circuit for digital signal processors | |
CN107305484B (zh) | 一种非线性函数运算装置及方法 | |
KR100756137B1 (ko) | 제산 및 제곱근 연산 유닛 | |
JPH04227535A (ja) | 除算を行なう装置 | |
CN103984522B (zh) | Gpdsp中定点和浮点混合除法的实现方法 | |
GB2278940A (en) | Floating point arithmetic unit | |
WO2022170809A1 (zh) | 一种适用于多精度计算的可重构浮点乘加运算单元及方法 | |
CN106155627B (zh) | 基于t_cordic算法的低开销迭代三角函数装置 | |
JP2835153B2 (ja) | 高基数除算器 | |
JPH09269891A (ja) | 部分積加算方法および装置、浮動小数点乗算方法および装置、浮動小数点積和演算方法および装置 | |
CN103984521B (zh) | Gpdsp中simd结构浮点除法的实现方法及装置 | |
EP0416309B1 (en) | Method and apparatus for performing the square root function using a rectangular aspect ratio multiplier | |
US6754689B2 (en) | Method and apparatus for performing subtraction in redundant form arithmetic | |
CN109298848A (zh) | 双模式浮点除法平方根的电路 | |
GB2338323A (en) | Division and square root calculating circuit | |
CN109901813A (zh) | 一种浮点运算装置及方法 | |
GB2423385A (en) | Determining an initial estimate of a result value of a reciprocal operation | |
US6598065B1 (en) | Method for achieving correctly rounded quotients in algorithms based on fused multiply-accumulate without requiring the intermediate calculation of a correctly rounded reciprocal | |
US5159566A (en) | Method and apparatus for performing the square root function using a rectangular aspect ratio multiplier | |
Carr III | Error analysis in floating point arithmetic | |
CN115062768A (zh) | 一种逻辑资源受限平台的Softmax硬件实现方法及系统 | |
Villalba-Moreno | Digit recurrence floating-point division under HUB format | |
JPH086766A (ja) | 正弦余弦演算装置 | |
Hsiao et al. | Design of a low-cost floating-point programmable vertex processor for mobile graphics applications based on hybrid number system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |