CN111310909A - 一种浮点数转换电路 - Google Patents

一种浮点数转换电路 Download PDF

Info

Publication number
CN111310909A
CN111310909A CN202010111005.7A CN202010111005A CN111310909A CN 111310909 A CN111310909 A CN 111310909A CN 202010111005 A CN202010111005 A CN 202010111005A CN 111310909 A CN111310909 A CN 111310909A
Authority
CN
China
Prior art keywords
value
output result
exponent
multiplexer
point number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010111005.7A
Other languages
English (en)
Other versions
CN111310909B (zh
Inventor
王中风
徐铭阳
方超
林军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010111005.7A priority Critical patent/CN111310909B/zh
Publication of CN111310909A publication Critical patent/CN111310909A/zh
Application granted granted Critical
Publication of CN111310909B publication Critical patent/CN111310909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/483Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Neurology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Nonlinear Science (AREA)
  • Artificial Intelligence (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种浮点数转换电路,能够将基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,即第二浮点数。在很多神经网络的训练过程中,其运算数据近似服从正态分布,可通过变换使数据集中在0附近,而本发明中的posit数据格式的单精度浮点数在神经网络训练过程中就可以在0附近保证精度,并且,本发明中posit数据格式的单精度浮点数的预设总位宽是可以调控的,因此又可以很大程度的减少数据位宽,进而减少存储所需要的资源以及读写过程所消耗的资源,提高神经网络训练的效率。

Description

一种浮点数转换电路
技术领域
本发明涉及计算机技术领域,尤其涉及一种浮点数转换电路。
背景技术
神经网络一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。近年来,随着深度学习技术的快速发展,神经网络的训练变得普遍并且重要,神经网络训练的速度和资源消耗也成为了对于深度学习评价的重要指标。
在以往的神经网络训练过程中,大部分的浮点数使用的都是基于IEEE 754规范的规格化单精度浮点数格式,这种数据格式通常包括符号段、指数段和尾数段,并且通常使用32位的位宽来表示,即符号段、指数段和尾数段的总位宽为32位。这种单精度浮点数可以表示一个很大范围的数值,同时也能满足神经网络训练的要求。
但是,虽然上述这种基于IEEE 754规范的单精度浮点数在精度上能够满足神经网络训练的要求,但是由于其位宽较长,在处理这种数据时需要耗费一定的时间并且消耗一定的资源,进而影响神经网络的训练速度,使神经网络训练的效率降低。
发明内容
本发明提供了一种浮点数转换电路,以解决目前使用基于IEEE 754规范的单精度浮点数造成的神经网络训练的效率低的问题。
本发明实施例提供了一种浮点数转换电路,包括:
数据获取单元,用于分别获取第一浮点数中符号段的值、指数段的值、尾数段的值、预设指数位宽和预设总位宽,所述第一浮点数为规格化数据格式的单精度浮点数;
数据转换单元,用于将所述指数段的值转换为2的补码形式,获得指数段的二进制码,以及用于将所述尾数段的值转换为二进制码,获得尾数段的二进制码,并且所述指数段的二进制码的位宽通过所述预设总位宽和所述预设指数段位宽确定;
绝对值运算器,用于对所述指数段的二进制码取绝对值,获得指数绝对值;
按位或门,用于将所述指数绝对值中符合第一预设位数的值作为输入,得到输出结果;
非门,用于对所述指数段的二进制码的最高位值取非,得到输出结果;
与门,用于将所述按位或门的输出结果和所述指数段的二进制码的最高位值作为输入,得到输出结果;
第一多路选择器,用于将所述与门的输出结果作为第一选择信号,利用所述第一选择信号得到输出结果,所述第一多路选择器的输出结果包括所述指数段的二进制码中符合第一预设位数的值或者所述指数绝对值中符合第一预设位数的值;
或门,用于将所述非门的输出结果和所述与门的输出结果作为输入,得到输出结果;
拼接单元,用于按顺序依次将所述指数段的二进制码的最高位值、所述第一多路选择器的输出结果和所述尾数段的二进制码拼接,得到输出结果;
右移位器,用于将所述指数绝对值中符合第二预设位数的值作为移位值,按照所述移位值将所述拼接单元输出结果中的每一位二进制码依次向右移动,得到输出结果;
额外移位器,用于将所述右移位器的输出结果中的每一位二进制码继续依次向右移动一位,得到输出结果;
第二多路选择器,用于将所述或门的输出结果作为第二选择信号,利用所述第二选择信号得到输出结果,所述第二多路选择器的输出结果包括所述右移位器的输出结果或者所述额外移位器的输出结果;
输出单元,用于利用所述符号段的值,将所述符号段的值以及所述第二多路选择器的输出结果共同输出,得到第二浮点数。
在本发明的一种可实现方式中,所述数据转换单元还用于利用如下公式,通过所述预设总位宽和所述预设指数段位宽确定所述指数段的二进制码的位宽:
Nes=log2N+es+1,
其中,Nes表示所述指数段的二进制码的位宽,N表示所述预设总位宽,es表示所述预设指数段位宽,以及,当log2N为非整数时,log2N的值向上取整。
在本发明的一种可实现方式中,所述第一预设位数利用公式[es-1:0]获得,其中,[es-1:0]表示所述指数绝对值中第es-1位到第0位的值。
在本发明的一种可实现方式中,所述第二预设位数利用公式[log2N+es-1:es]获得,其中,[log2N+es-1:es]表示所述指数绝对值中第log2N+es-1位到第es位的值。
在本发明的一种可实现方式中,所述第一多路选择器还用于:
当所述第一选择信号为1时,选择所述指数段的二进制码中符合第一预设位数的值作为所述第一多路选择器的输出结果;
当所述第一选择信号为0时,选择所述指数绝对值中符合第一预设位数的值作为所述第一多路选择器的输出结果。
在本发明的一种可实现方式中,所述第二多路选择器还用于:
当所述第二选择信号为1时,选择所述额外移位器的输出结果作为所述第二多路选择器的输出结果;
当所述第二选择信号为0时,选择所述右移位器的输出结果作为所述第二多路选择器的输出结果。
在本发明的一种可实现方式中,所述右移位器还用于:
获取所述移位值的二进制码对应的真值a,所述a为大于或者等于0的正整数;
舍去所述拼接单元输出结果中a个低位的值,获得舍去值;
在所述舍去值的左侧补足a个0,获得所述右移位器的输出结果。
在本发明的一种可实现方式中,所述输出单元还用于:
当所述符号段的值表示正数时,按顺序将所述符号段的值与所述第二多路选择器的输出结果拼接输出,获得第二浮点数;
当所述符号段的值表示负数时,将所述第二多路选择器的输出结果按位取反;
按顺序将所述符号段的值与所述取反后的第二多路选择器的输出结果拼接;
将所述拼接结果整体加1,获得第二浮点数。
由以上技术方案可知,本发明公开了一种浮点数转换电路,能够将基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,即第二浮点数。在很多神经网络的训练过程中,其运算数据近似服从正态分布,可通过变换使数据集中在0附近,而本发明中的posit数据格式的单精度浮点数在神经网络训练过程中就可以在0附近保证精度,并且,本发明中posit数据格式的单精度浮点数的预设总位宽是可以调控的,因此又可以很大程度的减少数据位宽,进而减少存储所需要的资源以及读写过程所消耗的资源,提高神经网络训练的效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施案例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于IEEE 754规范的单精度浮点数具体的数据表示形式的示意图;
图2为本发明实施例提供的一种浮点数转换电路的电路图;
图3为本发明实施例提供的一种浮点数转换示意图。
具体实施方式
本发明技术方案中的Posit数据格式的参数包括N和es,其中N为整个数据表示的总位宽,es为指数段的位宽,两个参数都是在表示数据前需要确定的。N可以取任意正整数值,例如5、8等。本实施例中以N表示预设总位宽,以es表示预设指数位宽,预设指数位宽是根据对Posit数据格式的浮点数的实际需求选择的,例如2、3、4等等。图1为本发明提供的基于IEEE 754规范的单精度浮点数具体的数据表示形式的示意图,基于IEEE 754规范的单精度浮点数包括符号段S,指数段E1和尾数段F三个部分,其中对于一个基于IEEE 754规范的规格化单精度浮点数来说,该浮点数的规格化单精度浮点数表示形式为:
A=(-1)S×2E1-127×1.F,
其中,E1为规格化单精度浮点数表示式中的指数段的值,A为浮点数的真值,其中,S表示符号段的值,只有一位,当A为正数时,符号段S的值为0,当A为负数时,符号段S的值为1;F表示尾数段的值,是将整数部分表示为1后,小数点后的所有尾数。
而一个浮点数常用的浮点数科学表示形式为:
A=(-1)s×2E×1.F,
其中,E为浮点数科学表示式中的指数段的值,A为浮点数的真值,这里的E=E1-127。
以0.125为例,表示成二进制是0.001,在IEEE 754规范下表示为规格化单精度浮点数时,其符号段的值S为0,是一位位宽;指数段的值E1为124,将原码表示成二进制8位位宽;最后尾数段的值F为0,在存储表示的时候是23个0,为23位位宽;这样最后得到的规格化单精度浮点数总位宽为32位。而在浮点数科学表示法中,得到的符号段的值和尾数段的值与上述的S和F相同,但是指数段的值E需要利用上述E1的值减去127获得,即E=124-127=-3。
本发明公开的浮点数转换电路,将基于IEEE 754规范的规格化单精度浮点数转换为上述Posit数据格式的单精度浮点数,有了这种转换方法,就可以使得数据存储时,利用posit新型浮点数数据格式的低位宽,减少存储所需要的资源以及读写过程所消耗的资源,同时也可以在运算过程中使用基于IEEE 754规范的规格化单精度浮点数格式,最大程度的保证了运算时的精度。具体用一下实施例对本发明公开的浮点数转换方法及进行清楚、完整地描述。
图2为本发明实施例提供的一种浮点数转换电路的电路图。如图2所示,本发明实施例提供的浮点数转换电路,包括:
数据获取单元100,用于分别获取第一浮点数中符号段的值、指数段的值、尾数段的值、预设指数位宽和预设总位宽,所述第一浮点数为规格化数据格式的单精度浮点数,即上述基于IEEE 754规范的规格化单精度浮点数。在本发明实施例中,获取的符号段的值、指数段的值和尾数段的值实际上均为上述浮点数科学表示式中的符号段的值S、指数段的值E和尾数段的值F。预设指数位宽以上述es表示,预设总位宽以上述N表示。
数据转换单元110,用于将所述指数段的值转换为2的补码形式,获得指数段的二进制码,以及用于将所述尾数段的值转换为二进制码,获得尾数段的二进制码,并且所述指数段的二进制码的位宽通过所述预设总位宽和所述预设指数段位宽确定。
本发明的浮点数转换电路中不直接使用指数段的值,而是需要将该指数段的值转化为2的补码形式,并且使用预设指数位宽和预设总位宽限制该2的补码的位数,例如指数段的值E为2时,对该值补码位数的要求是3位,那么本发明的电路中使用的E实际上010,再例如指数段的值E为-1时,对该值补码位数的要求是4位,那么本发明的电路中使用的E实际上是1111。
绝对值运算器120,用于对所述指数段的二进制码取绝对值,获得指数绝对值。其中,指数绝对值也是二进制码的形式。
按位或门130,用于将所述指数绝对值中符合第一预设位数的值作为输入,得到输出结果。本发明实施例中需要选择指数绝对值中不同位数的二进制码分别输入到按位或门130和右移位器190等,满足不同的输入需求。
非门140,用于对所述指数段的二进制码的最高位值取非,得到输出结果。二进制码的最高位为符号位,表示的该二进制码对应的真值是正还是负,因此,如果指数段的二进制码的最高位值为0,则取非后的输出结果为1,如果指数段的二进制码的最高位值1,则取非后的输出结果为0。
与门150,用于将所述按位或门130的输出结果和所述指数段的二进制码的最高位值作为输入,得到输出结果,如果上述按位或门130的输出结果为1,指数段的二进制码的最高位值为1,则11和1经过与门150的与运算后,输出的结果为1。
第一多路选择器160,用于将所述与门150的输出结果作为第一选择信号,利用所述第一选择信号得到输出结果,所述第一多路选择器160的输出结果包括所述指数段的二进制码中符合第一预设位数的值或者所述指数绝对值中符合第一预设位数的值。可以理解的是,本发明实施例中,选择与门150的输出结果作为控制信号,控制第一多路选择器160选择不同的值作为输出。
或门170,用于将所述非门140的输出结果和所述与门150的输出结果作为输入,得到输出结果,如果上述非门140的输出结果为0,上述与门150的输出结果1,那么经过或门170的或运算之后,输出的结果为1。
拼接单元180,用于按顺序依次将所述指数段的二进制码的最高位值、所述第一多路选择器160的输出结果和所述尾数段的二进制码拼接,得到输出结果,如果指数段二进制码的最高位值为1,第一多路选择器160的输出结果为001,尾数段的二进制码为11,那么拼接后的输出结果为100111。
右移位器190,用于将所述指数绝对值中符合第二预设位数的值作为移位值,按照所述移位值将所述拼接单元180输出结果中的每一位二进制码依次向右移动,得到输出结果。
额外移位器200,用于将所述右移位器190的输出结果中的每一位二进制码继续依次向右移动一位,得到输出结果。
第二多路选择器210,用于将所述或门170的输出结果作为第二选择信号,利用所述第二选择信号得到输出结果,所述第二多路选择器210的输出结果包括所述右移位器190的输出结果或者所述额外移位器200的输出结果。可以理解的是,本发明实施例中,选择或门170的输出结果作为控制信号,控制第二多路选择器210选择不同的值作为输出。
输出单元220,用于利用所述符号段的值,将所述符号段的值以及所述第二多路选择器210的输出结果共同输出,得到第二浮点数。该第二浮点数满足预设总位宽N的要求,并且第一浮点数的符号段的值也可以用于表示第二浮点数真值的正负。
值得说明的是,本发明实施例中,第一预设位数和第二预设位数是可以根据预设总位宽和预设指数位宽分别获得的。
可见,本发明实施例中提供的浮点数转换电路,能够将基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,即第二浮点数。在很多神经网络的训练过程中,其运算数据近似服从正态分布,可通过变换使数据集中在0附近,而本发明中的posit数据格式的单精度浮点数在神经网络训练过程中就可以在0附近保证精度,并且,本发明中posit数据格式的单精度浮点数的预设总位宽是可以调控的,因此又可以很大程度的减少数据位宽,进而减少存储所需要的资源以及读写过程所消耗的资源,提高神经网络训练的效率。
在本发明实施例的一种可实现方式中,所述数据转换单元110可以利用如下公式,通过所述预设总位宽和所述预设指数段位宽确定所述指数段的二进制码的位宽:
Nes=log2N+es+1,
其中,Nes表示所述指数段的二进制码的位宽,N表示所述预设总位宽,es表示所述预设指数段位宽,以及,当log2N为非整数时,log2N的值向上取整。
例如,当N为8时,es为3时,log2N为3,Nes=3+3+1=7;但如果N为7,es为3时,log2N为2.80735……,为非整数,那么此时可以将log2N向上取整,使log2N为3,Nes仍为7。
在本发明实施例的一种可实现方式中,所述第一预设位数利用公式[es-1:0]获得,其中,[es-1:0]表示所述指数绝对值中第es-1位到第0位的值。
以es=3为例,如果此时指数绝对值为001011,那么[es-1:0]表示的就是指数绝对值中第2位到第0位的值,即011。
在本发明实施例的一种可实现方式中,所述第二预设位数利用公式[log2N+es-1:es]获得,其中,[log2N+es-1:es]表示所述指数绝对值中第log2N+es-1位到第es位的值。
以N=8,es=3为例,如果此时指数绝对值为0001011,那么[log2N+es-1:es]表示的就是指数绝对值中第5位到第3位的值,即001。
在本发明实施例的一种可实现方式中,所述第一多路选择器160还用于:当所述第一选择信号为1时,选择所述指数段的二进制码中符合第一预设位数的值作为所述第一多路选择器160的输出结果;当所述第一选择信号为0时,选择所述指数绝对值中符合第一预设位数的值作为所述第一多路选择器160的输出结果。
在本发明实施例的一种可实现方式中,所述第二多路选择器210还用于:当所述第二选择信号为1时,选择所述额外移位器200的输出结果作为所述第二多路选择器210的输出结果;当所述第二选择信号为0时,选择所述右移位器190的输出结果作为所述第二多路选择器210的输出结果。
在本发明实施例的一种可实现方式中,所述右移位器190还用于:获取所述移位值的二进制码对应的真值a,所述a为大于或者等于0的正整数;舍去所述拼接单元180输出结果中a个低位的值,获得舍去值;在所述舍去值的左侧补足a个0,获得所述右移位器190的输出结果。例如,移位值的二进制码为0011,其对应的真值为3,那么将舍去拼接单元180输出结果中3个低位的值,并且输出结果的左侧补上3个0,即可获得右移位器190的输出结果。
在本发明实施例的一种可实现方式中,所述输出单元220还用于:当所述符号段的值表示正数时,按顺序将所述符号段的值与所述第二多路选择器210的输出结果拼接输出,获得第二浮点数;当所述符号段的值表示负数时,将所述第二多路选择器210的输出结果按位取反;按顺序将所述符号段的值与所述取反后的第二多路选择器210的输出结果拼接;将所述拼接结果整体加1,获得第二浮点数。
图3为本发明实施例提供的一种浮点数转换示意图。在图3中,利用本发明浮点数转换电路将基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,以前述内容为例,0.125表示成二进制是0.001,基于IEEE 754规范的第一浮点数的符号段的值S为0,指数段的值E1为124,将原码表示成二进制的8位数,尾数段的值F为0,具体为23个0表示的值。而在浮点数科学表示法中,得到的符号段的值与上述的S相同,得到的尾数段的值即为上述F的真值0,但是指数段的值E需要利用上述E1的值减去127获得,即E=124-127=-3。
在图3中,通过数据获取单元100获取到该第一浮点数中符号段的值S为0,指数段的值E为-3,指数段的二进制码为111101,尾数段的值F为0;再通过数据转换单元110,根据预设总位宽5和预设指数位宽2,将指数段的值-3转换为2的补码形式111101,再通过绝对值运算器120或者指数绝对值为000011;再计算出第一预设位数为[1:0],第二预设位数为[4:2],即将指数绝对值中的11输入给按位或门130和第一多路选择器160,将指数绝对值中的000输入给右移位器190,将指数段的二进制码中的01输入给第一多路选择器160,将尾数段的值0发送给拼接单元180,将指数段的二进制码中的最高位值1分别输入给非门、与门150和拼接单元180;按位或门130输出1给与门150,与门150通过将1和1进行与运算,输出1分别发送给第一多路选择器160和或门170;非门140将指数段的二进制码中的最高位值1取非,输出0发送给或门170;或门170将输入的0和1作或运算,输出1发送给第二多路选择器210;第一多路选择器160根据第一选择信号1选择指数段的二进制码中的01作为输出结果发送给拼接单元180,拼接单元180依次将1、01和0进行拼接,获得结果1010发送给右移位器190;右移位器190根据指数绝对值中的000的真值0,确定1010向右移动0位,仍为原结果1010发送给第二多路选择器210和额外移位器200;额外移位器200将1010中的每个二进制码依次向右移动一位,输出0101发送给第二多路选择器210;第二多路选择器210根据或门170发送的1选择额外移位器200的发送0101作为输出,并将0101发送给输出单元;由于第一浮点数符号段的值0,该值表示正数,因此输出单元220将符号段的值0与0101拼接,获得第二浮点数00101。最终获得的第二浮点数的总位数为5位,符合预设总位宽N=5的要求,可见,本发明实施例提供的浮点数转换电路,能够将真值为0.125的基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,并且转换后的posit数据格式的单精度浮点数能够保证低位宽的性质,进而减少存储所需要的资源以及减少读写过程所消耗的资源。
由上述内容可知,本发明公开了一种浮点数转换电路,能够将基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,即第二浮点数。在很多神经网络的训练过程中,其运算数据近似服从正态分布,可通过变换使数据集中在0附近,而本发明中的posit数据格式的单精度浮点数在神经网络训练过程中就可以在0附近保证精度,并且,本发明中posit数据格式的单精度浮点数的预设总位宽是可以调控的,因此又可以很大程度的减少数据位宽,进而减少存储所需要的资源以及读写过程所消耗的资源,提高神经网络训练的效率。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (8)

1.一种浮点数转换电路,其特征在于,包括:
数据获取单元(100),用于分别获取第一浮点数中符号段的值、指数段的值、尾数段的值、预设指数位宽和预设总位宽,所述第一浮点数为规格化数据格式的单精度浮点数;
数据转换单元(110),用于将所述指数段的值转换为2的补码形式,获得指数段的二进制码,以及用于将所述尾数段的值转换为二进制码,获得尾数段的二进制码,并且所述指数段的二进制码的位宽通过所述预设总位宽和所述预设指数段位宽确定;
绝对值运算器(120),用于对所述指数段的二进制码取绝对值,获得指数绝对值;
按位或门(130),用于将指数绝对值中符合第一预设位数的值作为输入,得到输出结果;
非门(140),用于对所述指数段的二进制码的最高位值取非,得到输出结果;
与门(150),用于将所述按位或门(130)的输出结果和所述指数段的二进制码的最高位值作为输入,得到输出结果;
第一多路选择器(160),用于将所述与门(150)的输出结果作为第一选择信号,利用所述第一选择信号得到输出结果,所述第一多路选择器(160)的输出结果包括所述指数段的二进制码中符合第一预设位数的值或者指数绝对值中符合第一预设位数的值;
或门(170),用于将所述非门(140)的输出结果和所述与门(150)的输出结果作为输入,得到输出结果;
拼接单元(180),用于按顺序依次将所述指数段的二进制码的最高位值、所述第一多路选择器(160)的输出结果和所述尾数段的二进制码拼接,得到输出结果;
右移位器(190),用于将指数绝对值中符合第二预设位数的值作为移位值,按照所述移位值将所述拼接单元(180)输出结果中的每一位二进制码依次向右移动,得到输出结果;
额外移位器(200),用于将所述右移位器的输出结果中的每一位二进制码继续依次向右移动一位,得到输出结果;
第二多路选择器(210),用于将所述或门(170)的输出结果作为第二选择信号,利用所述第二选择信号得到输出结果,所述第二多路选择器(210)的输出结果包括所述右移位器的输出结果或者所述额外移位器(200)的输出结果;
输出单元(220),用于利用所述符号段的值,将所述符号段的值以及所述第二多路选择器(210)的输出结果共同输出,得到第二浮点数。
2.根据权利要求1所述的电路,其特征在于,所述数据转换单元(110)还用于利用如下公式,通过所述预设总位宽和所述预设指数段位宽确定所述指数段的二进制码的位宽:
Nes=log2N+es+1,
其中,Nes表示所述指数段的二进制码的位宽,N表示所述预设总位宽,es表示所述预设指数段位宽,以及,当log2N为非整数时,log2N的值向上取整。
3.根据权利要求2所述的电路,其特征在于,所述第一预设位数利用公式[es-1:0]获得,其中,[es-1:0]表示所述指数绝对值中第es-1位到第0位的值。
4.根据权利要求2所述的电路,其特征在于,所述第二预设位数利用公式[log2N+es-1:es]获得,其中,[log2N+es-1:es]表示所述指数绝对值中第log2N+es-1位到第es位的值。
5.根据权利要求1所述的电路,其特征在于,所述第一多路选择器(160)还用于:
当所述第一选择信号为1时,选择所述指数段的二进制码中符合第一预设位数的值作为所述第一多路选择器(160)的输出结果;
当所述第一选择信号为0时,选择所述指数绝对值中符合第一预设位数的值作为所述第一多路选择器(160)的输出结果。
6.根据权利要求1所述的电路,其特征在于,所述第二多路选择器(210)还用于:
当所述第二选择信号为1时,选择所述额外移位器(200)的输出结果作为所述第二多路选择器(210)的输出结果;
当所述第二选择信号为0时,选择所述右移位器的输出结果作为所述第二多路选择器(210)的输出结果。
7.根据权利要求1所述的电路,其特征在于,所述右移位器(190)还用于:
获取所述移位值的二进制码对应的真值a,所述a为大于或者等于0的正整数;
舍去所述拼接单元(180)输出结果中a个低位的值,获得舍去值;
在所述舍去值的左侧补足a个0,获得所述右移位器的输出结果。
8.根据权利要求1所述的电路,其特征在于,所述输出单元(220)还用于:
当所述符号段的值表示正数时,按顺序将所述符号段的值与所述第二多路选择器(210)的输出结果拼接输出,获得第二浮点数;
当所述符号段的值表示负数时,将所述第二多路选择器(210)的输出结果按位取反;
按顺序将所述符号段的值与所述取反后的第二多路选择器(210)的输出结果拼接;
将所述拼接结果整体加1,获得第二浮点数。
CN202010111005.7A 2020-02-24 2020-02-24 一种浮点数转换电路 Active CN111310909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111005.7A CN111310909B (zh) 2020-02-24 2020-02-24 一种浮点数转换电路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111005.7A CN111310909B (zh) 2020-02-24 2020-02-24 一种浮点数转换电路

Publications (2)

Publication Number Publication Date
CN111310909A true CN111310909A (zh) 2020-06-19
CN111310909B CN111310909B (zh) 2024-02-13

Family

ID=71162166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111005.7A Active CN111310909B (zh) 2020-02-24 2020-02-24 一种浮点数转换电路

Country Status (1)

Country Link
CN (1) CN111310909B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115668224A (zh) * 2020-06-29 2023-01-31 美光科技公司 使用posit的神经形态运算

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636114A (zh) * 2015-02-12 2015-05-20 中国科学院自动化研究所 一种浮点数乘法的舍入方法及装置
CN106990937A (zh) * 2016-01-20 2017-07-28 南京艾溪信息科技有限公司 一种浮点数处理装置
CN107451658A (zh) * 2017-07-24 2017-12-08 杭州菲数科技有限公司 浮点运算定点化方法及系统
CN108055041A (zh) * 2017-12-22 2018-05-18 苏州中晟宏芯信息科技有限公司 一种数据类型转换电路单元及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636114A (zh) * 2015-02-12 2015-05-20 中国科学院自动化研究所 一种浮点数乘法的舍入方法及装置
CN106990937A (zh) * 2016-01-20 2017-07-28 南京艾溪信息科技有限公司 一种浮点数处理装置
CN107451658A (zh) * 2017-07-24 2017-12-08 杭州菲数科技有限公司 浮点运算定点化方法及系统
CN108055041A (zh) * 2017-12-22 2018-05-18 苏州中晟宏芯信息科技有限公司 一种数据类型转换电路单元及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUXUAN WANG; YUANYONG LUO; ZHONGFENG WANG; QINGHONG SHEN; HONGBING PAN: "GH CORDIC-Based Architecture for Computing N th Root of Single-Precision Floating-Point Number", pages 864 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115668224A (zh) * 2020-06-29 2023-01-31 美光科技公司 使用posit的神经形态运算

Also Published As

Publication number Publication date
CN111310909B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN107451658B (zh) 浮点运算定点化方法及系统
US11698772B2 (en) Prepare for shorter precision (round for reround) mode in a decimal floating-point instruction
CN108701250B (zh) 数据定点化方法和装置
CN107273090B (zh) 面向神经网络处理器的近似浮点乘法器及浮点数乘法
TWM573476U (zh) 在定點算術運算系統中實施神經網路
US10592208B2 (en) Very low precision floating point representation for deep learning acceleration
CN111290732B (zh) 基于posit数据格式的浮点数乘法运算电路
CN112506935A (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
US20210109709A1 (en) Hybrid floating point representation for deep learning acceleration
JP2021517301A (ja) 確率的丸めロジック
CN111310909B (zh) 一种浮点数转换电路
CN111340207A (zh) 浮点数转换方法及装置
CN111598227B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
US20230305803A1 (en) Method for Processing Floating Point Number and Related Device
CN111313906B (zh) 一种浮点数的转换电路
CN116795324A (zh) 混合精度浮点乘法装置和混合精度浮点数处理方法
US20220113943A1 (en) Method for multiply-add operations for neural network
CN111313905B (zh) 一种浮点数转换方法及装置
CN113781217A (zh) 基于fpga的浮点数处理方法、装置、电子设备及存储介质
CN111367497B (zh) 基于posit数据格式的浮点数乘法运算方法及装置
CN115237992A (zh) 数据格式转换的方法、装置及矩阵处理的方法、装置
CN115965048A (zh) 数据处理装置、数据处理方法和电子设备
CN115906947A (zh) 模型量化方法及计算设备
CN115237991A (zh) 数据格式转换的方法、装置及矩阵处理的方法、装置
CN115951858A (zh) 数据处理器、数据处理方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant