CN115965047A - 数据处理器、数据处理方法和电子设备 - Google Patents
数据处理器、数据处理方法和电子设备 Download PDFInfo
- Publication number
- CN115965047A CN115965047A CN202310023210.1A CN202310023210A CN115965047A CN 115965047 A CN115965047 A CN 115965047A CN 202310023210 A CN202310023210 A CN 202310023210A CN 115965047 A CN115965047 A CN 115965047A
- Authority
- CN
- China
- Prior art keywords
- data
- floating point
- value
- processed
- point number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000007667 floating Methods 0.000 claims abstract description 347
- 238000012545 processing Methods 0.000 claims abstract description 87
- 238000013139 quantization Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 description 12
- 238000003062 neural network model Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 210000004556 brain Anatomy 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
Abstract
本公开提供了一种数据处理器,涉及人工智能技术领域,尤其涉及深度学习、神经网络和云计算等技术领域。具体实现方案为:获取单元,配置为获取待处理数据,其中,待处理数据包括多个浮点数;划分单元,配置为将待处理数据划分为多个待处理子数据,其中,待处理子数据包括至少一个浮点数;量化单元,配置为根据待处理子数据中至少一个浮点数中的极值,对至少一个浮点数分别进行量化,得到量化数据,其中,量化数据包括浮点数的第一值和第二值;运算单元,配置为利用量化数据中浮点数的第一值和第二值进行运算处理,得到运算结果;以及输出单元,配置为输出运算结果。本公开还提供了一种数据处理方法和电子设备。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、神经网络和云计算等技术领域,可应用于图像处理、自然语言处理、语音识别、自动驾驶、产品推荐等场景下。更具体地,本公开提供了一种数据处理器、数据处理方法和电子设备。
背景技术
随着人工智能技术的发展,深度学习模型广泛地应用于各种场景中。深度学习模型包括多种神经网络(Neural Network)模型。可以利用处理器实现神经网络模型涉及的大量操作。
发明内容
本公开提供了一种数据处理器、数据处理方法和电子设备。
根据本公开的一方面,提供了一种数据处理器,该处理器包括:获取单元,配置为获取待处理数据,其中,待处理数据包括多个浮点数;划分单元,配置为将待处理数据划分为多个待处理子数据,其中,待处理子数据包括至少一个浮点数;量化单元,配置为根据待处理子数据中至少一个浮点数中的极值,对至少一个浮点数分别进行量化,得到量化数据,其中,量化数据包括浮点数的第一值和第二值;运算单元,配置为利用量化数据中浮点数的第一值和第二值进行运算处理,得到运算结果;以及输出单元,配置为输出运算结果。
根据本公开的另一方面,提供了一种数据处理方法,应用于数据处理器,该方法包括:获取待处理数据,其中,待处理数据包括多个浮点数;根据待处理子数据中至少一个浮点数中的极值,对至少一个浮点数分别进行量化,得到量化数据,量化数据包括浮点数的第一值和第二值;利用量化数据中浮点数的第一值和第二值进行运算处理,得到运算结果;以及输出运算结果。
根据本公开的另一方面,提供了一种电子设备,包括至少一个本公开提供的数据处理器。
据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的一个实施例的浮点数的编码的示意图;
图2是根据本公开的一个实施例的数据处理器的结构框图;
图3是根据本公开的一个实施例的划分单元的原理图;
图4是根据本公开的一个实施例的数据处理器的原理图;
图5是根据本公开的一个实施例的数据处理方法的流程图;以及
图6是根据本公开的一个实施例的可以应用数据处理器的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
深度学习技术可以将对象的低层特征组合形成更加抽象的高层特征,以表示对象的类别或属性。基于深度学习技术,可以发现与对象相关的数据的分布式特征。神经网络模型例如可以包括深度神经网络模型(Deep neural network,DNN)、循环神经网络模型(Recurrent Neural Network,RNN)和卷积神经网络模型(Convolutional NeuralNetwork,CNN)等。
神经网络模型涉及大量计算密集型的操作。这些操作例如可以包括:矩阵乘法操作、卷积操作、池化(Pooling)操作等等。在利用中央处理器(Central Processing Unit,CPU)实现这些操作的情况下,需要较高的时间成本。为了提高应用神经网络模型的效率,可以利用神经网络处理器实现神经网络模型的操作。神经网络处理器可以是在图形处理器(Graph Processing Unit,GPU)、场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)等等处理器的基础上实现的。神经网络处理器的计算效率更高。相较于通用型的中央处理器,神经网络处理器的计算性能可以提升至少一个数量级。
神经网络处理器处理的数据可以是浮点数。浮点数是与定点数相对的概念。计算机中的定点数约定小数点的位置不变,即,人为设定了一个数的小数点位置。例如,对于定点纯整数,可以约定小数点在数值位的最后。又例如对于定点纯小数,约定了数值位的最高位在小数点的后面。由于计算机字长的限制,当需要表示的数据有很大的数值范围时,不能直接用定点小数或定点整数表示。
浮点数可以由尾数M和阶码E构成。基数为2的数F的浮点数表示为:
F=M*2E (公式一)
浮点数的编码规则:尾数M必须为小数,用n+1位有符号定点小数表示;位数n+1决定了浮点数的精度。尾数越长,所能表示的精度越高。n为大于0的整数。阶码E必须为整数,用k+1位有符号定点整数表示;位数k+1决定了浮点数表示的数值范围,即,数据大小或小数点在数据中的真实位置;阶符决定阶码的正负。阶码越长,能表示的范围越大。k为大于0的整数
浮点数编码的位数m为:
m=(n+1)+(k+1) (公式二)
神经网络模型对数据的处理可以包括两个阶段:训练阶段和推理阶段。在训练阶段,利用已知的数据集调整神经网络模型的参数,得到一个经训练的神经网络模型。在训练阶段,数据集中的数据需要有较高的精度。类型为浮点数的数据可以应用在神经网络的训练阶段。
浮点数可以包括单精度浮点数(Float Point 32,FP32)、张量单精度浮点数(TensorFloat 32,TF32)、半精度浮点数(Float Point 32,FP16)和脑浮点数(Brain FloatPoint 16,BF16)。
单精度浮点数、张量单精度浮点数的精度较高。这两类浮点数的位宽为32位,导致其访存的数据量会比半精度浮点数高一倍左右,也需要较多的计算资源。在处理类型为单精度浮点数、张量单精度浮点数的数据时,神经网络处理器的性能较差。例如,对于单精度浮点数,一种图形处理器的性能可以为60TOPS(Tera Operations Per Second,每秒钟可进行一万亿次操作)。对于张量单精度浮点数,该图形处理器的性能可以为500TOPS。对于半精度浮点数或脑浮点数,该图形处理器的性能可以为1000TOPS。可见,在训练阶段,若使用半精度浮点数或脑浮点数,可以获得更高的性能。
定点数(例如4位的定点数或8位的定点数)的位宽较少、精度较差,可以应用于神经网络模型的推理阶段。
图1是根据本公开的一个实施例的浮点数的编码的示意图。
浮点数在计算机可以通过编码方式进行表示。浮点数的编码包括符号位(sign)101、指数位(exponent)102和尾数(fraction)103。
符号位用于表示浮点数的符号。例如,0可以表示浮点数为正数,1可以表示浮点数为负数。
指数位可以表示浮点数的取值范围。例如,指数位越多,可以表示的范围越广。
根据尾数和指数位,可以确定浮点数的精度,尾数越多,浮点数的精度越高。
在一些实施例中,以浮点数是半精度浮点数为示例,半精度浮点数的符号位为1位、指数位可以为5位、尾数为10位。
若指数位全为0且尾数为0,则表示该半精度浮点数为0。
若指数位全为0且尾数不为0,则半精度浮点数FP16可以为:
若指数位全为1且尾数为0,则表示正负无穷±inf。
若指数位全为1且尾数不为0,则表示为非数(Not A Number,NAN)。
其他情况下,该半精度浮点数FP16可以为:
单精度浮点数的符号位为1位、指数位可以为8位、尾数为23位。
张量单精度浮点数的符号位为1位、指数位可以为8位、尾数为10位。在一些实施例中,一些神经网络处理器可以处理类型为单精度浮点数或张量单精度浮点数的数据。单精度浮点数或张量单精度浮点数的指数位为8位,能够表示的数的范围较广。此外,二者的尾数位数也较多,精度较高。单精度浮点数或张量单精度浮点数的位宽都是32位,而半精度浮点数的位宽是16位。存储单精度浮点数或张量单精度浮点数所需的内存资源比半精度浮点数多一倍左右,处理单精度浮点数或张量单精度浮点数所需的硬件资源也比半精度浮点数多。
单精度浮点数的指数位为5位,可以表示的数的范围较小。在训练阶段,若使用单精度浮点数,可能导致模型难以收敛。
脑精度浮点数的符号位为1位、指数位可以为8位、尾数为7位。在一些实施例中,张量处理器(Tensor Processing Unit,TPU)可以处理类型的脑精度浮点数的数据。脑精度浮点数的指数位为8位,可以表示的数的范围较广。脑精度浮点数的尾数为7位,导致脑精度浮点数的精度比单精度浮点数差。在训练阶段,使用脑精度浮点数可能导致模型难以收敛。
在一些实施例中,可以对待处理数据中的多个浮点数进行全局量化。例如,可以从多个浮点数据中确定最大值,根据该最大值对多个浮点数分别进行量化。然而,在待处理数据中浮点数的数量较多且分布不均匀的情况下,全局量化的精度较差。
图2是根据本公开的一个实施例的数据处理器的结构框图。
如图2所示,该处理器200可以包括获取单元210、划分单元220、量化单元230、运算单元240和输出单元250。
获取单元210,配置为获取待处理数据。
在本公开实施例中,待处理数据可以包括多个浮点数。
例如,待处理数据可以包括第一待处理数据。第一待处理数据可以为一个矩阵。该矩阵包括多个浮点数。又例如,第一待处理数据可以为16×1的矩阵,该矩阵可以包括16个浮点数。
在本公开实施例中,浮点数的符号位可以为1位,浮点数的指数位可以大于2位,浮点数可以为16位。
例如,浮点数的符号位可以为1位,浮点数的指数位可以为3位,浮点数的尾数可以为12位。
划分单元220,配置为将待处理数据划分为多个待处理子数据。
在本公开实施例中,待处理子数据包括至少一个浮点数。例如,可以将第一待处理数据划分为两个第一待处理子数据。每个第一待处理子数据可以包括8个浮点数。
量化单元230,配置为根据待处理子数据中至少一个浮点数中的极值,对浮点数进行量化,得到量化数据。
在本公开实施例中,量化数据的数量可以与待处理子数据的数量一致。
例如,待处理子数据为2个,量化数据也可以为2个。
在本公开实施例中,量化数据包括浮点数的第一值和第二值。
例如,量化数据可以包括至少一个浮点数各自的第一值和第二值。
在本公开实施例中,极值可以包括最大值。
例如,第一待处理子数据Data_A1可以包括多个浮点数。根据这些浮点数中的最大值Max_A1,进行缩放,得到的数值作为每个浮点数的第一值。可以将浮点数的绝对值作为被除数,第一值作为除数,进行除法运算,得到该浮点数的第二值。在一个示例中,可以利用第一预设值Pre_1对最大值Max_A1进行缩放。第一待处理子数据Data_A1中一个浮点数FP_A11的第一值FP_A11F1可以为Max_A1/Pre_1,第二值FP_A11F2可以是(FP_A11v/Max_A1)*Pre_1,FP_A11v是浮点数FP_A11的绝对值。待处理数据Data_A1中另一个浮点数FP_A12的第一值FP_A12F1可以为Max_A1/Pre_1,第二值FP_A12F2可以是(FP_A12v/Max_A1)*Pre_1,FP_A12v是浮点数FP_A12的绝对值。
运算单元240,配置为利用量化数据中浮点数的第一值和第二值进行运算处理,得到运算结果。
在本公开实施例中,可以利用量化数据进行各种运算。
例如,各种运算可以包括:矩阵乘法、池化、卷积等等。运算单元240可以利用一部分浮点数的第一值和第二值进行运算处理,得到运算子结果。
输出单元250,配置为输出运算结果。
例如,在获得一部分浮点数的运算子结果之后,可以将这些运算子结果作为运算结果,并输出该运算结果。
通过本公开实施例,对待处理数据进行划分,并对划分后得到的待处理子数据中的浮点数进行了量化,可以大幅地提高处理器的精度。此外,利用量化数据进行运算,可以降低运算所需的硬件资源开销,提高了运算效率,提升了处理器的性能。
可以理解,上文以1个待处理数据为示例,对本公开提供的处理器进行了详细描述,但本公开不限于此。在本公开实施例中,待处理数据可以为至少一个。例如,2个待处理数据可以分别为2个维数不同的矩阵。
可以理解,上文以量化数据包括浮点数的第一值和第二值为示例,对本公开提供的处理器进行了详细说明,但本公开不限于此。在本公开实施例中,可以将浮点数量化为两个以上的数值。
可以理解,极值还可以包括最小值。
可以理解,在本公开实施例中,可以利用量化数据中浮点数的第一值和第二值,确定浮点数的平方值。
例如,对于浮点数FP_A11,可以通过以下运算,确定运算子结果FP_A11sq:
FP_A11sq=FP_A11F2*FP_A11F2*FP_A11F1*FP_A11F1 (公式五)
可以理解,在本公开实施例中,浮点数的类型可以是各种类型的浮点数。例如,量化单元230可以对单精度浮点数、张量单精度浮点数、半精度浮点数、脑浮点数等各种类型的浮点数进行量化。而运算单元240可以根据相应浮点数的第一值和第二值进行运算,得到运算结果。通过本公开实施例,本公开的处理器200可以用于处理各种不同精度的数据,有着极强的兼容性。
在一些实施例中,本公开提供的处理器还可以包括:存储单元,与量化单元和运算单元耦接,用于存储来自量化单元的量化数据。
在本公开实施例中,存储单元可以是内置的缓存单元。
例如,存储单元可以包括多个存储子单元。第一存储子单元用于存储量化数据。
又例如,存储单元也可以包括不同的存储分区,一个存储分区用于存储量化数据。
可以理解,上文对处理器的整体进行了详细描述,下面将结合相关实施例对本公开的划分单元进行详细描述。
可以理解,上文对处理器的整体进行了详细描述,下面将结合相关实施例对本公开的划分单元进行详细描述。
在一些实施例中,划分单元包括:第一确定模块,配置为根据待处理数据中多个浮点数的数据分布信息,确定待处理子数据中浮点数的数量。划分模块,配置为根据待处理子数据中浮点数的数量,将待处理数据划分为多个待处理子数据。
在本公开实施例中,数据分布信息可以指示待处理数据中多个浮点数的分布情况。例如,数据分布信息可以指示多个浮点数均匀分布。又例如,数据分布信息也可以指示多个浮点数不均匀分布。
在本公开实施例中,第一确定模块还配置为:响应于确定数据分布信息指示待处理数据中多个浮点数均匀分布,确定待处理子数据中浮点数的数量为第一预设参数值。
在本公开实施例中,响应于确定数据分布信息指示待处理数据中多个浮点数不均匀分布,确定待处理子数据中浮点数的数量为第二预设参数值,其中,第一预设参数值大于第二预设参数值。通过本公开实施例,在数据均匀分布时,待处理子数据中的浮点数的数量较多,可以提高量化处理效率,进而提高处理器的运行效率。在数据分布不均匀时,待处理子数据中的浮点数据的数量较少,有助于提高处理器的精度。
图3是根据本公开的一个实施例的划分单元的原理图。
如图3所示,在获取单元获取了待处理数据301之后,划分单元可以将待处理数据301划分为多个待处理子数据。多个待处理子数据可以包括待处理子数据3011、待处理子数据3012、待处理子数据3013、待处理子数据3014以及待处理子数据3015。
接下来,量化单元可以对每个待处理子数据中至少一个浮点数进行量化。如图3所示,量化单元可以确定待处理子数据3011中浮点数的最大值3011_max。量化单元可以确定待处理子数据3012中浮点数的最大值3012_max。量化单元可以确定待处理子数据3013中浮点数的最大值3013_max。量化单元可以确定待处理子数据3014中浮点数的最大值3014_max。量化单元可以确定待处理子数据3015中浮点数的最大值3015_max。
接下来,量化单元可以根据待处理子数据的最大值,对待处理子数据中的浮点数进行量化,下面将结合相关实施例对本公开的量化单元进行进一步描述。
在一些实施例中,上述的量化单元230可以包括:第二确定模块,可以配置为根据待处理子数据中至少一个浮点数中的极值,确定至少一个数值区间。量化模块,可以配置为根据浮点数所处的数值区间,对浮点数进行量化,得到量化数据。写入模块,可以配置为将量化数据写入存储单元。
下面将结合相关实施例对量化单元的确定模块进行详细说明。
在本公开实施例中,第二确定模块还可以配置为:根据第一预设值和极值,确定至少一个数据阈值。
例如,第一预设值可以为212。例如,极值可以为最大值。
在本公开实施例中,至少一个数据阈值为I个数据阈值。例如,数据阈值的数量可以是预设的。又例如,I可以等于8。
在本公开实施例中,第二确定模块还可以配置为:可以将极值确定为第1个数据阈值。
例如,若将待处理数据划分为K个待处理子数据。对于第k个待处理子数据Data_k中的多个浮点数,可以将最大值作为第1个数据阈值Max_0k。K为大于1的整数,k为大于或等于1且小于或等于K的整数。
在本公开实施例中,确定模块还可以配置为:可以根据第i个数据阈值和第一预设值,确定第i+1个数据阈值。
例如,i为大于或等于1的整数,i为小于I的整数。在一个示例中,以I=8为示例,i的取值范围可以为1、2、3、4、5、6、7。
例如,可以通过以下公式,确定数据阈值:
可以理解,对于第k个待处理子数据Data_k,Max_1k、Max_2k、Max_3k、Max_4k、Max_5k、Max_6k、Max_7k分别为第2个数据阈值、第3个数据阈值、第4个数据阈值、第5个数据阈值、第6个数据阈值、第7个数据阈值、第8个数据阈值。
在本公开实施例中,至少一个数值区间可以为I个数值区间,I可以为大于1的整数。
在本公开实施例中,第二确定模块还可以配置为:根据第二预设值和至少一个数据阈值,确定至少一个数值区间。
例如,确定模块还配置为:根据第i个数据阈值和第i+1个数据阈值,确定第i个数值区间。
例如,对应上述的第k个待处理子数据Data_k,可以根据第1个数据阈值Max_0k和第2个数据阈值Max_1k,确定第1个数值区间Max_1k~Max_0k。可以根据第2个数据阈值Max_1k和第3个数据阈值Max_2k,确定第2个数值区间Max_2k~Max_1k。可以根据第3个数据阈值Max_2k和第4个数据阈值Max_3k,确定第3个数值区间Max_3k~Max_2k。可以根据第4个数据阈值Max_3k和第5个数据阈值Max_4k,确定第4个数值区间Max_4k~Max_3k。可以根据第5个数据阈值Max_4k和第6个数据阈值Max_5k,确定第5个数值区间Max_5k~Max_4k。可以根据第6个数据阈值Max_5k和第7个数据阈值Max_6k,确定第6个数值区间Max_6k~Max_5k。可以根据第7个数据阈值Max_6k和第8个数据阈值Max_7k,确定第7个数值区间Max_7k~Max_6k。
在本公开实施例中,第二确定模块还可以配置为:根据第I个数据阈值和第二预设值,确定第I个数值区间。
例如,根据第8个数据阈值Max_7k和第二预设值(例如为0),可以确定第8个数值区间0~Max_7k。
可以理解,上文对量化单元的确定模块进行了详细描述。下面将结合相关实施例对量化单元的量化模块进行详细描述。
在本公开实施例中,量化模块可以配置为:根据目标数据阈值和第一预设值,得到浮点数的第一值。根据第一预设值、浮点数和目标数据阈值,得到浮点数的第二值。
例如,目标数据阈值为与浮点数所处的数值区间相关的两个数据阈值之间的较大值。
例如,对于第k个待处理子数据中的浮点数FP_k,若该浮点数FP_k的绝对值FP_kv处于第i个数值区间(Max_i+1k<FP_kv<Max_ik),则浮点数FP_k的目标数据阈值为:第i个数值区间的两个数据阈值(Max_ik和Max_i+1k)中较大的第i个数据阈值Max_ik。
第一预设值可以为212,浮点数FP_k的第一值FP_kF1可以为:
浮点数FP_k的第二值FP_kF2可以为:
可以理解,上文对量化单元的量化模块进行了详细描述,下面将结合相关实施例对量化单元的写入模块进行详细说明。
在本公开实施例中,写入模块,配置为将量化数据写入存储单元。
例如,可以将浮点数FP_k的第一值FP_kF1和第二值FP_kF2写入存储单元。
可以理解,如上述,以I=8为示例,第i个数值区间可以为第1个数值区间至第7个数值区间中的任一个。又例如,若该浮点数FP_k的绝对值FP_kv处于第I个数值区间(0<FP_kv<Max_7k),则浮点数FP_k的目标数据阈值为:第I个数值区间的两个数据阈值(0和Max_7k)中较大的第I个数据阈值Max_7k。
如上述,第一预设值可以为212,浮点数FP_k的第一值FP_kF1可以为:
浮点数FP的第二值FP_kF2可以为:
在一些实施例中,量化数据包括目标处理函数相关的函数数据以及与目标处理函数相关的目标浮点数的第一值和第二值。
例如,神经网络模型可以用于处理浮点数数据。神经网络模型可以包括多个处理函数,这些处理函数本身也具有大量的参数,这些参数也可以是浮点数。处理函数的参数可以作为与该处理函数相关的待处理数据。这些待处理数据也可以用矩阵表示,矩阵中的全部或部分元素为浮点数。对这些待处理数据进行量化,可以得到处理函数相关的函数数据。
又例如,处理函数可以处理一个或几个输入的浮点数。目标浮点数可以是处理函数的输入。
又例如,目标浮点数和处理函数相关的待处理数据可以来自于不同的待处理数据。在一个示例中,目标处理函数可以为卷积核函数。卷积核函数的参数可以实现为一个3*3的矩阵。该3*3的矩阵中包括9个浮点数。将该3*3的矩阵作为待处理数据,进行量化,得到目标处理函数的函数数据。该函数数据包括9个浮点数各自的第一值和第二值。
可以理解,上文对本公开的量化单元进行了详细描述。下面将结合相关实施例,对本公开的运算单元进行详细描述。
在一些实施例中,上述的运算单元240可以包括:读取模块,可以配置为从存储单元读取目标处理函数以及与目标处理函数相关的目标浮点数的第一值和第二值。运算模块,可以配置为利用目标处理函数处理目标浮点数的第一值和第二值,得到运算结果。
例如,读取模块可以读取目标处理函数的函数数据和目标浮点数。
例如,目标浮点数可以为至少一个。
在本公开实施例中,待处理数据可以包括第一待处理数据和第二待处理数据。多个待处理子数据包括:来自第一待处理数据的多个第一待处理子数据,以及来自第二待处理数据的多个第二待处理子数据。目标浮点数包括:来自第一待处理子数据的第一目标浮点数和来自第二待处理子数据的第二目标浮点数。例如,与目标处理函数Fun_t1相关的目标浮点数分别来自于第一待处理数据Data_A和第二待处理数据Data_B。可以将第一待处理数据Data_A划分为K个第一待处理子数据。也可以将第二待处理数据Data_B划分为K个第二待处理子数据。来自于第k个第一待处理子数据Data_Ak的一个第一目标浮点数可以为浮点数FP_A1k。来自于第二待处理子数据Data_Bk的一个第二目标浮点数可以为浮点数FP_B1k。目标处理函数Fun_t1可以为乘法函数,用于计算两个浮点数的乘积。
在本公开实施例中,运算模块还配置为:根据目标浮点数的符号位,确定目标符号位。
例如,可以对第一目标浮点数和第二目标浮点数的符号位进行按位异或,得到的结果作为目标符号位。在一个示例中,可以对浮点数FP_A1k的符号位和浮点数FP_B1k的符号位进行按位异或,得到目标符号位。
在本公开实施例中,运算模块还配置为:利用目标处理函数处理目标浮点数的第一值和第二值,得到输出浮点数的绝对值。
例如,运算模块还配置为:将第一目标浮点数的第一值和第二值以及第二目标浮点数的第一值和第二值依次相乘,得到输出浮点数的绝对值。
在一个示例中,可以通过以下公式确定输出浮点数的绝对值FP_AB1kv:
FP_AB1kv=FP_A1kF2*FP_B1kF2*FP_A1kF1*FP_B1kF1 (公式十七)
FP_A1kF1为浮点数FP_A1k的第一值,FP_A1kF2为浮点数FP_A1k的第二值。FP_B1kF1为浮点数FP_B1k的第一值,FP_B1kF2为浮点数FP_B1k的第二值。
在本公开实施例中,运算模块还配置为:根据输出浮点数的绝对值和目标符号位,得到输出浮点数。
例如,根据输出浮点数的绝对值FP-AB1kv和目标符号位,可以确定输出浮点数FP_AB1k。
在本公开实施例中,运算模块还配置为:根据输出浮点数,得到运算结果。
例如,在目标处理函数只与浮点数FP_A1k和浮点数FP_B1k相关的情况下,可以将输出浮点数FP_AB1k作为运算结果。
在本公开实施例中,运算模块还配置为:将运算结果转换为浮点数,得到转换后运算结果。通过本公开实施例,输出的结果也是浮点数,可以进一步提高处理器的兼容性。
在本公开实施例中,输出模块还配置为:输出转换后运算结果。
可以理解,上文对本公开的处理器进行了详细描述,下面将结合图4和相关实施例对本公开的处理器的原理进行详细描述。
图4是根据本公开的一个实施例的数据处理器的原理图。
如图4所示,获取单元410可以从其他设备获取待处理数据,并将待处理数据存储在片外存储单元470中。获取单元410可以是直接内存存取(Direct Memory Access,DMA)单元。
在获取待处理数据之后,划分单元420可以从片外存储单元470读取相应的待处理数据。划分单元420可以将待处理数据划分为多个待处理子数据。
接下来,量化单元430可以对多个待处理子数据各自的多个浮点数进行量化。例如,根据待处理子数据中多个浮点数中的极值,对待处理子数据进行量化,得到量化数据。在本公开实施例中,量化数据包括:目标处理函数相关的函数数据以及与目标处理函数相关的目标浮点数的第一值和第二值。
根据量化数据的类型,将量化数据写入存储单元。存储单元可以为片上静态随机存取存储器(Static Random Access Memory,SRAM)存储。在本公开实施例中,存储单元包括第一存储单元461和第二存储单元462。可以将函数数据存入第一存储单元461,将目标浮点数的第一值和第二值存入第二存储单元462。第一存储单元461也可以被称为模型SRAM存储单元,第二存储单元462也可以被称为输入SRAM存储单元。
待处理数据可以包括多个浮点数,量化数据可以包括多个浮点数的第一值和第二值。
运算单元440可以利用目标处理函数处理目标浮点数的第一值和第二值,得到运算子结果。可以将运算子结果转换为浮点数的格式,缓存入输出单元450。在运算单元440完成运算之后,输出单元450可以将多个运算子结果作为运算结果,并输出至片外存储单元470。输出单元450也可以被称为结果SRAM单元。
下面将结合相关实施例对本公开的处理器进行进一步详细说明。
在一些实施例中,获取单元配置为获取待处理数据。例如,待处理数据可以包括第一待处理数据Data_A和第二待处理数据Data_B。
第一待处理数据Data_A可以用一个1行16列的矩阵表示,Data_A=[1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0]。
第二待处理数据Data_B可以用一个16行1列的矩阵表示,转置后的Data_B=[0.004,4.0,6.0,8.0,10.0,12.0,14.0,16.0,18.0,20.0,22.0,24.0,26.0,28.0,30.0,32.0]。可以理解,为了便于理解,在本实施例中,将第一待处理数据Data_A和第二待处理数据Data_B中的多个浮点数均用十进制表示。
可以理解,上述的第一待处理数据Data_A浮点数FP_A11对应的十进制数可以为1.0。上述的第一待处理数据Data_A浮点数FP_A12对应的十进制数可以为2.0。上述的待处理数据Data_B浮点数FP_B1k对应的十进制数可以为0.004。
在一些实施例中,划分单元,配置为将待处理数据划分为多个待处理子数据。例如,可以将第一待处理数据Data_A划分为第一待处理子数据Data_A1和第一待处理子数据Data_A2。第一待处理子数据Data_A1=[1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0],第一待处理子数据Data_A2=[9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0]。又例如,可以将第二待处理数据Data_B划分为第二待处理子数据Data_B1和第二待处理子数据Data_B2。第二待处理子数据Data_B1=[0.004,4.0,6.0,8.0,10.0,12.0,14.0,16.0],第二待处理子数据Data_B2=[18.0,20.0,22.0,24.0,26.0,28.0,30.0,32.0]。
在一些实施例中,量化单元,配置为根据待处理子数据中多个浮点数中的极值,对浮点数进行量化,得到量化数据。量化数据包括浮点数的第一值和第二值。例如,对于第一待处理子数据Data_A1,最大值Max_A1为8.0。对于第二待处理子数据Data_B1,最大值Max_B1为16.0。
对于第一待处理子数据Data_A1,可以将最大值Max_A1作为第1个数据阈值Max_0A1。对于第二待处理子数据Data_B1,可以将最大值Max_B1作为第1个数据阈值Max_0B1。接下来,可以利用上述的公式六至公式十二,分别确定第一待处理子数据Data_A1和第二待处理子数据Data_B1多个其他的数据阈值。
对于第一待处理子数据Data_A1,第2个数据阈值Max_1A1可以为0.001953125,第3个数据阈值Max_2A可以为4.76837158203125*10-7。对于第一待处理子数据Data_A1,多个数值区间的前2个数值区间分别为:0.001953125~8.0、4.76837158203125*10-7~0.001953125。第一待处理子数据Data_A1中与十进制数据“1.0”对应的浮点数FP_A11可以处于第1个数值区间0.001953125~8.0。
对于第二待处理子数据Data_B1,第2个数据阈值Max_1B1可以为0.00390625,第3个数据阈值Max_2B1可以为9.5367431640625*10-7。对于第二待处理子数据Data_B1,多个数值区间的前2个数值区间分别为:0.00390625~16.0、9.5367431640625*10-7~0.00390625。第二待处理子数据Data_B1中与十进制数“0.004”对应的浮点数FP_B11处于第1个数值区间0.00390625~16。
在一些实施例中,运算单元,配置为利用量化数据中浮点数的第一值和第二值进行运算处理,得到运算结果。
例如,运算单元可以将第一待处理子数据Data_A1的量化数据和第二待处理子数据Data_B1的量化数据相乘。在该运算过程中,可以将以下数据相乘:第一待处理子数据Data_A1的第1个浮点数FP_A11的第一值和第二值,以及第二待处理子数据Data_B1中第1个浮点数FP_B11相乘。
第一待处理子数据Data_A1的第1个浮点数FP_A11对应的十进制数为1.0,处于数值区间0.001953125~8.0。根据上述的公式十三和公式十四,可以确定浮点数FP_A11的第一值FP_A11F1和第二值FP_A11F2。第一值FP_A11F1对应的十进制数可以为512,第二值FP_A11F2对应的十进制数可以为0.001953125。
第二待处理子数据Data_B1的浮点数FP_B11对应的十进制数为0.004,处于数值区间0.00390625~16。根据上述的公式十三和公式十四,可以确定浮点数FP_B11的第一值FP_B11F1和第二值FP_B11F2。第一值FP_B11F1对应的十进制数可以为1,第二值FP_B11F2对应的十进制数可以为0.00390625。
将第一待处理子数据Data_A1的浮点数FP_A11和第二待处理子数据Data_B1中浮点数FP_B1相乘,可以得到输出浮点数的绝对值FP_AB11v,可以通过以下公式实现:
FP_AB11v_10=512*1*0.001953125*0.00390625=0.00390625(公式十八)
FP_AB11v对应的十进制数FP_AB11v_10可以为0.00390625。
通过本公开实施例,可以有效地提高处理器的计算效率,同时也可以使得处理器的计算精度保持在较高的水平。
可以理解,浮点数之间直接进行各种运算所需的计算资源较高,而将其转换为第一值和第二值,再进行运算,可以显著地降低运算资源。例如,以浮点数相乘为例,浮点数FP_A11和浮点数FP_B11是以编码的形式存储在片外存储单元中,二者之间相乘会消耗较多的计算资源。而利用这两个浮点数的第一值和第二值进行运算,可以显著地降低运算资源。浮点数FP_A11的第二值和浮点数FP_B11的第二值相乘(512对应的二进制数和1对应的二进制数相乘),仅需与运算单元对应的移位寄存器执行简单移位操作即可完成。
图5是根据本公开的一个实施例的数据处理方法的流程图。
如图5所示,该方法500包括操作S510至操作S550。
可以理解,方法500可以应用于数据处理器。
在操作S510,获取待处理数据。例如,待处理数据包括多个浮点数。
在操作S520,将待处理数据划分为多个待处理子数据。例如,待处理子数据包括至少一个浮点数。
在操作S530,根据待处理子数据中至少一个浮点数中的极值,对至少一个浮点数分别进行量化,得到量化数据。例如,量化数据包括浮点数的第一值和第二值。
在操作S540,利用量化数据中浮点数的第一值和第二值进行运算处理,得到运算结果。
在操作S550,输出运算结果。
在本公开实施例中,可以利用处理器200实现方法500。
例如,可以利用获取单元210执行操作S510。
例如,可以利用划分单元220执行操作S520。
例如,可以利用量化单元240执行操作S530。
例如,可以利用运算单元240执行操作S540。
例如,可以利用输出单元250执行操作S550。
在一些实施例中,将待处理数据划分为多个待处理子数据包括:根据待处理数据中多个浮点数的数据分布信息,确定待处理子数据中浮点数的数量。根据待处理子数据中浮点数的数量,将待处理数据划分为多个待处理子数据。例如,可以利用划分单元220的第一确定模块根据待处理数据中多个浮点数的数据分布信息,确定待处理子数据中浮点数的数量。又例如,可以利用划分单元220的划分模型根据待处理子数据中浮点数的数量,将待处理数据划分为多个待处理子数据
在一些实施例中,确定待处理子数据中浮点数的数量包括以下操作至少之一:响应于确定数据分布信息指示待处理数据中多个浮点数均匀分布,确定待处理子数据中浮点数的数量为第一预设参数值。响应于确定数据分布信息指示待处理数据中多个浮点数不均匀分布,确定待处理子数据中浮点数的数量为第二预设参数值。例如,第一预设参数值大于第二预设参数值。例如,可以利用划分单元220的第一确定模型执行相关操作。
在一些实施例中,根据待处理子数据中至少一个浮点数中的极值,对至少一个浮点数分别进行量化,得到量化数据包括:根据待处理数据中至少一个浮点数中的极值,确定至少一个数值区间。根据浮点数所处的数值区间,对浮点数进行量化,得到量化数据。在本公开实施例中,可以利用量化单元230的第二确定模块根据待处理子数据中至少一个浮点数中的极值,确定至少一个数值区间。在本公开实施例中,可以利用量化单元230的量化模块根据浮点数所处的数值区间,对浮点数进行量化,得到量化数据。
在一些实施例中,根据待处理子数据中至少一个浮点数中的极值,确定至少一个数值区间包括:根据第一预设值和极值,确定至少一个数据阈值。根据第二预设值和至少一个数据阈值,确定至少一个数值区间。例如,可以利用量化单元230的第二确定模块执行相关操作。
在一些实施例中,至少一个数据阈值为I个数据阈值,至少一个数值区间为I个数值区间,I为大于1的整数。
在一些实施例中,根据第一预设值和极值,确定至少一个数据阈值包括:将极值确定为第1个数据阈值。根据第i个数据阈值和第一预设值,确定第i+1个数据阈值。例如,i为大于或等于1的整数,i为小于I的整数。例如,可以利用量化单元230的第二确定模块执行相关操作。
在一些实施例中,根据第二预设值和至少一个数据阈值,确定至少一个数值区间包括:根据第i个数据阈值和第i+1个数据阈值,确定第i个数值区间。根据第I个数据阈值和第二预设值,确定第I个数值区间。例如,可以利用量化单元230的第二确定模块执行相关操作。
在一些实施例中,根据浮点数所处的数值区间,对浮点数进行量化,得到量化数据包括:根据目标数据阈值和第一预设值,得到浮点数的第一值。根据第一预设值、浮点数和目标数据阈值,得到浮点数的第二值。例如,目标数据阈值为与浮点数所处的数值区间相关的两个数据阈值之间的较大值。例如,可以利用量化单元230的量化模块执行相关操作。
在一些实施例中,量化数据包括目标处理函数相关的函数数据以及与目标处理函数相关的目标浮点数的第一值和第二值。
在一些实施例中,利用量化数据中浮点数的第一值和第二值进行运算处理,得到运算结果包括:读取目标处理函数以及与目标处理函数相关的目标浮点数。利用目标处理函数处理目标浮点数的第一值和第二值,得到运算结果。例如,可以利用运算单元240的读取模块读取目标处理函数以及与目标处理函数相关的目标浮点数。例如,可以利用运算单元240的运算模块利用目标处理函数处理目标浮点数的第一值和第二值,得到运算结果。
在一些实施例中,利用目标处理函数处理目标浮点数的第一值和第二值,得到运算结果包括:根据目标浮点数的符号位,确定目标符号位。利用目标处理函数处理目标浮点数的第一值和第二值,得到输出浮点数的绝对值。根据输出浮点数的绝对值和目标符号位,得到输出浮点数。根据输出浮点数,得到运算结果。例如,可以利用运算单元230的运算模块执行相关操作。
在一些实施例中,待处理数据包括第一待处理数据和第二待处理数据,多个待处理子数据包括:来自第一待处理数据的多个第一待处理子数据,以及来自第二待处理数据的多个第二待处理子数据,目标浮点数包括:来自第一待处理子数据的第一目标浮点数和来自第二待处理子数据的第二目标浮点数。
在一些实施例中,利用目标处理函数处理目标浮点数的第一值和第二值,得到输出浮点数的绝对值包括:将至少两个目标浮点数的第一值以及至少两个目标浮点数的第二值依次相乘,得到输出浮点数的绝对值。例如,可以利用运算单元240的运算模块执行相关操作。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理器、图形处理器、各种专用的人工智能(AI)计算芯片、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。例如,各种专用的人工智能计算芯片可以包括上文所描述的处理器200。
计算单元601执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列、专用集成电路、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)显示器或者LCD(液晶显示器));以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (27)
1.一种数据处理器,包括:
获取单元,配置为获取待处理数据,其中,所述待处理数据包括多个浮点数;
划分单元,配置为将所述待处理数据划分为多个待处理子数据,其中,所述待处理子数据包括至少一个所述浮点数;
量化单元,配置为根据所述待处理子数据中至少一个所述浮点数中的极值,对至少一个所述浮点数分别进行量化,得到量化数据,其中,所述量化数据包括所述浮点数的第一值和第二值;
运算单元,配置为利用所述量化数据中所述浮点数的所述第一值和所述第二值进行运算处理,得到运算结果;以及
输出单元,配置为输出所述运算结果。
2.根据权利要求1所述的处理器,其中,所述划分单元包括:
第一确定模块,配置为根据所述待处理数据中多个所述浮点数的数据分布信息,确定所述待处理子数据中所述浮点数的数量;
划分模块,配置为根据所述待处理子数据中所述浮点数的数量,将所述待处理数据划分为多个所述待处理子数据。
3.根据权利要求2所述的处理器,其中,所述第一确定模块还配置为:
响应于确定所述数据分布信息指示所述待处理数据中多个所述浮点数均匀分布,确定所述待处理子数据中所述浮点数的数量为第一预设参数值;
响应于确定所述数据分布信息指示所述待处理数据中多个所述浮点数不均匀分布,确定所述待处理子数据中所述浮点数的数量为第二预设参数值,其中,所述第一预设参数值大于所述第二预设参数值。
4.根据权利要求1所述的处理器,还包括:
存储单元,与所述量化单元和所述运算单元耦接,用于存储来自所述量化单元的所述量化数据。
5.根据权利要求4所述的处理器,其中,所述量化单元包括:
第二确定模块,配置为根据所述待处理子数据中至少一个所述浮点数中的极值,确定至少一个数值区间;
量化模块,配置为根据所述浮点数所处的数值区间,对所述浮点数进行量化,得到所述量化数据;以及
写入模块,配置为将所述量化数据写入所述存储单元。
6.根据权利要求5所述的处理器,其中,所述第二确定模块还配置为:
根据第一预设值和所述极值,确定至少一个数据阈值;以及
根据第二预设值和至少一个所述数据阈值,确定至少一个所述数值区间。
7.根据权利要求6所述的处理器,其中,所述至少一个数据阈值为I个数据阈值,所述至少一个数值区间为I个数值区间,I为大于1的整数,
所述第二确定模块还配置为:
将所述极值确定为第1个数据阈值;以及
根据第i个数据阈值和所述第一预设值,确定第i+1个数据阈值,
其中,i为大于或等于1的整数,i为小于I的整数。
8.根据权利要求7所述的处理器,其中,所述第二确定模块还配置为:
根据所述第i个数据阈值和所述第i+1个数据阈值,确定第i个数值区间;以及
根据第I个数据阈值和所述第二预设值,确定第I个数值区间。
9.根据权利要求6所述的处理器,其中,所述量化模块配置为:
根据目标数据阈值和所述第一预设值,得到所述浮点数的所述第一值,其中,所述目标数据阈值为与所述浮点数所处的所述数值区间相关的两个数据阈值之间的较大值;以及
根据所述第一预设值、所述浮点数和所述目标数据阈值,得到所述浮点数的所述第二值。
10.根据权利要求4所述的处理器,其中,所述量化数据包括:目标处理函数相关的函数数据以及与所述目标处理函数相关的目标浮点数的第一值和第二值;所述运算单元包括:
读取模块,配置为从所述存储单元读取目标处理函数以及与所述目标处理函数相关的目标浮点数;以及
运算模块,配置为利用所述目标处理函数处理所述目标浮点数的第一值和第二值,得到所述运算结果。
11.根据权利要求10所述的处理器,其中,所述运算模块还配置为:
根据所述目标浮点数的符号位,确定目标符号位;
利用所述目标处理函数处理所述目标浮点数的第一值和第二值,得到输出浮点数的绝对值;
根据所述输出浮点数的绝对值和所述目标符号位,得到输出浮点数;以及
根据输出浮点数,得到所述运算结果。
12.根据权利要求11所述的处理器,其中,所述待处理数据包括第一待处理数据和第二待处理数据,多个所述待处理子数据包括:来自所述第一待处理数据的多个第一待处理子数据,以及来自所述第二待处理数据的多个第二待处理子数据,所述目标浮点数包括:来自所述第一待处理子数据的第一目标浮点数和来自所述第二待处理子数据的第二目标浮点数;
所述运算模块还配置为:
将所述第一目标浮点数的第一值和第二值以及所述第二目标浮点数的第一值和第二值依次相乘,得到所述输出浮点数的绝对值。
13.一种数据处理方法,应用于数据处理器,所述方法包括:
获取待处理数据,其中,所述待处理数据包括多个浮点数;
将所述待处理数据划分为多个待处理子数据,其中,所述待处理子数据包括至少一个所述浮点数;
根据所述待处理子数据中至少一个所述浮点数中的极值,对至少一个所述浮点数分别进行量化,得到量化数据,其中,所述量化数据包括所述浮点数的第一值和第二值;
利用所述量化数据中所述浮点数的所述第一值和所述第二值进行运算处理,得到运算结果;以及
输出所述运算结果。
14.根据权利要求13所述的方法,其中,所述将所述待处理数据划分为多个待处理子数据包括:
根据所述待处理数据中多个所述浮点数的数据分布信息,确定所述待处理子数据中所述浮点数的数量;
根据所述待处理子数据中所述浮点数的数量,将所述待处理数据划分为多个所述待处理子数据。
15.根据权利要求14所述的方法,其中,所述确定所述待处理子数据中所述浮点数的数量包括以下操作至少之一:
响应于确定所述数据分布信息指示所述待处理数据中多个所述浮点数均匀分布,确定所述待处理子数据中所述浮点数的数量为第一预设参数值;
响应于确定所述数据分布信息指示所述待处理数据中多个所述浮点数不均匀分布,确定所述待处理子数据中所述浮点数的数量为第二预设参数值;
其中,所述第一预设参数值大于所述第二预设参数值。
16.根据权利要求13所述的方法,其中,所述根据所述待处理子数据中至少一个所述浮点数中的极值,对至少一个所述浮点数分别进行量化,得到量化数据包括:
根据所述待处理子数据中至少一个所述浮点数中的极值,确定至少一个数值区间;以及
根据所述浮点数所处的数值区间,对所述浮点数进行量化,得到所述量化数据。
17.根据权利要求16所述的方法,其中,所述根据所述待处理子数据中至少一个所述浮点数中的极值,确定至少一个数值区间包括:
根据第一预设值和所述极值,确定至少一个数据阈值;以及
根据第二预设值和至少一个所述数据阈值,确定至少一个所述数值区间。
18.根据权利要求17所述的方法,其中,所述至少一个数据阈值为I个数据阈值,所述至少一个数值区间为I个数值区间,I为大于1的整数,
所述根据第一预设值和所述极值,确定至少一个数据阈值包括:
将所述极值确定为第1个数据阈值;以及
根据第i个数据阈值和所述第一预设值,确定第i+1个数据阈值,
其中,i为大于或等于1的整数,i为小于I的整数。
19.根据权利要求18所述的方法,其中,所述根据第二预设值和至少一个所述数据阈值,确定至少一个所述数值区间包括:
根据所述第i个数据阈值和所述第i+1个数据阈值,确定第i个数值区间;以及
根据第I个数据阈值和所述第二预设值,确定第I个数值区间。
20.根据权利要求17所述的方法,其中,所述根据所述浮点数所处的数值区间,对所述浮点数进行量化,得到所述量化数据包括:
根据目标数据阈值和所述第一预设值,得到所述浮点数的所述第一值,其中,所述目标数据阈值为与所述浮点数所处的所述数值区间相关的两个数据阈值之间的较大值;以及
根据所述第一预设值、所述浮点数和所述目标数据阈值,得到所述浮点数的所述第二值。
21.根据权利要求17所述的方法,其中,所述量化数据包括:目标处理函数相关的函数数据以及与所述目标处理函数相关的目标浮点数的第一值和第二值;
所述利用所述量化数据中所述浮点数的所述第一值和所述第二值进行运算处理,得到运算结果包括:
读取目标处理函数以及与所述目标处理函数相关的目标浮点数;以及
利用所述目标处理函数处理所述目标浮点数的第一值和第二值,得到所述运算结果。
22.根据权利要求21所述的方法,其中,所述利用所述目标处理函数处理所述目标浮点数的第一值和第二值,得到所述运算结果包括:
根据所述目标浮点数的符号位,确定目标符号位;
利用所述目标处理函数处理所述目标浮点数的第一值和第二值,得到输出浮点数的绝对值;
根据所述输出浮点数的绝对值和所述目标符号位,得到输出浮点数;以及
根据输出浮点数,得到所述运算结果。
23.根据权利要求22所述的方法,其中,所述待处理数据包括第一待处理数据和第二待处理数据,多个所述待处理子数据包括:来自所述第一待处理数据的多个第一待处理子数据,以及来自所述第二待处理数据的多个第二待处理子数据,所述目标浮点数包括:来自所述第一待处理子数据的第一目标浮点数和来自所述第二待处理子数据的第二目标浮点数;
所述利用所述目标处理函数处理所述目标浮点数的第一值和第二值,得到输出浮点数的绝对值包括:
将所述第一目标浮点数的第一值和第二值以及所述第二目标浮点数的第一值和第二值依次相乘,得到所述输出浮点数的绝对值。
24.一种电子设备,包括至少一个权利要求1至12任一项所述的数据处理器。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求13至23中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求13至23中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求13至23中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310023210.1A CN115965047A (zh) | 2023-01-06 | 2023-01-06 | 数据处理器、数据处理方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310023210.1A CN115965047A (zh) | 2023-01-06 | 2023-01-06 | 数据处理器、数据处理方法和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115965047A true CN115965047A (zh) | 2023-04-14 |
Family
ID=87359947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310023210.1A Pending CN115965047A (zh) | 2023-01-06 | 2023-01-06 | 数据处理器、数据处理方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965047A (zh) |
-
2023
- 2023-01-06 CN CN202310023210.1A patent/CN115965047A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229648B (zh) | 匹配存储器中数据位宽的卷积计算方法和装置、设备、介质 | |
CN108629414B (zh) | 深度哈希学习方法及装置 | |
US10491239B1 (en) | Large-scale computations using an adaptive numerical format | |
US20200117981A1 (en) | Data representation for dynamic precision in neural network cores | |
CN109284761B (zh) | 一种图像特征提取方法、装置、设备及可读存储介质 | |
EP3931756A1 (en) | Neural network layer processing with normalization and transformation of data | |
WO2020176248A1 (en) | Neural network layer processing with scaled quantization | |
CN111033462A (zh) | 在基于处理器的系统中使用矩阵处理器提供高效浮点运算 | |
CN115880502A (zh) | 检测模型的训练方法、目标检测方法、装置、设备和介质 | |
CN115482395A (zh) | 模型训练方法、图像分类方法、装置、电子设备和介质 | |
CN114092708A (zh) | 特征图像的处理方法、装置和存储介质 | |
KR20220038607A (ko) | 내적 연산 구현 방법, 장치, 전자 기기 및 기록 매체 | |
US20220245433A1 (en) | Sparse convolutional neural network | |
US10482157B2 (en) | Data compression apparatus and data compression method and storage medium | |
CN117351299A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
CN114972955B (zh) | 一种数据处理方法、装置及存储介质 | |
CN113361621B (zh) | 用于训练模型的方法和装置 | |
CN115965047A (zh) | 数据处理器、数据处理方法和电子设备 | |
CN112558918B (zh) | 用于神经网络的乘加运算方法和装置 | |
CN113408304B (zh) | 文本翻译方法、装置、电子设备及存储介质 | |
CN115965048A (zh) | 数据处理装置、数据处理方法和电子设备 | |
CN114463361A (zh) | 网络模型训练方法、装置、设备、介质及程序产品 | |
CN115951858A (zh) | 数据处理器、数据处理方法和电子设备 | |
KR20230076641A (ko) | 부동-소수점 연산을 위한 장치 및 방법 | |
CN115951860A (zh) | 数据处理装置、数据处理方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |