CN112114874B

CN112114874B - 数据处理方法、装置、电子设备和存储介质

Info

Publication number: CN112114874B
Application number: CN202010844165.2A
Authority: CN
Inventors: 田超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2021-10-15
Anticipated expiration: 2040-08-20
Also published as: CN112114874A

Abstract

本申请公开了一种数据处理方法、装置、电子设备和存储介质，涉及语音交互技术、自动驾驶、智能家居以及深度学习技术领域。具体实现方案为：获取待处理的16比特的模型数据；获取4比特加载指令；根据所述4比特加载指令从所述16比特的模型数据中加载4个4比特的模型数据到64位寄存器中。由此，本申请能够通过添加4比特加载指令，从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，从而提高了低比特模型数据处理效率，有效地降低了网络通信成本所导致的顺序访问吞吐无法提高和突破的问题。进一步地，通过添加自定义指令，能够在不增加芯片面积的情况下，使芯片可以存放更大的神经网络，实现更好的语音效果。

Description

数据处理方法、装置、电子设备和存储介质

技术领域

本申请的实施例总体上涉及数据处理技术领域，并且更具体地涉及语音交互技术、自动驾驶、智能家居以及深度学习技术领域。

背景技术

在语音交互领域中，部分采用Cadence高保真(HiFi)4基本架构的芯片，在进行神经网络的运算的过程中，能够兼备实时处理功能，支持多路麦克阵列语音信号输入，已逐渐成为了最受青睐的芯片之一。针对车载语音交互、智能家居等多种涉及语音交互技术的应用场景下，通常会使用配置有前述芯片的数据处理装置对用户输入的模型数据进行处理，并对车辆、智能家电等进行控制。然而由于芯片对模型波束算法的支持局限性极大，势必会导致数据处理效率极低。

现有技术中，通常采用对信号处理进行优化等方式来提高数据处理效率。然而，优化信号处理等方式并不适合深度学习。即言，提高数据处理效率的方案尚不完善。因此，如何提高数据处理效率，已成为了重要的研究方向之一。

发明内容

本申请提供了一种数据处理方法、装置、电子设备和存储介质。

根据第一方面，提供了一种数据处理方法，应用于数据处理装置中，所述数据处理装置包括高保真4架构，包括：

获取待处理的16比特的模型数据；

获取4比特加载指令；

根据所述4比特加载指令从所述16比特的模型数据中加载4个4比特的模型数据到64位寄存器中。

根据第二方面，提供了一种数据处理装置，包括：

第一获取模块，用于获取待处理的16比特的模型数据；

第二获取模块，用于获取4比特加载指令；

第一加载模块，用于根据所述4比特加载指令从所述16比特的模型数据中加载4个4比特的模型数据到64位寄存器中。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面所述的数据处理方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请第一方面所述的数据处理方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本申请第一方面所述的数据处理方法。

本申请提供的实施例，至少具有如下有益技术效果：

根据本申请实施例的数据处理方法，可以通过获取待处理的16比特的模型数据以及4比特加载指令，然后根据4比特加载指令从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，以实现低比特模型数据的处理。由此，本申请能够通过添加4比特加载指令，从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，从而提高了低比特模型数据处理效率，有效地降低了网络通信成本(延时和故障)所导致的顺序访问吞吐无法提高和突破的问题，从而使整个系统的顺序访问吞吐不受跨互联网数据中心(InternetData Center，简称IDC)以及网络拓扑的影响，大大提高了系统对资源的利用率及吞吐量。进一步地，通过添加自定义指令，能够在不增加芯片面积的情况下，使芯片可以存放更大的神经网络，实现更好的语音效果。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是用来实现本申请实施例的数据处理方法的数据处理装置的框图；

图6是用来实现本申请实施例的数据处理方法的处理电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的数据处理方法、装置、电子设备和存储介质。

图1是根据本申请第一实施例的示意图。其中，需要说明的是，本实施例的数据处理方法的执行主体为数据处理装置，数据处理装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。如图1所示，本实施例提出的数据处理方法，包括如下步骤：

S101、获取待处理的16比特的模型数据。

本申请实施例中，可以对车载语音交互、智能家居等场景中，用户输入的16比特的模型数据进行处理。

可选地，用户可以利用控制终端(如遥控器、手机应用程序(Application，简称APP)等)输入16比特的模型数据，以下发相应的控制指令，例如，开机、切换运行模式等。相应地，当用户输入16比特的模型数据后，可以获取该待处理的16比特的模型数据，以对该模型数据进行处理。

其中，模型数据，指的是用户于多种场景下输入的数据。例如，模型数据可以为用户在与对应家用电器进行语音交互时输入的数据；又例如，模型数据可以为司乘人员在与车载电脑进行语音交互时输入的数据。

S102、获取4比特加载指令。

需要说明的是，现有数据处理方法中，在通过高保真(HiFi)4架构对模型数据进行人工神经网络(Artificial Neural Network，简称ANN)，简称神经网络(Neural Network，简称NN)或者连接模型(Connection Model)运算时，可以于加载过程中加载4个8比特到64比特的寄存器中。也就是说，在HiFi 4的运算过程中，可以将8比特的模型数据加载为16比特的高8位，然后进行16比特的运算。其中，硬件中有4个16x16的单路乘法器。在实际应用中，可以混用4个16x16的乘法器，以将其作为8个8x8的乘法器使用，能够实现双倍计算效率。

其中，神经网络是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的行为特征，进行分布式并行信息处理的算法数学模型。神经网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

然而，现有HiFi 4架构并不支持低比特，例如4比特的加载，通常需要使用8比特加载，将加载的数据掩膜(Mask)至4比特，然后进行移位及乘法操作。这样一来，势必导致运算效率的大幅度降低。

本申请实施例中，在原有HiFi 4架构的基础上，通过添加4比特加载指令，以在获取到待处理的16比特的模型数据后，可以获取4比特加载指令，以实现4比特的加载，从而提高低比特运算效率。

S103、根据4比特加载指令从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中。

本申请实施例中，可以根据4比特加载指令从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中。

需要说明的是，语音的神经网络中存在大量的长短期记忆网络(Long ShortTermMemory，简称LSTM)、门控循环单位网络(Gated Recurrent Unit，简称GRU)、网状信道网络(Fibre Channel，简称FC)等网络，前述网络以全连接层为基础，配合各种激活函数构造神经网络。针对多种芯片，例如为了低功耗处理而不能外接双倍数据率同步动态随机存取存储器(Double Data Rate Synchronous Dynamic Random Access Memory，简称DDR SDRAM)的芯片，其存储内存势必会严重受限。这样一来，低比特对于较小的内存来说是非常重要的，加载低比特可以使全连接层压缩至原来的一半，以在不增加芯片面积的情况下，充分利用芯片的内存空间，使芯片可以存放更大的神经网络，从而最大效率发挥芯片对模型波束算法的支持。

根据本申请实施例的数据处理方法，可以通过获取待处理的16比特的模型数据以及4比特加载指令，然后根据4比特加载指令从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，以实现低比特模型数据的处理。由此，本申请能够通过添加4比特加载指令，从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，从而提高了低比特模型数据处理效率，有效地降低了网络通信成本(延时和故障)所导致的顺序访问吞吐无法提高和突破的问题，从而使整个系统的顺序访问吞吐不受跨IDC以及网络拓扑的影响，大大提高了系统对资源的利用率及吞吐量。进一步地，通过添加自定义指令，能够在不增加芯片面积的情况下，使芯片可以存放更大的神经网络，实现更好的语音效果。

需要说明的是，本申请中，为了进一步提升数据处理效率，还可以添加4比特加载为8比特的加载指令、4比特运算指令以及1比特点积运算指令。

下面分别针对上述指令进行解释说明。

针对4比特加载为8比特的加载指令，作为一种可能的实现方式，如图2所示，在上述实施例的基础上，添加4比特加载为8比特的加载指令的处理过程，具体包括以下步骤：

S201、获取4比特加载为8比特的加载指令。

本申请实施例中，在原有HiFi 4架构的基础上，通过添加4比特加载为8比特的加载指令，以根据该加载指令实现4比特加载为8比特的运算方式。

S202、根据4比特加载为8比特的加载指令，将4比特的模型数据从寄存器中加载到8*8乘法器的高4位。

本申请实施例中，在获取到4比特加载为8比特的加载指令后，可以根据4比特加载为8比特的加载指令，将4比特的模型数据从寄存器中加载到8*8乘法器的高4位。也就是说，在HiFi 4的运算过程中，可以将4比特的模型数据从寄存器中加载到8*8乘法器的高4位，然后进行8比特的运算。

根据本申请实施例的数据处理方法，可以通过添加4比特加载为8比特的加载指令，使得在数据的处理过程中，能够实现双倍的8*4比特的双倍性能的运算效率，有效地降低了网络通信成本(延时和故障)所导致的顺序访问吞吐无法提高和突破的问题，从而使整个系统的顺序访问吞吐不受跨IDC以及网络拓扑的影响，大大提高了系统对资源的利用率及吞吐量。进一步地，通过添加自定义指令，能够在不增加芯片面积的情况下，使芯片可以存放更大的神经网络，实现更好的语音效果。

针对4比特运算指令，作为一种可能的实现方式，如图3所示，在上述实施例的基础上，添加获取4比特运算指令的处理过程，具体包括以下步骤：

S301、获取4比特运算指令。

本申请实施例中，在原有HiFi 4架构的基础上，通过添加4比特运算指令，以根据该运算指令实现4比特的运算。

S302、根据4比特运算指令对8*8乘法器中位于高4位的4比特的模型数据进行4比特的点积运算。

本申请实施例中，在获取到4比特运算指令后，可以根据4比特运算指令对8*8乘法器中位于高4位的4比特的模型数据进行4比特的点积运算，以根据该运算指令添加8*8的运算单元，将点积运算从16*16比特切换至8*8比特，从而借用16*16比特的运算单元，可实现最多4个8*8比特的运算。

根据本申请实施例的数据处理方法，可以通过添加4比特运算指令，使得在数据的处理过程中，能够实现双倍的8*8比特的运算效率，有效地降低了网络通信成本(延时和故障)所导致的顺序访问吞吐无法提高和突破的问题，从而使整个系统的顺序访问吞吐不受跨IDC以及网络拓扑的影响，大大提高了系统对资源的利用率及吞吐量。进一步地，通过添加自定义指令，能够在不增加芯片面积的情况下，使芯片可以存放更大的神经网络，实现更好的语音效果。

针对1比特点积运算指令，作为一种可能的实现方式，如图4所示，在上述实施例的基础上，添加1比特点积运算指令的处理过程，具体包括以下步骤：

S401、获取1比特点积运算指令。

本申请实施例中，在原有HiFi 4架构的基础上，通过添加1比特点积运算指令，以根据该运算指令实现1比特的运算。

S402、根据1比特点积运算指令对两个1比特的输入数据和模型数据进行异或运算。

本申请实施例中，在获取到1比特点积运算指令后，可以根据1比特点积运算指令对两个1比特的输入数据和模型数据进行异或(Exclusive OR，简称X OR)运算，以获取1比特的矩阵操作。其中，在试图对两个1比特数据进行异或运算时，源操作数为两个，分别为输入量化为1比特的输入数据和模型数据的1比特值。

其中，试图通过异或运算计算1比特的矩阵操作的具体运算方式为现有技术，此处不再赘述。

S403、计算异或运算结果中1的个数。

S404、将1的个数确定为两个1比特的输入数据和模型数据点积运算的结果。

本申请实施例中，在根据1比特点积运算指令对两个1比特的模型数据进行异或运算后，可以计算异或运算结果中1的个数，然后将1的个数确定为1比特的模型数据点积(DotProduct)运算的结果。

举例而言，获取到的异或运算结果为0、1、1、1、0、1，可知，异或运算结果中1的个数为4，则可以将4确定为1比特的模型数据点积运算的结果。

根据本申请实施例的数据处理方法，可以通过添加1比特点积运算指令，使得在数据的处理过程中，能够基于相当于乘法的异或运算以及相当于加法的异或运算结果中1的个数的计算，实现快速获取1比特的数据点积运算的结果，有效地降低了网络通信成本(延时和故障)所导致的顺序访问吞吐无法提高和突破的问题，从而使整个系统的顺序访问吞吐不受跨IDC以及网络拓扑的影响，大大提高了系统对资源的利用率及吞吐量。进一步地，通过添加自定义指令，能够在不增加芯片面积的情况下，使芯片可以存放更大的神经网络，实现更好的语音效果。

综上所述，本申请通过添加4比特加载指令、4比特加载为8比特的加载指令、4比特运算指令以及1比特点积运算指令等指令，使得包括HiFi 4架构的数据处理装置能够在处理8*4比特的神经网络运算的时候，处理效率得到8倍左右的提升，并有效地降低了网络通信成本所导致的顺序访问吞吐无法提高和突破的问题，从而使整个系统的顺序访问吞吐不受跨IDC以及网络拓扑的影响，大大提高了系统对资源的利用率，相较于现有的顺序访问，吞吐量提高了2～3倍。进一步地，通过添加自定义指令，能够在不增加芯片面积的情况下，使芯片可以存放更大的神经网络，实现更好的语音效果。

需要说明的是，本申请提出的数据处理方法，可以运用于多种涉及语音交互技术的场景中。

针对车载语音交互应用场景，可以获取用户输入的“刹车”、“减速”等16比特的语音，并通过添加4比特加载指令，从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，以实现数据的精准识别。由此，通过于HiFi 4中添加4比特加载指令，能够提高了低比特模型数据处理效率，避免误识别，从而确保了车辆行驶过程中的安全性。

针对智能家电应用场景，可以获取用户输入的“室内PM2.5指数正常吗”、“请开启除湿功能”等16比特的语音，并通过添加4比特加载指令，从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，以实现数据的精准识别。由此，通过于HiFi 4中添加4比特加载指令，能够提高了低比特模型数据处理效率，确保在嘈杂环境中用户输入数据的精准识别，从而提高了智能家电控制过程中的有效性，提升了用户体验。

与上述几种实施例提供的数据处理方法相对应，本申请的一个实施例还提供一种数据处理装置，由于本申请实施例提供的数据处理装置与上述几种实施例提供的数据处理方法相对应，因此在数据处理方法的实施方式也适用于本实施例提供的数据处理装置，在本实施例中不再详细描述。图5是根据本申请一个实施例的数据处理装置的结构示意图。

如图5所示，该数据处理装置2000，包括：第一获取模块111、第二获取模块112和第一加载模块113。其中：

第一获取模块111，用于获取待处理的16比特的模型数据；

第二获取模块112，用于获取4比特加载指令；

第一加载模块112，用于根据所述4比特加载指令从所述16比特的模型数据中加载4个4比特的模型数据到64位寄存器中。

在本申请的实施例中，如图5所示，数据处理装置2000，还包括：第三获取模块114，用于获取4比特加载为8比特的加载指令；第二加载模块115，用于根据所述4比特加载为8比特的加载指令，将所述4比特的模型数据从所述寄存器中加载到8*8乘法器的高4位。

在本申请的实施例中，如图5所示，模型数据处理装置2000，还包括：第四获取模块116，用于获取4比特运算指令；第三加载模块117，用于根据所述4比特运算指令对所述8*8乘法器中位于高4位的所述4比特的模型数据进行4比特的点积运算。

在本申请的实施例中，如图5所示，模型数据处理装置2000，还包括：第五获取模块118，用于获取1比特点积运算指令；异或运算模块119，用于根据1比特点积运算指令对两个1比特的输入数据和模型数据进行异或运算；个数计算模块120，用于计算异或运算结果中1的个数；确定模块121，用于将所述1的个数确定为所述两个1比特的输入数据和模型数据点积运算的结果。

根据本申请实施例的数据处理装置，可以通过获取待处理的16比特的模型数据以及4比特加载指令，然后根据4比特加载指令从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，以实现低比特模型数据的处理。由此，本申请能够通过添加4比特加载指令，从16比特的模型数据中加载4个4比特的模型数据到64位寄存器中，从而提高了低比特模型数据处理效率，有效地降低了网络通信成本(延时和故障)所导致的顺序访问吞吐无法提高和突破的问题，从而使整个系统的顺序访问吞吐不受跨IDC以及网络拓扑的影响，大大提高了系统对资源的利用率及吞吐量。进一步地，通过添加自定义指令，能够在不增加芯片面积的情况下，使芯片可以存放更大的神经网络，实现更好的语音效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器1100、存储器1200，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器1100为例。

存储器1200即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的数据处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据处理方法。

存储器1200作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据处理方法对应的程序指令/模块(例如，附图5所示的第一获取模块111、第二获取模块112和第一加载模块113)。处理器1100通过运行存储在存储器1200中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据处理方法。

存储器1200可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据处理电子设备的使用所创建的数据等。此外，存储器1200可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1200可选包括相对于处理器1100远程设置的存储器，这些远程存储器可以通过网络连接至处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据处理方法的电子设备还可以包括：输入装置1300和输出装置1400。处理器1100、存储器1200、输入装置1300和输出装置1400可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置1300可接收输入的数字或字符信息，以及产生与处理电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1400可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

本申请还提供一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上所述的数据处理方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据处理方法，应用于数据处理装置中，所述数据处理装置包括高保真4架构，所述数据处理方法包括：

获取待处理的16比特的模型数据；

获取4比特加载指令；

2.根据权利要求1所述的数据处理方法，还包括：

获取4比特加载为8比特的加载指令；

根据所述4比特加载为8比特的加载指令，将所述4比特的模型数据从所述寄存器中加载到8*8乘法器的高4位。

3.根据权利要求2所述的数据处理方法，还包括：

获取4比特运算指令；

根据所述4比特运算指令对所述8*8乘法器中位于高4位的所述4比特的数据进行4比特的点积运算。

4.根据权利要求1所述的数据处理方法，还包括：

获取1比特点积运算指令；

根据1比特点积运算指令对两个1比特的输入数据和模型数据进行异或运算；

计算异或运算结果中1的个数；

将所述1的个数确定为所述两个1比特的输入数据和模型数据点积运算的结果。

5.一种数据处理装置，包括：

第一获取模块，用于获取待处理的16比特的模型数据；

第二获取模块，用于获取4比特加载指令；

6.根据权利要求5所述的装置，还包括：

第三获取模块，用于获取4比特加载为8比特的加载指令；

第二加载模块，用于根据所述4比特加载为8比特的加载指令，将所述4比特的模型数据从所述寄存器中加载到8*8乘法器的高4位。

7.根据权利要求6所述的装置，还包括：

第四获取模块，用于获取4比特运算指令；

第三加载模块，用于根据所述4比特运算指令对所述8*8乘法器中位于高4位的所述4比特的数据进行4比特的点积运算。

8.根据权利要求5所述的装置，还包括：

第五获取模块，用于获取1比特点积运算指令；

异或运算模块，用于根据1比特点积运算指令对两个1比特的输入数据和模型数据进行异或运算；

个数计算模块，用于计算异或运算结果中1的个数；

确定模块，用于将所述1的个数确定为所述两个1比特的输入数据和模型数据点积运算的结果。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。