CN111368992A

CN111368992A - 数据处理方法、装置及电子设备

Info

Publication number: CN111368992A
Application number: CN201811604698.2A
Authority: CN
Inventors: 王路路; 陈冠豪; 孟晓楠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Singapore Holdings Pte Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-07-03
Anticipated expiration: 2038-12-26
Also published as: CN111368992B

Abstract

本发明实施例提供一种数据处理方法、装置及电子设备，其中，该方法应用于深度学习模型的嵌入层中，嵌入层包括第一参数矩阵和第二参数矩阵，第一参数矩阵与第二参加矩阵的乘积作为嵌入层的向量字典，该方法包括：接收输入数据，在第一参数矩阵中获取与该输入数据对应的第一特征向量；将该第一特征向量与第二参数矩阵进行矩阵乘法，生成第二特征向量；将该第二特征向量作为输入数据对应的特征向量进行输出。本发明实施例利用矩阵分解的特性将嵌入层中庞大的参数矩阵分解为小矩阵的乘积，从而减少了参数矩阵的存储空间，进而也减小了整个深度学习模型的存储空间。

Description

数据处理方法、装置及电子设备

技术领域

本申请涉及一种数据处理方法、装置及电子设备，属于计算机技术领域。

背景技术

深度学习技术在图像、语音、文本等领域都取得了巨大的成功，推动了一系列智能产品发展。尤其在搜索、广告、推荐等场景取得了很大的突破。但是，深度学习模型存在参数矩阵庞大，导致模型所占空间较大，严重占用存储资源。

发明内容

本发明实施例提供一种数据处理方法、装置及电子设备，以压缩深度学习模型中嵌入层参数矩阵所占的存储空间。

为了实现上述目的，本发明实施例提供了一种数据处理方法，该方法应用于深度学习模型的嵌入层中，所述嵌入层包括第一参数矩阵和第二参数矩阵，所述第一参数矩阵与第二参加矩阵的乘积作为所述嵌入层的向量字典，该方法包括：

接收输入数据，并在第一参数矩阵中获取与该输入数据对应的第一特征向量；

将该第一特征向量与第二参数矩阵进行矩阵乘法，生成第二特征向量；

将该第二特征向量作为所述输入数据对应的特征向量进行输出。

本发明实施例还提供了一种数据处理装置，该装置设置于深度学习模型的嵌入层中，其包括：

输入数据接收模块，用于接收输入数据；

参数矩阵存储模块，用于存储第一参数矩阵和第二参数矩阵，所述第一参数矩阵与第二参加矩阵的乘积作为所述嵌入层的向量字典；

特征向量获取模块，用于在第一参数矩阵中获取与该输入数据对应的第一特征向量，并将该第一特征向量与第二参数矩阵进行矩阵乘法，生成第二特征向量；

向量输出模块，用于将该第二特征向量作为所述输入数据对应的特征向量进行输出。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，该程序应用于针对深度学习模型的嵌入层所进行的处理，该嵌入层包括第一参数矩阵和第二参数矩阵，所述第一参数矩阵与第二参加矩阵的乘积作为所述嵌入层的向量字典，所述处理包括：

接收输入数据，在第一参数矩阵中获取与该输入数据对应的第一特征向量；

本发明实施例还提供了一种数据处理方法，该方法应用于语义分析模型的词嵌入层中，所述词嵌入层包括第一参数矩阵和第二参数矩阵，所述第一参数矩阵与第二参加矩阵的乘积作为所述词嵌入层的词向量字典，该方法包括：

接收输入文本数据，并在第一参数矩阵中获取与该输入文本数据对应的第一特征向量；

将该第二特征向量作为所述输入文本数据对应的语义特征向量进行输出。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，该程序应用于针对语义分析模型的词嵌入层所进行的处理，该词嵌入层包括第一参数矩阵和第二参数矩阵，所述第一参数矩阵与第二参加矩阵的乘积作为所述词嵌入层的向量字典，所述处理包括：

本发明实施例的数据处理方法、装置及电子设备，利用矩阵分解的特性将嵌入层中庞大的参数矩阵分解为小矩阵的乘积，从而减少了参数矩阵的存储空间，进而也减小了整个深度学习模型的存储空间。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1为现有技术中嵌入层数据处理原理的示意图；

图2为本发明实施例的嵌入层数据处理原理的示意图；

图3为本发明实施例的数据处理方法的流程示意图；

图4为本发明实施例的数据处理装置的结构示意图；

图5为本发明实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例针对深度学习模型的嵌入层(Embedding)所进行的改进。深度学习是机器学习中一种基于对数据进行表征学习的方法，其动机在于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，例如图像，声音和文本等。

在深度学习模型中，嵌入层一般处于距离输入数据输入端最近的部分。在一些深度学习模型中，定义了输入层、隐层、输出层这样的架构，在这样的架构中，嵌入层位于输入层的最前端(靠近输入数据输入的一端)。嵌入层的主要作用是将输入的输入数据转化为特征向量的表示方式，并提供给深度学习模型中后续的处理层进行处理。在现有的深度学习模型的嵌入层中，包含一个作为向量字典的参数矩阵(如图1中所示的m×n的矩阵)，其中，图1为现有技术中嵌入层数据处理原理的示意图，该参数矩阵的行数代表了样本空间中样本数量，而列数代表了特征维度，参数矩阵中的一行的数据，对应了样本空间中的某个样本的特征编码，也就是样本的特征向量表示。举例来说，假如样本空间为0～9这10个数字样本所构成，对于每个数字用10位的二进制数字进行编码，可以形成10个编码，将这10个编码中的每位数值作为矩阵的元素，并将该每个编码作为矩阵的每行进行组合，形成一个10×10的参数矩阵。这个参数矩阵中的每一行对应于0～9中某个数字的编码。上述的每个编码可以视为每个数字对应的特征向量，特征向量中的元素为0或者1，这个10个特征向量对应于参数矩阵中的10个行。再例如，将常用的3000个汉字作为样本空间进行编码，每个汉字对应的特征维度为1000的话，将会形成一个3000×1000的参数矩阵。嵌入层在接收到输入的输入数据后，根据输入数据通过查表处理，找到参数矩阵中对应的行的地址，进而将该行的数据作为与输入数据对应的特征向量。一般来说，输入的输入数据为多个，嵌入层会对每个输入数据执行查表处理，获取到对应的特征向量，因此，输出的特征向量也是多个，多个特征向量组合在一起，形成特征矩阵，该特征矩阵会被发送后续的处理层进行处理。

如图1所示，图中的嵌入层包含了查表处理模块和参数矩阵存储模块，其中，参数矩阵存储模块中，包含了嵌入层的m×n的参数矩阵。输入的输入数据为[X1,X2,…Xk](k个数据)，这些输入数据也可以表示为向量形式，向量的维度对应于输入数据的个数。

当多个输入数据输入到嵌入层后，查表处理模块会对每个输入数据执行查表处理。在查表处理模块中，预先建立了各个输入数据与参数矩阵存储模块中的参数矩阵的各个行的地址之间的映射关系。经过查表处理，能够获得输入数据与参数矩阵中的哪行具有映射关系，然后将该行的数据提取出来，作为与该输入数据对应的特征向量。针对上述k个输入数据构成的输入数据序列[X1,X2,…Xk]进行分别处理后，最终将获取到k个特征向量，将这k个特征向量进行组合后，形成了k×n的特征矩阵，该特征矩阵将会被继续输入到深度学习模型的后续的处理层中。

需要说明的是，上述的参数矩阵中的元素会随着深度学习的训练过程发生变化，不过各个输入数据与参数矩阵的各个行的地址之间的映射关系是不变的。也就是说，经过不断的训练，使得各个输入数据对应的向量表示更加符合深度学习模型的训练目标。

图1中所示的参数矩阵的行数和列数会随着样本空间的增大和特征维度的增大而增大，而如今深度学习所处理的样本空间和特征维度都非常巨大，尤其是样本空间，通常为几十亿甚至几百亿样本数量。从而形成的特征矩阵是非常巨大，特征矩阵一般是以数据表的形态存储于计算机中，将会占用非常大的存储空间。

本发明实施例针对特征矩阵的存储空间庞大的问题，提出了一种能够压缩特征矩阵存储空间的技术方案，基于矩阵分解的技术原理，将图1中特征矩阵分解为两个小矩阵的乘积，而单独存储这两个小矩阵将会大大缩减特征矩阵的存储空间，达到嵌入层压缩的效果。

如图2所示，其为本发明实施例的嵌入层数据处理原理的示意图。与图1不同之处在，在本发明实施例中，将图1中的参数矩阵存储模块中，存储了两个参数矩阵，这两个参数矩阵来自于图1中的参数矩阵的矩阵分解，即图2中的第一参数矩阵(m×k的矩阵)和第二参数矩阵(k×n的矩阵)的矩阵乘积即为图1中的参数矩阵。而第一参数矩阵(m×k的矩阵)和第二参数矩阵(k×n的矩阵)所占用的存储空间，远小于图1中的m×n的参数矩阵。其中，第一参数矩阵的行数等于样本空间的样本数，而第二参数矩阵的列数等于特征维度。

在图2所示的结构中，在接收到输入的输入数据后，会通过一个查表处理模块进行查表处理，该查表处理将会返回一个第一参数矩阵中的行的地址，并获取该行的数据作为第一特征向量(1×k的向量)。然后，将该第一特征向量与第二参数矩阵进行矩阵乘法(由图中的乘法处理模块执行)，获得第二特征向量(1×n的向量)，将该第二特征向量作为输入的输入数据对应的特征向量输出到后续的处理层中。在图2中，输入的输入数据仍然示例为输入数据序列[X1,X2,…Xk]，对其中的每个输入数据进行逐一转换后，再进行组合，同样生成了k×n的特征矩阵作为输出。

在图2所示的结构中，图1中的查表过程被拆分为了查表+矩阵乘法，通过在特征向量的生成方式以及参数矩阵的存储结构上的改变，实现了参数矩阵的存储空间的压缩。

下面通过一些具体实施例来进一步说明本发明的技术方案。

实施例一

如图3所示，其为本发明实施例的数据处理方法的流程示意图，该数据处理方法应用于深度学习模型的嵌入层中，在嵌入层中包括第一参数矩阵和第二参数矩阵。其中，基于前述的技术原理，第一参数矩阵和第二参数矩阵可以基于矩阵分解的原理而获得，因此，第一参数矩阵和第二参数矩阵的行数和列数的对应关系满足矩阵乘法的要求，第一参数矩阵中的行数为样本空间的样本数，第二参数矩阵中的列数为样本的特征维度，第一参数矩阵与第二参加矩阵的乘积能够作为嵌入层的向量字典。具体地，该方法包括：

S101：接收到输入的输入数据。输入数据可以是单个数据也可以是数据构成的序列。输入数据可以字符、数字、图像信息、声音信息等。

S102：在第一参数矩阵中获取与该输入数据对应的第一特征向量。其中，第一特征向量的获取可以通过查表处理来实现，具体地，可以根据输入数据执行查表处理，获取与输入数据对应的矩阵行地址，根据该矩阵行地址，获取第一参数矩阵中对应的行作为第一特征向量。

S103：将该第一特征向量与第二参数矩阵进行矩阵乘法，生成第二特征向量。第二特征向量的特征维度符合预设的嵌入层的向量字典的特征维度。

S104：将该第二特征向量作为输入数据对应的特征向量进行输出。嵌入层所输出的与输入数据对应的特征向量可以向深度学习模型中的后续处理层发送。在生成第二特征向量后，完成了嵌入层的最基本任务，将输入数据转换为能够被深度学习模型处理的特征向量表示。如果是多个输入数据，那么输出的是由多个特征向量构成的特征矩阵。

上述的第一参数矩阵和第二参数矩阵作为深度学习模型的一部分，也会经过模型的训练处理，而不断更新参数内容，以符合模型训练的目标。对于嵌入层来说，参数矩阵决定了输入数据要表达成什么样的特征向量，从而能够让整个深度学习模型的输出结果能够更符合预期的训练目标。例如，在针对某个领域的自然语言的分析模型中，对于各个词的特征向量的会直接影响后续的分析结果，因此，通过使用大量的训练数据对深度学习模型进行序列，从而确定出较为合理的参数矩阵，从而能够实现较好的语义分析效果。

在本发明实施例中，可以第一参数矩阵和第二参数矩阵可以通过如下方式来形成及训练：

1)先生成第一参数矩阵和第二参数矩阵，然后再进行训练。

按照现有的方式生成作为嵌入层的向量字典的初始参数矩阵，例如根据样本空间的样本数量以及特征维度，设计一个初始参数矩阵，在现有的方式下，该初始参数矩阵用于在模型训练的最初阶段使用，之后将会随着模型的训练而逐步更新。

初始参数矩阵中的数据可以采用已有的向量字典或者根据经验来设计向量字典，也可以在满足字典中各个行向量具有唯一性的前提下，随机设置一些数据作为始参数矩阵。

然后，将该初始参数矩阵进行矩阵分解，形成上述的第一参数矩阵和第二参数矩阵，然后，执行对深度学习模型进行训练，以更新第一参数矩阵和第二参数矩阵，从而使得嵌入层的参数更加符合深度学习的训练目标。

2)先对嵌入层的参数矩阵进行训练，然后再进行矩阵分解。

获取经过训练的嵌入层中的作为向量字典的参数矩阵，将该初始参数矩阵进行矩阵分解，生成第一参数矩阵和第二参数矩阵。

在这种方式下，先按照现有的一个参数矩阵的方式进行深度学习模型的训练，然后，将训练好的嵌入层的参数矩阵进行矩阵分解，形成本发明实施例的第一参数矩阵和第二参数矩阵。

在本发明实施例中，可以采用LU分解法(三角分解法)、QR分解法(正交三角分解法)以及SVD分解法(奇异值分解法)等。

本发明实施例的数据处理方法，利用矩阵分解的特性将嵌入层中庞大的参数矩阵分解为小矩阵的乘积，从而减少了参数矩阵的存储空间，进而也减小了整个深度学习模型的存储空间。

实施例二

如图4所示，其为本发明实施例的数据处理装置的结构示意图，该装置可以设置于深度学习模型的嵌入层中，该装置包括：

输入数据接收模块11，用于接收输入的输入数据。输入数据可以是单个数据也可以是数据构成的序列。输入数据可以字符、数字、图像信息、声音信息等。

参数矩阵存储模块12，用于存储作用于嵌入层的第一参数矩阵和第二参数矩阵，第一参数矩阵与第二参加矩阵的乘积作为嵌入层的向量字典。

特征向量获取模块13，用于在第一参数矩阵中获取与该输入数据对应的第一特征向量，并将该第一特征向量与第二参数矩阵进行矩阵乘法，生成第二特征向量。其中，第二特征向量的特征维度符合预设的嵌入层的向量字典的特征维度。

向量输出模块14，用于将该第二特征向量作为输入数据对应的特征向量并进行输出。嵌入层输出的与输入数据对应的特征向量可以向深度学习模型中的后续处理层发送。在生成第二特征向量后，完成了嵌入层的最基本任务，将输入数据转换为能够被深度学习模型处理的特征向量表示。如果是多个输入数据，那么输出的是由多个特征向量构成的特征矩阵。

进一步地，特征向量获取模块可以进一步包括：

查表处理模块131，用于根据输入数据执行查表处理，获取与输入数据对应的矩阵行地址，根据该矩阵行地址，获取第一参数矩阵中对应的行作为第一特征向量；

乘法处理模块132，用于将该第一特征向量与第二参数矩阵进行矩阵乘法，生成第二特征向量。

在本发明实施例的，可以采用LU分解法(三角分解法)、QR分解法(正交三角分解法)、Jordan分解以及SVD(奇异值)分解法等。

对于上述处理过程具体说明、技术原理详细说明以及技术效果详细分析在前面实施例中进行了详细描述，在此不再赘述。

在本发明实施例的数据处理装置，利用矩阵分解的特性将嵌入层中庞大的参数矩阵分解为小矩阵的乘积，从而减少了参数矩阵的存储空间，进而也减小了整个深度学习模型的存储空间。

实施例三

深度学习技术在搜索、广告、推荐等场景中具有较多应用，在这些应用场景中，较多情况下都涉及语义分析方面的处理。基于深度学习技术的语义分析模型中，词嵌入层是对输出文本数据进行特征编码的处理层，其同样存在庞大的参数矩阵，本发明提供的技术方案也可以应用于这样的语义分析处理模型中。

为此，本实施例提供了一种数据处理方法，该方法应用于语义分析模型的词嵌入层中，所述词嵌入层包括第一参数矩阵和第二参数矩阵，所述第一参数矩阵与第二参加矩阵的乘积作为所述词嵌入层的词向量字典，该方法包括：

通过本实施例的数据处理方法，利用矩阵分解的特性将词嵌入层中庞大的参数矩阵分解为小矩阵的乘积，从而减少了参数矩阵的存储空间，进而也减小了整个语义分析模型的存储空间。

实施例四

前面实施例描述了本发明实施例的流程处理及装置结构，上述的方法和装置的功能可借助一种电子设备实现完成，如图5所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器110和处理器120。

存储器110，用于存储程序。

除上述程序之外，存储器110还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器110可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器120，耦合至存储器110，用于执行存储器110中的程序，该程序应用于针对深度学习模型的嵌入层所进行的处理，该嵌入层包括第一参数矩阵和第二参数矩阵，第一参数矩阵与第二参加矩阵的乘积作为嵌入层的向量字典，上述处理包括：

其中，在第一参数矩阵中获取与该输入数据对应的第一特征向量可以包括：

根据输入数据执行查表处理，获取与输入数据对应的矩阵行地址，根据该矩阵行地址，获取第一参数矩阵中对应的行作为第一特征向量。

其中，第一参数矩阵中的行数为样本空间的样本数，第二参数矩阵中的列数为样本的特征维度。

作为另外一种实施方式，本发明实施例还提供了一种电子设备，其包括存储器110和处理器120，其中，

存储器，用于存储程序；

进一步，如图所示，电子设备还可以包括：通信组件130、电源组件140、音频组件150、显示器160等其它组件。图中仅示意性给出部分组件，并不意味着电子设备只包括图中所示组件。

通信组件130被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件130经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件130还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件140，为电子设备的各种组件提供电力。电源组件140可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件150被配置为输出和/或输入音频信号。例如，音频组件150包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器110或经由通信组件130发送。在一些实施例中，音频组件150还包括一个扬声器，用于输出音频信号。

显示器160包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据处理方法，该方法应用于深度学习模型的嵌入层中，所述嵌入层包括第一参数矩阵和第二参数矩阵，所述第一参数矩阵与第二参加矩阵的乘积作为所述嵌入层的向量字典，该方法包括：

2.根据权利要求1所述的方法，其中，在第一参数矩阵中获取与该输入数据对应的第一特征向量包括：

根据所述输入数据执行查表处理，获取与所述输入数据对应的矩阵行地址，根据该矩阵行地址，获取所述第一参数矩阵中对应的行作为所述第一特征向量。

3.根据权利要求1所述的方法，其中，所述第一参数矩阵中的行数为样本空间的样本数，第二参数矩阵中的列数为样本的特征维度。

4.根据权利要求1所述的方法，还包括：

获取作为嵌入层的向量字典的初始参数矩阵，将该初始参数矩阵进行矩阵分解，生成所述第一参数矩阵和所述第二参数矩阵；

通过对所述深度学习模型的训练过程，更新所述第一参数矩阵和所述第二参数矩阵。

5.根据权利要求1所述的方法，还包括：

获取经过训练的嵌入层中的作为向量字典的参数矩阵，将该初始参数矩阵进行矩阵分解，生成所述第一参数矩阵和所述第二参数矩阵。

6.一种数据处理装置，该装置设置于深度学习模型的嵌入层中，其包括：

输入数据接收模块，用于接收输入数据；

7.根据权利要求6所述的装置，其中，所述特征向量获取模块包括：

查表处理模块，用于根据所述输入数据执行查表处理，获取与所述输入数据对应的矩阵行地址，根据该矩阵行地址，获取所述第一参数矩阵中对应的行作为所述第一特征向量；

乘法处理模块，用于将该第一特征向量与第二参数矩阵进行矩阵乘法，生成第二特征向量。

8.一种电子设备，包括：

存储器，用于存储程序；

9.一种数据处理方法，该方法应用于语义分析模型的词嵌入层中，所述词嵌入层包括第一参数矩阵和第二参数矩阵，所述第一参数矩阵与第二参加矩阵的乘积作为所述词嵌入层的词向量字典，该方法包括：

10.一种电子设备，包括：

存储器，用于存储程序；