CN110610450B

CN110610450B - 数据处理方法、电子设备和计算机可读存储介质

Info

Publication number: CN110610450B
Application number: CN201810618827.7A
Authority: CN
Inventors: 崔嵬; 王鲲
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2023-05-05
Anticipated expiration: 2038-06-15
Also published as: US20190385078A1; CN110610450A; US11475356B2

Abstract

本公开的实施例涉及数据处理方法、电子设备和计算机可读存储介质。该方法包括：获取用于学习的训练数据集中的第一子集和至少一个第二子集，所述第一子集和所述至少一个第二子集均具有相同的大小；基于所述第一子集和所述至少一个第二子集中的数据串来确定子串集合，所述子串集合中的子串是所述数据串的后缀子串，并且是按照字典序排序的；以及从所述子串集合中的相邻子串的最长公共前缀(CLP)长度的集合中确定用于所述训练数据集的去重处理的粒度，以用于所述去重处理。由此，可以自动预测针对不同训练数据集的去重处理的不同粒度，实现GPUaaS架构的普适性和灵活性。另外，可以提高去重率，减少网络资源的浪费，提高系统效率。

Description

数据处理方法、电子设备和计算机可读存储介质

技术领域

本公开的实施例涉及计算机领域，并且更具体地涉及数据处理方法、电子设备和计算机可读存储介质。

背景技术

目前，很多数据处理和计算的任务依赖于专用处理器来执行。例如，图形处理单元(GPU)作为一种常用的专用处理器，由于其高性能而被广泛地用作诸如高性能计算(HPC)、机器学习(ML)或深度学习(DL)之类的密集型计算任务的加速器。由于GPU之类的专用处理器的价格通常比较昂贵，如果每个用户只使用其本地的专用处理器，则专用处理器的总体使用率将非常低。当前，利用客户端-服务器模型建立了一种共享专用处理器的架构，例如称为GPU即服务(GPU as a service，简称为GPUaaS)，来改善专用处理器的利用率。

对于机器学习之类的应用而言，在GPUaaS架构中，往往需要在客户端和服务器之间传送大量的数据(例如图像)，从而会占用大量的网络带宽资源。考虑到此类应用中传送的数据中的重复性，已经提出使用数据去重处理来减少客户端和服务器之间传送的数据的量。然而，对于数据去重处理而言，选择适当的去重粒度尤为重要。因此，如何确定去重粒度成为目前的研究热点。

发明内容

根据本公开的示例实施例，提供了数据处理方法、电子设备和计算机可读存储介质。

在本公开的第一方面中，提供了一种数据处理方法。该方法包括：获取用于学习的训练数据集中的第一子集和至少一个第二子集，所述第一子集和所述至少一个第二子集均具有相同的大小；基于所述第一子集和所述至少一个第二子集中的数据串来确定子串集合，所述子串集合中的子串是所述数据串的后缀子串，并且是按照字典序排序的；以及从所述子串集合中的相邻子串的最长公共前缀(LCP)长度的集合中确定用于所述训练数据集的去重处理的粒度，以用于所述去重处理。

在本公开的第二方面中，提供了一种电子设备。该电子设备包括：处理单元；以及存储器，所述存储器存储有指令，所述指令在被所述处理单元执行时使得所述电子设备：获取用于学习的训练数据集中的第一子集和至少一个第二子集，所述第一子集和所述至少一个第二子集均具有相同的大小；基于所述第一子集和所述至少一个第二子集中的数据串来确定子串集合，所述子串集合中的子串是所述数据串的后缀子串，并且是按照字典序排序的；以及从所述子串集合中的相邻子串的LCP长度的集合中确定用于所述训练数据集的去重处理的粒度，以用于所述去重处理。

在本公开的第三方面中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，所述程序被处理器执行时实现根据本公开的第一方面所述的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了本公开实施例可以在其中实施的示例GPUaaS架构的示意图。

图2示出了利用图1的架构对深度学习模型进行训练的过程的示意图。

图3示出了根据本公开实施例的用于确定去重粒度的数据处理方法的流程图。

图4示出了根据本公开另一实施例的用于确定去重粒度的数据处理方法的流程图。

图5示出了根据本公开实施例的针对TensorFlow(TF)MNIST CNN(卷积神经网络)的去重率随训练轮数的变化的示意图。

图6示出了可以实施本公开实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例的描述中，以GPUaaS架构为例进行描述，但应理解到，本公开实施例的方案也可以适用于GPU以外的其它专用处理器的共享架构。

如前面提及的，GPUaaS通过构建客户端-服务器模型的方式将GPU功能作为一种服务提供。下面结合图1对此进行具体描述。图1示出了用于提供共享的专用处理器的架构100的示意图。这种架构100的示意图。如图所示，架构100可以包括客户端102、104、106、服务器108和网络114。虽然在图1中示出了三个客户端102、104、106和一个服务器108，但是本领域技术人员将理解的是，架构100可以包括任意数目的客户端和任意数目的服务器。

客户端102、104、106可以是通过网络114连接到服务器108的用户设备，例如台式计算机、膝上型计算机、平板电脑、智能手机等。客户端102、104、106上可以运行有应用程序，例如高性能计算应用、机器学习应用和深度学习应用等。

服务器108为客户端102、104、106上运行的应用提供共享的专用处理器，例如共享的GPU、共享的现场可编程门阵列(FPGA)等，以提供加速计算。服务器108可以包括专用处理器110、112。虽然图1仅仅示出了两个专用处理器110、112，但是本领域技术人员将理解的是，服务器108可以包括任意数目的专用处理器。除了专用处理器110、112以外，服务器108还可以包括未示出的其他部件，例如诸如中央处理单元(CPU)之类的通用处理器、存储系统等等。

客户端102、104、106向用户暴露虚拟的专用处理器接口(图1中未示出)。当客户端102、104、106上的应用程序请求调用虚拟的专用处理器接口时，在客户端102、104、106与服务器108之间建立远程过程调用(RPC)信道。利用所建立的RPC信道来传送表示专用处理器函数的命令。例如，这些命令可以包括将客户端102、104、106上的数据复制到专用处理器110、112上、运行专用处理器函数、将专用处理器110、112上的数据复制到客户端102、104、106等等。

图1所示的架构100可以被用于提升机器学习训练的性能。图2示出了在架构100下对机器学习模型进行训练的过程200的示意图。

数据集210用于训练机器学习模型。数据集210可以具有多个数据块201、202、203、204、205、206、207、208。例如，在训练用于面部识别的模型时，每个数据块可以表示一张面部图像；在训练用于语音识别的模型时，每个数据块可以表示一段语音，等等。数据集210可以存储在客户端102、104、106的存储器中，也可以存储在云中。

在利用数据集210训练模型期间，通常进行多轮的训练220、230。虽然在图2中仅示出了两轮训练，但是本领域技术人员将理解的是，本公开的实施例并不限于两轮训练。在每轮训练220、230中，都会对用于训练的数据集210进行完整的访问，以不断地完善所训练的模型。

每轮训练220、230由多个训练步骤组成。在每轮训练220、230中，数据集210首先被随机排序，然后针对不同的训练步骤被划分成大小相等的子集。如图2所示，在第一轮训练220中，数据集210被随机排序为数据块204、数据块205、数据块208、数据块201、数据块202、数据块207、数据块203、数据块206；而在第二轮训练230中，数据集被随机排序为数据块202、数据块203、数据块208、数据块206、数据块205、数据块207、数据块204、数据块201。本领域技术人员将理解的是，图2中所示的数据块的数目以及顺序只是示例性的，本公开的实施例并不限于此。

如图所示，随机排序的数据集210随后针对多个训练步骤被划分成大小相等的多个子集，每个子集需要从客户端102、104、106被复制到服务器108中的专用处理器110、112上，以供专用处理器110、112训练模型。例如，在第一轮训练220中，数据块204和数据块205用于步骤1，数据块208和数据块201用于步骤2，数据块202和数据块207用于步骤3，数据块203和数据块206用于步骤4。在第二轮训练230中，数据块202和203用于步骤1，数据块208和206用于步骤2，数据块205和207用于步骤3，数据块204和201用于步骤4。本领域技术人员将理解的是，图2中所示的步骤的数目以及子集中所包括的数据块的数目仅仅是示例性的，本公开的实施例并不限于此。

在每个训练步骤中，需要将用于该步骤的数据块从客户端102、104、106传送到服务器108。因此会造成在客户端102与服务器108之间传送大量重复的数据，使得在网络传输上上浪费时间和资源。如果网络带宽较低，将会导致专用处理器110、112一直等待数据，从而影响专用处理器110、112的性能。举例来说，在第一轮训练220的步骤1中需要将数据块204从客户端102发送到服务器108，而在第二轮训练230的步骤4中还需要将数据块204从客户端102发送到服务器108。随着训练轮数的不断增加，将会消耗更多的网络资源，甚至造成网络拥塞，这进而导致专用处理器110、112需要等待数据，从而影响专用处理器的性能。

针对这一问题，已经提出数据去重处理来减少由于传送大量重复数据而造成的资源和时间浪费。通常，针对不同的架构应用诸如Tensorflow、Keras、Caffe、Theano等，需要在应用层根据经验等预先指定相应的去重粒度以使得执行数据去重处理。对于GPUaaS架构的基础设施层而言，无法判断针对不同的应用应该使用哪种去重粒度。这样就限制了GPUaaS架构针对不同应用的普适性和灵活性。

鉴于此，本公开实施例的构思就在于，提供一种能够使得GPUaaS架构本身以透明且高效的方式自动确定去重粒度的方案。根据本构思，针对用于学习的训练数据集(例如图2的数据集210)，基于对一轮或多轮训练(例如图2的第一轮训练220和第二轮训练230)中的多个训练步骤(例如图2的步骤1至步骤4)对应的数据子集中的数据串，利用线性时间的后缀子串排序来确定子串集合，将子串集合中的相邻子串的LCP长度的集合作为用于训练该数据集的去重处理的粒度的候选集合，并且从候选集合中确定粒度用于去重处理。下面结合图3至图4描述根据本构思的具体实施例。

图3示出了根据本公开实施例的用于确定去重粒度的数据处理方法300的流程图。该方法300可以在图1所示的客户端102、104和106处实施，也可以在图1所示的服务器108处实施，本申请对此并不作限制。

如图3所示，在框310，可以获取用于学习的训练数据集(例如图2的210)中的第一子集(例如图2的步骤1中的数据块204和205)和至少一个第二子集(例如图2的步骤2中的数据块208和201)。根据本公开的实施例，第一子集和至少一个第二子集均具有相同的大小。例如在方法300在客户端102、104和106处实施的情况下，客户端102、104或106可以将训练数据集210等分成若干子集，从而获取到第一子集和至少一个第二子集。例如在方法300在服务器108处实施的情况下，服务器108可以接收来自客户端102、104或106的训练数据集210的各个子集，例如图2所示的步骤1至步骤4，从而获取到第一子集和至少一个第二子集。根据本公开的实施例，第一子集和第二子集可以是训练数据集210被等分得到的任意子集。

在框320，基于第一子集和至少一个第二子集中的数据串来确定子串集合，该子串集合中的子串是数据串的后缀子串且经字典序排序。根据本公开的实施例，这可以利用本领域已知的线性时间的后缀子串排序算法例如DC3算法、倍增算法等来实现。当然，应理解到，也可以利用本领域已知或未来开发的其它类似算法来实现。

在本公开的实施例中，针对每个第二子集都确定相应的子串集合。假设第一子集对应于第一数据串A，并且第二子集对应于第二数据串B。根据本公开的实施例，可以通过在第一数据串A与第二数据串B之间插入分隔符(例如$)来拼接第一数据串和第二数据串，并且基于对拼接后的数据串的后缀子串的字典序排序来确定子串集合。

例如，假设A＝“abccccfee”并且B＝“feeaacccc”，则拼接后的数据串可以为“abccccfee$feeaacccc”。由此可以确定拼接后的数据串的后缀子串如下：

abccccfee$feeaacccc

bccccfee$feeaacccc

ccccfee$feeaacccc

cccfee$feeaacccc

ccfee$feeaacccc

cfee$feeaacccc

fee$feeaacccc

ee$feeaacccc

e$feeaacccc

$feeaacccc

feeaacccc

eeaacccc

eaacccc

aacccc

acccc

cccc

ccc

cc

c

上述后缀子串经字典序排序后如下：

aacccc abccccfee$feeaacccc

acccc bccccfee$feeaacccc

c

cc

ccc

cccc

ccccfee$feeaacccc

cccfee$feeaacccc

ccfee$feeaacccc

cfee$feeaacccc

eaacccc

eeaacccc

ee$feeaacccc

e$feeaacccc

fee$feeaacccc

feeaacccc

$feeaacccc

由此可以确定出子串集合。这里为了便于描述，上面仅以简意形式示意数据串，数据串并不限于上述形式。

在框330，从子串集合中的相邻子串的LCP长度的集合中确定用于训练数据集的去重处理的粒度，以用于去重处理。例如，根据上面确定的子串集合，可以确定对应的相邻子串的LCP长度(表示为height)的集合以及子串长度(表示为sub-length)的集合如下：height＝0,sub-length＝6

height＝1,sub-length＝19

height＝1,sub-length＝5

height＝0,sub-length＝18

height＝0,sub-length＝1

height＝1,sub-length＝2

height＝2,sub-length＝3

height＝3,sub-length＝4

height＝4,sub-length＝17

height＝3,sub-length＝16

height＝2,sub-length＝15

height＝1,sub-length＝14

height＝0,sub-length＝7

height＝1,sub-length＝8

height＝2,sub-length＝12

height＝1,sub-length＝11

height＝0,sub-length＝13

height＝3,sub-length＝9

height＝0,sub-length＝10

在根据本公开实施例的方案中，将子串集合中的子串对应的LCP长度的集合作为用于去重处理的粒度的候选集合，并且从候选集合中确定粒度。由于采用线性时间的后缀子串排序方法得到子串集合，因此计算复杂度较低且成本开销较低。

应理解到，可以基于任意合适准则，从上述确定的候选集合中选择适当的LCP长度，作为去重处理的粒度。根据本公开的实施例，可以基于第一子集A的长度(即，大小)和候选集合中的每个LCP长度，从候选集合中确定粒度。在一些实施例中，可以从候选集合中选择能够将第一子集A的长度等分的任意LCP长度作为粒度。在一些实施例中，可以从候选集合中去除小于预定值的LCP长度，并且从保留的LCP长度中选择任意LCP长度作为粒度。

根据本公开的备选实施例，可以基于第一子集A的长度和每个子串的长度，从候选集合中确定粒度。在一些实施例中，可以从候选集合中去除相邻子串间的长度差小于第一子集A的长度的这些相邻子串的LCP长度，并且从保留的LCP长度中选择任意LCP长度作为粒度。在一些实施例中，可以从候选集合中去除其中均不包括间隔符或均包括间隔符的相邻子串对应的LCP长度，并且从保留的LCP长度中选择任意LCP长度作为粒度。

根据本公开的其它实施例，可以基于每个子串在各个第二子集B对应的子串集合中出现的次数，从候选集合中确定粒度。在一些实施例中，可以从候选集合中去除次数最多和次数最少的子串对应的LCP长度，并且从保留的LCP长度中选择任意LCP长度作为粒度。在一些实施例中，可以选择子串出现的次数与子串的长度的乘积最大的子串对应的LCP长度作为粒度。

应理解到，根据需要，这些粒度确定方式可以单独或结合使用。下面结合图4详细描述根据本公开实施例的从候选集合中确定粒度的示例性实施。图4示出了根据本公开另一实施例的用于确定去重粒度的数据处理方法400的流程图。在本实施例中可以结合使用上述粒度确定方式来从候选集合中筛选出粒度。该方法400可以在图1所示的客户端102、104和106处实施，也可以在图1所示的服务器108处实施，本申请对此并不作限制。

如图4所示，在框401，针对候选集合中的每个LCP长度(height)，确定第一子集A的长度和该LCP长度的模运算结果。在框402，判断模运算结果是否大于零。响应于在框402判定模运算结果大于零，进入框410，从候选集合中去除相应的LCP长度。响应于在框402判定模运算结果等于零，进入框403以执行后续筛选处理。通过框401至402的处理，可以去除无法将子集A的长度等分的LCP长度。

在框403，判断所保留的每个LCP长度是否小于或等于预定值。根据本公开的实施例，预定值可以根据需要来任意设置。响应于在框403判定LCP长度小于或等于预定值，进入框410，从候选集合中去除相应的LCP长度。响应于在框403判定LCP长度大于预定值，进入框404。通过框403的处理，可以去除过小的LCP长度。

经框401至403的筛选后，在框404，判断候选集合中是否仅剩一个LCP长度。响应于在框404判定仅剩一个LCP长度，则进入框409，将该LCP长度确定为去重粒度。

沿用上例，第一子集A＝“abccccfee”，其长度为9。假设预定值被设置为1，在经过框410至430的处理后，候选集合被筛选如下：

height＝3,sub-length＝9

可见，在本例中经框401至框403的筛选后，候选集合中仅剩下LCP长度3，其将被确定为去重粒度。

经由框401至403的筛选处理，可以有助于快速地确定去重粒度。这对于真实训练数据集而言通常是足够的，因为这些数据集中的数据完全随机因而粒度大。然而，经由框401至403的筛选处理后，也可能会存在仍有多个LCP长度的情况。

作为另一示例，假设第一子集A＝“abababcccccc”并且第二子集B＝“ddababababab”，则第一子集A的长度为12。在候选集合中包括多个LCP长度：{2,3,4,5,6,7,8}。经由框401至403的处理后，候选集合缩减为{2,3,6}。因此，需要继续筛选以确定去重粒度。

继而参照图4，响应于在框404判定在候选集合中还存在多个LCP长度，则进入框405以继续进行筛选。在框405，判断子串集合中的相邻子串的长度差是否小于或等于第一子集的长度。

响应于在框405判定两个相邻子串的长度差小于或等于第一子集的长度，则进入框410，将这两个相邻子串对应的LCP长度都从候选集合中去除。响应于在框405判定两个相邻子串的长度差大于第一子集的长度，则进入框406，判断候选集合中是否仅剩一个LCP长度。响应于在框404判定仅剩一个LCP长度，则进入框409，将该LCP长度确定为去重粒度。

沿用上例，经由框405的处理后，候选集合被筛选如下：

…

…

其中仅剩下LCP长度6，其将被确定为去重粒度。然而，经过框401至405的筛选处理后，仍可能存在候选集合中有多个LCP长度的情况。对于这种情况，在一些实施例中，可以从中随机选择一个LCP长度作为粒度。这样可能会影响去重率。为了获得最高去重率，在一些实施例中，可以基于子串在各个子串集合中出现的次数来继续筛选。

参照图4，响应于在框406判定候选集合中还有多个LCP长度，则进入框407。在框407，确定每个子串在各个第二子集B对应的子串集合中出现的次数与其长度的乘积。在框408，将乘积最大的子串对应的LCP长度确定为去重粒度。

作为另一示例，假设第一子集A的大小为1053696字节，在候选集合中存在：(1)351232字节的LCP长度，其对应子串在各个子串集合中出现2次；(2)87808字节的LCP长度，其对应子串在各个子串集合中出现640次；(3)1568字节的LCP长度，其对应子串在各个子串集合中出现1300次。

经框407至框408的处理后，可以确定87808字节的LCP长度作为去重粒度。可见，该LCP长度不是最大的，但作为去重粒度可以具有最高去重率。

应理解到，图4的实施方案仅为示例，本申请并不限于此。在一些实施例中，可以仅包括上述筛选处理中的一些处理。在一些实施例中，这些筛选处理的使用顺序可以不同。在一些实施例中，可以包括更多筛选处理。

此外，根据本公开的实施例确定的去重粒度可以用于本领域已知或未来开发的任意数据去重处理中。关于数据去重处理的具体操作，这里不再赘述，以免混淆本发明。

本发明人针对不同框架下的应用进行了验证。去重粒度的预测结果如下：

以TF MNIST CNN为例描述根据本公开实施例的去重结果。图5示出了根据本公开实施例的针对TF MNIST CNN的去重率随训练轮数的变化的示意图。从图5中可见，通过本公开实施例的自动预测去重粒度的方案，在其第二轮训练后的去重率将逐步增加到100％。这是因为所有随机排序后的数据实际上仍然在整个数据集的范围内。

另外，本发明人还通过网络入站/出站降低率进行了验证。结果如下：

针对MNIST：32/(748*4)＝1.02％，这表明当在训练期间遍历了整个数据集时，网络入站/出站降低率将变为少于1.02％。

针对CIFAR10：32/(1024*3*4)＝0.26％，这表明当在训练期间遍历了整个数据集时，网络入站/出站降低率将变为少于0.26％。

针对InceptionV3：32/(224*224*3*4)＝0.005％，这表明当在训练期间遍历了整个数据集时，网络入站/出站降低率将变为少于0.005％。

可见，根据本公开实施例的方案，可以高效且透明地自动预测用于不同训练数据集的去重处理的不同粒度，实现GPUaaS架构的普适性和灵活性。另外，可以提高去重率，减少网络资源的浪费，并且提高系统效率。

图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的客户端102、104、106和服务器108两者。如图6所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元601执行上文所描述的各个方法和处理，例如方法300和/或方法400。例如，在一些实施例中，方法300和/或方法400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由CPU 601执行时，可以执行上文描述的方法300和/或方法400的一个或多个步骤。备选地，在其他实施例中，CPU 601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法300和/或方法400。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种数据处理方法，包括：

获取用于学习的训练数据集中的第一子集和至少一个第二子集，所述第一子集和所述至少一个第二子集均具有相同的大小；

基于所述第一子集和所述至少一个第二子集中的数据串来确定子串集合，所述子串集合中的子串是所述数据串的后缀子串，并且是按照字典序排序的；以及

从所述子串集合中的相邻子串的最长公共前缀LCP长度的集合中确定用于所述训练数据集的去重处理的粒度，以用于所述去重处理。

2.根据权利要求1所述的方法，其中确定所述子串集合包括：

针对所述至少一个第二子集中的每个第二子集：

通过在所述第一子集对应的第一数据串与所述第二子集对应的第二数据串之间插入分隔符，来拼接所述第一数据串和所述第二数据串；以及

基于对拼接后的数据串的后缀子串的字典序排序，确定所述子串集合。

3.根据权利要求1所述的方法，其中确定所述粒度包括：

基于所述第一子集的长度和所述LCP长度的集合中的每个LCP长度，从所述LCP长度的集合中确定所述粒度。

4.根据权利要求3所述的方法，其中确定所述粒度包括：

针对所述LCP长度的集合中的每个LCP长度，确定所述第一子集的长度与所述LCP长度的模运算结果；

响应于所述模运算结果大于零，从所述LCP长度的集合中去除所述LCP长度；以及

从经去除的所述LCP长度的集合中确定所述粒度。

5.根据权利要求3所述的方法，其中确定所述粒度包括：

针对所述LCP长度的集合中的每个LCP长度，将所述LCP长度与预定值比较；

响应于所述LCP长度小于或等于所述预定值，从所述LCP长度的集合中去除所述LCP长度；以及

从经去除的所述LCP长度的集合中确定所述粒度。

6.根据权利要求1所述的方法，其中确定所述粒度包括：

基于所述第一子集的长度和每个子串的长度，从所述LCP长度的集合中确定所述粒度。

7.根据权利要求6所述的方法，其中确定所述粒度包括：

将相邻子串之间的长度差与所述第一子集的长度比较；

响应于所述长度差小于或等于所述第一子集的长度，从所述LCP长度的集合中去除所述相邻子串分别对应的LCP长度；以及

从经去除的所述LCP长度的集合中确定所述粒度。

8.根据权利要求1所述的方法，其中确定所述粒度包括：

基于每个所述子串在各个所述第二子集对应的子串集合中出现的次数，从所述LCP长度的集合中确定所述粒度。

9.根据权利要求8所述的方法，其中确定所述粒度包括：

确定每个所述子串在各个所述第二子集对应的子串集合中出现的次数与其长度的乘积；以及

将所述乘积最大的所述子串对应的LCP长度确定为所述粒度。

10.一种电子设备，包括：

处理器；以及

存储器，所述存储器存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

11.根据权利要求10所述的电子设备，其中所述存储器还存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

针对所述至少一个第二子集中的每个第二子集：

12.根据权利要求10所述的电子设备，其中所述存储器还存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

13.根据权利要求12所述的电子设备，其中所述存储器还存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

从经去除的所述LCP长度的集合中确定所述粒度。

14.根据权利要求12所述的电子设备，其中所述存储器还存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

从经去除的所述LCP长度的集合中确定所述粒度。

15.根据权利要求10所述的电子设备，其中所述存储器还存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

16.根据权利要求15所述的电子设备，其中所述存储器还存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

将相邻子串之间的长度差与所述第一子集的长度比较；

从经去除的所述LCP长度的集合中确定所述粒度。

17.根据权利要求10所述的电子设备，其中所述存储器还存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

18.根据权利要求17所述的电子设备，其中所述存储器还存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

将所述乘积最大的所述子串对应的LCP长度确定为所述粒度。

19.一种计算机可读存储介质，其存储有计算机可执行指令，所述计算机可执行指令在被执行时使得机器执行根据权利要求1-9中任一项所述的方法。