CN110399413A

CN110399413A - 数据抽样方法、装置、存储介质和处理器

Info

Publication number: CN110399413A
Application number: CN201910599090.3A
Authority: CN
Inventors: 李玮巍; 吴明璞; 李刚毅
Original assignee: BEYONDSOFT Corp
Current assignee: BEYONDSOFT Corp
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-11-01

Abstract

本发明公开了一种数据抽样方法、装置、存储介质和处理器。其中，该方法包括：获取分布式存储系统中的数据分布信息，其中，分布式存储系统包括多个存储分区，数据分布信息用于表示每个存储分区的数据分布情况；根据数据分布信息，确定每个存储分区对应的抽样条件，其中，抽样条件包括如下至少之一:抽样比例、抽样数量；按照抽样条件对存储分区进行数据抽样，得到抽样结果。本发明解决了基于分布式存储系统进行数据抽样的效率较低的技术问题。

Description

数据抽样方法、装置、存储介质和处理器

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据抽样方法、装置、存储介质和处理器。

背景技术

在数据处理的过程中，可以通过机器学习或人工智能的技术来实现。若需要处理的数据量比较少，那么可以对所有的数据进行处理，例如，可以通过机器学习或人工智能的技术使用所有的数据来训练或更新数据处理模型(如机器学习模型)。但是，如果需要处理的数据量比较大(如大数据的处理过程)，此时若对全部的数据进行处理，则处理过程较慢，因此，可以从海量的数据中抽取部分样本数据，通过对样本数据的处理，来代表对全部数据的处理情况。

对于海量的数据(如大数据)的存储，目前通常会采用分布式存储技术，因此，在对海量的数据进行抽样的过程中，需要从分布式架构的存储系统中抽取部分抽样数据。

但是，已存储在分布式存储系统中的哈希分布与机器学习模型所需数据的键值不同，所以无法直接从分布式存储系统的各节点中抽取特定比例，或特定数量的样本数据。

因此，在基于分布式存储系统进行数据抽样的过程中，一般的做法是：将分布式存储系统中的所有数据统一加载到同一个存储空间(如系统内存)中，然后再对存储空间中的全部数据进行抽样。但是，在基于分布式存储系统进行数据抽样的过程中，由于需要先将全部数据加载到同一存储空间，然后才能进行数据抽样，这增加了抽样过程的空间开销，降低抽样效率。

针对上述基于分布式存储系统进行数据抽样的效率较低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据抽样方法、装置、存储介质和处理器，以至少解决基于分布式存储系统进行数据抽样的效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种数据抽样方法，包括：获取分布式存储系统中的数据分布信息，其中，所述分布式存储系统包括多个存储分区，所述数据分布信息用于表示每个所述存储分区的数据分布情况；根据所述数据分布信息，确定每个所述存储分区对应的抽样条件，其中，所述抽样条件包括如下至少之一:抽样比例、抽样数量；按照所述抽样条件对所述存储分区进行数据抽样，得到抽样结果。

进一步地，获取分布式存储系统的数据分布信息包括以下至少之一：根据数据抽样的应用场景，确定各所述存储分区中主键值和除所述主键值以外的其他候选键值的数据分布信息；或根据使用数据抽样所得样本数据的机器学习模型，确定各所述存储分区中所述机器学习模型所用字段数据的数据分布信息；或根据数据时间或指定字段数据，确定各所述存储分区中数据的时间分布信息，或指定字段数据的数据分布信息。

进一步地，所述抽样结果用于训练机器学习模型，根据所述数据分布信息，确定每个所述存储分区对应的抽样条件包括以下至少之一：根据训练所述机器学习模型所需第一指定数据的数据分布信息，确定每个所述存储分区最低的所述抽样条件；或根据训练所述机器学习模型所需第二指定数据的数据量，结合所述第二指定数据的数据分布信息分布情况，确定每个所述存储分区最低的所述抽样条件。

进一步地，按照所述抽样条件，在所述抽样条件对应所述存储分区中进行数据抽样包括：对每个所述存储分区中存储的数据进行乱序处理；按照所述抽样条件，在所述抽样条件对应所述存储分区中对乱序处理后的数据进行数据抽样，其中，所述数据抽样的方式至少包括：简单随机抽样，或分层随机抽样。

进一步地，在得到抽样结果之后，所述方法还包括：对所述抽样结果进行预处理；基于所述预处理后的抽样结果，训练机器学习模型。

进一步地，对所述抽样结果进行预处理包括以下至少之一：对从不同的所述存储分区中抽取的所述抽样结果进行重新聚合；或所述抽样结果进行索引和切片；或填充所述抽样结果的缺失项；或修正所述抽样结果的错误项。

进一步地，填充所述抽样结果的缺失项包括以下至少之一：根据所述抽样结果中多个数据的数值平均值或中位数，填充所述缺失项；或根据与所述缺失项关联的数据，填充所述缺失项；或根据所述抽样结果中多个数据的数值分布及概率，填充所述缺失项。

进一步地，修正所述抽样结果包括以下至少之一：根据所述抽样结果中多个数据的数值平均值或中位数，修正所述错误项；或根据与所述缺失项关联的数据，修正所述错误项；或根据所述抽样结果中多个数据的数值分布及概率，修正所述错误项。

根据本发明实施例的另一方面，还提供了一种数据抽样装置，包括：获取单元，用于获取分布式存储系统中的数据分布信息，其中，所述分布式存储系统包括多个存储分区，所述数据分布信息用于表示每个所述存储分区的数据分布情况；确定单元，用于根据所述数据分布信息，确定每个所述存储分区对应的抽样条件，其中，所述抽样条件包括如下至少之一:抽样比例、抽样数量；抽样单元，用于按照所述抽样条件对所述存储分区进行数据抽样，得到抽样结果。

在本发明实施例中，在对分布式存储系统中存储的数据进行抽样的过程中，可以获取用于表示分布式存储系统中多个存储分区数据分布情况的数据分布信息，再根据各存储分区对应的数据分布信息，确定每个存储分区的抽样条件，如抽样比例、或抽样数量，然后再按照各存储分区的抽样条件，在对应的存储分区中进行数据抽样，得到数据抽样结果，从而可以直接对分布式存储系统中存储的数据进行抽样，而无需将分布式存储系统中全部数据导入系统内存再进行数据抽样，降低抽样的复杂程度，达到了提高对分布式存储系统进行数据抽样的效率的技术效果，进而解决了基于分布式存储系统进行数据抽样的效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种数据抽样方法的流程图；

图2是根据本发明实施例的一种数据抽样系统的示意图；

图3是根据本发明实施例的一种数据分布评估组件的示意图；

图4是根据本发明实施例的一种数据抽样组件的示意图；

图5是根据本发明实施例的一种数据处理组件的示意图；

图6是根据本发明实施例的一种模型训练组件的示意图；

图7是根据本发明实施例的一种数据抽样装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种数据抽样方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据抽样方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取分布式存储系统中的数据分布信息，其中，分布式存储系统包括多个存储分区，数据分布信息用于表示每个存储分区的数据分布情况；

步骤S104，根据数据分布信息，确定每个存储分区对应的抽样条件，其中，抽样条件包括如下至少之一:抽样比例、抽样数量；

步骤S106，按照抽样条件对存储分区进行数据抽样，得到抽样结果。

通过上述步骤，在对分布式存储系统中存储的数据进行抽样的过程中，可以获取用于表示分布式存储系统中多个存储分区数据分布情况的数据分布信息，再根据各存储分区对应的数据分布信息，确定每个存储分区的抽样条件，如抽样比例、或抽样数量，然后再按照各存储分区的抽样条件，在对应的存储分区中进行数据抽样，得到数据抽样结果，从而可以直接对分布式存储系统中存储的数据进行抽样，而无需将分布式存储系统中全部数据导入系统内存再进行数据抽样，降低抽样的复杂程度，达到了提高对分布式存储系统进行数据抽样的效率的技术效果，进而解决了基于分布式存储系统进行数据抽样的效率较低的技术问题。

在步骤S102提供的方案中，分布式存储系统，是将数据分散存储在多台独立设备(如存储分区)上，利用多台服务器(即多个存储分区)分担存储负荷，不但提高了系统的可能性、可用性和存取效率，并且易于扩展。

需要说明的是，每个存储分区可以是独立的存储服务器或数据库。

可选地，数据分布信息至少可以用于表示分布式存储系统中各存储分区存储的数据量。

需要说明的是，在分布式存储系统中，可以通过哈希表来表示各数据在分布式存储系统中的位置，其中，哈希表中可以通过键值对(key value)的形式表示数据在分布式系统中的存储位置，其中，键(key)用于表示对应的数据，值(value)用于表示该数据在分布式存储系统中的存储地址。

例如，数据A的键(key)为a，以a为索引，可以在哈希表中查询a对应的值(value)为b，则b即为数据A在分布式存储系统中的存储地址，进而在需要提取数据A时，可以直接读取存储地址b所在位置的数据。

需要说明的是，键(key)至少包括：超键(super key)、候选键(candidate key)和主键(primary key)，其中，超键(super key)，即关系模式的超键，在关系中能唯一标识元组的属性集；候选键(candidate key)，为不含多余属性的超键(super key)；主键(primarykey)，为选作元组标识的候选键(candidate key)。

可选地，分布式存储系统中的每个数据存在对应的键(key)，则基于分布式存储系统的哈希表确定的数据分布信息，即键(key)的数值分布。

可选地，在对分布式存储系统进行拓扑分析，其中，拓扑分析中的每个节点对应一个存储分区。

可选地，在获取分布式存储系统中的数据分布信息前，可以分析分布式存储系统中的数据分布情况，例如，对分布式存储系统进行拓扑分析，确定每个拓扑节点的数据分布勤快，从而得到数据分别信息。

作为一种可选的实施例，获取分布式存储系统中的数据分布信息包括以下至少之一：根据数据抽样的应用场景，确定各存储分区中主键值和除主键值以外的其他候选键值的数据分布信息；或根据使用数据抽样所得样本数据的机器学习模型，确定各存储分区中机器学习模型所用字段数据的数据分布信息；或根据数据时间或指定字段数据，确定各存储分区中数据的时间分布信息，或指定字段数据的数据分布信息。

可选地，抽样结果可以用于训练机器学习模型，则抽样结果应该是训练机器模型所需使用的字段数据，因此可以根据该字段数据的数据分布信息。

可选地，可以根据数据的时间属性(即数据时间)，确定各存储分区中各数据基于时间属性的数据分布信息。

可选地，可以对每个存储分区中指定字段数据的数据分别信息。

在步骤S104提供的方案中，根据数据分布信息，确定每个存储分区对应的抽样条件包括但不限于：根据每个存储分区对应的数据分布信息，确定每个存储分区对应的抽样条件；或根据分布式存储系统中全部存储分区的数据分别信息，确定每个存储分区对应的抽样条件。

作为一种可选的实施例，抽样结果用于训练机器学习模型，根据数据分布信息，确定每个存储分区对应的抽样条件包括以下至少之一：根据训练机器学习模型所需第一指定数据的数据分布信息，确定每个存储分区最低的抽样条件；或根据训练机器学习模型所需第二指定数据的数据量，结合第二指定数据的数据分布信息分布情况，确定每个存储分区最低的抽样条件。

需要说明的是，第一指定数据和第二指定数据可以是同一种数据。

可选地，在确定训练机器学习模型所需数据为第一指定数据的情况下，可以根据第一指定数据的数据分布信息，确定每个存储分区最低的抽样比例，或抽样数量，从而得到用于训练机器学习模型的第一指定数据。

可选地，在确定训练机器学习模型所需数据为第二指定数据的情况下，需要指定数量的第二指定数据才可以完成对机器学习模型的训练，则根据训练机器学习模型所需第二指定数据的数量，以及第二指定数据在各存储分区的数据分布信息，确定每个存储分区最低的抽样比例，或抽样数量，从而得到符合机器学习模型训练所需数据量的第二指定数据。

可选地，可以人工设定固定的数值来确定每个存储分区的抽样比例或抽样数量。例如，可以根据分布式存储系统中各存储分区中的数据分布情况，人为设定每个存储分区的抽样比例或抽样数量；还可以人为设定所需抽出数据的数据量，或抽取的数据比例，然后结合分布式存储系统中多个或全部存储分区中的数据分布情况，确定每个存储分区的抽样比例或抽样数量。

作为一种可选的实施例，按照抽样条件，在抽样条件对应存储分区中进行数据抽样包括：对每个存储分区中存储的数据进行乱序处理；按照抽样条件，在抽样条件对应存储分区中对乱序处理后的数据进行数据抽样，其中，数据抽样的方式至少包括：简单随机抽样，或分层随机抽样。

本发明上述实施例，在对每个存储分区进行数据抽样的过程中，可以将每个存储分区中的数据进行乱序处理，然后再对乱序处理后的数据采用简单随机抽样，或分层随机抽样的方式进行数据抽样。

作为一种可选的实施例，在得到抽样结果之后，方法还包括：对抽样结果进行预处理；基于预处理后的抽样结果，训练机器学习模型。

需要说明的是，抽样结果还可以用于对机器学习模型进行维护或更新。

本发明上述实施例，抽样结果可以用于训练机器学习模型，为了使抽样结果更加符合机器学习模型的使用需求，可以对抽样结果进行预处理，从而使抽样结果更加符合机器学习模型的使用需求。

作为一种可选的实施例，对抽样结果进行预处理包括以下至少之一：对从不同的所述存储分区中抽取的所述抽样结果进行重新聚合；或对抽样结果进行索引和切片；或填充抽样结果的缺失项；或修正抽样结果的错误项。

可选地，对所述抽样结果进行重新聚合是指，通过从分布式集群(即分布式存储系统)的不同节点上抽样得到的数据片(即抽样结果)依据应用场景的需求进行重新聚合(Aggregate)以适应下一步机器学习过程的需要。

作为一种可选的实施例，填充抽样结果的缺失项包括以下至少之一：根据抽样结果中多个数据的数值平均值或中位数，填充缺失项；或根据与缺失项关联的数据，填充缺失项；或根据抽样结果中多个数据的数值分布及概率，填充缺失项。

作为一种可选的实施例，修正抽样结果包括以下至少之一：根据抽样结果中多个数据的数值平均值或中位数，修正错误项；或根据与缺失项关联的数据，修正错误项；或根据抽样结果中多个数据的数值分布及概率，修正错误项。

本发明还提供了一种优选实施例，该优选实施例提供了一种适应分布式存储系统的机器学习数据抽样系统。

本发明提供的技术方案，是基于分布式存储系统进行的数据抽样，尤其是对机器学习领域、人工智能领域和大数据领域所涉及的分布式存储系统及所进行的数据抽样，可以提高抽样效率，进而在保证机器学习或人工智能模型的准确性的前提下，压缩适用于训练与更新机器学习模型或人工智能模型的数据量，提高模型训练效率。

图2是根据本发明实施例的一种数据抽样系统的示意图，如图2所示，该系统包括：数据评估模块21、数据抽样模块23、处理训练模块25，其中，数据评估模块21包括：数据分布评估组件211；数据抽样模块23包括：与数据分布评估组件211相连的数据抽样组件231；处理训练模块25包括：与数据抽样组件231相连的数据处理组件251，和模型训练组件253。

图3是根据本发明实施例的一种数据分布评估组件的示意图，如图3所示，数据分布评估组件用于执行以下步骤：

步骤S302，根据应用场景，确定原始的分布式存储系统中各存储分区的主键值及其他候选键值的数值分布；

步骤S304，根据特定的机器学习模型，确定原始的分布式存储系统中各分区的所用字段数据的数值分布；

步骤S306，根据时间数据或特定字段，确定原始的分布式存储系统中各分区的所用字段数据的时间数据或特定字段的数值分布。

图4是根据本发明实施例的一种数据抽样组件的示意图，如图4所示，数据抽样组件用于执行以下步骤：

步骤S402，根据原始的分布式存储系统各存储分区的数据分布信息，确定数据抽样比例或抽样数量；

步骤S404，将原始的分布式存储系统中不同数据分区的数据排序随机打乱；

步骤S406，按照数据抽样比例或抽样数量对存储在原始的分布式存储系统中的乱序数据进行简单或分层随机抽样。

图5是根据本发明实施例的一种数据处理组件的示意图，如图5所示，数据处理组件用于执行以下步骤中的至少之一：

步骤S502，对数据依据时间或特定字段和分布特征进行分割；

步骤S504，对数据依据数据库架构和应用场景进行组合；

步骤S506，将所需数据依照字段过滤并提取；

步骤S508，将提取的数据以时间或特定字段为索引切片；

步骤S510，对数据中的缺失值依照其他相关信息及统计信息进行填充；

步骤S512，对数据中不符合其他相关信息及统计信息的错误数值进行修正。

图6是根据本发明实施例的一种模型训练组件的示意图，如图6所示，模型训练组件用于执行以下任意步骤：

步骤S602，利用经过预处理的抽样数据训练模型；

步骤S604，利用经过预处理的抽样数据维护模型。

本发明提供的技术方案，不需要将所有数据全部用于机器学习及人工智能的模型训练或更新，而直接从已有的分布式存储系统上对数据进行抽样，用抽样数据代替原始数据进行模型训练或更新，从而解决了机器学习及人工智能模型在大数据领域因硬件平台限制难以用全量数据训练和维护的问题。

本发明提供的技术方案，不需要将在分布式存储系统上的数据全部加载到同一个系统内存上，而是直接从每个分布式存储系统分区上抽样的方式选取数据进行预处理及模型训练和更新，通过数据抽样就能完成全量数据训练和更新的准确度，并且大大降低了模型训练的时间和空间开销，从而解决了机器学习及人工智能模型在大数据领域训练和更新时效率低下的问题。

本发明提供的技术方案，不需要进行多次重复抽样，而是直接在每个分布式存储系统分区上直接抽样，再根据实际应用场景及模型特性，将数据按一定的比例或数量进行处理，从而解决了分布式存储系统中可能因不同存储分区中数据哈希分布不均匀而导致的抽样误差过大的问题。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述任一项所述的数据抽样方法。

根据本发明的又一个实施例，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任一项所述的数据抽样方法。

根据本发明实施例，还提供了一种数据抽样装置，需要说明的是，该数据抽样装置可以用于执行本发明实施例中的数据抽样方法，本发明实施例中的数据抽样方法可以在该数据抽样装置中执行。

图7是根据本发明实施例的一种数据抽样装置的示意图，如图7所示，该装置可以包括：

获取单元71，用于获取分布式存储系统中的数据分布信息，其中，分布式存储系统包括多个存储分区，数据分布信息用于表示每个所述存储分区的数据分布情况；确定单元73，用于根据数据分布信息，确定每个存储分区对应的抽样条件，其中，抽样条件包括如下至少之一:抽样比例、抽样数量；抽样单元75，用于按照抽样条件对存储分区进行数据抽样，得到抽样结果。

需要说明的是，该实施例中的获取单元71可以用于执行本申请实施例中的步骤S102，该实施例中的确定单元73可以用于执行本申请实施例中的步骤S104，该实施例中的抽样单元75可以用于执行本申请实施例中的步骤S106。上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

本发明上述实施例，在对分布式存储系统中存储的数据进行抽样的过程中，可以获取用于表示分布式存储系统中多个存储分区数据分布情况的数据分布信息，再根据各存储分区对应的数据分布信息，确定每个存储分区的抽样条件，如抽样比例、或抽样数量，然后再按照各存储分区的抽样条件，在对应的存储分区中进行数据抽样，得到数据抽样结果，从而可以直接对分布式存储系统中存储的数据进行抽样，而无需将分布式存储系统中全部数据导入系统内存再进行数据抽样，降低抽样的复杂程度，达到了提高对分布式存储系统进行数据抽样的效率的技术效果，进而解决了基于分布式存储系统进行数据抽样的效率较低的技术问题。

作为一种可选的实施例，获取单元包括以下至少之一：第一确定模块，用于根据数据抽样的应用场景，确定各存储分区中主键值和除主键值以外的其他候选键值的数据分布信息；或第二确定模块，用于根据使用数据抽样所得样本数据的机器学习模型，确定各存储分区中机器学习模型所用字段数据的数据分布信息；或第三确定模块，用于根据数据时间或指定字段数据，确定各存储分区中数据的时间分布信息，或指定字段数据的数据分布信息。

作为一种可选的实施例，抽样结果用于训练机器学习模型，确定单元包括以下至少之一：第四确定模块，用于根据训练机器学习模型所需第一指定数据的数据分布信息，确定每个存储分区最低的抽样条件；或第五确定模块，用于根据训练机器学习模型所需第二指定数据的数据量，结合第二指定数据的数据分布信息分布情况，确定每个存储分区最低的抽样条件。

作为一种可选的实施例，抽样单元包括：打乱模块，用于对每个存储分区中存储的数据进行乱序处理；抽样模块，用于按照抽样条件，在抽样条件对应存储分区中对乱序处理后的数据进行数据抽样，其中，数据抽样的方式至少包括：简单随机抽样，或分层随机抽样。

作为一种可选的实施例，装置还包括：预处理单元，用于在得到抽样结果之后，对抽样结果进行预处理；训练单元，用于基于预处理后的抽样结果，训练机器学习模型。

作为一种可选的实施例，预处理单元包括以下至少之一：聚合模块，用于对从不同的所述存储分区中抽取的所述抽样结果进行重新聚合；或预处理模块，用于对抽样结果进行索引和切片；或填充模块，用于填充抽样结果的缺失项；或修正模块，用于修正抽样结果的错误项。

作为一种可选的实施例，填充模块包括以下至少之一：第一填充子模块，用于根据抽样结果中多个数据的数值平均值或中位数，填充缺失项；或第二填充子模块，用于根据与缺失项关联的数据，填充缺失项；或第三填充子模块，用于根据抽样结果中多个数据的数值分布及概率，填充缺失项。

作为一种可选的实施例，修正模块包括以下至少之一：第一修正子模块，用于根据抽样结果中多个数据的数值平均值或中位数，修正错误项；或第二修正子模块，用于根据与缺失项关联的数据，修正错误项；或第三修正子模块，用于根据抽样结果中多个数据的数值分布及概率，修正错误项。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据抽样方法，其特征在于，包括：

获取分布式存储系统中的数据分布信息，其中，所述分布式存储系统包括多个所述存储分区，所述数据分布信息用于表示每个所述存储分区的数据分布情况；

根据所述数据分布信息，确定每个所述存储分区对应的抽样条件，其中，所述抽样条件包括如下至少之一:抽样比例、抽样数量；

按照所述抽样条件对所述存储分区进行数据抽样，得到抽样结果。

2.根据权利要求1所述的方法，其特征在于，获取分布式存储系统的数据分布信息包括以下至少之一：

根据数据抽样的应用场景，确定各所述存储分区中主键值和除所述主键值以外的其他候选键值的数据分布信息；或

根据使用数据抽样所得样本数据的机器学习模型，确定各所述存储分区中所述机器学习模型所用字段数据的数据分布信息；或

根据数据时间或指定字段数据，确定各所述存储分区中数据的时间分布信息，或指定字段数据的数据分布信息。

3.根据权利要求1所述的方法，其特征在于，所述抽样结果用于训练机器学习模型，根据所述数据分布信息，确定每个所述存储分区对应的抽样条件包括以下至少之一：

根据训练所述机器学习模型所需第一指定数据的数据分布信息，确定每个所述存储分区最低的所述抽样条件；或

根据训练所述机器学习模型所需第二指定数据的数据量，结合所述第二指定数据的数据分布信息分布情况，确定每个所述存储分区最低的所述抽样条件。

4.根据权利要求1所述的方法，其特征在于，按照所述抽样条件，在所述抽样条件对应所述存储分区中进行数据抽样包括：

对每个所述存储分区中存储的数据进行乱序处理；

按照所述抽样条件，在所述抽样条件对应所述存储分区中对乱序处理后的数据进行数据抽样，其中，所述数据抽样的方式至少包括：简单随机抽样，或分层随机抽样。

5.根据权利要求1所述的方法，其特征在于，在得到抽样结果之后，所述方法还包括：

对所述抽样结果进行预处理；

基于所述预处理后的抽样结果，训练机器学习模型。

6.根据权利要求5所述的方法，其特征在于，对所述抽样结果进行预处理包括以下至少之一：

对从不同的所述存储分区中抽取的所述抽样结果进行重新聚合；或

对所述抽样结果进行索引和切片；或

填充所述抽样结果的缺失项；或

修正所述抽样结果的错误项。

7.根据权利要求6所述的方法，其特征在于，填充所述抽样结果的缺失项包括以下至少之一：

根据所述抽样结果中多个数据的数值平均值或中位数，填充所述缺失项；或

根据与所述缺失项关联的数据，填充所述缺失项；或

根据所述抽样结果中多个数据的数值分布及概率，填充所述缺失项。

8.根据权利要求6所述的方法，其特征在于，修正所述抽样结果包括以下至少之一：

根据所述抽样结果中多个数据的数值平均值或中位数，修正所述错误项；或

根据与所述缺失项关联的数据，修正所述错误项；或

根据所述抽样结果中多个数据的数值分布及概率，修正所述错误项。

9.一种数据抽样装置，其特征在于，包括：

获取单元，用于获取分布式存储系统中的数据分布信息，其中，所述分布式存储系统包括多个存储分区，所述数据分布信息用于表示每个所述存储分区的数据分布情况；

确定单元，用于根据所述数据分布信息，确定每个所述存储分区对应的抽样条件，其中，所述抽样条件包括如下至少之一:抽样比例、抽样数量；

抽样单元，用于按照所述抽样条件对所述存储分区进行数据抽样，得到抽样结果。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至8中任意一项所述的数据抽样方法。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的数据抽样方法。