CN112732187A

CN112732187A - 大数据存储处理方法和装置

Info

Publication number: CN112732187A
Application number: CN202110013371.3A
Authority: CN
Inventors: 章伟
Original assignee: Individual
Current assignee: Guangzhou Dingjia Computer Technology Co ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-04-30
Anticipated expiration: 2041-01-06
Also published as: CN112732187B

Abstract

本申请公开了大数据存储处理方法和装置，该方法包括：将获取到的数据分成M份；分别使用所述M份数据中的每一份数据进行训练，并记录该份数据收敛的时间；根据收敛时间从长到短的顺序对所述M份数据进行排列；丢弃前N份数据，并将剩余数据进行保存。通过本申请解决了靠人工筛选低质量训练数据所导致的问题，在一定程度上提高了数据筛选的效率。

Description

大数据存储处理方法和装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种大数据存储处理方法和装置。

背景技术

人工智能(AI)系统通过实例来学习，它们拥有的高质量实例数据越多，就会学得越好。低质量的训练数据可能会生成不可靠的系统。

目前，大量训练数据的删选基本上靠人工进行，这是工作量异常巨大的工作，训练数据无法及时供给会导致拖慢机器模型的训练，并需要消耗大量的人力。

发明内容

本申请提供一种大数据存储处理方法和装置，以解决相关技术中靠人工筛选低质量训练数据所导致的问题。

根据本发明的一个方面，提供了一种大数据存储处理方法，包括：将获取到的数据分成M份，其中，M为自然数，每份的数据量相同，所述数据中的每一条数据均是作为训练数据使用，所述每一条数据均包括输入数据和对应的输出数据，所述训练数据用于机器学习模型的训练；分别使用所述M份数据中的每一份数据进行训练，并记录该份数据收敛的时间；根据收敛时间从长到短的顺序对所述M份数据进行排列；丢弃前N份数据，并将剩余数据进行保存，其中，N为小于M的自然数。

进一步地，所述M大于等10，并且小于等20。

进一步地，所述M为16。

进一步地，所述N大于所述M的一半。

根据本发明的另一方面，还提供了一种大数据存储处理装置，包括：划分模块，用于将获取到的数据分成M份，其中，M为自然数，每份的数据量相同，所述数据中的每一条数据均是作为训练数据使用，所述每一条数据均包括输入数据和对应的输出数据，所述训练数据用于机器学习模型的训练；训练模块，用于分别使用所述M份数据中的每一份数据进行训练，并记录该份数据收敛的时间；排列模块，用于根据收敛时间从长到短的顺序对所述M份数据进行排列；保存模块，用于丢弃前N份数据，并将剩余数据进行保存，其中，N为小于M的自然数。

进一步地，所述M大于等10，并且小于等20。

进一步地，所述M为16。

进一步地，所述N大于所述M的一半。

根据本申请的另一个方面，还提供了一种存储器，用于存储软件，其中，所述软件用于执行上述的方法。

根据本申请的另一个方面，还提供一种处理器，用于执行软件，其中，所述软件用于执行上述的方法。

本申请采用以下步骤：将获取到的数据分成M份，其中，M为自然数，每份的数据量相同，所述数据中的每一条数据均是作为训练数据使用，所述每一条数据均包括输入数据和对应的输出数据，所述训练数据用于机器学习模型的训练；分别使用所述M份数据中的每一份数据进行训练，并记录该份数据收敛的时间；根据收敛时间从长到短的顺序对所述M份数据进行排列；丢弃前N份数据，并将剩余数据进行保存，其中，N为小于M的自然数。通过本申请解决了靠人工筛选低质量训练数据所导致的问题，在一定程度上提高了数据筛选的效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的大数据存储处理方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在本实施例中，提供了一种大数据存储处理方法，图1是根据本发明实施例的大数据存储处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，将获取到的数据分成M份，其中，M为自然数，每份的数据量相同，所述数据中的每一条数据均是作为训练数据使用，所述每一条数据均包括输入数据和对应的输出数据(也可以理解为是输入数据的标签)，所述训练数据用于机器学习模型的训练，优选地，所述M大于等10，并且小于等20，作为推荐的一个实施方式，M可以选择16。

在步骤S102之前，还可以将M份数据均作为训练数据进行训练，如果收敛时间大于预先设置的时间，则再执行步骤S102。

作为一个可选的可以增加的实施方式，预先设置一个时间范围，从所述获取的数据中获取L条数据(由于每一条数据均由输入和输出，因此也可以称为一组数据)，对这L条数据进行训练，如果训练的收敛时间在所述时间范围之内，则按照每份数据均由L条数据进行分组。如果训练的收敛时间没有在所述时间范围之内，如果比所述时间范围内最长的时间都长，则从L条数据中减少数据，再进行训练，直到训练的收敛时间在所述时间范围内，如果比所述时间范围内的最短的时间都短，则将所述L条数据进行暂存，再从剩余的数据再获取L条数据进行训练，如果再获取的L条数据的训练时间在所述时间范围内或比所述时间范围内的最长时间都长，则将第一次获取的L条数据进行保存。如果再获取的L条数据训练时间比所述时间范围内的最短时间都短，则将第一获取的L条数据和再次获取的L条数据均放回原来的数据中，再从数据中选择大于L条数据进行训练，直到收敛时间在所述时间范围内。

步骤S104，分别使用所述M份数据中的每一份数据进行训练，并记录每一份数据收敛的时间；

步骤S106，根据收敛时间从长到短的顺序对所述M份数据进行排列；

步骤S108，丢弃前N份数据，并将剩余数据进行保存，其中，N为小于M的自然数。优选地，所述N大于所述M的一半。

在保存的时候，对于每一份数据均增加一个编号，该编号从1开始每次递增1，将该份数据和其编号一起进行哈希运算生成其标识信息，将标识信息编号和第一份数据作为第一个数据块，将第一个数据块的标识信息传递给第二份数据，根据第二数据和第二份数据的编号以及第一份数据的标识信息生成第二标识信息，将第二标识信息和第二份数据的编号以及第二份数据生成第二款数据块，依次类推，生成M-N个数据块。将生成的数据块进行保存。

作为另一个可选的实施方式，获取第一份数据和第二份数据时间的差值，第三份数据和第四份数据的收敛时间的差值，直到获取第M-1份数据到第M份数据的时间差值。获取这些差值的平均值，将差值大于平均值的两组数据标记出来。如果这两组数据中有其中一组被抛弃，则将这两组数据中的收敛时间长的一组数据作为反面例子数据保存。下面举例说明一个反面例子数据：例如，正面数据是猫的图片(相当于输入数据)和猫的标签(相当于输出数据)，反面数据是狗的图片和不是猫的标签。

收敛时间就是从使用一份数据进行训练到训练成功的时间，收敛时间越短说明这其中的训练数据的相似性约高，从而该份数据的质量越高。因此，在步骤S108中保存的数据相对于丢弃的数据，其质量相对较高。

保存下来的数据可以用来进行机器学习。作为一个可选的实施方式，可以将保存下来的数据经过训练得到一个模型。然后将丢弃的N份数据中的每组训练数据中的输入数据输入到该模型中，该模型输出一个输出数据，比较模型的输出数据以及每组训练数据原有的输出数据，如果两者相同，则将该组数据进行保存。该可选实施方式可以进一步的从丢弃掉的数据中进行筛选从而增加训练数据的数量。

通过上述步骤解决了靠人工筛选低质量训练数据所导致的问题，在一定程度上提高了数据筛选的效率。

在一个优选实施例中，除上述步骤外，还可以使用一个良好定义的策略来收集和组织你需要训练、测试和优化AI系统的数据，下面是构建一个成功的训练数据策略的几个方面，在实际应用的时候，在步骤S102之前，可以用以下策略首先获取到步骤S102中所使用的数据，获取到数据之后再将使用以下方式得到的数据分为M份。

(1)制定训练数据预算，并根据预算选择数据的数量。

当启动一个新项目时，首先要定义的是要实现的目标。根据实现的目标确定训练中需要哪种类型的数据，以及需要多少“训练数据”(已分类的数据点)。

例如，计算机视觉或图像识别项目的训练项目，使用图像数据，用于识别图像的内容(树、停车标志、人、车等)。此外，如果模型可能需要不断地重新训练或刷新。则根据预算的多少确定训练数据量，并根据训练的数据量确定模型更新训练的频率。选择数据的数量时，要根据M和N的值来确定步骤S102中的数量的多少。

(2)收集适当的数据

训练需要的数据类型取决于正在构建的解决方案的类型。一些数据来源包括实际使用数据、调查数据、公共数据集和合成数据。例如，一个能够理解人类语音命令的语音识别解决方案必须针对已翻译成文本的高质量语音数据(实际数据)进行培训。搜索解决方案需要由人工注释的文本数据来告诉它哪些结果是最相关的。

最常用的数据类型是图像、视频、语音、音频和文本。在用于训练之前，必须对训练数据进行注释或标记，以确定它们是什么。注释可以告诉模型如何处理每段数据。例如，如果一个虚拟助理的一条训练数据是某个人的录音“多订购一点AA电池”，注释可能会告诉系统在听到“订购”时，与某个在线零售商处下个订单，在听到“AA电池”时搜索“AA电池”。

(4)实施数据安全保障

并非每个数据项目都使用个人身份信息(PII)或敏感数据。对于利用这类信息的解决方案，数据安全性比以往任何时候都更重要，特别是在处理客户的PII、财务或政府记录或用户生成的内容时。越来越多的政府法规规定企业必须怎样处理客户信息。保护这些机密数据可以保护信息。

创建一个可靠的训练数据策略是获取模型价值的第一步。包括设置预算、确定数据源、确保质量和保证安全性。清晰的数据策略还有助于提供大多数模型定期更新所需的稳定的数据渠道。

在本实施例中还提供了一种装置，该装置中的模块对应于上述的方法步骤，在上述实施例中已经进行过说明的，在此不再赘述。

在本实施例中，还提供了一种大数据存储处理装置，包括：划分模块，用于将获取到的数据分成M份，其中，M为自然数，每份的数据量相同，所述数据中的每一条数据均是作为训练数据使用，所述每一条数据均包括输入数据和对应的输出数据，所述训练数据用于机器学习模型的训练；训练模块，用于分别使用所述M份数据中的每一份数据进行训练，并记录该份数据收敛的时间；排列模块，用于根据收敛时间从长到短的顺序对所述M份数据进行排列；保存模块，用于丢弃前N份数据，并将剩余数据进行保存，其中，N为小于M的自然数。

优选地，所述M大于等10，并且小于等20。

优选地，所述M为16。

优选地，所述N大于所述M的一半。

在本实施例中，提供了一种存储器，用于存储软件，其中，该软件用于执行上述的方法。

在本实施例中，提供了一种处理器，用于执行软件，其中，该软件用于执行上述的方法。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供了一种存储介质，其上存储有程序或者软件，该程序被处理器执行时实现上述方法。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种大数据存储处理方法，其特征在于，包括：

将获取到的数据分成M份，其中，M为自然数，每份的数据量相同，所述数据中的每一条数据均是作为训练数据使用，所述每一条数据均包括输入数据和对应的输出数据，所述训练数据用于机器学习模型的训练；

分别使用所述M份数据中的每一份数据进行训练，并记录该份数据收敛的时间；

根据收敛时间从长到短的顺序对所述M份数据进行排列；

丢弃前N份数据，并将剩余数据进行保存，其中，N为小于M的自然数。

2.根据权利要求1所述的方法，其特征在于，所述M大于等10，并且小于等20。

3.根据权利要求1或2所述的方法，其特征在于，所述M为16。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述N大于所述M的一半。

5.一种大数据存储处理装置，其特征在于，包括：

划分模块，用于将获取到的数据分成M份，其中，M为自然数，每份的数据量相同，所述数据中的每一条数据均是作为训练数据使用，所述每一条数据均包括输入数据和对应的输出数据，所述训练数据用于机器学习模型的训练；

训练模块，用于分别使用所述M份数据中的每一份数据进行训练，并记录该份数据收敛的时间；

排列模块，用于根据收敛时间从长到短的顺序对所述M份数据进行排列；

保存模块，用于丢弃前N份数据，并将剩余数据进行保存，其中，N为小于M的自然数。

6.根据权利要求5所述的装置，其特征在于，所述M大于等10，并且小于等20。

7.根据权利要求5或6所述的装置，其特征在于，所述M为16。

8.根据权利要求5至7中任一项所述的装置，其特征在于，所述N大于所述M的一半。

9.一种存储器，其特征在于，用于存储软件，其中，所述软件用于执行权利要求1至4中任一项所述的方法。

10.一种处理器，其特征在于，用于执行软件，其中，所述软件用于执行权利要求1至4中任一项所述的方法。