CN113033583A

CN113033583A - 数据处理方法和装置、模型训练系统

Info

Publication number: CN113033583A
Application number: CN201911250987.1A
Authority: CN
Inventors: 刘云; 张一凡; 刘中伟
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-25

Abstract

本公开提供一种数据处理方法和装置、模型训练系统。数据处理方法和装置依次采集智能体在执行任务过程中所生成的样本，以形成第一样本集合；对第一样本集合中的样本进行插值处理，以形成插值点集合；对插值点集合中的插值点进行随机采样，以形成第二样本集合；将第一样本集合和第二样本集合中的样本发送给模型训练模块以进行模型训练。本公开能有效增加样本数量，提升样本的使用效率。

Description

数据处理方法和装置、模型训练系统

技术领域

本公开涉及信息处理领域，特别涉及一种数据处理方法和装置、模型训练系统。

背景技术

在现有深度强化学习的采样方法中，采用诸如机械手、无人车的智能体与环境直接交互得到样本，并通过经验重放的方法加强对样本的利用效率。环境交互指的是智能体在环境中的某个状态做出动作，环境给出的反馈。经验重放指的是对之前采样过的样本池进行重新学习，提升每个样本的利用次数。

发明人通过研究发现，在现实环境中，由于智能体做出动作所需的时间和条件成本，存在样本数量不足的问题，这直接导致了深度强化学习算法效率的低下。

发明内容

本公开提供一种有效增加样本数量的方案。

根据本公开实施例的第一方面，提供一种数据处理方法，包括：依次采集智能体在执行任务过程中所生成的样本，以形成第一样本集合；对所述第一样本集合中的样本进行插值处理，以形成插值点集合；对所述插值点集合中的插值点进行随机采样，以形成第二样本集合；将所述第一样本集合和所述第二样本集合中的样本发送给模型训练模块以进行模型训练。

在一些实施例中，对所述第一样本集合中的样本进行插值处理包括：对所述第一样本集合中的样本进行三次插值处理，以生成插值点。

在一些实施例中，对所述第一样本集合中的样本进行三次插值处理包括：统计所述第一样本集合中的样本数量；若所述第一样本集合中的样本总数N大于2，则将从第一样本集合中选择第i个样本以作为当前样本S0，1≤i≤N；若i≠1、2、N-1或N，则在所述第一样本集合中查找出与所述当前样本S0距离最近的第一样本S1和第二样本S2；利用所述当前样本S0、所述第一样本S1和所述第二样本S2，确定出第一插值点。

在一些实施例中，在二维坐标中，所述第一插值点的横坐标在所述当前样本S0的横坐标、所述第一样本S1的横坐标和所述第二样本S2的横坐标所确定的区间内，且所述第一插值点的横坐标与所述当前样本S0的横坐标、所述第一样本S1的横坐标和所述第二样本S2的横坐标均不相同。

在一些实施例中，若i＝1或i＝2，则利用所述第一样本集合中的第1个样本、第2个样本和第3个样本，确定出第二插值点。

在一些实施例中，在二维坐标中，所述第二插值点的横坐标在所述第1个样本的横坐标、所述第2个样本的横坐标和所述第3个样本的横坐标所确定的区间内，且所述第二插值点的横坐标与所述第1个样本的横坐标、所述第2个样本的横坐标和所述第3个样本的横坐标均不相同。

在一些实施例中，若i＝N-1或i＝N，则利用所述第一样本集合中的第N-2个样本、第N-1个样本和第N个样本，确定出第三插值点。

在一些实施例中，在二维坐标中，所述第三插值点的横坐标在所述第N-2个样本的横坐标、所述第N-1个样本的横坐标和所述第N个样本的横坐标所确定的区间内，且所述第三插值点的横坐标与所述第N-2个样本的横坐标、所述第N-1个样本的横坐标和所述第N个样本的横坐标均不相同。

在一些实施例中，若所述第一样本集合中的样本总数N等于2，则利用所述第一样本集合中的第1个样本和第2个样本进行线性插值，确定出第四插值点。

在一些实施例中，在二维坐标中，所述第四插值点的横坐标在所述第1个样本的横坐标和所述第2个样本的横坐标所确定的区间内，且所述第四插值点的横坐标与所述第1个样本的横坐标和所述第2个样本的横坐标均不相同。

根据本公开实施例的第二方面，提供一种数据处理装置，包括：样本采集模块，被配置为依次采集智能体在执行任务过程中所生成的样本，以形成第一样本集合；插值处理模块，被配置为对所述第一样本集合中的样本进行插值处理，以形成插值点集合；采样模块，被配置为对所述插值点集合中的插值点进行随机采样，以形成第二样本集合；发送模块，被配置为将所述第一样本集合和所述第二样本集合中的样本发送给模型训练模块以进行模型训练。

根据本公开实施例的第三方面，提供一种数据处理装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种模型训练系统，包括如上述任一实施例所述的数据处理装置，以及模型训练模块，被配置为利用所述数据处理装置提供的第一样本集合和第二样本集合中的样本进行模型训练。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是根据本公开一个实施例的数据处理方法的流程示意图；

图2是根据本公开一个实施例的插值图形示意图；

图3是根据本公开一个实施例的数据处理装置的结构示意图；

图4是根据本公开另一个实施例的数据处理装置的结构示意图；

图5是根据本公开一个实施例的模型处理系统的结构示意图。

应当明白，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外，相同或类似的参考标号表示相同或类似的构件。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整，并且向本领域技术人员充分表达本公开的范围。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分和数值应被解释为仅仅是示例性的，而不是作为限制。

本公开中使用的“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

图1是根据本公开一个实施例的数据处理方法的流程示意图。在一些实施例中，下面的数据处理方法步骤由数据处理装置执行。

在步骤101，依次采集智能体在执行任务过程中所生成的样本，以形成第一样本集合。

在一些实施例中，智能体包括无人车、机械手等智能设备。

在步骤102，对第一样本集合中的样本进行插值处理，以形成插值点集合。

在一些实施例中，通过对第一样本集合中的样本进行三次插值处理，以生成插值点。

在一些实施例中，通过统计第一样本集合中的样本数量。若第一样本集合中没有样本，或者仅有一个样本，由于无法进行插值处理，因此退出相应流程。

若第一样本集合中的样本总数N等于2，则利用第一样本集合中的第1个样本和第2个样本进行线性插值，以确定出插值点。

这里设第1个样本的坐标为(x₀，y₀)，第2个样本的坐标为(x₁，y₁)，插值点的坐标为(x，y)，则通过利用下列公式(1)，根据插值点的横坐标x计算相应的纵坐标y。

这里需要说明的是，在二维坐标中，插值点的横坐标x位于第1个样本的横坐标x₀和第2个样本的横坐标x₁所确定的区间内，且插值点的横坐标x与第1个样本的横坐标x₀和第2个样本的横坐标x₁均不相同。

例如，若第1个样本的横坐标x₀为1，第2个样本的横坐标x₁为3，则插值点的横坐标x的范围为1<x<3。

在一些实施例中，若第一样本集合中的样本总数N大于2，则依次从第一样本集合中选择出样本以进行三次插值处理。

例如，若从第一样本集合中选择出的样本为第1个样本或第2个样本，则利用第一样本集合中的第1个样本、第2个样本和第3个样本，确定出插值点。

这里设第1个样本的坐标为(x₀，y₀)，第2个样本的坐标为(x₁，y₁)，第3个样本的坐标为(x₃，y₃)，插值点的坐标为(x，y)，则通过利用下列公式(2)，根据插值点的横坐标x计算相应的纵坐标y。

这里需要说明的是，在二维坐标中，插值点的横坐标x位于第1个样本的横坐标x₀、第2个样本的横坐标x₁和第3个样本的横坐标x₂所确定的区间内，且插值点的横坐标x与第1个样本的横坐标x₀、第2个样本的横坐标x₁和第3个样本的横坐标x₂均不相同。

例如，若第1个样本的横坐标x₀为1，第2个样本的横坐标x₁为3，第3个样本的横坐标x₂为5，则插值点的横坐标x的范围为1<x<3且3<x<5。

此外，若从第一样本集合中选择出的样本为除第1个样本、第2个样本、第N-1个样本和第N个样本之外的其它样本，则将所选择的样本作为当前样本S0，并在第一样本集合中查找出与当前样本S0距离最近的第一样本S1和第二样本S2。进而利用当前样本S0、第一样本S1和第二样本S2，确定出第一插值点。

例如，可通过二分查找算法(Binary Search)在第一样本集合中查找出与当前样本S0距离最近的第一样本S1和第二样本S2。

这里设当前样本S0的坐标为(x₀，y₀)，第一样本S1的坐标为(x₁，y₁)，第二样本S2的坐标为(x₃，y₃)，插值点的坐标为(x，y)，则通过利用上述公式(2)，根据插值点的横坐标x计算相应的纵坐标y。

这里需要说明的是，在二维坐标中，插值点的横坐标x位于当前样本S0的横坐标x₀、第一样本S1的横坐标x₁和第二样本S2的横坐标x₂所确定的区间内，且插值点的横坐标x与当前样本S0的横坐标x₀、第一样本S1的横坐标x₁和第二样本S2的横坐标x₂均不相同。

例如，若当前样本S0的横坐标x₀为2，第一样本S1的横坐标x₁为1，第二样本S2的横坐标x₂为4，则插值点的横坐标x的范围为1<x<2且2<x<4。

此外，若从第一样本集合中选择出的样本为第N-1个样本或第N个样本，即所选择出的样本是第一样本集合中的最后一个样本或倒数第二个样本，则利用第一样本集合中的第N-2个样本、第N-1个样本和第N个样本，确定出插值点。

这里设第N-2个样本的坐标为(x₀，y₀)，第N-1个样本的坐标为(x₁，y₁)，第N个样本的坐标为(x₃，y₃)，插值点的坐标为(x，y)，则通过利用上述公式(2)，根据插值点的横坐标x计算相应的纵坐标y。

这里需要说明的是，在二维坐标中，插值点的横坐标x位于第N-2个样本的横坐标x₀、第N-1个样本的横坐标x₁和第N个样本的横坐标x₂所确定的区间内，且插值点的横坐标x与第N-2个样本的横坐标x₀、第N-1个样本的横坐标x₁和第N个样本的横坐标x₂均不相同。

例如，若第N-2个样本的横坐标x₀为10，第N-1个样本的横坐标x₁为11，第N个样本的横坐标x₂为13，则插值点的横坐标x的范围为10<x<11且11<x<13。

图2是根据本公开一个实施例的插值图形示意图。

如图2所示，图形中的圆圈代表第一样本集合中的样本，图形中的其它离散点代表对第一样本集合中的样本进行插值处理，以形成插值点集合。

返回图1。在步骤103，对插值点集合中的插值点进行随机采样，以形成第二样本集合。

通过随机采样，能够均匀地从每个插值分段区间提取出样本值，从而有助于模型训练。例如，采用经验回放频率的5倍进行随机采样，使得第二样本集合中的样本数是第一样本集合中的样本数的5倍。

在步骤104，将第一样本集合和第二样本集合中的样本发送给模型训练模块以进行模型训练。

在本公开上述实施例提供的数据处理方法中，通过对智能体中执行任务过程中所采集的样本进行插值处理，以便有效增加样本数量，提升样本的使用效率和所训练模型的精度。

图3是根据本公开一个实施例的数据处理装置的结构示意图。如图3所示，数据处理装置包括样本采集模块31、插值处理模块32、采样模块33和发送模块34。

样本采集模块31被配置为依次采集智能体在执行任务过程中所生成的样本，以形成第一样本集合。

在一些实施例中，智能体包括无人车、机械手等智能设备。

插值处理模块32被配置为对第一样本集合中的样本进行插值处理，以形成插值点集合。

这里设第1个样本的坐标为(x₀，y₀)，第2个样本的坐标为(x₁，y₁)，插值点的坐标为(x，y)，则通过利用上列公式(1)，根据插值点的横坐标x计算相应的纵坐标y。

这里设第1个样本的坐标为(x₀，y₀)，第2个样本的坐标为(x₁，y₁)，第3个样本的坐标为(x₃，y₃)，插值点的坐标为(x，y)，则通过利用上述公式(2)，根据插值点的横坐标x计算相应的纵坐标y。

采样模块33被配置为对插值点集合中的插值点进行随机采样，以形成第二样本集合。

发送模块34被配置为利用第一样本集合和第二样本集合中的样本发送给模型训练模块以进行模型训练。

图4是根据本公开另一个实施例的数据处理装置的结构示意图。如图4所示，该装置包括存储器41和处理器42。

存储器41用于存储指令。处理器42耦合到存储器41。处理器42被设置为基于存储器存储的指令执行实现如图1中任一实施例涉及的方法。

如图4所示，该装置还包括通信接口43，用于与其它设备进行信息交互。同时，该装置还包括总线44，处理器42、通信接口43、以及存储器41通过总线44完成相互间的通信。

存储器41可以包含高速RAM(Random Access Memory，随机存取存储器)，也可还包括NVM(Non-Volatile Memory，非易失性存储器)。例如至少一个磁盘存储器。存储器41也可以是存储器阵列。存储器41还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器42可以是一个中央处理器，或者可以是ASIC(Application SpecificIntegrated Circuit，专用集成电路)，或者是被设置成实施本公开实施例的一个或多个集成电路。

本公开还提供一种计算机可读存储介质。计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1中任一实施例涉及的方法。

图5是根据本公开一个实施例的模型处理系统的结构示意图。如图5所示，模型训练系统包括数据处理装置51和模型训练模块52。数据处理装置51为图3或图4中任一实施例涉及的数据处理装置。

数据处理装置51通过依次采集智能体在执行任务过程中所生成的样本，以形成第一样本集合，还通过对第一样本集合中的样本进行插值处理和随机采样，以形成第二样本集合。数据处理装置51将第一样本集合和第二样本集合发送给模型训练模块52。

模型训练模块52利用数据处理装置51提供的第一样本集合和第二样本集合中的样本进行模型训练。

例如，可利用第一样本集合和第二样本集合中的样本对CNN(ConvolutionalNeural Network，卷积神经网络)进行训练，以得到所期望的模型。

这里需要说明的是，若仅利用智能体在执行任务过程中所采集的样本进行模型训练，由于样本数量较少，从而会导致所训练模型的精度较低。而通过使用本公开所提供的方案，通过对智能体中执行任务过程中所采集的样本进行处理，从而有效增加样本数量，提升样本的使用效率和所训练模型的精度。

在一些实施例中，上述功能模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称：ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

至此，已经详细描述了本公开的实施例。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims

1.一种数据处理方法，包括：

依次采集智能体在执行任务过程中所生成的样本，以形成第一样本集合；

对所述第一样本集合中的样本进行插值处理，以形成插值点集合；

对所述插值点集合中的插值点进行随机采样，以形成第二样本集合；

将所述第一样本集合和所述第二样本集合中的样本发送给模型训练模块以进行模型训练。

2.根据权利要求1所述的方法，其中，对所述第一样本集合中的样本进行插值处理包括：

对所述第一样本集合中的样本进行三次插值处理，以生成插值点。

3.根据权利要求2所述的方法，其中，对所述第一样本集合中的样本进行三次插值处理包括：

统计所述第一样本集合中的样本数量；

若所述第一样本集合中的样本总数N大于2，则将从第一样本集合中选择第i个样本以作为当前样本S0，1≤i≤N；

若i≠1、2、N-1或N，则在所述第一样本集合中查找出与所述当前样本S0距离最近的第一样本S1和第二样本S2；

利用所述当前样本S0、所述第一样本S1和所述第二样本S2，确定出第一插值点。

4.根据权利要求3所述的方法，其中：

在二维坐标中，所述第一插值点的横坐标在所述当前样本S0的横坐标、所述第一样本S1的横坐标和所述第二样本S2的横坐标所确定的区间内，且所述第一插值点的横坐标与所述当前样本S0的横坐标、所述第一样本S1的横坐标和所述第二样本S2的横坐标均不相同。

5.根据权利要求3所述的方法，还包括：

若i＝1或i＝2，则利用所述第一样本集合中的第1个样本、第2个样本和第3个样本，确定出第二插值点。

6.根据权利要求5所述的方法，其中：

在二维坐标中，所述第二插值点的横坐标在所述第1个样本的横坐标、所述第2个样本的横坐标和所述第3个样本的横坐标所确定的区间内，且所述第二插值点的横坐标与所述第1个样本的横坐标、所述第2个样本的横坐标和所述第3个样本的横坐标均不相同。

7.根据权利要求3所述的方法，还包括：

若i＝N-1或i＝N，则利用所述第一样本集合中的第N-2个样本、第N-1个样本和第N个样本，确定出第三插值点。

8.根据权利要求7所述的方法，其中：

在二维坐标中，所述第三插值点的横坐标在所述第N-2个样本的横坐标、所述第N-1个样本的横坐标和所述第N个样本的横坐标所确定的区间内，且所述第三插值点的横坐标与所述第N-2个样本的横坐标、所述第N-1个样本的横坐标和所述第N个样本的横坐标均不相同。

9.根据权利要求3所述的方法，还包括：

若所述第一样本集合中的样本总数N等于2，则利用所述第一样本集合中的第1个样本和第2个样本进行线性插值，确定出第四插值点。

10.根据权利要求9所述的方法，其中：

在二维坐标中，所述第四插值点的横坐标在所述第1个样本的横坐标和所述第2个样本的横坐标所确定的区间内，且所述第四插值点的横坐标与所述第1个样本的横坐标和所述第2个样本的横坐标均不相同。

11.一种数据处理装置，包括：

样本采集模块，被配置为依次采集智能体在执行任务过程中所生成的样本，以形成第一样本集合；

插值处理模块，被配置为对所述第一样本集合中的样本进行插值处理，以形成插值点集合；

采样模块，被配置为对所述插值点集合中的插值点进行随机采样，以形成第二样本集合；

发送模块，被配置为将所述第一样本集合和所述第二样本集合中的样本发送给模型训练模块以进行模型训练。

12.一种数据处理装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-10中任一项所述的方法。

13.一种模型训练系统，包括如权利要求11或12所述的数据处理装置，以及

模型训练模块，被配置为利用所述数据处理装置提供的第一样本集合和第二样本集合中的样本进行模型训练。

14.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-10中任一项所述的方法。