CN109614999A

CN109614999A - 一种数据处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109614999A
Application number: CN201811463942.8A
Authority: CN
Inventors: 肖龙; 尹彦斌; 陈翀; 郑威; 冯德兵
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-12

Abstract

本发明提供一种数据处理方法、装置、设备及计算机可读存储介质，用于提高神经网络预测结果的准确性。该方法包括：将多个周期中的任意一个周期内的样本数据划分为N份；其中，N为大于1的正整数；对每份样本数据分别进行模型训练，获得N个预测模型；使用测试数据分别测试所述N个预测模型中每个预测模型的准确率；根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据。

Description

一种数据处理方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种数据处理方法、装置、设备及计算机可读存储介质。

背景技术

近年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，神经网络在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域成功解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

但是，当神经网络在处理周期性的数据时，如果输入数据有两种或者两种以上的类型，那么不同类型的数据之间就可能会存在重叠，导致数据特征模糊，神经网络无法对不同类型的数据进行区别，最终导致神经网络预测结果准确性的降低。

发明内容

本发明实施例提供一种数据处理方法、装置、设备及计算机可读存储介质，用于提高神经网络预测结果的准确性。

第一方面，本发明实施例提供一种数据处理方法，所述方法包括：

将多个周期中的任意一个周期内的样本数据划分为N份；其中，N为大于1的正整数；

对每份样本数据分别进行模型训练，获得N个预测模型；

使用测试数据分别测试所述N个预测模型中每个预测模型的准确率；

根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据。

本实施方式将多个周期中的任意一个周期内的样本数据划分为N份，然后对每份样本数据分别进行模型训练，并使用测试数据分别测试获得的每个预测模型的准确率，然后根据所有预测模型的准确率确定该任意一个周期内输入神经网络的数据，这样可以去掉该任意一个周期内数据特征模糊的样本数据，只将样本数据中能够很好地表示数据自身独有的特性的数据部分作为输入数据输入神经网络进行处理，大大提高神经网络预测结果的准确性，同时由于神经网络输入数据量的减少，还可以精简神经网络的模型大小，减少训练时间，提高神经网络的数据处理效率。

可选的，将多个周期中的任意一个周期内的样本数据划分为N份，具体包括：

将多个周期中的任意一个周期内的样本数据等分为N份。

本实施方式，通过将任意一个周期内的样本数据进行等分，使得每一份样本数据的大小都相同，提高了模型训练和模型测试的效率。

可选的，根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据，具体包括：

将所述N个预测模型按照准确率从高到低的顺序进行排序，确定出排在前M位的M个预测模型；其中，M为大于等于1且小于N的正整数；

确定所述M个预测模型对应的样本数据在所述任意一个周期中的时间位置；

将所述时间位置的数据确定为所述任意一个周期输入神经网络的数据。

本实施方式将准确率排在前M位的M个预测模型对应的样本数据的时间位置的数据作为神经网络的输入数据，可有效提高神经网络预测结果的准确性，提高神经网络的数据处理效率。

确定所述N个预测模型中是否存在准确率超过阈值的预测模型；

若存在，则根据所述准确率超过阈值的预测模型确定所述任意一个周期输入神经网络的数据；

否则，确定出所述N个预测模型中准确率最高的预测模型；对所述准确率最高的预测模型对应的样本数据再次进行划分，并对划分后的各个样本数据分别进行模型训练，直至出现准确率超过阈值的预测模型为止；根据所述准确率超过阈值的预测模型确定所述任意一个周期输入神经网络的数据。

本实施方式，通过对该任意一个周期的样本数据进行划分、模型训练和准确率测试，寻找准确率超过阈值的预测模型，并根据该准确率超过阈值的预测模型确定该任意一个周期输入神经网络的数据，可以有效提高神经网络预测结果的准确性，提高神经网络的数据处理效率。

可选的，根据所述准确率超过阈值的预测模型确定所述任意一个周期输入神经网络的数据，具体包括：

确定所述准确率超过阈值的预测模型对应的样本数据在所述任意一个周期中的时间位置；

本实施方式将准确率超过阈值的预测模型对应的样本数据所在的时间位置的数据确定为输入神经网络的数据，可以有效提高神经网络预测结果的准确性，提高神经网络的数据处理效率。

可选的，在根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据之后，所述方法还包括：

根据所述任意一个周期输入神经网络的数据在所述任意一个周期中的时间位置，确定所述多个周期中除所述任意一个周期外的其它周期输入神经网络的数据；其中，所述其它周期输入神经网络的数据在所述其它周期中的时间位置与所述任意一个周期输入神经网络的数据在所述任意一个周期中的时间位置相同。

本实施方式，通过对任意一个周期内的样本数据进行划分、模型训练和准确率测试，找到该任意一个周期内输入神经网络的数据后，还根据该任意一个周期输入神经网络的数据在该任意一个周期中的时间位置该确定其它周期输入神经网络的数据，进一步提高了神经网络预测结果的准确性以及神经网络的数据处理效率。

第二方面，本发明实施例提供一种数据处理装置，所述装置包括：

划分单元，用于将多个周期中的任意一个周期内的样本数据划分为N份；其中，N为大于1的正整数；

训练单元，用于对每份样本数据分别进行模型训练，获得N个预测模型；

测试单元，用于使用测试数据分别测试所述N个预测模型中每个预测模型的准确率；

确定单元，用于根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据。

可选的，所述划分单元具体用于：

将多个周期中的任意一个周期内的样本数据等分为N份。

可选的，所述确定单元具体用于：

可选的，所述确定单元具体用于：确定所述N个预测模型中是否存在准确率超过阈值的预测模型；

可选的，所述确定单元具体用于：确定所述准确率超过阈值的预测模型对应的样本数据在所述任意一个周期中的时间位置；

可选的，所述确定单元还用于：

在根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据之后，根据所述任意一个周期输入神经网络的数据在所述任意一个周期中的时间位置，确定所述多个周期中除所述任意一个周期外的其它周期输入神经网络的数据；其中，所述其它周期输入神经网络的数据在所述其它周期中的时间位置与所述任意一个周期输入神经网络的数据在所述任意一个周期中的时间位置相同。

第三方面，本发明实施例提供一种数据处理设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令执行如本发明实施例第一方面或者第一方面的任一种可选的实施方式所述的方法。

可选的，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如本发明实施例第一方面或者第一方面的任一种可选的实施方式所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明实施例技术方案将多个周期中的任意一个周期内的样本数据划分为N份，然后对每份样本数据分别进行模型训练，并使用测试数据分别测试获得的每个预测模型的准确率，然后根据所有预测模型的准确率确定该任意一个周期内输入神经网络的数据，这样可以去掉该任意一个周期内数据特征模糊的样本数据，只将样本数据中能够很好地表示数据自身独有的特性的数据部分作为输入数据输入神经网络进行处理，大大提高神经网络预测结果的准确性，同时由于神经网络输入数据量的减少，还可以精简神经网络的模型大小，减少训练时间，提高神经网络的数据处理效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一组神经网络输入数据的折线图；

图2为本发明实施例中数据采样窗口的示意图；

图3为本发明实施例中样本数据的示意图；

图4为本发明实施例中数据处理方法的流程示意图；

图5为本发明实施例中样本划分方法的示意图；

图6为本发明实施例中数据处理装置的结构示意图；

图7为本发明实施例中数据处理设备的结构示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

需要理解的是，在本发明实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。在本发明实施例的描述中“多个”，是指两个或两个以上。

本发明实施例中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

所谓周期性数据，是指事物每经过一个周期，产生一个周期的数据，这些数据在每个周期下面具有相同的特性，事物在不同环境或不同的条件下会在每个周期里面具有自身独特的特征。例如，图1为一组神经网络输入数据在一个周期时间内的折线图，在时间段1到232之间数据，其特性主要体现在时间段43到106之间。

神经网络在处理周期性的数据时，输入数据的采集一般采用滑动窗口的形式。例如，参照图2，图2中有1到8个数据，有一个长度为2窗口，窗口每次取两个数据，如图2第一个图所示，每采集一次数据后窗口向右滑动一个数据的距离，如图2第二个图所示，这样一直滑到最后。设数据长度为P，窗口长度为n，窗口每次滑动k格，那么能采集的数据样本数为在实际的情况中，数据P会很大，窗口长度也会很大，但每次滑动的格数不会很大，比如为1格、2格、3格等。

由于窗口是每次采集的样本数据量很小，如果一个样本数据包括图1中多种曲线的数据，那么就可能会有很多的样本取到了如图3所示的两条曲线重叠的部分，即不同类型的数据特征重叠的部分，导致输入数据特征模糊，对神经网络的预测效果会有很大的干扰，大大降低了神经网络预测结果的准确率，并且由于样本冗余的数据过多，还会导致神经网络的模型过大，训练时间长，影响神经网络的数据处理效率。

为了解决现有技术存在的上述技术问题，本发明实施例提供一种数据处理方法、装置、设备及计算机可读存储介质。

参照图4，该方法包括：

S401：将多个周期中的任意一个周期内的样本数据划分为N份；其中，N为大于1的正整数；

其中，样本数据的划分可以采用均分的方式，也可以采用随机划分的方式，在本发明实施例不做具体限制。例如，可以将多个周期中的任意一个周期内的样本数据等分为N份，即划分得到的N份样本数据中每份样本数据的量相同。

S402：对每份样本数据分别进行模型训练，获得N个预测模型；

S403：使用测试数据分别测试所述N个预测模型中每个预测模型的准确率；

S404：根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据。

在本发明实施例中，根据该N个预测模型的准确率确定该任意一个周期输入神经网络的数据的具体实施方式，包括但不限于以下两种：

方式1：

将该N个预测模型按照准确率从高到低的顺序进行排序，确定出排在前M位的M个预测模型；其中，M为大于等于1且小于N的正整数；

确定该M个预测模型对应的样本数据在该任意一个周期中的时间位置；

将该时间位置的数据确定为该任意一个周期输入神经网络的数据。

方式2：

确定该N个预测模型中是否存在准确率超过阈值的预测模型；

若存在，则根据该准确率超过阈值的预测模型确定该任意一个周期输入神经网络的数据；

否则，确定出该N个预测模型中准确率最高的预测模型；对该准确率最高的预测模型对应的样本数据再次进行划分，并对划分后的各个样本数据分别进行模型训练，直至出现准确率超过阈值的预测模型为止；根据该准确率超过阈值的预测模型确定该任意一个周期输入神经网络的数据。

其中，根据该准确率超过阈值的预测模型确定该任意一个周期输入神经网络的数据的具体实施方式包括：确定该准确率超过阈值的预测模型对应的样本数据在该任意一个周期中的时间位置；将该时间位置的数据确定为该任意一个周期输入神经网络的数据。

在上述方案中，将多个周期中的任意一个周期内的样本数据划分为N份，然后对每份样本数据分别进行模型训练，并使用测试数据分别测试获得的每个预测模型的准确率，然后根据所有预测模型的准确率确定该任意一个周期内输入神经网络的数据，这样可以去掉该任意一个周期内数据特征模糊的样本数据，只将样本数据中能够很好地表示数据自身独有的特性的数据部分作为输入数据输入神经网络进行处理，大大提高神经网络预测结果的准确性，同时由于神经网络输入数据量的减少，还可以精简神经网络的模型大小，减少训练时间，提高神经网络的数据处理效率。

进一步的，在根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据之后，该方法还包括：

根据该任意一个周期输入神经网络的数据在该任意一个周期中的时间位置，确定该多个周期中除该任意一个周期外的其它周期输入神经网络的数据；其中，该其它周期输入神经网络的数据在该其它周期中的时间位置与该任意一个周期输入神经网络的数据在该任意一个周期中的时间位置相同。

本发明实施例通过对任意一个周期内的样本数据进行划分、模型训练和准确率测试，找到该任意一个周期内输入神经网络的数据后，还根据该任意一个周期输入神经网络的数据在该任意一个周期中的时间位置该确定其它周期输入神经网络的数据，进一步提高了神经网络预测结果的准确性以及神经网络的数据处理效率。

为了便于理解本发明实施例，下面列举一个可能的完整的实施例进行详细说明：

参照图5，首先将一个周期时间段内的样本均分为8份，然后将对每份样本单独进行预测模型的训练，再用测试数据去测试每个预测模型，得到8个准确率，记录下准确率最高的预测模型对应的样本和准确率，然后再重复对该准确率最高的样本执行样本均分(均分的份数可以上下调节，每次可以不同)、模型训练、测试和记录的操作，直到在出现准确率达到预设值的预测模型时，确定该准确率达到预设值的预测模型对应的样本数据在该周期内的时间段。在后续将数据输入神经网络时，只需要将每个周期中的该时间段的数据输入神将网络进行处理，这样就可以大大提高神经网络数据处理的准确率，而且可以精简神经网络模型，减少训练时间，提高神经网络的数据处理效率。

请参见图6，基于同一发明构思，本发明实施例还提供一种数据处理装置，所述装置包括：

划分单元601，用于将多个周期中的任意一个周期内的样本数据划分为N份；其中，N为大于1的正整数；

训练单元602，用于对每份样本数据分别进行模型训练，获得N个预测模型；

测试单元603，用于使用测试数据分别测试所述N个预测模型中每个预测模型的准确率；

确定单元604，用于根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据。

可选的，所述划分单元601具体用于：

将多个周期中的任意一个周期内的样本数据等分为N份。

可选的，所述确定单元604具体用于：

可选的，所述确定单元604具体用于：确定所述N个预测模型中是否存在准确率超过阈值的预测模型；

可选的，所述确定单元604具体用于：确定所述准确率超过阈值的预测模型对应的样本数据在所述任意一个周期中的时间位置；

可选的，所述确定单元604还用于：

本发明所述方法和装置基于同一发明构思，由于方法及装置解决问题的原理相似，以上各单元所执行操作的具体实现方式可以参照本发明实施例上述数据处理方法中对应的步骤，因此装置与方法的实施可以相互参见，重复之处不再赘述。

请参见图7，基于同一发明构思，本发明实施例还提供一种数据处理设备，包括：

至少一个处理器701，以及

与所述至少一个处理器连接的存储器702；

其中，所述存储器702存储有可被所述至少一个处理器701执行的指令，所述至少一个处理器701通过执行所述存储器702存储的指令，执行如上述方法实施例中所述的数据处理方法的步骤。

可选的，处理器701具体可以包括中央处理器(central processing unit，CPU)、特定应用集成电路(application specific integrated circuit，ASIC)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(field programmablegate array，FPGA)开发的硬件电路，可以是基带处理器。

可选的，处理器701可以包括至少一个处理核心。

可选的，存储器702可以包括只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)和磁盘存储器。存储器702用于存储处理器701运行时所需的数据。

基于同一发明构思，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如上述方法实施例中所述的数据处理方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

对每份样本数据分别进行模型训练，获得N个预测模型；

2.如权利要求1所述的方法，其特征在于，将多个周期中的任意一个周期内的样本数据划分为N份，具体包括：

将多个周期中的任意一个周期内的样本数据等分为N份。

3.如权利要求1所述的方法，其特征在于，根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据，具体包括：

4.如权利要求1所述的方法，其特征在于，根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据，具体包括：

5.如权利要求4所述的方法，其特征在于，根据所述准确率超过阈值的预测模型确定所述任意一个周期输入神经网络的数据，具体包括：

6.如权利要求1-5任一项所述的方法，其特征在于，在根据所述N个预测模型的准确率确定所述任意一个周期输入神经网络的数据之后，所述方法还包括：

7.一种数据处理装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述划分单元具体用于：

将多个周期中的任意一个周期内的样本数据等分为N份。

9.如权利要求7所述的装置，其特征在于，所述确定单元具体用于：

10.如权利要求7所述的装置，其特征在于，所述确定单元具体用于：确定所述N个预测模型中是否存在准确率超过阈值的预测模型；

11.如权利要求10所述的装置，其特征在于，所述确定单元具体用于：确定所述准确率超过阈值的预测模型对应的样本数据在所述任意一个周期中的时间位置；

12.如权利要求7-11任一项所述的装置，其特征在于，所述确定单元还用于：

13.一种数据处理设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令执行权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1-6中任一项所述的方法。