CN107766888A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN107766888A
CN107766888A CN201711000010.5A CN201711000010A CN107766888A CN 107766888 A CN107766888 A CN 107766888A CN 201711000010 A CN201711000010 A CN 201711000010A CN 107766888 A CN107766888 A CN 107766888A
Authority
CN
China
Prior art keywords
data
signal
tendency
machine learning
adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711000010.5A
Other languages
English (en)
Inventor
谢佳辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongan Information Technology Service Co Ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Priority to CN201711000010.5A priority Critical patent/CN107766888A/zh
Publication of CN107766888A publication Critical patent/CN107766888A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开一种数据处理方法和装置。该方法包括:获取原始数据;对所述原始数据进行滤波处理,以获得趋势性数据,所述趋势性数据表示所述原始数据的信号的趋势性;对所述趋势性数据进行划分,以获取训练数据集;利用所述训练数据集来训练多个机器学习模型,其中,所述多个机器学习模型中每一个机器学习模型分别用于预测所述信号的趋势;以及基于经训练的多个机器学习模型和所述训练数据集来确定组合预测模型。本发明能够对原始数据进行数据处理,从而获得有意义的数据信息。

Description

数据处理方法和装置
技术领域
本发明涉及一种用于数据处理的方法和装置。
背景技术
在大数据时代,各种各样的数据被收集。数据的种类越来越多,越来越丰富,例如网络社交数据、网络阅读数据、股票基金交易数据等等。各行各业的数据都被存储在云端。
随着互联网技术的不断发展,基于这些海量的行业数据,向用户推送用户所关心的信息是目前的热门课题。对此,需要对当前的云端数据进行数据处理。
随着计算机技术的不断发展,人们越来越依靠机器模型来进行数据处理。例如,采用分类模型来进行分类预测。但是,现有的数据处理模型对于输入数据集的要求较高,且模型相对单一,不同的数据处理技术之间未能融合,并且忽略了模型随时间的变化,也忽略了数据集与目标之间可能存在的高维联系。
发明内容
本发明的实施例提供了一种用于数据处理的方法和装置,其能够对原始数据进行数据处理,从而获得有意义的数据信息,例如,原始数据的信号的趋势。
按照本发明的实施例的一种数据处理方法,包括:获取原始数据;对所述原始数据进行滤波处理,以获得趋势性数据,所述趋势性数据表示所述原始数据的信号的趋势性;对所述趋势性数据进行划分,以获取训练数据集;利用所述训练数据集来训练多个机器学习模型,其中,所述多个机器学习模型中每一个机器学习模型分别用于预测所述信号的趋势;以及基于经训练的多个机器学习模型和所述训练数据集来确定组合预测模型。
在一种实现方式中,所述的数据处理方法还包括:通过所述组合预测模型来获取所述原始数据的所述信号的趋势。
在一种实现方式中,所述原始数据是表示金融行为的金融行为数据,并且所述原始数据的信号的趋势是所述金融行为的趋势。
在一种实现方式中,对所述原始数据进行滤波处理包括将所述原始数据分解为所述趋势性数据和波动数据,从而保留所述趋势性数据并去除所述波动数据,其中,所述波动数据表示所述原始数据的信号中的短期噪声波动。
在一种实现方式中,对所述趋势性数据进行划分包括:将所述趋势性数据划分为所述训练数据集和与所述训练数据集不同的测试数据集。
在一种实现方式中,以预定的比例,将所述趋势性数据随机地划分为所述训练数据集和所述测试数据集。
在一种实现方式中,利用所述测试数据集来测试通过所述组合预测模型所获取的所述信号的趋势的准确度。
在一种实现方式中,所述的数据处理方法还包括:将所述训练数据划分为调校数据集和与所述调校数据集不同的检验数据集,所述调校数据集用于对所述多个机器学习模型中的每个机器学习模型的参数进行调校,所述检验数据集用于对经过调校的机器学习模型的所述预测的准确度进行检验,以使得所述参数调校在所述预测的准确度下降时停止。
在一种实现方式中,以预定的比例,将所述训练数据随机地划分为所述调校数据集和所述检验数据集。
在一种实现方式中,所述多个机器学习模型包括以下中的一个或多个:卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型。
在一种实现方式中,所述滤波处理包括:获取所述原始数据的信号的上包络线和下包络线的包络线线均值,所述上包络线由所述信号的局部极大值串连而成,所述下包络线由所述信号的局部极小值串连而成;计算所述原始数据的信号与所述包络线线均值的差值信号;判断所述差值信号是否符合预定经验条件;以及若不满足所述预定经验条件,则将所述差值信号作为新的原始数据的信号并重复以上步骤,直至差值信号满足所述预定经验条件为止,并将满足所述预定经验条件的差值信号的数据作为所述波动数据。
在一种实现方式中,若所述差值信号满足所述预定经验条件,则将所述差值信号的数据直接作为所述波动数据。
在一种实现方式中,所述预定经验条件包括:(1)所述差值信号的局部极大值或局部极小值中的任一个之后紧接一个零交越点,所述零交越点是所述差值信号中的数据信号改变正负号的点;(2)由所述差值信号的局部极大值所限定的上包络线和由所述差值信号的局部极小值所限定的下包络线的平均值接近于零。
按照本发明的实施例的一种数据处理装置,包括:输入单元,被配置为获取原始数据;滤波单元,被配置为对所述原始数据进行滤波处理,以获得趋势性数据,所述趋势性数据表示所述原始数据的信号的趋势性;第一划分单元,被配置为对所述趋势性数据进行划分,以获取训练数据集;训练单元,被配置为利用所述训练数据集来训练多个机器学习模型,其中,所述多个机器学习模型中每一个机器学习模型分别用于预测所述信号的趋势;以及确定单元,被配置为基于经训练的多个机器学习模型和所述训练数据集来确定组合预测模型。
在一种实现方式中,所述数据处理装置还包括获取单元,被配置为通过所述组合预测模型来获取所述原始数据的所述信号的趋势。
在一种实现方式中,所述原始数据是表示金融行为的金融行为数据,并且所述原始数据的信号的趋势是所述金融行为的趋势。
在一种实现方式中,所述滤波单元进一步被配置为将所述原始数据分解为所述趋势性数据和波动数据,从而保留所述趋势性数据并去除所述波动数据,其中,所述波动数据表示所述原始数据的信号中的短期噪声波动。
在一种实现方式中,所述第一划分单元进一步被配置为将所述趋势性数据划分为所述训练数据集和与所述训练数据集不同的测试数据集。
在一种实现方式中,所述数据处理装置还包括测试单元,被配置为利用所述测试数据集来测试通过所述组合预测模型所获取的所述信号的趋势的准确度。
在一种实现方式中,所述数据处理装置还包括第二划分单元,被配置为将所述训练数据划分为调校数据集和与所述调校数据集不同的检验数据集,所述调校数据集用于对所述多个机器学习模型中的每个机器学习模型的参数进行调校,所述检验数据集用于对经过调校的机器学习模型的所述预测的准确度进行检验,以使得所述参数调校在所述预测的准确度下降时停止。
在一种实现方式中,所述多个机器学习模型包括以下中的一个或多个:卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型。
按照本发明的实施例的一种有形的计算机可读存储介质,其包括指令,当所述指令被执行时,引起计算设备至少用于:获取原始数据;对所述原始数据进行滤波处理,以获得趋势性数据,所述趋势性数据表示所述原始数据的信号的趋势性;对所述趋势性数据进行划分,以获取训练数据集;利用所述训练数据集来训练多个机器学习模型,其中,所述多个机器学习模型中每一个机器学习模型分别用于预测所述信号的趋势;以及基于经训练的多个机器学习模型和所述训练数据集来确定组合预测模型。
在一种实现方式中,所述指令还引起所述计算设备用于:通过所述组合预测模型来获取所述原始数据的所述信号的趋势。
在一种实现方式中,所述原始数据是表示金融行为的金融行为数据,并且所述原始数据的信号的趋势是所述金融行为的趋势。
在一种实现方式中,对所述原始数据进行滤波处理的步骤包括:将所述原始数据分解为所述趋势性数据和波动数据,从而保留所述趋势性数据并去除所述波动数据,其中,所述波动数据表示所述原始数据的信号中的短期噪声波动。
在一种实现方式中,对所述趋势性数据进行划分的步骤包括:将所述趋势性数据划分为所述训练数据集和与所述训练数据集不同的测试数据集。
在一种实现方式中,所述指令还引起所述计算设备用于:利用所述测试数据集来测试通过所述组合预测模型所获取的所述信号的趋势的准确度。
在一种实现方式中,所述指令还引起所述计算设备用于:将所述训练数据划分为调校数据集和与所述调校数据集不同的检验数据集,所述调校数据集用于对所述多个机器学习模型中的每个机器学习模型的参数进行调校,所述检验数据集用于对经过调校的机器学习模型的所述预测的准确度进行检验,以使得所述参数调校在所述预测的准确度下降时停止。
在一种实现方式中,所述多个机器学习模型包括以下中的一个或多个:卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型。
从上面的描述可以看出,本发明实施例的方案首先从原始数据信号中提取趋势性数据,然后采用由经过训练的多个机器学习模型组合而成的组合预测模型来对趋势性数据进行数据处理,从而获得原始数据的信号的趋势。由于数据处理的对象是从原始数据中提取的趋势性数据,所以增加了通过数据处理所获取的有用信息的准确性和稳定性。而且,采用由多个机器学习模型组合而成的组合预测模型来进行数据处理,消除了单个模型对固定数据的盲区,同时能够挖掘多维度数据之间的潜在关联,从而增强了对原始数据信号的趋势的预测的准确性和鲁棒性。
附图说明
本发明的其它特征、特点、优点和益处通过以下结合附图的详细描述将变得更加显而易见。
图1示出了按照本发明的实施例的数据处理方法的流程图。
图2A-图2D示出了按照本发明的实施例的滤波过程的示意图。
图3示出了按照本发明的实施例的数据处理装置的结构图。
具体实施方式
在以下优选的实施例的具体描述中,将参考构成本发明的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的实施例。对于附图中的各单元之间的连线,仅仅是为了便于说明,其表示至少连线两端的单元是相互通信的,并非旨在限制未连线的单元之间无法通信。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解,在不偏离本发明的范围的前提下,可以利用其他实施例,也可以进行结构性或者逻辑性的修改。因此,以下的具体描述并非限制性的,且本发明的范围由所附的权利要求所限定。
本发明的实施例提供了一种用于数据处理的方案,其首先对原始数据进行滤波处理,从而保留了能够反映原始数据信号的趋势的趋势性数据,并去除原始数据信号中波动数据。然后采用由多个机器学习模型组合而成的组合预测模型来进行计算。在面对具体的数据处理应用时,由于采用滤除了波动数据的趋势性数据,并且采用组合预测模型来计算趋势性数据,由此提高了数据处理的准确性和鲁棒性。
下面,将结合附图详细说明本发明的各个实施例。
现在参见图1,其示出了按照本发明的实施例的数据处理方法的流程图。图1所示的方法可以由例如计算机等这样的具有计算能力的设备来实现。
如图1所示,在方框S110,获取原始数据。
这里,原始数据可以是待数据处理的任何种类的数据信号。例如,语音信号的数据、天梯观测资料的数据、土木工程结构的模态参数数据等。在一个实例中,原始数据是表示金融行为的金融行为数据,例如,价格、成交量波动曲线等。
在方框S120,对原始数据进行滤波处理,以获得趋势性数据。趋势性数据表示原始数据的信号的趋势。例如,当原始数据为金融行为数据时,趋势性数据表示金融行为的趋势。
在一个实施例中,通过滤波处理,将原始数据分解为趋势性数据和波动数据,波动数据是原始数据信号中的噪声波动,该噪声波动属于信号中异常波动,会对数据处理造成不利影响。因此,保留能够反映信号趋势的趋势数据,并去除信号中的噪声数据。
在方框S130,对通过滤波处理所获得趋势性数据进行划分。在一个实施例中,将趋势性数据划分为训练数据集和测试数据集。
训练数据集合和测试数据集不同。换言之,训练数据集是由趋势性数据中的一部分数据构成的,而测试数据是由趋势性数据中的另一部分数据构成。在一个实施例中,以预定的比例对趋势性数据进行随机地划分。该比例指训练数据集中的数据量与测试数据集中的数据量的比例。该预定的比例可以根据具体应用来确定。在一个实现方式中,训练数据集与测试数据集的比例为8:2,即训练数据集由趋势性数据中的任意80%的数据构成,而测试数据集由趋势性数据中剩余的20%数据构成。
在方框S140,对训练数据集进行划分。在一个实施例中,将训练数据集划分为调校数据集和检验数据集。
调校数据集合和检验数据集不同。换言之,调校数据集是由训练数据集中的一部分数据构成的,而检验数据集是由训练数据集中的另一部分数据构成。在一个实施例中,以预定的比例对训练数据集进行随机地划分。该比例指调校数据集中的数据量与检验数据集中的数据量的比例。该预定的比例可以根据具体应用来确定。在一个实现方式中,调校数据集与检验数据集的比例为3:1,即调校数据集由训练数据集中的任意四分之三的数据构成,而检验数据集由训练数据集中剩余的四分之一数据构成。
在方框S150,利用训练数据集来训练多个机器学习模型。多个机器学习模型中的每一个机器学习模型分别用于预测原始数据的信号的趋势。
多个机器学习模型可以根据原始数据的具体种类来确定。多个机器学习模型包括至少两种思维方式的模型。这里,机器学习模型的思维方式是指机器学习模型对原始数据进行计算的计算方式。在一个实施例中,多个机器学习模型包括以下中的一个或多个:卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型。关于卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型的具体思维方式和优势,将在下文中具体描述。
对于多个机器学习模型的每一个机器学习模型,利用调校数据集中的数据来调校模型的参数,并用检验数据集中的数据来检验参数调校的准确度,即,对原始数据的信号的预测的精度。由于检验数据集中的数据与调参数据集中的数据不同,因此,能够用检验数据集来检验通过调整数据集所调参的机器学习模型的效果。这样,一旦发现模型的预测精度下降时,就停止对机器学习模型的参数调校,由此,避免了参数调校过程中的过拟合。在一个实施例中,将检验数据集中的数据代入经调参的机器学习模型,将通过该机器学习模型计算而得的预测值与检验数据集中的实际值相比较。如果随着参数调校的进行,该比较结果越来越优化,即,测试值与实际值越来越接近,则继续参数调校。一旦出现比较结果开始劣化,即,预测值与实际值的差开始变大,则停止参数调校。
在方框S160,利用经训练的多个机器学习模型和训练数据集来确定组合预测模型。该组合预测模型以经训练的多个机器学习模型中的每一个机器学习模型的输出作为因子,并通过训练数据集中的数据来计算每一个机器学习模型的权重。
在一个实施例中,建立一个组合预测模型即通过对每一个机器学习模型进行加权αi得到一个融合模型。组合预测模型可以包括线性融合模型和/或非线性融合模型,其中线性融合和非线性融合方式的区别在于权重是否随数据而变化。对于线性融合模型,可以采用等权重加权,即每个权重均为1/T。对于非线性融合模型,也可以采用不等权重加权,其中每个权重可以通过线性回归来确定。例如,通过设定目标函数为利用线性回归来确定权重。
在方框S170,通过所确定的组合预测模型来获取原始数据的信号的趋势。
例如,将对原始数据过滤后的趋势性数据作为输入,代入组合预测模型,输出为原始数据的信号的趋势。当原始数据是金融行为数据时,将过滤后的、表示金融行为趋势的趋势性数据作为输入集,代入组合预测模型进行计算,输出集为该金融行为的走势,例如,价格的上涨、下跌、平。
在方框S180,利用测试数据集中数据来测试通过组合预测模型所获取的信号的趋势的准确度。
测试数据集与训练数据集不同,因此能够用测试数据集中的数据来测试通过训练数据集得到的模型的准确度。在一个实施例中,将测试数据集中的数据作为输入,代入组合预测模型,将通过组合预测模型计算而得的预测值与测试数据集中的实际值进行比较,根据比较结果来判定该组合预测模型的预测准确度。
以下,结合图2具体说明本发明的滤波处理的一个实例。
在本发明的一个实施例中,采用经验模拟态滤波来进行方框S120中的滤波处理。经验模拟态滤波尤其适用于对复杂数据信号进行自适应地分解,由此将数据信号分解为表示信号趋势的趋势性数据和表示信号的噪声波动的波动数据。
参见图2A-图2D,该滤波处理的输入是原始数据信号S(t),输出是波动数据项IMF1,IMF2,…,IMFn和趋势性数据项Rn(t)。首先,获取原始数据信号S(t)的上包络线g1(t)和下包络线g2(t)的包络线线均值m1(t)。上包络线g1(t)由原始数据信号S(t)的局部极大值串连而成,下包络线g2(t)由原始数据信号S(t)的局部极小值串连而成。接着,计算原始数据信号S(t)与包络线线均值m1(t)的差值信号h1(t)。即,h1(t)=S(t)-m1(t)。判断差值信号h1(t)是否符合预定经验条件。若差值信号h1(t)不满足预定经验条件,则将差值信号h1(t)作为新的原始数据信号并重复以上步骤,直至差值信号h1(t)满足预定经验条件为止,并将满足预定经验条件的差值信号的数据作为第一个波动数据项IMF1。若差值信号h1(t)满足预定经验条件,则将差值信号h1(t)直接作为第一个波动数据项IMF1。然后,将原始数据信号S(t)减去第一个波动数据项IMF1,得到剩余量R1(t)。即,R1(t)=S(t)-IMF1。将R1(t)作为新的原始数据,重复以上步骤n次,得到波动数据项IMF2,…,IMFn。如此重复,直到Rn(t)为单调函数为止。
这里,预定经验条件包括如下条件:(1)差值信号h1(t)的局部极大值或局部极小值中的任一个之后紧接一个零交越点。零交越点是差值信号h1(t)中的数据信号改变正负号的点;(2)由差值信号h1(t)的局部极大值所限定的上包络线和由差值信号h1(t)的局部极小值所限定的下包络线的平均值接近于零。
通过该滤波处理,过滤掉了原始数据中的噪声波动,得到了圆滑的趋势曲线。在原始数据为金融行为数据并对金融行为进行预测时,采用过滤掉异常波动的趋势性数据,更有利于发现金融行为的规律,提高了对金融行为预测的准确性。
以下,以原始数据是1000组金融交易数据为例,具体说明采用卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型来构建组合预测模型的实例。
在将数据输入到机器学习模型中之前,对原始数据进行滤波处理,该滤波处理如上所述,这里不再赘述。将1000组金融交易数据随机地划分为800组训练数据和200组测试数据。进一步,将800组训练数据划分为600组调校数据和200组检验数据。
对于随机森林支持向量机模型,采用10000+个子模型,针对每个子模型,随机地用600组调校数据中的部分数据(例如,400-500组)来进行参数调整,由此能够避免噪声可能在某些数据中存在,而在某些数据中没有。并用采用200组检验数据来验证每一个子模型的参数调整效果。在参数调整过程中,力求让每个子模型的效果达到最好。对于随机森林支持向量机模型,输出的是由所有子模型计算得到结果的加权平均,由此能够避免过拟合。
对于长短记忆神经网络模型,在对该模型的参数调整中,例如用前5天的数据来计算第6天趋势。由此,长短记忆神经网络模型能够连接时间数据,从而保留了市场(交易行为)的记忆效应。因此,长短记忆神经网络模型能够发现金融数据(例如,交易行为数据)与时间的潜在规律。
对于卷积神经网络模型,与长短记忆神经网络模型相对,该模型不具有时间记忆性,但是该模型是强分类器,能够对数据进行强分类,从而获得更鲁棒的预测结果。
组合预测模型结合了以上各个机器学习模型的优势,消除了某一个模型对固定数据的处理盲区,降低了模型的噪音,提高了模型处理数据的准确率。
现参见图3,其示出了根据本发明的实施例的数据处理装置。图3所示的装置可以利用软件、硬件(例如集成电路或DSP等)或软硬件结合的方式来实现,并且可以安装具有计算能力的任何设备中。
如图3所示,数据处理装置300可以包括输入单元310、滤波单元320、第一划分单元330、训练单元350和确定单元360。其中,输入单元310用于获取原始数据。滤波单元320用于对原始数据进行滤波处理,以获得趋势性数据,其中趋势性数据表示原始数据的信号的趋势性。第一划分单元330用于对趋势性数据进行划分,以获取训练数据集。训练单元350用于利用训练数据集来训练多个机器学习模型,其中多个机器学习模型中每一个机器学习模型分别用于预测原始数据的信号的趋势。确定单元360用于基于经训练的多个机器学习模型和训练数据集来确定组合预测模型。
在一种具体实现方式中,数据处理装置300还包括获取单元370,用于通过组合预测模型来获取原始数据的信号的趋势。
其中,在一种实现方式中,原始数据是表示金融行为的金融行为数据,并且原始数据的信号的趋势是所述金融行为的趋势。
在一种具体实现方式中,滤波单元320将原始数据分解为趋势性数据和波动数据,从而保留趋势性数据并去除所述波动数据。其中波动数据表示原始数据的信号中的短期噪声波动。第一划分单元330将趋势性数据进一步划分为所述训练数据集和与所述训练数据集不同的测试数据集。
其中,在一种具体实现方式中,数据处理装置300还包括测试单元380,用于利用测试数据集来测试通过组合预测模型所获取的信号的趋势的准确度。
在一种具体实现方式中,数据处理装置300还包括第二划分单元340,用于将训练数据划分为调校数据集和与调校数据集不同的检验数据集。其中,调校数据集用于对所述多个机器学习模型中的每个机器学习模型的参数进行调校,检验数据集用于对经过调校的机器学习模型的所述预测的准确度进行检验,以使得所述参数调校在所述预测的准确度下降时停止。
其中,多个机器学习模型包括以下中的一个或多个:卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型。
图1中的方法的流程还代表机器可读指令,该机器可读指令包括由处理器执行的程序。该程序可被实体化在被存储于有形计算机可读介质的软件中,该有形计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的,图1中的示例方法中的一些步骤或所有步骤可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。另外,虽然图1所示的流程图描述了该方法,但可对该方法中的步骤进行修改、删除或合并。
如上所述,可利用编码指令(如计算机可读指令)来实现图1的示例过程,该编程指令存储于有形计算机可读介质上,如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/或任何其他存储介质,在该存储介质上信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。如在此所用的,该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信号。附加地或替代地,可利用编码指令(如计算机可读指令)实现图1的示例过程,该编码指令存储于非暂时性计算机可读介质,如硬盘,闪存,只读存储器,光盘,数字通用光盘,高速缓存器,随机访问存储器和/或任何其他存储介质,在该存储介质信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。

Claims (29)

1.一种数据处理方法,其特征在于,包括:
获取原始数据;
对所述原始数据进行滤波处理,以获得趋势性数据,所述趋势性数据表示所述原始数据的信号的趋势性;
对所述趋势性数据进行划分,以获取训练数据集;
利用所述训练数据集来训练多个机器学习模型,其中,所述多个机器学习模型中每一个机器学习模型分别用于预测所述信号的趋势;以及
基于经训练的多个机器学习模型和所述训练数据集来确定组合预测模型。
2.根据权利要求1所述的数据处理方法,其特征在于,还包括:
通过所述组合预测模型来获取所述原始数据的所述信号的趋势。
3.根据权利要求1或2所述的数据处理方法,其特征在于,所述原始数据是表示金融行为的金融行为数据,并且所述原始数据的信号的趋势是所述金融行为的趋势。
4.根据权利要求1所述的数据处理方法,其特征在于,对所述原始数据进行滤波处理包括将所述原始数据分解为所述趋势性数据和波动数据,从而保留所述趋势性数据并去除所述波动数据,其中,所述波动数据表示所述原始数据的信号中的短期噪声波动。
5.根据权利要求4所述的数据处理方法,其特征在于,对所述趋势性数据进行划分包括:将所述趋势性数据划分为所述训练数据集和与所述训练数据集不同的测试数据集。
6.根据权利要求5所述的数据处理方法,其特征在于,以预定的比例,将所述趋势性数据随机地划分为所述训练数据集和所述测试数据集。
7.根据权利要求5所述的数据处理方法,其特征在于,利用所述测试数据集来测试通过所述组合预测模型所获取的所述信号的趋势的准确度。
8.根据权利要求1所述的数据处理方法,其特征在于,还包括:将所述训练数据划分为调校数据集和与所述调校数据集不同的检验数据集,所述调校数据集用于对所述多个机器学习模型中的每个机器学习模型的参数进行调校,所述检验数据集用于对经过调校的机器学习模型的所述预测的准确度进行检验,以使得所述参数调校在所述预测的准确度下降时停止。
9.根据权利要求8所述的数据处理方法,其特征在于,以预定的比例,将所述训练数据随机地划分为所述调校数据集和所述检验数据集。
10.根据权利要求1所述的数据处理方法,其特征在于,所述多个机器学习模型包括以下中的一个或多个:卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型。
11.根据权利要求4所述数据处理方法,其特征在于,所述滤波处理包括:
获取所述原始数据的信号的上包络线和下包络线的包络线线均值,所述上包络线由所述信号的局部极大值串连而成,所述下包络线由所述信号的局部极小值串连而成;
计算所述原始数据的信号与所述包络线线均值的差值信号;
判断所述差值信号是否符合预定经验条件;以及
若不满足所述预定经验条件,则将所述差值信号作为新的原始数据的信号并重复以上步骤,直至差值信号满足所述预定经验条件为止,并将满足所述预定经验条件的差值信号的数据作为所述波动数据。
12.根据权利要求11所述的数据处理方法,其特征在于,若所述差值信号满足所述预定经验条件,则将所述差值信号的数据直接作为所述波动数据。
13.根据权利要求11或12所述方法,其特征在于,所述预定经验条件包括:(1)所述差值信号的局部极大值或局部极小值中的任一个之后紧接一个零交越点,所述零交越点是所述差值信号中的数据信号改变正负号的点;(2)由所述差值信号的局部极大值所限定的上包络线和由所述差值信号的局部极小值所限定的下包络线的平均值接近于零。
14.一种数据处理装置,其特征在于,包括:
输入单元,被配置为获取原始数据;
滤波单元,被配置为对所述原始数据进行滤波处理,以获得趋势性数据,所述趋势性数据表示所述原始数据的信号的趋势性;
第一划分单元,被配置为对所述趋势性数据进行划分,以获取训练数据集;
训练单元,被配置为利用所述训练数据集来训练多个机器学习模型,其中,所述多个机器学习模型中每一个机器学习模型分别用于预测所述信号的趋势;以及
确定单元,被配置为基于经训练的多个机器学习模型和所述训练数据集来确定组合预测模型。
15.根据权利要求14所述的数据处理装置,其特征在于,所述数据处理装置还包括:
获取单元,被配置为通过所述组合预测模型来获取所述原始数据的所述信号的趋势。
16.根据权利要求14或15所述的数据处理装置,其特征在于,所述原始数据是表示金融行为的金融行为数据,并且所述原始数据的信号的趋势是所述金融行为的趋势。
17.根据权利要求14所述的数据处理装置,其特征在于,所述滤波单元进一步被配置为将所述原始数据分解为所述趋势性数据和波动数据,从而保留所述趋势性数据并去除所述波动数据,其中,所述波动数据表示所述原始数据的信号中的短期噪声波动。
18.根据权利要求15所述的数据处理装置,其特征在于,所述第一划分单元进一步被配置为将所述趋势性数据划分为所述训练数据集和与所述训练数据集不同的测试数据集。
19.根据权利要求18所述的数据处理装置,其特征在于,所述数据处理装置还包括:
测试单元,被配置为利用所述测试数据集来测试通过所述组合预测模型所获取的所述信号的趋势的准确度。
20.根据权利要求14所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第二划分单元,被配置为将所述训练数据划分为调校数据集和与所述调校数据集不同的检验数据集,所述调校数据集用于对所述多个机器学习模型中的每个机器学习模型的参数进行调校,所述检验数据集用于对经过调校的机器学习模型的所述预测的准确度进行检验,以使得所述参数调校在所述预测的准确度下降时停止。
21.根据权利要求14所述的数据处理装置,其特征在于,所述多个机器学习模型包括以下中的一个或多个:卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型。
22.一种有形的计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令被执行时,引起计算设备至少用于:
获取原始数据;
对所述原始数据进行滤波处理,以获得趋势性数据,所述趋势性数据表示所述原始数据的信号的趋势性;
对所述趋势性数据进行划分,以获取训练数据集;
利用所述训练数据集来训练多个机器学习模型,其中,所述多个机器学习模型中每一个机器学习模型分别用于预测所述信号的趋势;以及
基于经训练的多个机器学习模型和所述训练数据集来确定组合预测模型。
23.根据权利要求22所述的计算机可读存储介质,其特征在于,所述指令还引起所述计算设备用于:
通过所述组合预测模型来获取所述原始数据的所述信号的趋势。
24.根据权利要求22或23所述的数据处理装置,其特征在于,所述原始数据是表示金融行为的金融行为数据,并且所述原始数据的信号的趋势是所述金融行为的趋势。
25.根据权利要求22所述的计算机可读存储介质,其特征在于,对所述原始数据进行滤波处理的步骤包括:将所述原始数据分解为所述趋势性数据和波动数据,从而保留所述趋势性数据并去除所述波动数据,其中,所述波动数据表示所述原始数据的信号中的短期噪声波动。
26.根据权利要求23所述的计算机可读存储介质,其特征在于,对所述趋势性数据进行划分的步骤包括:将所述趋势性数据划分为所述训练数据集和与所述训练数据集不同的测试数据集。
27.根据权利要求26所述的计算机可读存储介质,其特征在于,所述指令还引起所述计算设备用于:
利用所述测试数据集来测试通过所述组合预测模型所获取的所述信号的趋势的准确度。
28.根据权利要求22所述的计算机可读存储介质,其特征在于,所述指令还引起所述计算设备用于:
将所述训练数据划分为调校数据集和与所述调校数据集不同的检验数据集,所述调校数据集用于对所述多个机器学习模型中的每个机器学习模型的参数进行调校,所述检验数据集用于对经过调校的机器学习模型的所述预测的准确度进行检验,以使得所述参数调校在所述预测的准确度下降时停止。
29.根据权利要求22所述的计算机可读存储介质,其特征在于,所述多个机器学习模型包括以下中的一个或多个:卷积神经网络模型、长短记忆神经网络模型、和随机森林支持向量机模型。
CN201711000010.5A 2017-10-24 2017-10-24 数据处理方法和装置 Pending CN107766888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711000010.5A CN107766888A (zh) 2017-10-24 2017-10-24 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711000010.5A CN107766888A (zh) 2017-10-24 2017-10-24 数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN107766888A true CN107766888A (zh) 2018-03-06

Family

ID=61269184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711000010.5A Pending CN107766888A (zh) 2017-10-24 2017-10-24 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN107766888A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520335A (zh) * 2018-03-20 2018-09-11 顺丰科技有限公司 抽检对象预测方法、装置、设备及其存储介质
CN108527005A (zh) * 2018-04-18 2018-09-14 深圳市大讯永新科技有限公司 一种cnc刀具状态检测方法和系统
CN108737379A (zh) * 2018-04-19 2018-11-02 河海大学 一种大数据传输处理算法
CN108765154A (zh) * 2018-05-24 2018-11-06 东莞市波动赢机器人科技有限公司 交易机器人分类模型的训练方法、电子设备和计算机存储介质
CN110210626A (zh) * 2019-05-31 2019-09-06 京东城市(北京)数字科技有限公司 数据处理方法、装置和计算机可读存储介质
WO2019192136A1 (zh) * 2018-04-03 2019-10-10 平安科技(深圳)有限公司 电子装置、金融数据处理方法、系统和计算机可读存储介质
CN110533054A (zh) * 2018-05-25 2019-12-03 中国电力科学研究院有限公司 一种多模态自适应机器学习方法及装置
CN110659825A (zh) * 2019-09-23 2020-01-07 中国银行股份有限公司 银行网点多学习器的现钞需求量预测方法和装置
WO2020114302A1 (zh) * 2018-12-04 2020-06-11 深圳先进技术研究院 一种行为预测方法
CN111383721A (zh) * 2018-12-27 2020-07-07 江苏金斯瑞生物科技有限公司 预测模型的构建方法、多肽合成难度的预测方法及装置
CN113155178A (zh) * 2020-01-22 2021-07-23 恩德莱斯和豪瑟尔分析仪表两合公司 传感器系统和方法
CN113219341A (zh) * 2021-03-23 2021-08-06 陈九廷 一种模型生成及电池劣化推测装置、方法、介质及设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520335A (zh) * 2018-03-20 2018-09-11 顺丰科技有限公司 抽检对象预测方法、装置、设备及其存储介质
WO2019192136A1 (zh) * 2018-04-03 2019-10-10 平安科技(深圳)有限公司 电子装置、金融数据处理方法、系统和计算机可读存储介质
CN108527005A (zh) * 2018-04-18 2018-09-14 深圳市大讯永新科技有限公司 一种cnc刀具状态检测方法和系统
CN108737379A (zh) * 2018-04-19 2018-11-02 河海大学 一种大数据传输处理算法
CN108765154A (zh) * 2018-05-24 2018-11-06 东莞市波动赢机器人科技有限公司 交易机器人分类模型的训练方法、电子设备和计算机存储介质
CN110533054A (zh) * 2018-05-25 2019-12-03 中国电力科学研究院有限公司 一种多模态自适应机器学习方法及装置
CN110533054B (zh) * 2018-05-25 2024-02-06 中国电力科学研究院有限公司 一种多模态自适应机器学习方法及装置
WO2020114302A1 (zh) * 2018-12-04 2020-06-11 深圳先进技术研究院 一种行为预测方法
CN111383721A (zh) * 2018-12-27 2020-07-07 江苏金斯瑞生物科技有限公司 预测模型的构建方法、多肽合成难度的预测方法及装置
CN110210626A (zh) * 2019-05-31 2019-09-06 京东城市(北京)数字科技有限公司 数据处理方法、装置和计算机可读存储介质
CN110659825A (zh) * 2019-09-23 2020-01-07 中国银行股份有限公司 银行网点多学习器的现钞需求量预测方法和装置
CN113155178A (zh) * 2020-01-22 2021-07-23 恩德莱斯和豪瑟尔分析仪表两合公司 传感器系统和方法
US11774348B2 (en) 2020-01-22 2023-10-03 Endress+Hauser Conducta Gmbh+Co. Kg Sensor system and method
CN113155178B (zh) * 2020-01-22 2023-10-31 恩德莱斯和豪瑟尔分析仪表两合公司 传感器系统和方法
CN113219341A (zh) * 2021-03-23 2021-08-06 陈九廷 一种模型生成及电池劣化推测装置、方法、介质及设备

Similar Documents

Publication Publication Date Title
CN107766888A (zh) 数据处理方法和装置
CN106127363B (zh) 一种用户信用评估方法和装置
US20200293892A1 (en) Model test methods and apparatuses
KR20180041174A (ko) 위험 평가 방법 및 시스템
CN110956202B (zh) 基于分布式学习的图像训练方法、系统、介质及智能设备
CN115082920B (zh) 深度学习模型的训练方法、图像处理方法和装置
CN107133238A (zh) 一种文本信息聚类方法和文本信息聚类系统
CN110472802B (zh) 一种数据特征评估方法、装置及设备
CN110675017A (zh) 基于人工智能的绩效评价方法和装置
CN108875532A (zh) 一种基于稀疏编码和长度后验概率的视频动作检测方法
WO2019019346A1 (zh) 资产配置策略获取方法、装置、计算机设备和存储介质
KR20210088656A (ko) 이미지 생성 및 신경망 트레이닝 방법, 장치, 기기 및 매체
CN110851333B (zh) 根分区的监控方法、装置和监控服务器
CN106897282A (zh) 一种用户群的分类方法和设备
CN106776757A (zh) 用户完成网银操作的指示方法及装置
CN106919706A (zh) 数据更新的方法及装置
CN111783883A (zh) 一种异常数据的检测方法及装置
EP4287083A1 (en) Determination program, determination apparatus, and method of determining
CN111160594B (zh) 一种到达时间的预估方法、装置及存储介质
CN115294405A (zh) 农作物病害分类模型的构建方法、装置、设备及介质
CN108804640B (zh) 基于最大化iv的数据分组方法、装置、储存介质及设备
CN113793220A (zh) 基于人工智能模型的股市投资决策方法及相关设备
CN111626844A (zh) 基于大数据分析的企业信用评估方法及装置
Bielinskyi et al. Recurrence Measures of Complexity in Energy Market Dynamics
CN111078882A (zh) 一种文本情感测量方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180306

WD01 Invention patent application deemed withdrawn after publication