数据处理方法、装置和计算机可读存储介质
技术领域
本公开涉及数据处理技术领域,特别涉及一种数据处理方法、数据处理装置和计算机可读存储介质。
背景技术
在价值投资成为股票市场主流的背景下,准确预测公司营业收入成为投资制胜的重要法宝。营业收入是企业在生产经营活动中,因销售产品或提供劳务而取得的各项收入。营业收入关系到企业的生存和发展,对企业有重要的意义。买入盈利超预期的公司,避开盈利能力差的公司,就能获得超额收益。
在相关技术中,根据财务报表数据,利用计量经济学中的时间序列模型对进行营业收入预测。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:预测收益的相关数据和预测模型无法适应不同企业的实际情况,导致估计准确性低。
鉴于此,本公开提出了一种数据处理技术方案,能够提高估计准确性。
根据本公开的一些实施例,提供了一种数据处理方法,包括:选取影响企业的收益的多项相关数据;获取各相关数据对于所述收益的相关系数;判断是否存在大于第一阈值的相关系数;在存在大于第一阈值的相关系数的情况下,根据集成学习模型来估计所述企业的未来收益;在不存在大于第一阈值的相关系数的情况下,根据时间序列模型来估计所述未来收益。
在一些实施例中,所述数据处理方法还包括:在不存在大于第一阈值的相关系数的情况下,判断所述企业的历史收益是否为平稳时间序列;在历史收益为平稳时间序列的情况下,根据时间序列模型来估计所述未来收益;在历史收益不为平稳时间序列的情况下,采用所述历史收益的均值来估计所述未来收益。
在一些实施例中,进行平稳性检验和白噪声检验中的至少一项,以判断所述历史收益是否为平稳时间序列。
在一些实施例中,根据各相关数据之间的相关程度和所述各相关数据对所述收益的重要程度中的至少一项选取输入数据;利用所述输入数据训练所述集成学习模型和估计所述企业的未来收益。
在一些实施例中,获取所述各相关数据之间的相关系数;在两个相关数据之间的相关系数大于第二阈值的情况下,选取所述两个相关数据中的一个作为所述输入数据;在两个相关数据之间的相关系数不大于所述第二阈值的情况下,选取所述两个相关数据作为所述输入数据。
在一些实施例中,对所述集成学习模型进行预训练,以获取所述各相关数据对于所述未来收益的权值;选取所述权值大于第三阈值的相关数据作为所述输入数据。
在一些实施例中,所述数据处理方法还包括:按照收益规模将各企业划分到相应的企业组;根据划分情况,训练各企业组相应的所述时间序列模型或所述集成学习模型;根据企业所在的企业组,选取相应的所述时间序列模型或所述集成学习模型估计该企业的所述未来收益。
在一些实施例中,所述相关数据包括当前时间数据、所述企业的历史财务数据、所述企业的行业态势数据、所述企业的股票行情数据、所述企业的经营数据、宏观数据中的多项。
根据本公开的另一些实施例,提供一种数据处理装置,包括:选取单元,用于选取影响企业的收益的多项相关数据;获取单元,用于获取各相关数据对于所述收益的相关系数;判断单元,用于判断是否存在大于第一阈值的相关系数;估计单元,用于在存在大于第一阈值的相关系数的情况下,根据集成学习模型来估计所述企业的未来收益,在不存在大于第一阈值的相关系数的情况下,根据时间序列模型来估计所述未来收益。
在一些实施例中,所述判断单元在不存在大于第一阈值的相关系数的情况下,判断所述企业的历史收益是否为平稳时间序列;所述估计单元在历史收益为平稳时间序列的情况下,根据时间序列模型来估计所述未来收益,在历史收益不为平稳时间序列的情况下,采用所述历史收益的均值来估计所述未来收益。
在一些实施例中,所述判断单元进行平稳性检验和白噪声检验中的至少一项,以判断所述历史收益是否为平稳时间序列。
在一些实施例中,所述选取单元根据各相关数据之间的相关程度和所述各相关数据对所述收益的重要程度中的至少一项选取输入数据,所述输入数据用于估计所述企业的未来收益;所述数据处理装置还包括训练单元,用于利用所述输入数据训练所述集成学习模型。
在一些实施例中,所述获取单元获取所述各相关数据之间的相关系数;所述选取单元在两个相关数据之间的相关系数大于第二阈值的情况下,选取所述两个相关数据中的一个作为所述输入数据,在两个相关数据之间的相关系数不大于所述第二阈值的情况下,选取所述两个相关数据作为所述输入数据。
在一些实施例中,所述获取单元对所述集成学习模型进行预训练,以获取所述各相关数据对于所述未来收益的权值;所述选取单元选取所述权值大于第三阈值的相关数据作为所述输入数据。
在一些实施例中,所述数据处理装置还包括:划分单元,用于按照收益规模将各企业划分到相应的企业组;训练单元,用于根据划分情况训练各企业组相应的所述时间序列模型或所述集成学习模型;其中,所述选取单元根据企业所在的企业组,选取相应的所述时间序列模型或所述集成学习模型以便估计该企业的所述未来收益。
在一些实施例中,所述相关数据包括当前时间数据、所述企业的历史财务数据、所述企业的行业态势数据、所述企业的股票行情数据、所述企业的经营数据、宏观数据中的多项。
根据本公开的又一些实施例,提供一种数据处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的数据处理方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的数据处理方法。
在上述实施例中,根据相关数据与收益的相关程度决定使用哪种模型来预测未来收益。这样,可以自适应地选择合适的模型来应对不同的企业,从而提高了估计准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的数据处理方法的一些实施例的流程图;
图2示出本公开的集成学习模型训练方法的一些实施例的流程图;
图3示出图1的步骤210的一些实施例的流程图;
图4示出图1的步骤210的另一些实施例的流程图;
图5示出本公开的数据处理方法的另一些实施例的流程图;
图6示出本公开的数据处理方法的又一些实施例的流程图;
图7示出本公开的数据处理装置的一些实施例的框图;
图8示出本公开的数据处理装置的另一些实施例的框图;
图9示出本公开的数据处理装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本公开的数据处理方法的一些实施例的流程图。
如图1所示,该方法包括:步骤110,选取相关数据;步骤120,获取相关系数;步骤130,判断是否存在大于第一阈值的相关系数;步骤140,根据时间序列模型估计未来收益;和步骤150,根据集成学习模型估计未来收益。
在步骤110中,选取影响企业的收益的多项相关数据。例如,相关数据包括当前时间数据、企业的历史财务数据、企业的行业态势数据、企业的股票行情数据、企业的经营数据、宏观数据中的多项。
在一些实施例中,当前时间数据可以是日历类特征,例如,当时是这一年的第几个季度。由于企业的收益往往与季节、日期有关,选取当前时间数据估计收益可以提高估计的准确性。
在一些实施例中,历史财务数据可以从资产负债(Balance Sheet)数据库、利润(Income Statement)数据库、现金流量(Cash Flow Statement)数据库中获取。历史财务数据代表了一个企业全部的财务信息,选取历史财务数据估计收益可以提高估计的准确性。
在一些实施例中,行业态势数据可以用于表示行业的发展态势。例如,分析行业的发展趋势、所处阶段等可对企业经营情况做出判断(如从汽车行业每月的销量数据中,可以看到行业的景气程度)。选取企业的行业态势数据估计收益可以提高估计的准确性。
在一些实施例中,行业态势数据可以从官方网站中获取,也可以从电商网站中获取。例如,从电商网站中获取的行业态势数据能够直观反映各行业网上销售及价格趋势。
在一些实施例中,股票行情数据可以代表上市公司的股票月度交易行情,主要包括价格、成交量、成交额、换手率等。
在一些实施例中,经营数据一般可以为企业的月度数据,代表企业主营业务月度的统计值,与企业营收密切相关,能够反映企业的经营情况。每个企业指标不一样,例如,某机场的经营数据可以是飞机起降架次、旅客吞吐量等,某高速公路的经营数据可以是客车车流量等。
在一些实施例中,宏观数据可以包括生产总值、国民总收入、劳动者报酬、消费水平等。宏观经济周期是影响周期性行业的关键因素之一,对企业的经营情况也有直接的影响。
在一些实施例中,可以对相关数据进行预处理,例如,数据收集、处理缺失值(如利用均值处理)、统一数据形式等。
在步骤120中,获取各相关数据对于收益的相关系数。例如,可以计算各相关数据对于收益的皮尔逊(Pearson)相关系数。
在步骤130中,判断是否存在大于第一阈值的相关系数。相关系数大表明收益受到相关数据的影响大,这种情况不适用于时间序列模型,因此可以采用集成学习模型。例如,在存在的情况下,执行步骤140;在不存在的情况下,执行步骤150。
在步骤140中,根据时间序列模型来估计未来收益。例如,可以将步骤110中选取的相关数据输入训练好的ARMA模型(ARMA模型,Auto-Regressive and Moving AverageModel,自回归滑动平均模型)来估计相应企业的未来收益。
在一些实施例中,可以根据BIC(Bayesian Information Criterion,贝叶斯信息准则)对ARMA模型进行训练,以确定ARMA模型中的参数。
在一些实施例中,在训练ARMA模型或估计收益之前,可以对相关数据进行数据清洗。例如,采用均值修正的方法进行数据清洗。
在步骤150中,根据集成学习模型来估计企业的未来收益。例如集成学习模型可以是基于Boosting算法的学习模型,这种学习模型能够处理输入输出相关程度高或者输出不是平稳随机序列的估计问题。基于Boosting算法的学习模型例如可以是XGBoost(eXtremeGradient Boosting,极端梯度提升)模型、GBDT(Gradient Boosting Decision Tree,梯度提升决策树)模型等。可以将步骤110中选取的相关数据输入训练好的集成学习模型来估计相应企业的未来收益。
这一类的企业的收益与各相关数据的相关性强,即受各因素的影响较大,且有可能不是平稳时间序列(一般为收益规模较小的企业),但仍有一定规律可循,所以可以采用集成学习模型来估计未来收益。
在一些实施例中,在训练XGBoost模型或估计收益之前,可以对相关数据进行数据清洗。例如,采用删除异常值和离群点的方法进行数据清洗。
在一些实施例中,可以采用图2中的方式训练集成学习模型。
图2示出本公开的集成学习模型训练方法的一些实施例的流程图。
如图2所示,该方法包括:步骤210,选取输入数据;和步骤220,训练集成学习模型。
在步骤210中,根据各相关数据之间的相关程度和各相关数据对收益的重要程度中的至少一项选取输入数据。例如,可以先筛选出重要程度高于预设阈值的相关数据,在此基础上再删除相关程度高于预设阈值的相关数据。也可以先利用相关程度筛选相关数据,再根据重要程度进一步筛选相关数据。
在一些实施例中,可以通过图3中的方式选取输入数据。
图3示出图1的步骤210的一些实施例的流程图。
如图3所示,步骤210包括:步骤2110,获取相关数据间的相关系数;步骤2120,判断相关系数是否大于第二阈值;步骤2130,选取两个均作为输入数据;和步骤2140,选取其中一个作为输入数据。
在步骤2110中,获取各相关数据之间的相关系数。例如,可以计算每两个相关数据之间的皮尔逊相关系数。
在步骤2120中,判断各相关系数是否大于第二阈值。在大于的情况下,执行步骤2130;在不大于的情况下,执行步骤2140。
在步骤2130中,选取两个相关数据中的一个作为输入数据。相关系数大表示两个相关数据的相关性强,仅保留其中一个作为输入数据来训练模型和估计收益可达到去除冗余特征的目的,从而提高估计效率。
在步骤2140中,选取两个相关数据作为输入数据。相关系数小表示两个相关数据的相关性弱,将两个相关数据均作为输入数据来训练模型和估计收益可以从不同角度解析收益的变化,从而提高估计的准确性。
在一些实施例中,可以通过图4中的方式选取输入数据。
图4示出图1的步骤210的另一些实施例的流程图。
如图4所示,步骤210包括:步骤2150,获取相关数据间的相关系数;和步骤2160,选取其中一个作为输入数据。
在步骤2150中,对集成学习模型进行预训练,以获取各相关数据对于未来收益的权值。权值代表了相关数据对于收益的重要程度,即影响程度。
在步骤2160中,选取权值大于第三阈值的相关数据作为输入数据。权值大的相关数据对收益的影响大,用于训练模型和估计收益能够提高准确性;权值小的相关数据对收益的影响小,删除这些相关数据可以提高估计效率。
图3和图4中的实施例可以串行执行,不分先后顺序。例如,可以在图3的基础上执行图4,也可以在图4的基础上执行图3,也可以只执行图3或图4。
在一些实施例中,在通过图1中的步骤130判断出不存在大于第一阈值的相关系数的情况下,可以进一步根据企业的历史收益的平稳性决定使用哪种方法估计未来收益。例如,可以通过图5中的步骤来实现。
图5示出本公开的数据处理方法的另一些实施例的流程图。
如图5所示,相比于图1中的实施例,本实施例中的方法还包括:步骤131,获取历史收益;步骤132,判断历史收益是否为平稳时间序列;和步骤133,根据均值估计未来收益。
在步骤131中,在不存在大于第一阈值的相关系数的情况下,获取企业的历史收益。例如,可以获取企业在上一个季度的收益数据。
在步骤132中,判断历史收益是否为平稳时间序列。例如,可以先从历史收益的时间变化曲线中初步判断该历史收益是否为宽平稳时间序列。如果初步判断为宽平稳时间序列,再进一步通过平稳性检验和白噪声检验中的至少一项判断历史收益是否为平稳时间序列;如果初步判断为非宽平稳时间序列,则无需进一步判断,直接将该历史收益确定为平稳时间序列。
在判断不为平稳时间序列的情况下,执行步骤133;在判断为平稳时间序列的情况下,执行步骤150。
在步骤133中,采用历史收益的均值来估计未来收益。这一类的企业的收益与各相关数据的相关性弱且不是平稳时间序列(一般为收益规模较小的企业),即没有一定规律可循,所以可以采用历史收益的均值来估计未来收益。
在步骤150中,根据时间序列模型来估计未来收益。这一类的企业的收益与各相关数据的相关性弱且是平稳时间序列(一般为收益规模较大的企业),适用于时间序列模型。
在一些实施例中,可以根据企业的收益规模分别进行模型训练和收益预测。例如,可以通过图6中的步骤实现。
图6示出本公开的数据处理方法的又一些实施例的流程图。
如图6所示,相比于图1中的实施例,本实施例中的方法还包括:
步骤610,划分企业组;步骤620,根据分组训练模型;和步骤630,根据分组选择模型估计收益。
在步骤610中,按照收益规模将各企业划分到相应的企业组。例如,可以根据“营业收入规模”将A股上市公司划分成不同的组别。
在步骤620中,根据划分情况,训练各企业组相应的时间序列模型或集成学习模型。也就是说,针对于每个企业组,选取输入数据训练一个相应的估计模型。
在一些实施例中,可以对不同企业组的企业的历史收益进行分析,判断出该企业组是否适合使用时间序列建模。例如,可以对符合宽平稳性质的企业组的相关数据进行皮尔逊相关系数检验、平稳性检验和白噪声检验,通过上述三种检测说明该企业组中的企业适合采用时间序列模型来估计未来收益;对于不能使用时间序列模型的企业组,可以根据皮尔逊相关系数检验的结果,和XGBoost模型预训练的结果判断该企业组是否可以适合使用XGBoost模型。
在步骤630中,根据企业所在的企业组,选取相应的时间序列模型或集成学习模型估计该企业的未来收益。例如,可以针对不同企业组的企业,对外提供“估计应用接口”用于估计每个企业的下一季度的收益。
上述实施例中,根据相关数据与收益的相关程度决定使用哪种模型来预测未来收益。这样,可以自适应地选择合适的模型来应对不同的企业,从而提高了估计准确性。
图7示出本公开的数据处理装置的一些实施例的框图。
如图7所示,数据处理装置7包括:选取单元71、获取单元72、判断单元73和估计单元74。
选取单元71选取影响企业的收益的多项相关数据。例如,相关数据包括当前时间数据、企业的历史财务数据、企业的行业态势数据、企业的股票行情数据、企业的经营数据、宏观数据中的多项。获取单元72获取各相关数据对于收益的相关系数。判断单元73判断是否存在大于第一阈值的相关系数。估计单元74在存在大于第一阈值的相关系数的情况下,根据集成学习模型来估计企业的未来收益;在不存在大于第一阈值的相关系数的情况下,根据时间序列模型来估计未来收益。
在一些实施例中在不存在大于第一阈值的相关系数的情况下,,判断单元73判断企业的历史收益是否为平稳时间序列。例如,判断单元73进行平稳性检验和白噪声检验中的至少一项,以判断历史收益是否为平稳时间序列。
在历史收益为平稳时间序列的情况下,估计单元74根据时间序列模型来估计未来收益;在历史收益不为平稳时间序列的情况下,估计单元74采用历史收益的均值来估计未来收益。
在一些实施例中,数据处理装置7还包括训练单元75。选取单元71根据各相关数据之间的相关程度和各相关数据对收益的重要程度中的至少一项选取输入数据。输入数据可以用于估计企业的未来收益。训练单元75利用输入数据训练集成学习模型。
例如,获取单元72获取各相关数据之间的相关系数。在两个相关数据之间的相关系数大于第二阈值的情况下,选取单元71选取两个相关数据中的一个作为所述输入数据;在两个相关数据之间的相关系数不大于第二阈值的情况下,选取单元71选取两个相关数据作为输入数据。
例如,获取单元72对集成学习模型进行预训练,以获取各相关数据对于未来收益的权值。选取单元71选取权值大于第三阈值的相关数据作为输入数据。
在一些实施例中,数据处理装置7还包括划分单元76。划分单元76按照收益规模将各企业划分到相应的企业组。训练单元75根据划分情况训练各企业组相应的时间序列模型或集成学习模型。选取单元71根据企业所在的企业组,选取相应的时间序列模型或集成学习模型以便估计该企业的未来收益。
上述实施例中,根据相关数据与收益的相关程度决定使用哪种模型来预测未来收益。这样,可以自适应地选择合适的模型来应对不同的企业,从而提高了估计准确性。
图8示出本公开的数据处理装置的另一些实施例的框图。
如图8所示,该实施例的数据处理装置8包括:存储器81以及耦接至该存储器81的处理器82,处理器82被配置为基于存储在存储器81中的指令,执行本公开中任意一个实施例中的数据处理方法中的一个或多个步骤。
其中,存储器81例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图9示出本公开的数据处理装置的又一些实施例的框图。
如图9所示,该实施例的数据处理装置9包括:存储器910以及耦接至该存储器910的处理器920,处理器920被配置为基于存储在存储器910中的指令,执行前述任意一个实施例中的数据处理方法。
存储器910例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
数据处理装置9还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间例如可以通过总线960连接。其中,输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的数据处理方法、数据处理装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。