CN108647823A - 基于深度学习的股票数据分析方法和装置 - Google Patents
基于深度学习的股票数据分析方法和装置 Download PDFInfo
- Publication number
- CN108647823A CN108647823A CN201810444978.5A CN201810444978A CN108647823A CN 108647823 A CN108647823 A CN 108647823A CN 201810444978 A CN201810444978 A CN 201810444978A CN 108647823 A CN108647823 A CN 108647823A
- Authority
- CN
- China
- Prior art keywords
- stock
- model
- data
- branched
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于深度学习的股票数据分析方法,获取多支股票的收盘价及与其相关联的数据,相关联的书为论坛中股民对股票的评论信息;对获取的多支股票的收盘价及与其相关联的数据处理,并完成训练数据与测试数据的划分;根据训练数据对与多支股票相关联的数据建模生成第一模型,第一模型是一个情感分类模型,并对其训练;基于第一模型,根据训练数据对多支股票的收盘价建模生成第二模型,第二模型是用来预测股价涨跌,并对其训练;根据训练完成的第二模型对股票信息分析。该方法更高效地处理文本信息,提取出有用的信息,更精准地对股票市场预测。具有应用的高效性与易用性。本发明还公开了基于深度学习的股票数据分析装置。
Description
技术领域
本发明涉及自然语言技术领域,特别是涉及一种基于深度学习的股票数据分析方法和装置。
背景技术
使用文本倾向性信息对金融相关指标进行预测在国内外都属于热门领域。来自美国印第安纳大学的Johan Bollen做过关于公众情绪对股市波动预测的相关研究,他们从Twitter上采集海量的“推文”,作为公众情绪的来源。然后通过情绪信息来进行金融市场来进行预测,并且取得了一些相关的研究成果。
在传统的金融领域相关研究中,更加注重的是金融方面的知识和人工对文本信息进行的加工判别。传统的人工理解方式效率低下,数据量小,而应用机器学习的相关算法和文本挖掘技术可以减少人工工作量,有效快速提取文本中情绪信息,从而把情绪因素加入到股价预测模型中,研究情绪对股价波动的影响。所以利用自然语言处理和文本情感分析技术从公众论坛信息中获取投资者情绪,并分析投资者的情绪指数对股票指数和金融波动的影响还是很有必要的。
发明内容
基于此,有必要针对传统技术存在的问题,提供一种基于深度学习的股票数据分析方法和装置。具体的,在本发明中,不仅使用传统的机器学习方法,还引入深度学习的手段,利用深度学习强大的学习能力,能够更好地学习到金融市场的规律。即为了使用自然语言的手段,通过分析社会舆论信息,挖掘出里面情感倾向信息,来帮助股票市场的预测。在传统的金融领域的相关研究中,主要是依靠金融方面的知识系统和人工对文本信息的加工处理,这种方式效率低下,而使用机器学习和人工智能的手段可以更好地更加高效地处理这些文本信息,提取出有用的信息,更好地对股票市场进行预测。
第一方面,本发明实施例提供了一种基于深度学习的股票数据分析方法,所述方法包括:获取多支股票的收盘价以及与所述多支股票相关联的数据;对获取的所述多支股票的所述收盘价以及与所述多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作;根据所述训练数据对与所述多支股票相关联的数据建立模型,生成第一模型,并对所述第一模型进行训练;基于训练完成的所述第一模型,根据所述训练数据对所述多支股票的所述收盘价建立模型,生成第二模型,并对所述第二模型进行训练;根据训练完成的所述第二模型对股票信息进行分析。
在其中一个实施例中,还包括:根据所述测试数据对训练完成的所述第二模型进行测试效果评价操作。
在其中一个实施例中,所述获取多支股票的收盘价以及与所述多支股票相关联的数据包括:利用爬虫技术从web端获取预设时间周期内所述多支股票的所述收盘价;利用爬虫技术从web端获取预设时间周期内与所述多支股票相关联的数据,其中,所述多支股票相关联的数据为股民对股票的评论信息。
在其中一个实施例中,对获取的所述多支股票的所述收盘价以及与所述多支股票相关联的数据进行处理包括:将预设时间周期内获取的所述多支股票的所述收盘价处理为涨跌比幅的形式;对预设时间周期内获取的与所述多支股票相关联的数据进行情感标注处理,其中,所述情感标注处理为通过人工方式进行标注,对标注的评论信息根据预设阈值划分为正向感情倾向、负向感情倾向以及中性感情倾向。
在其中一个实施例中,还包括:对预设时间周期内获取的与所述多支股票相关联的数据进行分词处理;当分词处理中出现停用词,则对所述停用词进行去除操作。
在其中一个实施例中,根据所述训练数据对与所述多支股票相关联的数据建立模型,生成第一模型包括:使用word2vec模型,对与所述多支股票相关联的数据进行训练,生成相应的词向量;通过逻辑斯蒂模型获取与所述多支股票相关联的数据中每个词的情感倾向权重;连接每个词的word2vec得到的向量和情感倾向权重,作为该词的表达形式;训练深度循环神经网络进行情感分类。
在其中一个实施例中,所述基于训练完成的所述第一模型,根据所述训练数据对所述多支股票的所述收盘价建立模型,生成第二模型包括:将所述多支股票的所述收盘价的涨跌数据与所述多支股票相关联的数据进行结合,作为输入数据;基于所述输入数据,完成深度循环神经网络的训练操作。
第二方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的基于深度学习的股票数据分析方法。
第三方面,本发明实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面所述的方法。
第四方面,本发明实施例还提供了一种基于深度学习的股票数据分析装置,所述装置包括:获取模块,用于获取多支股票的收盘价以及与所述多支股票相关联的数据;划分模块,用于对获取的所述多支股票的所述收盘价以及与所述多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作;第一模型建立与训练模块,用于根据所述训练数据对与所述多支股票相关联的数据建立模型,生成第一模型,并对所述第一模型进行训练;第二模型建立与训练模块,用于基于训练完成的所述第一模型,根据所述训练数据对所述多支股票的所述收盘价建立模型,生成第二模型,并对所述第二模型进行训练;分析模块,用于根据训练完成的所述第二模型对股票信息进行分析。
本发明提供的一种基于深度学习的股票数据分析方法和装置,获取多支股票的收盘价以及与多支股票相关联的数据;对获取的多支股票的收盘价以及与多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作;根据训练数据对与多支股票相关联的数据建立模型,生成第一模型,并对第一模型进行训练;基于训练完成的第一模型,根据训练数据对多支股票的收盘价建立模型,生成第二模型,并对第二模型进行训练;根据训练完成的第二模型对股票信息进行分析。该方法使用机器学习和人工智能的手段可以更好地更加高效地处理这些文本信息,提取出有用的信息,更精准地对股票市场进行预测。具有应用的高效性与易用性。
附图说明
图1为本发明一个实施例中的一种基于深度学习的股票数据分析方法的步骤流程示意图;
图2为本发明另一实施例中的一种基于深度学习的股票数据分析方法的步骤流程图;
图3为本发明一个实施例中的一种基于深度学习的股票数据分析装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下通过实施例,并结合附图,对本发明基于深度学习的股票数据分析方法和装置的具体实施方式进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明涉及自然语言处理技术领域,领域自然语言处理的手段来帮助金融市场的预测。具体公开了一种基于深度学习的利用社会舆情对股票数据分析方法和装置。具体的,本发明公开了一种使用深度学习技术手段,利用社会舆情信息对股票数据的分析方法,包括以下步骤:步骤1)数据获取;步骤2)数据预处理;步骤3)社会舆情信息分析模型的建立;步骤4)股票数据分析的深度学习模型的建立;步骤5)模型训练;步骤6)使用训练好的模型来对金融数据进行分析;步骤7)测试模型的效果。本发明的目的在于使用深度学习的方法,来对股票市场进行评估以及预测,与传统的方法相比,深度学习强大的表达能力和社会舆情信息的利用能够更好地帮助对股票市场的预测。本发明通过自然语言处理技术提取社会舆情信息中的感情倾向,由于这些信息主要是最近在进行股票交易的人发布的,能够在一定的程度上,反应大众对股票的态度,有助于对股票的研究。通过深度循环神经网络,结合从社会舆情信息中提取出来的感情信息和股票的涨跌信息,来对股票的价格进行预测,在一定的程度上,达到了不错的效果。尽管本发明是在写股票市场的预测,但是也适用于其他金融产品,例如基金之类的。
如图1所示,为一个实施例中的一种基于深度学习的股票数据分析方法的流程示意图。具体包括以下步骤:
步骤101,获取多支股票的收盘价以及与多支股票相关联的数据。
可以理解的是,训练深度循环神经网络需要大量的训练数据,因此需要使用大规模的数据集,使用的数据集需要的是股票的收盘价,这些是直接从网上爬取下来的,另外需要的社会舆情信息,是从相应的股票论坛爬取下来的,对这些股票的评论数据。
优选地,本实施例为研究中国股票,从东方财富网相应的论文爬取股票评论信息,是从2015年1月1日到2017年6月1日的股票评论信息,总共获得了460k条评论。股票价格是从大智慧软件上获取的,总共收集了10只股票的价格信息。
步骤102,对获取的多支股票的收盘价以及与多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作。
需要说明的是,将价格数据进行处理,处理为涨跌比幅的形式。对社会舆情信息进行处理的时候,对每条评论进行情感标注,标注为正向情感、中性的或者负向的情感倾向。另外对评论数据进行分词,并且去除停用词。最后将处理好的数据分为训练数据和测试数据。
优选地,将价格数据进行处理,处理为涨跌比幅的形式。对社会舆情信息进行处理的时候,选取了8315条评论进行了情感标注,标注为正向情感或者负向的情感倾向。另外对评论数据进行分词,并且去除停用词。最后将处理好的数据分为训练数据和测试数据。
可以理解的是,对股票的价格数据进行处理,然后对股票的评论数据进行处理的具体步骤为:对股票的价格数据进行处理,从网上爬取下来的数据是每次股票的收盘价格,需要把它处理为涨跌幅的形式其中vi表示的第i天的收盘价,后面再将数据进行归一化,小于0.5表示的是股价跌,大于0.5表示的是股价涨;继而在网上进行爬取股票对应的股票评论数据,股票数据是按照股票种类和日期进行整理的,统计好。另外,对股票进行人工标注,消极情绪、中性情绪以及积极情绪。对股票评论进行分词,并且去除其中的停用词。并且统计一下每天评论的数目,当天的评论数目在一定程度上,反应了这只股票最近的一些变化情况。对标注的数据按照8:2分成训练数据和验证数据集,用来作为模型的训练和模型的测试。
步骤103,根据训练数据对与多支股票相关联的数据建立模型,生成第一模型,并对第一模型进行训练。可以理解的是,第一模型是一个情感分类模型。
具体的,使用word2vec模型,对评论数据进行训练,训练出相应的词向量。词向量的维数是20维,通过一个逻辑斯蒂模型得到每个词的情感倾向权重,连接每个词的word2vec得到的向量和情感倾向权重,作为一个词的表达形式。然后训练一个深度循环神经网络来进行情感分类。
优选地,与多支股票相关联的数据建立模型可以理解为社会舆情信息情感模型的建立,这个模型主要是用来进行评论的情感分类,判断相应的评论是积极的、中性的还是消极的。具体的步骤为:对所有评论信息进行分词,进行停用词处理,使用word2vec来训练词向量,词向量的维数是20维,保存起来;继而建立一个逻辑斯蒂回归模型,来训练处每个词的情感权重,输入的维度是词表的大小,logistic(∑wi*xi)=f(x),输入的是词统计好的tf-idf,在进行训练的时候,使用的交叉熵进行训练的;再次,将使用的word2vec词向量和逻辑斯蒂回归模型训练好的词的情感倾向权重连接起来,作为一个新的词向量,最后的维数为21;最终,这个词向量作为的是深度循环神经网络的词向量,使用它来进行初始化,在模型的训练期间,不对词向量进行训练的,保持它不变的,然后经过的是一个LSTM网络,后面使用一个前向反馈网络和一个非线性层,进行情感分类,后面进行优化的时候,使用交叉熵来进行优化,提高情感分类的准确率。
步骤104,基于训练完成的第一模型,根据训练数据对多支股票的收盘价建立模型,生成第二模型,并对第二模型进行训练。可以理解的是,第二模型是用来预测股价涨跌的模型。
具体的,将股票的价格涨跌数据和相应的情感数据结合,作为输入,然后通过它们训练一个深度循环神经网络,来进行股票的涨跌情况的预测。
优选地,基于训练完成的第一模型,根据训练数据对多支股票的收盘价建立模型,生成第二模型可以理解为股票数据分析的深度学习模型的建立。具体步骤为:首先,整理社会舆情信息,统计每天的评论的数量Nt;其次,使用上面训练好的情感分类模型,对社会评论信息进行分类,然后统计每天的正向评论信息和负向评论信息然后计算情感倾向系数再次,对于每一天,连接每一天涨跌幅、整天的评论数量以及情感倾向系数(At,Bt,Nt),作为每一天的输入;再次,将上述的整理好的信息作为深度循环神经网络的输入,后面使用一个前馈神经网络来进行预测下一时刻的涨跌幅;最终,对于输入的长度k需要在实验中,进行确定,表示的是使用前k天来预测后一天的涨跌情况,这个k值是需要根据实验结果来确定的,选取一个实验结果最好的k值,在实验中,我们实验了k值从3到30,进行试验,对于不同的股票,在最后取得最好的准确率的时候,对应的k值都不相同。
需要说明的是,先训练好社会舆情信息分析模型,然后再训练股票数据分析模型。即首先,建立起损失函数,情感分类模型,它使用的是交叉熵函数来进行模型优化;对于那个股票数据分析模型,使用的是均方差函数;其次,对于情感分类模型,首先,先训练一个word2vec的词向量,然后训练一个逻辑斯蒂回归模型,其中的参数使用均值为0,方差为0.02的高斯分布来进行初始化,然后进行训练;然后训练一个深度循环神经网络,这个深度模型的参数,也是使用均值为0,方差为0.02的高斯分布来进行初始化,词向量是使用word2vec和逻辑斯蒂回归模型训练好的权重来进行初始化的,在训练过程中,它是不参与训练的,保存不变;然后对评论数据进行随机打乱,每次是输入多句话,进行批次训练,按照上述的损失函数,使用随机梯度下降法通过获取的梯度,来对模型的参数进行优化,以实现一轮网络参数的训练;最终,训练股票数据分析模型,使用训练好的情感分类模型,来对评论数据进行情感分类,然后计算Nt和Nt这两个数,整理好输入数据的输入形式之后,将数据进行随机打乱,然后使用均值为0,方差为0.02的高斯分布,对模型的参数进行随机初始化,按照上述定义的损失函数,使用随机梯度下降法通过获取的梯度,来对模型的参数进行优化,以实现一轮网络参数的训练。
步骤105,根据训练完成的第二模型对股票信息进行分析。
优选地,首先,先使用训练好的情感分析模型,对测试集的股票对应的股票评论进行情感分类,计算出当天股票的数量Nt,以及正向情感的股票数和负向情感的股票数量,计算情感倾向系数Bt;其次,将股价信息转换成涨跌幅的形式,并且进行归一化,得到At;再次,将上述的信息作为股票数据分析模型的输入,预测下一天的股价的涨跌幅;最终,计算结果的准确率。
本发明提供的一种基于深度学习的股票数据分析方法,获取多支股票的收盘价以及与多支股票相关联的数据;对获取的多支股票的收盘价以及与多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作;根据训练数据对与多支股票相关联的数据建立模型,生成第一模型,并对第一模型进行训练;基于训练完成的第一模型,根据训练数据对多支股票的收盘价建立模型,生成第二模型,并对第二模型进行训练;根据训练完成的第二模型对股票信息进行分析。该方法使用机器学习和人工智能的手段可以更好地更加高效地处理这些文本信息,提取出有用的信息,更精准地对股票市场进行预测。具有应用的高效性与易用性。
为了更清楚的理解与应用本发明提出的基于深度学习的股票数据分析方法,进行以下示例。需要说明的是,本发明的保护范围不局限以下示例。
结合图2所示,即图2为本发明另一实施例中的一种基于深度学习的股票数据分析方法的步骤流程图。
步骤201,获取多支股票的收盘价以及与多支股票相关联的数据。可以理解的是,与多支股票相关联的数据主要包括在论坛中,为股民对股票的评论信息。
在一个实施例中,获取多支股票的收盘价以及与多支股票相关联的数据包括:利用爬虫技术从web端获取预设时间周期内多支股票的收盘价;利用爬虫技术从web端获取预设时间周期内与多支股票相关联的数据信息,其中,多支股票相关联的数据为股民对股票的评论信息。
步骤202,对获取的多支股票的收盘价以及与多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作。
在一个实施例中,将预设时间周期内获取的多支股票的收盘价处理为涨跌比幅的形式;对预设时间周期内获取的与多支股票相关联的数据进行情感标注处理,其中,情感标注处理为通过人工方式进行标注,对标注的评论信息根据预设阈值划分为正向感情倾向、负向感情倾向以及中性感情倾向。
此外,还包括:对预设时间周期内获取的与多支股票相关联的数据进行分词处理;当分词处理中出现停用词,则对停用词进行去除操作。
步骤203,根据训练数据对与多支股票相关联的数据建立模型,生成第一模型,并对第一模型进行训练。可以理解的是,第一模型是一个情感分类模型。
在一个实施例中,根据训练数据对与多支股票相关联的数据建立模型,生成第一模型包括:使用word2vec模型,对与多支股票相关联的数据进行训练,生成相应的词向量;通过逻辑斯蒂模型获取与多支股票相关联的数据中每个词的情感倾向权重;连接每个词的word2vec得到的向量和情感倾向权重,作为该词的表达形式;训练深度循环神经网络进行情感分类。
步骤204,基于训练完成的第一模型,根据训练数据对多支股票的收盘价建立模型,生成第二模型,并对第二模型进行训练。可以理解的是,第二模型是用来预测股价涨跌的模型。
在一个实施例中,基于训练完成的第一模型,根据训练数据对多支股票的收盘价建立模型,生成第二模型包括:将多支股票的收盘价涨跌数据与多支股票相关联的数据进行结合,作为输入数据;基于输入数据,完成深度循环神经网络的训练操作。
步骤205,根据训练完成的第二模型对股票信息进行分析。
步骤206,根据测试数据对训练完成的第二模型进行测试效果评价操作。
优选地,根据上述步骤实施,表格1显示的为试验的股票所对应的准确率,具体数据如下:
股票代码 | 000043 | 000063 | 600000 | 600115 | 600198 |
准确率 | 0.7158 | 0.6605 | 0.6337 | 0.6697 | 0.6460 |
股票代码 | 601111 | 601398 | 600022 | 600508 | 600846 |
准确率 | 0.6720 | 0.6887 | 0.6935 | 0.6504 | 0.6371 |
基于同一发明构思,还提供了一种基于深度学习的股票数据分析装置。由于此装置解决问题的原理与前述一种基于深度学习的股票数据分析方法相似,因此,该装置的实施可以按照前述方法的具体步骤时限,重复之处不再赘述。
如图3所示,为一个实施例中的一种基于深度学习的股票数据分析装置的结构示意图。该基于深度学习的股票数据分析装置10包括:获取模块100、划分模块200、第一模型建立与训练模块300、第二模型建立与训练模块400和分析模块500。
其中,获取模块100用于获取多支股票的收盘价以及与多支股票相关联的数据;划分模块200用于对获取的多支股票的所述收盘价以及与多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作;第一模型建立与训练模块300用于根据训练数据对与多支股票相关联的数据建立模型,生成第一模型,并对第一模型进行训练;第二模型建立与训练模块400用于基于训练完成的第一模型,根据训练数据对多支股票的收盘价建立模型,生成第二模型,并对第二模型进行训练;分析模块500用于根据训练完成的第二模型对股票信息进行分析。
本发明提供的一种基于深度学习的股票数据分析装置,获取模块获取多支股票的收盘价以及与多支股票相关联的数据;划分模块对获取的多支股票的所述收盘价以及与多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作;第一模型建立与训练模块根据训练数据对与多支股票相关联的数据建立模型,生成第一模型,并对第一模型进行训练;第二模型建立与训练模块基于训练完成的第一模型,根据训练数据对多支股票的收盘价建立模型,生成第二模型,并对第二模型进行训练;分析模块根据训练完成的第二模型对股票信息进行分析。
本发明实施例还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,该程序被图1或图2中处理器执行。
本发明实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行上述图1或2的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于深度学习的股票数据分析方法,其特征在于,所述方法包括:
获取多支股票的收盘价以及与所述多支股票相关联的数据;
对获取的所述多支股票的所述收盘价以及与所述多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作;
根据所述训练数据对与所述多支股票相关联的数据建立模型,生成第一模型,并对所述第一模型进行训练;
基于训练完成的所述第一模型,根据所述训练数据对所述多支股票的所述收盘价建立模型,生成第二模型,并对所述第二模型进行训练;
根据训练完成的所述第二模型对股票信息进行分析。
2.根据权利要求1所述的基于深度学习的股票数据分析方法,其特征在于,还包括:根据所述测试数据对训练完成的所述第二模型进行测试效果评价操作。
3.根据权利要求1所述的基于深度学习的股票数据分析方法,其特征在于,所述获取多支股票的收盘价以及与所述多支股票相关联的数据包括:
利用爬虫技术从web端获取预设时间周期内所述多支股票的所述收盘价;
利用爬虫技术从web端获取预设时间周期内与所述多支股票相关联的数据,其中,所述多支股票相关联的数据为股民对股票的评论信息。
4.根据权利要1所述的基于深度学习的股票数据分析方法,其特征在于,对获取的所述多支股票的所述收盘价以及与所述多支股票相关联的数据进行处理包括:
将预设时间周期内获取的所述多支股票的所述收盘价处理为涨跌比幅的形式;
对预设时间周期内获取的与所述多支股票相关联的数据进行情感标注处理,其中,所述情感标注处理为通过人工方式进行标注,对标注的评论信息根据预设阈值划分为正向感情倾向、负向感情倾向以及中性感情倾向。
5.根据权利要求4所述的基于深度学习的股票数据分析方法,其特征在于,还包括:对预设时间周期内获取的与所述多支股票相关联的数据进行分词处理;
当分词处理中出现停用词,则对所述停用词进行去除操作。
6.根据权利要求1所述的基于深度学习的股票数据分析方法,其特征在于,根据所述训练数据对与所述多支股票相关联的数据建立模型,生成第一模型包括:
使用word2vec模型,对与所述多支股票相关联的数据进行训练,生成相应的词向量;
通过逻辑斯蒂模型获取与所述多支股票相关联的数据中每个词的情感倾向权重;
连接每个词的word2vec得到的向量和情感倾向权重,作为该词的表达形式;
训练深度循环神经网络进行情感分类。
7.根据权利要求1所述的基于深度学习的股票数据分析方法,其特征在于,所述基于训练完成的所述第一模型,根据所述训练数据对所述多支股票的所述收盘价建立模型,生成第二模型包括:
将所述多支股票的所述收盘价的涨跌数据与所述多支股票相关联的数据进行结合,作为输入数据;
基于所述输入数据,完成深度循环神经网络的训练操作。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述权利要求1-7中任一项所述方法的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述权利要求1-7中任一项所述方法的步骤。
10.一种基于深度学习的股票数据分析装置,其特征在于,所述装置包括:
获取模块,用于获取多支股票的收盘价以及与所述多支股票相关联的数据;
划分模块,用于对获取的所述多支股票的所述收盘价以及与所述多支股票相关联的数据进行处理,并完成训练数据与测试数据的划分操作;
第一模型建立与训练模块,用于根据所述训练数据对与所述多支股票相关联的数据建立模型,生成第一模型,并对所述第一模型进行训练;
第二模型建立与训练模块,用于基于训练完成的所述第一模型,根据所述训练数据对所述多支股票的所述收盘价建立模型,生成第二模型,并对所述第二模型进行训练;
分析模块,用于根据训练完成的所述第二模型对股票信息进行分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444978.5A CN108647823A (zh) | 2018-05-10 | 2018-05-10 | 基于深度学习的股票数据分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444978.5A CN108647823A (zh) | 2018-05-10 | 2018-05-10 | 基于深度学习的股票数据分析方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108647823A true CN108647823A (zh) | 2018-10-12 |
Family
ID=63754185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810444978.5A Pending CN108647823A (zh) | 2018-05-10 | 2018-05-10 | 基于深度学习的股票数据分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647823A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284504A (zh) * | 2018-10-22 | 2019-01-29 | 平安科技(深圳)有限公司 | 利用深度学习模型的证券研报分析方法及装置 |
CN109598380A (zh) * | 2018-12-03 | 2019-04-09 | 郑州云海信息技术有限公司 | 一种多元实时时序数据预测的方法和系统 |
CN109684460A (zh) * | 2018-12-28 | 2019-04-26 | 四川新网银行股份有限公司 | 一种基于深度学习的负面网络舆情指数的计算方法及系统 |
CN111241077A (zh) * | 2020-01-03 | 2020-06-05 | 四川新网银行股份有限公司 | 基于互联网数据的金融欺诈行为的识别方法 |
CN112906384A (zh) * | 2021-03-10 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于bert模型的数据处理方法、装置、设备及可读存储介质 |
CN114519613A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 价格数据的处理方法和装置、电子设备、存储介质 |
CN116882412A (zh) * | 2023-06-29 | 2023-10-13 | 易方达基金管理有限公司 | 一种基于nlp分类的语义推理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022522A (zh) * | 2016-05-20 | 2016-10-12 | 南京大学 | 一种基于互联网公开的大数据预测股票的方法及系统 |
US20170018033A1 (en) * | 2015-07-15 | 2017-01-19 | Foundation Of Soongsil University Industry Cooperation | Stock fluctuatiion prediction method and server |
CN106384166A (zh) * | 2016-09-12 | 2017-02-08 | 中山大学 | 一种结合财经新闻的深度学习股市预测方法 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107122351A (zh) * | 2017-05-02 | 2017-09-01 | 灯塔财经信息有限公司 | 一种应用于股票新闻领域的态度倾向分析方法与系统 |
-
2018
- 2018-05-10 CN CN201810444978.5A patent/CN108647823A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170018033A1 (en) * | 2015-07-15 | 2017-01-19 | Foundation Of Soongsil University Industry Cooperation | Stock fluctuatiion prediction method and server |
CN106022522A (zh) * | 2016-05-20 | 2016-10-12 | 南京大学 | 一种基于互联网公开的大数据预测股票的方法及系统 |
CN106384166A (zh) * | 2016-09-12 | 2017-02-08 | 中山大学 | 一种结合财经新闻的深度学习股市预测方法 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107122351A (zh) * | 2017-05-02 | 2017-09-01 | 灯塔财经信息有限公司 | 一种应用于股票新闻领域的态度倾向分析方法与系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284504A (zh) * | 2018-10-22 | 2019-01-29 | 平安科技(深圳)有限公司 | 利用深度学习模型的证券研报分析方法及装置 |
CN109598380A (zh) * | 2018-12-03 | 2019-04-09 | 郑州云海信息技术有限公司 | 一种多元实时时序数据预测的方法和系统 |
CN109684460A (zh) * | 2018-12-28 | 2019-04-26 | 四川新网银行股份有限公司 | 一种基于深度学习的负面网络舆情指数的计算方法及系统 |
CN111241077A (zh) * | 2020-01-03 | 2020-06-05 | 四川新网银行股份有限公司 | 基于互联网数据的金融欺诈行为的识别方法 |
CN112906384A (zh) * | 2021-03-10 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于bert模型的数据处理方法、装置、设备及可读存储介质 |
CN112906384B (zh) * | 2021-03-10 | 2024-02-02 | 平安科技(深圳)有限公司 | 基于bert模型的数据处理方法、装置、设备及可读存储介质 |
CN114519613A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 价格数据的处理方法和装置、电子设备、存储介质 |
CN114519613B (zh) * | 2022-02-22 | 2023-07-25 | 平安科技(深圳)有限公司 | 价格数据的处理方法和装置、电子设备、存储介质 |
CN116882412A (zh) * | 2023-06-29 | 2023-10-13 | 易方达基金管理有限公司 | 一种基于nlp分类的语义推理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647823A (zh) | 基于深度学习的股票数据分析方法和装置 | |
CN110957012B (zh) | 化合物的性质分析方法、装置、设备及存储介质 | |
Kumar | Efficiency of decision trees in predicting student’s academic performance | |
CN106156003A (zh) | 一种问答系统中的问句理解方法 | |
CN109785064A (zh) | 一种基于多源信息融合的移动电子商务推荐方法和系统 | |
Shokrollahpour et al. | An integrated data envelopment analysis–artificial neural network approach for benchmarking of bank branches | |
CN105302873A (zh) | 一种基于条件受限波尔兹曼机的协同过滤优化方法 | |
CN104850617B (zh) | 短文本处理方法及装置 | |
CN103150383B (zh) | 一种短文本数据的事件演化分析方法 | |
CN107341611A (zh) | 一种基于卷积神经网络的业务流程推荐方法 | |
Pallathadka et al. | Investigating the impact of artificial intelligence in education sector by predicting student performance | |
CN112084320B (zh) | 一种试题推荐方法、装置和智能设备 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
Adeyemo et al. | Effects of normalization techniques on logistic regression in data science | |
CN109214407A (zh) | 事件检测模型、方法、装置、计算设备及存储介质 | |
Kumar et al. | Customer loan eligibility prediction using machine learning algorithms in banking sector | |
CN108805311A (zh) | 农产品的价格预测方法和系统 | |
Lu et al. | Artificial intelligence-powered methodologies and applications in earthquake and structural engineering | |
Peng et al. | An industrial-grade solution for agricultural image classification tasks | |
Wang et al. | Fine-grained grape leaf diseases recognition method based on improved lightweight attention network | |
Ghani et al. | Classification of group-specific variations in songs within House Wren species using machine learning models | |
Mary et al. | ASFuL: Aspect based sentiment summarization using fuzzy logic | |
Papoušková et al. | Modelling loss given default in peer-to-peer lending using random forests | |
Verma et al. | ICT and Mobile Technology features predicting the university of Indian and Hungarian student for the real-time | |
Dileo et al. | Link prediction with text in online social networks: The role of textual content on high-resolution temporal data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181012 |