CN116071155A - 一种基于投资者情绪和数值数据的股票价格指数预测方法 - Google Patents
一种基于投资者情绪和数值数据的股票价格指数预测方法 Download PDFInfo
- Publication number
- CN116071155A CN116071155A CN202210854108.1A CN202210854108A CN116071155A CN 116071155 A CN116071155 A CN 116071155A CN 202210854108 A CN202210854108 A CN 202210854108A CN 116071155 A CN116071155 A CN 116071155A
- Authority
- CN
- China
- Prior art keywords
- emotion
- stock
- index
- data
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 204
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000013461 design Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013139 quantization Methods 0.000 claims abstract description 5
- 230000009193 crawling Effects 0.000 claims abstract description 4
- 238000003306 harvesting Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 5
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 239000006185 dispersion Substances 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 3
- 238000012800 visualization Methods 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000007787 long-term memory Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于投资者情绪和数值数据的股票价格指数预测方法。首先,爬取沪深300指数相关数据,获得收盘价数值和股吧评论文本数据,对数据进行预处理。并构建金融领域特定情感词典,进而对预处理后的文本数据进行情感分析并做量化处理后获得投资者情绪指标。其次,构建基于投资者情绪和数值数据的股票价格指数预测模型,利用模型对沪深300指数最后20天的收盘价数据进行预测,对预测结果反归一化后进行比较和可视化。最后,设计实现了股票价格指数预测系统。实验验证了本发明提出的股票价格指数预测模型的准确度相对较高,加入基于股吧评论的投资者情绪指标提高了股票价格预测的准确度。
Description
技术领域
本发明涉及股票价格预测技术领域,提出了一种基于投资者情绪和数值数据的股票价格指数预测方法。
背景技术
近年来,股票价格预测作为金融数据领域的研究热点,大量的研究者采用基于数值数据的方法对股票价格进行预测,忽略了社交媒体上文本数据对股票市场的影响。为了充分利用文本数据的信息,本发明提出了一种基于投资者情绪和数值数据的股票价格指数预测方法。利用基于情感词典的方法对股吧评论文本数据进行情感分析获得投资者情绪指标。该指标衡量了投资者对股票市场的看法。由于基础情感词典是针对所有领域通用的,在金融领域词汇的划分上难免有失偏颇,本发明根据金融领域词典CFSD中文金融情感词典、百度编制的金融专业词库、爬取的股吧评论文本数据以及股票操作常用词汇人工加入和修改了金融领域的情感词,以提高情感分析的准确度。
为了更好的利用文本和数值数据信息对股票价格进行预测,本发明利用长短期记忆网络(Long short-term memory,LSTM)构建了基于投资者情绪和数值数据的股票价格指数预测模型,该模型在输入特征上是多维度的,不仅仅包括沪深300指数收盘价,还融合了基于股吧评论的投资者情绪指标,且该模型是以沪深300指数的收盘价数据为预测输出对象。该模型采用三个LSTM网络层,分别为LSTM输入层、LSTM隐藏层以及LSTM输出层。其中输入层有5个神经元,分别用来处理连续5天的收盘价以及投资者情绪指标数据,只有LSTM输出层的最后一个神经元进行预测结果的输出。具体来说,就是用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征维度,对第6天的收盘价进行预测。
本发明技术解决了现有的股票价格预测模型往往只利用数值数据,鲜有研究融合文本情感数据构建股票价格预测模型的问题。虽然数值数据可以在很大程度上反映股票市场的走势,但是随着行为金融学理论的提出,由社交媒体文本数据所折射出的投资者情绪在一定程度上影响着股票市场的波动。结合文本情绪指标和数值数据作为输入特征可以进一步提高股票价格预测模型的准确度。
发明内容
本发明旨在通过利用沪深300指数股吧评论文本数据和历史收盘价数据对股票价格指数进行预测,设计系统并实现。
为达到上述目的,针对文本数据对股票市场的影响,本发明提出了一种基于投资者情绪和数值数据的股票价格指数预测方法,包括以下步骤:
S1,数据的获取和预处理过程;选用沪深300指数(000300)数据作为研究对象,爬取了沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数值和股吧评论文本数据,并对数据进行去噪声处理和数值归一化处理;
S2,构建金融领域特定情感词典;本发明构建的金融领域特定情感词典包括两个步骤,一是融合现有的通用情感词典,二是加入金融领域特有情感词;本发明融合多个通用情感词典,在此基础上进行领域适应,根据金融领域特定词典、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典;
S3,构建投资者情绪指标;利用金融领域特定情感词典计算每条股吧评论文本数据的情感倾向值,在此基础上分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标;
S4,构建基于投资者情绪和数值数据的股票价格指数预测模型;使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征,模型共包含三个长短期记忆神经网络(Long short-term memory,LSTM)层。并对沪深300指数最后20天的收盘价数据进行预测,对预测结果进行反归一化,最后对结果进行比较和可视化;
S5,构建基于投资者情绪和数值数据的股票价格指数预测系统;包括预测系统设计和预测系统实现。
根据本发明实施例提出的基于投资者情绪和数值数据的股票价格指数预测方法,首先爬取沪深300指数相关数据,获得收盘价数值和股吧评论文本数据,对数据进行预处理。并构建金融领域特定情感词典,进而对预处理后的文本数据进行情感分析并做量化处理后获得投资者情绪指标。其次,构建基于投资者情绪和数值数据的股票价格指数预测模型,利用模型对沪深300指数最后20天的收盘价数据进行预测,对预测结果反归一化后进行比较和可视化。最后,设计实现了股票价格指数预测系统。
根据本发明的一个实施例,所述步骤S1包括:
S11,使用Excel软件中的“排序和筛选”以及“查找和选择”等功能对股吧评论根据文本的特征形式进行去除噪声处理;
S12,使用归一化函数MinMaxScaler对收盘价数据进行了离差标准化,将结果值归一化到[0,1]区间:
其中,xnormaliation为标准化后的数据,x为样本数据,xmax和xmin为样本数据中的最大值和最小值。
根据本发明的一个实施例,步骤S2还包括:
S21,融合了现有的通用情感词典,包括Hownet情感词典、清华大学中文褒贬义词典、大连理工大学中文情感词汇本体库、波森情感词典、褒贬词及其近义词、汉语情感词极值表、情感词汇本体、情感词典及其分类;对多个词典文档进行融合,并进行去重处理,同时将词典归结为积极词汇和消极词汇两大类,并对情感词典的权重进行统一调整;
S22,本发明根据金融领域特定词典(CFSD中文金融情感词典、百度编制的金融专业词库)、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典。
根据本发明的一个实施例,步骤S3还包括:
S31,对每条股吧评论文本数据进行基于金融领域情感词典的情感分析,将得到的分析结果按照本发明的量化公式进行计算,得到情感倾向值:
其中,n表示每条评论文本所包含的情感词汇的个数,cj为某股吧评论文本句子si分词后的积极情感词、消极情感词或中性情感词,denyj为情感词cj前出现否定词的数量,wj为情感词前的程度词的权重,wj的默认值为1,wj是根据知网情感词典中的六种程度词赋予不同的程度等级;如果sent(si)>0,则表示投资者对股票市场看好,反之如果Sent(si)<0,则表示投资者对股票市场看跌;
S32,分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标,并对其进行归一化处理。
根据本发明的一个实施例,步骤S4还包括:
S41,基于投资者情绪和数值数据的股票价格指数预测模型共有三层,分别为LSTM输入层、LSTM隐藏层以及LSTM输出层;其中输入层有5个神经元,使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入层;
S42,经过模型训练后,使用LSTM输出层的最后一个神经元对第6天的收盘价预测结果进行输出,进而对沪深300指数最后20天的收盘价数据进行预测,并对预测结果进行反归一化,最后对结果进行比较和可视化。
根据本发明的一个实施例,步骤S5还包括:
S51,股票价格指数预测系统采用MVC框架设计,即Model、View和Controller框架,其中Model是模型层,View是视图层,Controller是操作层;系统功能实现主要依托Python语言,且使用Tkinter库对预测系统完成界面设计;
S52,股票价格指数预测系统实现了两个模块功能:一是对股票相关文本数据进行情感分析并构建投资者情绪指标;二是实现股票价格指数预测并对结果可视化展示,同时对预测模型的性能进行评估。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提出了一种基于投资者情绪和数值数据的股票价格指数预测方法,具体利用金融领域特定情感词典对股吧评论文本数据进行情感分析,获得投资者情绪指标,并结合历史收盘价数据对股票价格指数进行预测。
(2)构建了金融领域特定情感词典和投资者情绪指标,其中特定情感词典融合了多个通用情感词典和金融领域特定情感词,投资者情绪指标的加入进一步提高了股票价格指数预测的准确性。
(3)在沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数据上验证了本发明提出的股票价格指数预测方法,实验结果验证了在LSTM模型中融合基于股吧评论文本数据的投资者情绪指标后,模型的准确度又得到了进一步的提升,基于股吧评论文本数据的投资者情绪指标对股票市场的波动有着一定的影响,将其和数值数据融合作为模型的输入特征可以有效地提高预测准确度。
附图说明
图1是根据本发明实施例的基于投资者情绪和数值数据的股票价格指数预测方法的流程图。
图2是金融领域特定情感词典的构成图。
图3是基于投资者情绪和数值数据的股票价格指数预测模型的流程图。
图4是基于投资者情绪和数值数据的股票价格指数预测模型结构图。
图5是训练集及预测集上的滑动窗口图。
图6是基于BP(Backpropagation)神经网络的股票价格指数预测结果图。
图7是基于LSTM数值特征输入的股票价格指数预测结果图。
图8是基于投资者情绪和数值数据的股票价格指数预测结果图。
图9是基于投资者情绪和数值数据的股票价格指数预测系统的主界面图。
图10是系统的投资者情绪指标构建模块图。
图11是系统的股票价格指数预测模块图。
具体实施方式
下面结合附图来进一步描述本发明。
如图1至图11所示,本发明框架主要分为以下五个步骤,它们逐层相接并最终将其进行融合。学习过程主要包括以下步骤:
S1,数据的获取和预处理过程;选用沪深300指数(000300)数据作为研究对象,爬取了沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数值和股吧评论文本数据,并对数据进行去噪声处理和数值归一化处理;
其中,步骤S1包括:
S11,使用Excel软件中的“排序和筛选”以及“查找和选择”等功能对股吧评论根据文本的特征形式进行去除噪声处理;
在数据获取和预处理阶段,首先爬取了沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数值和股吧评论文本数据;根据文本的特征形式对股吧评论进行去除噪声处理,处理的噪声文本数据主要包含以下几类与投资者情绪无关的评论文本信息:一是重复的主题;二是财富号、大V的操作帖和收评帖;三是其他与沪深300指数显然无关系的评论,例如行情走势图以及其他股票的分析等;其中,文本数据去噪处理主要利用Excel软件中的“排序和筛选”以及“查找和选择”等功能;本发明共爬取2020年8月31日2021年9月1日的沪深300指数股吧评论4663条,去除沪深300指数无关评论74条,财富号评论223条,“转发”85条,“可转债”110条。
由于沪深300指数收盘价数据与投资者情绪指标在量级上存在较大差异,不能简单地进行融合。为了使算法的收敛速度更快,股票价格预测结果更加准确,本发明主要使用归一化函数MinMaxScaler对数据进行了数据变换预处理。
S12,使用归一化函数MinMaxScaler对收盘价数据进行了离差标准化,将结果值归一化到[0,1]区间:
其中,xnormalization为标准化后的数据,x为样本数据,xmax和xmin为样本数据中的最大值和最小值。
S2,金融领域特定情感词典的构建过程;本发明构建的情感词典包括两个步骤,一是融合现有的通用情感词典,二是加入金融领域特有情感词。本发明融合多个通用情感词典,在此基础上进行领域适应,根据金融领域词典、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典;
步骤S2还包括:
S21,融合了现有的通用情感词典,包括Hownet情感词典、清华大学中文褒贬义词典、大连理工大学中文情感词汇本体库、波森情感词典、褒贬词及其近义词、汉语情感词极值表、情感词汇本体、情感词典及其分类;对多个词典文档进行融合,并进行去重处理,同时将词典归结为积极词汇和消极词汇两大类,并对情感词典的权重进行统一调整;
由于基础情感词典是针对所有领域通用的,在金融领域词汇的划分上难免有失偏颇,因此在融合通用情感词典的基础上进行领域适应,从而构建了面向金融领域的特定情感词典。本发明的金融领域特定情感词典的构成如图2所示。
S22,本发明根据金融领域特定词典(CFSD中文金融情感词典、百度编制的金融专业词库)、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典。
本发明所构建的金融领域特定情感词典部分词汇如表1所示。
表1金融领域特定情感词典部分词汇
S3,投资者情绪指标的构建过程;利用金融领域特定情感词典计算每条股吧评论文本数据的情感倾向值,在此基础上分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标;
步骤S3还包括:
S31,对每条股吧评论文本数据进行基于金融领域情感词典的情感分析,将得到的分析结果按照本发明的量化公式进行计算,得到情感倾向值:
其中,n表示每条评论文本所包含的情感词汇的个数,cj为某股吧评论文本句子si分词后的积极情感词、消极情感词或中性情感词,denyj为情感词cj前出现否定词的数量,wj为情感词前的程度词的权重,wj的默认值为1,wj是根据知网情感词典中的六种程度词赋予不同的程度等级;如果sent(si)>0,则表示投资者对股票市场看好,反之如果Sent(si)<0,则表示投资者对股票市场看跌;
程度等级如表2所示。
表2程度词的程度等级划分
S32,分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标,并对其进行归一化处理。
经过数据去除噪声处理和投资者情绪指标构建后,获得了投资者情绪指标与2020年8月31日至2021年9月1日近一年的沪深300指数收盘价的简单描述性统计信息,如表3所示
表3投资者情绪指标与沪深300指数收盘价的描述性统计表
S4,构建基于投资者情绪和数值数据的股票价格指数预测模型;使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征,模型共包含三个长短期记忆神经网络(Long short-term memory,LSTM)层;并对沪深300指数最后20天的收盘价数据进行预测,对预测结果进行反归一化,最后对结果进行比较和可视化;
S4还包括:
S41,基于投资者情绪和数值数据的股票价格指数预测模型共有三层,分别为LSTM输入层、LSTM隐藏层以及LSTM输出层;其中输入层有5个神经元,使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入层;
S42,经过模型训练后,使用LSTM输出层的最后一个神经元对第6天的收盘价预测结果进行输出,进而对沪深300指数最后20天的收盘价数据进行预测,并对预测结果进行反归一化,最后对结果进行比较和可视化。
图3展示了基于投资者情绪和数值数据的股票价格指数预测模型的流程图。
需要说明的是,LSTM是一种特殊的循环神经网络(Recurrent neural network,RNN),可以解决长期记忆依赖问题。LSTM的核心思想称为“细胞状态”,其出现就是为了解决RNN的长期记忆依赖问题。LSTM单元通过“遗忘门”(Forget gate)、“输入门”(Input gate)和“输出门”(Output gate)三种结构对贯穿其中的细胞状态进行信息编辑,通过对信息的控制,长短期记忆神经网络可以将对最终训练目标有用的信息保留。
遗忘门(Forget gate)主要任务是接受一个长期记忆Ct-1(上一个单元模块传过来的输出)并决定要保留和遗忘Ct-1的哪个部分。控制记忆单元状态信息的舍弃与保留。其中,遗忘门状态ft计算公式:
ft=σ(Wf·[ht-1,xt]+bf),
其中,Wf和bf分别为权重和偏置,ht-1为上一个隐藏单元,xt为此刻输入值,σ为sigmoid函数。
输入门(Input gate)则是决定了当前时刻网络的输入xt有多少保存到单元状态Ct,负责更新记忆单元的状态,细胞的更新状态则是LSTM的核心。计算公式为:
it=σ(Wf·[gt-1,xt]+bi),
C`t=tanh(WC·[ht-1,xt]+bC)。
其中,it为输入门状态,Wf和bi为权重参数和偏置,ht-1为上一个隐藏单元,xt为此刻输入值。C`t为当前细胞新输入的信息,WC和bC权重参数和偏置,tanh为双曲正切函数。细胞状态更新主要是将旧的细胞状态Ct-1更新为当前细胞状态Ct。其中,Ct的计算公式为:
Ct=ft*Ct-1+it*C`t。
输出门(Output gate)则是要根据细胞状态,负责确定下一个隐藏状态的值,其中隐藏状态包含了先前的输入信息。计算公式为:
ot=σ(Wo·[ht,Xt-1]+bo),
ht=ot*tanh(Ct)。
其中,ot为输出门状态,Wo和bo为权重参数和偏置,ht-1为上一个隐藏单元,xt为此刻输入值。ht为当前隐藏单元,tanh为双曲正切函数,Ct为当前细胞状态。
为了更直观地描述模型结构,本发明通过可视化的方式对基于投资者情绪和数值数据的股票价格指数预测模型进行展示,如图4所示即是该模型的网络结构图。对于基于投资者情绪和数值数据的股票价格指数预测模型来说,x<t>(t=1,2…n)是一个向量,代表第t天的收盘价数据和投资者情绪指标,代表输出的收盘价预测值。
股票价格的预测基于过去的历史交易数据,因此在模型训练的过程中采用交叉验证的方法进行,将每次预测出的收盘价数据输入到训练集和测试集中继续进行预测的滑动窗口方式,且将滑动窗口设定为5天为一时间步长(time_step=5)。之所以选择5天作为时间步长,是因为在多次建模过程中发现,天数选择的太少,模型不能够充分地掌握股票价格运行的规律,模型的预测效果不够理想,但随着天数的增加,模型的预测误差会逐渐的变大。此种预测方式有助于让模型更全面地获取股票价格信息,确保模型的有效和准确,如图5所示。
为了探究本发明构建的基于投资者情绪和数值数据的股票价格指数预测模型的预测性能,本发明从只用收盘价数据输入对模型预测效果的影响入手,进行了两个模型的构建,即BP神经网络股票价格指数预测模型以及LSTM数值特征输入股票价格指数预测模型。使用构建的股票价格指数预测模型对沪深300指数最后20天的收盘价数据进行预测,并对预测结果进行反归一化,最后对结果进行比较和可视化。最终的模型预测结果如图6、7、8所示。
基于BP神经网络的股票价格指数预测结果如图6所示
基于LSTM数值特征输入的股票价格指数预测结果如图7所示
基于投资者情绪和数值数据的股票价格指数预测结果如图8所示
通过各模型预测结果图可以看出,基于BP神经网络的股票价格指数预测模型虽然能够对股票价格趋势进行预测,但是预测结果非常不稳定,预测误差相对较大。然而基于深度学习构建的两个LSTM股票价格指数预测模型存在明显的优势,对沪深300指数后20天收盘价数据预测的走势都基本一致,预测结果也较为接近。
本发明在对模型的预测性能进行评价时,选用平均绝对误差、均方误差和均方根误差作为评价标准。其中,平均绝对误差(Mean absolute error,MAE)表示各预测值平均绝对偏差值;均方误差(Mean square error,MSE)是反应预测值偏离原始值误差的平方和的平均值;均方根误差(Root mean squared error,RMSE)是MSE的变形,能够很好地预测值和真实值的偏离程度。各指标的计算公式为:
其中,forecast(i)为预测值,actual(i)为真实值,n为测试样本个数。
为了更加直观的比较三种预测模型的准确度,通过对沪深300指数收盘价预测值与真实值进行比较计算,得出各模型预测结果的评价指标如表4所示。
表4不同模型股票价值指数预测结果的评价指标值
通过对照实验预测结果可以明显得到,基于BP神经网络的股票价格指数预测模型的预测性能最差,基于LSTM的股票价格指数预测模型的各评价指标均远远小于基于BP神经网络的股票价格指数预测模型的评价指标,基于LSTM的股票价格指数预测模型在预测的准确性上有着显著的提髙,这证明了在股票价格预测过程中,LSTM神经网络可以克服BP神经网络对非线性学习不深入的问题,LSTM神经网络模型能较好地处理长序依赖问题,在解决时间序列问题上相较于BP神经网络模型有着更好的优势。其次,在LSTM模型中融合基于股吧评论文本数据的投资者情绪指标后,其MAE的值较LSTM数值特征预测模型降低了41.27%,模型的准确度又得到了进一步的提升,基于股吧评论文本数据的投资者情绪指标对股票市场的波动有着一定的影响,将其用于股票价格可以有效地提高预测准确度。
S5,基于投资者情绪和数值数据的股票价格指数预测系统;包括预测系统设计和预测系统实现;
步骤S5还包括:
S51,股票价格指数预测系统采用MVC框架设计,即Model、View和Controller框架,其中Model是模型层,View是视图层,Controller是操作层;系统功能实现主要依托Python语言,且使用Tkinter库对预测系统完成界面设计;
S52,股票价格指数预测系统实现了两个模块功能:一是对股票相关文本数据进行情感分析并构建投资者情绪指标;二是实现股票价格指数预测并对结果可视化展示,同时对预测模型的性能进行评估。
基于投资者情绪和数值数据的股票价格指数预测系统主要包括“投资者情绪指标构建”以及“股票价格指数预测”两个模块。系统主界面如图9所示。
投资者指标构建模块主要有股吧评论文本数据输入功能、情感分析功能、保存情感分析结果功能、生成投资者情绪指标功能和保存投资者情绪指标功能,如图10所示。
股票价格指数预测模块主要有股票数据来源输入功能、股票价格指数预测功能和输出预测模型性能功能,如图11所示。
综上所述,本发明的使用一种基于投资者情绪和数值数据的股票价格指数预测模型对股票价格指数进行预测,实验验证了本发明提出的股票价格指数预测模型的准确度相对较高,加入基于股吧评论的投资者情绪指标在一定程度上提高了股票价格预测的准确度。
本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员依据本发明的方法和思想得出的其它实施方式,同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。
Claims (3)
1.一种基于投资者情绪和数值数据的股票价格指数预测方法,其特征在于,包括以下步骤:
S1,数据的获取和预处理过程;选用沪深300指数数据作为研究对象,爬取了沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数值和股吧评论文本数据,并对数据进行去噪声处理和数值归一化处理;
S2,构建金融领域特定情感词典;本发明构建的金融领域特定情感词典包括两个步骤,一是融合现有的通用情感词典,二是加入金融领域特有情感词;本发明融合多个通用情感词典,在此基础上进行领域适应,根据金融领域特定词典、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典;
S3,构建投资者情绪指标;利用金融领域特定情感词典计算每条股吧评论文本数据的情感倾向值,在此基础上分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标;
步骤S3还包括:
S31,对每条股吧评论文本数据进行基于金融领域情感词典的情感分析,将得到的分析结果按照本发明的量化公式进行计算,得到情感倾向值:
其中,n表示每条评论文本所包含的情感词汇的个数,cj为某股吧评论文本句子si分词后的积极情感词、消极情感词或中性情感词,denyj为情感词cj前出现否定词的数量,wj为情感词前的程度词的权重,wj的默认值为1,wj是根据知网情感词典中的六种程度词赋予不同的程度等级;如果Sent(si)>0,则表示投资者对股票市场看好,反之如果Sent(si)<0,则表示投资者对股票市场看跌;
S32,分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标,并对其进行归一化处理;
S4,构建基于投资者情绪和数值数据的股票价格指数预测模型;使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征,模型共包含三个长短期记忆神经网络层;并对沪深300指数最后20天的收盘价数据进行预测,对预测结果进行反归一化,最后对结果进行比较和可视化;
步骤S4还包括:
S41,基于投资者情绪和数值数据的股票价格指数预测模型共有三层,分别为长短期记忆神经网络输入层、隐藏层以及输出层。其中输入层有5个神经元,使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入层;
S42,经过模型训练后,使用长短期记忆神经网络输出层的最后一个神经元对第6天的收盘价预测结果进行输出,进而对沪深300指数最后20天的收盘价数据进行预测,并对预测结果进行反归一化,最后对结果进行比较和可视化;
S5,构建基于投资者情绪和数值数据的股票价格指数预测系统;包括预测系统设计和预测系统实现;
步骤S5还包括:
S51,股票价格指数预测系统采用MVC框架设计,即Model、View和Controller框架,其中Model是模型层,View是视图层,Controller是操作层;系统功能实现主要依托Python语言,且使用Tkinter库对预测系统完成界面设计;
S52,股票价格指数预测系统实现了两个模块功能:一是对股票相关文本数据进行情感分析并构建投资者情绪指标;二是实现股票价格指数预测并对结果可视化展示,同时对预测模型的性能进行评估。
3.根据权利要求1所述的基于投资者情绪和数值数据的股票价格指数预测方法,其特征在于,步骤S2还包括:
S21,融合了现有的通用情感词典,包括褒贬词及其近义词、汉语情感词极值表、情感词汇本体、情感词典及其分类;对多个词典文档进行融合,并进行去重处理,同时将词典归结为积极词汇和消极词汇两大类,并对情感词典的权重进行统一调整;
S22,本发明根据金融领域特定词典,爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210854108.1A CN116071155A (zh) | 2022-07-13 | 2022-07-13 | 一种基于投资者情绪和数值数据的股票价格指数预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210854108.1A CN116071155A (zh) | 2022-07-13 | 2022-07-13 | 一种基于投资者情绪和数值数据的股票价格指数预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116071155A true CN116071155A (zh) | 2023-05-05 |
Family
ID=86172130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210854108.1A Pending CN116071155A (zh) | 2022-07-13 | 2022-07-13 | 一种基于投资者情绪和数值数据的股票价格指数预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071155A (zh) |
-
2022
- 2022-07-13 CN CN202210854108.1A patent/CN116071155A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN111626785A (zh) | 一种基于结合注意力的cnn-lstm网络基金价格预测方法 | |
CN108363690A (zh) | 基于神经网络的对话语义意图预测方法及学习训练方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN107562784A (zh) | 基于ResLCNN模型的短文本分类方法 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
Zhao et al. | The study on the text classification for financial news based on partial information | |
CN112784532B (zh) | 用于短文本情感分类的多头注意力记忆系统 | |
CN111522956A (zh) | 基于双通道和层次化注意力网络的文本情感分类方法 | |
Yan et al. | Research on public opinion sentiment classification based on attention parallel dual-channel deep learning hybrid model | |
CN111309909B (zh) | 一种基于混合模型的文本情感分类方法 | |
CN112527966A (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
Alp et al. | Prediction of bist price indices: a comparative study between traditional and deep learning methods | |
Busari et al. | An application of AdaBoost-GRU ensemble model to economic time series prediction | |
KR102596740B1 (ko) | 기계학습을 이용한 경제불확실성 뉴스심리에 따른 거시경제적 요인과 주식수익률 예측방법 | |
Kale et al. | Forecasting Indian stock market using artificial neural networks | |
CN109033413B (zh) | 一种基于神经网络的需求文档和服务文档匹配方法 | |
Gu et al. | Stock prediction based on news text analysis | |
CN116204644A (zh) | 一种基于VAE和Attention的主题增强文本情感分类方法 | |
CN115393078A (zh) | 一种基于多源异构数据的混合注意力股票涨跌预测方法 | |
CN116071155A (zh) | 一种基于投资者情绪和数值数据的股票价格指数预测方法 | |
Srinivas et al. | Effects of Daily News Sentiment on Stock Price Forecasting | |
CN115545875A (zh) | 系统性风险传染机制的动态识别方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |