CN106227756A

CN106227756A - 一种基于情感分类的股票指数预测方法及系统

Info

Publication number: CN106227756A
Application number: CN201610554536.7A
Authority: CN
Inventors: 熊得意; 董理; 王中卿
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2016-12-14

Abstract

本发明公开了一种基于情感分类的股票指数预测方法及系统，包括：爬取与候选词语对应的原始数据，并对原始数据进行清洗生成博文数据；将博文数据进行分析处理，生成词语信息；根据情感词典识别博文数据中的情感词，生成情感词信息；确定博文数据的情感分类信息；利用支持向量回归SVR技术及词语信息、情感词信息、情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果；可见，通过技术指标描述股票市场的基本状态，用情感分类信息来提高预测准确度，用词语信息来捕捉文本中潜在的不为人知的与股票市场相关的规律，且使用SVR技术提高了模型的预测准确度。

Description

一种基于情感分类的股票指数预测方法及系统

技术领域

本发明涉及股票预测技术领域，更具体地说，涉及一种基于情感分类的股票指数预测方法及系统。

背景技术

股票预测一直以来都是金融领域研究的重点。常见的手段是利用历史的股值、MACD、KDJ等技术指标来进行对应的分析，然而股票市场具有高度的复杂性，利用技术指标难以获得理想的预测结果。Fama通过对股票市场的研究，提出了著名的有效市场假说(EMH)，指出了由于新闻，历史股价和内部消息的作用，股票市场具有不可预测性。然而，Kavussanos等人通过研究Athens Stock Exchange(ASE)指出其不符合EMH所提出的股票市场活动规律。Gallagher等人从需求冲击和供给冲击角度出发，研究两者对股票市场价格的影响，进一步表明了EMH具有一定的局限性。而Qian等人利用神经网络、决策树和K近邻算法来训练模型，预测股票市场获得了高于EMH理论值的预测精度。之后，由于EMH指出新闻是驱动股票市场价格变化的重要因素之一，学者们从新闻的角度进行了展开了大量的研究。Fung等人从文本中抽取包含多个新闻的时间序列，研究了不同序列之间的影响关系以及在预测股票市场中的作用。

而Gilbert等人从LiveJournal中提取出大众焦虑指标，根据指标的变化情况来预测S&P500指数，验证了大众情绪对股票市场的作用。Bollen等人在Twitter评论的基础上，利用Google情感分析工具GPOMS和第三方分析工具OpinionFinder提取情感倾向，利用线性拟合技术建立模型预测道琼斯指数。

上述研究中提出的方法有如下缺点：

(1)都是从诸如新闻和情感为代表的某个角度切入，忽略了股票市场最基本的技术指标。

(2)在构建预测模型时，常用的方法是利用简单的线性回归技术构建模型，而股票市场的变化在很大程度上是难以被简单的线性关系所描述的，存在过拟合或者欠拟合的情况，从而制约了预测的准确度。

(3)在抽取文本情感的过程中，使用的是单一的方法如规则方法或者统计方法，并没有将两者结合起来评判优劣。

因此，如何克服上述缺点，增加股票指数预测的准确度是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种基于情感分类的股票指数预测方法及系统，以实现增加股票指数预测的准确度。

为实现上述目的，本发明实施例提供了如下技术方案：

一种基于情感分类的股票指数预测方法，包括：

爬取与候选词语对应的原始数据，并对所述原始数据进行清洗生成博文数据；

将所述博文数据进行分析处理，生成词语信息；根据情感词典识别所述博文数据中的情感词，生成情感词信息；确定所述博文数据的情感分类信息；

利用支持向量回归SVR技术及所述词语信息、所述情感词信息、所述情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果。

其中，所述爬取与候选词语对应的原始数据，包括：

依次选取关键词列表中的候选词语，利用博文搜索功能拼写成与选取的候选词语对应的URL，访问所述URL，并将当前页面的结果作为原始数据进行保存，直至遍历结束所述关键词列表中的所有候选词语。

其中，若当前选择的候选词语搜索结束，则进行随机延时后，再执行从关键词列表中选取未被搜索的候选词语的步骤。

其中，对所述原始数据进行清洗生成博文数据，包括：

从原始数据中抽取预设的标签内容，根据所述标签内容对所述原始数据去重；和/或，

利用噪声词库去除所述原始数据的噪声词；和/或

去除所述原始数据中的不符合预定日期信息的数据，生成博文数据。

其中，所述确定所述博文数据的情感分类信息，包括：

将所述博文数据分成N1个词语的集合；其中，N1为正整数；

检索情感词典获得每个词语对应的情感值，并计算所有词语的情感值的和，根据所述情感值的和确定所述博文数据的情感分类信息。

其中，所述确定所述博文数据的情感分类信息，包括：

将所述博文数据分成N2个词语的集合；其中，N2为正整数；

将所述N2个词语的集合输入SVM分类器，得到所述博文数据的情感值，根据所述情感值确定所述博文数据的情感分类信息。

其中，所述SVM分类器的训练方法包括：

选取第一预定数量个训练样本训练支持向量机SVM模型，并在训练结束后选取第二预定数量个测试样本测试训练后的支持向量机SVM模型；

若训练结果的准确率大于预定阈值，则训练结束，生成SVM分类器；若训练结果的准确率不大于预定阈值，则继续选取训练样本训练支持向量机SVM模型。

其中，利用支持向量回归SVR技术及所述词语信息、所述情感词信息、所述情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果，包括：

向SVR模型添加所述词语信息，构建第一模型：Model_words；

向所述SVR模型添加所述情感词信息，构建第二模型：Model_sentiment_words；

向所述SVR模型添加所述情感分类信息，构建第三模型：Model_sentiment_analysis；

向所述SVR模型添加股票技术指标，构建第四模型：Model_text_techs；

分别设置所述第一模型、所述第二模型、所述第三模型和所述第四模型预算结果的权重，生成股票指数预测结果。

其中，所述向SVR模型添加所述词语信息之前，还包括：

从所述词语信息中过滤词频小于预定频率的词语，将过滤后的词语信息添加至所述SVR模型。

一种基于情感分类的股票指数预测系统，包括：

数据抓取模块，用于爬取与候选词语对应的原始数据；

数据清洗模块，用于对所述原始数据进行清洗生成博文数据；

词语信息生成模块，用于将所述博文数据进行分析处理，生成词语信息；

情感词信息生成模块，用于根据情感词典识别所述博文数据中的情感词，生成情感词信息；

情感分类信息确定模块，用于确定所述博文数据的情感分类信息；

预测结果生成模块，用于利用支持向量回归SVR技术及所述词语信息、所述情感词信息、所述情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果。

通过以上方案可知，本发明实施例提供的一种基于情感分类的股票指数预测方法及系统，包括：爬取与候选词语对应的原始数据，并对所述原始数据进行清洗生成博文数据；将所述博文数据进行分析处理，生成词语信息；根据情感词典识别所述博文数据中的情感词，生成情感词信息；确定所述博文数据的情感分类信息；利用支持向量回归SVR技术及所述词语信息、所述情感词信息、所述情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果；

可见，在本实施例中，以股票技术指标为基础，结合词语信息、情感词信息和情感分类信息，通过技术指标描述股票市场的基本状态，用情感分类信息来提高预测准确度，用词语信息来捕捉文本中潜在的不为人知的与股票市场相关的规律，利用相对全面的信息来预测股票市场，并且采用支持向量回归SVR构建模型，能够回避样本量不足带来的过拟合和欠拟合的状况，相比于仅用技术指标和大众情感，本发明提出的预测方法能获得更高的预测准确度，相比与采用普通线性拟合构建的基准模型，本发明使用SVR技术提高了模型的预测准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种基于情感分类的股票指数预测方法流程示意图；

图2为本发明实施例公开的爬虫处理流程示意图；

图3为本发明实施例公开的数据清洗流程示意图；

图4为本发明实施例公开的情感词典分析方法流程示意图；

图5为本发明实施例公开的支持向量机学习方法流程示意图；

图6为本发明实施例公开的SVR模型构建流程示意图；

图7为本发明实施例公开的一种基于情感分类的股票指数预测系统结构流程示意图；

图8(a)为本发明实施例公开的真实股指与SVR对比示意图；

图8(b)为本发明实施例公开的真实股指与线性拟合对比示意图；

图8(c)为本发明实施例公开的真实股指与基准模型对比示意图；

图8(d)为本发明实施例公开的总体对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于情感分类的股票指数预测方法及系统，以实现增加股票指数预测的准确度。

参见图1，本发明实施例提供的一种基于情感分类的股票指数预测方法，包括：

S101、爬取与候选词语对应的原始数据，并对所述原始数据进行清洗生成博文数据；

其中，所述爬取与候选词语对应的原始数据，包括：

具体的，若当前选择的候选词语搜索结束，则进行随机延时后，再执行从关键词列表中选取未被搜索的候选词语的步骤。

具体的，参见图2，本实施例提供的数据爬取流程如下：

(1)利用选取关键词列表中的候选词语；

(2)利用微博中的博文搜索功能拼写成URL，访问并保存html文件；

(3)改写URL定位新的搜索结果；

(4)随机延时，回避微博爬虫屏蔽机制；

(5)选取新的关键词重复以上步骤，直至遍历结束所有的关键词列表。

其中，对所述原始数据进行清洗生成博文数据，包括：

利用噪声词库去除所述原始数据的噪声词；和/或

具体的，本实施例中清洗博文数据的步骤可以是去重、去噪和筛选这三者中的任意组合，生成博文数据。

具体的，参见图3，本实施例中的数据清洗流程如下：

(1)文本解析：抽取html文件中感兴趣的标签内容。在本实施例中，选取的标签内容为博文作者、发布时间和博文内容；例如，在图3所示中，作者标签为<a class＝’nk’>，文本内容标签为<span class＝”ctt”>，发布时间标签为<span class＝”ct”>；

(2)数据去重：将博文作者、发布时间和博文内容作为去重所用的主键，过滤掉当日同一作者发布的多条相似博文；即图3中所示的“2016-03-17蓝色幻想家五连阳，看涨声一片，提示注意风险！面临2930点一线压力，明日操作计划，逢高继续减仓”；

(3)降噪：利用人工标注的形式，收集每个关键词高频的噪声词构建列表，通过检索该列表中的噪声词，来过滤原始数据中的噪声词；即图3中所示的“2016-03-17蓝色幻想家新疆大盘鸡真好吃！！”；

(4)按日期过滤：由于我们预测的是次日的股票指数，在此需要过滤掉非今日收盘(15:00)到次日开盘(9:00)之间的数据；即过滤掉图3中所示的“2016-03-10证券股东激进者可以适当加仓了，目前大盘2823点”。

S102、将所述博文数据进行分析处理，生成词语信息；根据情感词典识别所述博文数据中的情感词，生成情感词信息；确定所述博文数据的情感分类信息；

具体的，本实施例中情感分类信息的确定包括两种方式，一是利用情感词典方法计算语句中的情感值，二是利用样本训练支持向量机来计算文本情感值。

其中，情感词典分析方法的流程如下：

将所述博文数据分成N1个词语的集合；其中，N1为正整数；

具体的，参见图4，情感词典分析方法的流程具体包括：

(1)将博文数据分成N1个词语的集合；

(2)检索情感词典获得每个词语对应的情感值，积极的词语情感值为+1，消极的词语情感值为-1，中性或者没有收录的词语情感值为0；

(3)对博文中所有词语的情感值求和，若和大于0则该博文的情感倾向为积极；若小于0则为消极，若等于0则为中性。

例如，若博文数据为：“明天股票形式一片大好”，则分为N个词语的集合包括：“明天”，“股票”，“形式”，“一片大好”四个词语；检索情感词典获得每个词语对应的情感值，得到“一片大好为”的情感值为+1，其余为0；对博文中所有词语的情感值求和后，“明天股票形式一片大好”的情感值为1，则该博文数据为积极。

其中，支持向量机(SVM)的分类过程如下：

将所述博文数据分成N2个词语的集合；其中，N2为正整数；

其中，所述SVM分类器的训练方法包括：

具体的，参见图5，支持向量机(SVM)的分类过程具体如下：

(1)样本标注：标注正负各800个样本用于训练和测试分类器；

(2)利用正负样本训练分类器；

(3)测试分类器的分类准确率，若到达准确率的要求则用于博文情感信息的抽取。若不满足则重新训练，测试直至满需要求；

(4)博文分词；例如将博文“明天股票形式一片大好”分为“明天”，“股票”，“形式”，“一片大好”四个词语；

(5)利用训练好的分类器，抽取博文情感分类信息，计算情感值；例如博文数据“明天股票形式一片大好”中情感值计算为1.0785；

(6)利用情感值判断博文情感倾向：情感值大于0则为积极，小于0则为消极；例如，上述“明天股票形式一片大好”的情感值为1.0785，大于0，则代表上述博文数据情感为积极。

S103、利用支持向量回归SVR技术及所述词语信息、所述情感词信息、所述情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果。

向SVR模型添加所述词语信息，构建第一模型：Model_words；

其中，所述向SVR模型添加所述词语信息之前，还包括：

具体的，参见图6，在本实施例中SVR构建预测模型是利用多种特性信息，例如文本信息和股票指数指标，构建预测模型的过程；其中，文本信息即为述词语信息、情感词信息和情感分类信息。具体过程如下：

(1)添加博文词信息，构建模型Model_words。其中，在本实施例中过滤掉一些低频的词信息，保留高频词信息。在实际过程中我们保留情感词频率较高的10000个词。设置权重为1；

(2)添加情感词信息，构建模型Model_sentiment_words。检索情感词典，标注博文中对应词语的权重为2；

(3)添加情感分类结果，构建模型Model_sentiment_analysis，设置情感分类结果的权重为9，并将数值缩放10倍；

(4)添加股票技术指标，包括大盘的股票指数，成交量，涨跌程度，指数平滑异同平均线(MACD)和随机指标(KDJ)，构建模型Model_text_techs，设置权重为9，并将对应数值缩放10倍。

在预测过程中，将今日的博文集合和技术指标作为输入，系统经过上述步骤后，分析等到对应的模型，文本信息和技术指标，并自动生成明日的股票指数预测结果。

下面对本发明实施例提供的股票指数预测系统进行介绍，下文描述的股票指数预测系统与上文描述的股票指数预测方法可以相互参照。

参见图7，本发明实施例提供的一种基于情感分类的股票指数预测系统，包括：

数据抓取模块100，用于爬取与候选词语对应的原始数据；

数据清洗模块200，用于对所述原始数据进行清洗生成博文数据；

词语信息生成模块300，用于将所述博文数据进行分析处理，生成词语信息；

情感词信息生成模块400，用于根据情感词典识别所述博文数据中的情感词，生成情感词信息；

情感分类信息确定模块500，用于确定所述博文数据的情感分类信息；

预测结果生成模块600，用于利用支持向量回归SVR技术及所述词语信息、所述情感词信息、所述情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果。

在此，本实施例通过具体的实施例对本方案所能实现效果进行距离：

在本实施例中本文使用的数据来源于新浪微博，我们通过40个词的关键词列表收集新浪微博中关于上证综指的评论，再通过一定的方法进行数据清洗，获得了每日1.2W-1.5W条的原始数据集，这个数据集的时间跨度为2016/03/05-2016/04/29，共40个交易日。在此基础上，我们选择了2016/03/07-2016/4/12(共25天)的数据来建立模型进行预测，利用2016/4/13-2016/4/29(共13天)的数据进行测试，将股票指数归一化，采用均方误差(MSE)衡量预测结果。我们比较了SVR方法和普通线性拟合之间的预测效果。同时，我们对比了不同的特征值对预测效果的影响。

实验过程中，我们利用最小二乘法实现普通线性拟合，利用libSVM实现SVR算法，而在抽取文本信息的过程中，我们利用SVM-light实现支持向量机的情感分类方法。其中，这些工具的参数设置均为工具的默认值。

在分析过程中，我们构建Model_words，Model_sentiment_words，Model_sentiment_analysis和Model_text_tech四个模型用于比较特征信息对预测结果的影响。其中，Model_words代表词信息构建的模型，Model_sentiment_words代表增加了情感词的模型，Model_sentiment_analysis代表增加了情感分类结果的模型，Model_text_tech代表了增加技术指标的模型。

接着，我们利用SVR，选取最佳的特征组合构建模型Model_SVR与基准模型Model_baseline及Model_LR进行比较，对比预测能力。其中，Model_baseline代表我们设计的简单预测模型，即利用前7天股票指数的平均值作为预测值；Model_LR代表我们使用股票技术指标进行线性拟合构建的预测模型。我们使用MSE作为评判标准，衡量归一化后的预测值和真实值。

根据上文的实验框架，我们对比了各个特征值对股票指数预测结果的影响，选择利用文本信息和技术指标构建预测模型和基准模型进行对比，实验结果如表1及图8(a)、8(b)、8(c)和8(d)所示：

表1

我们发现，Model_LR的结果并没有基准系统Model_baseline来的精确。这可能是由于，股票市场价格虽然变化程度大，但是相对的比较集中，并不能真正的反应股票市场的变化。而线性拟合方法中，技术指标参数较多，拟合情况相对复杂，容易出现过拟合的情况。

而利用SVR方法构建的模型Model_SVR具有相对最小的MSE值。而且在趋势变化上，Model_SVR的变化更为接近真实股指的变化，预测值和真实值的离散程度相对较小。这充分说明了，利用技术指标和文本信息进行SVR分析确实能获得理想的预测结果。

而我们之所以选择利用文本信息和技术指标的组合构建模型，是因为我们在各特征模型的对比实验中发现，该组合具有更好地预测性能。实验结果详见表2下：

表2

我们不难发现，仅用技术指标所构建的模型比仅用词性的预测效果要好，这是因为技术指标是由学者在漫长的金融研究中所总结得到的，和股票市场的相关性比较高；而词信息相对零散，与股票价格变化之间关系相对较弱。

而通过对词信息构建的基准模型增加特征值，我们发现在引入情感词和情感分类结果之后，预测结果有了显著的提升，甚至超过了技术指标的预测结果。这表明了股票市场变化确实和大众情感之间存在着紧密的联系。然而，我们也发现添加情感分类结果对预测模型的提升更为明显。这说明了股票市场与大众情感的关联关系并不是体现在某一个或是某一些词上的，而是更多的表现在整个句子的情感变化中的。

最后，我们发现将文本信息(词信息，情感信息和情感分类结果)与技术指标结合，确实能获得相对最高的预测准确度。

本发明实施例提供的一种基于情感分类的股票指数预测方法及系统，包括：爬取与候选词语对应的原始数据，并对所述原始数据进行清洗生成博文数据；将所述博文数据进行分析处理，生成词语信息；根据情感词典识别所述博文数据中的情感词，生成情感词信息；确定所述博文数据的情感分类信息；利用支持向量回归SVR技术及所述词语信息、所述情感词信息、所述情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于情感分类的股票指数预测方法，其特征在于，包括：

2.根据权利要求1所述的股票指数预测方法，其特征在于，所述爬取与候选词语对应的原始数据，包括：

3.根据权利要求2所述的股票指数预测方法，其特征在于，

若当前选择的候选词语搜索结束，则进行随机延时后，再执行从关键词列表中选取未被搜索的候选词语的步骤。

4.根据权利要求3所述的股票指数预测方法，其特征在于，对所述原始数据进行清洗生成博文数据，包括：

利用噪声词库去除所述原始数据的噪声词；和/或

5.根据权利要求1所述的股票指数预测方法，其特征在于，所述确定所述博文数据的情感分类信息，包括：

将所述博文数据分成N1个词语的集合；其中，N1为正整数；

6.根据权利要求1所述的股票指数预测方法，其特征在于，所述确定所述博文数据的情感分类信息，包括：

将所述博文数据分成N2个词语的集合；其中，N2为正整数；

7.根据权利要求6所述的股票指数预测方法，其特征在于，所述SVM分类器的训练方法包括：

若训练结果的准确率大于预定阈值，则训练结束，生成所述SVM分类器；若训练结果的准确率不大于预定阈值，则继续选取训练样本训练支持向量机SVM模型。

8.根据权利要求1-7中任意一项所述的股票指数预测方法，其特征在于，利用支持向量回归SVR技术及所述词语信息、所述情感词信息、所述情感分类信息和股票技术指标，构建预测模型，并生成股票指数预测结果，包括：

向SVR模型添加所述词语信息，构建第一模型：Model_words；

向所述SVR模型添加所述情感词信息，构建第二模型：

Model_sentiment_words；

向所述SVR模型添加所述情感分类信息，构建第三模型：

Model_sentiment_analysis；

9.根据权利要求8所述的股票指数预测方法，其特征在于，所述向SVR模型添加所述词语信息之前，还包括：

10.一种基于情感分类的股票指数预测系统，其特征在于，包括：

数据抓取模块，用于爬取与候选词语对应的原始数据；