CN106227802A

CN106227802A - 一种基于中文自然语言处理和多核分类器的多信源股价预测方法

Info

Publication number: CN106227802A
Application number: CN201610580412.6A
Authority: CN
Inventors: 饶东宁; 邓福栋
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-07-20
Filing date: 2016-07-20
Publication date: 2016-12-14

Abstract

本发明提供一种基于中文自然语言处理和多核分类器的股价预测方法，主要涉及文本信息处理及金融情感分析等领域。本发明的特点是，随着网络和各种媒体的发展，人们越来越关注通过各种媒体发布的各种文本数据，用户发表的信息也带有一定的买卖股票的倾向，文本型变量对股票市场的影响较大，通过收集分析多信源股票数据，将文本型变量转换为数值型数据，采用多核分类器对股票价格进行预测，从而揭示示各种舆情文本与股票运动的趋势和波动的内在关系，同时对传统经济金融变量未能解释股票市场变化的部分进行补充。

Description

一种基于中文自然语言处理和多核分类器的多信源股价预测方法

技术领域

本发明涉及数据挖掘、机器学习、人工智能等领域，特别涉及到了一种基于文本关键字提取的情感分析评分模型。

背景技术

随着30多年来的快速发展，股票市场已经在我国现代金融体系中占主导地位，日渐涌现出多名股票投资爱好者。由于受到政治、经济、技术等影响，股票价格波动变化较大，为了最大化投资效益，股票投资者都迫切得到一种能较为准确预测股价变化的方法。通过综合分析影响股价变化的变量，进而预测股价未来的变化趋势，更好的指导投资。此类应用属于数据挖掘的范畴。

影响股票市场变化的变量既有数值型的变量，也有文本型的变量。数值型的变量，如：金融或者经济特征等。文本型的变量，如：1.股吧帖子，财务公告，研报等。这两个因素相辅相成，共同影响股价的变化。现有的技术方案中并没有考虑文本型变量对市场的影响，即使采用了人工智能的方法之后，部分的文本型变量也在研究股票市场变化时得到采用，但是这些研究也只停留在某一个文本变量上。本发明从实际需求出发，借鉴大量技术方案，综合考虑两方面放入变量，特别是基于文本信息的情感分析，为股票价格的预测提供了一种技术方案。

发明内容

本发明主要研究如何通过分析数值型的变量和文本型的变量，特别是基于文本信息的情感分析，设计一个能较好的预测股票价格变化的方法，使得股票投资者能够最大化投资收益。

为了实现发明目的，本发明采用的技术方案为通过收集传统经济金融特征和舆情(论坛帖子)，财务公告，研报等信息，然后对文本信息进行自然语言处理并为各个文本打分，制作数据字典，最后使用基于多信息源的SVM股价波动分类预测模型进行股价预测。主要步骤如下：

(1)多信源的数据收集，收集国内主流的股吧帖子，财务公告，研报等主要媒体股票信息数据；

(2)原始数据预处理，对收集到的股价信息进行处理并进程评分。对于股吧帖子，采用基于情感词典的文本情感倾向评分方法；对于财务公告，采用基于关键字词典评分方法；对于研报，根据研报的不同，采用不同的词典给研报评分，得到的评分数据作为预测模型的输入；

(3)预测模型选择，使用libsvm中自定义核函数的功能设定两个分类器：多核SVM多分类器和高斯核的SVM多分类器，通过对这两个分类器的预测性能做比较，找出适合股票市场波动预测的分类器并进行股价预测；

(4)预测模型性能评估，采用10折交叉验证的方法，对分类器的性能进行验证评估。

附图说明

图1多信源股价预测方法的框架图

具体实施方式

下面结合附图1对本发明做进一步的说明。本发明针对多信源股价数据收集、数据处理、股价预测模型选择三个方面进行研究。图1为我们的系统设计。

下面分别叙述各步骤的具体内容：

1、多信源股价数据收集

该步骤主要收集在某个时间段内，国内主流的股吧帖子、研报中心发布的研报、一些证券公司发布的财务公告和金融数据。

2、原始数据处理

关键是进行文本型数据的评分，这一步中，涉及两个关键技术，第一个是中文分词技术，第二个是如何根据特定的词给特定的文本评分。对于中文分词技术，我们采用n-gram算法进行中文分词和匹配，统计语言模型，假设一个句子S可以表示为一个序列S＝ω₁ω₂…ω_n，语言模型就是要求句子S的概率P(S)：这个概率的计算量太大，解决问题的方法是将所有历史ω₁ω₂…ω_i按照某个规则映射到等价类S(ω₁ω₂…ω_n)，等价类的数目远远小于不同历史的数目，即假定：p(ω_i|ω₁ω₂…ω_i-1)＝p(ω_i|S(ω₁ω₂…ω_i-1))。N-gram模型，当两个历史的最近的N-1个词(或字)相同时，映射两个历史到同一个等价类，在此情况下的模型称之为N-Gram模型。N-Gram模型被称为一阶马尔科夫链。N的值不能太大，否则计算仍然太大。根据最大似然估计，语言模型的参数：其中，C(ω₁ω₂…ω_i)表示ω₁ω₂…ω_i在训练数据中出现的次数。针对如何根据特定的词给特定的文本评分，流行的方法是TF-IDF(term frequency–inverse document frequency)算法。本文在传统的TF-IDF算法的基础上，考虑句子的长度和频率，公式如下：其中N表示样本的总数，dfi表示包含至少出现1次第i个词的文档的数目，tfi,j表示第j个文档中的第i个词的原始数目，aj表示第j个文档中平均的单词数目。

3、股价预测模型选择

我们参考已有的研究采用SVM作为预测模型，然而，对于股票波动的预测，我们并不清楚哪个核函数对该领域的研究，性能表现是最好的。所以我们分别采用多核SVM和高斯核SVM建立预测模型。支持向量机是从线性可分情况下的最优分类发展而来的，其本质就是在于寻找一个把训练空间Rd分成两部分的最优线性分类面w·x+b＝0，使得不仅能够把两类分开，而且两类的分类间隔最大，最终得到一个决策函数。对于线性可训练空间xi∈Rd，在d维特征空间上通过最大化几何间隔得到SVM优化模型如下：

\min_{W_{i}, b_{i}, ξ_{i}} \frac{1}{2} | | ω | |_{2}^{2} + c \underset{i = 1}{Σ} ξ_{i}

s.t.

y_i(ω·x_i+b)≥1-ξ_i,ξ_i≥0 (1)

其中：c为代价参数，ξi为松弛因子。求解式(1)，对于线性不可分的情况，将原特征向量映射到高维，得决策函数为：

引入核函数，决策函数转化为:f(x)＝sign(∑a_iy_ik(x_i,x)+b) (3)

其中为核函数。实验中选择径向基核函数(Radial BasisFunction，RBF):其中参数σ²为高斯函数的方差。σ控制了函数的径向作用范围:σ过小SVM分类器容易出现“过拟合”，σ过大则容易出现“欠拟合”。多核支持向量机，MKL-SVM在传统的SVM和输入数据之间加入了多核学习的过程，用多个核函数的线性组合作为最终的核函数(称为合成核)。多核学习分类较之单核的情况，能够更细粒度地照顾到各个不同特征的特性，针对不同特征可以选取各自最适合的核函数。多核学习中的合成核可以定义为：其中d_m≥0，M是核的个数。则多核学习支持向量机模型转化为：

\min_{W_{i}, b_{i}, ξ_{i}} \frac{1}{2} {(Σ_{m = 1}^{M} | | ω_{m} | |_{2})}^{2} + c Σ_{i = 1}^{n} ξ_{i}

s.t.

y i (Σ_{m = 1}^{M} ω_{m} \cdot x_{i} + b) &GreaterEqual; 1 - ξ_{i}, ξ_{i} &GreaterEqual; 0

决策函数转化为：

4、预测模型性能的评估

我们采用K折交叉验证的方法，对分类器的性能进行验证。K折交叉验证，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次。其中10折交叉验证是最常用的。我们采用10折交叉验证的方法验证分类预测模型的有效性。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于中文自然语言处理和多核分类器的多信源股价预测方法，包括如下模块：原始文本数据预处理模块和测模型选择模块；该方法包括如下步骤:

(1)多信源的数据收集；

(2)原始数据预处理，对收集到的股价信息进行处理并进性评分；

(3)预测模型选择；

(4)预测模型性能评估。

2.根据权利要求1所述的原始文本数据预处理模块，其特征在于所述步骤(2)，还包括如下步骤：

(2-1)对于数值型数据，采用将原始数据取对数的方法，把原始数据转换为适合预测模型的数据；

(2-2)对于文本型数据，采用基于词典的文本评分方法，采用开源多语言处理工具THUCTC把文本型的数据转换为适合预测模型的数据。

3.根据权利要求1所述的预测模型选择模块，其特征在于所述步骤(3)中，采用libsvm构造预测模型，定义一个多核SVM多分类器，进行特征参数的分类并进行股价预测。

4.根据权利要求2所述的原始文本数据预处理模块，其特征在于所述步骤(2-2)中，关键是进行文本型数据的评分，涉及两个关键技术，第一个是中文分词技术，第二个是如何根据特定的词给特定的文本评分，具体操作如下：

(3-2-1)对于中文分词技术，现行的分词技术可分为三大类基于字典、词库匹配法；基于词频度统计法和基于知识理解法，采用n-gram算法进行中文分词和匹配，统计语言模型，假设一个句子S可以表示为一个序列S＝ω₁ω₂…ω_n，语言模型就是要求句子S的概率P(S)：为了避免计算量大的问题，将所有历史ω₁ω₂…ω_i按照某个规则映射到等价类S(ω₁ω₂…ω_n)，根据最大似然估计，语言模型的参数：其中，C(ω₁ω₂…ω_i)表示ω₁ω₂…ω_i在训练数据中出现的次数；

(3-2-2)使用改进的TF-IDF算法计算词典中关键词的权值，TF-IDF倾向于过滤掉常见的词语，保留重要的词语，在传统的TF-IDF算法的基础上，考虑句子的长度和频率，公式如下：其中N表示样本的总数，df_i表示包含至少出现1次第i个词的文档的数目，tf_i,j表示第j个文档中的第i个词的原始数目，a_j表示第j个文档中平均的单词数目。

5.根据权利要求4所述的预测模型选择模块，其特征在于本发明采用多核SVM作为预测模型，多核学习分类能够更细粒度地照顾到各个不同特征的特性，针对不同特征可以选取各自最适合的核函数，多核学习中的合成核定义为：其中d_m≥0，M是核的个数，则多核学习支持向量机模型转化为：

\min_{W_{i}, b_{i}, ξ} \frac{1}{2} {(Σ_{m = 1}^{M} | | ω_{m} | |_{2})}^{2} + c Σ_{i = 1}^{n} ξ_{i}

s.t.

y i (Σ_{m = 1}^{M} ω_{m} \cdot x_{i} + b) &GreaterEqual; 1 - ξ_{i}, ξ_{i} &GreaterEqual; 0

决策函数转化为：其中：km表示第m个核函数，dm代表第m个核函数对应的权值，m表示核的个数，ξ表示支持向量机的惩罚因子，x是输入向量，y是类别向量，w是决策函数的wx+b＝1的比例系数向量，a是拉格朗日乘子，b是决策函数wx+b＝1中的截距向量，c是惩罚因子的系数。