CN105069141A

CN105069141A - 一种股票标准新闻库的构建方法及构建系统

Info

Publication number: CN105069141A
Application number: CN201510511588.1A
Authority: CN
Inventors: 金学波
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2015-08-19
Filing date: 2015-08-19
Publication date: 2015-11-18

Abstract

本发明涉及股票标准新闻库的构建方法及构建系统，包括获取股票新闻信息；构建股票标准库Z₀；对股票标准库中的文本进行预编译；对文本特征进行标识，选取特征词；计算特征词的信息增益，得到特征词的特征值；利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型；利用分类模型更新股票标准库；更新调整股票标准库中的新闻组成；通过对抓取的新闻信息进行判断是积极新闻还是消极新闻，构建分类模型，并通过向量机算法不断更新数据库中的新闻信息，实现新闻库的构建，该数据库构建方法简单，实现方便，且新闻数据处理效率高，及时更新数据信息，数据信息准确。

Description

一种股票标准新闻库的构建方法及构建系统

技术领域

本发明涉及文字信息处理技术领域，尤其是一种股票标准新闻库的构建方法。

背景技术

股市新闻作为市场信息的重要部分，被投资者广泛地分析和运用。随着互联网的高速发展，新闻传播和信息变更的速度非常大。拥有如此大量的信息，越来越多的金融机构依靠计算机来分析数据，与此相关的分析预测系统可以帮助投资者过滤干扰信息并做出合理的选择。

股票价格的统计分析和预测方法很多，一些传统技术分析方法包括股价图形分析(点线图、直线图、K线图等)、趋势分析(趋势线、通道线、黄金分割线等)、指标分析(随机指标、威廉指标、乖离率、相对强弱指数等)等。这些技术主要集中在运用近期历史价格数据的数值型方法分析，不能分析文字新闻数据。

目前，随着互联网的发展，基于文本分析的股票分析及预测方法也取得了实际的应用效果。基于文本分类-预测模型可以利用最新的股市新闻，对股价给出一个比较明确的预测(上升，持平或者下降)。基于文本分析的股票分析及预测方法通过公开新闻信息，利用改进的评价组对股票情感词进行特征选择，并用归一化后的绝对词频权重对文本中的情感词进行特征加权选择并对股票新闻进行倾向性分析。但是该方法较为复杂，效率较低，输出结果的准确性不高。

发明内容

本发明所要解决的技术问题是提供一种构建简单，输出准确的股票标准新闻库构建方法及构建系统。

本发明解决上述技术问题的技术方案如下：

一种股票标准新闻库的构建方法，其特征在于，包括如下步骤，

步骤S1：获取股票新闻信息；

步骤S2：根据股票新闻信息构建股票标准库Z₀；

步骤S3：对股票标准库中的文本进行预编译；

步骤S4：对已编译文本的特征进行标识，选取特征词；

步骤S5：计算特征词的信息增益，得到特征词的特征值；

步骤S6：利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型；

步骤S7：利用分类模型更新股票标准库；

步骤S8：重复步骤S3至步骤S6，调整股票标准库中的新闻组成，直至分类结果正确比率大于阈值。

本发明的有益效果：通过对抓取的新闻信息进行判断是积极新闻还是消极新闻，构建分类模型，并通过向量机算法不断更新数据库中的新闻信息，实现新闻库的构建，该数据库构建方法简单，实现方便，且新闻数据处理效率高，及时更新数据信息，数据信息准确。

进一步，获取股票新闻信息的方法为使用互联网工具网络爬虫从互联网中抓取股票新闻信息。

采用进一步技术方案的有益效果：从互联网中实时抓取新闻信息，新闻时效性高，能够实现动态更新新闻库。

进一步，所述步骤S2构建股票标准库的方法为根据获取的股票新闻信息，逐条判断新闻信息对股票是看涨或看跌，如果看涨，则该条新闻信息归类为积极新闻，如果看跌则该条新闻归类为消极新闻，积极新闻和消极新闻共同构成股票标准库Z₀。

采用进一步技术方案的有益效果：新闻信息归类为积极新闻和消极新闻，归类简单直接，积极新闻和消极新闻共同构成股票标准库Z₀，便于后续文本处理。

进一步，所述步骤S3中对股票标准库中的文本进行预编译，预编译包括对新闻信息进行分词和去除停用词；

分词，采用Jieba分词系统，基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，采用了动态规划查找最大概率路径，找出基于词频的最大切分组合；

去除停用词，定义停用词，利用Jieba分词工具去除停用词。

采用进一步技术方案的有益效果：工业界和学术界常用的有TheStanfordNLP(中科院NLP组)，其为基于Python语言的Jieba开源分词软件的中文分词组件。采用Jieba分词系统，它基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图。采用了动态规划查找最大概率路径，找出基于词频的最大切分组合。另外利用Jieba分词工具本身自带的停用词库(包含语气助词、副词、介词、连接词等)就可以很好的达到去除停用词的目标。

进一步，所述步骤S4对文本特征进行标识，采用TF-IDF加权法；

TF-IDF的计算方法为词频TF与逆向文档频率IDF的乘积，TF表示词语在文件d中出现的频率，IDF的含义是：如果包含词语t的文件越少，也就是n越小，IDF越大，则说明词语t具有很好的类别区分能力；

对于在某一特定语料中的词语t_i来说，TF的计算方法为：

{TF}_{i, j} = \frac{n_{i, j}}{Σ_{1}^{k} n_{k, j}}

上式中n_i，j是该词语在文档d_j中的显现次数，而分母则是在文档d_j中所有词语的显现次数之总和；

IDF由总文档数目除以包含该词语的文档的数目，再将所得到的商取对数得到：

{IDF}_{i} = l o g \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

其中|D|：股票标准库的文档总数；

|{j：t_i∈d_j}|：包含词语t_i的文档数目(即n_i，j≠0的文档数目)，如果该词语在语料库中不存在，就会导致分母为零，因此使用1+|{j：t_i∈d_j}|作为特征选择方法；

TF-IDF加权法的计算方法如下：

TFIDF_i，j＝TF_i，j*IDF_i。

采用进一步技术方案的有益效果：采用TF-IDF加权法，TF-IDF(termfrequencyinversedocumentfrequency)是一种用于资讯检索的常用加权技术。用以评估某个词语对于一个文档集合(或股票标准库)中的其中一份文件的重要程度。单词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级，所以TF-IDF加权法倾向于去掉常见的无意义的词语，保留重要的词语，对于经过分词和去掉停用词处理后新闻文本中的词语。

实际中如果特征词选择太多，在训练SVM时耗时长，还不收敛，但特征词太少，标准新闻库构建效果不好。所以经过实验，选取20个特征词为最优方案。

进一步，所述步骤S5中信息增益为某一特征在文档中出现的前后信息熵之差，其计算公式为：

\begin{matrix} I G (T) = H (C) - H (C | T) \\ = - Σ_{i = 1}^{n} P (C_{i}) \log_{2} P (C_{i} | t) + P (t) Σ_{i = 1}^{n} P (C_{i} | t) \log_{2} P (C_{i} | t) + P (\overset{&OverBar;}{t}) Σ_{i = 1}^{n} P (C_{i} | \overset{&OverBar;}{t}) \log_{2} P (C_{i} | \overset{&OverBar;}{t}) \end{matrix}

式中：P(C_i)表示类别C_i出现的概率，用类别C_i的文档数除以总的文档数；P(t)是特征t出现的概率，用出现过T的文档数除以总文档数；P(C_i|t)表示出现T的时候，类别C_i出现的概率；

对每个词语进行编号，每个编号的词语计算得到的信息增益与之一一对应，并作为输入数据对支持SVM进行有监督训练，训练的输出数据为1或-1表示特征词的特征值，其中1表示积极新闻，-1表示消极新闻。

采用进一步技术方案的有益效果：计算特征词的特征值，采用1表示积极新闻，-1表示消极新闻，方法简单，归类迅速。

进一步，步骤S6，利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型。

采用进一步技术方案的有益效果：SVM(向量机)算法是机器学习中成熟的算法，其是利用已知的输入输出数据进行训练，得到描述输入输出数据分类的支持向量，算法训练完毕。接下来，如果没有输出标签的数据输入到该系统中，利用已经训练得到的支持向量就可以将新输入的数据进行分类。该算法还有很多改进方法，本专利的本步骤可以使用任何SVM算法。

进一步，所述步骤S7中利用分类模型更新股票标准库的具体步骤如下：

步骤71：将将特征词的信息增益作为输入加入到已训练的支持SVM上，选择对股票新闻积极或消极分类正确的新闻，组成新闻集合Z₁；

步骤72：使用爬虫工具在网页上继续获取股票评价新闻，新闻的特征数据作为输入加入到已训练的支持SVM上，对股票新闻进行分类，得到其为积极或消极分类的结果；

步骤73：将得到的新闻及其分类结果构成新闻集合Z₂，利用Z₁修改Z₀，构建新的股票新闻标准库，并将Z₂加到标准库中，形成新的标准库Z₃，其中新的标准库中包含的新闻库为Z₁+Z₂。

采用上述进一步方案的有益效果是：使用该方式可以不断扩大和充实新闻库的内容。

进一步，设Z₀＝Z₃，重复主步骤3-6，并不断调整Z₃中的新闻组成，直到利用训练后的模型、训练的输入数据的分类结果正确比率大于90％，所得的Z₃即为新构建的标准库。

采用上述进一步方案的有益效果是：重复步骤3至步骤6，使得分类结果正确比率大于90％，便于准确构建标准库。

一种股票标准新闻库构建系统，其特征在于，包括新闻获取模块、标准新闻库模块、预编译模块、标识模块、信息增益模块、分类模块和调整控制模块；

所述新闻获取模块，用于获取股票新闻信息；

所述标准新闻库模块，用于根据股票新闻信息构建股票标准库Z₀；

所述预编译模块，用于对股票标准库中的文本进行预编译；

所述标识模块，用于对已编译文本的特征进行标识，选取特征词；

所述信息增益模块，用于计算特征词的信息增益，得到特征词的特征值；

所述分类模块，用于利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型，并利用分类模型更新股票标准库；

所述调整控制模块，用于重复调用预编译模块、标识模块、信息增益模块和分类模块，调整股票标准库中的新闻组成，直至分类结果正确率大于阈值。

附图说明

图1为股票标准新闻库的构建方法流程图；

图2为股票标准新闻库的构建系统原理框图。

具体实施方式

以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种股票标准新闻库的构建方法，其特征在于，包括如下步骤，

步骤S1：使用互联网工具网络爬虫从互联网中抓取股票新闻信息；

步骤S2：构建股票标准库Z₀；

步骤S3：对股票标准库中的文本进行预编译；

步骤S4：对文本特征进行标识，选取特征词；

步骤S5：计算特征词的信息增益，得到特征词的特征值；

步骤S7：利用分类模型更新股票标准库；

步骤S8：重复步骤3至步骤6，调整股票标准库中的新闻组成。

所述步骤2构建股票标准库的方法为根据获取的股票新闻信息，逐条判断新闻信息对股票是看涨或看跌，如果看涨，则该条新闻信息归类为积极新闻，如果看跌则该条新闻归类为消极新闻，积极新闻和消极新闻共同构成股票标准库Z₀。

步骤S3中对股票标准库中的文本进行预编译，预编译包括对新闻信息进行分词和去除停用词；工业界和学术界常用的有TheStanfordNLP，中科院NLP组，基于Python语言的Jieba开源分词软件的中文分词组件。建议采用Jieba分词系统，它基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图。采用了动态规划查找最大概率路径，找出基于词频的最大切分组合。

去除停用词，定义停用词，利用Jieba分词工具去除停用词。比如“房地产板块股(尤其是)保利地产后期(有望)继续走强”，“尤其是”和“有望”这两个词就是停用词，没有什么实际意义，再根据股票新闻的特点人工增加类似上交所，深交所等毫无分类意义的词汇，以便达到更高的效率。利用Jieba分词工具本身自带的停用词库(包含语气助词、副词、介词、连接词等)就可以。

步骤S4对文本特征进行标识，采用TF-IDF加权法；

TF-IDF加权法(termfrequencyinversedocumentfrequency，用于信息检索与数据挖掘的常用加权技术)在文本处理领域中应用广泛，该方法的基本原理是：如果某个词语在一篇文件中出现的频率高，但是在其他文件中出现频率低，则认为该词语具有很好的类别区分能力，能够用于分类操作。

对于在某一特定语料中的词语t_i来说，TF的计算方法为：

{TF}_{i, j} = \frac{n_{i, j}}{Σ_{1}^{k} n_{k, j}}

{IDF}_{i} = l o g \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

其中|D|：股票标准库的文档总数；

TF-IDF加权法的计算方法如下：

TFIDF_i，j＝TF_i，j*IDF_i。

采用TF-IDF加权法，当某一特定文档语料中的高频率词语，以及该词语在全部文本集合中的低文档频率，能够体现出较高权重的值。所以，TF-IDF方法倾向于去掉常见的单词，保留重要的单词。对经过分词和去除停用词处理后新闻文本中的词语，计算TF-IDF值之后，选择其中权重最大的20个特征词。

步骤S5中信息增益为某一特征在文档中出现的前后信息熵之差，其计算公式为：

\begin{matrix} I G (T) = H (C) - H (C | T) \\ = - Σ_{i = 1}^{n} P (C_{i}) \log_{2} P (C_{i} | t) + P (t) Σ_{i = 1}^{n} P (C_{i} | t) \log_{2} P (C_{i} | t) + P (\overset{&OverBar;}{t}) Σ_{i = 1}^{n} P (C_{i} | \overset{&OverBar;}{t}) \log_{2} P (C_{i} | \overset{&OverBar;}{t}) \end{matrix}

利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型。SVM算法(向量机算法)是机器学习中很成熟的算法，其功能是利用已知的输入输出数据进行训练，得到描述输入输出数据分类的支持向量，算法训练完毕。接下来，如果没有数据输入到该系统中，利用已经训练得到的支持向量就可以将新输入的数据进行分类。该算法还有很多改进方法，本专利的本步骤可以使用任何SVM方法，基本原理和步骤可以参考如下：

步骤S5中将每个特征词进行编号，例如标号为1，2，3......(连续整数)。对于每个标号的词语计算得到与之相对应的信息增益作为输入数据；根据股票未来实际涨跌，判断每只股票新闻是积极新闻还是消极新闻，得到新闻类别1(表示积极新闻)或-1(表示消极新闻)作为输出数据，利用已知新闻类别的样本对支持向量机进行有监督训练。通过支持向量机构建分类器模型将输入数据分为两类，需要找到数据集的最佳分隔超平面，可以通过最优化目标函数得到：

\arg \underset{w, b}{m a x} {\underset{n}{m i n} (l a b e l \cdot (w^{T} x + b)) \cdot \frac{1}{| | w | |}}

直接求解上述问题相当困难，经过一系列推导将其转化为另一种容易求解得形式：

\underset{α}{m a x} [Σ_{i = 1}^{m} α - \frac{1}{2} Σ_{i, j = 1}^{m} {label}^{(i)} \cdot {label}^{(j)} \cdot a_{i} \cdot a_{i} < x^{(i)}, x^{(j)} >]

其约束条件为：

C≥α≥0，和

Σ_{i = 1}^{m} α_{i} \cdot {label}^{(i)} = 0

其中<x⁽ⁱ⁾，x^(j)>表示两个向量内积，常数C用于控制“最大化间隔”和“保证大部分点的函数间隔在0到1.0”。在优化算法的实现代码中，常数C是一个参数，可以通过调节该参数的到不同的结果。SVM的主要工作就是求解这些α_i，一旦求出了所有的α_i，那么分隔超平面就可以通过这些α_i来表达。

具体步骤为：

步骤61选择径向基函数作为核函数，将训练样本映射到高维特征空间；

K_c(x，y)＝exp(-γ||x-y||²)

在使用RBF核函数的情况下，需要优化的参数有：C和γ。C是惩罚系数，C太小，容易发生过拟合，C太大，拟合的结果和实际结果相差太大；γ是RBF的系数，γ的取值直接影响到能否找到一个能将多类数据分开的最优超平面。一般取值方法为C＝2¹¹，γ＝2^-11。

步骤62利用SVM在样本特征空间中找出各类别样本的最优分类超平面，得到代表各样本特征的支持向量。

步骤63求出最小化||w||，w是垂直于超平面的向量；

步骤64只存储非零的α_i和相应的支持向量X_i；

步骤65分类；对于待分类样本X，用支持向量X_i和相应的权重α_i计算判别函数式得到输出类别。

步骤S7中利用分类模型更新股票标准库的具体步骤如下：

步骤71：将特征词的信息增益作为输入加入到已训练的支持SVM上，选择对股票新闻积极或消极分类正确的新闻，组成新闻集合Z₁；

设Z₀＝Z₃，重复步骤3至步骤6，并不断调整Z₃中的新闻组成，直到利用训练后的模型、训练的输入数据的分类结果正确比率大于90％，所得的Z₃即为新构建的标准库。

如图2所示，一种股票标准新闻库构建系统，其特征在于，包括新闻获取模块1、标准新闻库模块2、预编译模块3、标识模块4、信息增益模块5、分类模块6和调整控制模块7；

所述新闻获取模块1，用于获取股票新闻信息；

所述标准新闻库模块2，用于根据股票新闻信息构建股票标准库Z₀；

所述预编译模块3，用于对股票标准库中的文本进行预编译；

所述标识模块4，用于对已编译文本的特征进行标识，选取特征词；

所述信息增益模块5，用于计算特征词的信息增益，得到特征词的特征值；

所述分类模块6，用于利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型，并利用分类模型更新股票标准库；

所述调整控制模块7，用于重复调用预编译模块3、标识模块4、信息增益模块5和分类模块6，调整股票标准库中的新闻组成，直至分类结果正确率大于阈值。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种股票标准新闻库的构建方法，其特征在于，包括如下步骤，

步骤S1：获取股票新闻信息；

步骤S2：根据股票新闻信息构建股票标准库Z₀；

步骤S3：对股票标准库中的文本进行预编译；

步骤S4：对已编译文本的特征进行标识，选取特征词；

步骤S5：计算特征词的信息增益，得到特征词的特征值；

步骤S7：利用分类模型更新股票标准库；

步骤S8：重复步骤S3至步骤S6，调整股票标准库中的新闻组成，直至分类结果正确率大于阈值。

2.根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，获取股票新闻信息的方法为使用互联网工具网络爬虫从互联网中获取股票新闻信息。

3.根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，所述步骤S2构建股票标准库的方法为根据获取的股票新闻信息，逐条判断新闻信息对股票是看涨或看跌，如果看涨，则该条新闻信息归类为积极新闻，如果看跌则该条新闻归类为消极新闻，积极新闻和消极新闻共同构成股票标准库Z₀。

4.根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，所述步骤S3中对股票标准库中的文本进行预编译，预编译包括对新闻信息进行分词和去除停用词；

分词，采用Jieba分词系统，基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，采用动态规划查找最大概率路径，找出基于词频的最大切分组合；

去除停用词，定义停用词，利用Jieba分词工具去除停用词。

5.根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，采用TF-IDF加权法对所述步骤S4中文本特征进行标识；

TF-IDF加权法为词频TF与逆向文档频率IDF的乘积，TF表示词语在文件d中出现的频率，IDF是判断词语在其他文档中出现次数的一种度量，用于判断词语的类别区分能力；

对于在某一特定语料中的词语t_i来说，TF的计算方法为：

{TF}_{i, j} = \frac{n_{i, j}}{Σ_{1}^{k} n_{k, j}}

{IDF}_{i} = l o g \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

其中|D|：股票标准库的文档总数；

TF-IDF加权法的计算方法如下：

TFIDF_i，j＝TF_i，j*IDF_i。

6.根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，所述步骤S5中的信息增益为某一特征在文档中出现的前后信息熵之差；

\begin{matrix} I G (T) = H (C) - H (C | T) \\ = - Σ_{i = 1}^{n} P (C_{i}) \log_{2} P (C_{i} | t) + P (t) Σ_{i = 1}^{n} P (C_{i} | t) \log_{2} P (C_{i} | t) + P (\overset{&OverBar;}{t}) Σ_{i = 1}^{n} P (C_{i} | \overset{&OverBar;}{t}) \log_{2} P (C_{i} | \overset{&OverBar;}{t}) \end{matrix}

式中：C_i描述新闻的类别，即是积极新闻或消极新闻；P(C_i)表示类别C_i出现的概率，用类别C_i的文档数除以总的文档数；P(t)是特征词t出现的概率，用出现过T的文档数除以总文档数；P(C_i|t)表示出现T的时候，类别C_i出现的概率；

7.根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，所述步骤S7中利用分类模型更新股票标准库的具体步骤如下：

步骤73：将得到的新闻及其分类结果构成新闻集合Z₂，利用Z₁修改Z₀，构建新的股票新闻标准库，并将Z₂加到股票标准新闻库中，形成新的股票标准新闻库Z₃，其中新的标准库中包含的新闻库为Z₁+Z₂。

8.根据权利要求7所述的股票标准新闻库的构建方法，其特征在于，设Z₀＝Z₃，重复主步骤S3-S6，并不断调整Z₃中的新闻组成，直到利用训练后的模型、训练的输入数据的分类结果正确比率大于阈值，阈值为90％，所得的Z₃即为新构建的标准库。

9.一种股票标准新闻库构建系统，其特征在于，包括新闻获取模块(1)、标准新闻库模块(2)、预编译模块(3)、标识模块(4)、信息增益模块(5)、分类模块(6)和调整控制模块(7)；

所述新闻获取模块(1)，用于获取股票新闻信息；

所述标准新闻库模块(2)，用于根据股票新闻信息构建股票标准库Z₀；

所述预编译模块(3)，用于对股票标准库中的文本进行预编译；

所述标识模块(4)，用于对已编译文本的特征进行标识，选取特征词；

所述信息增益模块(5)，用于计算特征词的信息增益，得到特征词的特征值；

所述分类模块(6)，用于利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型，并利用分类模型更新股票标准库；

所述调整控制模块(7)，用于重复调用预编译模块(3)、标识模块(4)、信息增益模块(5)和分类模块(6)，调整股票标准库中的新闻组成，直至分类结果正确率大于阈值。