CN110363568A

CN110363568A - 融合文本多主题信息的股票价格预测方法、系统及介质

Info

Publication number: CN110363568A
Application number: CN201910498066.0A
Authority: CN
Inventors: 唐宁; 沈艳艳; 黄林鹏
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-10-22
Anticipated expiration: 2039-06-06
Also published as: CN110363568B

Abstract

本发明提供了一种融合文本多主题信息的股票价格预测方法、系统及介质，包括：数据预处理步骤：获取文本数据及股票数据，对获取的文本数据及股票数据进行预处理，获得预处理后数据；模型训练步骤：根据获得的预处理后数据，对股票价格预测模型进行训练，获得训练后的模型。本发明利用多头注意力机制将文本向量映射到不同语义空间，然后提取主题信息，最后巧妙地用不同的注意力权重融合不同主题信息。此外本发明还利用编码器解码器框架将文本信息和股票价格信息有效地融入了一个统一的框架中，能动态的调整不同时间节点对股票价格预测的影响。

Description

融合文本多主题信息的股票价格预测方法、系统及介质

技术领域

本发明涉及股票价格预测技术领域，具体地，涉及融合文本多主题信息的股票价格预测方法、系统及介质。

背景技术

近年来，挖掘海量文本信息来预测股价取得了较好的效果。但是这些方法基本都采用一个固定长度的向量来表示每篇文本，忽略了每一篇文本可能含有多个主题以及这些不同主题可能对股票价格有不同的影响。为了充分利用文本中不同主题的信息，本发明设计了多头注意力机制将文本映射到不同语义空间，由于不同文本存在冗余信息，利用池化操作提取不同语义空间的主题信息，最后利用不同主题的影响力融合不同主题信息。时序特征对股票价格预测至关重要，本发明利用编码器解码器框架充分挖掘历史文本和股票信息，在编码器中编码融合了不同主题信息的文本特征，然后在解码器中融合文本和股票价格信息解码股票未来价格。由于不同时间的文本和股票价格特征对股票未来价格有不同的影响，本发明设计了层级注意力机制动态根据不同时间节点的重要性更加精确的预测股票未来价格。

本发明使用多头注意力机制挖掘文本中不同的主题信息然后利用编码器解码器框架挖掘不同时间文本和股票价格的时序特征，实现对股票未来价格的精准预测，主要涉及的技术包括基于文本的股票价格预测、多头注意力机制和编码器解码框架。

基于文本的股票价格预测。根据文本特征提取的方式，股票价格预测主要可以分为基于手工构造特征的方法和基于神经网络的方法。前者通过特征工程抽取文本中的名词，情感词以及结构化的事件等特征，然后基于这些特征训练不同的模型预测股票未来价格。这些基于手工构造特征的方法有两个主要的弊端：1)这些特征的抽取规则的制订需要额外的金融知识，而且随着时间的推移过去的金融知识可能不在适用与当前的特征抽取规则的制订；2)由于之前模型是在少量模型上建模预测，模型的复杂度会随着特征的增多成指数级上述，因子没法适用与具有深度交互特征的挖掘。

为了解决这些不足，研究人员提出了利用神经网络挖掘文本特征以及特征之间的深度交互。近几年，利用word2vec表示文本语义特征和循环神经网络等提取文本特征，然后利用深度神经网络预测股票价格都取得了不错的效果。然而很少有研究利用神经网络抽取文本中不同的主题特征，而且根据不同主题的重要性动态地融合不同主题的信息。

多头注意力机制。受人类的注意力机制启发，许多研究者将注意力机制广泛应用到自然语言处理、图像识别等各种不同类型的深度学习任务中。传统的注意机制只单单聚焦了输入序列语义空间中的一种特殊的子空间，只能提取输入序列中的某一方面的信息。然而句子以及文本等包含多种语义和主题的特征，传统的注意力机制无法捕捉多方面的语义特征信息。因此许多研究者尝试用多头的注意力机制从输入序列中多次提取不同的语义信息，这种方法有效的提取了句子中不同方面的信息。本发明尝试用多头注意力机制提取文本中的主题信息，并设计池化操作去除不同文本中的冗余信息，最终融合不同的主题信息。

编码器解码器框架。编码器解码器框架被广泛应用于机器翻译和对话生成等序列生成问题。编码器解码器框架将输入序列比如查询语句翻译为输入序列比如回答，主要包含两个部分：编码器和解码器。编码器通过输入序列计算除一个上下文向量，然后解码器根据编码器计算的上下文向量一步一步生成输出序列。编码器解码器框架本质上是学习一个在给定输入序列得到输出序列的条件概率分布。本发明利用编码器解码器在编码阶段融合文本信息，在解码阶段融入股票价格信息，最后做精准预测。

为了挖掘文本中包含的主题信息以及股票和文本的时序特征，本发明解决了如下几个技术难点：

1)解决文本中不同主题的抽取。过去单一固定长度的词向量表示文本融合文本所有的信息，本发明通过将文本映射到不同的语义空间可以将文本转化成不同的主题向量，这样固定长度的文本就能被用不同的主题向量表示。

2)解决文本不同主题的融合。文本用不同主题向量表示后，不同主题对最终的股票价格预测有不同的影响。本发明通过注意力机制，利用编码器不同阶段的状态向量给每个主题计算出一个影响力权重，最后根据该权重加和不同的主题。由于不同姐u但状态向量不同，所计算出的影响力权重也不一样，可知这样就能动态调整不同主题的影响力。

3)解决股票价格和文本信息的融合。文本信息和股票价格信息来源不同，对最终的股票价格预测有不同的影响，本发明利用编码器计算文本信息的上下文向量，然后利用解码器对编码阶段不同时刻的文本特征筛选，根据对股票价格预测的重要性提取不同时间段的文本特征最后和股票价格特征融合预测股票未来价格。

本发明技术解决的问题:现有基于文本的股票价格预测系统，往往都用一个固定长度的向量来表示每一篇文本。很少有研究对文本的主题建模的方法。虽然主题模型是一种常用的提取文本主题的方法，但是主题模型将主题识别和预测分割开来，不利于反向的误差传播，而且主题模型无法解决不同主题对股票价格预测影响力不同的问题。

专利文献CN108537663A(申请号：201810233670.6)公开了一种股票趋势预测方法，包括步骤:首先将极限学习机的输入权值和隐层节点的阈值映射为遗传算法中种群中每条染色体上的基因，利用遗传算法的全局搜索能力，选取出最优染色体构成精英群；再利用粒子群算法的局部搜索能力选取出最优染色体，作为优化后极限学习机的输入权值和阈值；再用最小二乘法计算极限学习机隐层神经元的输出权值，从而计算预测值，并根据预测值进行交易。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种融合文本多主题信息的股票价格预测方法、系统及介质。

根据本发明提供的一种融合文本多主题信息的股票价格预测方法，包括：

数据预处理步骤：获取文本数据及股票数据，对获取的文本数据及股票数据进行预处理，获得预处理后数据；

模型训练步骤：根据获得的预处理后数据，对股票价格预测模型进行训练，获得训练后的模型；

股票价格预测步骤：根据获得的训练后的模型，输入历史文本数据和股票价格数据，训练后的模型输出下一个交易日的股票价格，然后进行反归一化得到股票的真实预测价格。

优选地，所述模型训练步骤：

所述对获取的文本数据及股票数据进行预处理包括：

对文本数据进行预处理：对文本数据去除停用词，将句子切割成不同的词语，并将切割后的词语用词向量表示预处理后的文本数据；

对股票数据进行预处理：先删除股票停牌数据以及缺失数据比较大的股票数据，然后根据不同股票的价格将其归一化，获得预处理后的股票价格数据；

最后根据时间和股票代码将文本数据和股票数据对齐，即将新闻文本数据和对应的股票按时间关联起来，获得文本和股票价格对应的序列数据，即预处理后数据；

所述文本数据包括：

和股票相关的金融新闻、twitter的推文；

所述股票数据包括：

股票的开高低收信息、换手率。

优选地，所述模型训练步骤：

所述股票价格预测模型包括：编码器、解码器；

所述编码器三个神经网络模块：词嵌入层、多头注意力融合层以及序列编码层；

所述词嵌入层：

输入股票s在交易日t的文本数据其中为第i个文本，词嵌入层先将每一个文本表示为一个词向量输出文本数据的向量表示由于每个文本由一系列词组成，首先利用预训练好的中文词向量作为每个词的初始向量，即交易日t股票s第i个文本的p个词的词向量为然后利用双向循环神经网络 Bi-LSTM来捕捉每个词在顺序和逆序方向的潜在语义信息，具体流程如下：

其中，

和分别表示顺序和逆序的长短时记忆神经网络；

表示读入股票s在交易日t第i个文本的第j个词后的状态向量；

表示股票s在交易日t第i个文本的第j个词的词向量；

表示读入在交易日t第i个文本的第j-1个词后的状态向量；

表示读入在交易日t第i个文本的第j个词后的状态向量；

表示每个词的上下文向量；

每个词经过双向训练神经网络之后的到的状态向量和取平均得到每个词的上下文向量然后本发明用所有出现在文本中的词向量的均值作为文本的表示，如下所示：

所述多头注意力融合层：

输入一系列文本向量本层利用多头注意力机制自动获取融合不同主题信息的文本向量，首先将词嵌入层得到的文本向量通过K个需要学习的映射矩阵映射到K个不同的语义空间：

其中

表示股票s交易日t的第i个文本在第k个主题空间的向量表示；

W^k表示第k个主题空间的投影矩阵；

表示包含了中第k个主题的信息；

然后本发明用表示经过变换后包含第k个主题的l个文本；

由于不同文本中存在重复的主题，为了保留每个主题最具代表性的特征，利用最大化池化操作提取提取每个主题信息：

其中

表示股票s在交易日t的所有文本在主题的k上的综合向量表示；

保留了来自的所有文本第k个主题的信息；

由于不同主题对对股票价格由不同的影响，切随着时间节点的不同而变化，利用注意力机制动态地计算不同主题的影响力：

其中

表示第k个主题向量的权重；

是序列编码层的LSTM的上一步状态向量；

W是权重矩阵；

利用计算不同主题的影响力值能有效地过滤掉和当前趋势不一致的不重要的和噪声信息，然后利用不同的主题的影响力值计算加权和得到每天的文本信息表示：

其中，

表示股票s在交易日t经过主题融合后的文本特征向量表示；

所述序列解码层：

为了保留融合了主题信息的文本特征的时序依赖性，本发明利用循环神经网络LSTM读入每天的文本信息向量输出解码层每一步的状态向量

其中，

表示解码层每一步的状态向量；

表示每天的文本信息量；

T表示解码器的步长，即输入的股票历史数据长度。

优选地，所述模型训练步骤：

所述对股票价格预测模型进行训练，获得训练后的模型：

利用回归问题的目标函数作为股票价格预测系统的目标函数，目标函数如下：

其中

L表示训练的目标函数；

表示输入样本x,模型预测的股票价格；

y_c(x)表示样本x对应的真实股价；

S表示训练集，x表示训练集中的训练样本包含文本特征和股票价格；

为了抑制模型过拟合，采用了dropout和L2正则项技术，具体来说，在每层神经网络添加随机失活dropout，然后对模型参数添加L2正则项，最终的目标函数为：

其中，

W表示模型的所有参数；

λ表示一个控制正则项惩罚强度的超参；

||W||表示W的范数，即模长；

由于Adam优化器更适合不稳定的训练目标而且它能动态调整学习率以更快收敛，因此利用Adam优化器做梯度下降训练模型。

优选地，所述股票价格预测步骤：

所述历史文本数据和股票价格数据指：过去T天的文本数据和对应股票的股票数据， T为预设的超参数。

根据本发明提供的一种融合文本多主题信息的股票价格预测系统，包括：

数据预处理模块：获取文本数据及股票数据，对获取的文本数据及股票数据进行预处理，获得预处理后数据；

模型训练模块：根据获得的预处理后数据，对股票价格预测模型进行训练，获得训练后的模型；

股票价格预测模块：根据获得的训练后的模型，输入历史文本数据和股票价格数据，训练后的模型输出下一个交易日的股票价格，然后进行反归一化得到股票的真实预测价格。

优选地，所述模型训练模块：

所述对获取的文本数据及股票数据进行预处理包括：

所述文本数据包括：

和股票相关的金融新闻、twitter的推文；

所述股票数据包括：

股票的开高低收信息、换手率。

优选地，所述模型训练模块：

所述股票价格预测模型包括：编码器、解码器；

所述词嵌入层：

其中，

和分别表示顺序和逆序的长短时记忆神经网络；

表示读入股票s在交易日t第i个文本的第j个词后的状态向量；

表示股票s在交易日t第i个文本的第j个词的词向量；

表示读入在交易日t第i个文本的第j-1个词后的状态向量；

表示读入在交易日t第i个文本的第j个词后的状态向量；

表示每个词的上下文向量；

所述多头注意力融合层：

其中

表示股票s交易日t的第i个文本在第k个主题空间的向量表示；

W^k表示第k个主题空间的投影矩阵；

表示包含了中第k个主题的信息；

然后本发明用表示经过变换后包含第k个主题的l个文本；

其中

保留了来自的所有文本第k个主题的信息；

其中

表示第k个主题向量的权重；

是序列编码层的LSTM的上一步状态向量；

W是权重矩阵；

其中，

表示股票s在交易日t经过主题融合后的文本特征向量表示；

所述序列解码层：

其中，

表示解码层每一步的状态向量；

表示每天的文本信息量；

T表示解码器的步长，即输入的股票历史数据长度。

优选地，所述模型训练模块：

所述对股票价格预测模型进行训练，获得训练后的模型：

其中

L表示训练的目标函数；

表示输入样本x,模型预测的股票价格；

y_c(x)表示样本x对应的真实股价；

其中，

W表示模型的所有参数；

λ表示一个控制正则项惩罚强度的超参；

||W||表示W的范数，即模长；

由于Adam优化器更适合不稳定的训练目标而且它能动态调整学习率以更快收敛，因此利用Adam优化器做梯度下降训练模型；

所述股票价格预测模块：

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述中任一项所述的融合文本多主题信息的股票价格预测方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明利用多头注意力机制将文本向量映射到不同语义空间，然后提取主题信息，最后巧妙地用不同的注意力权重融合不同主题信息。此外本发明还利用编码器解码器框架将文本信息和股票价格信息有效地融入了一个统一的框架中，能动态的调整不同时间节点对股票价格预测的影响。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的优选例提供的股票价格预测方法框架结构示意图。

图2为本发明的优选例提供的股票价格预测模型结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

具体地，所述模型训练步骤：

所述对获取的文本数据及股票数据进行预处理包括：

所述文本数据包括：

和股票相关的金融新闻、twitter的推文；

所述股票数据包括：

股票的开高低收信息、换手率。

具体地，所述模型训练步骤：

所述股票价格预测模型包括：编码器、解码器；

所述词嵌入层：

其中，

和分别表示顺序和逆序的长短时记忆神经网络；

表示读入股票s在交易日t第i个文本的第j个词后的状态向量；

表示股票s在交易日t第i个文本的第j个词的词向量；

表示读入在交易日t第i个文本的第j-1个词后的状态向量；

表示读入在交易日t第i个文本的第j个词后的状态向量；

表示每个词的上下文向量；

所述多头注意力融合层：

其中

表示股票s交易日t的第i个文本在第k个主题空间的向量表示；

W^k表示第k个主题空间的投影矩阵；

表示包含了中第k个主题的信息；

然后本发明用表示经过变换后包含第k个主题的l个文本；

其中

保留了来自的所有文本第k个主题的信息；

其中

表示第k个主题向量的权重；

是序列编码层的LSTM的上一步状态向量；

W是权重矩阵；

其中，

表示股票s在交易日t经过主题融合后的文本特征向量表示；

所述序列解码层：

其中，

表示解码层每一步的状态向量；

表示每天的文本信息量；

T表示解码器的步长，即输入的股票历史数据长度。

具体地，所述模型训练步骤：

所述对股票价格预测模型进行训练，获得训练后的模型：

其中

L表示训练的目标函数；

表示输入样本x,模型预测的股票价格；

y_c(x)表示样本x对应的真实股价；

其中，

W表示模型的所有参数；

λ表示一个控制正则项惩罚强度的超参；

||W||表示W的范数，即模长；

具体地，所述股票价格预测步骤：

本发明提供的融合文本多主题信息的股票价格预测系统，可以通过本发明给的融合文本多主题信息的股票价格预测方法的步骤流程实现。本领域技术人员可以将所述融合文本多主题信息的股票价格预测方法，理解为所述融合文本多主题信息的股票价格预测系统的一个优选例。

具体地，所述模型训练模块：

所述对获取的文本数据及股票数据进行预处理包括：

所述文本数据包括：

和股票相关的金融新闻、twitter的推文；

所述股票数据包括：

股票的开高低收信息、换手率。

具体地，所述模型训练模块：

所述股票价格预测模型包括：编码器、解码器；

所述词嵌入层：

其中，

和分别表示顺序和逆序的长短时记忆神经网络；

表示读入股票s在交易日t第i个文本的第j个词后的状态向量；

表示股票s在交易日t第i个文本的第j个词的词向量；

表示读入在交易日t第i个文本的第j-1个词后的状态向量；

表示读入在交易日t第i个文本的第j个词后的状态向量；

表示每个词的上下文向量；

所述多头注意力融合层：

其中

表示股票s交易日t的第i个文本在第k个主题空间的向量表示；

W^k表示第k个主题空间的投影矩阵；

表示包含了中第k个主题的信息；

然后本发明用表示经过变换后包含第k个主题的l个文本；

其中

保留了来自的所有文本第k个主题的信息；

其中

表示第k个主题向量的权重；

是序列编码层的LSTM的上一步状态向量；

W是权重矩阵；

其中，

表示股票s在交易日t经过主题融合后的文本特征向量表示；

所述序列解码层：

其中，

表示解码层每一步的状态向量；

表示每天的文本信息量；

T表示解码器的步长，即输入的股票历史数据长度。

具体地，所述模型训练模块：

所述对股票价格预测模型进行训练，获得训练后的模型：

其中

L表示训练的目标函数；

表示输入样本x,模型预测的股票价格；

y_c(x)表示样本x对应的真实股价；

其中，

W表示模型的所有参数；

λ表示一个控制正则项惩罚强度的超参；

||W||表示W的范数，即模长；

所述股票价格预测模块：

下面通过优选例，对本发明进行更为具体地说明。

优选例1：

本发明技术的解决方案：本发明将融合文本的主题信息和股票价格信息，更加精确的预测股票未来价格。如图1所示，本发明的股票价格预测方法主要包含以下模块：

1)数据预处理。文本数据首先需要去掉停用词，将句子切割成不同的词语并将词语用词向量表示。股票价格需要先删除停牌数据以及缺失数据比较大的股票数据然后根据不同股票的价格将其归一化。最后根据时间和股票代码将文本数据和股票数据对齐。

2)模型训练。基于预处理好的文本数据，本发明利用多头注意力机制提取不同主题信息，然后利用池化操作去除冗余信息，最后根据不同主题的影响融合不同主题的信息。然后利用编码器和解码器融合不同时间节点的文本和股票信息捕捉时序特征，最后预测股票未来价格。

3)股票价格预测。训练好模型后，输入历史文本数据和股票价格数据，模型输出下一个交易日的股票价格，然后反归一化得到股票的真实预测价格。

优选例2：

本发明主要利用文本和股票价格数据，提出了一个利用文本主题信息和股票价格信息的模型。本发明的股票价格预测模型(如图2所示)主要包含两大部分：编码器和解码器。其中编码器包含3个不同的神经网络模块：词嵌入层、多头注意力融合层和序列编码层；解码器包含3个不同的神经网络模块：注意力读入层、序列解码层和注意力融合预测层。下面，对这两大部分和6个不同的神经网络模块做详细介绍。

编码器：

编码器主要通过文本数据提取文本中的主题信息以及捕捉文本特征，包含三个神经网络模块：词嵌入层、多头注意力融合层和序列编码层。

词嵌入层：输入股票s在交易日t的文本数据其中为第i个文本，词嵌入层先将每一个文本表示为一个词向量输出文本数据的向量表示由于每个文本由一系列词组成,本发明首先利用预训练好的中文词向量作为每个词的初始向量,比如交易日t股票s第i个文本的p个词的词向量为然后利用双向循环神经网络(Bi-LSTM)来捕捉每个词在顺序和逆序方向的潜在语义信息：

其中，

和分别表示顺序和逆序的长短时记忆神经网络。

表示读入股票s在交易日t第i个文本的第j个词后的状态向量

表示股票s在交易日t第i个文本的第j个词的词向量

表示读入在交易日t第i个文本的第j-1个词后的状态向量

表示读入在交易日t第i个文本的第j个词后的状态向量

表示每个词的上下文向量

每个词经过双向训练神经网络之后的到的状态向量和取平均得到每个词的上下文向量然后本发明用所有出现在文本中的词向量的均值作为文本的表示：

多头注意力融合层：输入一系列文本向量本层利用多头注意力机制自动获取融合不同主题信息的文本向量。首先本发明将词嵌入层得到的文本向量通过K个需要学习的映射矩阵映射到K个不同的语义空间:

其中

表示股票s交易日t的第i个文本在第k个主题空间的向量表示

W^k表示第k个主题空间的投影矩阵

包含了中第k个主题的信息。然后本发明用表示经过变换后包含第k个主题的l个文本。由于不同文本中存在重复的主题，为了保留每个主题最具代表性的特征，本发明利用最大化池化操作提取提取每个主题信息：

其中

表示股票s在交易日t的所有文本在主题的k上的综合向量表示

保留了来自的所有文本第k个主题的信息。

由于不同主题对对股票价格由不同的影响，切随着时间节点的不同而变化，本发明利用注意力机制动态地计算不同主题的影响力：

其中

表示第k个主题向量的权重

是序列编码层的LSTM的上一步状态向量，

W是权重矩阵。

本发明利用计算不同主题的影响力值能有效地过滤掉和当前趋势不一致的不重要的和噪声信息。然后利用不同的主题的影响力值计算加权和得到每天的文本信息表示：

表示股票s在交易日t经过主题融合后的文本特征向量表示

序列解码层：为了保留融合了主题信息的文本特征的时序依赖性，本发明利用循环神经网络LSTM读入每天的文本信息向量输出解码层每一步的状态向量

表示解码层每一步的状态向量；

表示每天的文本信息量；

T表示解码器的步长，即输入的股票历史数据长度

解码器：

解码器主要通过编码器提取的文本信息和股票价格信息预测股票未来的价格，主要包含三个神经网络模块:注意力读入层、序列解码层和注意力预测层。

注意力读入层。由于不同时间节点的文本信息对对不同节点的股价又不同的影响，因子本发明利用注意力机制根据不同的重要性从编码器得到的状态向量序列得到当前节点的文本特征的上下文向量：

其中

β_t,t′表示编码器第t′步状态向量对解码器第t的重要性，由于解码器的状态向量变化，文本特征的上下文向量c_t会动态调整不同编码状态的权重β_t,t′。

表示编码器在t′步的状态向量

表示解码器在t-1步的状态向量

c_t表示文本特征的上下文向量

序列解码层。这一层通过融合不同的文本特征的上下文向量以及输入的股票价格信息来捕捉时序特征。本发明将注意力读入层得到的文本上下文向量ct和对应的输入股票价格信息拼接起来输入LSTM网络中更新解码层的状态向量：

其中，

表示当前时刻解码器的状态向量

为第t步输入的股票价格信息，

为上一时刻解码器的状态向量。

注意力预测层。解码层在不同步骤都会得到一个不同的状态向量，由于解码序列长度的增加会导致最终的固定长度的向量无法充分地保留历史重要信息，本发明利用时序注意力机制去判别不同历史步骤的重要性，提取对最终股价预测重要的节点信息：

其中

γ_t为解码层第t步对最终预测的重要性。

表示解码器在第i步的状态向量

o^d为最终的融合文本和股票时序特征的向量。然后输入一层全连接神经网络得到下一个工作日的股票价格：

表示预测股票s在第T+1交易日的收盘价

w_f表示权重向量

b表示模型偏差

模型训练：

本发明利用回归问题的目标函数作为股票价格预测系统的目标函数，相比较于分类问题的预测涨跌，回归问题预测离散的价格更加精确和有价值。因子本发明利用如下目标函数：

其中

L表示训练的目标函数；

表示输入样本x,模型预测的股票价格

y_c(x)表示样本x对应的真实股价

S表示训练集，x表示训练集中的训练样本包含文本特征和股票价格。

为了抑制模型过拟合，本发明采用了dropout和L2正则项技术。具体来说，在每层神经网络添加dropout，然后对模型参数添加L2正则项。最终的目标函数为:

其中W表示模型的所有参数，λ是一个控制正则项惩罚强度的超参。

||||表示求W的范数，即模长。

由于Adam优化器更适合不稳定的训练目标而且它能动态调整学习率以更快收敛，本发明利用Adam优化器做梯度下降训练模型。

股票价格预测结果生成：

在模型使用梯度下降的方式训练完成后，对每只股票利用它的历史价格和文本特征预测出下一个交易日的股票价格，然后利用反归一化得到真实的股票价格，就可以作为该股票的下一个交易日的价格预测结果。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种融合文本多主题信息的股票价格预测方法，其特征在于，包括：

2.根据权利要求1所述的融合文本多主题信息的股票价格预测方法，其特征在于，所述模型训练步骤：

所述对获取的文本数据及股票数据进行预处理包括：

所述文本数据包括：

和股票相关的金融新闻、twitter的推文；

所述股票数据包括：

股票的开高低收信息、换手率。

3.根据权利要求2所述的融合文本多主题信息的股票价格预测方法，其特征在于，所述模型训练步骤：

所述股票价格预测模型包括：编码器、解码器；

所述词嵌入层：

输入股票s在交易日t的文本数据其中为第i个文本，词嵌入层先将每一个文本表示为一个词向量输出文本数据的向量表示由于每个文本由一系列词组成，首先利用预训练好的中文词向量作为每个词的初始向量，即交易日t股票s第i个文本的p个词的词向量为然后利用双向循环神经网络Bi-LSTM来捕捉每个词在顺序和逆序方向的潜在语义信息，具体流程如下：

其中，

和分别表示顺序和逆序的长短时记忆神经网络；

表示读入股票s在交易日t第i个文本的第j个词后的状态向量；

表示股票s在交易日t第i个文本的第j个词的词向量；

表示读入在交易日t第i个文本的第j-1个词后的状态向量；

表示读入在交易日t第i个文本的第j个词后的状态向量；

表示每个词的上下文向量；

所述多头注意力融合层：

其中

表示股票s交易日t的第i个文本在第k个主题空间的向量表示；

W^k表示第k个主题空间的投影矩阵；

表示包含了中第k个主题的信息；

然后本发明用表示经过变换后包含第k个主题的l个文本；

其中

保留了来自的所有文本第k个主题的信息；

其中

表示第k个主题向量的权重；

是序列编码层的LSTM的上一步状态向量；

W是权重矩阵；

其中，

表示股票s在交易日t经过主题融合后的文本特征向量表示；

所述序列解码层：

其中，

表示解码层每一步的状态向量；

表示每天的文本信息量；

T表示解码器的步长，即输入的股票历史数据长度。

4.根据权利要求3所述的融合文本多主题信息的股票价格预测方法，其特征在于，所述模型训练步骤：

所述对股票价格预测模型进行训练，获得训练后的模型：

其中

L表示训练的目标函数；

表示输入样本x,模型预测的股票价格；

y_c(x)表示样本x对应的真实股价；

其中，

W表示模型的所有参数；

λ表示一个控制正则项惩罚强度的超参；

||W||表示W的范数，即模长；

5.根据权利要求4所述的融合文本多主题信息的股票价格预测方法，其特征在于，所述股票价格预测步骤：

所述历史文本数据和股票价格数据指：过去T天的文本数据和对应股票的股票数据，T为预设的超参数。

6.一种融合文本多主题信息的股票价格预测系统，其特征在于，包括：

7.根据权利要求6所述的融合文本多主题信息的股票价格预测系统，其特征在于，所述模型训练模块：

所述对获取的文本数据及股票数据进行预处理包括：

所述文本数据包括：

和股票相关的金融新闻、twitter的推文；

所述股票数据包括：

股票的开高低收信息、换手率。

8.根据权利要求7所述的融合文本多主题信息的股票价格预测系统，其特征在于，所述模型训练模块：

所述股票价格预测模型包括：编码器、解码器；

所述词嵌入层：

其中，

和分别表示顺序和逆序的长短时记忆神经网络；

表示读入股票s在交易日t第i个文本的第j个词后的状态向量；

表示股票s在交易日t第i个文本的第j个词的词向量；

表示读入在交易日t第i个文本的第j-1个词后的状态向量；

表示读入在交易日t第i个文本的第j个词后的状态向量；

表示每个词的上下文向量；

所述多头注意力融合层：

其中

表示股票s交易日t的第i个文本在第k个主题空间的向量表示；

W^k表示第k个主题空间的投影矩阵；

表示包含了中第k个主题的信息；

然后本发明用表示经过变换后包含第k个主题的l个文本；

其中

保留了来自的所有文本第k个主题的信息；

其中

表示第k个主题向量的权重；

是序列编码层的LSTM的上一步状态向量；

W是权重矩阵；

其中，

表示股票s在交易日t经过主题融合后的文本特征向量表示；

所述序列解码层：

其中，

表示解码层每一步的状态向量；

表示每天的文本信息量；

T表示解码器的步长，即输入的股票历史数据长度。

9.根据权利要求8所述的融合文本多主题信息的股票价格预测系统，其特征在于，所述模型训练模块：

所述对股票价格预测模型进行训练，获得训练后的模型：

其中

L表示训练的目标函数；

表示输入样本x,模型预测的股票价格；

y_c(x)表示样本x对应的真实股价；

其中，

W表示模型的所有参数；

λ表示一个控制正则项惩罚强度的超参；

||W||表示W的范数，即模长；

所述股票价格预测模块：

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的融合文本多主题信息的股票价格预测方法的步骤。