CN109657851A

CN109657851A - 事件驱动型的股价预测方法、装置、设备及存储介质

Info

Publication number: CN109657851A
Application number: CN201811514976.5A
Authority: CN
Inventors: 张晓峰; 尹宗铭; 何震宇
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-04-19

Abstract

本发明公开了一种事件驱动型的股价预测方法、装置、设备及存储介质，该股价预测方法包括：基于当前新闻事件，选取与该当前新闻事件相关联的股票；基于该当前新闻事件和该股票的历史金融时序数据，采用异构信息协同网络模型预测该股票的价格波动。本发明将当前新闻事件和被选股票的历史金融时序数据输入到异构信息协同网络模型中，即可得出被选股票的价格走势，从而能够对股票价格的未来走势进行预测。该异构信息协同模型结合股票的历史价量走势和新闻的利好利空特性，有利于提高股票价格预测的准确性。该方法使用方便，且效率高，适应金融市场的快速变幻。本发明可广泛应用于根据各种新闻事件选取股票并预测股票走势。

Description

事件驱动型的股价预测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其是涉及一种事件驱动型的股价预测方法、装置、设备及存储介质。

背景技术

众所周知，金融市场中的突发事件可能会导致金融市场中的股票价格产生剧烈波动，当出现上市公司的利好新闻时，该上市公司的股价往往会随之上扬，当利空消息频发时，则可能会引起股民的大规模抛售杀跌，导致股票价格的下挫。经验丰富的股票投资者往往能够很快的从新闻事件中锚定受影响的股票实体，但是当财经新闻变得越来越多时，从事件中进行股票的锚定需要耗费大量的人力，而且时间效率方面也是巨大的开销。

此外，证券市场中的价格波动不仅仅受到新闻事件的干扰，其自身的运动趋势也是决定未来走势的一个重要因素。现有的很多研究中大多只考虑了新闻极性因素，根据新闻事件的利好利空倾向来对股票价格进行预测，导致对股票的价格走势预测不准确。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的是提供一种事件驱动型的股价预测方法、装置、设备及存储介质。

本发明所采用的技术方案是：

第一方面，本发明提供一种事件驱动型的股价预测方法，其中，该股价预测方法包括：基于当前新闻事件，选取与该当前新闻事件相关联的股票；基于该当前新闻事件和该股票的历史金融时序数据，采用异构信息协同网络模型预测该股票的价格波动。

其中，该基于当前新闻事件，选取与该当前新闻事件相关联的股票的步骤具体包括：获取该当前新闻事件；基于该当前新闻事件，选取与当前新闻事件相对应的股票集合；将该当前新闻事件和该股票集合输入到多路实体关联网络模型计算，根据计算结果选取与该当前新闻事件相关联的股票。

其中，该多路实体关联网络模型的训练方法包括：选择历史新闻事件和与该历史新闻事件相对应的样本股票集，该样本股票集包括正类样本股票和负类样本股票，该正类样本股票为挑选的与该历史新闻事件相关的股票，该负类样本股票为挑选的与该历史新闻事件不相关的股票；将该正类样本股票和该负类样本股票作为训练模型的输入；以一个样本股票为例，获取该股票的属性矩阵和该历史新闻事件的主题矩阵；将该事件主题矩阵和该股票属性矩阵分别转换成多个不同的第一事件主题矩阵和多个与第一事件主题矩阵相对应的第一股票属性矩阵，将每个第一事件主题矩阵与其对应的第一股票属性矩阵对应一个关联层的输入，基于多个关联层的结果得到该事件主题矩阵和该股票属性矩阵之间的关联程度，如果该关联程度的数值超过预定的阈值，则判断该样本股票与该历史新闻事件具有相关性；选择交叉熵函数作为模型训练的损失函数，计算反向传播误差损失以进行该训练模型的参数更新；重复上述步骤对该训练模型进行训练，直至该训练模型的预测精度达到预期，则得到该多路实体关联网络模型。

其中，该多路实体关联网络模型的关联层的计算公式为：

其中，X表示该事件的主题矩阵，S表示该股票的属性矩阵，X∈R^m×d，S∈R^n×d，函数f(·)为映射函数，C为变量X与S的相关性，X_k表示第k个词向量，s_i表示第i个属性向量，Z表示归一化因子。

其中，该获取新闻事件的主题矩阵和股票的属性矩阵的步骤具体包括：使用分布式词向量学习，将该新闻事件的文本数据与该股票属性相关的文本数据用词向量进行表示，以获取该新闻事件的主题矩阵和该股票的属性矩阵。

其中，该多路实体关联网络模型训练时的损失函数为：其中，L(·)代表损失函数，θ为模型的参数，N代表样本数目，y_i代表真实类标，x_i表示输入的样本，h(·)是模型假设函数的输出。

其中，该选择与该新闻事件相关联的负类样本股票的步骤具体包括：随机抽取该条新闻事件未指向的至少一个股票作为初始负类样本股票；计算该初始负类样本股票中的每个股票被随机选中的概率，该概率通过以下公式进行计算：

其中，s，u表示选中的股票，D表示全体股票集合，P(s)代表将股票s作为该负类样本的概率，函数g(·)代表频率函数；依据计算所得的概率进行随机抽取，将选中的股票作为负类样本股票。

其中，该异构信息协同网络模型的训练方法包括：获取有关联关系的事件股票对；采用经验模态分解算法对该事件股票对中的股票的金融时序数据处理，得到该股票的价量信息特征分量，并采用卷积神经网络模型提取该事件股票对中的新闻事件的特征，得到该新闻事件的利好利空信息特征分量；以该价量信息特征分量和该利好利空信息特征分量作为输入，采用双向长短期记忆网络模型进行训练。

其中，该采用经验模态分解算法对该事件股票对中的股票的金融时序数据处理，得到该股票的价量信息特征分量的步骤具体包括：获取该股票的第t-1期的历史股价和历史成交量；获取该股票的第t期的当前股价和当前成交量；基于该历史股价、该历史成交量、该当前股价以及该当前成交量，获取该股票的每日股价涨跌幅和每日成交量涨跌幅，其中，将该股票的每日股价涨跌幅记作{r_p}，将该股票的每日成交量涨跌幅记作{r_v}，表示第t期的股价涨跌幅，表示第t期的成交量涨跌幅，表示第t期的股价，表示第t期的成交量；将该股票的每日股价涨跌幅和每日成交量涨跌幅采用经验模态分解算法进行滚动式分解，把分解之后的数据作为该价量信息特征分量。

第二方面，本发明提供一种事件驱动型的股价预测装置，该股价预测装置包括：股票选择模块，用于基于当前新闻事件，选取与该当前新闻事件相关联的股票；价格预测模块，用于基于该当前新闻事件和该股票的历史金融时序数据，采用异构信息协同网络模型预测该股票的价格波动。

第三方面，本发明提供一种事件驱动型的股价预测设备，其中，包括至少一个处理器；以及，与该至少一个处理器通信连接的存储器；其中，该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行上述的方法。

第四方面，本发明提供一种计算机可读存储介质，其中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述的方法。

本发明的有益效果是：

本发明将当前新闻事件和被选股票的历史金融时序数据输入到异构信息协同网络模型中，即可得出被选股票的价格走势，从而能够对股票价格的未来走势进行预测。该异构信息协同模型结合股票的历史价量走势和新闻的利好利空特性，有利于提高股票价格预测的准确性。该方法使用方便，且效率高，适应金融市场的快速变幻。

进一步地，本发明将当前新闻和待选股票集合输入到多路实体关联网络模型，根据输出结果以选取股票，该多路实体关联网络模型从多维度充分挖掘股票属性与新闻事件的相关度，有利于提高选取股票的准确性。

本发明可广泛应用于根据各种新闻事件选取股票并预测股票走势。

附图说明

图1是本发明事件驱动型的股价预测方法的一实施例的流程示意图；

图2是图1的步骤S11的流程示意图；

图3是图2的步骤中多路实体关联网络模型训练方法的流程示意图；

图4是图2的步骤中多路实体关联网络模型的结构示意图；

图5是图1的步骤S12中异构信息协同网络模型训练方法的流程示意图；

图6是图1的步骤S12中异构信息协同网络模型的结构示意图；

图7是本发明事件驱动型的股价预测装置的一实施例的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一：

请参阅图1，图1是本发明事件驱动型的股价预测方法的一实施例的流程示意图。图1的预测方法包括步骤：

S11：基于当前新闻事件，选取与该当前新闻事件相关联的股票；

具体地，请参阅图2，步骤S11包括如下步骤：

S111：获取该当前新闻事件。

在步骤S111中，该新闻事件为某个网站上出现的最新的一条新闻事件，比如最近的财经或时事新闻。

S112：基于该新闻事件，选取与该新闻事件对应的股票集合；

该股票集合可以是某个市场板块上的所有股票，比如房地产板块股票或金融板块股票。

S113：将该当前新闻事件和该股票集合输入到多路实体关联网络模型计算，根据计算结果选取与该当前新闻事件相关联的股票；

在步骤S113中，将该当前新闻事件和该股票集合中的任一股票输入到多路实体关联网络模型中，如果模型的输出结果超过预定的阈值，则得出该任一股票与该当前新闻事件关联，继而选择该任一股票进行下一步预测；反之，则得出该任一股票与该当前新闻事件不关联。

请参阅图3，该多路实体关联网络模型的训练方法包括如下步骤：

S31：选择历史新闻事件与该历史新闻事件相关联的样本股票集，该样本股票集包括正类样本股票和负类样本股票，该正类样本股票为挑选的与该新闻事件相关的股票，该负类样本股票为挑选的与该新闻事件不相关的股票；

在步骤S31中，该选择与该新闻事件相关联的负类样本股票的步骤具体包括：

(1)随机抽取该条新闻事件未指向的至少一个股票作为初始负类样本股票；

(2)计算该初始负类样本股票中的每个股票被随机选中的概率，该概率通过以下公式进行计算：

其中，s，u表示选中的股票，D表示全体股票集合，P(s)代表将股票s作为该负类样本的概率，函数g(·)代表频率函数；

(3)依据计算所得的概率进行随机抽取，将选中的股票作为负类样本股票。

S32：将该正类样本股票和该负类样本股票作为训练模型的输入；

S33：以一个样本股票为例，获取该股票的属性矩阵和该历史新闻事件的主题矩阵；将该事件主题矩阵和该股票属性矩阵分别转换成多个不同的第一事件主题矩阵和多个与第一事件主题矩阵相对应的第一股票属性矩阵，将每个第一事件主题矩阵与其对应的第一股票属性矩阵对应一个关联层的输入，基于多个关联层的结果得到该事件主题矩阵和该股票属性矩阵之间的关联程度，如果该关联程度的数值超过预定的阈值，则判断判断该样本股票与该历史新闻事件具有相关性；

在步骤S33中，该获取新闻事件的主题矩阵和股票的属性矩阵的步骤具体包括：使用分布式词向量学习，将该新闻事件的文本数据与该股票属性相关的文本数据用词向量进行表示，以获取该新闻事件的主题矩阵和该股票的属性矩阵。

新闻事件是由文本作为载体所描述的信息，每句话都是由若干个词组合而成，利用词的向量化表示可以将新闻事件投影到词向量空间之中。对于股票实体同样可以由其自身的属性集合来对其进行描述，例如“平安银行”的属性有，股票代码、公司名称、板块信息与行业信息等，这些属性的组合指向平安银行这一股票实体。对于股票实体的属性集合同样需要将其进行编码表示，并且与新闻事件的属性集合表示保持统一。

采用分布式词向量学习法，能够很好的维持原句中的语法与语义信息，并且对于性质相近或者是词意相近的词在词向量空间中的距离也会比较近。在具体实现中，可利用谷歌开源工具word2vec将所有已经经过分词之后的新闻语料进行训练，得到词向量表示库。对于新闻事件或者股票实体中的属性，使用这些属性对应的词向量来进行表示。经过词向量替换之后，新闻事件与股票都由词向量组成的矩阵所表示。

其中，第一事件主题矩阵为该事件主题矩阵乘以另外一个矩阵得到的变换矩阵，另外一个矩阵的形式是不同的，则可以得到多个不同的第一事件主题矩阵。同理，第一股票属性矩阵为该股票属性矩阵乘以另外一个矩阵得到的变换矩阵，另外一个矩阵的形式是不同的，则可以得到多个不同的第一股票属性矩阵。比如：属性矩阵为A，主题矩阵为B，可以利用两个变换矩阵C，D对A，B进行矩阵变换，那么将变换后的<A*C>矩阵作为第一属性矩阵，变换后的<B*D>矩阵作为第一股票矩阵。重复该操作，利用不同的变换矩阵，则可以得到多个第一属性矩阵和多个第一股票矩阵。

其中，该多路实体关联网络模型的关联层的表达公式为：

其中，X表示所述事件的主题矩阵，S表示所述股票的属性矩阵，X∈R^m×d，S∈R^n×d，函数f(·)为映射函数，C为变量X与S的相关性，X_k表示第k个词向量，s_i表示第i个属性向量，Z表示归一化因子。

将所有样本股票按照此步骤S33进行训练。

S34：选择交叉熵函数作为模型训练的损失函数，计算反向传播误差损失以进行该训练模型的参数更新；

在步骤S34中，该模型最终的输出是位于区间[0,1]的一个实数。该多路实体关联网络训练模型的损失函数为：其中，L(·)代表损失函数，θ为模型的参数，N代表样本数目，y_i代表真实类标，x_i表示输入的样本，h(·)是模型假设函数的输出。

其中，正类样本股票对应的预期结果为1，负类样本股票对应的预期结果为0。

S35：重复上述步骤对该训练模型进行训练，直至该训练模型的预测精度达到预期，则得到该多路实体关联网络模型。

在步骤S35中，重复上述步骤S31～步骤S34进行训练，以得到最佳模型，该最佳模型为该多路实体关联网络模型。

请参阅图4，图4是多路实体关联网络算法的结构示意图。如图4所示，X代表事件的主题矩阵，S代表股票的属性矩阵。在本模型算法中，将事件与股票实体转换到不同的特征向量空间中再进行关联。使用多条路径对关联层进行强化，最终结合多个关联层的结果得到最终的关联度。

S12：基于该当前新闻事件和该股票的最新金融数据，采用异构信息协同网络模型预测该股票的价格波动。

在步骤S12中，请参阅图5，图5是图1的步骤S12中异构信息协同网络模型训练方法的流程示意图，图5的异构信息协同网络模型的训练方法包括如下步骤：

S51：获取有关联关系的事件股票对；

在步骤S51中，事件股票对的样本形式为二元组<New,Stock>，New为新闻事件，Stock为与新闻事件相关联的股票。

S52：采用经验模态分解算法对该事件股票对中的股票的金融时序数据处理，得到该股票的价量信息特征分量，并采用卷积神经网络模型提取该新闻事件的特征，得到该新闻事件的利好利空信息特征分量；

在步骤S52中，该采用经验模态分解算法对该事件股票对中的股票的金融时序数据处理，得到该股票的价量信息特征分量的步骤具体包括：

(1)获取该股票的第t-1期的历史股价和历史成交量；

(2)获取该股票的第t期的当前股价和当前成交量；

(3)基于该历史股价、该历史成交量、该当前股价以及该当前成交量，获取该股票的每日股价涨跌幅和每日成交量涨跌幅，其中，将该股票的每日股价涨跌幅记作{r_p}，将该股票的每日成交量涨跌幅记作{r_v}，表示第t期的股价涨跌幅，表示第t期的成交量涨跌幅，表示第t期的股价，表示第t期的成交量；

(4)将该股票的每日股价涨跌幅和每日成交量涨跌幅采用经验模态分解算法进行滚动式分解，把分解之后的数据作为该价量信息特征分量。

S53：以该价量信息特征分量和该利好利空信息特征分量作为该异构信息协同网络模型的输入，采用双向长短期记忆网络模型进行训练，得到该异构信息协同网络模型。

请参阅图6，图6是异构信息协同网络模型的结构示意图，该异构信息协同网络模型是一个二分类模型，在最终判断类别的同时还会考虑多路实体关联网络模型所计算的置信度。

在本实施例中，在训练好该异构信息协同网络模型后，将当前新闻事件和被选股票输入到异构信息协同网络模型中，就可以得出被选股票的价格走势是涨是跌，方便投资者进行投资。该异构信息协同模型结合股票的历史价量走势和新闻的利好利空特性，有利于提高股票价格预测的准确性。该方法使用方便，且效率高，适应金融市场的快速变幻。

进一步地，本发明将当期新闻和待选股票结合输入到多路实体关联网络模型，根据输出结果决定是否选择哪些股票，该多路实体关联网络模型从多维度充分挖掘股票属性与新闻事件相关度，有利于提高选取股票的准确性。

实施例二：

请参阅图7，图7的股票预测装置包括股票选择模块71和价格预测模块72，股票选择模块71用于基于当前新闻事件，选取与该当前新闻事件相关联的股票；价格预测模块72用于基于该当前新闻事件和该股票的历史金融时序数据，采用异构信息协同网络模型预测该股票的价格波动。股票选择模块71包括获取新闻事件单元711、选取股票集合单元712及股票计算单元713，新闻事件单元711用于获取该当前新闻事件；选取股票集合单元712基于该当前新闻事件，选取股票集合；股票计算单元713对该股票集合采用多路实体关联网络模型计算，选取与该当前新闻事件相关联的股票。

该多路实体关联网络模型和该异构信息协同网络模型的获取方法和使用方法在实施例一中已进行详细阐述，在此不再赘述。

实施例三：

本发明还提供一种事件驱动型的股价预测设备，该股价预测设备包括：至少一个处理器；以及，与该至少一个处理器通信连接的存储器；其中，该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行实施例一的方法。

实施例四：

一种计算机可读存储介质，其特征在于，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行实施例一的方法。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种事件驱动型的股价预测方法，其特征在于，包括：

基于当前新闻事件，选取与所述当前新闻事件相关联的股票；

基于所述当前新闻事件和所述股票的历史金融时序数据，采用异构信息协同网络模型预测所述股票的价格波动。

2.根据权利要求1所述的股价预测方法，其特征在于，所述基于当前新闻事件，选取与所述当前新闻事件相关联的股票的步骤具体包括：

获取所述当前新闻事件；

基于所述当前新闻事件，选取与所述当前新闻事件相对应的股票集合；

将所述当前新闻事件和所述股票集合输入到多路实体关联网络模型计算，根据计算结果选取与所述当前新闻事件相关联的股票。

3.根据权利要求2所述的股价预测方法，其特征在于，所述多路实体关联网络模型的训练方法包括：

选择历史新闻事件和与所述历史新闻事件相对应的样本股票集，所述样本股票集包括正类样本股票和负类样本股票，所述正类样本股票为挑选的与所述历史新闻事件相关的股票，所述负类样本股票为挑选的与所述历史新闻事件不相关的股票；

将所述正类样本股票和所述负类样本股票作为训练模型的输入；

以一个样本股票为例，获取所述样本股票的属性矩阵和所述历史新闻事件的主题矩阵；将所述事件主题矩阵和所述股票属性矩阵分别转换成多个不同的第一事件主题矩阵和多个与第一事件主题矩阵相对应的第一股票属性矩阵，将所述每个第一事件主题矩阵与其对应的第一股票属性矩阵对应一个关联层的输入，基于多个关联层的结果得到所述事件主题矩阵和所述股票属性矩阵之间的关联程度，如果所述关联程度的数值超过预定的阈值，则判断所述样本股票与所述历史新闻事件具有相关性；

选择交叉熵函数作为模型训练的损失函数，计算反向传播误差损失以进行所述训练模型的参数更新；

重复上述步骤对所述训练模型进行训练，直至所述训练模型的预测精度达到预期，则得到所述多路实体关联网络模型。

4.根据权利要求3所述的股价预测方法，其特征在于，所述多路实体关联网络模型的关联层的计算公式为：

5.根据权利要求3或4所述的股价预测方法，其特征在于，所述获取新闻事件的主题矩阵和股票的属性矩阵的步骤具体包括：

使用分布式词向量学习，将所述新闻事件的文本数据与所述股票属性相关的文本数据用词向量进行表示，以获取所述新闻事件的主题矩阵和所述股票的属性矩阵。

6.根据权利要求3所述的股价预测方法，其特征在于，所述多路实体关联网络模型训练时的损失函数为：

其中，L(·)代表损失函数，θ为模型的参数，N代表样本数目，y_i代表真实类标，x_i表示输入的样本，h(·)是模型假设函数的输出。

7.根据权利要求3所述的股价预测方法，其特征在于，所述选择与所述新闻事件相关联的负类样本股票的步骤具体包括：

随机抽取该条新闻事件未指向的至少一个股票作为初始负类样本股票；

计算所述初始负类样本股票中的每个股票被随机选中的概率，所述概率通过以下公式进行计算：

其中，s，u表示选中的股票，D表示全体股票集合，P(s)代表将股票s作为所述负类样本的概率，函数g(·)代表频率函数；

依据计算所得的概率进行随机抽取，将选中的股票作为负类样本股票。

8.根据权利要求1所述的股价预测方法，其特征在于，所述异构信息协同网络模型的训练方法包括：

获取有关联关系的事件股票对；

采用经验模态分解算法对所述事件股票对中的股票的金融时序数据处理，得到所述股票的价量信息特征分量，并采用卷积神经网络模型提取所述事件股票对中的新闻事件的特征，得到所述新闻事件的利好利空信息特征分量；

以所述价量信息特征分量和所述利好利空信息特征分量作为输入，采用双向长短期记忆网络模型进行训练。

9.根据权利要求8所述的股价预测方法，其特征在于，所述采用经验模态分解算法对所述事件股票对中的股票的金融时序数据处理，得到所述股票的价量信息特征分量的步骤具体包括：

获取所述股票的第t-1期的历史股价和历史成交量；

获取所述股票的第t期的当前股价和当前成交量；

基于所述历史股价、所述历史成交量、所述当前股价以及所述当前成交量，获取所述股票的每日股价涨跌幅和每日成交量涨跌幅，其中，将所述股票的每日股价涨跌幅记作{r_p}，将所述股票的每日成交量涨跌幅记作{r_v}，表示第t期的股价涨跌幅，表示第t期的成交量涨跌幅，表示第t期的股价，表示第t期的成交量；

将所述股票的所述每日股价涨跌幅和所述每日成交量涨跌幅采用经验模态分解算法进行滚动式分解，把分解之后的数据作为所述价量信息特征分量。

10.一种事件驱动型的股价预测装置，其特征在于，包括：

股票选择模块，用于基于当前新闻事件，选取与所述当前新闻事件相关联的股票；

价格预测模块，用于基于所述当前新闻事件和所述股票的历史金融时序数据，采用异构信息协同网络模型预测所述股票的价格波动。

11.一种事件驱动型的股价预测设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至9任一项所述的方法。