CN111723127A

CN111723127A - 基于文本摘要情感挖掘的股票趋势预测方法和系统

Info

Publication number: CN111723127A
Application number: CN202010516651.1A
Authority: CN
Inventors: 齐甜方
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-29
Also published as: CN112527866A

Abstract

本发明涉及基于文本摘要情感挖掘的股票趋势预测方法和系统，包括以下步骤：S1获取股票相关的若干新闻数据；S2通过新闻数据，获得各新闻的文本摘要；S3根据预建立的情感词库，提取各文本摘要中的情感词，并根据情感词表达情感的强弱，对各文本摘要的情感进行打分；S4将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算，若计算结果大于等于零，则股票呈上涨趋势；若计算结果小于零，则股票呈下跌趋势。其通过提取新闻文本摘要，并对文本摘要进行情感挖掘，有效获得对股市波动趋势造成影响的信息，使股票波动预测不仅只局限于往期股票信息，可以从更多方面，更准确的对股票趋势进行预测。

Description

基于文本摘要情感挖掘的股票趋势预测方法和系统

技术领域

本发明是关于一种基于文本摘要情感挖掘的股票趋势预测方法和系统，属于人工智能技术领域。

背景技术

中国股市是一个新兴的证券市场，市场结构和机制尚不成熟，处于不断摸索和完善的过程。相比西方成熟市场，我国股票市场的投资以中小型投资者为主，其信息获取与分析能力和认知能力分布不均匀，投资者之间的信息不对称程度也高于西方成熟资本市场。对于中国这样新生市场，投资者经验相对缺乏、非理性行为较多，主流媒体的过多参与会扩大投资者情绪，加剧股市的波动。已有研究表明，互联网财经新闻的情感倾向会影响投资者的决策和行为，进而引起市场波动。

近年来，已有许多研究者将新闻情感作为输入特征参与股票预测。股票投资者阅读新闻资讯时，能人为抽取主要信息、避免无关信息的干扰。然而，当使用文本情感分析技术自动提取新闻情感倾向时，通常会存在偏差。尤其是新闻文本中出现情感极性的变化时，模型无法分辨主次关系，将所有情感一并计算并输出。目前已有不少国内外学者提出了自动文本摘要的解决方案。通过对新闻进行摘要提取，取出新闻中蕴含的有效信息，可以有效解决信息过载和新闻情感极性变化问题，从而能更准确地提取资讯的情感倾向。因此，应用现有的自然语言处理技术和股票预测技术，深入研究新闻资讯摘要对股票波动的影响，对股票波动趋势进行预测，将会对投资者的投资决策和完善市场建设等方面具有理论和现实意义。

发明内容

针对上述现有技术的不足，本发明的目的是提供了一种基于文本摘要情感挖掘的股票趋势预测方法和系统，其通过提取新闻文本摘要，并对文本摘要进行情感挖掘，有效获得可能对股市波动趋势造成影响的信息，使股票波动预测不仅仅只局限于往期股票信息，可以从更多方面，更准确的对股票趋势进行预测。

为实现上述目的，本发明提供了一种基于文本摘要情感挖掘的股票趋势预测方法，包括以下步骤：S1获取股票相关的若干新闻数据；S2通过新闻数据，获得各新闻的文本摘要；S3根据预建立的情感词库，提取各文本摘要中的情感词，并根据情感词表达情感的强弱，对各文本摘要的情感进行打分；S4将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算，若计算结果大于等于零，则股票呈上涨趋势；若计算结果小于零，则股票呈下跌趋势。

进一步，步骤S1中获取股票相关的若干新闻数据包括：选定待研究的股票，获取股票一定时间内的股票代码简称、日期、开盘价、最高价、最低价、收盘价、涨跌幅、成交量、成交金额、换手率、A股流通市值、总市值、市盈率和市销率中至少一种，生成检索关键词，选定可靠的新闻来源，并在新闻来源中检索与股票相关的新闻数据。

进一步，步骤S2的具体操作过程为：S2.1对提取的新闻数据做分词处理并去除标点符号，将无关的实体替换成标签，并将新闻数据中的词转换为词典索引；S2.2采用提取的新闻数据训练新闻来源选择模型，得到可靠的新闻来源；S2.3从可靠的新闻来源再次提取新闻数据，并通过Attention机制的Seq2Seq模型获取各新闻的文本摘要。

进一步，新闻来源选择模型的训练过程如下：从某一新闻来源处，检索某一历史时间中与待预测股票相关的新闻数据，并获取历史时间内待预测股票的实际变化趋势，用新闻数据预测待预测股票的变化趋势，将预测的变化趋势和实际的变化趋势进行比较，并根据比较结果进行打分；对所有待选的新闻来源进行上面的操作，得到所有待选的新闻来源的分值，将分值超过阈值的新闻来源选定为可靠的新闻来源。

进一步，通过Attention机制的Seq2Seq模型获取各新闻的文本摘要的过程为：将新闻数据作为输入向量序列输入Attention机制的Seq2Seq模型获得各个词的生成概率，从而得到所有新闻数据的词的生成概率，选择生成概率高的词，从而生成新闻的文本摘要。

进一步，步骤S3中的情感词库包括：情感词，财经新闻中具有趋向性的专业术语，表示否定的词以及程度副词。

进一步，步骤S3的具体操作过程为：将情感词库中的情感词和财经新闻中具有趋向性的专业术语分为表达积极情感、表达消极情感两类，设定各情感词库中的情感词和财经新闻中具有趋向性的专业术语的分值，若表达积极情感则加相应分值，若表达消极情感则减去相应分值，将各新闻数据的文本摘要分成若干句簇，结合否定词和程度副词获得各句簇的得分。

进一步，结合否定词和程度副词获得各句簇的得分规则为：只出现否定词的得分为Un＝(0.1×Cn-1)^Cn×S,只出现程度副词的得分为：U_s＝∏L_s×S,同时存在否定词和程度副词时，若否定词在前，则将否定词的总分数和程度副词的总分数相加；若否定词在后，则将否定词的总分数和程度副词的总分数相乘,Un是否定词总分数，Us是程度副词的总分数，Cn是否定词的得分，Ls是程度副词的得分，S是不包括情感词和财经新闻中具有趋向性的专业术语的得分。

进一步，步骤S4的具体操作步骤为：4.1选择时间窗口，并采集时间窗口内的股票历史变化趋势数据；4.2各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入LSTM模型，对LSTM模型进行训练，获得包含情感特征的股票训练模型；4.3在包含情感特征的股票训练模型中输入用于判断股票趋势的文本摘要的情感分值作为特征向量与股票历史变化趋势数据，并计算出股票带预测时间段内的变化量；4.4判断变化量是否大于零，若变化量大于等于零，则股票呈上涨趋势；若变化量小于零，则股票呈下跌趋势。

本发明还公开了一种基于文本摘要情感挖掘的股票趋势预测系统，包括：获取模块，用于获取股票相关的若干新闻数据；摘要生成模块，用于通过新闻数据，获得各新闻的文本摘要；情感打分模块，用于根据预建立的情感词库，提取各文本摘要中的情感词，并根据情感词表达情感的强弱，对各文本摘要的情感进行打分；趋势判断模块，用于将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算，若计算结果大于等于零，则股票呈上涨趋势；若计算结果小于零，则股票呈下跌趋势。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明通过对基于股票的新闻文本进行收集和整理，构建了大型文本摘要数据库，并计算该摘要的情感值；将自动文本摘要和情感值计算应用于深度学习预测模型中，完善了模型多种输入信息，提升了模型的表征能力。

2、本发明结合文本摘要情感值，通过LSTM网络进行股票波动预测，提升了预测效果的准确性。因此，本发明可以广泛应用于股票预测应用领域。

附图说明

图1是本发明一实施例中基于自动文本摘要和情感挖掘进行股票波动趋势预测方法流程图；

图2是本发明一实施例中基于attention机制的Seq2Seq模型的结构示意图；

图3是本发明一实施例中LSTM预测模型的结构示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

实施例一

本实施例公开了一种基于文本摘要情感挖掘的股票趋势预测方法，包括以下步骤：

S1获取股票相关的若干新闻数据。

获取股票相关的若干新闻数据包括：根据股票的成交量、股票上市的时间区间以及受关注程度来确定股票对象，并且获取所选股票的行情数据；选取研究对象。首先需要考虑到股票在研究时间范围内是否有有效数据、相关新闻数量、股票成交量排名以及股票收益情况排名，以保证研究的股票存在较高关注度，因而当新闻情感值有所变化时，能够对投资者的投资心理和投资决策产生影响。在确定所选择的股票后通过数据库导出已选定的股票信息，选定待研究的股票，获取股票一定时间内的股票代码简称、日期、开盘价、最高价、最低价、收盘价、涨跌幅、成交量、成交金额、换手率、A股流通市值、总市值、市盈率和市销率中至少一种，生成检索关键词，选定可靠的新闻来源，并在新闻来源中检索与股票相关的新闻数据。确定可靠新闻来源可以根据影响力、重要性以及可获取性来对各大金融网站进行比较，确定抓取新闻的信息来源。主要根据影响力、重要性以及可获取性对各大金融门户网站的内容进行分析比较，划定新闻采集范围，选取具有代表性的股票新闻门户网站进行数据抓取。本实施例中从备选的较为常用、权威的新闻来源选取一定量的新闻信息进行训练，从而建立新闻来源选择模型，以便提取更加具有代表性的，真实性更强的新闻信息。新闻来源可以随时预测准确度进行更新，也可以选择定期更新。选定新闻来源后，采用字符串匹配方式，根据待研究的股票对象来编写爬虫脚本，通过股票的代码、名称和简称作为关键字，使用scrapy爬虫框架抓取一段时间内的新闻资讯。抓取内容包括新闻的标题、发布时间、发布内容和网址等，从而组成新闻数据。

S2通过新闻数据，获得各新闻的文本摘要。

其具体操作过程为：

S2.1对提取的新闻数据做分词处理并去除标点符号，将无关的实体比如日期，时间，人名，数字等统一替换成标签如Date，Time，Name，Number等。基于新闻数据构建长度为60000的词典，将新闻数据中的词转换为词典索引；

S2.2采用提取的新闻数据训练新闻来源选择模型，得到可靠的新闻来源；新闻来源选择模型的训练过程如下：从某一新闻来源处，检索某一历史时间中与待预测股票相关的新闻数据，并获取历史时间内待预测股票的实际变化趋势，用新闻数据预测待预测股票的变化趋势，将预测的变化趋势和实际的变化趋势进行比较，并根据比较结果进行打分；对所有待选的新闻来源进行上面的操作，得到所有待选的新闻来源的分值，将分值超过阈值的新闻来源选定为可靠的新闻来源。

S2.3从可靠的新闻来源再次提取新闻数据，并通过Attention机制的Seq2Seq模型获取各新闻的文本摘要。

通过Attention机制的Seq2Seq模型获取各新闻的文本摘要的过程为：将新闻数据作为输入向量序列输入Attention机制的Seq2Seq模型获得各个词的生成概率，从而得到所有新闻数据的词的生成概率，选择生成概率高的词，从而生成新闻的文本摘要。

其中，如图2所示，Attention机制是连接编码层(Encoder)和解码层(Decoder)的一个通道。由于在Encoder中保留每个循环神经网络RNN单元的隐藏层，假设Encoder第t时间步的隐藏层h_t，隐藏层h_t记作h_t＝f(h_t-1,y_t-1,c)，包括输入序列信息c、前一时刻的输出y_t-1和前一时刻的隐藏层h_t-1，假设第t个时间步的隐藏层为h_t，便可计算得到第t个时间步时对应的编码部分输入文本第i个词的权重，并进行softmax计算得到最终权重α_ti。Decoder部分通过对输入序列所有隐藏层的信息(h₁,h₂,…h_t)进行加权求和，选取与当前所需要输出词语i最合适的上下文信息c_t，并根据输出序列信息C_t获得Decoder第t时间步的隐藏层St，根据隐藏层St能够求出第t个词的输出y_t。其中，y_t的生成概率为：P(y_t|y_(t-1),y_t-2,…,y₁,c)＝g(h_t,y_t-1,c)。

S3根据预建立的情感词库，提取各文本摘要中的情感词，并根据情感词表达情感的强弱，对各文本摘要的情感进行打分。

情感词库包括：情感词，财经新闻中具有趋向性的专业术语，表示否定的词以及程度副词。构建情感词典、财经新闻中具有趋向性的专业术语，表示否定的词以及程度副词包括：

组建以HowNet情感词和评价词作为基础情感词库，在此基础上融合去除中性词的大连理工中文情感词汇库、删除部分不适合直接用于情感分析词汇的台湾大学中文情感词典NTUSD以及部分新闻情感词汇，构建了较为完整的情感词库。其次，通过从各大论坛提取评论信息、通过对新闻文本的排序抽取情感词，搜集了一份具有代表性的专业词库，并邀请了3位该领域的专家(证券从业人员、股民)分别进行打分。

接着，给出否定词范畴，并对否定词的分类，，结合新闻词频统计情况和日常使用情况，选取得到否定词词典。

最后，对程度副词进行分类，结合HowNet中程度级别词语和新闻词频统计情况，构建程度词典，并给不同的程度词赋予不同得分，用于情感计算。

步骤S3的具体操作过程为：将情感词库中的情感词和财经新闻中具有趋向性的专业术语分为表达积极情感、表达消极情感两类，设定各情感词库中的情感词和财经新闻中具有趋向性的专业术语的分值，若表达积极情感则加相应分值，若表达消极情感则减去相应分值，将各新闻数据的文本摘要分成若干句簇，结合否定词和程度副词获得各句簇的得分。考虑到新闻一般使用较为规范的书面语，而口语化的倒装句比较少见，本文使用简单的逻辑处理多义词。情感词之前的多义词视为程度词；一句话中连续的多义词且没有情感词结尾，将最后一个多义词视为情感词，其他多义词视为程度词。

结合否定词和程度副词获得各句簇的得分规则为：只出现否定词的得分为Un＝(0.1×Cn-1)^Cn×S,只出现程度副词的得分为：U_s＝∏L_s×S,同时存在否定词和程度副词时，若否定词在前，则将否定词的总分数和程度副词的总分数相加；若否定词在后，则将否定词的总分数和程度副词的总分数相乘,Un是否定词总分数，Us是程度副词的总分数，Cn是否定词的得分，Ls是程度副词的得分，S是不包括情感词和财经新闻中具有趋向性的专业术语的得分。具体的得分标准如表1所示。

表1情感值的得分计算标准

根据当天所有的新闻情感值来求平均，即得到该天的新闻情感值。也可以将所有的新闻情感值均输入下一步的股票预测模型中进行训练。

S4将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算，若计算结果大于等于零，则股票呈上涨趋势；若计算结果小于零，则股票呈下跌趋势。

步骤S4的具体操作步骤为：

4.1选择时间窗口，并采集时间窗口内的股票历史变化趋势数据。

4.2各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入长短期记忆网络模型即LSTM模型，对LSTM模型进行训练，获得包含情感特征的股票训练模型。

LSTM模型区别于循环神经网络模型RNN的地方，主要就在于其在算法中加入了一个判断信息有用与否“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

其中，遗忘门的模型为：f_t＝σ(W_f[x_t,h_t-1]+b_f)，其中f_t∈[0,1]，表示t时刻的节点对t-1时刻cell记忆的选择权重，b_f为遗忘门的偏置项，W_f为参数，h_t-1表示_t-1节点的隐层状态信息，非线性函数σ(x)＝1/(1+e^-x)；输入门的模型为i_t＝σ(W_i[x_t,h_t-1]+b_i)，其中i_t∈[0,1]表示t时刻的节点对当前节点信息的选择权重，b_i为输入门的偏置项，W_i为参数，非线性函数σ(x)＝1/(1+e^-x)；当前节点输入信息

其中

为偏置项。

输出记忆信息

其中C_t-1表示t-1节点的记忆信息。

输出门o_t＝σ(W_o[x_t,ht-1]+b_o)，其中o_t∈[0,1]表示t时刻的节点细胞记忆信息的选择权重，b_o为输出门的偏置项；W_o为参数，t时刻的隐层状态h_t＝o_t·tanh(C_t)；隐藏层到输出层采用全连接方式，经过softmax非线性函数映射后得输出两个概率值，即变化量大于零或小于零的概率

4.3在包含情感特征的股票训练模型中输入用于判断股票趋势的文本摘要的情感分值作为特征向量与股票历史变化趋势数据，并计算出股票带预测时间段内的变化量。

4.4判断变化量是否大于零，若变化量大于等于零，则股票呈上涨趋势；若变化量小于零，则股票呈下跌趋势。在进行股票波动趋势预测过程中，下一天的预测值往往基于其股票历史数据，而LSTM可以直接对任意长度的序列进行处理，能够满足股票预测需求。LSTM通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。

实施例二

基于相同的发明构思，本实施例公开了一种基于文本摘要情感挖掘的股票趋势预测系统，包括：

获取模块，用于获取股票相关的若干新闻数据；

摘要生成模块，用于通过新闻数据，获得各新闻的文本摘要；情感打分模块，用于根据预建立的情感词库，提取各文本摘要中的情感词，并根据情感词表达情感的强弱，对各文本摘要的情感进行打分；

趋势判断模块，用于将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算，若计算结果大于等于零，则股票呈上涨趋势；若计算结果小于零，则股票呈下跌趋势。

上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，包括以下步骤：

S1获取股票相关的若干新闻数据；

S2通过所述新闻数据，获得各新闻的文本摘要；

S3根据预建立的情感词库，提取各所述文本摘要中的情感词，并根据所述情感词表达情感的强弱，对各所述文本摘要的情感进行打分；

S4将各所述文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算，若计算结果大于等于零，则股票呈上涨趋势；若计算结果小于零，则股票呈下跌趋势。

2.如权利要求1所述的基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，所述步骤S1中获取股票相关的若干新闻数据包括：选定待研究的股票，获取所述股票一定时间内的股票代码简称、日期、开盘价、最高价、最低价、收盘价、涨跌幅、成交量、成交金额、换手率、A股流通市值、总市值、市盈率和市销率中至少一种，生成检索关键词，选定可靠的新闻来源，并在所述新闻来源中检索与股票相关的新闻数据。

3.如权利要求1所述的基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，所述步骤S2的具体操作过程为：

S2.1对提取的新闻数据做分词处理并去除标点符号，将无关的实体替换成标签，并将新闻数据中的词转换为词典索引；

S2.2采用提取的新闻数据训练新闻来源选择模型，得到可靠的新闻来源；

S2.3从所述可靠的新闻来源再次提取新闻数据，并通过Attention机制的Seq2Seq模型获取各新闻的文本摘要。

4.如权利要求3所述的基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，所述新闻来源选择模型的训练过程如下：从某一新闻来源处，检索某一历史时间中与待预测股票相关的新闻数据，并获取所述历史时间内待预测股票的实际变化趋势，用所述新闻数据预测所述待预测股票的变化趋势，将预测的变化趋势和实际的变化趋势进行比较，并根据比较结果进行打分；对所有待选的新闻来源进行上面的操作，得到所有待选的新闻来源的分值，将所述分值超过阈值的新闻来源选定为可靠的新闻来源。

5.如权利要求3所述的基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，所述通过Attention机制的Seq2Seq模型获取各新闻的文本摘要的过程为：将所述新闻数据作为输入向量序列输入Attention机制的Seq2Seq模型获得各个词的生成概率，从而得到所有所述新闻数据的词的生成概率，选择生成概率高的词，从而生成新闻的文本摘要。

6.如权利要求1-5任一项所述的基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，所述步骤S3中的情感词库包括：情感词，财经新闻中具有趋向性的专业术语，表示否定的词以及程度副词。

7.如权利要求6所述的基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，所述步骤S3的具体操作过程为：将所述情感词库中的情感词和财经新闻中具有趋向性的专业术语分为表达积极情感、表达消极情感两类，设定各所述情感词库中的情感词和财经新闻中具有趋向性的专业术语的分值，若表达积极情感则加相应分值，若表达消极情感则减去相应分值，将各所述新闻数据的文本摘要分成若干句簇，结合否定词和程度副词获得各所述句簇的得分。

8.如权利要求7所述的基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，所述结合否定词和程度副词获得各所述句簇的得分规则为：只出现否定词的得分为Un＝(0.1×Cn-1)^Cn×S,只出现程度副词的得分为：U_s＝∏L_s×S,同时存在否定词和程度副词时，若否定词在前，则将否定词的总分数和所述程度副词的总分数相加；若否定词在后，则将否定词的总分数和所述程度副词的总分数相乘,Un是否定词总分数，Us是程度副词的总分数，Cn是否定词的得分，Ls是程度副词的得分，S是不包括情感词和财经新闻中具有趋向性的专业术语的得分。

9.如权利要求1-5任一项所述的基于文本摘要情感挖掘的股票趋势预测方法，其特征在于，所述步骤S4的具体操作步骤为：

4.1选择时间窗口，并采集所述时间窗口内的股票历史变化趋势数据；

4.2各所述文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入LSTM模型，对所述LSTM模型进行训练，获得包含情感特征的股票训练模型；

4.3在所述包含情感特征的股票训练模型中输入用于判断股票趋势的文本摘要的情感分值作为特征向量与股票历史变化趋势数据，并计算出所述股票带预测时间段内的变化量；

4.4判断所述变化量是否大于零，若所述变化量大于等于零，则股票呈上涨趋势；若所述变化量小于零，则股票呈下跌趋势。

10.一种基于文本摘要情感挖掘的股票趋势预测系统，其特征在于，包括：

获取模块，用于获取股票相关的若干新闻数据；

摘要生成模块，用于通过所述新闻数据，获得各新闻的文本摘要；

情感打分模块，用于根据预建立的情感词库，提取各所述文本摘要中的情感词，并根据所述情感词表达情感的强弱，对各所述文本摘要的情感进行打分；

趋势判断模块，用于将各所述文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算，若计算结果大于等于零，则股票呈上涨趋势；若计算结果小于零，则股票呈下跌趋势。