CN107357860A

CN107357860A - 一种基于新闻数据的个股情绪汇聚方法

Info

Publication number: CN107357860A
Application number: CN201710522535.9A
Authority: CN
Inventors: 郑子彬; 翁灵玲; 周育人
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2017-11-17

Abstract

本发明涉及一种基于新闻数据的个股情绪汇聚方法，包括以下步骤：1.爬取新闻信息，形成新闻文档后存入文档储存数据库中；2.计算得出每篇文章的热度，去除重复文档；3.对新闻文档中的内容项进行预处理，形成文本集合；4.针对每个文本集合综合情绪分析和主题分析形成二元组集合，进行文本主题聚类分组；5.整合所有相关财经新闻，形成基于个股的三元组集合；6.将上述结果以个股为核心进行汇聚；7.选用可视化系统将结果展示给用户。本发明能为金融市场的投资者提供准确且可读性较高的精简主题情绪信息,帮助投资者花费更短的时间理解以及更好地做出投资判断,为量化基金公司提供重要的预测模型辅助信息。

Description

一种基于新闻数据的个股情绪汇聚方法

技术领域

本发明涉及网络数据分析的技术领域，尤其涉及到一种基于新闻数据的个股情绪汇聚方法。

背景技术

证券市场被称为一国经济的“晴雨表”，经济运行具有周期性，而证券市场能够率先反映经济形势。一直以来，众多经济学者和股市研究者都致力于构建有效的股市分析和预测模型并形成了系统的分析方法。经典的证券投资分析方法包括基本分析法和技术分析法。基本分析法自顶向下分为三层，具体的讲包括宏观经济分析、行业分析和企业价值分析；技术分析法是根据股市行情变化进行分析的方法，通常综合运用资本定价模型和一些技术指标进行分析。

由于证券市场的参与个体通常是自然人，主观心理会对投资选择产生影响，其中最关键且引人关注的是投资者对于新闻、公告等的情绪反馈，这些情绪反馈会作用于证券市场并反映在股市上。随着计算机和互联网技术的飞速发展和普及，近年来，越来越多的量化交易研究者结合计算机技术进行证券市场分析。以新闻大数据为资源，运用文本情感分析等技术对投资者情绪进行分析，进而预测股市走向的方法也变得热门。

文本情感分析是文本分析的一个分支，指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息，以利用这些主观信息判断文章的情感倾向性的技术。现有的文本情感分析技术大致可以整合为三类：关键词识别、词汇关联、统计方法。关键词识别是利用文本中出现的清楚定义的影响词，例如“开心”、“难过”、“伤心”等，来影响分类；词汇关联是找到互相影响的词汇进而进行分析；统计方法通过调控机器学习中的元素，比如潜在语意分析(LSA)、词袋模型等。

对于金融文本(包括新闻、评论、微博等)，众多研究者基于文本分析的方法进行了主题、情感倾向性分析。严勤等人在“一种应用于金融Web领域的文本情感倾向分析方法”[CN105022725A]中，根据Web金融文本特点构建金融情感词典，设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web文本情感倾向分类。雷涛等人在“一种金融文本情感分析方法”[CN105138506A]中，针对不同的情感环境，运用一个输入层为词语，隐藏层为情感产生函数表达的句子情感层，输出层为一个神经元的神经网络计算金融情绪。金学波在“一种股票标准新闻库的构建方法及构建系统”[CN105069141A]中，通过标识文本特征获取新闻特征，利用支持向量机算法不断更新数据库中的新闻信息，构建股票标准新闻库。

然而，以上这些方法都是以单独文章为单位做分析，针对每篇文章返回单个数值，代表对应新闻对于具体个股的情绪结果。事实上，单篇文章有时不止与单个个股相关，针对单个个股，也未必通篇表达的都是一致的情绪倾向。这样一个抽象的数值极大损失了新闻中的有用信息，若投资者想要具体了解分析个股新闻，必须重新仔细阅读全文，所以这类方法只能作为自动化量化交易中的一环，而不利于辅助个人投资者进行决策。此外，由于多数个股在单日发出的相关新闻并不止一条，可能涉及的主题也不止一个。

发明内容

本发明的目的在于克服现有技术的不足，提供一种为金融市场的投资者提供准确且可读性较高的精简主题情绪信息、帮助投资者花费更短的时间理解以及更好地做出投资判断、为量化基金公司提供重要的预测模型辅助信息的基于新闻数据的个股情绪汇聚方法。

为实现上述目的，本发明所提供的技术方案为：其包括以下步骤：

S1.采用爬虫工具从各大新闻网站中爬取相关新闻信息的标题、时间、来源、内容、转载次数、评论次数，形成由六个属性构成新闻文档d_i，d_i＝{title,time,source,content,forward,comment}；

S2.将形成的新闻文档d_i储存在文档储存数据库中；

S3.计算得出每篇文章的热度，并去除重复文档；通过设置时间窗口，在不同粒度的时间片上进行计算，追踪热度的变化，更有效反应新闻在股市中的持续作用结果；本步骤所述文章为文档d_i中的内容属性；重复文档即文章内容、标题近似或者完全一致的文档；

每篇文章的热度由如下公式计算得到：

newsHeat＝∑forward_i+∑comment_i，

其中，∑forward_i代表新闻i的转发数量，∑comment_i代表新闻i的评论数量；由于不同的网站通常相互转载相同内容的文章，故在分析时将不同来源但标题、内容一致的文章视为同一文章进行计算；此处保留时间戳最早的文档，去除其他重复文档。

S4.以文档为单位对数据库中的新闻文档d_i中的内容content_i项进行预处理；预处理步骤为：用文本分析工具，以标点符号为标识，对每一个待处理的文本进行分句,再对得到的每个句子S_i进行分词处理，去除停用词、特殊符号，形成由词或短语组成的文本集合wordSet_i。

S5.针对每个文本集合wordSet_i综合情绪分析和主题分析形成二元组集合{(topic₁,sentiment₁),(topic₂,sentiment₂)，…，(topic_k,sentiment_k)}，并以该二元组集合为标识进行文本主题聚类分组。其中，topic_i为一系列主题关键词，比如资产重组、合并、收购等事件；sentiment_i表示在对应主题下作者的情绪倾向(这里的情绪倾向主要指作者行文过程中看好或看衰一支个股的倾向)。具体形成二元组集合的步骤如下：

S51.求出单文本的情绪值sentiment，标记文本集合情绪倾向：

运用标准情感词库结合金融领域的现有词库，对部分分句的文本集合wordSet_i进行标记，形成带标记的记录。每一个sentiment_i表示情绪倾向，负数表示情绪倾向为看衰，正数表示情绪倾向为看好，0表示不带有情绪倾向。之后将带标记的记录，输入到朴素贝叶斯分类器中，使用半监督学习方式结合期望值最大算法，为所有文本集合打上标记，舍弃掉不包含情绪倾向(即标记为0)的记录。

具体标记方式采用积极词频与消极词频比例的方式得到新闻所代表的乐观与悲观情绪，单文本的情绪值由下式计算获得：

其中，∑Pos代表新闻中词性为积极词汇的个数，∑Neg代表新闻中词性为消极词汇的个数，sentiment代表新闻文本的情绪倾向，sentiment越大，代表表面上该财经新闻信息看好未来金融市场或者相关股票的发展，认为股价会上涨，反之，则看衰未来金融市场或者金融股票的发展，认为股价会下跌。

S52.根据步骤S51得出的单文本的情绪值sentiment，求出每个主题的情绪值sentiment_(topic)，从而抽象出一系列(topic_k,sentiment_k)二元组，并以该一系列二元组为标识进行文本主题聚类分组：

S521.采用隐语意分析LSI分析主题，生成一个二元组组成的集合{(topic₁,p₁),(topic₂,p₂),…,(topic_k,p_k)}；

S522.结合步骤S51得出的单文本的情绪值sentiment，通过公式sentiment_(topic)＝∑p_(topic)*sentiment计算得出每个主题对应的情绪值sentiment_(topic)；

S523.综合步骤S521得出的二元组组成的集合以及步骤S522得出的每个主题对应的的情绪值sentiment_(topic)，从文本集合wordSet_i中抽象出一系列(topic_k,sentiment_k)二元组；

S524.以步骤S523得出的一系列二元组{(topic₁,sentiment₁),(topic₂,sentiment₂)，…，(topic_k,sentiment_k)}为标识进行文本主题聚类分组。

S6.针对个股，整合所有相关财经新闻，形成基于个股的三元组集合{(topic₂,sentiment₂,heat₁),(topic₂,sentiment₂,heat₂)，…，(topic_k,sentiment_k,heat_k)}，步骤如下：

S61.以个股为单位，通过得出每一个topic_i的热度topicHeat_i以及结合步骤S5的二元组集合计算某一支个股关于某一主题topic_i的热度heat_{(stock,topic)}；

由于同一新闻文档d_i分出来的分句文本集合wordSet_j与原财经新闻具有相同的热度，故在步骤S5中获得对应于同一的二元组均具有相同热度，即：

sentenceHeat_j＝newsHeat_i,if s_j∈d_i，

作归一化处理：

对于每一个topic_i的热度topicHeat_i：

topicHeat_i＝∑sentenceHeat_j,if topic_i∈s_j，

对于某一支个股，不排除有多篇新闻提到同一个主题，即某一支个股关于某一主题的热度heat_{(stock,topic)}的计算公式为：

heat_{(stock,topic)}＝∑topicHeat_i。

S62.以个股为单位，通过结合步骤S61得出的每一个topic_i的热度

topicHeat_i以及步骤S5得出的二元组集合，计算出某一支个股关于某一主题的情绪值sentiment_{(stock,topic)}，计算公式为：

sentiment_{(stock,topic)}＝∑topicHeat*sentiment，

其中，∑topicHeat表示某一支个股关于某一主题的热度，sentiment表示该某一主题的情绪值。

S63.形成基于个股的三元组集合。

S7.将S3-S6的结果以个股为核心进行汇聚，并存入文档储存数据库。

S8.选用可视化系统将结果展示给用户。

与现有技术相比，本方案原理和优点如下：

运用文本分析技术，结合情感分析和主题分析模型，并利用可视化技术，综合分析、汇聚等手段，为金融市场的投资者提供准确且可读性较高的精简主题情绪信息，帮助投资者花费更短的时间理解以及更好地做出投资判断，也可为量化基金公司提供重要的预测模型辅助信息。

附图说明

图1为本发明一种基于新闻数据的个股情绪汇聚方法的工作流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

参见附图1所示，本实施例所述的一种基于新闻数据的个股情绪汇聚方法，包括以下步骤：

S1.采用爬虫工具从各大新闻网站中爬取相关新闻信息的标题、时间、来源、内容、转载次数、评论次数，形成新闻文档d_i；

S2.将形成的新闻文档d_i储存在文档储存数据库中；

S3.计算得出每篇文章的热度，并去除重复文档；

计算公式如下：

newsHeat＝∑forward_i+∑comment_i，

其中，∑forward_i代表新闻i的转发数量，∑comment_i代表新闻i的评论数量。

S4.以文档为单位对数据库中的新闻文档d_i中的内容content_i项进行预处理，形成文本集合wordSet_i；

采用文本分析工具，以标点符号为标识，对每一个待处理的文本进行分句,再对得到的每个句子S_i进行分词处理，去除停用词、特殊符号，形成由词或短语组成的文本集合wordSet_i。

S5.针对每个文本集合wordSet_i综合情绪分析和主题分析形成二元组集合{(topic₁,sentiment₁),(topic₂,sentiment₂)，…，(topic_k,sentiment_k)}，并以该二元组集合为标识进行文本主题聚类分组；步骤为：

S51.首先求出单文本的情绪值sentiment，标记文本集合情绪倾向；

单文本的情绪值sentiment由下式计算获得：

S52.然后根据步骤S51得出的单文本的情绪值sentiment，求出每个主题的情绪值sentiment_(topic)，从而抽象出一系列(topic_k,sentiment_k)二元组，并以该一系列二元组为标识进行文本主题聚类分组；步骤为：

S522.结合步骤S51得出的单文本的情绪值sentiment，通过公式＝∑p_(topic)*sentiment计算得出每个主题对应的情绪值sentiment_(topic)；

S524.以步骤S523得出的一系列二元组为标识进行文本主题聚类分组。

S6.针对个股，整合所有相关财经新闻，形成基于个股的三元组集合{(topic₁,sentiment₁),(topic₂,sentiment₂)，…，(topic_k,sentiment_k)}；步骤为：

S61.以个股为单位，通过得出每一个topic_i的热度topicHeat_i以及结合步骤S5的二元组集合计算某一支个股关于某一主题topic_i的热度heat_{(stock,topic)}：

sentenceHeat_j＝newsHeat_i,if s_j∈d_i，

作归一化处理：

对于每一个topic_i的热度topicHeat_i：

topicHeat_i＝ΣsentenceHeat_j,iftopic_i∈s_j，

对于某一支个股，不排除有多篇新闻提到同一个主题，某一支个股关于某一主题的热度heat_{(stock,topic)}的计算公式为：

heat_{(stock,topic)}＝ΣtopicHeat_i。

S62.以个股为单位，通过结合步骤S61得出的每一个topic_i的热度topicHeat_i以及步骤S5得出的二元组集合，计算出某一支个股关于某一主题的情绪值sentiment_{(stock,topic)}，计算公式为：sentiment_{(stock,topic)}＝∑topicHeat*sentiment，

S63.综合步骤S61和S62形成基于个股的三元组集合{(topic₂,sentiment₂,heat₁),(topic₂,sentiment₂,heat₂)，…，(topic_k,sentiment_k,heat_k)}。

S7.将S3-S6的结果以个股为核心进行汇聚，并存入文档储存数据库；

S8.选用可视化系统将结果展示给用户。

本实施例运用文本分析技术，结合情感分析和主题分析模型，并利用可视化技术，综合分析、汇聚等手段，为金融市场的投资者提供准确且可读性较高的精简主题情绪信息，帮助投资者花费更短的时间理解以及更好地做出投资判断，也可为量化基金公司提供重要的预测模型辅助信息。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于新闻数据的个股情绪汇聚方法，其特征在于：包括以下步骤：

S2.将形成的新闻文档d_i储存在文档储存数据库中；

S3.计算得出每篇文章的热度，并去除重复文档；

S5.针对每个文本集合wordSet_i综合情绪分析和主题分析，形成二元组集合{(topic₁,sentiment₁),(topic₂,sentiment₂)，…，(topic_k,sentiment_k)}；

S6.针对个股，整合所有相关财经新闻，求得某一支个股关于某一主题的情绪倾向以及其热度，形成基于个股的三元组集合{(topic₂,sentiment₂,heat₁),(topic₂,sentiment₂,heat₂)，…，(topic_k,sentiment_k,heat_k)}；

S8.选用可视化系统将结果展示给用户。

2.根据权利要求1所述的一种基于新闻数据的个股情绪汇聚方法，其特征在于：所述步骤S3计算每篇文章热度newsHeat的计算公式如下：

newsHeat＝∑forward_i+∑comment_i，

3.根据权利要求1所述的一种基于新闻数据的个股情绪汇聚方法，其特征在于：所述步骤S4中预处理的具体步骤为：采用文本分析工具，以标点符号为标识，对每一个待处理的文本进行分句,再对得到的每个句子S_i进行分词处理，去除停用词、特殊符号，形成由词或短语组成的文本集合wordSet_i。

4.根据权利要求1所述的一种基于新闻数据的个股情绪汇聚方法，其特征在于：所述步骤S5的具体步骤如下：

S51.求出单文本的情绪值sentiment，标记文本集合情绪倾向；

S52.根据步骤S51得出的单文本的情绪值sentiment，求出每个主题的情绪值sentiment_(topic)，从而抽象出一系列(topic_k,sentiment_k)二元组，并以该一系列二元组为标识进行文本主题聚类分组。

5.根据权利要求4所述的一种基于新闻数据的个股情绪汇聚方法，其特征在于：所述步骤S51具体标记方式采用积极词频与消极词频比例的方式得到财经新闻所代表的乐观与悲观情绪，单文本的情绪值sentiment由下式计算获得：

6.根据权利要求1所述的一种基于新闻数据的个股情绪汇聚方法，其特征在于：所述步骤S52具体步骤如下：

S522.结合步骤S51得出的单文本的情绪值sentiment，通过公式sentiment_(topic)＝∑p_(topic)*sentiment，计算得出每个主题对应的情绪值sentiment_(topic)；

7.根据权利要求1所述的一种基于新闻数据的个股情绪汇聚方法，其特征在于：所述步骤S6形成基于个股的三元组集合的具体步骤如下：

S62.以个股为单位，通过结合步骤S61得出的每一个topic_i的热度topicHeat_i以及步骤S5得出的二元组集合，计算出某一支个股关于某一主题的情绪值sentiment_{(stock,topic)}；

S63.形成基于个股的三元组集合。

8.根据权利要求7所述的一种基于新闻数据的个股情绪汇聚方法，其特征在于：所述步骤S61计算某一支个股关于某一主题topic_i的热度heat_{(stock,topic)}的步骤如下：

同一财经新闻文档d_i分出来的分句文本集合wordSet_j与原财经新闻具有相同的热度，故在步骤S5中获得对应于同一的二元组均具有相同热度，即：

sentenceHeat_j＝newsHeat_i,if s_j∈d_i，

作归一化处理：

对于每一个topic_i的热度topicHeat_i：

topicHeat_i＝∑sentenceHeat_j,if topic_i∈s_j，

heat_{(stock,topic)}＝∑topicHeat_i。

9.根据权利要求7所述的一种基于新闻数据的个股情绪汇聚方法，其特征在于：所述步骤S62计算某一支个股关于某一主题的情绪值sentiment_{(stock,topic)}的计算公式为：sentiment_{(stock,topic)}＝∑topicHeat*sentiment，其中，∑topicHeat表示某一支个股关于某一主题的热度，sentiment表示该某一主题的情绪值。