CN105701223A

CN105701223A - 基于Spark Streaming的财经信息情感趋势分析方法

Info

Publication number: CN105701223A
Application number: CN201610026038.5A
Authority: CN
Inventors: 蔡志平; 陈海文
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2016-06-22

Abstract

本发明涉及一种基于Spark Streaming的财经信息情感趋势分析方法。该方法首先通过数据获取模块获取财经信息，并将财经信息文本提交到预处理模块；预处理模块对采集到的财经文本信息进行初步处理，存入数据存储模块；Spark数据处理模块对预处理的结果进行分析，获取文章的情感值信息。针对整篇文本文章信息情感趋势分析难的问题，将文章按标点符号进行阶段，获取情感单元的情感值信息，从而获得通篇文章情感值信息，使用Spark Streaming方法处理情感信息获取流程，大程度提高文本信息情感值的获取速度，增加了财经信息文本情感倾向值信息提取的时效性。

Description

基于Spark Streaming的财经信息情感趋势分析方法

技术领域

本发明涉及以SparkStreaming为基础，对财经信息文本进行情感趋势分析、情感值计算的方法。

背景技术

目前，在许多的应用中需要对文本进行情感趋势分析，比如微博中的语义分析，在金融市场中的投资者或者新闻的情感趋势分析等，尤其是在财经新闻等大文本信息的情感趋势分析中，由于要求对文章根据词库进行分词，而词库又相对较大，因此实现时就要求进行多次循环，使用普通的设备已经无法满足强大的计算要求。此外，信息时代的到来，数据的迅猛增加，使得网络文本信息大量涌现，如何快速而又及时地处理该类文本信息，成为一个难点。而在当今大数据时代，大数据处理技术得到了快速发展，其中Hadoop、Spark等大数据处理框架得到了快速发展。但是Hadoop目前只能处理批数据，无法处理实时数据。Spark是一个分布式的实时数据处理的优秀框架，由于相比Hadoop，它是基于内存的计算框架，避免了传统的MapReduce编程模型带来的巨大的I/O通信开销瓶颈，目前的大数据处理性能在内存中可达到Hadoop的100倍，在硬盘中的速度也可达到Hadoop的10倍。

Spark有两个关键概念：弹性分布数据集(RDD)和有向无环图(DAG)执行引擎。RDD是一个分布式的内存抽象。它允许在大型分布式集群上进行高容错的内存计算。Spark有两种RDD:基于现有编程集合(如map,list等)的并行集合和存储在HDFS中的文件。对RDD的操作分两种：转换和动作。转换是把输入的RDD或现存的RDD创建出一个新的数据集，动作是在执行对数据集的计算后返回一个值。相比而言，转换只是定义一个新的RDD，是一个惰性操作，而动作执行真正的计算，它能计算出结果或写入外部存储介质。每当用户对RDD进行动作，一个有向无环图会在考虑所有转换的依赖关系后生成，它消除了传统MapReduce的多步执行模型且提升了性能。

Spark也有对流的实现。它具有高可扩展和高容错的特点。SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark，也就是把SparkStreaming的输入数据按照batchsize（如1秒）分成一段一段的数据（DiscretizedStream），每一段数据都转换成Spark中的RDD（ResilientDistributedDataset），然后将SparkStreaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作，将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加，或者存储到外部设备。

发明内容

本发明所要解决的技术问题是，针对网络财经新闻信息以及各微博、论坛内网评信息文本信息数据量大，分析过程复杂，计算要求高等问题，将SparkStreaming技术应用到文本信息的情感趋势处理过程，并根据财经新闻、微博评论等文本信息的文章结构特点，将文章进行分句，分词，应用自定义的基于语义规则的分析方法，获得文章情感值信息，以达到快速有效获得金融文本情感趋势的目的。

本发明的技术方案是：在财经信息文本的情感趋势获取处理过程中，以SparkStreaming基础，引入时间窗的方法，实现每个时间实时获取网络财经信息情感趋势，并在获取情感趋势的文本分析过程中，使用自定义的情感值量化办法，获取大文本类财经信息所表现的情感趋势，包括数据获取模块、预处理模块、Spark数据处理模块、数据存储模块，

数据获取模块获取指定网站的相关财经信息，并将财经信息提交到预处理模块；预处理模块对采集到的财经信息文本进行初步处理，存入数据存储模块；Spark数据处理模块对预处理的结果进行分析，针对财经信息文本内容进行处理，获取文本的情感值信息；数据存储模块主要存储、并提供预处理和Spark处理过程中所产生以及所需要的信息。

所述数据获取模块，为实现实时性的网络文本情感趋势分析，采用间隔时间（30分钟或者1小时，甚至更小）的方法对目标网站进行定时数据爬取，获取最新的网络文本信息，提交至预处理模块，目标网站包括金融财经新闻网站、微博金融评论、论坛留言等。

所述预处理模块对采集到的财经信息文本进行初步处理包括进行打标签、去重、去冗余等处理。即通过匹配财经信息文本标题或内容的方式，对财经信息文本所属金融品种分类进行鉴定，并为每篇文章建立分类字段，将财经信息文本存入存储系统的过程中，通过标签在一定时间段内的查询进行去重处理，去冗余，去掉文章内的网页标签信息，最终，财经信息文本存储到存储模块，存储模块包含财经信息文本的题目、文章编号aid、所属分类fid、发表时间posttime、文章内容content。

在现实的网络中，往往会出现某篇财经信息被多家财经新闻网站进行转载或者一篇评论被其他人引用的现象，因此，首先需要对采集过来的信息进行去重处理，这里使用的文本去重处理，主要使用循环匹配的方式（新闻匹配标题，微博评论匹配内容）实现，然后对每一篇文章指定文章编号aid；然后通过自定义的金融类的词库，对每一篇财经信息文本进行分类，确定所归属的金融品种fid，文章标题内含有多个金融品种信息的，归属到多个金融品种下；此外，由于采集过来的信息内容，多是含有网页标签，对于文本后期处理，造成更多的资源开销，这里也进行去冗余处理，最终确定的财经文本信息以（aid，fid，posttime，content）的格式存入数据存储模块，content为文本内容，posttime为财经文本信息发布时间。

所述Spark数据处理模块对预处理的结果进行分析包括，对于预处理得到的财经信息文本使用SparkStreaming对数据进行读取处理，在本发明中，由于爬取的财经信息数量大，每一天的信息发布时间统一，因此对于一天中的文本信息（财经新闻、微博评论），使用滑动窗口机制进行读取处理，这里面每一个时间单元time定义为10分钟，每个窗口大小（windowsize）是3倍时间单元（timeunit）,也就是每个时间窗口是半个小时，而我们使得窗口每隔一个单位时间，向前滑动一次。这样，就在一天实时的动态获得了文本信息对金融市场所表现出的情感趋势，可以准确的展示出一天中网络文本信息所表现出的情感趋势。

在使用sparkstreaming处理财经文本信息的过程中，本发明使用posttime、fid作为信息聚拢的key，由于spark并行处理信息的特性，所以这里不需要像在往常的信息一样，需要先将打好标签的信息进行分类，并依照时间排序，因此，spark使用key处理内容的方式为文本处理过程提供相当大的便利。

所述自定义的情感值量化办法，具体内容如下：

在处理财经文本信息、获取情感值的过程中所使用的情感值获取方式，本发明中使用自定义的中文情感词词库进行分词。由于主要获取文章的情感值信息，因此，仅需要将文章按找规则所需要的几个词库进行分词，积极情感词库、消极情感词库以及否定词词库，而本发明中主要针对的文本信息是金融信息文本（如财经新闻，财经评论，财经论坛留言等），所以，在积极和消极情感词词库中还需加入金融类的涨跌词，比如：“涨停”、“利多”、“跌停”等，这样，就构建出所需要的中文词库，不仅可以获得相同效果，而且大大提高处理过程中的分词、匹配性能。

本发明应用自定义的语义规则处理文本信息，获得每一篇财经文本信息和每一天的情感倾向值信息。由于篇幅较大，一篇文章的情感倾向不好直接衡量，因此，本发明中将一篇文章按照标点符号（句号、逗号、分号、问好等）进行截断，提取每一个单句中的情感词汇，句子中的每一个情感词构成一个情感单元，然后基于语义规则，获取每一个情感单元的情感值信息，将每一个句子中的情感单元的情感值进行累加并求平均，获得每一个句子的情感值倾向，将所有句子的情感值进行累加并求平均，则获得整篇文章的情感值信息。对于没有情感词的单句，情感倾向值为0，而对于含有情感词的句子，对于句子中的情感单元的情感值信息定义如下规则：

积极情感词：0.9

否定词+消极情感词：0.8

否定词+积极情感词：-0.8

消极情感词：-0.9

每个句子中的情感单元依据上述方式获得情感值后，通过上面的说明，定义一个时间段内的关于某一金融品种的情感值为,其情感值为:

式中，表示每个情感单元的值，表示每个单句中的情感词数量，代表每个单句的情感值，表示一篇文章中的单句数量。

使用本发明能达到以下有益效果：

针对整篇文本文章信息情感趋势分析难的问题，将文章按标点符号进行截断，逐句逐个情感单元获取情感值信息，从而获得通篇文章情感值信息，处理方式简单而有效。

针对文本信息处理过程中，分词、循环匹配计算速度慢的问题，提出使用SparkStreaming方法处理情感信息获取流程，大程度提高文本信息情感值的获取速度，增加了财经信息文本情感倾向值信息提取的时效性。

附图说明

图1是本发明实现的带有spark应用的文本情感趋势分析技术总体结构图；

图2是本发明在预处理过程中的流程图；

图3是本发明所使用当的sparkstreaming构架图；

图4是本发明应用的spark技术中时间窗机制示意图；

图5是本发明在spark数据处理模块文本处理流程示意图；

图6是本发明在存储模块采用的存储结构示意图。

具体实施方式

以下结合附图对本发明做进一步详细说明。

如图1所示，带有Spark数据处理模块的财经信息情感趋势分析主要有数据获取模块、预处理模块、Spark数据处理模块、数据存储模块组成。数据获取模块获取指定网站的相关财经信息文本，并将财经信息提交到预处理模块；预处理模块对采集到的财经信息文本进行初步处理，存入数据存储模块；Spark数据处理模块对预处理的结果进行分析，针对文章内容进行处理，获取文章的情感值信息；数据存储模块主要存储、并提供预处理和Spark处理过程中所产生以及所需要的信息。

如图2所示，在本发明的数据预处理流程中，对采集过来的财经文本信息，进行打标签、去重、去冗余等处理。在现实的网络中，往往会出现一篇财经信息被多家财经网站进行转载或者一篇评论被其他人引用的现象，因此，首先需要对采集过来的信息进行去重处理，这里使用的文本去重处理，主要使用循环匹配的方式（新闻匹配标题，微博评论匹配内容）实现，然后对每一篇文章指定文章aid；对于所使用的词库，本发明使用自定义的金融类词库，对每一篇财经文本信息进行分类，确定所归属的金融品种fid，文章标题内含有多个金融品种信息的，归属到多个金融品种下；此外，由于采集过来的信息内容，多是含有网页标签，对于文本后期处理，造成更多的资源开销，这里也进行去冗余处理，最终确定的财经文本信息以（aid，fid，posttime，content）的格式存入数据存储模块，content为文本内容，posttime为新闻财经信息文本发布时间。

图3是本发明所使用的sparkstreaming结构框架图。SparkStreaming流式的财经信息文本分解成一系列短小的批处理作业。这里的批处理引擎是Spark，也就是把SparkStreaming的输入数据（财经信息文本数据）按照batchsize（本发明中使用的为10分钟）分成一段的数据（DiscretizedStream），每一段数据都转换成Spark中的RDD（ResilientDistributedDataset），然后将SparkStreaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作，将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加，或者存储到外部设备。

图4是spark数据处理过程中所使用的滑动时间窗机制示意图。时间窗机制可以使得财经信息文本流式进入处理模块，达到实时处理数据，获取处理结果的效果，本发明中对于一天中的财经信（财经新闻、微博评论），使用滑动时间窗机制进行读取数据，这里面每一个时间单元time定义为10分钟，每个窗口大小（windowsize）是3倍时间单元（timeunit）,也就是每个时间窗口（window）是半个小时，而我们使得窗口每隔一个单位时间，向前滑动一次。这样，就在一天实时的动态获得了财经信息对金融市场所表现出的情感趋势，可以准确的展示出一天中网络文本信息所表现出的情感趋势。

图5是spark数据处理模块财经信息文本处理流程。在spark数据处理模块中，获得预处理后的文本信息后，首先对文本进行分词，在本发明中，由于仅需获得文本信息的情感倾向信息，所以，根据自定义的词库（情感词库、否定词库、标点库）进行分句、分词，然后再根据自定义的语义规则，对每个句子中的每个情感单元进行规则匹配，然后进行计算每个情感单元、每个句子、每篇文章的情感倾向值，最终将获得的值存储到数据存储模块。

图6是在存储模块各数据进行存储的结构。数据存储模块主要是存储预处理模块和spark数据处理模块所获得的数据，在预处理模块处理结束后，将每一篇文章按照图6上面的格式存入数据库中，其中aid表示文章编号，fid表示文本所属分类，posttime表示文章发表时间，content表示文本内容，polarity表示每篇文章的情感倾向值，在预处理阶段均为0，后期在spark处理结束后，存入每篇文章的情感值信息。预处理模块的数据处理好后，流式进入spark数据处理模块，经过spark处理后，每篇文章的情感值信息存入图6上图，而对于每时每刻关于某一分类的情感值信息则存入图6下图，图6下图中fid表示所属分类，time表示情感值时间点，polarity表示该时间的情感值信息，news_number表示该时间段内文本数量，用于验证该情感值信息是否可靠（比如说如果文本数量非常少，则表示该情感值信息较不可信）。

Claims

1.基于SparkStreaming的财经信息情感趋势分析方法，情感趋势分析过程以SparkStreaming基础，引入时间窗，实现每个时间实时获取网络财经信息情感趋势，其特征在于，在获取情感趋势的文本分析过程中，使用自定义的情感值量化办法，获取大文本类财经信息所表现的情感趋势，分析方法的实现包含数据获取模块、预处理模块、Spark数据处理模块、数据存储模块，

数据获取模块获取财经信息，并将财经信息提交到预处理模块；预处理模块对采集到的财经信息文本进行初步处理，存入数据存储模块；Spark数据处理模块对预处理的结果进行分析，针对财经信息文本内容进行处理，获取文本的情感值信息；数据存储模块存储、并提供预处理和Spark处理过程中所产生以及所需要的信息。

2.根据权利要求1所述的基于SparkStreaming的财经信息文本情感趋势分析方法，其特征在于，所述数据获取模块采用间隔时间：30分钟或者1小时的方法对目标网站进行定时数据爬取，获取最新的网络文本信息，提交至预处理阶段，目标网站包括金融财经新闻网站、微博金融评论、论坛留言。

3.根据权利要求1所述的基于SparkStreaming的财经信息文本的情感趋势分析方法，其特征在于，所述预处理模块包括对文章进行打标签、去重、去冗余，其中，对文章进行打标签处理，即通过匹配财经信息文本标题或内容的方式，对财经信息文本所属金融品种分类进行鉴定，并为每篇文章建立分类字段，将财经信息文本存入存储系统的过程中，通过标签在一定时间段内的查询进行去重处理，去冗余，去掉文章内的网页标签信息，最终，财经信息文本存储到存储模块，存储模块包含财经信息文本的题目、文章编号Aid、所属分类Fid、发表时间Posttime、文章内容Content。

4.根据权利要求1所述的基于SparkStreaming的财经信息情感趋势分析的方法,其特征在于，所述park数据处理模块在对于预处理得到的财经信息文本使用SparkStreaming技术对数据进行读取处理，对爬取过来的文本信息使用滑动窗口机制进行读取处理，每一个时间单元time定义为10分钟，每个窗口大小是3倍时间单元,，也就是每个时间窗口是半个小时，而我们使得窗口每隔一个时间单元，向前滑动一次，这样，就在一天实时的动态获得了每半个小时内的财经信息对金融市场所表现出的情感趋势，可准确的展示出一天中财经信息文本所表现出的情感趋势。

5.根据权利要求4所述的基于SparkStreaming的财经信息情感趋势分析的方法,其特征在于，在Spark对数据进行处理阶段，使用fid、posttime作为信息聚拢的key，由于Spark并行处理信息的特性，所以这里不需要像在往常的信息一样，先将打好标签的信息进行分类，并依照时间排序。

6.根据权利要求1所述的基于SparkStreaming的财经信息情感趋势分析方法，其特征在于，所述自定义的情感值量化办法具体内容如下：

应用自定义的中文情感词词库进行分词，采用情感倾向值聚合的方式，获取整篇文本的趋势倾向，首先将一篇文章按照标点符号：句号、逗号、分号或问号进行截断，提取每一个单句中的情感词汇，句子中的每一个情感词构成一个情感单元，然后基于中文情感词词库，获取每一个情感单元的情感值信息，将每一个句子中的情感单元的情感值进行累加并求平均，获得每一个句子的情感值倾向，将所有句子的情感值进行累加并求平均，则获得整篇文章的情感值信息，对于没有情感词的单句，情感倾向值为0，而对于含有情感词的句子，对于句子中的情感单元的情感值信息定义如下规则：

积极情感词：0.9

否定词+消极情感词：0.6

否定词+积极情感词：-0.6

消极情感词：-0.9

7.根据权利要求6所述的基于SparkStreaming的财经信息情感趋势分析方法，其特征在于，所述自定义的中文情感词词库包括积极情感词库、消极情感词库以及否定词词库，在积极情感词词库和消极情感词词库中加入金融类的涨跌词，比如：涨停、利多、跌停。