CN107025299A

CN107025299A - 一种基于加权lda主题模型的金融舆情感知方法

Info

Publication number: CN107025299A
Application number: CN201710269270.6A
Authority: CN
Inventors: 刘振岩; 季子峥; 王勇; 薛静锋; 张继
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-08-08
Anticipated expiration: 2037-04-24
Also published as: CN107025299B

Abstract

本发明一种基于加权LDA主题模型的金融舆情感知方法，属于自然语言理解与处理，以及网络舆论技术领域。本发明基于微博每日金融相关的博文数据感知每日金融舆情，用“每日金融舆情综合指数”来对每日金融舆情进行量化。这个“每日金融舆情综合指数”是当日全部金融相关的博文情绪值的加权平均，博文情绪值是对博文内容进行文本情感分类的结果。文本情感分类采用基于加权LDA的SVM分类模型，此模型采用了加权LDA来建立文本表示的隐主题空间，通过一个新的词项权重计算方法实现了间接体现投资者情绪的客观数据和直接体现投资者情绪的主观数据的有机结合，从而极大地促进了从语义层面上对文本的准确理解，使得文本情感分类的效果更佳。

Description

一种基于加权LDA主题模型的金融舆情感知方法

技术领域

本发明涉及自然语言理解与处理，尤其涉及一种基于加权LDA(Latent DirichletAllocation)主题模型的金融舆情感知方法，属于网络舆论的自然语言理解与处理技术领域。

背景技术

随着互联网的普及，来自于互联网的信息与日剧增，尤其是在以互动交流为主要特点的Web2.0模式下，微博、BBS(Bulletin Board System)等社交平台飞速发展，网民通过微博、BBS等可以实时对社会生活各个领域中的新闻事件，热点话题，关注焦点等发表自己的意见，表达个性化的观点。网民之间互动交流所产生的网络舆论中蕴含着丰富客观的民众意愿和情绪。深入挖掘这些海量的网络舆论信息，可以辅助决策者敏锐地感知到社会生活各个领域中的民情民意，为各种相关决策提供有力支持。

对于金融投资领域来说，目前的投资者，尤其是广大中小投资者，越来越倾向于借助于互联网来搜集关于宏观经济政策，企业经营状况，股票市场走势等信息，并通过微博、股吧等积极参与讨论，参与者之间的相互情绪感染和行为模仿，形成共振现象，会悄然形成一种具有群体性的“投资者情绪”，这种投资情绪对股票市场的影响力很强。在实际的股票投资市场中，常常是大部分投资者都看好的上市公司的股票会有越来越多的投资者追随，反之会遭到投资者的抛售。从这个意义上讲，基于金融相关的网络舆论来捕获投资者情绪，感知金融舆情的研究非常具有应用价值。

早期基于网络舆论捕获投资者情绪的研究只是使用股吧帖子的点击数或评论数，微博的转发数或评论数这些客观数据来间接计算投资者情绪，而不关注真正体现投资者情绪的主观数据：帖子的文本内容。后来有越来越多的研究开始致力从帖子的文本内容中来提取投资者情绪，也就是对非结构化的网络文本信息进行情感分析，这类研究主要是借助于情感词典分析技术或文本分类技术来实现。这两种主流技术共同的缺点就是都只停留在文本中所出现的词汇信息这个层面上，没有深入到文本的语义层面，这会使得最终对文本的理解有偏差。我们还注意到现有的很多研究在计算投资者情绪时，将股吧帖子的点击数或评论数，亦或是微博的转发数或评论数这些客观数据，和帖子的文本内容这一主观数据进行结合来计算投资者情绪，但是，这种结合也只是简单地将这两种数据加总，没有实现两者的紧密结合。

因此，为了克服上述现有技术的缺陷，有必要提供一种新型的金融舆情感知方法，使用此方法所计算的投资者情绪不仅源自于文本中所出现的词汇信息，而且能深入到文本的语义层面，还能同时将网络舆论相关的客观数据也引入进来。

发明内容

本发明的目的是实现从语义层面上对网络舆论文本的准确理解，同时还能够将网络舆论的主客观数据有机地结合在一起，提出了一种基于加权LDA主题模型的金融舆情感知方法。该方法的具体实现步骤如下：

步骤(1)从历史的微博数据中挑选出一定数量的样本，并人工标注类别，建立训练样本集；

其中，微博数据，也可以是股吧数据，也可以是其他类型的数据；

步骤(1)，具体为：

根据一个预设与金融领域相关的关键词集合，来检索出一个历史时间段内微博金融数据，将每个文本的内容和其评论数与转发数，以及人工标注的情感类别信息存入数据库中；

其中，关键词集合是结合金融领域知识和金融专家经验获得；人工标注的情感类别信息主要包括正向、中立和负向三个类别；

步骤(2)对步骤(1)输出的训练样本集进行数据预处理，将每个微博博文的文本转换为词项的集合；

其中，数据预处理主要是对每个博文的文本内容进行中文分词以及去除停用词为主的操作；

步骤(3)对步骤(2)的输出使用改进的TFIDF-DA(Term Frequency InverseDocument Frequency-Document Attention)特征权重计算方法计算每个词项的权重，取TopN个词项，形成一个重要词项表；

其中，步骤(3)中的TFIDF-DA特征权重计算方法是基于TFIDF的改进方法，此方法改进的核心思想是为了突出“出现在重要文本的词项更重要”；重要文本是指关注度高的热帖；

因为传统的TFIDF特征权重计算方法视样本集中的每个文本是同等重要的，但是，事实上热帖中出现的词项要更重要些，在计算词项的权重时，应该将其所在文本的重要性也要考虑进去；

步骤(3)，具体为：

步骤(3.1)采用原始文本关注度的对数函数与样本集中的最大文本关注度的比值来归一化文本的关注度；

其中，文本即博文，每个文本的关注度DA(Document Attention)的直接表征数据是其转发数和评论数的加和，归一化文本的计算公式为下式(1)：

其中，DA_t，d表示词项t所在的文本d的关注度，log为以2为底的对数操作；MAX_d∈D(DA_d)表示样本集D中的最大文本关注度；

步骤(3.2)在传统的TFIDF中加入公式(1)这一因子，新的词项权重(TFIDF-DA)的计算如下式(2)：

其中，TF_t表示词项t在当前文本中出现的次数，DF_t表示词项t在样本集D中的文本频率，N为样本集D的总文本数，表示样本集D中出现词项t的文本的关注度的加和；

步骤(4)基于步骤(1)的训练样本集和步骤(3)输出的重要词项表学习训练加权LDA主题模型，建立隐主题特征空间；

其中，步骤(4)中的加权LDA主题模型的核心思想是将LDA参数估计中的词频统计改为词项的权重加和，即“主题-词项”概率和“文本-主题”概率θ的具体计算为如下式(3)：

其中，表示在文本集D中，除了当前这个分配，即第i个之外，被分配给主题k的词项t的权重加和；表示在文本集D中，除了当前这个分配i之外，被分配给主题k的所有词项的权重加和；表示在文本集D中，除了当前这个分配i之外，文档d中被分配给主题k的词项的权重加和；表示在文本集D中，除了当前这个词项t之外，文档d中的全部词项的权重加和。α和β分别表示θ和的共轭先验Dirichlet分布的超参数，V是主题模型的词表的大小，K是隐主题数；

步骤(5)将训练样本集的每个文本在隐主题特征空间上进行文本表示；

步骤(6)基于训练样本集的主题向量表示学习构建SVM(Support VectorMachines)分类器，输出分类文本；

步骤(7)对待步骤(6)输出的分类文本进行文本预处理，转化为特征词集合，再将其在隐主题空间上进行文本表示，由SVM分类器对其进行分类；

步骤(8)将所要研究的一个历史时间段的博文按天划分，再基于每个帖子的情感类别计算每日金融舆情综合指数；

其中，步骤(8)中的每日舆情综合指数是一天中正向帖子(+1)，中性帖子(0)和负向帖子(-1)情绪值的加权平均；

至此，从步骤(1)到步骤(8)，完成了一种基于加权LDA主题模型的金融舆情感知方法。

有益效果

一种基于加权LDA主题模型的金融舆情感知方法，与现有技术相比，具有如下有益效果：

1.将间接体现投资者情绪的客观数据(微博的评论数和转发数)和直接体现投资者情绪的客观数据(微博的文本内容)通过加权LDA主题模型有机地结合在一起，进而基于加权LDA主题模型可以实现从语义层面上深入挖掘文本的隐含特征，将传统的基于词项的特征空间变换为基于语义关联的隐主题空间，在隐主题空间上进行文本的特征表示，从而可以极大地提升文本情感分类的效果；

2.词项权重计算方法采用改进的TFIDF-DA特征权重计算方法，此方法是在传统的TFIDF的方法基础上加入一个文本关注度因子DA，此因子基于博文的评论数和转发数这些客观数据进行量化，从而可以实现“根据词项所在文本的重要性来区别对待每个词项”，使得出现在热帖中的词项的权重更高；并且这个权重在主题模型的词项表建立之初就开始发挥作用，直至将其引入到主题模型的参数估计计算中；

3.每日金融舆情综合指数是当天全部博文的情绪值(文本情感分类的结果)的加权平均，这种基于文本分类的情绪值计算方法相比传统的基于情感词典的情绪值计算方法更准确更有效。

附图说明

图1为本发明一种基于加权LDA主题模型的金融舆情感知方法的处理过程。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明做进一步详细说明。

如图1，本实施例基于加权LDA主题模型的金融舆情感知方法，包括如下步骤：

步骤1，按照预先设定的一个金融领域相关的关键词表来检索历史微博数据，再从这个检索出的子集中人工挑选一个规模适度的训练样本集，并对此样本集进行人工类别标注(+1代表正向情绪，0代表中立情绪，-1代表负向情绪)和数据预处理(中文分词，去停用词等)，将形成的初始训练样本集存入数据库，其中三个重要数据字段是以词集合形式呈现的博文的文本内容，该博文的情感类别，该博文的关注度(评论数与转发数之和)。

步骤2，使用TFIDF-DA特征权重计算方法计算训练样本集中的每个词项的权重，取TopN个词项形成一个重要词项表。

步骤3，对于初始训练样本集，使用上一步构建的重要词项表，学习训练加权LDA主题模型，即进行加权LDA主题模型的参数估计，建立隐主题特征空间。

步骤4，将初始训练数据集的每个文本在隐主题空间上进行文本表示，使得每个文本表示为主题向量：(topic1,topic2,…,topicn)。

步骤5，基于有隐主题的训练样本集，使用LibSVM工具包学习训练SVM分类器。

步骤6，对待分类的文本进行中文分词，去停用词等预处理，将文本转换为特征词的集合，再将其在隐主题空间上进行文本表示，由分类器对其进行情感分类。

步骤7，将所要研究的一个历史时间段的博文按天划分，计算每天的全部博文的情绪值(文本情感分类的结果)的加权平均来作为每日金融舆情综合指数。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，在本发明的上述指导下，本领域技术人员可以在上述实施例的基础上进行各种改进和变形，而这些改进或者变形落在本发明的保护范围内。

Claims

1.一种基于加权LDA主题模型的金融舆情感知方法，其特征在于：该方法的具体实现步骤如下：

步骤(3)对步骤(2)的输出使用改进的TFIDF-DA(Term Frequency Inverse DocumentFrequency-Document Attention)特征权重计算方法计算每个词项的权重，取TopN个词项，形成一个重要词项表；

步骤(6)基于训练样本集的主题向量表示学习构建SVM(Support Vector Machines)分类器，输出分类文本；

2.根据权利要求1所述的一种基于加权LDA主题模型的金融舆情感知方法，其特征在于：步骤1中，微博数据，也可以是股吧数据，也可以是其他类型的数据。

3.根据权利要求1所述的一种基于加权LDA主题模型的金融舆情感知方法，其特征在于：步骤(1)，具体为：

其中，关键词集合是结合金融领域知识和金融专家经验获得；人工标注的情感类别信息主要包括正向、中立和负向三个类别。

4.根据权利要求1所述的一种基于加权LDA主题模型的金融舆情感知方法，其特征在于：步骤(2)中，数据预处理主要是对每个博文的文本内容进行中文分词以及去除停用词为主的操作。

5.根据权利要求1所述的一种基于加权LDA主题模型的金融舆情感知方法，其特征在于：步骤(3)中的TFIDF-DA特征权重计算方法是基于TFIDF的改进方法，此方法改进的核心思想是为了突出“出现在重要文本的词项更重要”；重要文本是指关注度高的热帖；

因为传统的TFIDF特征权重计算方法视样本集中的每个文本是同等重要的，但是，事实上热帖中出现的词项要更重要些，在计算词项的权重时，应该将其所在文本的重要性也要考虑进去。

6.根据权利要求1所述的一种基于加权LDA主题模型的金融舆情感知方法，其特征在于：步骤(3)，具体为：

其中，文本即微博博文，每个文本的关注度DA(Document Attention)的直接表征数据是其转发数和评论数的加和，归一化文本的计算公式为下式(1)：

其中，TF_t表示词项t在当前文本中出现的次数，DF_t表示词项t在样本集D中的文本频率，N为样本集D的总文本数，表示样本集D中出现词项t的文本的关注度的加和。

7.根据权利要求1所述的一种基于加权LDA主题模型的金融舆情感知方法，其特征在于：步骤(4)中的加权LDA主题模型的核心思想是将LDA参数估计中的词频统计改为词项的权重加和，即“主题-词项”概率和“文本-主题”概率θ的具体计算为如下式(3)：

其中，表示在文本集D中，除了当前这个分配，即第i个之外，被分配给主题k的词项t的权重加和；表示在文本集D中，除了当前这个分配i之外，被分配给主题k的所有词项的权重加和；表示在文本集D中，除了当前这个分配i之外，文档d中被分配给主题k的词项的权重加和；表示在文本集D中，除了当前这个词项t之外，文档d中的全部词项的权重加和。α和β分别表示θ和的共轭先验Dirichlet分布的超参数，V是主题模型的词表的大小，K是隐主题数。

8.根据权利要求1所述的一种基于加权LDA主题模型的金融舆情感知方法，其特征在于：步骤(8)中的每日舆情综合指数是一天中正向帖子、中性帖子和负向帖子情绪值的加权平均。