CN108509629B

CN108509629B - 一种基于情感词典和支持向量机的文本情感分析方法

Info

Publication number: CN108509629B
Application number: CN201810311156.XA
Authority: CN
Inventors: 梅晨; 高阳
Original assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Current assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2022-05-13
Anticipated expiration: 2038-04-09
Also published as: CN108509629A

Abstract

本发明提供了一种基于情感词典和支持向量机的文本情感分析方法。所述基于情感词典和支持向量机的文本情感分析方法包括如下步骤：将新闻文本数据向量化，对训练新闻数据进行类别和情感倾向标注；对新闻文本的不同类别建立分类模型；根据新闻类别和对应的情感词典来提取新闻文本中的情感词特征数据；对添加了情感词特征数据的不同类别的新闻文本建立情感倾向分类模型；将测试新闻文本数据向量化并通过类别分类器进行分类，然后提取情感词特征，最后在对应的情感分类模型上计算得到新闻的情感倾向信息。所述基于情感词典和支持向量机的文本情感分析方法在对新闻文本进行学习的过程中加入了情感特征信息，有利于提高新闻情感分析的准确度。

Description

一种基于情感词典和支持向量机的文本情感分析方法

技术领域

本发明属于计算机技术领域，具体地涉及一种基于情感词典和支持向量机的文本情感分析方法。

背景技术

随着移动互联网的快速发展，新闻咨询类的信息也呈现几何式的增长，如何快速的了解某个领域的新闻的整体观点趋势是值得研究的话题，以财经类新闻为例，财经新闻很多时候体现了官方或者机构对某个事件或者行业等的认识，相对用户的观点来说更加客观且可靠，通过分析某个行业板块的新闻的情绪倾向，对于研究者和投资者进行行业分析及投资计划可以做出重要的辅助决策。同时，对于新闻内容的情感分析也可以更加有效的对新闻进行监控和管制，是值得研究的一个方向。

近年来自然语言处理一直是人工智能领域的一个重要的方向，当进行自然语言处理的时候，往往需要将文本信息数值化，向量化。比较传统的词向量方法有one-hot向量表示法，但是one-hot向量表示法虽然很简单，但是有明显的缺点，第一，由于巨大的语言词汇量，导致用one-hot向量表示法转换的词向量的维度非常高，对于计算机来说难以获得高效的存储和计算性能；第二，用one-hot向量表示法转换的词向量无法用距离来衡量词与词之间的关系，这样会丢失很多词中隐含的信息。在2013年，google推出了一款将词表征为实数值向量的高效工具-word2vec，word2vec通过对语料数据的训练，可以将文本内容处理为k维向量，而且向量空间上的相似度可以用来表示文本语义上的相似性。因此，word2vec向量化方法弥补了 one-hot向量表示法的缺点，在自然语言处理方面有着不错的性能和效果。

发明内容

本发明的目的在于针对现有技术的缺陷或问题，提供一种基于情感词典和支持向量机的文本情感分析方法，将情感词信息与机器学习相结合，提升了情感分析的准确率。

本发明的技术方案如下：一种基于情感词典和支持向量机的文本情感分析方法包括如下步骤：

步骤1：将新闻文本数据向量化，对训练新闻数据进行类别和情感倾向标注；

步骤2：对新闻文本的不同类别建立分类模型；

步骤3：根据新闻类别和对应的情感词典来提取新闻文本中的的情感词特征数据；

步骤4：对添加了情感词特征数据的不同类别的新闻文本建立情感倾向分类模型；

步骤5：将测试新闻文本数据向量化并通过类别分类器进行分类，然后提取情感词特征，最后在对应的情感分类模型上计算得到新闻的情感倾向信息。

优选地，步骤1对新闻文本进行向量化和情感标注，包括：

步骤1-1：对训练数据集中的每篇新闻进行人工标注，标注主要有两个维度，第一个维度是新闻类别，另一个维度是情感倾向；

步骤1-2：对新闻文本进行分词操作，加载停用词词典，剔除其中的停用词；

步骤1-3：对新闻文本的分词结果构建语料库，每篇新闻占据一行，每行文本中的每次词语以空格作为分隔符分割；

步骤1-4：将处理好的中文语料数据集输入到word2vec中，对中文语料数据集训练word2vec模型；

步骤1-5：利用textrank算法计算新闻中各个词的权重，并将每个词输入word2vec模型中计算出词向量，最后将每个词的词向量和它的权重加权得到新闻文本的向量化表示。

优选地，步骤2对新闻文本建立类别分类模型，包括：

步骤2-1：将新闻的类别标签数值化，将数值化标签和新闻文本的数值化向量构建成新闻类别分类训练数据集；

步骤2-2：在新闻类别分类训练数据集上训练svm分类模型。

优选地，步骤3提取情感指数，包括：

步骤3-1：对于训练数据集中的每篇新闻文本，根据该文本对应的新闻类别，调用相应类别的情感词典，检索文本中存在于情感词典中的情感词；

步骤3-2：对于检索到的情感词，向前检测1-2位，判断前面是否是程度词，然后将情感词和其程度词进行加权计算，得到正向和负向的情感词指数；

步骤3-3：将情感词指数加入到新闻文本的数值化向量中得到新的新闻向量表示。

优选地，步骤4建立情感倾向分类模型，包括：

步骤4-1：将新闻的情感倾向标签数值化，将数值化标签和新闻文本的数值化向量构建成训练数据集；

步骤4-2：将训练数据集按照不同的新闻类别划分成多个训练数据集；

步骤4-3：对每个不同新闻类别的训练数据集训练相应类别下的svm情感倾向分类模型。

优选地，步骤5对未处理的新闻进行情感分析，包括：

步骤5-1：将未处理的新闻文本按照步骤1中的方法向量化；

步骤5-2：将新闻文本的数值化向量输入到类别分类模型中，计算得到新闻文本的类别；

步骤5-3：根据新闻文本的类别采用相应的情感词典来提取情感指数；

步骤5-4：将新闻文本的数值化向量和其情感指数结合得到新的测试样本，然后将测试样本输入到对应类别的情感倾向分类器中，计算得到新闻的情感倾向值。

本发明提供的技术方案具有如下有益效果：

所述基于情感词典和支持向量机的文本情感分析方法可以对新闻文本数据实现自动的新闻类别分类和情感倾向分析，对不同类别的新闻利用不同的情感词典进行情感词特征提取，提高了情感词特征提取的精度，在对新闻文本进行学习的过程中加入了情感特征信息，有利于提高新闻情感分析的准确度。

附图说明

图1是本发明实施的基于情感词典和支持向量机的文本情感分析方法的总体流程图；

图2是本发明实施的基于情感词典和支持向量机的文本情感分析方法的具体流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

如图1和图2所示，一种基于情感词典和支持向量机的文本情感分析方法，包括如下步骤：

1、对训练数据集进行人工标注(包括新闻行业类别及情感倾向)，将训练数据进行分词、去停用词，然后通过word2vec将词转换词向量，最后将新闻文本数据向量化为D_j；

2、根据新闻文本数据向量及其对应的新闻类别标签，训练SVM分类模型，得到新闻类别分类器model_n；

3、对于不同类别的训练数据，调用对应类别的情感词典,分析新闻文本情感词指数e，并将情感词指数e作为特征加到新闻文本数据向量D_j的尾部，构成新的向量D′_j；

4、对每个不同类别的新闻训练数据及其对应的情感倾向标签，训练SVM分类模型，得到指定新闻类别的情感倾向分类器model_c；

5、对测试数据按照步骤(1)构建新闻文本数据向量D_j，将数据向量D_j输入到步骤(2) 中训练的新闻类别分类器model_n中，计算得到新闻的类别c，然后按照步骤(3)构建含有情感词数据特征的新向量D′_j，最后将数据向量D′_j输入到对应新闻类别的情感倾向分类器model_c中，计算得到该新闻的情感倾向。

具体地，在上述步骤1中具体包括如下步骤为：

1.1、对训练数据集中的每篇新闻进行人工标注，标注主要有两个维度，第一个维度是新闻类别，例如，社会、国际、国内、娱乐、体育、财经等，第二个维度是情感倾向，主要有正向、中立、负向三个类别；

1.2、对新闻文本进行分词操作，加载停用词词典，剔除其中的停用词；

1.3、对新闻文本的分词结果构建语料库，每篇新闻占据一行，每行文本中的每次词语以空格作为分隔符分割，例如文本“曝韩知名经纪公司高层被中国股东开除员工欲罢工”处理之后的形式是”曝韩知名经纪公司高层中国股东开出员工罢工”；

1.4、将处理好的中文语料数据集输入到开源深度学习模型word2vec中，对中文语料数据集训练word2vec模型，并将word2vec模型存储在文件中；

1.5、对于步骤1.2中处理后所得的每篇新闻，利用textrank算法计算新闻中各个词的权重，并对权重进行线性归一化处理，即

这里，w_i表示第i个词的权重，w_min表示这篇新闻中权重最小词的权重值，w_max表示这篇新闻中权重最大词的权重值；

1.6、将每篇新闻中的词输入步骤1.4中训练的word2vec模型中，计算得到每个词的词向量，词向量L_i的形式如下：

L_i＝[f₁,f₂,f₃,f₄,f₅……f_n]

然后通过将词向量以相应的权重进行加权，从而得到每篇新闻的向量表示D_j，

这里的L_i表示第j篇新闻中的第i个词的向量，这里的f_n表示词向量的第n维特征，w_i表示第j篇新闻中的第i个词的向量的权重，D_j表示第j篇新闻的向量表示。

具体地，上述步骤2具体包括如下步骤：

2.1、将类别标签数值化，即将社会、国际、国内等标签数值化为1,2,3这样的数值标签，并将中文标签与数值标签的映射关系存储在类别标签数值映射表中；

2.2、将新闻向量表示D_j及其对应的数值标签整理成libsvm的格式，libsvm是如下的一种数据格式：

[4:0:-0.017954927 1:-0.025385361 2:0.01635078 3:0.025482753……200:0.005489663

11:0:0.016520487 1:0.006882766 2:0.042029403 3:0.0124441115……200:-0.0299489

1:0:-0.06207244 1:-0.014859878 2:-0.01074764 3:0.014099672……200:0.0029262288

3:0:-0.023108354 1:-0.027343191 2:0.031550214 3:0.027644191……200:0.00894014]

Libsvm的每一行都是以[t_i:0:f₀1:f₁2:f₂……n:f_n]形式存在，每一行是以t_i开头，这里的t_i表示该行样本的标签，例如，第一行样本的是以4开头，所以第一行的类别标签是4。数值标签后面的每一对n:f_n，n表示这是样本的第n维特征，f_n表示第n维特征的值；

2.3、将整理好的libsvm格式的训练数据输入到svm中,训练svm分类模型，得到新闻类别分类器model_c。

具体地，上述步骤3具体包括如下步骤：

3.1、对于训练数据集中的每篇新闻文本，根据该文本对应的新闻类别，调用相应类别的情感词典，检索文本中存在于情感词典中的情感词c_i，负向的例如社会新闻中的打斗、火灾，损坏，财经新闻中的震荡、受挫，下跌等等；正向的例如政治新闻的廉洁，改革，进步，体育新闻中的夺冠，破纪录，金牌等等；

3.2、加载程度词及其权重d_i，对于(3-1)中检测的每个情感词c_i，检测c_i前面的1-2个词是否属于程度词，例如“我很开心”，“开心”是属于正向情感词，“很”是属于程度词。根据情感词c_i及其前面的程度词的权重d_i计算该新闻的情感词指数e,并且进行归一化。具体的：

这里的e_n表示负向情感指数，e_p表示正向情感指数，

分别表示第i个负向词和正向词的权重，默认为1，d_i表示情感词前面的程度词的权重，如果没有程度词，则d_i＝1；

3.3、将步骤3.2中计算得到的情感词指数e(e_n,e_p)添加到步骤1.6中得到的新闻向量表示 D_j的尾部作为额外的特征，从而得到新的新闻向量表示D′_j，D′_j的具体的向量形式如下：

D′_j＝[f₁,f₂,f₃,f₄,f₅……f_n,e_n,e_p]

具体地，上述步骤4具体包括如下步骤：

4.1、将训练数据集dataset按照新闻类别划分成多个数据集 (dataset_社会,dataset_财经,dataset_体育等等)；

4.2、将情感倾向类别标签数值化，即将正向，负向，中立标签数值化为1,2,3这样的数值标签，并将中文标签与数值标签的映射关系存储在情感标签数值映射表中；

4.3、对每个类别的数据集dataset_类别，将其数据集中的新闻向量表示D′_j及其对应的情感倾向数值标签整理成libsvm的格式，具体格式如步骤2.2中所示；

4.4、对每个类别的数据集dataset_类别,将整理好的libsvm格式的训练数据输入到svm中, 训练svm分类模型，分别得到model_社会,model_财经,model_体育等具体新闻类别的情感分类模型。

具体地，上述步骤5具体包括如下步骤：

5.1、对测试新闻数据集进行处理，对新闻文本进行分词操作，加载停用词词典，剔除其中的停用词。对每篇新闻的分词集，按照步骤1.5中的方法计算每个词的权重。加载步骤1.4 中生成的word2vec模型，将分好的词输入word2vec模型中计算得到每个词的词向量L_i。然后通过将词向量以相应的权重进行加权，从而得到每篇新闻的向量表示D_j：

在下面，将会以新闻的向量表示来表示该新闻；

5.2、加载步骤2.3中训练得到的新闻类别分类器model_n，将向量化的新闻数据D_j输入到 model_n中，计算得到新闻D_j的数值化分类标签，然后根据步骤2.1中得到的类别标签数值映射表得到新闻D_j的类别c；

5.3、根据步骤3.1、3.2和3.3中的方法，按不同的分类类别计算新闻的情感词指数e(e_n,e_p)，并将情感词指数e(e_n,e_p)作为特征添加到向量D_j中得到新的新闻向量表示D′_j；

5.4、根据新闻D′_j的类别c，选择步骤4.4中训练好的对应的情感倾向分类器model_c，将D′_j输入到分类器model_c中，计算得到新闻D′_j的数值化情感倾向标签，最后根据步骤4.2中得到的情感标签数值映射表得到新闻的情感倾向。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于情感词典和支持向量机的文本情感分析方法，其特征在于：包括如下步骤：

步骤1：将新闻文本数据向量化，对训练数据集中训练新闻数据进行类别和情感倾向标注，包括：

对训练数据集的每篇新闻进行人工标注，标注主要有两个维度，第一个维度是新闻类别，另一个维度是情感倾向；

对新闻文本进行分词操作，加载停用词词典，剔除其中的停用词；

对新闻文本的分词结果构建语料库，每篇新闻占据一行，每行文本中的每个词语以空格作为分隔符分割；

将处理好的中文语料数据集输入到word2vec中，对中文语料数据集训练word2vec模型；

计算新闻中各个词的权重，并将每个词输入word2vec模型中计算出词向量，最后将每个词的词向量和它的权重加权得到新闻文本的向量化表示；

其中，根据以下公式计算新闻中各个词的权重：

w_i表示第i个词的权重，w_min表示一篇新闻中权重最小词的权重值，w_max表示一篇新闻中权重最大词的权重值；

步骤2：对新闻文本的不同类别建立类别分类模型；

步骤3：根据新闻类别和对应的情感词典来提取新闻文本中的情感词特征数据，包括：

对于训练数据集中的每篇新闻文本，根据该文本对应的新闻类别，调用相应类别的情感词典，检索文本中存在于情感词典中的情感词；

对于检索到的情感词，向前检测1-2位，判断前面是否是程度词，然后将情感词和其程度词进行加权计算，得到正向和负向的情感词指数；

其中，根据以下公式计算正向和负向的情感词指数：

e_n表示负向情感指数，e_p表示正向情感指数，

将情感词指数加入到新闻文本的数值化向量中得到新的新闻向量表示；

步骤5：将新闻文本向量化并通过类别分类模型进行分类，然后提取情感词特征，最后在对应的情感倾向分类模型上计算得到新闻的情感倾向信息。

2.根据权利要求1所述的一种基于情感词典和支持向量机的文本情感分析方法，其特征在于，步骤2对新闻文本建立类别分类模型，包括：

步骤2-2：在新闻类别分类训练数据集上训练svm类别分类模型。

3.根据权利要求1所述的一种基于情感词典和支持向量机的文本情感分析方法，其特征在于，步骤4建立情感倾向分类模型，包括：

4.根据权利要求1所述的一种基于情感词典和支持向量机的文本情感分析方法，其特征在于，步骤5将新闻文本向量化并通过类别分类模型进行分类，然后提取情感词特征，最后在对应的情感倾向分类模型上计算得到新闻的情感倾向信息，包括：

步骤5-1：将未处理的新闻文本按照步骤1中的方法向量化；

步骤5-4：将新闻文本的数值化向量和其情感指数结合得到新的测试样本，然后将测试样本输入到对应类别的情感倾向分类模型中，计算得到新闻的情感倾向值。