CN107943790A

CN107943790A - 一种基于最大熵模型和tf‑idf特征的情感分析方法

Info

Publication number: CN107943790A
Application number: CN201711186511.7A
Authority: CN
Inventors: 李世奇; 程国艮
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-04-20

Abstract

本发明属于语言分析技术领域，公开了一种基于最大熵模型和TF‑IDF特征的情感分析方法，以最大熵模型作为基本分类模型；利用训练文档集训练最大熵模型，当模型收敛或者迭代次数达到设定阈值时训练结束，得到的最大熵模型用于情感分类的预测。本发明能够深入挖掘大规模语料库中的分类信息，结合最大熵分类模型，实现篇章文本的细粒度情感分析；经测试，本发明中的方法在5分类的细粒度情感分析问题上的F值达62.9％，比传统的特征工程加机器学习方法的F值提升了10％以上。

Description

一种基于最大熵模型和TF-IDF特征的情感分析方法

技术领域

本发明属于语言分析技术领域，尤其涉及一种基于最大熵模型和TF-IDF特征的情感分析方法。

背景技术

情感分析，又称情感倾向性分析，是指通过计算机算法自动识别出自然语言篇章所表达的情感倾向性，是人工智能、机器学习领域研究和应用的重要热点。移动互联网、电子商务、社交网络、人工智能等技术迅速发展，极大地拓展了信息的边界，丰富了数据的广度和深度，大数据正成为企业发展和社会发展的基础性和战略性资源。从全球互联网海量数据中挖掘出社会公众对事件或主体的情感倾向性，客观地反映相关的意见及情感倾向，是情感分析技术的重要应用落脚点。

通常把情感分析形式化为分类问题来解决，目前，篇章级情感分析的主要方法是基于统计机器学习的分类模型和人工构造的特征集合。首先，构造机器学习的特征集合，用统计方法挑选出区分度较强的特征，将篇章本文转换为向量形式。然后，利用预先构建好的情感分析语料库，训练统计机器学习模型。最后，用训练好的分类模型对新样本的情感倾向性进行预测。

综上所述，现有技术存在的问题是：

不能够充分地利用大规模训练语料中的深层分类信息，提高情感分析的准确率；

不能灵活地设置约束条件对未知数据的适应度和对已知数据的拟合度进行调节。

发明内容

针对现有技术存在的问题，本发明提供了一种基于最大熵模型和TF-IDF特征的情感分析方法。本发明将文本分类到强烈正面、一般正面、中性、一般负面或者强烈负面5类中的1类。

本发明是这样实现的，一种基于最大熵模型和TF-IDF特征的情感分析方法，所述基于最大熵模型和TF-IDF特征的情感分析方法以最大熵模型作为基本分类模型；利用训练文档集训练最大熵模型，当模型收敛或者迭代次数达到设定阈值时训练结束，得到的最大熵模型用于情感分类的预测。

利用基于TF-IDF特征的文档表示模型，对词频-逆文档频率特征来表征文本；并用于信息检索，表示文本中词汇的权重。

所述TF-IDF特征的文档表示模型对区别情感类别最有意义的词语应该是哪些在文档中出现频率高，而在整个文档集合的其他类别文档中出现频率少的词语进行分析；对于一个单词本身在文档中出现的频率越高，同时出现在其他情感类别频率越少，所述TF-IDF特征的文档表示模型这区别情感类别的能力就越强；其中TF表示词频，表征某个词语在文档内部的重要程度；IDF表示信息检索的逆文档频率；

所述TF-IDF特征的文档表示模型为逆类别频率，所述逆类别频率为类别频率的倒数，用于表征该词区分情感类别的能力。

进一步，所述表征该词区分情感类别的能力以TF和IDF的乘积TF-IDF作为表征词语分类能力的重要特征：

TF-IDF_w，j＝TF_w×IDF_w，j

其中，w表文本中的一个词；j表示情感类别，取正面、中性、负面3个情感类别中的1个，值分别用1、2、3来表示；n_w，d表示文档d中词语w的出现频次；n_d表示文档d中的总词数；

所述表征该词区分情感类别的能力具体包括：

首先，对篇章文本进行分词处理；然后，采用向量空间模型将1个篇章文本表示成多维文档向量的形式，篇章中的每个词对应文档向量中的5个维度，这5个维度的取值分别维该词对应5个情感类别的TF-IDF值；

把一篇文章抽象成一个文档向量D，文章中的1个词wi词对应D中的文档向量5个维度，5个维度权重是。那么文章D中词语wi对应的维度可以表示成：

D：{...，TF-IDF_wi，1，TF-IDF_wi，2，TF-IDF_wi，3，TF-IDF_wi，4，TF-IDF_wi，5，...}；

将语料库中全部带有情感标记的篇章文本转换为文档向量，并将其划分成训练集和测试集两个部分；然后利用最大熵模型对文档情感分类进行机器学习。

进一步，最大熵模型中的熵是指信息熵，假设离散随机变量x，有w₁，...，w_n共n种可能的取值，第i个取值w_i出现的概率用p(w_i)来表示，则信息熵H(p)为：

在对随机事件的概率分布进行预测时，预测分布应当满足全部已知的条件，而对未知的情况不要做任何主观假设；不确定情况下时，保留所有可能性；

所述最大熵模型从符合约束条件的分布p(y|x)中选择条件熵最大的最优后验概率分布p^*(y|x)，如下所示；

其中C表示约束条件集合；

假设训练样本集合表示为{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}，其中x表示训练样本转换成的特征向量，y表示x的情感类别，则给定x时y的条件熵为：

约束条件由特征函数来表达；特征函数是最大熵模型中的重要部分用于对概率分布模型加以限制，使最大熵模型能够利用上下文的信息；特征函数采用一个实值函数，用来表达x与y之间存在某种关系，以此对概率分布进行约束，如下：

通过求解在限制条件下具有最大熵值的分布获得最优模型；对于给定的训练样本{(x，y)}和选定的k个特征函数f_i，约束条件C为：每个特征f在经验分布下的期望值应与其在实际分布p(y|x)下的期望值p(f)相符，形式化描述见下公式：

最大熵模型简单描述成如下形式：

通过拉格朗日乘数法求出熵最大的分布p^*(y|x)即为最优概率分布；最大熵模型的形式化描述表示为下式；

其中，f_i(x，y)为特征函数；w_i为特征f_i的权重；Z_w(x)为归一化因子。

所述利用训练文档集训练最大熵模型，当模型收敛或者迭代次数达到设定阈值时训练结束，得到的最大熵模型用于情感分类的预测中，

模型训练采用拟牛顿法，训练过程中，模型精度不再明显变化时认为模型收敛，获得最大熵模型的全部参数w_i，训练结束。基于最大熵模型的预测过程如下：将新文档样本x带入上式，即可求得x属于各情感类别y的概率，选择概率最大的情感类别即为模型预测的情感类别。

本发明的另一目的在于提供一种基于最大熵模型和TF-IDF特征的情感分析系统。系统采用了一种新颖TF-IDF特征集合，结合最大熵分类模型，能够更充分地利用大规模训练语料中的深层分类信息，显著提升篇章级情感分析的准确率。

本发明的优点及积极效果为：

本发明提出一种基于最大熵模型和TF-IDF特征的情感分析方法。与一般机器学习模型和基于词袋的文档表示模型相比，该方法能够更充分地利用大规模训练语料中的深层分类信息。经验证，该方法能够显著提高情感分析的准确率。

最大熵模型的优点是所有满足约束条件的模型中信息熵极大的模型，面向情感分析这种经典的多值分类问题时准确率较高。此外，模型可以灵活地设置约束条件，通过约束条件调节模型对未知数据的适应度和对已知数据的拟合度。

本发明基于TF-IDF(Term Frequency-Inverse Document Frequency)的文档表示模型，即用(词频-逆文档频率)特征来表征文本。TF-IDF主要用于信息检索领域，用来表示文本中词汇的权重。TF-IDF方法的基本思想是对区别情感类别最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他类别文档中出现频率少的词语。即认为一个单词本身在文档中出现的频率越高，同时出现在其他情感类别频率越少，它区别情感类别的能力就越强。

与传统特征相比，TF-IDF能够更加充分地利用大规模语料中的类别信息，使分类模型的判别更加容易。其中TF表示词频，表征某个词语在文档内部的重要程度；IDF表示逆文档频率(信息检索领域)，在本发明中为逆类别频率，即类别频率的倒数，用于表征该词区分情感类别的能力。

本发明能够深入挖掘大规模语料库中的分类信息，结合最大熵分类模型，实现篇章文本的细粒度情感分析。经测试，本发明中的方法在5分类的细粒度情感分析问题上的F值达62.9％，比传统的特征工程加机器学习方法的F值提升了10％以上。

附图说明

图1是本发明实施例提供的基于最大熵模型和TF-IDF特征的情感分析方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例提供的基于最大熵模型和TF-IDF特征的情感分析方法，包括：

S101：以最大熵模型作为基本分类模型。

S102：利用训练文档集训练最大熵模型，当模型收敛或者迭代次数达到设定阈值时训练结束，得到的最大熵模型即可用于情感分类的预测。

S103：利用基于TF-IDF特征的文档表示模型，对词频-逆文档频率特征来表征文本；并用于信息检索，表示文本中词汇的权重。

下面结合具体实施例对本发明作进一步描述。

本发明实施例提供的基于最大熵模型和TF-IDF特征的情感分析方法中，

基于TF-IDF(Term Frequency-Inverse Document Frequency)的文档表示模型，即用(词频-逆文档频率)特征来表征文本。TF-IDF主要用于信息检索领域，用来表示文本中词汇的权重。TF-IDF方法的基本思想是对区别情感类别最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他类别文档中出现频率少的词语。即认为一个单词本身在文档中出现的频率越高，同时出现在其他情感类别频率越少，它区别情感类别的能力就越强。

与传统特征相比，TF-IDF能够更加充分地利用大规模语料中的类别信息，使分类模型的判别更加容易。其中TF表示词频，表征某个词语在文档内部的重要程度；IDF表示逆文档频率(信息检索领域)，在本发明中为逆类别频率，即类别频率的倒数，用于表征该词区分情感类别的能力。本发明以TF和IDF的乘积TF-IDF作为表征词语分类能力的重要特征：

TF-IDF_w，j＝TF_w×IDF_w，j (10)

其中，w表文本中的一个词；j表示情感类别，取正面、中性、负面3个情感类别中的1个，值分别用1、2、3来表示；n_w，d表示文档d中词语w的出现频次；n_d表示文档d中的总词数。

首先，对篇章文本进行分词处理；然后，采用向量空间模型将1个篇章文本表示成多维文档向量的形式，篇章中的每个词对应文档向量中的5个维度，这5个维度的取值分别维该词对应5个情感类别的TF-IDF值。我们把一篇文章抽象成一个文档向量D，文章中的1个词wi词对应D中的文档向量5个维度，5个维度权重是。那么文章D中词语wi对应的维度可以表示成：

D：{...，TF-IDF_wi，1，TF-IDF_wi，2，TF-IDF_wi，3，TF-IDF_wi，4，TF-IDF_wi，5，...} (10)

采用给上述方法，将语料库中全部带有情感标记的篇章文本转换为文档向量，并将其划分成训练集和测试集两个部分。然后利用最大熵模型对文档情感分类进行机器学习。

最大熵模型是经典的指数概率模型，广泛用于的多分类任务。熵是物理学中的重要概念，用于描述事件无序性，无序性越强则熵越大。最大熵模型中的熵指的是信息熵，假设离散随机变量x，有w₁，...，w_n共n种可能的取值，每个取值w_i出现的概率用p(w_i)来表示，则信息熵为：。

最大熵模型的原理是：在对随机事件的概率分布进行预测时，预测分布应当满足全部已知的条件，而对未知的情况不要做任何主观假设。即不确定情况下时，保留所有可能性。这种情况下概率分布的信息熵最大，概率分布最均匀，预测风险最小。最大熵模型是以最大熵理论为基础建立的一种选择模型方法，即从符合约束条件的分布中选择条件熵最大的最优后验概率分布p(y|x)，如下所示。

其中C表示约束条件集合。

公式(3)中的约束条件通常由特征函数来表达。特征函数是最大熵模型中的重要部分，其作用主要是对概率分布模型加以限制，使模型能够利用上下文的信息。特征函数通常采用一个实值函数，用来表达x与y之间存在某种关系，以此对概率分布进行约束，如下：

通过求解在限制条件下具有最大熵值的分布即可获得最优模型。对于给定的训练样本{(x，y)}和选定的k个特征函数f_i，约束条件C为：每个特征f在经验分布下的期望值应与其在实际分布p(y|x)下的期望值p(f)相符，形式化描述见公式(5)。

综上，最大熵模型可以简单描述成如下形式：

根据公式(6)，通过拉格朗日乘数法求出熵最大的分布p^*(y|x)即为最优概率分布。最大熵模型的形式化描述可表示为下式。

其中，λ_i为拉格朗日乘子；f_i为特征函数；Z_λ(x)为归一化因子。

本发明以上述最大熵模型作为基本分类模型。利用训练文档集训练最大熵模型，当模型收敛或者迭代次数达到设定阈值时训练结束，得到的最大熵模型即可用于情感分类的预测。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于最大熵模型和TF-IDF特征的情感分析方法，其特征在于，所述基于最大熵模型和TF-IDF特征的情感分析方法以最大熵模型作为基本分类模型；

利用训练文档集训练最大熵模型，当模型收敛或者迭代次数达到设定阈值时训练结束，得到的最大熵模型用于情感分类的预测；

利用基于TF-IDF特征的文档表示模型，对词频-逆文档频率特征表征文本；并用于信息检索，表示文本中词汇的权重。

2.如权利要求1所述的基于最大熵模型和TF-IDF特征的情感分析方法，其特征在于，所述TF-IDF特征的文档表示模型对区别情感类别的词语进行分析；所述TF-IDF特征的文档表示模型为逆类别频率，所述逆类别频率为类别频率的倒数，用于表征词区分情感类别的能力。

3.如权利要求2所述的基于最大熵模型和TF-IDF特征的情感分析方法，其特征在于，所述表征词区分情感类别的能力以TF和IDF的乘积TF-IDF作为表征词语分类能力的重要特征：

TF-IDF_w，j＝TF_w×IDF_w，j，

所述表征词区分情感类别的能力具体包括：

首先，对篇章文本进行分词处理；然后，采用向量空间模型将1个篇章文本表示成多维文档向量的形式，篇章中的每个词对应文档向量中的5个维度，这5个维度的取值分别为该词对应5个情感类别的TF-IDF值；

对于一篇文章的一个文档向量D，文章中的1个词wi词对应D中的文档向量5个维度，文章D中词语wi对应的维度表示成：

D：{...，TF-IDF_wi，1，TF-IDF_wi，2，TF-IDF_wi，3，TF-IDF_wi，4，TF-IDF_wi，5，...)；

将语料库中全部带有情感标记的篇章文本转换为文档向量，并将文档向量划分成训练集和测试集两个部分；然后利用最大熵模型对文档情感分类进行机器学习。

4.如权利要求1所述的基于最大熵模型和TF-IDF特征的情感分析方法，其特征在于，

最大熵模型中的熵为信息熵，假设离散随机变量x，有w₁，...，w_n共n种取值，每个取值w_i出现的概率用p(w_i)来表示，则信息熵为：

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

所述最大熵模型从符合约束条件的分布中选择条件熵最大的最优后验概率分布p(y|x)，如下所示；

<mrow> <msup> <mi>p</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>C</mi> </mrow> </munder> <mi>H</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中C表示约束条件集合；

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

约束条件由特征函数来表达；特征函数是最大熵模型中的重要部分用于对概率分布模型加以限制，使最大熵模型能够利用上下文的信息；特征函数采用一个实值函数，用来表达x与y之间存在某种关系，对概率分布进行约束，如下：

通过求解在限制条件下具有最大熵值的分布获得最优模型；对于给定的训练样本{(x，y)}和选定的k个特征函数f_i，约束条件C为：每个特征f在经验分布下的期望值应与其在实际分布p(y|x)下的期望值p(f)相符，形式化描述为以下公式：

<mrow> <mi>C</mi> <mo>=</mo> <mo>{</mo> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> <mo>|</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mover> <mi>p</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>k</mi> <mo>}</mo> <mo>;</mo> </mrow>

最大熵模型简单描述成如下形式：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <mi>C</mi> <mo>=</mo> <mo>{</mo> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> <mo>|</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mover> <mi>p</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>k</mi> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> <mo>;</mo> </mrow>

通过拉格朗日乘数法求出熵最大的分布p^*(y|x)为最优概率分布；最大熵模型的形式化描述表示为下式；

<mrow> <msub> <mi>p</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>Z</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mi>Z</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>y</mi> </munder> <mi>exp</mi> <mrow> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

5.一种如权利要求1所述基于最大熵模型和TF-IDF特征的情感分析方法的基于最大熵模型和TF-IDF特征的情感分析系统。