CN107943790A - 一种基于最大熵模型和tf‑idf特征的情感分析方法 - Google Patents
一种基于最大熵模型和tf‑idf特征的情感分析方法 Download PDFInfo
- Publication number
- CN107943790A CN107943790A CN201711186511.7A CN201711186511A CN107943790A CN 107943790 A CN107943790 A CN 107943790A CN 201711186511 A CN201711186511 A CN 201711186511A CN 107943790 A CN107943790 A CN 107943790A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- model
- idf
- maximum entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于语言分析技术领域,公开了一种基于最大熵模型和TF‑IDF特征的情感分析方法,以最大熵模型作为基本分类模型;利用训练文档集训练最大熵模型,当模型收敛或者迭代次数达到设定阈值时训练结束,得到的最大熵模型用于情感分类的预测。本发明能够深入挖掘大规模语料库中的分类信息,结合最大熵分类模型,实现篇章文本的细粒度情感分析;经测试,本发明中的方法在5分类的细粒度情感分析问题上的F值达62.9%,比传统的特征工程加机器学习方法的F值提升了10%以上。
Description
技术领域
本发明属于语言分析技术领域,尤其涉及一种基于最大熵模型和TF-IDF特征的情感分析方法。
背景技术
情感分析,又称情感倾向性分析,是指通过计算机算法自动识别出自然语言篇章所表达的情感倾向性,是人工智能、机器学习领域研究和应用的重要热点。移动互联网、电子商务、社交网络、人工智能等技术迅速发展,极大地拓展了信息的边界,丰富了数据的广度和深度,大数据正成为企业发展和社会发展的基础性和战略性资源。从全球互联网海量数据中挖掘出社会公众对事件或主体的情感倾向性,客观地反映相关的意见及情感倾向,是情感分析技术的重要应用落脚点。
通常把情感分析形式化为分类问题来解决,目前,篇章级情感分析的主要方法是基于统计机器学习的分类模型和人工构造的特征集合。首先,构造机器学习的特征集合,用统计方法挑选出区分度较强的特征,将篇章本文转换为向量形式。然后,利用预先构建好的情感分析语料库,训练统计机器学习模型。最后,用训练好的分类模型对新样本的情感倾向性进行预测。
综上所述,现有技术存在的问题是:
不能够充分地利用大规模训练语料中的深层分类信息,提高情感分析的准确率;
不能灵活地设置约束条件对未知数据的适应度和对已知数据的拟合度进行调节。
发明内容
针对现有技术存在的问题,本发明提供了一种基于最大熵模型和TF-IDF特征的情感分析方法。本发明将文本分类到强烈正面、一般正面、中性、一般负面或者强烈负面5类中的1类。
本发明是这样实现的,一种基于最大熵模型和TF-IDF特征的情感分析方法,所述基于最大熵模型和TF-IDF特征的情感分析方法以最大熵模型作为基本分类模型;利用训练文档集训练最大熵模型,当模型收敛或者迭代次数达到设定阈值时训练结束,得到的最大熵模型用于情感分类的预测。
利用基于TF-IDF特征的文档表示模型,对词频-逆文档频率特征来表征文本;并用于信息检索,表示文本中词汇的权重。
所述TF-IDF特征的文档表示模型对区别情感类别最有意义的词语应该是哪些在文档中出现频率高,而在整个文档集合的其他类别文档中出现频率少的词语进行分析;对于一个单词本身在文档中出现的频率越高,同时出现在其他情感类别频率越少,所述TF-IDF特征的文档表示模型这区别情感类别的能力就越强;其中TF表示词频,表征某个词语在文档内部的重要程度;IDF表示信息检索的逆文档频率;
所述TF-IDF特征的文档表示模型为逆类别频率,所述逆类别频率为类别频率的倒数,用于表征该词区分情感类别的能力。
进一步,所述表征该词区分情感类别的能力以TF和IDF的乘积TF-IDF作为表征词语分类能力的重要特征:
TF-IDFw,j=TFw×IDFw,j
其中,w表文本中的一个词;j表示情感类别,取正面、中性、负面3个情感类别中的1个,值分别用1、2、3来表示;nw,d表示文档d中词语w的出现频次;nd表示文档d中的总词数;
所述表征该词区分情感类别的能力具体包括:
首先,对篇章文本进行分词处理;然后,采用向量空间模型将1个篇章文本表示成多维文档向量的形式,篇章中的每个词对应文档向量中的5个维度,这5个维度的取值分别维该词对应5个情感类别的TF-IDF值;
把一篇文章抽象成一个文档向量D,文章中的1个词wi词对应D中的文档向量5个维度,5个维度权重是。那么文章D中词语wi对应的维度可以表示成:
D:{...,TF-IDFwi,1,TF-IDFwi,2,TF-IDFwi,3,TF-IDFwi,4,TF-IDFwi,5,...};
将语料库中全部带有情感标记的篇章文本转换为文档向量,并将其划分成训练集和测试集两个部分;然后利用最大熵模型对文档情感分类进行机器学习。
进一步,最大熵模型中的熵是指信息熵,假设离散随机变量x,有w1,...,wn共n种可能的取值,第i个取值wi出现的概率用p(wi)来表示,则信息熵H(p)为:
在对随机事件的概率分布进行预测时,预测分布应当满足全部已知的条件,而对未知的情况不要做任何主观假设;不确定情况下时,保留所有可能性;
所述最大熵模型从符合约束条件的分布p(y|x)中选择条件熵最大的最优后验概率分布p*(y|x),如下所示;
其中C表示约束条件集合;
假设训练样本集合表示为{(x1,y1),(x2,y2),...,(xN,yN)},其中x表示训练样本转换成的特征向量,y表示x的情感类别,则给定x时y的条件熵为:
约束条件由特征函数来表达;特征函数是最大熵模型中的重要部分用于对概率分布模型加以限制,使最大熵模型能够利用上下文的信息;特征函数采用一个实值函数,用来表达x与y之间存在某种关系,以此对概率分布进行约束,如下:
通过求解在限制条件下具有最大熵值的分布获得最优模型;对于给定的训练样本{(x,y)}和选定的k个特征函数fi,约束条件C为:每个特征f在经验分布下的期望值应与其在实际分布p(y|x)下的期望值p(f)相符,形式化描述见下公式:
最大熵模型简单描述成如下形式:
通过拉格朗日乘数法求出熵最大的分布p*(y|x)即为最优概率分布;最大熵模型的形式化描述表示为下式;
其中,fi(x,y)为特征函数;wi为特征fi的权重;Zw(x)为归一化因子。
所述利用训练文档集训练最大熵模型,当模型收敛或者迭代次数达到设定阈值时训练结束,得到的最大熵模型用于情感分类的预测中,
模型训练采用拟牛顿法,训练过程中,模型精度不再明显变化时认为模型收敛,获得最大熵模型的全部参数wi,训练结束。基于最大熵模型的预测过程如下:将新文档样本x带入上式,即可求得x属于各情感类别y的概率,选择概率最大的情感类别即为模型预测的情感类别。
本发明的另一目的在于提供一种基于最大熵模型和TF-IDF特征的情感分析系统。系统采用了一种新颖TF-IDF特征集合,结合最大熵分类模型,能够更充分地利用大规模训练语料中的深层分类信息,显著提升篇章级情感分析的准确率。
本发明的优点及积极效果为:
本发明提出一种基于最大熵模型和TF-IDF特征的情感分析方法。与一般机器学习模型和基于词袋的文档表示模型相比,该方法能够更充分地利用大规模训练语料中的深层分类信息。经验证,该方法能够显著提高情感分析的准确率。
最大熵模型的优点是所有满足约束条件的模型中信息熵极大的模型,面向情感分析这种经典的多值分类问题时准确率较高。此外,模型可以灵活地设置约束条件,通过约束条件调节模型对未知数据的适应度和对已知数据的拟合度。
本发明基于TF-IDF(Term Frequency-Inverse Document Frequency)的文档表示模型,即用(词频-逆文档频率)特征来表征文本。TF-IDF主要用于信息检索领域,用来表示文本中词汇的权重。TF-IDF方法的基本思想是对区别情感类别最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他类别文档中出现频率少的词语。即认为一个单词本身在文档中出现的频率越高,同时出现在其他情感类别频率越少,它区别情感类别的能力就越强。
与传统特征相比,TF-IDF能够更加充分地利用大规模语料中的类别信息,使分类模型的判别更加容易。其中TF表示词频,表征某个词语在文档内部的重要程度;IDF表示逆文档频率(信息检索领域),在本发明中为逆类别频率,即类别频率的倒数,用于表征该词区分情感类别的能力。
本发明能够深入挖掘大规模语料库中的分类信息,结合最大熵分类模型,实现篇章文本的细粒度情感分析。经测试,本发明中的方法在5分类的细粒度情感分析问题上的F值达62.9%,比传统的特征工程加机器学习方法的F值提升了10%以上。
附图说明
图1是本发明实施例提供的基于最大熵模型和TF-IDF特征的情感分析方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
如图1所示,本发明实施例提供的基于最大熵模型和TF-IDF特征的情感分析方法,包括:
S101:以最大熵模型作为基本分类模型。
S102:利用训练文档集训练最大熵模型,当模型收敛或者迭代次数达到设定阈值时训练结束,得到的最大熵模型即可用于情感分类的预测。
S103:利用基于TF-IDF特征的文档表示模型,对词频-逆文档频率特征来表征文本;并用于信息检索,表示文本中词汇的权重。
下面结合具体实施例对本发明作进一步描述。
本发明实施例提供的基于最大熵模型和TF-IDF特征的情感分析方法中,
基于TF-IDF(Term Frequency-Inverse Document Frequency)的文档表示模型,即用(词频-逆文档频率)特征来表征文本。TF-IDF主要用于信息检索领域,用来表示文本中词汇的权重。TF-IDF方法的基本思想是对区别情感类别最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他类别文档中出现频率少的词语。即认为一个单词本身在文档中出现的频率越高,同时出现在其他情感类别频率越少,它区别情感类别的能力就越强。
与传统特征相比,TF-IDF能够更加充分地利用大规模语料中的类别信息,使分类模型的判别更加容易。其中TF表示词频,表征某个词语在文档内部的重要程度;IDF表示逆文档频率(信息检索领域),在本发明中为逆类别频率,即类别频率的倒数,用于表征该词区分情感类别的能力。本发明以TF和IDF的乘积TF-IDF作为表征词语分类能力的重要特征:
TF-IDFw,j=TFw×IDFw,j (10)
其中,w表文本中的一个词;j表示情感类别,取正面、中性、负面3个情感类别中的1个,值分别用1、2、3来表示;nw,d表示文档d中词语w的出现频次;nd表示文档d中的总词数。
首先,对篇章文本进行分词处理;然后,采用向量空间模型将1个篇章文本表示成多维文档向量的形式,篇章中的每个词对应文档向量中的5个维度,这5个维度的取值分别维该词对应5个情感类别的TF-IDF值。我们把一篇文章抽象成一个文档向量D,文章中的1个词wi词对应D中的文档向量5个维度,5个维度权重是。那么文章D中词语wi对应的维度可以表示成:
D:{...,TF-IDFwi,1,TF-IDFwi,2,TF-IDFwi,3,TF-IDFwi,4,TF-IDFwi,5,...} (10)
采用给上述方法,将语料库中全部带有情感标记的篇章文本转换为文档向量,并将其划分成训练集和测试集两个部分。然后利用最大熵模型对文档情感分类进行机器学习。
最大熵模型是经典的指数概率模型,广泛用于的多分类任务。熵是物理学中的重要概念,用于描述事件无序性,无序性越强则熵越大。最大熵模型中的熵指的是信息熵,假设离散随机变量x,有w1,...,wn共n种可能的取值,每个取值wi出现的概率用p(wi)来表示,则信息熵为:。
最大熵模型的原理是:在对随机事件的概率分布进行预测时,预测分布应当满足全部已知的条件,而对未知的情况不要做任何主观假设。即不确定情况下时,保留所有可能性。这种情况下概率分布的信息熵最大,概率分布最均匀,预测风险最小。最大熵模型是以最大熵理论为基础建立的一种选择模型方法,即从符合约束条件的分布中选择条件熵最大的最优后验概率分布p(y|x),如下所示。
其中C表示约束条件集合。
假设训练样本集合表示为{(x1,y1),(x2,y2),...,(xN,yN)},其中x表示训练样本转换成的特征向量,y表示x的情感类别,则给定x时y的条件熵为:
公式(3)中的约束条件通常由特征函数来表达。特征函数是最大熵模型中的重要部分,其作用主要是对概率分布模型加以限制,使模型能够利用上下文的信息。特征函数通常采用一个实值函数,用来表达x与y之间存在某种关系,以此对概率分布进行约束,如下:
通过求解在限制条件下具有最大熵值的分布即可获得最优模型。对于给定的训练样本{(x,y)}和选定的k个特征函数fi,约束条件C为:每个特征f在经验分布下的期望值应与其在实际分布p(y|x)下的期望值p(f)相符,形式化描述见公式(5)。
综上,最大熵模型可以简单描述成如下形式:
根据公式(6),通过拉格朗日乘数法求出熵最大的分布p*(y|x)即为最优概率分布。最大熵模型的形式化描述可表示为下式。
其中,λi为拉格朗日乘子;fi为特征函数;Zλ(x)为归一化因子。
本发明以上述最大熵模型作为基本分类模型。利用训练文档集训练最大熵模型,当模型收敛或者迭代次数达到设定阈值时训练结束,得到的最大熵模型即可用于情感分类的预测。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于最大熵模型和TF-IDF特征的情感分析方法,其特征在于,所述基于最大熵模型和TF-IDF特征的情感分析方法以最大熵模型作为基本分类模型;
利用训练文档集训练最大熵模型,当模型收敛或者迭代次数达到设定阈值时训练结束,得到的最大熵模型用于情感分类的预测;
利用基于TF-IDF特征的文档表示模型,对词频-逆文档频率特征表征文本;并用于信息检索,表示文本中词汇的权重。
2.如权利要求1所述的基于最大熵模型和TF-IDF特征的情感分析方法,其特征在于,所述TF-IDF特征的文档表示模型对区别情感类别的词语进行分析;所述TF-IDF特征的文档表示模型为逆类别频率,所述逆类别频率为类别频率的倒数,用于表征词区分情感类别的能力。
3.如权利要求2所述的基于最大熵模型和TF-IDF特征的情感分析方法,其特征在于,所述表征词区分情感类别的能力以TF和IDF的乘积TF-IDF作为表征词语分类能力的重要特征:
TF-IDFw,j=TFw×IDFw,j,
<mrow>
<msub>
<mi>TF</mi>
<mi>w</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>n</mi>
<mrow>
<mi>w</mi>
<mo>,</mo>
<mi>d</mi>
</mrow>
</msub>
<msub>
<mi>n</mi>
<mi>d</mi>
</msub>
</mfrac>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>IDF</mi>
<mrow>
<mi>w</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mfrac>
<mrow>
<mo>|</mo>
<mi>C</mi>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>w</mi>
</msub>
<mo>|</mo>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,w表文本中的一个词;j表示情感类别,取正面、中性、负面3个情感类别中的1个,值分别用1、2、3来表示;nw,d表示文档d中词语w的出现频次;nd表示文档d中的总词数;
所述表征词区分情感类别的能力具体包括:
首先,对篇章文本进行分词处理;然后,采用向量空间模型将1个篇章文本表示成多维文档向量的形式,篇章中的每个词对应文档向量中的5个维度,这5个维度的取值分别为该词对应5个情感类别的TF-IDF值;
对于一篇文章的一个文档向量D,文章中的1个词wi词对应D中的文档向量5个维度,文章D中词语wi对应的维度表示成:
D:{...,TF-IDFwi,1,TF-IDFwi,2,TF-IDFwi,3,TF-IDFwi,4,TF-IDFwi,5,...);
将语料库中全部带有情感标记的篇章文本转换为文档向量,并将文档向量划分成训练集和测试集两个部分;然后利用最大熵模型对文档情感分类进行机器学习。
4.如权利要求1所述的基于最大熵模型和TF-IDF特征的情感分析方法,其特征在于,
最大熵模型中的熵为信息熵,假设离散随机变量x,有w1,...,wn共n种取值,每个取值wi出现的概率用p(wi)来表示,则信息熵为:
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mi> </mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
所述最大熵模型从符合约束条件的分布中选择条件熵最大的最优后验概率分布p(y|x),如下所示;
<mrow>
<msup>
<mi>p</mi>
<mo>*</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>argmax</mi>
<mrow>
<mi>p</mi>
<mo>&Element;</mo>
<mi>C</mi>
</mrow>
</munder>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中C表示约束条件集合;
假设训练样本集合表示为{(x1,y1),(x2,y2),...,(xN,yN)},其中x表示训练样本转换成的特征向量,y表示x的情感类别,则给定x时y的条件熵为:
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
</mrow>
</munder>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mi> </mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
约束条件由特征函数来表达;特征函数是最大熵模型中的重要部分用于对概率分布模型加以限制,使最大熵模型能够利用上下文的信息;特征函数采用一个实值函数,用来表达x与y之间存在某种关系,对概率分布进行约束,如下:
通过求解在限制条件下具有最大熵值的分布获得最优模型;对于给定的训练样本{(x,y)}和选定的k个特征函数fi,约束条件C为:每个特征f在经验分布下的期望值应与其在实际分布p(y|x)下的期望值p(f)相符,形式化描述为以下公式:
<mrow>
<mi>C</mi>
<mo>=</mo>
<mo>{</mo>
<mi>p</mi>
<mo>&Element;</mo>
<mi>P</mi>
<mo>|</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mover>
<mi>p</mi>
<mo>~</mo>
</mover>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<mi>k</mi>
<mo>}</mo>
<mo>;</mo>
</mrow>
最大熵模型简单描述成如下形式:
<mrow>
<msup>
<mi>p</mi>
<mo>*</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>argmax</mi>
<mrow>
<mi>p</mi>
<mo>&Element;</mo>
<mi>C</mi>
</mrow>
</munder>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
<mo>.</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>C</mi>
<mo>=</mo>
<mo>{</mo>
<mi>p</mi>
<mo>&Element;</mo>
<mi>P</mi>
<mo>|</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mover>
<mi>p</mi>
<mo>~</mo>
</mover>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<mi>k</mi>
<mo>}</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>;</mo>
</mrow>
通过拉格朗日乘数法求出熵最大的分布p*(y|x)为最优概率分布;最大熵模型的形式化描述表示为下式;
<mrow>
<msub>
<mi>p</mi>
<mi>&lambda;</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<msub>
<mi>Z</mi>
<mi>w</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
<mrow>
<msub>
<mi>Z</mi>
<mi>w</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>y</mi>
</munder>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,fi(x,y)为特征函数;wi为特征fi的权重;Zw(x)为归一化因子。
5.一种如权利要求1所述基于最大熵模型和TF-IDF特征的情感分析方法的基于最大熵模型和TF-IDF特征的情感分析系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711186511.7A CN107943790A (zh) | 2017-11-23 | 2017-11-23 | 一种基于最大熵模型和tf‑idf特征的情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711186511.7A CN107943790A (zh) | 2017-11-23 | 2017-11-23 | 一种基于最大熵模型和tf‑idf特征的情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107943790A true CN107943790A (zh) | 2018-04-20 |
Family
ID=61931035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711186511.7A Pending CN107943790A (zh) | 2017-11-23 | 2017-11-23 | 一种基于最大熵模型和tf‑idf特征的情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107943790A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959479A (zh) * | 2018-06-21 | 2018-12-07 | 成都睿码科技有限责任公司 | 一种基于文本相似度的事件情感分类方法 |
CN111967980A (zh) * | 2020-09-02 | 2020-11-20 | 上海积成能源科技有限公司 | 一种基于企业财报和能耗数据采用最大熵模型进行银行授信分析的系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
JP2008234083A (ja) * | 2007-03-18 | 2008-10-02 | National Institute Of Information & Communication Technology | プログラム、情報検索方法、プログラム格納媒体、情報検索システム及び情報処理装置 |
US20090112892A1 (en) * | 2007-10-29 | 2009-04-30 | Claire Cardie | System and method for automatically summarizing fine-grained opinions in digital text |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN105045924A (zh) * | 2015-08-26 | 2015-11-11 | 苏州大学张家港工业技术研究院 | 一种问题分类方法及系统 |
CN106125925A (zh) * | 2016-06-20 | 2016-11-16 | 华南理工大学 | 基于手势和语音控制的智能抓捕方法 |
CN107229610A (zh) * | 2017-03-17 | 2017-10-03 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
-
2017
- 2017-11-23 CN CN201711186511.7A patent/CN107943790A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008234083A (ja) * | 2007-03-18 | 2008-10-02 | National Institute Of Information & Communication Technology | プログラム、情報検索方法、プログラム格納媒体、情報検索システム及び情報処理装置 |
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
US20090112892A1 (en) * | 2007-10-29 | 2009-04-30 | Claire Cardie | System and method for automatically summarizing fine-grained opinions in digital text |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN105045924A (zh) * | 2015-08-26 | 2015-11-11 | 苏州大学张家港工业技术研究院 | 一种问题分类方法及系统 |
CN106125925A (zh) * | 2016-06-20 | 2016-11-16 | 华南理工大学 | 基于手势和语音控制的智能抓捕方法 |
CN107229610A (zh) * | 2017-03-17 | 2017-10-03 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
Non-Patent Citations (4)
Title |
---|
YAN XIAODONG 等: "Tibetan sentence sentiment analysis based on the maximum entropy model", 《2015 10TH INTERNATIONAL CONFERENCE ON BROADBAND AND WIRELESS COMPUTING, COMMUNICATION AND APPLICATIONS (BWCCA)》 * |
孙瑞娜 等: "面向网络舆情的哈萨克语情感词汇自动获取", 《情报杂志》 * |
梁召: "基于PLSA的大数据文本情感分析及其应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄焕: "面向e-Learning的学习者情感建模及应用研究", 《中国博士学位论文全文数据库 社会科学Ⅱ辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959479A (zh) * | 2018-06-21 | 2018-12-07 | 成都睿码科技有限责任公司 | 一种基于文本相似度的事件情感分类方法 |
CN108959479B (zh) * | 2018-06-21 | 2022-03-25 | 成都睿码科技有限责任公司 | 一种基于文本相似度的事件情感分类方法 |
CN111967980A (zh) * | 2020-09-02 | 2020-11-20 | 上海积成能源科技有限公司 | 一种基于企业财报和能耗数据采用最大熵模型进行银行授信分析的系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Putri et al. | Latent Dirichlet allocation (LDA) for sentiment analysis toward tourism review in Indonesia | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
Prusa et al. | The effect of dataset size on training tweet sentiment classifiers | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN107193801A (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN103631859A (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN103198228B (zh) | 基于广义关系隐话题模型的关系网络链接预测方法 | |
CN106610955A (zh) | 基于词典的多维度情感分析方法 | |
Kusumaningrum et al. | Classification of Indonesian news articles based on Latent Dirichlet Allocation | |
CN108460010A (zh) | 一种基于情感分析的综合评分模型实现方法 | |
Rajamohana et al. | Adaptive binary flower pollination algorithm for feature selection in review spam detection | |
Sadr et al. | Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms | |
Singh et al. | Sentiment analysis of Twitter data using TF-IDF and machine learning techniques | |
CN105488098A (zh) | 一种基于领域差异性的新词提取方法 | |
Reddy et al. | Profile specific document weighted approach using a new term weighting measure for author profiling | |
CN107463715A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
Gupta et al. | Sentiment analysis using support vector machine | |
Ghalehtaki et al. | A combinational method of fuzzy, particle swarm optimization and cellular learning automata for text summarization | |
CN107943790A (zh) | 一种基于最大熵模型和tf‑idf特征的情感分析方法 | |
Gu et al. | Enhancing text classification by graph neural networks with multi-granular topic-aware graph | |
Altınel et al. | Instance labeling in semi-supervised learning with meaning values of words | |
Palkar et al. | Comparative evaluation of supervised learning algorithms for sentiment analysis of movie reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180420 |