CN104090864A - 一种情感词典建立与情感计算方法 - Google Patents

一种情感词典建立与情感计算方法 Download PDF

Info

Publication number
CN104090864A
CN104090864A CN201410254058.9A CN201410254058A CN104090864A CN 104090864 A CN104090864 A CN 104090864A CN 201410254058 A CN201410254058 A CN 201410254058A CN 104090864 A CN104090864 A CN 104090864A
Authority
CN
China
Prior art keywords
emotion
word
designated
classification
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410254058.9A
Other languages
English (en)
Other versions
CN104090864B (zh
Inventor
全昌勤
任福继
刘宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201410254058.9A priority Critical patent/CN104090864B/zh
Publication of CN104090864A publication Critical patent/CN104090864A/zh
Application granted granted Critical
Publication of CN104090864B publication Critical patent/CN104090864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种情感词典建立与情感计算方法,采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词,结合同义词词林及互联网中文文本语料(未标记)进行情感同义词扩充,并在情感计算方法上使用核函数方法,解决了情感计算过程中的训练时间久、准确率低的问题。

Description

一种情感词典建立与情感计算方法
技术领域
本发明涉及情感计算及文本情感分析方法领域,具体是一种情感词典建立与情感计算方法。
背景技术
在文本情感计算领域,常常使用情感词作为文本特征词,情感词数量及质量的好坏严重影响文本情感特征的表示质量好坏。一般的文本情感特征词多采用文本段的形容词、副词及少量名词作为特征词;常规情感计算方法多采用SVM(Support Vector Machine)、朴素贝叶斯方法。
传统的情感词典受限情感词的数量、无情感类别标记及无情感强度值标注,在数量及质量上均大大影响了文本情感特征的表示;分类算法也面临着训练时间久、准确率低的困扰。
发明内容
本发明的目的是提供一种情感词典建立与情感计算方法,以解决现有技术存在的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种情感词典建立与情感计算方法,其特征在于:包括以下步骤:
(1)、获取情感词信息:
解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感词信息;
所述中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成,所有文本均进行了词性标注,并以XML格式保存;
所述情感词信息包括:情感词汇本体,记为n>0;情感词所属情感类别,记为情感词所属情感类别共有八种类别,1≤j≤8;对应情感类别下的情感强度值,记为Eintensity,0.0≤Eintensity≤1.0;
所述情感类别共八种,包括:高兴joy,记为憎恨hate,记为喜爱love,记为悲伤sorrow,记为焦虑anxiety,记为生气anger,记为惊讶surprise,记为期望expect,记为
解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示:
E word n , E class j | E intensity - - - ( 1 )
将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式逐条保存在本地的TXT文本里,此文本即为初始情感词典,记为Linitial
(2)、情感词去重及情感类别、情感强度值归一化:
由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的情感类别或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化规则如下:
(a)、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该情感词的情感类别;
(b)、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进行情感强度值归一化;
E intensity ‾ = Σ i = 1 m N i ( E intensity ) i N - - - ( 2 )
其中,表示情感词的最终情感强度值;N表示情感词在情感类别下出现的总次数;(Eintensity)i表示人工标注的情感强度值;Ni表示在该情感强度值下词出现的总次数;
(3)、根据同义词词林扩充初始情感词典Linitial;所述同义词词林为哈工大信息检索研究中心推出的开放语料,同义词词林词典的“类别-词”编码格式为:类别编码=词1、词2、词x……;过程如下:
(3.1)、依次遍历同义词词林中各行情感词汇本体词x,存储为HashMap_1<类别,词x>;遍历初始情感词典Linitial,存储为HashMap_2<类别,>;
(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的情感词汇本体词x,若=词x,则与词x同一类别编码的词的情感信息均为情感词汇本体所对应的情感词信息,此时,将HashMap_2中当前匹配的词与添加上情感信息的词x及其同一类别词逐行存储到本地文本中,记为Ladvance;随后使用HashMap_2中下一个词进行上述过程,直到HashMap_2中的最后一个词;
(3.3)、对步骤(3.1)中的情感词词典Ladvance去重,对于同一情感词不同情感类别的情况,取所有情感类别的交集,此过程后的情感词典记为Ladvance′;
(4)、使用互联网中文文本语料扩充情感词典Ladvance′,过程如下:
(4.1)、采用共现频率方法扩充情感词,共现频率方法计算工具使用word2vec;
(4.2)、依次取情感词典Ladvance′中的情感词计算共现词,计算的候选词中取前3个为扩充情感词;
(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频率计算的词保持一致时,依次进行下一个情感词共现候选词计算,直至最后一个情感词为止;
(4.4)、采用步骤(3)中(3.3)中的方法,对扩展情感词的候选词进行去重、归一化处理,得到的情感词典即为最终的可用情感词典,记为Lultimate
(5)、建立文本及词典情感矩阵,过程如下:
(5.1)、解析中文情感语料库Ren-CECps,按照文档情感类别建立Term-Document矩阵,简称T-D矩阵;所述T-D矩阵其列表示情感词典Lultimate中各情感词,其行表示当前情感类别下的某个文档,T-D矩阵中的元素表示情感词典中的情感词在对应的文档中的tf·idf值;情感类高兴joy的T-D矩阵记为Djoy,情感类憎恨hate的T-D矩阵记为Dhate,情感类喜爱love的T-D矩阵记为Dlove,情感类悲伤sorrow的T-D矩阵记为Dsorrow,情感类焦虑anxiety的T-D矩阵记为Danxiety,情感类生气anger的T-D矩阵记为Danger,情感类惊讶surprise的T-D矩阵记为Dsurprise,情感类期望expect的T-D矩阵记为Dexpect;以上八个情感类T-D矩阵统一记为D;
(5.2)、解析步骤(4)中建立的情感词典Lultimate,建立词典情感矩阵;其中词典情感矩阵的行为八维,依次表示八种情感——高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望;矩阵的列表示情感词典Lultimate中的各情感词;矩阵中的元素表示情感词对应的情感类别下的情感强度值,其中0表示无该对应类别情感;建立好的词典情感矩阵记为P;
(6)、情感类别计算,过程如下:
(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵,记为d,其为一维列向量;
(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档集的相似性:
K < D , d > = ( D &prime; P ) &prime; ( d &prime; P ) = &Sigma; j = 1 m ( d j P ) &prime; ( dP ) - - - ( 3 )
sim(D,d)=(K<D,d>+c)n       (4)
其中,K<D,d>表示核函数,m表示情感矩阵D中文档的个数,dj表示第j个文档;sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望八种情感文档集的相似性,c取2,n为0.25;
(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列,以数组的形式保存,如公式(5):
{sim1,sim2,L,sim8}            (5)
式(5)中sim1至sim8所对应的情感类别记为e1,e2,……,e8
未知文本的情感类别由公式(6)得出:
Emotion ( sentence ) = e 1 , ifsim 1 - sim 2 > &alpha; ifsim 1 - sim 2 &le; &alpha; { e 1 , e 2 } , andsim 2 - sim 3 > &beta; ifsim 1 - sim 2 &le; &alpha; { e 1 , e 2 , e 3 } , andsim 2 - sim 3 &le; &beta; andsim 3 - sim 4 > &gamma; ifsim 1 - sim 2 &le; &alpha; { null } , andsim 2 - sim 3 &le; &beta; andsim 3 - sim 4 &le; &gamma; - - - ( 6 )
其中,Emotion(sentence)表示未知文本的情感类别,其表示单情感、多情感或无情感;α取0.05,β取0.03,γ取0.01。
本发明采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词,这些情感词由于是人工判读并标记的带有情感的词,其本身就拥有很大的数量,加之严格和科学的标注程序,保证了情感词的质量。同时,本发明结合同义词词林及互联网中文文本语料(未标记)进行情感同义词扩充,使得情感词的数量进一步增加,很好的解决了常规情感词典面临的情感词数量与质量的瓶颈。情感计算方法上,本发明使用核函数方法,解决了情感计算过程中的训练时间久、准确率低的问题。
具体实施方式
一种情感词典建立与情感计算方法,包括以下步骤:
(1)、获取情感词信息:
解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感词信息;
中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成,所有文本均进行了词性标注,并以XML格式保存;
情感词信息包括:情感词汇本体,记为n>0;情感词所属情感类别,记为情感词所属情感类别共有八种类别,1≤j≤8;对应情感类别下的情感强度值,记为Eintensity,0.0≤Eintensity≤1.0;
情感类别共八种,包括:高兴joy,记为憎恨hate,记为喜爱love,记为悲伤sorrow,记为焦虑anxiety,记为生气anger,记为惊讶surprise,记为期望expect,记为
解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示:
E word n , E class j | E intensity - - - ( 1 )
将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式逐条保存在本地的TXT文本里,此文本即为初始情感词典,记为Linitial
(2)、情感词去重及情感类别、情感强度值归一化:
由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的情感类别或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化规则如下:
(a)、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该情感词的情感类别;
(b)、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进行情感强度值归一化;
E intensity &OverBar; = &Sigma; i = 1 m N i ( E intensity ) i N - - - ( 2 )
其中,表示情感词的最终情感强度值;N表示情感词在情感类别下出现的总次数;(Eintensity)i表示人工标注的情感强度值;Ni表示在该情感强度值下词出现的总次数;
(3)、根据同义词词林扩充初始情感词典Linitial;同义词词林为哈工大信息检索研究中心推出的开放语料,同义词词林词典的“类别-词”编码格式为:类别编码=词1、词2、词x……;过程如下:
(3.1)、依次遍历同义词词林中各行情感词汇本体词x,存储为HashMap_1<类别,词x>;遍历初始情感词典Linitial,存储为HashMap_2<类别,>;
(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的情感词汇本体词x,若=词x,则与词x同一类别编码的词的情感信息均为情感词汇本体所对应的情感词信息,此时,将HashMap_2中当前匹配的词与添加上情感信息的词x及其同一类别词逐行存储到本地文本中,记为Ladvance;随后使用HashMap_2中下一个词进行上述过程,直到HashMap_2中的最后一个词;
(3.3)、对步骤(3.1)中的情感词词典Ladvance去重,对于同一情感词不同情感类别的情况,取所有情感类别的交集,此过程后的情感词典记为Ladvance′;
(4)、使用互联网中文文本语料扩充情感词典Ladvance′,过程如下:
(4.1)、采用共现频率方法扩充情感词,共现频率方法计算工具使用word2vec;
(4.2)、依次取情感词典Ladvance′中的情感词计算共现词,计算的候选词中取前3个为扩充情感词;
(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频率计算的词保持一致时,依次进行下一个情感词共现候选词计算,直至最后一个情感词为止;
(4.4)、采用步骤(3)中(3.3)中的方法,对扩展情感词的候选词进行去重、归一化处理,得到的情感词典即为最终的可用情感词典,记为Lultimate
(5)、建立文本及词典情感矩阵,过程如下:
(5.1)、解析中文情感语料库Ren-CECps,按照文档情感类别建立Term-Document矩阵,简称T-D矩阵;所述T-D矩阵其列表示情感词典Lultimate中各情感词,其行表示当前情感类别下的某个文档,T-D矩阵中的元素表示情感词典中的情感词在对应的文档中的tf·idf值;情感类高兴joy的T-D矩阵记为Djoy,情感类憎恨hate的T-D矩阵记为Dhate,情感类喜爱love的T-D矩阵记为Dlove,情感类悲伤sorrow的T-D矩阵记为Dsorrow,情感类焦虑anxiety的T-D矩阵记为Danxiety,情感类生气anger的T-D矩阵记为Danger,情感类惊讶surprise的T-D矩阵记为Dsurprise,情感类期望expect的T-D矩阵记为Dexpect;以上八个情感类T-D矩阵统一记为D;
(5.2)、解析步骤(4)中建立的情感词典Lultimate,建立词典情感矩阵;其中词典情感矩阵的行为八维,依次表示八种情感——高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望;矩阵的列表示情感词典Lultimate中的各情感词;矩阵中的元素表示情感词对应的情感类别下的情感强度值,其中0表示无该对应类别情感;建立好的词典情感矩阵记为P;
(6)、情感类别计算,过程如下:
(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵,记为d,其为一维列向量;
(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档集的相似性:
K < D , d > = ( D &prime; P ) &prime; ( d &prime; P ) = &Sigma; j = 1 m ( d j P ) &prime; ( dP ) - - - ( 3 )
sim(D,d)=(K<D,d>+c)n        (4)
其中,K<D,d>表示核函数,m表示情感矩阵D中文档的个数,dj表示第j个文档;sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望八种情感文档集的相似性,c取2,n为0.25;
(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列,以数组的形式保存,如公式(5):
{sim1,sim2,L,sim8}               (5)
式(5)中sim1至sim8所对应的情感类别记为e1,e2,……,e8
未知文本的情感类别由公式(6)得出:
Emotion ( sentence ) = e 1 , ifsim 1 - sim 2 > &alpha; ifsim 1 - sim 2 &le; &alpha; { e 1 , e 2 } , andsim 2 - sim 3 > &beta; ifsim 1 - sim 2 &le; &alpha; { e 1 , e 2 , e 3 } , andsim 2 - sim 3 &le; &beta; andsim 3 - sim 4 > &gamma; ifsim 1 - sim 2 &le; &alpha; { null } , andsim 2 - sim 3 &le; &beta; andsim 3 - sim 4 &le; &gamma; - - - ( 6 )
其中,Emotion(sentence)表示未知文本的情感类别,其表示单情感、多情感或无情感;α取0.05,β取0.03,γ取0.01。

Claims (1)

1.一种情感词典建立与情感计算方法,其特征在于:包括以下步骤:
(1)、获取情感词信息:
解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感词信息;
所述中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成,所有文本均进行了词性标注,并以XML格式保存;
所述情感词信息包括:情感词汇本体,记为n>0;情感词所属情感类别,记为情感词所属情感类别共有八种类别,1≤j≤8;对应情感类别下的情感强度值,记为Eintensity,0.0≤Eintensity≤1.0;
所述情感类别共八种,包括:高兴joy,记为憎恨hate,记为喜爱love,记为悲伤sorrow,记为焦虑anxiety,记为生气anger,记为惊讶surprise,记为期望expect,记为
解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示:
E word n , E class j | E intensity - - - ( 1 )
将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式逐条保存在本地的TXT文本里,此文本即为初始情感词典,记为Linitial
(2)、情感词去重及情感类别、情感强度值归一化:
由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的情感类别或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化规则如下:
(a)、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该情感词的情感类别;
(b)、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进行情感强度值归一化;
E intensity &OverBar; = &Sigma; i = 1 m N i ( E intensity ) i N - - - ( 2 )
其中,表示情感词的最终情感强度值;N表示情感词在情感类别下出现的总次数;(Eintensity)i表示人工标注的情感强度值;Ni表示在该情感强度值下词出现的总次数;
(3)、根据同义词词林扩充初始情感词典Linitial;所述同义词词林为哈工大信息检索研究中心推出的开放语料,同义词词林词典的“类别-词”编码格式为:类别编码=词1、词2、词x……;过程如下:
(3.1)、依次遍历同义词词林中各行情感词汇本体词x,存储为HashMap_1<类别,词x>;遍历初始情感词典Linitial,存储为HashMap_2<类别,>;
(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的情感词汇本体词x,若=词x,则与词x同一类别编码的词的情感信息均为情感词汇本体所对应的情感词信息,此时,将HashMap_2中当前匹配的词与添加上情感信息的词x及其同一类别词逐行存储到本地文本中,记为Ladvance;随后使用HashMap_2中下一个词进行上述过程,直到HashMap_2中的最后一个词;
(3.3)、对步骤(3.1)中的情感词词典Ladvance去重,对于同一情感词不同情感类别的情况,取所有情感类别的交集,此过程后的情感词典记为Ladvance′;
(4)、使用互联网中文文本语料扩充情感词典Ladvance′,过程如下:
(4.1)、采用共现频率方法扩充情感词,共现频率方法计算工具使用word2vec;
(4.2)、依次取情感词典Ladvance′中的情感词计算共现词,计算的候选词中取前3个为扩充情感词;
(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频率计算的词保持一致时,依次进行下一个情感词共现候选词计算,直至最后一个情感词为止;
(4.4)、采用步骤(3)中(3.3)中的方法,对扩展情感词的候选词进行去重、归一化处理,得到的情感词典即为最终的可用情感词典,记为Lultimate
(5)、建立文本及词典情感矩阵,过程如下:
(5.1)、解析中文情感语料库Ren-CECps,按照文档情感类别建立Term-Document矩阵,简称T-D矩阵;所述T-D矩阵其列表示情感词典Lultimate中各情感词,其行表示当前情感类别下的某个文档,T-D矩阵中的元素表示情感词典中的情感词在对应的文档中的tf·idf值;情感类高兴joy的T-D矩阵记为Djoy,情感类憎恨hate的T-D矩阵记为Dhate,情感类喜爱love的T-D矩阵记为Dlove,情感类悲伤sorrow的T-D矩阵记为Dsorrow,情感类焦虑anxiety的T-D矩阵记为Danxiety,情感类生气anger的T-D矩阵记为Danger,情感类惊讶surprise的T-D矩阵记为Dsurprise,情感类期望expect的T-D矩阵记为Dexpect;以上八个情感类T-D矩阵统一记为D;
(5.2)、解析步骤(4)中建立的情感词典Lultimate,建立词典情感矩阵;其中词典情感矩阵的行为八维,依次表示八种情感——高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望;矩阵的列表示情感词典Lultimate中的各情感词;矩阵中的元素表示情感词对应的情感类别下的情感强度值,其中0表示无该对应类别情感;建立好的词典情感矩阵记为P;
(6)、情感类别计算,过程如下:
(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵,记为d,其为一维列向量;
(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档集的相似性:
K < D , d > = ( D &prime; P ) &prime; ( d &prime; P ) = &Sigma; j = 1 m ( d j P ) &prime; ( dP ) - - - ( 3 )
sim(D,d)=(K<D,d>+c)n       (4)
其中,K<D,d>表示核函数,m表示情感矩阵D中文档的个数,dj表示第j个文档;sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望八种情感文档集的相似性,c取2,n为0.25;
(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列,以数组的形式保存,如公式(5):
{sim1,sim2,L,sim8}                (5)
式(5)中sim1至sim8所对应的情感类别记为e1,e2,……,e8
未知文本的情感类别由公式(6)得出:
Emotion ( sentence ) = e 1 , ifsim 1 - sim 2 > &alpha; ifsim 1 - sim 2 &le; &alpha; { e 1 , e 2 } , andsim 2 - sim 3 > &beta; ifsim 1 - sim 2 &le; &alpha; { e 1 , e 2 , e 3 } , andsim 2 - sim 3 &le; &beta; andsim 3 - sim 4 > &gamma; ifsim 1 - sim 2 &le; &alpha; { null } , andsim 2 - sim 3 &le; &beta; andsim 3 - sim 4 &le; &gamma; - - - ( 6 )
其中,Emotion(sentence)表示未知文本的情感类别,其表示单情感、多情感或无情感;α取0.05,β取0.03,γ取0.01。
CN201410254058.9A 2014-06-09 2014-06-09 一种情感词典建立与情感计算方法 Active CN104090864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410254058.9A CN104090864B (zh) 2014-06-09 2014-06-09 一种情感词典建立与情感计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410254058.9A CN104090864B (zh) 2014-06-09 2014-06-09 一种情感词典建立与情感计算方法

Publications (2)

Publication Number Publication Date
CN104090864A true CN104090864A (zh) 2014-10-08
CN104090864B CN104090864B (zh) 2018-02-06

Family

ID=51638580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410254058.9A Active CN104090864B (zh) 2014-06-09 2014-06-09 一种情感词典建立与情感计算方法

Country Status (1)

Country Link
CN (1) CN104090864B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN105956095A (zh) * 2016-04-29 2016-09-21 天津大学 一种基于细粒度情感词典的心理预警模型构建方法
CN107122465A (zh) * 2017-04-28 2017-09-01 中央民族大学 一种基于藏语语言特征的藏语情感词典的构建方法及系统
CN107807920A (zh) * 2017-11-17 2018-03-16 新华网股份有限公司 基于大数据的情绪词典的构建方法、装置及服务器
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN111027328A (zh) * 2019-11-08 2020-04-17 广州坚和网络科技有限公司 通过语料训练判断评论情绪正负及感情色彩的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN102890707A (zh) * 2012-08-28 2013-01-23 华南理工大学 一种基于条件随机场的网络短评论情感倾向性挖掘系统
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN102890707A (zh) * 2012-08-28 2013-01-23 华南理工大学 一种基于条件随机场的网络短评论情感倾向性挖掘系统
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JI LI, FUJI REN: "Creating a Chinese emotion lexicon based on corpus Ren-CECps", 《CLOUD COMPUTING AND INTELLIGENCE SYSTEMS (CCIS), 2011 IEEE INTERNATIONAL CONFERENCE ON》 *
陈晓东: "基于情感词典的中文微博情感倾向分析研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN104899298B (zh) * 2015-06-09 2018-01-16 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN105956095A (zh) * 2016-04-29 2016-09-21 天津大学 一种基于细粒度情感词典的心理预警模型构建方法
CN105956095B (zh) * 2016-04-29 2019-11-05 天津大学 一种基于细粒度情感词典的心理预警模型构建方法
CN107122465A (zh) * 2017-04-28 2017-09-01 中央民族大学 一种基于藏语语言特征的藏语情感词典的构建方法及系统
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN107807920A (zh) * 2017-11-17 2018-03-16 新华网股份有限公司 基于大数据的情绪词典的构建方法、装置及服务器
CN111027328A (zh) * 2019-11-08 2020-04-17 广州坚和网络科技有限公司 通过语料训练判断评论情绪正负及感情色彩的方法

Also Published As

Publication number Publication date
CN104090864B (zh) 2018-02-06

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN104090864A (zh) 一种情感词典建立与情感计算方法
CN108009148B (zh) 基于深度学习的文本情感分类表示方法
Gómez-Adorno et al. Stylometry-based approach for detecting writing style changes in literary texts
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
Poostchi et al. BiLSTM-CRF for Persian named-entity recognition ArmanPersoNERCorpus: the first entity-annotated Persian dataset
CN101782898A (zh) 一种情感词倾向性的分析方法
Bartle et al. Gender classification with deep learning
Brown Finding and identifying text in 900+ languages
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
Zhang et al. A comparative study on speech summarization of broadcast news and lecture speech
Pham et al. Nnvlp: A neural network-based vietnamese language processing toolkit
Sarkar et al. A practical part-of-speech tagger for Bengali
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
Rama Automatic cognate identification with gap-weighted string subsequences.
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN107220293A (zh) 基于情绪的文本分类方法
CN108664464B (zh) 一种语义相关度的确定方法及确定装置
Utomo et al. Text classification of british english and American english using support vector machine
CN110569503B (zh) 一种基于词统计与WordNet的义项表示与消歧方法
Khan et al. Harnessing english sentiment lexicons for polarity detection in urdu tweets: A baseline approach
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Forsyth Automatic readability prediction for modern standard Arabic
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant