CN106951472A - 一种网络文本的多重情感分类方法 - Google Patents
一种网络文本的多重情感分类方法 Download PDFInfo
- Publication number
- CN106951472A CN106951472A CN201710127661.4A CN201710127661A CN106951472A CN 106951472 A CN106951472 A CN 106951472A CN 201710127661 A CN201710127661 A CN 201710127661A CN 106951472 A CN106951472 A CN 106951472A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- affective style
- affective
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种网络文本的多重情感分类方法,训练得到不同情感类型的分类模型,清除待分类文本的用户名及命名实体,提取待分类文本的情感特征;将得到的情感特征分别输入所有的分类模型,将输出的结果按顺序归结为一个N维矢量Rt,将输出的结果的置信度按顺序归结为一个N维矢量PRt,N为分类模型的数量;根据公式Rst=0.5*sgn(PRt*Rt‑0.65*In)+0.5,其中,In为N维矢量{1,1,…,1};得到的N维矢量Rst中的每个维度的值即为对应的情感类型的有无。本发明有效实现了计算机自动对自然语言的语句进行细粒度的情感分类,并在不同领域下进行扩展应用。
Description
技术领域
本发明涉及自然语言处理的计算机技术应用领域,更具体地说,涉及一种网络文本的多重情感分类方法。
背景技术
人类的语言由个人主体意识产生及影响,是带有情感指向的意思表达。
在网络和信息时代,由人参与的活动/行为就在网络上形成了不同的记录信息,而这些信息又绝大多数是以自然语言的句子这种文本形式表达的,形成了文本信息的爆炸。从文本中自动分析出情感倾向可用于许多行业,可应用于实现情感机器人,提供抉择支持、网络舆情风险分析等。
情感分析自从2002年由Bo Pang提出之后,获得了很大程度的关注和研究,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,而文本中情感转移现象经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展不大。
情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,并没有公认的标准加以确认。目前研究和应用主要集中于情感词的正面负面分类,标注语料,情感词的提取等,绝大多数技术都基于二元情感做分析,即是正面和负面的分析,而人类的情感是多层次和多类别的,这样的细粒度情感的分析,当前技术少有涉及。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能够有效地对网络文本进行情感分析的网络文本的多重情感分类方法。
本发明的技术方案如下:
一种网络文本的多重情感分类方法,训练得到不同情感类型的分类模型,清除待分类文本的用户名及命名实体,提取待分类文本的情感特征;将得到的情感特征分别输入所有的分类模型,将输出的结果按顺序归结为一个N维矢量Rt,将输出的结果的置信度按顺序归结为一个N维矢量PRt,N为分类模型的数量;根据公式Rst=0.5*sgn(PRt*Rt-0.65*In)+0.5,其中,In为N维矢量{1,1,…,1};得到的N维矢量Rst中的每个维度的值即为对应的情感类型的有无。
作为优选,训练分类模型的步骤如下:
1.1)获取已标记情感类型的NS个句子的集合S={S(i)}为训练语料,其中,1≤i≤NS;
1.2)删除训练语料的所有句子中的用户名及命名实体,进行特征化表示,得到每个句子抽取后的特征F={f1,f2,f3,…,fn},并对每个特征f3,…,fn进行情感类型标注为对应的label标识,其中,f1为训练语料中的一个句子包含的中英文字符数目,f2为训练语料中的一个句子是否包含特殊符号的标志值,fn为训练语料中的一个句子是否包含否定词的标志值;
1.3)将特征F与每个特征对应的情感类型作为分类模型的学习样本,分别针对各个情感类型训练对应的分类模型。
作为优选,步骤1.3)具体为:以label标识对应的情感类型的学习样本作为训练该情感类型的正例样本,则正例样本的类别标识置1,其他样本作为训练的反例样本,反例样本的类别标识置0,选择支持向量机作为分类模型进行训练,并对学习样本进行类平衡处理,得到该情感类型的分类模型。
作为优选,步骤1.2)中删除用户名的方法为:通过正则表达式对“@[\s\S]*”样式的文本进行处理;删除命名实体的方法为:利用分词工具进行命名实体识别,然后进行删除。
作为优选,步骤1.2)中,提取特征F的方法如下:
f1:利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子清除至只包含中文及英文字符,并统计中英文字符数目,作为特征f1的值;
f2:统计未进行清除的句子中是否包含特殊符号,并通过布尔值(0,1)表示,如果特殊符号存在,则f2=1,如果特殊符号不存在,则f2=0;
f3至f(n-1):分别对应一类情感类型,通过布尔值(0,1)表示,对已清除的句子进行分词后,计算分词结果是否含有对应情感类型的情感词,如果存在,则将该情感类型对应的特征置1,反之则置0;
fn:对应否定词特征,通过布尔值(0,1)表示,如果已清除的句子中包含否定词,则fn=1,如果否定词不存在,则fn=0。
作为优选,获取包括各个情感类型的情感词的情感词典、同义词词典、否定词典、停用词词典、无标注情感类型的扩充语料;通过同义词词典对情感词典进行扩充;通过对扩充语料进行分类,并对情感词典进行扩充。
作为优选,如果扩充语料为微博语料,则进行如下步骤:
1.2.1)对微博语料进行清除:用“】【#!*/!.@;”符号将微博语料分割为各独立的句子,并通过正则表达式对“@[\s\S]*”样式的文本进行处理,删除用户名,得到句子集合WS;
1.2.2)以句子集合WS中各句子的表情符号作为情感标签,标注各个句子的情感类型,并计算各情感类型包括的句子数量;
1.2.3)利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子集合WS的所有句子清除至只包含中文及英文字符,得到过滤后的句子集合WSA;对句子集合WSA中的每个句子进行分词,得到零碎词;通过停用词词典对零碎词进行过滤,对剩下的零碎词用所在句子的情感类型进行标注;
1.2.4)统计步骤1.2.3)的结果中,剩下的零碎词分别在各个情感类型中出现的次数,以及在所有情感类型中出现的总次数,计算每个零碎词在各个情感类型中的重要性指标Qt,具体公式为:
其中,NQ(Wsg)为当前零碎词在当前情感类型中出现的次数,|WBS|为微博语料的数量,|WQ|为句子集合WS中包含当前情感类型的句子数量,Nall(Wsg)为当前零碎词在所有情感类型中出现的次数;
1.2.5)将各个情感类型中符合预设值的重要性指标Qt对应的零碎词扩充至情感词典。
作为优选,用“】【#!*/!.@;”符号将待分类文本为各独立的句子,并通过正则表达式对“@[\s\S]*”样式的文本进行处理,删除用户名,利用分词工具进行命名实体识别,然后进行删除命名实体,得到句子集合S’={S’(i)},作为待分类语料;并进行特征化表示,得到每个句子S’(i)抽取后的特征F’={f1’,f2’,f3’,…,fn’},其中,f1’为待分类语料中的一个句子包含的中英文字符数目,f2’为待分类语料中的一个句子是否包含特殊符号的标志值,fn为训练语料中的一个句子是否包含否定词的标志值。
作为优选,提取特征F’的方法如下:
f1’:利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子清除至只包含中文及英文字符,并统计中英文字符数目,作为特征f1’的值;
f2’:统计未进行清除的句子中是否包含特殊符号,并通过布尔值(0,1)表示,如果特殊符号存在,则f2’=1,如果特殊符号不存在,则f2’=0;
f3’至f(n-1)’:分别对应一类情感类型,通过布尔值(0,1)表示,对已清除的句子进行分词后,计算分词结果是否含有对应情感类型的情感词,如果存在,则将该情感类型对应的特征置1,反之则置0;
fn’:对应否定词特征,通过布尔值(0,1)表示,如果已清除的句子中包含否定词,则fn’=1,如果否定词不存在,则fn’=0。
作为优选,情感类型包括喜、怒、哀、乐、惊、惧、恶、无。
本发明的有益效果如下:
本发明所述的网络文本的多重情感分类方法,基于自然语言的句子的内在特性,将词典和基于统计的方法进行结合,把情感信息作为一个可适配的扩展资源,结合在分类模型内产生影响及生成特征的资源,并进一步提取各种相关特征,采用自动的分类算法构建细粒度的情感分类模型,并最终将分类模型应用于实际的情感度量场景。
本发明有效实现了计算机自动对自然语言的语句进行细粒度的情感分类,并在不同领域下进行扩展应用。
具体实施方式
以下结合实施例对本发明进行进一步的详细说明。
本发明是为了解决计算机难以解决多重情感的自然语言的情感分类的难题,提供了一种网络文本的多重情感分类方法,结合词典扩展和统计模型进行自动分词,进而判断网络文本的情感信息。
本发明所述的网络文本的多重情感分类方法,包括分类模型的训练阶段与实施应用的判断阶段。在训练阶段中,训练得到不同情感类型的分类模型。在判断阶段中,清除待分类文本的用户名及命名实体,提取待分类文本的情感特征;将得到的情感特征分别输入所有的分类模型,将输出的结果按顺序归结为一个N维矢量Rt,将输出的结果的置信度按顺序归结为一个N维矢量PRt,N为分类模型的数量;根据公式Rst=0.5*sgn(PRt*Rt-0.65*In)+0.5,其中,In为N维矢量{1,1,…,1};得到的N维矢量Rst中的每个维度的值即为对应的情感类型的有无。
训练分类模型的步骤如下:
1.1)获取已标记情感类型的NS个句子的集合S={S(i)}为训练语料,其中,1≤i≤NS;本实施例中,要求NS≧50000。
1.2)删除训练语料的所有句子中的用户名及命名实体,本实施例中,删除用户名的方法为:通过正则表达式对“@[\s\S]*”样式的文本进行处理;删除命名实体的方法为:利用分词工具进行命名实体识别,然后进行删除。并进行特征化表示,得到每个句子抽取后的特征F={f1,f2,f3,…,fn},并对每个特征f3,…,fn进行情感类型标注为对应的label标识,其中,f1为训练语料中的一个句子包含的中英文字符数目,f2为训练语料中的一个句子是否包含特殊符号的标志值,fn为训练语料中的一个句子是否包含否定词的标志值。
提取特征F的方法如下:
f1:利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子清除至只包含中文及英文字符,并统计中英文字符数目,作为特征f1的值;
f2:统计未进行清除的句子中是否包含特殊符号,并通过布尔值(0,1)表示,如果特殊符号存在,则f2=1,如果特殊符号不存在,则f2=0;
f3至f(n-1):分别对应一类情感类型,通过布尔值(0,1)表示,对已清除的句子进行分词后,计算分词结果是否含有对应情感类型的情感词,如果存在,则将该情感类型对应的特征置1,反之则置0;
fn:对应否定词特征,通过布尔值(0,1)表示,如果已清除的句子中包含否定词,则fn=1,如果否定词不存在,则fn=0。
1.3)将特征F与每个特征对应的情感类型作为分类模型的学习样本,分别针对各个情感类型训练对应的分类模型。具体为:以label标识对应的情感类型的学习样作为训练该情感类型的正例样本,则正例样本的类别标识置1,其他样本作为训练的反例样本,反例样本的类别标识置0,选择支持向量机作为分类模型进行训练,并对学习样本进行类平衡处理,得到该情感类型的分类模型。
本发明中,情感类型包括喜:like、怒:anger、哀:sadness、乐:happiness、惊:surprise、惧:fear、恶:disgust、无:none。句子或词的情感类型由情感词典中的情感词决定。
则步骤1.2)中,f3对应为like情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的like情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f4对应为happness情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的happness情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f5对应为anger情感词的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的anger情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f6对应为disgust情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的disgust情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f7对应为fear情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的fear情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f8对应为sadness情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的sadness情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f9对应为surprise情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的surprise情感词,若存在即在该情感对应特征位置1:反之对应特征位置0。
步骤1.3)中,将特征F与每个特征对应的情感类型作为分类模型的学习样本,分别针对like、happiness、anger、disgust、fear、sadness、surprise这7种情感训练7个一元分类模型,得到训练后的情感分析模型包括七个分类模型分别为:Mlike、Mhappiness、Manger、Mdisgust、Mfear、Msadness、Msurprise,具体为:
Mlike:以label标识为like的样本为训练的正例样本,此次的类别标识写为1,其它样本都作为训练的反例样本,此次的类别标识写为0,选择支持向量机作为分类模型来训练,并对样本做类平衡处理,训练得到的模型即为Mlike;
Mhappiness:以label标识为happiness的样本为训练的正例样本,此次的类别标识写为1,其它样本都作为训练的反例样本,此次的类别标识写为0,选择支持向量机作为分类模型来训练,并对样本做类平衡处理,训练得到的模型即为Mhappiness;
Manger:以label标识为anger的样本为训练的正例样本,此次的类别标识写为1,其它样本都作为训练的反例样本,此次的类别标识写为0,选择支持向量机作为分类模型来训练,并对样本做类平衡处理,训练得到的模型即为Manger;
Mdisgust:以label标识为disgust的样本为训练的正例样本,此次的类别标识写为1,其它样本都作为训练的反例样本,此次的类别标识写为0,选择支持向量机作为分类模型来训练,并对样本做类平衡处理,训练得到的模型即为Mdisgust;
Mfear:以label标识为fear的样本为训练的正例样本,此次的类别标识写为1,其它样本都作为训练的反例样本,此次的类别标识写为0,选择支持向量机作为分类模型来训练,并对样本做类平衡处理,训练得到的模型即为Mfear;
Msadness:以label标识为sadness的样本为训练的正例样本,此次的类别标识写为1,其它样本都作为训练的反例样本,此次的类别标识写为0,选择支持向量机作为分类模型来训练,并对样本做类平衡处理,训练得到的模型即为Msadness;
Msurprise:以label标识为surprise的样本为训练的正例样本,此次的类别标识写为1,其它样本都作为训练的反例样本,此次的类别标识写为0,选择支持向量机作为分类模型来训练,并对样本做类平衡处理,训练得到的模型即为Msurprise。
本发明提供情感词典的扩充功能,则在步骤1.1)中,获取包括各个情感类型的情感词的情感词典(包含一定的上述除了none以外的7种情感对的情感词)、同义词词典、否定词典、停用词词典、无标注情感类型的扩充语料;通过同义词词典对情感词典进行扩充;通过对扩充语料进行分类,并对情感词典进行扩充。
将原始情感词典利用同义词词典进行扩充的方法为:寻找情感词典w={w(i)}中每一个词w(i)的同义词,w(i,j)表示为情感词典中第i个词在同义词词典中的j个同义词,将w(i,j)的情感标为与w(i)相同,并将所有词语加入到情感词典中进行的扩充。
如果扩充语料为微博语料,则将原始情感词典利用微博语料进行扩充的方法为:
1.2.1)对微博语料进行清除:用“】【#!*/!.@;”符号将微博语料分割为各独立的句子,并通过正则表达式对“@[\s\S]*”样式的文本进行处理,删除用户名,得到句子集合WS。
1.2.2)以句子集合WS中各句子的表情符号作为情感标签,标注各个句子的情感类型,并计算各情感类型包括的句子数量;具体为:若句子中出现此表情符号时,即将此句子判断为包含有对应的情感,而一个句子可以包含多种情感.
各情感和符号的对应关系为:
含有“[赞]”字符的句子,标注此句子包含like情感;所有含有like情感的句子总数记为|Wlike|;
含有“[怒]”字符的句子,标注此句子包含anger情感;所有含有anger情感的句子总数记为|Wange|;
含有“[蜡烛]”字符的句子,标注此句子包含sadness情感;所有含有sadness情感的句子总数记为|Wsadn|;
含有“[哈哈]”字符的句子,标注此句子包含happiness情感;所有含有happiness情感的句子总数记为|Whapp|;
含有“[吃惊]”字符的句子,标注此句子包含surprise情感;所有含有surprise情感的句子总数记为|Wsurp|;
含有“[泪]”字符的句子,标注此句子包含fear情感;所有含有fear情感的句子总数记为|Wfear|;
含有“[鄙视]”字符的句子,标注此句子包含disgust情感;所有含有disgust情感的句子总数记为|Wdisg|;
以上字符都不包含的而其他句子,标注此句子包含none情感;所有含有none情感的句子总数记为|Wnone|。
1.2.3)利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子集合WS的所有句子清除至只包含中文及英文字符,得到过滤后的句子集合WSA,句子的情感类型不变,句子集合WSA中各句子对应的情感类型仍和句子集合WS一致;利用分词工具对句子集合WSA中的每个句子进行分词,得到多个零碎词;通过停用词词典对零碎词进行过滤,对剩下的零碎词用所在句子的情感类型进行标注。
1.2.4)统计步骤1.2.3)的结果中,剩下的零碎词分别在各个情感类型中出现的次数,以及在所有情感类型中出现的总次数,计算每个零碎词在各个情感类型中的重要性指标Qt,具体公式为:
其中,NQ(Wsg)为当前零碎词在当前情感类型中出现的次数,WBS为微博语料的数量,WQ为句子集合WS中包含当前情感类型的句子数量,Nall(Wsg)为当前零碎词在所有情感类型中出现的次数。
即如果有某个词Wsg,对应统计Wsg分别在like、happiness、anger、disgust、fear、sadness、surprise这7种情感分类中的次数,分别记为:Nlike(Wsg)、N happ(Wsg)、Nange(Wsg)、Ndisg(Wsg)、Nfear(Wsg)、Nsadn(Wsg)、Nsurp(Wsg),而总次数Nall(Wsg)为此词语在句子集合WSA中出现的次数。
计算每个词语在7个情感类型中的重要性指标,即对于某个词Wsg,在like类情感的重要性指标为在happ类情感的重要性指标为在anger类情感的重要性指标为在disgust类情感的重要性指标为在fear类情感的重要性指为在sadness类情感的重要性指标为在surprise类情感的重要性指标为
1.2.5)将各个情感类型中符合预设值的重要性指标Qt对应的零碎词扩充至情感词典。本实施例中具体为:分别将所有零碎词在每个情感类型中的重要性指标按降序排序,并在每种情感关键词排序中,取出排前12%的词语,将之加到对应情感的情感词典中。
实施应用的判断阶段中,用“】【#!*/!.@;”符号将待分类文本为各独立的句子,并通过正则表达式对“@[\s\S]*”样式的文本进行处理,删除用户名,利用分词工具进行命名实体识别,然后进行删除命名实体,得到句子集合S’={S’(i)},作为待分类语料;并进行特征化表示,得到每个句子S’(i)抽取后的特征F’={f1’,f2’,f3’,…,fn’},其中,f1’为待分类语料中的一个句子包含的中英文字符数目,f2’为待分类语料中的一个句子是否包含特殊符号的标志值,fn为训练语料中的一个句子是否包含否定词的标志值。
提取特征F’的方法如下:
f1’:利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子清除至只包含中文及英文字符,并统计中英文字符数目,作为特征f1’的值;
f2’:统计未进行清除的句子中是否包含特殊符号,并通过布尔值(0,1)表示,如果特殊符号存在,则f2’=1,如果特殊符号不存在,则f2’=0;
f3’至f(n-1)’:分别对应一类情感类型,通过布尔值(0,1)表示,对已清除的句子进行分词后,计算分词结果是否含有对应情感类型的情感词,如果存在,则将该情感类型对应的特征置1,反之则置0;
fn’:对应否定词特征,通过布尔值(0,1)表示,如果已清除的句子中包含否定词,则fn’=1,如果否定词不存在,则fn’=0。
与提取特征F的方法相似,提取特征F’中的f3’至f(n-1)’具体为:
f3’对应为like情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的like情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f4’对应为happness情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的happness情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f5’对应为anger情感词的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的anger情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f6’对应为disgust情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的disgust情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f7’对应为fear情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的fear情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f8’对应为sadness情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的sadness情感词,若存在即在该情感对应特征位置1:反之对应特征位置0;
f9’对应为surprise情感的特征位,即通过对清洗过的句子进行分词后,计算分词结果是否含有情感词典的surprise情感词,若存在即在该情感对应特征位置1:反之对应特征位置0。
将待分类语料的特征化结果F’,输入给七个分类模型Mlike、Mhappiness、Manger、Mdisgust、Mfear、Msadness、Msurprise进行分类,输出对应的分类模型的7个结果rt,并按顺序归结为一个7维矢量Rt={rt_like,rt_happ,rt_ange,rt_disg,rt_fear,rt_sadn,rt_surp},各结果的置信度也按顺序归结为一个7维矢量PRt={prt_like,prt_happ,prt_ange,prt_disg,prt_fear,prt_sadn,prt_surp}。
基于上述得到的Rt与PRt,根据公式Rst=0.5*sgn(PRt*Rt-0.65*I7)+0.5计算判断结果;其中,I7为矢量{1,1,1,1,1,1,1};得到的Rst为一个7维矢量。
Rst的7个维度按顺序即代表了对此句子分别在like、happiness、anger、disgust、fear、sadness、surprise这7种情感上的评判结果,值为1即此句子包含对应的情感类型。
上述实施例仅是用来说明本发明,而并非用作对本发明的限定。只要是依据本发明的技术实质,对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。
Claims (10)
1.一种网络文本的多重情感分类方法,其特征在于,训练得到不同情感类型的分类模型,清除待分类文本的用户名及命名实体,提取待分类文本的情感特征;将得到的情感特征分别输入所有的分类模型,将输出的结果按顺序归结为一个N维矢量Rt,将输出的结果的置信度按顺序归结为一个N维矢量PRt,N为分类模型的数量;根据公式Rst=0.5*sgn(PRt*Rt-0.65*In)+0.5,其中,In为N维矢量{1,1,…,1};得到的N维矢量Rst中的每个维度的值即为对应的情感类型的有无。
2.根据权利要求1所述的网络文本的多重情感分类方法,其特征在于,训练分类模型的步骤如下:
1.1)获取已标记情感类型的NS个句子的集合S={S(i)}为训练语料,其中,1≤i≤NS;
1.2)删除训练语料的所有句子中的用户名及命名实体,进行特征化表示,得到每个句子抽取后的特征F={f1,f2,f3,…,fn},并对每个特征f3,…,fn进行情感类型标注为对应的label标识,其中,f1为训练语料中的一个句子包含的中英文字符数目,f2为训练语料中的一个句子是否包含特殊符号的标志值,fn为训练语料中的一个句子是否包含否定词的标志值;
1.3)将特征F与每个特征对应的情感类型作为分类模型的学习样本,分别针对各个情感类型训练对应的分类模型。
3.根据权利要求2所述的网络文本的多重情感分类方法,其特征在于,步骤1.3)具体为:以label标识对应的情感类型的学习样本作为训练该情感类型的正例样本,则正例样本的类别标识置1,其他样本作为训练的反例样本,反例样本的类别标识置0,选择支持向量机作为分类模型进行训练,并对学习样本进行类平衡处理,得到该情感类型的分类模型。
4.根据权利要求2所述的网络文本的多重情感分类方法,其特征在于,步骤1.2)中删除用户名的方法为:通过正则表达式对“@[\s\S]*”样式的文本进行处理;删除命名实体的方法为:利用分词工具进行命名实体识别,然后进行删除。
5.根据权利要求4所述的网络文本的多重情感分类方法,其特征在于,步骤1.2)中,提取特征F的方法如下:
f1:利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子清除至只包含中文及英文字符,并统计中英文字符数目,作为特征f1的值;
f2:统计未进行清除的句子中是否包含特殊符号,并通过布尔值(0,1)表示,如果特殊符号存在,则f2=1,如果特殊符号不存在,则f2=0;
f3至f(n-1):分别对应一类情感类型,通过布尔值(0,1)表示,对已清除的句子进行分词后,计算分词结果是否含有对应情感类型的情感词,如果存在,则将该情感类型对应的特征置1,反之则置0;
fn:对应否定词特征,通过布尔值(0,1)表示,如果已清除的句子中包含否定词,则fn=1,如果否定词不存在,则fn=0。
6.根据权利要求2所述的网络文本的多重情感分类方法,其特征在于,获取包括各个情感类型的情感词的情感词典、同义词词典、否定词典、停用词词典、无标注情感类型的扩充语料;通过同义词词典对情感词典进行扩充;通过对扩充语料进行分类,并对情感词典进行扩充。
7.根据权利要求6所述的网络文本的多重情感分类方法,其特征在于,如果扩充语料为微博语料,则进行如下步骤:
1.2.1)对微博语料进行清除:用“】【#!*/!.@;”符号将微博语料分割为各独立的句子,并通过正则表达式对“@[\s\S]*”样式的文本进行处理,删除用户名,得到句子集合WS;
1.2.2)以句子集合WS中各句子的表情符号作为情感标签,标注各个句子的情感类型,并计算各情感类型包括的句子数量;
1.2.3)利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子集合WS的所有句子清除至只包含中文及英文字符,得到过滤后的句子集合WSA;对句子集合WSA中的每个句子进行分词,得到零碎词;通过停用词词典对零碎词进行过滤,对剩下的零碎词用所在句子的情感类型进行标注;
1.2.4)统计步骤1.2.3)的结果中,剩下的零碎词分别在各个情感类型中出现的次数,以及在所有情感类型中出现的总次数,计算每个零碎词在各个情感类型中的重要性指标Qt,具体公式为:
其中,NQ(Wsg)为当前零碎词在当前情感类型中出现的次数,|WBS|为微博语料的数量,|WQ|为句子集合WS中包含当前情感类型的句子数量,Nall(Wsg)为当前零碎词在所有情感类型中出现的次数;
1.2.5)将各个情感类型中符合预设值的重要性指标Qt对应的零碎词扩充至情感词典。
8.根据权利要求1所述的网络文本的多重情感分类方法,其特征在于,用“】【#!*/!.@;”符号将待分类文本为各独立的句子,并通过正则表达式对“@[\s\S]*”样式的文本进行处理,删除用户名,利用分词工具进行命名实体识别,然后进行删除命名实体,得到句子集合S’={S’(i)},作为待分类语料;并进行特征化表示,得到每个句子S’(i)抽取后的特征F’={f1’,f2’,f3’,…,fn’},其中,f1’为待分类语料中的一个句子包含的中英文字符数目,f2’为待分类语料中的一个句子是否包含特殊符号的标志值,fn为训练语料中的一个句子是否包含否定词的标志值。
9.根据权利要求8所述的网络文本的多重情感分类方法,其特征在于,提取特征F’的方法如下:
f1’:利用正则表达式“[^a-zA-Z\u4e00-\u9fa5]”将句子清除至只包含中文及英文字符,并统计中英文字符数目,作为特征f1’的值;
f2’:统计未进行清除的句子中是否包含特殊符号,并通过布尔值(0,1)表示,如果特殊符号存在,则f2’=1,如果特殊符号不存在,则f2’=0;
f3’至f(n-1)’:分别对应一类情感类型,通过布尔值(0,1)表示,对已清除的句子进行分词后,计算分词结果是否含有对应情感类型的情感词,如果存在,则将该情感类型对应的特征置1,反之则置0;
fn’:对应否定词特征,通过布尔值(0,1)表示,如果已清除的句子中包含否定词,则fn’=1,如果否定词不存在,则fn’=0。
10.根据权利要求1至9任一项所述的网络文本的多重情感分类方法,其特征在于,情感类型包括喜、怒、哀、乐、惊、惧、恶、无。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710127661.4A CN106951472A (zh) | 2017-03-06 | 2017-03-06 | 一种网络文本的多重情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710127661.4A CN106951472A (zh) | 2017-03-06 | 2017-03-06 | 一种网络文本的多重情感分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106951472A true CN106951472A (zh) | 2017-07-14 |
Family
ID=59467791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710127661.4A Pending CN106951472A (zh) | 2017-03-06 | 2017-03-06 | 一种网络文本的多重情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951472A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108874896A (zh) * | 2018-05-22 | 2018-11-23 | 大连理工大学 | 一种基于神经网络和幽默特征的幽默识别方法 |
CN109189932A (zh) * | 2018-09-06 | 2019-01-11 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置、计算机可读存储介质 |
CN109241295A (zh) * | 2018-08-31 | 2019-01-18 | 北京天广汇通科技有限公司 | 一种非结构化数据中的特定实体关系的提取方法 |
CN109992667A (zh) * | 2019-03-26 | 2019-07-09 | 新华三大数据技术有限公司 | 一种文本分类方法以及装置 |
CN110852062A (zh) * | 2019-10-17 | 2020-02-28 | 天津大学 | 利用言论信息自动化测量群体外显态度和内隐态度的方法 |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682124A (zh) * | 2012-05-16 | 2012-09-19 | 苏州大学 | 一种文本的情感分类方法及装置 |
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析系统及方法 |
CN103150367A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种中文微博的情感倾向分析方法 |
-
2017
- 2017-03-06 CN CN201710127661.4A patent/CN106951472A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682124A (zh) * | 2012-05-16 | 2012-09-19 | 苏州大学 | 一种文本的情感分类方法及装置 |
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析系统及方法 |
CN103150367A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种中文微博的情感倾向分析方法 |
Non-Patent Citations (3)
Title |
---|
NA YANG,JIANBO YUAN,YUN ZHOU,ILKER DEMIRKOL,ZHIYAO DUAN: "Enhanced multiclass SVM with thresholding fusion for speechbased", 《INTERNATIONAL JOURNAL OF SPEECH TECHNONLY》 * |
张博: "基于SVM的中文观点句抽取", 《中国知网》 * |
曹宇,王名扬,贺惠新: "情感词典扩充的微博文本多元情感分类研究", 《情报杂志》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108009148B (zh) * | 2017-11-16 | 2021-04-27 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108874896B (zh) * | 2018-05-22 | 2020-11-06 | 大连理工大学 | 一种基于神经网络和幽默特征的幽默识别方法 |
CN108874896A (zh) * | 2018-05-22 | 2018-11-23 | 大连理工大学 | 一种基于神经网络和幽默特征的幽默识别方法 |
CN109241295A (zh) * | 2018-08-31 | 2019-01-18 | 北京天广汇通科技有限公司 | 一种非结构化数据中的特定实体关系的提取方法 |
CN109241295B (zh) * | 2018-08-31 | 2021-12-24 | 北京天广汇通科技有限公司 | 一种非结构化数据中的特定实体关系的提取方法 |
CN109189932A (zh) * | 2018-09-06 | 2019-01-11 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置、计算机可读存储介质 |
CN109189932B (zh) * | 2018-09-06 | 2021-02-26 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置、计算机可读存储介质 |
CN109992667A (zh) * | 2019-03-26 | 2019-07-09 | 新华三大数据技术有限公司 | 一种文本分类方法以及装置 |
CN109992667B (zh) * | 2019-03-26 | 2021-06-08 | 新华三大数据技术有限公司 | 一种文本分类方法以及装置 |
CN110852062A (zh) * | 2019-10-17 | 2020-02-28 | 天津大学 | 利用言论信息自动化测量群体外显态度和内隐态度的方法 |
CN110852062B (zh) * | 2019-10-17 | 2023-03-14 | 天津大学 | 利用言论信息自动化测量群体外显态度和内隐态度的方法 |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951472A (zh) | 一种网络文本的多重情感分类方法 | |
Yang et al. | Identifying semantic edit intentions from revisions in wikipedia | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN103729474B (zh) | 用于识别论坛用户马甲账号的方法和系统 | |
CN106503055A (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN109840279A (zh) | 基于卷积循环神经网络的文本分类方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN106528528A (zh) | 文本情感分析的方法及装置 | |
CN107273348B (zh) | 一种文本的话题和情感联合检测方法及装置 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
Zahoor et al. | Twitter sentiment analysis using lexical or rule based approach: a case study | |
Ramalingam et al. | Emotion detection from text | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN105446955A (zh) | 一种自适应的分词方法 | |
CN110851593B (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
Dharwal et al. | Automatic sarcasm detection using feature selection | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN109947928A (zh) | 一种检索式人工智能问答机器人开发方法 | |
Patil et al. | Use of Porter stemming algorithm and SVM for emotion extraction from news headlines | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
Katyayan et al. | Sarcasm detection approaches for English language | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN106569996A (zh) | 一种面向中文微博的情感倾向分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170714 |