CN107688630A - 一种基于语义的弱监督微博多情感词典扩充方法 - Google Patents

一种基于语义的弱监督微博多情感词典扩充方法 Download PDF

Info

Publication number
CN107688630A
CN107688630A CN201710719716.0A CN201710719716A CN107688630A CN 107688630 A CN107688630 A CN 107688630A CN 201710719716 A CN201710719716 A CN 201710719716A CN 107688630 A CN107688630 A CN 107688630A
Authority
CN
China
Prior art keywords
word
words
emotion
candidate
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710719716.0A
Other languages
English (en)
Other versions
CN107688630B (zh
Inventor
刘磊
孙孟涛
贾亚璐
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goonie International Software Beijing Co ltd
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710719716.0A priority Critical patent/CN107688630B/zh
Publication of CN107688630A publication Critical patent/CN107688630A/zh
Application granted granted Critical
Publication of CN107688630B publication Critical patent/CN107688630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于语义的弱监督微博多情感词典扩充方法,包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。本发明方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。

Description

一种基于语义的弱监督微博多情感词典扩充方法
技术领域
本发明属于文本信息处理领域,具体是涉及一种基于语义的弱监督微博多情感词典扩充方法。
背景技术
微博是一个全球范围的用户信息分享平台,用户通过发布文本或图片的形式实现信息的分享和传播。近年来微博网站高速发展,中文微博以“新浪”微博、“腾讯”微博为代表,英文微博以“Twitter”、“Facebook”为代表。微博的发展加速了信息的传播速度。但随着信息获取便利的同时,人们从海量数据中获取知识的效率也在降低。
传统文本的分类已经不能满足人们对网络即时信息的分类要求。如何根据微博内容自动判断人们所要表达的情感,从而快速获取不同情感属性的微博,就成为了一个重要的问题。
微博情感自动分类技术可以帮助相关公司企业及政府部门有效地收集社会热点事件的情感反馈,分析微博中的不同观点,为制定策略提供了一个高效可靠的依据。
情感分类中一个基本问题就是情感词获取,即情感词典的建立。情感词典的质量直接影响到分类的最终效果,而很多情感词典针对性弱且情感词数量不能满足分类要求。使用人工标注的情感词典不仅费时费力,而且无法解决海量微博中的文本不规则性、语义表达丰富性等问题。
在情感词典构建中,多情感词典构建更是其中的难点。不同于正负情感词典,人的情感种类丰富,如何定义情感的类型,如何确定词的情感类型,如何解决情感词的不平衡问题等是多情感词典构建亟需解决的问题。
发明人通过改进word2vec算法,建立了可自动获取且针对性较强的微博多情感词典,并根据网络情感表达方式,建立了情感词典扩充规则。生成的情感词典减少了人工标注费时费力的问题,有效提高了情感分类精度和效率。
发明内容
本发明针对多分类情感词的扩充问题,提出了一种基于语义的弱监督微博多情感词典扩充方法及系统。主要内容包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。实验结果表明,该方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。
多情感类型被定义为:开心、悲伤、生气、害怕、厌恶、喜欢、惊讶7种。每种情感在多情感词典中都有一组情感词相对应。建立多情感词典的种子情感词必须要求覆盖面广、情感倾向准确,而且必须保证不同情感类型情感词的平衡性。
为实现上述目的,本发明采用如下的技术方案
一种基于语义的弱监督微博多情感词典扩充方法,包括以下步骤:
步骤(1)微博语料获取和预处理
首先获取中文微博语料,然后对微博语料进行必要的预处理,包括繁体简体转换、分词及词性标注、去除外国词语和多余空格。预处理后的文本只保留汉字、词性标记及标点,记作G。
步骤(2)候选种子情感词获取及扩充词获取
由于在大规模语料中很难自动获取符合要求的种子情感词,因此必须在获取候选种子情感词后,再经过统计验证。
步骤(2.1)过滤微博语料G中词性,只保留G中的名词、形容词、动词,过滤后的微博语料记为G’。
步骤(2.2)统计G’中所有词的词频,将G中所有词按词频降序排序,从排名前p%内词中,人工选取情感词作为候选情感词,p为词频排名百分比阈值。
其中每类情感选取K个情感词作为候选情感种子。得到的候选种子情感词典记为F1={w1,w2,…,wn},wj为候选种子情感词。
步骤(2.3)对候选种子词典F1中的每个候选种子情感词w,以微博语料G为数据源,用word2vec算法获取与w语义最相关的前m个词作为候选情感扩充词,记做R(w)=(c1,c2,…,cm),即每个候选种子情感词都得到m个扩充词。情感词w与扩充词c的语义相关值用v(w,c)表示,则情感词w与m个扩充词的语义相关值可以记为V(w)=(v(w,c1),v(w,c2),…,v(w,cn))。扩充后的词典记为F2={w1,R(w1),w2,R(w2),…,wn,R(wn)}。
步骤(3)候选种子情感词验证
对多情感词典F2中候选种子词进行验证,去除不适合作为种子的情感词。步骤(3.1)-步骤(3.3)基于情感扩充词R(w),使用统计方法反馈验证候选种子词是否适合作为种子词。
步骤(3.1)统计每个扩充词在F2中的词频,使用公式(1)计算候选种子的词频权重SFW:
SFW(w)是候选种子w的词频权重值,f(ci)是候选种子词w中第i个扩充词ci出现的词频,v(w,ci)是候选种子w与其扩充词ci的语义相关值,m为扩充词数量。
步骤(3.2)计算F2中候选种子词的熵权重SHW。熵权重用于体现情感词所包含的信息量大小,熵值越大,情感词的强度越高,计算公式(2)(3)如下:
SHW(w)是候选种子w的熵权重值,p(si)是候选种子w中第i个扩充词ci出现的概率,f(si)是候选种子s中第i个扩充词出现的词频,m为扩充词数量。
步骤(3.3)在所有候选种子词中,选取满足条件SFW>α,SHW>β的词作为种子词。这里α,β为设定的阈值。F2中移除不满足条件的候选种子词及该词的对应扩充词,所得词典构成F3={w′1,R(w′1),w′2,R(w′2),…,w′h,R(w′h)}。
步骤(4)情感扩充词的验证和情感类型判断
由于利用word2vec算法得到的扩充词与种子词体现的是语义相关性,这些扩充词仍然存在与种子词表达情感不一致的情况。因此需要对扩充词进行验证。情感扩充词验证按如下步骤进行:
步骤(4.1)统计每个扩充词c在词典中对应的种子词列表fw(c)。对扩充词c,检测所有种子词w∈F3,如果c∈R(w),则fw(c)=fw(c)∪{w}。
步骤(4.2)计算每个扩充词的词频权重EFW和熵权重EHW。
扩充词c基于词频权重的计算公式(4)如下所示:
EFW(c)=SFW(w1)+SFW(w2)+…+SFW(wn),wi∈fw(c) (4)
SFW(wi)是扩充词c对应的种子词wi的词频权重。
基于熵权重的计算公式(5)如下所示:
EHW(c)=SHW(w1)+SHW(w2)+…+SHW(wn),wi∈fw(c) (5)
SHW(wi)是扩充词c对应的种子词wi的熵权重。
步骤(4.3)在所有候选扩充词中,选取满足条件EFW>α’,EHW>β’的词作为扩充词。这里α’,β’为设定的阈值。直接删去词表中不满足条件的候选扩充词。
步骤(4.4)为扩充词确定情感类型。扩充词的情感类型一般设定为与其对应的种子词的情感类型相同,但由于一个扩充词可能会由多个不同情感类型的种子词扩充得到,使扩充词的情感类型产生歧义。因此针对一个扩充词对应多个不同情感类型的种子词的情况,在其对应种子词中选取出现频率最高的情感类型作为该扩充词的情感类型。如果有并列频率最高的情况,由人工辅助判断,所得词典记作F4
步骤(5)基于规则的情感词扩充
微博文本中存在大量具有情感倾向的格式化文本信息,可以通过基于规则的方法扩充多情感词典。规则定义如下:
规则1:情感符号抽取。抽取连续三个及以上的标点字符串(“://”除外),直接将该标点字符串作为候选情感词,如“:-)”,“^_^”,“!!!!!”等。
规则2:微博表情抽取。微博表情具有强烈情感倾向,如“[爱你]”,“[哈哈]”,“[嘻嘻]”等。
规则3:情感词抽取。对以情感符号或微博表情结尾、分词长度小于等于2的字符串开头的微博,直接将文字部分作为候选情感词,如“新年快乐[开心]”,“帅!!!”,“可爱爱~^_^”等。
使用规则1、规则2和规则3抽取语料库G中的情感符号及微博表情,作为候选情感词,由人工辅助验证后,将获取的扩充情感词加入到F4中,记为F5,即最终获取的多分类情感词典。
附图说明
图1本发明实现基于语义的弱监督微博多情感词典扩充方法流程图;
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
根据图1所示,本发明提出的方法是依次按以下步骤实现的(以新浪微博为例):
步骤(1)微博语料获取和预处理
使用新浪微博提供的API下载json格式的微博语料,并抽取其中用户发布的文本信息,获得微博语料库,记作G1
语料库G1其进行繁简转换,得到语料库G2;使用目前发展较为成熟的ICTCLAS分词系统对语料库G2进行分词和词性标注,并对分词后的语料过滤,只保留汉字、词性标记及标点符号,得到语料库G。G的语料存储方式以行为单位,每一行存储一条微博文本,约500万行。
步骤(2)候选种子情感词获取及扩充词获取
将情感词分为7类,分别为:开心、悲伤、生气、害怕、厌恶、喜欢、惊讶。过滤微博语料G中词性,只保留G中的名词、形容词、动词,过滤后的微博语料记为G′。统计G′的词表个数,百分比阈值P取40%。初始种子词个数K取20。
部分抽取结果如表1所示:
表1部分原始种子词
对候选种子词典F1中的每个候选种子情感词w,以微博语料G为数据源,用word2vec算法获取与w语义最相关的前400个词作为情感扩充词,记做R(w)=(c1,c2,…,c400),即每个候选种子情感词都得到400个扩充词。情感词w与扩充词c的语义相关值用v(w,c)表示,则情感词w与400个扩充词的语义相关值可以记为V(w)=(v(w,c1),v(w,c2),…,v(w,c400))。
这里例举表1中加粗的7个候选种子,扩充情况如下表2所示,表2中加粗的词为错误扩充词:
表2部分候选扩充词
步骤(3)候选种子情感词验证
根据公式(1)(2)(3),得到表1中加粗的7个候选种子计算结果如表3所示:
表3部分候选种子词的SFW及SHW
在所有SFW、SHW中选取满足条件SFW>α,SHW>β的词作为种子词。这里α,β为设定的阈值。种子词(每类情感20个,共140个)的词频权重均值为881.80,熵权重均值为8.21,令α=500,β=7.8。
从表3中可以看出“消息”、“学习”、“重点”低于阈值,直接删去词表中不满足条件的词及该词的扩充词。过滤后,所得种子词典构成如表4所示:
表4过滤后种子词示例
过滤后的词典情感倾向性更强,为检验该系统的鲁棒性,在选择情感种子时,人工加入了一些错误类型以进行测试。部分错误情感分类(如“开心”被分入厌恶词中),将在步骤(4)扩充词验证中修正。
步骤(4)情感扩充词的验证和情感类型判断
统计每个扩充词的所有对应的种子词数并根据公式(4)(5)计算每个扩充词的EFW和EHW。
这里例举表2标注的扩充词的计算结果:
表5扩充词片段结算结果
可以从表5中看出,“小鸟”不是生气词,而“愤怒的小鸟”作为短语经常出现,愤怒是生气词,和小鸟具有强相关性,因而小鸟变成生气词。“悲伤”由于和愤怒共现率高,也被错误分为生气词而不是悲伤词。网络用语“开森”由于其种子“开心”被错误分成厌恶词因而整个扩充词情感错误。
在所有EFW、EHW中选取满足条件EFW>α′,EHW>β′的词作为种子词。这里α′取10000,β′取80。可以从表5中看出,“小鸟”被算法发现并删除。
扩充词的情感类型一般设定为与其对应的种子词的情感类型相同。针对一个扩充词对应多个不同情感类型的种子词的情况,在其对应种子词中选取出现频率最高的情感类型作为该扩充词的的情感类型。如果有并列频率最高的情况,由人工辅助判断,所得词典记作F4
由表5可知“悲伤”对应种子词数20、“嘿嘿”对应种子词数18,“开森”对应种子词数17。他们对应的种子词情感类型如表6所示:
表6扩充词片段情感类型分布
最终部分扩充词修正结果如表7所示:
表7部分扩充词修正结果
步骤(5)基于规则的情感词扩充
规则1:情感符号抽取。抽取连续三个及以上的标点字符串(“://”除外),直接将该标点字符串作为候选情感词,如“:-)”,“^_^”,“!!!!!”等。
规则2:微博表情抽取。微博表情具有强烈情感倾向,如“[爱你]”,“[哈哈]”,“[嘻嘻]”等。
规则3:情感词抽取。对以情感符号或微博表情结尾、分词长度小于等于2的字符串开头的微博,直接将文字部分作为候选情感词,如“新年快乐[开心]”,“帅!!!”,“可爱爱~^_^”等。
基于规则的部分扩充结果如表8所示:
表8基于规则扩充的情感词片段
步骤(6)实验分析。
本算法基于语义和规则扩充多情感词典。这里引入两种度量方法进行评价,分别为情感识别准确率和情感分类准确率。情感识别准确率是指情感词典中的词是情感词的准确率;情感分类准确率是指情感词分配的情感类型正确的准确率。结果如表9-表11所示:
表9不同词频权重区间的情感识别准确率(w表示单位万)
从表9中看出,词频权重越大,情感识别效果越好。对于词频权重值1000以下的扩充词,其情感识别准确率不足1%。在实际应用中可以根据需要选择合适的权重阈值控制情感识别精度。
表10词频权重10000以上的情感分类准确率
表11情感词扩充数量
由上表10可以看出,“害怕”类情感词的分类准确率最低,同时“害怕”类情感词的扩充情况最差;“生气”类情感词的准确率最高,同时“生气”类情感词的扩充情况最好。本次实验语料对“生气”情感的倾向较高,对“害怕”情感的倾向较低,因而造成了分类准确率的不同。对于高频情感,本方法可以达到86%的准确率。
多情感词典中如果正负两种情感类型比重过大,会近似为正负极性情感词典。使用本发明提出的算法,可以较好的增加多情感词典规模,特别是修正不平衡词典中稀疏情感类型的情感词规模。

Claims (3)

1.一种基于语义的弱监督微博多情感词典扩充方法,其特征在于,包括以下步骤:
步骤(1)、微博语料获取和预处理
获取中文微博语料,同时对微博语料进行预处理,预处理后的文本记作G;
步骤(2)、候选种子情感词获取及扩充词获取
步骤(2.1)、过滤微博语料G中词性,保留G中的名词、形容词、动词,过滤后的微博语料记为G’;
步骤(2.2)、统计G’中所有词的词频,将G中所有词按词频降序排序,从排名前p%内词中,选取情感词作为候选情感词,其中,p为词频排名百分比阈值;每类情感选取K个情感词作为候选情感种子,得到的候选种子情感词典记为F1={w1,w2,…,wn},wj为候选种子情感词;
步骤(2.3)、对候选种子词典F1中的每个候选种子情感词w,以微博语料G为数据源,用word2vec算法获取与w语义最相关的前m个词作为候选情感扩充词,记做R(w)=(c1,c2,…,cm),即每个候选种子情感词都得到m个扩充词,情感词w与扩充词c的语义相关值用v(w,c)表示,则情感词w与m个扩充词的语义相关值可以记为V(w)=(v(w,c1),v(w,c2),…,v(w,cn)),扩充后的词典记为F2={w1,R(w1),w2,R(w2),…,wn,R(wn)}。
步骤(3)候选种子情感词验证
步骤(3.1)、统计每个扩充词在F2中的词频,使用公式(1)计算候选种子的词频权重SFW:
<mrow> <mi>S</mi> <mi>F</mi> <mi>W</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,SFW(w)是候选种子w的词频权重值,f(ci)是候选种子词w中第i个扩充词ci出现的词频,v(w,ci)是候选种子w与其扩充词ci的语义相关值,m为扩充词数量;
步骤(3.2)、计算F2中候选种子词的熵权重SHW,计算公式(2)(3)如下:
<mrow> <mi>S</mi> <mi>H</mi> <mi>W</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>/</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中,SHW(w)是候选种子w的熵权重值,p(si)是候选种子w中第i个扩充词ci出现的概率,f(si)是候选种子s中第i个扩充词出现的词频,m为扩充词数量;
步骤(3.3)、在所有候选种子词中,选取满足条件SFW>α,SHW>β的词作为种子词,α,β为设定的阈值,F2中移除不满足条件的候选种子词及该词的对应扩充词,所得词典构成F3={w′1,R(w′1),w′2,R(w′2),…,w′h,R(w′h)}。
步骤(4)情感扩充词的验证和情感类型判断
步骤(4.1)、统计每个扩充词c在词典中对应的种子词列表fw(c),对扩充词c,检测所有种子词w∈F3,如果c∈R(w),则fw(c)=fw(c)∪{w},
步骤(4.2)、计算每个扩充词的词频权重EFW和熵权重EHW,
扩充词c基于词频权重的计算公式(4)如下所示:
EFW(c)=SFW(w1)+SFW(w2)+…+SFW(wn),wi∈fw(c) (4)
其中,SFW(wi)是扩充词c对应的种子词wi的词频权重,
基于熵权重的计算公式(5)如下所示:
EHW(c)=SHW(w1)+SHW(w2)+…+SHW(wn),wi∈fw(c) (5)
其中,SHW(wi)是扩充词c对应的种子词wi的熵权重,
步骤(4.3)、在所有候选扩充词中,选取满足条件EFW>α’,EHW>β’的词作为扩充词,α’,β’为设定的阈值,直接删去词表中不满足条件的候选扩充词;
步骤(4.4)、为扩充词确定情感类型
针对一个扩充词对应多个不同情感类型的种子词的情况,在其对应种子词中选取出现频率最高的情感类型作为该扩充词的情感类型,所得词典记作F4
步骤(5)通过基于规则的方法扩充多情感词典。
2.如权利要求1所述的基于语义的弱监督微博多情感词典扩充方法,其特征在于,步骤5,具体过程如下:
规则1:情感符号抽取:抽取连续三个及以上的标点字符串,直接将该标点字符串作为候选情感词;
规则2:微博表情抽取;
规则3:情感词抽取:对以情感符号或微博表情结尾、分词长度小于等于2的字符串开头的微博,直接将文字部分作为候选情感词;
其中,使用规则1、规则2和规则3抽取语料库G中的情感符号及微博表情,作为候选情感词,由辅助验证后,将获取的扩充情感词加入到F4中,记为F5,即最终获取的多分类情感词典。
3.如权利要求1所述的基于语义的弱监督微博多情感词典扩充方法,其特征在于,步骤2中预处理包含:繁体简体转换、分词及词性标注、去除外国词语和多余空格。
CN201710719716.0A 2017-08-21 2017-08-21 一种基于语义的弱监督微博多情感词典扩充方法 Active CN107688630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710719716.0A CN107688630B (zh) 2017-08-21 2017-08-21 一种基于语义的弱监督微博多情感词典扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710719716.0A CN107688630B (zh) 2017-08-21 2017-08-21 一种基于语义的弱监督微博多情感词典扩充方法

Publications (2)

Publication Number Publication Date
CN107688630A true CN107688630A (zh) 2018-02-13
CN107688630B CN107688630B (zh) 2020-05-22

Family

ID=61153532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710719716.0A Active CN107688630B (zh) 2017-08-21 2017-08-21 一种基于语义的弱监督微博多情感词典扩充方法

Country Status (1)

Country Link
CN (1) CN107688630B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491393A (zh) * 2018-03-29 2018-09-04 国信优易数据有限公司 一种情感词情感强度确定方和装置
CN108573694A (zh) * 2018-02-01 2018-09-25 北京百度网讯科技有限公司 基于人工智能的语料扩充及语音合成系统构建方法及装置
CN109344331A (zh) * 2018-10-26 2019-02-15 南京邮电大学 一种基于在线社会网络的用户情感分析方法
CN110489522A (zh) * 2019-07-26 2019-11-22 湖南大学 一种基于用户评分的情感词典构建方法
CN110705266A (zh) * 2019-09-09 2020-01-17 创新奇智(南京)科技有限公司 一种情感分析的方法及装置
CN113535549A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 测试数据的扩充方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162445A1 (en) * 2006-12-29 2008-07-03 Ahmad Ghazal Determining satisfiability and transitive closure of a where clause
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法
CN103530360A (zh) * 2013-10-12 2014-01-22 广西师范学院 基于微博文本情感计算的网络社会影响最大化算法
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN106202584A (zh) * 2016-09-20 2016-12-07 北京工业大学 一种基于标准词典和语义规则的微博情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162445A1 (en) * 2006-12-29 2008-07-03 Ahmad Ghazal Determining satisfiability and transitive closure of a where clause
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法
CN103530360A (zh) * 2013-10-12 2014-01-22 广西师范学院 基于微博文本情感计算的网络社会影响最大化算法
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN106202584A (zh) * 2016-09-20 2016-12-07 北京工业大学 一种基于标准词典和语义规则的微博情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵天奇 等: "语义规则与表情加权融合的微博情感分析方法", 《重庆邮电大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573694A (zh) * 2018-02-01 2018-09-25 北京百度网讯科技有限公司 基于人工智能的语料扩充及语音合成系统构建方法及装置
CN108491393A (zh) * 2018-03-29 2018-09-04 国信优易数据有限公司 一种情感词情感强度确定方和装置
CN108491393B (zh) * 2018-03-29 2022-05-20 国信优易数据股份有限公司 一种情感词情感强度确定方和装置
CN109344331A (zh) * 2018-10-26 2019-02-15 南京邮电大学 一种基于在线社会网络的用户情感分析方法
CN110489522A (zh) * 2019-07-26 2019-11-22 湖南大学 一种基于用户评分的情感词典构建方法
CN110705266A (zh) * 2019-09-09 2020-01-17 创新奇智(南京)科技有限公司 一种情感分析的方法及装置
CN113535549A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 测试数据的扩充方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN107688630B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN107273348B (zh) 一种文本的话题和情感联合检测方法及装置
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN111125360B (zh) 游戏领域的情感分析方法、装置及其模型训练方法、装置
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN105512110B (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN110705291A (zh) 基于无监督学习的思想政治教育领域文献分词方法及系统
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
US20200184345A1 (en) Method and system for generating a transitory sentiment community
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
US20220148049A1 (en) Method and system for initiating an interface concurrent with generation of a transitory sentiment community
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
US11605004B2 (en) Method and system for generating a transitory sentiment community
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
CN108038166A (zh) 一种基于词项主客观偏向性的中文微博情感分析方法
CN110765762B (zh) 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN114969294A (zh) 一种音近敏感词的扩展方法
CN110069780B (zh) 一种基于特定领域文本的情感词识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201120

Address after: A5, block D, Xisanqi cultural science and Technology Park, yard 27, xixiaokou Road, Haidian District, Beijing 100085

Patentee after: Goonie International Software (Beijing) Co.,Ltd.

Address before: 100124 Chaoyang District, Beijing Ping Park, No. 100

Patentee before: Beijing University of Technology