CN106874275B - 构建情感词典的方法及装置 - Google Patents

构建情感词典的方法及装置 Download PDF

Info

Publication number
CN106874275B
CN106874275B CN201510917819.9A CN201510917819A CN106874275B CN 106874275 B CN106874275 B CN 106874275B CN 201510917819 A CN201510917819 A CN 201510917819A CN 106874275 B CN106874275 B CN 106874275B
Authority
CN
China
Prior art keywords
emotional
sub
label
emotion
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510917819.9A
Other languages
English (en)
Other versions
CN106874275A (zh
Inventor
郭向前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feinno Communication Technology Co Ltd
Original Assignee
Beijing Feinno Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feinno Communication Technology Co Ltd filed Critical Beijing Feinno Communication Technology Co Ltd
Priority to CN201510917819.9A priority Critical patent/CN106874275B/zh
Publication of CN106874275A publication Critical patent/CN106874275A/zh
Application granted granted Critical
Publication of CN106874275B publication Critical patent/CN106874275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种构建情感词典的方法及装置,属于信息技术领域。该方法包括:获取多个待识别的建模语料;从每个待识别的建模语料中,获取至少一个情感特征词;对于任一情感特征词,获取对情感特征词的至少两个标注结果,至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件;如果情感特征词满足预设条件,将情感特征词加入到情感词典中。本发明不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。

Description

构建情感词典的方法及装置
技术领域
本发明涉及信息技术领域,特别涉及一种构建情感词典的方法及装置。
背景技术
随着信息技术的发展,终端普及率的提高,越来越多用户借助终端中安装的微博、微信等社交应用来表达自己的意见、观点、态度。例如,对政治人物、娱乐人物、热点人物的个人喜好;对某类产品的用后评价与建议;对社会政治事件的看法、立场;对自己的心情、感受的宣泄等。通常用于表达自己的意见、观点、态度的词语往往具有一定的情感倾向,基于这些词语所构建的情感词典,具有十分重要的意义,可用于个人形象的维护、企业营销管理及品牌宣传、商家对产品的改进、政府对舆情控制等方面。
目前,构建情感词典的方法为:专业标注人员对从社交应用中获取到的海量语料进行筛选,选取情感特征词,为情感特征词标注相应的分类情感标签,得到包括情感特征词及对应分类情感标签的情感词典。
然而,随着网络语言的不断发展,各种新词语层出不穷,加上各种网络符号也常被用来表达用户情感,单纯依赖专业标注人员很难全面地、准确地对社交应用中的情感特征词进行标注,使得构建情感词典准确性较低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种构建情感词典的方法及装置。所述技术方案如下:
一方面,提供了一种构建情感词典的方法,所述方法包括:
获取多个待识别的建模语料;
从每个待识别的建模语料中,获取至少一个情感特征词;
对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;
如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中。
可选地,所述从每个待识别的建模语料中,获取至少一个情感特征词,包括:
采用指定分词算法将每个待识别的建模语料切分为多个语素片;
对所述多个语素片进行过滤,得到至少一个情感特征词。
可选地,所述对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,包括:
将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;
接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;
将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;
接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;
将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。
可选地,所述根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件,包括:
对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;
判断所述总标记数是否大于第一阈值;
如果所述总标记数大于所述第一阈值,则根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;
获取每种分类结果在所述总标记数中所占的比值;
从每种分类结果在对所述总标记数中所占的比值中,获取最大比值;
判断所述最大比值是否大于第二阈值;
如果所述最大比值大于所述第二阈值,则确定所述情感特征词满足预设条件。
可选地,所述如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中,包括:
将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。
可选地,所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、羞子标签;所述恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;所述惊标签包括惊奇子标签。
另一方面,提供了一种构建情感词典的装置,所述装置包括:
第一获取模块,用于获取多个待识别的建模语料;
第二获取模块,用于从每个待识别的建模语料中,获取至少一个情感特征词;
第三获取模块,用于对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
判断模块,用于根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;
加入模块,用于当所述情感特征词满足所述预设条件时,将所述情感特征词加入到情感词典中。
可选地,所述第二获取模块,用于采用指定分词算法将每个待识别的建模语料切分为多个语素片;对所述多个语素片进行过滤,得到至少一个情感特征词。
可选地,所述第三获取模块,用于将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感词标签;将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。
可选地,所述判断模块,用于对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;判断所述总标记数是否大于第一阈值;当所述总标记数大于所述第一阈值时,根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;
获取每种分类结果在所述总标记数中所占的比值;从每种分类结果在所述总标记数中所占的比值中,获取最大比值;判断所述最大比值是否大于第二阈值;当所述最大比值大于所述第二阈值时,确定所述情感特征词满足预设条件。
可选地,所述加入模块,用于将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。
可选地,所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、羞子标签;所述恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;所述惊标签包括惊奇子标签。
本发明实施例提供的技术方案带来的有益效果是:
不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种构建情感词典的方法流程图;
图2是本发明另一个实施例提供的一种构建情感词典的方法流程图;
图3是本发明另一个实施例提供的一种社交应用签名档的设置界面的示意图;
图4是本发明另一个实施例提供的一种构建情感词典的装置结构示意图;
图5是本发明另一个实施例提供的一种用于构建情感词典的装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
随着信息技术的发展,越来越多的用户借助微博、微信等社交应用来表达自己情感等,相应地,用于承载用户情感的语料数量也急剧增长。如果单纯依赖专业标注人员对社交应用中的海量语料进行识别,不仅难度非常大,而且准确性很难得到保证,而如果以人工标注的情感特征词为基准词,采用语义相似性计算的方法对社交应用中的海量语料进行识别,由于社交应用中的语料长度较短,在对基准词与社交应用中的语料进行相似性计算时,社交应用中的语料常常被过滤掉,无法识别出新的情感特征词。为此,本发明实施例提供了一种构建情感词典的方法,参见图1,本发明实施例提供的方法流程包括:
101、待识别的建模语料。
102、从每个待识别的建模语料中,获取至少一个情感特征词。
103、对于任一情感特征词,获取对情感特征词的至少两个标注结果,该至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签。
104、根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件。
105、如果情感特征词满足预设条件,将情感特征词加入到情感词典中。
本发明实施例提供的方法,不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。
在本发明的另一个实施例中,从每个待识别的建模语料中,获取至少一个情感特征词,包括:
采用指定分词算法将每个待识别的建模语料切分为多个语素片;
对多个语素片进行过滤,得到至少一个情感特征词。
在本发明的另一个实施例中,对于任一情感特征词,获取对情感特征词的至少两个标注结果,包括:
将情感特征词及分类情感标签列表发送至发表者所在的移动终端,分类情感标签列表中包括多个分类情感标签;
接收发表者所在移动终端发送的第一标注结果,第一标注结果为发表者从分类情感标签列表中,为情感特征词所选取的分类情感标签;
将情感特征词及分类情感标签列表发送至多个接收者所在的移动终端;
接收每个接收者所在的移动终端发送的第二标注结果,第二标注结果为接收者从分类情感标签列表中,为情感特征词所选取的分类情感标签;
将第一标注结果及多个第二标注结果作为至少两个标注结果。
在本发明的另一个实施例中,根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件,包括:
对情感特征词的至少两个标注结果进行统计,得到对情感特征词的总标记数;
判断总标记数是否大于第一阈值;
如果总标记数大于第一阈值,则根据每个标注结果对应的分类情感标签,将至少两个标注结果划分为多种分类结果;
获取每种分类结果在总标记数中所占的比值;
从每种分类结果在总标记数中所占的比值中,获取最大比值;
判断最大比值是否大于第二阈值;
如果最大比值大于第二阈值,则确定情感特征词满足预设条件。
在本发明的另一个实施例中,如果情感特征词满足预设条件,将情感特征词加入到情感词典中,包括:
将情感特征词及最大比值对应的分类情感标签加入到情感词典中。
在本发明的另一个实施例中,分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;怒标签包括愤怒子标签;哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;惧标签包括慌子标签、恐惧子标签、羞子标签;恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;惊标签包括惊奇子标签。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本发明实施例提供了一种构建情感词典的方法,参见图2,本发明实施例提供的方法流程包括:
201、服务器获取多个待识别的建模语料。
在自然语言处理领域,语料为各个长度不同的中文文本的统称。实际上,语料可以为一个段落、一句话,甚至是一个词。在对大量语料进行研究时发现,语料中包含的情感特征词具有相似的特征,基于这些情感特征词构建的情感词典,是情感分类研究中的基础数据,情感词典的准确性、覆盖率在很大程度上决定了情感分类效果。
在社交应用中,为了便于用户发表自己的感想,一般会提供签名档,其中,签名档由发表者自行撰写并进行更换,为显示在接收者好友列表中该发表者ID(Identity,身份)后的语料信息。通常签名档的设置界面中具有多个功能选项,参见图3中社交应用签名档的设置界面,签名档的设置界面上包含发布选项、可见范围选项、文本区域、表情选项等。在不同社交应用中签名档有着不同的名称,例如,在飞信中将签名档称为心情短语,微信中将签名档称为个性签名。发表者通过在签名档中填写用于表达情感的词语或表情等可以生成一条新的签名档,发表者通过移动终端将新的签名档发送至服务器,由服务器对多个具有接收权限的接收者的好友列表中该发表者的签名档进行更新。
本实施例中,服务器在获取待识别的建模语料时,可采用随机选取的方式,从社交应用中获取预设数量的签名档,并将获取到的签名档作为建模语料。其中,预设数量可以为200个、300个、500个等,本发明实施例对此不作限定。当然,为了保证识别结果的准确性,在从社交应用中获取建模语料时,所获取到的建模语料的数量越多越好。
202、从每个待识别的建模语料中,服务器获取至少一个情感特征词。
由于本实施例中获取建模语料的目的,是为了对建模语料中包含的情感特征词进行标注,以根据标注结果构建情感词典,而本实施例中随机获取到的每个建模语料中不仅包含着情感特征词,而且还包含着其他类型的词。为了减少对建模语料进行处理时的计算量,提高标注速度,服务器还将从每个待识别的建模语料中,获取至少一个情感特征词。具体获取过程如下:
首先,服务器采用指定分词算法将每个待识别的建模语料切分为多个语素片。
其中,指定分词算法可以为ICTACLAS(Institute of Computing TechnologyChinese Lexical Analysis System,汉语语法分词系统)算法、最大正向匹配算法等。本实施例以采用ICTACLAS算法为例,对每个待识别的建模语料进行分词。其中,ICTACLAS算法具有中文分词、词性标注、命名实体识别、新词识别、支持繁体中文、支持GBK、UTF-8、UTF-7、UNICODE等多种编码格式的功能,可将中文语料切分为字、词和短语。由于中文语料是以连续的字符串形式出现的,词与词之间没有间隔,因此,当建模语料为中文语料时,服务器还需要进行特别的处理。具体处理过程如下:
Figure BDA0000874075520000101
通过采用上述分词处理方式,服务器将每个待识别的建模语料切分为多个语素片。
其次,服务器对多个语素片进行过滤,得到至少一个情感特征词。
通常所划分的语素片并不全部都有意义,因而无需将多个语素片全部作为情感特征词,为此,服务器可对多个语素片进行过滤,将多个语素片中的停用词、单字词、以及情感词典中已有的情感特征词过滤掉。其中,停用词为在信息检索中,为节省存储空间和提高搜索效率,自动过滤掉的字词。停用词一般为没有实质意义的功能词,如一个、这个、这些等等。
需要说明的是,上述为从每个待识别的建模语料中,获取至少一个情感特征词的一种方式,为了弥补采用指定分词算法产生的错误,本实施例中建模语料的发表者还可以自主地从建模语料中指定情感特征词。
203、对于任一情感特征词,服务器获取对情感特征词的至少两个标注结果,该至少两个标注结果由发表者及多个接收者标注。
为了便于对情感特征词进行标注,本实施例提供的方法还将预先构建一个初始情感词典,该初始情感词典包括分类情感标签列表及对应的情感特征词。其中,分类情感标签列表中包括多个分类情感标签,分别为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签。为了按照情感强度和复杂度对每个情感标签进行区别及细化,每个分类情感标签中包括多个子标签。其中,好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签等;怒标签包括愤怒子标签等;哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签等;惧标签包括慌子标签、恐惧子标签、羞子标签等;恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签等;惊标签包括惊奇子标签等。为了更为直观地展示初始情感词典中的内容,下面以表1为例进行说明。
表1
Figure BDA0000874075520000111
Figure BDA0000874075520000121
通常初始情感词典中的情感特征词及对应的情感分类标签,主要来源于现有的词典、词库,由专业标注人员标注得到。对于预先构建的初始情感词典并不要求完整,例如,表2是分类情感标签乐标签对应的情感特征词,为了便于叙述采用PA代表乐标签。
表2
Figure BDA0000874075520000122
Figure BDA0000874075520000131
对于任一情感特征词,服务器在获取对情感特征词的至少两个标注结果时,可采用如下步骤(1)~(5)。
(1)、服务器将情感特征词及分类情感标签列表发送至发表者所在的移动终端。
通常情感特征词的发表者最为清楚情感特征词所要表达的情感,为了获取到情感特征词准确的标注结果,服务器可将情感特征词及初始情感词典中的情感标签列表发送至发表者所在的移动终端。
(2)、服务器接收发表者所在移动终端发送的第一标注结果,该第一标注结果为发表者从分类情感标签列表中,为情感特征词所选取的分类情感标签。
当接收到服务器发送的情感特征词及情感标签列表,发表者从分类情感标签列表中选取能够表达自己心情的情感特征词,得到第一标注结果。对于用户自定义选取的情感特征词,用户也需为该情感特征词选取一个分类情感标签。
当为每个情感特征词选取一个分类情感标签之后,发表者所在的移动终端将第一标注结果发送至服务器,由服务器进行存储。
(3)、服务器将情感特征词及分类情感标签列表发送至多个接收者所在的移动终端。
在发表者签名档中的信息发布之后,具有接收权限的接收者在好友列表中该发表者ID后显示签名档中的信息,当接收者查看签名档中的信息详情时,服务器将情感特征词及分类情感标签列表发送至每个接收者所在的移动终端。
(4)、服务器接收每个接收者所在的移动终端发送的第二标注结果,该第二标注结果为接收者从分类情感标签列表中,为情感特征词所选取的分类情感标签。
当每个接收者所在的移动终端接收到情感特征词及分类情感标签列表,每个接收者根据自己对情感特征词的理解,从分类情感标签列表中为该情感特征词选取一个分类情感标签,得到第二标注结果,并将第二标注结果发送至服务器。
(5)、服务器将第一标注结果及多个第二标注结果作为至少两个标注结果。
204、根据对情感特征词的至少两个标注结果,服务器判断情感特征词是否满足预设条件,如果是,执行步骤205,如果否,执行步骤206。
当发表者对情感特征词进行自标注和多个接收者对情感特征词进行互标注之后,情感特征词被服务器放入到候选词库,候选词库中包括情感特征词、对情感特征词的至少两种标注结果。对于候选词库中的情感特征词,需要定时轮询,以判断是否满足预设条件,进而根据判断结果采用不同的方式进行处理。目前,在判断情感特征词是否满足预设条件时,一般采用最大投票法,这是基于大多数用户对情感特征词的判断比较一致的情况下做出的最优选择。用户自标注和互标注一个情感特征词的分类情感标签,相当于对某个分类情感标签进行投票,本发明正是基于对分类情感标签的投票总数及每个分类情感标签的得票数进行判断的。
具体地,服务器根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件时,可先对情感特征词的至少两个标注结果进行统计,得到对情感特征词的总标记数,进而判断该总标记数是否大于第一阈值,如果该总标记数大于第一阈值,则根据每个标注结果对应的分类情感标签,将至少两个标注结果划分为多种分类结果。之后,服务器获取每种分类结果在总标记数中所占的比值,并从每种分类结果在总标记数中所占的比值中,获取最大比值,进而判断该最大比值是否大于第二阈值,如果该最大比值大于第二阈值,则服务器可确定情感特征词满足预设条件。其中,第一阈值为参与标注的用户数的阈值,可为100、200、500等。第二阈值为分类情感标签占投票总数的比例阈值,该第二阈值可以为60%、70%、80%等,本实施例不对第二阈值作具体的限定。对于上述判断过程,可采用如下算法进行计算:
设定情感特征词对应的分类情感标签即分类结果为i=1、2、…j,每个分类结果的得票数分别为M1、M2、….Mj,对情感特征词的总标记数为N,其中,
Figure BDA0000874075520000151
则当N>=X时,每个分类结果在总标记数中所占的比值分别为(M1、M2、….Mj)/N,如果Max(M1、M2、….Mj)/N>Y,则确定情感特征词满足预设条件。其中,X为第一阈值,Y为第二阈值。
205、服务器将该情感特征词加入到情感词典中。
当判断出情感特征词满足预设条件,服务器将情感特征词及情感特征词的最大比值对应的分类情感标签加入到情感词典中。
206、服务器忽略该情感特征词。
当判断出情感特征词不满足预设条件,服务器不会将该情感特征词加入到情感词典中。
本发明实施例提供的方法,不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。
参见图4,本发明实施例提供了一种构建情感词典的装置,该装置包括:
第一获取模块401,用于获取多个待识别的建模语料;
第二获取模块402,用于从每个待识别的建模语料中,获取至少一个情感特征词;
第三获取模块403,用于对于任一情感特征词,获取对情感特征词的至少两个标注结果,至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
判断模块404,用于根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件;
加入模块405,用于当情感特征词满足预设条件时,将情感特征词加入到情感词典中。
在本发明的另一个实施例中,第二获取模块402,用于采用指定分词算法将每个待识别的建模语料切分为多个语素片;对多个语素片进行过滤,得到至少一个情感特征词。
在本发明的另一个实施例中,第三获取模块403,用于将情感特征词及分类情感标签列表发送至发表者所在的移动终端,分类情感标签列表中包括多个分类情感标签;接收发表者所在移动终端发送的第一标注结果,第一标注结果为发表者从分类情感标签列表中,为情感特征词所选取的分类情感标签;将情感特征词及分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,第二标注结果为接收者从分类情感标签列表中,为情感特征词所选取的分类情感标签;将第一标注结果及多个第二标注结果作为至少两个标注结果。
在本发明的另一个实施例中,判断模块404,用于对情感特征词的至少两个标注结果进行统计,得到对情感特征词的总标记数;判断总标记数是否大于第一阈值;当总标记数大于第一阈值时,根据每个标注结果对应的分类情感标签,将至少两个标注结果划分为多种分类结果;获取每种分类结果在总标记数中所占的比值;从每种分类结果在总标记数中所占的比值中,获取最大比值;判断最大比值是否大于第二阈值;当最大比值大于第二阈值时,确定情感特征词满足预设条件。
在本发明的另一个实施例中,加入模块405,用于将情感特征词及最大比值对应的分类情感标签加入到情感词典中。
在本发明的另一个实施例中,分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;怒标签包括愤怒子标签;哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;惧标签包括慌子标签、恐惧子标签、羞子标签;恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;惊标签包括惊奇子标签。
本发明实施例提供的装置,不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。
图5是根据一示例性实施例示出的一种用于构建情感词典的装置500的框图。例如,装置500可以被提供为一构建情感词典的服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述的构建情感词典的方法,该方法包括:
获取多个待识别的建模语料;
从每个待识别的建模语料中,获取至少一个情感特征词;
对于任一情感特征词,获取对情感特征词的至少两个标注结果,至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件;
如果情感特征词满足预设条件,将情感特征词加入到情感词典中。
在本发明的另一个实施例中,从每个待识别的建模语料中,获取至少一个情感特征词,包括:
采用指定分词算法将每个待识别的建模语料切分为多个语素片;
对多个语素片进行过滤,得到至少一个情感特征词。
在本发明的另一个实施例中,对于任一情感特征词,获取对情感特征词的至少两个标注结果,包括:
将情感特征词及分类情感标签列表发送至发表者所在的移动终端,分类情感标签列表中包括多个分类情感标签;
接收发表者所在移动终端发送的第一标注结果,第一标注结果为发表者从分类情感标签列表中,为情感特征词所选取的分类情感标签;
将情感特征词及分类情感标签列表发送至多个接收者所在的移动终端;
接收每个接收者所在的移动终端发送的第二标注结果,第二标注结果为接收者从分类情感标签列表中,为情感特征词所选取的分类情感标签;
将第一标注结果及多个第二标注结果作为至少两个标注结果。
在本发明的另一个实施例中,根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件,包括:
对情感特征词的至少两个标注结果进行统计,得到对情感特征词的总标记数;
判断总标记数是否大于第一阈值;
如果总标记数大于第一阈值,则根据每个标注结果对应的分类情感标签,将至少两个标注结果划分为多种分类结果;
获取每种分类结果在总标记数中所占的比值;
从每种分类结果总标记数中所占的比值中,获取最大比值;
判断最大比值是否大于第二阈值;
如果最大比值大于第二阈值,则确定情感特征词满足预设条件。
在本发明的另一个实施例中,如果情感特征词满足预设条件,将情感特征词加入到情感词典中,包括:
将情感特征词及最大比值对应的分类情感标签加入到情感词典中。
在本发明的另一个实施例中,分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;怒标签包括愤怒子标签;哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;惧标签包括慌子标签、恐惧子标签、羞子标签;恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;惊标签包括惊奇子标签。
服务器500还可以包括一个电源组件526被配置为执行服务器500的电源管理,一个有线或无线网络接口550被配置为将服务器500连接到网络,和一个输入输出(I/O)接口558。服务器500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本发明实施例提供的装置,不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。
需要说明的是:上述实施例提供的构建情感词典的装置在构建情感词典时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将构建情感词典的装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的构建情感词典的装置与构建情感词典的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种构建情感词典的方法,其特征在于,所述方法包括:
获取多个待识别的建模语料;
从每个待识别的建模语料中,获取至少一个情感特征词;
对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;
如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中,
所述对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,包括:
将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;
接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;
将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;
接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;
将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。
2.根据权利要求1所述的方法,其特征在于,所述从每个待识别的建模语料中,获取至少一个情感特征词,包括:
采用指定分词算法将每个待识别的建模语料切分为多个语素片;
对所述多个语素片进行过滤,得到至少一个情感特征词。
3.根据权利要求1所述的方法,其特征在于,所述根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件,包括:
对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;
判断所述总标记数是否大于第一阈值;
如果所述总标记数大于所述第一阈值,则根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;
获取每种分类结果在所述总标记数中所占的比值;
从每种分类结果在所述总标记数中所占的比值中,获取最大比值;
判断所述最大比值是否大于第二阈值;
如果所述最大比值大于所述第二阈值,则确定所述情感特征词满足预设条件。
4.根据权利要求3所述的方法,其特征在于,所述如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中,包括:
将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。
5.根据权利要求1所述的方法,其特征在于,所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、羞子标签;所述恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;所述惊标签包括惊奇子标签。
6.一种构建情感词典的装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个待识别的建模语料;
第二获取模块,用于从每个待识别的建模语料中,获取至少一个情感特征词;
第三获取模块,用于对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
判断模块,用于根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;
加入模块,用于当所述情感特征词满足所述预设条件时,将所述情感特征词加入到情感词典中,
所述第三获取模块,用于将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。
7.根据权利要求6所述的装置,其特征在于,所述第二获取模块,用于采用指定分词算法将每个待识别的建模语料切分为多个语素片;对所述多个语素片进行过滤,得到至少一个情感特征词。
8.根据权利要求6所述的装置,其特征在于,
所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、羞子标签;所述恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;所述惊标签包括惊奇子标签。
9.根据权利要求6所述的装置,其特征在于,所述判断模块,用于对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;判断所述总标记数是否大于第一阈值;当所述总标记数大于所述第一阈值时,根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;
获取每种分类结果在所述总标记数中所占的比值;从每种分类结果在所述总标记数中所占的比值中,获取最大比值;判断所述最大比值是否大于第二阈值;当所述最大比值大于所述第二阈值时,确定所述情感特征词满足预设条件;
所述加入模块,用于将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。
CN201510917819.9A 2015-12-10 2015-12-10 构建情感词典的方法及装置 Active CN106874275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510917819.9A CN106874275B (zh) 2015-12-10 2015-12-10 构建情感词典的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510917819.9A CN106874275B (zh) 2015-12-10 2015-12-10 构建情感词典的方法及装置

Publications (2)

Publication Number Publication Date
CN106874275A CN106874275A (zh) 2017-06-20
CN106874275B true CN106874275B (zh) 2020-02-07

Family

ID=59177217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510917819.9A Active CN106874275B (zh) 2015-12-10 2015-12-10 构建情感词典的方法及装置

Country Status (1)

Country Link
CN (1) CN106874275B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851569B (zh) * 2019-11-12 2022-11-29 北京创鑫旅程网络技术有限公司 数据处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104063399A (zh) * 2013-03-22 2014-09-24 杭州金弩信息技术有限公司 一种自动识别文本所承载的情感概率的方法及系统
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063399A (zh) * 2013-03-22 2014-09-24 杭州金弩信息技术有限公司 一种自动识别文本所承载的情感概率的方法及系统
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向微博短文本的情感分析研究;杜振雷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140615(第06期);I138-1175 *

Also Published As

Publication number Publication date
CN106874275A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
Farías et al. Irony detection in twitter: The role of affective content
Purver et al. Experimenting with distant supervision for emotion classification
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
Sykora et al. A qualitative analysis of sarcasm, irony and related# hashtags on Twitter
Khan et al. TOM: Twitter opinion mining framework using hybrid classification scheme
US10515125B1 (en) Structured text segment indexing techniques
CN108604228B (zh) 用于多层单词表示的语言特征生成的系统和方法
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
Donato et al. Investigating redundancy in emoji use: Study on a twitter based corpus
US10796095B2 (en) Prediction of tone of interpersonal text communications
CN107798622B (zh) 一种识别用户意图的方法和装置
Reganti et al. Modeling satire in English text for automatic detection
CN111506794A (zh) 一种基于机器学习的谣言管理方法和装置
Qiu et al. Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion
US11030533B2 (en) Method and system for generating a transitory sentiment community
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
Muzny et al. Dialogism in the novel: A computational model of the dialogic nature of narration and quotations
Anbukkarasi et al. Deep learning-based hate speech detection in code-mixed Tamil text
Xu et al. RIP emojis and words to contextualize mourning on Twitter
CN111199151A (zh) 数据处理方法、及数据处理装置
CN106874275B (zh) 构建情感词典的方法及装置
Jung et al. A corpus-based approach to classifying emotions using Korean linguistic features
Li et al. Twitter sentiment analysis of the 2016 US Presidential Election using an emoji training heuristic
CN113486649A (zh) 文本评论的生成方法以及电子设备
Magistry et al. Sentiment detection in micro-blogs using unsupervised chunk extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080

Patentee after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building block A room 602

Patentee before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder