CN107945033A - 一种网络舆情的分析方法、系统及相关装置 - Google Patents

一种网络舆情的分析方法、系统及相关装置 Download PDF

Info

Publication number
CN107945033A
CN107945033A CN201711121514.2A CN201711121514A CN107945033A CN 107945033 A CN107945033 A CN 107945033A CN 201711121514 A CN201711121514 A CN 201711121514A CN 107945033 A CN107945033 A CN 107945033A
Authority
CN
China
Prior art keywords
emotion
vocabulary
mark
emotion vocabulary
language material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711121514.2A
Other languages
English (en)
Inventor
李勇
高亮
杨威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201711121514.2A priority Critical patent/CN107945033A/zh
Publication of CN107945033A publication Critical patent/CN107945033A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种网络舆情的分析方法,包括:分别从第一预设路径和第二预设路径获取基础情感词汇和拓展情感词汇,并建立目标情感词库;对目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,并对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表;获取待分析语料,并利用目标情感分类词表计算待分析语料的情感极性强度和情感值,以对网络舆情进行更好的分析。能够有效避免不良情绪的集聚和极化,为有关部门把握用户情感倾向、引导网络舆情发展导向提供了参考和理论基础。本申请还同时公开了一种网络舆情的分析系统、装置及计算机可读存储介质,具有上述有益效果。

Description

一种网络舆情的分析方法、系统及相关装置
技术领域
本申请涉及网络信息情感指向技术领域,特别涉及一种网络舆情的分析方法、系统、装置及计算机可读存储介质。
背景技术
随着互联网时代的来临,人们通过各种渠道发表自己对各种事物的见解,就像那句1000个人就有1000个哈姆雷特一样,不同的人对相同的事物有着不同的看法,通常这些看法都是每个见解发表者自身的真实想法,但不尽然。
相信我们都有类似的习惯,不管是在电商上购买东西,还是在帖子或微博上看到各种热点事件,都会习惯性的看下方的评论,有时其它人的评论会带有明显的个人情感指向,就好像针对在关于某个明星的事件中,就会分为明显的支持派和否定派。
在这两派本就剑拔弩张的气氛中,若有人发出类似群体嘲讽的过激言论,很容易导致两派用户的情绪失控,而失控的情绪将可能引发极端情绪或态度出现,据此产生情感的群体极化现象,不仅扰乱了社会秩序,也严重威胁到了普通百姓的日常生产和生活。
所以,如何针对上述内容存在的问题,提供一种能够对网络舆情进行更好的分析的网络舆情分析机制是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种网络舆情的分析方法,其通过新增情感词汇极性和强度的标注规则以及遵照更加合理的分类方式构建的目标情感分类词表,来对网络上的事件进行舆情分析,以使在得到具有代表性的分析结果后做出相应的引导,能够有效避免不良情绪的集聚和极化,为有关部门把握用户情感倾向、引导网络舆情发展导向提供了参考和理论基础。
遵循上述目的,本申请还提供而来一种网络舆情的分析系统、装置及计算机可读存储介质。
为实现上述目的,本申请提供一种网络舆情的分析方法,该分析方法包括:
从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇,并利用所述基础情感词汇和所述拓展情感词汇建立目标情感词库;
对所述目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,并对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表;
获取待分析语料,并利用所述目标情感分类词表计算所述待分析语料的情感极性强度和情感值,以利用分析结果对网络舆情进行引导。
可选的,从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇包括:
从How Net、NTUSD、中文情感词汇本体库以及中文褒贬义词典中获取第一情感词汇;
对所述第一情感词汇依次进行分类操作和去重操作,得到所述基础情感词汇;
从微博、热点论坛以及各搜索引擎上获取未处理语料;
对所述未处理语料依次进行垃圾标签过滤操作、中文分词操作、去停用词操作,得到处理后语料;
从所述处理后语料中按预设提取方式得到事件初始关键词,并利用所述事件初始关键词在所述处理后语料中得到所述拓展情感词汇。
可选的,对所述目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,包括:
按照所述How Net对情感词汇的义项标注规则对所述目标情感词库中的所有情感词汇进行义项标注,得到原规则标注后情感词汇;
增加情感词汇极性标注规则和情感词汇强度标注规则,并利用新增的两项标注规则对所述原规则标注后情感词汇进行极性和强度标注,得到最终标注情感词汇。
可选的,对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表,包括:
对所述最终标注情感词汇按照Ekman六大类情感体系以及传统七情分类标准进行分类,得到所述目标情感分类词表。
可选的,所利用所述目标情感分类词表计算所述待分析语料的情感极性强度和情感值,包括:
将所述待分析语料按预设拆分规则拆分为相应数量的子句;
利用所述目标情感分类词表按预设极性强度判别公式计算各所述子句的情感极性强度值;
将各所述子句的情感极性强度值进行求和计算,得到情感极性强度总值;
识别得到各所述子句的句型种类,并根据预设的句型种类与对应情感值之间的对应关系,得到各所述子句对应的情感值;
将将各所述子句的情感值进行求和计算,得到情感总值。
为实现上述目的,本申请还提供了一种网络舆情的分析系统,该分析系统包括:
目标情感词库建立单元,用于从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇,并利用所述基础情感词汇和所述拓展情感词汇建立目标情感词库;
规则标注单元,用于对所述目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,并对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表;
网络舆情分析单元,用于获取待分析语料,并利用所述目标情感分类词表计算所述待分析语料的情感极性强度和情感值,以利用分析结果对网络舆情进行引导。
可选的,所述目标情感词库建立单元包括:
原有词典获取子单元,用于从How Net、NTUSD、中文情感词汇本体库以及中文褒贬义词典中获取第一情感词汇;
基础情感词汇获取子单元,用于对所述第一情感词汇依次进行分类操作和去重操作,得到所述基础情感词汇;
未处理语料获取子单元,用于从微博、热点论坛以及各搜索引擎上获取未处理语料;
第二处理子单元,用于对所述未处理语料依次进行垃圾标签过滤操作、中文分词操作、去停用词操作,得到处理后语料;
拓展情感词汇获取子单元,用于从所述处理后语料中按预设提取方式得到事件初始关键词,并利用所述事件初始关键词在所述处理后语料中得到所述拓展情感词汇。
可选的,所述规则标注单元包括;
原有规则标注子单元,用于按照所述How Net对情感词汇的义项标注规则对所述目标情感词库中的所有情感词汇进行义项标注,得到原规则标注后情感词汇;
新增规则标注子单元,用于增加情感词汇极性标注规则和情感词汇强度标注规则,并利用新增的两项标注规则对所述原规则标注后情感词汇进行极性和强度标注,得到最终标注情感词汇;
分类词表建立子单元,用于对所述最终标注情感词汇按照Ekman六大类情感体系以及传统七情分类标准进行分类,得到所述目标情感分类词表。
为实现上述目的,本申请还提供了一种网络舆情的分析设备,该分析设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述内容所描述的网络舆情的分析方法的步骤。
为实现上述目的,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述内容所描述的网络舆情的分析方法的步骤。
本申请所提供的一种网络舆情的分析方法,从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇,并利用所述基础情感词汇和所述拓展情感词汇建立目标情感词库;对所述目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,并对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表;获取待分析语料,并利用所述目标情感分类词表计算所述待分析语料的情感极性强度和情感值,以利用分析结果对网络舆情进行引导。
显然,本申请所提供的技术方案,其通过新增情感词汇极性和强度的标注规则以及遵照更加合理的分类方式构建的目标情感分类词表,来对网络上的事件进行舆情分析,以使在得到具有代表性的分析结果后做出相应的引导,能够有效避免不良情绪的集聚和极化,为有关部门把握用户情感倾向、引导网络舆情发展导向提供了参考和理论基础。本申请同时还提供了一种网络舆情的分析系统、装置及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种网络舆情的分析方法的流程图;
图2为本申请实施例所提供的另一种网络舆情的分析方法的流程图;
图3为本申请实施例所提供的又一种网络舆情的分析方法的流程图;
图4为本申请实施例所提供的一种网络舆情的分析系统的结构框图;
图5为本申请实施例所提供的一种网络舆情分析方法中建立情感分类词表的流程图。
具体实施方式
本申请的核心是提供一种网络舆情的分析方法、系统、装置及计算机可读存储介质,其通过新增情感词汇极性和强度的标注规则以及遵照更加合理的分类方式构建的目标情感分类词表,来对网络上的事件进行舆情分析,以使在得到具有代表性的分析结果后做出相应的引导,能够有效避免不良情绪的集聚和极化,为有关部门把握用户情感倾向、引导网络舆情发展导向提供了参考和理论基础。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
以下结合图1,图1为本申请实施例所提供的一种网络舆情的分析方法的流程图。
其具体包括以下步骤:
S101:从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇,并利用基础情感词汇和拓展情感词汇建立目标情感词库;
本步骤旨在利用网络爬虫从各路径收集情感词汇,以建立起本申请使用的、全面的情感词库。由于本申请的目的是更好的网络舆情导向进行分析,免不了对网络热点词汇进行收集,同时有需要以基础情感词汇作为支撑点,因此可以将情感词汇的获取大体分为两部分,即从一些途径获取基础情感词汇,从另外一些热点词汇聚集处或民众讨论集中处获取拓展情感词汇,来补充基础情感词汇的缺陷,使得目标情感词库更加全面和完善,最终网络舆情分析精确度更高。
存在一些研究机构公开了一些自己汇总的情感词汇,例如知网提供的 How Net、中国台湾大学提供的NTUSD、以及大连理工大学汇总的中文情感本体库和清华大学中文褒贬义词典等其它类似词库,由于形成时间较长,能够较为全面的包含基础情感词汇;至于拓展情感词汇的获取则更加灵活,随着时代的发展,各式新词不断涌入我国并同时在新的语境下赋予老词新的含义等,这就需要我们从新词出现较集中的地方来寻找拓展词汇,诸如:个人空间、微博话题、各种帖子和贴吧以及最活跃的微信公众号及朋友圈等等。当然,上述例子中列举的只是其中的一些,也可以有针对性或在特殊要求的限制下选用最合适的途径来实现,此处并不做具体限定。
其中,在我们从各个途径收集到了大量的情感词汇以及大量未经处理的热点语料后,如何对其进行处理以形成我们最终所需的目标情感词汇也是十分重要的。在这么多的来源中,不可避免的会出现重复词汇、相同词汇的褒贬界定不同以及含义和解读不同的单字等各种现象,处理方式多种多样,只需能够实现本申请后续步骤能够进行处理的目标情感词库即可,此处并不做具体限定,会在后续实施例中进行详细说明。
S102:对目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,并对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表;
在S101的基础上,本步骤旨在为形成的目标情感词库中的所有情感词汇按照统一的标注规则进行义项标注,通常的标注规则包括词性、来源、使用频率等等常见参数,但为实现本申请的目的,创造性的新增两个标注规则,分别为情感词汇极性和极性强度两个规则,旨在通过新增的两个标注规则实现情感词汇极性强度的量化,便于衡量包含多个情感词汇的句子或段落的整体极性强度。
在完成各规则的标注后,还需要按照预设的情感分类方式进行分类,目的为得到全新的、更合适解决背景技术中面临的技术缺陷的情感分类词表。
其中,常见的预设情感分类方式有很多,例如Ekman6大类情感分类体系,包括好、惊、哀、怒、惧、恶,以及其它的情感分类体系,可以根据实际情况灵活选用,由于主要分析的中文语料,还可以参考中文对情感词汇的分类标准来进一步的修改,以更符合国内的真实情况,得到更准确的分析结果。
S103:获取待分析语料,并利用目标情感分类词表计算待分析语料的情感极性强度和情感值,以对网络舆情进行更好的分析。
在S102完成构建目标情感分类词表的基础上,本步骤旨在将获取到的待分析语料通过该目标情感分类词表进行分析情感极性强度和情感值,以便于结合分析结果和网络舆情制定更合适的导向方针,促进和谐社会的构建。
具体计算方式有很多,可以采用逐个待分析语料的整体分析,即串行分析,也可以采用多个待分析语料的并行分析。进一步的,还可以衡量每个待分析语料的长度,是否可以进行拆分以提升分析效率,需要考虑到该语料中各句子的连接紧密性,拆分后的分析结果更加准确还是拆分前等均需要进一步考虑,可以根据实际情况结合采用的设备具有的固有计算性能以及其它影响因素综合考虑和选择最合适的方式。
基于上述技术方案,本申请实施例提供的一种网络舆情的分析方法,其通过新增情感词汇极性和强度的标注规则以及遵照更加合理的分类方式构建的目标情感分类词表,来对网络上的事件进行舆情分析,以使在得到具有代表性的分析结果后做出相应的引导,能够有效避免不良情绪的集聚和极化,为有关部门把握用户情感倾向、引导网络舆情发展导向提供了参考和理论基础。
以下结合图2,图2为本申请实施例所提供的另一种网络舆情的分析方法的流程图。
本实施例是针对上一实施例中S101、S102中如何获取目标情感词库以及如何建立目标情感分类词表所做出的一个具体限定,其它步骤与上一实施例大体相同,相同部分可参见上一实施例相关部分,在此不再赘述。
其具体包括以下步骤:
S201:从How Net、NTUSD、中文情感词汇本体库以及中文褒贬义词典中获取第一情感词汇;
本实施例选用从How Net、NTUSD、中文情感词汇本体库以及中文褒贬义词典中获取第一情感词汇,即该第一情感词汇包含了上述所有来源中的情感词汇。
S202:对第一情感词汇依次进行分类操作和去重操作,得到基础情感词汇;
由于S201获得的第一情感词汇还未经处理,存在各种问题,本步骤旨在经该第一情感词汇先后执行分类操作和去重操作,以简单的进行初步分类以及去除相同和重复的词汇,最终得到可供后续步骤处理的基础情感词汇。
S203:从微博、热点论坛以及各搜索引擎上获取未处理语料;
本实施例从微博、热点论坛以及各搜索引擎上获取未处理语料,因为这些地方一般为热点话题的讨论集中区,具体的,可以利用网络爬虫按预设规则爬取相关热点信息,例如,可为爬虫设定目标信息的最新修改时间来界定哪些内容为最新的信息,当然还有其它方式来实现,可以根据实际情况综合考虑和选择。
S204:对未处理语料依次进行垃圾标签过滤操作、中文分词操作、去停用词操作,得到处理后语料;
在S203的基础上,不同于S202做的简单处理,因为该未处理语料并未经过情感词库提供源的处理,本步骤旨在通过对未处理语料依次进行垃圾标签过滤操作、中文分词操作、去停用词操作,得到处理后语料。
垃圾标签过滤操作类似于筛选网络爬虫爬取到的错误信息,诸如非热点信息或者广告等携带有垃圾标签的内容;中文分词操作是因为获取到的未处理语料一般都整段出现,而不是一个个的单词,需要借助中文分词工具实现从整段到一个个单词的形式;去停用词操作包括利用各大停用词库提供的停用词集过滤待分析语料的停用词,诸如空格或破折号等无明显意义的字符。
经过上述处理的未处理语料最终会得到剩余的一个个情感词汇,即处理后语料。
S205:从处理后语料中按预设提取方式得到事件初始关键词,并利用事件初始关键词在处理后语料中得到拓展情感词汇;
在S204的基础上,本步骤旨在从处理后语料中按预设提取方式得到事件初始关键词,并利用事件初始关键词在处理后语料中得到拓展情感词汇。
其中的一个实现手段为将处理后语料中包含的情感词汇与基础情感词汇对比,去除已经被基础情感词汇包含的情感词汇,将剩余的情感词汇作为事件初始关键词,并利用事件初始关键词在处理后语料中得到全部的拓展情感词汇。
S206:利用基础情感词汇和拓展情感词汇建立目标情感词库;
在经过上述步骤的处理后,间接上已经完成了基础情感词汇和拓展情感词汇的合并工作,因为已经完成了两个词库的去重和对比工作,即可以容易的利用基础情感词汇和拓展情感词汇建立目标情感词库。
S207:按照How Net对情感词汇的义项标注规则对目标情感词库中的所有情感词汇进行义项标注,得到原规则标注后情感词汇;
在S206目标情感词库建立完成的基础上,本步骤旨在采用较成熟的How Net对情感词汇的义项标注规则对目标情感词库中的所有情感词汇进行义项标注,得到原规则标注后情感词汇,因为How Net义项标注规则只是一个满足当时的需要,并不太涉及本申请所要解决的技术问题,故根据我们的需求还需要增加新的标注规则。
S208:增加情感词汇极性标注规则和情感词汇强度标注规则,并利用新增的两项标注规则对原规则标注后情感词汇进行极性和强度标注,得到最终标注情感词汇;
S209:对最终标注情感词汇按照Ekman六大类情感体系以及传统七情分类标准进行分类,得到目标情感分类词表。
在S207的基础上,S208增加情感词汇极性标注规则和情感词汇强度标注规则,并利用新增的两项标注规则对原规则标注后情感词汇进行极性和强度标注,得到最终标注情感词汇。S209则以Ekman六大类情感体系结合我国传统七情六欲的分类标准,最终得到一个更合适中文使用的目标情感分类词表。
以下结合图3,图3为本申请实施例所提供的又一种网络舆情的分析方法的流程图。
本实施例是针对上一实施例中S103中如何利用目标情感分类词表对待分析语料进行舆情计算所做出的一个具体限定,其它步骤与上一实施例大体相同,相同部分可参见上一实施例相关部分,在此不再赘述。
其具体包括以下步骤:
S301:将待分析语料按预设拆分规则拆分为相应数量的子句;
S302:利用目标情感分类词表按预设极性强度判别公式计算各子句的情感极性强度值;
S303:将各子句的情感极性强度值进行求和计算,得到情感极性强度总值;
S304:识别得到各子句的句型种类,并根据预设的句型种类与对应情感值之间的对应关系,得到各子句对应的情感值;
S305:将将各子句的情感值进行求和计算,得到情感总值。
本实施例采用的是将待分析语料首先拆解为一个个子句的方式,在通过预设的计算公式计算得到每个子句包含的情感词汇极性强度和情感值总和,最终得到该待分析语料整体的情感词汇极性强度和情感值,用于最终衡量发布该待分析语料的用户的情感倾向,作为后续分析使用。
其中,情感值区别于极性强度是由于在不同的句型中的相同的极性强度最终表达出来的情感值却不同的原因,例如疑问句、反问句和陈述句之间的区别。而具体的计算公式只代表个人的想法和判定标准,可以根据实际情况和决策者的不同灵活修改,此处并不做具体限定,会在后续实施例中给出一种具体的计算方式。
基于上述技术方案,本申请实施例提供的一种网络舆情的分析方法,其通过新增情感词汇极性和强度的标注规则以及遵照更加合理的分类方式构建的目标情感分类词表,来对网络上的事件进行舆情分析,以使在得到具有代表性的分析结果后做出相应的引导,能够有效避免不良情绪的集聚和极化,为有关部门把握用户情感倾向、引导网络舆情发展导向提供了参考和理论基础。
因为情况复杂,无法一一列举进行阐述,本领域技术人员应能意识到更具本申请提供的基本方法原理结合实际情况可以存在很多的例子,在不付出足够的创造性劳动下,应均在本申请的保护范围内。
下面请参见图4,图4为本申请实施例所提供的一种网络舆情的分析系统的结构框图。
该分析系统可以包括:
目标情感词库建立单元100,用于从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇,并利用基础情感词汇和拓展情感词汇建立目标情感词库;
规则标注单元200,用于对目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,并对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表;
网络舆情分析单元300,用于获取待分析语料,并利用目标情感分类词表计算待分析语料的情感极性强度和情感值,以对网络舆情进行更好的分析。
可选的,目标情感词库建立单元100包括:
原有词典获取子单元,用于从How Net、NTUSD、中文情感词汇本体库以及中文褒贬义词典中获取第一情感词汇;
基础情感词汇获取子单元,用于对第一情感词汇依次进行分类操作和去重操作,得到基础情感词汇;
未处理语料获取子单元,用于从微博、热点论坛以及各搜索引擎上获取未处理语料;
第二处理子单元,用于对未处理语料依次进行垃圾标签过滤操作、中文分词操作、去停用词操作,得到处理后语料;
拓展情感词汇获取子单元,用于从处理后语料中按预设提取方式得到事件初始关键词,并利用事件初始关键词在处理后语料中得到拓展情感词汇。
可选的,规则标注单元200包括;
原有规则标注子单元,用于按照How Net对情感词汇的义项标注规则对目标情感词库中的所有情感词汇进行义项标注,得到原规则标注后情感词汇;
新增规则标注子单元,用于增加情感词汇极性标注规则和情感词汇强度标注规则,并利用新增的两项标注规则对原规则标注后情感词汇进行极性和强度标注,得到最终标注情感词汇;
分类词表建立子单元,用于对最终标注情感词汇按照Ekman六大类情感体系以及传统七情分类标准进行分类,得到目标情感分类词表。
以上各单元可以应用于以下一个具体的实际例子当中,请参见图5,图5 为本申请实施例所提供的一种网络舆情分析方法中建立情感分类词表的流程图:
(1)收集现有情感词表形成目标词汇库:
搜集知网How Net、中国台湾大学NTUSD、大连理工大学情感词表、清华大学中文褒贬义词典将这些词典分类汇总并合并后去重,形成基础目标词汇库;
(2)情感标注
基于How Net义项标注对目标词库中已有的How Net词汇进行自动标注,对HowNet词汇以外的词根据How Net义项标注规则进行手动标注,将含义不明确的单字进行删除,最终形成情感词共34723个。然后,在How Net义项标注的基础上扩展情感词的极性、强度。情感强度分为1,3,5,7,9五个等级,1表示情感强度最小,9表示强度最大;情感极性分为0,1,2三种, 0表示中性,1表示正面,2表示负面,可参见下表1;
表1情感词标注示例
(3)3.情感分类词表构建
对步骤(2)中所得情感词进行所有义原合并与相关性分析,基于影响力较大的Ekman 6大类情感分类体系,同时参考中国传统七情的分类,将 Ekman 6大情感中的“好”细分为“乐”和“好”,最终词汇本体中的情感共分为7大类,包括乐(Happy)、好(Good)、惊(Surprise)、哀(Sad)、怒(Anger)、惧(Fear)、恶(Bad);在7大类情感基础上进行情感细分,最终形成21个情感小类;
(4)分词
提取热门微博的标签,过滤掉垃圾标签,通过Han Lp分词处理法或 ICTCLAS分词处理法对每个语句进行分词处理,去掉分词语句中的停词,即停词库中空格等无用字符,得到去停词语句;对剩余标签进行分词处理;包括中文分词、新词发现、词性标注、关键词提取和命名实体识别等,同时支持BIG5编码、UTF8编码、GBK编码等多种格式。形成事件的初始关键词;利用生成的初始关键词,提取微博中与此关键词相关的词,形成待分析语料;
(5)归并
词语归并处理蕴含步骤(4)之后,归并包括两方面的含义:一是同义词归并。为了避免文本中出现词语不同但含义基本相同的词语,减低情感词表的准确性,需要将含义基本重合的词语视为同义词进行归并处理。二是基于待分析语料的特殊词语归并。对于具体事件的评价与文本表达会因事件的特殊性而有所区别,因此在该事件的情感词扩展中需要将与事件相关的特殊词语进行合并;
(6)过滤
利用百度停用词列表、四川大学停用词库、哈工大停用词表以及中科院计算所中文自然语言处理开放平台发布的中文停用词表,通过这些停用词集过滤掉待分析微博语料的停用词;然后将剩下的词与已有情感词进行匹配后,去掉情感分类词表中已有的情感词,对剩余的少部分情感词进行人工判断,最终提取出新的情感词;
(7)标记
提取新情感词进行情感标记并加入到情感词表中,最终得到一份能够较为全面反映用户情感分类词表;
(8)单条微博文本情感值计算
将文本信息中的其他情感特征,如语气特征、表情特征、否定词和程度词等进行提取和情感标注,并加入到已有的情感词典中。单条文本情感计算规则如下:
第一步,先计算文本中每个子句的情感极性强度F(Si)=∑F(Wi),其中∑F(Wi)为句子中所有情感词的极性强度之和;第二步:再考虑句型特征计算句子情感值F'(Si)计算方法如表2所示;第三步:最后计算文本Si的情感值 F(Si)=∑F(Si)文本的情感值等于其中每个子句情感值的总和。通过对用户情感表达文本的分析、处理和归纳等,可以获得用户对某一事件所持的态度和情绪等信息,从而较好的掌握社会舆情动态。
表2句子情感值计算方法
综上,本实施以知网How Net、中国台湾大学NTUSD、大连理工大学中文情感词汇本体库以及清华大学中文褒贬义词典作为情感词汇来源,结合事件相关微博数据进行情感词扩展,对所有情感的词性、词义、强度、极性和情感类型等进行标注和描述,最终形成新的情感分类词表,并定义单条微博文本情感值计算规则,用于后文进行情感挖掘与分析。通过对用户情感表达文本的分析、处理和归纳等,可以获得用户对某一事件所持的态度和情绪等信息,从而较好的掌握社会舆情动态。
基于上述实施例,本申请还提供了一种网络舆情的分析设备,可以包括存储器和处理器,其中,该存储器中存有计算机程序,该处理器调用该存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然该分析设备还可以包括各种必要的网络接口、电源以及其它零部件等。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种网络舆情的分析方法,其特征在于,包括:
从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇,并利用所述基础情感词汇和所述拓展情感词汇建立目标情感词库;
对所述目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,并对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表;
获取待分析语料,并利用所述目标情感分类词表计算所述待分析语料的情感极性强度和情感值,以利用分析结果对网络舆情进行引导。
2.根据权利要求1所述的分析方法,其特征在于,从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇包括:
从How Net、NTUSD、中文情感词汇本体库以及中文褒贬义词典中获取第一情感词汇;
对所述第一情感词汇依次进行分类操作和去重操作,得到所述基础情感词汇;
从微博、热点论坛以及各搜索引擎上获取未处理语料;
对所述未处理语料依次进行垃圾标签过滤操作、中文分词操作、去停用词操作,得到处理后语料;
从所述处理后语料中按预设提取方式得到事件初始关键词,并利用所述事件初始关键词在所述处理后语料中得到所述拓展情感词汇。
3.根据权利要求2所述的分析方法,其特征在于,对所述目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,包括:
按照所述How Net对情感词汇的义项标注规则对所述目标情感词库中的所有情感词汇进行义项标注,得到原规则标注后情感词汇;
增加情感词汇极性标注规则和情感词汇强度标注规则,并利用新增的两项标注规则对所述原规则标注后情感词汇进行极性和强度标注,得到最终标注情感词汇。
4.根据权利要求3所述的分析方法,其特征在于,对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表,包括:
对所述最终标注情感词汇按照Ekman六大类情感体系以及传统七情分类标准进行分类,得到所述目标情感分类词表。
5.根据权利要求4所述的分析方法,其特征在于,所利用所述目标情感分类词表计算所述待分析语料的情感极性强度和情感值,包括:
将所述待分析语料按预设拆分规则拆分为相应数量的子句;
利用所述目标情感分类词表按预设极性强度判别公式计算各所述子句的情感极性强度值;
将各所述子句的情感极性强度值进行求和计算,得到情感极性强度总值;
识别得到各所述子句的句型种类,并根据预设的句型种类与对应情感值之间的对应关系,得到各所述子句对应的情感值;
将将各所述子句的情感值进行求和计算,得到情感总值。
6.一种网络舆情的分析系统,其特征在于,包括:
目标情感词库建立单元,用于从第一预设路径获取基础情感词汇,从第二预设路径获取拓展情感词汇,并利用所述基础情感词汇和所述拓展情感词汇建立目标情感词库;
规则标注单元,用于对所述目标情感词库中的所有情感词汇按预设标注规则进行情感词汇极性和强度的标注,并对标注后的所有情感词汇按预设情感分类方式进行分类,得到目标情感分类词表;
网络舆情分析单元,用于获取待分析语料,并利用所述目标情感分类词表计算所述待分析语料的情感极性强度和情感值,以利用分析结果对网络舆情进行引导。
7.根据权利要求6所述的分析系统,其特征在于,所述目标情感词库建立单元包括:
原有词典获取子单元,用于从How Net、NTUSD、中文情感词汇本体库以及中文褒贬义词典中获取第一情感词汇;
基础情感词汇获取子单元,用于对所述第一情感词汇依次进行分类操作和去重操作,得到所述基础情感词汇;
未处理语料获取子单元,用于从微博、热点论坛以及各搜索引擎上获取未处理语料;
第二处理子单元,用于对所述未处理语料依次进行垃圾标签过滤操作、中文分词操作、去停用词操作,得到处理后语料;
拓展情感词汇获取子单元,用于从所述处理后语料中按预设提取方式得到事件初始关键词,并利用所述事件初始关键词在所述处理后语料中得到所述拓展情感词汇。
8.根据权利要求7所述的分析系统,其特征在于,所述规则标注单元包括;
原有规则标注子单元,用于按照所述How Net对情感词汇的义项标注规则对所述目标情感词库中的所有情感词汇进行义项标注,得到原规则标注后情感词汇;
新增规则标注子单元,用于增加情感词汇极性标注规则和情感词汇强度标注规则,并利用新增的两项标注规则对所述原规则标注后情感词汇进行极性和强度标注,得到最终标注情感词汇;
分类词表建立子单元,用于对所述最终标注情感词汇按照Ekman六大类情感体系以及传统七情分类标准进行分类,得到所述目标情感分类词表。
9.一种网络舆情的分析设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的网络舆情的分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的网络舆情的分析方法的步骤。
CN201711121514.2A 2017-11-14 2017-11-14 一种网络舆情的分析方法、系统及相关装置 Pending CN107945033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711121514.2A CN107945033A (zh) 2017-11-14 2017-11-14 一种网络舆情的分析方法、系统及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711121514.2A CN107945033A (zh) 2017-11-14 2017-11-14 一种网络舆情的分析方法、系统及相关装置

Publications (1)

Publication Number Publication Date
CN107945033A true CN107945033A (zh) 2018-04-20

Family

ID=61934008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711121514.2A Pending CN107945033A (zh) 2017-11-14 2017-11-14 一种网络舆情的分析方法、系统及相关装置

Country Status (1)

Country Link
CN (1) CN107945033A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165298A (zh) * 2018-08-15 2019-01-08 上海文军信息技术有限公司 一种自主升级且抗噪的文本情感分析系统
CN110619073A (zh) * 2019-08-30 2019-12-27 北京影谱科技股份有限公司 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
CN111061876A (zh) * 2019-12-10 2020-04-24 中国建设银行股份有限公司 事件舆情数据分析方法及装置
CN111460805A (zh) * 2019-01-22 2020-07-28 北京京东尚科信息技术有限公司 语句处理方法、装置及设备
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN111881360A (zh) * 2020-08-12 2020-11-03 杭州安恒信息技术股份有限公司 一种舆情数据处理的方法、系统、设备及可读存储介质
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112257439A (zh) * 2020-10-30 2021-01-22 上海明略人工智能(集团)有限公司 一种通过舆情数据挖掘热度词根的方法和装置
CN112528133A (zh) * 2019-09-18 2021-03-19 北京国双科技有限公司 一种网络数据标注方法、装置、设备和存储介质
CN114724683A (zh) * 2022-04-06 2022-07-08 大连东软信息学院 一种通过间接式手段进行情感调节的装置与方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马刚: "《基于语义的Web数据挖掘》", 31 January 2014 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165298B (zh) * 2018-08-15 2022-11-15 上海五节数据科技有限公司 一种自主升级且抗噪的文本情感分析系统
CN109165298A (zh) * 2018-08-15 2019-01-08 上海文军信息技术有限公司 一种自主升级且抗噪的文本情感分析系统
CN111460805A (zh) * 2019-01-22 2020-07-28 北京京东尚科信息技术有限公司 语句处理方法、装置及设备
CN110619073B (zh) * 2019-08-30 2022-04-22 北京影谱科技股份有限公司 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
CN110619073A (zh) * 2019-08-30 2019-12-27 北京影谱科技股份有限公司 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
CN112528133A (zh) * 2019-09-18 2021-03-19 北京国双科技有限公司 一种网络数据标注方法、装置、设备和存储介质
CN111061876A (zh) * 2019-12-10 2020-04-24 中国建设银行股份有限公司 事件舆情数据分析方法及装置
CN111061876B (zh) * 2019-12-10 2023-06-13 中国建设银行股份有限公司 事件舆情数据分析方法及装置
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN111881360A (zh) * 2020-08-12 2020-11-03 杭州安恒信息技术股份有限公司 一种舆情数据处理的方法、系统、设备及可读存储介质
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112257439A (zh) * 2020-10-30 2021-01-22 上海明略人工智能(集团)有限公司 一种通过舆情数据挖掘热度词根的方法和装置
CN112257439B (zh) * 2020-10-30 2024-04-12 上海明略人工智能(集团)有限公司 一种通过舆情数据挖掘热度词根的方法和装置
CN114724683A (zh) * 2022-04-06 2022-07-08 大连东软信息学院 一种通过间接式手段进行情感调节的装置与方法

Similar Documents

Publication Publication Date Title
CN107945033A (zh) 一种网络舆情的分析方法、系统及相关装置
CN103631859B (zh) 一种面向科技项目的评审专家智能推荐方法
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN102929861A (zh) 一种文本情感指数计算方法和系统
Zhou et al. Real world city event extraction from Twitter data streams
CN113837531A (zh) 一种基于网络评论的产品质量问题发现及风险评估方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
Vani et al. Using K-means cluster based techniques in external plagiarism detection
CN109101493A (zh) 一种基于对话机器人的智能购房助手
WO2024131111A1 (zh) 一种智能写作方法、装置、设备及非易失性可读存储介质
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN108664599A (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN110162626A (zh) 一种基于双向lstm的舆情情感热度熵的计算方法
Chen et al. Single document keyword extraction via quantifying higher-order structural features of word co-occurrence graph
CN103885933A (zh) 用于评价文本的情感度的方法和设备
Amali et al. Classification of cyberbullying Sinhala language comments on social media
Su et al. An improved BERT method for the evolution of network public opinion of major infectious diseases: Case Study of COVID-19
CN116432965B (zh) 基于知识图谱的岗位能力分析方法及树状图生成方法
Desai et al. Sentiment analysis approach to adapt a shallow parsing based sentiment lexicon
CN110222198A (zh) 有色金属行业知识图谱构建方法、电子装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420