CN111881360A - 一种舆情数据处理的方法、系统、设备及可读存储介质 - Google Patents
一种舆情数据处理的方法、系统、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111881360A CN111881360A CN202010805203.3A CN202010805203A CN111881360A CN 111881360 A CN111881360 A CN 111881360A CN 202010805203 A CN202010805203 A CN 202010805203A CN 111881360 A CN111881360 A CN 111881360A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- opinion data
- keywords
- emotion
- attribute value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 230000008451 emotion Effects 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 230000002996 emotional effect Effects 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 13
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 239000002699 waste material Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种舆情数据处理的方法,包括:对获取到的舆情数据进行分词处理,得到对应的关键词;利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值;根据每个关键词对应的属性值确定舆情数据的情感倾向。本申请通过利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值,最后根据每个关键词对应的属性值确定舆情数据的情感倾向,整个过程依靠情感词库对分词处理得到的每个关键词进行情感分析,不需要人工对舆情数据进行处理,避免了对人力资源的浪费,同时提高了舆情数据处理的效率和准确率。本申请同时还提供了一种舆情数据处理的系统、设备及可读存储介质,具有上述有益效果。
Description
技术领域
本申请涉及舆情数据处理领域,特别涉及一种舆情数据处理的方法、系统、设备及可读存储介质。
背景技术
当今社会,互联网已经渗透到人们的日常生活中,微博、论坛、博客等即时通信工具已经成为人们获取信息,进而发表看法、传播信息的重要渠道。借助网络平台,舆情信息迅速传播,引起广泛关注,其传播的速度之快、范围之广、影响力之大,远非传统媒体可比,网络空间的匿名交互性、非时空限制性等特点,使网络舆情这股强大的社会舆论力量,对社会发展和稳定产生一定的冲击和影响。正面的网络舆情似“正能量”,有利于推动和促进社会发展;负面的网络舆情对社会稳定形成负面效应,容易引发舆情危机。由此,加强网络舆情信息监测、分析、管理,对稳定社会秩序、构建和谐社会具有重要的现实意义。
然而在现有技术中,对网络舆情信息的处理依靠人工处理来完成,导致舆情数据处理的效率和准确率低下。
因此,如何提高舆情数据处理的效率和准确率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种舆情数据处理的方法、系统、设备及可读存储介质,用于提高舆情数据处理的效率和准确率。
为解决上述技术问题,本申请提供一种舆情数据处理的方法,该方法包括:
对获取到的舆情数据进行分词处理,得到对应的关键词;
利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值;
根据每个所述关键词对应的属性值确定所述舆情数据的情感倾向。
可选的,所述根据每个所述关键词对应的属性值确定所述舆情数据的情感倾向,包括:
对所述舆情数据进行分句处理,得到对应的语句;
当所述语句中具有否定词时,根据所述否定词的位置对临近的关键词的属性值进行修改;
确定所述语句中所有关键词的属性值的和为所述语句的属性值;
当所述舆情数据中具有连词时,根据所述连词的关系类型及所述连词的位置确定所述连词的前句与后句的权重;
根据所述舆情数据中所有语句的属性值的加权和确定所述舆情数据的情感倾向。
可选的,根据所述舆情数据中所有语句的属性值的加权和确定所述舆情数据的情感倾向,包括:
当所述舆情数据中所有语句的属性值的加权和大于零时,确定所述舆情数据的情感倾向为正面情感倾向;
当所述舆情数据中所有语句的属性值的加权和小于或等于零时,确定所述舆情数据的情感倾向为负面情感倾向。
可选的,在利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值之前,还包括:
获取情感词汇与属性值的对应关系,并根据所述对应关系建立所述情感词库。
可选的,在对获取到的舆情数据进行分词处理,得到对应的关键词之后,在利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值之前,还包括:
判断所述关键词是否存在于所述情感词库中;
若是,则执行所述利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值的步骤;
若否,则输出所述关键词为新词的提示信息,并根据用户输入的所述新词的属性值对所述情感词库进行更新。
可选的,在对获取到的舆情数据进行分词处理,得到对应的关键词之前,还包括:
利用预设抓取策略对待分析网页的内容进行抓取;其中,所述预设抓取策略包括深度优先遍历策略、宽度优先遍历策略、反向链接数策略、Partial PageRank策略、OPIC策略、大站优先策略中的至少一项;
对所述待分析网页的内容进行处理,得到所述舆情数据。
可选的,对获取到的舆情数据进行分词处理,得到对应的关键词,包括:
采用机械分词算法对所述舆情数据进行分词处理,得到对应的关键词,所述机械分词算法包括最小匹配算法和/或最大匹配算法。
本申请还提供一种舆情数据处理的系统,该系统包括:
分词模块,用于对获取到的舆情数据进行分词处理,得到对应的关键词;
情感分析模块,用于利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值;
确定模块,用于根据每个所述关键词对应的属性值确定所述舆情数据的情感倾向。
本申请还提供一种舆情数据处理设备,该舆情数据处理设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述舆情数据处理的方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述舆情数据处理的方法的步骤。
本申请所提供舆情数据处理的方法,包括:对获取到的舆情数据进行分词处理,得到对应的关键词;利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值;根据每个关键词对应的属性值确定舆情数据的情感倾向。
本申请所提供的技术方案,通过对获取到的舆情数据进行分词处理,得到对应的关键词,然后利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值,最后根据每个关键词对应的属性值确定舆情数据的情感倾向,整个过程依靠情感词库对分词处理得到的每个关键词进行情感分析,不需要人工对舆情数据进行处理,避免了对人力资源的浪费,同时提高了舆情数据处理的效率和准确率。本申请同时还提供了一种舆情数据处理的系统、设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种舆情数据处理的方法的流程图;
图2为本申请实施例提供的一种网络爬虫遍历路径的示意图;
图3为图1所提供的一种舆情数据处理的方法中S103的一种实际表现方式的流程图;
图4为本申请实施例所提供的另一种舆情数据处理的方法的流程图;
图5为本申请实施例所提供的一种舆情数据处理的系统的结构图;
图6为本申请实施例所提供的一种舆情数据处理设备的结构图。
具体实施方式
本申请的核心是提供一种舆情数据处理的方法、系统、设备及可读存储介质,用于提高舆情数据处理的效率和准确率。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种舆情数据处理的方法的流程图。
其具体包括如下步骤:
S101:对获取到的舆情数据进行分词处理,得到对应的关键词;
基于现有技术中对网络舆情信息的处理依靠人工处理来完成,导致舆情数据处理的效率和准确率低下,本申请提供了一种舆情数据处理的方法,用于解决上述问题。
在本步骤中,对舆情数据进行分词处理的目的在于,对得到关键词进行情感分析,进而根据每个关键词对应的属性值确定舆情数据的情感倾向,完成对舆情的分析。
可选的,可以通过爬虫软件完成对舆情数据的挖掘,以使获取到的舆情数据尽可能的包括多粒度的观点,即在对获取到的舆情数据进行分词处理,得到对应的关键词之前,还可以执行如下步骤:
利用预设抓取策略对待分析网页的内容进行抓取;
对待分析网页的内容进行处理,得到舆情数据。
在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面,而决定这些URL排列顺序的方法,叫做抓取策略;
这里提到的预设抓取策略可以包括深度优先遍历策略、宽度优先遍历策略、反向链接数策略、Partial PageRank策略、OPIC策略、大站优先策略中的至少一项,其中:
深度优先遍历策略是指网络爬虫会从起始页开始,按照链接的顺序跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接,这里请参考图2,图2为本申请实施例提供的一种网络爬虫遍历路径的示意图,如图2所示,利用深度优先遍历策略的网络爬虫的遍历路径可以为A-F-G、A-E-H-I、A-B、A-C和A-D;
宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾,也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,这里继续以图2为例,利用宽度优先遍历策略的网络爬虫的遍历路径可以为A-B-C-D-E-F G H I;
反向链接数策略是根据一个网页被其他网页链接指向的数量决定抓取顺序的策略,反向链接数表示的是一个网页的内容受到其他人的推荐的程度,因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序;
Partial PageRank策略借鉴了网页排名(PageRank)算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面;
OPIC策略实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空,对于待抓取URL队列中的所有页面按照现金数进行排序;
大站优先策略是对于待抓取URL队列中的所有网页,根据所属的网站进行分类,对于待下载页面数多的网站,优先下载。
可选的,可以通过采用机械分词算法对舆情数据进行分词处理,以使得到的关键词更为精准,进而保证舆情数据处理的结果更为准确,即这里提到的对获取到的舆情数据进行分词处理,得到对应的关键词,其具体可以为:
采用机械分词算法对舆情数据进行分词处理,得到对应的关键词;
这里提到的机械分词算法可以包括最小匹配算法和/或最大匹配算法,机械分词算法又叫基于规则的分词算法,是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词),机械分词算法包括最小匹配算法和/或最大匹配算法,其中:
最小匹配算法从待比较字符串左边开始比较,先取前两个字符组成的字段与词典中的词进行比较,如果词典中有该词,则分出此词,继续从第三个字符开始取两个字符组成的字段进行比较,如果没有匹配到,则取前3个字符串组成的字段进行比较,依次类推,直到取的字符串的长度等于预先设定的阈值,如果还没有匹配成功,则从待处理字串的第二个字符开始比较,如此循环。
最大匹配算法分为正向和逆向两种最大匹配,正向匹配的基本思想是:假设词典中最大词条所含的汉字个数为n个,取待处理字符串的前n个字作为匹配字段,查找分词词典。若词典中含有该词,则匹配成功,分出该词,然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配;如果没有匹配成功,则将这n个字组成的字段的最后一位剔除,用剩下的n一1个字组成的字段在词典中进行匹配,如此进行下去,直到切分成功为止。
逆向最大匹配的分词原理和过程与正向最大匹配相似,区别在于前者从文章或者句子(字串)的末尾开始切分,若不成功则减去最前面的一个字。比如对于字符串“处理机器发生的故障”,第一步,从字串的右边取长度以步长为单位的字段“发生的故障”在词典中进行匹配,匹配不成功,再取字段“生的故障”进行匹配,依次匹配,直到分出“故障”一词,最终的切分结果为:故障、发生、机器、处理。
S102:利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值;
在一个具体实施例中,可以将情感词库中的关键词种类分为正面情感词语和负面情感词语,正面情感词语的属性值为正值,负面情感词语的属性值为负值,最后将一句话中关键词的属性值之和作为该句话的属性值,然后根据该句话的属性值确定对应的情感倾向。
可选的,在利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值之前,还可以通过执行如下步骤完成对情感词库的建立:
获取情感词汇与属性值的对应关系,并根据对应关系建立情感词库。
在一个具体实施例中,可以在获取情感词汇之后输出,由用户对每个情感词汇进行评分,得到情感词汇与属性值的对应关系,并据此建立情感词库。
S103:根据每个关键词对应的属性值确定舆情数据的情感倾向。
可选的,这里提到的情感倾向可以包括正面情感倾向和负面情感倾向,在一个具体实施例中,当确定舆情数据的情感倾向为负面情感倾向时,还可以输出相应的提示信息,以提醒用户或相关人员对舆情进行控制和正向引导。
可选的,这里提到的根据每个关键词对应的属性值确定舆情数据的情感倾向,其具体可以通过执行图3所示的步骤实现,下面请参考图3,图3为图1所提供的一种舆情数据处理的方法中S103的一种实际表现方式的流程图,其具体包括如下步骤:
S301:对舆情数据进行分句处理,得到对应的语句;
S302:当语句中具有否定词时,根据否定词的位置对临近的关键词的属性值进行修改;
否定词在文本中具有独特的语法意义和影响,一般情况下,被否定词修饰的词汇一般会改变情感极性,在一个具体实施例中,这里提到的否定词可以包括:不、无、非、莫、勿、未、不要、不必、没有等,可以视情形对否定词进行增加与删减。
S303:确定语句中所有关键词的属性值的和为语句的属性值;
S304:当舆情数据中具有连词时,根据连词的关系类型及连词的位置确定连词的前句与后句的权重;
在一个具体实施例中,当进行情感分析时,有指示特征的连词可以包括:
并列连词:前后句子极性一致;
选择连词:前后句子极性一般一致;
递进连词:前后句子极性一般一致,后句稍加强烈;
转折连词:前后句子极性相反,后句更加强烈。
如下表所示为本申请实施例提供的一种连词及其关联权重对应表,可以按照连词与关联权重的对应关系,对连词的前句与后句的权重进行设定,进而根据舆情数据中所有语句的属性值的加权和确定舆情数据的情感倾向:
标识 | 关系类型 | 前句权重 | 后句权重 | 举例 |
1 | 并列关系 | 0.5 | 0.5 | 既,又 |
2 | 选择关系 | 0.5 | 0.5 | 或者 |
3 | 递进关系 | 0.4 | 0.6 | 不但,而且 |
4 | 转折关系 | 0.2 | 0.8 | 虽然,但是 |
5 | 选择关系 | 0.4 | 0.6 | 与其,宁肯 |
6 | 选择关系 | 0.6 | 0.4 | 宁愿,绝不 |
S305:根据舆情数据中所有语句的属性值的加权和确定舆情数据的情感倾向。
可选的,在上述实施例的基础上,根据舆情数据中所有语句的属性值的加权和确定舆情数据的情感倾向,其具体可以为:
当舆情数据中所有语句的属性值的加权和大于零时,确定舆情数据的情感倾向为正面情感倾向;
当舆情数据中所有语句的属性值的加权和小于或等于零时,确定舆情数据的情感倾向为负面情感倾向。
基于上述技术方案,本申请所提供的一种舆情数据处理的方法,通过对获取到的舆情数据进行分词处理,得到对应的关键词,然后利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值,最后根据每个关键词对应的属性值确定舆情数据的情感倾向,整个过程依靠情感词库对分词处理得到的每个关键词进行情感分析,不需要人工对舆情数据进行分析,避免了对人力资源的浪费,同时提高了舆情数据处理的效率和准确率。
下面请参考图4,图4为本申请实施例所提供的另一种舆情数据处理的方法的流程图。
其具体包括以下步骤:
S401:对获取到的舆情数据进行分词处理,得到对应的关键词;
S402:判断关键词是否存在于情感词库中;
若否,则进入步骤S403;若是,则进入步骤S404。
S403:输出关键词为新词的提示信息,并根据用户输入的新词的属性值对情感词库进行更新;
S404:利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值;
S405:根据每个关键词对应的属性值确定舆情数据的情感倾向。
基于上述技术方案,本申请实施例在对获取到的舆情数据进行分词处理,得到对应的关键词之后,判断关键词是否存在于情感词库中,如果不存在,则输出关键词为新词的提示信息,并根据用户输入的新词的属性值对情感词库进行更新,进而可以通过实时更新关键词库及网络用语新的语义设定,保证分析结果更加贴近实际使用场景。
请参考图5,图5为本申请实施例所提供的一种舆情数据处理的系统的结构图。
该系统可以包括:
分词模块100,用于对获取到的舆情数据进行分词处理,得到对应的关键词;
情感分析模块200,用于利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值;
确定模块300,用于根据每个关键词对应的属性值确定舆情数据的情感倾向。
在上述实施例的基础上,在一个具体实施例中,该确定模块300可以包括:
分句子模块,用于对舆情数据进行分句处理,得到对应的语句;
修改子模块,用于当语句中具有否定词时,根据否定词的位置对临近的关键词的属性值进行修改;
第一确定子模块,用于确定语句中所有关键词的属性值的和为语句的属性值;
第二确定子模块,用于当舆情数据中具有连词时,根据连词的关系类型及连词的位置确定连词的前句与后句的权重;
第三确定子模块,用于根据舆情数据中所有语句的属性值的加权和确定舆情数据的情感倾向。
在上述实施例的基础上,在一个具体实施例中,该第三确定子模块可以包括:
第一确定单元,用于当舆情数据中所有语句的属性值的加权和大于零时,确定舆情数据的情感倾向为正面情感倾向;
第二确定单元,用于当舆情数据中所有语句的属性值的加权和小于或等于零时,确定舆情数据的情感倾向为负面情感倾向。
在上述实施例的基础上,在一个具体实施例中,该系统还可以包括:
建立模块,用于获取情感词汇与属性值的对应关系,并根据对应关系建立情感词库。
在上述实施例的基础上,在一个具体实施例中,该系统还可以包括:
判断模块,用于在对获取到的舆情数据进行分词处理,得到对应的关键词之后,判断关键词是否存在于情感词库中;
执行模块,用于当关键词存在于情感词库中时,执行利用情感词库对关键词进行情感分析,得到每个关键词对应的属性值的步骤;
输出及更新模块,用于当关键词不存在于情感词库中时,输出关键词为新词的提示信息,并根据用户输入的新词的属性值对情感词库进行更新。
在上述实施例的基础上,在一个具体实施例中,该系统还可以包括:
抓取模块,用于利用预设抓取策略对待分析网页的内容进行抓取;其中,预设抓取策略包括深度优先遍历策略、宽度优先遍历策略、反向链接数策略、Partial PageRank策略、OPIC策略、大站优先策略中的至少一项;
处理模块,用于对待分析网页的内容进行处理,得到舆情数据。
在上述实施例的基础上,在一个具体实施例中,该分词模块100可以包括:
处理子模块,用于采用机械分词算法对舆情数据进行分词处理,得到对应的关键词,机械分词算法包括最小匹配算法和/或最大匹配算法。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
请参考图6,图6为本申请实施例所提供的一种舆情数据处理设备的结构图。
该舆情数据处理设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对装置中的一系列指令操作。更进一步地,处理器622可以设置为与存储介质630通信,在舆情数据处理设备600上执行存储介质630中的一系列指令操作。
舆情数据处理设备600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述图1至图4所描述的舆情数据处理的方法中的步骤由舆情数据处理设备基于该图6所示的结构实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种舆情数据处理的方法、系统、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种舆情数据处理的方法,其特征在于,包括:
对获取到的舆情数据进行分词处理,得到对应的关键词;
利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值;
根据每个所述关键词对应的属性值确定所述舆情数据的情感倾向。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述关键词对应的属性值确定所述舆情数据的情感倾向,包括:
对所述舆情数据进行分句处理,得到对应的语句;
当所述语句中具有否定词时,根据所述否定词的位置对临近的关键词的属性值进行修改;
确定所述语句中所有关键词的属性值的和为所述语句的属性值;
当所述舆情数据中具有连词时,根据所述连词的关系类型及所述连词的位置确定所述连词的前句与后句的权重;
根据所述舆情数据中所有语句的属性值的加权和确定所述舆情数据的情感倾向。
3.根据权利要求2所述的方法,其特征在于,根据所述舆情数据中所有语句的属性值的加权和确定所述舆情数据的情感倾向,包括:
当所述舆情数据中所有语句的属性值的加权和大于零时,确定所述舆情数据的情感倾向为正面情感倾向;
当所述舆情数据中所有语句的属性值的加权和小于或等于零时,确定所述舆情数据的情感倾向为负面情感倾向。
4.根据权利要求1所述的方法,其特征在于,在利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值之前,还包括:
获取情感词汇与属性值的对应关系,并根据所述对应关系建立所述情感词库。
5.根据权利要求1所述的方法,其特征在于,在对获取到的舆情数据进行分词处理,得到对应的关键词之后,在利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值之前,还包括:
判断所述关键词是否存在于所述情感词库中;
若是,则执行所述利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值的步骤;
若否,则输出所述关键词为新词的提示信息,并根据用户输入的所述新词的属性值对所述情感词库进行更新。
6.根据权利要求1所述的方法,其特征在于,在对获取到的舆情数据进行分词处理,得到对应的关键词之前,还包括:
利用预设抓取策略对待分析网页的内容进行抓取;其中,所述预设抓取策略包括深度优先遍历策略、宽度优先遍历策略、反向链接数策略、Partial PageRank策略、OPIC策略、大站优先策略中的至少一项;
对所述待分析网页的内容进行处理,得到所述舆情数据。
7.根据权利要求1所述的方法,其特征在于,对获取到的舆情数据进行分词处理,得到对应的关键词,包括:
采用机械分词算法对所述舆情数据进行分词处理,得到对应的关键词,所述机械分词算法包括最小匹配算法和/或最大匹配算法。
8.一种舆情数据处理的系统,其特征在于,包括:
分词模块,用于对获取到的舆情数据进行分词处理,得到对应的关键词;
情感分析模块,用于利用情感词库对所述关键词进行情感分析,得到每个所述关键词对应的属性值;
确定模块,用于根据每个所述关键词对应的属性值确定所述舆情数据的情感倾向。
9.一种舆情数据处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述舆情数据处理的方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述舆情数据处理的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010805203.3A CN111881360A (zh) | 2020-08-12 | 2020-08-12 | 一种舆情数据处理的方法、系统、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010805203.3A CN111881360A (zh) | 2020-08-12 | 2020-08-12 | 一种舆情数据处理的方法、系统、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881360A true CN111881360A (zh) | 2020-11-03 |
Family
ID=73203370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010805203.3A Withdrawn CN111881360A (zh) | 2020-08-12 | 2020-08-12 | 一种舆情数据处理的方法、系统、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881360A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329462A (zh) * | 2020-11-26 | 2021-02-05 | 北京五八信息技术有限公司 | 一种数据排序方法、装置、电子设备及存储介质 |
CN112380341A (zh) * | 2020-11-09 | 2021-02-19 | 恒瑞通(福建)信息技术有限公司 | 一种基于行政服务中心的舆情分析方法及终端 |
CN114385894A (zh) * | 2021-12-30 | 2022-04-22 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
CN115269852A (zh) * | 2022-08-08 | 2022-11-01 | 浙江浙蕨科技有限公司 | 一种舆情分析方法、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737013A (zh) * | 2011-04-02 | 2012-10-17 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN107945033A (zh) * | 2017-11-14 | 2018-04-20 | 李勇 | 一种网络舆情的分析方法、系统及相关装置 |
CN110134849A (zh) * | 2019-05-20 | 2019-08-16 | 瑞森网安(福建)信息科技有限公司 | 一种网络舆情监控方法及系统 |
-
2020
- 2020-08-12 CN CN202010805203.3A patent/CN111881360A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737013A (zh) * | 2011-04-02 | 2012-10-17 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN107945033A (zh) * | 2017-11-14 | 2018-04-20 | 李勇 | 一种网络舆情的分析方法、系统及相关装置 |
CN110134849A (zh) * | 2019-05-20 | 2019-08-16 | 瑞森网安(福建)信息科技有限公司 | 一种网络舆情监控方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380341A (zh) * | 2020-11-09 | 2021-02-19 | 恒瑞通(福建)信息技术有限公司 | 一种基于行政服务中心的舆情分析方法及终端 |
CN112329462A (zh) * | 2020-11-26 | 2021-02-05 | 北京五八信息技术有限公司 | 一种数据排序方法、装置、电子设备及存储介质 |
CN112329462B (zh) * | 2020-11-26 | 2024-02-20 | 北京五八信息技术有限公司 | 一种数据排序方法、装置、电子设备及存储介质 |
CN114385894A (zh) * | 2021-12-30 | 2022-04-22 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
CN114385894B (zh) * | 2021-12-30 | 2024-05-31 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
CN115269852A (zh) * | 2022-08-08 | 2022-11-01 | 浙江浙蕨科技有限公司 | 一种舆情分析方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210124770A1 (en) | Content summarization and/or recommendation apparatus and method | |
CN111881360A (zh) | 一种舆情数据处理的方法、系统、设备及可读存储介质 | |
Kontopoulos et al. | Ontology-based sentiment analysis of twitter posts | |
CN103218436B (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
Shinzato et al. | Tsubaki: An open search engine infrastructure for developing information access methodology | |
JP5924666B2 (ja) | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム | |
CN106462604B (zh) | 识别查询意图 | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
JP4464975B2 (ja) | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 | |
US8874581B2 (en) | Employing topic models for semantic class mining | |
US8825620B1 (en) | Behavioral word segmentation for use in processing search queries | |
CN110929145A (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN107357777B (zh) | 提取标签信息的方法和装置 | |
US8521739B1 (en) | Creation of inferred queries for use as query suggestions | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
US10817576B1 (en) | Systems and methods for searching an unstructured dataset with a query | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN105630890A (zh) | 基于智能问答系统会话历史的新词发现方法及系统 | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN111966792A (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
CN113806510B (zh) | 一种法律条文检索方法、终端设备及计算机存储介质 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201103 |