CN110909233A - 一种舆情分析方法及电子设备 - Google Patents

一种舆情分析方法及电子设备 Download PDF

Info

Publication number
CN110909233A
CN110909233A CN201810980388.4A CN201810980388A CN110909233A CN 110909233 A CN110909233 A CN 110909233A CN 201810980388 A CN201810980388 A CN 201810980388A CN 110909233 A CN110909233 A CN 110909233A
Authority
CN
China
Prior art keywords
public opinion
information
historical
simhash value
simhash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810980388.4A
Other languages
English (en)
Inventor
舒佳根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongchang (suzhou) Software Technology Co Ltd
China Mobile Communications Group Co Ltd
Original Assignee
Zhongchang (suzhou) Software Technology Co Ltd
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongchang (suzhou) Software Technology Co Ltd, China Mobile Communications Group Co Ltd filed Critical Zhongchang (suzhou) Software Technology Co Ltd
Priority to CN201810980388.4A priority Critical patent/CN110909233A/zh
Publication of CN110909233A publication Critical patent/CN110909233A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种舆情分析方法及电子设备,用于较为全面地提供舆情的分析结果。其中的舆情分析方法包括:根据simhash算法确定新发布的舆情信息的simhash值;将所述simhash值与历史库进行匹配,判断是否存在与所述simhash值匹配的历史simhash值,其中,所述历史库包括至少一个历史simhash值,每个历史simhash值对应至少一条历史舆情信息;若存在与所述simhash值匹配的历史simhash值,则将所述历史simhash值对应的舆情结果确定为所述新发布的舆情信息的舆情结果,其中,所述舆情结果包括用户的访问情况。

Description

一种舆情分析方法及电子设备
技术领域
本发明涉及舆情技术领域,特别涉及一种舆情分析方法及电子设备。
背景技术
随着互联网的发展,一些新闻、资讯等舆情信息都是通过互联网平台发布。而有些舆情信息可能是负面的并不能给予用户正确舆论引导,对此有些机构例如党政机关、学术机构等对互联网舆情进行监测、研究和引导。
具体来讲,舆情监测是指整合互联网上舆情数据并对舆情数据进行分类、主题监测、专题聚焦等,实现舆情监测,给出热词趋势等方面的结果展示,从而为用户做出正确舆论引导提供分析依据。
现有技术中舆情监测通常是只关注新产生的社会热点事件等,舆情的分析结果不够全面,从而导致根据分析结果采取的处理措施不到位。
发明内容
本发明实施例提供一种舆情分析方法及电子设备,用于较为全面地提供舆情的分析结果。
第一方面,提供了一种舆情分析方法,该舆情分析方法包括:
根据simhash算法确定新发布的舆情信息的simhash值;
将所述simhash值与历史库进行匹配,判断是否存在与所述simhash值匹配的历史simhash值,其中,所述历史库包括至少一个历史simhash值,每个历史simhash值对应至少一条历史舆情信息;
若存在与所述simhash值匹配的历史simhash值,则将所述历史simhash值对应的舆情结果确定为所述新发布的舆情信息的舆情结果,其中,所述舆情结果包括用户的访问情况。
本发明实施例中,分析历史舆情信息的舆情结果时,考虑到了用户访问历史舆情信息的访问情况,即对历史舆情信息的受众进行了监测,得到的舆情结果较为全面,这样根据舆情结果采取的处理措施较为到位。且在对新发布的舆情信息进行分析时,与历史舆情信息进行对比,如果二者的simhash值匹配,则可以认为新发布的舆情信息与历史舆情信息较为相似,从而根据历史舆情信息的舆情结果确定新发布的舆情信息的舆情结果,提高了分析舆情信息效率。
可选的,在确定新发布的舆情信息的simhash值之前,还包括:
确定用户访问的第一舆情信息的第一舆情结果;
确定所述第一舆情信息的simhash值,并将确定的simhash值与历史库进行匹配;
若存在与所述simhash值匹配的历史simhash值,则合并所述第一舆情结果与所述历史simhash值对应的舆情结果,作为所述历史simhash值的新舆情结果。
在本发明实施例中,如果任意一条舆情信息的simhash值与历史simhash值匹配,则可以认为这条舆情信息与历史舆情信息相似,那么可以将二者的舆情结果,例如用户的访问情况合并,作为新的舆情结果,从而获得的舆情结果更加全面。
可选的,确定用户访问的第一舆情信息的第一舆情结果,包括:
从所述第一舆情信息中提取与所述用户相关的至少一个关键字段;
根据所述至少一个关键字段确定所述用户的访问信息,其中,所述访问信息包括所述用户的身份信息、位置信息和访问时间信息中的至少一种;
根据所述访问信息生成所述第一舆情结果。
在本发明实施例中,对第一舆情信息进行舆情分析时,可以提取与用户相关的至少一个关键字段,再确定用户的访问信息,从而获得第一舆情信息的受众情况,所得的舆情结果更加全面。
可选的,在从所述第一舆情信息中提取至少一个关键字段之前,还包括:
对所述第一舆情信息中未能被解析的信息进行过滤,其中,所述未能被解析的信息包括视频信息、音频信息和图像信息中的至少一种。
在本发明实施例中,对第一舆情信息进行分析前,将第一舆情信息中未能被解析的信息过滤掉,从而提高分析效率。
可选的,在根据所述至少一个关键字段确定所述用户的访问信息之后,还包括:
删除所述第一舆情信息中的所述至少一个关键字段。
在本发明实施例中,确定了用户的访问信息之后,删除第一舆情信息中的至少一个关键字段,从而保证了用户信息的安全性。
可选的,在根据所述访问信息生成所述第一舆情结果之后,还包括:
对所述第一舆情信息的来源进行去重处理;
对所述第一舆情信息的内容进行爬取;
根据爬取的内容确定第一舆情信息的simhash值。
在本发明实施例中,对第一舆情信息的来源进行去重处理,这样相同来源的舆情信息只需要爬取一次,爬取量较小,提高了分析效率。且根据爬取的第一舆情信息中的内容确定simhash值,这样就计算量较小,从而提高分析效率。
第二方面,提供了一种电子设备,用于舆情分析,该电子设备包括:
第一确定单元,用于根据simhash算法确定新发布的舆情信息的simhash值;
匹配单元,用于将所述simhash值与历史库进行匹配,判断是否存在与所述simhash值匹配的历史simhash值,其中,所述历史库包括至少一个历史simhash值,每个历史simhash值对应至少一条历史舆情信息;
第二确定单元,用于若存在与所述simhash值匹配的历史simhash值,则将所述历史simhash值对应的舆情结果确定为所述新发布的舆情信息的舆情结果,其中,所述舆情结果包括用户的访问情况。
可选的,所述第一确定单元还用于:
确定用户访问的第一舆情信息的第一舆情结果;
确定所述第一舆情信息的simhash值,并将确定的simhash值与历史库进行匹配;
若存在与所述simhash值匹配的历史simhash值,则合并所述第一舆情结果与所述历史simhash值对应的舆情结果,作为所述历史simhash值的新舆情结果。
可选的,所述第一确定单元具体用于:
从所述第一舆情信息中提取与所述用户相关的至少一个关键字段;
根据所述至少一个关键字段确定所述用户的访问信息,其中,所述访问信息包括所述用户的身份信息、位置信息和访问时间信息中的至少一种;
根据所述访问信息生成所述第一舆情结果。
可选的,还包括过滤单元,用于:
对所述第一舆情信息中未能被解析的信息进行过滤,其中,所述未能被解析的信息包括视频信息、音频信息和图像信息中的至少一种。
可选的,还包括删除单元,用于:
删除所述第一舆情信息中的所述至少一个关键字段。
可选的,还包括爬取单元,用于对所述第一舆情信息的内容进行爬取;
所述第一确定单元具体用于根据爬取的内容确定第一舆情信息的simhash值。
本发明实施例中的电子设备的技术效果可以参见第一方面提供的舆情分析方法的技术效果,这里不再赘述。
第三方面,提供一种电子设备,用于舆情分析,该电子设备包括:
至少一个处理器,以及
与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面任一项所述的方法。
第七方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
本发明实施例中,分析历史舆情信息的舆情结果时,考虑到了用户访问历史舆情信息的访问情况,即对历史舆情信息的受众进行了监测,得到的舆情结果较为全面。且在对新发布的舆情信息进行分析时,与历史舆情信息进行对比,如果二者的simhash值匹配,则可以认为新发布的舆情信息与历史舆情信息较为相似,从而根据历史舆情信息的舆情结果确定新发布的舆情信息的舆情结果,提高了分析舆情信息效率。
附图说明
图1是本发明实施例提供的舆情分析的一种流程示意图;
图2为本发明实施例提供的电子设备的一种结构示意图;
图3为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
现有技术中舆情监测通常多是只关注新产生的社会热点事件等,缺乏针对事件数据的关联匹配的分析,例如对关注热点事件的用户的分析,导致分析结果不够全面。
鉴于此,本发明实施例提供了一种舆情分析方法,在该方法中,分析历史舆情信息的舆情结果时,考虑到了用户访问历史舆情信息的访问情况,即对历史舆情信息的受众进行了监测,得到的舆情结果较为全面。且在对新发布的舆情信息进行分析时,与历史舆情信息进行对比,如果二者的simhash值匹配,则可以认为新发布的舆情信息与历史舆情信息较为相似,从而根据历史舆情信息的舆情结果确定新发布的舆情信息的舆情结果,提高了分析舆情信息效率。
下面结合说明书附图介绍本发明实施例提供的技术方案。
请参见图1,本发明实施例提供了一种舆情分析方法,该方法可以由电子设备,例如服务器执行,该方法的具体流程描述如下。
步骤S101、根据simhash算法确定新发布的舆情信息的simhash值。
对舆情信息,例如热点事件,热点事件的评论内容等进行分析,通常是获取网络上的舆情信息,例如从某些网站或者应用程序等的舆情信息发布平台获取舆情信息,然后对舆情信息进行分析,得出舆情结果,例如热度、转发量等发展趋势,利用舆情结果对舆情信息进行监控。如果存在大量舆情信息的话,对每条舆情信息分别进行分析,显然耗时较长。
而本发明实施例中,通过将舆情信息发布平台新发布的舆情信息与历史舆情信息进行比较,如果二者较为相似,则说明历史舆情信息的舆情结果也适用于新发布的舆情信息。具体地,本发明实施例可以根据simhash算法确定新发布的舆情信息的simhash值,对比新发布的舆情信息的simhash值与历史舆情信息的simhash值,如果二者相似,则说明新发布的舆情信息与历史舆情信息相似。
S102、将simhash值与历史库进行匹配,判断是否存在与simhash值匹配的历史simhash值,其中,历史库包括至少一个历史simhash值,每个历史simhash值对应至少一条历史舆情信息。
本发明实施例中,历史库是根据历史舆情信息建立的。本发明实施例首先从网络上获取至少一条历史舆情信息,例如利用网络爬虫从网络中获取至少一条历史舆情信息,或者从舆情信息发布平台内部提取历史舆情信息,或者利用网络爬虫从外部网络获取至少一条历史舆情信息,例如可以获取发布平台论坛内用户所发布的内容,或者可以获取舆情信息的转发量等等。在实际应用中,可以根据历史舆情信息的主题名称、关键内容等信息抓取某一指定的历史舆情信息。同时可以根据发布平台的应用程序接口获取历史舆情信息,例如获取发布平台内部论坛中用户所发布的内容等。在本发明实施例中,历史舆情信息还包括受众情况,也就是查看或者评论舆情信息的用户的情况,例如用户的身份信息、地域分布情况等。本发明实施例可以获取访问历史舆情信息的用户信息,也作为历史舆情信息的一部分,从而在对舆情信息进行监控时结合了用户的访问情况,即监控舆情信息的受众情况,更加全面。
可能的实施方式中,历史舆情信息可以是接收来自其他设备的原始舆情信息,例如接收其他设备从网络上爬取的深度报文检测(Deep Packet Inspection,DPI)数据。由于通过爬虫等从网络上获取的原始舆情信息的数据量可能较大,其中可能包括与舆情信息无关的数据。例如,用户向网络请求获取舆情信息,那么用户通过客户端会向网络发送请求获取舆情信息的数据包,然后客户端接收来自网络的舆情信息。而爬虫等从网络上抓取的数据可能包括客户端发送给网络的数据包,因此,本发明实施例中,接收来自其他设备的DPI数据包之后可以对DPI数据包进行过滤,以过滤掉与舆情信息无关的数据,获得历史舆情信息。例如,本发明实施例可以按照预设规则(例如将客户端请求的数据全部过滤掉的规则)过滤DPI数据包,获得历史舆情信息。本发明实施例可以周期性地对DPI数据包进行过滤,例如,每10分钟对接收的DPI数据包进行过滤,从而尽量有效地过滤与历史舆情信息无关的数据。
本发明实施例获得历史舆情信息之后,对历史舆情信息进行分析获得舆情结果。为了便于理解,下面以第一舆情信息作为一条历史舆情信息为例描述如何获得舆情结果。
本发明实施例中,获取第一舆情信息之后,首先可以对第一舆情信息进行过滤,以将第一舆情信息中未能被解析的信息过滤掉,从而获得能够被解析的内容,便于获得舆情结果。通常,能够被解析的信息可以是文本信息等,对应地,未能被解析的信息可以包括视频信息、音频信息和图像信息中的至少一种。过滤掉未能被解析的信息之后,对过滤后的第一舆情信息进行分析,获得第一舆情信息的第一舆情结果。本发明实施例中的第一舆情结果包括用户的访问情况,也就是关注第一舆情信息的用户的情况,例如用户的身份信息、年龄信息、位置信息或访问时间信息等。对于第一舆情信息的第一舆情结果例如正向舆情、负向舆情等按照现有技术得出,这里不再赘述。
具体地,本发明实施例从过滤后的第一舆情信息中提取与用户相关的至少一个关键字段,例如用户编码、基站编码等,再根据至少一个关键字段确定用户的访问信息,也可以成为用户画像。例如根据用户编码可以获取用户的性别、年龄等;根据基站编码可以确定用户所处的位置;根据用户的访问时间可以确定用户实际的访问时刻或者访问时长。本发明实施例根据确定的访问信息生成第一舆情结果,其中既包括了例如正向舆情等舆情信息本身的分析结果,还包括第一舆情信息的受众(用户)的访问情况,从而得出的第一舆情结果更加全面。另外,本发明实施例中确定了用户的访问信息后,可以将与用户相关的至少一个关键字段删除,从而保证了用户信息的安全性。
而如果存在多条历史舆情信息,这多条历史舆情信息可能出于同一来源,例如第一条舆情信息是某个网站发布的,第二条舆情信息是第一条舆情信息从该网站转发至某个论坛,实际上第一条舆情信息和第二条舆情信息是一样的。本发明实施例中,针对第一舆情信息可以基于其来源进行去重处理,也就是将来自同一来源的内容实质相同的舆情信息仅保留一份。去重后的多条历史舆情信息存储在任务队列中,再通过爬虫对去重后的多条历史舆情信息的内容进行爬取,这样减少了爬虫爬取的任务量,从而提高了舆情信息的分析效率。
本发明实施例对爬取的舆情信息进行解析,如果舆情信息来自官方网络或者官方提供的应用程序,则可以采用定制的解析方式(专门针对官方)进行解析,较为快速。而如果舆情信息来自各种第三方网站或者应用程序,由于每个运营商封装舆情信息的方式不一样,那么为了保证解析的成功率,可以采用通用(兼顾各个第三方)的解析方式进行解析,然后根据解析后的内容获得舆情结果。
本发明实施例分析至少一条历史舆情信息之后可以建立至少一条历史舆情信息与舆情结果的对应关系。可能的实施方式中,本发明实施例可以基于simhash算法确定每条历史舆情信息的simhash值,然后建立simhash值与舆情结果的对应关系。具体地,如果确定任意一条舆情信息的simhash值与历史库(即存储了多条历史舆情信息的simhash值)中的某一历史simhash值相等或者相近,那么可以认为这条舆情信息与历史simhash值对应的历史舆情信息相似,可以将历史舆情信息的舆情结果认为是该条舆情信息的舆情结果。本发明实施例中,确定了第一舆情结果之后,可以将第一舆情信息的simhash值与历史库进行匹配,如果存在与第一舆情信息的simhash值匹配的历史simhash值,则将第一舆情结果与历史simhash值对应的舆情结果进行合并,合并后的舆情信息作为历史simhash值的新舆情结果。相反如果不存在与第一舆情信息的simhash值匹配的历史simhash值,那么可以认为第一舆情信息与历史舆情信息相关性不大,可能是最新发布的舆情信息,此时可以将第一舆情信息的simhash值更新至历史库中,并保存第一舆情信息的第一舆情结果。
S103、若存在与新发布的舆情信息的simhash值匹配的历史simhash值,则将历史simhash值对应的舆情结果确定为新发布的舆情信息的舆情结果。
本发明实施例中,将新发布的舆情信息的simhash值与历史simhash值进行匹配,也就是将现网数据的simhash值与历史simhash值进行匹配,如果匹配成功,则将历史simhash值对应的舆情结果确定为新发布的舆情信息的舆情结果,而不需要单独重新解析新发布的舆情信息,从而提高了舆情的监测效率。如果新发布的舆情信息的simhash值与历史simhash值不匹配,则将新发布的舆情信息的simhash值存入新舆情库,等待历史库中与之匹配的simhash值。由于历史simhash值对应的舆情结果包括了舆情信息的受众的访问情况,例如舆情受众所在区域的分布,舆情受众的年龄分布,舆情受众的性别分布等,所以新发布的舆情信息的舆情结果也包括舆情信息的受众的访问情况,从而基于舆情信息的访问时间,除了可以动态的展现某条舆情在不同时间段的关注热度变化,还可以知道有哪些地区的用户在访问该条舆情,访问用户的性别比例,访问用户的年龄分布等相关信息,也就是还可以动态地展现某条舆情在不同时间段的关注用户的变化,关注用户所在地域的变化,舆情信息的分析机构更加全面。
综上,本发明实施例中,分析历史舆情信息的舆情结果时,考虑到了用户访问历史舆情信息的访问情况,即对历史舆情信息的受众进行了监测,得到的舆情结果较为全面。且在对新发布的舆情信息进行分析时,与历史舆情信息进行对比,如果二者的simhash值匹配,则可以认为新发布的舆情信息与历史舆情信息较为相似,从而根据历史舆情信息的舆情结果确定新发布的舆情信息的舆情结果,提高了分析舆情信息效率。
下面结合说明书附图介绍本发明实施例提供的设备
请参见图2,基于同一发明构思,本发明一实施例提供一种电子设备,该电子设备可以包括:第一确定单元201、匹配单元202和第二确定单元203。
其中,第一确定单元201用于根据simhash算法确定新发布的舆情信息的simhash值。匹配单元202用于将simhash值与历史库进行匹配,判断是否存在与simhash值匹配的历史simhash值,其中,历史库包括至少一个历史simhash值,每个历史simhash值对应至少一条历史舆情信息。第二确定单元203用于若存在与simhash值匹配的历史simhash值,则将历史simhash值对应的舆情结果确定为新发布的舆情信息的舆情结果,其中,舆情结果包括用户的访问情况。
可选的,第一确定单元201还用于:
确定用户访问的第一舆情信息的第一舆情结果;
确定第一舆情信息的simhash值,并将确定的simhash值与历史库进行匹配;
若存在与simhash值匹配的历史simhash值,则合并第一舆情结果与历史simhash值对应的舆情结果,作为历史simhash值的新舆情结果。
可选的,第一确定单元201具体用于:
从第一舆情信息中提取与用户相关的至少一个关键字段;
根据至少一个关键字段确定用户的访问信息,其中,访问信息包括用户的身份信息、位置信息和访问时间信息中的至少一种;
根据访问信息生成第一舆情结果。
可选的,还包括过滤单元,用于:
对第一舆情信息中未能被解析的信息进行过滤,其中,未能被解析的信息包括视频信息、音频信息和图像信息中的至少一种。
可选的,还包括删除单元,用于:
删除第一舆情信息中的至少一个关键字段。
可选的,还包括爬取单元,用于对第一舆情信息的内容进行爬取;
第一确定单元201具体用于根据爬取的内容确定第一舆情信息的simhash值。
请参见图3,基于同一发明构思,本发明一实施例提供一种电子设备,该电子设备可以是服务器,该电子设备可以包括:至少一个处理器301,处理器301用于执行存储器中存储的计算机程序时实现本发明实施例提供的如图1所示的舆情分析方法的步骤。
可选的,处理器301具体可以是中央处理器、特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路。
可选的,该电子设备还包括与至少一个处理器连接的存储器302,存储器302可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:RandomAccess Memory,简称:RAM)和磁盘存储器。存储器302用于存储处理器301运行时所需的数据,即存储有可被至少一个处理器301执行的指令,至少一个处理器301通过执行存储器302存储的指令,执行如图2所示的方法。其中,存储器302的数量为一个或多个。其中,存储器302在图3中一并示出,但需要知道的是存储器302不是必选的功能模块,因此在图3中以虚线示出。
其中,第一确定单元201、匹配单元202和第二确定单元203所对应的实体设备均可以是前述的处理器301。该电子设备可以用于执行图1所示的实施例所提供的方法。因此关于该设备中各功能模块所能够实现的功能,可参考图1所示的实施例中的相应描述,不多赘述。
本发明实施例还提供一种计算机存储介质,其中,计算机存储介质存储有计算机指令,当计算机指令在计算机上运行时,使得计算机执行如图1所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种舆情分析方法,其特征在于,包括:
根据simhash算法确定新发布的舆情信息的simhash值;
将所述simhash值与历史库进行匹配,判断是否存在与所述simhash值匹配的历史simhash值,其中,所述历史库包括至少一个历史simhash值,每个历史simhash值对应至少一条历史舆情信息;
若存在与所述simhash值匹配的历史simhash值,则将所述历史simhash值对应的舆情结果确定为所述新发布的舆情信息的舆情结果,其中,所述舆情结果包括用户的访问情况。
2.如权利要求1所述的方法,其特征在于,在确定新发布的舆情信息的simhash值之前,还包括:
确定用户访问的第一舆情信息的第一舆情结果;
确定所述第一舆情信息的simhash值,并将确定的simhash值与历史库进行匹配;
若存在与所述simhash值匹配的历史simhash值,则合并所述第一舆情结果与所述历史simhash值对应的舆情结果,作为所述历史simhash值的新舆情结果。
3.如权利要求2所述的方法,其特征在于,确定用户访问的第一舆情信息的第一舆情结果,包括:
从所述第一舆情信息中提取与所述用户相关的至少一个关键字段;
根据所述至少一个关键字段确定所述用户的访问信息,其中,所述访问信息包括所述用户的身份信息、位置信息和访问时间信息中的至少一种;
根据所述访问信息生成所述第一舆情结果。
4.如权利要求3所述的方法,其特征在于,在从所述第一舆情信息中提取至少一个关键字段之前,还包括:
对所述第一舆情信息中未能被解析的信息进行过滤,其中,所述未能被解析的信息包括视频信息、音频信息和图像信息中的至少一种。
5.如权利要求3所述的方法,其特征在于,在根据所述至少一个关键字段确定所述用户的访问信息之后,还包括:
删除所述第一舆情信息中的所述至少一个关键字段。
6.如权利要求3所述的方法,其特征在于,在根据所述访问信息生成所述第一舆情结果之后,还包括:
对所述第一舆情信息的来源进行去重处理;
对所述第一舆情信息的内容进行爬取;
根据爬取的内容确定第一舆情信息的simhash值。
7.一种电子设备,用于舆情分析,其特征在于,包括:
第一确定单元,用于根据simhash算法确定新发布的舆情信息的simhash值;
匹配单元,用于将所述simhash值与历史库进行匹配,判断是否存在与所述simhash值匹配的历史simhash值,其中,所述历史库包括至少一个历史simhash值,每个历史simhash值对应至少一条历史舆情信息;
第二确定单元,用于若存在与所述simhash值匹配的历史simhash值,则将所述历史simhash值对应的舆情结果确定为所述新发布的舆情信息的舆情结果,其中,所述舆情结果包括用户的访问情况。
8.如权利要求7所述的电子设备,其特征在于,所述第一确定单元还用于:
确定用户访问的第一舆情信息的第一舆情结果;
确定所述第一舆情信息的simhash值,并将确定的simhash值与历史库进行匹配;
若存在与所述simhash值匹配的历史simhash值,则合并所述第一舆情结果与所述历史simhash值对应的舆情结果,作为所述历史simhash值的新舆情结果。
9.一种电子设备,用于舆情分析,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-6任一项所述的方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。
CN201810980388.4A 2018-08-27 2018-08-27 一种舆情分析方法及电子设备 Pending CN110909233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810980388.4A CN110909233A (zh) 2018-08-27 2018-08-27 一种舆情分析方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810980388.4A CN110909233A (zh) 2018-08-27 2018-08-27 一种舆情分析方法及电子设备

Publications (1)

Publication Number Publication Date
CN110909233A true CN110909233A (zh) 2020-03-24

Family

ID=69812096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810980388.4A Pending CN110909233A (zh) 2018-08-27 2018-08-27 一种舆情分析方法及电子设备

Country Status (1)

Country Link
CN (1) CN110909233A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186600A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网舆情的专题分析方法和装置
CN104572679A (zh) * 2013-10-16 2015-04-29 北大方正集团有限公司 舆情数据存储方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186600A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网舆情的专题分析方法和装置
CN104572679A (zh) * 2013-10-16 2015-04-29 北大方正集团有限公司 舆情数据存储方法和装置

Similar Documents

Publication Publication Date Title
US11218505B2 (en) Facilitating cross-platform content access
JP6422617B2 (ja) ネットワークアクセス動作識別プログラム、サーバ及び記憶媒体
CN106936793B (zh) 一种信息拦截处理方法及终端
JP5551704B2 (ja) オンライン・マーケティング効率の評価
TW201734914A (zh) 內容推薦方法、裝置及系統
US10043038B2 (en) Identifying private information from data streams
CN109951469B (zh) 一种创建域名黑白名单的方法、装置、存储介质和服务器
CN108304422B (zh) 一种媒体搜索词推送方法和装置
CN110781372B (zh) 一种优化网站的方法、装置、计算机设备及存储介质
US11720708B2 (en) Privacy preserving data collection and analysis
CN107239701A (zh) 识别恶意网站的方法及装置
CN111723083B (zh) 用户身份识别方法、装置、电子设备及存储介质
CN109150790B (zh) Web页面爬虫识别方法和装置
US10049231B2 (en) Method and system for obfuscating the properties of a web browser
CN110929129B (zh) 一种信息检测方法、设备及机器可读存储介质
JP6988521B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Jeziorowski et al. Towards image-based dark vendor profiling: an analysis of image metadata and image hashing in dark web marketplaces
US9904662B2 (en) Real-time agreement analysis
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN110909233A (zh) 一种舆情分析方法及电子设备
CN107784054B (zh) 一种页面发布方法和装置
WO2018201596A1 (zh) 密码输入方法、装置、计算机可读存储介质和终端设备
CN108694184B (zh) 曝光url处理方法及装置
CN111782916A (zh) 用于生成业务资讯报告的方法及装置
CN104951449B (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200324

RJ01 Rejection of invention patent application after publication