CN110929145B - 舆情分析方法、装置、计算机装置及存储介质 - Google Patents

舆情分析方法、装置、计算机装置及存储介质 Download PDF

Info

Publication number
CN110929145B
CN110929145B CN201910989748.1A CN201910989748A CN110929145B CN 110929145 B CN110929145 B CN 110929145B CN 201910989748 A CN201910989748 A CN 201910989748A CN 110929145 B CN110929145 B CN 110929145B
Authority
CN
China
Prior art keywords
public opinion
user
users
cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910989748.1A
Other languages
English (en)
Other versions
CN110929145A (zh
Inventor
杨冬艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910989748.1A priority Critical patent/CN110929145B/zh
Publication of CN110929145A publication Critical patent/CN110929145A/zh
Priority to PCT/CN2020/111918 priority patent/WO2021073271A1/zh
Application granted granted Critical
Publication of CN110929145B publication Critical patent/CN110929145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种舆情分析方法、装置、计算机装置及存储介质。所述方法包括:提取每个用户第一时间段内在网络中发布的第一舆情数据;对每个用户的第一舆情数据进行聚类,得到每个用户的第一主题词;根据第一主题词得到第一时间段内的第一用户簇及第一舆情主题;提取每个用户第二时间段内在网络中发布的第二舆情数据;对每个用户的第二舆情数据进行聚类,得到每个用户的第二主题词;根据第二主题词得到第二时间段内的第二用户簇及第二舆情主题;确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,确定所述相同的舆情主题的演化阶段。本发明能够根据不同时间段的舆情数据确定舆情的演化阶段。

Description

舆情分析方法、装置、计算机装置及存储介质
技术领域
本发明涉及互联网舆情技术领域,具体涉及一种舆情分析方法、装置、计算机装置及计算机存储介质。
背景技术
随着互联网的普及,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体,一定程度地反映了社会公众对社会现实的主观情感,即舆情。舆情数据对及时了解民意、反映社会信息、控制引导舆论正确的发展、社会稳定和国家发展至关重要。对舆情进行分析有助于了解事件的发展态势,避免事件的恶性蔓延,为舆情事件应急管理提供重要的决策支持。舆情的演化阶段是针对舆情采取应对措施的一个重要依据。然而,现有的舆情分析方法主要是对某一时间段内的舆情热点进行分析,缺少对舆情演化阶段的分析,也就是不能确定舆情的演化阶段。
发明内容
鉴于以上内容,有必要提出一种舆情分析方法、装置、计算机装置及计算机存储介质,其可以确定舆情的演化阶段,为针对舆情采取应对措施提供了重要依据。
本申请的第一方面提供一种舆情分析方法,所述方法包括:
提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
另一种可能的实现方式中,所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词包括:
采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示,将所述第一舆情数据的每个文本向量作为一个簇;
循环执行计算所述第一舆情数据的每两个簇之间的相似度,将相似度最大的两个簇合并为一个新的簇,直至所述第一舆情数据的簇的数量达到预设数量;
从所述第一舆情数据的簇中提取所述第一主题词。
另一种可能的实现方式中,所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示包括:
对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条;
将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量;
基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间的维度。
另一种可能的实现方式中,所述计算所述第一舆情数据的每两个簇之间的相似度包括:
若两个簇中的每个簇只包括一个文本向量,两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
另一种可能的实现方式中,所述从所述第一舆情数据的簇中提取所述第一主题词包括:
从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。
另一种可能的实现方式中,所述根据所述第一主题词对所述多个用户进行划分包括:
根据所述第一主题词以所述多个用户为节点构建第一舆情网络;
根据所述第一舆情网络计算所述每个用户的密度值;
根据所述每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇;
将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇;
根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题。
另一种可能的实现方式中,
所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络包括:
连接所述多个用户中有相同的第一主题词的两个用户;
根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值。
本申请的第二方面提供一种舆情分析装置,所述装置包括:
第一提取模块,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
第一聚类模块,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
第一划分模块,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
第二提取模块,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
第二聚类模块,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
第二划分模块,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定模块,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述舆情分析方法。
本申请的第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述舆情分析方法。
本发明提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;提取所述每个用户第二时间段内在网络中发布的第二舆情数据;对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。本发明能够确定舆情的演化阶段,为针对舆情采取应对措施提供了重要依据。
附图说明
图1是本发明实施例提供的舆情分析方法的流程图。
图2是本发明实施例提供的舆情分析装置的结构图。
图3是本发明实施例提供的计算机装置的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的舆情分析方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的舆情分析方法的流程图。所述舆情分析方法应用于计算机装置。
本发明舆情分析方法用于确定舆情的演化阶段。
如图1所示,所述舆情分析方法包括:
101,提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据。
所述多个用户可以是预先设定的用户。例如,可以预先设定具有一定网络活跃度的用户列表,将该用户列表中的用户作为所述多个用户。
所述多个用户也可以是从网络中提取到的用户。例如,可以提取预设网络社区(例如某论坛)上的注册用户,将所述注册用户作为所述多个用户。
具体地,根据所述多个用户的用户信息,通过网络爬虫搜索并读取网页文件,从所述网页文件中提取所述第一舆情数据。
网络爬虫是可以自动提取网页数据信息内容的应用程序。网络爬虫通常是从一个或者是若干个初始网页的URL(也称种子URL)开始,获取初始网页的URL,依照特定的算法和策略(例如深度优先搜索策略、广度优先搜索策略或启发式搜索策略),在对网页进行抓取的过程中,不断地从当前的网页中抽取新的URL放入到相应的队列中,直到满足停止条件为止。网络爬虫深度遍历网站的资源,将网站的资源抓取到本地,具体的方法就是分析网站每一个有效的URL,并提交HTTP请求,从而获得相应结果,生成本地文件及相应的日志信息。
可以使用开源性爬虫框架编写网络爬虫,通过网络爬虫搜索并读取网页文件,从所述网页文件中提取所述第一舆情数据。
所述舆情数据为文本,所述舆情数据包括文章和评论。可以从预设网站(例如新闻、论坛、博客、贴吧等舆情网站)提取所述第一舆情数据。
例如,读取论坛的文章和评论,从所述文章和评论中提取所述多个用户在所述第一时间段内发布的文章和评论,得到所述第一舆情数据。
在本实施例中,可以使用Scrapy框架编写所述网络爬虫。在其他的实施例中,还可以使用PySpider、Nutch、Crawler4j、WebMagic、WebCollector或其他的开源性爬虫框架编写所述网络爬虫。
可以利用网站开放的API接口抓取所述第一舆情数据。API是应用程序接口(application interface)的缩写,通过API接口可以实现计算机软件之间的相互通信。网站开放的API接口可以返回JSON格式或者XML格式的数据。
在一具体实施例中,可以利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据。利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据的具体过程如下:
(1)生成面向所述网站的API接口的种子URL以及后续的URL。
种子URL是网络爬虫进行一切工作的基础和前提。种子URL可以是一个也可以是多个。
可以对网站的URL的结构特点进行分析,根据URL的结构特点得到后续的URL。
(2)向所述网站的API接口发送HTTP请求,请求访问所述API接口。
可以以GET方式向所述网站的API接口发送HTTP请求。当网站同意获取其提供的第一舆情数据时,返回HTTP响应,以告知可以进行获取第一舆情数据的操作。
(3)对所述网站提供的数据内容进行分析和识别,以查看所述数据内容。
网站提供特定格式的数据内容,需要对网站提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述网站的API接口提供的数据格式为JSON格式。JSON是一种数据交换格式,使用了类似于C语言的语法习惯。对该JSON格式的数据内容进行分析和识别,来查看所述数据内容。
(4)判断所述数据内容是否为预定信息内容。
为了得到第一舆情数据,需要判断所述数据内容是否为预定信息内容。若所述数据内容不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。
(5)若所述数据内容为预定信息内容,则抓取所述数据内容。
数据抓取的最终目的是将网络数据内容抓取到本地。对于JSON格式的数据内容,在抓取所述数据内容时可以采用深度优先搜索策略进行状态空间搜索。
(6)将抓取的数据内容作为所述第一舆情数据保存到本地。
可以在计算设备上创建数据库,将所述第一舆情数据保存到所述数据库中。
传统的网络爬虫都是首先设定一个或者多个入口URL,在抓取网页的过程中,按照抓取的策略,从当前网页上提取出新的URL放入队列,以便获取URL对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口URL,直到爬行完毕。随着网页数量的剧增,传统的网络爬虫会下载大量的无关网页。利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据,可以避免下载无关网页,高效地获取第一舆情数据,从而提高舆情分析的效率。
102,对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词。
每个用户的第一主题词可以是一个,也可以是多个。
所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词包括:
(a)采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个向量(以下称文本向量)表示,将所述第一舆情数据的每个文本向量作为一个簇;
(b)计算所述第一舆情数据的每两个簇之间的相似度;
(c)将相似度最大的两个簇合并为一个新的簇;
(d)循环执行(b)—(c),直至所述第一舆情数据的簇的数量达到预设数量;
(e)从所述第一舆情数据的簇中提取所述第一主题词。
所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示包括:
(1)对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条。
对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条,是指对所述第一舆情数据中的每个文本进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据中的每个文本包含的不同的词条,所述每个用户的第一舆情数据中的所有文本包含的不同的词条为所述每个用户的第一舆情数据包含的不同的词条。
对一个文本进行停用词过滤处理、分词处理是对该文本的每条语句进行过滤处理、分词处理。
所述停用词可以是使用频繁但实际意义不大的词,所述停用词可以包括“的”、“就”等。所述停用词还可以包括敏感词。
可以采用基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法将所述第一舆情数据中的每个文本切分成有意义的词条。
例如;对语句“建立有效的网络防病毒机制”进行停用词过滤处理得到“建立有效网络防病毒机制”;采用基于理解的分词方法将过滤后的语句“建立有效网络防病毒机制”进行分词后,得到“建立”、“有效”、“网络”、“防”、“病毒”、“机制”六个不同的词条。
(2)将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量。
在一具体实施方式中,所述多个用户中所有用户的第一舆情数据总共包含n个不同的词条,将所述n个不同的词条作为所述向量空间中的n个正交维度,将所述第一舆情数据中的第i个文本Di表示为所述向量空间中的文本向量(W1,i,W2,i,…,Wn,i),其中,Wj,i(即Di在维度j的坐标值)为文本Di中词条j的权重,Wj,i=TFj×IDFj(1+sim(j,k)),其中TFj表示词条j在文本Di中出现的次数,N表示第一舆情数据中所有文本的数量,nj表示第一舆情数据中包括词条j的文本的数量,sim(j,k)表示词条j与文本Di中词条j的近义词词条k的相似度。
(3)基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间的维度。
缩减所述向量空间的维度就是对所述每个用户的第一舆情数据中的每个文本对应的文本向量进行降维。
计算所述多个用户中所有用户的第一舆情数据包含的所有不同的词条(例如n个不同的词条)的信息增益,选取信息增益最大的预设数量的词条对应的维度作为缩减后的所述向量空间的维度。
将每个文本向量作为一个簇就是对第一舆情数据D={D1,D2,…,Di,…Dm}进行划分,分成Cx称为一个簇。
两个簇之间的相似度可以计算如下:
若两个簇中的每个簇只包括一个文本向量(即初始状态下),两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
从所述第一舆情数据的簇中提取所述第一主题词包括:
从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。
103,根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题。
所述根据所述第一主题词对所述多个用户进行划分包括:
(a)根据所述第一主题词以所述多个用户为节点构建第一舆情网络。
在一具体实施例中,所述第一舆情网络为无向拓扑网络,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络包括:
连接所述多个用户中有相同的第一主题词的两个用户;
根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值。
(b)根据所述第一舆情网络计算所述多个用户中的每个用户的密度值。
在一具体实施例中,对于所述多个用户中的每个给定用户,计算所述给定用户和相连接(指直接连接)的其他用户之间相同的第一主题词的数量;计算所述给定用户连接的用户的数量;所述给定用户和相连接的其他用户之间相同的第一主题词的数量与所述给定用户连接的用户的数量的比值为所述给定用户的密度值。
(c)根据所述多个用户中的每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇。
在本实施例中,将所述多个用户中密度值大于预设密度阈值的用户作为候选用户;将所述候选用户按照密度值从大到小排序,将所述候选用户中排在第一位和第二位的两个用户作为第一用户簇中心点;从所述候选用户中排在第三位的用户开始逐一选择候选用户,若选择的候选用户与排在第一位和第二位的两个用户没有连接,则将所述选择的候选用户作为第一用户簇中心点。
(d)将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇。
例如,所述预设跳数为三跳,将所述多个用户中与所述第一用户簇中心点相距三跳内(即相距一跳、二跳和三跳)的用户加入所述第一用户簇。
若一个用户与第一用户簇中心点直接相连,则该用户与第一用户簇中心点相距一跳;若一个用户与第一用户簇中心点通过另一用户相连,则该用户与第一用户簇中心点相距两条跳;若一个用户与第一用户簇中心点通过另外两个用户相连,则该用户与第一用户簇中心点相距三跳;依此类推。
(e)根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题。
可以根据预设的主题词-主题对应关系生成所述第一用户簇对应的第一舆情主题。每个主题对应多个主题词。
例如,第一主题词为强降水、暴雨预警、强降雨,所述主题词-主题对应关系中主题“暴雨”对应的主题词包括“强降水”、“暴雨预警”、“强降雨”,则根据该第一主题词生成的第一舆情主题为暴雨。
104,提取所述每个用户第二时间段内在网络中发布的第二舆情数据。
提取每个用户第一时间段内在网络中发布的第二舆情数据可以参照101的描述,此处不再赘述。所述第二时间段与所述第一时间段相邻,且所述第二时间段在所述第一时间段之后。
105,对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词。
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词可以参照102的描述,此处不再赘述。
106,根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题。
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题可以参照103的描述,此处不再赘述。
107,确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
在一具体实施例中,若所述相同的舆情主题对应的第二用户簇中用户的数量大于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量大于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于上升阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量大于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量小于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于停滞阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量小于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量大于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于停滞阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量小于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量小于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于下降阶段。
实施例一的舆情分析方法提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;提取所述每个用户第二时间段内在网络中发布的第二舆情数据;对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。实施例一能够确定舆情的演化阶段,为针对舆情采取应对措施提供了重要依据。连续对舆情的演化阶段进行分析,即可实现对舆情演变过程的追踪。
在另一实施例中,所述方法还包括:若所述相同的舆情主题处于上升阶段,则在所述多个第一用户簇中确定所述相同的舆情主题的舆情中心。
在一具体实施例中,所述在所述多个第一用户簇中确定所述相同的舆情主题的舆情中心包括:
获取所述多个第一用户簇中所述相同的舆情主题对应的第一用户簇的所述相同的舆情主题的生成时间;
将所述生成时间最早的第一用户簇确定为所述相同的舆情主题的舆情中心。
可以获取历史时间段的用户簇及其对应的舆情主题,根据历史时间段的用户簇及其对应的舆情主题确定所述相同的舆情主题的生成时间。例如,若所述第一时间段之前的第一历史时间段、第二历史时间段、第三历史时间段的用户簇对应的舆情主题包括所述相同的舆情主题,且所述第一历史时间段的时间最早,则将所述第一历史时间段的起始时间作为所述相同的舆情主题的生成时间。
实施例二
图2是本发明实施例二提供的舆情分析装置的结构图。所述舆情分析装置20应用于计算机装置。所述舆情分析装置20用于确定舆情的演化阶段。如图2所示,所述舆情分析装置20可以包括第一提取模块201、第一聚类模块202、第一划分模块203、第二提取模块204、第二聚类模块205、第二划分模块206、确定模块207。
第一提取模块201,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据。
所述多个用户可以是预先设定的用户。例如,可以预先设定具有一定网络活跃度的用户列表,将该用户列表中的用户作为所述多个用户。
所述多个用户也可以是从网络中提取到的用户。例如,可以提取预设网络社区(例如某论坛)上的注册用户,将所述注册用户作为所述多个用户。
具体地,根据所述多个用户的用户信息,通过网络爬虫搜索并读取网页文件,从所述网页文件中提取所述第一舆情数据。
网络爬虫是可以自动提取网页数据信息内容的应用程序。网络爬虫通常是从一个或者是若干个初始网页的URL(也称种子URL)开始,获取初始网页的URL,依照特定的算法和策略(例如深度优先搜索策略、广度优先搜索策略或启发式搜索策略),在对网页进行抓取的过程中,不断地从当前的网页中抽取新的URL放入到相应的队列中,直到满足停止条件为止。网络爬虫深度遍历网站的资源,将网站的资源抓取到本地,具体的方法就是分析网站每一个有效的URL,并提交HTTP请求,从而获得相应结果,生成本地文件及相应的日志信息。
可以使用开源性爬虫框架编写网络爬虫,通过网络爬虫搜索并读取网页文件,从所述网页文件中提取所述第一舆情数据。
所述舆情数据为文本,所述舆情数据包括文章和评论。可以从预设网站(例如新闻、论坛、博客、贴吧等舆情网站)提取所述第一舆情数据。
例如,读取论坛的文章和评论,从所述文章和评论中提取所述多个用户在所述第一时间段内发布的文章和评论,得到所述第一舆情数据。
在本实施例中,可以使用Scrapy框架编写所述网络爬虫。在其他的实施例中,还可以使用PySpider、Nutch、Crawler4j、WebMagic、WebCollector或其他的开源性爬虫框架编写所述网络爬虫。
可以利用网站开放的API接口抓取所述第一舆情数据。API是应用程序接口(application interface)的缩写,通过API接口可以实现计算机软件之间的相互通信。网站开放的API接口可以返回JSON格式或者XML格式的数据。
在一具体实施例中,可以利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据。利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据的具体过程如下:
(1)生成面向所述网站的API接口的种子URL以及后续的URL。
种子URL是网络爬虫进行一切工作的基础和前提。种子URL可以是一个也可以是多个。
可以对网站的URL的结构特点进行分析,根据URL的结构特点得到后续的URL。
(2)向所述网站的API接口发送HTTP请求,请求访问所述API接口。
可以以GET方式向所述网站的API接口发送HTTP请求。当网站同意获取其提供的第一舆情数据时,返回HTTP响应,以告知可以进行获取第一舆情数据的操作。
(3)对所述网站提供的数据内容进行分析和识别,以查看所述数据内容。
网站提供特定格式的数据内容,需要对网站提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述网站的API接口提供的数据格式为JSON格式。JSON是一种数据交换格式,使用了类似于C语言的语法习惯。对该JSON格式的数据内容进行分析和识别,来查看所述数据内容。
(4)判断所述数据内容是否为预定信息内容。
为了得到第一舆情数据,需要判断所述数据内容是否为预定信息内容。若所述数据内容不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。
(5)若所述数据内容为预定信息内容,则抓取所述数据内容。
数据抓取的最终目的是将网络数据内容抓取到本地。对于JSON格式的数据内容,在抓取所述数据内容时可以采用深度优先搜索策略进行状态空间搜索。
(6)将抓取的数据内容作为所述第一舆情数据保存到本地。
可以在计算设备上创建数据库,将所述第一舆情数据保存到所述数据库中。
传统的网络爬虫都是首先设定一个或者多个入口URL,在抓取网页的过程中,按照抓取的策略,从当前网页上提取出新的URL放入队列,以便获取URL对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口URL,直到爬行完毕。随着网页数量的剧增,传统的网络爬虫会下载大量的无关网页。利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据,可以避免下载无关网页,高效地获取第一舆情数据,从而提高舆情分析的效率。
第一聚类模块202,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词。
每个用户的第一主题词可以是一个,也可以是多个。
所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词包括:
(a)采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个向量(以下称文本向量)表示,将所述第一舆情数据的每个文本向量作为一个簇;
(b)计算所述第一舆情数据的每两个簇之间的相似度;
(c)将相似度最大的两个簇合并为一个新的簇;
(d)循环执行(b)—(c),直至所述第一舆情数据的簇的数量达到预设数量;
(e)从所述第一舆情数据的簇中提取所述第一主题词。
所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示包括:
(1)对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条。
对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条,是指对所述第一舆情数据中的每个文本进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据中的每个文本包含的不同的词条,所述每个用户的第一舆情数据中的所有文本包含的不同的词条为所述每个用户的第一舆情数据包含的不同的词条。
对一个文本进行停用词过滤处理、分词处理是对该文本的每条语句进行过滤处理、分词处理。
所述停用词可以是使用频繁但实际意义不大的词,所述停用词可以包括“的”、“就”等。所述停用词还可以包括敏感词。
可以采用基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法将所述第一舆情数据中的每个文本切分成有意义的词条。
例如;对语句“建立有效的网络防病毒机制”进行停用词过滤处理得到“建立有效网络防病毒机制”;采用基于理解的分词方法将过滤后的语句“建立有效网络防病毒机制”进行分词后,得到“建立”、“有效”、“网络”、“防”、“病毒”、“机制”六个不同的词条。
(2)将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量。
在一具体实施方式中,所述多个用户中所有用户的第一舆情数据总共包含n个不同的词条,将所述n个不同的词条作为所述向量空间中的n个正交维度,将所述第一舆情数据中的第i个文本Di表示为所述向量空间中的文本向量(W1,i,W2,i,…,Wn,i),其中,Wj,i(即Di在维度j的坐标值)为文本Di中词条j的权重,Wj,i=TFj×IDFj(1+sim(j,k)),其中TFj表示词条j在文本Di中出现的次数,N表示第一舆情数据中所有文本的数量,nj表示第一舆情数据中包括词条j的文本的数量,sim(j,k)表示词条j与文本Di中词条j的近义词词条k的相似度。
(3)基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间的维度。
缩减所述向量空间的维度就是对所述每个用户的第一舆情数据中的每个文本对应的文本向量进行降维。
计算所述多个用户中所有用户的第一舆情数据包含的所有不同的词条(例如n个不同的词条)的信息增益,选取信息增益最大的预设数量的词条对应的维度作为缩减后的所述向量空间的维度。
将每个文本向量作为一个簇就是对第一舆情数据D={D1,D2,…,Di,…Dm}进行划分,分成Cx称为一个簇。
两个簇之间的相似度可以计算如下:
若两个簇中的每个簇只包括一个文本向量(即初始状态下),两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
从所述第一舆情数据的簇中提取所述第一主题词包括:
从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。
第一划分模块203,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题。
所述根据所述第一主题词对所述多个用户进行划分包括:
(a)根据所述第一主题词以所述多个用户为节点构建第一舆情网络。
在一具体实施例中,所述第一舆情网络为无向拓扑网络,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络包括:
连接所述多个用户中有相同的第一主题词的两个用户;
根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值。
(b)根据所述第一舆情网络计算所述多个用户中的每个用户的密度值。
在一具体实施例中,对于所述多个用户中的每个给定用户,计算所述给定用户和相连接(指直接连接)的其他用户之间相同的第一主题词的数量;计算所述给定用户连接的用户的数量;所述给定用户和相连接的其他用户之间相同的第一主题词的数量与所述给定用户连接的用户的数量的比值为所述给定用户的密度值。
(c)根据所述多个用户中的每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇。
在本实施例中,将所述多个用户中密度值大于预设密度阈值的用户作为候选用户;将所述候选用户按照密度值从大到小排序,将所述候选用户中排在第一位和第二位的两个用户作为第一用户簇中心点;从所述候选用户中排在第三位的用户开始逐一选择候选用户,若选择的候选用户与排在第一位和第二位的两个用户没有连接,则将所述选择的候选用户作为第一用户簇中心点。
(d)将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇。
例如,所述预设跳数为三跳,将所述多个用户中与所述第一用户簇中心点相距三跳内(即相距一跳、二跳和三跳)的用户加入所述第一用户簇。
若一个用户与第一用户簇中心点直接相连,则该用户与第一用户簇中心点相距一跳;若一个用户与第一用户簇中心点通过另一用户相连,则该用户与第一用户簇中心点相距两条跳;若一个用户与第一用户簇中心点通过另外两个用户相连,则该用户与第一用户簇中心点相距三跳;依此类推。
(e)根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题。
可以根据预设的主题词-主题对应关系生成所述第一用户簇对应的第一舆情主题。每个主题对应多个主题词。
例如,第一主题词为强降水、暴雨预警、强降雨,所述主题词-主题对应关系中主题“暴雨”对应的主题词包括“强降水”、“暴雨预警”、“强降雨”,则根据该第一主题词生成的第一舆情主题为暴雨。
第二提取模块204,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据。
提取每个用户第一时间段内在网络中发布的第二舆情数据可以参照模块201的描述,此处不再赘述。所述第二时间段与所述第一时间段相邻,且所述第二时间段在所述第一时间段之后。
第二聚类模块205,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词。
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词可以参照模块202的描述,此处不再赘述。
第二划分模块206,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题。
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题可以参照模块203的描述,此处不再赘述。
确定模块207,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
在一具体实施例中,若所述相同的舆情主题对应的第二用户簇中用户的数量大于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量大于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于上升阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量大于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量小于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于停滞阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量小于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量大于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于停滞阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量小于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量小于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于下降阶段。
实施例二的舆情分析装置20提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;提取所述每个用户第二时间段内在网络中发布的第二舆情数据;对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。实施例二能够确定舆情的演化阶段,为针对舆情采取应对措施提供了重要依据。连续对舆情的演化阶段进行分析,即可实现对舆情演变过程的追踪。
在另一实施例中,所述确定模块还用于,若所述相同的舆情主题处于上升阶段,则在所述多个第一用户簇中确定所述相同的舆情主题的舆情中心。
在一具体实施例中,所述在所述多个第一用户簇中确定所述相同的舆情主题的舆情中心包括:
获取所述多个第一用户簇中所述相同的舆情主题对应的第一用户簇的所述相同的舆情主题的生成时间;
将所述生成时间最早的第一用户簇确定为所述相同的舆情主题的舆情中心。
可以获取历史时间段的用户簇及其对应的舆情主题,根据历史时间段的用户簇及其对应的舆情主题确定所述相同的舆情主题的生成时间。例如,若所述第一时间段之前的第一历史时间段、第二历史时间段、第三历史时间段的用户簇对应的舆情主题包括所述相同的舆情主题,且所述第一历史时间段的时间最早,则将所述第一历史时间段的起始时间作为所述相同的舆情主题的生成时间。
实施例三
本实施例提供一种计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述舆情分析方法实施例中的步骤,例如图1所示的101-107:
101,提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
102,对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
103,根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
104,提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
105,对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
106,根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
107,确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-207:
第一提取模块201,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
第一聚类模块202,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
第一划分模块203,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
第二提取模块204,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
第二聚类模块205,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
第二划分模块206,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定模块207,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
实施例四
图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如舆情分析程序。所述处理器302执行所述计算机程序303时实现上述舆情分析方法实施例中的步骤,例如图1所示的101-107:
101,提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
102,对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
103,根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
104,提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
105,对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
106,根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
107,确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-207:
第一提取模块201,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
第一聚类模块202,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
第一划分模块203,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
第二提取模块204,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
第二聚类模块205,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
第二划分模块206,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定模块207,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序303在所述计算机装置30中的执行过程。例如,所述计算机程序303可以被分割成图2中的第一提取模块201、第一聚类模块202、第一划分模块203、第二提取模块204、第二聚类模块205、第二划分模块206、确定模块207,各模块具体功能参见实施例二。
本领域技术人员可以理解,所述示意图3仅仅是计算机装置30的示例,并不构成对计算机装置30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机装置30的控制中心,利用各种接口和线路连接整个计算机装置30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置30的使用所创建的数据(比如音频数据)等。此外,存储器301可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他非易失性固态存储器件。
所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种舆情分析方法,其特征在于,所述方法包括:
提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题,包括:根据所述第一主题词以所述多个用户为节点构建第一舆情网络,根据所述第一舆情网络计算所述每个用户的密度值,根据所述每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇,将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇,根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题,其中,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络,包括:连接所述多个用户中有相同的第一主题词的两个用户,根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值;
提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段,所述演化阶段包括上升阶段、停滞阶段和下降阶段。
2.如权利要求1所述的方法,其特征在于,所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词包括:
采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示,将所述第一舆情数据的每个文本向量作为一个簇;
循环执行计算所述第一舆情数据的每两个簇之间的相似度,将相似度最大的两个簇合并为一个新的簇,直至所述第一舆情数据的簇的数量达到预设数量;
从所述第一舆情数据的簇中提取所述第一主题词。
3.如权利要求2所述的方法,其特征在于,所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示包括:
对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条;
将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间模型中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量;
基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间模型的维度。
4.如权利要求2所述的方法,其特征在于,所述计算所述第一舆情数据的每两个簇之间的相似度包括:
若两个簇中的每个簇只包括一个文本向量,两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
5.如权利要求2所述的方法,其特征在于,所述从所述第一舆情数据的簇中提取所述第一主题词包括:
从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。
6.一种舆情分析装置,其特征在于,所述装置包括:
第一提取模块,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
第一聚类模块,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
第一划分模块,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题,包括:根据所述第一主题词以所述多个用户为节点构建第一舆情网络,根据所述第一舆情网络计算所述每个用户的密度值,根据所述每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇,将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇,根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题,其中,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络,包括:连接所述多个用户中有相同的第一主题词的两个用户,根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值;
第二提取模块,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
第二聚类模块,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
第二划分模块,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定模块,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段,所述演化阶段包括上升阶段、停滞阶段和下降阶段。
7.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-5中任一项所述舆情分析方法。
8.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述舆情分析方法。
CN201910989748.1A 2019-10-17 2019-10-17 舆情分析方法、装置、计算机装置及存储介质 Active CN110929145B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910989748.1A CN110929145B (zh) 2019-10-17 2019-10-17 舆情分析方法、装置、计算机装置及存储介质
PCT/CN2020/111918 WO2021073271A1 (zh) 2019-10-17 2020-08-27 舆情分析方法、装置、计算机装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910989748.1A CN110929145B (zh) 2019-10-17 2019-10-17 舆情分析方法、装置、计算机装置及存储介质

Publications (2)

Publication Number Publication Date
CN110929145A CN110929145A (zh) 2020-03-27
CN110929145B true CN110929145B (zh) 2023-07-21

Family

ID=69849256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910989748.1A Active CN110929145B (zh) 2019-10-17 2019-10-17 舆情分析方法、装置、计算机装置及存储介质

Country Status (2)

Country Link
CN (1) CN110929145B (zh)
WO (1) WO2021073271A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929145B (zh) * 2019-10-17 2023-07-21 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
CN112818234B (zh) * 2021-02-02 2022-09-02 霍尔果斯大颜色信息科技有限公司 一种网络舆情信息分析处理方法及系统
CN113449508B (zh) * 2021-07-15 2023-01-17 上海理工大学 一种基于事件链的网络舆情关联推演预测分析方法
CN113946680B (zh) * 2021-10-20 2024-04-16 河南师范大学 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
CN116522013B (zh) * 2023-06-29 2023-09-05 乐麦信息技术(杭州)有限公司 基于社交网络平台的舆情分析方法及系统
CN117131281B (zh) * 2023-10-26 2024-02-09 中关村科学城城市大脑股份有限公司 舆情事件处理方法、装置、电子设备和计算机可读介质
CN117370678B (zh) * 2023-10-31 2024-07-16 深圳市叁柒无限网络科技有限公司 基于大数据的社区舆情监测方法及相关装置
CN117494897B (zh) * 2023-11-14 2024-05-17 西安康奈网络科技有限公司 一种单一舆情事件发展倾向性判断方法
CN117421433B (zh) * 2023-11-17 2024-08-27 南京蓝鲸人网络科技有限公司 一种图文智能舆情分析方法及系统
CN117635190B (zh) * 2023-11-27 2024-05-14 河北数港科技有限公司 一种日志数据分析方法及系统
CN117891997B (zh) * 2023-12-29 2024-09-13 浙江翎鹿数智科技有限公司 一种舆情管理和跨部门联合处置方法与系统
CN118364365B (zh) * 2024-06-20 2024-09-13 中关村科学城城市大脑股份有限公司 业务事件驱动引擎信息生成方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
KR20160103802A (ko) * 2015-02-25 2016-09-02 국민대학교산학협력단 소셜 네트워크를 활용한 연구개발 관점의 사회적 이슈 재구성 장치 및 방법
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559176B (zh) * 2012-10-29 2016-08-17 中国人民解放军国防科学技术大学 微博情感演化分析方法及系统
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN105320702B (zh) * 2014-08-04 2019-02-01 Tcl集团股份有限公司 一种用户行为数据的分析方法、装置及智能电视
CN107193797B (zh) * 2017-04-26 2020-08-18 天津大学 中文微博的热点话题检测及趋势预测方法
CN108959295B (zh) * 2017-05-19 2021-04-16 腾讯科技(深圳)有限公司 一种原生对象的识别方法和装置
CN110209808B (zh) * 2018-08-08 2023-03-10 腾讯科技(深圳)有限公司 一种基于文本信息的事件生成方法以及相关装置
CN109597924B (zh) * 2018-09-14 2020-02-07 湖北大学 一种基于人工免疫网络的微博社交圈挖掘方法及系统
CN109740042A (zh) * 2018-11-27 2019-05-10 平安科技(深圳)有限公司 舆论信息的监控方法、装置及存储介质、计算机设备
CN110929145B (zh) * 2019-10-17 2023-07-21 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
KR20160103802A (ko) * 2015-02-25 2016-09-02 국민대학교산학협력단 소셜 네트워크를 활용한 연구개발 관점의 사회적 이슈 재구성 장치 및 방법
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质

Also Published As

Publication number Publication date
WO2021073271A1 (zh) 2021-04-22
CN110929145A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110929145B (zh) 舆情分析方法、装置、计算机装置及存储介质
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN111813905A (zh) 语料生成方法、装置、计算机设备及存储介质
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
US11836331B2 (en) Mathematical models of graphical user interfaces
Alassi et al. Effectiveness of template detection on noise reduction and websites summarization
CN111881398B (zh) 页面类型确定方法、装置和设备及计算机存储介质
CN111259220A (zh) 一种基于大数据的数据采集方法和系统
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
WO2021012958A1 (zh) 原创文本甄别方法、装置、设备与计算机可读存储介质
CN113434631B (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
WO2016093839A1 (en) Structuring of semi-structured log messages
CN111222032B (zh) 舆情分析方法及相关设备
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN108768742B (zh) 网络构建方法及装置、电子设备、存储介质
KR102483004B1 (ko) 유해 url 탐지 방법
CN116089732A (zh) 基于广告点击数据的用户偏好识别方法及系统
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN114742051A (zh) 日志处理方法、装置、计算机系统及可读存储介质
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
CN111625579B (zh) 一种信息处理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant