CN111538931A - 基于大数据的舆情监控方法、装置、计算机设备及介质 - Google Patents
基于大数据的舆情监控方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN111538931A CN111538931A CN202010229291.7A CN202010229291A CN111538931A CN 111538931 A CN111538931 A CN 111538931A CN 202010229291 A CN202010229291 A CN 202010229291A CN 111538931 A CN111538931 A CN 111538931A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- data
- user
- webpage
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的舆情监控方法、装置、计算机设备及存储介质,所述方法包括:通过网络爬虫的方式,采集与舆情相关的基础数据,以及基础数据对应的用户信息,再采用Hadoop平台对基础数据进行过滤分析,得到有效数据,建立有效数据与基础数据对应的用户信息之间的映射关系,并将映射关系存储到舆情数据库中,基于舆情数据库中存储的有效数据、用户信息和映射关系,构建每个用户信息对应的用户画像,并确定用户画像对应的舆情风险等级,在用户画像对应的舆情风险等级超过预设安全等级时,对用户画像对应的用户舆论进行实时监控,实现从舆论的源头进行管控,在舆情爆发前进行监控管制,提高了舆情监控的及时性。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于大数据的舆情监控方法、装置、计算机设备及介质。
背景技术
随着计算机网络技术的迅猛发展,网络舆情的扩散和影响越来越大,这些网络舆情中,存在一些对社会发展有利的舆情,也存在一些借机操作,宣传负面情绪,甚至造谣挑起争端的舆情,为确保社会和谐稳定发展,需要对这些舆情进行监管。
当前采取的措施,主要是通过海量信息自动抓取、主题检测、专题聚焦,实现用户的网络舆情监测和追踪,并对恶意散布负面舆情的用户采取相关处罚措施。
但是,这种方式往往是在舆情扩散到大范围时,才会采取检测追踪,无法在第一时间对舆情事件进行及时回应对舆情事件做出及时响应(对负面信息进行澄清、回应、辟谣等),耽误了舆情控制的最佳时机,使得舆情的监管不及时。因而,如何提供一种有效及时的舆情监控方法,使得舆情事件在第一时间得到及时处理,成为一个亟待解决的难题。
发明内容
本发明实施例提供一种基于大数据的舆情监控方法、装置、计算机设备和存储介质,以提高舆情监控的及时性。
为了解决上述技术问题,本申请实施例提供一种基于大数据的舆情监控方法,包括:
通过网络爬虫的方式,采集与舆情相关的基础数据,以及所述基础数据对应的用户信息;
采用Hadoop平台对所述基础数据进行过滤分析,得到有效数据,建立所述有效数据与所述基础数据对应的用户信息之间的映射关系,并将所述映射关系存储到舆情数据库中;
基于所述舆情数据库中存储的所述有效数据、所述用户信息和所述映射关系,构建每个用户信息对应的用户画像,并确定所述用户画像对应的舆情风险等级;
若所述用户画像对应的舆情风险等级超过预设安全等级,则对所述用户画像对应的用户舆论进行实时监控。
可选地,所述通过网络爬虫的方式,采集与舆情相关的基础数据,以及所述基础数据对应的用户信息包括:
通过链接分析的方式,确定每个预设网页的网页权重;
根据每个所述预设网页的所述网页权重,确定目标网页;
基于预设的网页排名策略,计算每个所述目标网页的网页排名值,并根据所述网页排名值由大到小的顺序,对所述目标网页进行排序,得到目标页面队列;
基于所述目标页面队列,抓取所述目标网页中的内容,得到所述基础数据和基础数据对应的用户信息。
可选地,所述基础数据为文字数据,采用Hadoop平台对所述基础数据进行过滤分析,得到有效数据包括:
对所述基础数据进行脏数据清洗,得到标准数据;
对所述标准数据进行分词处理,得到基础分词;
使用预设的归类方法,对所述基础分词进行归类,并将得到的具有类别标识的基础分词,作为有效数据。
可选地,所述使用预设的归类方法,对所述基础分词进行归类包括:
从预设的舆情词典中分别获取每个预设的舆情类型对应的第一词向量,得到M个所述第一词向量,其中,M为所述预设的舆情类型的数量;
使用词向量的方式,对每个所述基础分词进行训练,得到G个第二词向量;
使用如下公式,计算每个所述第二词向量与每个所述第一词向量之间的余弦相似度值,得到M*G个所述余弦相似度值:
其中,ε为所述第二词向量与所述第一词向量之间的余弦相似度值,a为所述第一词向量,b为所述第二词向量,|a|为所述第一词向量的模,|b|为所述第二词向量的模;
从M*G个所述余弦相似度值中,获取值最大的余弦相似度值,作为目标相似度值;
获取所述目标相似度值对应的第一词向量,并将该第一词向量对应的舆情类型,确定为所述基础分词对应的舆情类型。
可选地,所述的基于大数据的舆情监控方法还包括:根据不同区域的区域文化,生成所述区域对应的预设的舆情词典,并根据所述区域对应的预设的舆情词典,对所述区域进行舆情监控。
可选地,在所述若所述用户画像对应的舆情风险等级超过预设安全等级,则对所述用户画像对应的用户舆论进行实时监控之后,所述基于大数据的舆情监控方法还包括:
采用预设的图表插件,定时将所述舆情数据库中存储的所述有效数据、用户信息生成图表信息,并根据所述图表信息生成预警信息,将所述图表信息和所述预警信息推送到管理端。
为了解决上述技术问题,本申请实施例还提供一种基于大数据的舆情监控装置,包括:
数据采集模块,用于通过网络爬虫的方式,采集与舆情相关的基础数据,以及所述基础数据对应的用户信息;
数据分析模块,用于采用Hadoop平台对所述基础数据进行过滤分析,得到有效数据,建立所述有效数据与所述基础数据对应的用户信息之间的映射关系,并将所述映射关系存储到舆情数据库中;
用户画像模块,用于基于所述舆情数据库中存储的所述有效数据、所述用户信息和所述映射关系,构建每个用户信息对应的用户画像,并确定所述用户画像对应的舆情风险等级;
实时监控模块,用于若所述用户画像对应的舆情风险等级超过预设安全等级,则对所述用户画像对应的用户舆论进行实时监控。
可选地,数据采集模块包括:
权重确定单元,用于通过链接分析的方式,确定每个预设网页的网页权重;
目标选取单元,用于根据每个所述预设网页的所述网页权重,确定目标网页;
队列优化单元,用于基于预设的网页排名策略,计算每个所述目标网页的网页排名值,并根据所述网页排名值由大到小的顺序,对所述目标网页进行排序,得到目标页面队列;
内容抓取单元,用于基于所述目标页面队列,抓取所述目标网页中的内容,得到所述基础数据和基础数据对应的用户信息。
可选地,数据分析模块包括:
数据清洗单元,用于对所述基础数据进行脏数据清洗,得到标准数据;
数据分词单元,用于对所述标准数据进行分词处理,得到基础分词;
数据归类单元,用于使用预设的归类方法,对所述基础分词进行归类,并将得到的具有类别标识的基础分词,作为有效数据。
可选地,数据归类单元包括:
第一词向量获取子单元,用于从预设的舆情词典中分别获取每个预设的舆情类型对应的第一词向量,得到M个所述第一词向量,其中,M为所述预设的舆情类型的数量;
第二词向量训练子单元,用于使用词向量的方式,对每个所述基础分词进行训练,得到G个第二词向量;
计算子单元,用于使用如下公式,计算每个所述第二词向量与每个所述第一词向量之间的余弦相似度值,得到M*G个所述余弦相似度值:
其中,ε为所述第二词向量与所述第一词向量之间的余弦相似度值,a为所述第一词向量,b为所述第二词向量,|a|为所述第一词向量的模,|b|为所述第二词向量的模;
目标相似度值选取子单元,用于从M*G个所述余弦相似度值中,获取值最大的余弦相似度值,作为目标相似度值;
舆情类型确定子单元,用于获取所述目标相似度值对应的第一词向量,并将该第一词向量对应的舆情类型,确定为所述基础分词对应的舆情类型。
可选地,该基于大数据的舆情监控装置还包括:
预警模块,用于采用预设的图表插件,定时将所述舆情数据库中存储的所述有效数据、用户信息生成图表信息,并根据所述图表信息生成预警信息,将所述图表信息和所述预警信息推送到管理端。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据的舆情监控方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据的舆情监控方法的步骤。
本发明实施例提供的基于大数据的舆情监控方法、装置、计算机设备及存储介质,通过网络爬虫的方式,采集与舆情相关的基础数据,以及基础数据对应的用户信息,再采用Hadoop平台对基础数据进行过滤分析,得到有效数据,建立有效数据与基础数据对应的用户信息之间的映射关系,并将映射关系存储到舆情数据库中,基于舆情数据库中存储的有效数据、用户信息和映射关系,构建每个用户信息对应的用户画像,并确定用户画像对应的舆情风险等级,在用户画像对应的舆情风险等级超过预设安全等级时,对用户画像对应的用户舆论进行实时监控,实现从舆论的源头进行管控,在舆情爆发前进行监控管制,提高了舆情监控的及时性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的基于大数据的舆情监控方法的一个实施例的流程图;
图3是根据本申请的基于大数据的舆情监控装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts GroupAudio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于大数据的舆情监控方法由服务器执行,相应地,基于大数据的舆情监控装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种基于大数据的舆情监控方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:通过网络爬虫的方式,采集与舆情相关的基础数据,以及基础数据对应的用户信息。
具体地,当前舆情传播主要来源于网络,因而,本实施例将网络内容作为信息来源,采用网络爬取的方式,从网络中爬取基础数据和基础数据对应的用户信息。
其中,基础数据是指与舆情相关的文章、话题、图片和视频等数据。
其中,基础数据对应的用户信息,是指采集到的基础数据的发布者或者转发者信息,这些信息包括但不限于:用户身份标识、用户性别、用户地址等基本信息。
其中,网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子URL(Uniform Resource Locator,统一资源定位符)扩充到整个Web(World Wide Web,全球广域网),主要为门户站点搜索引擎和大型Web服务提供商采集数据。
由于网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略等。
其中,深度优先策略的基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后,爬行任务结束。
其中,广度优先策略是按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点。
优选地,本实施例采用的网络爬虫结构为URL队列的结构,采用的爬行策略为广度优先策略,以便提升爬取内容的质量和爬取的效率,具体过程可参考后续实施例的描述,为避免重复,此处不再赘述。
S202:采用Hadoop平台对基础数据进行过滤分析,得到有效数据,建立有效数据与基础数据对应的用户信息之间的映射关系,并将映射关系存储到舆情数据库中。
具体地,通过Hadoop平台对得到的基础数据进行过滤,剔除掉基础数据中包含的脏数据,并对过滤后的基础数据进行分析处理,得到其中包含的有效数据。
其中,脏数据(Dirty Read)是指包含在基础数据中,但不在给定的范围内的数据,或对于实际业务毫无意义的数据,或是数据格式非法的数据,或是存在不规范的编码的数据和,或是含糊的业务逻辑数据。
其中,Hadoop平台是一个能够对大量数据进行分布式处理的框架平台,以一种可靠、高效、可伸缩的方式进行数据处理。
其可靠性在于,Hadoop平台维护多个工作数据副本,确保在计算元素和存储会失败时,能够针对失败的节点重新分布处理。
其高效性在于,Hadoop平台以并行的方式工作,通过并行处理加快处理速度。
其伸缩性在于,Hadoop平台能够处理PB级数据。
S203:基于舆情数据库中存储的有效数据、用户信息和映射关系,构建每个用户信息对应的用户画像,并确定用户画像对应的舆情风险等级。
具体地,将用户的基础信息作为原始标签,将分词后的有效数据对应的情感信息作为与用户的舆情标签,通过使用JAQL或者Pig语言,来对原始标签和舆情标签进行拼接,得到用户画像,并根据用户画像对用户进行分级,得到用户画像对应的舆情风险等级。
需要说明的是,根据用户画像对用户进行分级,可根据法律法规和实际场景需要进行设定,此处不做限制。
S204:若用户画像对应的舆情风险等级超过预设安全等级,则对用户画像对应的用户舆论进行实时监控。
具体地,在服务端预先设置有安全等级,当用户画像对应的舆情风险等级超过预设安全等级时,则确定此处用户存在滋生或者传播一些不好的风险,进而对该用户的网络舆论进行实时监控,并在监控到该用户的网络舆论时,对该用户的网络舆论进行分析,判断是否存在负面的舆论风向标,在存在负向的舆论风向标时,进行监控预警,并采取相关措施,避免负面舆情扩大化。
在本实施例中,通过网络爬虫的方式,采集与舆情相关的基础数据,以及基础数据对应的用户信息,再采用Hadoop平台对基础数据进行过滤分析,得到有效数据,建立有效数据与基础数据对应的用户信息之间的映射关系,并将映射关系存储到舆情数据库中,基于舆情数据库中存储的有效数据、用户信息和映射关系,构建每个用户信息对应的用户画像,并确定用户画像对应的舆情风险等级,在用户画像对应的舆情风险等级超过预设安全等级时,对用户画像对应的用户舆论进行实时监控,实现从舆论的源头进行管控,在舆情爆发前进行监控管制,提高了舆情监控的及时性。
在本实施例的一些可选的实现方式中,步骤S201中,通过网络爬虫的方式,采集与舆情相关的基础数据,以及基础数据对应的用户信息包括:
通过链接分析的方式,确定每个预设网页的网页权重;
根据每个预设网页的网页权重,确定目标网页;
基于预设的网页排名策略,计算每个目标网页的网页排名值,并根据网页排名值由大到小的顺序,对目标网页进行排序,得到目标页面队列;
基于目标页面队列,抓取目标网页中的内容,得到基础数据和基础数据对应的用户信息。
具体地,在进行页面爬取之前,先对带爬取的站点进行Link分析,确认每个站点网页的权重,以便后续根据权重确定需要进行爬取的目标网页,服务端预设有参考权重,在计算出的网页权重大于预设的参考权重时,确认该网页具有爬取价值,将该网页确定为目标页面,进而通过预设的网页排名策略,计算每个目标网页的网页排名值,并根据网页排名值由大到小的顺序,对目标网页进行排序,得到目标页面队列,再根据目标页面队列中页面的顺序,对目标网页的内容进行爬取,得到目标网页中包含的基础数据和基础数据对应的用户信息。
其中,link分析是指对站点页面的基本特征进行分析。
在本实施例中,选取进行分析的基本特征包括但不限于:用户行为、网络拓扑和网页内容等。
其中,用户行为分析,主要是指分析用户对网页的访问频率、访问时长、点击率等网页数据,得到该站点页面的用户偏好程度和兴趣点;
其中,网络拓扑分析,包含对网页的外链、层次和等级等数据的分析。
其中,网页内容分析,包含对网页的外观、文本等内容特征数据的分析。
需要说明的是,本实施例通过对用户行为分析、网络拓扑分析和网页内容分析,得到三项分析结果,并对三项分析结果进行综合评估,得到站点的网页权重。综合评估的具体方式可以是通过预设的加权公式来实现,也可以根据实际需要进行设定,此处不做限定。
其中,预设的网页排名策略包括但不限于:PageRank策略、Hilltop算法、基于链接关系的排名(TrustRank)算法和ExpertRank等。
优选地,本实施例采用PageRank策略用以计算每个目标页面的网页排名值。
其中,PageRank策略,又称网页排名策略、Google左侧排名策略或佩奇排名策略,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,PageRank值可以用来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的一个重要因素,根据PageRank值由大到小的方式进行排序,使得将重要级更高的页面排在前面,在后面进行内容爬取时,优先获取排名靠前的网页的信息。
在本实施例中,通过构建页面权重队列,进而根据页面权重队列中的顺序进行爬取,优先爬取重要信息,有利于提高爬取内容的质量和爬取效率。
在本实施例的一些可选的实现方式中,步骤S202中,采用Hadoop平台对基础数据进行过滤分析,得到有效数据包括:
对基础数据进行脏数据清洗,得到标准数据;
对标准数据进行分词处理,得到基础分词;
使用预设的归类方法,对基础分词进行归类,并将得到的具有类别标识的基础分词,作为有效数据。
具体地,通过爬虫爬取的基础数据,数量较大,且由于来源多样,数据格式不统一,本实施例中,通过Hadoop平台对这些基础数据进行过滤分析和归类,得到有效数据。
其中,对标准数据进行分词处理,具体才使用第三方分词工具,也可使用分词算法,常见的第三方分词工具例如结巴分词等,常见的分词算法包括但不限于:条件随机场(conditional random field,CRF)算法、隐马尔可夫模型(Hidden Markov Model,HMM)和N-gram模型等。
在本实施例中,通过对基础数据进行过滤分析,得到有效数据,提高了数据质量,有利于提高后续通过有效数据进行用户画像的准确度。
在本实施例的一些可选的实现方式中,使用预设的归类方法,对基础分词进行归类包括:
从预设的舆情词典中分别获取每个预设的舆情类型对应的第一词向量,得到M个第一词向量,其中,M为预设的舆情类型的数量;
使用词向量的方式,对每个基础分词进行训练,得到G个第二词向量;
使用如下公式,计算每个第二词向量与每个第一词向量之间的余弦相似度值,得到M*G个余弦相似度值:
其中,ε为第二词向量与第一词向量之间的余弦相似度值,a为第一词向量,b为第二词向量,|a|为第一词向量的模,|b|为第二词向量的模;
从M*G个余弦相似度值中,获取值最大的余弦相似度值,作为目标相似度值;
获取目标相似度值对应的第一词向量,并将该第一词向量对应的舆情类型,确定为基础分词对应的舆情类型。
具体地,服务端的舆情数据库中,存储有预设的舆情词典,预设的舆情字典中包括不同的舆情类别,已经每个舆情类别下的舆情记录信息,为了便于准确归类,本实施例中,采用计算词向量相似度的方式,确定基础分词对应的舆情分类。先从预设的舆情词典中,获取每个预设的舆情类型对应的第一词向量,得到M个第一词向量,M为预设的舆情类型的数量,M的具体数值依据实际预设的舆情类型的数量进行确定。
其中,每个预设的舆情类型对应唯一一个第一词向量,该第一词向量用于表示该舆情类型的语义在空间分布的情况。
预设的舆情词典可以根据数据库中存储好的舆情记录进行生成与更新,或者,根据管理端的指令,进行被动更新。
例如,在一具体实施方式中,考虑到“张扣扣事件”是一个较为热门的事件,为了对这一事件的舆论风向进行掌控,也为了防止别有用心之人借机造谣操作敏感话题,在舆情数据库未及时根据舆情记录进行生成与更新该舆情类别时,管理端用户通过向服务端发送相应指令,将“张扣扣事件”被动更新到舆情字典中,以便对这一舆情类别的相关内容进行监控。
其中,预设的舆情类别根据数据库中舆情记录进行聚类分析得到,主要过程如下:
随机选取K个对象(词汇关键字),每个对象初始地代表了一个簇的中心;
对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;
重新计算每个簇的平均值,更新为新的簇中心;
返回到步骤B)继续执行,直到准则函数收敛,将此时得到的聚类中心作为预设的舆情类别。
需要说明的是,当前的舆情事件,往往是通过区域性扩大到全国范围,不同区域具有不同的风俗文化,为更好地对舆情进行管控,可以根据区域的实际情况(文化、民俗和宗教信仰等)来生成预设的舆情字典,进而对区域的舆情进行及时管控,在本区域出现负面舆情时,及时预警并采取相应措施,避免负面舆情的传播范围扩大。
进一步地,将每个基础分词按照预设的语料库映射到向量中,将这些向量联系在一起,形成一个词向量空间,每个向量相当于是这个空间中的一个点,将每个向量作为一个第二词向量。
例如,某产品名称里面有宝马、奔驰这两个基础分词,根据预设的语料库,获取了这两个基础分词的所有可能分类:“汽车”、“奢侈品”、“动物”、“动作”和“美食”。因此,对这两个基础分词引入一种向量表示:
<汽车,奢侈品,动物,动作,美食>
根据统计学习的方法计算这两个基础分词属于每个分类的概率,计算机学到的可能是:
宝马=<0.5,0.2,0.2,0.0,0.1>
奔驰=<0.7,0.2,0.0,0.1,0.0>
可以理解地,第二词向量的每一维的值代表一个具有一定的语义和语法上能够解释的特征。
需要说明的是,每个基础分词对应唯一的第二词向量,每个第二词向量对应至少一个基础分词。
通过预设语料库,构建每个基础分词的第二词向量,使得将机器无法准确理解的文字转换成了机器容易识别并进行运算的词向量,有利于对基础分词进行更准确的归类。
进一步地,在构建第二词向量后,针对每个第二词向量,计算该第二词向量与其他第二词向量之间的空间距离,将与其他第二词向量空间距离均超过预设空间距离阈值的第二词向量确认为无效词向量,并剔除该无效词向量,以使每个第二词向量都尽可能正确地表示该第二词向量对应的基础分词在基础信息中代表的语义。
针对每个第二词向量,根据公式,分别计算该第二词向量与M个第一词向量之间的余弦相似度值,共得到M个与该第二词向量相关的余弦相似度值,按照这种方法,共得到所有第二词向量对应的M*G个余弦相似度值。
值得说明的是,第一词向量和第二词向量均属于多维向量,其具体维度可依据实际需要进行设置,此处不做限定。
在本实施例中,通过聚类和相似度计算的方式,实现对基础分词进行归类,提高归类的准确性。
在本实施例的一些可选的实现方式中,在步骤S204之后,该基于大数据的舆情监控方法还包括:
采用预设的图表插件,定时将舆情数据库中存储的有效数据、用户信息生成图表信息,并根据图表信息生成预警信息,将图表信息和预警推送到管理端。
具体地,定时根据舆情数据库中存储的有效数据、用户信息生成图表信息,并根据预设的预警条件对这些数据进行分析,在触发预警条件时,将生成的图表信息推送给管理端,以便管理端用户根据该图表信息进行决策。
其中,预设的图标插件包括但不限于:Humble Finance、CanvasXpress、Flotr2和Awesome Chart JS等,具体可根据实际场景需要选用。
其中,生成的图标信息具体包括但不限于:趋势图、频数图、比重图和饼状图和表格等。
在本实施例中,通过图表插件定时生成图表信息,并根据图表信息生成预警信息,再将预警信息推送到管理端,有利于提高舆情预警的及时性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例基于大数据的舆情监控方法一一对应的基于大数据的舆情监控装置的原理框图。如图3所示,该基于大数据的舆情监控装置包括数据数据采集模块31、数据分析模块32、用户画像模块33和实时监控模块34。各功能模块详细说明如下:
数据采集模块31,用于通过网络爬虫的方式,采集与舆情相关的基础数据,以及基础数据对应的用户信息;
数据分析模块32,用于采用Hadoop平台对基础数据进行过滤分析,得到有效数据,建立有效数据与基础数据对应的用户信息之间的映射关系,并将映射关系存储到舆情数据库中;
用户画像模块33,用于基于舆情数据库中存储的有效数据、用户信息和映射关系,构建每个用户信息对应的用户画像,并确定用户画像对应的舆情风险等级;
实时监控模块34,用于若用户画像对应的舆情风险等级超过预设安全等级,则对用户画像对应的用户舆论进行实时监控。
可选地,数据采集模块31包括:
权重确定单元,用于通过链接分析的方式,确定每个预设网页的网页权重;
目标选取单元,用于根据每个预设网页的网页权重,确定目标网页;
队列优化单元,用于基于预设的网页排名策略,计算每个目标网页的网页排名值,并根据网页排名值由大到小的顺序,对目标网页进行排序,得到目标页面队列;
内容抓取单元,用于基于目标页面队列,抓取目标网页中的内容,得到基础数据和基础数据对应的用户信息。
可选地,数据分析模块32包括:
数据清洗单元,用于对基础数据进行脏数据清洗,得到标准数据;
数据分词单元,用于对标准数据进行分词处理,得到基础分词;
数据归类单元,用于使用预设的归类方法,对基础分词进行归类,并将得到的具有类别标识的基础分词,作为有效数据。
可选地,数据归类单元包括:
第一词向量获取子单元,用于从预设的舆情词典中分别获取每个预设的舆情类型对应的第一词向量,得到M个第一词向量,其中,M为预设的舆情类型的数量;
第二词向量训练子单元,用于使用词向量的方式,对每个基础分词进行训练,得到G个第二词向量;
计算子单元,用于使用如下公式,计算每个第二词向量与每个第一词向量之间的余弦相似度值,得到M*G个余弦相似度值:
其中,ε为第二词向量与第一词向量之间的余弦相似度值,a为第一词向量,b为第二词向量,|a|为第一词向量的模,|b|为第二词向量的模;
目标相似度值选取子单元,用于从M*G个余弦相似度值中,获取值最大的余弦相似度值,作为目标相似度值;
舆情类型确定子单元,用于获取目标相似度值对应的第一词向量,并将该第一词向量对应的舆情类型,确定为基础分词对应的舆情类型。
可选地,该基于大数据的舆情监控装置还包括:
预警模块,用于采用预设的图表插件,定时将舆情数据库中存储的有效数据、用户信息生成图表信息,并根据图表信息生成预警信息,将图表信息和预警信息推送到管理端。
关于基于大数据的舆情监控装置的具体限定可以参见上文中对于基于大数据的舆情监控方法的限定,在此不再赘述。上述基于大数据的舆情监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于大数据的舆情监控方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于大数据的舆情监控方法,其特征在于,所述基于大数据的舆情监控方法包括:
通过网络爬虫的方式,采集与舆情相关的基础数据,以及所述基础数据对应的用户信息;
采用Hadoop平台对所述基础数据进行过滤分析,得到有效数据,建立所述有效数据与所述基础数据对应的用户信息之间的映射关系,并将所述映射关系存储到舆情数据库中;
基于所述舆情数据库中存储的所述有效数据、所述用户信息和所述映射关系,构建每个用户信息对应的用户画像,并确定所述用户画像对应的舆情风险等级;
若所述用户画像对应的舆情风险等级超过预设安全等级,则对所述用户画像对应的用户舆论进行实时监控。
2.如权利要求1所述的基于大数据的舆情监控方法,其特征在于,所述通过网络爬虫的方式,采集与舆情相关的基础数据,以及所述基础数据对应的用户信息包括:
通过链接分析的方式,确定每个预设网页的网页权重;
根据每个所述预设网页的所述网页权重,确定目标网页;
基于预设的网页排名策略,计算每个所述目标网页的网页排名值,并根据所述网页排名值由大到小的顺序,对所述目标网页进行排序,得到目标页面队列;
基于所述目标页面队列,抓取所述目标网页中的内容,得到所述基础数据和基础数据对应的用户信息。
3.如权利要求1所述的基于大数据的舆情监控方法,其特征在于,所述基础数据为文字数据,采用Hadoop平台对所述基础数据进行过滤分析,得到有效数据包括:
对所述基础数据进行脏数据清洗,得到标准数据;
对所述标准数据进行分词处理,得到基础分词;
使用预设的归类方法,对所述基础分词进行归类,并将得到的具有类别标识的基础分词,作为有效数据。
4.如权利要求3所述的基于大数据的舆情监控方法,其特征在于,所述使用预设的归类方法,对所述基础分词进行归类包括:
从预设的舆情词典中分别获取每个预设的舆情类型对应的第一词向量,得到M个所述第一词向量,其中,M为所述预设的舆情类型的数量;
使用词向量的方式,对每个所述基础分词进行训练,得到G个第二词向量;
使用如下公式,计算每个所述第二词向量与每个所述第一词向量之间的余弦相似度值,得到M*G个所述余弦相似度值:
其中,ε为所述第二词向量与所述第一词向量之间的余弦相似度值,a为所述第一词向量,b为所述第二词向量,|a|为所述第一词向量的模,|b|为所述第二词向量的模;
从M*G个所述余弦相似度值中,获取值最大的余弦相似度值,作为目标相似度值;
获取所述目标相似度值对应的第一词向量,并将该第一词向量对应的舆情类型,确定为所述基础分词对应的舆情类型。
5.如权利要求4所述的基于大数据的舆情监控方法,其特征在于,根据不同区域的区域文化,生成所述区域对应的预设的舆情词典,并根据所述区域对应的预设的舆情词典,对所述区域进行舆情监控。
6.如权利要求1至5任一项所述的基于大数据的舆情监控方法,其特征在于,在所述若所述用户画像对应的舆情风险等级超过预设安全等级,则对所述用户画像对应的用户舆论进行实时监控之后,所述基于大数据的舆情监控方法还包括:
采用预设的图表插件,定时将所述舆情数据库中存储的所述有效数据、用户信息生成图表信息,并根据所述图表信息生成预警信息,将所述图表信息和所述预警信息推送到管理端。
7.一种基于大数据的舆情监控装置,其特征在于,所述基于大数据的舆情监控装置包括:
数据采集模块,用于通过网络爬虫的方式,采集与舆情相关的基础数据,以及所述基础数据对应的用户信息;
数据分析模块,用于采用Hadoop平台对所述基础数据进行过滤分析,得到有效数据,建立所述有效数据与所述基础数据对应的用户信息之间的映射关系,并将所述映射关系存储到舆情数据库中;
用户画像模块,用于基于所述舆情数据库中存储的所述有效数据、所述用户信息和所述映射关系,构建每个用户信息对应的用户画像,并确定所述用户画像对应的舆情风险等级;
实时监控模块,用于若所述用户画像对应的舆情风险等级超过预设安全等级,则对所述用户画像对应的用户舆论进行实时监控。
8.如权利要求7所述的基于大数据的舆情监控装置,其特征在于,所述数据采集模块包括:
权重确定单元,用于通过链接分析的方式,确定每个预设网页的网页权重;
目标选取单元,用于根据每个所述预设网页的所述网页权重,确定目标网页;
队列优化单元,用于基于预设的网页排名策略,计算每个所述目标网页的网页排名值,并根据所述网页排名值由大到小的顺序,对所述目标网页进行排序,得到目标页面队列;
内容抓取单元,用于基于所述目标页面队列,抓取所述目标网页中的内容,得到所述基础数据和基础数据对应的用户信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于大数据的舆情监控方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于大数据的舆情监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010229291.7A CN111538931A (zh) | 2020-03-27 | 2020-03-27 | 基于大数据的舆情监控方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010229291.7A CN111538931A (zh) | 2020-03-27 | 2020-03-27 | 基于大数据的舆情监控方法、装置、计算机设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111538931A true CN111538931A (zh) | 2020-08-14 |
Family
ID=71952113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010229291.7A Pending CN111538931A (zh) | 2020-03-27 | 2020-03-27 | 基于大数据的舆情监控方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538931A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000889A (zh) * | 2020-08-31 | 2020-11-27 | 上海微趣网络科技有限公司 | 一种信息汇聚呈现系统 |
CN112231434A (zh) * | 2020-10-21 | 2021-01-15 | 上海蜜度信息技术有限公司 | 一种信息自动分发方法及系统、存储介质及终端 |
CN113239290A (zh) * | 2021-06-10 | 2021-08-10 | 杭州安恒信息技术股份有限公司 | 用于舆情监测的数据分析方法、装置和电子装置 |
CN113689246A (zh) * | 2021-08-31 | 2021-11-23 | 中国平安人寿保险股份有限公司 | 基于人工智能的网站监控方法、装置、电子设备及介质 |
-
2020
- 2020-03-27 CN CN202010229291.7A patent/CN111538931A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000889A (zh) * | 2020-08-31 | 2020-11-27 | 上海微趣网络科技有限公司 | 一种信息汇聚呈现系统 |
CN112231434A (zh) * | 2020-10-21 | 2021-01-15 | 上海蜜度信息技术有限公司 | 一种信息自动分发方法及系统、存储介质及终端 |
CN113239290A (zh) * | 2021-06-10 | 2021-08-10 | 杭州安恒信息技术股份有限公司 | 用于舆情监测的数据分析方法、装置和电子装置 |
CN113689246A (zh) * | 2021-08-31 | 2021-11-23 | 中国平安人寿保险股份有限公司 | 基于人工智能的网站监控方法、装置、电子设备及介质 |
CN113689246B (zh) * | 2021-08-31 | 2023-09-12 | 中国平安人寿保险股份有限公司 | 基于人工智能的网站监控方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868375B2 (en) | Method, medium, and system for personalized content delivery | |
CN109271512B (zh) | 舆情评论信息的情感分析方法、装置及存储介质 | |
CN109325165B (zh) | 网络舆情分析方法、装置及存储介质 | |
US8630972B2 (en) | Providing context for web articles | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN111538931A (zh) | 基于大数据的舆情监控方法、装置、计算机设备及介质 | |
KR101315554B1 (ko) | 웹 페이지에 키워드를 할당하기 위한 방법 및 장치 | |
JP5454357B2 (ja) | 情報処理装置および方法、並びに、プログラム | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
CN109145215A (zh) | 网络舆情分析方法、装置及存储介质 | |
CN110929145B (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN108959595B (zh) | 基于虚拟与现实的网站构建和体验方法及其装置 | |
CN111259220B (zh) | 一种基于大数据的数据采集方法和系统 | |
US10467255B2 (en) | Methods and systems for analyzing reading logs and documents thereof | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN103324641A (zh) | 信息记录推荐方法和装置 | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 | |
CN116484085A (zh) | 一种信息投放方法、装置、设备及存储介质、程序产品 | |
Yin et al. | Research of integrated algorithm establishment of a spam detection system | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |