CN107329970A - 一种针对手机管控系统舆情大数据进行分析处理的方法 - Google Patents

一种针对手机管控系统舆情大数据进行分析处理的方法 Download PDF

Info

Publication number
CN107329970A
CN107329970A CN201710368687.8A CN201710368687A CN107329970A CN 107329970 A CN107329970 A CN 107329970A CN 201710368687 A CN201710368687 A CN 201710368687A CN 107329970 A CN107329970 A CN 107329970A
Authority
CN
China
Prior art keywords
network
mobile phone
data
big data
opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710368687.8A
Other languages
English (en)
Inventor
甘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Union Cloud Security Technology Co Ltd
Original Assignee
Chengdu Union Cloud Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Union Cloud Security Technology Co Ltd filed Critical Chengdu Union Cloud Security Technology Co Ltd
Priority to CN201710368687.8A priority Critical patent/CN107329970A/zh
Publication of CN107329970A publication Critical patent/CN107329970A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72469User interfaces specially adapted for cordless or mobile telephones for operating the device by selecting functions from two or more displayed items, e.g. menus or icons

Abstract

本发明公开了一种针对手机管控系统舆情大数据进行分析处理的方法,包括以下步骤:步骤一、数据采集:使用虚拟网络连接技术,获取手机管控端的网络数据;步骤二、去噪、消重:使用大数据挖掘算法对提取得到的网络数据进行去燥、消重,挖掘不同信息模型下的数据;步骤三、网页数据提取:使用爬虫技术抓取HTML的网页数据;步骤四、数据统计分析:对统计分析模块的各个功能进行格式化界面的展示。本发明主要是通过对手机管控端的信息自动获取、提取、分类、聚类、分析,建立网络舆情监控分析系统,及时应对网络舆情,由被动防堵化为主动梳理、引导,且提供了一种图形可视化界面的大数据分析展示,解决了目前不能针对某个事件进行识别和情感倾向性预测的技术问题。

Description

一种针对手机管控系统舆情大数据进行分析处理的方法
技术领域
[0001] 本发明属于大数据技术领域,尤其涉及一种舆情大数据的分析处理方法。
背景技术
[0002] 随着互联网的蓬勃发展与手机通讯方式的大量普及。网络媒体具有巨大的引导舆 论力,随着上网时间的增长,人们对网络的及时性产生了很大的影响。在不断发生的上网数 据面前。如果不能及掌握一些信息的流向,肯能会造成一些重大的后果。如果在这些信息发 生的同时,可以管理这方面信息的流向并对信息进行分型处理。
[0003] 发展至今,舆情研宄不仅形成了完善的理论体系,而且国内外对于舆情的定义和 重要性的认可程度也趋于一致,国内外研宄舆情方面的技术也趋于成熟,但是缺乏一定的 针对性,相对整体的舆情分析比较宽泛。因此在针对手机端的信息上,分析人们平时产生的 数据上网流量,大部分来自于网页的浏览以及上网购物等这些涉及完全的访问,如果能够 掌握这些信息的流向,可以挖掘出用户的一些行为习惯进而并发出更深层次的信息。
[0004] 早在国外的研宄中,主要是基于文本挖掘的技术。其中有Allan等人提出了基于 web数据挖掘的算法,但是随着技术的不断更新现在采用的更多的是基于机器学习的web数 据挖掘模式。
[0005] 在当前的数据挖掘技术中,采用的大多数是基于词典或者是简单的文本分类技 术。试图通过选择一个词典来对比文档内容的相关性。根据文本分类过程,此方法主要是通 过对文本进行分类来完成将后续产生的文档分配到已存的若干分类中。在具体实施工程中 分为两步进行:首先是通过机器学习建立一个话题模型,然后对网络舆情的后续报道文档 进行跟踪,将读取的新文档按照相似度计算算法计算,计算后的结果与之前设定的用于判 断两者是否属于同一类的阈值进行比较,如果超过这一值,则将其归于相关类别,从而从分 散的舆情报道文档中找出目标话题相关的文档。
[0006] 在现有技术的基础上存在以下几个问题:首先是在对舆情信息的采集上,不能够 对信息进行广范围地采取,收集URL列表后不能自动生成一个列表集合,对这些URL的收集 遍历上存在不足之处,不能较为全面的分析这些URL。
[0007] 在针对舆情信息的处理技术上,会收集到很多不同结构的原始网页技术,通常包 含一些被重复采集和提取目标无关的网页和内容,舆情信息预处理的主要任务就是对采集 到的web页面进行去噪等重复操作,形成格式化数据存储到数据库中。在现在技术上很难对 这部分结构进行很好的分类。
发明内容
[0008] 本发明的目的在于:提供一种针对手机管控系统舆情大数据进行分析处理的方 法,主要是通过对手机管控端的信息自动获取、提取、分类、聚类、分析,建立网络舆情监控 分析系统可以归纳为以下几个模块,即数据提取模块、数据整理模块、数据分析模块等,及 时应对网络舆情,由被动防堵化为主动梳理、引导,解决了目前不能针对某个事件(如热门 话题)进行识别和情感倾向性预测的技术问题,且还提供了一种图形可视化界面供展示分 析结果。
[0009] 本发明采用的技术方案如下:
[0010] 一种针对手机管控系统舆情大数据进行分析处理的方法,包括以下步骤:
[0011]步骤一、通过使用虚拟网络连接技术,得到手机管控端用户访问网络的URL链接; [0012]步骤二、对URL链接进行去噪、消重,得到无重复的URL链接;
[0013] 步骤三、对手机管控端无重复的URL链接使用爬虫技术,得到HTML的网页文本数 据;
[0014]步骤四:对HTML的网页文本数据采用网络意见领袖识别方法,来计算出意见领袖 的综合指数参数SNA,得到网络中最热门的话题,并预测该类话题;
[0015]步骤五:创建语言模型,通过该语言模型来判断财见的网页文本数据中语句、字词 与文章之间的关系,并对该类话题的文章进行分类处理;
[0016] 步骤六:采用大数据挖掘技术来分析网络舆情的态势走向,并采用图形可视化界 面进行结果分析。
[0017] 进一步的,步骤二中,去噪、消重的关键在于:利用Google搜索引擎提供的限定时 间搜索功能进行基于时间格式的URL链接去噪、消重,以及将预采集的URL链接与已采集的 URL链接进行比较,去除重复的URL链接。
[0018]进一步的,步骤三中,爬虫从若干(至少一个)初始网页的URL链接开始,获得初始 网页上的URL链接,在抓取网页的过程中,不断从当前页面上抽取新的URL链接放入队列,直 到满足系统的停止条件。工作流程:根据一定的网页分析算法过滤与主题无关的URL链接, 保留有用的URL链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队 列中选择下一步要抓取的网页URL链接,并重复上述过程,直到达到系统的某一条件时停 止。
[0019] 进一步的,步骤四中,网络意见领袖识别方法着重对网民即自我网、传播局部网的 各个参数不同的加权值SNA参数,综合计算得出意见领袖的综合指标参数SNA,各个综合指 标参数SNA包括点度、密度、传播局域网级数和传播局部中心势,传播局部中心势又分别以 网民数量、密度、点中心势、直径作为网络舆情态势分析的描述指标。
[0020]进一步的,计算综合指标参数SNA包括计算整个网络话题的参与人数、按时间段统 计回帖数、点击数,对帖子数、点击数进行多角度统计,并基于SNA参数进行状态分布的描 述。
[0021]进一步的,网络舆情态势分布分别以网民数量、密度、点中心势、直径等作为态势 分析的描述指标;设第i个传播局域网的第j个特征为aij,则用x个向量的集合Kail, a21, a31,...) , (al2,a22,a32,...) ,----,(alx,a2x,a3x, • • •)}来表示态势分布。 t〇〇22]进一步的,语言模型为潜在语义模型LSA。
[0023]进一步的,步骤六,还包括反映网络舆情总体态势的舆情指数Ipo,初步设定为m个 传播局域网的平均密度P,节点总数与整个网络的节点总数之比n以及m的函数,即:Ipo = f (P,n,m)。
[0024]进一步的,将Ipo = f (p,n,m)的函数值分为3-5个登记,以表示舆情态势与管理预 期的符合程度。
[0025]进一步的,大数据挖掘技术是采用机器学习算法从大量HTML的网页文本数据中搜 索隐藏信息的过程。
[0026]进一步的,采用机器学习算法挖掘潜在网页文本中隐藏信息的步骤包括:
[0027] 6 • 1:使用K-means聚类算法把网页文本内容进行事件的初步分类;
[0028] 6_2:根据每一类事件中挖掘近期热点话题,并通过挖掘出的某个热点话题来分析 其形成过程;
[0029] 6.3:通过热点话题的形成过程来用可视化界面进行最后展示。
[0030]综上所述,由于采用了上述技术方案,本发明的有益效果是:
[0031]本发明主要是通过对手机管控端的信息自动获取、提取、分类、聚类、分析,建立网 络舆情监控分析系统,及时应对网络舆情,由被动防堵化为主动梳理、引导,且提供了一种 图形可视化界面的大数据分析展示,解决了目前不能针对某个事件(如热门话题)进行识别 和情感倾向性预测的技术问题。针对某个事件进行识别并进行分类,采用对HTML网页的文 本进行大数据挖掘分析处理,得到网络舆情态势分布分析。采用采用舆情大数据挖掘分析 处理是通过数据库知识发现中的一个步骤。数据挖掘过程主要是指从大量的数据中通过算 法搜索隐藏于其中信息的过程。在此过程中的算法主要是包括遗传算法、关联分析法、决策 树、人工神经网络,由于数据是半结构化或非结构化的网页,且网页信息不断的持续动态更 新增长,从网页上获取的信息十分复杂,因此文本中的信息收集过程中需要这些方法才能 够得到有效的舆情信息,达到舆情效果。对于网络舆情态势分布,一方面是根据HTML中的文 本数据进行各类统计(如,整个网络话题的参与人数,如按时间段统计回帖数、点击数等,以 反映网民群体对话题的关注度,包括话题的热度);按网站、地域、网民职业、网民年龄等对 帖子数、点击数等进行多角度统计,以反映个地域、社会各层面人群对网络话题的关注度 等,通过采用上述方案,也解决了现有技术不能够对信息进行广范围地采取,不能较为全面 的分析这些URL的技术问题。
附图说明
[0032]图1.为一种针对手机系统大数据分析处理的方法流程图;
[0033]图2 •网络意见领袖形成方式;
[0034]图3.网络意见领袖的系统识别方法;
[0035]图4.硬件系统拓扑结构。
具体实施方式
[0036]本说明书中公开的所有特征,除了互相排斥的特征和/或步骤以外,均可以以任何 方式组合。
[0037]下面结合图1〜图4对本发明作详细说明。
[0038] —种针对手机管控系统舆情大数据进行分析处理的方法,包括以下步骤:
[0039]步骤一、通过使用虚拟网络连接技术,得到手机管控端的网络数据即用户访问网 络的URL链接。
[004°]虚拟网络连接技术是使用OpenVPN来建立一个虚拟专用通道,是提供给企业之间 或者个人与公司之间安全数据传输的隧道,OpenVPN是Linux下开源VPN的先锋,提供了良好 的性能和友好的GUIWpenVPN是一个基于OpenSSL库的应用层VPN实现。和传统VPN相比,它 的优点是简单易用。通过上述虚拟网络技术获取到的网络信息包括用户的访问网络的URL 链接,即访问网站的网址,用户手机端使用OpenVPN后变可以连接到一个虚拟专用网络,月艮 务端就能手机到手机端所有的访问网络数据(即用户手机访问网络URL网站地址)。
[0041 ]步骤二、对手机管控端的网络数据即用户访问网络的URL链接进行去噪消重,得到 无重复的URL链接。
[0042] 对重复的网页内容进行舍弃处理,不但可以提高网络爬虫的工作效率,满足用户 的实际性需求,还可以节省存储空间,大大简化后续的数据分析处理工作。因此去噪、消重 问题是必须解决的技术难题。目前的解决方案有以下几种:a.基于时间格式的网页链接消 重技术,根据Google搜索引擎的特点,其采用的索引多为“年-月-日”这种时间格式。b.由于 谷歌提供限定时间搜索功能因此可以将搜索周期设定于第一次爬虫程序采集后至当前日 期,可消去第一次爬虫程序采集的重复内容。c •基于比对URL的网络连接消重技术,由于每 个帖子都是采用相同的URL,因此可以将预采集的网页URL与数据库中已采集的URL进行比 较,如果URL相同则不予采集。
[0043]步骤三、对手机管控端无重复的URL链接使用爬虫技术,得到HTML的网页文本数 据。
[0044]针对舆情信息的采集,采用爬虫技术,一是将需要抓取的URL链接或者起始URL链 接从数据库取出,放到待抓取队列里。第二部分是不停从抓取URL队列中取出需要抓取的 URL链接,进行数据抓取,接着进行URL链接解析,还需要解析下载来的网页文件,并且把其 中所包含的连接再次放到待抓取URL队列中。爬虫从若干(至少一个)初始网页的URL链接开 始,获得初始网页上的URL链接,在抓取网页的过程中,不断从当前页面上抽取新的URL链接 放入队列,直到满足系统的停止条件。工作流程:根据一定的网页分析算法过滤与主题无关 的URL链接,保留有用的URL链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜 索策略从队列中选择下一步要抓取的网页URL链接,并重复上述过程,直到达到系统的某一 条件时停止。
[0045]网络爬虫池被称为网页蜘蛛)是收集HTML网页数据的关键步骤,就是指从HTML网 页抓取数据,然后从里面取出对自己有用的信息,有用的信息在这里主要指网络上网页的 文本内容。爬虫程序一般使用正则表达式来体现。网络爬虫可持续不断地爬取网页。但是由 于网络的动态性,以及越来越多的信息往往分散在许多web服务器和主机,并且使用很多不 同格式。如果我们要解决这一问题,在此处我们可以采用聚焦网络爬虫来解决,即为当我们 在特定网页中输入特定关键字时,它会达到设定的限制。即使用爬虫来进行地毯式搜索。在 实现方面,采用Python语言并结合Query Table抓取。HTML网页文本数据包括整个网页中所 有的文字信息,包括网页的标题、正文。
[0046]网络中的数据层出不穷,如何挖掘我们想要的数据是相当重要的,而大数据挖掘 算法是根据数据创建数据挖掘模型的一组试探和计算。为了创建模型,算法首先分析我们 提供的数据,即第一步骤中获取到的手机管控端的网络数据,并查找特定类型的模式和趋 势。
[0047]步骤四:通过采用网络意见领袖识别方法,来计算出意见领袖综合指数参数SNA (即计算SNA参数),每个参数包括点度、密度、传播局域网级数和传播局部中心势。可以得到 网络中最热门的话题,并预测该类话题;
[0048]步骤五:创建语言模型潜在语义模型LSA,通过该模型来判断语句、字词与文章之 间的关系,从而对该类话题的文章进行分类处理。
[0049]步骤六:通过对所有文章进行分类处理后,进一步采用大数据挖掘技术来分析网 络舆情的态势走向,如在事件发生的时间段中事件热度的走向,并采用图形可视化界面进 行结果分析;-------即通过采用网络意见领袖识别方法、计算SNA参数、创建语言模型,并 结合话题跟踪与检索技术发现热点话题,对HTML的网页文本数据进行舆情大数据挖掘分析 处理,得到网络舆情态势分布的分析结果,并采用图形可视化界面进行分析结果的展示。 [0050]此处舆情大数据挖掘分析处理的方法中包含意见领袖识别方法、计算SNA参数、使 用潜在语义模型创建语言模型,并结合话题跟踪与检索技术发现热点话题。
[0051]大数据挖掘技术是采用机器学习算法从大量HTML的网页文本数据中搜索隐藏信 息的过程。
[0052]进一步的,采用机器学习算法挖掘潜在网页文本中隐藏信息的步骤包括:
[0053] 6.1:使用K-means聚类算法把网页文本内容进行事件的初步分类;
[0054] 6 • 2:根据每一类事件中挖掘近期热点话题,并通过挖掘出的某个热点话题来分析 其形成过程;
[0055] 6.3:通过热点话题的形成过程来用可视化界面进行最后展示。
[0056]采用舆情大数据挖掘分析处理是通过数据库知识发现中的一个步骤。舆情大数据 挖掘分析处理主要是指从大量的HTML的网页文本数据中通过算法搜索隐藏于其中信息的 过程。在此过程中的算法主要是包括遗传算法、关联分析法、决策树算法、人工神经网络算 法,下面有简单的对这些挖掘技术做个介绍。但是文本挖掘的主要是舆情方面的内容,主要 采用关联分析法。由于数据是半结构化或非结构化的网页,且网页信息不断的持续动态更 新增长,从网页上获取的信息十分复杂,因此文本中的信息收集过程中需要这些方法才能 够得到有效的舆情信息,达到舆情效果。
[0057]使用潜在语义网络(LSA)方法,来完成建成语言模型,方便为下一步主题跟踪与检 测做准备。网络意见领袖识别方法对系统有着重要的意义,特别是对活跃于各种微博、微 信、新闻客户端等新兴自媒体平台和门户网站、论坛贴吧等传统网络空间的网络意见领袖 的识别有着此方法能更好体现网络中重大信息的产生过程,主要形成过程如下图2所示,简 单来说即普通网民因外部事件产生心理同源,从而促进群体形成,进而产生意见领袖和群 体分化。
[0058]通过各项调查分析、实际研究,初步确定了 “两类网”的“五个参数”。即着重对网民 即自我网、传播局部网的各个参数(点度、密度、传播局域网级数和传播局部中心势等)不同 的加权值,综合计算得出意见领袖的综合指标参数,以该指数作为领袖的评估指标。如图3 网络意见领袖的系统识别方法。
[0059]每个网络中心点度排名靠前、传播级数大及点度中心势大的节点就是可能的意见 领袖。点度中的点出度反映了意见领袖的活跃度,点入度反映了意见领袖的被认同度或影 响的广度;传播级数反映了意见领袖影响的深度;点度中心势反映了群体之间的联系紧密 程度。
[0060]计算综合指标参数SNA包括计算整个网络话题的参与人数、按时间段统计回帖数、 点击数,对帖子数、点击数等进行多角度统计,并基于SNA参数进行状态分布的描述。
[0061]创建语义模型,此处是使用潜在语义模型(LSA),LSA使用大量文本构成矩阵,每行 表示一个词,一列表示一个文档,矩阵元素可以是词频或TF-IDF,然后使奇异值分解SVD进 行矩阵降维,得到原矩阵的近似,此时两个词的相似性可通过其向量cos值。LSA使用词-文 档矩阵来描述一个词语是否在一篇文档中。词-文档矩阵式一个稀疏矩阵,其行代表词语, 其列代表文档。一般情况下,词-文档矩阵的元素是该词在文档中的出现次数。词-文档矩阵 和传统的语义模型相比并没有实质上的区别,只是因为传统的语义模型并不是使用“矩阵” 这种数学语言来进行描述。
[0062]对于网络舆情态势分布,一方面是根据HTML中的文本数据进行各类统计(如,整个 网络话题的参与人数,如按时间段统计回帖数、点击数等,以反映网民群体对话题的关注 度,包括话题的热度);按网站、地域、网民职业、网民年龄等对帖子数、点击数等进行多角度 统计,以反映个地域、社会各层面人群对网络话题的关注度等。另一方面,基于SNA参数进行 状态分布的描述。
[0063]将舆情态势分布分别以传播局域网的规模(网民数量)、密度、点中心势、直径等作 为态势分析的描述指标,设第i个传播局域网的第j个特征为aij,则可用x个向量的集合 {(all,a21,a31,•••),(al2,a22,a32,•••),••••,(alx,a2x,a3x,•••)}来表示态势分布。这 些指标中,网民数量是态势分布的首要指标;而密度越大、直径越小的网络是可能爆发群体 性时间的发源地,是网络舆情监控的重要区域;点度中心势则反映了群体之间的联系紧密 程度,说明该传播局部网可能是一个有实际关联的团体,应给予关注。
[0064]进一步设计出反映网络舆情总体态势的舆情指数(Index of Public Opinion, Ipo);初步设想为m个传播局域网的平均密度p,节点总数与整个网络的节点总数之比n以及 m的函数,S卩:Ipo = f (P,n,m)。将这一函数值分为3_5个登记,以表示舆情态势与管理预期的 符合程度。
[0065]在舆情信息的挖掘和分析中,要能够识别发现热点话题,并对评论较多的是主题 进行跟踪,这就是话题的检测与跟踪(Topic Detection and Tracking,TDT)问题。tdt的研 宄能够帮助舆情分析系统互联网海量信息中发现新话题并收集己有话题的后续报道。tdt 需要对报道进行采集、检测与跟踪,这涉及到报道类别的判别,应用TDT技术对网络舆情信 息中的话题进行检测与跟踪旨在针对舆情信息的文本结构特征来改进相关算法,主要涉及 到在线话题检测、新事件检测、话题跟踪等研宄子任务。
[0066]意见领袖与态势分布的展示可以在上述结果基础上进行图形化和数值化展示,比 如在数字地图上的意见领袖关键图、舆情态势分布图、数据表格、各种特征参数分类的柱状 图、饼图等。
[0067] (1)各类统计数据的网络舆情分布:通过各种数据表格、网站访问时间、地理位置 分布图、以网民个属性区分的柱状图、饼图等表示出总的言论数据及层次分布;其中分布图 可以表现在数字地图上或者表现在SNA网络图上,直观地显示网络舆论的总体态势分布情 况。
[0068] (2)在数字地图上展示M个传播局域网在成体网络中的分布情况,同时附以数字表 格说明每个传播局域网的基本特征参数(包括该网络的密度、直径、节点总数、中心势等)表 示这m个传播局部网的特征,并用颜色标出舆情指数等级。 、
[0069] (3)在数字地图上展示所关注局部网的关系图,对该关系图中的网民总数、网民属 性参数分类统计数据等予及数据表格说明。
[0070] ⑷相关SNA参数的动态查分显示。将特定网民的SNA参数值得变化以数据和图标 显示。这些参数包括点度中心度、密度、点度中心势、传播局部网级数、几部中心势、局部网 密度,按周期提取网络舆情数据,并计算一个周期个参数值及上一周期的差值,该差值可能 为正或负,在以时间横轴,各项参数为纵轴的坐标系中显示各项SNA参数的动态变化,从而 描述出网络舆情的态势及其变化。
[0071] 所述方法中,通过采集用户访问网络时的数据进行分析统计,可以得到用户一定 的行为。可以通过提取用户在访问网络时发出的关键词,统计发出最多的关键词进而发现 热点话题,进行有效的舆论控制。
[0072] 通过完成以上步骤后,能够得到一个具体的可视化分析界面,主要是统计分析用 户对某些网络的访问情况,如评论数、发言时间、密集程度等参数,识别出给定时间段内的 热门话题。可以根据用户访问信息出处权威度、评论数、发言时间密集程度等参数,识别出 给定时间段内的热门话题。
[0073]具体实现为:对于以上提出的对网页文本数据进行分析处理后得到一个可视化界 面,主要实现过程是首先通过数据的提取,再进行统计分析。首先分析用户的需求,根据用 户指定的一个范围(一定指定地域内的网站或指定的一些网站)的信息源进行有关数据的 采集和筛选,并以人-机结合的方式对用户指定的关注信息进行观测和跟踪。这是最重要 的,本发明主要考虑基本的统计分析。
[0074] 利用关键字布控和语义分析,识别敏感话题。倾向性分析,对于每个话题,对每个 发信人发表的文章的观点、倾向性进行分析与统计。有效地预测是否有发布不良信息的趋 势。主题跟踪,分析新发表文章、贴子的话题是否与已有主题相同。
[0075] 具体实现为:创建语义模型,此处是使用潜在语义模型(LSA),LSA使用大量文本构 成矩阵,每行表示一个词,一列表示一个文档,矩阵元素可以是词频或TF-IDF,然后使奇异 值分解SVD进行矩阵降维,得到原矩阵的近似,此时两个词的相似性可通过其向量cos值。 LSA使用词-文档矩阵来描述一个词语是否在一篇文档中。词-文档矩阵式一个稀疏矩阵,其 行代表词语,其列代表文档。一般情况下,词-文档矩阵的元素是该词在文档中的出现次数。 词-文档矩阵和传统的语义模型相比并没有实质上的区别,只是因为传统的语义模型并不 是使用“矩阵”这种数学语言来进行描述。
[0076] 在舆情信息的挖掘和分析中,要能够识别发现热点话题,并对评论较多的是主题 进行跟踪,这就是话题的检测与跟踪(Topic Detection and Tracking,TDT)问题。tdt的研 究能够帮助舆情分析系统互联网海量信息中发现新话题并收集己有话题的后续报道。TDT 需要对报道进行采集、检测与跟踪,这涉及到报道类别的判别,应用TDT技术对网络舆情信 息中的话题进行检测与跟踪旨在针对舆情信息的文本结构特征来改进相关算法,主要涉及 到在线话题检测、新事件检测、话题跟踪等研究子任务。
[0077] 本发明采用大数据挖掘算法是通过数据库知识发现中的一个步骤。数据挖掘过程 主要是指从大量的数据中通过算法搜索隐藏于其中信息的过程。在此过程中的算法主要是 包括遗传算法、关联分析法、决策树、人工神经网络,由于数据是半结构化或非结构化的网 页,且网页信息不断的持续动态更新增长,从网页上获取的信息十分复杂,因此文本中的信 息收集过程中需要这些方法才能够得到有效的舆情信息,达到舆情效果。
[0078] 网络舆情中SNA参数计算:
[0079]利用SNA的参数分析网络中的特征,并给这些特征赋予社会意义。
[0080] (1)节点的点入度的大小(领点的多寡)表现了该节点被“关注跟随”的狂热程度, 反映了其直接影响力的大小。
[0081] ⑵节点的点出度的大小反映了该节点的相邻节点互动的活跃成都。
[0082] (3)节点的点度大小反映了该节点与其邻居阶段互动关系的总和,计算公式为:nd (i)二 ind ⑴ +out ⑴。
[0083]⑷线(Line)两个节点间有连线反映具有跟随、引用、转发关系。
[0084] ⑸路线(walk) —条线路的存在反映了其上的节点间具有的跟随关系,它们是一 个小的同类团里,可以通过这种线的存在进行聚类计算。
[0085] ⑹直径反映一个图的“大小”,即话题影响的范围大小,也反映一个固定规模子图 中节点联系的疏密程度。
[0086] ⑺密度反映参加话题讨论的Agent分布的疏密程度。除了设计整体网络的密度之 夕卜,还要研宄通过聚类分类得出的各个子类的局部密度。各个局部密度反映了整体“质量分 布”的不均匀,这是描述网络舆情态势的一个重要参考指标。
[0087]基于对网络舆情的SNA参数的挖掘,对网络舆论的传播图进行计算:
[0088] ⑴计算出图中每个节点的点度并由大到小得到节点序列1。
[0089] (2)在计算出各个节点的接近中心度由小到大得到的节点序列2.
[0090] (3)取两个序列的前M个节点得到2个长度为M的节点序列,按节点在2个序列中出 现的平次排序得到长度为2M的序列,找出前M个重要节点:(M可以根据经验值确定或通过算 法找到一个恰当的M,使得以这M个节点为中心的传播局部网刚好覆盖整个网络)。
[0091] ⑷构建前一步得到的M个重要节点的自我网和传播局部网。
[0092]计算自我网和传播网的各个参数(密度、传播局部网技术和传播局部网中心势等) 的值。
[0093]在现有技术&基础上存在以下几个问题:首先是在对舆情信息的采集上,不能够 对信息进行广范围地采取,收集URL列表后不能自动生成一个列表集合,对这些URL的收集 遍历上存在不足之处,不能较为全面的分析这些URL。
[0094]本发明为了解决此问题,设计了包含数据采集、数据处理、数据分析等功能模块。 系统的硬件拓扑结构如图4所示。其中,数据库、策略服务器是可选配置,可以单独配置,也 可合并到数据采集机和数据处理机中;在监控对象比较单一的情况下,数据处理、数据库、 策略服务器和管理服务器可以集成到一台计算机中。管理服务器是用户与系统交互的接 口,在管理服务器上安装USB KEY型终端,以确保管理服务器安全。
[0095]数据分析模块主要是用于对数据采集器获取的网页数据进行分析,通过相关的计 算对多样化的互联网信息进行归一化处理,并进行存储。存储方式采取两种:一种是文件形 式,二是数据库形式。对于前期大量的网络页面数据主要采用文件形式进行存放,对于分析 后的相关结果进行数据库存储。数据分析即根据用户需求,按照预先设定的舆情大数据挖 掘分析处理的方法,关键是结合人工操作方法对归一化数据进行分析,为用户提供与专题 信息相关的分析结果。硬件系统的拓扑结果如图4所示。
[0096]通过以上实施方式的描述可知’本领域的技术人员可以清楚地了解到本发明是通 过软件平台来展示该项方法技术。虽然通过实施例描述了本发明,本领域的技术人员知道, 本发明有很多变形和变化而不能脱离本发明的精神,一样受本发明的权利要求保护。本发 明未详细阐述的部分属于本领域公知技术,本领域技术人员根据己有的描述已能够在不付 出创造性劳动的前提下进行实施,因此,不再赘述。

Claims (13)

1. 一种针对手机管控系统舆情大数据进行分析处理的方法,其特征在于,包括以下步 骤: 步骤一、通过使用虚拟网络连接技术,得到手机管控端用户访问网络的URL链接; 步骤二、X^fURL链接进行去噪、消重,得到无重复的URL链接; 步骤三、对手机管控端无重复的URL链接使用爬虫技术,得到HTML的网页文本数据; 步骤四:对HTML的网页文本数据采用网络意见领袖识别方法,来计算出意见领袖的综 合指数参数SNA,得到网络中最热门的话题,并预测该类话题; 步骤五:创建语言模型,通过该语言模型来判断HTML的网页文本数据中语句、字词与文 章之间的关系,并对该类话题的文章进行分类处理; 步骤六:采用大数据挖掘技术来分析网络舆情的态势走向,并采用图形可视化界面进 行结果分析。
2. 如权利要求1所述的一种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,步骤二中,去噪、消重的关键在于:利用Goog 1 e搜索引擎提供的限定时间搜索功能 进行基于时间格式的URL链接去噪、消重,以及将预采集的URL链接与已采集的URL链接进行 比较,去除重复的URL链接。
3. 如权利要求1所述的一种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,步骤三中,爬虫从若干初始网页的URL链接开始,获得初始网页上的URL链接,在抓 取网页的过程中,不断从当前页面上抽取新的URL链接放入队列,直到满足系统的停止条 件。
4. 如权利要求1所述的一种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,步骤四中,网络意见领袖识别方法着重对网民即自我网、传播局部网的各个参数不 同的加权值SNA参数,综合计算得出意见领袖的综合指标参数SNA,各个综合指标参数SNA包 括点度、密度、传播局域网级数和传播局部中心势,传播局部中心势又分别以网民数量、密 度、点中心势、直径作为网络舆情态势分析的描述指标。
5. 如权利要求4所述的一种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,计算综合指标参数SNA包括计算整个网络话题的参与人数、按时间段统计回帖数、 点击数,对帖子数、点击数进行多角度统计,并基于SNA参数进行状态分布的描述。
6. 如权利要求1所述的一种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,步骤五中,语言模型为潜在语义模型LSA。
7. 如权利要求1所述的一种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,步骤六中,还包括反映网络舆情总体态势的舆情指数Ipo,初步设定为m个传播局域 网的平均密度P,节点总数与整个网络的节点总数之比n以及m的函数,S卩:Ipo = f(p,n,m)。
8. 如权利要求7所述的一种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,将Ip〇 = f (P,n,m)的函数值分为3-5个登记,以表示舆情态势与管理预期的符合程 度。
9. 如权利要求1所述的:种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,大数据挖掘技术是采用机器学习算法从大量HTML的网页文本数据中搜索隐藏信息 的过程。
10.如权利要求9所述的一种针对手机管控系统舆情大数据进行分析处理的方法,其特 征在于,采用机器学习算法挖掘潜在网页文本中隐藏信息的步骤包括:
6.1:使用K-means聚类算法把网页文本内容进行事件的初步分类;
6. 2:根据每一类事件中挖掘近期热点话题,并通过挖掘出的某个热点话题来分析其形 成过程;
6.3:通过热点话题的形成过程来用可视化界面进行最后展示。
CN201710368687.8A 2017-05-23 2017-05-23 一种针对手机管控系统舆情大数据进行分析处理的方法 Pending CN107329970A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710368687.8A CN107329970A (zh) 2017-05-23 2017-05-23 一种针对手机管控系统舆情大数据进行分析处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710368687.8A CN107329970A (zh) 2017-05-23 2017-05-23 一种针对手机管控系统舆情大数据进行分析处理的方法

Publications (1)

Publication Number Publication Date
CN107329970A true CN107329970A (zh) 2017-11-07

Family

ID=60192682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710368687.8A Pending CN107329970A (zh) 2017-05-23 2017-05-23 一种针对手机管控系统舆情大数据进行分析处理的方法

Country Status (1)

Country Link
CN (1) CN107329970A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895008A (zh) * 2017-11-10 2018-04-10 中国电子科技集团公司第三十二研究所 基于大数据平台的情报信息热点发现方法
CN108023768A (zh) * 2017-12-01 2018-05-11 中国联合网络通信集团有限公司 网络事件链确立方法和网络事件链确立系统
CN109471965A (zh) * 2018-10-26 2019-03-15 四川才子软件信息网络有限公司 一种基于大数据的网络舆情数据采集、处理方法及监测平台
CN109508364A (zh) * 2018-11-21 2019-03-22 杭州安恒信息技术股份有限公司 聊天群的舆情分析方法及装置
CN112835960A (zh) * 2021-02-26 2021-05-25 华侨大学 一种在数字展会的数据分析方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033189A1 (en) * 2005-08-05 2007-02-08 Ori Levy Method and system for extracting web data
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN104951447A (zh) * 2014-03-25 2015-09-30 上海市玻森数据科技有限公司 全网舆情监控系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033189A1 (en) * 2005-08-05 2007-02-08 Ori Levy Method and system for extracting web data
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN104951447A (zh) * 2014-03-25 2015-09-30 上海市玻森数据科技有限公司 全网舆情监控系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王洪伟等: "基于LAD和SNA的在线新闻热点识别研究", 《情报学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895008A (zh) * 2017-11-10 2018-04-10 中国电子科技集团公司第三十二研究所 基于大数据平台的情报信息热点发现方法
CN108023768A (zh) * 2017-12-01 2018-05-11 中国联合网络通信集团有限公司 网络事件链确立方法和网络事件链确立系统
CN109471965A (zh) * 2018-10-26 2019-03-15 四川才子软件信息网络有限公司 一种基于大数据的网络舆情数据采集、处理方法及监测平台
CN109508364A (zh) * 2018-11-21 2019-03-22 杭州安恒信息技术股份有限公司 聊天群的舆情分析方法及装置
CN112835960A (zh) * 2021-02-26 2021-05-25 华侨大学 一种在数字展会的数据分析方法与系统

Similar Documents

Publication Publication Date Title
CN107329970A (zh) 一种针对手机管控系统舆情大数据进行分析处理的方法
Rezvanian et al. Sampling social networks using shortest paths
Taha et al. Using the spanning tree of a criminal network for identifying its leaders
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
Lim et al. A topological approach for detecting twitter communities with common interests
Li et al. Competitive analysis for points of interest
Cao et al. Web video topics discovery and structuralization with social network
Bao et al. Discovering interesting co-location patterns interactively using ontologies
Kitsuregawa et al. Socio-Sense: A system for analysing the societal behavior from long term Web archive
CN107895008A (zh) 基于大数据平台的情报信息热点发现方法
CN107944019A (zh) 一种基于爬虫技术的境外舆情监测装置、系统及方法
Al-Baghdadi et al. Topic-based community search over spatial-social networks
CN110297990A (zh) 众包营销微博与水军的联合检测方法及系统
Chen et al. Towards topic trend prediction on a topic evolution model with social connection
CN105589916B (zh) 显式和隐式兴趣知识的提取方法
Espín-Noboa et al. Hoprank: How semantic structure influences teleportation in pagerank (A case study on bioportal)
Hu et al. Mining community in social network using call detail records
Kumar et al. A survey on pattern discovery of web usage mining
Eljadi et al. Anomaly detection for PTM's network traffic using association rule
Liu et al. A network-based CNN model to identify the hidden information in text data
Huang et al. Socialized User Modeling in Microblogging Scenarios for Interest Prediction
Shirazi et al. Discovering user interest by ontology-based user profile
Huang et al. Detecting hotspots in interdisciplinary research based on overlapping community detection
Yumnam et al. Overview: Weblog mining, privacy issues and application of Web Log mining
Sridevi et al. Suggesting a System to Enhance Decision Making in Location Based Social Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171107