CN106649498A - 一种基于爬虫和文本聚类分析的网络舆情分析系统 - Google Patents
一种基于爬虫和文本聚类分析的网络舆情分析系统 Download PDFInfo
- Publication number
- CN106649498A CN106649498A CN201610885652.7A CN201610885652A CN106649498A CN 106649498 A CN106649498 A CN 106649498A CN 201610885652 A CN201610885652 A CN 201610885652A CN 106649498 A CN106649498 A CN 106649498A
- Authority
- CN
- China
- Prior art keywords
- information
- module
- analysis
- text
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于爬虫和文本聚类分析的网络舆情分析系统,采用网络爬虫和文本处理、兴趣点数据挖掘等相关技术,应用垂直化搜索思想,对采集的网页信息进行数据预处理,在用户兴趣模型的基础上,对网页信息进行个性化搜索;然后对检索出的网页文本数据进行分类、聚类和内容提取分析,最后形成兴趣点数据统计报告,并通过个性化搜索系统的软件界面将信息展示和推送给用户。总思路为以用户为中心,采用模块化设计思想,构建用户兴趣模型;在此基础上,深度融合网页文本数据挖掘、数据库索引等相关技术,建立基于主题爬虫和文本处理的个性化搜索系统。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种基于爬虫和文本聚类分析的网络舆情分析系统。
背景技术
现代科学技术每天都在改变着世界,影响着人们的生活和工作方式。尤其是近年来,移动互联网、大数据、云计算等新型技术的迅猛发展,人们在网络空间从事的活动范围不断扩大,微博、微信、微视等新的互联网应用模式出现,使得人们已经进入了大数据时代和信息消费时代,随着Web2.0技术的不断发展,涌现出各类基于社会关系和群体智慧特征的网络平台,如搜索引擎、博客、微信、微博、论坛等,互联网表现出了显著的社会化特征。人们可以通过多种网络平台获取视频、图像、文本、声音等多媒体资源,并进行传播、发布从中国互联网络信息中心的《中国互联网络发展状况统计报告》中看出,截止2014年6月,中国网民数量已达6.32亿,互联网普及率达46.9%,较2013年底提高了1.1个百分点。其中手机上网的网民比例占83.4%,相比2013年底上升了2.4个百分点,首次超越传统PC上网的比例(80.9%)。互联网的普及率呈现快速上升趋势,尤其是移动互联网的发展将带动整体互联网发展,网民生活已全面“网络化”。
互联网规模的不断扩大,随之而来的是网络信息资源的爆炸式增长,但面对互联网浩如烟海的信息资源,如何有效地快速获取自己所需或用户感兴趣的内容,真正使互联网上海量的网络信息资源得以充分利用,并推动信息消费,依然是一个急需解决的难题。通过深入分析互联网搜索相关技术,问题主要体现在以下几个方面:
1)信息获取的冗余程度较高。在日常工作生活中,不难发现同类信息或表述相同的网络新闻、资讯等信息在各大互联网站反复的出现。这种大量同类信息的重复出现,导致用户在获取所需精准信息的时间过长,进一步影响用户的体验心理。在信息化水平快速增长的今天,对精准信息快速准确的把握,才能有效充分利用信息的价值,促进信息消费。因此,帮助用户去除网络冗余信息,提高信息检索速度,获取精准信息,节约时间是一个需解决的问题。
2)信息获取的深度不够。互联网上的资源虽然非常丰富,获取信息的方式也多样化,但是,对于特定领域内的信息的获取,没有相关领域知识背景的人却非常困难,更难以获取其所需的精准信息。另外即便是获取了相关领域内的信息资源,一般大众也难以对该信息的有效性、精准性等进行识别,这些都在不同程度上影响了人们获取信息的深度。
3)信息获取的个性化程度不够。面对海量的互联网络信息资源,不同用户有着不同的搜索需求,用户偏好的不同,用户背景的不同以及对同一信息资源认识理解程度的不同,需要搜索引擎技术的不断创新,以提高搜索精准性,优化用户体验。当前,信息搜索服务较少考虑用户的偏好以及个性化需求,仅仅通过用户搜索的关键词对检索结果进行粗略的过滤。因此,如何快速有效的运用用户的偏好或个人兴趣和爱护来搜索用户所需的信息资源,使信息的搜索过程更加智能化,更加个性化,给用户以最精准、最符合其所需的信息是一个非常值得关注的问题,也是一个急需解决的问题。
4)信息获取的用户体验不够好。随着互联网络尤其是移动互联网的快速发展,各种应用分发平台、社交网站、微信微博等信息来源的多样化,仅依靠传统的搜索引擎无法对这些多样化的海量信息进行有效整合、分类、以及精准定位,制约了用户体验的上升,也影响了用户黏性。因此,如何创新应用分发模式、深度发展语义搜索、智能搜索、个性化搜索等相关技术,打破搜索APP之间的信息壁垒,提高用户体验水平,增强用户黏性,实现信息获取的智能化和个性化,是一个迫切需要解决的问题。因此,为了解决这种“信息丰富而知识匮乏”的问题,本发明深入分析互联网爬虫、文本挖掘以及兴趣点数据处理等相关技术,进而设计一个基于网络爬虫和文本处理的个性化搜索原型系统,目标是为用户提供有效且精准的个性化信息搜索或推送服务,最后基于该个性化搜索原型系统,以“网络舆情分析”为应用场景,来挖掘网络舆情趋势、破解网络反恐、及时发现网络不良言论等,更好地掌控正确社会舆论的前进导向,为当前国家复杂严峻的公共安全、社会稳定提供一定的技术参考。
发明内容
本发明的目的是提供一种基于爬虫和文本聚类分析的网络舆情分析系统。
本发明的目的可以通过以下技术方案实现:
一种基于爬虫和文本聚类分析的网络舆情分析系统,包括支撑层、数据层、服务层、功能层;
所述的功能层包括网页信息采集模块、数据预处理模块、信息检索模块、检索信息分析模块、归档管理模块、兴趣点数据统计模块、系统管理模块;
所述的网页信息采集模块利用网络爬虫技术抓取特定领域的网页信息,存储到本地数据库中,并根据指定的更新策略对网页信息进行更新;
所述的数据预处理模块负责对采集到的网络文本数据进行标题、统一资源定位符、时间、网页内容等特征的提取;
所述的信息检索模块负责对网页信息的全文检索和个性化检索,包括单个关键词和综合用户背景的个性化搜索;
所述的网页信息分析与挖掘模块主要用于对网页信息的归类、文本聚类、倾向性分析、热点话题检测处理,并形成检索分析与挖掘研究报告;
所述的归档管理模块用于对检索的重要信息进行归类整理,对重要的检索信息进行归档操作,便于后续的查询;
所述的兴趣点数据统计模块负责对用户感兴趣的热点话题、专题报道、类别信息等进行时间、空间的统计;
所述的系统管理模块提供用户管理、权限管理以及日志管理功能。
本发明的有益效果:
本发明所提供的一种基于爬虫和文本聚类分析的网络舆情分析系统,具有以下优点:
1)采用统一建模语言,对个性化搜索系统的需求进行了分析,并对其涉及的网页信息采集、数据预处理、信息检索、网页信息分析与挖掘、归档管理、兴趣点数据统计、系统管理模块进行了功能优化;
2)通过对用户兴趣模型的深入研究和分析,对个性化搜索系统进行了总体设计,包括逻辑架构、物理架构的设计;然后根据系统的总体设计思路,对各个模块进行了分析与设计,重点对网页信息采集、预处理、网页信息分析与挖掘模块进行了设计。最后对系统的数据库进行了设计;
3)对个性化搜索原型系统在舆情分析应用中的关键技术进行了研究,首先是基于舆情分析的网络爬虫技术,通过结合网页抓取过滤和更新策略,制定了基于舆情分析的网络爬虫框架。其次是基于用户模型的舆情热点信息挖掘技术研究,通过结合向量空间模型,对K-Means聚类算法进行初始聚类中心确定和相似度方面的改进,以解决K-Means聚类算法对初始聚类中心较为敏感的问题,以及克服K-Means聚类算法容易陷入局部极小点的问题;
4)系统测试与性能分析,通过结合文本聚类的评价指标,对网络舆情的来源分布、信息量统计、以及情感色彩评价进行了分析,同时对基于网页数的文本分类及改进的文本聚类算法进行了性能测试和分析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明的系统结构示意图。
具体实施方式
本发明的核心是提供一种基于爬虫和文本聚类分析的网络舆情分析系统。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于爬虫和文本聚类分析的网络舆情分析系统,该系统包括:
四层系统结构:支撑层、数据层、服务层、功能层。
所述的支撑层包括系统软/硬件资源、存储资源、网络资源,提供支撑系统运行的资源。
所述的数据层包括本地数据库、索引数据库、XML数据库。
所述的服务层包括数据管理服务、系统管理配置服务、网络资源服务。
所述的功能层包括网页信息采集模块、数据预处理模块、信息检索模块、检索信息分析模块、归档管理模块、兴趣点数据统计模块、系统管理模块。
所述的网页信息采集模块的核心是利用网络爬虫技术抓取特定领域的网页信息,存储到本地数据库中,并根据指定的更新策略对网页信息进行更新。
所述的数据预处理模块负责对采集到的网络文本数据进行标题、统一资源定位符、时间、网页内容等特征的提取。
所述的信息检索模块负责对网页信息的全文检索和个性化检索,包括单个关键词和综合用户背景的个性化搜索。
所述的网页信息分析与挖掘模块是个性化搜索系统的重要组成部分,主要包括对网页信息的归类、文本聚类、倾向性分析、热点话题检测等处理,并形成检索分析与挖掘研究报告。
所述的归档管理模块主要是对检索的重要信息进行归类整理,对重要的检索信息进行归档操作,便于后续的查询。
所述的兴趣点数据统计模块负责对用户感兴趣的热点话题、专题报道、类别信息等进行时间、空间的统计。
所述的系统管理模块包括用户管理、权限管理以及日志管理功能。
本发明所提供的一种基于爬虫和文本聚类分析的网络舆情分析系统,具有以下优点:
1)采用统一建模语言,对个性化搜索系统的需求进行了分析,并对其涉及的网页信息采集、数据预处理、信息检索、网页信息分析与挖掘、归档管理、兴趣点数据统计、系统管理模块进行了功能优化;
2)通过对用户兴趣模型的深入研究和分析,对个性化搜索系统进行了总体设计,包括逻辑架构、物理架构的设计;然后根据系统的总体设计思路,对各个模块进行了分析与设计,重点对网页信息采集、预处理、网页信息分析与挖掘模块进行了设计。最后对系统的数据库进行了设计;
3)对个性化搜索原型系统在舆情分析应用中的关键技术进行了研究,首先是基于舆情分析的网络爬虫技术,通过结合网页抓取过滤和更新策略,制定了基于舆情分析的网络爬虫框架。其次是基于用户模型的舆情热点信息挖掘技术研究,通过结合向量空间模型,对K-Means聚类算法进行初始聚类中心确定和相似度方面的改进,以解决K-Means聚类算法对初始聚类中心较为敏感的问题,以及克服K-Means聚类算法容易陷入局部极小点的问题;
4)系统测试与性能分析,通过结合文本聚类的评价指标,对网络舆情的来源分布、信息量统计、以及情感色彩评价进行了分析,同时对基于网页数的文本分类及改进的文本聚类算法进行了性能测试和分析。
为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然,在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (1)
1.一种基于爬虫和文本聚类分析的网络舆情分析系统,其特征在于,包括支撑层、数据层、服务层、功能层;
所述的功能层包括网页信息采集模块、数据预处理模块、信息检索模块、检索信息分析模块、归档管理模块、兴趣点数据统计模块、系统管理模块;
所述的网页信息采集模块利用网络爬虫技术抓取特定领域的网页信息,存储到本地数据库中,并根据指定的更新策略对网页信息进行更新;
所述的数据预处理模块负责对采集到的网络文本数据进行标题、统一资源定位符、时间、网页内容等特征的提取;
所述的信息检索模块负责对网页信息的全文检索和个性化检索,包括单个关键词和综合用户背景的个性化搜索;
所述的网页信息分析与挖掘模块主要用于对网页信息的归类、文本聚类、倾向性分析、热点话题检测处理,并形成检索分析与挖掘研究报告;
所述的归档管理模块用于对检索的重要信息进行归类整理,对重要的检索信息进行归档操作,便于后续的查询;
所述的兴趣点数据统计模块负责对用户感兴趣的热点话题、专题报道、类别信息等进行时间、空间的统计;
所述的系统管理模块提供用户管理、权限管理以及日志管理功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610885652.7A CN106649498A (zh) | 2016-10-10 | 2016-10-10 | 一种基于爬虫和文本聚类分析的网络舆情分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610885652.7A CN106649498A (zh) | 2016-10-10 | 2016-10-10 | 一种基于爬虫和文本聚类分析的网络舆情分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649498A true CN106649498A (zh) | 2017-05-10 |
Family
ID=58853831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610885652.7A Pending CN106649498A (zh) | 2016-10-10 | 2016-10-10 | 一种基于爬虫和文本聚类分析的网络舆情分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649498A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506425A (zh) * | 2017-08-18 | 2017-12-22 | 广东电网有限责任公司信息中心 | 一种网页文件采集归档方法 |
CN108364124A (zh) * | 2018-01-26 | 2018-08-03 | 天津中科智能识别产业技术研究院有限公司 | 基于大数据的国际产能合作风险评估与决策服务系统 |
CN108550380A (zh) * | 2018-04-12 | 2018-09-18 | 北京深度智耀科技有限公司 | 一种基于公共网络的药品安全信息监测方法和装置 |
CN108829729A (zh) * | 2018-05-10 | 2018-11-16 | 河海大学常州校区 | 一种网页解析并采集新闻的方法 |
CN109582855A (zh) * | 2019-01-17 | 2019-04-05 | 北京三快在线科技有限公司 | 增强反爬系统识别性能的方法、装置和存储介质 |
CN110766555A (zh) * | 2019-10-29 | 2020-02-07 | 北京金融资产交易所有限公司 | 信息采集系统 |
-
2016
- 2016-10-10 CN CN201610885652.7A patent/CN106649498A/zh active Pending
Non-Patent Citations (1)
Title |
---|
李芸: "基于爬虫和文本聚类分析的网络舆情分析系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506425A (zh) * | 2017-08-18 | 2017-12-22 | 广东电网有限责任公司信息中心 | 一种网页文件采集归档方法 |
CN108364124A (zh) * | 2018-01-26 | 2018-08-03 | 天津中科智能识别产业技术研究院有限公司 | 基于大数据的国际产能合作风险评估与决策服务系统 |
CN108550380A (zh) * | 2018-04-12 | 2018-09-18 | 北京深度智耀科技有限公司 | 一种基于公共网络的药品安全信息监测方法和装置 |
CN108829729A (zh) * | 2018-05-10 | 2018-11-16 | 河海大学常州校区 | 一种网页解析并采集新闻的方法 |
CN109582855A (zh) * | 2019-01-17 | 2019-04-05 | 北京三快在线科技有限公司 | 增强反爬系统识别性能的方法、装置和存储介质 |
CN109582855B (zh) * | 2019-01-17 | 2019-10-22 | 北京三快在线科技有限公司 | 增强反爬系统识别性能的方法、装置和存储介质 |
CN110766555A (zh) * | 2019-10-29 | 2020-02-07 | 北京金融资产交易所有限公司 | 信息采集系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649498A (zh) | 一种基于爬虫和文本聚类分析的网络舆情分析系统 | |
CN104933093B (zh) | 基于大数据的地区舆情监控及决策辅助系统和方法 | |
US9460193B2 (en) | Context and process based search ranking | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析系统 | |
Yu et al. | Summary of web crawler technology research | |
CN109902216A (zh) | 一种基于社交网络的数据采集与分析方法 | |
CN102915335B (zh) | 基于用户操作记录和资源内容的信息关联方法 | |
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
CN103365924A (zh) | 一种搜索信息的方法、装置和终端 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
Zhao et al. | Topic-centric and semantic-aware retrieval system for internet of things | |
CN107918644A (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
CN113360599A (zh) | 一种基于内容识别的多源异构情报汇聚协同处理平台 | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
CN101989292A (zh) | 一种敏感信息分析系统及方法 | |
CN114637903A (zh) | 一种针对定向目标数据拓展的舆情数据采集系统 | |
CN105989176A (zh) | 数据处理方法及装置 | |
Hu | News hotspots detection and tracking based on LDA topic model | |
CN111723273A (zh) | 一种智慧云检索系统及方法 | |
Wang et al. | Research on intelligent information system of library under big data and digitization technology | |
Konstantinidis et al. | Exploring Twitter communication dynamics with evolving community analysis | |
US20180101615A1 (en) | Systems, methods and techniques for customizable domain-based searching | |
Xu et al. | The study of content security for mobile internet | |
Boddu | ELIMINATE THE NOISY DATA FROM WEB PAGES USING DATA MINING TECHNIQUES. | |
Vassilakis et al. | Database knowledge enrichment utilizing trending topics from Twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |