CN112214658A - 基于网络爬虫的数据分析系统 - Google Patents

基于网络爬虫的数据分析系统 Download PDF

Info

Publication number
CN112214658A
CN112214658A CN201910618161.XA CN201910618161A CN112214658A CN 112214658 A CN112214658 A CN 112214658A CN 201910618161 A CN201910618161 A CN 201910618161A CN 112214658 A CN112214658 A CN 112214658A
Authority
CN
China
Prior art keywords
data
module
analysis
user
web crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910618161.XA
Other languages
English (en)
Inventor
梁龙双
蔡尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Langlichuang Technology Co ltd
Original Assignee
Wuhan Langlichuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Langlichuang Technology Co ltd filed Critical Wuhan Langlichuang Technology Co ltd
Priority to CN201910618161.XA priority Critical patent/CN112214658A/zh
Publication of CN112214658A publication Critical patent/CN112214658A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Abstract

本发明公开了一种基于网络爬虫的数据分析系统,包括数据采集模块、数据分析模块、业务功能模块,数据采集模块使用网络爬虫模块爬取指定网站数据,使用数据存储模块存储爬取的数据。数据分析模块利用关键词识别、语义分析、情感分析,分析数据采集模块存储的数据。业务功能模块将数据分析模块分析的结果进行分类展示,通过用户管理模块管理用户,利用用户权限管理模块控制用户的权限,系统管理员通过业务功能模块的数据管理模块对系统的数据进行管理。本发明的有益效果是对用户而言,只需设置关键词汇即可进行实时快速的数据分析。

Description

基于网络爬虫的数据分析系统
技术领域
本发明涉及软件开发产品领域,特别涉及一种通过网络爬虫进行数据分析的系统。
技术背景
公知,随着科学技术的不断发展,网络的使用量不断提高,各种自媒体和UGC发展迅猛,其中包含着部分不良信息和负面言论,对网络中各种言论进行数据分析必不可少。目前大部分系统仍然采用人工分析的的数据分析系统,这种模式实时性差、处理复杂、效率低下。
因此,现有技术还存在不足,有待发展。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种基于网络爬虫的数据分析系统,旨在解决现有数据分析中的实时性差、处理复杂、效率低下的问题。
本发明的技术方案如下:
基于网络爬虫的数据分析系统,包括三个模块,数据采集模块、数据分析模块和业务功能模块。
基于网络爬虫的数据分析系统,所述方法通过以下步骤实现:
A、数据采集模块使用网络爬虫爬取指定网站数据,使用数据存储模块存储爬取的数据;
B、数据分析模块利用关键词识别、语义分析、情感分析,分析数据采集模块存储的数据;
C、业务功能模块将数据分析模块分析的结果进行分类展示;
D、业务功能模块通过用户管理模块管理用户,利用用户权限管理模块控制用户的权限;
E、系统管理员通过业务功能模块的数据管理模块对系统的数据进行管理。
所述的基于网络爬虫的数据分析系统,在数据采集模块中包含:
网络爬虫:用于爬取网络数据;
数据存储:用于存储爬取的数据。
所述的基于网络爬虫的数据分析系统,在数据分析模块中包含:
关键词识别:用于识别数据中的敏感关键字;
情感分析:用于分析数据中表达的感情;
语义分析:用于分析数据中要表达的意思。
所述的基于网络爬虫的数据分析系统,在业务功能模块中包含:
数据分类展示:用于分类显示数据;
用户权限管理:用于控制用户的权限;
用户管理:用于管理用户;
数据管理:用于对系统中的数据进行管理。
有益效果:所述的基于网络爬虫的数据分析系统,其有益效果是对用户而言,只需设置关键词汇即可进行实时快速的数据分析。
附图说明
下面结合附图及实施例对本发明基于网络爬虫的数据分析系统作进一步的说明:
图1为本发明基于网络爬虫的数据分析系统的模块流程图。
图2为本发明基于网络爬虫的数据分析系统的数据采集模块流程图。
图3为本发明基于网络爬虫的数据分析系统的数据分析模块流程图。
图4为本发明基于网络爬虫的数据分析系统的业务功能模块流程图。
具体实施方式
本发明的目的在于提供一种基于网络爬虫的数据分析系统,旨在解决一些数据分析系统在现有模式下实时性差、处理复杂、效率低下的问题。为了本发明的目的、技术方案及效果更加清楚、明确,以下对本发明作近一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
基于网络爬虫的数据分析系统,包括三个模块,数据采集模块(1),数据分析模块(2),业务功能模块(3)。数据采集模块包括,网络爬虫(11),数据存储(12);数据分析模块包括,关键词识别(21),情感分析(22),语义分析(23);业务功能模块包括,数据分类展示(31),用户权限管理(32),用户管理(33),数据管理(34)。
如图1-4所示,本发明基于网络爬虫的数据分析系统,所述方法通过以下步骤逐一实现:
使用者在业务功能模块(3)的数据管理(34)上添加关键词,数据采集模块(1)的网络爬虫(11)将自动运行爬取相关数据,并通过数据存储(12)进行保存,然后数据分析模块(2)将自动运行关键词识别(21),情感分析(22),语义分析(23)对数据进行分析,最后数据将通过数据分类展示(31)显示给用户。系统管理员通过用户管理(33),添加、修改、删除用户,通过用户权限管理(32)对用户的权限进行管理。
本发明的有益效果是,所述的基于网络爬虫的数据分析系统对用户而言,只需设置关键词汇即可进行实时快速的数据分析。

Claims (4)

1.基于网络爬虫的数据分析系统,包括三个模块,数据采集模块(1),数据分析模块(2),业务功能模块(3),其特征在于,所述方法包括以下步骤:
A、数据采集模块使用网络爬虫爬取指定网站数据,使用数据存储模块存储爬取的数据;
B、数据分析模块利用关键词识别、语义分析、情感分析,分析数据采集模块存储的数据;
C、业务功能模块将数据分析模块分析的结果进行分类展示;
D、业务功能模块通过用户管理模块管理用户,利用用户权限管理模块控制用户的权限;
E、系统管理员通过业务功能模块的数据管理模块对系统的数据进行管理。
2.根据权利要求1所述的基于网络爬虫的数据分析系统,其特征在于:所述数据采集模块包括,网络爬虫(11),数据存储(12):
网络爬虫:用于爬取网络数据;
数据存储:用于存储爬取的数据。
3.根据权利要求1所述的基于网络爬虫的数据分析系统,其特征在于:所述数据分析模块包括,关键词识别(21),情感分析(22),语义分析(23):
关键词识别:用于识别数据中的敏感关键字;
情感分析:用于分析数据中表达的感情;
语义分析:用于分析数据中要表达的意思。
4.根据权利要求1所述的基于网络爬虫的数据分析系统,其特征在于:所述业务功能模块包括,数据分类展示(31),用户权限管理(32), 用户管理(33),数据管理(34):
数据分类展示:用于分类显示数据;
用户权限管理:用于控制用户的权限;
用户管理:用于管理用户;
数据管理:用于对系统中的数据进行管理。
CN201910618161.XA 2019-07-10 2019-07-10 基于网络爬虫的数据分析系统 Pending CN112214658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910618161.XA CN112214658A (zh) 2019-07-10 2019-07-10 基于网络爬虫的数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910618161.XA CN112214658A (zh) 2019-07-10 2019-07-10 基于网络爬虫的数据分析系统

Publications (1)

Publication Number Publication Date
CN112214658A true CN112214658A (zh) 2021-01-12

Family

ID=74047106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910618161.XA Pending CN112214658A (zh) 2019-07-10 2019-07-10 基于网络爬虫的数据分析系统

Country Status (1)

Country Link
CN (1) CN112214658A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020038365A1 (en) * 2000-09-25 2002-03-28 Mythink Technology Co,. Ltd. Method and system for real-time analyzing and processing data over the internet
CN103841216A (zh) * 2014-04-01 2014-06-04 深圳市科盾科技有限公司 一种基于云平台的网络舆情监控系统
CN104182466A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种房库网系统
CN105718587A (zh) * 2016-01-26 2016-06-29 王薇 一种网络内容资源评估方法及评估系统
CN109284432A (zh) * 2018-08-22 2019-01-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于大数据平台的网络舆情分析系统
CN109460922A (zh) * 2018-11-13 2019-03-12 电子科技大学 一种具有电力行业特征的网络舆情分析与辅助决策系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020038365A1 (en) * 2000-09-25 2002-03-28 Mythink Technology Co,. Ltd. Method and system for real-time analyzing and processing data over the internet
CN103841216A (zh) * 2014-04-01 2014-06-04 深圳市科盾科技有限公司 一种基于云平台的网络舆情监控系统
CN104182466A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种房库网系统
CN105718587A (zh) * 2016-01-26 2016-06-29 王薇 一种网络内容资源评估方法及评估系统
CN109284432A (zh) * 2018-08-22 2019-01-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于大数据平台的网络舆情分析系统
CN109460922A (zh) * 2018-11-13 2019-03-12 电子科技大学 一种具有电力行业特征的网络舆情分析与辅助决策系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答系统
CN113987146B (zh) * 2021-10-22 2023-01-31 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的智能问答系统

Similar Documents

Publication Publication Date Title
CN101751458A (zh) 一种网络舆情监控系统及方法
CN103577462B (zh) 一种文档分类方法及装置
WO2019196226A1 (zh) 制度信息查询方法、装置、计算机设备和存储介质
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN109726393B (zh) 一种基于自然语言处理技术的政策分析系统及方法
WO2007051067A3 (en) Classification and management of keywords across multiple campaigns
CN110888990A (zh) 文本推荐方法、装置、设备及介质
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN109947902B (zh) 一种数据查询方法、装置和可读介质
CN104281608A (zh) 基于微博的突发事件分析方法
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及系统
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施系统
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
Guo et al. A survey of internet public opinion mining
CN111666499A (zh) 一种基于大数据的舆情监测云服务平台
US9165053B2 (en) Multi-source contextual information item grouping for document analysis
CN112214658A (zh) 基于网络爬虫的数据分析系统
Guan et al. Research and design of internet public opinion analysis system
CN113190663A (zh) 应用于水利场景的智能交互方法、装置、存储介质及计算机设备
WO2021128721A1 (zh) 文本分类处理方法和装置
CN111859108A (zh) 一种舆情系统搜索词推荐系统
Lian Implementation of computer network user behavior forensic analysis system based on speech data system log
CN111666263A (zh) 一种数据湖环境下异构数据管理的实现方法
CN100593783C (zh) 一种词汇语义褒贬获得方法、系统及装置
JP2017010376A (ja) マートレス検証支援システムおよびマートレス検証支援方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination