CN105677802A - 一种互联网信息分析系统 - Google Patents

一种互联网信息分析系统 Download PDF

Info

Publication number
CN105677802A
CN105677802A CN201511031548.3A CN201511031548A CN105677802A CN 105677802 A CN105677802 A CN 105677802A CN 201511031548 A CN201511031548 A CN 201511031548A CN 105677802 A CN105677802 A CN 105677802A
Authority
CN
China
Prior art keywords
information
public feelings
unit
analysis
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511031548.3A
Other languages
English (en)
Inventor
方净
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NINGBO PUBINFO INDUSTRY Co Ltd
Original Assignee
NINGBO PUBINFO INDUSTRY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO PUBINFO INDUSTRY Co Ltd filed Critical NINGBO PUBINFO INDUSTRY Co Ltd
Priority to CN201511031548.3A priority Critical patent/CN105677802A/zh
Publication of CN105677802A publication Critical patent/CN105677802A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网领域,尤其涉及一种互联网信息分析系统。信息采集单元用于系统在联网状态下根据用户输入的关键字采集舆情信息;信息过滤单元用于对采集的舆情信息进行识别分析;信息整合单元用于对过滤的舆情信息按预设条件进行分类;语义解析单元用于对整合后的舆情信息进行语义解析;数据分析单元用于获取经过语义解析的舆情信息,并对舆情信息进行关联于关键字的分析,获得舆情信息的分析结果。有益效果是,能够通过对信息源的识别,在获取信息前首先通过筛选到符合用户要求的信息源,以及通过信息源对能够对此类信息进行较系统的分析,进而为需要的用户提供数据参考以及决策支持。

Description

一种互联网信息分析系统
技术领域
本发明涉及互联网领域,尤其涉及一种互联网信息分析系统。
背景技术
互联网的普及给各行各业带来了巨大的信息量,大数据也随之应用而生,大数据(bigdata,megadata),或称巨量资料,是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
互联网中的大小站点数以千万计,积淀下的信息量更是海量级,在这些信息中存在这相当巨大的关于商机,待遇等方面的数据,绝大部分分布在各大论坛中,各个空间中,BLOG等互动讨论空间中,这些互动空间中的数据具备相当的价值,在一定程度上具备相当大的参考价值,各企事业单位、政府机构等也需要关注这些空间中的互联网舆论,为客户提供及时的互联网舆论方向分析,为公共危机公关,舆论导向等提供数据支持。但目前还没有能够对此类信息进行较系统的分析,进而为需要的用户提供数据参考以及决策支持。
发明内容
针对上述问题一种互联网信息分析系统。
具体的技术方案是:
一种互联网信息分析系统,其中,包括:
信息采集单元,用于所述系统在联网状态下根据用户输入的关键字采集舆情信息;
信息过滤单元,连接所述信息采集单元,用于对采集的所述舆情信息进行识别分析,过滤与所述关键字无关的所述舆情信息;
信息整合单元,连接所述信息过滤单元,用于对过滤的所述舆情信息按预设条件进行分类,并对同一类别的所述舆情信息中信息进行两两信息间不重复部分的相互复制;
语义解析单元,连接所述信息整合单元,用于对整合后的所述舆情信息进行语义解析;
数据分析单元,连接所述语义解析单元,用于获取经过所述语义解析的所述舆情信息,并对所述舆情信息进行关联于所述关键字的分析,获得舆情信息的分析结果。
优选的,上述的互联网信息分析系统,其中,包括:
信息存储单元,连接所述信息整合单元,用于存储进行所述分类后的所述舆情信息。
优选的,上述的互联网信息分析系统,其中,所述舆情信息存储单元包括:
复数个存储模块,每个所述存储模块用于存储一个类别的所述舆情信息;
信息管理模块,连接所述存储模块,用于对存储的所述舆情信息进行删除、增加、修改的管理。
优选的,上述的互联网信息分析系统,其中,所述过滤分析单元包括:
第一分类模块,用于对采集的所述舆情信息根据与所述关键字的关联进行识别,并分为关联信息与无关联信息;
过滤模块,连接所述第一分类模块,用于过滤所述无关联信息。5、如权利要求1所述的互联网信息采集系统,其特征在于,所述舆情信息整合单元包括:
第二分类模块,根据所述预设条件对过滤的所述舆情信息进行分类,并对每个所述分类存储在所述存储模块没内;
信息补充模块,连接所述第二分类模块,用于对每个所述分类中的所述舆情信息中关联于所述关键字的特征词进行提取,对具有同一所述特征词的所述舆情信息进行相互复制;
信息删除模块,连接所述信息补充模块,用于对每个所述分类中所述特征词全部相同的重复所述舆情信息进行删除。
优选的,上述的互联网信息分析系统,其中,所述语义解析单元包括:
识别模块,用于对整合的所述舆情信息进行识别,将识别的所述舆情信息分为语言信息和感情信息;
语言语义分析,连接所述识别模块,用于对识别的所述语言信息进行语义解析,获得语言解析语义;
感情语义分析,连接所述识别模块,用于对识别的所述感情信息进行语义解析,获得感情解析语义;
优选的,上述的互联网信息分析系统,其中,包括:
自动预警单元,连接所述信息整合单元,用于当所述舆情信息被非所述合法用户获取时进行预警。
优选的,上述的互联网信息分析系统,其中,包括:
报告生成单元,连接所述数据分析单元,用于根据所述分析结果,按预置格式形成一分析报告。
本发明的有益效果是,能够通过对信息源的识别,在获取信息前首先通过筛选到符合用户要求的信息源,以及通过信息源对能够对此类信息进行较系统的分析,进而为需要的用户提供数据参考以及决策支持。
附图说明
图1为一种互联网信息分析系统的较佳实施例中的总结构示意图;
图2-7为一种互联网信息分析系统的较佳实施例中,在图1的基础上,部分结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1所示,
一种互联网信息分析系统,其中,包括:
信息采集单元1,用于系统在联网状态下根据用户输入的关键字采集舆情信息;
信息过滤单元2,连接信息采集单元1,用于对采集的舆情信息进行识别分析,过滤与关键字无关的舆情信息;
信息整合单元3,连接信息过滤单元2,用于对过滤的舆情信息按预设条件进行分类,并对同一类别的舆情信息中信息进行两两信息间不重复部分的相互复制;
语义解析单元4,连接信息整合单元3,用于对整合后的舆情信息进行语义解析;
数据分析单元5,连接语义解析单元4,用于获取经过语义解析的舆情信息,并对舆情信息进行关联于关键字的分析,获得舆情信息的分析结果。
本发明是通过信息采集单元1获取用户输入的关键字采集与关键字相关联的信息,通过信息过滤单元2,过滤与关键字无关的信息,例如嵌在信息中的广告等信息,将过滤的信息通过信息整合单元3进行整合,对同一类别的舆情信息中信息进行两两信息间不重复部分的相互复制,对过滤的信息按预设条件进行分类,预设条件可以是某类商品的使用方法的分类,可以是不同功能的分类等,并对同一类别的信息进行信息间的相互补充,例如对商品使用方法的分类,将具有共性的使用方法集合成一个使用方法,并将相同共性集合成的使用方法中多余的信息删除。对与整合后的信息通过语义解析单元4进行语义的解析,使用户根据解析的语义对数据进行挖掘,进而获得用户所需的有商业价值的信息。
本发明主要面向各企事业单位、政府机构等需要关注互联网舆论的客户,为客户提供及时的互联网舆论方向分析,为公共危机公关,舆论导向等提供数据支持。
本发明较佳实施例中,如图2所示,包括:
信息存储单元6,连接信息整合单元3,用于存储进行分类后的信息。本单元方便用户对采集信息的管理。
在本技术方案的基础上,进一步的,如图2所示,信息存储单元6包括:
复数个存储模块601,每个存储模块601用于存储一个类别的信息;
信息管理模块602,连接存储模块601,用于对存储的信息进行删除、增加、修改的管理。
通过对每个类别信息的独立存储,进而对每个类别的信息进行管理,对于过滤的信息可以按食品、品牌、投诉、建议等进行分类,将不同的分类存储在不同的独立的存储模块601中,以便分析。
本发明较佳实施例中,如图3所示,过滤分析单元包括:
第一分类模块201,用于对采集的信息根据与关键字的关联进行识别,并分为关联信息与无关联信息;
过滤模块202,连接第一分类模块201,用于过滤无关联信息。
过滤分析单元主要是分离并过滤出与关键字无关联的信息,例如广告等,并将这些无关联的信息进行过滤删除。
本发明较佳实施例中,如图4所示,信息整合单元3包括:
第二分类模块301,根据预设条件对过滤的信息进行分类,并对每个分类存储在存储模块601没内;
信息补充模块302,连接第二分类模块301,用于对每个分类中的信息中关联于关键字的特征词进行提取,对具有同一特征词的信息进行相互复制;
信息删除模块303,连接信息补充模块302,用于对每个分类中特征词全部相同的重复信息进行删除。
将与关键字相关联的信息进行进一步的分类,如前述的按某类商品的使用方法的分类,或是不同功能的分类等,并对同一类别的信息通过信息补充模块302进行信息间的相互补充,首先提取同类信息中与关键字相关联的特征词,例如在使用方法的分类中,使用方法是关键字,“精华露在清洁面部后,均匀涂抹在面部,并按顺时针按摩3-5分钟”其中“清洁面部、均匀涂抹、顺时针按摩、3-5分钟”为与关联于关键字的特征词,提取特征词,当有两个使用方法中有相同的特征词时,将剩余的不同特征词相互复制,获得相同的使用方法,再通过信息删除模块303,对重复的信息进行删除,在关键字“使用方法”下的信息得到整合。
本发明较佳实施例中,如图5所示,语义解析单元4包括:
识别模块401,用于对整合的信息进行识别,将识别的信息分为语言信息和感情信息;
语言语义分析402,连接识别模块401,用于对识别的语言信息进行语义解析,获得语言解析语义;
感情语义分析403,连接识别模块401,用于对识别的感情信息进行语义解析,获得感情解析语义;
对与整合后的信息通过语义分析单元进行语义的分析,具体通过识别模块401进行识别,将存储的信息分为语言信息和感情信息,获得语言解析语义和感情解析语义。使用户根据解析的语义对数据进行挖掘,进而获得用户所需的有商业价值的信息。
本发明较佳实施例中,如图6所示,包括:
自动预警单元7,连接信息整合单元3,用于当信息被非合法用户获取时进行预警。为保护企业的数据,对于不合法用户登录系统时自动预警单元7进行预警。
本发明较佳实施例中,如图7所示,包括:
报告生成单元8,连接数据分析单元5,用于根据分析结果,按预置格式形成一分析报告。
方便用户直观的获得关联于关键字的商业分析报告,以便做出商业决策等。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (8)

1.一种互联网信息分析系统,其特征在于,包括:
信息采集单元,用于所述系统在联网状态下根据用户输入的关键字采集舆情信息;
信息过滤单元,连接所述信息采集单元,用于对采集的所述舆情信息进行识别分析,过滤与所述关键字无关的所述舆情信息;
信息整合单元,连接所述信息过滤单元,用于对过滤的所述舆情信息按预设条件进行分类,并对同一类别的所述舆情信息中进行两两信息的不重复部分的相互复制;
语义解析单元,连接所述信息整合单元,用于对整合后的所述舆情信息进行语义解析;
数据分析单元,连接所述语义解析单元,用于获取经过所述语义解析的所述舆情信息,并对所述舆情信息进行关联于所述关键字的分析,获得舆情信息的分析结果。
2.如权利要求1所述的互联网信息采集系统,其特征在于,包括:
信息存储单元,连接所述信息整合单元,用于存储所述分类后的所述舆情信息。
3.如权利要求2所述的互联网信息采集系统,其特征在于,所述舆情信息存储单元包括:
复数个存储模块,每个所述存储模块用于存储一个类别的所述舆情信息;
信息管理模块,连接所述存储模块,用于对存储的所述舆情信息进行删除、增加、修改的管理。
4.如权利要求1所述的互联网信息采集系统,其特征在于,所述过滤分析单元包括:
第一分类模块,用于对采集的所述舆情信息根据与所述关键字的关联进行识别,并分为关联信息与无关联信息;
过滤模块,连接所述第一分类模块,用于过滤所述无关联信息。
5.如权利要求1所述的互联网信息采集系统,其特征在于,所述舆情信息整合单元包括:
第二分类模块,根据所述预设条件对过滤的所述舆情信息进行分类,并对每个所述分类存储在所述存储模块没内;
信息补充模块,连接所述第二分类模块,用于对每个所述分类中的所述舆情信息中关联于所述关键字的特征词进行提取,对具有同一所述特征词的所述舆情信息进行相互复制;
信息删除模块,连接所述信息补充模块,用于对每个所述分类中所述特征词全部相同的重复所述舆情信息进行删除。
6.如权利要求1所述的互联网信息采集系统,其特征在于,所述语义解析单元包括:
识别模块,用于对整合的所述舆情信息进行识别,将识别的所述舆情信息分为语言信息和感情信息;
语言语义分析,连接所述识别模块,用于对识别的所述语言信息进行语义解析,获得语言解析语义;
感情语义分析,连接所述识别模块,用于对识别的所述感情信息进行语义解析,获得感情解析语义。
7.如权利要求1所述的互联网信息采集系统,其特征在于,包括:
自动预警单元,连接所述信息整合单元,用于当所述舆情信息被非所述合法用户获取时进行预警。
8.如权利要求1所述的互联网信息采集系统,其特征在于,包括:
报告生成单元,连接所述数据分析单元,用于根据所述分析结果,按预置格式形成一分析报告。
CN201511031548.3A 2015-12-31 2015-12-31 一种互联网信息分析系统 Pending CN105677802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511031548.3A CN105677802A (zh) 2015-12-31 2015-12-31 一种互联网信息分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511031548.3A CN105677802A (zh) 2015-12-31 2015-12-31 一种互联网信息分析系统

Publications (1)

Publication Number Publication Date
CN105677802A true CN105677802A (zh) 2016-06-15

Family

ID=56189949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511031548.3A Pending CN105677802A (zh) 2015-12-31 2015-12-31 一种互联网信息分析系统

Country Status (1)

Country Link
CN (1) CN105677802A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446084A (zh) * 2016-09-09 2017-02-22 北京高地信息技术有限公司 一种互联网人物搜索信息整合分析方法
CN107544988A (zh) * 2016-06-27 2018-01-05 百度在线网络技术(北京)有限公司 一种获取舆情数据的方法和装置
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN108804501A (zh) * 2018-04-08 2018-11-13 深圳市腾讯计算机系统有限公司 一种检测有效信息的方法及装置
CN109165340A (zh) * 2018-07-19 2019-01-08 湖南富盟传媒有限公司 网络舆情监测系统
CN110502688A (zh) * 2019-08-22 2019-11-26 武汉东湖大数据交易中心股份有限公司 一种基于大数据的信息收集分析系统
CN111935115A (zh) * 2020-07-30 2020-11-13 南京中诚区块链研究院有限公司 一种采用多种信息整合方式区块链

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103744877A (zh) * 2013-12-20 2014-04-23 潘大庆 部署于互联网的舆情监测应用系统及运用方法
CN105117484A (zh) * 2015-09-17 2015-12-02 广州银讯信息科技有限公司 一种互联网舆情监测方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103744877A (zh) * 2013-12-20 2014-04-23 潘大庆 部署于互联网的舆情监测应用系统及运用方法
CN105117484A (zh) * 2015-09-17 2015-12-02 广州银讯信息科技有限公司 一种互联网舆情监测方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544988A (zh) * 2016-06-27 2018-01-05 百度在线网络技术(北京)有限公司 一种获取舆情数据的方法和装置
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN107729309B (zh) * 2016-08-11 2022-11-08 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN106446084A (zh) * 2016-09-09 2017-02-22 北京高地信息技术有限公司 一种互联网人物搜索信息整合分析方法
CN108804501A (zh) * 2018-04-08 2018-11-13 深圳市腾讯计算机系统有限公司 一种检测有效信息的方法及装置
CN108804501B (zh) * 2018-04-08 2020-12-11 深圳市腾讯计算机系统有限公司 一种检测有效信息的方法及装置
CN109165340A (zh) * 2018-07-19 2019-01-08 湖南富盟传媒有限公司 网络舆情监测系统
CN110502688A (zh) * 2019-08-22 2019-11-26 武汉东湖大数据交易中心股份有限公司 一种基于大数据的信息收集分析系统
CN111935115A (zh) * 2020-07-30 2020-11-13 南京中诚区块链研究院有限公司 一种采用多种信息整合方式区块链

Similar Documents

Publication Publication Date Title
CN105677802A (zh) 一种互联网信息分析系统
US11727481B2 (en) Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
Takekawa et al. Accurate spike sorting for multi‐unit recordings
CN101743542B (zh) 收集和呈现基于时间的动作信息
Strotmann et al. Author name disambiguation: What difference does it make in author‐based citation analysis?
CN103488635A (zh) 一种获取产品信息的方法及装置
CN105224593B (zh) 一种短暂上网事务中频繁共现账号挖掘方法
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN105447184A (zh) 信息抓取方法及装置
CN108399199A (zh) 一种基于Spark的应用软件运行日志的收集与服务处理系统及方法
CN102214227B (zh) 基于互联网层次结构存储的自动舆情监控方法
CN103440199A (zh) 测试引导方法和装置
Hájek et al. Library user behavior analysis–use in economics and management
CN112860899B (zh) 标签生成方法、装置、计算机设备和计算机可读存储介质
Horne et al. NELA-Local: A dataset of US local news articles for the study of county-level news ecosystems
CN110889632B (zh) 一种公司形象提升系统的数据监测分析系统
CN104657422A (zh) 一种基于分类决策树的内容发布智能分类方法
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN104462613B (zh) 热点聚合方法及装置
CN109033210A (zh) 一种挖掘地图兴趣点poi的方法和装置
CN111368550A (zh) 一种舆情信息管理系统
DE202022102520U1 (de) System zur Analyse von Werbung auf Online-Videoplattformen für digitales Marketing durch maschinelles Lernen, um ein breites Publikum zu erreichen
CN104102739B (zh) 一种扩充实体库的方法及装置
CN105447202A (zh) 一种互联网信息采集系统
Leifeld Policy networks: a citation analysis of the quantitative literature

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160615

RJ01 Rejection of invention patent application after publication