CN114139098A - 一种基于大数据的舆情系统 - Google Patents

一种基于大数据的舆情系统 Download PDF

Info

Publication number
CN114139098A
CN114139098A CN202111500694.1A CN202111500694A CN114139098A CN 114139098 A CN114139098 A CN 114139098A CN 202111500694 A CN202111500694 A CN 202111500694A CN 114139098 A CN114139098 A CN 114139098A
Authority
CN
China
Prior art keywords
public opinion
data
analysis
public
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111500694.1A
Other languages
English (en)
Inventor
张�林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Yuying Information Technology Co ltd
Original Assignee
Anhui Yuying Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Yuying Information Technology Co ltd filed Critical Anhui Yuying Information Technology Co ltd
Priority to CN202111500694.1A priority Critical patent/CN114139098A/zh
Publication of CN114139098A publication Critical patent/CN114139098A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的舆情系统,涉及舆情系统技术领域,为解决现有的舆情系统在数据分析上无法高效运维以及在数据采集上无法快速准确定位的问题。所述舆情规划、舆情采集、舆情数据、舆情分析以及舆情报告,其中:舆情规划包括互联网引擎搜索,从互联网中提取多种关键词,还包括论坛、博客、新闻以及贴吧多个获取舆情信息;舆情采集,包括文本聚类、文本分类、文本倾向性判断以及关键词抽取,所述舆情采集通过多重算法处理获得舆情数据;舆情数据,包括内容入库储存、网页快照以及附件存储;舆情分析,基于Tablestore构架,采用Blink计算系统对舆情数据进行分析并生成舆情报告;舆情报告,包括舆情专报、舆情简报以及预警系统。

Description

一种基于大数据的舆情系统
技术领域
本发明涉及舆情系统技术领域,具体为一种基于大数据的舆情系统。
背景技术
当前网络舆情无论从信息量还是从观点量都已无可争议地压倒传统媒体。面对网络上海量的舆情信息和舆情观点,依托人工力量进行整理、发现和分析,不仅费时费力而且也近乎不可能完成。因此构建以计算机技术和现代网络技术为基础的.以情报学领域中信息采集、信息组织、信息分析方法为理论依据的网络舆情分析系统势在必行,舆情系统需要综合运用搜索引擎技术、文本处理技术、知识管理方法、自然语言处理、手机短信平台,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,以满足用户对网络舆情监测和热点事件专题追踪等需求。
但是,现有的舆情系统在使用的过程中存在一些缺陷:一、在面对舆情数据的分析上,目前采用多Hbase+Solr多引擎,其运维复杂,需要有运维hbase和solr两套系统的能力,同时还需要维护数据同步的链路;二、在舆情信息的获取上,不能够第一时间掌握到与用户相关的重大事件以及舆情事件,因此不满足现有的需求,对此我们提出了一种基于大数据的舆情系统。
发明内容
本发明的目的在于提供一种基于大数据的舆情系统,以解决上述背景技术中提出的舆情系统在数据分析上无法高效运维以及在数据采集上无法快速准确定位的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大数据的舆情系统,包括舆情规划、舆情采集、舆情数据、舆情分析以及舆情报告,其中:
舆情规划包括互联网引擎搜索,从互联网中提取多种关键词,还包括论坛、博客、新闻以及贴吧多个获取舆情信息;
舆情采集,包括文本聚类、文本分类、文本倾向性判断以及关键词抽取,所述舆情采集通过多重算法处理获得舆情数据;
舆情数据,包括内容入库储存、网页快照以及附件存储;
舆情分析,基于Tablestore构架,采用Blink计算系统对舆情数据进行分析并生成舆情报告;
舆情报告,包括舆情专报、舆情简报以及预警系统。
优选的,所述文本聚类对海量的无类别文档进行归类,在对文档集进行分词、向量化后得到特征集合,从全部特征集中提取一个最优的特征子集,对特征提取后的特征向量进行微调,突出聚类重要词进行聚类,把内容相近的文档归为一类得到聚类结果,并自动为其生成主题词,为确定类目名称提供方便,最后生成舆情专题、重大新闻事件追踪等;文本分类,一是获取训练文档集,初始的文档集来自上步骤中的文本聚类;
所述文本分类一是获取训练文档集,初始的文档集来自文本聚类,二是建立文档表示模型,三是进行文档特征选择,四是选择分类方法,主要采用KNN和支持向量机相结合的方法;血是建立性能评估模型,通过以上五个步骤对采集到的信息进行归类处理,为下一步的主题分析提供分类主题集;
所述文本倾向性判断能够判断态度和立场,倾向性分析对舆论热点的思想动向、倾向和走向至关重要,更能够从数量关系上揭示舆情的特点和规律。
优选的,所述多重算法处理包括热点发现算法、情感分析算法、预警分析算法以及垃圾过滤算法。
优选的,所述舆情数据通过Tablestore构架进行分析,结构化提取后发送至Blink计算系统进行舆情实时计算,重大舆情事件的预警,预警系统通过Tablestore和函数计算触发器对接来实现,通过结果表写入事件,可通过函数计算触发通知,完整的舆情分析结果和展示搜索利用Tablestore多元索引;
除实时计算外,支持批处理Tablestore的数据,低峰期批量处理部分数据并作为反馈结果写回Tablestore,既可以做实时流计算又可以离线批处理。
优选的,所述预警系统通过邮件、短信和APP发送预警通知。
优选的,所述舆情分析系统包括近期热点、负面消息、趋势分析、专题侦测、热点发现、舆情管理以及转载群站。
与现有技术相比,本发明的有益效果是:
1、本发明舆情采集模块主要根据地址数据库传递过来的地址URL对相应地址的web页面内容进行抓取,采取文本聚类、文本分类、文本倾向性判断以及关键词抽取技术,通过多重算法处理将经过处理的文档转换为适合于分类、聚类等挖掘算法的表示形式,并进行智能自动关键词标引、热点敏点词汇标注、情感倾向性分析,最后形成舆情数据,其中文本聚类对海量的无类别文档进行归类,在对文档集进行分词、向量化后得到特征集合,从全部特征集中提取一个最优的特征子集,对特征提取后的特征向量进行微调,突出聚类重要词进行聚类,把内容相近的文档归为一类得到聚类结果,并自动为其生成主题词,为确定类目名称提供方便,最后生成舆情专题、重大新闻事件追踪等;文本分类,一是获取训练文档集,初始的文档集来自上步骤中的文本聚类;二是建立文档表示模型;三是进行文档特征选择:四是选择分类方法,主要采用KNN和支持向量机相结合的方法;血是建立性能评估模型。通过以上5个步骤对采集到的信息进行归类处理,为下一步的主题分析提供分类主题集;文本倾向性判断,能够判断态度和立场,倾向性分析对舆论热点的思想动向、倾向和走向至关重要,更能够从数量关系上揭示舆情的特点和规律。
2、本发明在舆情分析上基于Tablestore构架,并在计算系统上选择阿里云的Blink,一个数据库解决不同存储需求,利用Tablestore宽行的特性,合并原始网页和网页结构化数据成一张网页数据,网页数据表和计算系统通过Tablestore新功能通道服务进行对接,通道服务基于数据库日志,数据的组织结构按照数据的写入顺序进行存储,正是这一特性,赋能数据库具备了队列流式消费能力,而且ablestore已经深度和Blink进行整合,支持源表,维表和目的表,业务无需为数据流动开发代码,有效降低整体的运维成本,整套架构大幅降低组建个数,Tablestore和Blink都是全托管0运维的产品,并且都能做到很好的水平弹性,业务峰值扩展无压力,使得大数据架构的运维成本大幅降低。
附图说明
图1为本发明的基于大数据的舆情系统原理图;
图2为本发明的舆情分析系统原理图;
图3为本发明的多重算法结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1-3,本发明提供的一种实施例:一种基于大数据的舆情系统,包括舆情规划、舆情采集、舆情数据、舆情分析以及舆情报告,其中:
舆情规划包括互联网引擎搜索,从互联网中提取多种关键词,还包括论坛、博客、新闻以及贴吧多个获取舆情信息;
舆情采集,包括文本聚类、文本分类、文本倾向性判断以及关键词抽取,舆情采集通过多重算法处理获得舆情数据;
舆情数据,包括内容入库储存、网页快照以及附件存储;
舆情分析,基于Tablestore构架,采用Blink计算系统对舆情数据进行分析并生成舆情报告;
舆情报告,包括舆情专报、舆情简报以及预警系统。
通过这种方式,能够解决舆情系统在数据分析上无法高效运维以及在数据采集上无法快速准确定位的问题。
进一步,文本聚类对海量的无类别文档进行归类,在对文档集进行分词、向量化后得到特征集合,从全部特征集中提取一个最优的特征子集,对特征提取后的特征向量进行微调,突出聚类重要词进行聚类,把内容相近的文档归为一类得到聚类结果,并自动为其生成主题词,为确定类目名称提供方便,最后生成舆情专题、重大新闻事件追踪等;文本分类,一是获取训练文档集,初始的文档集来自上步骤中的文本聚类;
文本分类一是获取训练文档集,初始的文档集来自文本聚类,二是建立文档表示模型,三是进行文档特征选择,四是选择分类方法,主要采用KNN和支持向量机相结合的方法;血是建立性能评估模型,通过以上五个步骤对采集到的信息进行归类处理,为下一步的主题分析提供分类主题集;
文本倾向性判断能够判断态度和立场,倾向性分析对舆论热点的思想动向、倾向和走向至关重要,更能够从数量关系上揭示舆情的特点和规律。
通过这种方式,是把舆情规划中经过预处理的文档进行特征提取,形成向量化文本,采用分类器进行文档自动分类,将分类后的文档进行概念聚类,产生概念空间,然后采用神经网络的算法建立具有联想功能的语义关联.最后为用户提供基于概念的检索查询接口.并通过事件处理提供新闻事件的发展过程。
进一步,多重算法处理包括热点发现算法、情感分析算法、预警分析算法以及垃圾过滤算法。
进一步,舆情数据通过Tablestore构架进行分析,结构化提取后发送至Blink计算系统进行舆情实时计算,重大舆情事件的预警,预警系统通过Tablestore和函数计算触发器对接来实现,通过结果表写入事件,可通过函数计算触发通知,完整的舆情分析结果和展示搜索利用Tablestore多元索引;
除实时计算外,支持批处理Tablestore的数据,低峰期批量处理部分数据并作为反馈结果写回Tablestore,既可以做实时流计算又可以离线批处理。
通过这种方式,基于Tablestore构架,并在计算系统上选择阿里云的Blink,一个数据库解决不同存储需求,利用Tablestore宽行的特性,合并原始网页和网页结构化数据成一张网页数据,网页数据表和计算系统通过Tablestore新功能通道服务进行对接,通道服务基于数据库日志,数据的组织结构按照数据的写入顺序进行存储,正是这一特性,赋能数据库具备了队列流式消费能力,而且ablestore已经深度和Blink进行整合,支持源表,维表和目的表,业务无需为数据流动开发代码,有效降低整体的运维成本,整套架构大幅降低组建个数,Tablestore和Blink都是全托管0运维的产品,并且都能做到很好的水平弹性,业务峰值扩展无压力,使得大数据架构的运维成本大幅降低。
进一步,预警系统通过邮件、短信和APP发送预警通知。
进一步,舆情分析系统包括近期热点、负面消息、趋势分析、专题侦测、热点发现、舆情管理以及转载群站。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (6)

1.一种基于大数据的舆情系统,包括舆情规划、舆情采集、舆情数据、舆情分析以及舆情报告,其中:
舆情规划包括互联网引擎搜索,从互联网中提取多种关键词,还包括论坛、博客、新闻以及贴吧多个获取舆情信息;
舆情采集,包括文本聚类、文本分类、文本倾向性判断以及关键词抽取,所述舆情采集通过多重算法处理获得舆情数据;
舆情数据,包括内容入库储存、网页快照以及附件存储;
舆情分析,基于Tablestore构架,采用Blink计算系统对舆情数据进行分析并生成舆情报告;
舆情报告,包括舆情专报、舆情简报以及预警系统。
2.根据权利要求1所述的一种基于大数据的舆情系统,其特征在于:所述文本聚类对海量的无类别文档进行归类,在对文档集进行分词、向量化后得到特征集合,从全部特征集中提取一个最优的特征子集,对特征提取后的特征向量进行微调,突出聚类重要词进行聚类,把内容相近的文档归为一类得到聚类结果,并自动为其生成主题词,为确定类目名称提供方便,最后生成舆情专题、重大新闻事件追踪等;文本分类,一是获取训练文档集,初始的文档集来自上步骤中的文本聚类;
所述文本分类一是获取训练文档集,初始的文档集来自文本聚类,二是建立文档表示模型,三是进行文档特征选择,四是选择分类方法,主要采用KNN和支持向量机相结合的方法;血是建立性能评估模型,通过以上五个步骤对采集到的信息进行归类处理,为下一步的主题分析提供分类主题集;
所述文本倾向性判断能够判断态度和立场,倾向性分析对舆论热点的思想动向、倾向和走向至关重要,更能够从数量关系上揭示舆情的特点和规律。
3.根据权利要求1所述的一种基于大数据的舆情系统,其特征在于:所述多重算法处理包括热点发现算法、情感分析算法、预警分析算法以及垃圾过滤算法。
4.根据权利要求1所述的一种基于大数据的舆情系统,其特征在于:所述舆情数据通过Tablestore构架进行分析,结构化提取后发送至Blink计算系统进行舆情实时计算,重大舆情事件的预警,预警系统通过Tablestore和函数计算触发器对接来实现,通过结果表写入事件,可通过函数计算触发通知,完整的舆情分析结果和展示搜索利用Tablestore多元索引;
除实时计算外,支持批处理Tablestore的数据,低峰期批量处理部分数据并作为反馈结果写回Tablestore,既可以做实时流计算又可以离线批处理。
5.根据权利要求4所述的一种基于大数据的舆情系统,其特征在于:所述预警系统通过邮件、短信和APP发送预警通知。
6.根据权利要求1所述的一种基于大数据的舆情系统,其特征在于:所述舆情分析系统包括近期热点、负面消息、趋势分析、专题侦测、热点发现、舆情管理以及转载群站。
CN202111500694.1A 2021-12-09 2021-12-09 一种基于大数据的舆情系统 Pending CN114139098A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111500694.1A CN114139098A (zh) 2021-12-09 2021-12-09 一种基于大数据的舆情系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111500694.1A CN114139098A (zh) 2021-12-09 2021-12-09 一种基于大数据的舆情系统

Publications (1)

Publication Number Publication Date
CN114139098A true CN114139098A (zh) 2022-03-04

Family

ID=80385467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111500694.1A Pending CN114139098A (zh) 2021-12-09 2021-12-09 一种基于大数据的舆情系统

Country Status (1)

Country Link
CN (1) CN114139098A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640463A (zh) * 2022-11-18 2023-01-24 太极计算机股份有限公司 一种互联网舆情监测分析系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640463A (zh) * 2022-11-18 2023-01-24 太极计算机股份有限公司 一种互联网舆情监测分析系统

Similar Documents

Publication Publication Date Title
Venugopalan et al. Exploring sentiment analysis on twitter data
US9990368B2 (en) System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
CN110866126A (zh) 一种高校网络舆情风险评估方法
Firmino Alves et al. A Comparison of SVM versus naive-bayes techniques for sentiment analysis in tweets: A case study with the 2013 FIFA confederations cup
CN111914087B (zh) 一种舆情分析方法
CN110888990A (zh) 文本推荐方法、装置、设备及介质
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN108897784A (zh) 一个基于社交媒体的突发事件多维分析系统
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN108363748B (zh) 基于知乎的话题画像系统及话题画像方法
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN111026804A (zh) 一种基于语义的大数据分析智能服务系统
CN111447575A (zh) 短信息推送方法、装置、设备及存储介质
CN114077705A (zh) 一种对社交平台上的媒体账号进行画像的方法和系统
CN114139098A (zh) 一种基于大数据的舆情系统
Chen et al. Novelty paper recommendation using citation authority diffusion
Pandya et al. Mated: metadata-assisted twitter event detection system
Wang et al. Topic discovery method based on topic model combined with hierarchical clustering
CN111859108A (zh) 一种舆情系统搜索词推荐系统
CN112214615A (zh) 基于知识图谱的政策文件处理方法、装置和存储介质
Zhao et al. Web information credibility: From web 1.0 to web 2.0
Carvalho et al. Towards intelligent mining of public social networks' influence in society
Huang Research on sentiment classification of tourist destinations based on convolutional neural network
CN110083654A (zh) 一种面向国防科技领域的多源数据融合方法及系统
Guo Social network rumor recognition based on enhanced naive bayes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination