CN107480127A - 舆情分析方法及装置 - Google Patents
舆情分析方法及装置 Download PDFInfo
- Publication number
- CN107480127A CN107480127A CN201710580691.0A CN201710580691A CN107480127A CN 107480127 A CN107480127 A CN 107480127A CN 201710580691 A CN201710580691 A CN 201710580691A CN 107480127 A CN107480127 A CN 107480127A
- Authority
- CN
- China
- Prior art keywords
- analysis
- focus incident
- data
- tendentiousness
- public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明实施例公开了一种舆情分析方法及装置,通过采用抓取算法进行全网数据定向和顶点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果,再基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件,然后自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息,数据量更全面,生成的舆情分析结果更具有参考性,预警信息更加贴合客户关注领域。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种舆情分析方法及装置。
背景技术
在互联网业已成为了党和政府治国理政的重要新平台之一,网络舆论也越来越受到重视的当前,各级党政机关、企事业单位和学术机构都越来越重视互联网舆情的监测、研究和引导。具体上讲,舆情监测是指整合互联网信息采集技术及信息智能处理技术通过对互联网海量信息自动获取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
现有的舆情分析的数据局限于本企业生产的数据和少量其他站点类型数据,影响了分析结果的全面性和准确性,不能对舆情的正确引导提供依据。
发明内容
本发明实施例的目的是提供一种舆情分析方法及装置,数据量更全面,生成的舆情分析结果更具有参考性,预警信息更加贴合客户关注领域。
为实现上述目的,本发明实施例提供了一种舆情分析方法,包括步骤:
采用抓取算法进行全网数据定向和顶点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果;
基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件;
自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息。
与现有技术相比,本发明公开的舆情分析方法通过采用抓取算法进行全网数据定向和顶点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果,再基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件,然后自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息,数据量更全面,生成的舆情分析结果更具有参考性,预警信息更加贴合客户关注领域。
作为上述方案的改进,还包括步骤:
根据所述各个站点的数据,提取所述数据中的敏感字的出现频率;
对所述敏感字进行语义分析,根据所述语义分析的结果和所述敏感字的出现频率判断数据机密度,加密存储所述各个站点的数据中数据机密度高的数据。
作为上述方案的改进,所述自动抽取所述热点事件的摘要前还包括:
通过热点聚焦算法自动聚焦所述热点事件在主要站点的动态走势,统计媒体和网络名人的点评走势。
作为上述方案的改进,还包括步骤:
根据所述热点事件的舆情信息,向用户推送所述热点事件的舆情信息。
作为上述方案的改进,所述分析所述热点事件的倾向性语义具体为:
对所述热点事件的文章或语句进行智能切分获得多个分词,对每一分词进行倾向性分析,将所述分词中倾向性强度较高的分词进行排序;
根据所述分词中倾向性强度较高的分词的排序结果,通过词性趋势化分析,从而获得所述热点事件的倾向性语义。
本发明实施例还提供了一种舆情分析装置,包括:
采集模块,用于采用抓取算法进行全网数据定向和定点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果;
聚类模块,用于基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件;
舆情信息获取模块,用于自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息。
与现有技术相比,本发明公开的舆情分析装置通过采集模块采用抓取算法进行全网数据定向和顶点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果,再通过聚类模块基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件,然后通过舆情信息获取模块自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息,数据量更全面,生成的舆情分析结果更具有参考性,预警信息更加贴合客户关注领域。
作为上述方案的改进,还包括:
提取模块,用于根据所述各个站点的数据,提取所述数据中的敏感字的出现频率;
存储模块,用于对所述敏感字进行语义分析,根据所述语义分析的结果和所述敏感字的出现频率判断数据机密度,加密存储所述各个站点的数据中数据机密度高的数据。
作为上述方案的改进,所述舆情信息获取模块还用于:
通过热点聚焦算法自动聚焦所述热点事件在主要站点的动态走势,统计媒体和网络名人的点评走势。
作为上述方案的改进,所述装置还包括:
推送模块,用于根据所述热点事件的舆情信息,向用户推送所述热点事件的舆情信息。
附图说明
图1是本发明实施例1提供的一种舆情分析方法的流程示意图。
图2是本发明实施例2提供的一种舆情分析方法的流程示意图
图3是本发明实施例3提供的一种舆情分析装置的结构示意图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种舆情分析方法的流程示意图,包括步骤:
S1、采用抓取算法进行全网数据定向和定点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果;
S2、基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件;
通过信息的自动聚类,可及时发现增长异常的事件、突发事件及敏感话题,根据其内容主题进行自动分组,自动聚焦指定时间段当地的热点舆情,充分挖掘隐含的、内在的信息,信息聚类机制速度快、效率高、使用灵活,能够随时进行修改调整,修改立即生效。
S3、自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息。
在该步骤中,采用倾向性语义分析技,大大提高了分析报表的准确性和时效性,让用户迅速了解到整个事件倾向程度和整个事件的发展趋向内容。
通过采用抓取算法进行全网数据定向和顶点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果,再基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件,然后自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息,数据量更全面,生成的舆情分析结果更具有参考性,预警信息更加贴合客户关注领域。
在实施例1的基础上,如图2所示,还包括步骤:
S4、根据所述各个站点的数据,提取所述数据中的敏感字的出现频率;
S5、对所述敏感字进行语义分析,根据所述语义分析的结果和所述敏感字的出现频率判断数据机密度,加密存储所述各个站点的数据中数据机密度高的数据。
存储时对数据进行系统级别加密,即只有通过系统才能进行数据访问,对数据操作强制使用接口进行,并对传递到接口的参数进行严格判断,以防止恶意的操作参数。其中,该步骤中采用分片存储机制,即对一份文件进行横向切割,并由调度器进行多机器分片存储,在数据运算时,可通过并行读取扫描,大大加快数据运算速率。
优选地,步骤S3中所述自动抽取所述热点事件的摘要前还包括:
通过热点聚焦算法自动聚焦所述热点事件在主要站点的动态走势,统计媒体和网络名人的点评走势。
统计所述媒体和网络名人的点评走势,可快速获取舆情信息的概要信息,简单快捷,提高分析的效率。
优选地,在步骤1的基础上,所述种舆情分析方法还包括步骤:
根据所述热点事件的舆情信息,向用户推送所述热点事件的舆情信息。
向用户推送所述热点事件的舆情信息,可以让用户及时获知热点事件的大体走势。
参见图3,是本发明实施例3提供的一种舆情分析装置的结构示意图,包括:
采集模块101,用于采用抓取算法进行全网数据定向和定点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果;
聚类模块102,用于基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件;
舆情信息获取模块103,用于自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息。
具体实施时,通过采集模块101采用抓取算法进行全网数据定向和顶点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果,再通过聚类模块102基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件,然后通过舆情信息获取模块103自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息,数据量更全面,生成的舆情分析结果更具有参考性,预警信息更加贴合客户关注领域。
在一优选实施例中,所述舆情分析装置100还包括:
提取模块,用于根据所述各个站点的数据,提取所述数据中的敏感字的出现频率;
存储模块,用于对所述敏感字进行语义分析,根据所述语义分析的结果和所述敏感字的出现频率判断数据机密度,加密存储所述各个站点的数据中数据机密度高的数据。
优选地,所述舆情信息获取模块103还用于:
通过热点聚焦算法自动聚焦所述热点事件在主要站点的动态走势,统计媒体和网络名人的点评走势。
优选地,所述舆情分析装置100还包括推送模块,用于根据所述热点事件的舆情信息,向用户推送所述热点事件的舆情信息。
综上,本发明实施例提供了一种舆情分析方法及装置,通过采用抓取算法进行全网数据定向和顶点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果,再基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件,然后自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息,数据量更全面,生成的舆情分析结果更具有参考性,预警信息更加贴合客户关注领域。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种舆情分析方法,其特征在于,包括步骤:
采用抓取算法进行全网数据定向和定点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果;
基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件;
自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息。
2.如权利要求1所述的舆情分析方法,其特征在于,还包括步骤:
根据所述各个站点的数据,提取所述数据中的敏感字的出现频率;
对所述敏感字进行语义分析,根据所述语义分析的结果和所述敏感字的出现频率判断数据机密度,加密存储所述各个站点的数据中数据机密度高的数据。
3.如权利要求1所述的舆情分析方法,其特征在于,所述自动抽取所述热点事件的摘要前还包括:
通过热点聚焦算法自动聚焦所述热点事件在主要站点的动态走势,统计媒体和网络名人的点评走势。
4.如权利要求1所述的舆情分析方法,其特征在于,还包括步骤:
根据所述热点事件的舆情信息,向用户推送所述热点事件的舆情信息。
5.如权利要求1所述的舆情分析方法,其特征在于,所述分析所述热点事件的倾向性语义具体为:
对所述热点事件的文章或语句进行智能切分获得多个分词,对每一分词进行倾向性分析,将所述分词中倾向性强度较高的分词进行排序;
根据所述分词中倾向性强度较高的分词的排序结果,通过词性趋势化分析,从而获得所述热点事件的倾向性语义。
6.一种舆情分析装置,其特征在于,包括:
采集模块,用于采用抓取算法进行全网数据定向和定点采集获得全网各个站点的数据,并采集主流搜索引擎的搜索结果;
聚类模块,用于基于所述各个站点的数据和搜索结果进行聚类,通过聚类结果获取热点事件;
舆情信息获取模块,用于自动抽取所述热点事件的摘要,分析所述热点事件的倾向性语义,获得所述热点事件的舆情信息。
7.如权利要求1所述的舆情分析装置,其特征在于,还包括:
提取模块,用于根据所述各个站点的数据,提取所述数据中的敏感字的出现频率;
存储模块,用于对所述敏感字进行语义分析,根据所述语义分析的结果和所述敏感字的出现频率判断数据机密度,加密存储所述各个站点的数据中数据机密度高的数据。
8.如权利要求1所述的舆情分析装置,其特征在于,所述舆情信息获取模块还用于:
通过热点聚焦算法自动聚焦所述热点事件在主要站点的动态走势,统计媒体和网络名人的点评走势。
9.如权利要求1所述的舆情分析装置,其特征在于,所述装置还包括:
推送模块,用于根据所述热点事件的舆情信息,向用户推送所述热点事件的舆情信息。
10.如权利要求1所述的舆情分析装置,其特征在于,所述分析所述热点事件的倾向性语义具体为:
对所述热点事件的文章或语句进行智能切分获得多个分词,对每一分词进行倾向性分析,将所述分词中倾向性强度较高的分词进行排序;
根据所述分词中倾向性强度较高的分词的排序结果,通过词性趋势化分析,从而获得所述热点事件的倾向性语义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710580691.0A CN107480127A (zh) | 2017-07-17 | 2017-07-17 | 舆情分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710580691.0A CN107480127A (zh) | 2017-07-17 | 2017-07-17 | 舆情分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107480127A true CN107480127A (zh) | 2017-12-15 |
Family
ID=60595956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710580691.0A Pending CN107480127A (zh) | 2017-07-17 | 2017-07-17 | 舆情分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480127A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763018A (zh) * | 2018-05-21 | 2018-11-06 | 上海应用技术大学 | 互联网舆情安全采集与预警平台处理系统及其使用方法 |
CN111046271A (zh) * | 2018-10-15 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 用于搜索的挖掘方法、装置、存储介质及电子设备 |
CN114090664A (zh) * | 2021-12-13 | 2022-02-25 | 北京清博智能科技有限公司 | 一种弱信号事件挖掘生成系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408157A (zh) * | 2014-12-05 | 2015-03-11 | 四川诚品电子商务有限公司 | 一种网络舆情漏斗式数据采集分析推送系统及方法 |
CN104965931A (zh) * | 2015-07-30 | 2015-10-07 | 成都布林特信息技术有限公司 | 一种基于大数据的舆情分析方法 |
-
2017
- 2017-07-17 CN CN201710580691.0A patent/CN107480127A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408157A (zh) * | 2014-12-05 | 2015-03-11 | 四川诚品电子商务有限公司 | 一种网络舆情漏斗式数据采集分析推送系统及方法 |
CN104965931A (zh) * | 2015-07-30 | 2015-10-07 | 成都布林特信息技术有限公司 | 一种基于大数据的舆情分析方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763018A (zh) * | 2018-05-21 | 2018-11-06 | 上海应用技术大学 | 互联网舆情安全采集与预警平台处理系统及其使用方法 |
CN111046271A (zh) * | 2018-10-15 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 用于搜索的挖掘方法、装置、存储介质及电子设备 |
CN111046271B (zh) * | 2018-10-15 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 用于搜索的挖掘方法、装置、存储介质及电子设备 |
CN114090664A (zh) * | 2021-12-13 | 2022-02-25 | 北京清博智能科技有限公司 | 一种弱信号事件挖掘生成系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parikh et al. | Media-rich fake news detection: A survey | |
CN103729402B (zh) | 一种基于图书目录的知识图谱的构建方法 | |
CN106202561B (zh) | 基于文本大数据的数字化应急管理案例库构建方法及装置 | |
CN104504150B (zh) | 新闻舆情监测系统 | |
CN102054016B (zh) | 用于撷取及管理社群智能信息的系统及方法 | |
US9229977B2 (en) | Real-time and adaptive data mining | |
KR101536520B1 (ko) | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 | |
CN103902570B (zh) | 一种文本分类特征提取方法、分类方法及装置 | |
CN109543084A (zh) | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 | |
KR101605430B1 (ko) | 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104408093A (zh) | 一种新闻事件要素抽取方法与装置 | |
Parikh et al. | On the origin, proliferation and tone of fake news | |
US20150205862A1 (en) | Method and device for recognizing and labeling peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents | |
CN107480127A (zh) | 舆情分析方法及装置 | |
Anoop et al. | Unsupervised concept hierarchy learning: a topic modeling guided approach | |
CN105808722A (zh) | 一种信息判别方法和系统 | |
CN107562843A (zh) | 一种基于标题高频切分的新闻热点短语提取方法 | |
CN104346382B (zh) | 使用语言查询的文本分析系统和方法 | |
Alrashdi et al. | Automatic labeling of tweets for crisis response using distant supervision | |
CN103823868B (zh) | 一种面向在线百科的事件识别方法和事件关系抽取方法 | |
Dusart et al. | Capitalizing on a TREC track to build a tweet summarization dataset | |
CN106681980A (zh) | 一种垃圾短信分析方法和装置 | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN113015171A (zh) | 一种具有网络舆情监控及分析功能的系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171215 |