CN106257457A - 一种舆情收集整理方法 - Google Patents

一种舆情收集整理方法 Download PDF

Info

Publication number
CN106257457A
CN106257457A CN201610562010.3A CN201610562010A CN106257457A CN 106257457 A CN106257457 A CN 106257457A CN 201610562010 A CN201610562010 A CN 201610562010A CN 106257457 A CN106257457 A CN 106257457A
Authority
CN
China
Prior art keywords
information
correlation message
subject correlation
class
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610562010.3A
Other languages
English (en)
Other versions
CN106257457B (zh
Inventor
党连坤
石晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HEFEI COMPASS ELECTRONIC TECHNOLOGY Co Ltd
Original Assignee
HEFEI COMPASS ELECTRONIC TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HEFEI COMPASS ELECTRONIC TECHNOLOGY Co Ltd filed Critical HEFEI COMPASS ELECTRONIC TECHNOLOGY Co Ltd
Priority to CN201610562010.3A priority Critical patent/CN106257457B/zh
Publication of CN106257457A publication Critical patent/CN106257457A/zh
Application granted granted Critical
Publication of CN106257457B publication Critical patent/CN106257457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情收集整理方法,包括以下步骤:S1、设置高信网站数据库预存网站地址;S2、输入主题,并根据主题进行网络信息检索获取主题相关信息;S3、统计主题相关信息的来源网站以及浏览量;S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类。本发明中,根据关键词对主题相关信息进行聚类,获得多个信息小类。如此,将零散的主题相关信息转换成具有一定聚集度的信息小类,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。

Description

一种舆情收集整理方法
技术领域
本发明涉及舆情监控技术领域,尤其涉及一种舆情收集整理方法。
背景技术
舆情监控,整合互联网信息采集技术及信息智能处理技术通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
近年来,互联网发展迅速,作为继电视、广播、报纸之外的第四媒体,已经成为反映社会舆情的一个重要载体。另一方面,由于网络的开放性和虚拟性,网上舆情已经越来越复杂,对现实生活的影响与日俱增,一些重大的网络舆情事件往往对社会产生较大的影响力。
对政府部门、公众媒体和大型企业来说,如何加强对网络舆情的及时监测,以及时采取措施进行有效应对,成为网络舆情管理的一大难点。
发明内容
基于背景技术存在的技术问题,本发明提出了一种舆情收集整理方法。
本发明提出的一种舆情收集整理方法,包括以下步骤:
S1、设置高信网站数据库预存网站地址;
S2、输入主题,并根据主题进行网络信息检索获取主题相关信息;
S3、统计主题相关信息的来源网站以及浏览量;
S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类;
S5、对信息小类的关键词进行语义分析,根据语义相似度对各信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称;
S6、预设第一阈值和第二阈值;
S7、根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序;
S8、筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类绘制成评估报告输出;
S9、获取存在于高信网站数据库中的来源网站对应的主题相关信息作为校对目标,根据校对目标所在信息小类及信息大类对评估报告进行补充。
优选地,步骤S4具体为:提取各主题相关信息的关键词,并将关键词相同的主题相关信息进行聚类,获得多个信息小类。
优选地,步骤S5中,预设有相似度阈值,对信息小类的关键词进行语义分析后,将语义相似度大于相似度阈值的信息小类进行聚类,获得多个信息大类。
优选地,评估报告包括信息大类的名称、各信息小类对应的关键词以及信息小类中的浏览量最高的主题相关信息,并包括各信息大类的浏览量总值、信息小类的浏览量总值、主题相关信息的浏览量以及来源网址。
优选地,步骤S9具体包括以下分步骤:
S91、判断评估报告是否遗漏校对目标存在的信息小类;
S92、如果有,则将遗漏的校对目标存在的信息小类作为补充目标;
S93、判断评估报告是否遗漏补充目标所在的信息大类;
S94、如果没有,则将补充目标按格式补入到评估报告中对应的信息大类下;
S95、如果有,则将补充目标以及补充补充目标所在信息大类按格式补入到评估报告中。
优选地,步骤S9中,对补入的内容突出显示。
本发明提出的一种舆情收集整理方法,根据主题进行网络信息检索获取主题相关信息,以网络大数据为信息检索的来源,有利于保证舆情监控的全面性,且基于网络数据的快速更新,还有利于保证舆情掌控的实时性。
本发明中,根据关键词对主题相关信息进行聚类,获得多个信息小类。如此,将零散的主题相关信息转换成具有一定聚集度的信息小类,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。
然后,根据语义相似度对各信息小类进行聚类,将信息小类归纳为信息大类,进一步提高了信息处理对象的聚集度。且将语义相似度大于相似度阈值的信息小类归类生成信息大类,使得信息大类中囊括的信息小类表达的主题相关信息相似度高,对信息大类的处理相当于对表达语义相似的主题相关信息进行集中处理,即保证了信息处理的精确性,又保证了信息处理的效率。
本发明中,高信网站数据库用于存储发布信息真实度较高的且知名度较高的网站地址,通过高信网站数据库中的来源网站对评估报告进行复查和补充,使得评估报告更加可信。
附图说明
图1为本发明提出的一种舆情收集整理方法流程图。
具体实施方式
参照图1,本发明提出的一种舆情收集整理方法,包括以下步骤。
S1、设置高信网站数据库预存网站地址。本实施方式中,高信网站数据库用于存储发布信息真实度较高的且知名度较高的网站地址。
S2、输入主题,并根据主题进行网络信息检索获取主题相关信息。
S3、统计主题相关信息的来源网站以及浏览量。本步骤中,对检索结果进行统计,有利于后续对检索结果的调用和复查。
S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类。具体地,本步骤中将关键词相同的主题相关信息进行聚类,获得多个信息小类。
本步骤中,通过关键词进行聚类,将零散的主题相关信息转换成具有一定聚集度的信息小类,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。
S5、对信息小类的关键词进行语义分析,根据语义相似度对各信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称。本步骤中,可预设有相似度阈值,对信息小类的关键词进行语义分析后,将语义相似度大于相似度阈值的信息小类进行聚类,获得多个信息大类。
如此,通过将信息小类归纳为信息大类,进一步提高了信息处理对象的聚集度。且将语义相似度大于相似度阈值的信息小类归类生成信息大类,使得信息大类中囊括的信息小类表达的主题相关信息相似度高,对信息大类的处理相当于对表达语义相似的主题相关信息进行集中处理,即保证了信息处理的精确性,又保证了信息处理的效率。本实施方式中,相似度阈值可又工作人员根据实际情况设置。
以下结合一个具体地实施例对步骤S5作出解释。例如,步骤S4中,根据获得地信息小类为A1、A2、A3、A4、A5、A6;根据A1、A2、A3、A4、A5、A6对应的关键词提取的语义分别为AA1、AA2、AA3、AA4、AA5、AA6;首先,选择A1为核心信息小类,且AA1与AA2语义相似度大于相似度阈值、AA1与AA3语义相似度大于相似度阈值,则将A1、A2、A3归类到一个信息大类中。将A1、A2、A3聚类后,从剩余的零散信息A4、A5、A6中选择A4为核心信息小类,并分别计算AA4与AA5的语义相似度和AA4与AA6的语义相似度,假设AA4与AA5的语义相似度和AA4与AA6的语义相似度均小于相似度阈值,则A4自成一个信息大类。然后计算AA5和AA6语义相似度,如果AA5和AA6语义相似度大于相似度阈值,则将A5、A6纳入一个信息大类。至此,信息小类聚类完成。
S6、预设第一阈值和第二阈值。
S7、根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序。
S8、筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类绘制成评估报告输出。本实施方式中,评估报告包括信息大类的名称、各信息小类对应的关键词以及信息小类中的浏览量最高的主题相关信息,并包括各信息大类的浏览量总值、信息小类的浏览量总值、主题相关信息的浏览量以及来源网址。
本实施方式中,评估报告的输出,使得工作人员可直观获知各种舆情倾向,从而将模糊抽象的舆情监控工作具象化、实体化,使得舆情监控工作完满完成。
S91、判断评估报告是否遗漏校对目标存在的信息小类。
S92、如果有,则将遗漏的校对目标存在的信息小类作为补充目标。
S93、判断评估报告是否遗漏补充目标所在的信息大类。
S94、如果没有,则将补充目标按格式补入到评估报告中对应的信息大类下。
S95、如果有,则将补充目标以及补充补充目标所在信息大类按格式补入到评估报告中。
步骤S91至S95,通过获取存在于高信网站数据库中的来源网站对应的主题相关信息作为校对目标,根据校对目标所在信息小类及信息大类对评估报告进行补充。如此,相当于通过高信网站数据库中的来源网站对评估报告进行复查和补充,使得评估报告更加可信。本实施方式中,在评估报告中对补入的内容突出显示,以便工作人员查阅。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种舆情收集整理方法,其特征在于,包括以下步骤:
S1、设置高信网站数据库预存网站地址;
S2、输入主题,并根据主题进行网络信息检索获取主题相关信息;
S3、统计主题相关信息的来源网站以及浏览量;
S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类;
S5、对信息小类的关键词进行语义分析,根据语义相似度对各信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称;
S6、预设第一阈值和第二阈值;
S7、根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序;
S8、筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类绘制成评估报告输出;
S9、获取存在于高信网站数据库中的来源网站对应的主题相关信息作为校对目标,根据校对目标所在信息小类及信息大类对评估报告进行补充。
2.如权利要求1所述的舆情收集整理方法,其特征在于,步骤S4具体为:提取各主题相关信息的关键词,并将关键词相同的主题相关信息进行聚类,获得多个信息小类。
3.如权利要求1所述的舆情收集整理方法,其特征在于,步骤S5中,预设有相似度阈值,对信息小类的关键词进行语义分析后,将语义相似度大于相似度阈值的信息小类进行聚类,获得多个信息大类。
4.如权利要求1至3任一项所述的舆情收集整理方法,其特征在于,评估报告包括信息大类的名称、各信息小类对应的关键词以及信息小类中的浏览量最高的主题相关信息,并包括各信息大类的浏览量总值、信息小类的浏览量总值、主题相关信息的浏览量以及来源网址。
5.如权利要求4所述的舆情收集整理方法,其特征在于,步骤S9具体包括以下分步骤:
S91、判断评估报告是否遗漏校对目标存在的信息小类;
S92、如果有,则将遗漏的校对目标存在的信息小类作为补充目标;
S93、判断评估报告是否遗漏补充目标所在的信息大类;
S94、如果没有,则将补充目标按格式补入到评估报告中对应的信息大类下;
S95、如果有,则将补充目标以及补充补充目标所在信息大类按格式补入到评估报告中。
6.如权利要求5所述的舆情收集整理方法,其特征在于,步骤S9中,对补入的内容突出显示。
CN201610562010.3A 2016-07-15 2016-07-15 一种舆情收集整理方法 Active CN106257457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610562010.3A CN106257457B (zh) 2016-07-15 2016-07-15 一种舆情收集整理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610562010.3A CN106257457B (zh) 2016-07-15 2016-07-15 一种舆情收集整理方法

Publications (2)

Publication Number Publication Date
CN106257457A true CN106257457A (zh) 2016-12-28
CN106257457B CN106257457B (zh) 2019-08-23

Family

ID=57714270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610562010.3A Active CN106257457B (zh) 2016-07-15 2016-07-15 一种舆情收集整理方法

Country Status (1)

Country Link
CN (1) CN106257457B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009219A (zh) * 2017-11-21 2018-05-08 国家计算机网络与信息安全管理中心 一种发现互联网金融舆情监管目标的方法
CN113536077A (zh) * 2021-05-31 2021-10-22 烟台中科网络技术研究所 一种移动app特定事件内容检测方法与装置
CN114912026A (zh) * 2022-05-30 2022-08-16 武汉嘉越似锦文化传媒有限公司 一种网络舆情监测分析处理方法、设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
US20120166180A1 (en) * 2009-03-23 2012-06-28 Lawrence Au Compassion, Variety and Cohesion For Methods Of Text Analytics, Writing, Search, User Interfaces
CN103049581A (zh) * 2013-01-21 2013-04-17 北京航空航天大学 一种基于一致性聚类的Web文本分类方法
CN103116651A (zh) * 2013-03-05 2013-05-22 南京理工大学常熟研究院有限公司 一种舆情热点动态检测方法
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN104598450A (zh) * 2013-10-30 2015-05-06 北大方正集团有限公司 一种网络舆情事件的热度分析方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120166180A1 (en) * 2009-03-23 2012-06-28 Lawrence Au Compassion, Variety and Cohesion For Methods Of Text Analytics, Writing, Search, User Interfaces
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN103049581A (zh) * 2013-01-21 2013-04-17 北京航空航天大学 一种基于一致性聚类的Web文本分类方法
CN103116651A (zh) * 2013-03-05 2013-05-22 南京理工大学常熟研究院有限公司 一种舆情热点动态检测方法
CN104598450A (zh) * 2013-10-30 2015-05-06 北大方正集团有限公司 一种网络舆情事件的热度分析方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009219A (zh) * 2017-11-21 2018-05-08 国家计算机网络与信息安全管理中心 一种发现互联网金融舆情监管目标的方法
CN113536077A (zh) * 2021-05-31 2021-10-22 烟台中科网络技术研究所 一种移动app特定事件内容检测方法与装置
CN113536077B (zh) * 2021-05-31 2022-06-17 烟台中科网络技术研究所 一种移动app特定事件内容检测方法与装置
CN114912026A (zh) * 2022-05-30 2022-08-16 武汉嘉越似锦文化传媒有限公司 一种网络舆情监测分析处理方法、设备及计算机存储介质
CN114912026B (zh) * 2022-05-30 2023-11-07 贵州梦动科技有限公司 一种网络舆情监测分析处理方法、设备及计算机存储介质

Also Published As

Publication number Publication date
CN106257457B (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN103294778B (zh) 一种推送资讯信息的方法及系统
CN104504150A (zh) 新闻舆情监测系统
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
CN104408157A (zh) 一种网络舆情漏斗式数据采集分析推送系统及方法
CN104537097A (zh) 微博舆情监测系统
CN101751458A (zh) 一种网络舆情监控系统及方法
CN101788988B (zh) 信息抓取方法
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN103164427A (zh) 新闻聚合方法及装置
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及系统
CN102819591A (zh) 一种基于内容的网页分类方法及系统
CN104504151B (zh) 微信舆情监测系统
CN105224604A (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN115757689A (zh) 一种信息查询系统、方法及设备
CN106257457A (zh) 一种舆情收集整理方法
CN110968571A (zh) 面向金融信息服务的大数据分析与处理平台
CN103853838A (zh) 一种数据处理方法和装置
CN112395513A (zh) 一种舆情传播力分析方法
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN103823847A (zh) 一种关键词的扩充方法及装置
CN113012009A (zh) 一种智能政策信息采集与分析系统
CN106257458A (zh) 一种舆情信息归类评估系统
CN109033133A (zh) 基于特征项权重增长趋势的事件检测与跟踪方法
CN103631779A (zh) 一种基于社交化词典的单词推荐系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant