CN111984787A - 一种基于互联网数据的舆情热点获取方法及系统 - Google Patents
一种基于互联网数据的舆情热点获取方法及系统 Download PDFInfo
- Publication number
- CN111984787A CN111984787A CN202010826499.7A CN202010826499A CN111984787A CN 111984787 A CN111984787 A CN 111984787A CN 202010826499 A CN202010826499 A CN 202010826499A CN 111984787 A CN111984787 A CN 111984787A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- data
- corpus
- new media
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000009826 distribution Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
- G08B21/182—Level alarms, e.g. alarms responsive to variables exceeding a threshold
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Marketing (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种基于互联网数据的舆情热点获取方法。所述基于互联网数据的舆情热点获取方法中,服务器获取互联网上的新闻舆情数据,然后判断获取的新闻舆情数据的来源,其中来源包括主流新闻网站和新媒体网站,再根据该新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点,最后对发现的舆情热点进行预警;本发明实施例提供的方法能够实现对互联网舆情数据信息的采集、分析和归类,从而能够在舆情发生的第一时间,从源头发现舆情热点,从而能更好、更有效应地应对易发多发的网络舆情。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种基于互联网数据的舆情热点获取方法,一种应用所述基于互联网数据的舆情热点获取方法的系统。
背景技术
随着我国4G移动网络普及程度加深,移动互联网用户规模近年来极巨扩大,互联网舆情的传播中心由传统的网站、论坛、博客向微博、微信、移动新闻客户端转移。移动互联网的发展改变了网络舆论场的格局,越来越多的网民使用智能手机上网发表对公共事务的观点和态度。由于移动互联网不同于固定互联网的特性,移动互联网舆情也在网络舆情的多个要素上体现出新的特征。移动网络平台最大的特点是泛在化,包括主体泛在、时间泛在、空间泛在,即任何人、在任何时间、任何地点都可以接入互联网。移动社交使网民之间构成基于“熟人”的强关系网络,如微信社交可以基于手机联系人,移动微博的关注对象一般是现实生活中的熟人或名人。这种基于熟人的信息沟通模式能降低信任成本,使移动互联网的用户黏性更强。移动互联网的泛在性,使网民能实时现场传播舆情,一些在固定互联网上不易引发舆论热潮的事件可能会成为了舆情“触点”,且由于其传播的即时性,事件的“发酵”速度更快。虽然移动互联网舆情的载体仍然是以文本为主,但越来越多的网民喜欢发布随手拍录的图片、语音和视频,一些网民使用“长微博”工具将大篇幅文字制作成图片格式发布,导致网络舆情信息碎片化,同时图片、视频、音频舆情信息的比例增加,舆情信息的传播载体由单一的文字向富媒体形式转变。
移动互联网舆情的新特征给网民带来更加快捷多样真实的网络互动的同时,也给舆情管理带来了新的挑战。如何做好新媒体时代网络舆情监控引导宣传工作,从源头上发现、掌握舆情信息,有效应对易发多发的网络舆情,是各级政府机构面临的一项重大挑战。
针对新媒体时代网络舆情监控工作中新情况的出现,以及现有措施应对不足,本申请的发明人经过深入研究,提出一种基于互联网数据的舆情热点获取方法及系统。
发明内容
本申请的目的在于,提供一种基于互联网数据的舆情热点获取方法及系统,能够实现对互联网新闻舆情数据的采集、分析和归类,从而能够在舆情发生的第一时间,从源头发现舆情热点,从而能更好、更有效应地应对易发多发的网络舆情。
为解决上述技术问题,本申请提供一种基于互联网数据的舆情热点获取方法,作为其中一种实施方式,所述基于互联网数据的舆情热点获取方法包括步骤:
服务器获取互联网上的新闻舆情数据;
判定所述新闻舆情数据的来源,所述来源包括主流新闻网站和新媒体网站;
根据所述新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点;
对所述舆情热点进行预警。
作为其中一种实施方式,所述根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点的步骤包括:
若新闻舆情数据来源自主流新闻网站,则对所述新闻舆情数据进行语义分解,形成词语化数据;
对所述词语化数据进行二元分布统计;
对所述二元分布统计的结果进行标准分数计算,得到词语热点值;
根据词语热点值和预设的热点词库判定词语化数据中的热点词的共现阈值;
根据所述共现阈值进行线性加权计算,得到热度值;
根据热度值对所述新闻舆情数据进行热度判定。
作为其中一种实施方式,所述根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点的步骤包括:
若新闻舆情数据来源自新媒体网站,则对所述新闻舆情数据进行数据预处理,获得新媒体网站语料,并将所述新媒体网站语料集成为新媒体标准语料;
将所述新媒体标准语料按照预定的分类要求进行主题分类,获得主题语料库;
在所述主题语料库中选定新媒体网站语料,并对所述新媒体网站语料进行聚类分析,获得新媒体热点语料簇;
根据所述新媒体热点语料簇和所述新闻舆情数据的演化过程,筛选出最终的舆情热点。
作为其中一种实施方式,所述在主题语料库中选定新媒体网站语料,并对所述新媒体网站语料进行聚类分析,获得新媒体热点语料簇的步骤包括:
将所述新媒体网站语料进行分词,获得关键词集合;
根据预设的规则对所述关键词集合进行筛选后作为关键词特征项;
集合所有关键词特征项,计算各关键词出现的频率,获得参考词频;
根据所述参考词频计算得到关键词特征项的权重;
根据所述关键词特征项的权重和所述主题语料库计算得到新媒体热点语料簇。
作为其中一种实施方式,所述根据关键词特征项的权重和所述主题语料库计算得到新媒体热点语料簇的步骤包括:
根据关键词特征项的权重,并采用向量空间模型表示所述新媒体网站语料的文本特征;
从所述主题语料库中选取一个新媒体网站语料种子作为初始热点簇,并从主题语料库中选取一个待比较的新媒体网站语料与新媒体网站语料种子进行比较,获得二者相似度;
若所述相似度小于预设的相似度阈值,则将待比较新媒体网站语料作为新的新媒体网站语料种子及新的初始热点簇;然后执行从主题语料库中选取一个待比较的新媒体网站语料与新媒体网站语料种子进行比较,获得二者相似度的步骤,直至所有语料处理结束;
若所述相似度大于等于预设的相似度阈值,则该将待比较的新媒体网站语料加入所述新媒体网站语料种子,获得新的语料种子;更新所述新的语料种子的关键词特征项及关键词特征项的权重;并执行从主题语料库中选取一个待比较的新媒体网站语料与新媒体网站语料种子进行比较,获得二者相似度的步骤,直至所有语料处理结束。
作为其中一种实施方式,所述方法还包括:
对用户设定的区域内的舆情热点进行探测分析,发现舆情热点,并对所述舆情热点进行预警。
作为其中一种实施方式,所述方法还包括:
获取用户设定的特定群体的新闻舆情数据,并对所述特定群体的新闻舆情数据进行分析得到分析结果,向用户展示所述分析结果。
作为其中一种实施方式,所述方法还包括:
通过文本聚类技术,获取和整合特定时间内境内外的新闻舆情数据,进行深度融合提炼后以热点云的形式向用户进行滚动显示。
为解决上述技术问题,本申请还提供一种基于互联网数据的舆情热点获取系统,作为其中一种实施方式,所述数据信息处理系统配置有处理器,所述处理器用于执行程序数据,以实现如上所述的基于互联网数据的舆情热点获取方法。
作为其中一种实施方式,所述基于互联网数据的舆情热点获取系统还配置有数据与服务接口,包括数据访问接口、数据交换接口、身份认证接口和相关系统集成接口,以与相关系统进行集成与数据交互。
本申请提供的基于互联网数据的舆情热点获取方法及系统,该基于互联网数据的舆情热点获取方法包括步骤:服务器获取互联网上的新闻舆情数据;判定该新闻舆情数据的来源,其中,来源包括主流新闻网站和新媒体网站;再根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点;然后对该舆情热点进行预警;通过上述方式,本申请能够实现对互联网舆情数据信息的采集、分析和归类,从而能够在舆情发生的第一时间,从源头发现舆情热点,从而能更好、更有效应地应对易发多发的网络舆情。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本申请基于互联网数据的舆情热点获取方法一实施方式的流程示意图。
图2为本申请基于互联网数据的舆情热点获取方法另一实施方式的流程示意图。
图3为本申请实施例二中根据关键词特征项的权重和主题语料库计算得到新媒体热点语料簇的步骤的流程示意图。
图4为本申请基于互联网数据的舆情热点获取系统一实时方式的逻辑结构示意图。
具体实施方式
为更进一步阐述本申请为达成预定申请目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本申请详细说明如下。
通过具体实施方式的说明,当可对本申请为达成预定目的所采取的技术手段及效果得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本申请加以限制。
实施例一:
请参阅图1,图1为本申请基于互联网数据的舆情热点获取方法一实施方式的流程示意图。
其中,本实施方式所述基于互联网数据的舆情热点获取方法可以包括但不限于如下几个步骤。
101、服务器获取互联网上的新闻舆情数据;
服务器从互联网网络站点自动化采集新闻舆情数据;其中,网络站点可以是指定的、已配置好的,此处不做限制。
102、判定新闻舆情数据的来源,其中来源包括主流新闻网站和新媒体网站;
获取新闻舆情数据后,服务器判断该新闻舆情数据的来源,其中,来源包括主流新闻网站和新媒体网站。
103、根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点;
在判断出新闻舆情数据的来源后,根据不同的来源分别使用不同的算法对新闻舆情数据进行舆情热点探测分析,发现新闻舆情数据中的舆情热点。
104、对舆情热点进行预警;
发现舆情热点后,对舆情热点进行红色、橙色、蓝色和一般预警的等级判定,再根据不同等级,通过弹框、电话、短信、微信、APP、邮件等方式向用户发送预警信息。
在本实施例中,服务器基取互联网上的新闻舆情数据,并判定该新闻舆情数据的来源,然后根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点,最后对该舆情热点进行预警;通过上述方式,本申请能够实现对互联网舆情数据信息的采集、分析和归类,从而能够在舆情发生的第一时间,从源头发现舆情热点,从而能更好、更有效应地应对易发多发的网络舆情。
实施例二:
请参阅图2,图2为本申请基于互联网数据的舆情热点获取方法另一实施方式的流程示意图。
其中,本实施方式所述基于互联网数据的舆情热点获取方法可以包括但不限于如下几个步骤。
201、服务器获取互联网上的新闻舆情数据;
服务器从互联网网络站点自动化采集新闻舆情数据;其中,网络站点可以是指定的、已配置好的,此处不做限制。
202、判断新闻舆情数据的来源;
获取新闻舆情数据后,服务器判断该新闻舆情数据的来源,其中,来源包括主流新闻网站和新媒体网站。如果新闻舆情数据来源于主流新闻网站,则执行步骤203;如果新闻舆情数据来源于新媒体网站,则执行步骤209。
203、若新闻舆情数据来源于主流新闻网站,则对新闻舆情数据进行语义分解,形成词语化数据;
步骤203中判定出新闻舆情数据来源于主流新闻网站,则对新闻舆情数据进行语义分解,形成词语化的数据。
204、对词语化数据进行二元分布统计;
将语义分解后的新闻舆情数据,即词语化的数据,进行二元分布统计,统计各词语出现的次数,得出二元分布统计结果。
205、对二元分布统计的结果进行标准分数计算,得到词语热点值;
将二元分布统计结果利用Z-Score(标准分数)算法进行计算,得到各词语的热点值。公式如下:
并且,将热点值大于预设的热点上限阈值的值存入热点词库中的热点活跃词库,将热点值小于预设的热点下限阈值的值存入热点词库中的热点惰性词库;其中,热点词库与领域词库相关联,其中,领域词库包括新闻、博客、论坛、社交网站等等领域;每个热点词库中的热点词来源于哪些领域都可以进行对应查询。
206、根据词语热点值和预设的热点词库判定词语化数据中的热点词的共现阈值;
根据新闻舆情数据中出现的词项,通过如下公式计算热点活跃词的共现阈值P1:
其中Wx为新闻词项集合,Wh为热点活跃词集合。
再通过下述公式计算热点惰性词的共现阈值P2:
其中Wx为新闻词项集合,Wc为热点惰性词集合。
207、根据共现阈值进行线性加权计算,得到热度值;
根据热点活跃词和热点惰性词的共现阈值P1和P2,进行线性加权计算,得到热度值。热度值的计算公式如下:
其中Zi为第i个词语的Z,P1为热点活跃词共现阈值,P2为热点惰性词共现阈值。
208、根据热度值对新闻舆情数据进行热度判定;
根据热度值对新闻舆情数据进行热度判定,对热点值根据预设的热度等级评判标准进行等级判定;将符合热度等级评判标准的新闻舆情数据归档至热点文档,将不符合热度等级评判标准的新闻舆情数据归档至非热点文档。
209、若新闻舆情数据来源自新媒体网站,则对新闻舆情数据进行数据预处理,获得新媒体网站语料;
步骤203中判定出新闻舆情数据来源于新媒体网站,则对新闻舆情数据进行数据预处理,获得新媒体网站语料,具体的:对新闻舆情数据进行数据清洗:去除广告推广、星座占卜、天气播报、股票盘面等内容高度相似但无实际意义的新闻数据。然后进行分词处理:将新闻数据抽取为词项集合的表达形式并去除语气词、助词、连接词等与新闻主题无关的词项,便于进行处理运算。最后进行元数据抽取处理:抽取获得作者、平台来源、字数、语种、是否含图、发布时间等新闻描述数据作为标准语料库筛选辅助依据。最终获得新媒体网站语料。
210、并将新媒体网站语料集成为新媒体标准语料;
将新闻舆情数据进行数据预处理,获得新媒体网站语料后,再将新媒体网站语料集成为新媒体标准语料,具体的:去除发布时间早于预设时间阈值的新闻保证语料库的时效性;去除字数少于字数阈值的新闻保证语料内容完整性;根据高质量作者名单标记新闻质量权重分为高、中、低三档;其中时间阈值、字数阈值、作者名单都可进行动态配置调整。
211、将新媒体标准语料按照预定的分类要求进行主题分类,获得主题语料库;
将新媒体网站语料集成为新媒体标准语料后,再将新媒体标准语料进行分类,具体的,按照预先设定的分类要求,按照不同的主题进行分类,并保存获得主题语料库。
212、在主题语料库中选定新媒体网站语料,并对新媒体网站语料进行聚类分析,获得新媒体热点语料簇;
请参阅图3,图3是根据关键词特征项的权重和主题语料库计算得到新媒体热点语料簇的步骤的流程示意图。在主题语料库中选定新媒体网站语料,并对新媒体网站语料进行聚类分析,获得新媒体热点语料簇,具体的:
2121、将新媒体网站语料进行分词,获得关键词集合;
首先,将新媒体网站语料进行分词,根据预设的关键词标准对分词结果进行统计判定,并获得关键词集合。
2122、根据预设的规则对关键词集合进行编码后作为关键词特征项;
再根据预设的特征项筛选规则对关键词集合进行编码,并获得关键词特征项。关键词特征项为词项在系统中的向量表达形式,在系统中将词语集合进行编码后将每一个词表示为唯一的向量形式,方便在系统中计算。
2123、集合所有关键词特征项,计算各关键词出现的频率,获得参考词频;
将所有的关键词特征项进行集合,并计算各个关键词出现的频率,获得参考词频;具体的,使用如下公式计算参考词频:
其中,fi表示第i个关键词特征项的参考词频,N表示所有关键词特征项出现的次数之和,ni表示第i各关键词特征项出现的次数。
2124、根据参考词频计算得到关键词特征项的权重;
根据参考词频计算得到关键词特征项的权重,具体的:
wi=fi×logNni,
其中,wi表示第i个关键词特征项的权重,fi表示第i个关键词特征项的参考词频,N表示所有关键词特征项出现的次数之和,ni表示第i各关键词特征项出现的次数。
2125、根据关键词特征项的权重,并采用向量空间模型表示新媒体网站语料的文本特征;
计算得到各关键词特征项的权重后,再根据关键词特征项的权重和主题语料库计算得到新媒体热点语料簇。
具体的,首先根据关键词特征项的权重,采用向量空间模型表示新媒体网站语料的文本特征,例如S=(w1,w2,w3,……wi)。
2126、从主题语料库中选取一个新媒体网站语料种子作为初始热点簇;
然后随机从主题语料库中选取一个新媒体网站语料作为种子S1,形成初始热点簇。
2127、从主题语料库中选取一个待比较的新媒体网站语料与新媒体网站语料种子进行比较,获得二者相似度;
再从主题语料库中选取一个新媒体网站语料作为待比较的新媒体网站语料S2,并且将新媒体网站语料种子与待比较的新媒体网站语料进行比较,获得二者相似度Y(S1,S2)。
2128、判断二者相似度是否大于预设的阈值;
再判断新媒体网站语料种子与待比较的新媒体网站语料,二者的相似度Y与预设的阈值X进行比较,如果Y小于X,则执行步骤2129,如果Y大于等于X,则执行步骤21211。
2129、若相似度小于预设的相似度阈值,则将待比较新媒体网站语料作为新的新媒体网站语料种子及新的初始热点簇;
如果在步骤2128中,判断出Y小于X,则将待比较新媒体网站语料S2作为新的新媒体网站语料种子及新的初始热点簇,继续与其他新媒体网站语料进行相似度比较。
21210、判断语料是否处理结束;
判断语料是否处理结束,如果没有结束,执行步骤21211,如果结束,则执行步骤21213,结束流程。
21211、若相似度大于等于预设的相似度阈值,则该将待比较的新媒体网站语料加入新媒体网站语料种子,获得新的语料种子;
如果在步骤2128中,判断出Y大于等于X,,则该将待比较的新媒体网站语料S2加入新媒体网站语料种子S1,获得新的语料种子S1S2。
21212、更新新的语料种子的关键词特征项及关键词特征项的权重;
更新新的新媒体网站语料种子S1S2的关键词特征项及关键词特征项的权重,具体执行步骤参考步骤2122至2124。
21213、结束流程。
213、根据新媒体热点语料簇和新闻舆情数据的演化过程,筛选出最终的舆情热点。
获得新媒体热点语料簇后,根据新媒体热点语料簇和新闻舆情数据的演化过程,筛选出最终的舆情热点,例如,如果一个新媒体热点语料簇的演化过程已经处于热点尾端了,即热度已经过了,则不能作为最终的舆情热点;如果一个新媒体热点语料簇还是处于舆论焦点的位置,热度很高,则为最终的舆情热点。
进一步的,本实施例中的方法还包括:
获取用户设定的特定群体的新闻舆情数据,并对该特定群体的新闻舆情数据进行分析得到分析结果,向用户展示分析结果;具体的,本实施例中提供的方法支持对特定社会群体的网络关注热点进行每日分类探测和发现;首先根据用户设定特定社会群体,获取该群体每日相关信息;由于社会群体往往主要以新媒体为传播载体,因此在此处使用新媒体热点发现算法,即步骤209至步骤214,对相关社会群体进行分析,并将结果以排行榜的形式进行展示。
进一步的,本实施例中的方法还包括:
通过文本聚类技术,获取和整合特定时间内境内外的新闻舆情数据,进行深度融合提炼后以热点云的形式向用户进行滚动显示。具体的,通过文本聚类技术,整合24小时内境内外新闻,博客,论坛,社交网站的热门信息及话题,进行深度融合提炼后以热点云的形式,对全国以及本地的热点信息进行滚动展示。每条热点按其热度的不同,按5级颜色进行区分其实时热度(红色-最热,橙色-热门,黄色-较热,蓝色-一般,绿色-未引起较大讨论)。用户可根据热点云的颜色第一时间明辨当日的热门信息。同时,针对每条热点信息,系统应能够以量化指标刻画热点事件,其量化指标包括:境内媒体报道数量,境外炒作数量,不稳定因素数量,有害信息数量,社交网站关注数量,网民评论情况,网民情感分析以及舆情数据统计并以图表的形式进行直观展示。
进一步的,本实施例中的方法还包括:
对用户设定的区域内的舆情热点进行探测分析,发现舆情热点,并对所述舆情热点进行预警。具体的,对用户所在地域的区域的相关热点进行每日探测和主动发现;首先基于所在地知识库,构建区域分类模型,对涉及用户所在地区的文本实现自动标记。基于已标记的地区文本内容,获取相关内容并根据其新闻舆情数据的类型(如:新闻、论坛、社交网站等),采用相对应的热点发现算法,如果来源于主流新闻网站,则使用主流新闻网站热点发现算法,即步骤203至步骤208进行处理;如果来源于新媒体网站,则使用新媒体热点发现算法,即步骤209至步骤214进行处理。并可按新闻舆情数据的类型对地区热点进行排行并展示。
在本实施例中,服务器基取互联网上的新闻舆情数据,并判定该新闻舆情数据的来源,然后根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点,最后对该舆情热点进行预警;通过上述方式,本申请能够实现对互联网舆情数据信息的采集、分析和归类,从而能够在舆情发生的第一时间,从源头发现舆情热点,从而能更好、更有效应地应对易发多发的网络舆情。
实施例三、
请参阅图4,本申请还提供一种基于互联网数据的舆情热点获取系统,作为其中一种实施方式,所述数据信息处理系统配置有处理器21,所述处理器21用于执行程序数据,以实现如上所述的基于互联网数据的舆情热点获取方法。
作为其中一种实施方式,所述数据信息处理系统还配置有数据与服务接口,包括数据访问接口、数据交换接口、身份认证接口和相关系统集成接口,以与相关系统进行集成与数据交互。
此外,本申请还可以提供一种计算机可读存储介质,其存储有程序数据,用于被处理器执行时,实现如图1-图3及其实施方式所述/所示的方法和功能。
本申请能够实现多层次的数据清理处理过程,可以从数据上实现准确性、完整性、一致性、惟一性、适时性、有效性等多方面效果,可以有效地处理数据的丢失、不一致、重复等问题,最终实现图文数据的有机整合,得到综合而全面的图文数据库,利于行业的整合和转型升级。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本申请技术方案的范围内。
Claims (10)
1.一种基于互联网数据的舆情热点获取方法,其特征在于,所述方法包括步骤:
服务器获取互联网上的新闻舆情数据;
判断所述新闻舆情数据的来源,所述来源包括主流新闻网站和新媒体网站;
根据所述新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点;
对所述舆情热点进行预警。
2.根据权利要求1所述的方法,其特征在于,所述根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点的步骤包括:
若新闻舆情数据来源自主流新闻网站,则对所述新闻舆情数据进行语义分解,形成词语化数据;
对所述词语化数据进行二元分布统计;
对所述二元分布统计的结果进行标准分数计算,得到词语热点值;
根据词语热点值和预设的热点词库判定词语化数据中的热点词的共现阈值;
根据所述共现阈值进行线性加权计算,得到热度值;
根据热度值对所述新闻舆情数据进行热度判定。
3.根据权利要求2所述的方法,其特征在于,所述根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点的步骤包括:
若新闻舆情数据来源自新媒体网站,则对所述新闻舆情数据进行数据预处理,获得新媒体网站语料,并将所述新媒体网站语料集成为新媒体标准语料;
将所述新媒体标准语料按照预定的分类要求进行主题分类,获得主题语料库;
在所述主题语料库中选定新媒体网站语料,并对所述新媒体网站语料进行聚类分析,获得新媒体热点语料簇;
根据所述新媒体热点语料簇和所述新闻舆情数据的演化过程,筛选出最终的舆情热点。
4.根据权利要求3所述的方法,其特征在于,所述在主题语料库中选定新媒体网站语料,并对所述新媒体网站语料进行聚类分析,获得新媒体热点语料簇的步骤包括:
将所述新媒体网站语料进行分词,获得关键词集合;
根据预设的规则对所述关键词集合进行筛选后作为关键词特征项;
集合所有关键词特征项,计算各关键词出现的频率,获得参考词频;
根据所述参考词频计算得到关键词特征项的权重;
根据所述关键词特征项的权重和所述主题语料库计算得到新媒体热点语料簇。
5.根据权利要求4所述的方法,其特征在于,所述根据关键词特征项的权重和所述主题语料库计算得到新媒体热点语料簇的步骤包括:
根据关键词特征项的权重,并采用向量空间模型表示所述新媒体网站语料的文本特征;
从所述主题语料库中选取一个新媒体网站语料种子作为初始热点簇,并从主题语料库中选取一个待比较的新媒体网站语料与新媒体网站语料种子进行比较,获得二者相似度;
若所述相似度小于预设的相似度阈值,则将待比较新媒体网站语料作为新的新媒体网站语料种子及新的初始热点簇;然后执行从主题语料库中选取一个待比较的新媒体网站语料与新媒体网站语料种子进行比较,获得二者相似度的步骤,直至所有语料处理结束;
若所述相似度大于等于预设的相似度阈值,则该将待比较的新媒体网站语料加入所述新媒体网站语料种子,获得新的语料种子;更新所述新的语料种子的关键词特征项及关键词特征项的权重;并执行从主题语料库中选取一个待比较的新媒体网站语料与新媒体网站语料种子进行比较,获得二者相似度的步骤,直至所有语料处理结束。
6.根据权利要求1-5所述的方法,其特征在于,所述方法还包括:
对用户设定的区域内的舆情热点进行探测分析,发现舆情热点,并对所述舆情热点进行预警。
7.根据权利要求1-5所述的方法,其特征在于,所述方法还包括:
获取用户设定的特定群体的新闻舆情数据,并对所述特定群体的新闻舆情数据进行分析得到分析结果,向用户展示所述分析结果。
8.根据权利要求1-5所述的方法,其特征在于,所述方法还包括:
通过文本聚类技术,获取和整合特定时间内境内外的新闻舆情数据,进行深度融合提炼后以热点云的形式向用户进行滚动显示。
9.一种基于互联网数据的舆情热点获取系统,其特征在于,所述数据信息处理系统配置有处理器,所述处理器用于执行程序数据,以实现如权利要求1-8任一项所述的基于互联网数据的舆情热点获取方法。
10.根据权利要求9所述的系统,其特征在于,所述基于互联网数据的舆情热点获取系统还配置有数据与服务接口,包括数据访问接口、数据交换接口、身份认证接口和相关系统集成接口,以与相关系统进行集成与数据交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010826499.7A CN111984787A (zh) | 2020-08-17 | 2020-08-17 | 一种基于互联网数据的舆情热点获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010826499.7A CN111984787A (zh) | 2020-08-17 | 2020-08-17 | 一种基于互联网数据的舆情热点获取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111984787A true CN111984787A (zh) | 2020-11-24 |
Family
ID=73434545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010826499.7A Pending CN111984787A (zh) | 2020-08-17 | 2020-08-17 | 一种基于互联网数据的舆情热点获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984787A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112929235A (zh) * | 2021-02-06 | 2021-06-08 | 珠海市鸿瑞信息技术股份有限公司 | 一种基于互联网的网络监测系统 |
CN113722442A (zh) * | 2021-08-31 | 2021-11-30 | 平安科技(深圳)有限公司 | 基于关键词识别的联动性分析方法及相关产品 |
CN114943285A (zh) * | 2022-05-20 | 2022-08-26 | 深圳市创意智慧港科技有限责任公司 | 互联网新闻内容数据智能审核系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098738A1 (en) * | 2014-10-06 | 2016-04-07 | Chunghwa Telecom Co., Ltd. | Issue-manage-style internet public opinion information evaluation management system and method thereof |
CN109783815A (zh) * | 2018-12-28 | 2019-05-21 | 华南理工大学 | 一种多维度网络舆情大数据对比分析方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN111324801A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 基于热点词的司法领域热点事件发现方法 |
-
2020
- 2020-08-17 CN CN202010826499.7A patent/CN111984787A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098738A1 (en) * | 2014-10-06 | 2016-04-07 | Chunghwa Telecom Co., Ltd. | Issue-manage-style internet public opinion information evaluation management system and method thereof |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN109783815A (zh) * | 2018-12-28 | 2019-05-21 | 华南理工大学 | 一种多维度网络舆情大数据对比分析方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
CN111324801A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 基于热点词的司法领域热点事件发现方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112929235A (zh) * | 2021-02-06 | 2021-06-08 | 珠海市鸿瑞信息技术股份有限公司 | 一种基于互联网的网络监测系统 |
CN113722442A (zh) * | 2021-08-31 | 2021-11-30 | 平安科技(深圳)有限公司 | 基于关键词识别的联动性分析方法及相关产品 |
CN113722442B (zh) * | 2021-08-31 | 2023-08-08 | 平安科技(深圳)有限公司 | 基于关键词识别的联动性分析方法及相关产品 |
CN114943285A (zh) * | 2022-05-20 | 2022-08-26 | 深圳市创意智慧港科技有限责任公司 | 互联网新闻内容数据智能审核系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021929B (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
CN106156127B (zh) | 选择数据内容向终端推送的方法及装置 | |
TWI653542B (zh) | 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN111984787A (zh) | 一种基于互联网数据的舆情热点获取方法及系统 | |
CN109033408B (zh) | 信息推送方法及装置、计算机可读存储介质、电子设备 | |
CN108897784B (zh) | 一个基于社交媒体的突发事件多维分析系统 | |
CN111885399B (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
CN102110170B (zh) | 一种具有信息发布和搜索功能的系统及信息发布方法 | |
US9069880B2 (en) | Prediction and isolation of patterns across datasets | |
CN112104642B (zh) | 一种异常账号确定方法和相关装置 | |
US20150120708A1 (en) | Information aggregation, classification and display method and system | |
CN106789572B (zh) | 一种实现自适应消息过滤的即时通讯系统和即时通讯方法 | |
CN106528777A (zh) | 跨屏用户标识归一的方法及其系统 | |
CN111447575B (zh) | 短信息推送方法、装置、设备及存储介质 | |
CN110990683A (zh) | 一种基于地域与情感特征的微博谣言集成识别方法及装置 | |
CN111368063A (zh) | 一种基于机器学习的信息推送方法以及相关装置 | |
CN107633022A (zh) | 人员画像分析方法、装置及存储介质 | |
CN111984786A (zh) | 一种基于新闻信息的智能吹哨预警方法及服务器 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
Sapul et al. | Trending topic discovery of Twitter Tweets using clustering and topic modeling algorithms | |
CN105159898B (zh) | 一种搜索的方法和装置 | |
Zheng et al. | Learning‐based topic detection using multiple features | |
CN114491149A (zh) | 信息处理方法及装置、电子设备、存储介质、程序产品 | |
CN112966103B (zh) | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |