CN103365902B - 互联网新闻的评估方法和装置 - Google Patents

互联网新闻的评估方法和装置 Download PDF

Info

Publication number
CN103365902B
CN103365902B CN201210097667.9A CN201210097667A CN103365902B CN 103365902 B CN103365902 B CN 103365902B CN 201210097667 A CN201210097667 A CN 201210097667A CN 103365902 B CN103365902 B CN 103365902B
Authority
CN
China
Prior art keywords
news
website
content
satellite information
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210097667.9A
Other languages
English (en)
Other versions
CN103365902A (zh
Inventor
白龙
梁如峰
刘杰
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201210097667.9A priority Critical patent/CN103365902B/zh
Publication of CN103365902A publication Critical patent/CN103365902A/zh
Application granted granted Critical
Publication of CN103365902B publication Critical patent/CN103365902B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种互联网新闻的评估方法,包括:获取设定网站的头条新闻的标题;对标题进行分词聚类处理,以确定其中的热点;通过搜索引擎获取热点所对应头条新闻的内容和附属信息;对所获取的新闻内容和附属信息进行评估。本发明提供了一种互联网新闻的评估装置,包括:获取模块,用于获取设定网站的头条新闻的标题;热点模块,用于对标题进行分词聚类处理,以确定其中的热点;搜索引擎,用于获取热点所对应头条新闻的内容和附属信息;评估模块,对所获取的新闻内容和附属信息进行评估。本发明提高了互联网新闻评估的效率和准确性。

Description

互联网新闻的评估方法和装置
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种互联网新闻传播影响力的评估方法和装置。
背景技术
当前对互联网新闻传播影响力的评估主要是采用人工统计的方式,主要有以下两种方式。
一、通过从各主流搜索引擎搜索相关新闻,获取相关信息返回结果数目,及相关新闻的网上发布时间等信息,并进入新闻页面查看新闻点击量,转载量,及新闻评论内容等信息进行汇总统计。
二、通过对各大新闻门户网站,进行人工梳理网站新闻信息,统计各门户网站下子栏目里相关新闻曝光度,信息数目,内容覆盖率等信息进行粗略研判,评价相关新闻的影响度。或者将二者结合对新闻传播影响进行综合评估。
人工查询、手工统计评估新闻传播影响力方法有以下不足:
1、效率低下。当面对互联网海量信息时,虽然可以通过搜索引擎工具快速限定信息范围,但面对搜索引擎返回的数以千计的相关信息,由于采用人工查看,手工统计方法,评估数据的产出往往较长,同时消耗大量人力物力,评估结果相对网络新闻的时效性相对滞后。
2、新闻影响力评估准确性不高。由于对网上新闻数据进行检索评估时会返回大量相关度较低的数据信息,这对新闻影响力评估会造成一定负面影响,干扰影响力评估值的获取。
发明内容
本发明旨在提供一种互联网新闻的评估方法和装置,以实现对互联网新闻的评估。
在本发明的实施例中,提供了一种互联网新闻的评估方法,包括:获取设定网站的头条新闻的标题;对标题进行分词聚类处理,以确定其中的热点;通过搜索引擎获取热点所对应头条新闻的内容和附属信息;对所获取的新闻内容和附属信息进行评估。
在本发明的实施例中,提供了一种互联网新闻的评估装置,包括:获取模块,用于获取设定网站的头条新闻的标题;热点模块,用于对标题进行分词聚类处理,以确定其中的热点;搜索引擎,用于获取热点所对应头条新闻的内容和附属信息;评估模块,对所获取的新闻内容和附属信息进行评估。
本发明上述实施例的互联网新闻的评估方法和装置因为自动获取新闻并自动确定其中的热点和进行评估,所以克服了人工评估效率较低的问题,提高了互联网新闻评估的效率和准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的互联网新闻的评估方法的流程图;
图2示出了根据本发明实施例的互联网新闻的评估装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的互联网新闻的评估方法的流程图,包括:
步骤S10,获取设定网站的头条新闻的标题,例如,对已经限定好的网站进行数据检索,定时获取各新闻网站栏目的头条新闻,并将采集回来的新闻标题、链接信息,所属网站、栏目,新闻位序、区域等相关信息一并入库,按不同栏目进行分类存储管理;
步骤S20,对标题进行分词聚类处理,以确定其中的热点,例如,对采集回来的头条新闻的标题进行分词处理,提取相应新闻热词,并对返回的新闻信息依据提取的新闻热词进行聚类,最终确定热点新闻;
步骤S30,通过搜索引擎获取热点所对应头条新闻的内容和附属信息;
步骤S40,对所获取的新闻内容和附属信息进行评估。
可以对采集的新闻信息进行内容处理,提取新闻摘要信息,新闻关键词,并对新闻信息建立索引,以供后期信息分析,展示所用。
本方法自动获取新闻并自动确定其中的热点和进行评估,所以克服了人工评估效率较低的问题,提高了互联网新闻评估的效率和准确性。
优选地,步骤S20分为如下两个采集部分:
a)、获取内容,该部分采集数据主要是为了后期分析评估新闻影响力。采集内容如下:新闻发布时间,新闻信息标题,新闻摘要,新闻正文内容,该新闻的点击量,转载量,评论数,及该新闻的新闻评论信息。如果采集的新闻信息已经存在,则更新相应数据,以反映信息的最新动态。
b)、获取附属信息,该部分采集数据主要是为了后期分析新闻传播影响。采集信息如下:新闻网站,具体发布栏目,链接地址,相关新闻标题,及相应链接地址,同时对相关新闻进行信息采集,采集信息与a)内容相同。如果采集的相关新闻有所变化,则将新增部分进行相应处理,以反映信息的最新动态。
优选地,步骤S40包括新闻传播影响力评估,具体包括:评估一条新闻的传播影响力其中,InfoD1表示该新闻在网站i上的传播影响力,Wi为网站i的信息影响度权重。
优选地,设置InfoDi=(Sdi+Hdi)Tdi;其中,Sdi表示该新闻在网站i的传播广度影响力,Hdi表示该新闻在网站i的新闻热度影响力,Tdt=e-αt,t表示该新闻的发布时间至今日的时间距离,α为衰减因子。
网络上的新闻在发布之初会吸引大量关注和评论,但随着时间推移,单位时间内新闻阅读量和评论数会越来越少,也就是说无论新闻信息多么吸引人,也会慢慢淡出人们的视线。时间衰减函数Td=e-αt可以模拟新闻事件衰减过程。时间衰减函数,为表现新闻本身的时效性,这里采用与放射性元素衰减相类似的衰减公式表示新闻时间的时间趋势。参数t为新闻持续时间,即新闻发布时间至今日的时间距离,α=1为衰减因子,可以根据用户的需求进行设置。
将新闻热度值与新闻传播广度值乘以相应时间函数,即反应新闻事件在该网站的传播影响度。同理可以获得该新闻在其他新闻网站的传播影响度,进而通过计算平均加权值的方法获取该新闻在检索网站范围内的新闻传播影响力值。
优选地,本方法还包括:评估Hdi=H1i+H2i;其中,H1i表示该新闻当日在网站i的热度排行值;H2i表示该新闻前一日在网站i的热度排行值与当日在网站i的热度排行值的差值。
优选地,本方法还包括:评估Sdi=W1i+W2i+W3i;W1i为该新闻在网站i的栏目报道率,即栏目平均覆盖率;W2i为该新闻在网站i的新闻聚类数值与该新闻在网站i的数目比,即新闻内容衍生新闻话题率;W3i为该新闻在网站i的回帖数值与该新闻在网站i的阅读数值比,即新闻信息回帖率。
优选地,可以展示当前各新闻站点热点新闻信息,以便用户对当前网络热点新闻在各新闻站点的分布做整体了解,可以明确当前热点新闻在各新闻网站分布情况。也可准确定位新闻具体报道内容,并获取与此新闻相关的新闻标题信息,方便用户横向延展,关注该新闻衍生出的新的新闻话题。
优选地,步骤S40包括新闻传播影响评估,具体包括:通过对所获取的新闻内容中新闻的发布网站、信息转发数量和点击量评论数,以及附属信息中新闻网站、具体发布栏目、链接地址、相关新闻标题和相应链接地址进行统计,以评估新闻的新闻传播影响度。其中,获取的相关新闻标题对应的新闻内容中同样含有如下信息:新闻的发布网站,信息转发数量,点击量评论数,这些信息同样可以用于评估新闻传播影响评估。
优选地,步骤S40包括新闻持久度评估,具体包括:通过对不同时刻的附属信息中新闻在网站的分布状况、信息数目、及相关信息转载量、点击量进行统计,评估新闻的新闻持久度。例如,通过设定新闻主题,持续关注该新闻发展过程,从新闻事件发生,到新闻事件持续发酵,最终新闻事件终止。通过全程关注整个新闻事件在不同时期所展现的特性,即通过对不同时刻相关新闻在网站分布状况、信息数目,及相关信息转载量,点击量等因素综合评价新闻事件的持续影响力。
优选地,本方法还包括:通过对已经获取的相附属信息中新闻的发布网站,转载网站,信息转发数量,点击量,转载量,评论数进行统计,获取该新闻的散播途径、信息扩展范围、信息受众等情况;并通过对相应的新闻评论进行文本分析,对受众评论内容进行聚类处理,形成信息受众对该新闻所持的新闻观点。
图2示出了根据本发明实施例的互联网新闻的评估装置的示意图,包括:
获取模块10,用于获取设定网站的头条新闻的标题;
热点模块20,用于对标题进行分词聚类处理,以确定其中的热点;
搜索引擎30,用于获取热点所对应头条新闻的内容和附属信息;
评估模块40,对所获取的新闻内容和附属信息进行评估。
本装置自动获取新闻并自动确定其中的热点和进行评估,所以克服了人工评估效率较低的问题,提高了互联网新闻评估的效率和准确性。
优选地,评估模块用于评估一条新闻的传播影响力其中,InfoDi表示该新闻在网站i上的传播影响力,Wi为网站i的信息影响度权重,InfoDi=(Sdi+Hdi)Tdi,Sdi表示该新闻在网站i的传播广度影响力,Hdi表示该新闻在网站i的新闻热度影响力,Tdt=e-αt,t表示该新闻的发布时间至今日的时间距离,α为衰减因子。
综上,通过上述主要信息处理流程可以形成对新闻传播、影响、新闻事件持久度的初步研判,结合相应图表等数据形式的展现方式,可以较为直观、便捷地获取新闻传播影响力的评估,与传统人工手动方式统计相比,本发明大大提高了评估效率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种互联网新闻的评估方法,其特征在于,包括:
获取设定网站的头条新闻的标题;
对所述标题进行分词聚类处理,以确定其中的热点;
通过搜索引擎获取所述热点所对应头条新闻的内容和附属信息;
对所获取的新闻内容和附属信息进行评估,所述对所获取的新闻内容和附属信息进行评估包括新闻传播影响力评估,具体包括:
评估一条所述新闻的传播影响力
其中,InfoDi表示该新闻在网站i上的传播影响力,Wi为网站i的信息影响度权重,设置InfoDi=(Sdi+Hdi)Tdi,Sdi表示该新闻在网站i的传播广度影响力,Hdi表示该新闻在网站i的新闻热度影响力,Tdi=e-αt,t表示该新闻的发布时间至今日的时间距离,α为衰减因子。
2.根据权利要求1所述的方法,其特征在于,通过搜索引擎获取所述热点所对应头条新闻的内容和附属信息包括:
获取所述内容,包括:新闻发布时间,新闻信息标题,新闻摘要,新闻正文内容,该新闻的点击量,转载量,评论数,及该新闻的新闻评论信息;
获取所述附属信息,包括:新闻网站,具体发布栏目,链接地址,相关新闻标题,及相应链接地址,同时对相关新闻获取所述内容。
3.根据权利要求1所述的方法,其特征在于,还包括:
评估Hdi=H1i+H2i
其中,H1i表示该新闻当日在网站i的热度排行值;H2i表示该新闻前一日在网站i的热度排行值与当日在网站i的热度排行值的差值。
4.根据权利要求1所述的方法,其特征在于,还包括:
评估Sdi=W1i+W2i+W3i
W1i为该新闻在网站i的栏目报道率;W2i为该新闻在网站i的新闻聚类数值与该新闻在网站i的数目比;W3i为该新闻在网站i的回帖数值与该新闻在网站i的阅读数值比。
5.根据权利要求1所述的方法,其特征在于,对所获取的新闻内容和附属信息进行评估包括新闻传播影响评估,具体包括:
通过对所获取的新闻内容中所述新闻的发布网站、信息转发数量和点击量评论数,以及所述附属信息中新闻网站、具体发布栏目、链接地址、相关新闻标题和相应链接地址进行统计,以评估所述新闻的新闻传播影响度。
6.根据权利要求1所述的方法,其特征在于,对所获取的新闻内容和附属信息进行评估包括新闻持久度评估,具体包括:
通过对不同时刻的所述附属信息中所述新闻在网站的分布状况、信息数目、及相关信息转载量、点击量进行统计,评估所述新闻的新闻持久度。
7.一种互联网新闻的评估装置,其特征在于,包括:
获取模块,用于获取设定网站的头条新闻的标题;
热点模块,用于对所述标题进行分词聚类处理,以确定其中的热点;
搜索引擎,用于获取所述热点所对应头条新闻的内容和附属信息;
评估模块,对所获取的新闻内容和附属信息进行评估,所述评估模块用于评估一条所述新闻的传播影响力其中,InfoDi表示该新闻在网站i上的传播影响力,Wi为网站i的信息影响度权重,InfoDi=(Sdi+Hdi)Tdi,Sdi表示该新闻在网站i的传播广度影响力,Hdi表示该新闻在网站i的新闻热度影响力,Tdi=e-αt,t表示该新闻的发布时间至今日的时间距离,α为衰减因子。
CN201210097667.9A 2012-03-31 2012-03-31 互联网新闻的评估方法和装置 Expired - Fee Related CN103365902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210097667.9A CN103365902B (zh) 2012-03-31 2012-03-31 互联网新闻的评估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210097667.9A CN103365902B (zh) 2012-03-31 2012-03-31 互联网新闻的评估方法和装置

Publications (2)

Publication Number Publication Date
CN103365902A CN103365902A (zh) 2013-10-23
CN103365902B true CN103365902B (zh) 2017-06-20

Family

ID=49367266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210097667.9A Expired - Fee Related CN103365902B (zh) 2012-03-31 2012-03-31 互联网新闻的评估方法和装置

Country Status (1)

Country Link
CN (1) CN103365902B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI601088B (zh) * 2014-10-06 2017-10-01 Chunghwa Telecom Co Ltd Topic management network public opinion evaluation management system and method
CN104331420A (zh) * 2014-10-13 2015-02-04 北京奇虎科技有限公司 判断新闻发布位置的重要性的方法和装置
CN104657496B (zh) * 2015-03-09 2018-08-14 杭州朗和科技有限公司 一种计算信息热度值的方法和设备
CN106815228B (zh) * 2015-11-27 2020-03-03 北京国双科技有限公司 搜索关键词的类名选取方法和装置
CN105630929B (zh) * 2015-12-22 2019-08-30 北京奇虎科技有限公司 基于评论确定新闻推荐权重的方法及装置
CN106919627A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法和装置
CN105824803B (zh) * 2016-03-31 2018-10-30 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN107632984A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和系统
CN107784010B (zh) * 2016-08-29 2021-12-17 南京尚网网络科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN106934049B (zh) * 2017-03-16 2020-08-07 天闻数媒科技(北京)有限公司 一种新闻选题分析方法及装置
CN107239497B (zh) * 2017-05-02 2020-11-03 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN107749869A (zh) * 2017-09-15 2018-03-02 合肥英泽信息科技有限公司 一种基于云服务器的新闻网站后台管理系统
CN108153818B (zh) * 2017-11-29 2021-08-10 成都东方盛行电子有限责任公司 一种基于大数据的聚类方法
CN108197292A (zh) * 2018-01-22 2018-06-22 成都睿码科技有限责任公司 一种新闻传播量的度量方法及系统
CN108804594A (zh) * 2018-05-28 2018-11-13 国家计算机网络与信息安全管理中心 一种新闻内容全文检索引擎的构建方法及装置
CN109032906A (zh) * 2018-07-17 2018-12-18 郑州升达经贸管理学院 一种互联网新闻的评估方法及其评估装置
CN109145246A (zh) * 2018-07-31 2019-01-04 成都华栖云科技有限公司 一种基于paas媒体云多租户平台的新闻虚拟点击量实现方法
CN109325180B (zh) * 2018-09-21 2021-01-05 北京字节跳动网络技术有限公司 文章摘要推送方法、装置、终端设备、服务器及存储介质
CN109275031B (zh) * 2018-09-25 2021-09-28 有米科技股份有限公司 一种视频的热度评估方法、装置及电子设备
CN111949853A (zh) * 2019-04-30 2020-11-17 北京智慧星光信息技术有限公司 一种互联网信息的监测控制方法
CN111143688B (zh) * 2019-12-31 2021-03-02 南京新一代人工智能研究院有限公司 一种基于移动新闻客户端的评估方法及其系统
CN111506851A (zh) * 2020-04-16 2020-08-07 创新奇智(上海)科技有限公司 门户网站的等级计算方法、新闻推荐方法及装置
CN111523027B (zh) * 2020-04-16 2023-08-01 武汉有牛科技有限公司 基于区块链技术的数据新闻自动撰写机器人

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100952391B1 (ko) * 2005-04-14 2010-04-14 에스케이커뮤니케이션즈 주식회사 인터넷 네트워크에서 콘텐츠의 평가에 따른 가치 분석시스템, 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수있는 기록 매체
CN101122904A (zh) * 2006-08-08 2008-02-13 任喜军 因特网网页价值评估、衡量方法
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种基于信息检索技术的网络影响力分析方法";杨伟杰等;《软件学报》;20090930;第20卷(第9期);论文第2398页第5-8段、2399页第1-3段、2404页倒数第一段以及图1 *
"突发时间热点话题识别系统及关键问题研究";陈莉萍等;《计算机工程与应用》;20111231(第32期);参见论文第20页以及图1 *

Also Published As

Publication number Publication date
CN103365902A (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
CN103365902B (zh) 互联网新闻的评估方法和装置
Baxter et al. A case-control study of support/opposition to wind turbines: Perceptions of health risk, economic benefits, and community conflict
CN102932206B (zh) 监测网站访问信息的方法和系统
CN109255666A (zh) 一种在线精准调研方法
CN103186612B (zh) 一种词汇分类的方法、系统和实现方法
CN103593446A (zh) 流量质量分析方法及装置
CN106503025A (zh) 一种应用推荐方法和系统
CN102426590B (zh) 一种质量评价的方法和装置
CN103593350A (zh) 一种推荐推广关键词价格参数的方法和装置
CN104834731A (zh) 一种自媒体信息的推荐方法及装置
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
CN104050197B (zh) 一种信息检索系统评测方法和装置
CN107103483A (zh) 户外广告投放的方法及装置
CN104598450A (zh) 一种网络舆情事件的热度分析方法及系统
CN105224681B (zh) 基于家庭工作地上下文环境的用户需求获取方法及系统
CN103605714A (zh) 网站异常数据的识别方法及装置
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
CN102779190A (zh) 一种时序海量网络新闻的热点事件快速检测方法
CN110363427A (zh) 模型质量评估方法和装置
CN109885656B (zh) 基于量化热度的微博转发预测方法及装置
CN104933475A (zh) 网络转发行为预测方法及装置
CN116342192B (zh) 一种基于大数据的互联网汽车行业广告投放效果监控方法
CN104123318A (zh) 一种地图显示兴趣点的方法及系统
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN103544307A (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220615

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170620

CF01 Termination of patent right due to non-payment of annual fee