CN105843863A - 互联网新闻的去重方法和装置 - Google Patents

互联网新闻的去重方法和装置 Download PDF

Info

Publication number
CN105843863A
CN105843863A CN201610154167.2A CN201610154167A CN105843863A CN 105843863 A CN105843863 A CN 105843863A CN 201610154167 A CN201610154167 A CN 201610154167A CN 105843863 A CN105843863 A CN 105843863A
Authority
CN
China
Prior art keywords
news
packet
time
keyword set
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610154167.2A
Other languages
English (en)
Inventor
石忠民
江云辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201610154167.2A priority Critical patent/CN105843863A/zh
Publication of CN105843863A publication Critical patent/CN105843863A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种互联网新闻的去重方法,包括以下步骤:为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;比较条件之一为所有已创建的新闻分组;新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。本发明通过识别重复的新闻,将相同的新闻放在一起与其他不同的新闻进行区分,从而达到新闻去重的目的。

Description

互联网新闻的去重方法和装置
技术领域
本发明涉及计算机信息处理领域,具体涉及一种互联网新闻的去重方法和装置。
背景技术
随着移动互联网技术的发展,如今,人们越来越多地通过手机等终端设备浏览新闻,由于受手机设备屏幕小的限制,受众阅读碎片化导致新闻文本叙事碎片化。以往,人们消费新闻的时间、场景相对比较固定,比如在晚饭时观看电视新闻,在早饭时浏览报纸新闻或听早间广播等,到了移动互联网时代,受众新闻消费呈现出高度的离散性,手机等便携移动终端的使用和公共休闲场所或是公共交通工具上无线网络的覆盖使得新闻受众能在任何时间、任何地点获取新闻。而这些获取新闻的时间通常是碎片化的,长则一个小时短则几分钟,如果一则消息不能在短短的几秒内抓住受众的注意力,那么移动网络的刷新功能会立刻用其它信息覆盖这条消息。
互联网上的内容每天都处于快速的增长之中,这给搜索引擎带来了全新的挑战。在推送新闻时首先需要避免把重复的新闻推送给用户,因此如何识别重复的新闻是关键。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种互联网新闻的去重方法和装置,通过识别重复的新闻,将相同的新闻放在一起与其他不同的新闻进行区分,从而达到新闻去重的目的。
为解决上述问题,本发明所采用的技术方案如下:
方案一:
互联网新闻的去重方法,包括以下步骤:
S1、为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;
S2、将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;
S3、新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。
优选的,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;
在步骤S2中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;
在步骤S3中,还更新该新闻分组中的更新时间。
优选的,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。
方案二:
互联网新闻的去重装置,包括以下模块:
新建分组模块:用于为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;
比较执行模块:用于将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;
更新模块:用于当新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。
优选的,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;
在比较执行模块中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;
在更新模块中,还更新该新闻分组中的更新时间。
优选的,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。
相比现有技术,本发明的有益效果在于:通过关键词比较和限定时间跨度识别重复的新闻,将相同的新闻放在一起与其他不同的新闻进行区分,从而达到新闻去重的目的。
附图说明
图1为本发明的互联网新闻的去重方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
参考图1,一种互联网新闻的去重方法,包括以下步骤:
S1、为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;
S2、将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;
S3、新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。
经过上述步骤,得到多个新闻分组,在同一新闻分组中的新闻为相同新闻。
进一步的,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;在步骤S2中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;条件二的作用是避免将时间跨度过长的新闻放进一个新闻分组中,因为时间跨度过长的而且在后发布的新闻已经不算是新闻了。在步骤S3中,还更新该新闻分组中的更新时间。
新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0,TextRank算法是在Google核心算法PageRank算法的基础上衍生出来的。
例如,当前存在两个新闻分组,每个新闻分组中都有两个新闻,则表示两个新闻分组之间是不相同的新闻,同一个新闻分组中的新闻是相同的新闻。当前新增了一个新闻,如果两个新闻分组的更新时间都符合时间条件,则该新闻中的关键词集合分别与两个新闻分组中的关键词表进行相似度比较,相似度比较为现有算法,比较后该关键词集合与第一个新闻分组中的关键词表的相似度大于预设阈值,则认为该新闻与第一个新闻分组中的新闻为相同新闻。然后将该新闻放入第一个新闻分组中,该新闻的发布时间比第一个新闻分组中的新闻的发布时间都晚,则将该新闻的发布时间作为第一个新闻分组的更新时间。另外,该新闻的关键词集合也合并进第一个新闻分组的关键词表中。
本发明的方法优点在于:通过关键词比较和限定时间跨度识别重复的新闻,将相同的新闻放在一起与其他不同的新闻进行区分,从而达到新闻去重的目的。
对应于上述的互联网新闻的去重方法,本发明还公开了一种互联网新闻的去重装置,包括以下模块:
新建分组模块:用于为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;
比较执行模块:用于将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;
更新模块:用于当新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。
优选的,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;
在比较执行模块中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;
在更新模块中,还更新该新闻分组中的更新时间。
优选的,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (6)

1.互联网新闻的去重方法,其特征在于,包括以下步骤:
S1、为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;
S2、将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;
S3、新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。
2.根据权利要求1所述的互联网新闻的去重方法,其特征在于,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;
在步骤S2中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;
在步骤S3中,还更新该新闻分组中的更新时间。
3.根据权利要求1或2所述的互联网新闻的去重方法,其特征在于,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。
4.互联网新闻的去重装置,其特征在于,包括以下模块:
新建分组模块:用于为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;
比较执行模块:用于将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;
更新模块:用于当新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。
5.根据权利要求4所述的互联网新闻的去重装置,其特征在于,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;
在比较执行模块中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;
在更新模块中,还更新该新闻分组中的更新时间。
6.根据权利要求4或5所述的互联网新闻的去重装置,其特征在于,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。
CN201610154167.2A 2016-03-16 2016-03-16 互联网新闻的去重方法和装置 Pending CN105843863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610154167.2A CN105843863A (zh) 2016-03-16 2016-03-16 互联网新闻的去重方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610154167.2A CN105843863A (zh) 2016-03-16 2016-03-16 互联网新闻的去重方法和装置

Publications (1)

Publication Number Publication Date
CN105843863A true CN105843863A (zh) 2016-08-10

Family

ID=56587362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610154167.2A Pending CN105843863A (zh) 2016-03-16 2016-03-16 互联网新闻的去重方法和装置

Country Status (1)

Country Link
CN (1) CN105843863A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280127A (zh) * 2017-12-15 2018-07-13 广州艾媒数聚信息咨询股份有限公司 一种海量相似新闻查重甄选方法、系统及装置
CN109800350A (zh) * 2018-12-21 2019-05-24 中国电子科技集团公司信息科学研究院 一种个性化新闻推荐方法及系统、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
US20120303358A1 (en) * 2010-01-29 2012-11-29 Ducatel Gery M Semantic textual analysis
CN103164427A (zh) * 2011-12-13 2013-06-19 中国移动通信集团公司 新闻聚合方法及装置
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
US20120303358A1 (en) * 2010-01-29 2012-11-29 Ducatel Gery M Semantic textual analysis
CN103164427A (zh) * 2011-12-13 2013-06-19 中国移动通信集团公司 新闻聚合方法及装置
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沙芸 等: "基于关键词提取的娱乐新闻文档去重算法", 《广西师范大学学报:自然科学版》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280127A (zh) * 2017-12-15 2018-07-13 广州艾媒数聚信息咨询股份有限公司 一种海量相似新闻查重甄选方法、系统及装置
CN109800350A (zh) * 2018-12-21 2019-05-24 中国电子科技集团公司信息科学研究院 一种个性化新闻推荐方法及系统、存储介质

Similar Documents

Publication Publication Date Title
CN108200220B (zh) 一种数据同步方法、服务器及存储介质
CN107908694A (zh) 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN105760546A (zh) 互联网新闻摘要的自动生成方法和装置
CN102968297B (zh) 移动终端的软件管理系统及方法
CN105787095A (zh) 互联网新闻的自动生成方法和装置
EP2579167A1 (en) Method for active information push and server therefor
US20170249934A1 (en) Electronic device and method for operating the same
CN107592578A (zh) 信息处理方法、装置、终端设备及存储介质
CN103559288A (zh) 一种智能收藏与分享的方法及移动终端
CN105898085B (zh) 骚扰通信账号的识别方法及装置
CN107071066A (zh) 页面访问方法及装置
US9720982B2 (en) Method and apparatus for natural language search for variables
CN105677712B (zh) 一种信息推送方法、装置及电子设备
CN105978748A (zh) 一种基于哈希节点的终端设备信息统计的方法及装置
CN101739437A (zh) 一种网络搜音机的实现方法及其专用设备
CN105511638A (zh) 输入法应用方法和装置
CN107609047A (zh) 应用推荐方法、装置、移动设备及存储介质
CN103237136B (zh) 移动终端及其主题词的检索方法
CN105843863A (zh) 互联网新闻的去重方法和装置
US9454568B2 (en) Method, apparatus and computer storage medium for acquiring hot content
CN102937977A (zh) 一种搜索服务器及搜索方法
CN108038714B (zh) 广告推广处理方法及装置
CN103067599A (zh) 一种移动终端壁纸更新方法及系统
CN104394258B (zh) 对通讯对象的联系方式变化进行处理的方法和装置
CN103489119B (zh) 一种广告监测方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160810

RJ01 Rejection of invention patent application after publication