CN107944001A - 热点新闻的检测方法、装置及电子设备 - Google Patents

热点新闻的检测方法、装置及电子设备 Download PDF

Info

Publication number
CN107944001A
CN107944001A CN201711271015.1A CN201711271015A CN107944001A CN 107944001 A CN107944001 A CN 107944001A CN 201711271015 A CN201711271015 A CN 201711271015A CN 107944001 A CN107944001 A CN 107944001A
Authority
CN
China
Prior art keywords
news
detected
weight
newsgroup
grouped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711271015.1A
Other languages
English (en)
Inventor
郑强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201711271015.1A priority Critical patent/CN107944001A/zh
Publication of CN107944001A publication Critical patent/CN107944001A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明实施例提供了一种热点新闻的检测方法、装置及电子设备。该方法可以确定出多个记载同一事件的待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;基于每个待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;基于多个待检测新闻组的热度值大小,选取出多个待检测新闻组中的热点新闻组,热度值越大越被优先选取;将选取的热点新闻组中的新闻确定为热点新闻,以提高热点新闻检测的准确性与时效性。

Description

热点新闻的检测方法、装置及电子设备
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种热点新闻的检测方法、装置及电子设备。
背景技术
随着移动互联网飞速发展,用户获取新闻的途径也从传统纸媒与门户网站,过渡到以各种移动新闻聚合的应用为主,这样的应用提供的内容具有及时、全面且深度契合用户兴趣等特点,其中热点新闻类别是其重要的组成部分,热点新闻类别主要为广大用户提供最新的热门、重大新闻等,并且热点新闻类别在提高用户留存度、活跃度、参与度起到非常重要的作用,因此对热点新闻检测的准确性与时效性也就成了重中之重。
目前现有的热点新闻的检测方法主要为如下两种方式:
方式一,基于人工监控的方式来检测热点新闻。该方式主要是从业人员主观的向用户推送新闻。然而,该方式需要大量人工,成本较高,并且会因为不专业的从业人员造成热点新闻的迟发、错误、遗漏等问题,导致检测出的热点新闻的准确率较低。
方式二,基于用户的点击反馈方式来自动对热点新闻进行检测。该方式主要是依据在一段时间内各新闻的点击率是否有较快速的上升来检测该段时间内的热点新闻。该方式相较于方式一具有成本低廉的优势。然而,该方式常常会倾向于将一些标题党、吸引点击的一些内容识别为热点新闻内容,这一类内容通常都会有大量的用户点击量,但其不是真正的热点新闻,导致检测出的热点新闻的准确率较低。另外,该方式在实施过程中需要搜集应用推送给用户的多个新闻,并获取这些新闻在一段时间内的点击量,最后对点击量进行统计找出热点新闻,耗时较长,导致这样的热点新闻时效性较低。
发明内容
本发明实施例的目的在于提供一种热点新闻的检测方法、装置及电子设备,以提高热点新闻检测的准确性与时效性。具体技术方案如下:
第一方面,提供了一种热点新闻的检测方法,该方法可以包括:
确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;
针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;
基于多个待检测新闻组的热度值,从多个待检测新闻组中,选取出热点新闻组,热度值越大越被优先选取;
将选取的热点新闻组中的新闻确定为热点新闻。
在一个可选的示例中,确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重之前,还包括:基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组。
在一个可选的示例中,基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组,包括:
步骤A:获取多条待分组新闻;
步骤B:提取多条待分组新闻中第一待分组新闻的多个关键词和多条待分组新闻中第二待分组新闻的多个关键词;
步骤C:获取降序排列的第一待分组新闻的多个关键词的权重序列和第二待分组新闻的多个关键词的权重序列;
步骤D:从排序后的第一待分组新闻的权重序列和排序后的第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;
步骤E:将第一权重序列和第二权重序列,采用相似度运算,得到第一权重序列和第二权重序列的相似值;
步骤F:当相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,第一待检测新闻组包括第一待分组新闻,第二待检测新闻组包括第二待分组新闻,第一待检测新闻组和第二待检测新闻组为当前待检测新闻组;
步骤G:当相似值大于预设相似阈值时,创建第三待检测新闻组,第三待检测新闻组包括第一待分组新闻和第二待分组新闻,第三待检测新闻组为当前待检测新闻组;
步骤H:提取多条待分组新闻中第三待分组新闻的多个关键词,第三待分组新闻为在多条待分组新闻中未被分组的新闻;
步骤I:获取降序排列的第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;
步骤J:从排序后的第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;
步骤K:将第三权重序列和第四权重序列,采用相似度运算,得到第三权重序列和第四权重序列的相似值;
步骤L:当相似值不大于预设相似阈值时,创建第四待检测新闻组,第四待检测新闻组包括第三待分组新闻,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组;
步骤M:当相似值大于预设相似阈值时,将第三待分组新闻加入相似值对应的当前待检测新闻组,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组。
在一个可选的示例中,将选取的热点新闻组中的新闻确定为热点新闻之后,该方法还可以包括:获取当前待分组新闻;
提取多个待检测新闻组中每个待检测新闻组的多个关键词和当前待分组新闻的多个关键词,每个待检测新闻组的多个关键词为每个待检测新闻组中的新闻的多个关键词;
获取降序排列的每个待检测新闻组的权重序列和当前待分组新闻的权重序列;
从排序后的每个待检测新闻组的权重序列和排序后的当前待分组新闻的权重序列中,分别选取前预设数量个权重组成的第五权重序列和第六权重序列;
将第五权重序列和第六权重序列,采用相似度运算,得到第五权重序列和第六权重序列间的相似值;
当相似值大于预设相似阈值时,将待分组新闻确定为热点新闻。
在一个可选的示例中,第一发布权重是基于每个待检测新闻组中新闻的发布者个数、发布者中目标媒体个数和新闻的属性权重确定的;第二发布权重是基于当前时刻和新闻的平均发布时间确定的。
在一个可选的示例中,第一发布权重是采用如下表达式表示确定的:S=arctan((P*0.03+AU*2.0)*M)*(2/π);其中,S为第一发布权重,P为发布者个数,AU为目标媒体个数和M为属性权重,S、P、AU和M均大于零;
第二发布权重是采用如下表达式表示确定的:T=0.9((C-AV+10)/6000);其中,T为第二发布权重,C为当前时刻和AV为平均发布时间,T、AV和C均大于零。
在一个可选的示例中,热度值H表示为:H=T*S;其中,H大于零。
第二方面,提供了一种检测装置,该装置可以包括:第一确定模块、第二确定模块、选取模块和第三确定模块。其中,
第一确定模块,用于确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;
第二确定模块,用于针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;
选取模块,用于基于多个待检测新闻组的热度值,从多个待检测新闻组中,选取出热点新闻组,热度值越大越被优先选取;
第三确定模块,用于将选取的热点新闻组中的新闻确定为热点新闻
在一个可选的示例中,该装置还包括分组模块;
分组模块,用于基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组。
在一个可选的示例中,该分组模块,具体用于执行以下步骤:
步骤A:获取多条待分组新闻;
步骤B:提取多条待分组新闻中第一待分组新闻的多个关键词和多条待分组新闻中第二待分组新闻的多个关键词;
步骤C:获取降序排列的第一待分组新闻的多个关键词的权重序列和第二待分组新闻的多个关键词的权重序列;
步骤D:从排序后的第一待分组新闻的权重序列和排序后的第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;
步骤E:将第一权重序列和第二权重序列,采用相似度运算,得到第一权重序列和第二权重序列的相似值;
步骤F:当相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,第一待检测新闻组包括第一待分组新闻,第二待检测新闻组包括第二待分组新闻,第一待检测新闻组和第二待检测新闻组为当前待检测新闻组;
步骤G:当相似值大于预设相似阈值时,创建第三待检测新闻组,第三待检测新闻组包括第一待分组新闻和第二待分组新闻,第三待检测新闻组为当前待检测新闻组;
步骤H:提取多条待分组新闻中第三待分组新闻的多个关键词,第三待分组新闻为在多条待分组新闻中未被分组的新闻;
步骤I:获取降序排列的第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;
步骤J:从排序后的第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;
步骤K:将第三权重序列和第四权重序列,采用相似度运算,得到第三权重序列和第四权重序列的相似值;
步骤L:当相似值不大于预设相似阈值时,创建第四待检测新闻组,第四待检测新闻组包括第三待分组新闻,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组;
步骤M:当相似值大于预设相似阈值时,将第三待分组新闻加入相似值对应的当前待检测新闻组,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组。
在一个可选的示例中,该装置还可以包括获取模块;
该获取模块,用于在第三确定模块将选取的热点新闻组中的新闻确定为热点新闻之后,获取当前待分组新闻;
提取多个待检测新闻组中每个待检测新闻组的多个关键词和当前待分组新闻的多个关键词,每个待检测新闻组的多个关键词为每个待检测新闻组中的新闻的多个关键词;
获取降序排列的每个待检测新闻组的权重序列和当前待分组新闻的权重序列;
从排序后的每个待检测新闻组的权重序列和排序后的当前待分组新闻的权重序列中,分别选取前预设数量个权重组成的第五权重序列和第六权重序列;
将第五权重序列和第六权重序列,采用相似度运算,得到第五权重序列和第六权重序列间的相似值;
当相似值大于预设相似阈值时,将待分组新闻确定为热点新闻。
在一个可选的示例中,第一发布权重是基于每个待检测新闻组中新闻的发布者个数、发布者中目标媒体个数和新闻的属性权重确定的;第二发布权重是基于当前时刻和新闻的平均发布时间确定的。
在一个可选的示例中,第一发布权重是采用如下表达式表示确定的:S=arctan((P*0.03+AU*2.0)*M)*(2/π);其中,S为第一发布权重,P为发布者个数,AU为目标媒体个数和M为属性权重,S、P、AU和M均大于零;
第二发布权重是采用如下表达式表示确定的:T=0.9((C-AV+10)/6000);其中,T为第二发布权重,C为当前时刻和AV为平均发布时间,T、AV和C均大于零。
在一个可选的示例中,热度值H表示为:H=T*S;其中,H大于零。
第三方面,提供了一种电子设备,该装置可以包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面中所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的热点新闻的检测方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的热点新闻的检测方法。
本发明实施例提供的一种热点新闻的检测方法、装置及电子设备。该方法中确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定每个待检测新闻组的热度值;按照热度值越大越被优先选取的规则,选取出热点新闻组,将选取的热点新闻组中的新闻确定为热点新闻。其中,第一发布权重表征待检测新闻组中新闻的发布者特征可以排除一些标题党、吸引点击的一些内容,第二发布权重表征待检测新闻组中新闻的发布时间特征,使新闻具有时效性。可见,基于第一发布权重与第二发布权重得到的热度值可以准确的检测出热点新闻,提高了热点新闻检测的准确性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种热点新闻的检测方法的流程示意图;
图2为本发明实施例提供的一种获取多个待检测新闻组的方法的流程示意图;
图3为本发明实施例提供的一种检测装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明实施例提供的热点新闻的检测方法可以应用在服务器或终端上。该终端可以是各种形式的用户设备(user equipment,UE)。为了提高热点新闻检测的准确性与时效性,本发明实施例利用统计学中的聚类算法、预设的媒体评级体系以及媒体发布相似事件的新闻的发布情况来自动检测热点新闻,其中,预设的媒体评级体系可以是由中国媒体评估委员会(China Media Rating Council,CMRC)通过对待评级媒体的可信任程度进行调查、审核、比较、测定和综合评价而建立的体系。下面将详细进行介绍热点新闻的检测方法。
下面以该方法的执行主体为服务器为例进行介绍。
图1为本发明实施例提供的一种热点新闻的检测方法的流程示意图。如图1所示,该方法可以包括:
步骤101、确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征。
服务器将当前要检测时刻记录为当前时刻,如9:00,若要检测在当前时刻之前的一段时间内的热点新闻,如检测7:00-9:00内的热点新闻,则服务器需要在执行该步骤之前,基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组。
可选地,如图2所示,服务器可以通过如下步骤,得到多个待检测新闻组。
步骤A、获取多条待分组新闻;
服务器可以采用网络爬虫等收集新闻的方式,获取多条待分组新闻。
步骤B、提取多条待分组新闻中第一待分组新闻的多个关键词和多条待分组新闻中第二待分组新闻的多个关键词。
从多条待分组新闻中,选取第一待分组新闻和第二待分组新闻。其中,第一待分组新闻和第二待分组新闻是多条待分组新闻中任意的两条待分组新闻。
从第一待分组新闻中提取多个关键词,以及从第二待分组新闻中提取多个关键词。第一待分组新闻的多个关键词和第二待分组新闻的多个关键词中可以有相同的关键词,也可以有不同的关键词。例如,提取的第一待分组新闻的多个关键词为W1,W2,W3,W4,提取的第二待分组新闻的多个关键词为W1,W3,W5,W7。
步骤C、获取降序排列的第一待分组新闻的多个关键词的权重序列和第二待分组新闻的多个关键词的权重序列。
在执行该步骤之前,获取第一待分组新闻的多个关键词的权重和第二待分组新闻的多个关键词的权重。以获取第一待分组新闻的多个关键词的权重为例,可以得到表1所示的内容。
表1
关键词 权重
W1 0.6
W2 0.1
W3 0.8
W4 0.2
表1中,关键词W1的权重为0.6,关键词W2的权重为0.1,关键词W3的权重为0.8,关键词W4的权重为0.2。
对第一待分组新闻的多个关键词的权重和第二待分组新闻的多个关键词的权重降序排列,分别得到排序后的第一待分组新闻的权重序列和排序后的第二待分组新闻的权重序列。例如,结合表1,排序后的第一待分组新闻的权重序列为[0.8,0.6,0.2,0.1]。
需要说明的是,服务器可以基于获取的每个关键词在相应待分组新闻中的出现频数或代表相应待分组新闻内容的程度值,获取每个关键词的权重。
步骤D、从排序后的第一待分组新闻的权重序列和排序后的第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列。
为了保证热点新闻的时效性,提高计算效率,从每个待分组新闻的权重序列中选取前预设数量个权重组成的新的权重序列,也就是说,此时第一待分组新闻的第一权重序列中包括预设数量个权重,第二待分组新闻的第二权重序列中包括预设数量个权重。例如,预设数量为3,第一待分组新闻的新的权重序列为[0.8,0.6,0.2]。
可选地,为了提高精确性,新的权重序列中的各个位置上权重可以是原关键词的实际权重,也可以是对实际权重所在位置赋予的预设权重,新的权重序列中各个位置上的预设权重线性递减。例如,预设数量为3,新的权重序列为[0.8,0.6,0.2],权重0.8的位置为第一位置,权重0.6的位置为第二位置,权重0.2的位置为第三位置,对每个位置赋予相应的预设权重为:对第一位置赋予的预设权重为5,对第二位置赋予的预设权重为4,对第三位置赋予的预设权重为3,对第二位置赋予的预设权重为2,得到赋值后的权重序列为[5,4,3,2]。其中,预设权重可以根据新闻的属性类别设定,或者
步骤E、将第一权重序列和第二权重序列,采用相似度运算,得到第一权重序列和第二权重序列的相似值。
该相似度运算可以是余弦相似度运算。
设第一权重序列记为序列A,第二权重序列记为序列B,则相似值的公式可以表示为:
步骤F、当相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,第一待检测新闻组包括第一待分组新闻,第二待检测新闻组包括第二待分组新闻,第一待检测新闻组和第二待检测新闻组为当前待检测新闻组。其中,每个待检测新闻组是指从同一角度描述同一事件的新闻的集合。
步骤G、当相似值大于预设相似阈值时,创建第三待检测新闻组,第三待检测新闻组包括第一待分组新闻和第二待分组新闻,第三待检测新闻组为当前待检测新闻组。其中,每个待检测新闻组是指从同一角度描述同一事件的新闻的集合。
步骤H、提取多条待分组新闻中第三待分组新闻的多个关键词,第三待分组新闻为在多条待分组新闻中未被分组的新闻。
步骤I、获取降序排列的第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列。
在执行该步骤之前,服务器需要获取第三待分组新闻的多个关键词的权重和每个当前待检测新闻组的多个关键词的权重。每个当前待检测新闻组的多个关键词的权重为每个当前待检测新闻组中的所有新闻的多个关键词的权重。
对第三待分组新闻的多个关键词的权重和每个当前待检测新闻组的多个关键词的权重降序排列,得到排序后的第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列。
在一个例子中,若当前待检测新闻组为第三待检测新闻组,第三待检测新闻组包括第一待分组新闻和第二待分组新闻,则分别获取第三待检测新闻组和第二待检测新闻组的多个关键词。其中,第三待检测新闻组的多个关键词包括第一待分组新闻的多个关键词和第二待分组新闻多个关键词。例如,第一待分组新闻的多个关键词为W1,W2,W3,W4,第二待分组新闻的多个关键词为W1,W3,W5,W7,则第三待检测新闻组的多个关键词为W1,W2,W3,W4,W5,W7。第三待检测新闻组的多个关键词的权重为每个关键词的权重的平均值。
步骤J、从排序后的第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列。
步骤K、将第三权重序列和第四权重序列,采用相似度运算,得到第三权重序列和第四权重序列的相似值。
步骤L、当得到的该相似值不大于预设相似阈值时,创建第四待检测新闻组,第三待检测新闻组包括第三待分组新闻,之后返回执行步骤H,以得到多个待检测新闻组;
步骤M、当得到的该相似值大于预设相似阈值时,将第三待分组新闻加入相似值对应的当前待检测新闻组,之后返回执行步骤H,以得到多个待检测新闻组。
需要说明的是,对于获取多个待检测新闻组的方式除上述获取方式外,还可以通过其他方式获取多个待检测新闻组,本发明实施例在此不做限定。例如,按照新闻发布的先后顺序,获取待分组新闻流。
获取待分组新闻流中的第一个待分组新闻;
创建当前待检测新闻组,该当前待检测新闻组包括获取的第一个待分组新闻;
将获取的下一个待分组新闻作为新的第三待分组新闻,之后返回执行步骤H,以得到多个待检测新闻组。
回到步骤101,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征。
发布者特征可以包括发布者个数、发布者类别等特征。发布时间特征可以包括新闻的发布时间等特征。
第一发布权重是基于每个待检测新闻组中新闻的发布者个数、发布者中目标媒体个数和新闻的属性权重确定的。
其中,目标媒体是预设的媒体评级中级数大于预设级数阈值的媒体,以指示发布的新闻的可信性和权威性,可以避免一些标题党、吸引点击的一些内容被认定为热点新闻,提高了检测的准确性。
新闻的属性权重是该待检测新闻组中所有新闻的属性权重的平均值。新闻的属性权重可以是指新闻的本身属性,如新闻类别、新闻长度或新闻的图片质量等设置的值,新闻类别可以包括政治类、娱乐类等。
第一发布权重的表达方式可以表示为:S=arctan((P*0.03+AU*2.0)*M)*(2/π),其中,S为第一发布权重,P为发布者个数,AU为目标媒体个数和M为属性权重,S、P、A和M均大于零;
第二发布权重是基于当前时刻和每个待检测新闻组中的所有新闻的平均发布时间确定的。例如,当前时刻为9:00,一个待检测新闻组包括三个新闻,三个新闻的发布时间分别为7:00、8:00和9:00,那么三个新闻的平均发布时间为8:00,之后将8:00的时刻转换为计算机可识别的相应整数,并记录。
第二发布权重的表达方式可以表示为:T=0.9((C-AV+10)/6000)
其中,T为第二发布权重,C为当前时刻和AV为平均发布时间,T、AV和C均大于零。
步骤102、针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值。
针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重相乘,确定该待检测新闻组的热度值。也就是说,对于多个待检测新闻组服务器可以得到多个热度值。
热度值H的表达方式可以表示为:H=T*S,其中,H大于零。
步骤103、基于多个待检测新闻组的热度值,从多个待检测新闻组中,选取出热点新闻组,热度值越大越被优先选取。
具体的,选取热点新闻组可以通过以下三种方式:
方式一,按照多个待检测新闻组的热度值,对多个待检测新闻文本组进行降序排列,选取排列后靠前的待检测新闻文本组作为热点新闻组。其中,选取的待检测新闻文本组的数量可以根据实际需要进行确定,本发明实施例在此不做限定。
方式二,预设热度阈值,选取热度值大于热度阈值的待检测新闻组,将选取的待检测新闻组作为热点新闻组,或者在选取热度值大于热度阈值的待检测新闻组后,再次选取目标数量的待检测新闻组作为热点新闻组,其中,热度值大的被优先选取。例如,目标数量为3,预设的热度阈值为0.9。多个待检测新闻组的热度值分别为0.1,3,0.7,2.1,0.5,1和1.5,其中,大于0.9的热度值分别为3,2.1,1和1.5,由于目标数量为3,按照热度值大的被优先选取原则,选取的热度值分别为3,2.1和1.5,此时将热度值分别为3,2.1和1.5对应的待检测新闻组作为热点新闻组。
方式三,基于多个待检测新闻组的热度值,先选取目标数量的待检测新闻组,再将未被选取的待检测新闻组的热度值依次与选取的目标数量的待检测新闻组的热度值比较,保留热度值大的目标数量个待检测新闻组。
步骤104、将选取的热点新闻组中的新闻确定为热点新闻。
在一个例子中,获取到10条待分组新闻(A1,B1,A2,B2,C1,A3,C2,C3,C4,A4),其中A1,C1,C2为权威媒体发布,A1发布时间为2017/10/24 00:00:00(时间戳:1508774400),后面每条待分组新闻延后10分钟,A4发布时间为2017/10/24 01:30:00(时间戳:1508779800),即当前时间,每条待分组新闻的属性权重均为1.0。
结合图2所示的方法,基于三组中关键词的权重序列,通过余弦相似度计算,得到3个待检测新闻组,每两个待检测新闻组间描述了不同的新闻事件,每个待检测新闻组是指从同一角度描述同一事件。3个待检测新闻组为第一组:A1,A2,A3,A4;第二组:B1,B2;第三组:C1,C2,C3,C4;
第一组P的值为4,AU的值为1;第一组P为2,AU的值为0;第一组P为4,AU的值为2;
针对每个待检测新闻组,并根据S=arctan((P*0.03+AU*2.0)*M)*(2/π),分别计算第一发布权重,得到第一组的第一发布权重为0.7194;第一组的第一发布权重为0.0381;第一组的第一发布权重为0.8484。
针对每个待检测新闻组,并根据T=0.9((C-AV+10)/6000),分别计算第二发布权重,得到第一组的第二发布权重为0.9485;第一组的第二发布权重为0.8951;第一组的第二发布权重为0.9689。
针对每个待检测新闻组,并根据H=T*S,得到分别计算热度值,得到第一组的热度值为0.6823;第一组的热度值为0.0341;第一组的热度值为0.8220。
基于三个热度值,可知,第三组是最热,其包含的新闻也是最热的,A次之。
可选地,在步骤104之后设置预设时间段。服务器在每预设时间段后更新一次全部待检测新闻组,即获取预设时间段内的新闻进行热点新闻的检测,预设时间段可以为10分钟,此时获取当前待分组新闻;
提取多个待检测新闻组中每个待检测新闻组的多个关键词和当前待分组新闻的多个关键词;
获取降序排列的每个待检测新闻组的权重序列和当前待分组新闻的权重序列;
从排序后的每个待检测新闻组的权重序列和排序后的当前待分组新闻的权重序列中,分别选取前预设数量个权重组成的第五权重序列和第六权重序列;
将第五权重序列和第六权重序列,采用相似度运算,得到第五权重序列和第六权重序列间的相似值;
当相似值大于预设相似阈值时,将待分组新闻确定为热点新闻。
可选地,在步骤104之后设置预设接收数量。服务器每次获取到预设接收数量的新闻后更新一次全部待检测新闻组,即将获取的预设接收数量的新闻进行热点新闻的检测,预设接收数量可以为50条新闻作为当前待分组新闻;
提取多个待检测新闻组中每个待检测新闻组的多个关键词和当前待分组新闻的多个关键词;
获取降序排列的每个待检测新闻组的权重序列和当前待分组新闻的权重序列;
从排序后的每个待检测新闻组的权重序列和排序后的当前待分组新闻的权重序列中,分别选取前预设数量个权重组成的第五权重序列和第六权重序列;
将第五权重序列和第六权重序列,采用相似度运算,得到第五权重序列和第六权重序列间的相似值;
当相似值大于预设相似阈值时,将待分组新闻确定为热点新闻。
可见,该方法中确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重后,针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定每个待检测新闻组的热度值;按照热度值越大越被优先选取的规则,选取出热点新闻组,将选取的热点新闻组中的新闻确定为热点新闻。其中,第一发布权重表征待检测新闻组中新闻的发布者特征可以排除一些标题党、吸引点击的一些内容,第二发布权重表征待检测新闻组中新闻的发布时间特征,使新闻具有时效性。可见,基于第一发布权重与第二发布权重得到的热度值可以准确的检测出热点新闻,提高了热点新闻检测的准确性。
与上述方法对应的本发明实施例还提供了一种检测装置,如图3所示,该装置可以包括:第一确定模块310、第二确定模块320、选取模块330和第三确定模块340;
第一确定模块310,用于确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;
第二确定模块320,用于针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;
选取模块330,用于基于多个待检测新闻组的热度值,从多个待检测新闻组中,选取出热点新闻组,热度值越大越被优先选取;
第三确定模块340,用于将选取的热点新闻组中的新闻确定为热点新闻。
可选地,该装置还包括分组模块350;
分组模块350,用于基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组。
可选地,分组模块350,具体用于在第一确定模块确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重之前,执行以下步骤:
步骤A:获取多条待分组新闻;
步骤B:提取多条待分组新闻中第一待分组新闻的多个关键词和多条待分组新闻中第二待分组新闻的多个关键词;
步骤C:获取降序排列的第一待分组新闻的多个关键词的权重序列和第二待分组新闻的多个关键词的权重序列;
步D:从排序后的第一待分组新闻的权重序列和排序后的第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;
步骤E:将第一权重序列和第二权重序列,采用相似度运算,得到第一权重序列和第二权重序列的相似值;
步骤F:当相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,第一待检测新闻组包括第一待分组新闻,第二待检测新闻组包括第二待分组新闻,第一待检测新闻组和第二待检测新闻组为当前待检测新闻组;
步骤G:当相似值大于预设相似阈值时,创建第三待检测新闻组,第三待检测新闻组包括第一待分组新闻和第二待分组新闻,第三待检测新闻组为当前待检测新闻组;
步骤H:提取多条待分组新闻中第三待分组新闻的多个关键词,第三待分组新闻为在多条待分组新闻中未被分组的新闻;
步骤I:获取降序排列的第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;
步骤J:从排序后的第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;
步骤K:将第三权重序列和第四权重序列,采用相似度运算,得到第三权重序列和第四权重序列的相似值;
步骤L:当相似值不大于预设相似阈值时,创建第四待检测新闻组,第四待检测新闻组包括第三待分组新闻,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组;
步骤M:当相似值大于预设相似阈值时,将第三待分组新闻加入相似值对应的当前待检测新闻组,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组。
可选地,该装置还可以包括获取模块360;
获取模块360,用于在第三确定模块340将选取的热点新闻组中的新闻确定为热点新闻之后,获取当前待分组新闻;
提取多个待检测新闻组中每个待检测新闻组的多个关键词和当前待分组新闻的多个关键词,每个待检测新闻组的多个关键词为每个待检测新闻组中的新闻的多个关键词;
获取降序排列的每个待检测新闻组的权重序列和当前待分组新闻的权重序列;
从排序后的每个待检测新闻组的权重序列和排序后的当前待分组新闻的权重序列中,分别选取前预设数量个权重组成的第五权重序列和第六权重序列;
将第五权重序列和第六权重序列,采用相似度运算,得到第五权重序列和第六权重序列间的相似值;
当相似值大于预设相似阈值时,将待分组新闻确定为热点新闻。
可选地,第一发布权重是基于每个待检测新闻组中新闻的发布者个数、发布者中目标媒体个数和新闻的属性权重确定的;
第二发布权重是基于当前时刻和新闻的平均发布时间确定的。
可选地,第一发布权重是采用如下表达式表示确定的:S=arctan((P*0.03+AU*2.0)*M)*(2/π);
其中,S为第一发布权重,P为发布者个数,AU为目标媒体个数和M为属性权重,S、P、AU和M均大于零;
第二发布权重是采用如下表达式表示确定的:T=0.9((C-AV+10)/6000)
其中,T为第二发布权重,C为当前时刻和AV为平均发布时间,T、AV和C均大于零。
可选地,热度值H表示为:H=T*S,其中,H大于零。
可见,该检测装置确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重后,针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定每个待检测新闻组的热度值;按照热度值越大越被优先选取的规则,选取出热点新闻组,将选取的热点新闻组中的新闻确定为热点新闻。其中,第一发布权重表征待检测新闻组中新闻的发布者特征可以排除一些标题党、吸引点击的一些内容,第二发布权重表征待检测新闻组中新闻的发布时间特征,使新闻具有时效性。可见,基于第一发布权重与第二发布权重得到的热度值可以准确的检测出热点新闻,提高了热点新闻检测的准确性。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器410、通信接口420、存储器430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信,
存储器430,用于存放计算机程序;
处理器410,用于执行存储器430上所存放的程序时,实现如下步骤:
确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;
针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;
基于多个待检测新闻组的热度值,从多个待检测新闻组中,选取出热点新闻组,热度值越大越被优先选取;
将选取的热点新闻组中的新闻确定为热点新闻。
可选地,确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重之前,还包括:
基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组。
可选地,基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组,包括:
步骤A:获取多条待分组新闻;
步骤B:提取多条待分组新闻中第一待分组新闻的多个关键词和多条待分组新闻中第二待分组新闻的多个关键词;
步骤C:获取降序排列的第一待分组新闻的多个关键词的权重序列和第二待分组新闻的多个关键词的权重序列;
步骤D:从排序后的第一待分组新闻的权重序列和排序后的第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;
步骤E:将第一权重序列和第二权重序列,采用相似度运算,得到第一权重序列和第二权重序列的相似值;
步骤F:当相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,第一待检测新闻组包括第一待分组新闻,第二待检测新闻组包括第二待分组新闻,第一待检测新闻组和第二待检测新闻组为当前待检测新闻组;
步骤G:当相似值大于预设相似阈值时,创建第三待检测新闻组,第三待检测新闻组包括第一待分组新闻和第二待分组新闻,第三待检测新闻组为当前待检测新闻组;
步骤H:提取多条待分组新闻中第三待分组新闻的多个关键词,第三待分组新闻为在多条待分组新闻中未被分组的新闻;
步骤I:获取降序排列的第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;
步骤J:从排序后的第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;
步骤K:将第三权重序列和第四权重序列,采用相似度运算,得到第三权重序列和第四权重序列的相似值;
步骤L:当相似值不大于预设相似阈值时,创建第四待检测新闻组,第四待检测新闻组包括第三待分组新闻,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组;
步骤M:当相似值大于预设相似阈值时,将第三待分组新闻加入相似值对应的当前待检测新闻组,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组。
可选地,将选取的热点新闻组中的新闻确定为热点新闻之后,该方法还可以包括:
获取当前待分组新闻;
提取多个待检测新闻组中每个待检测新闻组的多个关键词和当前待分组新闻的多个关键词,每个待检测新闻组的多个关键词为每个待检测新闻组中的新闻的多个关键词;
获取降序排列的每个待检测新闻组的权重序列和当前待分组新闻的权重序列;
从排序后的每个待检测新闻组的权重序列和排序后的当前待分组新闻的权重序列中,分别选取前预设数量个权重组成的第五权重序列和第六权重序列;
将第五权重序列和第六权重序列,采用相似度运算,得到第五权重序列和第六权重序列间的相似值;
当相似值大于预设相似阈值时,将待分组新闻确定为热点新闻。
可选地,第一发布权重是基于每个待检测新闻组中新闻的发布者个数、发布者中目标媒体个数和新闻的属性权重确定的;
第二发布权重是基于当前时刻和新闻的平均发布时间确定的。
可选地,第一发布权重是采用如下表达式表示确定的:S=arctan((P*0.03+AU*2.0)*M)*(2/π);其中,S为第一发布权重,P为发布者个数,AU为目标媒体个数和M为属性权重,S、P、AU和M均大于零;
第二发布权重是采用如下表达式表示确定的:T=0.9((C-AV+10)/6000);其中,T为第二发布权重,C为当前时刻和AV为平均发布时间,T、AV和C均大于零。
可选地,热度值H表示为:H=T*S;其中,H大于零。
可见,处理器需要先确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重后,针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定每个待检测新闻组的热度值;按照热度值越大越被优先选取的规则,选取出热点新闻组,将选取的热点新闻组中的新闻确定为热点新闻。其中,第一发布权重表征待检测新闻组中新闻的发布者特征可以排除一些标题党、吸引点击的一些内容,第二发布权重表征待检测新闻组中新闻的发布时间特征,使新闻具有时效性。可见,基于第一发布权重与第二发布权重得到的热度值可以准确的检测出热点新闻,提高了热点新闻检测的准确性
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的热点新闻的检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的热点新闻的检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种热点新闻的检测方法,其特征在于,所述方法包括:
确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,所述每个待检测新闻组包括记载同一事件的新闻,所述第一发布权重表征待检测新闻组中新闻的发布者特征,所述第二发布权重表征待检测新闻组中新闻的发布时间特征;
针对每个待检测新闻组,基于该待检测新闻组的所述第一发布权重与所述第二发布权重,确定所述该待检测新闻组的热度值;
基于所述多个待检测新闻组的所述热度值,从所述多个待检测新闻组中,选取出热点新闻组,所述热度值越大越被优先选取;
将选取的热点新闻组中的新闻确定为热点新闻。
2.根据权利要求1所述的方法,其特征在于,所述确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重之前,还包括:
基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对所述多条待分组新闻进行分组,得到多个待检测新闻组。
3.根据权利要求2所述的方法,其特征在于,所述基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对所述多条待分组新闻进行分组,得到多个待检测新闻组,包括:
步骤A:获取多条待分组新闻;
步骤B:提取所述多条待分组新闻中第一待分组新闻的多个关键词和所述多条待分组新闻中第二待分组新闻的多个关键词;
步骤C:获取降序排列的所述第一待分组新闻的多个关键词的权重序列和所述第二待分组新闻的多个关键词的权重序列;
步骤D:从排序后的所述第一待分组新闻的权重序列和排序后的所述第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;
步骤E:将所述第一权重序列和所述第二权重序列,采用相似度运算,得到所述第一权重序列和所述第二权重序列的相似值;
步骤F:当所述相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,所述第一待检测新闻组包括所述第一待分组新闻,所述第二待检测新闻组包括所述第二待分组新闻,所述第一待检测新闻组和所述第二待检测新闻组为当前待检测新闻组;
步骤G:当所述相似值大于预设相似阈值时,创建第三待检测新闻组,所述第三待检测新闻组包括所述第一待分组新闻和所述第二待分组新闻,所述第三待检测新闻组为当前待检测新闻组;
步骤H:提取所述多条待分组新闻中第三待分组新闻的多个关键词,所述第三待分组新闻为在所述多条待分组新闻中未被分组的新闻;
步骤I:获取降序排列的所述第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;
步骤J:从排序后的所述第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;
步骤K:将所述第三权重序列和所述第四权重序列,采用相似度运算,得到所述第三权重序列和所述第四权重序列的相似值;
步骤L:当所述相似值不大于预设相似阈值时,创建第四待检测新闻组,所述第四待检测新闻组包括所述第三待分组新闻,之后从所述多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组;
步骤M:当所述相似值大于预设相似阈值时,将所述第三待分组新闻加入所述相似值对应的当前待检测新闻组,之后从所述多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组。
4.根据权利要求1所述的方法,其特征在于,所述将选取的热点新闻组中的新闻确定为热点新闻之后,所述方法还包括:
获取当前待分组新闻;
提取所述多个待检测新闻组中每个待检测新闻组的多个关键词和所述当前待分组新闻的多个关键词,所述每个待检测新闻组的多个关键词为所述每个待检测新闻组中的新闻的多个关键词;
获取降序排列的所述每个待检测新闻组的权重序列和所述当前待分组新闻的权重序列;
从排序后的所述每个待检测新闻组的权重序列和排序后的所述当前待分组新闻的权重序列中,分别选取前预设数量个权重组成的第五权重序列和第六权重序列;
将所述第五权重序列和所述第六权重序列,采用相似度运算,得到所述第五权重序列和所述第六权重序列间的相似值;
当所述相似值大于预设相似阈值时,将所述待分组新闻确定为热点新闻。
5.根据权利要求1所述的方法,其特征在于,所述第一发布权重是基于所述每个待检测新闻组中所述新闻的发布者个数、所述发布者中目标媒体个数和所述新闻的属性权重确定的;
所述第二发布权重是基于当前时刻和所述新闻的平均发布时间确定的。
6.根据权利要求5所述的方法,其特征在于,所述第一发布权重是采用如下表达式表示确定的:S=arctan((P*0.03+AU*2.0)*M)*(2/π);
其中,S为所述第一发布权重,P为所述发布者个数,AU为所述目标媒体个数和M为所述属性权重,S、P、AU和M均大于零;
所述第二发布权重是采用如下表达式表示确定的:T=0.9((C-AV+10)/6000)
其中,T为所述第二发布权重,C为当前时刻和AV为所述平均发布时间,T、AV和C均大于零。
7.根据权利要求6所述的方法,其特征在于,所述热度值H表示为:H=T*S;
其中,H大于零。
8.一种检测装置,其特征在于,所述装置包括:第一确定模块、第二确定模块、选取模块和第三确定模块;
所述第一确定模块,用于确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,所述每个待检测新闻组包括记载同一事件的新闻,所述第一发布权重表征待检测新闻组中新闻的发布者特征,所述第二发布权重表征待检测新闻组中新闻的发布时间特征;
所述第二确定模块,用于针对每个待检测新闻组,基于该待检测新闻组的所述第一发布权重与所述第二发布权重,确定所述该待检测新闻组的热度值;
所述选取模块,用于基于所述多个待检测新闻组的所述热度值,从所述多个待检测新闻组中,选取出热点新闻组,所述热度值越大越被优先选取;
所述第三确定模块,用于将选取的热点新闻组中的新闻确定为热点新闻。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括分组模块;
所述分组模块,用于基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对所述多条待分组新闻进行分组,得到多个待检测新闻组。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
CN201711271015.1A 2017-12-05 2017-12-05 热点新闻的检测方法、装置及电子设备 Pending CN107944001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711271015.1A CN107944001A (zh) 2017-12-05 2017-12-05 热点新闻的检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711271015.1A CN107944001A (zh) 2017-12-05 2017-12-05 热点新闻的检测方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN107944001A true CN107944001A (zh) 2018-04-20

Family

ID=61944841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711271015.1A Pending CN107944001A (zh) 2017-12-05 2017-12-05 热点新闻的检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107944001A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及系统
CN113688225A (zh) * 2021-08-23 2021-11-23 平安国际智慧城市科技股份有限公司 基于大数据的新闻推荐方法、装置、终端设备及存储介质
US11308164B2 (en) 2018-09-17 2022-04-19 Yandex Europe Ag Method and system for generating push notifications related to digital news

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020015198A (ko) * 2000-08-21 2002-02-27 정회선 인터넷을 이용한 증권 정보 및/또는 뉴스의 실시간 문자및/또는 음성 서비스 방법 및 시스템
CN1710563A (zh) * 2005-07-18 2005-12-21 北大方正集团有限公司 一种重要新闻事件检测和摘要的方法
CN103559206A (zh) * 2013-10-10 2014-02-05 Tcl集团股份有限公司 一种信息推荐方法及系统
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN106021351A (zh) * 2016-05-10 2016-10-12 深圳职业技术学院 针对新闻事件的聚合提取方法及装置
CN106776640A (zh) * 2015-11-24 2017-05-31 北京奇虎科技有限公司 一种股票资讯信息展示方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020015198A (ko) * 2000-08-21 2002-02-27 정회선 인터넷을 이용한 증권 정보 및/또는 뉴스의 실시간 문자및/또는 음성 서비스 방법 및 시스템
CN1710563A (zh) * 2005-07-18 2005-12-21 北大方正集团有限公司 一种重要新闻事件检测和摘要的方法
CN103559206A (zh) * 2013-10-10 2014-02-05 Tcl集团股份有限公司 一种信息推荐方法及系统
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN106776640A (zh) * 2015-11-24 2017-05-31 北京奇虎科技有限公司 一种股票资讯信息展示方法和装置
CN106021351A (zh) * 2016-05-10 2016-10-12 深圳职业技术学院 针对新闻事件的聚合提取方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308164B2 (en) 2018-09-17 2022-04-19 Yandex Europe Ag Method and system for generating push notifications related to digital news
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及系统
CN113688225A (zh) * 2021-08-23 2021-11-23 平安国际智慧城市科技股份有限公司 基于大数据的新闻推荐方法、装置、终端设备及存储介质
CN113688225B (zh) * 2021-08-23 2024-03-15 平安国际智慧城市科技股份有限公司 基于大数据的新闻推荐方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
Gleich et al. Tracking the random surfer: empirically measured teleportation parameters in PageRank
TW201737072A (zh) 一種對應用程序進行項目評估的方法及系統
CN106021418B (zh) 新闻事件的聚类方法及装置
CN103544313B (zh) 用于网页推荐的数据处理方法和装置
CN104252348B (zh) 一种基于浏览器的网页访问统计方法及装置
CN107992738A (zh) 一种账号登录异常检测方法、装置及电子设备
US8639560B2 (en) Brand analysis using interactions with search result items
CN107944001A (zh) 热点新闻的检测方法、装置及电子设备
CN106411965A (zh) 确定提供仿冒服务的网络服务器的方法、设备及计算设备
GB2498762A (en) Computing user traffic at the website based on user actions
CN109726280A (zh) 一种针对同名学者的排歧方法及装置
CN109190014A (zh) 一种正则表达式生成方法、装置及电子设备
JP2018525717A (ja) 探索処理方法およびデバイス
CN105302807A (zh) 一种获取信息类别的方法和装置
US8977622B1 (en) Evaluation of nodes
CN103745383A (zh) 基于运营商数据实现重定向服务的方法和系统
CN107481039A (zh) 一种事件处理方法及终端设备
CN108154024A (zh) 一种数据检索方法、装置及电子设备
CN107239542A (zh) 一种数据统计方法、装置、服务器及存储介质
CN103605744A (zh) 网站搜索引擎流量数据的分析方法及装置
CN107944982A (zh) 一种用户行为信息处理方法、装置、电子设备及存储介质
CN108021713A (zh) 一种文档聚类的方法和装置
CN108090157A (zh) 一种热点新闻挖掘方法、装置及服务器
CN109376287B (zh) 房产图谱构建方法、装置、计算机设备及存储介质
CN107092650A (zh) 一种网络日志分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420

RJ01 Rejection of invention patent application after publication