CN105468668B - 一种官方媒体新闻中话题的推送方法及装置 - Google Patents

一种官方媒体新闻中话题的推送方法及装置 Download PDF

Info

Publication number
CN105468668B
CN105468668B CN201510657607.1A CN201510657607A CN105468668B CN 105468668 B CN105468668 B CN 105468668B CN 201510657607 A CN201510657607 A CN 201510657607A CN 105468668 B CN105468668 B CN 105468668B
Authority
CN
China
Prior art keywords
topic
news
keyword
weight
belonging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510657607.1A
Other languages
English (en)
Other versions
CN105468668A (zh
Inventor
赵建辉
张新钰
张鹏
刘玉超
吴新刚
刘聪
张祖峰
韩威
殷嘉伦
安利锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510657607.1A priority Critical patent/CN105468668B/zh
Publication of CN105468668A publication Critical patent/CN105468668A/zh
Application granted granted Critical
Publication of CN105468668B publication Critical patent/CN105468668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种官方媒体新闻中话题的推送方法及装置,涉及通信领域,通过获取官方媒体提供的新闻的关键词信息和关键词对应的权重信息,与预先构建好的话题库中话题对应的关键词信息和关键词对应的权重信息,一一进行匹配比对,确定官方媒体提供的新闻所属的话题,将官方媒体提供的新闻中属于该话题的新闻信息推送给官方媒体用户,使得官方媒体能够基于互联网上话题对新闻进行有效推送,及时得到用户的关注,向用户展示优质新闻。

Description

一种官方媒体新闻中话题的推送方法及装置
技术领域
本发明涉及通信领域,尤其涉及一种官方媒体新闻中话题的推送方法及装置。
背景技术
话题是指谈话的题目,谈论的主题。新闻话题一般是在一段时间内,众多新闻媒体及个人所关注的比较的主题。在互联网,电视,报纸中,每天都会报道许多各种形式的新闻,当某一类新闻的报道越来越多时,就形成了话题,并且会受到更多用户的关注。在互联网上,有许多网站能够实时提供新闻话题关键词排行,用户可以通过互联网搜索引擎搜索到大量跟该话题有关的新闻,但是由于提供新闻的互联网媒体参差不齐,有很多新闻不够全面,真实性并不可靠,并且互联网新闻也很难进行有效的管控。
相比互联网,官方媒体能够提供更真实有效的优质新闻,但是由于这些官方媒体数量并不多,对于一个话题,他们往往只能够提供一条或者几条相关新闻,读者点击量少,因此并不能形成话题,从而无法及时有效的得到用户的关注。因此目前许多用户迫切需要这些官方媒体能够提供基于话题的推送,及时的展示优质新闻。
发明内容
针对现有技术的缺陷,本发明提出了解决上述技术问题的一种官方媒体新闻中话题的推送方法及装置,使官方媒体中属于话题的优质新闻能够及时推送给用户。
第一方面,本发明提供一种官方媒体新闻中话题的推送方法,包括:
S1、话题推送中心获取官方媒体提供的第一新闻的多个第一关键词及每个第一关键词的第一权重;
S2、所述话题推送中心根据所述第一新闻的多个第一关键词及每个第一关键词的第一权重,和存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,根据所述匹配值确定所述第一新闻所属的话题;
S3、所述话题推送中心将属于该话题的第一新闻通过客户端推送给官方媒体用户。
优选的,在步骤S1之前,所述方法还包括:
S01、话题推送中心每隔预设时间抓取搜索引擎网站上的用户搜索次数大于预设值的搜索热词;
S02、所述话题推送中心根据搜索词获取互联网提供的与搜索热词相关的新闻,获取新闻所属的话题,剔除不属于所述话题的新闻;
S03、所述话题推送中心获取属于该话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重;
S04、所述话题推送中心将所述话题、所述第二关键词及所述第二权重存储在预设话题库中。
优选的,所述步骤S1包括:
将所述第一新闻通过LDA模型获取所述第一新闻的多个第一关键词及每个第一关键词的第一权重。
优选的,所述步骤S03包括:
将所述预设条数的第二新闻通过LDA模型获取所述预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重;
优选的,所述步骤S2包括:
S21、所述话题推送中心对所述多个第一关键词及每个第一关键词的第一权重与所述存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重按预设匹配算法进行匹配,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,确定所述匹配值中的最大值;
S22、若所述最大值大于等于预设阈值,则所述第一新闻属于所述最大值对应的存储在预设话题库中的多个第二关键词及每个第二关键词的第二权重属于的话题;
若所述最大值小于预设阈值,则所述第一新闻不属于所述预设话题库中的话题。
优选的,所述步骤S3包括:
S31、所述话题推送中心将所述话题以及属于所述话题的第一新闻发送至话题推送分中心;
S32、所述话题推送分中心根据所述官方媒体用户历史关注的新闻类型,获取与所述新闻类型对应的话题,通过客户端推送给官方媒体用户;
S33、所述话题推送分中心在接收到官方媒体用户发送的所述话题点击指令时,通过客户端向所述官方媒体用户展示属于所述话题的第一新闻。
第二方面,本发明提供一种官方媒体新闻中话题的推送装置,包括:
第一关键词获取模块,用于获取官方媒体提供的第一新闻的多个第一关键词及每个第一关键词的第一权重;
匹配度获取模块,用于根据所述第一新闻的多个第一关键词及每个第一关键词的第一权重,和存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值;
确定模块,用于根据所述匹配值确定所述第一新闻所属的话题;
推送模块,用于将属于该话题的所述第一新闻通过客户端推送给官方媒体用户。
优选的,所述装置还包括:
搜索热词获取模块,用于每隔预设时间抓取搜索引擎网站上的用户搜索次数大于预设值的搜索热词;
话题获取模块,根据搜索词获取互联网提供的与搜索热词相关的新闻,获取新闻所属的话题,剔除不属于所述话题的新闻;
第二关键词获取模块,用于获取属于该话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重;
存储模块,用于将所有的话题及话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重存储在预设话题库中。
优选的,所述匹配度获取模块用于对所述多个第一关键词及每个第一关键词的第一权重与所述存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重按预设匹配算法进行匹配,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,确定所述匹配值中的最大值;
所述确定模块用于判断若所述最大值大于等于预设阈值,则所述第一新闻属于所述最大值对应的存储在预设话题库中的多个第二关键词及每个第二关键词的第二权重属于的话题;
若所述最大值小于预设阈值,则所述第一新闻不属于所述预设话题库中的话题。
优选的,所述推送模块包括:
发送模块,用于将所述话题以及属于所述话题的第一新闻发送至话题推送分中心;
话题推送模块,用于根据所述官方媒体用户历史关注的新闻类型,获取与所述新闻类型对应的话题,通过客户端推送给官方媒体用户;
新闻展示模块,用于在接收到官方媒体用户发送的所述话题点击指令时,通过客户端向所述官方媒体用户展示属于所述话题的第一新闻。
由上述技术方案可知,本发明提供的官方媒体新闻中话题的推送方法及装置,通过获取官方媒体提供的新闻的关键词信息和关键词对应的权重信息,与预先构建好的话题库中话题对应的关键词信息和关键词对应的权重信息,一一进行匹配比对,确定官方媒体提供的新闻所属的话题,将官方媒体提供的新闻中属于该话题的新闻信息推送给官方媒体用户,使得官方媒体能够基于互联网上话题对新闻进行有效推送,及时得到用户的关注,向用户展示优质新闻。
附图说明
图1为本发明一实施例的官方媒体新闻中话题的推送方法的流程示意图;
图2为本发明另一实施例的官方媒体新闻中话题的推送方法的示意图;
图3为本发明一实施例提供的官方媒体新闻中话题的推送装置结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了本发明一实施例的官方媒体新闻中话题的推送方法的流程示意图,如图1所述,本实施例中的官方媒体新闻中话题的推送方法包括:
S1、话题推送中心获取官方媒体提供的第一新闻的多个第一关键词及每个第一关键词的第一权重;
S2、所述话题推送中心根据所述第一新闻的多个第一关键词及每个第一关键词的第一权重,和存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,根据所述匹配值确定所述第一新闻所属的话题;
S3、所述话题推送中心将属于该话题的第一新闻通过客户端推送给官方媒体用户。
值得说明的是,这里的客户端为用户终端上的客户端,可以理解为APP。
本实施例的官方媒体新闻中话题的推送方法,通过获取官方媒体提供的新闻的关键词信息和关键词对应的权重信息,与预先构建好的话题库中话题对应的关键词信息和关键词对应的权重信息,一一进行匹配比对,确定官方媒体提供的新闻所属的话题,将官方媒体提供的新闻中属于该话题的新闻信息推送给官方媒体用户,使得官方媒体能够基于互联网上话题对新闻进行有效推送,及时得到用户的关注,向用户展示优质新闻。
下面通过一个具体的实施例对上述方法进行详细说明。
本实施例中的官方媒体新闻中话题的推送方法包括以下步骤。
S01、话题推送中心每隔预设时间抓取搜索引擎网站上的用户搜索次数大于预设值的搜索热词;
话题推送中心每隔预设时间就从各大搜索引擎抓取用户搜索词,在获取的搜索词中,若一个搜索词被搜索的次数大于预设的次数,则将这个搜索词确定为搜索热词。这里的预设时间可以设定为每两小时抓取一次,但本发明并不限定于这个时间段。
S02、所述话题推送中心根据搜索词获取互联网提供的与搜索热词相关的新闻,获取新闻所属的话题,剔除不属于所述话题的新闻。
在确定搜索热词以后,在互联网上搜索与搜索热词相关的所有新闻,从而获取大量互联网新闻,对这些新闻整体进行LDA模型训练,得到这些新闻所属的话题,值得说明的是,根据话题在互联网上搜索的大量新闻绝大多数属于通过LDA模型训练出来的话题,但也有少数会由于各种原因不属于该话题,因此在本方法中还包括剔除不属于所述话题的新闻,在剔除的过程中,将每一条新闻用LDA模型训练出每一条新闻所属的话题,将每一条新闻所属的话题与新闻整体所属的话题进行比较,将结果不一致的新闻剔除,结果一致的新闻就是属于该话题的新闻。
LDA模型是一种对文本数据的潜在话题进行建模的方法,从概率分布的角度来描述“文档-潜在话题-词”三者之间的关系,从而将文档和词共同投射到同一个语义空间上,这样文档和词两两之间的相似度都可以通过计算语义空间上的距离而得以量化。文档划分的具体步骤如表1所示。
表1
S03、所述话题推送中心获取属于该话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重。
在步骤S03中,是通过将所述预设条数的第二新闻通过LDA模型获取所述预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重;
S04、所述话题推送中心将所述话题、所述第二关键词及所述第二权重存储在预设话题库中。
可以理解的是,预设话题库中一一对应的存储了互联网新闻的话题和该对应的关键词及关键词的权重信息,由于每隔预设时间段就会抓取一次话题,进行相应的处理以后存储到预设话题库中,因此预设话题库中的数据量巨大。
S1、话题推送中心获取官方媒体提供的第一新闻的多个第一关键词及每个第一关键词的第一权重;
在步骤S1中,同样是通过将所述第一新闻通过LDA模型获取所述第一新闻的多个第一关键词及每个第一关键词的第一权重。
值得说明的是,提取官方媒体提供的新闻的关键词和关键词权重是,是把一篇官方媒体提供的新闻的每一句话作为一个文档,从而抽取新闻相关的每一个潜在话题的关键词及权重,再按权重值从大到小排序,截取前预设个数的关键词,打标在新闻cnml标签中。
S2、所述话题推送中心根据所述第一新闻的多个第一关键词及每个第一关键词的第一权重,和存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,根据所述匹配值确定所述第一新闻所属的话题;
在上述步骤S2中,具体的包括以下的步骤:
S21、所述话题推送中心对所述多个第一关键词及每个第一关键词的第一权重与所述存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重按预设匹配算法进行匹配,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,确定所述匹配值中的最大值;
在本实施例中,预设匹配算法采用的是向量点乘匹配算法,首先,将官方媒体提供的新闻的关键词和话题对应的新闻的关键词总数作为向量长度,关键词权重作为向量对应项的值,分别形成新闻一维向量和话题一维向量;然后,将新闻一维向量与话题一维向量进行点乘,结果为两者的匹配值;最后,在所有的匹配值中找出匹配值的最大值。
S22、若所述最大值大于等于预设阈值,则所述第一新闻属于所述最大值对应的存储在预设话题库中的多个第二关键词及每个第二关键词的第二权重属于的话题;
若所述最大值小于预设阈值,则所述第一新闻不属于所述预设话题库中的话题。
值得说明的是,通过预先设定阈值,将步骤S21中确定的匹配值的最大值与预设阈值进行比较,最大值大于或者等于阈值的话,此最大值对应话题一维向量所述的话题即为该官方媒体提供的新闻所属的话题。
S3、所述话题推送中心将属于该话题的第一新闻通过客户端推送给官方媒体用户。
在上述步骤S3中,具体的包括以下的步骤:
S31、所述话题推送中心将所述话题以及属于所述话题的第一新闻发送至话题推送分中心;
值得说明的是,由于预设话题库中数据量巨大,在将数据传送到各个分站的时候,新闻总站通过将互联网海量话题库及所属的官方媒体提供的优质新闻打包,通过卫星的方式实时将大量新闻投送的各省、市、县的新闻分站,这种方式可以明显提高传送速度,实时的将数据转发传送。
S32、所述话题推送分中心根据所述官方媒体用户历史关注的新闻类型,获取与所述新闻类型对应的话题,通过客户端推送给官方媒体用户;
可以理解的是,客户端可以提供实时推送话题,并记录用户比较关注的新闻类型,话题推送中心获取用户关注的新闻类型以后,按照用户的喜好,将相关话题推送给官方媒体用户。
S33、所述话题推送分中心在接收到官方媒体用户发送的所述话题点击指令时,通过客户端向所述官方媒体用户展示属于所述话题的第一新闻。
可以理解的是,当用户点击话题时,可以查看该话题中的优质新闻及互联网其他新闻。
上述方法构建了互联网海量话题库,利用了LDA模型对新闻进行分析处理,剔除少量的干扰信息使得结果更加准确,在互联网海量话题库中寻找到官方媒体提供的新闻所属的话题,通过卫星将新闻及所属话题打包投送到各个新闻分站,速度快,实时性好,使得官方媒体能够基于互联网上话题对新闻进行有效推送,及时得到用户的关注,向用户展示优质新闻。
图2示出了本发明另一实施例的官方媒体新闻中话题的推送方法的示意图,如图2所示,官方媒体新闻中话题的推送方法包括如下内容:
从各大搜索引擎获取近期新闻搜索的搜索关键词找出话题;
根据搜索话题获取互联网的相关新闻;
根据互联网的大量新闻形成话题,并提取关键词及权重,构建互联网海量预设话题库;
在获取官方媒体提供的新闻时,提取新闻关键词,以cnml标签的形式标记在新闻文件中;
通过官方媒体提供的新闻与海量预设话题库中话题关键词的比对,确定新闻所属话题;
将话题中所属的新闻通过卫星投送到各省市分站,形成分站话题新闻存储数据库;
通过客户端推送给读者,当读者点击话题时,由所属分站推送优质媒体的新闻,并同时提供互联网其他新闻的链接。
本发明提供的方法能够使官方媒体能够基于互联网上话题对新闻进行有重点的推送,及时有效的得到用户的关注,向用户展示优质新闻。
下面通过实际操作步骤来对预设匹配算法进行进一步说明:
预设话题库中存储了海量的话题,某官方媒体提供多条新闻,通过新闻与预设话题库中关键词的向量点乘,确定新闻所属的话题。为了更好的举例,在本实施例中以官方媒体提供一条优质新闻,与存储在预设话题库中的两个话题为例进行详细的说明。
一、互联网抓取了两个话题
1.第一个话题
话题名称:女土豪金店发飙
话题时间:2015-09-30 17:36:49
新闻序号:1
新闻标题:女土豪金店发飙甩服务员一脸钱扬言买下整条街|土豪|金店
URL网址:
http://www.baidu.com/link?url=BJdm7IFyeYcC2ryuBWcUr1gF0fvgsXFW4ALY-0iLvzHQ_MmaMxA6XaXHFpM5yz87qaHigjgXlT1q6j7VVGE-_tPZFvDzxkbyNCM7tk5NslO
新闻序号:2
新闻标题:女土豪金店发飙甩服务员一脸钱称要买下整条街
URL网址:
http://www.baidu.com/link?url=cJ1QPjBQ_qrW1gIYYDh8j7HPkTQET8QnlcLvYWPc2RZ5Id38BKO2tg94lLoTl2N7tvWX2xdSEki6bMi93JhVK90NOlsNWMWTjAAbjIQYhHC
新闻序号:3
新闻标题:女土豪金店发飙
URL网址:
http://www.baidu.com/link?url=hF9me7WrY59Qgpx3QIL_L3gi9kmeBI3ObpDu0c1tBpoGWfdHbq6wRz8QwEbN5VvQ2ZUmkMiySnjk0YIN5jqS4vQK2uKkzFc9pvxizZEcnv0i3qBnb8QB5U5Koj_rhpRKS6oj4hnztBkYKiKVbraA2K
新闻序号:4
新闻标题:女土豪金店发飙甩服务员一脸钱扬言买下整条街
URL网址:
http://www.baidu.com/link?url=_GX7K-dp3U7-2y-zkEek03xdyXu31MU9ZmJUGAvV8W1FbeleIo0wxJAOUiiApZMI2AWm1D0HwujcBfEXsYcETq
新闻序号:5
新闻标题:女土豪金店发飙甩服务员一脸钱扬言买下整条街
URL网址:
http://www.baidu.com/link?url=_jfeYujgm4BoN-VsMl6xTJOOKQVQldFf0SDBbcpVS1aNhyFJ7490dRWXERIpBxUo7qx3mtr25_-YlcmCL2Ju7ovunTzHm4QANTsJBJOTEAy
新闻序号:6
新闻标题:女土豪金店发飙甩服务员一脸钱称要买下整条街
URL网址:
http://www.baidu.com/link?url=JqpthY8GA3e9aaPKrzXiYT1fhcm-2RJiQcJ3xLAkygVwR05mQT9z1jGIl6U0UTU1dsnxqpjtwa_IFHtfB9xlwO2SB5Bee6poxKoUn4Pe-gy
新闻序号:7
新闻标题:女土豪金店发飙甩服务员一脸钱称要买下整条街(1)
URL网址:
http://www.baidu.com/link?url=k1B4cYWIqJlM7CxHEMXg4hrKAYn9EaC3CfiaOIjPojChgyhEu6WBKekhQyaLdwGjwaA24P-waB3jUZXu_mXZya
新闻序号:8
新闻标题:女土豪金店发飙甩服务员一脸钱扬言买下整条街}
URL网址:
http://www.baidu.com/link?url=WSWokb-GJZsmR3esbWsZ5qIKfMalvB0V-SciiKYII5hcCixl4RjyeiPpKLJtKPj0Y-aCBKe-YFFzBmLI-aZJ9WJR8NXwdg2JzzVbaiUa01y
新闻序号:9
新闻标题:女土豪金店发飙甩服务员一脸钱:知道我爸是谁吗能用钱买下整条街
URL网址:
http://www.baidu.com/link?url=Ir5_0Lql5gTc5o3l1PUDRWMWC_bMoFoz8qHxn5MGrlH9f4rWdGSr4SV5EU0T_p_uwQ48F-TON5ik3rlPJ9OQdJ2Dux00wAbxV1qqgloCIiy
通过LDA模型获取到的该话题关键词及权重:
土豪-0.17;金店-0.17;发飙-0.13;服务员-0.11;
一脸-0.09;扬言-0.06;钱-0.05;知道-0.01;
2.第二个话题
话题名称:广西柳城爆炸
话题时间:2015-09-30 18:39:02
新闻序号:1
新闻标题:广西柳城爆炸
URL网址:
http://www.baidu.com/link?url=hb7fy9fK3FLoRHQ8v38Lt0z8qu9S_tERIwQF4xj5mGZ1NMTFgPL4u99xi_ITZloRhAxtvgI52fcQYwoZMDCOMMDFcnb_43unC345tAjKugrcD5jzR_GxMluV3XqP_QWrmEZrVIZ63_AVJoCqd1KaCa
新闻序号:2
新闻标题:广西柳城爆炸已致6人死亡
URL网址:
http://www.baidu.com/link?url=JGIo7z1IoCqWwZA4Use0Ld8hjesXweUJpaYYHhGlY6oywQO3ky1WHAOWF7XAZFLk95e2wPaDRYp0CSr7Ekyk_a
新闻序号:3
新闻标题:广西柳城爆炸现场
URL网址:
http://www.baidu.com/link?url=B66lp_f2bXUq6YoTz7_Iwmo1vFN_MAQOWPvpFZHhWhJsICrfUGNkgmfttwHKizI9ICn0oM5DNUwd17twhQiMha
新闻序号:4
新闻标题:广西柳城爆炸系多个爆炸装置引发已致3死13伤
URL网址:
http://www.baidu.com/link?url=t10xyuE8yyHqhUMTMDoFjZvOPzIuLSIlgM-snvk2EcSnnK4XQ_7ji1VIw0tZkYGouCDE6xMJAJBz8iDvU0FxB_
新闻序号:5
新闻标题:广西柳城连续爆炸:由快递包裹中的爆炸装置引起
URL网址:
http://www.baidu.com/link?url=f_HgpgYmHIBF7yqBm7dCZvHRgztoBscmHEsayfmiINXgfCi3SIobtlWkCocM-anKkdfxz-Rn8Tosj1M-RBVKHsMDWcdEf4ivdg6GxyUtmua
新闻序号:6
新闻标题:广西柳城县连环爆炸
URL网址:
http://www.baidu.com/link?url=fMN7w4Hcpm5Gntz4cY6taZZPDfyjYoZgQPBFqfktIonPe1oupSHyswZTjQ8zDAoiWRZSZniVJU6f-sSAPGbTIq
新闻序号:7
新闻标题:广西柳城县发生人为爆炸致1死3伤疑为感情纠纷
URL网址:
http://www.baidu.com/link?url=haP2WXBiC_uiCMpvlCOLmpC3KcXM-YIrU0VC4OpY3xSUyLrZyCFCVJynX5bzCc73rK4wCJPy6Tad8DluQ9Ltba
新闻序号:8
新闻标题:广西柳城县发生多起爆炸|爆炸|柳城县
URL网址:
http://www.baidu.com/link?url=19OC_h3WeHcFPZud71nTm_PcAXx0mGKhZCBm50ZwVtTet3mI5X5y2ei-1Ufx0C8cNKdcpVnFQ-7rdDgKMSCQGtUsZBcvyoEbhvjtLZBt2ae
通过LDA模型获取到的该话题关键词及权重:
爆炸-0.23;广西-0.16;柳城-0.10;装置-0.04;死亡-0.02;
现场-0.02;引发-0.02;快递-0.02;包裹-0.02;
二、某官方媒体提供的优质新闻
新闻全文:
河北女土豪金店发飙甩服务员一脸钞票扬言买下整条街
2015年09月30日16:18:13来源:参考消息网
参考消息网9月30日报道台媒称,河北省邯郸市一名女子到金饰店,疑不满服务员的态度,竟当场拿出大把钞票砸向对方,还呛要买下整条街,“妳知道我爸是谁吗”。此事引发网友讨论,但有人认为这是业者炒作。
据台湾ETtoday新闻云9月30日报道,根据民众拍摄的影片,女子不满地拍桌呛服务员,“妳以为我没钱,这是什么街?信不信我把你们国风潮街买下来”;随后还从包包拿出大把钞票,连3次砸向服务员,“妳认为我没钱是不是?这是什么?这是什么?”女服务员只能无奈陪笑脸。
报道称,女子被旁边的一名女顾客劝阻,她抱怨说:“我来这里买条链子,我拿一条看一条…”对此,许多网友直呼太夸张,“她没买下一整条街,就拿那叠钞票甩她”;但也有人说这是金饰店的炒作手法。
通过LDA模型获取到的新闻关键词及权重:
女子--0.17;钱--0.11;服务员--0.11;买下--0.07;
邯郸--0.07;金店--0.07;态度--0.05;
(上述关键词及权重都是用LDA模型训练得出)
三、用预设匹配算法确定官方媒体提供的新闻所属的话题
1、第一个话题与新闻的匹配值
取“话题关键词∪新闻关键词”作为向量的每一项,构建一维向量
p={女子,钱,服务员,买下,邯郸,金店,态度,土豪,发飙,一脸,扬言,知道}
那么话题一维向量为:
P1={0,0.05,0.11,0,0,0.17,0,0.17,0.13,0.09,0.06,0.01}
新闻一维向量为:
Pn1={0.17,0.11,0.11,0.07,0.07,0.07,0.06,0,0,0,0,0}
话题向量P1与新闻向量Pn1点乘,得到匹配值为:
N1=P1·Pn1=0.0295
2、第二个话题与新闻的匹配值
取“话题关键词∪新闻关键词”作为向量的每一项,构建一维向量,
p={女子,钱,服务员,买下,邯郸,金店,态度,爆炸,广西,柳城,装置,死亡,
现场,引发,快递,包裹,}
那么话题的一维向量为:
P2={0,0,0,0,0,0,0,0.23,0.16,0.10,0.04,0.02,0.02,0.02,0.02,0.02}
新闻的一维向量为:
Pn2={0.17,0.11,0.11,0.07,0.07,0.07,0.06,0,0,0,0,0,0,0,0,0}
话题向量P2与新闻向量Pn2点乘,得到匹配值为:
N2=P1·Pn2=0
3、确定新闻所属话题
假设预设阈值为0.01,由于N1>0.01>N2,因此次新闻属于预设话题库中的第一个话题。
图3示出了本发明一实施例提供的官方媒体新闻中话题的推送装置结构示意图,如图3所述,本实施例中的话题推送装置包括:
第一关键词获取模块301,用于获取官方媒体提供的第一新闻的多个第一关键词及每个第一关键词的第一权重;
匹配度获取模块302,用于根据所述第一新闻的多个第一关键词及每个第一关键词的第一权重,和存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值;
确定模块303,用于根据所述匹配值确定所述第一新闻所属的话题;
推送模块304,用于将属于该话题的所述第一新闻通过客户端推送给官方媒体用户。
在本实施例的一个优选的实施方式中,所述装置还包括图3中未示出的:
搜索热词获取模块305,用于每隔预设时间抓取搜索引擎网站上的用户搜索次数大于预设值的搜索热词;
话题获取模块306,根据搜索词获取互联网提供的与搜索热词相关的新闻,获取新闻所属的话题,剔除不属于所述话题的新闻;
第二关键词获取模块307,用于获取属于该话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重;
存储模块308,用于将所有的话题及话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重存储在预设话题库中。
在本实施例的一个优选的实施方式中,所述匹配度获取模块302用于对所述多个第一关键词及每个第一关键词的第一权重与所述存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重按预设匹配算法进行匹配,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,确定所述匹配值中的最大值;
所述确定模块303用于判断若所述最大值大于等于预设阈值,则所述第一新闻属于所述最大值对应的存储在预设话题库中的多个第二关键词及每个第二关键词的第二权重属于的话题;
若所述最大值小于预设阈值,则所述第一新闻不属于所述预设话题库中的话题。
在本实施例的一个优选的实施方式中,所述推送模块304包括:
发送模块309,用于将所述话题以及属于所述话题的第一新闻发送至话题推送分中心;
话题推送模块310,用于根据所述官方媒体用户历史关注的新闻类型,获取与所述新闻类型对应的话题,通过客户端推送给官方媒体用户;
新闻展示模块311,用于在接收到官方媒体用户发送的所述话题点击指令时,通过客户端向所述官方媒体用户展示属于所述话题的第一新闻。
可理解的是,上述装置与上述方法是一一对应的关系,上述方法中的实施细节也适用于上述装置,因此,本实施例不再对上述装置的具体实施细节进行详细描述。
上述装置能够使官方媒体能够基于互联网上话题对新闻进行有重点的推送,及时有效的得到用户的关注,向用户展示优质新闻。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (8)

1.一种官方媒体新闻中话题的推送方法,其特征在于,包括:
S1、话题推送中心获取官方媒体提供的第一新闻的多个第一关键词及每个第一关键词的第一权重;
S2、所述话题推送中心根据所述第一新闻的多个第一关键词及每个第一关键词的第一权重,和存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,根据所述匹配值确定所述第一新闻所属的话题;
S3、所述话题推送中心将属于该话题的第一新闻通过客户端推送给官方媒体用户;
在步骤S1之前,所述方法还包括:
S01、话题推送中心每隔预设时间抓取搜索引擎网站上的用户搜索次数大于预设值的搜索热词;
S02、所述话题推送中心根据搜索词获取互联网提供的与搜索热词相关的新闻,获取新闻所属的话题,剔除不属于所述话题的新闻;
S03、所述话题推送中心获取属于该话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重;
S04、所述话题推送中心将所述话题、所述第二关键词及所述第二权重存储在预设话题库中;
其中,所述话题推送中心根据搜索词获取互联网提供的与搜索热词相关的新闻,获取新闻所属的话题,具体包括:
在确定搜索热词以后,在互联网上搜索与搜索热词相关的所有新闻,从而获取与搜索热词相关的新闻,对所述与搜索热词相关的新闻整体进行LDA模型训练,得到新闻所属的话题;
所述剔除不属于所述话题的新闻,具体包括:
在剔除的过程中,将每一条新闻用LDA模型训练出每一条新闻所属的话题,将每一条新闻所属的话题与新闻整体所属的话题进行比较,将结果不一致的新闻剔除,结果一致的新闻就是属于新闻整体所属话题的新闻。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
将所述第一新闻通过LDA模型获取所述第一新闻的多个第一关键词及每个第一关键词的第一权重。
3.根据权利要求1所述的方法,其特征在于,所述步骤S03包括:
将所述预设条数的第二新闻通过LDA模型获取所述预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
S21、所述话题推送中心对所述多个第一关键词及每个第一关键词的第一权重与所述存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重按预设匹配算法进行匹配,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,确定所述匹配值中的最大值;
S22、若所述最大值大于等于预设阈值,则所述第一新闻属于所述最大值对应的存储在预设话题库中的多个第二关键词及每个第二关键词的第二权重属于的话题;
若所述最大值小于预设阈值,则所述第一新闻不属于所述预设话题库中的话题。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
S31、所述话题推送中心将所述话题以及属于所述话题的第一新闻发送至话题推送分中心;
S32、所述话题推送分中心根据所述官方媒体用户历史关注的新闻类型,获取与所述新闻类型对应的话题,通过客户端推送给官方媒体用户;
S33、所述话题推送分中心在接收到官方媒体用户发送的所述话题的点击指令时,通过客户端向所述官方媒体用户展示属于所述话题的第一新闻。
6.一种官方媒体新闻中话题的推送装置,其特征在于,包括:
第一关键词获取模块,用于获取官方媒体提供的第一新闻的多个第一关键词及每个第一关键词的第一权重;
匹配度获取模块,用于根据所述第一新闻的多个第一关键词及每个第一关键词的第一权重,和存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值;
确定模块,用于根据所述匹配值确定所述第一新闻所属的话题;
推送模块,用于将属于该话题的所述第一新闻通过客户端推送给官方媒体用户;
所述装置还包括:
搜索热词获取模块,用于每隔预设时间抓取搜索引擎网站上的用户搜索次数大于预设值的搜索热词;
话题获取模块,根据搜索词获取互联网提供的与搜索热词相关的新闻,获取新闻所属的话题,剔除不属于所述话题的新闻;
第二关键词获取模块,用于获取属于该话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重;
存储模块,用于将所有的话题及话题的预设条数的第二新闻的多个第二关键词及每个第二关键词的第二权重存储在预设话题库中;
其中,话题推送中心根据搜索词获取互联网提供的与搜索热词相关的新闻,获取新闻所属的话题,具体包括:
在确定搜索热词以后,在互联网上搜索与搜索热词相关的所有新闻,从而获取与搜索热词相关的新闻,对所述与搜索热词相关的新闻整体进行LDA模型训练,得到新闻所属的话题;
所述剔除不属于所述话题的新闻,具体包括:
在剔除的过程中,将每一条新闻用LDA模型训练出每一条新闻所属的话题,将每一条新闻所属的话题与新闻整体所属的话题进行比较,将结果不一致的新闻剔除,结果一致的新闻就是属于新闻整体所属话题的新闻。
7.根据权利要求6所述的装置,其特征在于,所述匹配度获取模块用于对所述多个第一关键词及每个第一关键词的第一权重与所述存储在预设话题库中的每个话题的多个第二关键词及每个第二关键词的第二权重按预设匹配算法进行匹配,获取所述多个第一关键词及每个第一关键词的第一权重与所述多个第二关键词及每个第二关键词的第二权重的匹配值,确定所述匹配值中的最大值;
所述确定模块用于判断若所述最大值大于等于预设阈值,则所述第一新闻属于所述最大值对应的存储在预设话题库中的多个第二关键词及每个第二关键词的第二权重属于的话题;
若所述最大值小于预设阈值,则所述第一新闻不属于所述预设话题库中的话题。
8.根据权利要求6所述的装置,其特征在于,所述推送模块包括:
发送模块,用于将所述话题以及属于所述话题的第一新闻发送至话题推送分中心;
话题推送模块,用于根据所述官方媒体用户历史关注的新闻类型,获取与所述新闻类型对应的话题,通过客户端推送给官方媒体用户;
新闻展示模块,用于在接收到官方媒体用户发送的所述话题的点击指令时,通过客户端向所述官方媒体用户展示属于所述话题的第一新闻。
CN201510657607.1A 2015-10-13 2015-10-13 一种官方媒体新闻中话题的推送方法及装置 Active CN105468668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510657607.1A CN105468668B (zh) 2015-10-13 2015-10-13 一种官方媒体新闻中话题的推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510657607.1A CN105468668B (zh) 2015-10-13 2015-10-13 一种官方媒体新闻中话题的推送方法及装置

Publications (2)

Publication Number Publication Date
CN105468668A CN105468668A (zh) 2016-04-06
CN105468668B true CN105468668B (zh) 2019-09-20

Family

ID=55606370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510657607.1A Active CN105468668B (zh) 2015-10-13 2015-10-13 一种官方媒体新闻中话题的推送方法及装置

Country Status (1)

Country Link
CN (1) CN105468668B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294765A (zh) * 2016-08-11 2017-01-04 乐视控股(北京)有限公司 处理新闻数据的方法及装置
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及系统
CN111079010B (zh) * 2019-12-12 2023-03-31 国网四川省电力公司 一种数据处理方法、装置及系统
CN111090741B (zh) * 2019-12-13 2023-04-07 国网四川省电力公司 一种数据处理方法、装置及系统
CN111581359A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种新闻推荐方法及装置
CN117828170A (zh) * 2022-09-29 2024-04-05 华为技术有限公司 一种信息获取方法、设备及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
CN103853822A (zh) * 2014-02-24 2014-06-11 北京奇虎科技有限公司 一种在浏览器中推送新闻信息的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
CN103853822A (zh) * 2014-02-24 2014-06-11 北京奇虎科技有限公司 一种在浏览器中推送新闻信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向网络新闻的话题检测技术研究;赵爱华;《中国优秀硕士学位论文全文数据库信息科技辑》;20130915(第09期);第I138-550页 *

Also Published As

Publication number Publication date
CN105468668A (zh) 2016-04-06

Similar Documents

Publication Publication Date Title
CN105468668B (zh) 一种官方媒体新闻中话题的推送方法及装置
CN104090967B (zh) 应用程序推荐方法及推荐装置
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN104428805B (zh) 强化搜索的连接目标锁定
CN107193792A (zh) 基于人工智能的生成文章的方法和装置
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
CN110909176A (zh) 数据推荐方法、装置、计算机设备以及存储介质
CN110275935A (zh) 政策信息的处理方法、装置、及存储介质、电子装置
CN107832724A (zh) 从视频文件中提取人物关键帧的方法及装置
CN105843962A (zh) 信息处理、显示方法及装置以及信息处理显示系统
CN106682170B (zh) 一种应用搜索方法和装置
CN109840793A (zh) 推广信息的推送方法和装置、存储介质、电子装置
CN108734146A (zh) 人脸图像年龄判断方法、装置、计算机设备及存储介质
CN110362689A (zh) 一种风险评估方法、装置、存储介质和服务器
CN109213859A (zh) 一种文本检测方法、装置及系统
CN110020075A (zh) 非法网站自动发掘装置
Kandylas et al. The utility of tweeted URLs for web search
JP3177601U (ja) 画像検索機能を備えたサービス情報プラットフォーム装置
CN108648017B (zh) 易于扩展的用户需求匹配方法、装置、设备及存储介质
CN108563713A (zh) 关键词规则生成方法及装置和电子设备
CN109190032A (zh) 推送方法、装置的存储介质
Claveau Detecting fake news in tweets from text and propagation graph: IRISA's participation to the FakeNews task at MediaEval 2020
CN106033444A (zh) 文本内容的聚类方法和装置
CN107665222A (zh) 关键词的拓展方法和装置
CN104462151B (zh) 评估网页发布时间的方法和相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant