CN106484733A - 新闻线索个性化推送方法及系统 - Google Patents

新闻线索个性化推送方法及系统 Download PDF

Info

Publication number
CN106484733A
CN106484733A CN201510550175.4A CN201510550175A CN106484733A CN 106484733 A CN106484733 A CN 106484733A CN 201510550175 A CN201510550175 A CN 201510550175A CN 106484733 A CN106484733 A CN 106484733A
Authority
CN
China
Prior art keywords
clue
news
news clue
user
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510550175.4A
Other languages
English (en)
Other versions
CN106484733B (zh
Inventor
曹娟
张勇东
张俊强
李锦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongke Ruijian Technology Co ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201510550175.4A priority Critical patent/CN106484733B/zh
Publication of CN106484733A publication Critical patent/CN106484733A/zh
Application granted granted Critical
Publication of CN106484733B publication Critical patent/CN106484733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种新闻线索个性化推送方法及系统,该方法包括:步骤1,创建新闻线索领域的标签,为每个新闻线索领域分别训练一个新闻线索分类模型,使用所述新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类,并存入对应领域的新闻线索集;步骤2,基于线索热度、时效性、和可信度建立新闻线索评分模型来对每个所述线索集中的每条新闻线索进行评分,选择得分最高的N条线索作为待推荐线索;步骤3,由用户从所述标签中选择自己感兴趣的新闻线索领域,然后将对应于所选兴趣领域的待推荐线索推送给用户。由此,能够根据用户群特点快速准确的从候选新闻线索集中找到用户需要的有价值的线索并进行推送。

Description

新闻线索个性化推送方法及系统
技术领域
本发明属于信息传递技术领域,特别涉及一种新闻线索个性化推送方法及系统。
背景技术
随着全民参与的互联网模式的发展,新闻媒体也在逐渐变革,传统媒体基于人才优势和品牌优势提供独家、独到、专业的新闻内容,再辅以多样化的传播渠道,就能占领新闻传播的制高点,而如今互联网上信息越来越充裕,如何在充足的线索中,根据用户群特点快速准确的从候选新闻线索集中找到用户需要的有价值的线索并进行推送具有重要意义。
专利文件1(公开号为CN101694659A)公开了一种基于多主题追踪的个性化网络新闻推送方法,根据划分并维护多个用户子兴趣模型,选取与所有子兴趣模型的最高相似度最大的新闻报道推荐给用户,达到涵盖用户多种兴趣特征、推荐准确率高、系统后续维护负担轻的特点。
专利文件2(公开号为CN104462578A)公开了一种新闻推送方法,根据制定人群的浏览情况选择新闻使推送用户能够接收到指定群体最关注,或者是影响力最大的新闻,从而准确的拓宽了推送用户的接收新闻的种类,并且准确的使用户接收到的应当了解的新闻。
专利文件3(公开号为CN104090990A)公开了一种新闻推送方法和系统,根据计算用户对多个目标新闻类别的兴趣权重值,根据该权重调整不同目标新闻类别的推送比例新闻推送,达到为用户呈现更多样化的内容,引导用户调整个人兴趣,使用户及时发现新的兴趣,更全面地展现新闻内容的特点。
但是上述现有技术主要通过新闻与用户兴趣匹配程度、关联用户浏览情况来选取带推送新闻,不能利用新闻线索本身的特点来发现最有推送价值的新闻线索。
发明内容
为了解决上述问题,本发明的目的在于,对新闻线索进行个性化推送,根据用户群特点快速准确的从候选新闻线索集中找到用户需要的有价值的线索并进行推送,其中新闻线索是指新闻事件的简介,包含事件简单描述和事件起止时间。本发明对大量线索候选集进行兴趣领域分类,使用提出的排序衡量标准选择得分最高的线索列表推送给用户,保证用户尽快获得其感兴趣的新闻线索。
本发明的新闻线索个性化推送方法,包括:步骤1,创建新闻线索领域的标签,为每个所述新闻线索领域分别训练一个新闻线索的分类模型,使用所述分类模型对新闻线索候选集中的每条新闻线索进行新闻线索领域分类,存入对应领域的新闻线索集;步骤2,基于新闻线索的热度、时效性、和可信度建立新闻线索的评分模型来对每个所述新闻线索集中的每条新闻线索进行评分,每个所述新闻线索集中均选择得分最高的N条新闻线索作为待推荐线索,N的取值可根据需求自行设定;步骤3,由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域,然后将对应于用户选择的新闻线索领域的所述新闻线索集中的所述待推荐线索推送给用户。
本发明的新闻线索个性化推送方法,进一步包括:步骤4,在客户端为每条推送的新闻线索提供打分功能,在用户打分后将对应的新闻线索和打分结果上传至系统服务器,根据所述打分结果更新对应的新闻线索的可信度得分。
本发明的新闻线索个性化推送方法,其中,所述步骤1中,利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型,分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行新闻线索领域分类,当有m个分类模型将某条新闻线索分类为真时,则取这m个所述分类模型所对应的m个新闻线索领域作为该条新闻线索所属的领域,其中m为正整数。
本发明的新闻线索个性化推送方法,其中,所述步骤2中,所述线索热度根据新闻线索在搜索引擎中得到的相关结果数来计算;所述时效性根据新闻线索的发现时间与当前时间的时间差计算;所述可信度根据新闻线索发现的来源计算;所述新闻线索的评分模型为:
其中Vi为新闻线索CSi的综合得分,Ci为搜索引擎得到的相关结果数,ΔTi为新闻线索发现时间与当前时间的时间差,单位为小时,avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值,SRi表示新闻线索CSi对应的来源Ri的可信度得分,α、β、γ分别为所述新闻线索CSi的线索热度、时效性、可信度的权重系数。
本发明的新闻线索个性化推送方法,其中,所述步骤4进一步为,建立新闻线索的可信度评分更新模型用于根据用户的打分结果计算更新后的可信度得分SRi',并用该SRi'代替公式(1)中的SRi来更新新闻线索评分模型,其中所述可信度评分更新模型为,
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
Si表示新闻线索来源Ri对应的新闻线索打分集合,μ为调节因子,取值范围[0,1]。
另外,本发明还提供一种新闻线索个性化推送系统,包括:分类模块,用于创建新闻线索领域的标签,为每个所述新闻线索领域分别训练一个新闻线索的分类模型,使用所述分类模型对新闻线索候选集中的每条新闻线索进行新闻线索领域分类,存入对应领域的新闻线索集;评分模块,用于基于新闻线索的热度、时效性、和可信度建立新闻线索的评分模型来对每个所述新闻线索集中的每条新闻线索进行评分,每个所述新闻线索集中均选择得分最高的N条新闻线索作为待推荐线索,N的取值可根据需求自行设定;推送模块,用于由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域,然后将对应于用户选择的新闻线索领域的所述新闻线索集中的所述待推荐线索推送给用户。
本发明的新闻线索个性化推送系统,进一步包括:反馈模块,用于在客户端为每条推送的新闻线索提供打分功能,在用户打分后将对应的新闻线索和打分结果上传至系统服务器,根据所述打分结果更新对应的新闻线索的可信度得分。
本发明的新闻线索个性化推送系统,其中,所述分类模块进一步包括:分类器判别模块,利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型,分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行新闻线索领域分类,当有m个分类模型将某条新闻线索分类为真时,则取这m个所述分类模型所对应的m个新闻线索领域作为该条新闻线索所属的领域,其中m为正整数。
本发明的新闻线索个性化推送系统,其中,所述评分模块中,根据新闻线索在搜索引擎中得到的相关结果数来计算所述线索热度,根据新闻线索的发现时间与当前时间的时间差来计算所述时效性,根据新闻线索发现的来源来计算所述可信度;所述评分模块采用如下模型对新闻线索进行评分:
其中Vi为新闻线索CSi的综合得分,Ci为搜索引擎得到的相关结果数,ΔTi为新闻线索发现时间与当前时间的时间差,单位为小时,avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值,SRi表示新闻线索CSi对应的来源Ri的可信度得分,α、β、γ分别为所述新闻线索CSi的线索热度、时效性、可信度的权重系数。
本发明的新闻线索个性化推送系统,其中,所述反馈模块进一步包括可信度评分更新模块,所述可信度评分更新模块建立可信度评分更新模型用于根据用户的打分结果计算更新后的新闻线索的可信度得分SRi',并用该SRi'代替公式(1)中的SRi来更新新闻线索的评分模型,其中所述可信度评分更新模型为,
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
Si表示新闻线索来源Ri对应的新闻线索打分集合,μ为调节因子,取值范围[0,1]。
本发明的效果如下:
(1)为用户提供兴趣领域的选择功能,根据用户选择的兴趣领域选择待推送的线索。
(2)能够对新闻线索进行自动分类。能够针对不同领域,训练线索分类模型,同一线索可以属于不同领域。
(3)提出线索热度、传播加速度等衡量指标,基于这些衡量指标对线索进行打分,每个领域中选取得分最高的Top k个线索进行推送。
(4)在客户端为每个推送的线索提供用户打分功能,在用户打分后将对应线索和打分结果上传系统服务器,根据打分结果更新对应线索来源的质量评分,进而更新新闻线索的综合得分,确保能够将最有价值的新闻线索推送给用户。
附图说明
图1是本发明的新闻线索个性化推送方法的流程图。
图2是本发明的实施例的新闻线索个性化推送方法的流程图。
图3是本发明的新闻线索个性化推送系统的构成图。
图4是本发明的实施例的新闻线索个性化推送系统的构成图。
图5为本发明的新闻线索个性化推送系统中,客户端与系统服务器之间进行打分反馈的流程图。
附图标记说明
1 新闻线索个性化推送系统
11 分类模块
12 评分模块
13 推送模块
14 反馈模块
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明的新闻线索个性化推送方法及系统进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的新闻线索个性化推送方法的流程图如图1所示。本发明的新闻线索个性化推送方法,包括:步骤1,创建新闻线索领域的标签,并为每个所述新闻线索领域分别训练一个新闻线索分类模型,使用所述新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类,并存入对应的兴趣领域线索集;步骤2,基于线索热度、时效性、和可信度建立新闻线索评分模型来对每个所述线索集中的每条新闻线索进行评分,每个所述线索集中均选择得分最高的TOP N条线索作为待推荐线索,N的取值可根据需求自行设定,N为正整数;步骤3,由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域,然后将对应于用户选择的新闻线索领域的所述待推荐线索推送给用户。
在上述步骤1中,利用SVM二值分类器训练线索自动分类模型,假设新闻线索领域的标签共有K个兴趣领域,通过训练K个二值分类器,对于一条线索CSi,根据每个分类器的分类结果,对m个分类为真的分类器对应的m个兴趣领域作为线索CSi所属的领域。最后每个领域都对应一个线索集,算法描述如下:
输入:线索集CS;
初始化每个兴趣领域的线索集Sk为空,k=1…K;
对线索集中每一条线索CSi
对将CSi作为每一兴趣领域的分类器CLk的输入;
如果CLk分类为真则将CSi添加到Sk中。
输出:Sk,k=1…K。
在上述步骤2中,对每个兴趣领域对应的线索集Sk,根据线索热度、时效性、可信度三个维度进行打分,每个线索集Sk中均选择得分高的Top n个线索作为该领域的待推送线索。其中,线索热度用线索在搜索引擎中得到的相关结果数来体现,时效性用线索发现时间与当前时间的时间差计算,可信度则根据线索发现的来源计算。公式如下:
其中Vi为线索i的综合得分,Ci为搜索引擎得到的相关结果数,ΔTi为线索发现时间与当前时间的时间差,单位为小时,avg(ΔT)为所有线索发现时间与当前时间的时间差的平均值,SRi表示线索i对应的来源Ri的可信度打分,α、β、γ分别为三项的系数,可由经验设定,例如取值为0.3,0.4,0.3。
进而,图2为本发明的实施例的新闻线索个性化推送方法的流程图,在该实施方式中,在上述新闻线索个性化推送方法中添加了用户反馈的步骤,用户可以对其看过的每个线索进行打分,打分后对应线索和打分结果都将上传至系统服务器,根据打分结果更新对应线索来源的质量评分,更新公式如下:
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
其中SRi为线索来源Ri的质量评分,Si表示线索来源i对应的线索打分集合,α为调节因子,取值范围[0,1]。
在上述步骤3中,针对不同用户具有不同的兴趣领域,准确找到用户的兴趣领域才能推送给用户想要的线索,而让用户自己选择兴趣领域是最直观也是效果最好的方法,故步骤3中采用由用户自己从兴趣标签中选择自己感兴趣领域的方案。
另外,本发明还提供一种新闻线索个性化推送系统1,如图3所示,包括:分类模块11,用于创建新闻线索领域的标签,并为每个所述新闻线索领域分别训练一个新闻线索分类模型,使用所述新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类,并存入对应的兴趣领域线索集;评分模块12,用于基于线索热度、时效性、和可信度建立新闻线索评分模型来对每个所述线索集中的每条新闻线索进行评分,每个所述线索集中均选择得分最高的N条线索作为待推荐线索,N的取值可根据需求自行设定;推送模块13,用于由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域,然后将对应于用户选择的新闻线索领域的所述线索集中的所述待推荐线索推送给用户。
在本发明的另一实施方式的新闻线索个性化推送系统中,如图4所示,进一步包括:反馈模块14,用于在客户端为每条推送的新闻线索提供打分功能,在用户打分后将对应线索和打分结果上传至系统服务器,根据所述打分结果更新对应线索的可信度得分。
图5为本发明的新闻线索个性化推送系统中,客户端与系统服务器之间进行打分反馈的流程图。来自兴趣领域线索集Sk的新闻线索经过评分模型进行评分后,选择得分最高的TOP N条新闻线索推送给用户,用户阅读了被推送的新闻线索后,对新闻线索进行打分,在用户打分后将对应线索和打分结果上传至系统服务器,系统服务器依据接收到的打分结果更新对应线索的可信度评分,进而更新新闻线索的评分模型,来自兴趣领域线索集Sk的新闻线索经过更新后的评分模型进行评分后,继续选择得分最高的TOP N条新闻线索推送给用户。由此,能够确保能够将最有价值的新闻线索推送给用户。
本发明的新闻线索个性化推送系统,其中,所述分类模块进一步包括:分类器判别模块,利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型,分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行分类,当有m个分类模型将某条新闻线索分类为真时,则取这m个所述分类模型所对应的m个兴趣领域作为该条新闻线索所属的领域,其中m为正整数。
本发明的新闻线索个性化推送系统中,所述评分模块中,根据新闻线索在搜索引擎中得到的相关结果数来计算所述线索热度,根据新闻线索的发现时间与当前时间的时间差来计算所述时效性,根据新闻线索发现的来源来计算所述可信度,所述新闻线索评分模块采用如下模型对新闻线索进行评分,
其中Vi为新闻线索CSi的综合得分,Ci为搜索引擎得到的相关结果数,ΔTi为新闻线索发现时间与当前时间的时间差,单位为小时,avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值,SRi表示新闻线索CSi对应的来源Ri的可信度打分,α、β、γ分别为所述新闻线索CSi的线索热度、时效性、可信度的系数,可由经验设定,例如取值为0.3,0.4,0.3。
本发明的新闻线索个性化推送系统中,所述反馈模块进一步包括可信度评分更新模块,所述可信度评分更新模块建立可信度评分更新模型用于根据用户的打分结果计算更新后的可信度得分SRi',并用该SRi'代替公式(1)中的SRi来更新新闻线索评分模型,其中所述可信度评分更新模型为,
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
Si表示线索来源Ri对应的线索打分集合,μ为调节因子,取值范围[0,1]。
以下,结合具体数值实施例对本发明的实施方式的新闻线索个性化推送方法及系统进行更加详细地说明。
首先,本发明的新闻线索个性化推送系统为客户提供了包括汽车、数码、游戏、健康、家居、旅游、美食、体育、星座、教育……近几十种新闻线索的兴趣领域标签供用户进行选择,针对每个兴趣领域系统分别训练一个新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类,并分别存入对应的兴趣领域线索集S1..Sn,n代表兴趣领域数,n为正整数。
具体地,可以利用SVM二值分类器训练上述分类模型,使用n个二值分类器分别对新闻候选线索集CS{CS1、CS1、CS3…CSi}(i为正整数)中的每一条新闻线索进行打分(一般来说,二值分类器打分范围为0-1,大于0.5为真,小于0.5为假),对于新闻线索CS1,假设只有体育类的二值分类器的分类结果为真,则将新闻线索CS1放入体育类的线索集中,即该新闻线索CS1被判定为体育类。对于新闻线索CS2,假设汽车类的二值分类器、数码类的二值分类器分类结果都为真,则将该新闻线索CS2分别放入汽车类的线索集和数码类的线索集中,即该条线索被判断为既属于数码类也属于汽车类。对于新闻线索CS3,如果所有的二值分类器分类结果都为假,则丢弃该线索。通过上述方法来计算线索集CS中的每一条线索CSi,将CSi进行放入相应的线索集S1….Sn
具体算法描述如下:
输入:线索集CS;
初始化每个兴趣领域的线索集Sk为空,k=1…n;
对线索集中每一条线索CSi
对将CSi作为每一兴趣领域的分类器CLk的输入,k=1…n;
如果CLk分类结果为真则将CSi添加到Sk中。
输出:Sk,k=1…n。
假设用户A在客户端选择了汽车、数码、体育三项兴趣标签作为自己的兴趣领域标签。接着,基于线索热度、时效性、和可信度建立新闻线索评分模型来对所述线索集Sk中的每条新闻线索进行评分,。具体地评分模型为:
其中Vi为新闻线索CSi的综合得分,Ci为搜索引擎得到的相关结果数,本实施例只统计搜索引擎返回的前两页结果中的相关结果数,ΔTi为新闻线索发现时间与当前时间的时间差,单位为小时,avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值,SRi表示新闻线索CSi对应的来源Ri的可信度得分,取值范围0-5(可以估计大部分的新闻线索打分值在0-5的范围之内,有可能会有少数新闻线索得分高于5,但最终只选择得分最高的TOP N条新闻线索作为待推荐线索),α、β、γ分别为所述新闻线索CSi的线索热度、时效性、可信度的权重系数。在本实施例中,假设α、β、γ分别为0.3、0.4、0.3。
对每条线索完成评分后,每个线索集Sk只保留得分最高的Top N条线索,N取值可由系统人员自行设定,本实施例中取值为20。
最后,假设系统某用户A选择了汽车、数码、体育三个兴趣领域,则将这三个兴趣领域对应的线索集合并后推送给用户A。
在客户端提供线索打分模块,用户可以对每条线索打1到5分,假设用户A对线索CSj打分为3,则将打分上传至系统,系统定时会对所有线索来源Ri对应的线索集Si的用户打分结果求均值,并根据公式:SRi'=μ·SRi+(1-μ)·avg(Si)来更新线索来源Ri的可信度得分SRi,本实施例中u取值为0.85。

Claims (10)

1.一种新闻线索个性化推送方法,其特征在于,包括:
步骤1,创建新闻线索领域的标签,为每个所述新闻线索领域分别训练一个新闻线索的分类模型,使用所述分类模型对新闻线索候选集中的每条新闻线索进行新闻线索领域分类,存入对应领域的新闻线索集;
步骤2,基于新闻线索的热度、时效性、和可信度建立新闻线索的评分模型来对每个所述新闻线索集中的每条新闻线索进行评分,每个所述新闻线索集中均选择得分最高的N条新闻线索作为待推荐线索,N的取值可根据需求自行设定;
步骤3,由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域,然后将对应于用户选择的新闻线索领域的所述新闻线索集中的所述待推荐线索推送给用户。
2.根据权利要求1所述的新闻线索个性化推送方法,其特征在于,所述方法进一步包括:
步骤4,在客户端为每条推送的新闻线索提供打分功能,在用户打分后将对应的新闻线索和打分结果上传至系统服务器,根据所述打分结果更新对应的新闻线索的可信度得分。
3.根据权利要求1所述的新闻线索个性化推送方法,其特征在于,
所述步骤1中,利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型,分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行新闻线索领域分类,当有m个分类模型将某条新闻线索分类为真时,则取这m个所述分类模型所对应的m个新闻线索领域作为该条新闻线索所属的领域,其中m为正整数。
4.根据权利要求1所述的新闻线索个性化推送方法,其特征在于,
所述步骤2中,所述线索热度根据新闻线索在搜索引擎中得到的相关结果数来计算;所述时效性根据新闻线索的发现时间与当前时间的时间差计算;所述可信度根据新闻线索发现的来源计算;所述新闻线索的评分模型为:
V i = α · l o g ( C i + 1 ) + β · a v g ( Δ T ) ΔT i + γ · SR i - - - ( 1 )
其中Vi为新闻线索CSi的综合得分,Ci为搜索引擎得到的相关结果数,ΔTi为新闻线索发现时间与当前时间的时间差,单位为小时,avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值,SRi表示新闻线索CSi对应的来源Ri的可信度得分,α、β、γ分别为所述新闻线索CSi的线索热度、时效性、可信度的权重系数。
5.根据权利要求2或4所述的新闻线索个性化推送方法,其特征在于,
所述步骤4进一步为,建立新闻线索的可信度评分更新模型用于根据用户的打分结果计算更新后的可信度得分SRi',并用该SRi'代替公式(1)中的SRi来更新新闻线索评分模型,其中所述可信度评分更新模型为,
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
Si表示新闻线索来源Ri对应的新闻线索打分集合,μ为调节因子,取值范围[0,1]。
6.一种新闻线索个性化推送系统,其特征在于,包括:
分类模块,用于创建新闻线索领域的标签,为每个所述新闻线索领域分别训练一个新闻线索的分类模型,使用所述分类模型对新闻线索候选集中的每条新闻线索进行新闻线索领域分类,存入对应领域的新闻线索集;
评分模块,用于基于新闻线索的热度、时效性、和可信度建立新闻线索的评分模型来对每个所述新闻线索集中的每条新闻线索进行评分,每个所述新闻线索集中均选择得分最高的N条新闻线索作为待推荐线索,N的取值可根据需求自行设定;
推送模块,用于由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域,然后将对应于用户选择的新闻线索领域的所述新闻线索集中的所述待推荐线索推送给用户。
7.根据权利要求6所述的新闻线索个性化推送系统,其特征在于,进一步包括:
反馈模块,用于在客户端为每条推送的新闻线索提供打分功能,在用户打分后将对应的新闻线索和打分结果上传至系统服务器,根据所述打分结果更新对应的新闻线索的可信度得分。
8.根据权利要求6所述的新闻线索个性化推送系统,其特征在于,所述分类模块进一步包括:
分类器判别模块,利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型,分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行新闻线索领域分类,当有m个分类模型将某条新闻线索分类为真时,则取这m个所述分类模型所对应的m个新闻线索领域作为该条新闻线索所属的领域,其中m为正整数。
9.根据权利要求6所述的新闻线索个性化推送系统,其特征在于,
所述评分模块中,根据新闻线索在搜索引擎中得到的相关结果数来计算所述线索热度,根据新闻线索的发现时间与当前时间的时间差来计算所述时效性,根据新闻线索发现的来源来计算所述可信度;所述评分模块采用如下模型对新闻线索进行评分:
V i = α · l o g ( C i + 1 ) + β · a v g ( Δ T ) ΔT i + γ · SR i - - - ( 1 )
其中Vi为新闻线索CSi的综合得分,Ci为搜索引擎得到的相关结果数,ΔTi为新闻线索发现时间与当前时间的时间差,单位为小时,avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值,SRi表示新闻线索CSi对应的来源Ri的可信度得分,α、β、γ分别为所述新闻线索CSi的线索热度、时效性、可信度的权重系数。
10.根据权利要求7或9所述的新闻线索个性化推送系统,其特征在于,
所述反馈模块进一步包括可信度评分更新模块,所述可信度评分更新模块建立可信度评分更新模型用于根据用户的打分结果计算更新后的新闻线索的可信度得分SRi',并用该SRi'代替公式(1)中的SRi来更新新闻线索的评分模型,其中所述可信度评分更新模型为,
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
Si表示新闻线索来源Ri对应的新闻线索打分集合,μ为调节因子,取值范围[0,1]。
CN201510550175.4A 2015-09-01 2015-09-01 新闻线索个性化推送方法及系统 Active CN106484733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510550175.4A CN106484733B (zh) 2015-09-01 2015-09-01 新闻线索个性化推送方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510550175.4A CN106484733B (zh) 2015-09-01 2015-09-01 新闻线索个性化推送方法及系统

Publications (2)

Publication Number Publication Date
CN106484733A true CN106484733A (zh) 2017-03-08
CN106484733B CN106484733B (zh) 2019-07-30

Family

ID=58235553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510550175.4A Active CN106484733B (zh) 2015-09-01 2015-09-01 新闻线索个性化推送方法及系统

Country Status (1)

Country Link
CN (1) CN106484733B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268198A (zh) * 2017-03-14 2018-07-10 广州市动景计算机科技有限公司 交互式信息展示的方法及装置
CN109766495A (zh) * 2018-12-26 2019-05-17 网易传媒科技(北京)有限公司 资讯推送方法和装置
CN110390066A (zh) * 2019-07-19 2019-10-29 北京海致星图科技有限公司 一种基于知识库的深网数据高效更新方法
CN111027310A (zh) * 2019-11-04 2020-04-17 中证征信(深圳)有限公司 文本影响力的评估方法、装置、设备及可读介质
CN111859160A (zh) * 2020-08-07 2020-10-30 成都理工大学 一种基于图神经网络会话序列推荐方法及系统
CN112560461A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 新闻线索的生成方法、装置、电子设备及存储介质
US11308164B2 (en) 2018-09-17 2022-04-19 Yandex Europe Ag Method and system for generating push notifications related to digital news
CN115688707A (zh) * 2022-12-08 2023-02-03 中国传媒大学 一种多语言混合的新闻价值排序方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN104182496A (zh) * 2014-08-14 2014-12-03 李武 新闻信息发布和获取方法
CN104683835A (zh) * 2015-02-13 2015-06-03 湖北光谷天下传媒股份有限公司 一种运用移动终端搜集新闻线索的方法
CN105190602A (zh) * 2013-03-20 2015-12-23 微软技术许可有限责任公司 基于社交线索的电子通信排名

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN105190602A (zh) * 2013-03-20 2015-12-23 微软技术许可有限责任公司 基于社交线索的电子通信排名
CN104182496A (zh) * 2014-08-14 2014-12-03 李武 新闻信息发布和获取方法
CN104683835A (zh) * 2015-02-13 2015-06-03 湖北光谷天下传媒股份有限公司 一种运用移动终端搜集新闻线索的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUAN CAO 等: "LDA-Based Retrieval Framework for Semantic News Video Retrieval", 《ICSC"07 PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON SEMANTIC COMPUTING》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268198A (zh) * 2017-03-14 2018-07-10 广州市动景计算机科技有限公司 交互式信息展示的方法及装置
US11308164B2 (en) 2018-09-17 2022-04-19 Yandex Europe Ag Method and system for generating push notifications related to digital news
CN109766495A (zh) * 2018-12-26 2019-05-17 网易传媒科技(北京)有限公司 资讯推送方法和装置
CN110390066A (zh) * 2019-07-19 2019-10-29 北京海致星图科技有限公司 一种基于知识库的深网数据高效更新方法
CN111027310A (zh) * 2019-11-04 2020-04-17 中证征信(深圳)有限公司 文本影响力的评估方法、装置、设备及可读介质
CN111859160A (zh) * 2020-08-07 2020-10-30 成都理工大学 一种基于图神经网络会话序列推荐方法及系统
CN112560461A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 新闻线索的生成方法、装置、电子设备及存储介质
CN115688707A (zh) * 2022-12-08 2023-02-03 中国传媒大学 一种多语言混合的新闻价值排序方法

Also Published As

Publication number Publication date
CN106484733B (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN106484733A (zh) 新闻线索个性化推送方法及系统
CN106407352B (zh) 基于深度学习的交通图像检索方法
CN106682696B (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN101620615B (zh) 一种基于决策树学习的自动图像标注与翻译的方法
CN109165350A (zh) 一种基于深度知识感知的信息推荐方法和系统
CN108537134A (zh) 一种视频语义场景分割及标注方法
CN104199840B (zh) 基于统计模型的智能地名识别技术
CN110427567A (zh) 一种基于用户偏好相似度加权的协同过滤推荐方法
CN104866557B (zh) 一种基于建构学习理论的个性化即时学习支持系统与方法
CN103678431A (zh) 一种基于标准标签和项目评分的推荐方法
CN103810299A (zh) 基于多特征融合的图像检索方法
CN102708164B (zh) 电影期望值的计算方法及系统
CN106354872A (zh) 文本聚类的方法及系统
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN106371155A (zh) 基于大数据和分析场的气象预报方法及系统
CN104142995A (zh) 基于视觉属性的社会事件识别方法
CN107368540A (zh) 基于用户自相似度的多模型相结合的电影推荐方法
CN108510307A (zh) 一种课程推荐方法及系统
CN104239496A (zh) 一种结合模糊权重相似性度量和聚类协同过滤的方法
CN107247751A (zh) 基于lda主题模型的内容推荐方法
CN110502743A (zh) 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN105183748A (zh) 一种基于内容和评分的组合预测方法
CN104537028A (zh) 一种网页信息处理方法及装置
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN110334278A (zh) 一种基于改进深度学习的web服务推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231225

Address after: Room 1005, 10th Floor, No. 27 Zhichun Road, Haidian District, Beijing, 100088

Patentee after: Hangzhou Zhongke Ruijian Technology Co.,Ltd.

Address before: 100190 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing, Haidian District

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences