CN106484733B

CN106484733B - 新闻线索个性化推送方法及系统

Info

Publication number: CN106484733B
Application number: CN201510550175.4A
Authority: CN
Inventors: 曹娟; 张勇东; 张俊强; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Hangzhou Zhongke Ruijian Technology Co ltd
Priority date: 2015-09-01
Filing date: 2015-09-01
Publication date: 2019-07-30
Anticipated expiration: 2035-09-01
Also published as: CN106484733A

Abstract

本申请公开一种新闻线索个性化推送方法及系统，该方法包括：步骤1，创建新闻线索领域的标签，为每个新闻线索领域分别训练一个新闻线索分类模型，使用所述新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类，并存入对应领域的新闻线索集；步骤2，基于线索热度、时效性、和可信度建立新闻线索评分模型来对每个所述线索集中的每条新闻线索进行评分，选择得分最高的N条线索作为待推荐线索；步骤3，由用户从所述标签中选择自己感兴趣的新闻线索领域，然后将对应于所选兴趣领域的待推荐线索推送给用户。由此，能够根据用户群特点快速准确的从候选新闻线索集中找到用户需要的有价值的线索并进行推送。

Description

新闻线索个性化推送方法及系统

技术领域

本发明属于信息传递技术领域，特别涉及一种新闻线索个性化推送方法及系统。

背景技术

随着全民参与的互联网模式的发展，新闻媒体也在逐渐变革，传统媒体基于人才优势和品牌优势提供独家、独到、专业的新闻内容，再辅以多样化的传播渠道，就能占领新闻传播的制高点，而如今互联网上信息越来越充裕，如何在充足的线索中，根据用户群特点快速准确的从候选新闻线索集中找到用户需要的有价值的线索并进行推送具有重要意义。

专利文件1(公开号为CN101694659A)公开了一种基于多主题追踪的个性化网络新闻推送方法，根据划分并维护多个用户子兴趣模型，选取与所有子兴趣模型的最高相似度最大的新闻报道推荐给用户，达到涵盖用户多种兴趣特征、推荐准确率高、系统后续维护负担轻的特点。

专利文件2(公开号为CN104462578A)公开了一种新闻推送方法，根据制定人群的浏览情况选择新闻使推送用户能够接收到指定群体最关注，或者是影响力最大的新闻，从而准确的拓宽了推送用户的接收新闻的种类，并且准确的使用户接收到的应当了解的新闻。

专利文件3(公开号为CN104090990A)公开了一种新闻推送方法和系统，根据计算用户对多个目标新闻类别的兴趣权重值，根据该权重调整不同目标新闻类别的推送比例新闻推送，达到为用户呈现更多样化的内容，引导用户调整个人兴趣，使用户及时发现新的兴趣，更全面地展现新闻内容的特点。

但是上述现有技术主要通过新闻与用户兴趣匹配程度、关联用户浏览情况来选取带推送新闻，不能利用新闻线索本身的特点来发现最有推送价值的新闻线索。

发明内容

为了解决上述问题，本发明的目的在于，对新闻线索进行个性化推送，根据用户群特点快速准确的从候选新闻线索集中找到用户需要的有价值的线索并进行推送，其中新闻线索是指新闻事件的简介，包含事件简单描述和事件起止时间。本发明对大量线索候选集进行兴趣领域分类，使用提出的排序衡量标准选择得分最高的线索列表推送给用户，保证用户尽快获得其感兴趣的新闻线索。

本发明的新闻线索个性化推送方法，包括：步骤1，创建新闻线索领域的标签，为每个所述新闻线索领域分别训练一个新闻线索的分类模型，使用所述分类模型对新闻线索候选集中的每条新闻线索进行新闻线索领域分类，存入对应领域的新闻线索集；步骤2，基于新闻线索的热度、时效性、和可信度建立新闻线索的评分模型来对每个所述新闻线索集中的每条新闻线索进行评分，每个所述新闻线索集中均选择得分最高的N条新闻线索作为待推荐线索，N的取值可根据需求自行设定；步骤3，由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域，然后将对应于用户选择的新闻线索领域的所述新闻线索集中的所述待推荐线索推送给用户。

本发明的新闻线索个性化推送方法，进一步包括：步骤4，在客户端为每条推送的新闻线索提供打分功能，在用户打分后将对应的新闻线索和打分结果上传至系统服务器，根据所述打分结果更新对应的新闻线索的可信度得分。

本发明的新闻线索个性化推送方法，其中，所述步骤1中，利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型，分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行新闻线索领域分类，当有m个分类模型将某条新闻线索分类为真时，则取这m个所述分类模型所对应的m个新闻线索领域作为该条新闻线索所属的领域，其中m为正整数。

本发明的新闻线索个性化推送方法，其中，所述步骤2中，所述线索热度根据新闻线索在搜索引擎中得到的相关结果数来计算；所述时效性根据新闻线索的发现时间与当前时间的时间差计算；所述可信度根据新闻线索发现的来源计算；所述新闻线索的评分模型为：

其中V_i为新闻线索CS_i的综合得分，C_i为搜索引擎得到的相关结果数，ΔT_i为新闻线索发现时间与当前时间的时间差，单位为小时，avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值，SR_i表示新闻线索CS_i对应的来源R_i的可信度得分，α、β、γ分别为所述新闻线索CS_i的线索热度、时效性、可信度的权重系数。

本发明的新闻线索个性化推送方法，其中，所述步骤4进一步为，建立新闻线索的可信度评分更新模型用于根据用户的打分结果计算更新后的可信度得分SR_i'，并用该SR_i'代替公式(1)中的SR_i来更新新闻线索评分模型，其中所述可信度评分更新模型为，

SR_i'＝μ·SR_i+(1-μ)·avg(S_i) (2)

S_i表示新闻线索来源R_i对应的新闻线索打分集合，μ为调节因子，取值范围[0,1]。

另外，本发明还提供一种新闻线索个性化推送系统，包括：分类模块，用于创建新闻线索领域的标签，为每个所述新闻线索领域分别训练一个新闻线索的分类模型，使用所述分类模型对新闻线索候选集中的每条新闻线索进行新闻线索领域分类，存入对应领域的新闻线索集；评分模块，用于基于新闻线索的热度、时效性、和可信度建立新闻线索的评分模型来对每个所述新闻线索集中的每条新闻线索进行评分，每个所述新闻线索集中均选择得分最高的N条新闻线索作为待推荐线索，N的取值可根据需求自行设定；推送模块，用于由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域，然后将对应于用户选择的新闻线索领域的所述新闻线索集中的所述待推荐线索推送给用户。

本发明的新闻线索个性化推送系统，进一步包括：反馈模块，用于在客户端为每条推送的新闻线索提供打分功能，在用户打分后将对应的新闻线索和打分结果上传至系统服务器，根据所述打分结果更新对应的新闻线索的可信度得分。

本发明的新闻线索个性化推送系统，其中，所述分类模块进一步包括：分类器判别模块，利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型，分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行新闻线索领域分类，当有m个分类模型将某条新闻线索分类为真时，则取这m个所述分类模型所对应的m个新闻线索领域作为该条新闻线索所属的领域，其中m为正整数。

本发明的新闻线索个性化推送系统，其中，所述评分模块中，根据新闻线索在搜索引擎中得到的相关结果数来计算所述线索热度，根据新闻线索的发现时间与当前时间的时间差来计算所述时效性，根据新闻线索发现的来源来计算所述可信度；所述评分模块采用如下模型对新闻线索进行评分：

本发明的新闻线索个性化推送系统，其中，所述反馈模块进一步包括可信度评分更新模块，所述可信度评分更新模块建立可信度评分更新模型用于根据用户的打分结果计算更新后的新闻线索的可信度得分SR_i'，并用该SR_i'代替公式(1)中的SR_i来更新新闻线索的评分模型，其中所述可信度评分更新模型为，

SR_i'＝μ·SR_i+(1-μ)·avg(S_i) (2)

本发明的效果如下：

(1)为用户提供兴趣领域的选择功能，根据用户选择的兴趣领域选择待推送的线索。

(2)能够对新闻线索进行自动分类。能够针对不同领域，训练线索分类模型，同一线索可以属于不同领域。

(3)提出线索热度、传播加速度等衡量指标，基于这些衡量指标对线索进行打分，每个领域中选取得分最高的Top k个线索进行推送。

(4)在客户端为每个推送的线索提供用户打分功能，在用户打分后将对应线索和打分结果上传系统服务器，根据打分结果更新对应线索来源的质量评分，进而更新新闻线索的综合得分，确保能够将最有价值的新闻线索推送给用户。

附图说明

图1是本发明的新闻线索个性化推送方法的流程图。

图2是本发明的实施例的新闻线索个性化推送方法的流程图。

图3是本发明的新闻线索个性化推送系统的构成图。

图4是本发明的实施例的新闻线索个性化推送系统的构成图。

图5为本发明的新闻线索个性化推送系统中，客户端与系统服务器之间进行打分反馈的流程图。

附图标记说明

1 新闻线索个性化推送系统

11 分类模块

12 评分模块

13 推送模块

14 反馈模块

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明的新闻线索个性化推送方法及系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的新闻线索个性化推送方法的流程图如图1所示。本发明的新闻线索个性化推送方法，包括：步骤1，创建新闻线索领域的标签，并为每个所述新闻线索领域分别训练一个新闻线索分类模型，使用所述新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类，并存入对应的兴趣领域线索集；步骤2，基于线索热度、时效性、和可信度建立新闻线索评分模型来对每个所述线索集中的每条新闻线索进行评分，每个所述线索集中均选择得分最高的TOP N条线索作为待推荐线索，N的取值可根据需求自行设定，N为正整数；步骤3，由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域，然后将对应于用户选择的新闻线索领域的所述待推荐线索推送给用户。

在上述步骤1中，利用SVM二值分类器训练线索自动分类模型，假设新闻线索领域的标签共有K个兴趣领域，通过训练K个二值分类器，对于一条线索CS_i，根据每个分类器的分类结果，对m个分类为真的分类器对应的m个兴趣领域作为线索CS_i所属的领域。最后每个领域都对应一个线索集，算法描述如下：

输入：线索集CS；

初始化每个兴趣领域的线索集S_k为空，k＝1…K；

对线索集中每一条线索CS_i；

对将CS_i作为每一兴趣领域的分类器CL_k的输入；

如果CL_k分类为真则将CSi添加到S_k中。

输出：S_k,k＝1…K。

在上述步骤2中，对每个兴趣领域对应的线索集S_k，根据线索热度、时效性、可信度三个维度进行打分，每个线索集S_k中均选择得分高的Top n个线索作为该领域的待推送线索。其中，线索热度用线索在搜索引擎中得到的相关结果数来体现，时效性用线索发现时间与当前时间的时间差计算，可信度则根据线索发现的来源计算。公式如下：

其中V_i为线索i的综合得分，C_i为搜索引擎得到的相关结果数，ΔT_i为线索发现时间与当前时间的时间差，单位为小时，avg(ΔT)为所有线索发现时间与当前时间的时间差的平均值，SR_i表示线索i对应的来源R_i的可信度打分，α、β、γ分别为三项的系数，可由经验设定，例如取值为0.3,0.4,0.3。

进而，图2为本发明的实施例的新闻线索个性化推送方法的流程图，在该实施方式中，在上述新闻线索个性化推送方法中添加了用户反馈的步骤，用户可以对其看过的每个线索进行打分，打分后对应线索和打分结果都将上传至系统服务器，根据打分结果更新对应线索来源的质量评分，更新公式如下：

SR_i'＝μ·SR_i+(1-μ)·avg(S_i) (2)

其中SR_i为线索来源R_i的质量评分，S_i表示线索来源i对应的线索打分集合，α为调节因子，取值范围[0,1]。

在上述步骤3中，针对不同用户具有不同的兴趣领域，准确找到用户的兴趣领域才能推送给用户想要的线索，而让用户自己选择兴趣领域是最直观也是效果最好的方法，故步骤3中采用由用户自己从兴趣标签中选择自己感兴趣领域的方案。

另外，本发明还提供一种新闻线索个性化推送系统1，如图3所示，包括：分类模块11，用于创建新闻线索领域的标签，并为每个所述新闻线索领域分别训练一个新闻线索分类模型，使用所述新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类，并存入对应的兴趣领域线索集；评分模块12，用于基于线索热度、时效性、和可信度建立新闻线索评分模型来对每个所述线索集中的每条新闻线索进行评分，每个所述线索集中均选择得分最高的N条线索作为待推荐线索，N的取值可根据需求自行设定；推送模块13，用于由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域，然后将对应于用户选择的新闻线索领域的所述线索集中的所述待推荐线索推送给用户。

在本发明的另一实施方式的新闻线索个性化推送系统中，如图4所示，进一步包括：反馈模块14，用于在客户端为每条推送的新闻线索提供打分功能，在用户打分后将对应线索和打分结果上传至系统服务器，根据所述打分结果更新对应线索的可信度得分。

图5为本发明的新闻线索个性化推送系统中，客户端与系统服务器之间进行打分反馈的流程图。来自兴趣领域线索集S_k的新闻线索经过评分模型进行评分后，选择得分最高的TOP N条新闻线索推送给用户，用户阅读了被推送的新闻线索后，对新闻线索进行打分，在用户打分后将对应线索和打分结果上传至系统服务器，系统服务器依据接收到的打分结果更新对应线索的可信度评分，进而更新新闻线索的评分模型，来自兴趣领域线索集S_k的新闻线索经过更新后的评分模型进行评分后，继续选择得分最高的TOP N条新闻线索推送给用户。由此，能够确保能够将最有价值的新闻线索推送给用户。

本发明的新闻线索个性化推送系统，其中，所述分类模块进一步包括：分类器判别模块，利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型，分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行分类，当有m个分类模型将某条新闻线索分类为真时，则取这m个所述分类模型所对应的m个兴趣领域作为该条新闻线索所属的领域，其中m为正整数。

本发明的新闻线索个性化推送系统中，所述评分模块中，根据新闻线索在搜索引擎中得到的相关结果数来计算所述线索热度，根据新闻线索的发现时间与当前时间的时间差来计算所述时效性，根据新闻线索发现的来源来计算所述可信度，所述新闻线索评分模块采用如下模型对新闻线索进行评分，

其中V_i为新闻线索CS_i的综合得分，C_i为搜索引擎得到的相关结果数，ΔT_i为新闻线索发现时间与当前时间的时间差，单位为小时，avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值，SR_i表示新闻线索CS_i对应的来源R_i的可信度打分，α、β、γ分别为所述新闻线索CS_i的线索热度、时效性、可信度的系数，可由经验设定，例如取值为0.3,0.4,0.3。

本发明的新闻线索个性化推送系统中，所述反馈模块进一步包括可信度评分更新模块，所述可信度评分更新模块建立可信度评分更新模型用于根据用户的打分结果计算更新后的可信度得分SR_i'，并用该SR_i'代替公式(1)中的SR_i来更新新闻线索评分模型，其中所述可信度评分更新模型为，

SR_i'＝μ·SR_i+(1-μ)·avg(S_i) (2)

S_i表示线索来源R_i对应的线索打分集合，μ为调节因子，取值范围[0,1]。

以下，结合具体数值实施例对本发明的实施方式的新闻线索个性化推送方法及系统进行更加详细地说明。

首先，本发明的新闻线索个性化推送系统为客户提供了包括汽车、数码、游戏、健康、家居、旅游、美食、体育、星座、教育……近几十种新闻线索的兴趣领域标签供用户进行选择，针对每个兴趣领域系统分别训练一个新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类，并分别存入对应的兴趣领域线索集S₁..S_n，n代表兴趣领域数，n为正整数。

具体地，可以利用SVM二值分类器训练上述分类模型，使用n个二值分类器分别对新闻候选线索集CS{CS₁、CS₁、CS₃…CS_i}(i为正整数)中的每一条新闻线索进行打分(一般来说，二值分类器打分范围为0-1，大于0.5为真，小于0.5为假)，对于新闻线索CS₁，假设只有体育类的二值分类器的分类结果为真，则将新闻线索CS₁放入体育类的线索集中，即该新闻线索CS₁被判定为体育类。对于新闻线索CS₂，假设汽车类的二值分类器、数码类的二值分类器分类结果都为真，则将该新闻线索CS₂分别放入汽车类的线索集和数码类的线索集中，即该条线索被判断为既属于数码类也属于汽车类。对于新闻线索CS₃，如果所有的二值分类器分类结果都为假，则丢弃该线索。通过上述方法来计算线索集CS中的每一条线索CS_i，将CS_i进行放入相应的线索集S₁….S_n。

具体算法描述如下：

输入：线索集CS；

初始化每个兴趣领域的线索集S_k为空，k＝1…n；

对线索集中每一条线索CS_i；

对将CS_i作为每一兴趣领域的分类器CL_k的输入，k＝1…n；

如果CL_k分类结果为真则将CS_i添加到S_k中。

输出：S_k,k＝1…n。

假设用户A在客户端选择了汽车、数码、体育三项兴趣标签作为自己的兴趣领域标签。接着，基于线索热度、时效性、和可信度建立新闻线索评分模型来对所述线索集S_k中的每条新闻线索进行评分，。具体地评分模型为：

其中V_i为新闻线索CS_i的综合得分，C_i为搜索引擎得到的相关结果数，本实施例只统计搜索引擎返回的前两页结果中的相关结果数，ΔT_i为新闻线索发现时间与当前时间的时间差，单位为小时，avg(ΔT)为所有新闻线索发现时间与当前时间的时间差的平均值，SR_i表示新闻线索CS_i对应的来源R_i的可信度得分，取值范围0-5(可以估计大部分的新闻线索打分值在0-5的范围之内，有可能会有少数新闻线索得分高于5，但最终只选择得分最高的TOP N条新闻线索作为待推荐线索)，α、β、γ分别为所述新闻线索CS_i的线索热度、时效性、可信度的权重系数。在本实施例中，假设α、β、γ分别为0.3、0.4、0.3。

对每条线索完成评分后，每个线索集S_k只保留得分最高的Top N条线索，N取值可由系统人员自行设定，本实施例中取值为20。

最后，假设系统某用户A选择了汽车、数码、体育三个兴趣领域，则将这三个兴趣领域对应的线索集合并后推送给用户A。

在客户端提供线索打分模块，用户可以对每条线索打1到5分，假设用户A对线索CS_j打分为3，则将打分上传至系统，系统定时会对所有线索来源R_i对应的线索集S_i的用户打分结果求均值，并根据公式：SR_i'＝μ·SR_i+(1-μ)·avg(S_i)来更新线索来源R_i的可信度得分SR_i，本实施例中u取值为0.85。

Claims

1.一种新闻线索个性化推送方法，其特征在于，包括：

步骤1，创建新闻线索领域的标签，为每个所述新闻线索领域分别训练一个新闻线索的分类模型，使用所述分类模型对新闻线索候选集中的每条新闻线索进行新闻线索领域分类，存入对应领域的新闻线索集；

步骤2，基于新闻线索的热度、时效性、和可信度建立新闻线索的评分模型来对每个所述新闻线索集中的每条新闻线索进行评分，每个所述新闻线索集中均选择得分最高的N条新闻线索作为待推荐线索，N的取值可根据需求自行设定；

步骤3，由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域，然后将对应于用户选择的新闻线索领域的所述新闻线索集中的所述待推荐线索推送给用户。

2.根据权利要求1所述的新闻线索个性化推送方法，其特征在于，所述方法进一步包括：

步骤4，在客户端为每条推送的新闻线索提供打分功能，在用户打分后将对应的新闻线索和打分结果上传至系统服务器，根据所述打分结果更新对应的新闻线索的可信度得分。

3.根据权利要求1所述的新闻线索个性化推送方法，其特征在于，

所述步骤1中，利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型，分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行新闻线索领域分类，当有m个分类模型将某条新闻线索分类为真时，则取这m个所述分类模型所对应的m个新闻线索领域作为该条新闻线索所属的领域，其中m为正整数。

4.根据权利要求1所述的新闻线索个性化推送方法，其特征在于，

所述步骤2中，所述线索热度根据新闻线索在搜索引擎中得到的相关结果数来计算；所述时效性根据新闻线索的发现时间与当前时间的时间差计算；所述可信度根据新闻线索发现的来源计算；所述新闻线索的评分模型为：

5.根据权利要求2所述的新闻线索个性化推送方法，其特征在于，

所述步骤4进一步为，建立新闻线索的可信度评分更新模型用于根据用户的打分结果计算更新后的可信度得分SR_i'，并用该SR_i'代替公式(1)中的SR_i来更新新闻线索评分模型，其中所述可信度评分更新模型为，

SR_i'＝μ·SR_i+(1-μ)·avg(S_i) (2)

6.一种新闻线索个性化推送系统，其特征在于，包括：

分类模块，用于创建新闻线索领域的标签，为每个所述新闻线索领域分别训练一个新闻线索的分类模型，使用所述分类模型对新闻线索候选集中的每条新闻线索进行新闻线索领域分类，存入对应领域的新闻线索集；

评分模块，用于基于新闻线索的热度、时效性、和可信度建立新闻线索的评分模型来对每个所述新闻线索集中的每条新闻线索进行评分，每个所述新闻线索集中均选择得分最高的N条新闻线索作为待推荐线索，N的取值可根据需求自行设定；

推送模块，用于由用户从所述标签中选择自己感兴趣的一个或多个新闻线索领域，然后将对应于用户选择的新闻线索领域的所述新闻线索集中的所述待推荐线索推送给用户。

7.根据权利要求6所述的新闻线索个性化推送系统，其特征在于，进一步包括：

反馈模块，用于在客户端为每条推送的新闻线索提供打分功能，在用户打分后将对应的新闻线索和打分结果上传至系统服务器，根据所述打分结果更新对应的新闻线索的可信度得分。

8.根据权利要求6所述的新闻线索个性化推送系统，其特征在于，所述分类模块进一步包括：

分类器判别模块，利用二值分类器根据每个所述新闻线索领域分别建立一个新闻线索的分类模型，分别用每个所述分类模型来对新闻线索候选集中的每条新闻线索进行新闻线索领域分类，当有m个分类模型将某条新闻线索分类为真时，则取这m个所述分类模型所对应的m个新闻线索领域作为该条新闻线索所属的领域，其中m为正整数。

9.根据权利要求6所述的新闻线索个性化推送系统，其特征在于，

所述评分模块中，根据新闻线索在搜索引擎中得到的相关结果数来计算所述线索热度，根据新闻线索的发现时间与当前时间的时间差来计算所述时效性，根据新闻线索发现的来源来计算所述可信度；所述评分模块采用如下模型对新闻线索进行评分：

10.根据权利要求7所述的新闻线索个性化推送系统，其特征在于，

所述反馈模块进一步包括可信度评分更新模块，所述可信度评分更新模块建立可信度评分更新模型用于根据用户的打分结果计算更新后的新闻线索的可信度得分SR_i'，并用该SR_i'代替公式(1)中的SR_i来更新新闻线索的评分模型，其中所述可信度评分更新模型为，

SR_i'＝μ·SR_i+(1-μ)·avg(S_i) (2)