CN104933074A

CN104933074A - 新闻排序方法、装置和终端设备

Info

Publication number: CN104933074A
Application number: CN201410105454.5A
Authority: CN
Inventors: 臧文阳; 张轶博
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-03-20
Filing date: 2014-03-20
Publication date: 2015-09-23

Abstract

本发明提供一种新闻排序方法、装置和终端设备，该新闻排序方法包括：对新闻进行初步分类，获得新闻在所属类别的初始分数；标注每个类别下每条新闻所属的子类别；对每个子类别下每条新闻的文本进行处理，获得处理后文本；根据所述处理后文本计算每个子类别下每条新闻属于所标注子类别的分类概率；根据所述分类概率、用户对每个子类别的新闻的喜好概率和所述初始分数获得每条新闻的重排分数；根据所述重排分数对新闻进行重新排序。本发明可以实现直接为用户推荐感兴趣的新闻和个性化新闻，不需用户再进入某一个新闻分类阅读，进而可以提升新闻应用的终端体验。

Description

新闻排序方法、装置和终端设备

技术领域

本发明涉及信息技术，尤其涉及一种新闻排序方法、装置和终端设备。

背景技术

现在，新闻阅读产品一般是按照新闻内容所属的领域进行组织和整理的，如根据热点、国内和国际等进行首层分类，同一类别下再根据子专题进行分类，最后按照时间进行排列，新出的新闻排列在前，过时的排列在后。

这种分类方式有利于新闻的检索，但由于每个人的兴趣不同、信息需求不同，上述依据内容分类的新闻分类方式导致类别过多，不利于浏览，也不利于用户的阅读。

发明内容

本发明提供一种新闻排序方法、装置和终端设备，以实现直接为用户推荐感兴趣的新闻和个性化新闻，提升新闻应用的终端体验。

本发明第一方面提供一种新闻排序方法，包括：

对新闻进行初步分类，获得新闻在所属类别的初始分数；

标注每个类别下每条新闻所属的子类别；

对每个子类别下每条新闻的文本进行处理，获得处理后文本；

根据所述处理后文本计算每个子类别下每条新闻属于所标注子类别的分类概率；

根据所述分类概率、用户对每个子类别的新闻的喜好概率和所述初始分数获得每条新闻的重排分数；

根据所述重排分数对新闻进行重新排序。

结合第一方面，在第一方面的第一种可能的实现方式中，所述对每个子类别下每条新闻的文本进行处理包括：

对每个子类别下每条新闻的文本进行分词和词性标注，并去掉具有实际含义的词、出现次数少于预定阈值的词和停用词。

结合第一方面，在第一方面的第二种可能的实现方式中，所述根据所述分类概率、用户对每个子类别的新闻的喜好概率和所述初始分数获得每条新闻的重排分数之前，还包括：

从用户在社交媒体上留下的记录和用户日志中获取用户历史数据；

对所述用户历史数据中用户浏览过的新闻进行分类，获得所述用户浏览过的新闻所属的子类别；

根据所述用户历史数据中用户的浏览、转发和评论记录，以及所述用户浏览过的新闻所属的子类别获得所述用户对每个子类别的新闻的喜好概率。

结合第一方面，或者第一方面的第一种或第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述子类别包括新闻资讯类和新闻分析类。

本发明第二方面提供一种新闻排序装置，包括：

分类模块，用于对新闻进行初步分类，获得新闻在所属类别的初始分数；

标注模块，用于标注每个类别下每条新闻所属的子类别；

文本处理模块，用于对所述标注模块标注的每个子类别下每条新闻的文本进行处理，获得处理后文本；

计算模块，用于根据所述文本处理模块处理后的文本计算每个子类别下每条新闻属于所标注子类别的分类概率；以及根据所述分类概率、用户对每个子类别的新闻的喜好概率和所述分类模块获得的初始分数获得每条新闻的重排分数；

重排模块，用于根据所述计算模块获得的重排分数对新闻进行重新排序。

结合第二方面，在第二方面的第一种可能的实现方式中，

所述文本处理模块，具体用于对每个子类别下每条新闻的文本进行分词和词性标注，并去掉具有实际含义的词、出现次数少于预定阈值的词和停用词。

结合第二方面，在第二方面的第二种可能的实现方式中，所述装置还包括：获取模块；

所述获取模块，用于从用户在社交媒体上留下的记录和用户日志中获取用户历史数据；

所述分类模块，还用于对所述获取模块获取的用户历史数据中用户浏览过的新闻进行分类，获得所述用户浏览过的新闻所属的子类别；

所述计算模块，还用于根据所述获取模块获取的用户历史数据中用户的浏览、转发和评论记录，以及所述分类模块获得的所述用户浏览过的新闻所属的子类别获得所述用户对每个子类别的新闻的喜好概率。

本发明第三方面提供一种终端设备，包括：接收机、发射机和存储器，以及与所述接收机、所述发射机和所述存储器均连接的处理器；

其中，所述存储器，用于存储程序代码；

所述处理器，用于调用所述存储器中存储的程序代码，对新闻进行初步分类，获得新闻在所属类别的初始分数；标注每个类别下每条新闻所属的子类别；对每个子类别下每条新闻的文本进行处理，获得处理后文本；根据所述处理后文本计算每个子类别下每条新闻属于所标注子类别的分类概率；根据所述分类概率、用户对每个子类别的新闻的喜好概率和所述初始分数获得每条新闻的重排分数；以及根据所述重排分数对新闻进行重新排序。

结合第三方面，在第三方面的第一种可能的实现方式中，所述处理器用于对每个子类别下每条新闻的文本进行处理包括：

所述处理器，具体用于对每个子类别下每条新闻的文本进行分词和词性标注，并去掉具有实际含义的词、出现次数少于预定阈值的词和停用词。

结合第三方面，在第三方面的第二种可能的实现方式中，所述处理器，还用于在根据所述分类概率、用户对每个子类别的新闻的喜好概率和所述初始分数获得每条新闻的重排分数之前，从用户在社交媒体上留下的记录和用户日志中获取用户历史数据；对所述用户历史数据中用户浏览过的新闻进行分类，获得所述用户浏览过的新闻所属的子类别；根据所述用户历史数据中用户的浏览、转发和评论记录，以及所述用户浏览过的新闻所属的子类别获得所述用户对每个子类别的新闻的喜好概率。

本发明的技术效果是：首先，对新闻进行初步分类，获得新闻在所属类别的初始分数；其次，标注每个类别下每条新闻所属的子类别，对每个子类别下每条新闻的文本进行处理，获得处理后文本；再次，根据上述处理后文本计算每个子类别下每条新闻属于所标注子类别的分类概率；最后，根据上述分类概率、用户对每个子类别的新闻的喜好概率和上述初始分数获得每条新闻的重排分数，根据该重排分数对新闻进行重新排序。从而可以实现直接为用户推荐感兴趣的新闻和个性化新闻，不需用户再进入某一个新闻分类阅读，进而可以提升新闻应用的终端体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明新闻排序方法一个实施例的流程图；

图2为本发明新闻排序装置一个实施例的结构示意图；

图3为本发明新闻排序装置另一个实施例的结构示意图；

图4为本发明终端设备一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明新闻排序方法一个实施例的流程图，如图1所示，该新闻排序方法可以包括：

步骤101，对新闻进行初步分类，获得新闻在所属类别的初始分数。

具体地，就是将各新闻网站上的新闻初步划分为政治、经济和/或体育等类别。

步骤102，标注每个类别下每条新闻所属的子类别。

本实施例中，每个类别下的子类别可以分为新闻资讯类和新闻分析类这两个子类别；这样，标注每个类别下每条新闻所属的子类别可以为：标注每个类别下的每条新闻是属于新闻资讯这个子类别，还是属于新闻分析这个子类别。

步骤103，对每个子类别下每条新闻的文本进行处理，获得处理后文本。

具体地，对每个子类别下每条新闻的文本进行处理可以为：对每个子类别下每条新闻的文本进行分词和词性标注，并去掉具有实际含义的词、出现次数少于预定阈值的词和停用词。

举例来说，对每个子类别下每条新闻的文本进行分词和词性标注可以为：云南/n反思/v“/w香格里拉/n旅游/v怪象/n”/w：/w“/w零/m负/b团费/n”/w与/c监管/v薄弱/a多重/b因素/n叠加/v。/w

由于名词带有很多实际意义，而文本处理希望获得的是虚词和动词等词之间的关系，因此需要去掉名词等具有实际含义的词，以及出现次数少于预定阈值的词和停用词，以获得处理后文本。

具体到上面的举例，去掉上述词之后，获得的处理后文本可以为：反思/v旅游/v零/m负/b与/c监管/v薄弱/a多重/b叠加/v。

其中，上述预定阈值可以在具体实现时根据系统性能和实现要求等自行设定，本发明实施例对预定阈值的大小不作限定，举例来说，该预定阈值可以为5。

步骤104，根据上述处理后文本计算每个子类别下每条新闻属于所标注子类别的分类概率。

具体地，计算每个子类别下每条新闻属于所标注子类别的分类概率可以采用朴素贝叶斯（NaiveBayes）或支持向量机（Support Vector Machine；以下简称：SVM）等算法，本发明对此不作限定。

步骤105，根据上述分类概率、用户对每个子类别的新闻的喜好概率和上述初始分数获得每条新闻的重排分数。

步骤106，根据上述重排分数对新闻进行重新排序。

进一步地，步骤105之前，还可以从用户在社交媒体（social media）上留下的记录和用户日志中获取用户历史数据，对上述用户历史数据中用户浏览过的新闻进行分类，获得上述用户浏览过的新闻所属的子类别；然后，再根据上述用户历史数据中用户的浏览、转发和评论记录，以及上述用户浏览过的新闻所属的子类别获得上述用户对每个子类别的新闻的喜好概率。具体地，对上述用户历史数据中用户浏览过的新闻进行分类的方式可以参照上述步骤101～步骤104介绍的方法，在此不再赘述。

具体地，从用户在社交媒体上留下的记录中可以得到用户浏览过的新闻、用户对浏览过的新闻的评论、转发记录和用户浏览新闻时的背景（context）信息。另外，系统初始只能获得社交媒体上的信息，但是随着用户使用记录越来越多，系统也会保存用户日志，用户日志中保存用户浏览新闻时的位置、用户状态（例如：用户是静止还是运动等）、用户浏览新闻的时间、用户是否打开链接、用户阅读新闻的时间和用户阅读新闻时的周围环境状况（例如：周围环境是安静还是嘈杂等）。

于是，可以从用户在社交媒体上留下的记录和用户日志中获取用户历史数据，然后对用户历史数据中用户浏览过的新闻进行分类，获得上述用户浏览过的新闻所属的子类别，这里对上述用户历史数据中用户浏览过的新闻进行分类可以参照上述步骤101～步骤104介绍的方法。最后，再根据上述用户历史数据中用户的浏览、转发和评论记录，以及上述用户浏览过的新闻所属的子类别获得上述用户对每个子类别的新闻的喜好概率。这里，可以使用SVM、排列（Rank）或奇异值分解（Sigular Value Decomposition；以下简称：SVD）等算法计算上述喜好概率，本发明对所使用的算法不作限定。

具体地，步骤105中，获得每条新闻的重排分数可以分为以下两种情形：a、如果系统中没有保存用户日志，则按照式（1）计算重排分数；b、如果系统中保存有用户日志，则训练重排模型m，利用式（2）计算重排分数。

New score=S1+P1×P2 （1）

New score=Pm(S1,P1×P2) （2）

其中，式（1）和式（2）中，New score为上述重排分数；S1为步骤101获得的新闻在所属类别的初始分数；P1为用户对每个子类别的新闻的喜好概率；P2为每个子类别下每条新闻属于所标注子类别的分类概率。

具体地，式（2）中，将S1和P1×P2作为特征（feature）训练一个模型，Pm（·）是指根据S1和P1×P2使用已训练出的模型计算出New score的整个预测的过程。其中，训练重排模型m可以根据上述S1、New Score、用户的反馈和用户日志中保存的信息，使用SVM或SVD等算法训练上述重排模型m。

上述实施例中，首先，对新闻进行初步分类，获得新闻在所属类别的初始分数；其次，标注每个类别下每条新闻所属的子类别，对每个子类别下每条新闻的文本进行处理，获得处理后文本；再次，根据上述处理后文本计算每个子类别下每条新闻属于所标注子类别的分类概率；最后，根据上述分类概率、用户对每个子类别的新闻的喜好概率和上述初始分数获得每条新闻的重排分数，根据该重排分数对新闻进行重新排序。从而可以实现直接为用户推荐感兴趣的新闻和个性化新闻，不需用户再进入某一个新闻分类阅读，进而可以提升新闻应用的终端体验。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图2为本发明新闻排序装置一个实施例的结构示意图，如图2所示，该新闻排序装置可以包括：分类模块21、标注模块22、文本处理模块23、计算模块24和重排模块25；

其中，分类模块21，用于对新闻进行初步分类，获得新闻在所属类别的初始分数；

标注模块22，用于标注每个类别下每条新闻所属的子类别；

文本处理模块23，用于对标注模块22标注的每个子类别下每条新闻的文本进行处理，获得处理后文本；

计算模块24，用于根据文本处理模块23处理后的文本计算每个子类别下每条新闻属于所标注子类别的分类概率；以及根据上述分类概率、用户对每个子类别的新闻的喜好概率和分类模块21获得的初始分数获得每条新闻的重排分数；

重排模块25，用于根据计算模块24获得的重排分数对新闻进行重新排序。

其中，文本处理模块23，具体用于对每个子类别下每条新闻的文本进行分词和词性标注，并去掉具有实际含义的词、出现次数少于预定阈值的词和停用词。上述预定阈值可以在具体实现时根据系统性能和实现要求等自行设定，本发明实施例对预定阈值的大小不作限定，举例来说，该预定阈值可以为5。

本实施例中，每个类别下的子类别可以分为新闻资讯类和新闻分析类这两个子类别；这样，标注模块22标注每个类别下每条新闻所属的子类别可以为：标注每个类别下的每条新闻是属于新闻资讯这个子类别，还是属于新闻分析这个子类别。

进一步地，如图3所示，上述新闻排序装置还可以包括：获取模块26，图3为本发明新闻排序装置另一个实施例的结构示意图。

其中，获取模块26，用于从用户在社交媒体上留下的记录和用户日志中获取用户历史数据；

本实施例中，分类模块21，还用于对获取模块26获取的用户历史数据中用户浏览过的新闻进行分类，获得所述用户浏览过的新闻所属的子类别；

计算模块24，还用于根据获取模块26获取的用户历史数据中用户的浏览、转发和评论记录，以及分类模块21获得的上述用户浏览过的新闻所属的子类别获得上述用户对每个子类别的新闻的喜好概率。

上述实施例中，分类模块21对新闻进行初步分类，获得新闻在所属类别的初始分数；然后，标注模块22标注每个类别下每条新闻所属的子类别，文本处理模块23对标注模块22标注的每个子类别下每条新闻的文本进行处理，获得处理后文本；再次，计算模块24根据文本处理模块23处理后的文本计算每个子类别下每条新闻属于所标注子类别的分类概率；以及根据上述分类概率、用户对每个子类别的新闻的喜好概率和分类模块21获得的初始分数获得每条新闻的重排分数，最后重排模块25根据计算模块24获得的重排分数对新闻进行重新排序。从而可以实现直接为用户推荐感兴趣的新闻和个性化新闻，不需用户再进入某一个新闻分类阅读，进而可以提升新闻应用的终端体验。

图4为本发明终端设备一个实施例的结构示意图，如图4所示，该终端设备可以包括：接收机41、发射机42和存储器43，以及与接收机41、发射机42和存储器43均连接的处理器44；当然该终端设备还可以包括天线、基带处理部件和输入输出部件等通用部件，在此不再赘述。

其中，存储器43，用于存储程序代码；

处理器44，用于调用存储器43中存储的程序代码，对新闻进行初步分类，获得新闻在所属类别的初始分数；标注每个类别下每条新闻所属的子类别；对每个子类别下每条新闻的文本进行处理，获得处理后文本；根据上述处理后文本计算每个子类别下每条新闻属于所标注子类别的分类概率；根据上述分类概率、用户对每个子类别的新闻的喜好概率和上述初始分数获得每条新闻的重排分数；以及根据上述重排分数对新闻进行重新排序。

具体地，处理器44用于对每个子类别下每条新闻的文本进行处理可以为：处理器44，具体用于对每个子类别下每条新闻的文本进行分词和词性标注，并去掉具有实际含义的词、出现次数少于预定阈值的词和停用词。其中，上述预定阈值可以在具体实现时根据系统性能和实现要求等自行设定，本发明实施例对预定阈值的大小不作限定，举例来说，该预定阈值可以为5。

本实施例中，进一步地，处理器44，还用于在根据上述分类概率、用户对每个子类别的新闻的喜好概率和上述初始分数获得每条新闻的重排分数之前，从用户在社交媒体上留下的记录和用户日志中获取用户历史数据；对上述用户历史数据中用户浏览过的新闻进行分类，获得上述用户浏览过的新闻所属的子类别；根据上述用户历史数据中用户的浏览、转发和评论记录，以及上述用户浏览过的新闻所属的子类别获得所述用户对每个子类别的新闻的喜好概率。

上述终端设备中，处理器44首先对新闻进行初步分类，获得新闻在所属类别的初始分数；其次，标注每个类别下每条新闻所属的子类别，对每个子类别下每条新闻的文本进行处理，获得处理后文本；再次，根据上述处理后文本计算每个子类别下每条新闻属于所标注子类别的分类概率；最后，根据上述分类概率、用户对每个子类别的新闻的喜好概率和上述初始分数获得每条新闻的重排分数，根据该重排分数对新闻进行重新排序。从而可以实现直接为用户推荐感兴趣的新闻和个性化新闻，不需用户再进入某一个新闻分类阅读，进而可以提升新闻应用的终端体验。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种新闻排序方法，其特征在于，包括：

对新闻进行初步分类，获得新闻在所属类别的初始分数；

标注每个类别下每条新闻所属的子类别；

根据所述重排分数对新闻进行重新排序。

2.根据权利要求1所述的方法，其特征在于，所述对每个子类别下每条新闻的文本进行处理包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述分类概率、用户对每个子类别的新闻的喜好概率和所述初始分数获得每条新闻的重排分数之前，还包括：

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述子类别包括新闻资讯类和新闻分析类。

5.一种新闻排序装置，其特征在于，包括：

标注模块，用于标注每个类别下每条新闻所属的子类别；

6.根据权利要求5所述的装置，其特征在于，

7.根据权利要求5所述的装置，其特征在于，还包括：获取模块；

8.一种终端设备，其特征在于，包括：接收机、发射机和存储器，以及与所述接收机、所述发射机和所述存储器均连接的处理器；

其中，所述存储器，用于存储程序代码；

9.根据权利要求8所述的终端设备，其特征在于，所述处理器用于对每个子类别下每条新闻的文本进行处理包括：

10.根据权利要求8所述的终端设备，其特征在于，

所述处理器，还用于在根据所述分类概率、用户对每个子类别的新闻的喜好概率和所述初始分数获得每条新闻的重排分数之前，从用户在社交媒体上留下的记录和用户日志中获取用户历史数据；对所述用户历史数据中用户浏览过的新闻进行分类，获得所述用户浏览过的新闻所属的子类别；根据所述用户历史数据中用户的浏览、转发和评论记录，以及所述用户浏览过的新闻所属的子类别获得所述用户对每个子类别的新闻的喜好概率。