CN105095202B

CN105095202B - 消息推荐方法及装置

Info

Publication number: CN105095202B
Application number: CN201410155869.3A
Authority: CN
Inventors: 徐君; 李航
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-04-17
Filing date: 2014-04-17
Publication date: 2018-10-30
Anticipated expiration: 2034-04-17
Also published as: US20170032271A1; WO2015158224A1; US10891553B2; CN105095202A

Abstract

本发明实施例提供一种消息推荐方法及装置。本发明消息推荐方法，包括：分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息；其中，所述第二用户为除所述第一用户之外的其它用户；将所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度；若所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的所述第二消息。本发明实施例使用户可以方便灵活地获取到感兴趣的消息。

Description

消息推荐方法及装置

技术领域

本发明实施例涉及互联网技术，尤其涉及一种消息推荐方法及装置。

背景技术

互联网中的社交媒体，例如微博、Twitter等受到广大用户的欢迎。用户可方便的获取该用户所关注的人发送的各类消息，极大的方便了用户获取信息的需求。

现有技术中，社交媒体推送消息的方式主要是基于用户的圈子（例如用户所关注的人）来发送消息。一般来说，没有被该用户关注的圈子中的消息无法被用户获取。

用户从其关注的圈子中获取的消息中，有大量的消息是用户不感兴趣的，这样就浪费了用户的时间和精力。而没有被该用户关注的圈子中的消息中，有大量的消息是用户感兴趣的，但用户无法获得这些消息，因此，现有技术中社交媒体向用户推送消息的方式缺乏灵活性。

发明内容

本发明实施例提供一种消息推荐方法及装置，以使用户可以方便灵活地获取到感兴趣的消息。

第一方面，本发明实施例提供一种消息推荐方法，包括：

分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息；其中，所述第二用户为除所述第一用户之外的其它用户；

将所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度；

若所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的所述第二消息。

结合第一方面，在第一方面的第一种可能的实现方式中，所述兴趣描述信息包括所述第一用户发布的所述第一消息在K个话题上的概率分布信息；所述话题描述信息包括所述第二用户发布的所述第二消息在K个话题上的概率分布信息，所述K为大于0的整数；

相应地，所述对所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度，包括：

比较所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息，并计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息，具体包括：

分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息以及所述第二消息中每一个词在K个话题上的分配信息；分别根据所述分配信息确定所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息以及所述第二消息中每一个词在K个话题上的分配信息；分别根据所述分配信息确定所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息，包括：

将消息中的每一个词随机分配给所述K个话题中的任意一个，获取经过随机分配后所述消息中每一个词在所述K个话题上的分配信息；其中，所述消息包括所述第一消息或所述第二消息；

使用吉布斯采样的方法，从所述消息中的第一个词开始，根据所述词属于其他话题概率的大小，确定是否需要将所述词重新分配到其他话题，当确定结果为是，则将所述词进一步分配到所述需要分配的话题上，直至遍历所述消息中所有词，更新经过所述遍历之后所述消息中需要重新分配的词在所述K个话题上的分配信息；

重复所述遍历，直至重复的次数达到第一预定值，或者需要被重新分配话题的词占据发送所述消息的用户发布的所有消息中的所有词的比例少于第二预定值时停止所述遍历，并获取经过最后一次遍历之后所述消息中每一个词在K个话题上的当前分配信息；

若所述消息为所述第一消息时，根据所述第一消息中每一个词在所述K个话题上的当前分配信息确定所述第一消息的兴趣描述信息；

若所述消息为所述第二消息时，根据所述第二消息中每一个词在所述K个话题上的当前分配信息确定所述第二消息的话题描述信息。

结合第一方面的第一种至第三种任一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述比较所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息，并计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度，具体包括：

使用余弦相似度算法：

其中，s(u,d)表示所述第一消息的兴趣描述信息与所述第二消息的话题描述信息的相似度；u表示所述第一消息的兴趣描述信息；d表示所述第二消息的话题描述信息；p_i表示向量u的第i个分量；q_i表示向量d的第i个分量。

结合第一方面的第一种至第三种任一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述比较所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息，并计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度，具体包括：

使用KL散度算法：

其中，KL(u,d)表示所述第一消息的兴趣描述信息与所述第二消息的话题描述信息的相似度；u表示所述第一消息的兴趣描述信息；d表示所述第二消息的话题描述信息；p_i表示向量u的第i个分量；q_i表示向量d的第i个分量。

第二方面，本发明实施例提供一种消息推荐装置，包括：

获取模块，用于分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息；其中，所述第二用户为除所述第一用户之外的其它用户；

比较模块，用于将所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度；

推送模块，用于若所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的消息。

结合第二方面，在第二方面的第一种可能的实现方式中，所述兴趣描述信息包括所述第一用户发布的所述第一消息在K个话题上的概率分布信息；所述话题描述信息包括所述第二用户发布的所述第二消息在K个话题上的概率分布信息，所述K为大于0的整数；

相应地，所述比较模块具体用于：比较所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息，并计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述获取模块具体用于：

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述获取模块，包括：

分配单元，用于将消息中的每一个词随机分配给所述K个话题中的任意一个，获取经过随机分配后所述消息中每一个词在所述K个话题上的分配信息；其中，所述消息包括所述第一消息或所述第二消息；

第一确定单元，用于使用吉布斯采样的方法，从所述消息中的第一个词开始，根据所述词属于其他话题概率的大小，确定是否需要将所述词重新分配到其他话题，当确定结果为是，则将所述词进一步分配到所述需要分配的话题上，直至遍历所述消息中所有词，更新经过所述遍历之后所述消息中需要重新分配的词在所述K个话题上的分配信息；

所述第一确定单元，还用于：重复所述遍历，直至重复的次数达到第一预定值，或者需要被重新分配话题的词占据发送所述消息的用户发布的所有消息中的所有词的比例少于第二预定值时停止所述遍历，并获取经过最后一次遍历之后所述消息中每一个词在K个话题上的当前分配信息；

第二确定单元，用于若所述消息为所述第一消息时，根据所述第一消息中每一个词在所述K个话题上的当前分配信息确定所述第一消息的兴趣描述信息；还用于若所述消息为所述第二消息时，根据所述第二消息中每一个词在所述K个话题上的当前分配信息确定所述第二消息的话题描述信息。

结合第二方面的第一种至第三种任一种可能的实现方式，在第二方面的第四种可能的实现方式中，所述比较模块，具体用于：

使用余弦相似度算法：

结合第二方面的第一种至第三种任一种可能的实现方式，在第二方面的第五种可能的实现方式中，所述比较模块，还具体用于：

使用KL散度算法：

本发明中，通过分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息；将所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度；若所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的所述第二消息，从而使用户可以方便灵活地获取到感兴趣的消息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明消息推荐方法实施例一的流程图；

图2为本发明消息推荐方法实施例二的流程图；

图3为本发明消息推荐装置实施例的结构示意图；

图4为本发明消息推荐设备实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明消息推荐方法实施例一的流程图。本实施例的执行主体可以为配置在服务器中的消息推荐装置，该装置可以通过软件和/或硬件实现。如图1所示，本实施例的方法可以包括：

步骤101、分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息。

从统计模型的角度来说，用户兴趣可以被描述为一个在K个话题上的概率分布，而每个话题又可以是在词上的一个概率分布。本发明实施例中，为了可以根据用户的话题偏好来预测该用户可能对一些新的微博或者其它网络文档的喜好程度，从而可以自动推荐给该用户想看到的内容，需要通过解析第一用户在网络上发布的第一消息，从而获取所述第一消息的兴趣描述信息（第一用户的兴趣描述信息），即包括所述第一用户发布的所述第一消息在K个话题上的概率分布信息（所述K为大于0的整数），其中，所述第一消息既可以是一条消息，也可以是多条消息，即所述第一消息是所述第一用户在网络上发布的消息集合。同时需要解析第二用户在网络上发布的第二消息，从而获取所述第二消息的话题描述信息，即包含所述第二用户发布的所述第二消息在K个话题上的概率分布信息（所述K为大于0的整数），其中，所述第二用户为除所述第一用户之外的其它用户。

可选地，分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息以及所述第二消息中每一个词在K个话题上的分配信息；分别根据所述分配信息确定所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息。

从统计模型的角度来说，每个话题可以是在词上的一个概率分布。本发明实施例中，通过解析第一用户在网络上发布的第一消息，获取所述第一消息中每一个词在K个话题上的分配信息，并根据所述分配信息确定所述第一消息的兴趣描述信息；同时解析第二用户在网络上发布的第二消息，获取所述第二消息中每一个词在K个话题上的分配信息，并根据所述分配信息确定所述第二消息的话题描述信息。

可选地，所述分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息以及所述第二消息中每一词在K个话题上的分配信息；分别根据所述分配信息确定所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息，包括：

将消息中的每一个词随机分配给所述K个话题中的任意一个，获取经过随机分配后所述消息中每一次个词在所述K个话题上的分配信息；其中，所述消息包括所述第一消息或所述第二消息；

使用吉布斯采样的方法，从所述消息中的第一个词开始，根据所述词属于其他话题概率的大小，确定是否需要将所述词重新分配到其他话题，当确定结果为是，则将所述词进一步分配到所述需要分配的话题上，并更新所述词在所述K个话题上的当次分配信息，直至遍历所述消息中所有词，更新经过所述遍历之后所述消息中需要重复重新分配的词在所述K个话题上的分配信息；

本发明实施例中，初始时，将设定数量个用户中任意一个用户u在网络上发布的任意一条消息m中的每一个词随机分配给所述K个话题中的任意一个，其中，所述用户u可以为所述第一用户或所述第二用户，相应地，所述消息m分别可以为所述第一消息或所述第二消息；并获取经过随机分配后所述消息中每一个词在所述K个话题上的分配信息。随后，可以使用吉布斯采样的方法，从所述消息m中的第一个词开始，根据所述词属于其他话题的概率大小，确定是否需要将所述词重新分配到其他话题，当确定结果为是，则将所述词进一步分配到所述需要分配的话题上，直至遍历所述消息中所有词，更新经过所述遍历之后所述消息中需要重新分配的词在所述K个话题上的分配信息，从而对各个词的分配情况进行第一轮调整，调整后各个词的话题分配情况相比于初始分配更加合理，如,初始时随机地将消息m中的词1分配给话题2，而该词1属于话题5的概率大于话题2的概率时，则将词1分配给话题5。第一轮调整结束后，根据各个词经过第一轮调整之后的话题分配情况，对各个词的分配情况进行第二轮调整，调整后各个词的分配情况相比于第一轮更加合理。如此进行多轮调整，直至轮数达到第一预定值，或者每轮需要重新分配话题的词占据发送所述消息m的用户发布的所有消息中所有词的比例少于第二预定值时，即可以认为经过多次调整之后的分配情况已经非常合理了，因此，停止遍历过程，并获取经过最后一次遍历之后所述消息中每一个词在K个话题上的当前分配信息。最后，若所述消息m为所述第一消息时，根据所述第一消息中每一个词在所述K个话题上的当前分配信息确定所述第一消息的兴趣描述信息；若所述消息m为所述第二消息时，根据所述第二消息中每一个词在所述K个话题上的当前分配信息确定所述第二消息的话题描述信息。

本发明实施例中，把用户u发送的第m条消息（消息m）中的第n个词的标志记为这个词的值记为w。（例如，用户1发送的第2条消息中的第3个词记为这个词的值为“九寨沟”，则=九寨沟。）把话题标志记为z，把的话题分配情况记为（例如，第8个话题为“旅游”，把用户1发送的第2条消息中的第3个词分配给“旅游”这个话题，则记为=8）把数据集合中除了之外的词的取值情况记为把的话题分配情况记为

其中，每个词分配到某一话题的概率，和数据集合中其他词的话题分配情况相关。具体来说，分配到话题z的概率取决于：所在的消息m由话题z生成的概率，以及的值w由话题z生成的概率。

首先，考虑所在的消息m由话题z生成的概率，可从两个方面来考虑。第一方面是消息m中除了之外的其他词的话题分配情况。第二方面是该用户的整体话题分配情况。在第一方面中，用表示消息m中一个词在之前所有轮话题分配中，被分配到话题z的次数。用表示消息m中除了之外的其他所有词，在之前所有轮话题分配中，被分配到话题z的次数。在第二方面中，用(N_z|u)表示用户u发布的消息中（不管是哪条消息）一个词被分配到话题z的次数。用表示用户u发布的消息中（不管是哪条消息）除了之外的其他所有词，在之前所有轮话题分配中，被分配到话题z的次数。令N_·|u=N_1|u+N_2|u+...+N_K|u，用表示用户u发布的消息中（不管是哪条消息）除了之外的其他所有词，在之前所有轮话题分配中，被分配到各个话题（从话题1到话题K）的次数。

所在的消息m由话题z生成的概率，可用来定量的描述，其中，λ^u用来调整第一方面和第二方面的权重大小，β是用户兴趣分布的先验值，λ^u和β都是可调整的参数。

其次，考虑的值w由话题z生成的概率。用N_w|z表示数据集合中值为w的词被分配到话题z的次数。表示在之前所有轮话题分配中，数据集合中值为w的词被分配到话题z的次数。N_·|z表示数据集合中词（不管该词的值是什么）被分配到话题z的次数。表示数据集合中词（不管该词的值是什么），在之前所有轮话题分配中，被分配到话题z的次数。其中，W表示数据集合中不重复的词的总数，γ是话题中词分布的先验值，γ是可调整的参数，可以预先设定。

因此，本发明实施例中，具体地，各个词分配到或者属于某个话题的概率大小，如分配给话题z的概率可以通过下式确定：

其中，表示用户u发送的第m条消息（消息m）中的第n个词；

z表示话题；

表示话题的分配情况；表示数据集合中除了之外的词；

表示的话题分配情况；

表示消息m中一个词在之前所有轮话题分配中，被分配到话题z的次数；

表示消息m中除了之外的其他所有词，在之前所有轮话题分配中，被分配到话题z的次数；

(N_z|u)表示用户u发布的消息中（不管是哪条消息）一个词被分配到话题z的次数；

表示用户u发布的消息中（不管是哪条消息）除了之外的其他所有词，在之前所有轮话题分配中，被分配到话题z的次数；

表示用户u发布的消息中（不管是哪条消息）除了之外的其他所有词，在之前所有轮话题分配中，被分配到各个话题（从话题1到话题K）的次数；

表示在之前所有轮话题分配中，数据集合中值为w的词被分配到话题z的次数；

N_·|z表示数据集合中词（不管该词的值是什么）被分配到话题z的次数；表示数据集合中词（不管该词的值是什么），在之前所有轮话题分配中，被分配到话题z的次数；

W表示数据集合中词的总数；

γ表示话题中词分布的先验值；

λ^u表示调整第一方面和第二反面的权重大小；

β表示用户兴趣分布的先验值。

本发明实施例中，公式（1）给出了把分配给各个话题的概率的相对大小，并根据属于其他话题概率的大小，确定是否需要将所述词重新分配到其他话题。

本发明实施例中，每一轮的话题重新分配可采用吉布斯采样方法，吉布斯采样方法可以采用如下程序实现：

其中，所述公式中参数同上述公式（1），在此不再赘述。

进一步地，本发明实施例中在吉布斯采样的轮数达到第一预定值，或者每轮需要被重新分配话题的词占据发送所述消息的用户发布的所有消息中的所有词的比例少于第二预定值时停止所述遍历，并获取经过最后一次遍历之后所述消息中每一个词在K个话题上的当前分配信息（如N_z|u、及N_w|z），若所述消息为所述第一消息时，根据所述第一消息中每一个词在所述K个话题上的当前分配信息确定所述第一消息的兴趣描述信息，参见公式（4）；若所述消息为所述第二消息时，根据所述第二消息中每一个词在所述K个话题上的当前分配信息确定所述第二消息的话题描述信息，参见公式（5）。。

本发明人实施例中，第z个话题可以表示为在所有词上的概率分布(φ_z,1,φ_z,2,...,φ_z,W)，该分布的每一个元素可以为：

其中，φ_z,w表示话题z在词上的概率分布的第w个分量；

w=1,2,…,W，其它参数同上述公式（1）中参数相同，在此不再赘述。

某一个用户u的兴趣描述信息可以表示为()，该分布的每一个元素可以为：

其中，表示用户u的兴趣在话题z上的概率分布的第z个分量；

z=1,…,K，其它参数同上述公式（1）中参数相同。

某一个用户u的消息m的话题描述信息可以表示为()，该分布的每一个元素可以为：

其中，表示用户u的消息m在话题z上的概率分布的第z个分量；

z=1,…,K，其它参数同上述公式（1）中参数相同。

本发明实施例中，分别通过上述公式（3）、（4）及（5）计算得到任一话题在所有词上的概率分布、任一用户的兴趣描述信息及任一消息的话题描述信息。

步骤102、将所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度。

具体地，比较所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息，并计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度。

本发明实施例中，具体地，第一种可实现方式为使用余弦相似度算法：

本发明实施例中，在公式（5）中，令其中，可分别通过上述公式（4）及（5）计算出用户u的兴趣描述消息（即第一消息的兴趣描述消息），及用户v发布的消息t的话题描述信息（即第二消息的话题描述消息）。从而，通过上述公式（6）计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度。

可选地，本发明实施例中，第二种可实现方式为使用KL散度算法：

本发明实施例中，在公式（7）中，令其中，可分别通过上述公式（4）及（5）计算出用户u的兴趣描述消息（即第一消息的兴趣描述消息），及用户v发布的消息t的话题描述信息（即第二消息的话题描述消息）。从而，通过上述公式（7）计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度。

步骤103、若所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的所述第二消息。

本发明实施例中，可以通过上述公式（6）或（7）计算得到第一用户的兴趣描述信息与第二用户发布的消息t的兴趣描述信息的相似度，若该相似度大于或等于预定值，则可以认为所述第二用户发布的消息t是第一用户感兴趣的消息，从而向所述第一用户推送该消息，否则，则认为该消息t不是第一用户感兴趣的消息，从而不给第一用户推送该消息。可选地，所述向第一用户推送该消息还可以包括：将所述相似度结果提供给社交网络用以给用户推送感兴趣的消息。

本发明实施例中，通过分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息；将所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度；若所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的所述第二消息，从而使用户可以方便灵活地获取到感兴趣的消息。

图2为本发明消息推荐方法实施例二的流程图，如图2所示，首先，可以通过数据抓取服务器（网络爬虫）以及数据抓取控制器（爬虫调度）从社交网络如新浪微博爬取文档数据存入网络文件系统（Network File System，简称NFS）；其次，通过数据解析服务器和解析控制器把爬虫爬到的文档数据解析为结构化数据，作为UMM学习的输入，其中，所述UMM模型可以为根据本发明消息推荐方法实施例一中步骤101所述方法建立的模型；然后，根据该文档所属的作者和内容（所述结构化数据），通过UMM模型自动学习生成话题、生成文档话题（即每一个文档在话题层面的表示，也即消息的话题描述信息）以及生成用户话题（即每一个用户在话题层面的表示，也即用户的兴趣描述信息）并作为UMM模型的输出，即上述φ_z,w、及最后，当社交网络上检测到新产生的微博文档时，根据UMM模型计算新的文档的话题描述信息，并与用户兴趣描述信息进行比较（即相似度计算），可以在线预测每一个用户对这个新的微博文档的喜好程度，可选地，可以将该喜好程度反馈到社交网络用以根据该结果选取与各用户的兴趣最相似的微博进行相应地推荐。

可选地，本发明实施例的方法不依赖于具体语言的特征抽取技术、具体的社交网络环境及特定的用户行为模式，因此，本发明的应用场景不限于新浪微博、twitter等，可以方便地扩展到各种不同的社交网络环境和不同内容推荐，本发明实施例在此并不作限定。

图3为本发明消息推荐装置实施例的结构示意图，如图3所示，本实施例提供的消息推荐装置30包括：获取模块301、比较模块302及推送模块303。

其中，获取模块301用于分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息；其中，所述第二用户为除所述第一用户之外的其它用户；

比较模块302用于将所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度；

推送模块303用于若所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的消息。

可选地，所述兴趣描述信息包括所述第一用户发布的所述第一消息在K个话题上的概率分布信息；所述话题描述信息包括所述第二用户发布的所述第二消息在K个话题上的概率分布信息，所述K为大于0的整数；

可选地，所述获取模块301具体用于：分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息以及所述第二消息中每一个词在K个话题上的分配信息；分别根据所述分配信息确定所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息。

可选地，所述获取模块301包括：

可选地，所述比较模块302，具体用于：

使用余弦相似度算法：

可选地，所述比较模块302，还具体用于：

使用KL散度算法：

本实施例的消息推荐装置，可以用于上述消息推荐方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明消息推荐设备实施例的结构示意图，如图4所示，本实施例提供的消息推荐设备40包括处理器401和存储器402。消息推荐设备40还可以包括数据接口单元403，该数据接口单元403可以和处理器401相连。其中，数据接口单元403用于接收/发送数据，存储器402用于存储执行指令。当消息推荐设备40运行时，处理器401与存储器402之间通信，处理器401调用存储器402中的执行指令，用以执行上述消息推荐方法实施例中的操作。

本实施例的消息推荐设备，可以用于执行本发明消息推荐方法上述实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种消息推荐方法，其特征在于，包括：

若所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的所述第二消息；

其中，所述兴趣描述信息包括所述第一用户发布的所述第一消息在K个话题上的概率分布信息；所述话题描述信息包括所述第二用户发布的所述第二消息在K个话题上的概率分布信息，所述K为大于0的整数；

所述分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息，具体包括：

分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息以及所述第二消息中每一个词在K个话题上的分配信息；分别根据所述分配信息确定所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息；

所述分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息以及所述第二消息中每一词在K个话题上的分配信息；分别根据所述分配信息确定所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述话题描述信息与所述兴趣描述信息进行比较，并计算所述话题描述信息与所述兴趣描述信息的相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述比较所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息，并计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度，具体包括：

使用余弦相似度算法：

4.根据权利要求2所述的方法，其特征在于，所述比较所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息，并计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度，具体包括：

使用KL散度算法：

5.一种消息推荐装置，其特征在于，包括：

推送模块，用于当所述相似度大于或等于预定值时，向所述第一用户推送所述第二用户发布的消息；

所述获取模块具体用于：分别解析第一用户在网络上发布的第一消息以及第二用户在网络上发布的第二消息，获取所述第一消息以及所述第二消息中每一个词在K个话题上的分配信息；分别根据所述分配信息确定所述第一消息的兴趣描述信息以及所述第二消息的话题描述信息；

所述获取模块，包括：

6.根据权利要求5所述的装置，其特征在于，所述比较模块具体用于：比较所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息，并计算所述第二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似度。

7.根据权利要求6所述的装置，其特征在于，所述比较模块，具体用于：

使用余弦相似度算法：

8.根据权利要求6所述的装置，其特征在于，所述比较模块，还具体用于：

使用KL散度算法：