CN105095228A

CN105095228A - 一种社交消息的监测方法及装置

Info

Publication number: CN105095228A
Application number: CN201410175434.5A
Authority: CN
Inventors: 陈雷; 周项敏; 何秀强
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-04-28
Filing date: 2014-04-28
Publication date: 2015-11-25
Also published as: WO2015165230A1; US10250550B2; US20160248724A1; EP3009942A4; EP3009942A1

Abstract

本发明的实施例提供一种社交消息的监测方法及装置，涉及通信领域，能够解决社交网客户端不能主动发现社交事件的问题。具体的实现方法为：社交网服务器接收社交消息，得到所述社交消息的主题概率向量；将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性；将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中；当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出所述消息类。本发明用于实现对社交消息的监测。

Description

一种社交消息的监测方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种社交消息的监测方法及装置。

背景技术

近年来，社交媒体，如微博、微信、论坛、播客等，已经成为人们发布消息的重要途径。社交媒体的信息中往往包含着在事件发生过程中的各种重要资料和线索，通过消息及时发现和监控重大事件的发生及变化过程，能够提高对危机事件管理和决策的灵活性和实时性。

以新西兰昆士兰水灾为例，整个水灾过程从不同角度在Twitter(一种社交媒体的名称)上进行了实时呈现，例如发生了什么、在哪里发生、有谁参与、以及对周边环境的影响等。如下的事件都出现在Twitter上，“一艘游艇在布里斯班河正在沉没”、“港口重新开放”、“鲨鱼被冲到街道上”、“一些重要政府机构办公地区临时管制”等。及时发现上述事件对救灾及危机管理都有重大的意义。

现有的对社交消息进行发现的过程是：用户通过社交网客户端主动对社交消息进行查询、收集相关的社交事件。即对社交消息的获取需要通过人工输入的方式在社交网客户端中输入社交消息的基本信息，然后由浏览器或社交网客户端依据社交消息的基本信息搜索获取一个类别的社交消息。

在实现上述社交消息发现的过程中，由于对社交消息的获取是通过人工触发，这样社交网客户端并不能实现对社交消息的实时监测，因此社交网客户端不能主动发现互联网社交事件的更新。

发明内容

本发明的实施例提供一种社交消息的监测方法及装置，以实现对社交消息的实时监控，从而使社交网客户端能主动发现聚类的社交事件。

本发明的实施例采用如下技术方案：

第一方面，提供一种社交消息的监测方法，包括：

接收社交消息，并对所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量；

将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性，其中，所述代表消息为一个消息类中具有代表性的社交消息；

将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中；

当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出所述消息类。

结合第一方面，在第一种可能的实现方式中，所述方法还包括：

若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值，则新建一个消息类，将所述社交消息存入所述新建的消息类。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述方法还包括：

从每一个消息类中选取代表消息；

其中，所述从每一个消息类中选取代表消息包括：

在每一个消息类中选择预设的时间内的社交消息作为代表消息，其中，不同的消息类中预设的时间可以不相同；或

在所述每一个消息类中选择预设的地点内的社交消息作为代表消息，其中，不同的消息类中预设的地点可以不相同；或

在所述每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息，其中，不同的消息类中预设的时间和预设的地点可以不相同；或

将所述每一个消息类中的所有的社交消息的主题概率向量进行加权平均，得到所述每一个消息类的代表消息的主题概率向量，在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息；其中，若有新的社交消息加入所述消息类，重新进行加权平均计算所述消息类的代表消息的主题概率向量。

结合第一方面或第一方面的第一种或第二种可能的实现方式，在第三种可能的实现方式中，所述接收社交消息，并对所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量，包括：

接收所述社交消息，获取所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数；

利用隐含狄利克雷分布LDA算法对所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数进行主题建模分析，得到所述社交消息的主题概率向量。

结合第一方面或第一方面的第一种到第三种任一种可能的实现方式，在第四种可能的实现方式中，所述方法还包括：

对比所述社交消息的用户与所述每个代表消息的用户得到所述社交消息与所述每个代表消息的用户相似性；

将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性，具体包括：

计算所述社交消息的主题概率向量与所述每个代表消息的主题概率向量的相对熵，得到所述社交消息与所述每个代表消息的主题消息相似性；

对所述主题消息相似性和用户相似性进行加权求和，得到所述社交消息与所述每个代表消息的相似性。

结合第一方面或第一方面的第一种到第四种任一种可能的实现方式，在第五种可能的实现方式中，所述方法还包括：

对任意一个消息类中的社交消息进行查找、插入、删除操作。

结合第一方面或第一方面的第一种到第五种任一种可能的实现方式，在第六种可能的实现方式中，所述对所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量之前，还包括：

获取所述社交消息所属的领域，若所述社交消息所属的领域不属于预设的领域，则剔除所述社交消息，得到过滤后的社交消息；

所述对所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量，包括：

对过滤后的所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量。

第二方面，提供一种社交网服务器，用于监测社交消息，其特征在于，包括：

主题建模模块,用于接收社交消息，并对所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量；

相似性获取模块，用于将所述主题建模模块接收的社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到所述社交消息与所述每个代表消息的主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性，其中，所述代表消息为一个消息类中具有代表性的社交消息；

聚类模块，用于将所述社交消息存入相似性获取模块测量得到的与所述社交消息相似性最高的代表消息所在的消息类中；

聚类分析模块，用于当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出所述消息类。

结合第二方面，在第一种可能的实现方式中，所述聚类模块还用于：

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述社交网服务器还包括：

聚类操作模块，用于从每一个消息类中选取代表消息；

其中，聚类操作模块具体用于：

将所述每一个消息类中的所有的社交消息的主题概率向量进行加权平均，得到所述每一个消息类的代表消息的主题概率向量，在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的代表消息，若有新的社交消息加入所述消息类，重新进行加权平均计算所述消息类的代表消息的主题概率向量。

结合第二方面或第二方面的第一种或第二种可能的实现方式，在第三种可能的实现方式中，所述主题建模模块包括：

参数收集单元，用于接收所述社交消息，获取所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数；

向量获取单元，用于利用隐含狄利克雷分布LDA算法对所述参数收集模块获取的社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数进行主题建模分析，得到所述社交消息的主题概率向量。

结合第二方面或第二方面的第一种到第三种任一种可能的实现方式，在第四种可能的实现方式中，所述社交网服务器还包括：

用户相似性测量模块，用于对比所述社交消息的用户与所述每个代表消息的用户得到所述社交消息与所述每个代表消息的用户相似性；

所述相似性获取模块包括：

主题相似性测量单元，用于计算所述社交消息的主题概率向量与所述每个代表消息的主题概率向量的相对熵，得到所述社交消息与所述每个代表消息的主题消息相似性；

相似性获取单元，用于对所述主题相似性获取模块得到的主题消息相似性和所述用户相似性模块得到的用户相似性进行加权求和，得到所述社交消息与所述每个代表消息的相似性。

结合第二方面或第二方面的第一种到第四种任一种可能的实现方式，在第五种可能的实现方式中，所述聚类操作模块还用于：

结合第二方面或第二方面的第一种到第五种任一种可能的实现方式，在第六种可能的实现方式中，所述社交网服务器还包括：

过滤模块，用于获取所述社交消息所属的领域，若所述社交消息所属的领域不属于预设的领域，则剔除所述社交消息，得到过滤后的社交消息；

所述主题建模模块,具体用于：

在上述方案中，社交网服务器接收社交消息，根据社交消息与每个代表消息的相似性，将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中，当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出该消息类，由于社交网服务器能够主动向社交网客户端输出消息类，实现了对社交消息的实时监测，使得社交网客户端能主动发现聚类的社交事件。

附图说明

图1为本发明的实施例提供的应用场景示意图；

图2为本发明的实施例提供的一种社交消息的检测方法的流程示意图；

图3为本发明的又一实施例提供的一种社交消息的检测方法的流程示意图；

图4为本发明的实施例提供的一种社交消息的存储结构示意图；

图5为本发明的实施例提供的一种社交消息的查找、插入和删除结构的示意图；

图6为本发明的实施例提供的一种社交网服务器的结构示意图；

图7为本发明的另一实施例提供的一种社交网服务器的结构示意图；

图8为本发明的又一实施例提供的一种社交网服务器的结构示意图；

图9为本发明的再一实施例提供的一种社交网服务器的结构示意图。

具体实施方式

下面将结合本发明的实施例中的附图，对本发明的实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例应用于社交网络系统，其中，参照图1所示，用户通过社交网客户端向社交网服务器上传社交消息(例如微博消息)，若用户需要对上传的社交消息进行浏览或评论，则用户通过社交网客户端向社交网服务器发送浏览或评论上传的社交消息的请求，社交网服务器会处理客户端提供浏览或评论的业务，下传相应的社交消息或评论，并存储相应的评论，实现了用户与用户之间的互动。在本发明的实施例中，用户通过社交网客户端向社交网服务器上传社交消息，社交网服务器，对上传的社交消息进行主题建模分析，根据社交消息与每个代表消息的相似性，将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中，若所述社交消息与所有代表消息的相似性均不超过预定阈值，则为所述社交消息新建一个消息类，当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出该消息类。这样，实现了对社交消息的实时监测。能够使该社交消息及时受到用户的关注。

具体的，参照图2所示，包括以下步骤：

101、接收社交消息，并对社交消息进行主题建模分析，得到社交消息的主题概率向量。

对于社交网服务器接收到的每一条社交消息，首先都进行主题建模分析，得到该社交消息的主题概率向量，并且该社交消息的主题概率向量与该社交消息始终保持对应存在的关系。其中，主题概率向量是该社交消息属于各个主题的概率所组成的向量，例如服务器中包括军事、财经、灾难、娱乐四个主题，接收到一条社交消息，对其进行主题建模分析，得到的主题概率向量包括四个概率(假设该主题概率向量为：{0.2、0.1、0.8、0.3})，这四个概率分别对应属于军事主题的概率、属于财经主题的概率、属于灾难主题的概率、属于娱乐主题的概率。

102、将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性，其中，所述代表消息为一个消息类中具有代表性的社交消息。

得到主题相似性之后，还可以结合其他的相似性参数得到更精确的社交消息与每个代表消息的相似性。

103、将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中。

可选的，若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值，则新建一个消息类，将所述社交消息存入所述新建的消息类。

从得到的社交消息与每个代表消息的相似性中，选取相似性最高的。并将社交消息存入该数值最高的相似性对应的代表消息所在的消息类中。若最高的所述社交消息与代表消息的相似性不超过预设的第一相似性阈值，说明所述社交消息不属于任一个现有的消息类。则新建一个消息类，将所述社交消息存入所述新建的消息类。

104、当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出所述消息类。

当任一个消息类中的社交消息的数量达到第一阈值时，说明该消息类中的社交消息的数量足够多，满足输出的第一条件。

或者，当所述消息类中所述所有社交消息间的相似性中，超过预设的第二相似性阈值的社交消息间的相似性的数量，达到第二阈值时，则满足主题一致性，输出该消息类。其中，第二阈值也可以为一个比例，即超过预设的第二相似性阈值的社交消息间的相似性的数量达到总数量的一定比例时，满足主题一致性。

可选的，在对所述社交消息进行主题建模分析之前，还可以获取社交消息所属的领域，若社交消息所属的领域不属于预设的领域，则剔除所述社交消息，得到过滤后的社交消息。社交网服务器可以对过滤后的所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量。

例如：预设的领域包括：政治、社会热点、灾难、金融。若接收到的社交消息的所属领域为娱乐，则过滤掉该社交消息。

可选的，还可以对任意一个消息类中的社交消息进行查找、插入、删除操作。

其中，运营商可以通过社交网服务器对社交网服务器中存储的社交消息进行查找、插入、删除操作。这样，提供了一种人工输入和输出社交消息或删除社交消息的方法，使社交消息的监测更加灵活。

在上述实施例中，社交网服务器接收社交消息，根据社交消息与每个代表消息的相似性，将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中，当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出该消息类，由于社交网服务器能够主动向社交网客户端输出消息类，实现了对社交消息的实时监测，使得社交网客户端能主动发现聚类的社交事件。

本发明的实施例提供一种社交消息的监测方法，参照图3所示，包括以下步骤：

201、接收社交消息，获取社交消息的内容参数、社交消息的时间参数、社交消息的空间参数。

202、利用隐含狄利克雷分布LDA算法对社交消息的内容参数、社交消息的时间参数、社交消息的空间参数进行主题建模分析，得到所述社交消息的主题概率向量。

隐含狄利克雷分布(LatentDirichletAllocation，简称LDA)算法可以对社交消息进行建模，其中，需要先指定主题的数量，再按照LDA算法计算出社交消息的主题概率向量，该主题概率向量包括社交消息属于每一个主题的概率。由于只使用社交消息的内容参数建模精确度低，所以再引入社交消息的时间参数和社交消息的空间参数提高精确度。其中，引入的社交消息的时间参数和社交消息的空间参数(空间参数分为：经度参数和纬度参数)可以设定为基于主题的贝塔分布，从而计算社交消息的主题概率向量。

203、从所有的消息类中选取代表消息。

具体的，以下提供四种选取方式：

在每一个消息类中选择预设的时间内的社交消息作为代表消息，其中，不同的消息类中预设的时间可以不相同；

或者，在每一个消息类中选择预设的地点内的社交消息作为代表消息，其中，不同的消息类中预设的地点可以不相同；或者，在每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息，其中，不同的消息类中预设的时间和预设的地点可以不相同；

或者，将每一个消息类中的所有的社交消息的主题概率向量进行加权平均，得到所述每一个消息类的代表消息的主题概率向量，在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息，若有新的社交消息加入所述消息类，重新进行加权平均计算所述消息类的代表消息的主题概率向量。其中，加权平均的权值可以根据时间，空间，用户数量决定，例如：越近上传的社交消息权值越高；离发生地越近的地方的社交消息权值越高；用户数量(包括上传用户的数量、转发用户的数量、关注用户的数量)越多的社交消息权值越高。

204、计算社交消息的主题概率向量与每个代表消息的主题概率向量的相对熵，得到所述社交消息与每个代表消息的主题消息相似性。

其中，主题的数量为n，社交消息P的主题概率向量P(1,2,……,n)和代表消息Q的主题概率向量Q(1,2,……,n)的相对熵计算公式为:

D_{KL} (P | | Q) = \underset{i}{Σ} P (i) \log \frac{P (i)}{Q (i)}

其中，D_KL(P||Q)代表P和Q的相对熵(Kullback–Leiblerdivergence，表示为D_KL)，P(i)为社交消息P的主题概率向量P(1,2,……,n)中的第i项，Q(i)为代表消息Q的主题概率向量Q(1,2,……,n)中的第i项。

205、对比社交消息的用户与每个代表消息的用户得到社交消息与每个代表消息的用户相似性。

其中，社交消息P的用户为：P＝<p1,p2,……,pi>，其中，p1,p2,……,pi为社交消息P的全部用户(上传用户、转发用户、回复用户)，代表消息Q的用户为：Q＝<q1,q2,……,qn>，其中，q1,q2,……,qn为代表消息Q的全部用户。社交消息与代表消息用户相似性计算公式为：

LCS (P, Q) = \{\begin{matrix} 0 \cdot \cdot \cdot \cdot \cdot \cdot i = 0; j = 0 \\ LCS (P_{i - 1}, Q_{j - i}) + 1 \cdot \cdot \cdot \cdot \cdot \cdot p_{i} = q_{i} \\ \max {LCS (P_{i}, Q_{j - 1}), LCS (P_{i - 1}, Q_{j})} \cdot \cdot \cdot \cdot \cdot \cdot p_{i} &NotEqual; q_{i} \end{matrix}\}

其中，LCS(P,Q)为社交消息P和代表消息Q最长公共子串(LongestCommonSubstring,简称LCS),这里，最长公共子串为最长公共用户串。若i＝0或j＝0时，社交消息P或代表消息Q为空用户，所以用户相似性为0。若p_i＝q_j，社交消息P和代表消息Q的最后一个用户相等，则用户相似性为社交消息P的前i-1个用户和代表消息Q的前j-1个用户的最长公共用户串再加上1(相等的最后一个用户)。若p_i≠q_j，社交消息P和代表消息Q的最后一个用户不相等，则用户相似性为社交消息P的用户和代表消息Q的前j-1个用户的最长公共用户串与社交消息P的前i-1个用户和代表消息Q的用户的最长公共用户串中的较大值。

206、对所述主题消息相似性和用户相似性进行加权求和，得到所述社交消息与所述代表消息的相似性。

社交消息P和代表消息Q的相似性公式为：

D(P,Q)＝ωD_KL(P||Q)+(1-ω)LCS(P,Q)

其中，D(P,Q)为社交消息P和代表消息Q的相似性，ω为社交消息P与代表消息Q的主题相似性的权值；1-ω为社交消息P与代表消息Q的用户相似性的权值。

207、将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中，若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值，则新建一个消息类，将所述社交消息存入所述新建的消息类。

其中，可以基于哈希数据结构来存储社交消息，参照图4所示，“排序事件类”存储每个消息类(图3中，消息类用E表示，第一个消息类为E₁，第二个消息类为E₂，……，第i个消息类为E_i；消息类E_i中的社交消息用hk_i1、hk_i2、……、hk_in表示)的哈希地址，而“哈希字典”存储指向存储社交消息的硬盘存储块。消息类中的代表消息的地址存储在每个消息类的属性中，消息类支持快速索引及查找。该哈希数据结构支持社交消息的动态存储及删除。由于社交消息数据量极大，该哈希数据结构只存储最近一个时间段的社交消息，例如一个小时。

208、当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，输出所述消息类。

具体的，参照步骤104，这里就不再赘述。

参照图5所示，提供一个与所有消息类相连的查找、插入、删除接口，用于对社交消息进行查找、插入、删除操作。接收输入指令(查找、插入、删除指令)，响应这个指令，对相应的消息类中的社交消息进行查找、插入、删除操作。若输入指令为查找指令，则输出相应的社交消息；若输入指令为插入指令，则将社交消息插入相应的消息类中；若输入指令为删除指令，则删除相应的消息类或相应的消息类中删除指令指定的社交消息。

这样，提供了一种人工输入和输出社交消息的方法，使社交消息的监测更加灵活。

本发明的实施例提供一种社交网服务器3，用于监测社交消息，参照图6所示，包括：

主题建模模块301,用于接收社交消息，并对社交消息进行主题建模分析，得到社交消息的主题概率向量。

对于接收到的每一条社交消息，首先都进行主题建模分析，得到该社交消息的主题概率向量，并且该社交消息的主题概率向量与该社交消息始终保持对应存在的关系。

可选的，参照图7所示，主题建模模块301包括：

参数收集单元301-1，用于接收社交消息，获取社交消息的内容参数、社交消息的时间参数、社交消息的空间参数；

向量获取单元301-2，用于利用LDA算法对社交消息的内容参数、社交消息的时间参数、社交消息的空间参数进行主题建模分析，得到社交消息的主题概率向量。

进一步的，所述社交网服务器3包括：

相似性获取模块302，用于将所述主题建模模块接收的社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性。

其中，所述代表消息为一个消息类中具有代表性的社交消息。得到主题相似性之后，还可以结合其他的相似性参数得到更精确的社交消息与每个代表消息的相似性。

进一步的，社交网服务器3，还包括：

聚类模块303，用于将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中，若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值，则新建一个消息类，将所述社交消息存入所述新建的消息类。

聚类分析模块304，用于当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出所述消息类。

进一步可选的，参照图7所示，社交网服务器3，还包括：

聚类操作模块305，用于从所有的消息类中选取代表消息。

其中，代表消息为一个消息类中具有代表性的社交消息。其中，聚类操作模块储存消息类。

具体的，聚类操作模块305用于：

或者，将每一个消息类中的所有的社交消息的主题概率向量进行加权平均，得到所述每一个消息类的代表消息的主题概率向量，在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的代表消息，若有新的社交消息加入所述消息类，需要重新加权平均计算所述消息类的代表消息的主题概率向量。其中，加权平均的权值可以根据时间，空间，用户数量决定，例如：越近上传的社交消息权值越高；离发生地越近的地方的社交消息权值越高；用户数量(包括上传用户、转发用户、关注用户)越多的社交消息权值越高。

可选的，聚类操作模块305还用于：

其中，运营商可以对社交网服务器中存储的社交消息进行查找、插入、删除操作。这样，提供了一种人工输入和输出社交消息或删除社交消息的方法，使社交消息的监测更加灵活。

具体的，接收输入指令(查找、插入、删除指令)，响应这个指令，对相应的消息类中的社交消息进行查找、插入、删除操作。若输入指令为查找指令，则输出相应的社交消息；若输入指令为插入指令，则将社交消息插入相应的消息类中；若输入指令为删除指令，则删除相应的消息类或相应的消息类中删除指令指定的社交消息。

可选的，图7中，社交网服务器3还包括：

用户相似性测量模块306，用于对比社交消息的用户与每个代表消息的用户得到社交消息与每个代表.消息的用户相似性。

相似性获取模块302，包括：

主题相似性测量单元302-1，用于计算社交消息的主题概率向量与每个代表消息的主题概率向量的相对熵，得到社交消息与每个代表消息的主题消息相似性。

相似性获取单元302-2，用于对所述主题相似性获取模块302-1得到的主题消息相似性和所述用户相似性模块306得到的用户相似性进行加权求和，得到所述社交消息与所述代表消息的相似性。

可选的，参照图8所示，该社交网服务器3还包括：

过滤模块307，用于获取社交消息所属的领域，若社交消息所属的领域不属于预设的领域，则剔除所述社交消息，得到过滤后的社交消息。社交网服务器可以对过滤后的所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量。

本发明的实施例提供一种社交网服务器4，用于监测社交消息，参照图9所示，包括：处理器401、通信接口402、存储器403和总线404，其中处理器401、通信接口402、存储器403通过总线404连接，存储器403用于存储处理器处理的数据。

总线404可以是ISA(IndustryStandardArchitecture，工业标准体系结构)总线、PCI(PeripheralComponent，外部设备互连)总线或EISA(ExtendedIndustryStandardArchitecture，扩展工业标准体系结构)总线等。该总线404可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中：

存储器403用于存储可执行程序代码，该程序代码包括计算机操作指令。存储器403可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器401可能是一个中央处理器(CentralProcessingUnit，简称为CPU)，或者是特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

处理器401，用于通过通信接口402接收社交消息，并对所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量。

具体的，处理器401，用于通过通信接口402接收社交消息，获取社交消息的内容参数、社交消息的时间参数、社交消息的空间参数。

处理器401，用于利用隐含狄利克雷分布LDA算法对社交消息的内容参数、社交消息的时间参数、社交消息的空间参数进行主题建模分析，得到所述社交消息的主题概率向量。

进一步的，处理器401，还用于将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性。

其中，所述代表消息为一个消息类中具有代表性的社交消息。

可选的，处理器401还用于对比社交消息的用户与每个代表消息的用户得到社交消息与每个代表消息的用户相似性。

进一步的，处理器401，用于计算社交消息的主题概率向量与每个代表消息的主题概率向量的相对熵，得到所述社交消息与每个代表消息的主题消息相似性。

处理器401，用于对所述主题消息相似性和用户相似性进行加权求和，得到所述社交消息与所述代表消息的相似性。

其中，处理器401，还用于从所有的消息类中选取代表消息。

具体的，以下提供四种选取方式：

进一步的，处理器401，还用于当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，通过通信接口402向社交网客户端输出所述消息类。

可选的，处理器401还用于：

对存储器403中存储的任意一个消息类中的社交消息进行查找、插入、删除操作。

可选的，处理器401还用于：

获取社交消息所属的领域，若社交消息所属的领域不属于预设的领域，则剔除所述社交消息，得到过滤后的社交消息。社交网服务器可以对过滤后的所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量。

在上述社交网服务器中，接收社交消息，根据社交消息与每个代表消息的相似性，将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中，当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出该消息类，由于社交网服务器能够主动向社交网客户端输出消息类，实现了对社交消息的实时监测，使得社交网客户端能主动发现聚类的社交事件。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种社交消息的监测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

从每一个消息类中选取代表消息；

其中，所述从每一个消息类中选取代表消息包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述接收社交消息，并对所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

所述将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性，具体包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述对所述社交消息进行主题建模分析，得到所述社交消息的主题概率向量之前，还包括：

8.一种社交网服务器，用于监测社交消息，其特征在于，包括：

相似性获取模块，用于将所述主题建模模块接收的社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性，其中，所述代表消息为一个消息类中具有代表性的社交消息；

9.根据权利要求8所述的社交网服务器，其特征在于，所述聚类模块还用于：

10.根据权利要求8或9所述的社交网服务器，其特征在于，所述社交网服务器还包括：

聚类操作模块，用于从每一个消息类中选取代表消息；

其中，聚类操作模块具体用于：

11.根据权利要求8-10任一项所述的社交网服务器，其特征在于，所述主题建模模块包括：

12.根据权利要求8-11任一项所述的社交网服务器，其特征在于，所述社交网服务器还包括：

所述相似性获取模块包括：

13.根据权利要求8-12任一项所述的社交网服务器，其特征在于，所述聚类操作模块还用于：

14.根据权利要求8-13所述的社交网服务器，其特征在于，所述社交网服务器还包括：

所述主题建模模块,具体用于：