CN105138684B

CN105138684B - 一种信息处理方法和信息处理装置

Info

Publication number: CN105138684B
Application number: CN201510587376.1A
Authority: CN
Inventors: 卢小东
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2015-09-15
Filing date: 2015-09-15
Publication date: 2018-12-14
Anticipated expiration: 2035-09-15
Also published as: CN105138684A

Abstract

提供一种信息处理方法，所述信息处理方法包括：获取第一信息集合，所述第一信息集合包括第一组多个用户名和多个词汇；使用语言模型来训练所述第一信息集合，得到第一多维向量集合，所述第一多维向量集合中的一个多维向量表示所述第一组多个用户名和多个词汇中的一个词汇或者一个用户名；以及根据所述第一多维向量集合中的每个多维向量表示的第一组多个用户名和多个词汇中的各个词汇和各个用户名相互之间的相似度来对所述第一组多个用户名和多个词汇进行聚类，将所述第一组多个用户名和多个词汇划分为第一多个社区。本发明提供的用于社交网络的方法在进行社区发现时能综合考虑用户名和用户发布的信息内容，并且可以获取足够数量的标签来标识社区。

Description

一种信息处理方法和信息处理装置

技术领域

本发明涉及一种信息处理方法，并且更具体地涉及一种用于社交网络的信息处理方法和装置。

背景技术

在社交网络中，关于用户的用户名的描述往往从下面几个方面来进行：1、用户自己填写的信息，包括关于用户的用户名的标签，职位，专业等；2、用户使用自己的用户名所发布的信息内容；3、用户的该用户名所加入的社交圈等。由于用户自主填写的关于用户名的标签很少，所以需要我们从不同角度为用户的该用户名添加标签。

发明内容

为了解决现有技术中的上述不足之处，根据本发明的一方面，提供一种一种信息处理方法，所述信息处理方法包括：获取第一信息集合，所述第一信息集合包括第一组多个用户名和多个词汇；使用语言模型来训练所述第一信息集合，得到第一多维向量集合，所述第一多维向量集合中的一个多维向量表示所述第一组多个用户名和多个词汇中的一个词汇或者一个用户名；以及根据所述第一多维向量集合中的每个多维向量表示的第一组多个用户名和多个词汇中的各个词汇和各个用户名相互之间的相似度来对所述第一组多个用户名和多个词汇进行聚类，将所述第一组多个用户名和多个词汇划分为第一多个社区。

此外，根据本发明的一个实施例，所述的信息处理方法，进一步包括：根据表示特定社区中的各个词汇和各个用户名之间的相似度的多维向量来建立相似度网络；以及根据随机游走算法确定对应于所述特定社区中的每个词汇的权重，使用权重大于用户预设的第一阈值的词汇作为所述特定社区的标签。

此外，根据本发明的一个实施例，所述的信息处理方法进一步包括：根据所述相似度网络来计算所述特定社区中每个用户名对于所述特定社区的影响力，使用所述影响力大于用户预设的第二阈值的用户名作为所述特定社区的标签。

此外，根据本发明的一个实施例，所述的信息处理方法进一步包括：当有特定用户名关注所述特定社区中的一个用户名时，根据所述特定社区中的被关注的用户名的影响力以及所述特定社区的特定词汇的权重来计算是否能够用所述特定社区中的所述特定词汇作为所述特定用户的标签。

此外，根据本发明的一个实施例，所述的信息处理方法，进一步包括：当所述特定社区中的第一用户发布了第一信息时，将所述第一信息推荐给所述特定社区中的除第一用户以外的其他用户。

一种信息处理装置，所述信息处理装置包括：获取单元，经配置来获取第一信息集合，所述第一信息集合包括第一组多个用户名和多个词汇；训练单元，经配置来使用语言模型来训练所述第一信息集合，得到第一多维向量集合，所述第一多维向量集合中的一个多维向量表示所述第一组多个用户名和多个词汇中的一个词汇或者一个用户名；以及分类单元，经配置来根据所述第一多维向量集合中的每个多维向量表示的第一组多个用户名和多个词汇中的各个词汇和各个用户名相互之间的相似度来对所述第一组多个用户名和多个词汇进行聚类，将所述第一组多个用户名和多个词汇划分为第一多个社区。

此外，根据本发明的一个实施例，其中，所述的信息处理装置进一步包括：相似度建立单元，经配置来根据表示特定社区中的各个词汇和各个用户名之间的相似度的多维向量来建立相似度网络，以及社区表示单元，经配置来根据随机游走算法确定对应于所述特定社区中的每个词汇的权重，使用权重大于用户预设的第一阈值的词汇作为所述特定社区的标签。

此外，根据本发明的一个实施例，其中，所述社区表示单元进一步经配置来：根据所述相似度网络来计算所述特定社区中每个用户名对于所述特定社区的影响力，使用所述影响力大于用户预设的第二阈值的用户名作为所述特定社区的标签。

此外，根据本发明的一个实施例，其中，所述社区表示单元进一步包括：计算单元，当有特定用户名关注所述特定社区中的一个用户名，则所述计算单元经配置来根据所述特定社区中的被关注的用户名的影响力以及所述特定社区的特定词汇的权重来计算是否能够用所述特定社区中的所述特定词汇作为所述特定用户的标签。

此外，根据本发明的一个实施例，其中，所述的信息处理装置，进一步包括：推荐单元，当所述特定社区中的第一用户发布了第一信息时，所述推荐单元经配置来将所述第一信息推荐给所述特定社区中的除第一用户以外的其他用户。

由此可见，本发明提供的用于社交网络的信息处理方法和装置，在进行社区发现时，能够综合考虑用户名的网络结构，信息内容和信息传递；并且可以获取足够数量和种类的标签来标识所发现的社区；同时，本发明提供的用于社交网络的信息处理方法和装置，不涉及复杂网络的计算，速度更快，更加高效和实用，提高了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单地介绍。下面描述中的附图仅仅是本发明的示例性实施例：

图1示出了根据本发明实施例的应用于一电子设备的信息处理方法100的流程图；

图2示出了根据本发明实施例的应用于一电子设备的信息处理装置200的示范性结构框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本公开中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

以下，将参考附图详细描述本发明的优选实施例。

图1示出了根据本发明实施例的应用于一电子设备的信息处理方法100的流程图。其中，所述信息处理方法100可以用于进行社区发现，此外，在本发明的一个实施例中，所述信息处理方法100还可以用于获取标签来标识所发现的社区。

下面，将参照图1来描述根据本发明的一个实施例的语料处理方法100。如图1所示，首先，在步骤S110中，获取第一信息集合，所述第一信息集合包括第一组多个用户名和多个词汇。一般地，第一信息集合中的每条信息都可以从社交网站上获取，其中，从社交网站上获取的信息既包括用户名还可以包括用户名以外的词汇，用户名与词汇可以互为上下文。在本发明的一个示例中，词汇可以从用户名的标签、职位、专业以及所发布信息内容等中获取。

接下来，在步骤S120中，使用语言模型来训练所述第一信息集合，得到第一多维向量集合，所述第一多维向量集合中的一个多维向量表示所述第一组多个用户名和多个词汇中的一个词汇或者一个用户名。具体而言，语言模型一般是指根据语言客观事实而进行的语言抽象数学建模，通过使用语言模型可以建立一个能够描述给定词序列在语言中的出现的概率的分布。在本发明的一个实施例中，所述语言模型可以是多层反馈神经网络语言模型(Recurrent Neural Network Language Model,RNNLM)，在神经网络语言模型中，每一个词都可以被映射成为多维向量，该多维向量可以在一定程度上用来刻画词之间的语义距离，语意等相近的词在多维空间会具有比较好的聚集性。具体地，在本发明的一个示例中，当从社交网络中获取作为样本的每条信息后，可以使用基于多层反馈神经网络的语言模型来训练所获取的样本信息中的用户名和词汇，可以得到一个m×n维矩阵M₁，该m×n维矩阵M₁可以表示m个n维向量，该m个向量可以表示m个用户名或者词汇，即，如果该m个向量中有p个用户名，则该m个向量中可以有(m-p)个词汇，其中每一个向量具有n个维度，该m个n维向量可以构成一个n维向量集合，其中，m、n和p都是正整数。一般地，使用语言模型来对样本信息进行训练得到多维向量集合的计算方法为本领域技术人员所公知，在此不再赘述。

然后，在步骤S130中，可以根据所述第一多维向量集合中的每个多维向量表示的第一组多个用户名和多个词汇中的各个词汇和各个用户名相互之间的相似度来对所述第一组多个用户名和多个词汇进行聚类，将所述第一组多个用户名和多个词汇划分为第一多个社区。具体地，在本发明的一个示例中，在使用语言模型来训练样本信息后，可以得到包括m个n维向量的向量集合，该m个向量可以表示m个用户名和词汇相互之间的相似度，因此，可以根据该m个n维向量所表示的用户名和词汇相互之间的相似度来对这m个用户名和词汇进行聚类，可以根据相似度将这m个用户名以及词汇化分为q类，即q个社区，其中，m、n、p和q都是正整数。利用语言模型训练得到的多维向量来进行聚类的具体计算方法为本领域技术人员所公知，在此不再赘述。一般地，q个社区中的每个社区可以既包括用户名也包括词汇。可见，通过本发明提供的上述方法发现的社区，能够综合考虑用户的该用户名发表的内容和所处的网络结构，提高了用户的使用体验。

此外，在本发明的另一个实施例中，信息处理方法100还可以进一步包括：使用所划分的第一多个社区来对所述第一信息集合进行筛选，生成筛选后的第二信息集合。具体地，在本发明的一个示例中，在使用语言模型来训练样本信息，得到包括m个n维向量的向量集合，并且将其划分为q个社区后，可以使用聚类后的q个社区来对最初的样本信息进行筛选，将样本信息中与q类社区内容无关的信息删除。在本发明的一个示例中，可以将q个社区作为从社交网络中发现的社区。

此外，在本发明的另一个实施例中，信息处理方法100还可以进一步包括a)使用所述语言模型来训练所述第二信息集合，得到表示所述第二组多个用户名和多个词汇的第二多维向量集合；b)根据所述第二多维向量集合中的每个多维向量表示的第二组多个用户名和多个词汇中的各个词汇和用户名相互之间的相似度来对所述第二组多个用户名和多个词汇进行聚类，将所述用户名和词汇划分为第二多个社区；c)使用所划分的第二多个社区来对所述第二信息集合进行筛选，生成筛选后的第三信息集合；以及d)迭代步骤a)-c)，直到达到用户预设的迭代次数，得到第二信息集合。

具体地，在本发明的一个示例中，在使用聚类后的q个社区来对最初的样本信息进行筛选得到筛选后的信息集合后，还可以再使用语言模型来对所述筛选后的信息集合进行训练，例如，可以得到m×n维矩阵M₂，然后根据该m个n维向量所表示的用户名或者词汇相互之间的相似度来对这m个用户名或者词汇进行聚类，可以根据相似度将这m个用户名以及词汇化分为t类，即t个社区，其中，t为正整数。在本发明的一个示例中，可以将该t个社区作为从社交网络中发现的社区。在本发明的另一个示例中，还可以使用聚类后的该t个社区来对上述使用q个社区对最初的样本信息进行筛选得到的筛选后信息集合再进行筛选，将上述筛选后信息集合中的与t类社区内容无关的信息删除，得到第三信息集合。然后，可以依次迭代前述步骤，即依次迭代使用语言模型对第三信息集合进行训练、聚类、筛选，直到达到用户预设的迭代次数后，最终得到最后一次迭代后得到的s个社区，作为所发现的社区，其中，s为正整数，并且可以得到最后一次迭代筛选后的第二信息集合。用户可以根据实际的应用需求来预先设置方法100的迭代次数。迭代次数越高，则社区发现的准确性可以越高，但是计算量也会增大。一般地，可以迭代次数可以设置为3或者4次，由此可以进一步提高社区发现的准确性，并且计算量不大，使得本发明的信息处理方法更加高效和实用。

此外，在本发明的一个实施例中，还可以根据表示第二信息集合中的特定社区中的各个词汇和各个用户名之间的相似度的多维向量来建立相似度网络；以及根据随机游走(Random walk)算法确定对应于所述特定社区中的每个词汇的权重，使用权重大于用户预设的第一阈值的词汇作为所述特定社区的标签。具体地，由于在前述步骤中，通过使用语言模型来训练信息集合得到表示用户名和词汇的相似度的多维向量后，该多维向量构成的向量空间不只有用户名，还有词汇，所以可以为最后一次迭代得到的多个社区中的每个寻找合适的词汇来表示每个社区。具体而言，在本发明的一个示例中，在使用前述方法步骤的最后一次迭代中，得到表示m个用户名或者词汇相互之间的相似度的n维向量的向量集合，并且对其进行聚类得到s个社区后，对于每个社区，可以根据该n维向量的相似度，建立相似度网络模型，根据该n维向量的相似度来建立相似度网络模型的方法为本领域技术人员所公知在此不再赘述。然后，可以通过使用随机游走算法，在每个社区中，让每个词汇在社区中的相似度网络结构中游走，最后确定每个社区中，每个词汇对该社区的权重。通过使用随机游走算法来确定相似度网络结构上每个节点的权重的方法为本领域技术人员所公知，在此不再赘述。然后，可以使用社区中的权重大于用户预设的阈值的词汇来作为表示该社区的标签。通过本实施例提供的上述方法可以获取足够种类和数量的词汇来标识所发现的社区。

此外，在本发明的一个实施例中，在使用前述方法步骤得到s个社区，并且根据特定社区中的各个词汇和各个用户名之间的相似度的多维向量来建立相似度网络后，还可以计算所述特定社区中每个用户名对于所述特定社区的影响力，使用影响力大于用户预设的第二阈值的用户名作为所述特定社区的标签。例如，在本发明的一个示例中，与计算社区中的词汇的权重相类似地，在根据表示个用户名或者词汇相互之间的相似度的多维向量为每个社区建立相似度网络后，可以使用随机游走算法来计算用户名对于该社区的权重来作为用户对于该社区的影响力，并且使用影响力大于用户预设的阈值的用户名来作为该描述该社区的标签。在本发明的另一个示例中，在根据表示用户名或者词汇相互之间的相似度的多维向量为每个社区建立相似度网络后，还可以通过计算每个用户名与其它用户名之间的平均距离来作为用户对于该社区的影响力，并且使用影响力大于用户预设的阈值的用户名来作为该描述该社区的标签。通过本实施例提供的上述方法可以获取足够种类和数量的用户名来更加准确地标识所发现的社区。

此外，在本发明的一个实施例中，在使用前述方法步骤得到所述特定社区中的被关注的用户名的影响力以及所述特定社区中的特定词汇的权重后，如果有特定用户名关注所述特定社区中的用户名，则还可以根据所述特定社区中的被关注的用户名的影响力以及所述特定社区中的特定词汇的权重来计算是否能够用所述特定社区中的所述特定词汇作为所述特定用户的标签。其中，该特定用户名为所述特定社区中的用户名以外的用户名。具体地，在本发明的一个示例中，在使用前述方法步骤得到s个社区后，对于s个社区中的某一个社区A，如果有A社区中的用户名之外的用户名D，关注了A社区的一个用户名B，可以使用前述方法得到A社区中用户名B的影响力以及A社区中所有词汇的权重，对于A社区中任一词汇C，可以通过将用户名D的影响系数乘以A社区中用户名B的影响力乘以A社区中词汇C的权重来计算得到A社区中词汇C与用户D的关联度。即，A社区中词汇C与用户D的关联度＝用户名D的影响系数×A社区中用户名B的影响力×A社区中词汇C的权重，其中，用户名D的影响系数可以使用用户名D所关注的用户名数目的倒数来表示。然后，可以使用社区A中的与用户名D的关联度大于用户预设的阈值的词汇来作为用户名D的标签。通过使用本实施例提供的方法，当用新的用户关注了所发现的社区中的用户，则可以使用所发现社区的中的词汇来作为新用户的标签。

此外，在本发明的一个实施例中，当有特定社区中的第一用户发布了第一信息时，将所述第一信息推荐给所述特定社区中的除第一用户以外的其他用户。具体地，在本发明的一个示例中，在使用前述方法步骤得到s个社区后，对于s个社区中的某一个社区E，当有社区E中的用户F发布了信息G时，可以将该信息G推荐给社区E中的用户F以外的其它用户。由于相同社区中的多个用户会具有比较高的相似性，在同一社区中，对于其中一个用户感兴趣的信息，与其处于相同社区的其他用户往往也会对该信息感兴趣，因此，可以将一个用户发布的信息推荐给相同社区中其他用户，来提高用户的使用体验。

由此可见，通过使用本发明提供的用于社交网络的信息处理方法100，在进行社区发现时，能够综合考虑用户名的网络结构，信息内容和信息传递；并且可以获取足够数量和种类的标签来标识所发现的社区；同时，本发明提供的用于社交网络的信息处理方法和装置，不涉及复杂网络的计算，速度更快，更加高效和实用，提高了用户的使用体验。

下面，参照图2说明根据本发明的信息处理装置200。图2示出了根据本发明实施例的信息处理装置200的示范性结构框图，所述信息处理装置200可以用于进行社区发现，此外，在本发明的一个实施例中，所述信息处理装置200还可以用于获取标签来标识所发现的社区。

下面，将参照图2来描述根据本发明的一个实施例的语料处理装置200。如图2所示，语料处理装置200可以包括：获取单元210、训练单元220以及分类单元230。

具体地，获取单元210可以经配置来获取第一信息集合，所述第一信息集合包括第一组多个用户名和多个词汇。。一般地，第一信息集合中的每条信息都可以从社交网站上获取，其中，从社交网站上获取的信息既包括用户名还可以包括用户名以外的词汇，用户名与词汇可以互为上下文。在本发明的一个示例中，词汇可以从用户名的标签、职位、专业以及所发布信息内容等中获取。

训练单元220，可以经配置来使用语言模型来训练所述第一信息集合，得到第二组多个用户名和多个词汇，所述第二组多个用户名和多个词汇由第一多维向量集合表示，所述第一多维向量集合中的一个多维向量表示所述第二组多个用户名和多个词汇中的一个词汇或者一个用户名。具体地，在本发明的一个实施例中，所述语言模型可以是多层反馈神经网络语言模型(Recurrent Neural Network Language Model,RNNLM)。在本发明的一个示例中，当获取单元210从社交网络中获取作为样本的每条信息后，训练单元220可以使用基于多层反馈神经网络的语言模型来训练所获取的样本信息，得到一个m×n维矩阵M₁，该m×n维矩阵可以表示m个n维向量，该m个向量可以表示m个用户名或者词汇，即，如果该m个向量中有p个用户名，则该m个向量中可以有(m-p)个词汇，其中每一个向量具有n个维度，该m个n维向量可以构成一个n维向量集合，其中，m、n和p都是正整数。

分类单元230，可以经配置来根据所述第一多维向量集合中的每个多维向量表示的第二组多个用户名和多个词汇中的各个词汇和各个用户名相互之间的相似度来对所述组第二组多个用户名和多个词汇进行聚类，将所述第二组多个用户名和多个词汇划分为第一多个社区。具体地，在本发明的一个示例中，在训练单元220使用语言模型来训练样本信息后，可以得到包括m个n维向量的向量集合，该m个向量可以表示m个用户名和词汇相互之间的相似度，因此，分类单元230可以根据该m个n维向量所表示的用户名和词汇相互之间的相似度来对这m个用户名和词汇进行聚类，例如，分类单元230可以根据相似度将这m个用户名以及词汇化分为q类，即q个社区，其中，m、n、p和q都是正整数。

此外，在本发明的另一个实施例中，信息处理装置200还可以进一步包括：筛选单元，经配置来使用所划分的第一多个社区来对所述第一信息集合进行筛选，生成筛选后的第二信息集合。具体地，在本发明的一个示例中，在训练单元220使用语言模型来训练样本信息，得到包括m个n维向量的向量集合，并且分类单元230将其划分为q个社区后，筛选单元可以使用聚类后的q个社区来对最初的样本信息进行筛选，将样本信息中与q类社区内容无关的信息删除。在本发明的一个示例中，可以将q个社区作为从社交网络中发现的社区。

此外，在本发明的另一个实施例中，信息处理装置200还可以进一步包括：相似度建立单元，经配置来根据表示特定社区中的各个词汇和各个用户名之间的相似度的多维向量来建立相似度网络；以及，社区表示单元，经配置来根据随机游走算法确定对应于所述特定社区中的每个词汇的权重，使用权重大于用户预设的第一阈值的词汇作为所述特定社区的标签。此外，在本发明的另一个实施例中，所述社区表示单元还可以进一步经配置来：根据基于特定社区中的每个词汇和用户名的多维向量所表示的相似度所建立的相似度网络来计算所述特定社区中每个用户名对于所述特定社区的影响力，使用影响力大于用户预设的第二阈值的用户名作为所述特定社区的标签。

此外，在本发明的另一个实施例中，信息处理装置200还可以进一步包括：计算单元，如果有特定用户名关注所述特定社区中的用户名，则所述计算单元可以经配置来根据所述特定社区中的被关注的用户名的影响力以及所述特定社区中的特定词汇的权重来计算是否能够用所述特定社区中的所述特定词汇作为所述特定用户的标签。

此外，在本发明的一个实施例中，所述的信息处理装置200还可以进一步包括：推荐单元，当所述特定社区中的第一用户发布了第一信息时，所述推荐单元经配置来将所述第一信息推荐给所述特定社区中的除第一用户以外的其他用户。由于相同社区中的多个用户会具有比较高的相似性，在同一社区中，对于其中一个用户感兴趣的信息，与其处于相同社区的其他用户往往也会对该信息感兴趣，因此，可以将一个用户发布的信息推荐给相同社区中其他用户，来提高用户的使用体验。

由此可见，通过使用本发明提供的用于社交网络的信息处理装置200，在进行社区发现时，能够综合考虑用户名的网络结构，信息内容和信息传递；并且可以获取足够数量和种类的标签来标识所发现的社区；同时，本发明提供的用于社交网络的信息处理方法和装置，不涉及复杂网络的计算，速度更快，更加高效和实用，提高了用户的使用体验。

以上，参照附图描述了本发明的实施例，根据本发明实施例的电子设备及其模式切换方法，其能够实现至少两个不同的工作姿态，从而在不同工作姿态下提供不同的显示区域，并且根据工作姿态，在不同的显示区域中执行相应的内容显示。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信息处理方法，所述信息处理方法包括：

获取第一信息集合，所述第一信息集合包括第一组多个用户名和多个词汇；

使用语言模型来训练所述第一信息集合，得到第一多维向量集合，所述第一多维向量集合中的一个多维向量表示所述第一组多个用户名和多个词汇中的一个词汇或者一个用户名；以及

根据所述第一多维向量集合中的每个多维向量表示的第一组多个用户名和多个词汇中的各个词汇和各个用户名相互之间的相似度来对所述第一组多个用户名和多个词汇进行聚类，将所述第一组多个用户名和多个词汇划分为第一多个社区；

其中，所述词汇包括用户名以外的词汇，用户名与词汇可以互为上下文。

2.如权利要求1所述的信息处理方法，进一步包括：

根据表示特定社区中的各个词汇和各个用户名之间的相似度的多维向量来建立相似度网络；以及

根据随机游走算法确定对应于所述特定社区中的每个词汇的权重，使用权重大于用户预设的第一阈值的词汇作为所述特定社区的标签。

3.如权利要求2所述的信息处理方法，进一步包括：根据所述相似度网络来计算所述特定社区中每个用户名对于所述特定社区的影响力，使用所述影响力大于用户预设的第二阈值的用户名作为所述特定社区的标签。

4.如权利要求3所述的信息处理方法，进一步包括：当有特定用户名关注所述特定社区中的一个用户名时，根据所述特定社区中的被关注的用户名的影响力以及所述特定社区的特定词汇的权重来计算是否能够用所述特定社区中的所述特定词汇作为所述特定用户的标签。

5.如权利要求4所述的信息处理方法，进一步包括：当所述特定社区中的第一用户发布了第一信息时，将所述第一信息推荐给所述特定社区中的除第一用户以外的其他用户。

6.一种信息处理装置，所述信息处理装置，包括：

获取单元，经配置来获取第一信息集合，所述第一信息集合包括第一组多个用户名和多个词汇；

训练单元，经配置来使用语言模型来训练所述第一信息集合，得到第一多维向量集合，所述第一多维向量集合中的一个多维向量表示所述第一组多个用户名和多个词汇中的一个词汇或者一个用户名；以及

分类单元，经配置来根据所述第一多维向量集合中的每个多维向量表示的第一组多个用户名和多个词汇中的各个词汇和各个用户名相互之间的相似度来对所述第一组多个用户名和多个词汇进行聚类，将所述第一组多个用户名和多个词汇划分为第一多个社区；

7.如权利要求6所述的信息处理装置，进一步包括：

相似度建立单元，经配置来根据表示特定社区中的各个词汇和各个用户名之间的相似度的多维向量来建立相似度网络，以及

社区表示单元，经配置来根据随机游走算法确定对应于所述特定社区中的每个词汇的权重，使用权重大于用户预设的第一阈值的词汇作为所述特定社区的标签。

8.如权利要求7所述的信息处理装置，所述社区表示单元进一步经配置来：根据所述相似度网络来计算所述特定社区中每个用户名对于所述特定社区的影响力，使用所述影响力大于用户预设的第二阈值的用户名作为所述特定社区的标签。

9.如权利要求8所述的信息处理装置，进一步包括：

计算单元，当有特定用户名关注所述特定社区中的一个用户名，则所述计算单元经配置来根据所述特定社区中的被关注的用户名的影响力以及所述特定社区的特定词汇的权重来计算是否能够用所述特定社区中的所述特定词汇作为所述特定用户的标签。

10.如权利要求9所述的信息处理装置，进一步包括：

推荐单元，当所述特定社区中的第一用户发布了第一信息时，所述推荐单元经配置来将所述第一信息推荐给所述特定社区中的除第一用户以外的其他用户。