CN106250378A

CN106250378A - 公共标识分类方法及装置

Info

Publication number: CN106250378A
Application number: CN201510308886.0A
Authority: CN
Inventors: 汤煌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2015-06-08
Filing date: 2015-06-08
Publication date: 2016-12-21
Anticipated expiration: 2035-06-08
Also published as: CN106250378B

Abstract

本发明公开了一种公共标识分类方法及装置，属于网络技术领域。所述方法包括：确定与用户行为关联的多个公共标识，得到公共标识列表；根据每一个公共标识的特征向量，对所述公共标识列表中的全部公共标识进行聚类，得到多个聚类结果；基于每一个公共标识的描述信息，在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；根据所述第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，所述第二类聚类结果的聚类纯净度小于所述预设阈值。由于基于用户行为和公共标识的描述信息对公共标识自动进行分类，因此不但无需人工参与，节省了大量的人力，而且公共标识的分类效果较优。

Description

公共标识分类方法及装置

技术领域

本发明涉及网络技术领域，特别涉及一种公共标识分类方法及装置。

背景技术

互联网应用作为一个为智能终端提供语音、视频、图片、文字等信息交互服务的应用程序，凭借其可跨通信运营商、跨操作系统平台发送语音、视频、图片和文字等优点，受到了广大用户的青睐。随着互联网应用功能的日臻完善，开发者或商家在互联网应用平台上申请公共标识，通过该公共标识，开发者或商家可在互联网应用平台上，基于文字、图片、语音、视频等方式，实现向广大用户全方位地进行信息推送、与广大用户进行沟通或互动等。一般情况下，公共标识在建立时并没有给定其所属的行业类别，而后续过程中为了能够向用户精准推送多媒体数据，还需对公共标识进行分类。

现有技术在进行公共标识分类时，基于监督学习分类模型实现。具体包括：基于公共标识的描述信息人工建立公共标识类目；给定训练样本，该训练样本中包括一定数量的已标注公共标识，该已标注公共标识基于公共标识类目人工标注完成；对该训练样本进行特征提取，并根据提取的特征信息训练出一个监督学习分类模型。对于一个未知类别的公共标识，在提取其特征信息后，基于该监督学习分类模型给出分类结果。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

由于类目建立和样本标注均需通过人工完成，所以消耗了大量的人力，束缚了模型的进一步优化，对公众标识的分类效果产生了不良影响。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种公共标识分类方法及装置。所述技术方案如下：

一方面，提供了一种公共标识分类方法，所述方法包括：

确定与用户行为关联的多个公共标识，得到公共标识列表；

根据每一个公共标识的特征向量，对所述公共标识列表中的全部公共标识进行聚类，得到多个聚类结果；

基于每一个公共标识的描述信息，在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；

根据所述第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，所述第二类聚类结果的聚类纯净度小于所述预设阈值。

另一方面，提供了一种公共标识分类装置，所述装置包括：

公共标识确定模块，用于确定与用户行为关联的多个公共标识，得到公共标识列表；

公共标识聚类模块，用于根据每一个公共标识的特征向量，对所述公共标识列表中的全部公共标识进行聚类，得到多个聚类结果；

聚类结果确定模块，用于基于每一个公共标识的描述信息，在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；

公共标识分类模块，用于根据所述第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，所述第二类聚类结果的聚类纯净度小于所述预设阈值。

本发明实施例提供的技术方案带来的有益效果是：

在确定与用户行为关联的多个公共标识得到公共标识列表后，根据每一个公共标识的特征向量对公共标识列表中的全部公共标识进行聚类；基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，由于基于用户行为和公共标识的描述信息对公共标识自动进行分类，因此不但无需人工参与，节省了大量的人力，而且公共标识的分类效果较优。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种公共标识分类方法的流程图；

图2是本发明实施例提供的一种公共标识分类方法的流程图；

图3是本发明实施例提供的一种skip-gram模型示意图；

图4是本发明实施例提供的一种公共标识分类装置的结构示意图；

图5是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种公共标识分类方法的流程图。参见图1，本发明实施例提供的方法流程包括：

101、确定与用户行为关联的多个公共标识，得到公共标识列表。

102、根据每一个公共标识的特征向量，对公共标识列表中的全部公共标识进行聚类，得到多个聚类结果。

103、基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果。

104、根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，第二类聚类结果的聚类纯净度小于预设阈值。

本发明实施例提供的方法，在确定与用户行为关联的多个公共标识得到公共标识列表后，根据每一个公共标识的特征向量对公共标识列表中的全部公共标识进行聚类；基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，由于基于用户行为和公共标识的描述信息对公共标识自动进行分类，因此不但无需人工参与，节省了大量的人力，而且公共标识的分类效果较优。

可选地，根据每一个公共标识的特征向量，对公共标识列表中的全部公共标识进行聚类之前，该方法还包括：

获取公共标识列表对应的行为矩阵；

根据行为矩阵，基于特定模型计算公共标识列表中每一个公共标识的特征向量。

可选地，基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果，包括：

对于一个聚类结果中每一个公共标识，根据公共标识的描述信息，计算公共标识的文本特征信息；

对于每一个聚类结果，计算聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到聚类结果的聚类纯净度；

判断聚类结果的聚类纯净度是否大于预设阈值；

当聚类结果的聚类纯净度大于预设阈值时，将聚类结果确定为第一类聚类结果。

可选地，应用如下公式，计算聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到聚类结果的聚类纯净度，包括：

{purity}_{k} = \frac{1}{n * n} Σ_{i = 0}^{n} Σ_{j = 0}^{n} v_{k i} * v_{k j}

其中，purity_k指代第k个聚类结果的聚类纯净度，n指代第k个聚类结果中的公共标识个数，v_ki指代第k个聚类结果中公共标识i的文本特征信息，v_kj指代第k个聚类结果中公共标识j的文本特征信息。

可选地，根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，包括：

根据第一类聚类结果，训练公共标识分类模型；

通过公共标识分类模型，对第二类聚类结果中的公共标识重新进行分类。

可选地，根据每一个公共标识的特征向量，对公共标识列表中的全部公共标识进行聚类，包括：

在全部公共标识中，随机选取预设数目个初始聚类中心；

对于剩余的每一个公共标识，根据公共标识和各个初始聚类中心的特征向量，计算公共标识与各个初始聚类中心在向量空间中的距离；

将公共标识分配至距离公共标识最近的初始聚类中心；

当剩余的公共标识分配完毕后，对于每一个中间聚类结果，重复执行上述聚类过程，直至满足聚类终止条件。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种公共标识分类方法的流程图。参见图2，本发明实施例提供的方法流程包括：

201、确定与用户行为关联的多个公共标识，得到公共标识列表。

其中，公共标识指代公众号。开发者或商家在互联网应用平台上可申请公众号，通过该公众号，开发者或商家可在互联网应用平台上，基于文字、图片、语音、视频等方式，实现向广大用户进行信息推送、与广大用户进行沟通或互动等。用户行为可指代用户对公众号的关注行为、订阅行为等等，本发明实施例对此不进行具体限定。也即，与用户行为关联的多个公共标识指代用户订阅的公众号或用户关注的公众号等。对于在互联网应用平台上进行注册的用户来讲，在登录互联网应用后，均可通过互联网应用订阅或关注公众号等，所以服务器在确定与用户行为关联的多个公共标识时，是针对全部注册用户而言的。也即，得到的公共标识列表中包括海量用户订阅或关注的海量公众号。比如，用户A关注了公众号1、公众号2及公众号3，用户B关注了公号1，公众号4，则上述4个公众号均会出现在公共标识列表中。进一步地，服务器还可存储公众号与用户之间的对应关系，即记录某一公众号具体被哪些用户订阅或关注，本发明实施例对此同样不进行具体限定。

202、根据公共标识列表，基于特定模型计算公共标识列表中每一个公共标识的特征向量。

其中，可为公共标识列表初始化一个随机行为矩阵。其中，随机行为矩阵中的每一项可随机初始化为[0，1]之间的值。其维度可为几十维或几百维等，本发明实施例对初始化数值大小和维度大小均不进行具体限定，可视情况而定。

在本发明实施例中，特定模型在本发明实施例中指代word2vec模型。其中，word2vec模型可以通过特征学习的方法将词语表示成低维特征空间中的向量。传统word2vec模型的输入是一个文档，如果文档中的两个词在一定大小的窗口中出现，则将两个词的特征向量调整的近一些，即表明两个词相似。在本发明实施中，我们将公共标识列表看做一个文档，公共标识列表中的公共标识看做文档中的词，与传统word2vec模型不同的是，我们将文档中任意两个词的向量均调整的靠近一些。

其中，word2vec模型可分为下述两种模型：CBOW(Continuous Bag-of-Words Model，连续词袋)模型和skip-gram模型；CBOW模型简单来讲就是上下文决定当前词出现的概率。在CBOW模型中上下文所有的词对当前词出现概率的影响的权重是一样的。skip-gram模型可如图3所示，用于根据当前词预测语境。其中，语境指代以某一个单词为中心，向前k个单词，向后k个单词所形成的短语中包含的单词。在图3中，根据当前单词w(t)，预测向前2个单词，w(t-1)、w(t-2)，向后2个单词，w(t+1)、w(t+2)。

以表示当前公共标识的特征向量、表示当前公共标识的上下文的特征向量。比如，用户A关注了当前公共标识，则其上下文指代用户A关注的其他公共标识。其中，和是从公共标识列表对应的行为矩阵中得到的，具体可为一个固定维数的列向量。以逻辑回归函数为f(h_k)为例，则

f (h_{k}) = \frac{\exp (h_{k})}{\exp (h_{k} + 1)} - - - (1)

其中，h_k的值越大，逻辑回归函数为f(h_k)的值越接近于1，h_k的值越小，逻辑回归函数为f(h_k)的值越接近于0。目标函数的优化基于最大似然估计，给定当前公共标识和当前公共标识的上下文，目标函数的值为maxlog(f(h_k))，高于在其他公共标识和当前公共标识的上下文的情况。

其中，skip-gram模型基于梯度下降算法进行优化，梯度的计算方式如下：

{grad}_{h_{k}} = f (h_{k}) - y_{k} - - - (2)

{grad}_{\overset{&RightArrow;}{C_{k}}} = {grad}_{h_{k}} \cdot \overset{&RightArrow;}{C_{i}} - - - (3)

{grad}_{\overset{&RightArrow;}{C_{i}}} = {grad}_{h_{k}} \cdot \overset{&RightArrow;}{C_{k}} - - - (4)

其中，y_k代表目标函数的值，其中，当该第k个公众标识为通过正采样获取时，y_k＝1；当该第k个公众标识为通过负采样获取时，y_k＝0。其中，正采样为该第k个公众标识是通过从用户关注行为矩阵中提取的，负采样为该第k个公众标识通过从预设语料库所包括的公众标识中随机抽取得到。

以代表优化后的代表优化后的为例，则

\overset{&RightArrow;}{C_{k}^{'}} = \overset{&RightArrow;}{C_{k}} + λ_{k} \cdot {grad}_{\overset{&RightArrow;}{C_{k}}} - - - (5)

\overset{&RightArrow;}{C_{i}^{'}} = \overset{&RightArrow;}{C_{i}} + λ_{k} \cdot {grad}_{\overset{&RightArrow;}{C_{i}}} - - - (6)

其中，λ_k代表学习率，通常选取的经验值是0.1，通过上述公式(5)和(6)便得到当前公共标识的特征向量和当前公共标识的上下文的特征向量。类似地，我们可以得到公共标识列表中每一个公共标识对应的低维度特征向量。

203、根据每一个公共标识的特征向量，对公共标识列表中的全部公共标识进行聚类，得到多个聚类结果。

在经过word2vec模型后，对于每一个公共标识来说，均会得到一个与其匹配的特征向量，该特征向量为低维特征空间中的向量。也即，word2vec模型输出的是特征向量。而在得到特征向量后，便可进行诸如下述操作：根据特征向量计算两个公共标识之间的相似度、列出包括所有相似的公共标识额列表、对公共标识进行聚类等。在本发明实施例中，为了对公共标识进行分类，在得到每一个公共标识的特征向量后，对公共标识列表中的全部公共标识进行聚类。其中，在对公共标识进行聚类时本发明实施例采用K-均值算法，具体过程如下：

第一步、在全部公共标识中，随机选取预设数目个初始聚类中心。

其中，预设数目可为几十或几百，本发明实施例对此不进行具体限定，可视公共标识的数量而定。在第一步中，一个初始聚类中心即指代一个公共标识。

第二步、对于剩余的每一个公共标识，根据公共标识和各个初始聚类中心的特征向量，计算公共标识与各个初始聚类中心在向量空间中的距离。

其中，剩余的公共标识指代全部公共标识中除预设数目个初始聚类中心之外的其他公共标识。

第三步、将该公共标识分配至距离该公共标识最近的初始聚类中心。

在本发明实施例中，两个公共标识的特征向量在向量空间中的距离越近，代表两个公共标识越相似。所以在进行聚类时，对于一个待分配的公共标识来说，依据向量空间中的距离大小，将其分配至距离其最近的初始聚类中心。

第四步、当剩余的公共标识分配完毕后，对于每一个中间聚类结果，重复执行上述聚类过程，直至满足聚类终止条件。

其中，聚类终止条件可为下述三个条件之一：没有(或最小数目)公共标识被重新分配给不同的聚类，或，没有(或最小数目)聚类中心再发生变化，或，误差平方和局部最小。具体选择哪一个条件作为聚类终止条件，本发明实施例对此不进行具体限定，可视情况而定。

在进行聚类时，初始聚类中心以及分配给它们的公共标识就代表一个聚类结果。当根据上述第一步至第三步完成第一轮的聚类后，得到的是中间聚类结果。即，一旦全部公共标识都被分配完毕，每个聚类结果的聚类中心会根据聚类中现有的公共标识被重新计算。这个过程将不断重复直到满足上述聚类终止条件。

至此，上述步骤201至步骤203完成了基于用户行为的公共标识聚类。

204、基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果。

其中，公共标识的描述信息通常指代用于描述公共标识的文本信息。比如，当某一公共标识对应一家餐厅时，那么该描述信息可包括餐厅简介、特色菜品、最近优惠活动、新推菜单等等，本发明实施例对此不进行具体限定。聚类纯净度用于描述聚类结果的好坏。当多个聚类结果均在描述同一类主题，比如两个或两个以上聚类结果都在描述少儿教育、汽车等主题，或，一个聚类结果中的公共标识之间主题相差较大，比如一部分在描述家居用品一部分在描述食品，或，一些聚类结果描述的是跟地域相关的商场、餐厅等，这些公共标识与地域相关，而跟公共号类目不相关，上述聚类结果的聚类纯净度较小，聚类效果很差。而当某一聚类纯净度的数值较大时，比如大于预设阈值，则说明聚类效果较好。

在本发明实施例中，聚类纯净度的计算基于公共标识的描述信息得到，聚类纯净度的计算和判定过程，也即建立一个公共号纯净度判定模型的过程。本发明实施例基于该公共号纯净度判定模型，对基于用户行为的公共标识聚类结果进行进一步地净化。其中，在基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果时，可采取下述方式实现：

第一步、对于一个聚类结果中每一个公共标识，根据公共标识的描述信息，计算公共标识的文本特征信息。

在本发明实施例中，公共标识的文本特征信息可用一定维度的特征向量进行表示。其中，维数大小可视情况而定，本发明实施例对此不进行具体限定。在根据公共标识的描述信息计算公共标识的文本特征信息时，既可通过word2vec模型实现，还可通过其他模型实现，本发明实施例对此同样不进行具体限定。

第二步、对于每一个聚类结果，计算该聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到聚类结果的聚类纯净度。

其中，在计算一个聚类结果的聚类纯净度时，可基于下述公式(7)实现：

{purity}_{k} = \frac{1}{n * n} Σ_{i = 0}^{n} Σ_{j = 0}^{n} v_{k i} * v_{k j} - - - (7)

其中，purity_k指代第k个聚类结果的聚类纯净度，k值下限为1，上限为聚类结果的个数；n指代第k个聚类结果中的公共标识个数，v_ki指代第k个聚类结果中公共标识i的文本特征信息，v_kj指代第k个聚类结果中公共标识j的文本特征信息。

第三步、判断该聚类结果的聚类纯净度是否大于预设阈值；当该聚类结果的聚类纯净度大于预设阈值时，将该聚类结果确定为第一类聚类结果。

其中，第一类聚类结果中包括多个聚类纯净度大于预设阈值的聚类结果，这些聚类结果统称为第一类聚类结果。对于第一类聚类结果而言，聚类结果的主题或语义即代表公共标识的类目、聚类结果中包括的公共标识即代表该类目下的标注样本。此外，预设阈值的大小可基于先验知识或实际情况分析得出，本发明实施例对此不进行具体限定。其中，公共标识的类目用于表征公共标识的所属行业类别。本发明实施例通过后续不断的完善，建立的类目能够尽可能全的覆盖到已有的公共标识和未来可能会建立的公共标识。类目的设计具有层级，且类目之间不重合。其中，完善后的类目可表示为下述表1的形式。

表1

一级类目ID	一级类目名称	二级类目ID	二级类目名称
				6	家居	601	家装建材
6	家居	602	家居服务
				6	家居	603	家居家纺
6	家居	604	家用电器

205、根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，第二类聚类结果的聚类纯净度小于预设阈值。

在本发明实施例中，在多个聚类结果中确定第一类聚类结果后，剩余的聚类纯净度小于预设阈值的聚类结果，我们称之为第二类聚类结果。由于第二类聚类结果的聚类效果欠佳，而第一类聚类结果的聚类效果较好，所以我们可根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类。也即，首先基于第一类聚类结果建立一个公共标识分类模型，之后通过该公共标识分类模型，对第二类聚类结果中的公共标识重新进行分类。由于第一类聚类结果中聚类结果的主题或语义对应公共标识类目，该聚类结果中的各个公共标识对应该类目下的标注样本，所以建立的公共标识分类模型是一个基于监督学习的分类模型。

其中，监督学习指代利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。也即，在初始化公共标识分类模型的参数后，基于第一类聚类结果，优化公共标识分类模型中的各个参数，得到训练好的公共标识分类模型。在训练好公共标识分类模型后，对于第二类聚类结果中每一个公共标识而言，在获取到其特征向量后，经过该公共标识分类模型，便可得到该公共标识所归属的类目。也即，实现对第二类聚类结果中全部公共标识的重新分类。

在对公共标识进行分类后，可应用于多种场景中，比如可应用于个性化的推荐场景中。基于公共标识的分类结果，我们可在一个新用户没有任何历史行为的情况下进行个性化的多媒体数据推送，比如推送广告、视频或图片等等。比如，获取新用户在其他业务中的行为信息，比如用户关注过的或订阅过的公共标识，基于上述公共标识的类别，确定用户的兴趣点，之后基于用户的诸如年龄、地域、性别等基本属性信息，为该新用户建立一个兴趣画像，从而可在冷启动的情况下给该新用户推荐个性化的多媒体数据。

图4是本发明实施例提供的一种公共标识分类装置的结构示意图。参见图4，该装置包括：公共标识确定模块401、公共标识聚类模块402、聚类结果确定模块403、公共标识分类模块404。

其中，公共标识确定模块401与公共标识聚类模块402连接，用于确定与用户行为关联的多个公共标识，得到公共标识列表；公共标识聚类模块402与聚类结果确定模块403连接，用于根据每一个公共标识的特征向量，对公共标识列表中的全部公共标识进行聚类，得到多个聚类结果；聚类结果确定模块403与公共标识分类模块404连接，用于基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；公共标识分类模块404，用于根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，第二类聚类结果的聚类纯净度小于预设阈值。

可选地，该装置还包括：

行为矩阵获取模块，用于获取公共标识列表对应的行为矩阵；

特征向量计算模块，用于根据行为矩阵，基于特定模型计算公共标识列表中每一个公共标识的特征向量。

可选地，聚类结果确定模块，用于对于一个聚类结果中每一个公共标识，根据公共标识的描述信息，计算公共标识的文本特征信息；对于每一个聚类结果，计算聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到聚类结果的聚类纯净度；判断聚类结果的聚类纯净度是否大于预设阈值；当聚类结果的聚类纯净度大于预设阈值时，将聚类结果确定为第一类聚类结果。

可选地，聚类结果确定模块，用于应用如下公式，计算聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到聚类结果的聚类纯净度：

{purity}_{k} = \frac{1}{n * n} Σ_{i = 0}^{n} Σ_{j = 0}^{n} v_{k i} * v_{k j}

可选地，公共标识分类模块，用于根据第一类聚类结果，训练公共标识分类模型；通过公共标识分类模型，对第二类聚类结果中的公共标识重新进行分类。

可选地，公共标识聚类模块，用于在全部公共标识中，随机选取预设数目个初始聚类中心；对于剩余的每一个公共标识，根据公共标识和各个初始聚类中心的特征向量，计算公共标识与各个初始聚类中心在向量空间中的距离；将公共标识分配至距离公共标识最近的初始聚类中心；当剩余的公共标识分配完毕后，对于每一个中间聚类结果，重复执行上述聚类过程，直至满足聚类终止条件。

本发明实施例提供的装置，在确定与用户行为关联的多个公共标识得到公共标识列表后，根据每一个公共标识的特征向量对公共标识列表中的全部公共标识进行聚类；基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，由于基于用户行为和公共标识的描述信息对公共标识自动进行分类，因此不但无需人工参与，节省了大量的人力，而且公共标识的分类效果较优。

需要说明的是：上述实施例提供的公共标识分类装置在进行公共标识分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的公共标识分类装置与公共标识分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是根据一示例性实施例示出的一种服务器，该服务器可以用于实施上述任一示例性实施例示出的文本图片检测方法。具体来讲：参见图5，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Unit，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，一个或者一个以上程序包含用于进行以下操作的指令：

确定与用户行为关联的多个公共标识，得到公共标识列表；

根据每一个公共标识的特征向量，对公共标识列表中的全部公共标识进行聚类，得到多个聚类结果；

基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；

根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，第二类聚类结果的聚类纯净度小于预设阈值。

获取公共标识列表对应的行为矩阵；

判断聚类结果的聚类纯净度是否大于预设阈值；

{purity}_{k} = \frac{1}{n * n} Σ_{i = 0}^{n} Σ_{j = 0}^{n} v_{k i} * v_{k j}

根据第一类聚类结果，训练公共标识分类模型；

在全部公共标识中，随机选取预设数目个初始聚类中心；

将公共标识分配至距离公共标识最近的初始聚类中心；

本发明实施例提供的服务器，在确定与用户行为关联的多个公共标识得到公共标识列表后，根据每一个公共标识的特征向量对公共标识列表中的全部公共标识进行聚类；基于每一个公共标识的描述信息，在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果；根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，由于基于用户行为和公共标识的描述信息对公共标识自动进行分类，因此不但无需人工参与，节省了大量的人力，而且公共标识的分类效果较优。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种公共标识分类方法，其特征在于，所述方法包括：

确定与用户行为关联的多个公共标识，得到公共标识列表；

2.根据权利要求1所述的方法，其特征在于，所述根据每一个公共标识的特征向量，对所述公共标识列表中的全部公共标识进行聚类之前，所述方法还包括：

获取所述公共标识列表对应的行为矩阵；

根据所述行为矩阵，基于特定模型计算所述公共标识列表中每一个公共标识的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述基于每一个公共标识的描述信息，在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果，包括：

对于一个聚类结果中每一个公共标识，根据所述公共标识的描述信息，计算所述公共标识的文本特征信息；

对于每一个聚类结果，计算所述聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到所述聚类结果的聚类纯净度；

判断所述聚类结果的聚类纯净度是否大于所述预设阈值；

当所述聚类结果的聚类纯净度大于所述预设阈值时，将所述聚类结果确定为所述第一类聚类结果。

4.根据权利要求3所述的方法，其特征在于，应用如下公式，计算所述聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到所述聚类结果的聚类纯净度，包括：

{purity}_{k} = \frac{1}{n * n} Σ_{i = 0}^{n} Σ_{j = 0}^{n} v_{ki} * v_{kj}

5.根据权利要求1所述的方法，其特征在于，所述根据第一类聚类结果，对第二类聚类结果中的公共标识重新进行分类，包括：

根据所述第一类聚类结果，训练公共标识分类模型；

通过所述公共标识分类模型，对所述第二类聚类结果中的公共标识重新进行分类。

6.根据权利要求1所述的方法，其特征在于，所述根据每一个公共标识的特征向量，对所述公共标识列表中的全部公共标识进行聚类，包括：

在所述全部公共标识中，随机选取预设数目个初始聚类中心；

对于剩余的每一个公共标识，根据所述公共标识和各个初始聚类中心的特征向量，计算所述公共标识与所述各个初始聚类中心在向量空间中的距离；

将所述公共标识分配至距离所述公共标识最近的初始聚类中心；

7.一种公共标识分类装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

行为矩阵获取模块，用于获取所述公共标识列表对应的行为矩阵；

特征向量计算模块，用于根据所述行为矩阵，基于特定模型计算所述公共标识列表中每一个公共标识的特征向量。

9.根据权利要求7所述的装置，其特征在于，所述聚类结果确定模块，用于对于一个聚类结果中每一个公共标识，根据所述公共标识的描述信息，计算所述公共标识的文本特征信息；对于每一个聚类结果，计算所述聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到所述聚类结果的聚类纯净度；判断所述聚类结果的聚类纯净度是否大于所述预设阈值；当所述聚类结果的聚类纯净度大于所述预设阈值时，将所述聚类结果确定为所述第一类聚类结果。

10.根据权利要求9所述的装置，其特征在于，所述聚类结果确定模块，用于应用如下公式，计算所述聚类结果中任两个公共标识的文本特征信息的相似度平均值，得到所述聚类结果的聚类纯净度：

{purity}_{k} = \frac{1}{n * n} Σ_{i = 0}^{n} Σ_{j = 0}^{n} v_{ki} * v_{kj}

11.根据权利要求7所述的装置，其特征在于，所述公共标识分类模块，用于根据所述第一类聚类结果，训练公共标识分类模型；通过所述公共标识分类模型，对所述第二类聚类结果中的公共标识重新进行分类。

12.根据权利要求7所述的装置，其特征在于，所述公共标识聚类模块，用于在所述全部公共标识中，随机选取预设数目个初始聚类中心；对于剩余的每一个公共标识，根据所述公共标识和各个初始聚类中心的特征向量，计算所述公共标识与所述各个初始聚类中心在向量空间中的距离；将所述公共标识分配至距离所述公共标识最近的初始聚类中心；当剩余的公共标识分配完毕后，对于每一个中间聚类结果，重复执行上述聚类过程，直至满足聚类终止条件。