CN110555164A

CN110555164A - 群体兴趣标签的生成方法、装置、计算机设备和存储介质

Info

Publication number: CN110555164A
Application number: CN201910666076.0A
Authority: CN
Inventors: 苏显政
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-12-10
Anticipated expiration: 2039-07-23
Also published as: CN110555164B; WO2021012482A1

Abstract

本申请涉及用户画像技术领域，提供了一种群体兴趣标签的生成方法、装置、计算机设备和存储介质。所述方法包括：获取用户对象集合，所述用户对象集合包括带兴趣标签的用户对象和无兴趣标签的用户对象；按所述用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体；根据每个所述用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数；基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签；将筛选得到的兴趣标签作为相应用户对象群体的群体兴趣标签。采用本方法能够生成用户对象群体的群体兴趣标签。

Description

群体兴趣标签的生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及信息处理技术领域，特别是涉及一种群体兴趣标签的生成方法、装置、计算机设备和存储介质。

背景技术

随着互联网的发展和应用，个性化推荐、多样化营销等差异化服务在人们生活中得到了广泛应用，而这些差异化服务离不开用户画像。用户画像的核心工作是给用户生成兴趣标签。通过对用户进行标签化工作，可以从宏观角度对用户行为进行分析和预测，有助于提升企业针对特定用户的营销行为的精准度。

目前，生成用户画像的兴趣标签的方式，都是针对特定的单个用户生成兴趣标签，难以对群体用户提供准确的兴趣标签。

发明内容

基于此，有必要针对上述技术问题，提供一种兴趣标签的生成方法、装置、计算机设备和存储介质。

一种群体兴趣标签的生成方法，所述方法包括：

获取用户对象集合，所述用户对象集合包括带兴趣标签的用户对象和无兴趣标签的用户对象；

按所述用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体；

根据每个所述用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数；

基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签；

将筛选得到的兴趣标签作为相应用户对象群体的群体兴趣标签。

在其中一个实施例中，所述按所述用户对象集合中用户对象的用户属性进行聚类之前，所述方法还包括：

确定所述用户对象集合中的带兴趣标签的用户对象；

根据各所述带兴趣标签的用户对象所对应的兴趣标签以及各所述带兴趣标签的用户对象所对应的用户属性，筛选带错误兴趣标签的用户对象；

将筛选出的用户对象所带的错误兴趣标签去除，得到相应的无兴趣标签的用户对象。

在其中一个实施例中，所述根据各所述带兴趣标签的用户对象所对应的兴趣标签以及各所述带兴趣标签的用户对象所对应的用户属性，筛选带错误兴趣标签的用户对象包括：

根据各所述带兴趣标签的用户对象所对应的兴趣标签以及各所述带兴趣标签的用户对象所对应的用户属性，确定每个带兴趣标签的用户对象的互信息；

基于每个用户对象群体中的带兴趣标签的用户对象，按照每个用户对象对应的互信息筛选带错误兴趣标签的用户对象。

在其中一个实施例中，所述用户对象集合包括各个用户对象，所述用户对象包括用户标识；所述按所述用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体包括：

在所述用户对象集合中，按照用户属性选取多个作为初始的聚类中心的用户对象；

对于所述用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度；

将所述每个待聚类的用户对象按照相应相似度划分到最接近的聚类中心所属的聚类簇；

重新计算每个聚类簇的聚类中心，当不满足聚类停止条件时，返回所述对于所述用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度的步骤，直至满足聚类停止条件时，得到用户对象群体。

在其中一个实施例中，所述根据每个所述用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数包括：

计算在每个用户对象群体中不同兴趣标签各自的第一用户对象数比重；

计算在所述用户对象集合中不同兴趣标签各自的第二用户对象数比重；

对于每个用户对象群体的每个兴趣标签，分别按照相应的第一用户对象数比重和第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数。

在其中一个实施例中，所述对于每个用户对象群体的每个兴趣标签，分别按照相应的第一用户对象数比重和相应的第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数包括：

对于每个用户对象群体的每个兴趣标签，分别用相应的第一用户对象数比重除以相应的第二用户对象数比重，得到每个用户对象群体的每个兴趣标签对应的目标群体指数。

在其中一个实施例中，所述基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签包括：

基于所述用户对象集合中带兴趣标签的用户对象所确定的各个用户对象群体，分别筛选出大于或等于相应预设阈值的目标群体指数；

根据筛选出的所述目标群体指数，将所述目标群体指数所对应的兴趣标签作为候选标签；

基于所述候选标签确定每个用户对象群体的兴趣标签。

一种群体兴趣标签的生成装置，所述装置包括：

用户对象获取模块，用于获取用户对象集合，所述用户对象集合包括带兴趣标签的用户对象和无兴趣标签的用户对象；

用户对象聚类模块，用于按所述用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体；

目标群体指数确定模块，用于根据每个所述用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数；

兴趣标签筛选模块，用于基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签；

群体兴趣标签确定模块，用于将筛选得到的兴趣标签作为相应用户对象群体的群体兴趣标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述群体兴趣标签的生成方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述群体兴趣标签的生成方法的步骤。

上述群体兴趣标签的生成方法、装置、计算机设备和存储介质，基于用户对象集合中用户对象的用户属性进行聚类，从而得到相类似的用户对象所构成的用户对象群体。基于每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征确定的目标群体指数，可以反映各个用户对象群体中各个兴趣标签的用户对象的数量比重与用户对象集合中各个兴趣标签的用户对象的数量比重的关系，从而可基于该目标群体指数赋予每个用户对象群体准确的群体兴趣标签。

附图说明

图1为一个实施例中群体兴趣标签的生成方法的应用场景图；

图2为一个实施例中群体兴趣标签的生成方法的流程示意图；

图3为另一个实施例中群体兴趣标签的生成方法的流程示意图；

图4为一个实施例中群体兴趣标签的生成装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的群体兴趣标签的生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104获取用户对象集合，其中用户对象集合可以是由终端102触发产生的；并基于用户对象集合中用户对象的用户属性进行聚类，得到相类似的用户对象所构成的用户对象群体；服务器104还根据每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征确定目标群体指数，并基于目标群体指数确定每个用户对象群体的群体兴趣标签。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种群体兴趣标签的生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取用户对象集合，用户对象集合包括带兴趣标签的用户对象和无兴趣标签的用户对象。

其中，用户对象集合包括各个用户对象，有带兴趣标签的用户对象和无兴趣标签的用户对象。用户对象集合包含了丰富的信息，比如用户对象之间的相似性、用户对象与兴趣标签的关系。兴趣标签是指区别于用户对象具有某类行为类型的倾向的标记；比如，用户对象经常使用视频类应用程序，相应的该用户对象的兴趣标签可以是视频。

具体地，终端被用户触发生成各个用户对象的用户对象集合，并将生成的用户对象集和通过网络传输给服务器，也可以将用户对象集合直接存储在终端自身设备中。服务器可以从各个终端中获取用户对象集合，也可以从服务器中获取用户对象集合。

步骤S204，按用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体。

其中，用户属性是指用户对象的基础信息，包括性别、学历、出生城市等级、现居地城市等级、是否有车产以及可支配财富值等级。用户对象群体是相类似的用户对象所构成的一个用户对象集合，用户对象群体包括各个相类似的用户对象。

具体地，服务器基于获取到的用户对象集合，根据各个用户对象查找对应的用户属性，该用户属性可以存储在数据库中，也可以存储在与用户对象各自对应的终端中；基于查找到的用户对象集合中用户对象的用户属性进行聚类，以此得到用户对象群体。

可选地，服务器获取到用户对象集合，该用户对象集合包括各个用户对象，每个用户对象包括用户属性和兴趣标签；并直接根据获取到的用户对象集合中各个用户对象的用户属性进行聚类，从而得到用户对象群体。

步骤S206，根据每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数。

其中，目标群体指数(Target Group Index，TGI)，是反映用户对象群体中用户对象的用户属性在特定范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。例如，若TGI指数为100时，表示平均水平；若高于100时，代表该用户对象群体具有某类行为类型的倾向程度高于整体水平。

具体地，基于得到的各个用户对象群体，每个用户对象群体中包括带兴趣标签的用户对象以及无兴趣标签的用户对象。服务器根据每个用户对象群体中各个带兴趣标签的用户对象的数量比重特征，计算每个用户对象群体的各个兴趣标签对应的目标群体指数。

可选地，数量比重特征是每个用户对象群体中不同兴趣标签各自的第一用户对象数比重，以及在该用户对集合中不同兴趣标签各自的第二用户对象数比重。服务器根据计算得到的第一用户对象数比重和第二用户对象数比重，计算每个用户对象群体的各个兴趣标签对应的目标群体指数。

步骤S208，基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签。

具体地，对于每个用户对象群体，服务器根据用户对象群体中带兴趣标签的用户对象，按照与该用户对象群体中每个兴趣标签所对应的目标群体指数来筛选兴趣标签，以此筛选出符合条件的兴趣标签。

步骤S210，将筛选得到的兴趣标签作为相应用户对象群体的群体兴趣标签。

其中，群体兴趣标签是指用户对象群体具有某类行为类型倾向的标记。

具体地，基于各个用户对象群体筛选出的兴趣标签，服务器将该筛选出的兴趣标签作为与之对应的用户对象群体的群体兴趣标签，表征该用户对象群体具由与群体兴趣标签对应的行为倾向。

上述实施例中，基于用户对象集合中用户对象的用户属性进行聚类，从而得到相类似的用户对象所构成的用户对象群体。基于每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征确定的目标群体指数，可以反映各个用户对象群体中各个兴趣标签的用户对象的数量比重与用户对象集合中各个兴趣标签的用户对象的数量比重的关系，从而可基于该目标群体指数赋予每个用户对象群体准确的群体兴趣标签。

在一个实施例中，按用户对象集合中用户对象的用户属性进行聚类之前，方法还包括以下步骤：确定用户对象集合中的带兴趣标签的用户对象；根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，筛选带错误兴趣标签的用户对象；将筛选出的用户对象所带的错误兴趣标签去除，得到相应的无兴趣标签的用户对象。

其中，错误兴趣标签是指与用户对象本身具有的行为类型倾向不符合的标记，与用户对象的用户属性不符合的标记。

具体地，在获取到用户对象集合后，并在对用户对象集合中用户对象的用户属性进行聚类前，服务器需对带兴趣标签的用户对象进行数据处理，删除用户对象的错误兴趣标签，从而将带错误兴趣标签的用户对象标记为无兴趣标签的用户对象。服务器确定获取到的用户对象集合中带兴趣标签的用户对象；进而根据各个带兴趣标签的用户对象所对应的兴趣标签以及各个带兴趣标签的用户对象所对应的用户属性，以此筛选出该用户对象集合中的带错误兴趣标签的用户对象。服务器将筛选出的用户对象所带的错误兴趣标签去除，从而将带错误兴趣标签的用户变成无兴趣标签的用户对象。

在本实施例中，在对用户对象集合进行聚类前，基于各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，筛选出带错误兴趣标签的用户对象，给后续聚类提供更为准确的聚类样本，减少了聚类样本的数量、使得聚类模型的泛化能力更强，减少过拟合，从而提高了聚类的准确率。

在一个实施例中，根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，筛选带错误兴趣标签的用户对象，包括以下步骤：根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，确定每个带兴趣标签的用户对象的互信息；基于每个用户对象群体中的带兴趣标签的用户对象，按照每个用户对象对应的互信息筛选带错误兴趣标签的用户对象。

其中，互信息是变量参数间相互依赖性的量度，可以度量两个变量间的相关性。例如，两个离散随机变量X和Y的互信息可以定义为公式(1)：

其中，p(x，y)是X和Y的联合概率密度函数，而p(x)和p(y)分别是X和Y的边缘概率密度函数。

具体地，服务器基于各个带兴趣标签的用户对象所对应的兴趣标签以及各个带兴趣标签的用户对象所对应的用户属性，得到每个兴趣标签和用户属性各自对应的边缘概率密度函数以及联合概率密度函数；服务器基本得到的概率密度函数，计算得到每个带兴趣标签的用户对象的互信息。根据计算得到的互信息，将每个用户对象群体中各个用户对象与相应的互信息建立对应关系，并将对应关系存储在服务器中。服务器基于每个用户对象群体中的带兴趣标签的用户对象，根据用户对象获取存储在服务器中对应的互信息，并根据获取到的用户对象的互信息筛选各个用户对象群体中带错误兴趣标签的用户对象。

在本实施例中，基于带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，计算每个兴趣标签的互信息，根据兴趣标签的互信息来筛选用户对象集合中带错误兴趣标签的用户对象，提高了聚类的准确率。

在一个实施例中，用户对象集合包括各个用户对象，用户对象包括用户标识；按用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体，包括以下步骤：在用户对象集合中，按照用户属性选取多个作为初始的聚类中心的用户对象；对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度；将每个待聚类的用户对象按照相应相似度划分到最接近的聚类中心所属的聚类簇；重新计算每个聚类簇的聚类中心，当不满足聚类停止条件时，返回对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度的步骤，直至满足聚类停止条件时，得到用户对象群体。

其中，聚类中心是具有相类似的用户对象聚合成一个聚类簇，该聚类簇的几个中心为聚类中心。初始的聚类中心可以是随机选取的用户对象。聚类停止条件可以是没有或达到预设数目的用户对象被重新分配给不同的聚类簇；也可以是没有或达到预设数目的聚类中心发生变化；也可以是各个聚类簇中每个用户对象到聚类中心的聚类之和达到预设阈值范围。相似度是评定两个用户对象之间相近程序的一种度量，可以采用两个对象之间的距离、相关系数和余弦角度来计算相似度。相似度越大，说明两个用户对象越接近。

具体地，根据获取的用户对象集合，服务器按照用户对象的用户属性选取多个用户对象作为初始的聚类中心，该用户对象集合包括了聚类中心的用户对象以及除聚类中心外的待聚类的用户对象。服务器按照相应用户属性，计算每个待聚类的用户对象与各个聚类中心的相似度，即计算每个待聚类的用户对象所对应的用户属性与各个聚类中心所对应的用户属性的相似度。基于计算得到的相似度，服务器获取每个待聚类的用户对象的最小相似度所对应的聚类中心，将待聚类的用户对象划分到对应的最小相似度所对应的聚类中心所属的聚类簇中。当待聚类的用户对象都划分到相应的聚类簇时，服务器重新计算每个聚类簇的聚类中心，若不满足聚类停止条件时，则返回对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度的步骤，直至满足聚类停止条件时，得到用户对象群体。若满足聚类停止条件时，则停止聚类，得到用户对象群体。

可选地，服务器重新计算每个聚类簇的聚类中心，若此时更新后的聚类中心与前一次更新前的聚类中心相比，没有或达到预设数目的聚类中心发生改变，则停止聚类，得到用户对象群体。

可选地，当待聚类的用户对象都划分到相应的聚类簇时，服务器获取待聚类的用户对象数，若此时的待聚类数与上一次聚类的待聚类数相比，没有或达到预设数目的待聚类的用户对象数被重新分配给不同的聚类簇，则停止聚类，得到用户对象群体。

在本实施例中，基于用户对象集合中各个用户对象，按照用户对象的用户属性与各个聚类中心的相似度来划分聚类簇，从而得到各个用户对象群体，使得后续群体兴趣标签的生成可以基于生成的用户对象群体进行。

在一个实施例中，根据每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数，包括以下步骤：计算在每个用户对象群体中不同兴趣标签各自的第一用户对象数比重；计算在用户对象集合中不同兴趣标签各自的第二用户对象数比重；对于每个用户对象群体的每个兴趣标签，分别按照相应的第一用户对象数比重和第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数。

其中，第一用户对象数比重是指在用户对象群体中，相同兴趣标签的用户数与对应用户对象群体的群体用户数的比重。第二用户对象比重是指在用户对象集合中，相同兴趣标签所对应的用户总数与对应用户对象集合的总用户数的比重。

具体地，基于各个用户对象群体的每个用户对象对应的兴趣标签，服务器计算在每个用户对象群体中不同兴趣标签的第一用户对象数比重。在各个用户对象群体中，服务器获取各个属于同一兴趣标签所对应的用户数以及相应用户对象群体的群体用户数；基于用户数以及群体用户数计算每个用户对象群体中不同兴趣标签的第一用户对象比重。在用户对象集合中，服务器获取各个属于同一兴趣标签所对应的用户总数以及用户对象集合的总用户数，基于该用户总数和总用户数计算用户对象集合中不同兴趣标签各自的第二用户对象数比重。对于每个用户对象群体的每个兴趣标签，服务器获取计算得到的与兴趣标签相应的第一用户对象数比重以及第二用户对象数比重，根据获取到的相应的第一用户对象数比重以及第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数。

在其中一个实施例中，第一用户对象数比重与相同兴趣标签的用户数正相关，且与相应用户对象群体的群体用户数成负相关。第二用户对象数比重与相同兴趣标签所对应的用户总数成正相关，且与相应用户对象集合的总用户数成负相关。

在其中一个实施例中，对于每个用户对象群体的每个兴趣标签，分别用相应的第一用户对象数比重除以相应的第二用户对象数比重，得到每个用户对象群体的每个兴趣标签对应的目标群体指数。兴趣标签对应的目标群体指数与第一用户对象数比重正相关，且与第二用户对象数成负相关。

在本实施例中，针对每个用户对象群体的每个兴趣标签，按照相应的第一用户对象数比重和第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数，可以反映各个用户对象群体中各个兴趣标签的用户对象的数量比重与用户对象集合中各个兴趣标签的用户对象的数量比重的关系，从而可基于该目标群体指数赋予每个用户对象群体准确的群体兴趣标签。

在一个实施例中，基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签，包括以下步骤：基于用户集合中带兴趣标签的用户对象所确定的各个用户对象群体，分别筛选出大于或等于相应预设阈值的目标群体指数；根据筛选出的目标群体指数，将目标群体指数所对应的兴趣标签作为候选标签；基于候选标签确定每个用户对象群体的兴趣标签。

其中，预设阈值是提前设定的判断目标群体指数的界限值，阈值可以存储在数据库中；预设阈值是与各用户对象群体对应的目标群体指数的界限值。

具体地，基于用户对象集合中带兴趣标签的用户对象所确定的各个用户对象群体，服务器将各个用户对象群体中各个兴趣标签对应的目标群体指数与预设阈值进行比较，以此筛选出各个用户对象群体中大于或等于相应预设阈值的目标群体指数。服务器还根据筛选出的目标群体指数，将该目标群体指数所对应的兴趣标签作为候选标签，候选标签可以有多个；进一步，从候选标签中筛选中每个用户对象群体的兴趣标签。

在本实施例中，基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签，可快速批量的筛选出各个用户对象群体的兴趣标签。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种群体兴趣标签的生成装置300，包括：用户对象获取模块302、用户对象聚类模块304、目标群体指数确定模块306、兴趣标签筛选模块308以及群体兴趣标签确定模块310，其中：

用户对象获取模块302，用于获取用户对象集合，用户对象集合包括带兴趣标签的用户对象和无兴趣标签的用户对象。

用户对象聚类模块304，用于按用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体。

目标群体指数确定模块306，用于根据每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数。

兴趣标签筛选模块308，用于基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签。

群体兴趣标签确定模块310，用于将筛选得到的兴趣标签作为相应用户对象群体的群体兴趣标签。

在一个实施例中，如图4所示，上述群体兴趣标签的生成装置还包括：标签用户对象确定模块312、错误标签筛选模块314以及错误标签去除模块316，其中：

标签用户对象确定模块312，用于确定用户对象集合中的带兴趣标签的用户对象。

错误标签筛选模块314，用于根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，筛选带错误兴趣标签的用户对象。

错误标签去除模块316，用于将筛选出的用户对象所带的错误兴趣标签去除，得到相应的无兴趣标签的用户对象。

在一个实施例中，上述错误标签筛选模块包括：互信息计算模块和互信息筛选模块。互信息计算模块，用于根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，确定每个带兴趣标签的用户对象的互信息；互信息筛选模块，用于基于每个用户对象群体中的带兴趣标签的用户对象，按照每个用户对象对应的互信息筛选带错误兴趣标签的用户对象。

在一个实施例中，上述用户对象聚类模块包括：聚类中心选取模块、相似度计算模块、待聚类用户划分模块和用户对象群体获取模块。聚类中心选取模块，用于在用户对象集合中，按照用户属性选取多个作为初始的聚类中心的用户对象；相似度计算模块，用于对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度；待聚类用户划分模块，用于将每个待聚类的用户对象按照相应相似度划分到最接近的聚类中心所属的聚类簇；用户对象群体获取模块，用于重新计算每个聚类簇的聚类中心，当不满足聚类停止条件时，返回对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度的步骤，直至满足聚类停止条件时，得到用户对象群体。

在一个实施例中，上述目标群体指数确定模块包括：第一用户对象数比重、第二用户对象数比重和目标群体指数计算模块。第一用户对象数比重，用于计算在每个用户对象群体中不同兴趣标签各自的第一用户对象数比重；第二用户对象数比重，用于计算在用户对象集合中不同兴趣标签各自的第二用户对象数比重；目标群体指数计算模块，用于对于每个用户对象群体的每个兴趣标签，分别按照相应的第一用户对象数比重和第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数。

在一个实施例中，上述目标群体指数计算模块包括目标群体指数计算单元。目标群体指数计算单元，用于对于每个用户对象群体的每个兴趣标签，分别用相应的第一用户对象数比重除以相应的第二用户对象数比重，得到每个用户对象群体的每个兴趣标签对应的目标群体指数。

在一个实施例中，上述兴趣标签筛选模块包括目标群体指数筛选模块、候选标签确定模块和兴趣标签确定模块。目标群体指数筛选模块，用于基于用户对象集合中带兴趣标签的用户对象所确定的各个用户对象群体，分别筛选出大于或等于相应预设阈值的目标群体指数；候选标签确定模块，用于根据筛选出的目标群体指数，将目标群体指数所对应的兴趣标签作为候选标签；兴趣标签确定模块，用于基于候选标签确定每个用户对象群体的兴趣标签。

在上述实施例中，基于用户对象集合中用户对象的用户属性进行聚类，从而得到相类似的用户对象所构成的用户对象群体。基于每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征确定的目标群体指数，可以反映各个用户对象群体中各个兴趣标签的用户对象的数量比重与用户对象集合中各个兴趣标签的用户对象的数量比重的关系，从而可基于该目标群体指数赋予每个用户对象群体准确的群体兴趣标签。

关于群体兴趣标签的生成装置的具体限定可以参见上文中对于群体兴趣标签的生成方法的限定，在此不再赘述。上述群体兴趣标签的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户对象集合数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种群体兴趣标签的生成方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取用户对象集合，用户对象集合包括带兴趣标签的用户对象和无兴趣标签的用户对象；按用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体；根据每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数；基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签；将筛选得到的兴趣标签作为相应用户对象群体的群体兴趣标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：确定用户对象集合中的带兴趣标签的用户对象；根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，筛选带错误兴趣标签的用户对象；将筛选出的用户对象所带的错误兴趣标签去除，得到相应的无兴趣标签的用户对象。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，确定每个带兴趣标签的用户对象的互信息；基于每个用户对象群体中的带兴趣标签的用户对象，按照每个用户对象对应的互信息筛选带错误兴趣标签的用户对象。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在用户对象集合中，按照用户属性选取多个作为初始的聚类中心的用户对象；对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度；将每个待聚类的用户对象按照相应相似度划分到最接近的聚类中心所属的聚类簇；重新计算每个聚类簇的聚类中心，当不满足聚类停止条件时，返回对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度的步骤，直至满足聚类停止条件时，得到用户对象群体。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算在每个用户对象群体中不同兴趣标签各自的第一用户对象数比重；计算在用户对象集合中不同兴趣标签各自的第二用户对象数比重；对于每个用户对象群体的每个兴趣标签，分别按照相应的第一用户对象数比重和第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对于每个用户对象群体的每个兴趣标签，分别用相应的第一用户对象数比重除以相应的第二用户对象数比重，得到每个用户对象群体的每个兴趣标签对应的目标群体指数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于用户对象集合中带兴趣标签的用户对象所确定的各个用户对象群体，分别筛选出大于或等于相应预设阈值的目标群体指数；根据筛选出的目标群体指数，将目标群体指数所对应的兴趣标签作为候选标签；基于候选标签确定每个用户对象群体的兴趣标签。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取用户对象集合，用户对象集合包括带兴趣标签的用户对象和无兴趣标签的用户对象；按用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体；根据每个用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数；基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签；将筛选得到的兴趣标签作为相应用户对象群体的群体兴趣标签。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：确定用户对象集合中的带兴趣标签的用户对象；根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，筛选带错误兴趣标签的用户对象；将筛选出的用户对象所带的错误兴趣标签去除，得到相应的无兴趣标签的用户对象。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据各带兴趣标签的用户对象所对应的兴趣标签以及各带兴趣标签的用户对象所对应的用户属性，确定每个带兴趣标签的用户对象的互信息；基于每个用户对象群体中的带兴趣标签的用户对象，按照每个用户对象对应的互信息筛选带错误兴趣标签的用户对象。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在用户对象集合中，按照用户属性选取多个作为初始的聚类中心的用户对象；对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度；将每个待聚类的用户对象按照相应相似度划分到最接近的聚类中心所属的聚类簇；重新计算每个聚类簇的聚类中心，当不满足聚类停止条件时，返回对于用户对象集合中除聚类中心的每个待聚类的用户对象，按照相应用户属性计算与每个聚类中心的相似度的步骤，直至满足聚类停止条件时，得到用户对象群体。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算在每个用户对象群体中不同兴趣标签各自的第一用户对象数比重；计算在用户对象集合中不同兴趣标签各自的第二用户对象数比重；对于每个用户对象群体的每个兴趣标签，分别按照相应的第一用户对象数比重和第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对于每个用户对象群体的每个兴趣标签，分别用相应的第一用户对象数比重除以相应的第二用户对象数比重，得到每个用户对象群体的每个兴趣标签对应的目标群体指数。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于用户对象集合中带兴趣标签的用户对象所确定的各个用户对象群体，分别筛选出大于或等于相应预设阈值的目标群体指数；根据筛选出的目标群体指数，将目标群体指数所对应的兴趣标签作为候选标签；基于候选标签确定每个用户对象群体的兴趣标签。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种群体兴趣标签的生成方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述按所述用户对象集合中用户对象的用户属性进行聚类之前，所述方法还包括：

确定所述用户对象集合中的带兴趣标签的用户对象；

3.根据权利要求2所述的方法，其特征在于，所述根据各所述带兴趣标签的用户对象所对应的兴趣标签以及各所述带兴趣标签的用户对象所对应的用户属性，筛选带错误兴趣标签的用户对象包括：

4.根据权利要求1所述的方法，其特征在于，所述用户对象集合包括各个用户对象，所述用户对象包括用户标识；所述按所述用户对象集合中用户对象的用户属性进行聚类，得到用户对象群体包括：

5.根据权利要求1所述的方法，其特征在于，所述根据每个所述用户对象群体中带各个兴趣标签的用户对象的数量比重特征，确定每个用户对象群体的每个兴趣标签对应的目标群体指数包括：

6.根据权利要求5所述的方法，其特征在于，所述对于每个用户对象群体的每个兴趣标签，分别按照相应的第一用户对象数比重和相应的第二用户对象数比重，计算每个用户对象群体的每个兴趣标签对应的目标群体指数包括：

7.根据所述权利要求1至6任一项所述的方法，其特征在于，所述基于每个用户对象群体中有兴趣标签的用户对象，按照每个用户对象群体的每个兴趣标签对应的目标群体指数筛选兴趣标签包括：

基于所述候选标签确定每个用户对象群体的兴趣标签。

8.一种群体兴趣标签的生成装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。