CN108876470A

CN108876470A - 标签用户扩展方法、计算机设备及存储介质

Info

Publication number: CN108876470A
Application number: CN201810699662.0A
Authority: CN
Inventors: 杨春风
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-23
Anticipated expiration: 2038-06-29
Also published as: CN108876470B

Abstract

一种标签用户扩展方法、计算机设备及存储介质，本方法包括：获取待扩展标签；基于各标签之间的相似度，确定各标签中与待扩展标签对应的各相似标签，各标签包括待扩展标签；基于各相似标签关联的用户标识，确定待扩展标签对应的扩展用户标识；合并扩展用户标识和待扩展标签对应的原始用户标识，确定扩展后的用户标识。利用本方法可实现对标签对应用户的扩展。

Description

标签用户扩展方法、计算机设备及存储介质

技术领域

本发明涉及计算机信息处理技术领域，特别涉及一种标签用户扩展方法、计算机设备及存储介质。

背景技术

随着互联网技术的发展，商家为提高其产品或服务等信息的曝光，常通过互联网进行广告等待投放信息的投放，为促进用户的购买、使用等行为。一般情况下，可先确定待投放信息对应的标签，向该标签对应的各用户进行待投放信息的投放，以实现信息精准投放。例如，针对某汽车广告信息，可先确定该汽车广告信息对应的标签为汽车，然后向汽车标签下对应的各用户进行广告投放，以促进用户对该汽车的购买等。

然而，存在标签覆盖的原始用户数量可能较少的情况，即在待投放信息对应的标签下，对应的用户数量可能较少，则待投放信息的定向人群数量少，待投放信息的投放范围受限，易导致待投放信息的投放效果不明显。

发明内容

基于此，有必要针对定向人群数量少的问题，提出一种标签用户扩展方法、计算机设备及存储介质。

一种标签用户扩展方法，包括步骤：

获取待扩展标签；

基于各标签之间的相似度，确定各所述标签中与所述待扩展标签对应的各相似标签，各所述标签包括所述待扩展标签；

基于各所述相似标签关联的用户标识，确定所述待扩展标签对应的扩展用户标识；

合并所述扩展用户标识和所述待扩展标签对应的原始用户标识，确定扩展后的用户标识。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述标签用户扩展方法、计算机设备及存储介质，首先，获取需进行用户扩展的待扩展标签，并基于各标签之间的相似度，确定各所述标签中与所述待扩展标签对应的各相似标签，即确定与待扩展标签相似的标签，然后再基于确定的各所述相似标签关联的用户标识，确定所述待扩展标签对应的扩展用户标识，即以与待扩展标签相似的标签对应的用户标识对待扩展标签对应的用户进行扩展，获得扩展用户标识，实现对待扩展标签对应用户的扩展，然后将扩展用户标识与原始用户标识进行合并得到扩展后的用户标识，可增加待扩展标签下对应的用户数量，如此，可为后续待投放信息提供更多的用户，可扩展待投放信息的投放范围，避免信息投放范围受限。

附图说明

图1为本发明一个实施例的应用环境示意图；

图2为一个实施例的标签用户扩展方法的流程示意图；

图3为一个实施例的确定标签有向网络中与待扩展标签对应的各相似标签的步骤的子流程示意图；

图4为一个实施例的基于确定的各相似标签关联的用户标识，确定目标标签对应的扩展用户标识的步骤的子流程示意图；

图5为一个实施例的实现本申请标签用户扩展方法的平台界面图；

图6为一实施例的选择提取条件界面图；

图7为一个实施例的教育标签界面图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本申请提供的各实施例的数据处理方法，可以应用于如图1所示的应用环境中，应用环境涉及包括终端10和服务器20，终端10通过网络可与服务器20通信。上述数据处理方法可应用于图1中的服务器20中。在服务器20中，可获取待扩展标签；基于各标签之间的相似度，确定各所述标签中与所述待扩展标签对应的各相似标签，各所述标签包括所述待扩展标签；基于确定的各所述相似标签关联的用户标识，确定所述待扩展标签对应的扩展用户标识，即实现用户的扩展，合并所述扩展用户标识和所述待扩展标签对应的原始用户标识，确定扩展后的用户标识。然后，服务器20可向待扩展标签对应的扩展后的用户标识对应用户所在终端10投放待投放信息，终端10接收到待投放信息后，上述扩展后的用户标识对应用户均可对待投放信息进行查看，有利于提高用户对待投放信息的了解、使用或购买等。

该服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。该终端10或/和接收端30可以是任何一种能够实现智能输入输出以及启动应用的设备，例如，移动终端，移动终端可以是智能手机、平板电脑、车载电脑、穿戴式智能设备等。

如图2所示，提供一个实施例的标签用户扩展方法，包括步骤S210至步骤S240。

S210：获取待扩展标签。

待扩展标签可以指确定的待投放信息(例如广告信息)对应的标签，在本实施例中，确定扩展用户标识后，不但可将待投放信息投放給待扩展标签对应的原始用户，还可将其投放給扩展用户标识对应的用户，即待扩展标签可以理解为需将待投放信息投放其对应用户的标签。标签可以指用户画像的兴趣标签。用户画像，又称用户角色(Persona)，是一种用于勾画目标用户、联系用户诉求与设计方向的有效工具，其在各领域均得到了广泛的应用。可以理解为用户信息标签化，即通过分析用户属性以及行为，为用户打上标签以及标签的权重，是建立在用户相关数据之上的用户模型，用户画像用于描述用户信息。例如，可以将用户画像作为用于刻画用户特征的标签(tag)集合，比如，可以包括年龄、性别和/或学历等基础属性，其对应属性标签，也包括用户的兴趣特征，如旅游、汽车、游戏、家电以及教育等，对应兴趣标签。

针对用户而言，可对应有许多不同的标签。比如一个用户既喜欢旅游又喜欢玩游戏，则该用户可对应旅游和游戏的标签，甚至更多。针对标签而言，可对应有许多用户，即可以有许多用户对应有相同的标签。比如，多个用户均喜欢旅游，多个用户分别可以打上旅游标签，则旅游标签可对应多个用户。

S220：基于各标签之间的相似度，确定各标签中与待扩展标签对应的各相似标签。

其中，各标签包括待扩展标签。不同标签之间对应的用户可以存在相同，例如，旅游标签对应有用户A和用户B，游戏标签对应有用户A和用户C，即一个用户可以对应多个标签，如此，各标签之间存在一定的相似。又或者，标签本身之间会存在某种关联。即各标签之间存在一定的相似度，可预先确定各标签之间的相似度，并基于各标签之间的相似度，确定各标签中与待扩展标签对应的各相似标签。

S230：基于各相似标签关联的用户标识，确定待扩展标签对应的扩展用户标识。

相似标签关联的用户标识即为相似标签对应用户的标识，用户标识即为能唯一表征用户身份的信息。基于确定的与待扩展标签对应的相似标签下的用户标识，即可确定待扩展标签对应的扩展用户标识。可以理解，待扩展标签对应的扩展用户标识从与其对应的各相似标签关联的用户标识中筛选得到，即为针对待扩展标签，增加的用户标识。

例如，待扩展标签为T1，对应的用户包括用户A和用户B，与T1其对应的各相似标签包括标签T2和标签T3，标签T2对应的用户包括用户C和用户D，标签T3对应的用户包括用户E和用户F，则可基于用户C、用户D、用户E和用户F，确定待扩展标签T1对应的扩展用户标识，即扩展用户标识为从用户C、用户D、用户E和用户F中筛选的用户对应的用户标识。

S240：合并所述扩展用户标识和所述待扩展标签对应的原始用户标识，确定扩展后的用户标识。

后续可将扩展用户标识与待扩展标签对应的原始用户标识(待扩展标签对应的原有的用户标识，即扩展前待扩展标签下对应的用户标识)进行合并(可求并集)，得到待扩展标签对应的扩展后的用户标识。增加待扩展标签对应的用户数量，即增加定向人群。后续可向扩展后的用户标识推送待投放信息，即可将待投放信息投放給更多的用户，增加待投放信息的投放范围，让更多的用户可了解待投放信息，以提高信息投放效果。

例如，上述确定的扩展用户标识为用户E对应的用户标识，可将用户E对应的用户标识与待扩展标签T1对应的用户A和用户B分别对应的用户标识进行合并，得到的扩展后的用户标识包括用户A、用户B和用户E分别对应的用户标识。

上述标签用户扩展方法，首先，获取需进行用户扩展的待扩展标签，并基于各标签之间的相似度，确定各所述标签中与所述待扩展标签对应的各相似标签，即确定与待扩展标签相似的标签，然后再基于确定的各所述相似标签关联的用户标识，确定所述待扩展标签对应的扩展用户标识，即以与待扩展标签相似的标签对应的用户标识对待扩展标签对应的用户进行扩展，获得扩展用户标识，实现对待扩展标签对应用户的扩展，然后将扩展用户标识与原始用户标识进行合并得到扩展后的用户标识，可增加待扩展标签下对应的用户数量，如此，可扩展待投放信息的投放范围，避免信息投放范围受限。即为后续信息投放过程提供更多接收待投放信息的用户，可使待投放信息投放的范围更大，提高信息投放效果。

在一个实施例中，基于各标签之间的相似度，确定各标签中与待扩展标签对应的各相似标签，包括：基于待扩展标签以及标签有向网络，确定标签有向网络中与待扩展标签对应的各相似标签，标签有向网络基于各标签之间的相似度确定。

标签有向网络包括各标签对应的标签节点，还可包括各标签节点之间的连接关系，且是有向连接关系，即标签节点之间的连接是有方向的。标签有向网络可以理解为标签有向图，可利用标签-标签矩阵来表示。例如，标签-标签矩阵的每一行表示一个标签分别至各标签之间的有向连接情况，比如，标签T1对应矩阵的第一行，标签T1至标签T2为有向连接，且是标签T1指向标签T2，标签T2对应矩阵的第二列，则矩阵中第一行第二列的元素可以设为1，否则为0。若标签T2至标签T1有向连接，且是标签T2指向标签T1，则矩阵中第二行第一列的元素可以设为1，否则为0。

在本实施例中，基于各标签之间的相似度确定标签有向网络，即标签有向网路中各标签节点之间是否建立有向连接关系，通过各标签之间的相似度决定。由于标签有向网络不但包括各标签对应的标签节点，还包括有个标签节点之间的有向连接关系，且有向连接关系基于各标签之间的相似度决定，则基于确定的标签有向网络以及待扩展标签，可确定标签有向网络中与待扩展标签相似的标签即相似标签。

在一个实施例中，各标签之间的相似度的确定方式，包括：分别以各标签作为目标标签，确定各候选标签分别转移至该目标标签的转移概率，各候选标签为各标签中除目标标签以外的其他标签；将各候选标签分别转移至该目标标签的转移概率，作为该目标标签分别对于各候选标签的相似度，确定各标签之间的相似度。

转移概率可以理解为待转移信息转移至转移目标信息的概率，例如，假定某大学有1万学生，每人每月用1支牙膏，并且只使用“ZH”牙膏与“HM”牙膏两者之一。根据本月调查，有3000人使用“HM”牙膏，7000人使用“ZH”牙膏。又据调查，使用“HM”膏的3000人中，有60％的人下月将继续使用“HM”牙膏，40％的人将改用“ZH”牙膏；使用“ZH”牙膏的7000人中，有70％的人下月将继续使用“ZH”牙膏，30％的人将改用“HM”牙膏。据此，可以得到“HM”牙膏转移至“HM”牙膏的转移概率为60％，“HM”牙膏转移至“ZH”牙膏的转移概率为40％，“ZH”牙膏转移至“HM”牙膏的转移概率为30％，“ZH”牙膏转移至“ZH”牙膏的转移概率为70％。

在本实施例中，转移概率为候选标签分别转移至目标标签的概率，且将各候选标签分别转移至目标标签的转移概率，作为该目标标签分别对于各候选标签的相似度，确定各标签之间的相似度。对于标签T1和标签T2，由于转移过程中有方向，即包括标签T1到标签T2的转移概率，即标签T2对于标签T1的转移概率，还包括标签T2到标签T1的转移概率，即标签T1对于标签T2的转移概率，两者的值是可以不同的。标签T2对于标签T1的相似度即为标签T1到标签T2的转移概率，标签T1对于标签T2的相似度即为标签T2到标签T1的转移概率。可以理解，两个标签之间的相似度包括一个标签对于另一标签的相似度以及另一标签对于上述一个标签的相似度。

在本实施例中，标签的数量可以有多个，需要分别以每个标签为目标标签，计算各候选标签分别转移至该目标标签的转移概率，如此，可确定各候选标签分别对于该目标标签的相似度，即针对每一个标签，可确定各标签中除该标签以外的其他标签对于其的相似度，如此，可确定各标签之间的相似度。

例如，各标签中包括标签T1、标签T2和标签T3，首先，以标签T1作为目标标签，即可计算标签T2和标签T3分别对于标签T1的相似度，即标签T2和标签T3分别转移至标签T1的转移概率。此时，以标签T1为目标标签确定对于其的相似度，然后再以标签T2为目标标签，即可计算标签T1和标签T3分别对于标签T2的相似度，即标签T1和标签T3分别转移至标签T2的转移概率。再以标签T3为目标标签，即可计算标签T1和标签T2分别对于标签T3的相似度，即标签T1和标签T2分别转移至标签T3的转移概率。

在一个实施例中，确定候选标签转移至该目标标签的转移概率的方式包括：获取候选标签对应的用户标识以及目标标签对应的用户标识；对候选标签对应的用户标识以及目标标签对应的用户标识交集处理，确定公共用户标识；将公共用户标识的数量与目标标签对应的用户标识的数量的比值，作为候选标签转移至该目标标签的转移概率。

候选标签转移至该目标标签的转移概率P_H-M具体计算公式为：

其中，U_M为该目标标签对应的用户标识的集合，U_H为候选标签对应的用户标识的集合。

反之，确定该目标标签转移至候选标签的转移概率的方式包括：获取候选标签对应的用户标识以及目标标签对应的用户标识；对候选标签对应的用户标识以及目标标签对应的用户标识交集处理，确定公共用户标识；将公共用户标识的数量与候选标签对应的用户标识的数量的比值，作为该目标标签转移至候选标签的转移概率。即与上述转移概率不同之处在于，将候选标签作为转移目标标签，分母不同，本实施例中的分母为候选标签对应的用户标识的数量。

该目标标签转移至候选标签的转移概率P_M-H具体计算公式为：

例如、针对啤酒以及尿布的标签、啤酒对应的用户标识列表中用户标识包括：1、2、3和11，尿布的用户标识列表中用户标识包括：1、2、3、4、5、6、7、8、9和10、则啤酒转移到尿布的转移概率是3/4＝75％，即有购买啤酒的用户中有百分之75的用户也买了尿布，而尿布转移到啤酒的转移概率是3/10＝30％，即有购买尿布的用户中只有百分之30的用户也买了啤酒。从这个角度，相比于给购买尿布的用户推荐啤酒，更应该给购买啤酒的用户推荐尿布，即如果标签T1到标签T2的转移概率大，则应该把标签T1的用户推荐给标签T2。

在一个实施例中，在标签有向网络中，任意一个标签节点对应标签对于指向该标签节点的相邻节点的标签的相似度，属于各候选相似度，各候选相似度为各标签之间的相似度中，该标签节点对应标签作为目标标签时关联的且较大的预设数目个相似度。

在标签有向网络中，针对任意两个标签节点，一个标签节点为起始节点，另一个标签节点则为目的节点，只有在一个标签节点的标签对于另一个标签节点的标签的相似度(一个标签节点的标签转移到另一个标签节点的标签的转移概率)属于各候选相似度中时，一个标签节点与另一个标签节点才能建立有向连接，且一个标签节点指向另一个标签节点。针对标签有向网路中，任意一个标签节点对应的标签，指向该标签节点的相邻节点，该相邻节点指向该标签节点的相似度(即该标签节点的标签对于相邻节点对应的标签的相似度)属于各候选相似度中。且由于两个标签节点的标签之间的相似度，方向不同，则对应的相似度不同，即一个标签节点对于另一个标签节点的相似度，与另一个标签节点对于一个标签节点的相似度不同。从而，各候选相似度为各标签之间的相似度中，该标签节点对应标签作为目标标签时关联的且较大的预设数目个相似度，即为较大的预设数目个其他标签分别对于该标签节点对应标签的相似度。

标签节点对应标签作为目标标签时关联的相似度即为以该标签节点作为目标标签时，各标签中除该标签节点对应标签以外的其他标签对于该标签节点的相似度。亦即是说，针对任意一个标签节点对应的标签，选取各相似度中对于该标签节点对应标签的相似度较大的预设数目个标签节点与该标签节点建立有向连接，且预设数目个标签节点分别指向该标签节点。

例如，各标签中包括标签T1、标签T2、标签T3、标签T4、标签T5和标签T6，对应地，各标签节点包括标签节点t1、标签节点t2、标签节点t3、标签节点t4、标签节点t5和标签节点t6，预设数目为3。在建立各标签节点之间的有向连接关系过程中，以标签节点t1对应的标签T1为目标标签时，标签T2、标签T3和标签T4分别对于该标签T1的相似度较大，则建立对应标签节点t2、t3和t4分别指向标签节点t1的有向连接。以标签节点t2对应的标签T2为目标标签时，标签T4、标签T5和标签T6分别对于该标签T2的相似度较大，则建立对应标签节点t4、t5和t6分别指向标签节点t2的有向连接。如此循环，直到以各标签为目标标签确定连接关系完毕，则可建立标签有向网路。

请参阅图3，在一个实施例中，确定标签有向网络中与待扩展标签对应的各相似标签，包括：

S321：将待扩展标签作为当前标签。

S322：从标签有向网络中，当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，确定为选定节点。

S323：将选定节点对应的标签确定为相似标签。

S324：判断确定的各相似标签是否满足预设条件。

在确定的各相似标签不满足预设条件时，执行以下步骤：

S325：获取随机数值。

S326：判断随机数值属于第一预设数值范围还是第二预设数值范围。

在随机数值属于第一预设数值范围时，执行S327。并返回从标签有向网络中，当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，确定为选定节点的步骤S322。

S327：将相似标签作为当前标签。

在随机数值属于第二预设数值范围时，则返回从标签有向网络中，当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，确定为选定节点的步骤S322。

在确定的各相似标签满足预设条件时，执行步骤S328：将确定的各相似标签作为待扩展标签对应的各相似的标签。

即在不满足预设条件时，继续获取随机数值，以及后续的处理。直到确定的各相似标签满足预设条件，将确定的各相似标签作为待扩展标签对应的各相似的标签。

确定的各所述相似标签即为上述各相似标签，上述当前标签节点为各标签节点中与当前标签对应的标签节点。其中，第一预设数值范围与第二预设阈值范围的交集为空，第一预设数据范围在总预设数值范围(第一预设数值范围与第二预设数值范围的并集)的占比为第一预设概率，第二预设数据范围在总预设数值范围的占比为第二预设概率，第一预设概率与第二预设概率之和为1。可以理解，在本实施例中，是以第一预设概率，将相似标签作为当前标签即重新确定当前标签，选择从标签有向网络中，当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点作为选定节点(即深度优先遍历)。以第二预设概率无需重新确定当前标签，直接从标签有向网络中，当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点作为选定节点(即广度优先遍历)。

例如，第一预设概率为0.6，第二预设概率为0.4，即以0.6的概率选择深度优先遍历，以0.4的概率选择广度优先遍历，如此可平衡深度优先和广度优先遍历，使确定的相似标签更为准确。随机数值可以是通过随机函数随机产生的值，比如，可产生1-10中任意一个整数，第一预设数值范围为1到6，第二预设数值范围为7到10，第一预设数值范围占比60％，第二预设数值范围占比40％，则随机数值在第一预设数值范围内的概率为60％，即选择深度优先遍历的概率为0.6，随机数值在第二预设数值范围内的概率为40％，即选择广度优先遍历的概率为0.4。在一个实施例中，随机数值可以是0到1的任意数值，只需第一预设数值范围在总预设数值范围的占比达到第一预设概率，第二预设数值范围在总预设数值范围的占比达到第二预设概率即可。

例如，各标签包括各标签中包括标签T1、标签T2、标签T3、标签T4、标签T5、标签T6和标签T7，分别对应的标签节点依次为t1、t2、t3、t4、t5、t6和t7。标签节点t2和t3指向标签T1对应的标签节点t1，标签节点t1指向标签节点t4，标签节点t5和t6指向标签节点t3，t7指向t6。

待扩展标签为标签T1，将其作为当前标签，指向t1的相邻节点包括t2和t3，均未被选择过，随机选择一个例如选择t2作为选定节点，将其对应的标签确定为一个相似标签。确定的相似标签T2不满足预设条件，即不满足停止条件，获取一个随机数值，属于第一预设数值范围，则将该相似标签T2作为当前标签，指向t2的相邻节点包括t4和t5，均未被选择过，随机选择一个例如选择t5作为选定节点，将其对应的标签确定为一个相似标签，如此，确定的相似标签包括T2和T5。在确定的相似标签T2和T5不满足预设条件，即不满足停止条件，获取一个随机数值，属于第二预设数值范围，此时的当前标签还是标签T2，则返回从指向其的相邻节点t4和t5中选择一个未被选择过的t4作为下一个选定节点，将t4对应的标签T4作为下一个相似标签，此时，确定的相似标签包括T2、T5和T4，此时，若确定的相似标签包括T2、T5和T4已满足预设条件，则将上述确定的相似标签T2、T5和T4作为所述待扩展标签对应的各相似标签，相似标签确定完毕。

在一个实施例中，在确定的各相似标签对应的用户标识的总数量超过预设数量阈值时，确定的各相似标签满足预设条件。

无论采用深度优先还是广度优先来选择相似标签，均需要一个停止遍历的条件，可以理解，停止遍历的条件即为上述确定的各相似标签满足预设条件。在本实施例中，利用相似标签对应的用户标识的总数量作为判断是否满足停止遍历条件的依据。具体地，判断确定的各相似标签对应的用户标识的总数量是否超过预设数量阈值，若超过，则确定的各相似标签满足预设条件，表示满足遍历停止条件，即可停止遍历，此时的确定的各相似标签即为上述待扩展标签对应的各相似标签。

例如，首先将第一个确定的选定节点确定为相似标签后，即可对该相似标签的用户标识的总数量进行判断，判断其是否超过预设数量阈值，若否，则继续执行后续步骤，即获取随机数值，在随机数值属于第一预设数值范围时，将该相似标签作为当前标签，返回从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，作为第二个确定的选定节点，并将该选定节点也确定为相似标签，此时，确定的相似标签数量有两个，需要判断确定的两个相似标签对应的用户标识的总数量是否超过预设数量阈值，若否，则继续执行后续步骤，即重新获取随机数值，在当前获取的随机数值属于第二预设数值范围时，返回从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，作为第三个确定的选定节点，并将该选定节点也确定为相似标签，此时，确定的相似标签数量有3个，需要判断确定的3个相似标签对应的用户标识的总数量是否超过预设数量阈值，若超过，则表示满足停止遍历条件，即停止相似标签的继续查找。此时，确定的3个相似标签即为上述待扩展标签对应的各相似标签。

在一个实施例中，在将选定节点对应的标签确定为相似标签之后，将相似标签作为当前标签之前，还包括：对相似标签对应的用户标识进行抽样，确定相似标签对应的抽样用户标识。

在确定的各相似标签对应的抽样用户标识的总数目超过预设抽样数目阈值时，确定的各相似标签满足预设条件。

在本实施中，边进行标签遍历确定相似标签，边对相似标签对应的用户标识进行抽样，即每个相似标签对应抽样用户标识。在进行遍历停止条件判断过程中，将确定的各相似标签对应的抽样用户标识的总数目作为依据进行判断。具体地，对当前得到的相似标签进行抽样得到对应抽样用户标识之后，即可判断确定的各相似标签对应的抽样用户标识的总数是否超过预设抽样数据，若超过，则确定的各相似标签满足预设条件，表示满足遍历停止条件，即可停止遍历，此时的确定的各相似标签即为上述待扩展标签对应的各相似标签。

例如，首先将第一个确定的选定节点确定为相似标签后，即可对该相似标签的用户标识进行抽抽样，得到抽样用户标识，判断确定的相似标签对应的抽样用户标识的总数目是否超过预设抽样数目阈值，若否，则继续执行后续步骤，即获取随机数值，在随机数值属于第一预设数值范围时，将该相似标签作为当前标签，返回从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，作为第二个确定的选定节点，并将该选定节点也确定为相似标签，此时，确定的相似标签数量有两个，对当前确定的相似标签的用户标识进行抽样，得到抽样用户标识，需要判断确定的两个相似标签对应的抽样用户标识的总数目是否超过预设抽样数目阈值，若否，则继续执行后续步骤，即重新获取随机数值，在当前获取的随机数值属于第二预设数值范围时，返回从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，作为第三个确定的选定节点，并将该选定节点也确定为相似标签，此时，确定的相似标签数量有3个，对第三个确定的相似标识对应的用户标识进行抽样，确定抽样用户标识，需要判断确定的3个相似标签对应的抽样用户标识的总数目是否超过预设抽样数目阈值，若超过，则表示满足停止遍历条件，即停止相似标签的继续查找。此时，确定的3个相似标签即为上述待扩展标签对应的各相似标签。

在一个实施例中，在确定的各相似标签的总标签数达到预设标签阈值时，确定的各相似标签满足预设条件。

在本实施例中，对遍历标签的步长数进行限定，即在遍历标签确定相似标签的过程中，选择的相似标签的数量不能超过预设标签阈值。即在确定的各相似标签的总标签数达到预设标签阈值时，确定的各相似标签满足预设条件，表示满足遍历停止条件，即可停止遍历。

例如，预设标签阈值可以为3，在确定的各相似标签的数量达到3时，即可停止标签遍历。具体地，首先将第一个确定的选定节点确定为相似标签后，即可统计相似标签的数量，此时，相似标签的数量为1，未达到3，则继续执行后续步骤，即获取随机数值，在随机数值属于第一预设数值范围时，将该相似标签作为当前标签。返回从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，作为第二个确定的选定节点，并将该选定节点也确定为相似标签，再统计似标签的数量，此时，相似标签的数量为2，未达到3，则继续执行后续步骤，即重新获取随机数值，在当前获取的随机数值属于第二预设数值范围时，返回从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，作为第三个确定的选定节点，并将该选定节点也确定为相似标签，再统计似标签的数量，此时，相似标签的数量为3，达到3，则表示满足停止遍历条件，即停止相似标签的继续查找。此时，确定的3个相似标签即为上述待扩展标签对应的各相似标签。

在一个实施例中，各标签包括各待选标签以及待扩展标签。

在本实施例中，各标签之间的相似度的确定方式，包括：确定各标签分别对应的标签向量；基于各标签向量，获取待扩展标签分别与各待选标签之间的相似度。

即在本实施例中，不再通过标签本身的特性进行相似度计算。具体地，首先，需要确定各标签分别对应的标签向量。在一个示例中，可基于已训练的词向量模型word2vec，确定各标签分别对应的标签向量。其中，可预先基于通用语料库(例如，可以是包括内容开放、自由的网络百科全书对应的语料库，其中，包括各语料信息，可以是书面语言的表现形式，可包括任何文字材料，如文章、书籍等，)或/和广告语料库(可以包括各广告信息等)，对词向量模型word2vec进行训练得到已训练的词向量模型word2vec。

得到各标签向量后，可基于各标签向量，获取待扩展标签分别与各待选标签之间的相似度。在一个示例中，可以通过计算待扩展标签的标签向量分别与各待选标签的标签向量之间的余弦相似度，以确定所述待扩展标签分别与各所述待选标签之间的相似度。

在一个实施例中，基于各标签之间的相似度，确定各标签中与待扩展标签对应的各相似标签，包括：将各待选标签中，相似度较大的预定数目个待选标签确定为各相似标签。

相似度越大，表示该标签之间的相似程度越大，通过各标签向量确定待扩展标签分别与各待选标签之间的相似度之后，可将相似度较大的预定数目个待选标签确定为各相似标签。比如，预定数目可以为3，各待选标签包括标签T7、标签T8、标签T9、标签T10、标签T11和标签T12，其中，与待扩展标签之间的相似度较大3个待选标签为标签T7、标签T8和标签T9，则将标签T7、标签T8和标签T9作为待扩展标签的相似标签。在一个示例中，上述预定数目可以与上述预设标签阈值相同，即通过遍历标签有向网络确定的各相似标签的数量，可以与通过相似度从各待选标签中确定的各相似标签的数量相同。

请参阅图4，在一个实施例中，基于确定的各相似标签关联的用户标识，确定目标标签对应的扩展用户标识，包括：

S431：对于各相似标签关联的用户标识中的相同用户标识，将其分别所在的相似标签与待扩展标签之间的相似度进行加权求和，确定相同用户标识对应的综合相似度。

在确定待扩展标签对应的各相似标签之后，由于各相似标签对应的用户标识中可能存在相同用户标识，则需要确定各相似标签对应的用户标识分别与待扩展标签之间的相似度，以此确定扩展用户标识。具体地，首先需要确定各相似标签关联的用户标识中的各相同用户标识，例如，相似标签T13和相似标签T14关联的用户标识中相同用户标识包括用户标识1以及用户标识2，即用户标识1以及用户标识2均既对应相似标签T13，又对应相似标签T14。

每个相同用户标识至少分别对应2个不同相似标签，分别对应的不同相似标签分别与待扩展标签之间具有对应的相似度。例如，上述用户标识1分别对应相似标签T13和相似标签T14，即用户标识1所在的相似标签包括相似标签T13和相似标签T14，可将该相同用户标识分别所在的相似标签与待扩展标签之间的相似度进行加权求和，确定相同用户标识对应的综合相似度。即可将用户标识1分别所在的相似标签T13和相似标签T14，分别与待扩展标签之间的相似度进行加权求和，即可得到用户标识1对应的综合相似度。比如，相似标签T13与待扩展标签之间的相似度为0.4，相似标签T13与待扩展标签之间的相似度对应权重可以为0.5，相似标签T14与待扩展标签之间的相似度为0.5，相似标签T14与待扩展标签之间的相似度对应权重也可以为0.5，如此，加权求和得到的综合相似度即为0.45。

S432：将其他用户标识所在的相似标签与待扩展标签之间的相似度，确定为其他用户标识对应的综合相似度，其他用户标识为各相似标签关联的用户标识中除相同用户标识之外的用户标识。

各相似标签对应的用户标识中也可以存在不同的用户标识，即用户标识只对应一个相似标签中。如此，可将这些用户标识所对应的相似标签分别与待扩展标签之间的相似度，确定为这些用户标识分别所对应的综合相似度。例如，相似标签T13关联的用户标识中还包括用户标识3，相似标签T14关联的用户还包括用户标识4，且用户标识3只对应相似标签T13，用户标识4只对应相似标签T14，此时，可将用户标识3对应的相似标签T13与待扩展标签之间的相似度作为用户标识3对应的综合相似度。可将用户标识4对应的相似标签T14与待扩展标签之间的相似度作为用户标识4对应的综合相似度。

S433：将各相似标签关联的用户标识中综合相似度较大的预设扩展数量个用户标识，确定为扩展用户标识。

综合相似度越大，表示该用户标识与待扩展标签之间越相似，将其作为待扩展标签的扩展用户标识后，向其推送待投放信息，可提高推送效果。因此，确定各相似标签关联的用户标识分别对应的综合相似度之后，可将各相似标签关联的用户标识中综合相似度较大的预设扩展数量个用户标识，确定为扩展用户标识。亦即是将各相似标签关联的用户标识中综合相似度大小靠前的预设扩展数量个用户标识，作为扩展用户标识。

在一个示例中，预设抽样阈值以及预设数量阈值分别大于或等于预设扩展数量，以确保最终扩展用户标识的数量能得到预设扩展数量个，从而确保扩展后的用户标识的数量足够大。

在一个实施例中，将各所述相似标签关联的用户标识中综合相似度较大的预设扩展数量个用户标识，确定为所述扩展用户标识，包括：

将各所述相似标签关联的用户标识中与所述待扩展标签对应的原始用户标识重合的用户标识过滤；将过滤后的各所述相似标签关联的用户标识中综合相似度较大的预设扩展数量个用户标识，确定为所述扩展用户标识。

由于各相似标签关联的用户标识中可能存在与原始用户标签重合(相同)的用户标识，为使扩展用户标识对原始用户标识的有效扩展，需要将该重合的用户标识过滤，如此，确保扩展用户标识与原始用户标识不存在重合，有效扩展待扩展标签对应用户的规模。

下面以一个具体实施例对上述标签用户扩展方法的过程加以具体说明。

目前，一般使用分类器进行用户扩展，即将用户扩展转化为求解二分类问题，使用标签的原始用户作为正样本，随机选取其他用户作为负样本，在正样本和负样本中随机选取80％作为训练数据，20％作为测试数据，通过决策树、logistic regression或SVM等分类算法进行模型训练，最后将模型应用于全量用户，得到分类结果，按最大得分得到该标签人群的人群扩散结果。如此，需要对每个标签都构建一个分类器，训练和维护成本大，算法复杂度高，处理效率不高。且样本的选择可直接影响分类准确性，即分类准确性不高，得到的扩展结果准确性得不到保证。

本申请利用标签之间的相似度，确定相似标签，利用相似标签对应的用户标识，对原始用户标识进行扩展。步骤简洁，可降低复杂度。且相似标签为与待扩展标签相似的标签，其对应的用户存在一定的相似性，如此，基于相似标签的用户标识可准确确定扩展用户标识，提高用户扩展准确性。

具体地，首先，可分别以各所述标签作为目标标签，确定各候选标签分别转移至该目标标签的转移概率，并将各候选标签分别转移至该目标标签的转移概率，作为该目标标签分别对于各所述候选标签的相似度，确定各所述标签之间的相似度。

然后，基于各所述标签之间的相似度，建立标签有向网络。分别以各所述标签作为目标标签，将该目标标签分别对于各标签中除目标标签之外的其他标签的相似度中较大的预设数目个相似度对应的标签，分别与目标标签建立有向连接，且这些标签的标签节点指向该目标标签对应的标签节点。

其次，基于待扩展标签，遍历标签有向网络中的标签节点，确定与待扩展标签对应的各相似标签。

再次，对各所述相似标签关联的用户标识，确定所述待扩展标签对应的扩展用户标识。再对各所述相似标签关联的用户标识进行筛选，确定待扩展标签对应的扩展用户标识。并合并所述扩展用户标识和所述待扩展标签对应的原始用户标识，确定扩展后的用户标识，实现用户扩展。

如图5所示，为一可实现本申请标签用户扩展方法的平台界面，该方法具体应用于该平台中新建人群的一个模块，即标签提取模块中。点击图5中的创建按键，可进入到图6所示的界面，即选择提取条件界面，其中包括基础属性、兴趣标签、设备使用、广告数据以及制定关键词。对兴趣标签中的标签进行点击选择，例如，对教育标签进行选择，即可进入图7所示的界面，即教育标签界面，可显示教育标签下各子标签分别对应的扩散后的用户标识的数量。从图5-7可知，标签体系为三级标签，例如，商业兴趣为一级标签，教育为二级标签，公务员为三级标签，即最后一级标签。每个标签可对应扩展后的人群规模数量，在本实施了中，显示了最后一级标签即教育标签下各子标签(例如，图7中的教育其他标签、IT标签、公务员标签、学前教育标签和英语高考相关标签)对应扩展后的用户数量。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是图1中的服务器20，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述各方法的实施例的步骤。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种标签用户扩展方法，其特征在于，包括步骤：

获取待扩展标签；

2.根据权利要求1所述的方法，其特征在于，所述基于各所述标签之间的相似度，确定各所述标签中与所述待扩展标签对应的各相似标签，包括：

基于所述待扩展标签以及标签有向网络，确定所述标签有向网络中与所述待扩展标签对应的各所述相似标签，所述标签有向网络基于各所述标签之间的相似度确定，所述标签有向网络包括各所述标签对应的标签节点。

3.根据权利要求2所述的方法，其特征在于，各所述标签之间的相似度的确定方式，包括：

分别以各所述标签作为目标标签，确定各候选标签分别转移至该目标标签的转移概率，各所述候选标签为各所述标签中除所述目标标签以外的其他标签；

将各候选标签分别转移至该目标标签的转移概率，作为该目标标签分别对于各所述候选标签的相似度，确定各所述标签之间的相似度。

4.根据权利要求3所述的方法，其特征在于，在所述标签有向网络中，任意一个所述标签节点对应标签对于指向该标签节点的相邻节点的标签的相似度，属于各候选相似度，各所述候选相似度为各所述标签之间的相似度中，该标签节点对应标签作为目标标签时关联的且较大的预设数目个相似度。

5.根据权利要求4所述的方法，其特征在于，所述确定所述标签有向网络中与所述待扩展标签对应的各所述相似标签，包括：

将所述待扩展标签作为当前标签；

从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，确定为选定节点；

将所述选定节点对应的标签确定为相似标签；

在确定的各相似标签不满足预设条件时，获取随机数值；

在所述随机数值属于第一预设数值范围时，将所述相似标签作为当前标签，返回从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，确定为选定节点的步骤，直到确定的各相似标签满足预设条件，将确定的各相似标签作为所述待扩展标签对应的各相似的标签；

在所述随机数值属于第二预设数值范围时，返回从所述标签有向网络中，所述当前标签对应的当前标签节点的指向该当前标签节点的相邻节点中随机选择一个未选择过的标签节点，确定为选定节点的步骤，直到确定的各相似标签满足预设条件，将确定的各相似标签作为所述待扩展标签对应的各相似的标签。

6.根据权利要求5所述的方法，其特征在于，在确定的各所述相似标签对应的用户标识的总数量超过预设数量阈值时，确定的各所述相似标签满足预设条件。

7.根据权利要求5所述的方法，其特征在于，在将所述选定节点对应的标签确定为相似标签之后，将所述相似标签作为当前标签之前，还包括：对所述相似标签对应的用户标识进行抽样，确定所述相似标签对应的抽样用户标识；

在确定的各所述相似标签对应的抽样用户标识的总数目超过预设抽样数目阈值时，确定的各所述相似标签满足预设条件。

8.根据权利要求5所述的方法，其特征在于，在确定的各所述相似标签的总标签数达到预设标签阈值时，确定的各所述相似标签满足预设条件。

9.根据权利要求1所述的方法，其特征在于，各所述标签包括各待选标签以及待扩展标签；

各所述标签之间的相似度的确定方式，包括：

确定各所述标签分别对应的标签向量；

基于各所述标签向量，获取所述待扩展标签分别与各所述待选标签之间的相似度。

10.根据权利要求9所述的方法，其特征在于，基于各标签之间的相似度，确定各所述标签中与所述待扩展标签对应的各相似标签，包括：

将各所述待选标签中，相似度较大的预定数目个待选标签确定为各所述相似标签。

11.根据权利要求1-10中任意一项所述的方法，其特征在于，基于确定的各所述相似标签关联的用户标识，确定所述目标标签对应的扩展用户标识，包括：

对于各所述相似标签关联的用户标识中的相同用户标识，将其分别所在的相似标签与所述待扩展标签之间的相似度进行加权求和，确定所述相同用户标识对应的综合相似度；

将其他用户标识所在的相似标签与所述待扩展标签之间的相似度，确定为所述其他用户标识对应的综合相似度，所述其他用户标识为各所述相似标签关联的用户标识中除所述相同用户标识之外的用户标识；

将各所述相似标签关联的用户标识中综合相似度较大的预设扩展数量个用户标识，确定为所述扩展用户标识。

12.根据权利要求11所述的方法，其特征在于，将各所述相似标签关联的用户标识中综合相似度较大的预设扩展数量个用户标识，确定为所述扩展用户标识，包括：

将各所述相似标签关联的用户标识中与所述待扩展标签对应的原始用户标识重合的用户标识过滤；

将过滤后的各所述相似标签关联的用户标识中综合相似度较大的预设扩展数量个用户标识，确定为所述扩展用户标识。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-12任意一项所述的方法的步骤。