CN109308332A - 一种目标用户获取方法、装置和服务器 - Google Patents
一种目标用户获取方法、装置和服务器 Download PDFInfo
- Publication number
- CN109308332A CN109308332A CN201810893107.1A CN201810893107A CN109308332A CN 109308332 A CN109308332 A CN 109308332A CN 201810893107 A CN201810893107 A CN 201810893107A CN 109308332 A CN109308332 A CN 109308332A
- Authority
- CN
- China
- Prior art keywords
- label
- user
- target
- mark
- vertex
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0276—Advertisement creation
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种目标用户获取方法、装置和服务器,所述方法包括获取用户标签有向图,所述用户标签有向图以用户持有的标签为顶点,以由第一标签指向第二标签的有向线段表示持有第一标签的用户同时持有第二标签的概率;获取与所述用户标签有向图对应的原始标识有向图;通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列;根据所述标识更新序列获取目标用户。本发明能够提供一种能够准确定位目标人群,同时兼顾复杂度并且不受限于标签原始用户数量的目标人群获取方法,并且所述目标用户获取方法具备较好的准确度。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种目标用户获取方法、装置和服务器。
背景技术
随着互联网技术的发展,人们越来越多地依赖互联网来获取生活、娱乐和工作方面的信息,为了达到向用户及时推荐各种有用信息又尽量避免推荐无用信息的目的,现有技术中提出了大量的目标人群获取方案,所述标签人群获取方案旨在获取信息投放者的投放需求,并根据用户标签获取接受所述信息的目标人群。然而,现有的标签人群获取方案在很大程度上受限于持有标签的原始用户的数量,而无法获取更大规模的目标人群。
为了解决这一技术问题,现有技术中提出了人群扩散方案。目前主流的人群扩散方案是将人群扩散问题转化为求解二分类问题,但是这种方案存在下述弊端:
(1)需要对每一个标签都构建一个分类器,训练和维护的成本很大;
(2)若存在长尾冷门标签,其用户数量过少,影响扩散的准确度。
发明内容
为了解决上述技术问题,本发明提出了一种目标用户获取方法、装置和服务器。本发明具体是以如下技术方案实现的:
第一方面,一种目标用户获取方法,包括:
获取用户标签有向图,所述用户标签有向图以用户持有的标签为顶点,以由第一标签指向第二标签的有向线段表示持有第一标签的用户同时持有第二标签的概率;
获取与所述用户标签有向图对应的原始标识有向图;
通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列;
根据所述标识更新序列获取目标用户。
第二方面,一种目标用户获取装置,包括:
用户标签有向图获取模块,用于获取用户标签有向图,所述用户标签有向图以用户持有的标签为顶点,以由第一标签指向第二标签的有向线段表示持有第一标签的用户同时持有第二标签的概率;
原始标识有向图获取模块,用于获取与所述用户标签有向图对应的原始标识有向图;
聚类模块,用于通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列;
目标用户获取模块,用于根据所述标识更新序列获取目标用户。
第三方面,一种计算机可读存储介质,用于存储程序,所述程序用于实现上述一种目标用户获取方法。
第四方面,一种服务器,所述服务器用于运行上述一种目标用户获取装置。
本发明提供了一种目标用户获取方法、装置和服务器,本发明能够提供一种能够准确定位目标人群,同时兼顾复杂度并且不受限于标签原始用户数量的目标人群获取方法,并且所述目标用户获取方法具备较好的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种目标用户获取方法流程图;
图2是本发明实施例提供的一种用户标签有向图示意图;
图3是本发明实施例提供的原始标识有向图示意图;
图4是本发明实施例提供的用户标签有向图的获取方法流程图;
图5是本发明实施例提供的获取与所述第一标签相关的第二标签的方法流程图;
图6是本发明实施例提供的通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列的方法流程图;
图7是本发明实施例提供的对原始标识有向图的标识为1的顶点变更后的示意图;
图8是本发明实施例提供的对原始标识有向图的标识为2的顶点变更后的示意图;
图9是本发明实施例提供的一种标识更新序列分析方法流程图;
图10是本发明实施例提供的一种根据所述标识更新序列获取目标用户的方法流程图;
图11是本发明实施例提供的开启目标人群的获取功能界面示意图;
图12是本发明实施例提供的目标兴趣标签的选择界面示意图;
图13是本发明实施例提供的关联兴趣的选择界面界面示意图;
图14是本发明实施例提供的一种目标用户获取装置框图;
图15是本发明实施例提供的用户标签有向图获取模块框图;
图16是本发明实施例提供的聚类模块框图;
图17是本发明实施例提供的标用户获取模块框图;
图18是本发明实施例提供的一种服务器结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在很多应用场景中都需要获取目标人群,比如,调研、投放广告、招聘,宣讲等。以投放广告为例,广告主给定一系列标签作为广告定向条件,通过关联用户画像来提取目标人群,即通过丰富的兴趣、行为、设备等用户标签组合,圈定所需目标人群。但是这种传统的目标人群提取方法存在下述问题:现有的很多标签覆盖人群本身过少,而目标人群提取方法只能是持有标签的用户有多少就提取多少,而不能获取更大规模的目标人群。
为了得到更大规模的目标人群,现有技术中提出了目标人群扩散方案。目标人群扩散,本质上是一个推荐问题。针对此推荐问题,现有技术中提出了下述两类方法:
(1)按照分类问题解决推荐问题
使用标签的原始用户作为正样本,随机选取其他用户作为负样本(负样本的获得可以使用正例和无标记样本学习(PU-Learning)等方法),在正样本和负样本中随机选取一部分数据作为训练数据,另一部分数据作为测试数据,通过决策树、逻辑回归分析、支持向量机等算法进行模型训练,最后将模型应用于全量用户,得到分类结果,按最大得分得到该标签的人群扩散结果。然而这种技术方案的算法复杂度高并且准确度有限。
此外,在分类问题中,还存在下述问题:
首先,一个用户可能有多个标签,则需要对每一个标签都构建一个二分类器,因此算法复杂度高,也不利于增量更新:当有新标签,或者标签的原始用户有变化时都需要重新训练模型;
其次,对于有些长尾冷门标签,标签的用户数,即分类器的样本数量太少,这将显著影响分类器的准确度。
(2)使用协同过滤解决推荐问题
如果采用协同过滤的方法,可以是基于用户的协同过滤或者基于标签的协同过滤。
基于用户的协同过滤,需要推断每个用户的兴趣,用户数量级较大,并且每个用户的标签数不一定很多,影响推荐准确度。
基于标签的协同过滤从标签角度出发,构建用户标签图,用户标签图的大小不会很大。以三级标签体系为例,即使兴趣画像标签数量为一级标签多于20个,二级标签多于400个,三级标签多于10000个,构建出来的用户标签图大小也是可以接受的。
通过构建用户标签图将目标人群扩散问题变成给标签推荐用户的问题。用户可能有多个标签,使用协同过滤可以利用多个标签的信息,协同为标签推荐用户。然而,现有技术中的用户标签图大多为无向图。所述无向图中使用两个标签的共同用户数来定义标签之间的相似度,该两个标签的相似度是对称的。但是在实际情况中,标签之间的相似度并非是绝对对等的。举个例子,啤酒的用户列表中用户标识为:1,2,3,11,尿布的用户列表中用户标识为:1,2,3,4,5,6,7,8,9,10,则喝啤酒的用户购买尿布的概率是3/4=75%,而购买尿布的用户喝啤酒的概率是3/10=30%,因此,比起向购买尿布的用户推荐啤酒,更应该向购买啤酒的用户推荐尿布。可见,现有技术中使用无向图进行协同过滤的技术方案无法将用户推荐的方向纳入考量,从而导致目标人群的定位不够精确。
为了解决上述现有技术存在的弊端,本发明实施例旨在提供一种能够准确定位目标人群,同时兼顾复杂度并且不受限于标签原始用户数量的目标人群获取方法。
本发明实施例公开一种目标用户获取方法,如图1所示,包括:
S101.获取用户标签有向图,所述用户标签有向图以用户持有的标签为顶点,以由第一标签指向第二标签的有向线段表示持有第一标签的用户同时持有第二标签的概率。
具体地,在所述用户标签有向图中,当某个顶点作为某个有向线段的起点时,所述顶点对应的用户标签为第一标签,当某个顶点是某个有向线段的终点时,所述顶点对应的用户标签为第二标签,某个顶点可以作为某个(某些)有向线段的第一标签,并同时作为某个(某些)有向线段的第二标签。
请参考图2,其示出了一种用户标签有向图,以旅游——美容构成的有向线段为例,在所述旅游——美容构成的有向线段中,旅游标签作为第一标签,美容标签作为第二标签,持有旅游标签的用户有20%的概率也会进行美容。以美容——奢侈品构成的标签中,美容作为第一标签,奢侈品作为第二标签,持有美容标签的用户有30%的概率也会购买奢侈品。
S102.获取与所述用户标签有向图对应的原始标识有向图。
所述用户标签有向图中的顶点为用户持有的标签,所述原始标识有向图中的顶点为用户持有的标签所对应的标识。为用户标签有向图中的顶点赋予标识即可得到原始标识有向图,对于图2,其对应的原始标识有向图可以为图3。本发明实施例中将本步骤中用户标签有向图中顶点与原始标识有向图中顶点的对应关系称之为固有对应关系。
S103.通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列。
S104.根据所述标识更新序列获取目标用户。
具体地,本发明实施例进一步公开了用户标签有向图的获取方法,如图4所示,包括。
S1011.获取第一标签集。
具体地,所述第一标签集的内容可以与实际的应用需求有关。比如需要投放金融类广告,则第一标签集中的标签均与金融相关;需要投放教育类广告,则第一标签集中的标签均与教育相关。
S1012.对所述第一标签集中的每个第一标签,均获取与所述第一标签相关的第二标签,并得到第一标签指向第二标签的有向线段。
具体地,还可以根据第一标签与第二标签的关联度对第二标签进行选择。在一个可行的实施方式中,所述关联度被定义为同时持有第一标签和第二标签的用户数量与持有第一标签的用户数量的比值。具体地,所述获取与所述第一标签相关的第二标签如图5所示,包括:
S1.获取与第一标签有关的全部第二标签;
S2.计算第一标签与各个第二标签的关联度;
S3.按照关联度由大到小的顺序进行第二标签的排序;
S4.选择关联度最大的K个第二标签。
具体地,K值可以根据实际需要进行定制和调整。
S1013.计算各个有向线段对应的标签转移概率,并将所述标签转移概率作为所述有向线段的权重。
具体地,对于某个有向线段而言,其对应的标签转移概率的含义为持有所述有向线段的起点的标签的用户同样也持有所述有向线段的终点的标签的概率。相应的,所述原始标识有向图中有向线段的权重与用户标签有向图中有向线段的权重相同。
设有向线段的起点为标签A,终点为标签B,则所述标签转移概率其中UA为持有标签A的用户集合,UB为持有标签B的用户集合。举个例子,啤酒的用户列表中用户标识为:1,2,3,11,尿布的用户列表中用户标识为:1,2,3,4,5,6,7,8,9,10,标签A为啤酒,标签B为尿布,则由A指向B的有向线段对应的标签转移概率为75%,有B指向A的有向线段对应的标签转移概率为30%。从标签转移概率的角度,相比于给购买尿布的用户推荐啤酒,更应该给购买啤酒的用户推荐尿布,换言之,如果标签A到标签B的转移概率大,则应该把标签B的用户推荐给标签A。
进一步地,本发明实施例进一步公开了通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列的具体方法,如图6所示,包括:
S1031.按照预设的变更顶点选择算法选择变更顶点,对所述变更顶点的标识进行更新,并记录所述变更顶点的标识变更结果。
具体地,所述预设的变更顶点选择算法可以由用户进行指定,比如可以按照顶点标识获取变更顶点。比如,所述原始标识有向图中有标识为1、2、3三种顶点,则先对标识为1的顶点进行变更,待标识为1的顶点全部变更接收后,再依次对标识为2、标识为3的顶点进行变更。
具体地,所述变更顶点的标识更新方法为:获取以所述变更顶点为起点的全部有向线段;选取所述有向线段中权值最高的一条有向线段为目标线段;获取所述目标线段的终点;以所述终点的标识更新所述变更顶点的标识。
对于请参见图3,以标识1的顶点为变更顶点,则观察其与标识2和标识3构成的两条有向线段,其中与标识2构成的有向线段权值更高,则以标识2更新标识1,变更顶点的标识被变为2,得到图7。对图7中的标识为2的顶点进行变更,从图7中可以看到存在两个标识为2的顶点,在具体地变更顶点的选择过程中,这两个标识为2的顶点可以随机选择,显然,选择顺序不同得到的变更结果不同,但是并不影响最终目标人群的获取。若优先选择对应于原始标识有向图标识为2的顶点的点作为变更顶点,则图7中两个标识为2的顶点的标识进行更新后,得到图8。以此类推,进行变更顶点标识的更新。
在聚类过程中,对于各个顶点的标识可能会进行多次更新,在每次更新过程中,都会按照标识变化顺序记录各个顶点的标识更新序列。
S1032.判断所述原始标识有向图全部节点是否均被更新完毕。
S1033.若否,则重复执行步骤S1031。
S1034.若是,则判断对原始标识有向图的聚类是否终止。
具体地,判断聚类是否完毕的判断条件可以由用户进行制定,在一个可行的实施例中,将原始标识有向图中的全部节点更新一次视为一次迭代过程,可以以迭代次数达到预设要求为聚类终止条件;在另一个可行的实施例中,可以以原始标识有向图中的全部节点最后都具有相同标识(聚类收敛)为聚类终止条件;在其它可行的实施例中可以以达到预设的迭代次数和聚类收敛的或关系作为聚类终止条件。
S1035.若否,则重复执行步骤S1031。
S1036.若是,则流程结束。
原始标识有向图的各个顶点进行聚类的目的在于通过实施顶点标识的迭代过程,得到每个顶点在迭代过程中的标识更新序列,所述标识更新序列中的标识可以被称为关联标识。进一步地,本发明实施例公开了一种标识更新序列分析方法,如图9所示,包括:
S10.统计标识更新序列中各个关联标识的出现概率。
S20.得到关联标签表,所述关联标签表记录关联标签与关联概率的对应关系。
所述关联标签为按照固有对应关系得到的关联标识对应的标签。所述关联概率即为关联标识在标识更新序列中的出现概率,其表示了目标标签与关联标签的关联概率,所述目标标签为标识更新序列对应的顶点按照固有对应关系得到的标签。
在一个可行的实施例中,如果某个关联标签对应的关联概率过小,也可以直接将所述关联标签在所述关联标签表中剔除。
进一步地,本发明实施例中具体公开了一种根据所述标识更新序列获取目标用户的方法,如图10所示,包括:
S1041.选择目标标签,并得到其对应的目标标识更新序列。
具体地,可以根据实际的使用场景和用户需求选择目标标签,比如,若需要得到教育类广告投放的目标人群,则选择与教育有关的标签为目标标签,与目标标签按照固有对应关系得到的标识所在的顶点对应的标识更新序列为目标标识更新序列。
S1042.对所述目标标识更新序列进行分析并得到关联标签表。
依照本发明实施例公开的标识更新序列分析方法即可得到各个目标标识更新序列对应的关联标签表。所述关联标签表记录了关联标签与关联概率的对应关系,所述关联概率表示了目标标签与关联标签的关联概率。
S1043.从所述关联标签表中选取目标关联标签,并得到所述目标关联标签对应的目标关联概率。
具体地,可以选择关联概率最大的T个关联标签作为目标关联标签,其中T的值可以由用户指定。目标关联标签对应的关联概率为目标关联概率。
S1044.获取目标用户,所述目标用户为至少持有一个目标关联标签的用户。
S1045.计算目标用户对应的关联分,所述关联分为目标用户持有的目标关联标签对应的目标关联概率的总和值。
S1046.构建目标用户关联表,所述目标用户关联表记录了目标用户以及关联分之间的对应关系。
S1047.从所述目标用户关联表中,选取目标用户。
具体地,在一个可行的实施方式中可以按照所需要的目标用户的数据量进行选择,比如,若共需要N个目标用户,则选取目标用户关联表中关联分最大的N个用户作为目标用户。
在另一个可行的实施方式中还可以按照关联分进行选择,比如选择关联分大于某一阈值的用户作为目标用户。
当然,目标标签的数量可以为1个或多个。对于每个目标标签,均可以通过执行步骤S1041-S1047来获取目标用户。
由上述内容可知,本发明实施例可以得到任意数量的目标用户而不受限于某个标签的具体用户数量,因此,本发明实施例中的技术方案可以广泛应用于需要进行目标人群扩散的应用场景中,具体地,本发明实施例列举两种常见的应用场景。
举例1:广告主在投放广告的时候,想投放给音乐发烧友群体,希望投放给500万用户。然而被打上音乐发烧友标签的用户群体可能只有100万,此时为了满足广告主的投放要求,寻找到最符合音乐发烧友这个兴趣标签特性同时满足规模的用户群体,可以使用本发明实施例提供的技术方案。
举例2:在非广告业务中获取目标人群时,会遇到数据敏感性问题,例如对于生活画像兴趣标签,可以在获取持有画像兴趣标签的用户被选择作为目标人群的基础上,使用本发明实施例中的技术方案将目标人群数量扩散多倍,则从获取到的目标人群中无法获知哪些人群对应画像兴趣标签,从而可以起到脱敏效果。
请参考图11,其示出了实施本发明中技术方案的应用界面示意图,点击创建按钮,即可开启目标人群的获取功能,从而进入图12,其示出了目标兴趣标签的选择界面,待选择目标兴趣标签后,即可进入图13,其示出了关联兴趣的选择界面,选择关联的兴趣,从而构建用户标签有向图。
本发明提供的一种目标用户获取方法,可以对原始标签的用户进行扩散,使得每个标签可以对应更多用户群体。通过离线效果评估和在线A/B测试结果发现,和扩散前标签人群相比,使用本发明技术方案得到的标签扩散人群,在广告投放曝光量和曝光率上均有提升,而在点击率上和扩散前大致持平,符合标签人群扩散的预期目标,这充分说明了本发明中目标用户获取的精准度。
本发明进一步提供一种目标用户获取装置,如图14所示,包括:
用户标签有向图获取模块201,用于获取用户标签有向图,所述用户标签有向图以用户持有的标签为顶点,以由第一标签指向第二标签的有向线段表示持有第一标签的用户同时持有第二标签的概率;
原始标识有向图获取模块202,用于获取与所述用户标签有向图对应的原始标识有向图;
聚类模块203,用于通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列;
目标用户获取模块204,用于根据所述标识更新序列获取目标用户。
如图15所示,所述用户标签有向图获取模块201包括:
第一标签集获取单元2011,用于获取第一标签集;
有向线段获取单元2012,用于对所述第一标签集中的每个第一标签,均获取与所述第一标签相关的第二标签,并得到第一标签指向第二标签的有向线段;
权重计算单元2013,用于计算各个有向线段对应的标签转移概率,并将所述标签转移概率作为所述有向线段的权重,所述标签转移概率的含义为持有所述有向线段的起点的标签的用户同样也持有所述有向线段的终点的标签的概率。
如图16所示,所述聚类模块203包括:
变更单元2031,用于按照预设的变更顶点选择算法选择变更顶点,对所述变更顶点的标识进行更新,并记录所述变更顶点的标识变更结果;
更新判断单元2032,用于判断所述原始标识有向图全部节点是否均被更新完毕;
聚类判断单元2033,用于判断对原始标识有向图的聚类是否终止。
如图17所示,所述目标用户获取模块204包括:
目标获取单元2041,用于选择目标标签,并得到其对应的目标标识更新序列:
关联标签表获取单元2042,用于对所述目标标识更新序列进行分析并得到关联标签表;
关联目标获取单元2043,用于从所述关联标签表中选取目标关联标签,并得到所述目标关联标签对应的目标关联概率:
目标用户获取单元2044,用于获取目标用户,所述目标用户为至少持有一个目标关联标签的用户;
关联分计算单元2045,用于计算目标用户对应的关联分,所述关联分为目标用户持有的目标关联标签对应的目标关联概率的总和;
用户关联表构建单元2046,用于构建目标用户关联表,所述目标用户关联表记录了目标用户以及关联分之间的对应关系;
目标用户选取单元2047,用于从所述目标用户关联表中,选取目标用户。
本发明的装置实施例中所述的一种目标用户获取装置与方法实施例基于同样地发明构思。
本发明的实施例还提供了一种存储介质,所述存储介质可用于保存用于实现实施例中一种目标用户获取方法需要用到的的程序代码。可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
具体地,图18是本发明实施例提供的一种服务器结构示意图,所述服务器结构可以用于运行一种目标用户获取装置。该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM等等。上述方法实施例所执行的步骤可以基于该图18示的服务器结构。
需要说明的是:上述本发明实施例的先后顺序仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种目标用户获取方法,其特征在于,包括:
获取用户标签有向图,所述用户标签有向图以用户持有的标签为顶点,以由第一标签指向第二标签的有向线段表示持有第一标签的用户同时持有第二标签的概率;
获取与所述用户标签有向图对应的原始标识有向图;
通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列;
根据所述标识更新序列获取目标用户。
2.根据权利要求1所述的方法,其特征在于,所述用户标签有向图的获取方法包括:
获取第一标签集;
对所述第一标签集中的每个第一标签,均获取与所述第一标签相关的第二标签,并得到第一标签指向第二标签的有向线段;
计算各个有向线段对应的标签转移概率,并将所述标签转移概率作为所述有向线段的权重,所述标签转移概率的含义为持有所述有向线段的起点的标签的用户同样也持有所述有向线段的终点的标签的概率。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述第一标签相关的第二标签包括:
获取与第一标签有关的全部第二标签;
计算第一标签与各个第二标签的关联度;所述关联度被定义为同时持有第一标签和第二标签的用户数量与持有第一标签的用户数量的比值;
按照关联度由大到小的顺序进行第二标签的排序;
选择关联度最大的K个第二标签。
4.根据权利要求1所述的方法,其特征在于,所述通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列包括:
按照预设的变更顶点选择算法选择变更顶点,对所述变更顶点的标识进行更新,并记录所述变更顶点的标识变更结果;
判断所述原始标识有向图全部节点是否均被更新完毕;
若否,则重复执行步骤:按照预设的变更顶点选择算法选择变更顶点,对所述变更顶点的标识进行更新,并记录所述变更顶点的标识变更结果;
若是,则判断对原始标识有向图的聚类是否终止。
若尚未终止,则重复执行步骤:按照预设的变更顶点选择算法选择变更顶点,对所述变更顶点的标识进行更新,并记录所述变更顶点的标识变更结果。
5.根据权利要求4所述的方法,其特征在于,对变更顶点的标识进行更新方法为:获取以所述变更顶点为起点的全部有向线段;选取所述有向线段中权值最高的一条有向线段为目标线段;获取所述目标线段的终点;以所述终点的标识更新所述变更顶点的标识。
6.根据权利要求1所述的方法,其特征在于,所述根据所述标识更新序列获取目标用户包括:
选择目标标签,并得到其对应的目标标识更新序列:
对所述目标标识更新序列进行分析并得到关联标签表;
从所述关联标签表中选取目标关联标签,并得到所述目标关联标签对应的目标关联概率:
获取目标用户,所述目标用户为至少持有一个目标关联标签的用户;
计算目标用户对应的关联分,所述关联分为目标用户持有的目标关联标签对应的目标关联概率的总和;
构建目标用户关联表,所述目标用户关联表记录了目标用户以及关联分之间的对应关系;
从所述目标用户关联表中,选取目标用户。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标标识更新序列进行分析并得到关联标签表包括:
统计目标标识更新序列中各个关联标识的出现概率;所述目标标识更新序列中的标识被称为关联标识;
得到关联标签表,所述关联标签表记录关联标签与关联概率的对应关系;
所述关联标签为关联标识对应的标签;所述关联概率为关联标识在目标标识更新序列中的出现概率。
8.一种目标用户获取装置,其特征在于,包括:
用户标签有向图获取模块,用于获取用户标签有向图,所述用户标签有向图以用户持有的标签为顶点,以由第一标签指向第二标签的有向线段表示持有第一标签的用户同时持有第二标签的概率;
原始标识有向图获取模块,用于获取与所述用户标签有向图对应的原始标识有向图;
聚类模块,用于通过预设的聚类算法对所述原始标识有向图中的各个顶点的标识进行迭代更新,并在聚类过程中记录每个顶点的标识更新序列;
目标用户获取模块,用于根据所述标识更新序列获取目标用户。
9.根据权利要求8所述的装置,其特征在于,所述用户标签有向图获取模块包括:
第一标签集获取单元,用于获取第一标签集;
有向线段获取单元,用于对所述第一标签集中的每个第一标签,均获取与所述第一标签相关的第二标签,并得到第一标签指向第二标签的有向线段;
权重计算单元,用于计算各个有向线段对应的标签转移概率,并将所述标签转移概率作为所述有向线段的权重,所述标签转移概率的含义为持有所述有向线段的起点的标签的用户同样也持有所述有向线段的终点的标签的概率。
10.根据权利要求8所述的装置,其特征在于,所述聚类模块包括:
变更单元,用于按照预设的变更顶点选择算法选择变更顶点,对所述变更顶点的标识进行更新,并记录所述变更顶点的标识变更结果;
更新判断单元,用于判断所述原始标识有向图全部节点是否均被更新完毕;
聚类判断单元,用于判断对原始标识有向图的聚类是否终止。
11.根据权利要求8所述的装置,其特征在于,所述目标用户获取模块包括:
目标获取单元,用于选择目标标签,并得到其对应的目标标识更新序列:
关联标签表获取单元,用于对所述目标标识更新序列进行分析并得到关联标签表;
关联目标获取单元,用于从所述关联标签表中选取目标关联标签,并得到所述目标关联标签对应的目标关联概率:
目标用户获取单元,用于获取目标用户,所述目标用户为至少持有一个目标关联标签的用户;
关联分计算单元,用于计算目标用户对应的关联分,所述关联分为目标用户持有的目标关联标签对应的目标关联概率的总和;
用户关联表构建单元,用于构建目标用户关联表,所述目标用户关联表记录了目标用户以及关联分之间的对应关系;
目标用户选取单元,用于从所述目标用户关联表中,选取目标用户。
12.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序用于实现权利要求1中所述的一种目标用户获取方法。
13.一种服务器,其特征在于,所述服务器用于运行权利要求8所述的一种目标用户获取装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810893107.1A CN109308332B (zh) | 2018-08-07 | 2018-08-07 | 一种目标用户获取方法、装置和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810893107.1A CN109308332B (zh) | 2018-08-07 | 2018-08-07 | 一种目标用户获取方法、装置和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109308332A true CN109308332A (zh) | 2019-02-05 |
CN109308332B CN109308332B (zh) | 2022-05-20 |
Family
ID=65226028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810893107.1A Active CN109308332B (zh) | 2018-08-07 | 2018-08-07 | 一种目标用户获取方法、装置和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308332B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264037A (zh) * | 2019-05-14 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种用户数据的处理方法和装置 |
CN110348907A (zh) * | 2019-07-12 | 2019-10-18 | 深圳市腾讯计算机系统有限公司 | 一种广告人群的定向方法及装置 |
CN111401959A (zh) * | 2020-03-18 | 2020-07-10 | 多点(深圳)数字科技有限公司 | 风险群体的预测方法、装置、计算机设备及存储介质 |
CN111861065A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种用户数据管理方法、装置、电子设备及存储介质 |
CN110348907B (zh) * | 2019-07-12 | 2024-05-28 | 深圳市腾讯计算机系统有限公司 | 一种广告人群的定向方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090089285A1 (en) * | 2007-09-28 | 2009-04-02 | Yahoo! Inc. | Method of detecting spam hosts based on propagating prediction labels |
CN105654342A (zh) * | 2015-12-30 | 2016-06-08 | 云南大学 | 社会网络合作影响传播最大化的初始用户选择方法 |
CN107402932A (zh) * | 2016-05-20 | 2017-11-28 | 腾讯科技(深圳)有限公司 | 用户标签的扩展处理方法、文本推荐方法和装置 |
CN107688606A (zh) * | 2017-07-26 | 2018-02-13 | 北京三快在线科技有限公司 | 一种推荐信息的获取方法及装置,电子设备 |
CN108038131A (zh) * | 2017-11-17 | 2018-05-15 | 上海数据交易中心有限公司 | 数据质量分析预处理方法及装置、存储介质、终端 |
-
2018
- 2018-08-07 CN CN201810893107.1A patent/CN109308332B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090089285A1 (en) * | 2007-09-28 | 2009-04-02 | Yahoo! Inc. | Method of detecting spam hosts based on propagating prediction labels |
CN105654342A (zh) * | 2015-12-30 | 2016-06-08 | 云南大学 | 社会网络合作影响传播最大化的初始用户选择方法 |
CN107402932A (zh) * | 2016-05-20 | 2017-11-28 | 腾讯科技(深圳)有限公司 | 用户标签的扩展处理方法、文本推荐方法和装置 |
CN107688606A (zh) * | 2017-07-26 | 2018-02-13 | 北京三快在线科技有限公司 | 一种推荐信息的获取方法及装置,电子设备 |
CN108038131A (zh) * | 2017-11-17 | 2018-05-15 | 上海数据交易中心有限公司 | 数据质量分析预处理方法及装置、存储介质、终端 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861065A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种用户数据管理方法、装置、电子设备及存储介质 |
CN110264037A (zh) * | 2019-05-14 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种用户数据的处理方法和装置 |
CN110264037B (zh) * | 2019-05-14 | 2023-10-27 | 创新先进技术有限公司 | 一种用户数据的处理方法和装置 |
CN110348907A (zh) * | 2019-07-12 | 2019-10-18 | 深圳市腾讯计算机系统有限公司 | 一种广告人群的定向方法及装置 |
CN110348907B (zh) * | 2019-07-12 | 2024-05-28 | 深圳市腾讯计算机系统有限公司 | 一种广告人群的定向方法及装置 |
CN111401959A (zh) * | 2020-03-18 | 2020-07-10 | 多点(深圳)数字科技有限公司 | 风险群体的预测方法、装置、计算机设备及存储介质 |
CN111401959B (zh) * | 2020-03-18 | 2023-09-29 | 多点(深圳)数字科技有限公司 | 风险群体的预测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109308332B (zh) | 2022-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106651542B (zh) | 一种物品推荐的方法及装置 | |
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN108320171B (zh) | 热销商品预测方法、系统及装置 | |
CN110267119B (zh) | 视频精彩度的评价方法及相关设备 | |
CN108616491B (zh) | 一种恶意用户的识别方法和系统 | |
US20130159348A1 (en) | Computer-Implemented Systems and Methods for Taxonomy Development | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN113688167A (zh) | 基于深度兴趣网络的深度兴趣捕获模型构建方法及装置 | |
US20180018566A1 (en) | Finding k extreme values in constant processing time | |
Vakulenko et al. | Enriching iTunes App Store Categories via Topic Modeling. | |
US11301915B2 (en) | Modelling user behavior in social network | |
CN107967280B (zh) | 一种标签推荐歌曲的方法及系统 | |
CN107807914A (zh) | 情感倾向的识别方法、对象分类方法及数据处理系统 | |
CN109308332A (zh) | 一种目标用户获取方法、装置和服务器 | |
CN110162778B (zh) | 文本摘要的生成方法及装置 | |
US20210019635A1 (en) | Group specific decision tree | |
KR20170107868A (ko) | 사용자 맥락, 추천 음악, 이용 행태로 구성된 데이터베이스를 활용한 음악 콘텐츠 추천 방법 및 시스템 | |
Heath et al. | Conveying semantics through visual metaphor | |
CN114490786A (zh) | 数据排序方法及装置 | |
CN108550019A (zh) | 一种简历筛选方法及装置 | |
Menaga et al. | A Method for Predicting Movie Box-Office using Machine Learning | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
Gutiérrez | A comparative study of NLP and machine learning techniques for sentiment analysis and topic modeling on amazon | |
CN111639485A (zh) | 基于文本相似性的课程推荐方法及相关设备 | |
CN106599114A (zh) | 音乐推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |