CN110008999B - 目标帐号的确定方法、装置、存储介质及电子装置 - Google Patents
目标帐号的确定方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN110008999B CN110008999B CN201910172280.7A CN201910172280A CN110008999B CN 110008999 B CN110008999 B CN 110008999B CN 201910172280 A CN201910172280 A CN 201910172280A CN 110008999 B CN110008999 B CN 110008999B
- Authority
- CN
- China
- Prior art keywords
- account
- target
- feature vector
- seed
- accounts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 149
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 393
- 230000002452 interceptive effect Effects 0.000 claims abstract description 115
- 238000012549 training Methods 0.000 claims abstract description 95
- 230000008569 process Effects 0.000 claims abstract description 81
- 230000003993 interaction Effects 0.000 claims description 58
- 238000005070 sampling Methods 0.000 claims description 21
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 238000013459 approach Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 238000009792 diffusion process Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000005065 mining Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 238000003892 spreading Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标帐号的确定方法、装置、存储介质及电子装置。其中,该方法包括:根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在训练的过程中,作为输入给目标模型的输入帐号的特征向量包括种子帐号的第一帐号特征向量,输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量;通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度,其中,在确定的过程中,作为输入给目标模型的输入帐号的特征向量包括待确定帐号的第二帐号特征向量;在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。本发明解决了相关技术中目标帐号的确定效率较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种目标帐号的确定方法、装置、存储介质及电子装置。
背景技术
目前采用的人群扩散方法的目标是计算其他用户与种子用户的相似得分,然后根据扩散规模范围相似的分高的用户。该方法只考虑到了用户之间画像的相似度,而没有考虑社交因素。并没有针对社交互动进行直接优化。获取扩散人群的准确率和效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种目标帐号的确定方法、装置、存储介质及电子装置,以至少解决相关技术中目标帐号的确定效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种目标帐号的确定方法,包括:根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在所述训练的过程中,作为输入给所述目标模型的输入帐号的特征向量包括所述种子帐号的第一帐号特征向量,所述输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,所述画像特征向量用于指示所述输入帐号的属性特征,所述交互特征向量用于指示所述输入帐号与所述输入帐号的邻居帐号之间的交互特征,所述输入帐号的邻居帐号包括与所述输入帐号之间在目标场景中执行过交互操作的帐号;通过训练后的所述目标模型确定待确定帐号与所述种子帐号之间的相似度,其中,在所述确定的过程中,作为输入给所述目标模型的所述输入帐号的特征向量包括所述待确定帐号的第二帐号特征向量,所述目标模型的输出用于指示所述待确定帐号与所述种子帐号之间的相似度;在所述待确定帐号中确定出所述相似度满足目标相似度条件的目标帐号。
根据本发明实施例的另一方面,还提供了一种目标帐号的确定装置,包括:训练模块,用于根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在所述训练的过程中,作为输入给所述目标模型的输入帐号的特征向量包括所述种子帐号的第一帐号特征向量,所述输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,所述画像特征向量用于指示所述输入帐号的属性特征,所述交互特征向量用于指示所述输入帐号与所述输入帐号的邻居帐号之间的交互特征,所述输入帐号的邻居帐号包括与所述输入帐号之间在目标场景中执行过交互操作的帐号;第一确定模块,用于通过训练后的所述目标模型确定待确定帐号与所述种子帐号之间的相似度,其中,在所述确定的过程中,作为输入给所述目标模型的所述输入帐号的特征向量包括所述待确定帐号的第二帐号特征向量,所述目标模型的输出用于指示所述待确定帐号与所述种子帐号之间的相似度;第二确定模块,用于在所述待确定帐号中确定出所述相似度满足目标相似度条件的目标帐号。
可选地,所述初始图卷积网络模型包括多阶嵌入层模型,所述多阶嵌入层模型具有共享参数,其中,所述第一训练子单元用于:
将每个所述网络图中节点的帐号特征向量作为所述多阶嵌入层模型中的第一阶嵌入层模型的输入信息,对所述多阶嵌入层模型进行迭代训练,得到具有目标共享参数的所述目标图卷积网络模型和所述每个节点的目标帐号特征向量;
其中,所述多阶嵌入层模型中下一阶嵌入层模型中每个所述网络图中目标节点的输入信息是至少使用所述目标节点在上一阶嵌入层模型的输出向量和每个所述网络图中除所述目标节点之外其他全部节点在上一阶嵌入层模型的输出向量表示的向量。
可选地,所述装置还包括:
采样模块,用于从所述目标场景对应的网络图的节点中采样多个节点作为采样节点,其中,所述目标场景对应的网络图以所述目标场景中的帐号为节点,所述目标场景中的帐号之间的交互特征值高于所述目标特征值的帐号之间具有边,所述目标场景中的帐号之间的交互特征值为所述目标场景中的帐号之间的边的边权重,所述交互特征值用于指示帐号之间互相执行的交互操作;
第三确定模块,用于将所述目标场景对应的网络图包括的节点中与每个所述采样节点之间的边权重满足目标权重条件的节点所对应的帐号确定为每个所述采样节点所对应的帐号集合中的帐号,得到多个所述第一帐号集合。
根据本发明实施例的另一方面,还提供了另一种目标帐号的确定装置,包括:
第一获取模块,用于获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,其中,所述种子帐号的第一帐号特征向量是至少使用所述种子帐号的画像特征向量和所述种子帐号的交互特征向量表示的向量,所述第二帐号特征向量是至少使用所述待确定帐号的画像特征向量和所述待确定帐号的交互特征向量表示的向量,所述画像特征向量用于指示具有所述画像特征向量的帐号的属性特征,所述交互特征向量用于指示具有所述交互特征向量的帐号与具有所述交互特征向量的帐号的邻居帐号之间的交互特征,具有所述交互特征向量的帐号的邻居帐号包括与具有所述交互特征向量的帐号之间在目标场景中执行过交互操作的帐号;
第四确定模块,用于根据所述第一帐号特征向量与所述第二帐号特征向量,确定所述待确定帐号与所述种子帐号之间的相似度;
第五确定模块,用于在所述待确定帐号中确定出所述相似度满足目标相似度条件的目标帐号。
可选地,所述装置还包括:聚类模块,用于对所述目标场景中的帐号进行聚类,得到多个第二帐号集合;第六确定模块,用于根据所述多个第二帐号集合中每个第二帐号集合中包括的所述种子帐号的数量、所述每个第二帐号集合中包括的帐号的数量以及所述种子帐号的数量确定所述每个第二帐号集合的集合权重,其中,所述集合权重用于指示所述每个第二帐号集合与包括所述种子帐号的帐号集合之间的集合相似度;第二获取模块,用于根据所述集合权重按照所述集合相似度由高到低的顺序从所述多个第二帐号集合中获取目标帐号集合,其中,目标帐号集合中包括的总的帐号数量不低于目标数量,所述目标数量为所述目标帐号的数量的目标倍数;第七确定模块,用于将所述目标帐号集合中的帐号确定为所述待确定帐号。
可选地,所述装置还包括:发送模块,用于将所述种子帐号和所述目标帐号发送给信息推送服务器,以指示所述信息推送服务器向所述种子帐号和所述目标帐号推送与所述种子帐号对应的推送信息;或者,推送模块,用于向所述种子帐号和所述目标帐号推送与所述种子帐号对应的推送信息。
可选地,所述装置还包括:第三获取模块,用于获取初始种子帐号;添加模块,用于在所述初始种子帐号的数量低于第一目标数量的情况下,在所述初始种子帐号中添加目标种子帐号,得到包括所述初始种子帐号和所述目标种子帐号的所述种子帐号,其中,所述目标种子帐号为在所述目标场景中的活跃度高于目标活跃度的帐号;第八确定模块,用于在所述初始种子帐号的数量不低于所述第一目标数量的情况下,将所述初始种子帐号确定为所述种子帐号。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。
在本发明实施例中,采用根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在训练的过程中,作为输入给目标模型的输入帐号的特征向量包括种子帐号的第一帐号特征向量,输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,画像特征向量用于指示输入帐号的属性特征,交互特征向量用于指示输入帐号与输入帐号的邻居帐号之间的交互特征,输入帐号的邻居帐号包括与输入帐号之间在目标场景中执行过交互操作的帐号;通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度,其中,在确定的过程中,作为输入给目标模型的输入帐号的特征向量包括待确定帐号的第二帐号特征向量,目标模型的输出用于指示待确定帐号与种子帐号之间的相似度;在待确定帐号中确定出相似度满足目标相似度条件的目标帐号的方式,在模型训练的过程中融合了种子帐号的画像特征向量和交互特征向量对目标模型进行训练,使得模型训练的信息更加丰富,体现出帐号在目标场景中的更多信息,在相似度确定过程中,使用待确定帐号的画像特征向量和交互特征向量来确定其与种子帐号之间的相似度,使得目标模型得到的输出所指示的相似度更加准确,从而使得确定出的目标帐号的准确性更高,与种子帐号更加相似,从而实现了提高目标帐号的确定效率的技术效果,进而解决了相关技术中目标帐号的确定效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的目标帐号的确定方法的应用示例的示意图一;
图2是根据本发明实施例的一种可选的目标帐号的确定方法的应用示例的示意图二;
图3是根据本发明实施例的一种可选的目标帐号的确定方法的示意图;
图4是根据本发明实施例的一种可选的目标帐号的确定方法的应用环境示意图;
图5是根据本发明可选的实施方式的一种可选的目标帐号的确定方法的示意图;
图6是根据本发明实施例的一种可选的目标帐号的确定装置的示意图;
图7是根据本发明实施例的一种可选的目标帐号的确定方法的应用场景示意图一;
图8是根据本发明实施例的一种可选的目标帐号的确定方法的应用场景示意图二;
图9是根据本发明实施例的一种可选的目标帐号的确定方法的应用场景示意图三;以及
图10是根据本发明实施例的一种可选的电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本实施例中,本发明实施例提供的目标帐号的确定方法可以但不限于应用于如图1所示的场景中,广告商A欲向社交平台W上的一批种子用户S推送广告AD,并且希望能够推送给更多与种子用户S相似的用户,在本场景中提供了一个广告推送系统,广告商A从广告推送系统的首页中提供的三种创建人群方式(人群标签组合、相似人群和用户包人群)中选择了相似人群的创建方式,系统界面跳转到该方式对应的页面,如图2所示,广告商A在原始人群的选项上选择上传新用户包,在选择文件上传的选项上导入种子用户S的帐号ID的文件,并在用户包内容的选项上选择帐号ID的类型,广告商A可以选择扩展规模从而确定得到的目标帐号的数量,比如:可以从3000人扩散到20000人,在选择扩展倾向、投放平台以及生成人群内容后可以点击创建人群按钮进入目标帐号的确定过程。
广告推送系统的服务器接收到该广告商A的此次请求后,根据获取到的种子帐号S的第一帐号特征向量训练目标模型,其中,在训练的过程中,作为输入给目标模型的输入帐号的特征向量包括种子帐号S的第一帐号特征向量,输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,通过训练后的目标模型确定待确定帐号与种子帐号S之间的相似度,其中,在确定的过程中,作为输入给目标模型的输入帐号的特征向量包括待确定帐号的第二帐号特征向量,在待确定帐号中确定出相似度满足目标相似度条件的满足广告商A的数量要求的目标帐号T。
广告推送系统的服务器可以将种子帐号S和目标帐号T返回给广告商A,由广告商A向种子帐号S和目标帐号T推送广告AD。或者,广告推送系统的服务器可以直接向种子帐号S和目标帐号T推送广告商A所指示的广告AD。
根据本发明实施例的一个方面,提供了一种目标帐号的确定方法,如图3所示,该方法包括:
S302,根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在训练的过程中,作为输入给目标模型的输入帐号的特征向量包括种子帐号的第一帐号特征向量,输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,画像特征向量用于指示输入帐号的属性特征,交互特征向量用于指示输入帐号与输入帐号的邻居帐号之间的交互特征,输入帐号的邻居帐号包括与输入帐号之间在目标场景中执行过交互操作的帐号;
S304,通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度,其中,在确定的过程中,作为输入给目标模型的输入帐号的特征向量包括待确定帐号的第二帐号特征向量,目标模型的输出用于指示待确定帐号与种子帐号之间的相似度;
S306,在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。
可选地,在本实施例中,上述目标帐号的确定方法可以应用于如图4所示的服务器402和客户端404所构成的硬件环境中。如图4所示,服务器402从客户端404获取种子帐号,服务器402根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在训练的过程中,作为输入给目标模型的输入帐号的特征向量包括种子帐号的第一帐号特征向量,输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,画像特征向量用于指示输入帐号的属性特征,交互特征向量用于指示输入帐号与输入帐号的邻居帐号之间的交互特征,输入帐号的邻居帐号包括与输入帐号之间在目标场景中执行过交互操作的帐号。服务器402通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度,其中,在确定的过程中,作为输入给目标模型的输入帐号的特征向量包括待确定帐号的第二帐号特征向量,目标模型的输出用于指示待确定帐号与种子帐号之间的相似度。服务器402在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。服务器402可以将得到的目标帐号返回给客户端404。
可选地,在本实施例中,上述目标帐号的确定方法可以但不限于应用于根据目标场景中的种子帐号确定目标帐号的场景中。其中,上述目标场景可以但不限于为各种类型的应用或者应用中的功能,例如,在线教育应用、在线教育应用中的功能(比如:学员交流空间、教学课堂等等)、即时通讯应用、即时通讯应用中的功能(比如:聊天功能、状态分享功能等等)、社区空间应用、新闻阅读应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、多媒体应用中的功能(比如:弹幕功能、评论功能等等)、直播应用以及各种应用中的功能(比如:互相关注、好友聊天、状态分享、内容转发)等。具体的,可以但不限于应用于在上述即时通讯应用中根据种子帐号确定目标帐号的场景中,或还可以但不限于应用于在上述社区空间应用中根据种子帐号确定目标帐号的场景中,以提高目标帐号的确定效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述目标帐号的确定方法可以但不限于由服务器执行,或者也可以但不限于由客户端执行。还可以但不限于由服务器和客户端交互执行。比如:由服务器执行步骤S302的训练过程和步骤S304的目标模型的使用过程,由客户端来执行步骤S306的目标帐号的确定过程。也可以采用由服务器执行步骤S302,由客户端执行步骤S304和步骤S306的方式等等。
可选地,在本实施例中,获取到的种子帐号的形式可以但不限于包括:帐号标识ID(比如:用户绑定的即时通信APP帐号、手机号码、电子邮箱地址等等),用户名称(比如:用户昵称),用户编号(比如:在用户注册时APP分配给用户的编号)等等。
可选地,在本实施例中,画像特征向量可以用于指示输入帐号的属性特征。该属性特征可以但不限于包括:帐号在注册时填写的基本信息等等。为了进一步提高帐号确定过程的效率,可以在离线阶段预先进行帐号的画像特征向量的挖掘。对于目标场景中的每一个帐号,根据其基本信息等等内容挖掘出其对应的画像特征向量,存储在数据库中。
可选地,在本实施例中,交互特征向量用于指示输入帐号与输入帐号的邻居帐号之间的交互特征。该交互特征可以但不限于根据输入帐号与其邻居帐号之间执行过的交互操作得到,比如:点赞、评论、转发、发送消息、交易、转账等等。为了进一步提高帐号确定过程的效率,可以在离线阶段预先进行帐号的交互特征向量的挖掘。对于目标场景中的每一个帐号,根据其与邻居帐号之间的交互操作等等内容挖掘出其对应的交互特征向量,存储在数据库中。
可选地,在本实施例中,在离线阶段还可以预先进行帐号的帐号特征向量的挖掘。对于目标场景中的每一个帐号,至少使用其对应的画像特征向量和交互特征向量表示其帐号特征向量,存储在数据库中。
可选地,在本实施例中,待确定帐号可以但不限于是目标场景中的全部帐号,或者也可以是对目标场景中的帐号进行了初步的筛选后得到的帐号。
可选地,在本实施例中,目标模型的输出的形式可以但不限于包括用于指示待确定帐号与种子帐号之间的相似度的概率值,该概率值越大则相似度越高。或者,目标模型的输出的形式可以但不限于包括用于指示待确定帐号的帐号类型的信息,比如:类型标识0表示相似、类型标识1表示不相似等等方式。
可选地,在本实施例中,在上述步骤S306中可以但不限于根据目标模型的输出形式确定目标相似度条件来获取待确定帐号中与种子帐号的相似度较高的一部分帐号作为目标帐号。比如:如果目标模型的输出形式为概率值,可以确定目标条件可以为高于目标概率值的帐号或者可以为按照概率值从高到低排列后排在前几位的帐号。如果目标模型的输出形式为类型标识,可以确定目标条件可以为类型标识为用于指示帐号相似的标识。比如上述的类型标识为1。
可见,通过上述步骤,在模型训练的过程中融合了种子帐号的画像特征向量和交互特征向量对目标模型进行训练,使得模型训练的信息更加丰富,体现出帐号在目标场景中的更多信息,在相似度确定过程中,使用待确定帐号的画像特征向量和交互特征向量来确定其与种子帐号之间的相似度,使得目标模型得到的输出所指示的相似度更加准确,从而使得确定出的目标帐号的准确性更高,与种子帐号更加相似,从而实现了提高目标帐号的确定效率的技术效果,进而解决了相关技术中目标帐号的确定效率较低的技术问题。
作为一种可选的方案,根据获取到的种子帐号的第一帐号特征向量训练目标模型包括:
S1,获取种子帐号的第一帐号特征向量;
S2,从除种子帐号之外的帐号中获取负样本帐号,并获取负样本帐号的第三帐号特征向量;
S3,使用第一帐号特征向量训练目标模型,并使用第三帐号特征向量训练目标模型,其中,在训练的过程中,根据种子帐号所对应的第一目标输出与目标模型的输出之间的差值对目标模型的参数进行调整,并根据负样本帐号所对应的第二目标输出与目标模型的输出之间的差值对目标模型的参数进行调整。
可选地,在本实施例中,目标模型的训练过程可以但不限于是一个有标注的训练过程,将种子帐号作为有标注的正样本,再从除种子帐号之外的帐号中获取一定数量的帐号作为有标注的负样本,比如:上述负样本帐号,使用有标注的正负样本分别对目标模型的参数进行训练和调整,从而得到训练后的目标模型。
可选地,在本实施例中,种子帐号的标注可以为上述第一目标输出,负样本帐号的标注可以为上述第二目标输出。比如:将种子帐号标注为1,将负样本帐号标注为0,每次将种子帐号的第一帐号特征向量输入到目标模型得到一个输出,根据该输出与1之间的差值不断对目标模型的参数进行调整,直至目标模型的输出与1之间的差值满足一定的条件,比如:差值趋近于0等等,负样本帐号的训练过程可以与此类似,在此不再赘述。
作为一种可选的方案,使用第一帐号特征向量训练目标模型,并使用第三帐号特征向量训练目标模型包括:
S1,获取样本集合中每个帐号对应的网络图,其中,样本集合包括种子帐号和负样本帐号,网络图包括节点和边,节点为每个帐号所在的第一帐号集合中的帐号,边用于指示第一帐号集合中的帐号之间的交互关系,帐号之间的交互特征值高于目标特征值的帐号之间具有边,边的边权重为交互特征值,每个节点的特征向量为每个节点对应的帐号的帐号特征向量;
S2,使用每个网络图训练初始图卷积网络模型,得到目标图卷积网络模型和每个节点的目标帐号特征向量;
S3,使用每个节点的目标帐号特征向量训练初始输出层模型,得到目标输出层模型;
其中,在初始图卷积网络模型和初始输出层模型的训练的过程中,对初始图卷积网络模型的参数和初始输出层模型的参数进行调整,以使种子帐号对应的初始输出层模型的输出趋近于第一目标输出,并且负样本帐号对应的初始输出层模型的输出趋近于第二目标输出,训练后的目标模型包括目标图卷积网络模型和目标输出层模型。
可选地,在本实施例中,目标模型可以但不限于包括图卷积模型和输出层模型,图卷积模型可以用于对输入信息的特征向量进行扩充,得到更加稠密的具有更多信息的输出的特征向量。
可选地,在本实施例中,图卷积模型的输入信息可以为图结构的数据,在离线过程中可以以网络图的形式预先构造出目标场景中的帐号对应的图结构数据,网络图以帐号为节点,并以帐号之间的交互关系为边,可以预先设定帐号之间的交互特征值高于目标特征值的帐号之间具有边,该边的边权重为该交互特征值,每个节点的特征向量为每个节点对应的帐号的帐号特征向量。将样本集合中的每个帐号对应的图结构数据输入到模型中对初始图卷积模型进行训练,从而得到训练好的目标图卷积模型,以及每个帐号更加稠密的特征向量。该稠密的特征向量作为输出层模型的输入对初始输出层模型进行训练,得到能够使得输出层模型的输出趋近于目标输出的目标输出层模型。
作为一种可选的方案,初始图卷积网络模型包括多阶嵌入层模型,多阶嵌入层模型具有共享参数,其中,根据每个网络图训练初始图卷积网络模型,得到目标图卷积网络模型和每个节点的目标帐号特征向量包括:
S1,将每个网络图中节点的帐号特征向量作为多阶嵌入层模型中的第一阶嵌入层模型的输入信息,对多阶嵌入层模型进行迭代训练,得到具有目标共享参数的目标图卷积网络模型和每个节点的目标帐号特征向量;
其中,多阶嵌入层模型中下一阶嵌入层模型中每个网络图中目标节点的输入信息是至少使用目标节点在上一阶嵌入层模型的输出向量和每个网络图中除目标节点之外其他全部节点在上一阶嵌入层模型的输出向量表示的向量。
可选地,在本实施例中,每一阶的嵌入层模型能够在得到的帐号的特征向量中嵌入更多的其邻居帐号的特征信息。比如:一阶的嵌入层模型能够添加一阶邻居的特征信息,二阶的嵌入层模型能够添加二阶邻居的特征信息,以此类推,可以设置多阶嵌入层模型来扩大在帐号的特征向量中聚合的邻居信息的范围。
在一个可选的实施方式中,如图5所示,可以配置二阶GCN网络的网络结构,首先通过两次迭代生成帐号的二阶GCN网络表示的特征向量,
一阶Embedding层可以表示为:
第一层Embedding输入是帐号的原始特征向量,即用户的画像特征向量。经过一阶Embedding后,可以得到用户更稠密的向量表达,而且这种表达里面还聚合了帐号的一阶邻居帐号的信息。
二阶Embedding层可以表示为:
二阶Embedding层更加丰富了帐号特征向量表达的过程。相当于把帐号的二阶邻居帐号的信息也聚合到帐号的特征向量表达中。输出是帐号更丰富稠密的特征向量的表达,聚合了帐号的二阶邻居帐号信息。
其中,一二阶共享参数W1,b1,计算过程可以是迭代进行的。可以使用Adam优化器,学出参数。迭代过程就是Adam求最优解的过程。根据业务需要,可以进一步迭代更高阶,从而进一步扩大聚合的邻居信息的范围。
作为一种可选的方案,在获取样本集合中每个帐号对应的网络图之前,还包括:
S1,从目标场景对应的网络图的节点中采样多个节点作为采样节点,其中,目标场景对应的网络图以目标场景中的帐号为节点,目标场景中的帐号之间的交互特征值高于目标特征值的帐号之间具有边,目标场景中的帐号之间的交互特征值为目标场景中的帐号之间的边的边权重,交互特征值用于指示帐号之间互相执行的交互操作;
S2,将目标场景对应的网络图包括的节点中与每个采样节点之间的边权重满足目标权重条件的节点所对应的帐号确定为每个采样节点所对应的帐号集合中的帐号,得到多个第一帐号集合。
可选地,在本实施例中,对于整个目标场景中的帐号所构建的网络图,数据量可能是很大的,为了能够提高模型的训练速度,可以预先将整个网络图划分为多个子网络图,在一个子网络图中的帐号可以称之为是一个圈子中的帐号。
可选地,在本实施例中,边权重所满足的目标权重条件可以但不限于包括帐号之间执行的交互操作高于一定的数量等等。
其中,集合中包括与帐号v具有关联关系(例如:好友关系)的帐号u,集合中包括与帐号u具有关联关系(例如:好友关系)的帐号uu,weight(u,v)指示u和v之间执行的交互操作的信息,weight(v,u)指示v和u之间执行的交互操作的信息,weight(u,uu)指示u和uu之间执行的交互操作的信息。
根据本发明实施例的另一个方面,提供了另一种目标帐号的确定方法,该方法包括:
S11,获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,其中,种子帐号的第一帐号特征向量是至少使用种子帐号的画像特征向量和种子帐号的交互特征向量表示的向量,第二帐号特征向量是至少使用待确定帐号的画像特征向量和待确定帐号的交互特征向量表示的向量,画像特征向量用于指示具有画像特征向量的帐号的属性特征,交互特征向量用于指示具有交互特征向量的帐号与具有交互特征向量的帐号的邻居帐号之间的交互特征,具有交互特征向量的帐号的邻居帐号包括与具有交互特征向量的帐号之间在目标场景中执行过交互操作的帐号;
S12,根据第一帐号特征向量与第二帐号特征向量,确定待确定帐号与种子帐号之间的相似度;
S13,在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。
可选地,在本实施例中,在上述步骤S11中,可以但不限于采用前述的构建网络图训练模型来确定帐号的帐号特征向量的方式确定种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量。
可选地,在本实施例中,在上述步骤S12中,可以但不限于采用上述训练后的目标模型来确定待确定帐号与种子帐号之间的相似度。
例如:在本实施例中,根据获取到的种子帐号的第一帐号特征向量训练目标模型,再通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度。
作为一种可选的方案,在获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,或者,通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度之前,还包括:
S1,对目标场景中的帐号进行聚类,得到多个第二帐号集合;
S2,根据多个第二帐号集合中每个第二帐号集合中包括的种子帐号的数量、每个第二帐号集合中包括的帐号的数量以及种子帐号的数量确定每个第二帐号集合的集合权重,其中,集合权重用于指示每个第二帐号集合与包括种子帐号的帐号集合之间的集合相似度;
S3,根据集合权重按照集合相似度由高到低的顺序从多个第二帐号集合中获取目标帐号集合,其中,目标帐号集合中包括的总的帐号数量不低于目标数量,目标数量为目标帐号的数量的目标倍数;
S4,将目标帐号集合中的帐号确定为待确定帐号。
可选地,在本实施例中,可以通过初选的方式从目标场景包括的全部帐号中确定满足初选条件的待确定帐号,从而减少训练后的目标模型需要计算的帐号的数量,提高确定目标帐号的速度。
可选地,在本实施例中,对目标场景中的帐号进行聚类,得到多个第二帐号集合的过程可以但不限于为社区聚类的过程,可以但不限于采用标签传播算法,Louvain算法等等来对帐号进行社区聚类。
在一个可选的实施方式中,首先在离线阶段进行目标场景中帐号的社区聚类,在对社区聚类后的帐号进行初选,对每个社区,按照如下公式计算该社区的得分cScorec:
cScorec=α*F1c+β*cQualityc
其中:
其中,α,β都是预设的常量;
SeedNumc表示落在communityc中的种子帐号的数量;
SeedNum表示总的种子帐号的数量;
csizec表示communityc中的所有帐号的数量
根据各个社区的得分,取出数量为topN的帐号作为初选后的候选帐号,即待确定帐号。其中:N=扩散规模n*10。
作为一种可选的方案,在待确定帐号中确定出相似度满足目标相似度条件的目标帐号之后,还包括:
S1,将种子帐号和目标帐号发送给信息推送服务器,以指示信息推送服务器向种子帐号和目标帐号推送与种子帐号对应的推送信息;或者,
S2,向种子帐号和目标帐号推送与种子帐号对应的推送信息。
可选地,在本实施例中,在得到了目标帐号后可以为目标帐号和种子帐号推动信息。信息的推送过程可以但不限于由信息推送服务器来执行,或者还可以直接由执行本实施例的设备来执行。
例如:在一个可选实施例中,可以将种子帐号和目标帐号发送给信息推送服务器,并指示信息推送服务器该目标帐号为与种子帐号相似的帐号,由信息推送服务器向种子帐号和目标帐号推送与种子帐号对应的推送信息。
或者,在另一个可选实施例中,可以获取待推动给种子帐号的推送信息,在确定了目标帐号之后,将该推送信息推送给种子帐号和目标帐号。
作为一种可选的方案,在获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,或者,根据获取到的种子帐号的第一帐号特征向量训练目标模型之前,还包括:
S1,获取初始种子帐号;
S2,在初始种子帐号的数量低于第一目标数量的情况下,在初始种子帐号中添加目标种子帐号,得到包括初始种子帐号和目标种子帐号的种子帐号,其中,目标种子帐号为在目标场景中的活跃度高于目标活跃度的帐号;
S3,在初始种子帐号的数量不低于第一目标数量的情况下,将初始种子帐号确定为种子帐号。
可选地,在本实施例中,还可以提供一个根据初始获得的种子帐号的数量对初始种子帐号进行扩充的方式,可以设定预定阈值为第一目标数量,如果初始种子帐号的数量没有达到该第一目标数量,则使用在目标场景中的活跃度高于目标活跃度的目标种子帐号对初始种子帐号进行扩充,如果初始种子帐号的数量已经达到了该第一目标数量,则可以将初始种子帐号作为用于训练模型的种子帐号。
可选地,在本实施例中,还可以预先设置一个低于第一目标数量的第二目标数量,如果初始种子帐号不仅低于第一目标数量,还低于第二目标数量,则可以停止上述确定目标帐号的过程。在这种情况下,还可以发送提示信息来提醒用户初始种子帐号不符合要求,用户可以对初始种子帐号进行补充或者替换使其满足要求。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述目标帐号的确定方法的目标帐号的确定装置,如图6所示,该装置包括:
1)训练模块62,用于根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在训练的过程中,作为输入给目标模型的输入帐号的特征向量包括种子帐号的第一帐号特征向量,输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,画像特征向量用于指示输入帐号的属性特征,交互特征向量用于指示输入帐号与输入帐号的邻居帐号之间的交互特征,输入帐号的邻居帐号包括与输入帐号之间在目标场景中执行过交互操作的帐号;
2)第一确定模块64,用于通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度,其中,在确定的过程中,作为输入给目标模型的输入帐号的特征向量包括待确定帐号的第二帐号特征向量,目标模型的输出用于指示待确定帐号与种子帐号之间的相似度;
3)第二确定模块66,用于在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。
可见,通过上述装置,在模型训练的过程中融合了种子帐号的画像特征向量和交互特征向量对目标模型进行训练,使得模型训练的信息更加丰富,体现出帐号在目标场景中的更多信息,在相似度确定过程中,使用待确定帐号的画像特征向量和交互特征向量来确定其与种子帐号之间的相似度,使得目标模型得到的输出所指示的相似度更加准确,从而使得确定出的目标帐号的准确性更高,与种子帐号更加相似,从而实现了提高目标帐号的确定效率的技术效果,进而解决了相关技术中目标帐号的确定效率较低的技术问题。
可选地,在本实施例中,上述目标帐号的确定方法可以但不限于应用于根据目标场景中的种子帐号确定目标帐号的场景中。其中,上述目标场景可以但不限于为各种类型的应用或者应用中的功能,例如,在线教育应用、在线教育应用中的功能(比如:学员交流空间、教学课堂等等)、即时通讯应用、即时通讯应用中的功能(比如:聊天功能、状态分享功能等等)、社区空间应用、新闻阅读应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、多媒体应用中的功能(比如:弹幕功能、评论功能等等)、直播应用以及各种应用中的功能(比如:互相关注、好友聊天、状态分享、内容转发)等。具体的,可以但不限于应用于在上述即时通讯应用中根据种子帐号确定目标帐号的场景中,或还可以但不限于应用于在上述社区空间应用中根据种子帐号确定目标帐号的场景中,以提高目标帐号的确定效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述目标帐号的确定方法可以但不限于由服务器执行,或者也可以但不限于由客户端执行。还可以但不限于由服务器和客户端交互执行。比如:由服务器执行步骤S302的训练过程和步骤S304的目标模型的使用过程,由客户端来执行步骤S306的目标帐号的确定过程。也可以采用由服务器执行步骤S302,由客户端执行步骤S304和步骤S306的方式等等。
可选地,在本实施例中,获取到的种子帐号的形式可以但不限于包括:帐号标识ID(比如:用户绑定的即时通信APP帐号、手机号码、电子邮箱地址等等),用户名称(比如:用户昵称),用户编号(比如:在用户注册时APP分配给用户的编号)等等。
可选地,在本实施例中,画像特征向量可以用于指示输入帐号的属性特征。该属性特征可以但不限于包括:帐号在注册时填写的基本信息等等。为了进一步提高帐号确定过程的效率,可以在离线阶段预先进行帐号的画像特征向量的挖掘。对于目标场景中的每一个帐号,根据其基本信息等等内容挖掘出其对应的画像特征向量,存储在数据库中。
可选地,在本实施例中,交互特征向量用于指示输入帐号与输入帐号的邻居帐号之间的交互特征。该交互特征可以但不限于根据输入帐号与其邻居帐号之间执行过的交互操作得到,比如:点赞、评论、转发、发送消息、交易、转账等等。为了进一步提高帐号确定过程的效率,可以在离线阶段预先进行帐号的交互特征向量的挖掘。对于目标场景中的每一个帐号,根据其与邻居帐号之间的交互操作等等内容挖掘出其对应的交互特征向量,存储在数据库中。
可选地,在本实施例中,在离线阶段还可以预先进行帐号的帐号特征向量的挖掘。对于目标场景中的每一个帐号,至少使用其对应的画像特征向量和交互特征向量表示其帐号特征向量,存储在数据库中。
可选地,在本实施例中,待确定帐号可以但不限于是目标场景中的全部帐号,或者也可以是对目标场景中的帐号进行了初步的筛选后得到的帐号。
可选地,在本实施例中,目标模型的输出的形式可以但不限于包括用于指示待确定帐号与种子帐号之间的相似度的概率值,该概率值越大则相似度越高。或者,目标模型的输出的形式可以但不限于包括用于指示待确定帐号的帐号类型的信息,比如:类型标识0表示相似、类型标识1表示不相似等等方式。
可选地,在本实施例中,在上述步骤S306中可以但不限于根据目标模型的输出形式确定目标相似度条件来获取待确定帐号中与种子帐号的相似度较高的一部分帐号作为目标帐号。比如:如果目标模型的输出形式为概率值,可以确定目标条件可以为高于目标概率值的帐号或者可以为按照概率值从高到低排列后排在前几位的帐号。如果目标模型的输出形式为类型标识,可以确定目标条件可以为类型标识为用于指示帐号相似的标识。比如上述的类型标识为1。
可见,通过上述装置,在模型训练的过程中融合了种子帐号的画像特征向量和交互特征向量对目标模型进行训练,使得模型训练的信息更加丰富,体现出帐号在目标场景中的更多信息,在相似度确定过程中,使用待确定帐号的画像特征向量和交互特征向量来确定其与种子帐号之间的相似度,使得目标模型得到的输出所指示的相似度更加准确,从而使得确定出的目标帐号的准确性更高,与种子帐号更加相似,从而实现了提高目标帐号的确定效率的技术效果,进而解决了相关技术中目标帐号的确定效率较低的技术问题。
作为一种可选的方案,训练模块包括:
第一获取单元,用于获取种子帐号的第一帐号特征向量;
第二获取单元,用于从除种子帐号之外的帐号中获取负样本帐号,并获取负样本帐号的第三帐号特征向量;
训练单元,用于使用第一帐号特征向量训练目标模型,并使用第三帐号特征向量训练目标模型,其中,在训练的过程中,根据种子帐号所对应的第一目标输出与目标模型的输出之间的差值对目标模型的参数进行调整,并根据负样本帐号所对应的第二目标输出与目标模型的输出之间的差值对目标模型的参数进行调整。
作为一种可选的方案,训练单元包括:
获取子单元,用于获取样本集合中每个帐号对应的网络图,其中,样本集合包括种子帐号和负样本帐号,网络图包括节点和边,节点为每个帐号所在的第一帐号集合中的帐号,边用于指示第一帐号集合中的帐号之间的交互关系,帐号之间的交互特征值高于目标特征值的帐号之间具有边,边的边权重为交互特征值,每个节点的特征向量为每个节点对应的帐号的帐号特征向量;
第一训练子单元,用于使用每个网络图训练初始图卷积网络模型,得到目标图卷积网络模型和每个节点的目标帐号特征向量;
第二训练子单元,用于使用每个节点的目标帐号特征向量训练初始输出层模型,得到目标输出层模型;
其中,在初始图卷积网络模型和初始输出层模型的训练的过程中,对初始图卷积网络模型的参数和初始输出层模型的参数进行调整,以使种子帐号对应的初始输出层模型的输出趋近于第一目标输出,并且负样本帐号对应的初始输出层模型的输出趋近于第二目标输出,训练后的目标模型包括目标图卷积网络模型和目标输出层模型。
作为一种可选的方案,初始图卷积网络模型包括多阶嵌入层模型,多阶嵌入层模型具有共享参数,其中,第一训练子单元用于:
将每个网络图中节点的帐号特征向量作为多阶嵌入层模型中的第一阶嵌入层模型的输入信息,对多阶嵌入层模型进行迭代训练,得到具有目标共享参数的目标图卷积网络模型和每个节点的目标帐号特征向量;
其中,多阶嵌入层模型中下一阶嵌入层模型中每个网络图中目标节点的输入信息是至少使用目标节点在上一阶嵌入层模型的输出向量和每个网络图中除目标节点之外其他全部节点在上一阶嵌入层模型的输出向量表示的向量。
作为一种可选的方案,上述装置还包括:
采样模块,用于从目标场景对应的网络图的节点中采样多个节点作为采样节点,其中,目标场景对应的网络图以目标场景中的帐号为节点,目标场景中的帐号之间的交互特征值高于目标特征值的帐号之间具有边,目标场景中的帐号之间的交互特征值为目标场景中的帐号之间的边的边权重,交互特征值用于指示帐号之间互相执行的交互操作;
第三确定模块,用于将目标场景对应的网络图包括的节点中与每个采样节点之间的边权重满足目标权重条件的节点所对应的帐号确定为每个采样节点所对应的帐号集合中的帐号,得到多个第一帐号集合。
根据本发明实施例的另一个方面,还提供了另一种用于实施上述目标帐号的确定方法的目标帐号的确定装置,该装置包括:
第一获取模块,用于获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,其中,种子帐号的第一帐号特征向量是至少使用种子帐号的画像特征向量和种子帐号的交互特征向量表示的向量,第二帐号特征向量是至少使用待确定帐号的画像特征向量和待确定帐号的交互特征向量表示的向量,画像特征向量用于指示具有画像特征向量的帐号的属性特征,交互特征向量用于指示具有交互特征向量的帐号与具有交互特征向量的帐号的邻居帐号之间的交互特征,具有交互特征向量的帐号的邻居帐号包括与具有交互特征向量的帐号之间在目标场景中执行过交互操作的帐号;
第四确定模块,用于根据第一帐号特征向量与第二帐号特征向量,确定待确定帐号与种子帐号之间的相似度;
第五确定模块,用于在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。
作为一种可选的方案,上述装置还包括:
聚类模块,用于对目标场景中的帐号进行聚类,得到多个第二帐号集合;
第六确定模块,用于根据多个第二帐号集合中每个第二帐号集合中包括的种子帐号的数量、每个第二帐号集合中包括的帐号的数量以及种子帐号的数量确定每个第二帐号集合的集合权重,其中,集合权重用于指示每个第二帐号集合与包括种子帐号的帐号集合之间的集合相似度;
第二获取模块,用于根据集合权重按照集合相似度由高到低的顺序从多个第二帐号集合中获取目标帐号集合,其中,目标帐号集合中包括的总的帐号数量不低于目标数量,目标数量为目标帐号的数量的目标倍数;
第七确定模块,耦合于第二获取模块与第一获取模块之间,或者,耦合于第二获取模块与第一确定模块之间,用于将目标帐号集合中的帐号确定为待确定帐号。
作为一种可选的方案,上述装置还包括:
发送模块,用于将种子帐号和目标帐号发送给信息推送服务器,以指示信息推送服务器向种子帐号和目标帐号推送与种子帐号对应的推送信息;或者,
推送模块,用于向种子帐号和目标帐号推送与种子帐号对应的推送信息。
作为一种可选的方案,上述装置还包括:
第三获取模块,用于获取初始种子帐号;
添加模块,耦合于第三获取模块与第一获取模块之间,或者,耦合于第三获取模块与训练模块之间,用于在初始种子帐号的数量低于第一目标数量的情况下,在初始种子帐号中添加目标种子帐号,得到包括初始种子帐号和目标种子帐号的种子帐号,其中,目标种子帐号为在目标场景中的活跃度高于目标活跃度的帐号;
第八确定模块,耦合于第三获取模块与第一获取模块之间,或者,耦合于第三获取模块与训练模块之间,用于在初始种子帐号的数量不低于第一目标数量的情况下,将初始种子帐号确定为种子帐号。
本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境,本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。
作为一种可选的实施例,上述目标帐号的确定方法可以但不限于应用于如图7所示的在即时通信应用中对待推送广告的种子帐号进行人群扩散的场景中。在本场景中,人群扩散作为一个准实时服务,对扩散时耗有较高要求,需要在规定时间内完成从种子帐号包到目标帐号包的过程。为了在规定时间内,处理百亿级别的关系链数据,整个人群扩散过程可以划分为准实时扩散过程与离线挖掘过程两部分。
在离线挖掘过程中,可以对准实时扩散过程需要的数据和信息进行提前的处理,以提高准实时扩散过程的处理速度,从而提高处理效率。
首先,在对网络图构建的过程中,基于即时通信应用中的帐号构建网络拓扑图,其中节点即帐号。帐号u到v的边权重f(u,v)计算方法如下所示:
x=α*comm(u,v)+β*heart(u,v)+γ*message(u,v)
其中,comm(u,v)表示一个月内,用户u被v评论的次数;
heart(u,v)表示一个月内,用户u被v点赞的次数;
message(u,v)表示一个月内,用户u与v的发送的信息条数;
α、β是常量。
需要说明的是,加上发送的信息条数以后,整体结构图中非零边数会增加很多,可能后面计算量会加大很多,需要先考虑计算过程的耗时再决定是否加入。
在上述公式中,k是常量,P(u,v)表示u和v之间的交互信息,f(u,v)是对P(u,v)的归一化处理,f(u,v)即为边权重,x是个中间数据,表示的是用户的互动量。
在社区聚类的过程中,可以采用标签传播算法,Louvain算法等等对帐号进行社区聚类。
在画像特征的挖掘过程中,可以使用目前已有的画像数据。对于帐号u构建其画像特征向量:xu。
在网络拓扑与画像Embedding数据准备过程中,为了加快准实时扩散时精排模型训练与预测的效率,离线阶段先对Embedding所需的数据进行以下准备。
准备一,即时通信应用中的目标场景下互动网络图的构建过程。
使用目标场景下的互动信息,构建无向图。帐号作为节点,帐号之间的交互关系作为边,边权重为帐号之间影响力的加权:
weight(u,v)=f(u,v)+f(v,u);
例如,无向图的构建方式可以如图8所示。
准备二,圈子集合生成的过程。
准备三,一阶邻居的聚合过程。
其中,xv表示节点v的画像特征向量;
AGGREGATE可以根据业务需求进行设置,在本场景中采用Pointwise Mean的方式来对邻居信息进行聚合。
在准实时扩散的过程中,首先可以采用如表1所示的方式进行预处理。
表1
接下来进行帐号的初选过程,对上述社区聚类过程中生成的每个社区,按照以下方式计算该社区的得分cScorec:
cScorec=α*F1c+β*cQualityc
其中:
α,β都是常量
SeedNumc为落在communityc中的种子帐号的数量;
SeedNum为总的种子帐号的数量;
csizec为communityc中的所有帐号的数量
根据用户所在社区得分,取出topN用户作为初选后的候选用户。其中:N=扩散规模n*10。
在对候选用户进行精排的过程中,提供了一种二阶GCN网络,首先通过两次迭代生成帐号的二阶GCN网络表示,最后加一层OUTPUT层描述帐号为正例的概率。网络如下所示:
一阶Embedding层表示为:
二阶Embedding层表示为:
其中,一二阶共享参数W1,b1,计算过程是迭代进行的。可以使用Adam优化器,学出参数。迭代过程就是Adam求最优解的过程。根据业务需要,可以进一步迭代更高阶,从而进一步扩大聚合的邻居帐号的信息范围。
OUTPUT层表示为一个sigmoid层,也可以替换为softmax等。
定义了如上网络结构后,提供如下目标函数,对网络参数进行学习。为了预测大盘帐号中点击广告的概率,可以将其形式化成一个分类问题。首先将初始的种子帐号的节点类别标记为1,在训练中每次随机选k个节点作为伪负样本,并标记其标签类别为0。根据前面通过图卷积网络生成的节点表示向量训练模型,目标函数可以定义成如下形式:
其中,N为正例样本数量。
smooth表示正例smooth程度,是常用的防止过拟合的方法,这里可以取0.8。
Ej~neg表示从全量负例中采样的过程。
根据以上方法训练得到分类模型后,对初选后得到的候选用户进行打分,取Topn用户作为最终的目标用户,进行广告投放。
根据本发明实施例的又一个方面,还提供了一种用于实施上述目标帐号的确定的电子装置,如图10所示,该电子装置包括:一个或多个(图中仅示出一个)处理器1002、存储器1004、传感器1006、编码器1008以及传输装置1010,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在训练的过程中,作为输入给目标模型的输入帐号的特征向量包括种子帐号的第一帐号特征向量,输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,画像特征向量用于指示输入帐号的属性特征,交互特征向量用于指示输入帐号与输入帐号的邻居帐号之间的交互特征,输入帐号的邻居帐号包括与输入帐号之间在目标场景中执行过交互操作的帐号;
S2,通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度,其中,在确定的过程中,作为输入给目标模型的输入帐号的特征向量包括待确定帐号的第二帐号特征向量,目标模型的输出用于指示待确定帐号与种子帐号之间的相似度;
S3,在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。
可选地,在本实施例中,上述处理器还可以被设置为通过计算机程序执行以下步骤:
S11,获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,其中,种子帐号的第一帐号特征向量是至少使用种子帐号的画像特征向量和种子帐号的交互特征向量表示的向量,第二帐号特征向量是至少使用待确定帐号的画像特征向量和待确定帐号的交互特征向量表示的向量,画像特征向量用于指示具有画像特征向量的帐号的属性特征,交互特征向量用于指示具有交互特征向量的帐号与具有交互特征向量的帐号的邻居帐号之间的交互特征,具有交互特征向量的帐号的邻居帐号包括与具有交互特征向量的帐号之间在目标场景中执行过交互操作的帐号;
S12,根据第一帐号特征向量与第二帐号特征向量,确定待确定帐号与种子帐号之间的相似度;
S13,在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的目标帐号的确定方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标组件的控制方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1010包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1010为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器1002用于存储应用程序。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,根据获取到的种子帐号的第一帐号特征向量训练目标模型,其中,在训练的过程中,作为输入给目标模型的输入帐号的特征向量包括种子帐号的第一帐号特征向量,输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,画像特征向量用于指示输入帐号的属性特征,交互特征向量用于指示输入帐号与输入帐号的邻居帐号之间的交互特征,输入帐号的邻居帐号包括与输入帐号之间在目标场景中执行过交互操作的帐号;
S2,通过训练后的目标模型确定待确定帐号与种子帐号之间的相似度,其中,在确定的过程中,作为输入给目标模型的输入帐号的特征向量包括待确定帐号的第二帐号特征向量,目标模型的输出用于指示待确定帐号与种子帐号之间的相似度;
S3,在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。
可选地,在本实施例中,上述存储介质还可以被设置为存储用于执行以下步骤的计算机程序:
S11,获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,其中,种子帐号的第一帐号特征向量是至少使用种子帐号的画像特征向量和种子帐号的交互特征向量表示的向量,第二帐号特征向量是至少使用待确定帐号的画像特征向量和待确定帐号的交互特征向量表示的向量,画像特征向量用于指示具有画像特征向量的帐号的属性特征,交互特征向量用于指示具有交互特征向量的帐号与具有交互特征向量的帐号的邻居帐号之间的交互特征,具有交互特征向量的帐号的邻居帐号包括与具有交互特征向量的帐号之间在目标场景中执行过交互操作的帐号;
S12,根据第一帐号特征向量与第二帐号特征向量,确定待确定帐号与种子帐号之间的相似度;
S13,在待确定帐号中确定出相似度满足目标相似度条件的目标帐号。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种目标帐号的确定方法,其特征在于,包括:
根据获取到的种子帐号的第一帐号特征向量,对初始图卷积网络模型和初始输出层模型进行训练,得到训练后的目标模型,其中,所述初始图卷积网络模型包括多阶嵌入层模型,所述多阶嵌入层模型具有共享参数,在所述训练的过程中,作为输入给所述目标模型的输入帐号的特征向量包括所述种子帐号的第一帐号特征向量,所述输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,所述画像特征向量用于指示所述输入帐号的属性特征,所述交互特征向量用于指示所述输入帐号与所述输入帐号的邻居帐号之间的交互特征,所述输入帐号的邻居帐号包括与所述输入帐号之间在目标场景中执行过交互操作的帐号;
通过训练后的所述目标模型确定待确定帐号与所述种子帐号之间的相似度,其中,在所述确定的过程中,作为输入给所述目标模型的所述输入帐号的特征向量包括所述待确定帐号的第二帐号特征向量,所述第二帐号特征向量是至少使用所述待确定帐号的画像特征向量和所述待确定帐号的交互特征向量表示的向量,所述目标模型的输出用于指示所述待确定帐号与所述种子帐号之间的相似度;
在所述待确定帐号中确定出所述相似度满足目标相似度条件的目标帐号。
2.根据权利要求1所述的方法,其特征在于,根据获取到的种子帐号的第一帐号特征向量训练目标模型包括:
获取所述种子帐号的所述第一帐号特征向量;
从除所述种子帐号之外的帐号中获取负样本帐号,并获取所述负样本帐号的第三帐号特征向量;
使用所述第一帐号特征向量训练所述目标模型,并使用所述第三帐号特征向量训练所述目标模型,其中,在所述训练的过程中,根据所述种子帐号所对应的第一目标输出与所述目标模型的输出之间的差值对所述目标模型的参数进行调整,并根据所述负样本帐号所对应的第二目标输出与所述目标模型的输出之间的差值对所述目标模型的参数进行调整。
3.根据权利要求2所述的方法,其特征在于,使用所述第一帐号特征向量训练所述目标模型,并使用所述第三帐号特征向量训练所述目标模型包括:
获取样本集合中每个帐号对应的网络图,其中,所述样本集合包括所述种子帐号和所述负样本帐号,所述网络图包括节点和边,所述节点为所述每个帐号所在的第一帐号集合中的帐号,所述边用于指示所述第一帐号集合中的帐号之间的交互关系,帐号之间的交互特征值高于目标特征值的帐号之间具有所述边,所述边的边权重为所述交互特征值,每个节点的特征向量为所述每个节点对应的帐号的帐号特征向量;
使用每个所述网络图训练初始图卷积网络模型,得到目标图卷积网络模型和所述每个节点的目标帐号特征向量;
使用所述每个节点的目标帐号特征向量训练初始输出层模型,得到目标输出层模型;
其中,在所述初始图卷积网络模型和所述初始输出层模型的训练的过程中,对所述初始图卷积网络模型的参数和所述初始输出层模型的参数进行调整,以使所述种子帐号对应的所述初始输出层模型的输出趋近于所述第一目标输出,并且所述负样本帐号对应的所述初始输出层模型的输出趋近于所述第二目标输出,训练后的所述目标模型包括所述目标图卷积网络模型和所述目标输出层模型。
4.根据权利要求3所述的方法,其特征在于,所述初始图卷积网络模型包括多阶嵌入层模型,所述多阶嵌入层模型具有共享参数,其中,根据每个所述网络图训练初始图卷积网络模型,得到目标图卷积网络模型和所述每个节点的目标帐号特征向量包括:
将每个所述网络图中节点的帐号特征向量作为所述多阶嵌入层模型中的第一阶嵌入层模型的输入信息,对所述多阶嵌入层模型进行迭代训练,得到具有目标共享参数的所述目标图卷积网络模型和所述每个节点的目标帐号特征向量;
其中,所述多阶嵌入层模型中下一阶嵌入层模型中每个所述网络图中目标节点的输入信息是至少使用所述目标节点在上一阶嵌入层模型的输出向量和每个所述网络图中除所述目标节点之外其他全部节点在上一阶嵌入层模型的输出向量表示的向量。
5.根据权利要求3所述的方法,其特征在于,在获取样本集合中每个帐号对应的网络图之前,所述方法还包括:
从所述目标场景对应的网络图的节点中采样多个节点作为采样节点,其中,所述目标场景对应的网络图以所述目标场景中的帐号为节点,所述目标场景中的帐号之间的交互特征值高于所述目标特征值的帐号之间具有边,所述目标场景中的帐号之间的交互特征值为所述目标场景中的帐号之间的边的边权重,所述交互特征值用于指示帐号之间互相执行的交互操作;
将所述目标场景对应的网络图包括的节点中与每个所述采样节点之间的边权重满足目标权重条件的节点所对应的帐号确定为每个所述采样节点所对应的帐号集合中的帐号,得到多个所述第一帐号集合。
6.一种目标帐号的确定方法,其特征在于,包括:
获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,其中,所述种子帐号的第一帐号特征向量是至少使用所述种子帐号的画像特征向量和所述种子帐号的交互特征向量表示的向量,所述第二帐号特征向量是至少使用所述待确定帐号的画像特征向量和所述待确定帐号的交互特征向量表示的向量,所述画像特征向量用于指示具有所述画像特征向量的帐号的属性特征,所述交互特征向量用于指示具有所述交互特征向量的帐号与具有所述交互特征向量的帐号的邻居帐号之间的交互特征,具有所述交互特征向量的帐号的邻居帐号包括与具有所述交互特征向量的帐号之间在目标场景中执行过交互操作的帐号;
根据所述第一帐号特征向量与所述第二帐号特征向量,确定所述待确定帐号与所述种子帐号之间的相似度;
在所述待确定帐号中确定出所述相似度满足目标相似度条件的目标帐号;
对所述目标场景中的帐号进行聚类,得到多个第二帐号集合;
根据所述多个第二帐号集合中每个第二帐号集合中包括的所述种子帐号的数量、所述每个第二帐号集合中包括的帐号的数量以及所述种子帐号的数量确定所述每个第二帐号集合的集合权重,其中,所述集合权重用于指示所述每个第二帐号集合与包括所述种子帐号的帐号集合之间的集合相似度;
根据所述集合权重按照所述集合相似度由高到低的顺序从所述多个第二帐号集合中获取目标帐号集合,其中,目标帐号集合中包括的总的帐号数量不低于目标数量,所述目标数量为所述目标帐号的数量的目标倍数;
将所述目标帐号集合中的帐号确定为所述待确定帐号。
7.根据权利要求6所述的方法,其特征在于,在所述待确定帐号中确定出所述相似度满足目标相似度条件的目标帐号之后,所述方法还包括:
将所述种子帐号和所述目标帐号发送给信息推送服务器,以指示所述信息推送服务器向所述种子帐号和所述目标帐号推送与所述种子帐号对应的推送信息;或者,
向所述种子帐号和所述目标帐号推送与所述种子帐号对应的推送信息。
8.根据权利要求6所述的方法,其特征在于,在获取所述种子帐号的所述第一帐号特征向量和所述待确定帐号的所述第二帐号特征向量之前,所述方法还包括:
获取初始种子帐号;
在所述初始种子帐号的数量低于第一目标数量的情况下,在所述初始种子帐号中添加目标种子帐号,得到包括所述初始种子帐号和所述目标种子帐号的所述种子帐号,其中,所述目标种子帐号为在所述目标场景中的活跃度高于目标活跃度的帐号;
在所述初始种子帐号的数量不低于所述第一目标数量的情况下,将所述初始种子帐号确定为所述种子帐号。
9.一种目标帐号的确定装置,其特征在于,包括:
训练模块,用于根据获取到的种子帐号的第一帐号特征向量,对初始图卷积网络模型和初始输出层模型进行训练,得到训练后的目标模型,其中,所述初始图卷积网络模型包括多阶嵌入层模型,所述多阶嵌入层模型具有共享参数,在所述训练的过程中,作为输入给所述目标模型的输入帐号的特征向量包括所述种子帐号的第一帐号特征向量,所述输入帐号的特征向量是至少使用画像特征向量和交互特征向量表示的向量,所述画像特征向量用于指示所述输入帐号的属性特征,所述交互特征向量用于指示所述输入帐号与所述输入帐号的邻居帐号之间的交互特征,所述输入帐号的邻居帐号包括与所述输入帐号之间在目标场景中执行过交互操作的帐号;
第一确定模块,用于通过训练后的所述目标模型确定待确定帐号与所述种子帐号之间的相似度,其中,在所述确定的过程中,作为输入给所述目标模型的所述输入帐号的特征向量包括所述待确定帐号的第二帐号特征向量,所述第二帐号特征向量是至少使用所述待确定帐号的画像特征向量和所述待确定帐号的交互特征向量表示的向量,所述目标模型的输出用于指示所述待确定帐号与所述种子帐号之间的相似度;
第二确定模块,用于在所述待确定帐号中确定出所述相似度满足目标相似度条件的目标帐号。
10.根据权利要求9所述的装置,其特征在于,所述训练模块包括:
第一获取单元,用于获取所述种子帐号的所述第一帐号特征向量;
第二获取单元,用于从除所述种子帐号之外的帐号中获取负样本帐号,并获取所述负样本帐号的第三帐号特征向量;
训练单元,用于使用所述第一帐号特征向量训练所述目标模型,并使用所述第三帐号特征向量训练所述目标模型,其中,在所述训练的过程中,根据所述种子帐号所对应的第一目标输出与所述目标模型的输出之间的差值对所述目标模型的参数进行调整,并根据所述负样本帐号所对应的第二目标输出与所述目标模型的输出之间的差值对所述目标模型的参数进行调整。
11.根据权利要求10所述的装置,其特征在于,所述训练单元包括:
获取子单元,用于获取样本集合中每个帐号对应的网络图,其中,所述样本集合包括所述种子帐号和所述负样本帐号,所述网络图包括节点和边,所述节点为所述每个帐号所在的第一帐号集合中的帐号,所述边用于指示所述第一帐号集合中的帐号之间的交互关系,帐号之间的交互特征值高于目标特征值的帐号之间具有所述边,所述边的边权重为所述交互特征值,每个节点的特征向量为所述每个节点对应的帐号的帐号特征向量;
第一训练子单元,用于使用每个所述网络图训练初始图卷积网络模型,得到目标图卷积网络模型和所述每个节点的目标帐号特征向量;
第二训练子单元,用于使用所述每个节点的目标帐号特征向量训练初始输出层模型,得到目标输出层模型;
其中,在所述初始图卷积网络模型和所述初始输出层模型的训练的过程中,对所述初始图卷积网络模型的参数和所述初始输出层模型的参数进行调整,以使所述种子帐号对应的所述初始输出层模型的输出趋近于所述第一目标输出,并且所述负样本帐号对应的所述初始输出层模型的输出趋近于所述第二目标输出,训练后的所述目标模型包括所述目标图卷积网络模型和所述目标输出层模型。
12.一种目标帐号的确定装置,其特征在于,包括:
第一获取模块,用于获取种子帐号的第一帐号特征向量和待确定帐号的第二帐号特征向量,其中,所述种子帐号的第一帐号特征向量是至少使用所述种子帐号的画像特征向量和所述种子帐号的交互特征向量表示的向量,所述第二帐号特征向量是至少使用所述待确定帐号的画像特征向量和所述待确定帐号的交互特征向量表示的向量,所述画像特征向量用于指示具有所述画像特征向量的帐号的属性特征,所述交互特征向量用于指示具有所述交互特征向量的帐号与具有所述交互特征向量的帐号的邻居帐号之间的交互特征,具有所述交互特征向量的帐号的邻居帐号包括与具有所述交互特征向量的帐号之间在目标场景中执行过交互操作的帐号;
第四确定模块,用于根据所述第一帐号特征向量与所述第二帐号特征向量,确定所述待确定帐号与所述种子帐号之间的相似度;
第五确定模块,用于在所述待确定帐号中确定出所述相似度满足目标相似度条件的目标帐号;
所述装置还用于:
对所述目标场景中的帐号进行聚类,得到多个第二帐号集合;
根据所述多个第二帐号集合中每个第二帐号集合中包括的所述种子帐号的数量、所述每个第二帐号集合中包括的帐号的数量以及所述种子帐号的数量确定所述每个第二帐号集合的集合权重,其中,所述集合权重用于指示所述每个第二帐号集合与包括所述种子帐号的帐号集合之间的集合相似度;
根据所述集合权重按照所述集合相似度由高到低的顺序从所述多个第二帐号集合中获取目标帐号集合,其中,目标帐号集合中包括的总的帐号数量不低于目标数量,所述目标数量为所述目标帐号的数量的目标倍数;
将所述目标帐号集合中的帐号确定为所述待确定帐号。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172280.7A CN110008999B (zh) | 2019-03-07 | 2019-03-07 | 目标帐号的确定方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172280.7A CN110008999B (zh) | 2019-03-07 | 2019-03-07 | 目标帐号的确定方法、装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110008999A CN110008999A (zh) | 2019-07-12 |
CN110008999B true CN110008999B (zh) | 2021-07-27 |
Family
ID=67166830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910172280.7A Active CN110008999B (zh) | 2019-03-07 | 2019-03-07 | 目标帐号的确定方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110008999B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308582B (zh) * | 2019-07-24 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 资源的处理方法、装置、存储介质及电子装置 |
CN112686277A (zh) * | 2019-10-18 | 2021-04-20 | 北京大学 | 模型训练的方法和装置 |
CN111935259B (zh) * | 2020-07-30 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 目标帐号集合的确定方法和装置、存储介质及电子设备 |
CN113011886B (zh) * | 2021-02-19 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 帐号类型的确定方法和装置及电子设备 |
CN113486211B (zh) * | 2021-06-30 | 2024-09-24 | 北京达佳互联信息技术有限公司 | 账号识别方法、装置、电子设备、存储介质及程序产品 |
CN113672816B (zh) * | 2021-10-21 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 帐号特征信息的生成方法、装置和存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778173A (zh) * | 2014-01-10 | 2015-07-15 | 腾讯科技(深圳)有限公司 | 目标用户确定方法、装置及设备 |
CN106886918A (zh) * | 2017-02-06 | 2017-06-23 | 中国联合网络通信集团有限公司 | 一种目标用户的确定方法、装置及系统 |
CN107766446A (zh) * | 2017-09-22 | 2018-03-06 | 北京网众共创科技有限公司 | 资讯信息的推送方法、装置、存储介质及处理器 |
CN108985954A (zh) * | 2018-07-02 | 2018-12-11 | 武汉斗鱼网络科技有限公司 | 一种建立各标识的关联关系的方法以及相关设备 |
CN109146697A (zh) * | 2018-06-25 | 2019-01-04 | 福来宝电子(深圳)有限公司 | 一种智能音箱的社交分享方法及智能音箱 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570192A (zh) * | 2016-11-18 | 2017-04-19 | 广东技术师范学院 | 一种基于深度学习的多视图图像检索方法 |
US10394881B2 (en) * | 2017-03-31 | 2019-08-27 | Google Llc | Automatic suggestions to share images |
CN109428928B (zh) * | 2017-08-31 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 信息推送对象的选择方法、装置及设备 |
CN108648095A (zh) * | 2018-05-10 | 2018-10-12 | 浙江工业大学 | 一种基于图卷积网络梯度的节点信息隐藏方法 |
CN108897778B (zh) * | 2018-06-04 | 2021-12-31 | 创意信息技术股份有限公司 | 一种基于多源大数据分析的图像标注方法 |
CN108875090B (zh) * | 2018-08-07 | 2023-02-28 | 腾讯科技(深圳)有限公司 | 一种歌曲推荐方法、装置和存储介质 |
CN109389151B (zh) * | 2018-08-30 | 2022-01-18 | 华南师范大学 | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 |
CN109242633B (zh) * | 2018-09-20 | 2022-04-08 | 创新先进技术有限公司 | 一种基于二部图网络的商品推送方法和装置 |
CN109299373B (zh) * | 2018-10-20 | 2021-10-29 | 上海交通大学 | 基于图卷积技术的推荐系统 |
-
2019
- 2019-03-07 CN CN201910172280.7A patent/CN110008999B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778173A (zh) * | 2014-01-10 | 2015-07-15 | 腾讯科技(深圳)有限公司 | 目标用户确定方法、装置及设备 |
CN106886918A (zh) * | 2017-02-06 | 2017-06-23 | 中国联合网络通信集团有限公司 | 一种目标用户的确定方法、装置及系统 |
CN107766446A (zh) * | 2017-09-22 | 2018-03-06 | 北京网众共创科技有限公司 | 资讯信息的推送方法、装置、存储介质及处理器 |
CN109146697A (zh) * | 2018-06-25 | 2019-01-04 | 福来宝电子(深圳)有限公司 | 一种智能音箱的社交分享方法及智能音箱 |
CN108985954A (zh) * | 2018-07-02 | 2018-12-11 | 武汉斗鱼网络科技有限公司 | 一种建立各标识的关联关系的方法以及相关设备 |
Non-Patent Citations (4)
Title |
---|
"Graph Convolutional Neural Networks for Web-Scale Recommender Systems";Rex Ying,at el.;《arXiv》;20180606;第1-10 * |
"Inductive Representation Learning on Large Graphs";,at el.;《arXiv》;20180910;第1-19页 * |
"SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation";Le Wu,at el.;《arXiv》;20181107;第1-8页 * |
"在大规模推荐系统中用图卷积神经网络(GCN)";小堰子;《知乎》;20181113;第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110008999A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008999B (zh) | 目标帐号的确定方法、装置、存储介质及电子装置 | |
CN109428928A (zh) | 信息推送对象的选择方法、装置及设备 | |
CN111160954B (zh) | 基于图卷积网络模型的面向群组对象的推荐方法 | |
CN109840793B (zh) | 推广信息的推送方法和装置、存储介质、电子装置 | |
US20150081725A1 (en) | System and method for actively obtaining social data | |
CN109919316A (zh) | 获取网络表示学习向量的方法、装置和设备及存储介质 | |
CN107688605B (zh) | 跨平台数据匹配方法、装置、计算机设备和存储介质 | |
WO2016037278A1 (en) | Systems and methods for continuous analysis and procurement of advertisement campaigns | |
CN111444395A (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
CN106991617B (zh) | 一种基于信息传播的微博社交关系提取算法 | |
CN108647800B (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN110413867B (zh) | 用于内容推荐的方法及系统 | |
US20150278346A1 (en) | Method and system for decomposing social relationships into domains of interactions | |
CN113722603A (zh) | 对象推送方法、产品推送方法、计算机终端及存储介质 | |
CN107634897A (zh) | 群推荐方法和装置 | |
TW201531866A (zh) | 主動偏好學習方法與系統 | |
Hu et al. | Budget-efficient viral video distribution over online social networks: Mining topic-aware influential users | |
US20170331909A1 (en) | System and method of monitoring and tracking online source content and/or determining content influencers | |
CN116166910A (zh) | 一种社交媒体账号粉丝水军检测方法、系统、设备和介质 | |
CN104484365B (zh) | 一种多源异构在线社会网络中网络主体之间社会关系的预测方法与系统 | |
Cimini et al. | Enhancing topology adaptation in information-sharing social networks | |
WO2022222025A1 (zh) | 社交网络种子用户选择方法和装置、电子设备、存储介质 | |
CN113886674B (zh) | 资源推荐方法、装置、电子设备及存储介质 | |
CN111652451A (zh) | 社交关系的获取方法和装置及存储介质 | |
CN106021325A (zh) | 一种好友推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |