CN113139101A - 数据处理方法、装置、计算机设备及存储介质 - Google Patents

数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113139101A
CN113139101A CN202110536355.2A CN202110536355A CN113139101A CN 113139101 A CN113139101 A CN 113139101A CN 202110536355 A CN202110536355 A CN 202110536355A CN 113139101 A CN113139101 A CN 113139101A
Authority
CN
China
Prior art keywords
account
accounts
group
target
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110536355.2A
Other languages
English (en)
Inventor
李奕霖
王珵
徐心
张佳音
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Dajia Internet Information Technology Co Ltd filed Critical Tsinghua University
Priority to CN202110536355.2A priority Critical patent/CN113139101A/zh
Publication of CN113139101A publication Critical patent/CN113139101A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种数据处理方法、装置、计算机设备及存储介质,属于计算机技术领域。本公开通过根据第一账号的互动行为构建对应的账号关系图,并从第一账号中筛选出属于某个账号群组的第二账号,利用第二账号和该账号关系图,结合图挖掘技术,以从该账号关系图所包含的账号中,筛选得到与第二账号同属于该账号群组的目标账号,无需人工对各个账号进行群组标注,大大节约了识别账号群组的人力和时间成本,提高了从海量账号中识别出账号群组内各账号的效率。

Description

数据处理方法、装置、计算机设备及存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展和终端功能的多样化,用户能够利用终端随时随地浏览创作者(例如主播、up主等)发布的音视频资源。部分创作者可能会组成用户团体、以“网红(即网络红人)家族”的形式活跃在音视频平台上,已经具有相当大的经济影响力。因此,从音视频平台的海量注册用户中准确识别出各个用户团体,以及找出同一用户团体内的各个成员逐渐成为研究热点。
上述用户团体内的创作者成员大多为师徒关系或亲属关系,并互相关注、经常一起互动:如出现在彼此发布的视频作品中、发起联合直播、在作品评论区互动等。目前,主要通过人工标注的方式识别属于同一用户团体的创作者成员,也即,由技术人员通过观察创作者的公开信息以及发布的作品信息,结合业务经验来判断创作者是否属于某一用户团体。
发明内容
本公开提供一种数据处理方法、装置、计算机设备及存储介质,以至少节约识别账号群组的人工成本、提高账号群组的识别效率。本公开的技术方案如下:
根据本公开实施例的一方面,提供一种数据处理方法,包括:
基于多个第一账号的互动行为,获取所述互动行为对应的账号关系图,所述账号关系图用于记录与所述第一账号发生过所述互动行为的账号,所述第一账号的被动关联账号符合第一目标条件;
从多个所述第一账号中,筛选得到多个第二账号,所述第二账号与账号群组具有映射关系,所述账号群组为具有目标社交关系的账号所构成的群组;
基于多个所述第二账号和所述账号关系图,从所述账号关系图所包含的账号中,筛选得到至少一个目标账号,所述目标账号的群组关联参数符合第二目标条件,所述群组关联参数用于表征所述目标账号与所述账号群组具有映射关系的可能性。
在一种可能实施方式中,所述基于多个所述第二账号和所述账号关系图,从所述账号关系图所包含的账号中,筛选得到至少一个目标账号包括:
基于多个所述第二账号和所述账号关系图,从多个所述第二账号中筛选得到至少一个种子账号,所述种子账号为所述账号关系图中所记录的所述第二账号;
基于各个种子账号,从所述账号关系图中筛选得到至少一个第三账号,每个第三账号均与一个种子账号具有对应关系;
获取各个第三账号的群组关联参数,将群组关联参数符合所述第二目标条件的第三账号确定为所述目标账号。
在一种可能实施方式中,所述基于多个所述第二账号和所述账号关系图,从多个所述第二账号中筛选得到至少一个种子账号包括:
获取所述账号关系图所记录的账号与多个所述第二账号之间的交集;
从所述交集所包含的各个账号中,筛选得到至少一个所述种子账号。
在一种可能实施方式中,所述从所述交集所包含的各个账号中,筛选得到至少一个所述种子账号包括:
基于所述交集所包含的各个账号的关联账号数量,为各个账号分配权重参数,所述权重参数用于表示各个账号被筛选为种子账号的可能性;
基于各个账号的权重参数,对各个账号进行抽样,得到至少一个所述种子账号。
在一种可能实施方式中,所述关联账号数量包括主动关联账号数量、被动关联账号数量和双向关联账号数量,不同类型的关联账号数量对应于不同的权重比例;
所述基于所述交集所包含的各个账号的关联账号数量,为各个账号分配权重参数包括:
对所述交集所包含的任一账号,获取所述任一账号的主动关联账号数量、被动关联账号数量和双向关联账号数量;
将所述主动关联账号数量、被动关联账号数量和双向关联账号数量分别与各自对应的权重比例相乘,将相乘所得的数值之间的和值确定为所述任一账号的权重参数。
在一种可能实施方式中,响应于所述交集中的任一账号曾被抽取为种子账号,将所述任一账号的权重参数调低。
在一种可能实施方式中,所述获取各个第三账号的群组关联参数包括:
对任一所述第三账号,基于所述第三账号在所述账号关系图中的度参数,获取所述第三账号的第一关联参数,所述度参数用于表示所述账号关系图中与第三账号相连的边数,所述第一关联参数用于表示所述第三账号在所述账号关系图中与所述账号群组的关联程度;
基于所述第三账号的账号特征,获取所述第三账号的第二关联参数,所述第二关联参数用于表示所述第三账号的账号特征与所述账号群组的关联程度;
基于所述第一关联参数和所述第二关联参数,获取所述第三账号的群组关联参数。
在一种可能实施方式中,响应于所述第三账号位于多个所述账号关系图中,所述基于所述第三账号在所述账号关系图中的度参数,获取所述第三账号的第一关联参数包括:
基于各个账号关系图中账号的度分布,对所述第三账号在各个账号关系图中的度参数进行标准化,得到所述第三账号的多个标准度参数;
基于各个账号关系图的关系图权重,对多个所述标准度参数进行加权,得到多个加权度参数;
基于多个所述加权度参数,获取所述第三账号的所述第一关联参数。
在一种可能实施方式中,所述基于多个所述加权度参数,获取所述第三账号的所述第一关联参数包括:
获取多个所述加权度参数之间的和值;
响应于所述第三账号属于目标账号集,将所述和值加一所得的数值确定为所述第一关联参数,所述目标账号集基于账号的文本信息筛选得到;
响应于所述第三账号不属于所述目标账号集,将所述和值确定为所述第一关联参数。
在一种可能实施方式中,所述账号的文本信息包括账号的昵称信息和账号的简介信息,所述目标账号集的筛选过程包括:
获取至少一个第一关键词,所述第一关键词用于标识所述账号群组;
基于至少一个所述第一关键词,从多个所述第一账号中筛选得到符合第三目标条件的所述目标账号集。
在一种可能实施方式中,所述第三目标条件为第一账号的昵称信息或者简介信息中的至少一项包含所述第一关键词。
在一种可能实施方式中,所述第二目标条件为在群组关联参数从大到小的排序中本账号位于前目标位。
在一种可能实施方式中,所述将群组关联参数符合所述第二目标条件的第三账号确定为所述目标账号之后,所述方法还包括:
将多个所述第二账号中除了所述种子账号之外的账号获取为验证账号集;
获取所述目标账号在所述验证账号集中的精确率和召回率;
迭代执行筛选种子账号并获取目标账号的步骤,直到所述精确率和召回率符合停止迭代条件。
在一种可能实施方式中,所述从多个所述第一账号中,筛选得到多个第二账号包括:
获取至少一个第一关键词和至少一个第二关键词,所述第一关键词用于标识所述账号群组,所述第二关键词用于标识所述账号群组内不同账号之间的关系;
基于至少一个所述第一关键词和至少一个所述第二关键词,从多个所述第一账号中筛选得到符合第四目标条件的多个所述第二账号。
在一种可能实施方式中,所述第四目标条件为第一账号的昵称信息和简介信息中均包含所述第一关键词,且所述简介信息中还包含所述第二关键词。
根据本公开实施例的另一方面,提供一种数据处理装置,包括:
第一获取单元,被配置为执行基于多个第一账号的互动行为,获取所述互动行为对应的账号关系图,所述账号关系图用于记录与所述第一账号发生过所述互动行为的账号,所述第一账号的被动关联账号符合第一目标条件;
第一筛选单元,被配置为执行从多个所述第一账号中,筛选得到多个第二账号,所述第二账号与账号群组具有映射关系,所述账号群组为具有目标社交关系的账号所构成的群组;
第二筛选单元,被配置为执行基于多个所述第二账号和所述账号关系图,从所述账号关系图所包含的账号中,筛选得到至少一个目标账号,所述目标账号的群组关联参数符合第二目标条件,所述群组关联参数用于表征所述目标账号与所述账号群组具有映射关系的可能性。
在一种可能实施方式中,所述第二筛选单元包括:
第一筛选子单元,被配置为执行基于多个所述第二账号和所述账号关系图,从多个所述第二账号中筛选得到至少一个种子账号,所述种子账号为所述账号关系图中所记录的所述第二账号;
第二筛选子单元,被配置为执行基于各个种子账号,从所述账号关系图中筛选得到至少一个第三账号,每个第三账号均与一个种子账号具有对应关系;
获取确定子单元,被配置为执行获取各个第三账号的群组关联参数,将群组关联参数符合所述第二目标条件的第三账号确定为所述目标账号。
在一种可能实施方式中,所述第一筛选子单元包括:
第一获取子子单元,被配置为执行获取所述账号关系图所记录的账号与多个所述第二账号之间的交集;
筛选子子单元,被配置为执行从所述交集所包含的各个账号中,筛选得到至少一个所述种子账号。
在一种可能实施方式中,所述筛选子子单元包括:
分配子子子单元,被配置为执行基于所述交集所包含的各个账号的关联账号数量,为各个账号分配权重参数,所述权重参数用于表示各个账号被筛选为种子账号的可能性;
抽样子子子单元,被配置为执行基于各个账号的权重参数,对各个账号进行抽样,得到至少一个所述种子账号。
在一种可能实施方式中,所述关联账号数量包括主动关联账号数量、被动关联账号数量和双向关联账号数量,不同类型的关联账号数量对应于不同的权重比例;
所述分配子子子单元被配置为执行:
对所述交集所包含的任一账号,获取所述任一账号的主动关联账号数量、被动关联账号数量和双向关联账号数量;
将所述主动关联账号数量、被动关联账号数量和双向关联账号数量分别与各自对应的权重比例相乘,将相乘所得的数值之间的和值确定为所述任一账号的权重参数。
在一种可能实施方式中,所述分配子子子单元还被配置为执行:
响应于所述交集中的任一账号曾被抽取为种子账号,将所述任一账号的权重参数调低。
在一种可能实施方式中,所述获取确定子单元包括:
第二获取子子单元,被配置为执行对任一所述第三账号,基于所述第三账号在所述账号关系图中的度参数,获取所述第三账号的第一关联参数,所述度参数用于表示所述账号关系图中与第三账号相连的边数,所述第一关联参数用于表示所述第三账号在所述账号关系图中与所述账号群组的关联程度;
第三获取子子单元,被配置为执行基于所述第三账号的账号特征,获取所述第三账号的第二关联参数,所述第二关联参数用于表示所述第三账号的账号特征与所述账号群组的关联程度;
第四获取子子单元,被配置为执行基于所述第一关联参数和所述第二关联参数,获取所述第三账号的群组关联参数。
在一种可能实施方式中,响应于所述第三账号位于多个所述账号关系图中,所述第二获取子子单元包括:
标准化子子子单元,被配置为执行基于各个账号关系图中账号的度分布,对所述第三账号在各个账号关系图中的度参数进行标准化,得到所述第三账号的多个标准度参数;
加权子子子单元,被配置为执行基于各个账号关系图的关系图权重,对多个所述标准度参数进行加权,得到多个加权度参数;
获取子子子单元,被配置为执行基于多个所述加权度参数,获取所述第三账号的所述第一关联参数。
在一种可能实施方式中,所述获取子子子单元被配置为执行:
获取多个所述加权度参数之间的和值;
响应于所述第三账号属于目标账号集,将所述和值加一所得的数值确定为所述第一关联参数,所述目标账号集基于账号的文本信息筛选得到;
响应于所述第三账号不属于所述目标账号集,将所述和值确定为所述第一关联参数。
在一种可能实施方式中,所述账号的文本信息包括账号的昵称信息和账号的简介信息,所述目标账号集的筛选过程包括:
获取至少一个第一关键词,所述第一关键词用于标识所述账号群组;
基于至少一个所述第一关键词,从多个所述第一账号中筛选得到符合第三目标条件的所述目标账号集。
在一种可能实施方式中,所述第三目标条件为第一账号的昵称信息或者简介信息中的至少一项包含所述第一关键词。
在一种可能实施方式中,所述第二目标条件为在群组关联参数从大到小的排序中本账号位于前目标位。
在一种可能实施方式中,所述装置还包括:
第二获取单元,被配置为执行将多个所述第二账号中除了所述种子账号之外的账号获取为验证账号集;
第三获取单元,被配置为执行获取所述目标账号在所述验证账号集中的精确率和召回率;
迭代单元,被配置为执行迭代执行筛选种子账号并获取目标账号的步骤,直到所述精确率和召回率符合停止迭代条件。
在一种可能实施方式中,所述第一筛选单元被配置为执行:
获取至少一个第一关键词和至少一个第二关键词,所述第一关键词用于标识所述账号群组,所述第二关键词用于标识所述账号群组内不同账号之间的关系;
基于至少一个所述第一关键词和至少一个所述第二关键词,从多个所述第一账号中筛选得到符合第四目标条件的多个所述第二账号。
在一种可能实施方式中,所述第四目标条件为第一账号的昵称信息和简介信息中均包含所述第一关键词,且所述简介信息中还包含所述第二关键词。
根据本公开实施例的另一方面,提供一种计算机设备,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行上述一方面的任一种可能实施方式中的数据处理方法。
根据本公开实施例的另一方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时,使得该计算机设备能够执行上述一方面的任一种可能实施方式中的数据处理方法。
根据本公开实施例的另一方面,提供一种计算机程序产品,包括一条或多条指令,所述一条或多条指令可以由计算机设备的一个或多个处理器执行,使得该计算机设备能够执行上述一方面的任一种可能实施方式中的数据处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过根据第一账号的互动行为构建对应的账号关系图,并从第一账号中筛选出属于某个账号群组的第二账号,利用第二账号和该账号关系图,结合图挖掘技术,以从该账号关系图所包含的账号中,筛选得到与第二账号同属于该账号群组的目标账号,无需人工对各个账号进行群组标注,大大节约了识别账号群组的人力和时间成本,提高了从海量账号中识别出账号群组内各账号的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种数据处理方法的实施环境示意图;
图2是根据一示例性实施例示出的一种数据处理方法的流程图;
图3是根据一示例性实施例示出的一种数据处理方法的流程图;
图4是本公开实施例提供的一种获取目标评分参数的流程图;
图5是根据一示例性实施例示出的一种数据处理装置的逻辑结构框图;
图6示出了本公开一个示例性实施例提供的一种计算机设备的结构框图;
图7是本公开实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的用户信息和/或用户的账号信息可以为经用户授权或者经过各方充分授权的信息。
随着计算机技术的发展和终端功能的多样化,短视频平台、直播平台等互联网内容平台得到了蓬勃发展。而在线社区社团挖掘则属于一类热点问题,即,如何在较大的用户社区中发现关系密切的较小的用户团体,换言之,如何从海量的平台账号中识别出属于同一账号群组的各个账号。属于同一用户团体的各个成员通常以“网红家族”的形式活跃在平台上,成员之间大多为师徒关系或亲属关系,例如,一些较为著名的团体,其成员以粉丝量在几万到几百万之间的众多腰部网红为主,其首领则通常是头部的超级大V(经过认证且粉丝量更多的用户)。在一个用户团体内,成员与首领通常以“师徒”相称,而徒弟之下还可以再带徒弟,成员通常会在个人介绍页面中标明团体身份与师徒关系,并与其他成员互相关系,且经常一起活动:如出现在彼此的视频作品里、共同直播、在作品评论区互动等。以网红家族为代表的用户团体通常在内容平台中形成巨大的影响力,能够吸引巨大的流量,且能够创造非常可观的经济收益。
因此,准确识别用户团体内的各个成员,能够帮助平台方更好地了解用户社区生态,提高平台对团体的控制力,实现精细化运营,同时,不同用户团体之间的社交关系还能够为平台揭示用户团体之间的合作和互动,为推荐、舆情、风控等下游业务提供信息支撑,也即针对用户团体的社团挖掘具有重要的应用价值。目前,主要利用人工标注的方式来识别用户团体,技术人员通过观察用户的公开信息与发布作品的特征,结合业务经验来判断出一个用户是否属于某个用户团体。上述人工标注方式需要耗费较大的人力和时间成本,并且用户团体内的成员经常会发生变化,而人工标注方式难以做到及时更新,因此时效性较差,此外,由于在线社区的用户体量巨大,人工标注方式仅能覆盖用户团体中的部分成员,导致整体召回率偏低。
有鉴于此,本申请实施例提供一种数据处理方法,能够从海量的账号中挖掘出与种子账号属于同一账号群组的目标账号,也即挖掘出与核心用户属于同一用户团体的其他成员,这种大规模、自动化的挖掘方式,无需由技术人员进行人工标注,大大节约了人力和时间成本,且能够提升对用户团体成员的召回率,同时,自动化社团挖掘能够按照一定周期重复进行,不断更新用户团体名单,具有很好的时效性,下面进行详述。
图1是根据一示例性实施例示出的一种数据处理方法的实施环境示意图,参见图1,在该实施环境中可以包括终端101和服务器102,终端101和服务器102均为一种计算机设备,下面进行详述。
终端101可以是任一支持多媒体资源服务的电子设备,在终端101上安装有用于浏览多媒体资源的应用程序,该多媒体资源包括但不限于音频、视频、直播、短视频、资讯等,例如,该应用程序可以包括短视频应用、直播应用、音视频应用或者社交应用中的至少一项。用户在该应用程序中注册账号后,可以在该应用程序中登录该账号,并使用该账号发起互动行为,例如,发布自身的视频作品、评论他人的视频作品、给他人的视频作品点赞、关注他人的账号、在他人的直播间赠送虚拟物品、在评论中提及(@功能)他人的账号等。
终端101和服务器102可以通过有线网络或无线网络相连。
服务器102可以是用于为上述应用程序提供后台服务的电子设备,服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地,服务器102可以承担主要计算工作,终端101可以承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,终端101和服务器102两者之间采用分布式计算架构协同计算。
在一些实施例中,服务器102收集各个终端所对应的各个账号的互动行为,并从海量的账号中筛选出多个第一账号,基于多个第一账号的多种互动行为,构建多个账号关系图,接着,从第一账号中筛选出属于某个账号群组的第二账号,然后,对每个账号关系图,从该账号关系图所记录的账号与各个第二账号的交集中采样出种子账号,最后,基于图挖掘算法筛选出与种子账号属于同一账号群组的目标账号,并基于验证账号集计算精确率和召回率,迭代执行挖掘目标账号步骤,直到精确率和召回率符合停止迭代条件或迭代次数大于次数阈值时,输出最后一次迭代时挖掘得到的目标账号,从而能够实现大规模、自动化的账号群组内各个账号的挖掘工作(即账号群组所对应的用户团体的挖掘工作)。
可选地,终端101可以泛指多个终端中的一个,终端101的设备类型包括但不限于:车载终端、电视机、智能手机、智能音箱、平板电脑、电子书阅读器、MP3(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例,以终端101包括智能手机来进行举例说明。
本领域技术人员可以知晓,上述终端101的数量可以更多或更少。比如上述终端101可以仅为一个,或者上述终端101为几十个或几百个,或者更多数量。本公开实施例对终端101的数量和设备类型不加以限定。
图2是根据一示例性实施例示出的一种数据处理方法的流程图,参见图2,该数据处理方法由计算机设备执行,下面以计算机设备为服务器为例进行说明。
在步骤201中,服务器基于多个第一账号的互动行为,获取该互动行为对应的账号关系图,该账号关系图用于记录与该第一账号发生过该互动行为的账号,该第一账号的被动关联账号符合第一目标条件。
在步骤202中,服务器从多个该第一账号中,筛选得到多个第二账号,该第二账号与账号群组具有映射关系,该账号群组为具有目标社交关系的账号所构成的群组。
在步骤203中,服务器基于多个该第二账号和该账号关系图,从该账号关系图所包含的账号中,筛选得到至少一个目标账号,该目标账号的群组关联参数符合第二目标条件,该群组关联参数用于表征该目标账号与该账号群组具有映射关系的可能性。
本公开实施例提供的方法,通过根据第一账号的互动行为构建对应的账号关系图,并从第一账号中筛选出属于某个账号群组的第二账号,利用第二账号和该账号关系图,结合图挖掘技术,以从该账号关系图所包含的账号中,筛选得到与第二账号同属于该账号群组的目标账号,无需人工对各个账号进行群组标注,大大节约了识别账号群组的人力和时间成本,提高了从海量账号中识别出账号群组内各账号的效率。
在一种可能实施方式中,基于多个该第二账号和该账号关系图,从该账号关系图所包含的账号中,筛选得到至少一个目标账号包括:
基于多个该第二账号和该账号关系图,从多个该第二账号中筛选得到至少一个种子账号,该种子账号为该账号关系图中所记录的该第二账号;
基于各个种子账号,从该账号关系图中筛选得到至少一个第三账号,每个第三账号均与一个种子账号具有对应关系;
获取各个第三账号的群组关联参数,将群组关联参数符合该第二目标条件的第三账号确定为该目标账号。
在一种可能实施方式中,基于多个该第二账号和该账号关系图,从多个该第二账号中筛选得到至少一个种子账号包括:
获取该账号关系图所记录的账号与多个该第二账号之间的交集;
从该交集所包含的各个账号中,筛选得到至少一个该种子账号。
在一种可能实施方式中,从该交集所包含的各个账号中,筛选得到至少一个该种子账号包括:
基于该交集所包含的各个账号的关联账号数量,为各个账号分配权重参数,该权重参数用于表示各个账号被筛选为种子账号的可能性;
基于各个账号的权重参数,对各个账号进行抽样,得到至少一个该种子账号。
在一种可能实施方式中,该关联账号数量包括主动关联账号数量、被动关联账号数量和双向关联账号数量,不同类型的关联账号数量对应于不同的权重比例;
基于该交集所包含的各个账号的关联账号数量,为各个账号分配权重参数包括:
对该交集所包含的任一账号,获取该任一账号的主动关联账号数量、被动关联账号数量和双向关联账号数量;
将该主动关联账号数量、被动关联账号数量和双向关联账号数量分别与各自对应的权重比例相乘,将相乘所得的数值之间的和值确定为该任一账号的权重参数。
在一种可能实施方式中,响应于该交集中的任一账号曾被抽取为种子账号,将该任一账号的权重参数调低。
在一种可能实施方式中,获取各个第三账号的群组关联参数包括:
对任一该第三账号,基于该第三账号在该账号关系图中的度参数,获取该第三账号的第一关联参数,该度参数用于表示该账号关系图中与第三账号相连的边数,该第一关联参数用于表示该第三账号在该账号关系图中与该账号群组的关联程度;
基于该第三账号的账号特征,获取该第三账号的第二关联参数,该第二关联参数用于表示该第三账号的账号特征与该账号群组的关联程度;
基于该第一关联参数和该第二关联参数,获取该第三账号的群组关联参数。
在一种可能实施方式中,响应于该第三账号位于多个该账号关系图中,基于该第三账号在该账号关系图中的度参数,获取该第三账号的第一关联参数包括:
基于各个账号关系图中账号的度分布,对该第三账号在各个账号关系图中的度参数进行标准化,得到该第三账号的多个标准度参数;
基于各个账号关系图的关系图权重,对多个该标准度参数进行加权,得到多个加权度参数;
基于多个该加权度参数,获取该第三账号的该第一关联参数。
在一种可能实施方式中,基于多个该加权度参数,获取该第三账号的该第一关联参数包括:
获取多个该加权度参数之间的和值;
响应于该第三账号属于目标账号集,将该和值加一所得的数值确定为该第一关联参数,该目标账号集基于账号的文本信息筛选得到;
响应于该第三账号不属于该目标账号集,将该和值确定为该第一关联参数。
在一种可能实施方式中,该账号的文本信息包括账号的昵称信息和账号的简介信息,该目标账号集的筛选过程包括:
获取至少一个第一关键词,该第一关键词用于标识该账号群组;
基于至少一个该第一关键词,从多个该第一账号中筛选得到符合第三目标条件的该目标账号集。
在一种可能实施方式中,该第三目标条件为第一账号的昵称信息或者简介信息中的至少一项包含该第一关键词。
在一种可能实施方式中,该第二目标条件为在群组关联参数从大到小的排序中本账号位于前目标位。
在一种可能实施方式中,将群组关联参数符合该第二目标条件的第三账号确定为该目标账号之后,该方法还包括:
将多个该第二账号中除了该种子账号之外的账号获取为验证账号集;
获取该目标账号在该验证账号集中的精确率和召回率;
迭代执行筛选种子账号并获取目标账号的步骤,直到该精确率和召回率符合停止迭代条件。
在一种可能实施方式中,从多个该第一账号中,筛选得到多个第二账号包括:
获取至少一个第一关键词和至少一个第二关键词,该第一关键词用于标识该账号群组,该第二关键词用于标识该账号群组内不同账号之间的关系;
基于至少一个该第一关键词和至少一个该第二关键词,从多个该第一账号中筛选得到符合第四目标条件的多个该第二账号。
在一种可能实施方式中,该第四目标条件为第一账号的昵称信息和简介信息中均包含该第一关键词,且该简介信息中还包含该第二关键词。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图3是根据一示例性实施例示出的一种数据处理方法的流程图,如图3所示,数据处理方法由计算机设备执行,以计算机设备为服务器为例进行说明,该实施例包括以下步骤。
在步骤301中,服务器获取至少一个第一关键词和至少一个第二关键词,该第一关键词用于账号群组,该第二关键词用于标识该账号群组内的不同账号之间的关系。
其中,该账号群组为具有目标社交关系的账号所构成的群组,该目标社交关系包括但不限于下述至少一项:师徒关系、亲属关系、搭档关系、配偶关系、组合关系等。
其中,由于该第一关键词用于标识一个账号群组,换言之,该第一关键词也即能够标识不同账号群组之间的区别,因此该第一关键词也称为“团体关键词”,通常,具有团体归属的用户会在个人账号的昵称信息或者简介信息中,嵌入自身所属团体的名称或代号,以声明自身的团体性。
可选地,团体的名称或代号可以是中文、英文、数字等各类字符中至少一项的组合,例如,XX家族的关键词可以是“XX”、“X家”等,本公开实施例不对团体的名词或代号的形式进行具体限定。
其中,由于该第二关键词用于标识同一账号群组内不同账号之间的目标社交关系,因此该第二关键词也称为“关系关键词”,通常,具有团体归属的用户会在个人账号的简介信息中,通过关系关键词来显明自己在用户团体中的身份。
可选地,该目标社交关系包括但不限于师徒关系、夫妻关系、亲属关系、搭档关系等,以师徒关系为例,与师徒关系对应的第二关键词包括:“师父”、“师傅”、“sf”等,本公开实施例对此不进行具体限定。
在一些实施例中,服务器在数据库中存储有第一词典和第二词典,第一词典用于存储至少一个该第一关键词,第一词典也称为“团体关键词词典”,该第二词典用于存储至少一个该第一关键词,第二词典也称为“关系词典”。接着,服务器从该第一词典中读取各个第一关键词,并从该第二词典中读取各个第二关键词。
在一些实施例中,上述第一词典由技术人员根据业务经验进行定义,或者还可以由团队首领在平台信息录入界面中输入,第一词典中记录了一些已知的用户团体的常用名和代号,上述第二词典同样可以由技术人员根据业务经验进行定义,第二词典中记录了一些出现频率较高的第二关键词,本公开实施例对此不进行具体限定。
在上述过程中,通过构建不同的词典结构来分别存储第一关键词和第二关键词,有利于从第一账号中高效地筛选出潜在的、属于账号群组的第二账号,大大提高算法的执行效率,且方便了随机增加或者删除第一关键词或者第二关键词,具有良好地时效性。
在一些实施例中,服务器也可以不通过词典结构来存储该第一关键词或者第二关键词,而是直接存储该第一关键词或者第二关键词的字符串,这样能够简化数据处理流程。
在步骤302中,服务器基于至少一个该第一关键词,从多个第一账号中筛选得到符合第三目标条件的目标账号集。
其中,该目标账号集基于账号的文本信息筛选得到,该账号的文本信息包括账号的昵称信息和账号的简介信息。在一些实施例中,该账号的文本信息还可以包括用户发布的视频作品的作品介绍信息。
可选地,该第一账号的被动关联账号符合第一目标条件,该被动关联账号是指未经第一账号主动触发关联关系、且与该第一账号具有关联关系的账号,例如,该被动关联账号是指在平台内关注第一账号的账号(俗称为粉丝账号),可选地,该第一目标条件是指被动关联账号的数量大于粉丝量阈值,该粉丝量阈值可以由技术人员进行自定义设置(需要保证粉丝量阈值大于0),例如,该粉丝量阈值为1万。
在上述过程中,通过将第一账号设定为被动关联账号的数量大于粉丝量阈值的账号,相当于从平台内的海量账号中初步筛选出了一些流量价值较高的第一账号,然后再基于第一关键词从第一账号中进一步筛选出符合第一目标条件的目标账号集,此时能够提高目标账号集的筛选效率。
可选地,该第一账号还可以是平台内的所有账号,这样能够扩大目标账号集的数据容量和覆盖面,且能够简化目标账号集的筛选流程。
在一些实施例中,该第三目标条件为第一账号的昵称信息或者简介信息中的至少一项包含该第一关键词,换言之,第一账号的昵称信息中包含第一关键词、第一账号的简介信息中包含第一关键词、或者第一账号的昵称信息和简介信息中均包含第一关键词,以上三种情况均符合第三目标条件。
可选地,服务器可以获取每个第一账号的昵称信息和简介信息,对每个第一账号,遍历该第一账号的昵称信息和简介信息,如果该昵称信息或者简介信息中任一项命中了至少一个该第一关键词中的任一第一关键词,则将当前的该第一账号添加至目标账号集;否则,如果该昵称信息和简介信息均未命中至少一个该第一关键词中的所有第一关键词,则对下一个第一账号的昵称信息和简介信息执行上述检测操作,直到遍历所有的第一账号。
可选地,服务器还可以获取每个第一账号的昵称信息和简介信息,对每个第一账号,先遍历该第一账号的昵称信息,如果该昵称信息已经能够命中至少一个该第一关键词中的任一第一关键词,则直接将当前的该第一账号添加至目标账号集;否则,如果该昵称信息未命中至少一个该第一关键词中的所有第一关键词,则对下一个第一账号的昵称信息执行上述检测操作,直到第一次遍历完所有的第一账号。接着,服务器开始第二次遍历,也即遍历剩余的未添加到目标账号集的第一账号的简介信息,如果该简介信息能够命中至少一个该第一关键词中的任一第一关键词,则将当前的该第一账号添加至目标账号集;否则,如果该简介信息未命中至少一个该第一关键词中的所有第一关键词,则对下一个第一账号的简介信息执行上述检测操作,直到遍历所有的第一账号。
在一些实施例中,服务器也可以在第一次遍历中遍历所有第一账号的简介信息,在第二次遍历中遍历所有第一账号的昵称信息,本公开实施例不对此进行具体限定。
可选地,服务器还可以获取每个第一账号的昵称信息和简介信息,对每个第一账号,先遍历该第一账号的昵称信息,如果该昵称信息已经能够命中至少一个该第一关键词中的任一第一关键词,则直接将当前的该第一账号添加至目标账号集;否则,如果该昵称信息未命中至少一个该第一关键词中的所有第一关键词,再检测当前的第一账号的简介信息,如果该简介信息能够命中至少一个该第一关键词中的任一第一关键词,则仍然将当前的该第一账号添加至目标账号集;否则,如果该简介信息也未命中至少一个该第一关键词中的所有第一关键词,则对下一个第一账号的昵称信息和简介信息执行上述检测操作,直到遍历所有的第一账号。
可选地,服务器在获取每个第一账号的昵称信息和简介信息后,还可以将每个第一账号的昵称信息和简介信息合并成每个第一账号的文本信息,接下来对每个第一账号,遍历该第一账号的文本信息,如果该文本信息能够命中至少一个该第一关键词中的任一第一关键词,则将当前的该第一账号添加至目标账号集;否则,如果该文本信息均未命中至少一个该第一关键词中的所有第一关键词,则对下一个第一账号的文本信息执行上述检测操作,直到遍历所有的第一账号。
在上述步骤301-302中,示出了服务器对目标账号集的筛选过程,位于目标账号集中的各个账号,只需要在昵称信息或者简介信息中包含至少一个第一关键词即可,因此目标账号集也可以称为对第一账号筛选出的“宽松子集”,目标账号集可以用于在下述步骤3091中影响每个第三账号的第一关联参数,详细请参考下述步骤3091,这里不做赘述。
在步骤303中,服务器基于至少一个该第一关键词和至少一个该第二关键词,从多个该第一账号中筛选得到符合第四目标条件的多个第二账号。
可选地,该第一账号可以是平台内的所有账号,或者,该第一账号还可以是被动关联账号的数量大于粉丝量阈值的账号,本公开实施例对此不进行具体限定。
在一些实施例中,该第四目标条件为第一账号的昵称信息和简介信息中均包含该第一关键词,且该简介信息中还包含该第二关键词。
可选地,服务器可以获取每个第一账号的昵称信息和简介信息,对每个第一账号,遍历该第一账号的昵称信息和简介信息,如果该昵称信息和简介信息均命中了至少一个该第一关键词中的任一第一关键词,且该简介信息还命中了至少一个该第二关键词中的任一第二关键词,则将当前的该第一账号确定为一个第二账号;否则,如果该昵称信息或者简介信息中任一项未命中至少一个该第一关键词中的所有第一关键词,或者该简介信息未命中至少一个该第二关键词中的任一第二关键词,则对下一个第一账号的昵称信息和简介信息执行上述检测操作,直到遍历所有的第一账号。
可选地,服务器还可以在获取每个第一账号的昵称信息和简介信息后,对每个第一账号,先遍历该第一账号的昵称信息,如果该昵称信息能够命中至少一个该第一关键词中的任一第一关键词,则接着检测当前的该第一账号的简介信息,如果该简介信息能够命中至少一个该第一关键词中的任一第一关键词、且还能够命中至少一个该第二关键词中的任一第二关键词,则将当前的该第一账号确定为一个第二账号;否则,只要不满足上述任一情况(例如,昵称信息未命中至少一个该第一关键词中的任一第一关键词,或者,简介信息未命中至少一个该第一关键词中的任一第一关键词,或者,简介信息未命中至少一个该第二关键词中的任一第二关键词),则对下一个第一账号的昵称信息和简介信息执行上述检测操作,直到遍历所有的第一账号。
在上述过程中,通过第一关键词和第二关键词,能够从第一账号中筛选得到第二账号,第二账号需要在昵称信息和简介信息中同时包含至少一个第一关键词,且简介信息中还需包含至少一个第二关键词,因此第二账号所构成的集合也可以称为“严格子集”。
上述步骤302和303,相当于利用第一词典和第二词典对第一账号进行筛选,以分别得到宽松子集和严格子集的过程,词典筛选的目的是在众多的第一账号中,初步筛查出有较大可能属于某一账号群组的账号子集,在本公开实施例中,仅以获取单个账号群组的账号子集(包括宽松子集和严格子集)为例进行说明,对于多个账号群组中的每个账号群组只需执行类似筛选步骤,即可得到每个账号群组的账号子集,这里不做赘述。
进一步地,在下述步骤304中,可以利用严格子集(各个第二账号)来对全量用户的账号关系网络进行滚雪球采样,对每种互动行为以构建出对应的账号关系图,以降低算法的计算复杂度,而宽松子集则用于在下述步骤3091中影响每个第三账号的第一关联参数,以提高第一关联参数的可信度,需要说明的是,本公开实施例仅以针对一种互动行为建模出一张账号关系图,并在这一张账号关系图中筛选出目标账号为例进行说明,而在实际应用中通常每个第一账号会发生多种(即不止一种)互动行为,只需对每种互动行为执行类似的操作即可得到多个账号关系图,并可以针对每个账号关系图独立筛选出各个目标账号,这里不做赘述。
上述步骤301-303中,相当于从多个该第一账号中,筛选得到多个第二账号的过程,其中,该第二账号与账号群组具有映射关系,该账号群组是指该第一关键词所唯一标识的一个指定的账号群组,也即从海量的第一账号中,针对一个指定的账号群组,筛选出具有较大可能属于该账号群组的各个第二账号。
在步骤304中,服务器基于多个该第一账号的互动行为,获取该互动行为对应的账号关系图,该账号关系图用于记录与该第一账号发生过该互动行为的账号。
可选地,该互动行为包括但不限于:双向关注行为、相互提及(@功能)行为、直播间赠送虚拟物品行为(例如赠送虚拟物品数量位于前10名、赠送虚拟物品金额位于前10名等)、相互评论行为、相互点赞行为等,本公开实施例不对互动行为的种类及数量进行具体限定。
在一些实施例中,服务器获取多个该第一账号在历史时间段内发生的多种互动行为,例如,该历史时间段为账号注册时开始至今,或者,该历史时间段为最近的一个月等,本公开实施例不对该历史时间段进行具体限定。由于有部分第一账号有可能发生了一种互动行为,但未发生另一种互动行为,此时可以将未发生的该另一种互动行为设置为空(NULL)或者0,代表第二账号未执行当前的互动行为。
在一些实施例中,服务器针对每一种互动行为,独立构建一个与该互动行为对应的账号关系网,在每个账号关系网中包括多个节点,每个节点代表一个账号,每个节点至少与另一个或者多个节点相连,相连的节点之间的连线称为边,每条边代表边的两端的节点所代表的账号之间产生过对应的互动行为,不相连的节点之间不存在边,也即不相连的节点所代表的账号之间没有产生过对应的互动行为。
在一个示例性实施例中,以一个指定的互动行为为例进行说明,该指定的互动行为可以是第一账号所产生过的任一种互动行为。服务器利用上述步骤303中筛选出的多个该第二账号(即严格子集),在多个该第一账号所构建的、与该互动行为对应的全量的账号关系网上进行滚雪球采样,以采样得到该互动行为所对应的账号关系图。
可选地,服务器获取多个该第二账号在该历史时间段内发生的该互动行为,在该互动行为所对应的全量的账号关系网中,对于每个第二账号,获取与该第二账号直接相连的节点,也即获取曾经与该第二账号产生过该互动行为的账号,这一过程称为第一层采样,相当于采样到每个第二账号的“一度好友”,接着,对于上述第一层采样中获取的各个节点,再次获取与各个节点直接相连的其他节点,这些其他节点相当于通过第一层采样到的节点与该第二账号间接相连,换言之,对于曾经与该第二账号产生过该互动行为的账号,再次获取曾经与该账号产生过该互动行为的其他账号,这一过程称为第二层采样,相当于采样到每个第二账号的“二度好友”(也即好友的好友),上述过程,也即利用第二账号(也即严格子集)对全量用户的账号关系网络进行滚雪球采样,每个第二账号向下采样两层,且对每种互动行为独立采样,即可构建出对应的账号关系图。
需要说明的是,上述构建账号关系图的过程仅以针对第二账号向下采样2层为例进行说明,可选地,也可以针对第二账号向下采样1层、3层或者其他任意层数,本公开实施例对此不进行具体限定。
在一个示例性场景中,服务器可以预先选择一些核心用户(例如第一账号所对应的用户)的账号社交关系,构造一个网络邻接表,且针对每种互动行为构建一张单独的网络邻接表,接着在上述网络邻接表所记录的互动行为的基础上,针对每个第二账号的每种互动行为,在对应的网络邻接表中进行滚雪球采样,得到对应的账号关系图,假设共存在N种互动行为,则服务器对每种互动行为独立进行采样,生成N个账号关系图:G1、G2、……、GN,从而能够节约服务器的计算资源。
在步骤305中,服务器获取该账号关系图所记录的账号与多个该第二账号之间的交集。
在一些实施例中,由于在挖掘账号群组时,需要锚定一个或多个种子账号,而种子账号需要既属于第二账号、又在该账号关系图中出现过,这样能够避免由于种子账号未发生该互动行为、导致该账号关系图中不包含种子账号时,所造成的削弱了采集到的该账号关系图的利用价值,从而能够提升数据利用率。
在一些实施例中,服务器遍历该账号关系图中的每个节点,如果任一节点属于第二账号,则将该节点添加至该交集,否则继续遍历该账号关系图中的下一个节点,直到遍历完该账号关系图中的所有节点,得到上述步骤305中所涉及的该交集。
在一些实施例中,服务器获取该账号关系图中的所有节点所构成的账号节点集,并将该账号节点集与各个第二账号所构成的严格子集之间求交集,得到上述步骤305所涉及的该交集。
在步骤306中,服务器基于该交集所包含的各个账号的关联账号数量,为各个账号分配权重参数,该权重参数用于表示各个账号被筛选为种子账号的可能性。
其中,账号的关联账号数量包括下述至少一项:主动关联账号数量(俗称为单向关注量)、被动关联账号数量(俗称为粉丝量)、双向关联账号数量(俗称为双向关注量),不同类型的关联账号数量对应于不同的权重比例,本公开实施例对此不进行具体限定。
可选地,对该交集所包含的任一账号,服务器获取该任一账号的主动关联账号数量、被动关联账号数量和双向关联账号数量,将该主动关联账号数量、被动关联账号数量和双向关联账号数量分别与各自对应的权重比例相乘,将相乘所得的数值之间的和值确定为该任一账号的权重参数。
在一个示例性实施例中,服务器获取该任一账号的粉丝量、双向关注量和单项关注量,接着,对该任一账号的粉丝量、双向关注量和单向关注量进行标准化,然后按照各自对应的权重比例分别对该任一账号的粉丝量、双向关注量和单向关注量进行加权求和,得到该任一账号的权重参数。
在一些实施例中,上述权重比例可以是粉丝量:双向关注量:单向关注量=3:2:1,当然,上述权重比例还可以是粉丝量:双向关注量:单向关注量=5:3:1,本公开实施例不对上述权重比例的取值进行具体限定。
在步骤307中,服务器基于各个账号的权重参数,对各个账号进行抽样,得到至少一个种子账号。
在一些实施例中,服务器按照各个账号的权重参数,对各个第二账号进行加权随机抽样,可选地,在加权随机抽样过程中,可以采取有放回的抽样,也可以采取无放回的抽样,并在设定了种子账号的账号数量之后,可以从该交集中基于加权随机抽样算法,选取出该账号数量个种子账号。
例如,该加权随机抽样算法为蓄水池算法,或者,该加权随机抽样算法还可以是A-Res算法,本公开实施例对此不进行具体限定。例如,该账号数量是任一大于或等于1的数值,例如,该账号数量为3个。
在上述过程中,相当于从严格子集和上述步骤304中滚雪球采样得到的节点集取交集,并在此交集中抽取种子账号。在一些实施例中,服务器对所有的账号关系图,从此交集中抽取同一组种子账号,也即,不同的账号关系图对应于相同的种子账号,此时需要保证种子账号在每种互动行为所对应的每个账号关系图中均出现过,或者,服务器对每一个账号关系图,从此交集中独立抽取不同的多组种子账号,也即,不同的账号关系图对应于不同的种子账号,本公开实施例对此不进行具体限定。
在上述步骤306-307中,示出了服务器从该交集所包含的各个账号中,筛选得到至少一个该种子账号的一种可能实施方式,在一些实施例中,也可以不按照加权随机抽样的方式,而是直接人工指定交集中的一个或多个账号为种子账号,以简化抽取种子账号的流程,本公开实施例不对此进行具体限定。
在上述过程中,服务器基于多个该第二账号和该账号关系图,从该多个第二账号中筛选得到至少一个该种子账号,该种子账号为该账号关系图中所记录的该第二账号。需要说明的是,上述种子账号是后续账号群组内目标账号的挖掘步骤的关键节点,后续将以种子账号所在的种子节点为中心,挖掘与种子节点之间关系密切的各个目标账号,因此种子账号必须包含在该账号关系图中,且种子账号需要同时也是第二账号。
在步骤308中,服务器基于各个种子账号,从该账号关系图中筛选得到至少一个第三账号,每个第三账号均与一个种子账号具有对应关系。
在一些实施例中,服务器可以基于ACL(Anderson-Chung-Lang Algorithm,安德森-钟-郎)社团挖掘算法,对任一种子账号,从该账号关系图中获取与该任一种子账号对应的至少一个第三账号,其中,ACL算法是一种基于PPR(Personal PageRank,个性化网页排名)的局部社团挖掘算法。
可选地,对任一种子账号,服务器获取该账号关系图的邻接矩阵,对该账号关系图,基于PPR(Personal PageRank,个性化网页排名)算法,获取该任一种子账号在该账号关系图的邻接矩阵中的PPR向量,该PPR向量用于衡量该任一种子账号与该账号关系图中所有其他账号节点中的连通程度,即,从该任一种子账号出发,在该账号关系图中随机游走至所有其他账号节点的概率。接着根据该任一种子账号的PPR向量执行Sweep Cut(扫描分割)算法,筛选出与该任一种子账号连接紧密的节点集合(CommunitV),对每个种子账号重复执行上述步骤,直到遍历完所有的种子账号。最后,将所有种子账号所挖掘出来的节点集合求并集,并在该并集中去除掉重复节点后,即可得到最终社团挖掘算法所输出的挖掘结果(也即至少一个该第三账号)。
在一个示例性实施例中,在存在多个账号关系图的情况下,对每个账号关系图独立进行挖掘,上述ACL社团挖掘算法可以表示为如下伪代码:
符号:账号群组序号t,账号关系图序号i,种子账号序号j。
输入:账号群组t的种子账号sjt(j=1,2,3),账号关系图Gi的邻接矩阵Ait。输出:账号关系图Gi上的账号群组Communityit
算法开始
步骤1:计算种子账号sjt在邻接矩阵Ait上的PPR向量,记作PPRijt
步骤2:根据PPRijt向量执行sweep cut算法,选出与种子账号sjt连接紧密的节点集合Communityijt
步骤3:重复步骤1和2,直到遍历完所有的种子账号。
步骤4:将所有种子账号的Communityijt合并,去除重复节点后,得到账号群组t在账号关系图Gi上的社团挖掘结果Communityit
算法结束
针对上述算法进行分析,本公开实施例仅以针对单个给定的账号群组,对单个账号关系图进行挖掘的过程为例进行说明,而对于同一给定的账号群组t,如果基于N种互动行为建模了N个账号关系图,在针对N个账号关系图分别独立进行挖掘后,能够得到N个社团挖掘结果,即,针对每个账号群组在每张账号关系图上均能挖掘出至少一个该第三账号,最终输出的是N个账号关系图上挖掘得到的N个社团挖掘结果的并集,即Communityit(i=1,2,3,...,N)。其中,N为大于或等于1的整数。
在步骤309中,服务器获取各个第三账号的群组关联参数,将群组关联参数符合第二目标条件的第三账号确定为目标账号。
其中,该目标账号的群组关联参数符合该第二目标条件,该群组关联参数用于表征目标账号与该账号群组具有映射关系的可能性,换言之,该群组关联参数用于表征目标账号与种子账号属于同一账号群组的可能性。
以下,将对群组关联参数的获取过程进行详细说明。
可选地,对至少一个该第三账号中的任一第三账号,服务器在获取该任一第三账号的群组关联参数时,可以先获取该任一第三账号的第一关联参数,再获取该任一第三账号的第二关联参数,再结合该第一关联参数和该第二关联参数,获取该任一第三账号的群组关联参数。
图4是本公开实施例提供的一种获取群组关联参数的流程图,请参考图4,对至少一个该第三账号中的任一第三账号,服务器获取该任一第三账号的群组关联参数时包括下述步骤3091-3093。
在步骤3091中,服务器基于任一第三账号在该账号关系图中的度参数,获取该第三账号的第一关联参数。
其中,该度参数用于表示该账号关系图中与第三账号相连的边数。
其中,该第一关联参数用于表示该第三账号在该账号关系图中与该账号群组的关联程度,换言之,该第一关联参数用于表征基于该账号关系图对该第三账号是否为目标账号的预测评分。
在一些实施例中,响应于该第三账号位于多个该账号关系图中,服务器可以基于各个账号关系图中账号的度分布,对该第三账号在各个账号关系图中的度参数进行标准化,得到该第三账号的多个标准度参数;基于各个账号关系图的关系图权重,对多个该标准度参数进行加权,得到多个加权度参数;基于多个该加权度参数,获取该第三账号的该第一关联参数。
可选地,由于每个账号关系图中不同节点具有不同的度参数,所有节点的度参数所服从的分布称为度分布,对每个账号关系图根据度分布,能够对度参数进行标准化,得到标准度参数。标准化的过程也即正则化(或者归一化)的过程,使得标准度参数转化为一个0到1之间的数值。
可选地,服务器可以为每个账号关系图分配一个关系图权重,不同账号关系图的关系图权重可以相同也可以不同,例如,服务器为每种账号关系图分配等权重,或者,也可以由技术人员人工配置不同的关系图权重,本公开实施例对此不进行具体限定。
在获取各个账号关系图的关系图权重后,即可按照各个账号关系图的关系图权重,对该第三账号各自的标准度参数进行加权,得到对应的各个加权度参数。
在一些实施例中,服务器可以将各个加权度参数之间的和值确定为第一关联参数,这样能够简化第一关联参数的获取流程。
在一些实施例中,服务器还可以获取该多个加权度参数之间的和值;响应于该第三账号属于目标账号集,将该和值加一所得的数值确定为该第一关联参数,该目标账号集基于账号的文本信息筛选得到;响应于该第三账号不属于该目标账号集,将该和值确定为该第一关联参数。
也即是说,在获取各个加权度参数的和值的基础上,如果该第三账号位于上述步骤302获取的目标账号集中,则相当于为该第三账号的投票再加一,赋予该第三账号更大的第一关联参数,否则,仍以和值作为第一关联参数,这样能够利用宽松子集(目标账号集)对第一关联参数进行精细化的修正和调整,提升第一关联参数的准确度。
上述获取每个第三账号的第一关联参数的过程,也即对每个第三账号进行加权投票的过程,对于给定的账号群组t,在将N个账号关系图挖掘出的N个社团取并集之后,投票规则可以表示为下述规则:
1)对每个账号关系图分配一个关系图权重,默认为等权重,也可人工指定,关系图权重记作
Figure BDA0003069983430000251
2)对每个社团挖掘结果Communityit中账号的度分布进行标准化处理,第三账号j在N个社团挖掘结果中经过标准化的标准度参数记作degreeij,其中,degreeij∈[0,1];
3)用上述步骤302获取的宽松子集(即目标账号集)对上述所有第三账号进行筛查,若第三账号在宽松子集内,则得票+1;
4)第三账号j的得票为:
Figure BDA0003069983430000261
其中,1(in relax set)为示性函数,当第三账号j在宽松子集内时,1(in relax set)=1。
经过投票后,每个第三账号得到了一个评分(即得票),在对各个第三账号的评分经过标准化后,将这个标准化后的评分称为第一关联参数,也称为结构性评分参数,记作Str_Scorej
在步骤3092中,服务器基于该第三账号的账号特征,获取该第三账号的第二关联参数。
其中,该第二关联参数用于表示该第三账号的账号特征与该账号群组的关联程度,换言之,该第二关联参数用于表示基于该账号特征对该第三账号是否为目标账号的预测评分。
可选地,该第三账号的账号特征包括该第三账号的属性特征和该第三账号的行为特征。
在一些实施例中,由于账号群组内的目标账号所对应的用户通常是一些网络红人,会具有相对固定的内容产出和个人营销行为,因此目标账号的行为特征会与其他账号的行为特征具有区别,因此可以从账号特征的维度,对每个第三账号再次进行评估,以评估每个第三账号为目标账号的可能性。
在一些实施例中,对任一第三账号,服务器获取该第三账号的属性特征:粉丝量、单向关注量、双向关注量等,并获取该第三账号的行为特征:过去一周上传的作品量、过去一周的直播时长、过去一周的送礼金额、过去一周送出的点赞数、过去一周送出的评论数等。
可选地,服务器对上述属性特征和上述行为特征进行one-hot(独热)编码或者embedding(嵌入)编码,能够得到该第三账号的账号特征。可选地,服务器将所有账号的账号特征存储在账号特征库中,然后根据每个第三账号的账号标识,从账号特征库中读取每个第三账号的账号特征。
可选地,服务器将每个第三账号的账号特征输入预先训练好的逻辑回归模型,通过该逻辑回归模型来预测“每个第三账号是目标账号”的概率,这一概率也即第二关联参数,可以称之为倾向性评分参数,记作Prop_Scorej。可选地,上述逻辑回归模型也即是一个二分类模型,用于对输入的第三账号进行分类,输出第三账号是目标账号的概率。
在步骤3093中,服务器基于该第一关联参数和该第二关联参数,获取该第三账号的群组关联参数。
在一些实施例中,服务器可以将该第一关联参数和该第二关联参数之间的算术平均值获取为该群组关联参数,或者,服务器还可以将该第一关联参数和该第二关联参数之间的加权平均值获取为该群组关联参数,参数权重由技术人员进行指定,或者,服务器还可以将该第一关联参数和该第二关联参数之间的几何平均值获取为该群组关联参数,本公开实施例对此不进行具体限定。
在一个示例性实施例中,以群组关联参数为算术平均值为例,则群组关联参数Scorej可以表示为:
Figure BDA0003069983430000271
在通过上述步骤3091-3093,获取到各个第三账号的群组关联参数之后,即可基于各个第三账号的群组关联参数,筛选出群组关联参数符合第二目标条件的目标账号。
可选地,该第二目标条件为在群组关联参数从大到小的排序中本账号位于前目标位,或者,该第二目标条件为群组关联参数大于评分阈值,该评分阈值为任一大于或等于0的数值,或者,该第二目标条件为在群组关联参数从大到小的排序中本账号位于前目标比例。
在一些实施例中,服务器可以按照群组关联参数从大到小的顺序,对各个第三账号进行排序,将排序位于前目标位的第三账号确定为该目标账号;可选地,服务器还可以将群组关联参数大于评分阈值的第三账号确定为该目标账号;可选地,服务器还可以按照群组关联参数从大到小的顺序,对各个第三账号进行排序,将排序位于前目标比例的第三账号确定为该目标账号,本公开实施例对此不进行具体限定。其中,该目标比例可以根据业务需求来进行划定,但需要保证目标比例大于0且小于1。
在一个示例性实施例中,服务器将各个第三账号按照群组关联参数从大到小的顺序进行排序,并按照业务需求划定目标比例,来决定最终输出的目标账号的数量,可选地,该目标比例为经验值0.3,此时服务器输出排序位于前30%的第三账号作为最终筛选出的至少一个该目标账号。
在上述步骤304-309中,服务器基于多个该第二账号和该账号关系图,从该账号关系图所包含的账号中,筛选得到至少一个目标账号。可选地,服务器可以直接输出至少一个该目标账号,或者,服务器还可以通过执行下述步骤310-312,多次迭代并对目标账号进行更新,以最终一次迭代过程输出的目标账号为准,本公开实施例对此不进行具体限定。
在步骤310中,服务器将多个该第二账号中除了该种子账号之外的账号获取为验证账号集。
可选地,服务器在多个该第二账号所构成的严格子集中,删除本次选取的至少一个种子账号,将剩余的第二账号构成验证账号集,该验证账号集用于检测账号群组的识别效果。
在步骤311中,服务器获取目标账号在该验证账号集中的精确率和召回率。
其中,精确率是指预测得到的目标账号中有多少是属于该验证账号集的,假设将预测得到的目标账号且属于该验证账号集的称为正类(TP),将预测得到的目标账号且不属于该验证账号集的称为负类(FP),那么精确率P可以表示为P=TP/(TP+FP)。
其中,召回率是指该验证账号集中的第二账号有多少被正确预测为了目标账号,假设将验证账号集中的第二账号预测为目标账号的称为正类(TP),将验证账号集中的第二账号没有被预测为目标账号的称为负类(FN),那么召回率R可以表示为R=TP/(TP+FN)。
在步骤312中,服务器迭代执行筛选种子账号并获取目标账号的步骤,直到该精确率和召回率符合停止迭代条件。
可选地,如果精确率和召回率不符合停止迭代条件,那么服务器迭代执行上述步骤306-311,也即重新选取种子账号并获取目标账号,直到精确率和召回率符合停止迭代条件,或者迭代次数符合停止迭代条件时,停止迭代。
可选地,该停止迭代条件包括精确率和召回率均小于0.1,或者,该停止迭代条件为迭代次数超过次数阈值,该次数阈值大于或等于1,本公开实施例对此不进行具体限定。
可选地,服务器在迭代过程中,还可以对上述步骤306中为交集内的各个账号分配的权重参数进行更新,更新逻辑包括:响应于该交集中的任一账号曾被抽取为种子账号,将该任一账号的权重参数调低,例如,将该任一账号的权重参数修改为原有权重参数的二分之一。
也即是说,权重参数的更新逻辑可以表示为如下公式:
Figure BDA0003069983430000291
其中,wj′为更新后的权重参数,wj为原有的权重参数。
在一些实施例中,当精确率和召回率中任一项大于或等于0.1,停止迭代,将最后一次迭代时的挖掘结果输出为最终的挖掘结果,或者迭代次数超过次数阈值时,停止迭代,由于停止迭代时还未挖掘到理想结果,可以直接将严格子集中的各个第二账号,按照逻辑回归模型输出的第二关联参数进行排序后,将排序位于前目标比例的第二账号输出最终的挖掘结果。
在一些实施例中,上述迭代过程可能会出现异常,主要包括词典筛选异常和网络采样异常,下面进行分析。
1)词典筛选失败:当严格子集中第二账号的数量小于3时,将无法从中筛选出种子账号,为了保证自动迭代检查能够正常执行,则要求严格子集中第二账号的数量至少为5个,若严格子集中第二账号的数量小于5个,则算法报异常,此时异常原因可能是词典过期或设置不合理,报错提示信息可以设置为“严格子集中第二账号的数量小于3,请检查词典”,并跳过当前账号群组,对下一个账号群组进行挖掘。
2)网络采样异常:若严格子集与当前账号关系图所包含的账号的交集中的账号数量小于3,将无法从中选出种子账号,算法报异常,并将输出报错提示信息“候选种子账号数量小于3,当前账号关系图规模过小,挖掘失败”,并跳过当前账号关系图,在下一个账号关系图上进行该账号群组的挖掘。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本公开实施例提供的方法,通过根据第一账号的互动行为构建对应的账号关系图,并从第一账号中筛选出属于某个账号群组的第二账号,利用第二账号和该账号关系图,结合图挖掘技术,以从该账号关系图所包含的账号中,筛选得到与第二账号同属于该账号群组的目标账号,无需人工对各个账号进行群组标注,大大节约了识别账号群组的人力和时间成本,提高了从海量账号中识别出账号群组内各账号的效率。
在上述过程中,该数据处理方法可以对平台的账号群组进行有效挖掘,与人工标注数据集相比,算法识别的精确率达到82%,召回率达到135%。召回率超过100%,是由于在实验中采用的人工标注数据集对账号群组成员的标记有遗漏,而应用此方法找出了遗漏的群组成员。由此可见,此方法可以大大减少人工标注的工作量,同时更加全面地反映账号群组的成员结构。利用此方法,可以将挖掘出的账号群组所对应的用户团体信息,用于推荐、搜索、舆情等业务领域,同时也为用户团体、网红家族相关的运营与商业分析工作提供了基础信息支撑。
图5是根据一示例性实施例示出的一种数据处理装置的逻辑结构框图,请参考图5,该装置包括:
第一获取单元501,被配置为执行基于多个第一账号的互动行为,获取该互动行为对应的账号关系图,该账号关系图用于记录与该第一账号发生过该互动行为的账号,该第一账号的被动关联账号符合第一目标条件;
第一筛选单元502,被配置为执行从多个该第一账号中,筛选得到多个第二账号,该第二账号与账号群组具有映射关系,该账号群组为具有目标社交关系的账号所构成的群组;
第二筛选单元503,被配置为执行基于多个该第二账号和该账号关系图,从该账号关系图所包含的账号中,筛选得到至少一个目标账号,该目标账号的群组关联参数符合第二目标条件,该群组关联参数用于表征该目标账号与该账号群组具有映射关系的可能性。
本公开实施例提供的装置,通过根据第一账号的互动行为构建对应的账号关系图,并从第一账号中筛选出属于某个账号群组的第二账号,利用第二账号和该账号关系图,结合图挖掘技术,以从该账号关系图所包含的账号中,筛选得到与第二账号同属于该账号群组的目标账号,无需人工对各个账号进行群组标注,大大节约了识别账号群组的人力和时间成本,提高了从海量账号中识别出账号群组内各账号的效率。
在一种可能实施方式中,基于图5的装置组成,该第二筛选单元503包括:
第一筛选子单元,被配置为执行基于多个该第二账号和该账号关系图,从多个该第二账号中筛选得到至少一个种子账号,该种子账号为该账号关系图中所记录的该第二账号;
第二筛选子单元,被配置为执行基于各个种子账号,从该账号关系图中筛选得到至少一个第三账号,每个第三账号均与一个种子账号具有对应关系;
获取确定子单元,被配置为执行获取各个第三账号的群组关联参数,将群组关联参数符合该第二目标条件的第三账号确定为该目标账号。
在一种可能实施方式中,基于图5的装置组成,该第一筛选子单元包括:
第一获取子子单元,被配置为执行获取该账号关系图所记录的账号与多个该第二账号之间的交集;
筛选子子单元,被配置为执行从该交集所包含的各个账号中,筛选得到至少一个该种子账号。
在一种可能实施方式中,基于图5的装置组成,该筛选子子单元包括:
分配子子子单元,被配置为执行基于该交集所包含的各个账号的关联账号数量,为各个账号分配权重参数,该权重参数用于表示各个账号被筛选为种子账号的可能性;
抽样子子子单元,被配置为执行基于各个账号的权重参数,对各个账号进行抽样,得到至少一个该种子账号。
在一种可能实施方式中,该关联账号数量包括主动关联账号数量、被动关联账号数量和双向关联账号数量,不同类型的关联账号数量对应于不同的权重比例;
该分配子子子单元被配置为执行:
对该交集所包含的任一账号,获取该任一账号的主动关联账号数量、被动关联账号数量和双向关联账号数量;
将该主动关联账号数量、被动关联账号数量和双向关联账号数量分别与各自对应的权重比例相乘,将相乘所得的数值之间的和值确定为该任一账号的权重参数。
在一种可能实施方式中,该分配子子子单元还被配置为执行:
响应于该交集中的任一账号曾被抽取为种子账号,将该任一账号的权重参数调低。
在一种可能实施方式中,基于图5的装置组成,该获取确定子单元包括:
第二获取子子单元,被配置为执行对任一该第三账号,基于该第三账号在该账号关系图中的度参数,获取该第三账号的第一关联参数,该度参数用于表示该账号关系图中与第三账号相连的边数,该第一关联参数用于表示该第三账号在该账号关系图中与该账号群组的关联程度;
第三获取子子单元,被配置为执行基于该第三账号的账号特征,获取该第三账号的第二关联参数,该第二关联参数用于表示该第三账号的账号特征与该账号群组的关联程度;
第四获取子子单元,被配置为执行基于该第一关联参数和该第二关联参数,获取该第三账号的群组关联参数。
在一种可能实施方式中,响应于该第三账号位于多个该账号关系图中,基于图5的装置组成,该第二获取子子单元包括:
标准化子子子单元,被配置为执行基于各个账号关系图中账号的度分布,对该第三账号在各个账号关系图中的度参数进行标准化,得到该第三账号的多个标准度参数;
加权子子子单元,被配置为执行基于各个账号关系图的关系图权重,对多个该标准度参数进行加权,得到多个加权度参数;
获取子子子单元,被配置为执行基于多个该加权度参数,获取该第三账号的该第一关联参数。
在一种可能实施方式中,该获取子子子单元被配置为执行:
获取多个该加权度参数之间的和值;
响应于该第三账号属于目标账号集,将该和值加一所得的数值确定为该第一关联参数,该目标账号集基于账号的文本信息筛选得到;
响应于该第三账号不属于该目标账号集,将该和值确定为该第一关联参数。
在一种可能实施方式中,该账号的文本信息包括账号的昵称信息和账号的简介信息,该目标账号集的筛选过程包括:
获取至少一个第一关键词,该第一关键词用于标识该账号群组;
基于至少一个该第一关键词,从多个该第一账号中筛选得到符合第三目标条件的该目标账号集。
在一种可能实施方式中,该第三目标条件为第一账号的昵称信息或者简介信息中的至少一项包含该第一关键词。
在一种可能实施方式中,该第二目标条件为在群组关联参数从大到小的排序中本账号位于前目标位。
在一种可能实施方式中,基于图5的装置组成,该装置还包括:
第二获取单元,被配置为执行将多个该第二账号中除了该种子账号之外的账号获取为验证账号集;
第三获取单元,被配置为执行获取该目标账号在该验证账号集中的精确率和召回率;
迭代单元,被配置为执行迭代执行筛选种子账号并获取目标账号的步骤,直到该精确率和召回率符合停止迭代条件。
在一种可能实施方式中,该第一筛选单元502被配置为执行:
获取至少一个第一关键词和至少一个第二关键词,该第一关键词用于标识该账号群组,该第二关键词用于标识该账号群组内不同账号之间的关系;
基于至少一个该第一关键词和至少一个该第二关键词,从多个该第一账号中筛选得到符合第四目标条件的多个该第二账号。
在一种可能实施方式中,该第四目标条件为第一账号的昵称信息和简介信息中均包含该第一关键词,且该简介信息中还包含该第二关键词。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该数据处理方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6示出了本公开一个示例性实施例提供的一种计算机设备的结构框图。如图6所示,以计算机设备为终端600为例进行说明,该终端600可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本公开中各个实施例提供的数据处理方法。
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,由处理器601根据用户对触摸显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是本公开实施例提供的一种计算机设备的结构示意图,该计算机设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(CentralProcessing Units,CPU)701和一个或一个以上的存储器702,其中,该存储器702中存储有至少一条程序代码,该至少一条程序代码由该处理器701加载并执行以实现上述各个实施例提供的数据处理方法。当然,该计算机设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备700还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括至少一条指令的计算机可读存储介质,例如包括至少一条指令的存储器,上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的数据处理方法。可选地,上述计算机可读存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,包括一条或多条指令,该一条或多条指令可以由计算机设备的处理器执行,以完成上述各个实施例提供的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
基于多个第一账号的互动行为,获取所述互动行为对应的账号关系图,所述账号关系图用于记录与所述第一账号发生过所述互动行为的账号,所述第一账号的被动关联账号符合第一目标条件;
从多个所述第一账号中,筛选得到多个第二账号,所述第二账号与账号群组具有映射关系,所述账号群组为具有目标社交关系的账号所构成的群组;
基于多个所述第二账号和所述账号关系图,从所述账号关系图所包含的账号中,筛选得到至少一个目标账号,所述目标账号的群组关联参数符合第二目标条件,所述群组关联参数用于表征所述目标账号与所述账号群组具有映射关系的可能性。
2.根据权利要求1所述的方法,其特征在于,所述基于多个所述第二账号和所述账号关系图,从所述账号关系图所包含的账号中,筛选得到至少一个目标账号包括:
基于多个所述第二账号和所述账号关系图,从多个所述第二账号中筛选得到至少一个种子账号,所述种子账号为所述账号关系图中所记录的所述第二账号;
基于各个种子账号,从所述账号关系图中筛选得到至少一个第三账号,每个第三账号均与一个种子账号具有对应关系;
获取各个第三账号的群组关联参数,将群组关联参数符合所述第二目标条件的第三账号确定为所述目标账号。
3.根据权利要求2所述的方法,其特征在于,所述基于多个所述第二账号和所述账号关系图,从多个所述第二账号中筛选得到至少一个种子账号包括:
获取所述账号关系图所记录的账号与多个所述第二账号之间的交集;
从所述交集所包含的各个账号中,筛选得到至少一个所述种子账号。
4.根据权利要求3所述的方法,其特征在于,所述从所述交集所包含的各个账号中,筛选得到至少一个所述种子账号包括:
基于所述交集所包含的各个账号的关联账号数量,为各个账号分配权重参数,所述权重参数用于表示各个账号被筛选为种子账号的可能性;
基于各个账号的权重参数,对各个账号进行抽样,得到至少一个所述种子账号。
5.根据权利要求2所述的方法,其特征在于,所述获取各个第三账号的群组关联参数包括:
对任一所述第三账号,基于所述第三账号在所述账号关系图中的度参数,获取所述第三账号的第一关联参数,所述度参数用于表示所述账号关系图中与第三账号相连的边数,所述第一关联参数用于表示所述第三账号在所述账号关系图中与所述账号群组的关联程度;
基于所述第三账号的账号特征,获取所述第三账号的第二关联参数,所述第二关联参数用于表示所述第三账号的账号特征与所述账号群组的关联程度;
基于所述第一关联参数和所述第二关联参数,获取所述第三账号的群组关联参数。
6.根据权利要求5所述的方法,其特征在于,响应于所述第三账号位于多个所述账号关系图中,所述基于所述第三账号在所述账号关系图中的度参数,获取所述第三账号的第一关联参数包括:
基于各个账号关系图中账号的度分布,对所述第三账号在各个账号关系图中的度参数进行标准化,得到所述第三账号的多个标准度参数;
基于各个账号关系图的关系图权重,对多个所述标准度参数进行加权,得到多个加权度参数;
基于多个所述加权度参数,获取所述第三账号的所述第一关联参数。
7.一种数据处理装置,其特征在于,包括:
第一获取单元,被配置为执行基于多个第一账号的互动行为,获取所述互动行为对应的账号关系图,所述账号关系图用于记录与所述第一账号发生过所述互动行为的账号,所述第一账号的被动关联账号符合第一目标条件;
第一筛选单元,被配置为执行从多个所述第一账号中,筛选得到多个第二账号,所述第二账号与账号群组具有映射关系,所述账号群组为具有目标社交关系的账号所构成的群组;
第二筛选单元,被配置为执行基于多个所述第二账号和所述账号关系图,从所述账号关系图所包含的账号中,筛选得到至少一个目标账号,所述目标账号的群组关联参数符合第二目标条件,所述群组关联参数用于表征所述目标账号与所述账号群组具有映射关系的可能性。
8.一种计算机设备,其特征在于,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行所述指令,以实现如权利要求1至权利要求6中任一项所述的数据处理方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时,使得所述计算机设备能够执行如权利要求1至权利要求6中任一项所述的数据处理方法。
10.一种计算机程序产品,其特征在于,包括一条或多条指令,所述一条或多条指令由计算机设备的一个或多个处理器执行,使得所述计算机设备能够执行如权利要求1至权利要求6中任一项所述的数据处理方法。
CN202110536355.2A 2021-05-17 2021-05-17 数据处理方法、装置、计算机设备及存储介质 Pending CN113139101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110536355.2A CN113139101A (zh) 2021-05-17 2021-05-17 数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110536355.2A CN113139101A (zh) 2021-05-17 2021-05-17 数据处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113139101A true CN113139101A (zh) 2021-07-20

Family

ID=76817249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110536355.2A Pending CN113139101A (zh) 2021-05-17 2021-05-17 数据处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113139101A (zh)

Similar Documents

Publication Publication Date Title
US10733255B1 (en) Systems and methods for content navigation with automated curation
US20220188840A1 (en) Target account detection method and apparatus, electronic device, and storage medium
CN112069414A (zh) 推荐模型训练方法、装置、计算机设备及存储介质
CN109189879B (zh) 电子书籍显示方法及装置
CN109784351B (zh) 行为数据分类方法、分类模型训练方法及装置
CN111311554A (zh) 图文内容的内容质量确定方法、装置、设备及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN112163428A (zh) 语义标签的获取方法、装置、节点设备及存储介质
CN111984803B (zh) 多媒体资源处理方法、装置、计算机设备及存储介质
CN111611490A (zh) 资源搜索方法、装置、设备及存储介质
CN110457571B (zh) 获取兴趣点信息的方法、装置、设备及存储介质
CN111708944A (zh) 多媒体资源识别方法、装置、设备及存储介质
CN112464052A (zh) 反馈信息的处理方法、显示方法、装置及电子设备
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN112328911A (zh) 地点推荐方法、装置、设备及存储介质
CN113987326B (zh) 资源推荐方法、装置、计算机设备及介质
CN111931075B (zh) 一种内容推荐方法、装置、计算机设备及存储介质
CN112561084A (zh) 特征提取方法、装置、计算机设备及存储介质
CN112001442A (zh) 特征检测方法、装置、计算机设备及存储介质
CN113032560B (zh) 语句分类模型训练方法、语句处理方法及设备
CN113139101A (zh) 数据处理方法、装置、计算机设备及存储介质
CN111599417B (zh) 溶解度预测模型的训练数据获取方法及装置
CN116244299A (zh) 业务数据路径的确定方法、装置、电子设备及介质
CN114764480A (zh) 群组类型识别方法、装置、计算机设备及介质
CN111654717A (zh) 数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination