CN107067276A - 确定对象影响力的方法及装置 - Google Patents

确定对象影响力的方法及装置 Download PDF

Info

Publication number
CN107067276A
CN107067276A CN201710028122.5A CN201710028122A CN107067276A CN 107067276 A CN107067276 A CN 107067276A CN 201710028122 A CN201710028122 A CN 201710028122A CN 107067276 A CN107067276 A CN 107067276A
Authority
CN
China
Prior art keywords
influence power
power feature
user
feature
influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710028122.5A
Other languages
English (en)
Inventor
徐峰
陈帅
陈明星
张天翼
郑霖
陈弢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710028122.5A priority Critical patent/CN107067276A/zh
Publication of CN107067276A publication Critical patent/CN107067276A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种确定对象影响力的方法及装置。所述方法包括:获取目标对象对应的至少一个影响力特征的特征值;对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干对象样本确定的;根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。由于不需要人为参与打分,故最终确定的影响力值可以准确地反映对象的影响力。

Description

确定对象影响力的方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种确定对象影响力的方法及装置。
背景技术
在互联网领域中,往往需要评价一个“对象”(如:互联网用户、网站、互联网提供的商品等)的影响力。通过对用户影响力的评估,可以找到那些在互联网中高影响力的用户。在相关技术中,由于每个“对象”一般包括一个或多个能够反映影响力的影响力特征(如,用户发布的消息数,用户被关注数等),可以根据“对象”对应的每一影响力特征的特征值大小,人为评估该“对象”的影响力的高低。然而,上述方法由于需要人为参与,并不能准确地评价“对象”的影响力。
发明内容
有鉴于此,本申请提供一种确定对象影响力的方法及装置。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种确定对象影响力的方法,包括:
获取目标对象对应的至少一个影响力特征的特征值;
对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干对象样本确定的;
根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。
根据本申请的第二方面,提出了一种确定对象影响力的装置,包括:
获取单元,用于获取目标对象对应的至少一个影响力特征的特征值;
第一确定单元,用于对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干对象样本确定的;
第二确定单元,用于根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。
根据本申请的第三方面,提出了一种确定用户影响力的方法,包括:
获取目标用户对应的至少一个影响力特征的特征值;
对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标用户在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干用户样本确定的,并用于反映所述用户样本的特征值分布情况;
根据所述目标用户在各影响力特征下的影响力分数,确定所述目标用户的影响力值。
根据本申请的第四方面,提出了一种确定用户影响力的装置,包括:
获取单元,用于获取目标用户对应的至少一个影响力特征的特征值;
第一确定单元,用于对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标用户在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干用户样本确定的,并用于反映所述用户样本的特征值分布情况;
第二确定单元,用于根据所述目标用户在各影响力特征下的影响力分数,确定所述目标用户的影响力值。
本申请实施例中,通过根据预先选取的包含若干对象样本的第一集合,可以针对每一种影响力特征,分别确定与每一影响力特征对应的分位数图。在利用上述分位数图确定一目标对象的影响力值的过程中,对于每一影响力特征,可根据该影响力特征对应的特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数,最终,根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。以上过程中,由于不需要人为参与打分,故最终确定的影响力值可以准确地反映对象的影响力。
附图说明
图1是本申请一实施例中的一种确定对象影响力的方法的流程图;
图2是本申请一示例性实施例中的针对某一影响力特征绘制的百分位数分布图;
图3是本申请一实施例中的另一种确定对象影响力的方法的流程图;
图4示出了本申请一实施例中的用户影响力值的百分位数分布情况;
图5是本申请一示例性实施例的一种电子设备的结构示意图;
图6是本申请一示例性实施例的一种确定对象影响力的装置的框图;
图7是本申请一示例性实施例的另一种确定对象影响力的装置的框图。
具体实施方式
鉴于互联网环境中往往存在着确定“对象”的影响力的需求,本申请实施例提出了一种能够更加准确地计算能够反映“对象”影响力的影响力值的方法。一般地,每一互联网“对象”包括一种或多种影响力特征。例如,若所述“对象”是互联网用户,则所述互联网用户的影响力特征可包括但不限于:用户发布的信息数、用户被关注数、用户发布的信息被转发次数、用户账户的注册时长等。又例如,若所述“对象”是网站,则网站的影响力特征可包括但不限于:每天被访问次数、网站成立时长、用户在网站上发表的评论数等。再例如,若所述“对象”是互联网中的线上商户,则线上商户的影响力特征可包括但不限于:上架的商品种类数、每天的订单数、在商户消费的用户数等。
为便于描述,以下将以确定互联网用户的影响力为例来介绍本方法实施例。
图1是本申请一实施例中的一种确定对象影响力的方法的流程图,包括如下步骤101至步骤103,其中:
在步骤101中,获取目标对象对应的至少一个影响力特征的特征值。
以所述对象为用户为例,用户可以是在社交平台或电商平台上注册的用户。一般地,每一用户对应的原始影响力特征可以包括:用户关注数,用户被关注数,用户发布的消息数,用户被点赞数,用户注册时长(如:注册天数),用户是否通过某种认证(如某称号的认证)等。
本申请一实施例中,根据实际需求,可以基于以上原始影响力特征确定出一个或多个优化影响力特征,以提高准确性。例如,优化影响力特征可以包括但不限于如下一种或多种:
1)用户被关注数/用户关注数;
2)用户被关注数/用户注册时长(如注册天数);
3)用户关注数/用户注册时长(如注册天数);
4)用户被关注数/用户发布的信息数。
为此,上述步骤101可以具体包括:
获取目标对象对应的至少一个优化影响力特征的特征值。
在步骤102中,对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数;其中,所述分位数图是根据预先选取的若干对象样本确定的,并用于反映所述对象样本的特征值分布情况。
在步骤102之前,需要根据预先选取一包含若干对象样本(如:用户样本)的第一集合Q1,并根据该第一集合Q1确定分位数图(quantile plot)。其中,分位数图是一种用于反映单变量数据分布情况的图。分位数图可以包括但不限于:百分位数(Percentile)分布图、或十分位数(Deciles)分布图、或四分位数(Quartiles)分布图,等等。
本申请一实施例中,为了便于准确地区分出高影响力用户,上述第一集合Q1中包含的对象样本可以是被预先标记为高影响力对象的样本。在一些社交平台上,社交平台会根据自定义的规则,识别出一些明显的高影响力对象。例如,社交平台将被关注数超过1000万的用户确定为高影响力用户,并对这些识别出的高影响力用户进行特定标识的标记。如,在某社交平台上,对高影响力用户标记为“大V”。为此,可以将社交平台上被标记为“大V”的全部或部分用户确定为“用户样本”,并分别获取每一“用户样本”对应的各影响力特征的特征值,得到以上第一集合Q1。
在本申请另一实施例中,可以通过随机方式抽取一定数量的对象样本,以得到上述第一集合Q1。
在本申请又一实施例中,可以将某一种影响力特征作为基准,并找出在该影响力特征下排名前M(如M=1000)位的对象确定为对象样本,以得到包含这些对象样本的上述第一集合Q1。
在获得上述包含若干对象样本的第一集合Q1之后,便可以利用这些对象样本确定分位数图。本申请一实施例中,确定分位数图的过程可以包括步骤S10至S30,其中:
在S10中,针对每一影响力特征,将选取的各对象样本在该影响力特征下的特征值进行从小到大的排列,得到排序后的特征值序列。
例如,选取了20个用户样本,每个用户样本分别包含上述各个影响力特征对应的特征值。本申请实施例需要针对每一种影响力特征,分别构建分位数图,也就是说,分位数图的数量与影响力特征的数量相等。
以影响力特征“被关注数/关注数”为例,若选取了20个用户样本,假设用户样本中与影响力特征“被关注数/关注数”对应的20个特征值如下:
{5,3,1,2,6,8,0,5,3,16,8,3,9,2,6,2,19,5,3,11};
如果将以上与影响力特征“被关注数/关注数”对应的20个特征值按照从小到大进行排列,得到排序后的特征值序列如下:
{0,1,2,2,2,3,3,3,3,5,5,5,6,6,8,8,9,11,16,19}。
在S20中,将所述特征值序列均分成n份,得到n个分位;其中,n≥2。
其中,在将所述特征值序列均分成n份,得到n个子特征值系列,则可以定义所述“分位”为每一份子特征值系列中的最后一个特征值所在的位置。
若以绘制四分位数(Quartiles)分布图为例,则n=4。可以将上述特征值序列均分成4份:
{0,1,2,2,2},{3,3,3,3,5},{5,5,6,6,8},{8,9,11,16,19};
其中包括4个分位:第一分位(特征值序列中第5个特征值所在位置),第二分位(特征值序列中第10个特征值所在位置),第三分位(特征值序列中第15个特征值所在位置),第四分位(特征值序列中第20个特征值所在位置)。
同样地,若需要绘制十分位数分布图为例,则n=10。可以将上述特征值序列均分成10份。
在S30中,确定所述特征值序列在每一分位上的特征值,得到所述分位数图。
在以上例子中,以四分位数分布图为例,最终确定出的在4个分位上的值分别是:2,5,8,19。其中,可以看出,在上述20个用户样本中,有25%的用户在影响力特征“被关注数/关注数”上的特征值小于2,有50%的用户在影响力特征“被关注数/关注数”上的特征值小于5,有75%的用户在影响力特征“被关注数/关注数”上的特征值小于8。
值得述及的是,在以上实施例中,在确定“四分位数分布图”、或“十分位数分布图”、或“百分位数分布图”的过程中,都是将用户样本的特征值序列进行均分,以得到处于各个分位上的特征值大小。然而,在可行的其他实施例中,也采取非均分的方式对特征值序列进行划分,并得到各个分位上的特征值大小。
图2是本申请一示例性实施例中的针对某一影响力特征绘制的百分位数(Percentile)分布图。本实施例中,可以选取k(k≥100)个被标记为高影响力用户的用户样本,并利用这些用户样本分别绘制出与每一影响力特征对应的百分位数(Percentile)分布图。
在绘制出以上图2所示的百分位数(Percentile)分布图之后,对于任意一个待计算影响力值的目标用户,可以基于图2所示的百分位数(Percentile)分布图,为该目标用户在每一个影响力特征下进行打分,得到与每一影响力特征对应的影响力分数。其中,影响力分数的波动范围不受限制,如,可介于0~100,影响力分数越大,则可以表明该目标用户在该影响力特征下的影响力越高。
假设图2是与影响力特征:“被关注数/关注数”对应的百分位数(Percentile)分布图。倘若目标用户在影响力特征:“被关注数/关注数”下的特征值为:10,则通过确定该特征值“10”在图2中所在位置(可以是大致的位置),发现特征值“10”大致对应于第43个百分位,相应地,可以确定该目标用户在影响力特征:“被关注数/关注数”下的影响力分数为:43。又例如,倘若目标用户在影响力特征:“被关注数/关注数”下的特征值为:12.3,通过确定该特征值“12.3”在图2中所在位置,发现特征值“12.3”大致位于第52个百分位和第53个百分位之间。此时,可分别确定该特征值“12.3”和在第52个百分位上的特征值间的第一差值,及该特征值“12.3”和在第53个百分位上的特征值间的第二差值,并比较第一差值和第二差值的大小,将差值更小的百分位确定为上述特征值“12.3”所在位置。如,第52个百分位上的特征值是12.2,第53个百分位上的特征值是12.5,则确定该目标用户在影响力特征:“被关注数/关注数”下的影响力分数为:52。
至此,通过利用与每一影响力特征对应的分位数图,可以在每一影响力特征下,分别为目标用户确定一个影响力分数,如下表1所示:
表1:
在步骤103中,根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。
在本申请一实施例中,可以将目标对象在各影响力特征下的影响力分数进行累加,得到一累加值,并对该累加值进行归一化处理,最终,将归一化处理后得到的归一化值确定为所述目标对象的影响力值。
本申请实施例中,该方法通过根据预先选取的包含若干对象样本的第一集合,可以针对每一种影响力特征,分别确定与每一影响力特征对应的分位数图。在利用上述分位数图确定一目标对象的影响力值的过程中,对于每一影响力特征,可根据该影响力特征对应的特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数,最终,根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。以上过程中,由于不需要人为参与打分,故最终确定的影响力值可以准确地反映对象的影响力。
此外,本申请实施例中选取的对象样本是预先被标记为高影响力对象的样本,由于这些被标记为高影响力对象的样本在全部群体中的影响力较高,从而可以预测一个普通用户(即非高影响力用户或影响力一般的用户)在高影响力用户(如大V)视角(view)下的影响力。最终,可以得到较少的高影响力值的用户,在需要更加精确地确定出少量高影响力的用户的应用场景中,有利于业务方以较少的资源对高影响力用户进行关注;相反,如果使用全量用户样本来绘制百分位数分布图,则可能会得到相对平均的特征值分布,并不利于业务方重点关注少量的高影响力用户,使得业务方难以准确地筛选出高影响力用户。
图3是本申请一实施例中的另一种确定对象影响力的方法的流程图。如图3所示,基于上述图1所示的实施例,在本实施例中,为使得影响力值更加准确,在步骤103之前,还可包括:
步骤104,确定与每一影响力特征对应的权重系数。
其中,可以根据人为经验确定与每一影响力特征对应的权重系数。
在一优选的实施例中,为进一步提高准确性,避免人为参与,上述步骤104可具体包括S1041~S1043,其中:
在S1041中,获取第二集合Q2;其中,所述第一集合Q1可以是所述第二集合Q2的子集。如上所述,第一集合Q1可以是预先被标记为高影响力对象(如,某社交平台上标记为“大V”的用户)的样本集合,而第二集合Q2可以是某一互联网平台上的全量用户集合。当然,在可行的实施例中,第二集合Q2也可以是一种随机选取的若干对象样本的集合。
在S1042中,利用所述第二集合Q2中的各对象样本进行主成分分析(PrincipalComponents Analysis,PCA),得到第一主成分(The first principal component);
本申请实施例中,在S1042中的主成分分析过程大致可包括步骤S40~S70,其中:
在S40中,对第二集合Q2中的各对象样本进行中心化处理。
为便于描述,本文以2维样本(即每个用户包含2个影响力特征)为例进行说明,其中,假设Q2中包含10个样本,2个影响力特征例如是:用户被关注数/用户关注数(记为x)和用户被关注数/用户发布的信息数(记为y)。其中,假设获取到的样本数据如下:
x=[2.5,0.5,2.2,1.9,3.1,2.3,2,1,1.5,1.1]
y=[2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9]
对上述样本数据分别进行中心化处理,即每一维的数据都减去该维的均值,得到:
x=[0.69,-1.31,0.39,0.09,1.29,0.49,0.19,-0.81,-0.31,-0.71]
y=[0.49,-1.21,0.99,0.29,1.09,0.79,-0.31,-0.81,-0.31,-1.01]
在S50中,计算协方差矩阵。其中,若对象样本包括n个影响力特征,则计算出的协方差矩阵是n*n维的。
在上述例子中,协方差矩阵为:
由于计算协方差的过程是本领域公知技术,不再详细介绍。
因为上述样本数据是2维的,最终,计算出的协方差矩阵如下:
在S60中,计算协方差矩阵的特征向量和与每一特征向量对应的特征值。
在上述例子中,最终计算得到的特征值为:
特征向量为:
在S70中,确定第一主成分。
一般地,在根据协方差矩阵确定特征向量后,可按照每一特征向量特征值由大到小进行排列,其中,最大特征值对应的特征向量即为“第一主成分”。
最终,与最大特征值:“1.28402771”对应的第一主成分为:
在S1043中,根据所述第一主成分,确定与各影响力特征对应的权重系数。
在可选的实施例中,可通过对得到的第一主成分进行归一化处理,并将归一化得到的数值确定为与各个影响力特征对应的权重系数。在以上例子中,最终得到的与影响力特征x对应的权重系数为:
0.677873399/(0.677873399+0.735178656)=0.4797;
与影响力特征y对应的权重系数为:
0.735178656/(0.677873399+0.735178656)=0.5203。
当然,以上仅以2个影响力特征为例对PCA过程进行了示例性说明,当影响力特征的数量更多时,可基于以上原理相应地确定出与各个影响力特征对应的权重系数。例如:与“被关注数/关注数”对应的权重系数x1是0.2、与“被关注数/用户注册天数”对应的权重系数x2是0.3,与“关注数/用户注册天数”对应的权重系数x3是0.6,与“被关注数/发布信息数”对应的权重系数x4是0.5,等等。由于上述各个影响力特征的特征值都与影响力呈正相关,因此,在确定各影响力特征对应的权重系数的过程中,需要检查各权重系数都是正数。
如图3所示,本申请一实施例中,所述步骤103可具体包括步骤1031~步骤1033,其中:
在步骤1031中,将所述目标对象在每一影响力特征下的影响力分数分别乘以该影响力特征对应的权重系数,得到所述目标对象在每一影响力特征下的乘积值。
在步骤1032中,将所述目标对象在每一影响力特征下的乘积值进行求和,并对求和得到的和值进行归一化。
在步骤1033中,将归一化得到的归一化数值,确定为所述目标对象的影响力值。
承上述例子,假设为某一目标用户确定出的与每一种影响力特征对应的影响力分数如下表2所示:
表2:
最终,计算得到的和值为:
(60*0.2+50*0.6+60*0.3+90*0.5+20*0.1+50*0.2)
=117
在计算出全量用户中每一个用户的上述和值之后,可以对每一用户的和值采用统一的归一化规则进行归一化计算,以将归一化计算得到的数值(介于0~1之间)确定为能够反映用户的影响力大小的影响力值。
图4示出了本申请一实施例中的用户影响力值的百分位数分布情况。可以看出,处于第99个百分位上的用户影响力值接近于1.0,并且明显大于处于第1~98个百分位上的用户影响力值,从而方便业务方确定出用于确定高影响力用户的影响力阈值,并能够准确地确定出高影响力用户。
图5示出了根据本申请的一示例性实施例的电子设备的示意结构图。该电子设备可以是商户平台服务器或支付平台服务器,请参考图5,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成确定对象影响力的装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图6,在一种软件实施方式中,确定对象影响力的装置包括:
获取单元301,用于获取目标对象对应的至少一个影响力特征的特征值;
第一确定单元302,用于对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数;其中,所述分位数图是根据预先选取的若干对象样本确定的。
第二确定单元303,用于根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。
在本申请一实施例中,所述对象样本可以是被预先标记为高影响力对象的样本。
请参考图7,在另一种软件实施方式中,在以上图6所示的实施例的基础上,确定对象影响力的装置还可以包括:
排序单元304,用于针对每一影响力特征,将选取的各对象样本在该影响力特征下的特征值进行从小到大的排列,得到排序后的特征值序列;
均分单元305,用于将所述特征值序列均分成n份,得到n个分位;其中,n≥2;
分位数图绘制单元306,用于确定所述特征值序列在每一分位上的特征值,得到所述分位数图。
在本申请一实施例中,所述装置还可以包括:
权重确定单元307,用于确定与每一影响力特征对应的权重系数;
相应地,所述第二确定单元303可具体包括:
第一计算子单元3031,用于将所述目标对象在每一影响力特征下的影响力分数分别乘以该影响力特征对应的权重系数,得到所述目标对象在每一影响力特征下的乘积值;
第二计算子单元3032,用于将所述目标对象在每一影响力特征下的乘积值进行求和,并对求和得到的和值进行归一化;
影响力值确定子单元3033,用于将归一化得到的归一化数值,确定为所述目标对象的影响力值。
在本申请一优先实施例中,所述权重确定单元307可以具体包括:
样本获取子单元3071,用于获取包含若干对象样本的第二集合;
PCA分析子单元3072,用于利用所述第二集合中的各对象样本进行主成分分析PCA,得到第一主成分;
权重系数确定子单元3073,用于根据所述第一主成分,确定与各影响力特征对应的权重系数。
在本申请一实施例中,所述获取单元301可具体用于:
获取目标对象对应的至少一个优化影响力特征的特征值;其中所述优化影响力特征是根据所述目标对象的原始影响力特征确定的。
需说明的是,本文所记载的方法实施例的内容和装置实施例的内容,在不相冲突的情况下,可以互为补充。
本申请实施例提供的上述方法及装置,利用半监督学习技术和主成分分析技术,其中,半监督学习利用少量有标注的样本进行监督学习,并通过大量无标注样本学习样本空间结构,最终以较少的成本得到的精准模型。主成分分析通过多个影响力特征(多维度)的线性组成,依次重构对象样本分布的主要变化维度。本方法中,只需要选取少量的“正样本”(即影响力较大的用户),并不需要对这些用户进行预打分,对正样本的精度也没有很高的要求,有较强的容错性。本方法可以利用全量用户样本进行主成分分析,不需要引入人工经验进行权重的调整,在变化较快的业务环境下,仍然能快速更新打分规则。
本申请提供的上述方法,可以避免将某些用户误判为高影响力用户。如:微博机器人会自动为某些用户发送大量微博状态,但这些用户的粉丝数和关注数等影响力特征的值通常不会很大;或者,一些营销机构可以提供虚假粉丝(“僵尸粉”),但是具备虚假粉丝的这些用户在其他影响力特征上并不会得到很高的影响力分数,最终也不会得到较高的影响力值,等等。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (16)

1.一种确定对象影响力的方法,其特征在于,包括:
获取目标对象对应的至少一个影响力特征的特征值;
对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干对象样本确定的,并用于反映所述对象样本的特征值分布情况;
根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。
2.根据权利要求1所述的方法,其特征在于,所述对象样本是被预先标记为高影响力对象的样本。
3.根据权利要求1或2所述的方法,其特征在于,根据预先选取若干对象样本确定所述分位数图,包括:
针对每一影响力特征,将选取的各对象样本在该影响力特征下的特征值进行从小到大的排列,得到排序后的特征值序列;
将所述特征值序列均分成n份,得到n个分位;其中,n≥2;
确定所述特征值序列在每一分位上的特征值,得到所述分位数图。
4.根据权利要求1所述的方法,其特征在于,在根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值之前,所述方法还包括:
确定与每一影响力特征对应的权重系数;
所述根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值,包括:
将所述目标对象在每一影响力特征下的影响力分数分别乘以该影响力特征对应的权重系数,得到所述目标对象在每一影响力特征下的乘积值;
将所述目标对象在每一影响力特征下的乘积值进行求和,并对求和得到的和值进行归一化;
将归一化得到的归一化数值,确定为所述目标对象的影响力值。
5.根据权利要求4所述的方法,其特征在于,所述确定与每一影响力特征对应的权重系数,包括:
获取包含若干对象样本的第二集合;
利用所述第二集合中的各对象样本进行主成分分析PCA,得到第一主成分;
根据所述第一主成分,确定与各影响力特征对应的权重系数。
6.根据权利要求1所述的方法,其特征在于,所述获取目标对象对应的至少一个影响力特征的特征值,包括:
获取目标对象对应的至少一个优化影响力特征的特征值;其中所述优化影响力特征是根据所述目标对象的原始影响力特征确定的。
7.一种确定对象影响力的装置,其特征在于,包括:
获取单元,用于获取目标对象对应的至少一个影响力特征的特征值;
第一确定单元,用于对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标对象在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干对象样本确定的,并用于反映所述对象样本的特征值分布情况;
第二确定单元,用于根据所述目标对象在各影响力特征下的影响力分数,确定所述目标对象的影响力值。
8.根据权利要求7所述的装置,其特征在于,所述对象样本是被预先标记为高影响力对象的样本。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括:
排序单元,用于针对每一影响力特征,将选取的各对象样本在该影响力特征下的特征值进行从小到大的排列,得到排序后的特征值序列;
均分单元,用于将所述特征值序列均分成n份,得到n个分位;其中,n≥2;
分位数图绘制单元,用于确定所述特征值序列在每一分位上的特征值,得到所述分位数图。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
权重确定单元,用于确定与每一影响力特征对应的权重系数;
所述第二确定单元包括:
第一计算子单元,用于将所述目标对象在每一影响力特征下的影响力分数分别乘以该影响力特征对应的权重系数,得到所述目标对象在每一影响力特征下的乘积值;
第二计算子单元,用于将所述目标对象在每一影响力特征下的乘积值进行求和,并对求和得到的和值进行归一化;
影响力值确定子单元,用于将归一化得到的归一化数值,确定为所述目标对象的影响力值。
11.根据权利要求10所述的装置,其特征在于,所述权重确定单元包括:
样本获取子单元,用于获取包含若干对象样本的第二集合;
PCA分析子单元,用于利用所述第二集合中的各对象样本进行主成分分析PCA,得到第一主成分;
权重系数确定子单元,用于根据所述第一主成分,确定与各影响力特征对应的权重系数。
12.根据权利要求7所述的装置,其特征在于,所述获取单元具体用于:
获取目标对象对应的至少一个优化影响力特征的特征值;其中所述优化影响力特征是根据所述目标对象的原始影响力特征确定的。
13.一种确定用户影响力的方法,其特征在于,包括:
获取目标用户对应的至少一个影响力特征的特征值;
对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标用户在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干用户样本确定的,并用于反映所述用户样本的特征值分布情况;
根据所述目标用户在各影响力特征下的影响力分数,确定所述目标用户的影响力值。
14.根据权利要求13所述的方法,其特征在于,所述用户样本是被预先标记为高影响力用户的样本。
15.根据权利要求13所述的方法,其特征在于,所述影响力特征包括如下一种或多种:
用户关注数;
用户被关注数;
用户发布的信息数;
被点赞数;
用户注册时长;
用户是否通过认证;
用户被关注数与用户关注数之比;
用户被关注数与用户注册时长之比;
用户关注数与用户注册时长之比;
用户被关注数与用户发布的信息数之比。
16.一种确定用户影响力的装置,其特征在于,包括:
获取单元,用于获取目标用户对应的至少一个影响力特征的特征值;
第一确定单元,用于对于每一影响力特征,根据所述特征值在该影响力特征对应的分位数图中所处位置,确定所述目标用户在该影响力特征下的影响力分数;其中所述分位数图是根据预先选取的若干用户样本确定的,并用于反映所述用户样本的特征值分布情况;
第二确定单元,用于根据所述目标用户在各影响力特征下的影响力分数,确定所述目标用户的影响力值。
CN201710028122.5A 2017-01-12 2017-01-12 确定对象影响力的方法及装置 Pending CN107067276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710028122.5A CN107067276A (zh) 2017-01-12 2017-01-12 确定对象影响力的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710028122.5A CN107067276A (zh) 2017-01-12 2017-01-12 确定对象影响力的方法及装置

Publications (1)

Publication Number Publication Date
CN107067276A true CN107067276A (zh) 2017-08-18

Family

ID=59598835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710028122.5A Pending CN107067276A (zh) 2017-01-12 2017-01-12 确定对象影响力的方法及装置

Country Status (1)

Country Link
CN (1) CN107067276A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829740A (zh) * 2017-11-23 2019-05-31 腾讯科技(深圳)有限公司 请求的响应方法和装置、存储介质、电子装置
CN110148029A (zh) * 2018-02-13 2019-08-20 北京京东尚科信息技术有限公司 一种推荐对象的方法和装置
CN111340506A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 交易行为的风险识别方法、装置、存储介质和计算机设备
CN111767473A (zh) * 2020-07-30 2020-10-13 腾讯科技(深圳)有限公司 一种对象选取方法及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829740A (zh) * 2017-11-23 2019-05-31 腾讯科技(深圳)有限公司 请求的响应方法和装置、存储介质、电子装置
CN110148029A (zh) * 2018-02-13 2019-08-20 北京京东尚科信息技术有限公司 一种推荐对象的方法和装置
CN111340506A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 交易行为的风险识别方法、装置、存储介质和计算机设备
CN111767473A (zh) * 2020-07-30 2020-10-13 腾讯科技(深圳)有限公司 一种对象选取方法及计算机可读存储介质
CN111767473B (zh) * 2020-07-30 2023-11-14 腾讯科技(深圳)有限公司 一种对象选取方法及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Bartlett et al. Improving upon the efficiency of complete case analysis when covariates are MNAR
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
US20140310691A1 (en) Method and device for testing multiple versions
CN107437198A (zh) 确定用户风险偏好的方法、信息推荐方法及装置
CN107067276A (zh) 确定对象影响力的方法及装置
CN104081392A (zh) 社会媒体配置文件的影响评分
CN107808346B (zh) 一种潜在目标对象的评估方法及评估装置
CN113538070B (zh) 用户生命价值周期检测方法、装置和计算机设备
US20180107726A1 (en) Visualizing changes in a multi-dimensional dataset using three-dimensional cubes
US20120130960A1 (en) Estimation of errors in attribute values of aggregated databases
CN105138897B (zh) 确定用户权限的方法及装置
CN109308660B (zh) 一种征信评分模型评估方法、装置、设备及存储介质
CN112613974A (zh) 一种风险预警方法、装置、设备及可读存储介质
CN110717653B (zh) 风险识别方法及装置和电子设备
CN109800138B (zh) 一种cpu测试方法、电子装置及存储介质
CN108429632B (zh) 一种业务监控方法和装置
KR20130085062A (ko) 리스크 관리 장치
CN116304251A (zh) 标签处理方法、装置、计算机设备和存储介质
CN110264333B (zh) 一种风险规则确定方法和装置
CN111708821B (zh) 人员亲密度的确定方法、装置及存储介质
CN114490412A (zh) 基于自减逆向云发生器的三维cad软件性能度量方法及装置
KR20190010091A (ko) 데이터의 유용성 보존을 위한 익명화 장치 및 그 방법
CN113792961A (zh) 基于审计大数据的任中经济责任审计决策方法及设备
CN110020930B (zh) 一种财务数据体系构建方法和装置
CN113537806A (zh) 异常用户识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818

RJ01 Rejection of invention patent application after publication