CN107291860B - 种子用户确定方法 - Google Patents
种子用户确定方法 Download PDFInfo
- Publication number
- CN107291860B CN107291860B CN201710434504.8A CN201710434504A CN107291860B CN 107291860 B CN107291860 B CN 107291860B CN 201710434504 A CN201710434504 A CN 201710434504A CN 107291860 B CN107291860 B CN 107291860B
- Authority
- CN
- China
- Prior art keywords
- influence
- check
- user
- value
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种种子用户确定方法,包括:针对每个最小签到区域,获取最小签到区域对应的签到用户和签到用户的偏好话题;获取最小签到区域对应的签到用户的影响用户,以及影响用户对签到用户的影响力值;根据查询区域、多个查询话题和区域从属关系,获取B个子覆盖区域;获取每个子覆盖区域针对查询话题的影响力值最大的第二影响力值;根据获取的B个第二影响力值确定第一影响力阈值;获取最大的第二影响力值对应的影响用户在查询区域的第三影响力值;从历史第三影响力值中确定最大第三影响力值。若最大第三影响力值大于或等于第一影响力阈值,则获取最大第三影响力值对应的影响用户为第一种子用户。本发明提高了确定种子用户的效率。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种种子用户确定方法。
背景技术
随着Web2.0技术和在线社交网络的出现和迅猛发展,人们使用互联网的方式发生了深刻变革——由单纯的网页浏览和信息搜索转向各类社交网络上社会关系的构建与维护、基于社会关系的信息发布、交流和共享。社会影响力是社交网络中常见的一种现象,具体是指由于用户、组织或者社区与其他用户、组织或者社区等具有社交关系,导致自身行为随其他用户、组织或者社区变化而变化的一种现象。通过对社交网络中节点、用户等个体的影响力进行分析,可以发现社交网络中的具有重要影响力的种子用户,可用于企业商业营销、广告定向投放、言论渠道推荐、舆情监控等诸多领域。
目前的一些研究中将种子用户确定的问题转化为对其他用户偏好影响力最大化问题,提出了一种贪心算法对该问题进行求解,即每一步都选择当前对其他用户偏好最具影响力的用户作为当前最高影响力用户,直到将所有数据枚举完时的当前最高影响力用户作为种子用户。
现有技术确定种子用户的效率不高。
发明内容
本发明提供一种种子用户确定方法,包括:
根据预设的区域从属关系确定A个最小签到区域,其中,所述A为大于等于1的整数;
针对每个所述最小签到区域,获取所述最小签到区域对应的签到用户和所述签到用户的偏好话题;
获取所述最小签到区域的第一影响力列表,所述第一影响力列表包含针对所述偏好话题对应的签到用户的影响用户,以及所述影响用户对所述签到用户的影响力值;
根据查询区域、多个查询话题和所述区域从属关系,获取B个子覆盖区域;每个所述子覆盖区域包含一个最小签到区域,和/或,每个所述子覆盖区域包含D个最小签到区域的部分签到位置;其中,所述最小签到区域对应签到用户的偏好话题,所述偏好话题包含X个所述查询话题;所述最小签到区域的部分签到位置对应签到用户的偏好话题,所述偏好话题包含Y个所述查询话题,所述B为大于等于2的整数,所述D、X、Y分别为大于等于1的整数;
针对每个子覆盖区域,获取所述每个子覆盖区域针对所述查询话题的第二影响力列表,并获取第二影响力列表中针对查询话题的影响力值最大的第二影响力值;
根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值;
获取最大的第二影响力值对应的影响用户在所述查询区域的第三影响力值;
从历史获取的第三影响力值中确定最大第三影响力值,并确定所述最大第三影响力值是否大于或等于所述第一影响力阈值:
若所述最大第三影响力值大于或等于所述第一影响力阈值,则获取所述当前最大第三影响力值对应的影响用户为第一种子用户。
进一步地,还包括:若所述最大第三影响力值小于所述第一影响力阈值,则对所述第二影响力列表进行第一类更新;
根据进行第一类更新后的第二影响力列表,执行所述获取在第二影响力列表中针对查询话题的影响力值最大的第二影响力值,直到获取到所述第一种子用户。
进一步地,还包括:在获取所述第一种子用户之后,从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,所述已获取的种子用户包含所述第一种子用户;
根据新的第二影响力列表获取第二影响力列表中针对查询话题的影响力值最大的第四影响力值,
以获取的B个第四影响力值之和为所述查询区域的第二影响力阈值;
获取所述最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,并将所述第五影响力值确定为初始状态;从历史获取的第五影响力值中确定最大第五影响力值,并确定所述最大第五影响力值是否大于等于所述第二影响力阈值,
若所述最大第五影响力值小于所述第二影响力阈值,则执行所述获取最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,
若所述最大第五影响力值大于等于所述第二影响力阈值,则检测所述最大第五影响力值的状态,
若所述最大第五影响力值为初始状态,则更新所述最大第五影响力值为估计状态,执行所述从历史获取的第五影响力值中确定最大第五影响力值,
若所述最大第五影响力值为估计状态,则更新所述最大第五影响力值为准确状态,执行所述从历史获取的第五影响力值中确定最大第五影响力值,
若所述最大第五影响力值为准确状态,则获取所述最大第五影响力值对应的影响用户为后续种子用户,删除所述历史获取的第五影响力值中所述已获取的种子用户对应的第五影响力值,执行所述从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,直到获取所述后续种子用户的数量满足Qk-1,所述Qk为查询个数。
进一步地,所述获取所述最小签到区域的第一影响力列表具体包括:
根据获取的针对所述偏好话题的签到用户获取所述影响用户;
根据所述影响用户u对所述签到用户v的影响因子P(u,v)、所述签到用户v对所述最小签到区域的偏好值γ(v,Rj)以及所述签到用户v对所述话题t的偏好值获得所述影响用户u对所述签到用户v的影响力值其中,所述是在最小签到区域Rj中偏好话题t且能被用户u影响的签到用户v的集合。
进一步地,所述针对每个子覆盖区域,获取所述每个子覆盖区域的第二影响力列表具体包括:
若所述子覆盖区域包含一个针对查询话题的最小签到区域,则确定所述第二影响力列表包括:针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值;
若所述子覆盖区域包含D个针对查询话题的最小签到区域的部分签到位置,则确定所述第二影响力列表包括:在所述部分签到位置针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值。
进一步地,所述根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值具体包括:对获取的B个第二影响力值求和获得所述第一影响力阈值。
进一步地,所述对所述第二影响力列表进行第一类更新具体包括:从所述第二影响力列表中删除当前的所述第二影响力值。
进一步地,所述更新所述最大第五影响力值为估计状态的同时还包括:
将所述最大第五影响力值更新为其中σST(u,QR)为初始状态下的第五影响力,是影响用户u对签到用户v的影响因子的最小值,是在查询区域中针对查询话题且被影响用户u影响的签到用户v的集合,σST(S,v)是已确定的种子用户集合S对签到用户v在查询区域的影响力值。
进一步地,所述更新所述最大第五影响力值为准确状态的同时还包括:
将所述最大第五影响力值更新为σST({u∪S},Q)-σST(S,Q),其中所述σST({u∪S},Q)为已确定的种子用户集合S和估计状态的所述最大第五影响力对应的影响用户u在查询区域针对查询话题的影响力值,所述σST(S,Q)为种子用户集合S对查询区域和查询话题的影响力值,Q为包含查询区域QR和查询话题QT的查询条件。
进一步地,所述根据预设的区域从属关系确定A个最小签到区域包括:
以所述区域从属关系作为树形节点的层级关系确定一树形索引,所述树形节点存储所述最小签到区域、所述最小签到区域对应签到用户的偏好话题和至少一指向文档的指针,所述指针指向的文档包含所述最小签到区域对应的签到用户、所述签到用户的总签到次数、所述签到用户在所述最小签到区域中的签到次数、所述签到用户的偏好话题及所述用户对所述偏好话题的偏好值。
本发明获取每个子覆盖区域针对查询话题的影响力值最大的第二影响力值;根据获取的B个第二影响力值确定第一影响力阈值;获取最大的第二影响力值对应的影响用户在查询区域的第三影响力值;从历史第三影响力值中确定最大第三影响力值,若最大第三影响力值大于或等于第一影响力阈值,
则获取最大第三影响力值对应的影响用户为第一种子用户。本发明通过上述方法提高了确定种子用户的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种种子用户确定方法流程图;
图2为本发明的一种区域从属关系的实施例;
图3为本发明的后续种子用户确定方法流程图;
图4为以预设的区域从属关系作为树形节点的层级关系确定的树形索引结构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明的一种种子用户确定方法流程图。如图1所示,本发明提供了一种种子用户确定方法,包括:
S110,根据预设的区域从属关系确定A个最小签到区域,其中,所述A为大于等于1的整数。
图2为本发明的一种区域从属关系的实施例。图2中以矩形框范围划分所示的区域从属关系,每个矩形框为一包含其范围内所有签到位置的最小签到区域。具体地,如图2所示,R3是指包含签到位置l0、l1、l2的最小签到区域,而R3又进一步包含R7和R8。R8是由签到位置l0、l2组成的最小签到区域。R7是由签到位置l1组成的最小签到区域。
本实施例中S110依据预设的所述区域从属关系来对包含签到位置的最小签到区域进行确定。该区域从属关系中签到位置和最小签到区域的划分可以不与实际地理位置完全对应,例如最小签到区域R8包含的签到位置l0为北京,l2为巴基斯坦;R7包含的签到位置l1为南昌。
S120,针对每个所述最小签到区域,获取所述最小签到区域对应的签到用户和所述签到用户的偏好话题。
步骤S120中根据最小签到区域可以获得最小签到区域中的签到用户,而根据签到用户则可以对应获得该用户对应的偏好话题和其他信息,参见表1.表1为本发明的一种签到用户信息表。
表1
S130,获取所述最小签到区域的第一影响力列表,所述第一影响力列表包含针对所述偏好话题对应的签到用户的影响用户,以及所述影响用户对所述签到用户的影响力值。
S130中所述获取所述最小签到区域的第一影响力列表具体包括:
根据获取的针对所述偏好话题的签到用户获取所述影响用户;
根据所述影响用户u对所述签到用户v的影响因子P(u,v)、所述签到用户v对所述最小签到区域的偏好值γ(v,Rj)以及所述签到用户v对所述话题t的偏好值获得所述影响用户u对所述签到用户v的影响力值其中,所述是在最小签到区域Rj中偏好话题t且能被用户u影响的签到用户v的集合。在第一影响力列表中对每个话题都对应有影响用户,每个影响用户针对该话题的影响力值作为一条列表记录。每个影响力值σST(u,Rj)是一个影响用户u对该最小签到区域Rj中所有签到用户v针对一个话题t的影响力值。
对于每个最小签到区域Ri,其中的偏好话题t∈Ri.TS都中第一影响力列表中有对应的影响用户,Ri.TS是指所有话题集合TS中属于最小签到区域Ri的话题集合,t是指一个话题。列表是由多个两元组构成的,其中是对偏好用户集合有影响力的影响用户集合,偏好用户集合是对最小签到区域Ri和话题t有偏好的签到用户集合,是用户u对偏好用户集合的影响力。
S140,根据查询区域、多个查询话题和所述区域从属关系,获取B个子覆盖区域;每个所述子覆盖区域包含一个最小签到区域,和/或,每个所述子覆盖区域包含D个最小签到区域的部分签到位置;其中,所述最小签到区域对应签到用户的偏好话题,所述偏好话题包含X个所述查询话题;所述最小签到区域的部分签到位置对应签到用户的偏好话题,所述偏好话题包含Y个所述查询话题,所述B为大于等于2的整数,所述D、X、Y分别为大于等于1的整数。
具体地,给定查询条件Q={QR,QT,Qk},QR为查询区域,QT为查询话题,Qk为查询个数。首先从图2所示的区域从属关系的R0开始遍历该区域从属关系,并找到由被查询条件完全覆盖的一个最小签到区域构成的子覆盖区域RQ={R1,...,Ri,...Rn},其中,子覆盖区域且子覆盖区域中的偏好话题以及,一个包括所有没有被查询条件完全覆盖的最小签到区域的子覆盖区域R0,R0=QR-RQ且
S151,针对每个子覆盖区域,获取所述每个子覆盖区域针对所述查询话题的第二影响力列表。
若所述子覆盖区域包含一个针对查询话题的最小签到区域,则确定所述第二影响力列表包括:针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值。对子覆盖区域Ri∈RQ,每个子覆盖区域Ri对应获得一与第一影响力列表相同的第二影响力列表包含多个二元组
在如图2所示的区域从属关系中,查询条件Q的查询区域将R12、R6完全覆盖,若查询话题分别与R12、R6的交集不为空集,则R12、R6为两个所述子覆盖区域。
若所述子覆盖区域包含D个针对查询话题的最小签到区域的部分签到位置,则确定所述第二影响力列表包括:在所述部分签到位置针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值。对于子覆盖区域R0,获得由多个二元组组成的第二影响力列表第二影响力列表中包含:
P(u,v)是影响用户u对偏好子覆盖区域R0的签到用户v的影响因子,为签到用户v针对查询话题QT的话题偏好值,为签到用户v对子覆盖区域R0中签到位置的位置偏好值,所述也可以由D个最小签到区域的第一影响力列表中直接获得。本发明中所述签到用户在签到位置签到,也即是指该签到用户偏好该签到位置,本发明不应对这两种说法有区分。
在如图2所示的区域从属关系中,查询条件Q的查询区域将R9的部分签到位置(签到位置l5)覆盖,获取签到位置l5上签到用户的偏好话题,若查询话题与l5上签到用户的偏好话题的交集不为空集,则l5包含于所述子覆盖区域R0中。可选地,第二影响力列表也是一个按照降序排列的列表。
表2
S152,获取第二影响力列表中针对查询话题的影响力值最大的第二影响力值。
对于B个第二影响力列表选择每个第二影响力列表中的第一个用户的影响力值(第二影响力列表中针对查询话题的影响力值最大的)作为第二影响力值,即每个第二影响力列表中的第一个表2中的3个第二影响力列表对应的第二影响力值分别为10、30、50。
表2中首次获取的第二影响力值10、30、50对应的首次获取的第一影响力阈值为90。
S170,获取最大的第二影响力值对应的影响用户在所述查询区域的第三影响力值。
具体地,获取比较这些影响用户的第二影响力值,计算最大第二影响力值的影响用户在查询区域上的第三影响力值σST(u,QR)。最大第二影响力值对应的影响用户和其在查询区域上的第三影响力值σST(u,QR)加入一动态优先队列中。动态优先队列根据第三影响力值σST(u,QR)实时动态降序排列。
由于第二影响力列表中的影响用户都对目标用户有影响力,所述目标用户是在查询区域内签到且偏好至少一个查询话题的签到用户,因此,根据这些第二影响力列表,可以快速计算第二影响力列表中影响用户针对查询区域QR的第三影响力值:
S180,从历史获取的第三影响力值中确定最大第三影响力值,并确定所述最大第三影响力值是否大于或等于所述第一影响力阈值。
S181,若所述最大第三影响力值大于或等于所述第一影响力阈值,则获取所述当前最大第三影响力值对应的影响用户为第一种子用户。结束第一种子用户的获取流程。
图3为本发明的后续种子用户确定方法流程图。
如图3所示,还包括S182,若所述最大第三影响力值小于所述第一影响力阈值,则对所述第二影响力列表进行第一类更新;根据进行第一类更新后的第二影响力列表,执行S152所述获取在第二影响力列表中针对查询话题的影响力值最大的第二影响力值,直到获取到所述第一种子用户。
可选地,所述对所述第二影响力列表进行第一类更新具体包括:从所述第二影响力列表中删除当前的所述第二影响力值。
由于后续种子用户可能与当前已获得的种子用户集合有共同的影响力,因此,需要对如何选择第一个种子用户和如何选择后续种子用户分别求解。
在查询个数大于1的情况下,在获取所述第一种子用户之后还包括:
S210,从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,所述已获取的种子用户包含所述第一种子用户。
S220,根据新的第二影响力列表获取第二影响力列表中针对查询话题的影响力值最大的第四影响力值。
S230,以获取的B个第四影响力值之和为所述查询区域的第二影响力阈值。
S240,获取所述最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,并将所述第五影响力值确定为初始状态。本步骤的计算方法参见前述步骤S170。将最大第四影响力值对应的影响用户和其在查询区域上的第五影响力值σST(u,QR)加入一动态优先队列中。动态优先队列根据第五影响力值σST(u,QR)实时动态降序排列。和可以选择是同一个队列,也可以是不同的两个队列。
S250,从历史获取的第五影响力值中确定最大第五影响力值,并确定所述最大第五影响力值是否大于等于所述第二影响力阈值。
若所述最大第五影响力值小于所述第二影响力阈值,则执行S240,
若所述最大第五影响力值大于等于所述第二影响力阈值,则进入S260。
如图3所示,S260进一步包括:
S261,检测所述最大第五影响力值的状态.
S262,若所述最大第五影响力值为初始状态,则更新所述最大第五影响力值为估计状态,执行S250。
具体地,所述更新所述最大第五影响力值为估计状态的同时还包括:
将所述最大第五影响力值更新为其中σST(u,QR)为初始状态下的第五影响力,是影响用户u对签到用户v的影响因子的最小值,是在查询区域中针对查询话题且被影响用户u影响的签到用户v的集合,σST(S,v)是已确定的种子用户集合S对签到用户v在查询区域的影响力值。
S263,若所述最大第五影响力值为估计状态,则更新所述最大第五影响力值为准确状态,执行S250。
具体地,所述更新所述最大第五影响力值为准确状态的同时还包括:
将所述最大第五影响力值更新为σST({u∪S},Q)-σST(S,Q),其中所述σST({u∪S},Q)为已确定的种子用户集合S和估计状态的所述最大第五影响力对应的影响用户u在查询区域针对查询话题的影响力值,所述σST(S,Q)为种子用户集合S对查询区域和查询话题的影响力值,Q为包含查询区域QR和查询话题QT的查询条件。
S264,若所述最大第五影响力值为准确状态,则获取所述最大第五影响力值对应的影响用户为后续种子用户。
S265,判断后续种子用户的数量是否满足Qk-1,所述Qk为查询个数。
S266,若后续种子用户的数量满足Qk-1,则确定所述第一种子用户和所述后续种子用户为种子用户结合S;
S267,若后续种子用户的数量不满足Qk-1,则删除所述历史获取的第五影响力值中所述已获取的种子用户对应的第五影响力值,执行S210。直到获取所述后续种子用户的数量满足Qk-1。
对第五影响力值设置状态,根据状态进行响应的更新计算,能够有效地对加速计算过程。准确状态下第五影响力值的计算的过程较为繁杂,需要相对较多的计算量。而在本方法的S240-S260中,初始状态和估计状态相对较小的影响用户可以避开准确状态下第五影响力值的计算,将计算量集中在当前的首个影响用户上,能够高效地利用计算资源获取种子用户。
步骤S250-S260的一种可选实施例为:
否则,再返回当前第二影响力列表中,重新选择每个第二影响力列表的第一个用户,比较他们的影响力的大小,把影响力最大的用户从其列表中取出,并插入到中,重新计算第二影响力阈值并对中的第一个用户,执行上述的过程。按照这样的循环计算,依次获取后续种子用户。
本发明将确定种子用户集合S的问题转换为找一个集合S',使得集合S'中用户满足针对查询区域和查询话题的影响力值最大,且集合S'中的成员总量为查询个数,即其中,P(S',v)是集合S'对签到用户v的影响因子,P(S',v)是通过网络数据采集获得,本发明不做赘述;用户v对查询Q的偏好 为签到用户v对查询话题的偏好值,γ(v,Q)为签到用户v对查询区域包含的签到位置的偏好值。
作为一种实现方式,所述根据预设的区域从属关系确定A个最小签到区域包括:
以所述区域从属关系作为树形节点的层级关系确定一树形索引,如图4所示。
所述树形节点存储所述最小签到区域、所述最小签到区域对应签到用户的偏好话题和至少一指向文档的指针,所述指针指向的文档包含所述最小签到区域对应的签到用户、所述签到用户的总签到次数、所述签到用户在所述最小签到区域中的签到次数、所述签到用户的偏好话题及所述用户对所述偏好话题的偏好值。
图4为以预设的区域从属关系作为树形节点的层级关系确定的树形索引结构。如图4,Rj为根据预设的区域从属关系确定的最小签到区域,j=all,1,2,3,4,5,6。D_*为所述指针指向的文档,*=0,1,…,14。图4中的t1,t2,t3,t4,t5,t6为表1中所示的签到用户的偏好话题。图4中树形的节点分布依据图2所示的区域从属关系来确定。
给定一个查询条件,目标用户是对查询位置以及查询话题有偏好的用户,设计一个如图4所示的树形索引结构,并利用该树形索引结构,快速得到目标用户以及计算他们对查询的偏好值。
如图4所示,树形索引的结构具体包括:
1、叶子节点O:是由多个实体E组成的,每个实体包含一个三元组<PD,M,TS>,其中PD代表该实体指向文档D的指针,M代表该实体上所有位置组成的最小签到区域Rj,TS代表该实体的话题集合。表3为本发明的最小签到区域R3对应节点指向的文档示例。如表3所示,实体E指向的文档D包含以下四部分:
U:对实体E的M和TS有偏好的用户集合;
TV:签到用户的话题偏好向量;
TN:签到用户所有签到的位置以及总次数;
LN:签到用户在M内签到的次数。
除此之外,叶子节点O还有一个指向文档O.D的指针,该文档O.D是通过合并所有属于叶子节点O的实体的文档构造的。O.D也由上述四部分组成。
表3
2、非叶子节点N:是由多个实体组成的,每个实体包含一个三元祖<PC,M,TS>,其中,PC代表指向孩子节点的指针,M代表该实体其所有孩子节点的最小签到区域,TS代表该实体其所有孩子节点的话题集合的交集。一个非叶子节点也包含一个指针指向文档N.D,该文档是通过合并所有孩子节点的文档构造的。其构造过程和叶子节点的文档的构造过程类似。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种种子用户确定方法,其特征在于,包括:
根据预设的区域从属关系确定A个最小签到区域,其中,所述A为大于等于1的整数;
针对每个所述最小签到区域,获取所述最小签到区域对应的签到用户和所述签到用户的偏好话题;
获取所述最小签到区域的第一影响力列表,所述第一影响力列表包含针对所述偏好话题对应的签到用户的影响用户,以及所述影响用户对所述签到用户的影响力值;
根据查询区域、多个查询话题和所述区域从属关系,获取B个子覆盖区域;每个所述子覆盖区域包含一个最小签到区域,和/或,每个所述子覆盖区域包含D个最小签到区域的部分签到位置;其中,所述最小签到区域对应签到用户的偏好话题,所述偏好话题包含X个所述查询话题;所述最小签到区域的部分签到位置对应签到用户的偏好话题,所述偏好话题包含Y个所述查询话题,所述B为大于等于2的整数,所述D、X、Y分别为大于等于1的整数;
针对每个子覆盖区域,获取所述每个子覆盖区域针对所述查询话题的第二影响力列表,并获取第二影响力列表中针对查询话题的影响力值最大的第二影响力值;
根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值;
获取最大的第二影响力值对应的影响用户在所述查询区域的第三影响力值;
从历史获取的第三影响力值中确定最大第三影响力值,并确定所述最大第三影响力值是否大于或等于所述第一影响力阈值:
若所述最大第三影响力值大于或等于所述第一影响力阈值,则获取当前最大第三影响力值对应的影响用户为第一种子用户。
2.根据权利要求1所述的方法,其特征在于,还包括:若所述最大第三影响力值小于所述第一影响力阈值,则对所述第二影响力列表进行第一类更新;
根据进行第一类更新后的第二影响力列表,执行所述获取在第二影响力列表中针对查询话题的影响力值最大的第二影响力值,直到获取到所述第一种子用户。
3.根据权利要求1所述的方法,其特征在于,还包括:在获取所述第一种子用户之后,从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,所述已获取的种子用户包含所述第一种子用户;
根据新的第二影响力列表获取第二影响力列表中针对查询话题的影响力值最大的第四影响力值,
以获取的B个第四影响力值之和为所述查询区域的第二影响力阈值;
获取所述最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,并将所述第五影响力值确定为初始状态;从历史获取的第五影响力值中确定最大第五影响力值,并确定所述最大第五影响力值是否大于等于所述第二影响力阈值,
若所述最大第五影响力值小于所述第二影响力阈值,则执行所述获取最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,
若所述最大第五影响力值大于等于所述第二影响力阈值,则检测所述最大第五影响力值的状态,
若所述最大第五影响力值为初始状态,则更新所述最大第五影响力值为估计状态,执行所述从历史获取的第五影响力值中确定最大第五影响力值,
若所述最大第五影响力值为估计状态,则更新所述最大第五影响力值为准确状态,执行所述从历史获取的第五影响力值中确定最大第五影响力值,
若所述最大第五影响力值为准确状态,则获取所述最大第五影响力值对应的影响用户为后续种子用户,删除所述历史获取的第五影响力值中所述已获取的种子用户对应的第五影响力值,执行所述从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,直到获取所述后续种子用户的数量满足Qk-1,所述Qk为查询个数。
5.根据权利要求1或4所述的方法,其特征在于,所述针对每个子覆盖区域,获取所述每个子覆盖区域的第二影响力列表具体包括:
若所述子覆盖区域包含一个针对查询话题的最小签到区域,则确定所述第二影响力列表包括:针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值;
若所述子覆盖区域包含D个针对查询话题的最小签到区域的部分签到位置,则确定所述第二影响力列表包括:在所述部分签到位置针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值。
6.根据权利要求1所述的方法,其特征在于,所述根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值具体包括:对获取的B个第二影响力值求和获得所述第一影响力阈值。
7.根据权利要求2所述的方法,其特征在于,所述对所述第二影响力列表进行第一类更新具体包括:从所述第二影响力列表中删除当前的所述第二影响力值。
9.根据权利要求3所述的方法,其特征在于,所述更新所述最大第五影响力值为准确状态的同时还包括:
将所述最大第五影响力值更新为σST({u∪S},Q)-σST(S,Q),其中所述σST({u∪S},Q)为已确定的种子用户集合S和估计状态的所述最大第五影响力对应的影响用户u在查询区域针对查询话题的影响力值,所述σST(S,Q)为种子用户集合S对查询区域和查询话题的影响力值,Q为包含查询区域QR和查询话题QT的查询条件。
10.根据权利要求1所述的方法,其特征在于,所述根据预设的区域从属关系确定A个最小签到区域包括:
以所述区域从属关系作为树形节点的层级关系确定一树形索引,所述树形节点存储所述最小签到区域、所述最小签到区域对应签到用户的偏好话题和至少一指向文档的指针,所述指针指向的文档包含所述最小签到区域对应的签到用户、所述签到用户的总签到次数、所述签到用户在所述最小签到区域中的签到次数、所述签到用户的偏好话题及所述用户对所述偏好话题的偏好值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710434504.8A CN107291860B (zh) | 2017-06-09 | 2017-06-09 | 种子用户确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710434504.8A CN107291860B (zh) | 2017-06-09 | 2017-06-09 | 种子用户确定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291860A CN107291860A (zh) | 2017-10-24 |
CN107291860B true CN107291860B (zh) | 2021-01-05 |
Family
ID=60096265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710434504.8A Expired - Fee Related CN107291860B (zh) | 2017-06-09 | 2017-06-09 | 种子用户确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291860B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020222B (zh) * | 2017-12-12 | 2023-03-03 | 腾讯科技(北京)有限公司 | 标志点确定方法、装置及存储介质 |
CN109325186B (zh) * | 2018-08-11 | 2021-08-17 | 桂林理工大学 | 一种用户偏好与地理特征融合的行为动机推断算法 |
CN112508725B (zh) * | 2020-12-04 | 2023-02-17 | 首都师范大学 | 一种基于社区结构的位置感知影响力最大化方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611339A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 种子用户筛选方法、产品的用户影响力评价方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8355955B1 (en) * | 2010-08-30 | 2013-01-15 | Amazon Technologies, Inc. | Method, medium, and system for adjusting a selectable element based on social networking usage |
-
2017
- 2017-06-09 CN CN201710434504.8A patent/CN107291860B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611339A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 种子用户筛选方法、产品的用户影响力评价方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107291860A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11593894B2 (en) | Interest recommendation method, computer device, and storage medium | |
CN102316046B (zh) | 向社交网络中的用户推荐信息的方法和装置 | |
Nettleton | Data mining of social networks represented as graphs | |
Tavares et al. | Scaling-laws of human broadcast communication enable distinction between human, corporate and robot twitter users | |
Backstrom et al. | Preferential behavior in online groups | |
US8099311B2 (en) | System and method for routing tasks to a user in a workforce | |
US9225676B1 (en) | Social network exploration systems and methods | |
CN105468598B (zh) | 好友推荐方法及装置 | |
CN109509010B (zh) | 一种多媒体信息处理方法、终端及存储介质 | |
CN107291860B (zh) | 种子用户确定方法 | |
CN107767153B (zh) | 一种数据处理方法及装置 | |
KR101725510B1 (ko) | 사용자 성향을 고려한 소셜 이벤트 추천 방법 및 장치 | |
Deveaud et al. | Experiments with a venue-centric model for personalisedand time-aware venue suggestion | |
CN111274485A (zh) | 一种基于社区发现的个性化推荐方法 | |
JP2018517218A (ja) | 位置情報提供方法及び装置 | |
CN105335476B (zh) | 一种热点事件分类方法及装置 | |
CN106909619B (zh) | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 | |
CN109167806B (zh) | 一种基于前景理论的不确定QoS感知Web服务选择方法 | |
KR100469900B1 (ko) | 네트워크를 통한 커뮤니티 검색 서비스 시스템 및 그 방법 | |
CN114547439A (zh) | 基于大数据和人工智能的业务优化方法及电子商务ai系统 | |
WO2012036598A1 (en) | Method and arrangement for segmentation of telecommunication customers | |
US20160148018A1 (en) | Information providing device, information providing method, and program | |
CN106055665B (zh) | 基于异常值剔除的情境感知Web服务推荐方法和系统 | |
Shi et al. | Long-term effects of user preference-oriented recommendation method on the evolution of online system | |
CN104992060A (zh) | 用户年龄估计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210105 Termination date: 20210609 |