CN107291860A - 种子用户确定方法 - Google Patents

种子用户确定方法 Download PDF

Info

Publication number
CN107291860A
CN107291860A CN201710434504.8A CN201710434504A CN107291860A CN 107291860 A CN107291860 A CN 107291860A CN 201710434504 A CN201710434504 A CN 201710434504A CN 107291860 A CN107291860 A CN 107291860A
Authority
CN
China
Prior art keywords
influence
user
force value
region
maximum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710434504.8A
Other languages
English (en)
Other versions
CN107291860B (zh
Inventor
苏森
程祥
李晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710434504.8A priority Critical patent/CN107291860B/zh
Publication of CN107291860A publication Critical patent/CN107291860A/zh
Application granted granted Critical
Publication of CN107291860B publication Critical patent/CN107291860B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种种子用户确定方法,包括:针对每个最小签到区域,获取最小签到区域对应的签到用户和签到用户的偏好话题;获取最小签到区域对应的签到用户的影响用户,以及影响用户对签到用户的影响力值;根据查询区域、多个查询话题和区域从属关系,获取B个子覆盖区域;获取每个子覆盖区域针对查询话题的影响力值最大的第二影响力值;根据获取的B个第二影响力值确定第一影响力阈值;获取最大的第二影响力值对应的影响用户在查询区域的第三影响力值;从历史第三影响力值中确定最大第三影响力值。若最大第三影响力值大于或等于第一影响力阈值,则获取最大第三影响力值对应的影响用户为第一种子用户。本发明提高了确定种子用户的效率。

Description

种子用户确定方法
技术领域
本发明涉及数据处理技术,尤其涉及一种种子用户确定方法。
背景技术
随着Web2.0技术和在线社交网络的出现和迅猛发展,人们使用互联网的方式发生了深刻变革——由单纯的网页浏览和信息搜索转向各类社交网络上社会关系的构建与维护、基于社会关系的信息发布、交流和共享。社会影响力是社交网络中常见的一种现象,具体是指由于用户、组织或者社区与其他用户、组织或者社区等具有社交关系,导致自身行为随其他用户、组织或者社区变化而变化的一种现象。通过对社交网络中节点、用户等个体的影响力进行分析,可以发现社交网络中的具有重要影响力的种子用户,可用于企业商业营销、广告定向投放、言论渠道推荐、舆情监控等诸多领域。
目前的一些研究中将种子用户确定的问题转化为对其他用户偏好影响力最大化问题,提出了一种贪心算法对该问题进行求解,即每一步都选择当前对其他用户偏好最具影响力的用户作为当前最高影响力用户,直到将所有数据枚举完时的当前最高影响力用户作为种子用户。
现有技术确定种子用户的效率不高。
发明内容
本发明提供一种种子用户确定方法,包括:
根据预设的区域从属关系确定A个最小签到区域,其中,所述A为大于等于1的整数;
针对每个所述最小签到区域,获取所述最小签到区域对应的签到用户和所述签到用户的偏好话题;
获取所述最小签到区域的第一影响力列表,所述第一影响力列表包含针对所述偏好话题对应的签到用户的影响用户,以及所述影响用户对所述签到用户的影响力值;
根据查询区域、多个查询话题和所述区域从属关系,获取B个子覆盖区域;每个所述子覆盖区域包含一个最小签到区域,和/或,每个所述子覆盖区域包含D个最小签到区域的部分签到位置;其中,所述最小签到区域对应签到用户的偏好话题,所述偏好话题包含X个所述查询话题;所述最小签到区域的部分签到位置对应签到用户的偏好话题,所述偏好话题包含Y个所述查询话题,所述B为大于等于2的整数,所述D、X、Y分别为大于等于1的整数;
针对每个子覆盖区域,获取所述每个子覆盖区域针对所述查询话题的第二影响力列表,并获取第二影响力列表中针对查询话题的影响力值最大的第二影响力值;
根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值;
获取最大的第二影响力值对应的影响用户在所述查询区域的第三影响力值;
从历史获取的第三影响力值中确定最大第三影响力值,并确定所述最大第三影响力值是否大于或等于所述第一影响力阈值:
若所述最大第三影响力值大于或等于所述第一影响力阈值,则获取所述当前最大第三影响力值对应的影响用户为第一种子用户。
进一步地,还包括:若所述最大第三影响力值小于所述第一影响力阈值,则对所述第二影响力列表进行第一类更新;
根据进行第一类更新后的第二影响力列表,执行所述获取在第二影响力列表中针对查询话题的影响力值最大的第二影响力值,直到获取到所述第一种子用户。
进一步地,还包括:在获取所述第一种子用户之后,从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,所述已获取的种子用户包含所述第一种子用户;
根据新的第二影响力列表获取第二影响力列表中针对查询话题的影响力值最大的第四影响力值,
以获取的B个第四影响力值之和为所述查询区域的第二影响力阈值;
获取所述最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,并将所述第五影响力值确定为初始状态;从历史获取的第五影响力值中确定最大第五影响力值,并确定所述最大第五影响力值是否大于等于所述第二影响力阈值,
若所述最大第五影响力值小于所述第二影响力阈值,则执行所述获取最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,
若所述最大第五影响力值大于等于所述第二影响力阈值,则检测所述最大第五影响力值的状态,
若所述最大第五影响力值为初始状态,则更新所述最大第五影响力值为估计状态,执行所述从历史获取的第五影响力值中确定最大第五影响力值,
若所述最大第五影响力值为估计状态,则更新所述最大第五影响力值为准确状态,执行所述从历史获取的第五影响力值中确定最大第五影响力值,
若所述最大第五影响力值为准确状态,则获取所述最大第五影响力值对应的影响用户为后续种子用户,删除所述历史获取的第五影响力值中所述已获取的种子用户对应的第五影响力值,执行所述从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,直到获取所述后续种子用户的数量满足Qk-1,所述Qk为查询个数。
进一步地,所述获取所述最小签到区域的第一影响力列表具体包括:
根据获取的针对所述偏好话题的签到用户获取所述影响用户;
根据所述影响用户u对所述签到用户v的影响因子P(u,v)、所述签到用户v对所述最小签到区域的偏好值γ(v,Rj)以及所述签到用户v对所述话题t的偏好值获得所述影响用户u对所述签到用户v的影响力值其中,所述是在最小签到区域Rj中偏好话题t且能被用户u影响的签到用户v的集合。
进一步地,所述针对每个子覆盖区域,获取所述每个子覆盖区域的第二影响力列表具体包括:
若所述子覆盖区域包含一个针对查询话题的最小签到区域,则确定所述第二影响力列表包括:针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值;
若所述子覆盖区域包含D个针对查询话题的最小签到区域的部分签到位置,则确定所述第二影响力列表包括:在所述部分签到位置针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值。
进一步地,所述根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值具体包括:对获取的B个第二影响力值求和获得所述第一影响力阈值。
进一步地,所述对所述第二影响力列表进行第一类更新具体包括:从所述第二影响力列表中删除当前的所述第二影响力值。
进一步地,所述更新所述最大第五影响力值为估计状态的同时还包括:
将所述最大第五影响力值更新为其中σST(u,QR)为初始状态下的第五影响力,是影响用户u对签到用户v的影响因子的最小值,是在查询区域中针对查询话题且被影响用户u影响的签到用户v的集合,σST(S,v)是已确定的种子用户集合S对签到用户v在查询区域的影响力值。
进一步地,所述更新所述最大第五影响力值为准确状态的同时还包括:
将所述最大第五影响力值更新为σST({u∪S},Q)-σST(S,Q),其中所述σST({u∪S},Q)为已确定的种子用户集合S和估计状态的所述最大第五影响力对应的影响用户u在查询区域针对查询话题的影响力值,所述σST(S,Q)为种子用户集合S对查询区域和查询话题的影响力值,Q为包含查询区域QR和查询话题QT的查询条件。
进一步地,所述根据预设的区域从属关系确定A个最小签到区域包括:
以所述区域从属关系作为树形节点的层级关系确定一树形索引,所述树形节点存储所述最小签到区域、所述最小签到区域对应签到用户的偏好话题和至少一指向文档的指针,所述指针指向的文档包含所述最小签到区域对应的签到用户、所述签到用户的总签到次数、所述签到用户在所述最小签到区域中的签到次数、所述签到用户的偏好话题及所述用户对所述偏好话题的偏好值。
本发明获取每个子覆盖区域针对查询话题的影响力值最大的第二影响力值;根据获取的B个第二影响力值确定第一影响力阈值;获取最大的第二影响力值对应的影响用户在查询区域的第三影响力值;从历史第三影响力值中确定最大第三影响力值,若最大第三影响力值大于或等于第一影响力阈值,
则获取最大第三影响力值对应的影响用户为第一种子用户。本发明通过上述方法提高了确定种子用户的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种种子用户确定方法流程图;
图2为本发明的一种区域从属关系的实施例;
图3为本发明的后续种子用户确定方法流程图;
图4为以预设的区域从属关系作为树形节点的层级关系确定的树形索引结构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明的一种种子用户确定方法流程图。如图1所示,本发明提供了一种种子用户确定方法,包括:
S110,根据预设的区域从属关系确定A个最小签到区域,其中,所述A为大于等于1的整数。
图2为本发明的一种区域从属关系的实施例。图2中以矩形框范围划分所示的区域从属关系,每个矩形框为一包含其范围内所有签到位置的最小签到区域。具体地,如图2所示,R3是指包含签到位置l0、l1、l2的最小签到区域,而R3又进一步包含R7和R8。R8是由签到位置l0、l2组成的最小签到区域。R7是由签到位置l1组成的最小签到区域。
本实施例中S110依据预设的所述区域从属关系来对包含签到位置的最小签到区域进行确定。该区域从属关系中签到位置和最小签到区域的划分可以不与实际地理位置完全对应,例如最小签到区域R8包含的签到位置l0为北京,l2为巴基斯坦;R7包含的签到位置l1为南昌。
S120,针对每个所述最小签到区域,获取所述最小签到区域对应的签到用户和所述签到用户的偏好话题。
步骤S120中根据最小签到区域可以获得最小签到区域中的签到用户,而根据签到用户则可以对应获得该用户对应的偏好话题和其他信息,参见表1.表1为本发明的一种签到用户信息表。
表1
S130,获取所述最小签到区域的第一影响力列表,所述第一影响力列表包含针对所述偏好话题对应的签到用户的影响用户,以及所述影响用户对所述签到用户的影响力值。
S130中所述获取所述最小签到区域的第一影响力列表具体包括:
根据获取的针对所述偏好话题的签到用户获取所述影响用户;
根据所述影响用户u对所述签到用户v的影响因子P(u,v)、所述签到用户v对所述最小签到区域的偏好值γ(v,Rj)以及所述签到用户v对所述话题t的偏好值获得所述影响用户u对所述签到用户v的影响力值其中,所述是在最小签到区域Rj中偏好话题t且能被用户u影响的签到用户v的集合。在第一影响力列表中对每个话题都对应有影响用户,每个影响用户针对该话题的影响力值作为一条列表记录。每个影响力值σST(u,Rj)是一个影响用户u对该最小签到区域Rj中所有签到用户v针对一个话题t的影响力值。
对于每个最小签到区域Ri,其中的偏好话题t∈Ri.TS都中第一影响力列表中有对应的影响用户,Ri.TS是指所有话题集合TS中属于最小签到区域Ri的话题集合,t是指一个话题。列表是由多个两元组构成的,其中是对偏好用户集合有影响力的影响用户集合,偏好用户集合是对最小签到区域Ri和话题t有偏好的签到用户集合,是用户u对偏好用户集合的影响力。
可选地,其中其中代表用户v对话题t的偏好值,γ(v,Ri)代表用户v对最小签到区域Ri的偏好值。
可选地,为每个用户u存储一个索引列表该列表是由多个三元组构成的,每一个三元组对应用户u对在最小签到区域Ri中签到且对话题t有偏好的签到用户v的影响力。
S140,根据查询区域、多个查询话题和所述区域从属关系,获取B个子覆盖区域;每个所述子覆盖区域包含一个最小签到区域,和/或,每个所述子覆盖区域包含D个最小签到区域的部分签到位置;其中,所述最小签到区域对应签到用户的偏好话题,所述偏好话题包含X个所述查询话题;所述最小签到区域的部分签到位置对应签到用户的偏好话题,所述偏好话题包含Y个所述查询话题,所述B为大于等于2的整数,所述D、X、Y分别为大于等于1的整数。
具体地,给定查询条件Q={QR,QT,Qk},QR为查询区域,QT为查询话题,Qk为查询个数。首先从图2所示的区域从属关系的R0开始遍历该区域从属关系,并找到由被查询条件完全覆盖的一个最小签到区域构成的子覆盖区域RQ={R1,...,Ri,...Rn},其中,子覆盖区域且子覆盖区域中的偏好话题以及,一个包括所有没有被查询条件完全覆盖的最小签到区域的子覆盖区域R0,R0=QR-RQ
S151,针对每个子覆盖区域,获取所述每个子覆盖区域针对所述查询话题的第二影响力列表。
若所述子覆盖区域包含一个针对查询话题的最小签到区域,则确定所述第二影响力列表包括:针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值。对子覆盖区域Ri∈RQ,每个子覆盖区域Ri对应获得一与第一影响力列表相同的第二影响力列表包含多个二元组
其中,是指子覆盖区域Ri和Ri中签到用户的偏好话题与查询话题QT的交集是影响用户u针对的影响力。可以由第一影响力列表直接获得。
在如图2所示的区域从属关系中,查询条件Q的查询区域将R12、R6完全覆盖,若查询话题分别与R12、R6的交集不为空集,则R12、R6为两个所述子覆盖区域。
若所述子覆盖区域包含D个针对查询话题的最小签到区域的部分签到位置,则确定所述第二影响力列表包括:在所述部分签到位置针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值。对于子覆盖区域R0,获得由多个二元组组成的第二影响力列表第二影响力列表中包含:
P(u,v)是影响用户u对偏好子覆盖区域R0的签到用户v的影响因子,为签到用户v针对查询话题QT的话题偏好值,为签到用户v对子覆盖区域R0中签到位置的位置偏好值,所述也可以由D个最小签到区域的第一影响力列表中直接获得。本发明中所述签到用户在签到位置签到,也即是指该签到用户偏好该签到位置,本发明不应对这两种说法有区分。
在如图2所示的区域从属关系中,查询条件Q的查询区域将R9的部分签到位置(签到位置l5)覆盖,获取签到位置l5上签到用户的偏好话题,若查询话题与l5上签到用户的偏好话题的交集不为空集,则l5包含于所述子覆盖区域R0中。可选地,第二影响力列表也是一个按照降序排列的列表。
在一种可选的实施例中包含B=3个子覆盖区域。表2为一种3个子覆盖区域对应获取的3个第二影响力列表的示例。第二影响力列表中按照的大小降序排列。
表2
S152,获取第二影响力列表中针对查询话题的影响力值最大的第二影响力值。
对于B个第二影响力列表选择每个第二影响力列表中的第一个用户的影响力值(第二影响力列表中针对查询话题的影响力值最大的)作为第二影响力值,即每个第二影响力列表中的第一个表2中的3个第二影响力列表对应的第二影响力值分别为10、30、50。
S160,根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值
作为一种可选的第一影响力阈值计算方法,包括以获取的所述B个第二影响力值求和获得所述第一影响力阈值
表2中首次获取的第二影响力值10、30、50对应的首次获取的第一影响力阈值为90。
S170,获取最大的第二影响力值对应的影响用户在所述查询区域的第三影响力值。
具体地,获取比较这些影响用户的第二影响力值,计算最大第二影响力值的影响用户在查询区域上的第三影响力值σST(u,QR)。最大第二影响力值对应的影响用户和其在查询区域上的第三影响力值σST(u,QR)加入一动态优先队列中。动态优先队列根据第三影响力值σST(u,QR)实时动态降序排列。
由于第二影响力列表中的影响用户都对目标用户有影响力,所述目标用户是在查询区域内签到且偏好至少一个查询话题的签到用户,因此,根据这些第二影响力列表,可以快速计算第二影响力列表中影响用户针对查询区域QR的第三影响力值:
S180,从历史获取的第三影响力值中确定最大第三影响力值,并确定所述最大第三影响力值是否大于或等于所述第一影响力阈值。
可选地,动态优先队列中存储所述历史获取的第三影响力值,取动态优先队列中当前的第一个用户的第三影响力值即为所述最大第三影响力值。
S181,若所述最大第三影响力值大于或等于所述第一影响力阈值,则获取所述当前最大第三影响力值对应的影响用户为第一种子用户。结束第一种子用户的获取流程。
图3为本发明的后续种子用户确定方法流程图。
如图3所示,还包括S182,若所述最大第三影响力值小于所述第一影响力阈值,则对所述第二影响力列表进行第一类更新;根据进行第一类更新后的第二影响力列表,执行S152所述获取在第二影响力列表中针对查询话题的影响力值最大的第二影响力值,直到获取到所述第一种子用户。
可选地,所述对所述第二影响力列表进行第一类更新具体包括:从所述第二影响力列表中删除当前的所述第二影响力值。
由于后续种子用户可能与当前已获得的种子用户集合有共同的影响力,因此,需要对如何选择第一个种子用户和如何选择后续种子用户分别求解。
在查询个数大于1的情况下,在获取所述第一种子用户之后还包括:
S210,从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,所述已获取的种子用户包含所述第一种子用户。
S220,根据新的第二影响力列表获取第二影响力列表中针对查询话题的影响力值最大的第四影响力值。
对于第二影响力列表选择每个第二影响力列表中的第一个用户也即是选择针对查询话题的影响力值最大的,将其作为所述第四影响力值。
S230,以获取的B个第四影响力值之和为所述查询区域的第二影响力阈值。
S240,获取所述最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,并将所述第五影响力值确定为初始状态。本步骤的计算方法参见前述步骤S170。将最大第四影响力值对应的影响用户和其在查询区域上的第五影响力值σST(u,QR)加入一动态优先队列中。动态优先队列根据第五影响力值σST(u,QR)实时动态降序排列。可以选择是同一个队列,也可以是不同的两个队列。
S250,从历史获取的第五影响力值中确定最大第五影响力值,并确定所述最大第五影响力值是否大于等于所述第二影响力阈值。
可选地,动态优先队列中存储所述历史获取的第五影响力值,取动态优先队列中当前的第一个用户的第五影响力值即为所述最大第五影响力值。
若所述最大第五影响力值小于所述第二影响力阈值,则执行S240,
若所述最大第五影响力值大于等于所述第二影响力阈值,则进入S260。
如图3所示,S260进一步包括:
S261,检测所述最大第五影响力值的状态.
S262,若所述最大第五影响力值为初始状态,则更新所述最大第五影响力值为估计状态,执行S250。
具体地,所述更新所述最大第五影响力值为估计状态的同时还包括:
将所述最大第五影响力值更新为其中σST(u,QR)为初始状态下的第五影响力,是影响用户u对签到用户v的影响因子的最小值,是在查询区域中针对查询话题且被影响用户u影响的签到用户v的集合,σST(S,v)是已确定的种子用户集合S对签到用户v在查询区域的影响力值。
S263,若所述最大第五影响力值为估计状态,则更新所述最大第五影响力值为准确状态,执行S250。
具体地,所述更新所述最大第五影响力值为准确状态的同时还包括:
将所述最大第五影响力值更新为σST({u∪S},Q)-σST(S,Q),其中所述σST({u∪S},Q)为已确定的种子用户集合S和估计状态的所述最大第五影响力对应的影响用户u在查询区域针对查询话题的影响力值,所述σST(S,Q)为种子用户集合S对查询区域和查询话题的影响力值,Q为包含查询区域QR和查询话题QT的查询条件。
S264,若所述最大第五影响力值为准确状态,则获取所述最大第五影响力值对应的影响用户为后续种子用户。
S265,判断后续种子用户的数量是否满足Qk-1,所述Qk为查询个数。
S266,若后续种子用户的数量满足Qk-1,则确定所述第一种子用户和所述后续种子用户为种子用户结合S;
S267,若后续种子用户的数量不满足Qk-1,则删除所述历史获取的第五影响力值中所述已获取的种子用户对应的第五影响力值,执行S210。直到获取所述后续种子用户的数量满足Qk-1。
对第五影响力值设置状态,根据状态进行响应的更新计算,能够有效地对加速计算过程。准确状态下第五影响力值的计算的过程较为繁杂,需要相对较多的计算量。而在本方法的S240-S260中,初始状态和估计状态相对较小的影响用户可以避开准确状态下第五影响力值的计算,将计算量集中在当前的首个影响用户上,能够高效地利用计算资源获取种子用户。
步骤S250-S260的一种可选实施例为:
动态优先队列中的影响用户有三种状态:“无效”、“估计”以及“准确”,并且中的影响用户是按照影响用户的第五影响力值降序排列的,新插入中的影响用户的状态为“初始”。
选择中的第一个用户u,并获取本次循环的第二影响力阈值
如果u的状态是“初始”且第五影响力值则要计算u的估计增量影响力并将u的状态更新为“估计”,自动调整u在中的位置。
如果u的状态是“估计”且第五影响力值则要计算u的准确增量影响力σST(u|S,Q)=σST({u∪S},Q)-σST(S,Q),将u的状态更新为“准确”,并自动调整u在中的位置。
如果u的状态是“准确”且第五影响力值则用户u为当前种子用户。
否则,再返回当前第二影响力列表中,重新选择每个第二影响力列表的第一个用户,比较他们的影响力的大小,把影响力最大的用户从其列表中取出,并插入到中,重新计算第二影响力阈值并对中的第一个用户,执行上述的过程。按照这样的循环计算,依次获取后续种子用户。
本发明将确定种子用户集合S的问题转换为找一个集合S',使得集合S'中用户满足针对查询区域和查询话题的影响力值最大,且集合S'中的成员总量为查询个数,即其中,P(S',v)是集合S'对签到用户v的影响因子,P(S',v)是通过网络数据采集获得,本发明不做赘述;用户v对查询Q的偏好 为签到用户v对查询话题的偏好值,γ(v,Q)为签到用户v对查询区域包含的签到位置的偏好值。
代表签到用户v对所有偏好话题的话题偏好值,z为用偏好话题的总数,表1所示的实施例中z为6,QT为查询话题集合。
为签到用户v对查询区域中的签到位置l的位置偏好值,其中,C(v)代表用户v的历史签到地点集合,nv(l)代表用户v在签到位置l的签到次数。
作为一种实现方式,所述根据预设的区域从属关系确定A个最小签到区域包括:
以所述区域从属关系作为树形节点的层级关系确定一树形索引,如图4所示。
所述树形节点存储所述最小签到区域、所述最小签到区域对应签到用户的偏好话题和至少一指向文档的指针,所述指针指向的文档包含所述最小签到区域对应的签到用户、所述签到用户的总签到次数、所述签到用户在所述最小签到区域中的签到次数、所述签到用户的偏好话题及所述用户对所述偏好话题的偏好值。
图4为以预设的区域从属关系作为树形节点的层级关系确定的树形索引结构。如图4,Rj为根据预设的区域从属关系确定的最小签到区域,j=all,1,2,3,4,5,6。D_*为所述指针指向的文档,*=0,1,…,14。图4中的t1,t2,t3,t4,t5,t6为表1中所示的签到用户的偏好话题。图4中树形的节点分布依据图2所示的区域从属关系来确定。
给定一个查询条件,目标用户是对查询位置以及查询话题有偏好的用户,设计一个如图4所示的树形索引结构,并利用该树形索引结构,快速得到目标用户以及计算他们对查询的偏好值。
如图4所示,树形索引的结构具体包括:
1、叶子节点O:是由多个实体E组成的,每个实体包含一个三元组<PD,M,TS>,其中PD代表该实体指向文档D的指针,M代表该实体上所有位置组成的最小签到区域Rj,TS代表该实体的话题集合。表3为本发明的最小签到区域R3对应节点指向的文档示例。如表3所示,实体E指向的文档D包含以下四部分:
U:对实体E的M和TS有偏好的用户集合;
TV:签到用户的话题偏好向量;
TN:签到用户所有签到的位置以及总次数;
LN:签到用户在M内签到的次数。
除此之外,叶子节点O还有一个指向文档O.D的指针,该文档O.D是通过合并所有属于叶子节点O的实体的文档构造的。O.D也由上述四部分组成。
表3
2、非叶子节点N:是由多个实体组成的,每个实体包含一个三元祖<PC,M,TS>,其中,PC代表指向孩子节点的指针,M代表该实体其所有孩子节点的最小签到区域,TS代表该实体其所有孩子节点的话题集合的交集。一个非叶子节点也包含一个指针指向文档N.D,该文档是通过合并所有孩子节点的文档构造的。其构造过程和叶子节点的文档的构造过程类似。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种种子用户确定方法,其特征在于,包括:
根据预设的区域从属关系确定A个最小签到区域,其中,所述A为大于等于1的整数;
针对每个所述最小签到区域,获取所述最小签到区域对应的签到用户和所述签到用户的偏好话题;
获取所述最小签到区域的第一影响力列表,所述第一影响力列表包含针对所述偏好话题对应的签到用户的影响用户,以及所述影响用户对所述签到用户的影响力值;
根据查询区域、多个查询话题和所述区域从属关系,获取B个子覆盖区域;每个所述子覆盖区域包含一个最小签到区域,和/或,每个所述子覆盖区域包含D个最小签到区域的部分签到位置;其中,所述最小签到区域对应签到用户的偏好话题,所述偏好话题包含X个所述查询话题;所述最小签到区域的部分签到位置对应签到用户的偏好话题,所述偏好话题包含Y个所述查询话题,所述B为大于等于2的整数,所述D、X、Y分别为大于等于1的整数;
针对每个子覆盖区域,获取所述每个子覆盖区域针对所述查询话题的第二影响力列表,并获取第二影响力列表中针对查询话题的影响力值最大的第二影响力值;
根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值;
获取最大的第二影响力值对应的影响用户在所述查询区域的第三影响力值;
从历史获取的第三影响力值中确定最大第三影响力值,并确定所述最大第三影响力值是否大于或等于所述第一影响力阈值:
若所述最大第三影响力值大于或等于所述第一影响力阈值,则获取所述当前最大第三影响力值对应的影响用户为第一种子用户。
2.根据权利要求1所述的方法,其特征在于,还包括:若所述最大第三影响力值小于所述第一影响力阈值,则对所述第二影响力列表进行第一类更新;
根据进行第一类更新后的第二影响力列表,执行所述获取在第二影响力列表中针对查询话题的影响力值最大的第二影响力值,直到获取到所述第一种子用户。
3.根据权利要求1所述的方法,其特征在于,还包括:在获取所述第一种子用户之后,从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,所述已获取的种子用户包含所述第一种子用户;
根据新的第二影响力列表获取第二影响力列表中针对查询话题的影响力值最大的第四影响力值,
以获取的B个第四影响力值之和为所述查询区域的第二影响力阈值;
获取所述最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,并将所述第五影响力值确定为初始状态;从历史获取的第五影响力值中确定最大第五影响力值,并确定所述最大第五影响力值是否大于等于所述第二影响力阈值,
若所述最大第五影响力值小于所述第二影响力阈值,则执行所述获取最大的第四影响力值对应的影响用户在所述查询区域的第五影响力值,
若所述最大第五影响力值大于等于所述第二影响力阈值,则检测所述最大第五影响力值的状态,
若所述最大第五影响力值为初始状态,则更新所述最大第五影响力值为估计状态,执行所述从历史获取的第五影响力值中确定最大第五影响力值,
若所述最大第五影响力值为估计状态,则更新所述最大第五影响力值为准确状态,执行所述从历史获取的第五影响力值中确定最大第五影响力值,
若所述最大第五影响力值为准确状态,则获取所述最大第五影响力值对应的影响用户为后续种子用户,删除所述历史获取的第五影响力值中所述已获取的种子用户对应的第五影响力值,执行所述从所述第二影响力列表中删除已获取的种子用户获得新的第二影响力列表,直到获取所述后续种子用户的数量满足Qk-1,所述Qk为查询个数。
4.根据权利要求1所述的方法,其特征在于,所述获取所述最小签到区域的第一影响力列表具体包括:
根据获取的针对所述偏好话题的签到用户获取所述影响用户;
根据所述影响用户u对所述签到用户v的影响因子P(u,v)、所述签到用户v对所述最小签到区域的偏好值γ(v,Rj)以及所述签到用户v对所述话题t的偏好值获得所述影响用户u对所述签到用户v的影响力值其中,所述是在最小签到区域Rj中偏好话题t且能被用户u影响的签到用户v的集合。
5.根据权利要求1或4所述的方法,其特征在于,所述针对每个子覆盖区域,获取所述每个子覆盖区域的第二影响力列表具体包括:
若所述子覆盖区域包含一个针对查询话题的最小签到区域,则确定所述第二影响力列表包括:针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值;
若所述子覆盖区域包含D个针对查询话题的最小签到区域的部分签到位置,则确定所述第二影响力列表包括:在所述部分签到位置针对所述查询话题的签到用户的影响用户,以及所述影响用户对所述签到用户针对所述查询话题的影响力值。
6.根据权利要求1所述的方法,其特征在于,所述根据获取的B个第二影响力值确定所述查询区域的第一影响力阈值具体包括:对获取的B个第二影响力值求和获得所述第一影响力阈值。
7.根据权利要求2所述的方法,其特征在于,所述对所述第二影响力列表进行第一类更新具体包括:从所述第二影响力列表中删除当前的所述第二影响力值。
8.根据权利要求3所述的方法,其特征在于,所述更新所述最大第五影响力值为估计状态的同时还包括:
将所述最大第五影响力值更新为其中σST(u,QR)为初始状态下的第五影响力,是影响用户u对签到用户v的影响因子的最小值,是在查询区域中针对查询话题且被影响用户u影响的签到用户v的集合,σST(S,v)是已确定的种子用户集合S对签到用户v在查询区域的影响力值。
9.根据权利要求3所述的方法,其特征在于,所述更新所述最大第五影响力值为准确状态的同时还包括:
将所述最大第五影响力值更新为σST({u∪S},Q)-σST(S,Q),其中所述σST({u∪S},Q)为已确定的种子用户集合S和估计状态的所述最大第五影响力对应的影响用户u在查询区域针对查询话题的影响力值,所述σST(S,Q)为种子用户集合S对查询区域和查询话题的影响力值,Q为包含查询区域QR和查询话题QT的查询条件。
10.根据权利要求1所述的方法,其特征在于,所述根据预设的区域从属关系确定A个最小签到区域包括:
以所述区域从属关系作为树形节点的层级关系确定一树形索引,所述树形节点存储所述最小签到区域、所述最小签到区域对应签到用户的偏好话题和至少一指向文档的指针,所述指针指向的文档包含所述最小签到区域对应的签到用户、所述签到用户的总签到次数、所述签到用户在所述最小签到区域中的签到次数、所述签到用户的偏好话题及所述用户对所述偏好话题的偏好值。
CN201710434504.8A 2017-06-09 2017-06-09 种子用户确定方法 Expired - Fee Related CN107291860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710434504.8A CN107291860B (zh) 2017-06-09 2017-06-09 种子用户确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710434504.8A CN107291860B (zh) 2017-06-09 2017-06-09 种子用户确定方法

Publications (2)

Publication Number Publication Date
CN107291860A true CN107291860A (zh) 2017-10-24
CN107291860B CN107291860B (zh) 2021-01-05

Family

ID=60096265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710434504.8A Expired - Fee Related CN107291860B (zh) 2017-06-09 2017-06-09 种子用户确定方法

Country Status (1)

Country Link
CN (1) CN107291860B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325186A (zh) * 2018-08-11 2019-02-12 桂林理工大学 一种用户偏好特征与地理特征融合的行为动机推断方法
CN110020222A (zh) * 2017-12-12 2019-07-16 腾讯科技(北京)有限公司 标志点确定方法、装置及存储介质
CN112508725A (zh) * 2020-12-04 2021-03-16 首都师范大学 一种基于社区结构的位置感知影响力最大化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611339A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 种子用户筛选方法、产品的用户影响力评价方法及装置
US20170154376A1 (en) * 2010-08-30 2017-06-01 Amazon Technologies, Inc. Method, medium, and system for customizing content based on social network information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154376A1 (en) * 2010-08-30 2017-06-01 Amazon Technologies, Inc. Method, medium, and system for customizing content based on social network information
CN106611339A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 种子用户筛选方法、产品的用户影响力评价方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020222A (zh) * 2017-12-12 2019-07-16 腾讯科技(北京)有限公司 标志点确定方法、装置及存储介质
CN109325186A (zh) * 2018-08-11 2019-02-12 桂林理工大学 一种用户偏好特征与地理特征融合的行为动机推断方法
CN109325186B (zh) * 2018-08-11 2021-08-17 桂林理工大学 一种用户偏好与地理特征融合的行为动机推断算法
CN112508725A (zh) * 2020-12-04 2021-03-16 首都师范大学 一种基于社区结构的位置感知影响力最大化方法
CN112508725B (zh) * 2020-12-04 2023-02-17 首都师范大学 一种基于社区结构的位置感知影响力最大化方法

Also Published As

Publication number Publication date
CN107291860B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
Kumar et al. Identifying influential nodes in Social Networks: Neighborhood Coreness based voting approach
Liu et al. Location-aware and personalized collaborative filtering for web service recommendation
CN103647800B (zh) 推荐应用资源的方法及系统
CN103944932B (zh) 搜索、确定活跃区域的方法与服务器
Wu et al. A novel method for calculating service reputation
CN110462604A (zh) 基于设备使用关联互联网设备的数据处理系统和方法
CN103823888B (zh) 一种基于节点亲密度的社交网站好友推荐方法
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
WO2020258905A1 (zh) 一种信息推送方法和装置
CN109783738A (zh) 一种基于多相似度的双极限学习机混合协同过滤推荐方法
CN107291860A (zh) 种子用户确定方法
KR101858715B1 (ko) 서비스자원 관리시스템 및 그 방법
US20040210468A1 (en) System and method for providing a territory management tool
CN107133268B (zh) 一种用于Web服务推荐的协同过滤方法
Shafik et al. Recommendation system comparative analysis: internet of things aided networks
CN105847403A (zh) 调度方法及系统
CN109299368B (zh) 一种用于环境信息资源ai智能个性化推荐的方法及系统
Zhu Multilevel understanding dynamic changes in inbound tourist flow network (ITFN) structure: topology, collaboration, and competitiveness
Zhong et al. Recommendations for mobile apps based on the hits algorithm combined with association rules
CN108347466A (zh) 一种云存储系统的数据存储方法和装置
Xie et al. Correlation-based top-k recommendation for web services
Huang et al. Collaborative filtering of web service based on mapreduce
CN109460442A (zh) 一种多维数据的统计方法、电子设备及存储介质
CN108268652A (zh) 一种科普知识推荐系统及方法
Joshi et al. A survey paper on clustering-based collaborative filtering approach to generate recommendations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210105

Termination date: 20210609

CF01 Termination of patent right due to non-payment of annual fee